18.04.2014 Views

TERMINOLOGIJA IN SODOBNA TERMINOGRAfIJA - Slovarske in ...

TERMINOLOGIJA IN SODOBNA TERMINOGRAfIJA - Slovarske in ...

TERMINOLOGIJA IN SODOBNA TERMINOGRAfIJA - Slovarske in ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

D. Fišer, Pristopi za avtomatizirano gradnjo semantičnih zbirk<br />

sloWNet SWN PWN<br />

BCS1<br />

samostalniki 965 965 964 5<br />

glagoli 254 254 254<br />

pridevniki 0 0 0<br />

prislovi 0 0 0<br />

skupaj 1.219 1.219 1.218<br />

BCS2<br />

samostalniki 2.245 2.245 2.246<br />

glagoli 1.188 1.188 1.188<br />

pridevniki 36 36 37<br />

prislovi 0 0 0<br />

skupaj 3.469 3.469 3.471<br />

BCS3<br />

samostalniki 94 1.187 2.686<br />

glagoli 59 173 876<br />

pridevniki 0 135 265<br />

prislovi 0 0 0<br />

skupaj 153 1.495 3.827<br />

vsi skupaj 4.841 6.183 8.516<br />

Tabela 1: Primerjava s<strong>in</strong>setov po besednih vrstah v slovenskem, srbskem <strong>in</strong> angleškem wordnetu<br />

364<br />

B) Korpusni pristop 5<br />

Ker sem nabor s<strong>in</strong>setov, pridobljenih s slovarskim pristopom, želela razširiti, drugih (dovolj<br />

obsežnih) slovarskih virov pa nisem imela na voljo, sem se semantične <strong>in</strong>formacije, ki<br />

jih za gradnjo slovenskega wordneta potrebujem, odločila pridobiti iz vzporednih korpusov.<br />

Pri tem pristopu sem izhajala iz predpostavke, da je z večjezičnim korpusom večpomenskim<br />

iztočnicam mogoče določiti različne pomene, saj imajo posamezni pomeni večpomenskih<br />

besed v izvornem jeziku različne prevode v ciljnem jeziku. Poleg tega sem predpostavljala,<br />

da je avtomatsko mogoče pridobiti tudi s<strong>in</strong>onime, <strong>in</strong> sicer z identifikacijo različnih iztočnic,<br />

ki se v ciljni jezik prevajajo z isto ustreznico.<br />

Pri korpusnem pristopu sem uporabila vzporedni korpus SEE-ERA.NET (Tufis idr.<br />

2008), podkorpus korpusa JRC-Acquis, ki vsebuje evropsko zakonodajo. Korpus SEE-<br />

ERA.NET vsebuje nekaj manj kot 1,5 milijona besed v osmih jezikih, od katerih sem za<br />

gradnjo slovenskega wordneta uporabila anglešč<strong>in</strong>o, bolgaršč<strong>in</strong>o, češč<strong>in</strong>o, romunšč<strong>in</strong>o<br />

<strong>in</strong> slovenšč<strong>in</strong>o. Predprocesiranje korpusa je bil precejšen zalogaj, saj je korpus zgolj poravnan<br />

na ravni stavkov, sama pa sem morala poskrbeti za tokenizacijo, oblikoskladenjsko<br />

označevanje <strong>in</strong> lematizacijo ter poravnavo na ravni besed, pri čemer sem za izhodiščna jezika<br />

uporabila češč<strong>in</strong>o <strong>in</strong> anglešč<strong>in</strong>o.<br />

Na podlagi poravnanega korpusa sem izluščila ustvarila dvojezične <strong>in</strong> večjezične lek-<br />

5<br />

Manjkajoči s<strong>in</strong>set ENG20-12509740 v PWN sicer obstaja, vendar mu manjka oznaka BCS1. V srbskem <strong>in</strong><br />

slovenskem wordnetu pa manjkata dva s<strong>in</strong>seta iz skup<strong>in</strong>e BCS2, <strong>in</strong> sicer ENG20-00467580-n ter ENG20-<br />

01597253-a. Samostalniški s<strong>in</strong>set {Go Fish} je igra s kartami, pridevniški {little:4, small:4} pa opisuje še<br />

nedoraslo osebo ali predmet. Zaradi želje po popolnem ujemanju s PWN sem manjkajoča s<strong>in</strong>seta ročno<br />

dodala v slovenski wordnet.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!