17.06.2013 Views

Proceedings - Natural Language Server - IJS

Proceedings - Natural Language Server - IJS

Proceedings - Natural Language Server - IJS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Vmp, ki pomeni Verb Type = main, Aspect = ,<br />

ki je ekvivalentna slovenski oznaki Ggn oz. =<br />

, = .<br />

Razlog za uvedbo poenostavljenega nabora oznak je<br />

predvsem v tem, da je bil poudarek pri ro<br />

<br />

– zato<br />

<br />

<br />

e kombinacije pridevnikov z<br />

neko besedo, po drugi strani pa jih lahko uporabimo za<br />

<br />

<br />

5. Slovar IMP<br />

<br />

. Slovar je bil av <br />

goo300k, poleg tega pa so mu bile dodane tiste besedne<br />

oblike iz zbirke besedil IMP, ki se ne pojavljajo v<br />

goo300k, v zbirki besedil pa vsaj dvakrat. Tudi tem<br />

besednim oblikam smo oznake najprej pripisali<br />

avtomatsko, nato pa ro v CoBaLTu, ravno<br />

tako pa je bil naknadno pregledan še celoten slovar. Iz<br />

takšnega postopka izdelave seveda sledi, da slovar vsebuje<br />

<br />

Celoten slovar vsebuje preko 25.000 lem, 50.000<br />

besednih in 70.000 zgodovinskih besednih oblik, vendar<br />

to zajema vse pregledane besedne pojavnice iz korpusa oz.<br />

<br />

zatipkane besede in besedne oblike, ki so enake sodobnim.<br />

število lem<br />

<br />

<br />

<br />

Slovar, kot vsak dokument TEI, vsebuje najprej<br />

Kot je ilustrirano na<br />

sliki 3, vsebuje vsak <br />

besedne oblike. Zaglavje je sestavljeno iz geselske<br />

oz.<br />

lastnosti in, za zastarele besede, sodobne ustreznice kot<br />

tudi vira, na osnovi katerega so bile te ustreznice<br />

<br />

njegovo zaglavje: enake leme se kot homonimi pojavljajo<br />

<br />

oblikoskladenjsko oznako ali sodobne ustreznice.<br />

Zaglavju sledi seznam vseh sodobnih besednih oblik,<br />

vsaka od teh pa ima .<br />

<br />

uporabe iz korpusa, ki so jim pripisani bibliografski<br />

podatkiprimerov za<br />

vsako zgodovinsko obliko, saj bi bilo vseh, posebej za<br />

.<br />

Tako kot zbirka besedil je tudi slovar dostopen na<br />

spletu <br />

slovarja do tistega, ki vsebuje samo zastarele besede.<br />

<br />

strani v HTML, ki so med sabo povezane preko kazala po<br />

<br />

v SSKJ in Pleteršnikov slovar na ZRC SAZU, v<br />

o knjižnico.<br />

-<br />

<br />

anati<br />

<br />

Ggn<br />

<br />

<br />

<br />

<br />

<br />

anaj<br />

<br />

anej<br />

<br />

-<br />

<br />

Slika 3. Zapis slovarja.<br />

Geslo (entry) vsebuje podatke o lemi (form/@type="lemma") in njenih posodobljenih besednih oblikah<br />

(form/@type="wordform"), ti pa vsebujejo vse atestirane besedne oblike (form/@type="historical") skupaj s primeri uporabe.<br />

55

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!