Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

eleˇzenje uporabniˇskih aktivnosti pridobimo informacije o uporabniˇskih aktivnostih kot so ˇstevilo ogledov, ˇstevilo prenosov in ocene gradiv. Modul obdelave dokumentov zagotavlja poenoteno predstavitev vseh dokumentov v obliki naslova, ključnih besed in povzetka. Hkrati se v tem modulu izvaja izračun ocen BM25, ki tvori indeks dokumentov. Slednjega lahko predstavimo kot matriko podobnosti vseh dokumentov. Streˇznik izvaja obdelavo dokumentov periodično, saj se v zbirko dokumentov dodajajo novi dokumenti. Na tak način posodabljamo indeks dokumentov. Podatki o uporabnikih in izračunane podobnosti med dokumenti so vhod v modul razvrˇsčanja dokumentov, kjer izberemo podobne dokumente glede na dokument, ki si ga uporabnik trenutno ogleduje. Slika 1: Struktura sistema priporočanja dokumentov. 2.1. Obdelava besedila Vhodne dokumente smo predstavili z naslovi, ključnimi besedami in povzetki. Iz besedila vhodnih dokumentov smo najprej odstranili pogoste besede, ki ne vsebujejo informacije o njegovem pomenu. To so slovnične besedne zveze med katere spadajo vezniki, predlogi, členki in medmeti. Seznam pogostih besed smo tvorili sami s ˇstetjem besed v dokumentih, ki so trenutno v DKUM. Nadalje smo uporabljali dve vrsti obdelave - lematizacijo in avtomatsko pridobivanje ključnih besed s pomenskim označevanjem. Tako lematizator kot tudi pomenski označevalnik sta plod dela naˇse razvojne skupine in ju uporabljamo po principu črne ˇskatle. 2.1.1. Lematizacija Lematizacija (angl. lemmatisation) ali geslenje je postopek določanja osnovne slovarske oblike (leme) besedam v besedilu (Brezovnik, 2009). Lematizaciji zelo podoben postopek je krnjenje. Glavna razlika med lematizacijo in krnjenjem je v tem, da krnjenje besede ne pretvori v slovar- sko obliko, ampak preprosto odreˇze končnico besede tako, da ostane le krn. Pri besedilnem rudarjenju se lematizacija lahko uporablja pri odkrivanju kontekstov besedil. Tako si z lematizacijo olajˇsamo delo, saj sklepamo, da bo lema obdrˇzala pomen besede. 2.1.2. Avtomatsko pridobivanje ključnih besed s pomenskim označevanjem Za opis tematike dokumenta ponavadi vzamemo ključne besede, podane s strani avtorja ali knjiˇzničarja. S slednjimi lahko uvrstimo dokument v ustrezne kategorije. Nekatere ključne besede pa niso vedno primerne, saj so preveč sploˇsne ali pa preveč specifične. V tem primeru poznamo reˇsitev v obliki avtomatskega pridobivanja ključnih besed. Postopek deluje tako, da kot vhod podamo celoten dokument ali pa le en odsek, na izhodu pa dobimo besede, ki opisujejo tematiko vhodnega besedila. Uporabili smo postopek, ki uporablja pomensko označevanje s pomočjo Wikipedije (Burjek, 2011). Pridobivanje ključnih besed poteka v naslednjih korakih: I. Z algoritmom za iskanje besed najdi primerne besede za pomensko označevanje. II. Razvrsti besede glede na podatek o temah, na katere je posamezna beseda kazala v Wikipediji. III. S pomočjo algoritma za izračun sorodnosti, razločevalnika in klasifikatorja naučenega z algoritmom C4.5, izračunaj sploˇsnosti besed. IV. Za vsako besedo izračunaj vrednost za verjetnost, da bi bila beseda povezava na temo, če bi se pojavila v Wikipediji. V. Vrni seznam besed, urejenih po verjetnostih izračunanih v koraku IV. Tabela 1: Primer rezultata pridobivanja ključnih besed s pomenskim označevanjem. Vhod V diplomskem delu obravnavamo problematiko pisanja tehničnih vsebin in objavljanj le-teh na spletu. V teoretičnem delu predstavimo slovnico označevalnih jezikov LaTeX in MathML. V praktičnem delu smo izdelali spletni urejevalnik WYSIWYG, ki omogoča vnos matematičnih in kemijskih formul, zapisanih v označevalnem jeziku MathML. Izhod MathML, WYSIWYG, LaTeX, Jezik, Slovnica, Splet, Tehnika V koraku I pred izbiranjem primernih besed za pomensko označevanje uporabimo parameter pmin, ki predstavlja minimalno zahtevano verjetnost, da je beseda označena kot povezava v Wikipediji. Ta parameter lahko nastavljamo 29
poljubno, avtor pa svetuje vrednost 0.85, kar pomeni 85% verjetnost, da gre za povezavo v Wikipediji. Verjetnosti se izračunajo z enačbo 1, kjer nl(w) pomeni ˇstevilo pojavitev kot beseda,nW(w) pa ˇstevilo vseh pojavitev v Wikipediji. pl(w) = nl(w) (1) nW(w) Po koraku I so znane besede, ki so se pojavile v besedilu, ne pa tudi njihov pomen. Zato v koraku II ugotavljamo pomen besed na podlagi tematik, v katerih so se pojavile. Besede lahko imajo več pomenov, zato je treba ugotoviti katere so enopomenske in katere večpomenske. To storimo tako, da ovrednotimo povezavo med besedami in tematikami glede na pogostost uporabe. Tukaj igrajo glavno vlogo verjetnosti, da so besede povezave v Wikipediji. V kolikor je verjetnost besede večja od minimalne zahtevane verjetnosti, jo smatramo kot enopomensko in tako določimo pomen besede. V koraku III s pomočjo razločevalnika izračunamo verjetnosti miˇsljenih pomenov pri ostalih besedah. Razločevalnik izračuna verjetnost s pomočjo sploˇsnosti angl. commonness, sorodnosti in podatkov s konteksta. Pri kontekstu se upoˇsteva kvaliteta konteksta; če so enopomenske besede v istem dokumentu sorodne, je pri določanju pomena večpomenskih besed bolj pomembna sorodnost, v primeru slabe sorodnosti pa je bolj pomembna sploˇsnost. Sploˇsnost je dana z enačbo 2 in predstavlja inverz verjetnosti, da je beseda povezava v Wikipediji. c(w) = nW(w) (2) nl(w) Sledi ˇse korak IV, kjer se za vsako besedo izračuna vrednost za verjetnost, da bi bila beseda povezava na temo, če bi se pojavila v Wikipediji. Izračun poteka s pomočjo algoritma C4.5, ki tvori odločitveno drevo s katerim klasificiramo primerne besede. Uporabljen pomenski označevalnik je zasnovan na odprtokodni reˇsitvi Wikipedia Miner, kjer se prav tako uporablja algoritem C4.5, zanimivo pa bi bilo preizkusiti tudi kakˇsen drug algoritem za gradnjo odločitvenih dreves. Vhod v ta algoritem so torej pojavitve besed, izhod razločevalnika (verjetnost, da je pomen pravilen), sorodnost z ostalimi tematikami, verjetnost povezave, globina tematike v hierarhiji in pozicija besede v besedilu (pojavitev na enem mestu ali razprˇsena pojavitev). Vse verjetnosti za besede, ki so manjˇse od pmin, se odstranijo iz seznama. S korakom V se seznam preostalih besed uredi po verjetnostih. 2.2. Razvrˇsčanje zadetkov Za razvrˇsčanje zadetkov smo uporabili metodo razvrˇsčanja BM25 skupaj z dodatnimi uteˇzmi, ki so pridobljene z metapodatki dokumentov in opazovanjem aktivnosti uporabnikov. 2.2.1. BM25 BM25 (Best Match 25) je metoda razvrˇsčanja, ki omogoča razvrˇsčanje dokumentov po podobnosti na podlagi besed, ki se pojavljajo v dokumentih. BM25 v bistvu ni samo ena funkcija, temveč druˇzina več funkcij, ki se razlikujejo po uteˇznih shemah in vrednostih parametrov pomembnosti za uteˇzi. Največkrat se uporabljata uteˇzi tf in idf. Uteˇz tf (angl. term frequency) predstavlja frekvenco določene besede v dokumentu, uteˇz idf (angl. inverse document frequency) pa pomembnost besede glede na celotno zbirko dokumentov. tf(t,d) = ||n : t ∈ d|| (3) n(t) = ||d ∈ D : t ∈ d|| (4) idf(t) = log ||D||−n(t)+0.5 n(t)+0.5 ||D|| v enačbi 5 predstavlja kardinalnost (velikost) zbirke D, n(t) dan z enačbo 4 pa ˇstevilo dokumentov, ki vsebujejo besedo t. Ocena BM25 (s(d,q)) je odvisna od uteˇzi tf in idf ter parametrov k1 in b. Sploˇsna enačba izračuna ocene BM25 za dokument d glede na zahtevo q z besedamiqi je podana z enačbo 6. ||q|| s(d,q) = idf(qi)· tf(qi,d)·(k1 +1) tf(qi,d)+k1 ·B , qi ∈ q (6) i=1 2.2.2. Parametrak1 inb Ključno vlogo imata parametra k1 in b, ki uravnavata teˇzo uteˇzi tf in teˇzo dolˇzine dokumentov v končnem izračunu. Dolˇzina dokumentov se meri s ˇstevilom besed. Parametra sta bila utemeljena zaradi dveh predpostavk o značilnostih, ki se pojavljajo pri pisanju dokumentov. Predpostavka o ˇsirini vsebine dokumenta (angl. verbosity hypothesis) govori o tem, da je lahko dokument daljˇsi zaradi uporabe nepomembnih ali redundantnih besed, medtem ko predpostavka o obsegu dokumenta (angl. scope hypothesis) govori o daljˇsih dokumentih zaradi dejanske koristne vsebine. V praksi gre za kombinacijo teh dveh predpostavk, zato potrebujemo ustrezno normalizacijo. Dolˇzino vsakega dokumenta lahko normaliziramo s povprečno dolˇzino dokumentov (enačba 8). Nadalje lahko to normalizacijo reguliramo s parametrombkot kaˇze enačba 9. ||d|| = (5) n tf(ti,d), ti ∈ d (7) i=1 A = ||D|| j ||dj|| ||D|| B = 1−b+b· ||dj|| (9) A Parameter k1 uravnava pomembnost uteˇzi tf, parameter b pa pomembnost dolˇzine dokumentov. Vrednosti parametrov k1 in b lahko dobimo z optimizacijskimi postopki, navadno pa se uporabijo vrednostik1 ∈ [1.2,2.0] inb = 0.75. 2.2.3. Dodatne uteˇzi Vsak dokument je ob vsebini predstavljen tudi z metapodatki. Ti vsebujejo podatke o organizaciji, mentorju, ˇstudijskem programu, letu izida, primarnem jeziku ipd. Skupaj s temi podatki smo uporabili tudi uporabniˇske aktivnosti, ki se odraˇzajo v ˇstevilu ogledov, ˇstevilu prenosov in 30 (8)
Page 2 and 3: Zbornik 15. mednarodne multikonfere
Page 4 and 5: PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7: KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9: KAZALO / TABLE OF CONTENTS Jezikovn
Page 10: Zbornik 15. mednarodne multikonfere
Page 13 and 14: RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16: language similarity as a feature of
Page 17 and 18: ually annotating 345 sentences and
Page 19 and 20: Disambiguating vectors for bilingua
Page 21 and 22: Language POS Source word Slovene se
Page 23 and 24: 4. Evaluation and discussion of the
Page 25 and 26: , Iztok Kosem**, Berginc*** * Troj
Page 27 and 28: vseh besed, se pravi, da bi ta
Page 29 and 30: 3. Spletni vmesnik za dostop do kor
Page 31 and 32: SPOOK.Sem: semantično označevanje
Page 33 and 34: uporabili samo za angleški del kor
Page 35 and 36: Vsekakor pa nas je pri označevanju
Page 37: Sistem vsebinskega priporočanja do
Page 41 and 42: Tabela 5: Filtriranje z dinamično
Page 43 and 44: Luka *, * Artificial Intelligence
Page 45 and 46: 4. Technical approaches and algorit
Page 47 and 48: Tehnologije govorjenega jezika v pa
Page 49 and 50: zma. Možno jih je namre uporabiti
Page 51 and 52: Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54: 3.1.4. fazah: v prvi fazi s
Page 55 and 56: (del, dol, vez, skup) in pri poveza
Page 57 and 58: ˇSirjenje slovarja in dvoprehodni
Page 59 and 60: Uporabili smo orodje s katerim smo
Page 61 and 62: zbirka besedil, korpus, slovar Toma
Page 63 and 64: -8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66: 6. Dostopnost virov dejanska možn
Page 67 and 68: prinašajo 185 milijonov besed oz.
Page 69 and 70: Ugotovimo lahko, da po številu pol
Page 71 and 72: predlog, zadeva, podatek, podlaga,
Page 73 and 74: Their main differences between them
Page 75 and 76: The corpus was PoS-tagged and lemma
Page 77 and 78: 5. Conclusions In this paper we pre
Page 79 and 80: 2000) is an English computer tutor
Page 81 and 82: Table 5: Classifier performance wit
Page 83 and 84: forms of Croatian proper names, but
Page 85 and 86: on the output of the first CRF. We
Page 87 and 88: Table 4: CroNER performance dependi
Page 89 and 90:
Table 1: Description of the picture
Page 91 and 92:
syntactic movement out of the objec
Page 93 and 94:
and other agreement markers are use
Page 95 and 96:
Figure 2. A FST representing a simp
Page 97 and 98:
encoded text representation as seen
Page 99 and 100:
Izhodišče segmentacijsko-tokeniza
Page 101 and 102:
3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104:
azreševanje stavčne ali celo meds
Page 105:
težavnosti; pri oceni berljivosti
Page 110 and 111:
Kako dobro programi popravljajo vej
Page 112 and 113:
okviru projekta ESS Uspešno vklju
Page 114 and 115:
Besana opozarja na manjkajoče veji
Page 116 and 117:
Umetno tvorjenje slovenskega govora
Page 118 and 119:
Tabela 1: Analiza čistopisa zbirke
Page 120 and 121:
Distributional Semantics Approach t
Page 122 and 123:
3.2.1. Random indexing Random index
Page 124 and 125:
Table 2: Accuracy for all considere
Page 126 and 127:
Avtomatsko luščenje leksikalnih p
Page 128 and 129:
3.1. Metodologija in zaporedje post
Page 130 and 131:
začetku povedi in upoštevanje t.
Page 132 and 133:
Izdelava XML-shem za slovarske proj
Page 134 and 135:
standardi še niso bili vzpostavlje
Page 136 and 137:
nepričakovan zapis ali napačen za
Page 138 and 139:
Building Named Entity Recognition M
Page 140 and 141:
corpus token transfer type transfer
Page 142 and 143:
morphological information, for Slov
Page 144 and 145:
Luščenje terminoloških kandidato
Page 146 and 147:
3.1. Enobesedni terminološki kandi
Page 148 and 149:
Rezultati priklica so dobri. Od 109
Page 150 and 151:
Event and Temporal Relation Extract
Page 152 and 153:
Table 1: Event annotation summary E
Page 154 and 155:
Table 3: Event extraction performan
Page 156 and 157:
Korpusna analiza slovenskega delež
Page 158 and 159:
Vrsta besedila Izbrana področja (i
Page 160 and 161:
primerih (11) in (12), ne pa za del
Page 162 and 163:
Identifying Fear Related Content in
Page 164 and 165:
not present” by 23 annotators. Th
Page 166 and 167:
A Web Service Implementation of Lin
Page 168 and 169:
equired to install the specific sof
Page 170 and 171:
In both figures the same workflow i
Page 172 and 173:
Termania - prosto dostopni spletni
Page 174 and 175:
informacije so poleg same vsebine g
Page 176 and 177:
Izdelava slovensko-srbskega vzpored
Page 178 and 179:
dovoljeno odstopanje do 1 sekunde.
Page 180 and 181:
Poleg navedenih težav so se pojavl
Page 182 and 183:
Topic ontology construction from En
Page 184 and 185:
Fig. 2: English topic ontology afte
Page 186 and 187:
4. Topic ontologies constructed fro
Page 188 and 189:
Translating news to CycL using the
Page 190 and 191:
and the Cyc concept, which correspo
Page 192 and 193:
without parsing. One type of such s
Page 194 and 195:
Guessing the Correct Inflectional P
Page 196 and 197:
noted that the distribution of LPPs
Page 198 and 199:
Table 1: Feature selection analysis
Page 200 and 201:
Razpoznavanje imenskih entitet v sl
Page 202 and 203:
N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205:
F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207:
sloWCrowd: orodje za popravljanje w
Page 208 and 209:
2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211:
uporabnikov z večanjem stopnje zan
Page 212 and 213:
Korpus slovenskega znakovnega jezik
Page 214 and 215:
Posnetki se v anonimizirani obliki
Page 216 and 217:
ZEN: zasnova glasovnih e-storitev v
Page 218 and 219:
Rešitev je bila izvedena na podlag
Page 220 and 221:
predpisane aktivnosti v poteku zdra
Page 222 and 223:
Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?