Proceedings - Natural Language Server - IJS

More documents

Recommendations

Info

je program uporabil izbran seznam identifikatorjev odstavkov in te odstavke nato vzel iz Gigafide – ostale podatke o besedilu, predvsem metapodatke, pa prepisal ter priredil korpusa in ima manjši obseg kot izvirnik. izveden tudi za korpusa ccGigafida in ccKRES, a s to i izdelani avtomatsko: v tabeli za ccGigafido je vsaki vrstici ustrezala natanko ena datoteka Gigafide, število zahtevanih besed zanjo pa je bilo nastavljeno na 9 % celotnega števila besed v datoteki, enako pa tudi za ccKRES, samo da je bil tu izvorni korpus KRES, in ne Gigafida. 4. Dostopnost Tako Gigafida kot KRES sta prosto dostopna prek celote kot podatkovne baze izvedbo kvantitativnih raziskav, ki so omejene samo z domišljijo in znanjem programskih orodij. Prenos celotnega korpusa njegovo uporabo tudi za razvoj jezikovnih tehnologij, kot npr. razvoj modelov oblikoskladenjskega Ali kot je obširneje opisano v Erjavec (2010): šele odprtost jezikovnih virov za prenos takšnega dostopa pa bi pravzaprav morala biti moralna zaveza izdelovalcev vseh jezikovnih virov, ki so nastali s nadaljnje razširjanje celotnih besedil, , dovoljuje posameznega besedila – Imetnik pravic dovoli, da se do 10 % dela uporabi n prenaša pravico reprodukcije, distribucije, dajanja v najem, pogod "nekomercialno" + "deljenje pod istimi pogoji". Ta licenca dovoli uporabnikom avtorsko delo in njegove predelave reproducirati, distribuirati, da predelovati samo pod pogojem, da navedejo avtorja, da ne gre za komercialno uporabo in da tudi oni naprej širijo izvirna dela/predelave pod istimi pogoji. Zaradi navedenega smo iz Gigafide in KRES-a ki zadostujeta kriteriju "do 10 %", kot je bilo že pojasnjeno na 9 %. Korpusa ccGigafida in ccKRES sta odprta za prenos pod licenco Creative Commons Priznanje avtorstva- Nekomercialno. Licenca, na kratko o CC BY- predelava korpusa pod pogojem, da se prizna avtorstvo korpusa oz. besedil in da se ga ne uporablja v komercialne namene. Priznanje avtorstva pomeni, da je pri uporabi korpusa treba navesti ime korpusa, za posamezne iztržke navesti tudi izvirnega avtorja oz. besedilodajalca, v strokovnih in znanstvenih publikacijah pa citirati ustrezno bibliografijo, ki ta korpus opisuje, enako, kot je to že sicer navada pri citiranju raziskav. 59 poglobljeno raziskujejo slovenski jezik tako z tehnološkega vidika. Pri slednjem je najbolj pomembna seznami besed in lem, besednih zvez in terminov ter R L S D I 1. v in biti in ta ta 2. leto se se z in da 3. ob z on ali pa 4. slovenski on jaz on se biti 5. lahko da v za ne 6. odstotek ali in se ali se 7. tekma svoj ne ki da zakon 8. tolar ti lahko biti o 9. za pri ko ta zakon jaz 10. mesto ki kaj pri ne 11. nov slika ti ki 12. ura ne ta str. o za 13. milijon jaz vedeti drug v ti 14. predsednik zelo moj kot kaj 15. videti kateri z imeti ccGigafide. 5. Primerjava taksonomskih kategorij ccGigafide Kot je razvidno iz Tabele 1, so besedila v Gigafidi razdeljena v šest taksonomskih kategorij: leposlovje (L), stvarna besedila (S), 10 , revije (R), drugo (D) in internet (I). V tem razdelku obravnavamo posamezne kategorije v Gigafidi z dveh vidikov: a) Za vsako kategorijo najprej podamo eno ali dve tabeli, ki vsebujeta število besed za posamezno kategorijo, in praviloma deset založb, avtorjev ali naslovov, ki v ta del korpusa prispevajo b) Drugi vidik predstavitve zajema prikaz najbolj e leksike za posamezno kategorijo. Tu smo uporabili metodo (angl. frequency profiling), ki sta jo vpeljala Rayson in Garside (2000), in z njo poiskali leme, ki vsako posamezno kategorijo od preostalega dela Gigafide uporabili kar ccGigafido, saj to na rezultate ne vpliva, je pa zato obdelava bistveno hitrejša. ajprej izdelali vsakega od podkorpusov ter preostalega dela ccGigafide, nato pa za vsako lemo loglikelihood, LL). LL upošteva frekvenci elementa, kot tudi velikosti obeh korpusov, ki jih primerjamo, , kot V Tabeli 2 taksonomskih kategorij. 10 Da ne bi bilo poimenovanje stvarna besedila poudarimo, da smo to kategorijo pripisali le knjigam, v celoti gledano pa »stvarno« oz. nefikcijsko vsebino seveda vsebujejo tudi razlogih za tovrstno poimenovanje gl. v Logar Berginc in Šuster, 2009: 63).
Ugotovimo lahko, da po številu polnopomenskih besed i, saj je pri njih med prvimi 15 lemami polnopomenskih besed kar 12, medtem ko pri ostalih kategorijah prevladujemo zaimki, ne. Pri slednjih tudi sicer razlike niso velike, saj se vsaj v štirih taksonomskih kategorijah že v tem delu lestvice pojavijo in, se, ne in , po drugi strani pa se svoj pojavlja samo pri revijah, ko in moj samo pri leposlovju, drug, kot in kateri samo pri stvarnih besedilih ter pa samo pri internetu. Od 16. mesta naprej pa tudi v ostalih kategorijah prevladujejo polnopomenske besede. Pri analizi leksike v naslednjih razdelkih smo se omejili na samostalnike, glagole in pridevnike do 100. mesta. 5.1. Leposlovje Kot kaže Tabela 3, je od založb v leposlovju po številu besed najbolj zastopana Mladinska knjiga, saj v tem delu korpusa besed. Tabela 4 kaže po obsegu najbolj zastopane leposlovne avtorje. tu nima pripisanega avtorja, med prvimi devetimi imeni pa je le en avtor i, vsi drugi so v korpusu zastopani s prevodi (gre za visoko brane avtorje trivialnih del z izjemo romana Paradiso J. Lezame Lime). Založba Število besed VSE 23.969.196 Mladinska knjiga 8.310.664 DZS 3.689.486 Karantanija 2.287.703 Študentska založba 1.945.974 Didakta 1.556.171 Delo Revije 818.131 Litera 672.474 Tuma 594.222 Mohorjeva družba 361.093 Genija 258.474 ami v kategoriji leposlovje. Avtor Število besed VSE 23.969.196 neznani avtor 5.008.529 Barbara Cartland 818.131 Joachim Friedrich 391.131 José Lezama Lima 382.056 Danielle Steel 368.872 Dan Brown 358.990 Mary Higgins Clark 317.543 Maeve Binchy 297.992 John Grisham 297.591 Edo Rodošek 278.754 ami v kategoriji leposlovje. Leksikalna analiza nam je pokazala, da je kategorija leposlovje izrazito glagolska, saj je do 100. mesta na seznamu glagolov, in sicer predvsem glagolov mišljenja in zaznavanja (, govoriti, vprašati, povedati, 60 vedeti, misliti, pomisliti, zdeti se, slišati, videti, gledati, pogledati) ter premikanja (iti, priti, oditi, vrniti, stopiti, obrniti). Samostalnikov je manj in poimenujejo (del) roka, , glava, obraz, pogled, glas, , mama, gospod; soba, hiša; izstopata še miza in trenutek. Pridevnika ni nobenega. 5.2. Stvarna besedila celoti imamo tu 1.082 (znanih) naslovov. Tabela 6 kaže, da desetini stvarnih besedil naslova nismo uspeli Založba Število besed VSE 50.387.335 DZS 14.078.488 Mladinska knjiga 6.152.240 Krtina 2.321.758 Desk 2.066.592 GV Založba 1.744.891 Zavod RS za šolstvo 1.691.456 Založba /*cf. 1.599.493 Tehniška založba Slovenije 1.275.446 Fakulteta za socialno delo UL 1.188.566 1.119.858 Tabela 5ami v kategoriji knjižnih stvarnih besedil. Naslov Število besed VSE 50.387.335 neznani naslov 5.506.017 Sociologija 355.008 e tujih jezikov na Slovenskem 345.003 Vojna zgodovina 283.566 251.809 Evropsko kmetijsko pravo 250.598 Kog: krajepis in zgodovinopis 223.474 Družinska enciklopedija zdravil 222.442 Annales 219.417 Slovensko domobranstvo 217.884 215.055 ami v kategoriji knjižnih stvarnih besedil. Z leksikalna analizo smo ugotovili, da je v stvarnih besedilih ki jih po (prvotnem) pomenu lahko povežemo z izobraževanjem (, znanje, , ), strokovnimi besedili (stran, slika, primer, naloga, poglavje) in okno, vnos, sistem, datoteka), ter abstraktnejših, na predmeta ali proces vezanih izrazov (oblika, vrsta, , proces, uporaba, stopnja), pa tudi zelo raznorodna poimenovanja tipa življenje, , oseba, otrok, skupina, bog, telo, rastlina, odnos, razvoj, in potreba. Med šestimi pridevniki izstopata družben in socialen, glagolov je samo pet (uporabljati, uporabiti, morati, postati, gledati).
Page 2 and 3:
Zbornik 15. mednarodne multikonfere
Page 4 and 5:
PREDGOVOR MULTIKONFERENCI INFORMACI
Page 6 and 7:
KONFERENČNI ODBORI CONFERENCE COMM
Page 8 and 9:
KAZALO / TABLE OF CONTENTS Jezikovn
Page 10:
Zbornik 15. mednarodne multikonfere
Page 13 and 14:
RECENZENTI • doc. dr. Simon Dobri
Page 15 and 16:
language similarity as a feature of
Page 17 and 18: ually annotating 345 sentences and
Page 19 and 20: Disambiguating vectors for bilingua
Page 21 and 22: Language POS Source word Slovene se
Page 23 and 24: 4. Evaluation and discussion of the
Page 25 and 26: , Iztok Kosem**, Berginc*** * Troj
Page 27 and 28: vseh besed, se pravi, da bi ta
Page 29 and 30: 3. Spletni vmesnik za dostop do kor
Page 31 and 32: SPOOK.Sem: semantično označevanje
Page 33 and 34: uporabili samo za angleški del kor
Page 35 and 36: Vsekakor pa nas je pri označevanju
Page 37 and 38: Sistem vsebinskega priporočanja do
Page 39 and 40: poljubno, avtor pa svetuje vrednost
Page 41 and 42: Tabela 5: Filtriranje z dinamično
Page 43 and 44: Luka *, * Artificial Intelligence
Page 45 and 46: 4. Technical approaches and algorit
Page 47 and 48: Tehnologije govorjenega jezika v pa
Page 49 and 50: zma. Možno jih je namre uporabiti
Page 51 and 52: Kaja Dobrovoljc, 1 Simon Krek, 2 Ja
Page 53 and 54: 3.1.4. fazah: v prvi fazi s
Page 55 and 56: (del, dol, vez, skup) in pri poveza
Page 57 and 58: ˇSirjenje slovarja in dvoprehodni
Page 59 and 60: Uporabili smo orodje s katerim smo
Page 61 and 62: zbirka besedil, korpus, slovar Toma
Page 63 and 64: -8"?> -c.org/ns/1.0" type="pb" xml:
Page 65 and 66: 6. Dostopnost virov dejanska možn
Page 67: prinašajo 185 milijonov besed oz.
Page 71 and 72: predlog, zadeva, podatek, podlaga,
Page 73 and 74: Their main differences between them
Page 75 and 76: The corpus was PoS-tagged and lemma
Page 77 and 78: 5. Conclusions In this paper we pre
Page 79 and 80: 2000) is an English computer tutor
Page 81 and 82: Table 5: Classifier performance wit
Page 83 and 84: forms of Croatian proper names, but
Page 85 and 86: on the output of the first CRF. We
Page 87 and 88: Table 4: CroNER performance dependi
Page 89 and 90: Table 1: Description of the picture
Page 91 and 92: syntactic movement out of the objec
Page 93 and 94: and other agreement markers are use
Page 95 and 96: Figure 2. A FST representing a simp
Page 97 and 98: encoded text representation as seen
Page 99 and 100: Izhodišče segmentacijsko-tokeniza
Page 101 and 102: 3. Učni korpus ssj500k 4 Učni kor
Page 103 and 104: azreševanje stavčne ali celo meds
Page 105: težavnosti; pri oceni berljivosti
Page 110 and 111: Kako dobro programi popravljajo vej
Page 112 and 113: okviru projekta ESS Uspešno vklju
Page 114 and 115: Besana opozarja na manjkajoče veji
Page 116 and 117: Umetno tvorjenje slovenskega govora
Page 118 and 119:
Tabela 1: Analiza čistopisa zbirke
Page 120 and 121:
Distributional Semantics Approach t
Page 122 and 123:
3.2.1. Random indexing Random index
Page 124 and 125:
Table 2: Accuracy for all considere
Page 126 and 127:
Avtomatsko luščenje leksikalnih p
Page 128 and 129:
3.1. Metodologija in zaporedje post
Page 130 and 131:
začetku povedi in upoštevanje t.
Page 132 and 133:
Izdelava XML-shem za slovarske proj
Page 134 and 135:
standardi še niso bili vzpostavlje
Page 136 and 137:
nepričakovan zapis ali napačen za
Page 138 and 139:
Building Named Entity Recognition M
Page 140 and 141:
corpus token transfer type transfer
Page 142 and 143:
morphological information, for Slov
Page 144 and 145:
Luščenje terminoloških kandidato
Page 146 and 147:
3.1. Enobesedni terminološki kandi
Page 148 and 149:
Rezultati priklica so dobri. Od 109
Page 150 and 151:
Event and Temporal Relation Extract
Page 152 and 153:
Table 1: Event annotation summary E
Page 154 and 155:
Table 3: Event extraction performan
Page 156 and 157:
Korpusna analiza slovenskega delež
Page 158 and 159:
Vrsta besedila Izbrana področja (i
Page 160 and 161:
primerih (11) in (12), ne pa za del
Page 162 and 163:
Identifying Fear Related Content in
Page 164 and 165:
not present” by 23 annotators. Th
Page 166 and 167:
A Web Service Implementation of Lin
Page 168 and 169:
equired to install the specific sof
Page 170 and 171:
In both figures the same workflow i
Page 172 and 173:
Termania - prosto dostopni spletni
Page 174 and 175:
informacije so poleg same vsebine g
Page 176 and 177:
Izdelava slovensko-srbskega vzpored
Page 178 and 179:
dovoljeno odstopanje do 1 sekunde.
Page 180 and 181:
Poleg navedenih težav so se pojavl
Page 182 and 183:
Topic ontology construction from En
Page 184 and 185:
Fig. 2: English topic ontology afte
Page 186 and 187:
4. Topic ontologies constructed fro
Page 188 and 189:
Translating news to CycL using the
Page 190 and 191:
and the Cyc concept, which correspo
Page 192 and 193:
without parsing. One type of such s
Page 194 and 195:
Guessing the Correct Inflectional P
Page 196 and 197:
noted that the distribution of LPPs
Page 198 and 199:
Table 1: Feature selection analysis
Page 200 and 201:
Razpoznavanje imenskih entitet v sl
Page 202 and 203:
N − log Z(x (i) ) − i=1 K k=1
Page 204 and 205:
F1 1.0 0.8 0.6 0.4 0.2 0.0 0.63 0.4
Page 206 and 207:
sloWCrowd: orodje za popravljanje w
Page 208 and 209:
2.2. Uporabniški vmesnik Osnovna f
Page 210 and 211:
uporabnikov z večanjem stopnje zan
Page 212 and 213:
Korpus slovenskega znakovnega jezik
Page 214 and 215:
Posnetki se v anonimizirani obliki
Page 216 and 217:
ZEN: zasnova glasovnih e-storitev v
Page 218 and 219:
Rešitev je bila izvedena na podlag
Page 220 and 221:
predpisane aktivnosti v poteku zdra
Page 222 and 223:
Indeks avtorjev / Author index Agi
show all

Proceedings - Natural Language Server - IJS

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?