17.12.2013 Views

Nova generacija računalne obrade jezika

Nova generacija računalne obrade jezika

Nova generacija računalne obrade jezika

SHOW MORE
SHOW LESS

Transform your PDFs into Flipbooks and boost your revenue!

Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.

RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments<strong>Nova</strong> <strong>generacija</strong> <strong>računalne</strong> <strong>obrade</strong> <strong>jezika</strong>Damir ĆavarOdjel za lingvistiku u.o., Sveučilište u Zadru34. skup IT profesionalaca u Splitu 2009


RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments1 Jezik2 Modeliranje lingvističke jezgre3 Namjena4 Modeli5 Comments


Što je jezik?RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsGovor: percepcijaKontinuirani nediskretni akustički događaji u vrijemenuSpektrum varijacije energije na frekvencijama od100–11000 HzFormanti: koncentracija energije na određenimfrekvencijamaPrijelazi između šuma i tišineGovor: artikulacijaKontinuirani nediskretne promjene u vokalnome traktuPut zraka; položaj <strong>jezika</strong>, usana; stanje glasnice itd.kao niz kompleksnih motornih instrukcija


Što je jezik?RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments© Davor Petrinovićhttp://dog.zesoi.fer.hr/predavanja/HTML/Osnoveprocesanastajanjagovora.htm


Što je jezik?RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments1.2·10 4 1.1160778CzyToSasza?00.8647 2.367Time (s)


Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsRazine lingvističke analize (teorije i modeli):Fonetika i fonologija: zvukovi i fonemiMorfologija: morfemi i riječiSintaksa: rečenica (i možda kontekst)Semantika: značenje rečenice (možda u kontekstu)Pragmatika: govorni čina, itd.itd.Iluzija zato što:lingvističke jedinice ne koreliraju nužno s fizičkimaspektima <strong>jezika</strong>,nego su kognitivne interpretacije akustičkog događaja.


Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsEkstralingvistička dimenzija:Kognitivni sustav i njegove osobine (npr. Lazy evaluation,Least Effort, Last Resort, pamćenje)Govorna situacija (npr. šum, događaji, biološki uvjeti)Lingvistička kognitivna jezgra:Neovisne formalne osobine <strong>jezika</strong>


Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsFonološka razinaRazličiti (nediskretni) zvukovi klasificirani kao jednalinkvistička jedinica → fonemOsnova: teorija ovisnosti i interdependencije zvukova injihova kombinatorikaPrimjer: hrvatski i španjolski “r” (torero – onaj koji se boris bikom; torrero – npr. stražar u svjetioniku)Fonotaktička razina:Hrvatski prihvaća “dla” a ne “lda” kao slog ili početak riječi


Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsMorfološka razinaFonemi se slažu u morfeme, tj. najmanje jedinice kojeimaju značaj ili neku funkciju, i koje se spajaju u riječiOsnova: teorija značenja i funkcija, ovisnosti iinterdependencije morfema i njihova kombinatorikaPrimjer: hrvatski glagol “čitati” se može razdvojiti u dvaminimalna dijela “čita-” i “-ti” s posebnim značenjem ifunkcijamaMorfotaktička razina:Hrvatski glagoli tipa “čita” se mogu kombinirati sasufiksima kao “-m” i “-š”, ali ne s “-om”, iako je “-om”legitiman sufiks hrvatskog <strong>jezika</strong> (npr. u riječi ruk-om)


Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsSintaktiča razinaRiječi se slažu u rečeniceIako imamo dojam da su skoro sve kombinacije moguće,hrvatski je sintaktički jako ograničenPrimjer:Može biti: Ivan se penje na krov.Ne može biti: Krov Ivan se penje na. ili Ivan se krov penjena. itd.Dodatni problemi:Što znači: Ivan je nazvao nekog čovjeka iz Pariza.Tko je on u: Ivan ga je nazvao. i Ivan tvrdi da ga jeMarija nazvala.


Što je jezik?Sintaktiča stabla i hijerarhijska strukturaRaLiD. ĆavarOutlineRJezikModeliranjelingvističkejezgreIFPGGFNamjenaModeliIvanjenazvaoIFCommentsČIPFnekogčovjekaiz Pariza


Što je jezik?Sintaktiča stabla i hijerarhijska strukturaRaLiD. ĆavarOutlineRJezikModeliranjelingvističkejezgreIFPGGFNamjenaModeliIvanjenazvaoIFPFCommentsČIiz Parizanekogčovjeka


Što je jezik?Sintaktiča stabla i hijerarhijska strukturaRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreStrukturalna višeznačnostZa jednu rečenicu ili riječ postoji više struktura u skladu sgramatikom, npr.NamjenaModeliCommentsunablelockableunlockLeksička višeznačnost:Jedna riječ ima više značenja: npr. duga, pita, je


Lingvistička jezgraFormalni aspekti <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsGramatike (elementi i pravila) opisuju mogućukombinatoriku na svim lingvističkim razinamaDeskriptivne gramatikeOpis zvučnih osobina <strong>jezika</strong>RiječniciPreskriptivne gramatike za standardni jezikDijalektološke gramatike


Lingvistička jezgraFormalni aspekti <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsFormalne gramatikekoriste eksplicitnu teoriju i formalizam i omogućavajufalsifikaciju, teoretske predikcije itd.Automati: generatori i prepoznavači jezičnih izraza (nasvim lingvističkim razinama) (niski generativni kapacitet)Parseri: analizatori jezičnih izraza (visoki generativnikapacitet)Palatalizacija (poljski): krok – kroczek; mózg – móżdżek;duch – duszekk,g,h → č,dž,š/ i,e [ Deminutiv | Vokativ ]Sintaksa:S → NP VPNP → (Adj) N (PP). . .


Lingvistička jezgraFormalni aspekti <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreDodatni formalizmi: Unifikacijske gramatike (LFG, HPSGitd.)NamjenaModeliComments© Andrew Bredenkamp http://www.essex.ac.uk/linguistics/clmt/latex4ling/avms/


Lingvistički modeliRazlike: formalni i prirodni jeziciRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsPrirodni jezici su višeznačni na svim višim lingvističkimrazinamaSve razine su povezane i doprinose riješenju problemavišeznačnosti → paralelizam u analizi, procesiranju itd.Gramatike prirodnih <strong>jezika</strong> su rekurzivne (tj. regularne,kontekstno neovisne i ovisne), što objašnjava neograničenbroj izraza, rečenica itd.Formalne osobine:Regularna: fonologija i fonotaktika, morfologijaKontekstno neovisna: sintaksa (možda djelomičnokontekstno ovisna)Semantika itd.: kontekstno ovisna


Lingvistički modeliFormalne osobineRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsKontekstno neovisne i kompleksnije gramatike (i jezici) seformalno ne mogu usvojiti samo s pozitivnom evidencijom(Gold, 1967)iako sada postoje istraživanja koja to relativirajuTakve gramatike kompleksne su u procesiranjuNe pokrivaju nikada 100% podatkeNe predviđaju razlučivanje višeznačnosti


Lingvistički modeliStatistička revolucija (ponovo)RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsGeneriranje gramatika, riječnika i lingvističkih modela izobilježenih lingvističkih podataka (npr. korpusa)Kontekstno neovisne gramatike s vjerojatnosti pravilaS → NP VP p:0.021NP → (Adj) N (PP) p:0.001. . .Konačni automati s vjerojatnosti na prijelazima (i/iliprijelaznim akcijama kod transduktora)n-gram modeliNesimbolički statistički modeli (npr. neuronske mreže). . .


Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsTranskripcija u fonetski i/ili fonemski oblikIPA transkripcijaza npr. phonex, soundex pretraživanje, statističke fonetskemodele za prepoznavanje govora i sintezu itd.Morfološka segmentacija i obilježje:izponapijali: aspektualni prefiks – aspektualni prefiks –korijen i lema napiti – sufiks participa u množiniDodatno obilježje:do neke mijere – malo – “opiti se” od korijenske leme piti –prošlostza parsiranje i semantičku analizu


Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsSintaktičko parsiranjeStabla s kategorijama i hijerarhijskom strukturom skopusasintaktičkih fraza i riječiza npr. razlučivanje višeznačnosti, semantičku analizuSemantičko obilježje i analizaStabla i mreže relacija i povezivanje s reprezentacijomkoncepata i funkcijaza npr. strojno prevođenje, prepoznavanje govornog čina,analizu sadržaja itd.


Konačni automatiRaLiD. ĆavarMorfemi kao deterministički konačni automati (DKA) (Mealy iliMoore automati):OutlineJezikModeliranjelingvističkejezgre0čpšv root (-index15ite 2 3a4v root )-index0npv pref (-index13ao24v pref )-index aspv pref )-index aspNamjenaModeliCommentso8v suf )-index pres 1st plm2v suf )-index pres 1st sgš3v suf )-index pres 2st sg0εtj14v suf )-index pres 3rd sge5v suf )-index pres 2nd plv suf (-index6v suf )-index 2nd sg imperu7v suf )-index pres 3rd pl


Spajanje u monolitičke automate uz regularne izrazeRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsVišeznačnost kao emisija više oznaka: lista emisija 1 do nOznaka DKA s imenomPravila koja koriste ta imena i modeliraju morfotaktičkadistribucijska pravila:glagolAspektPref* . glagolAtiKorijeni . glagolFleksSuf


Generiranje monolitičkih automataRaLiD. ĆavarOutlineMonolitički automati, mogu biti ciklički DKA:JezikModeliranjelingvističkejezgrev suf )-index pres 1st sgNamjenam13o19v suf )-index pres 1st pModeliCommentsp0 3nεεo4εv pref )-index asp5čpšv root (-index68ite 7 9a10v root )-indexε11šεtj141215v suf )-index pres 2st sgv suf )-index pres 3rd sge16v suf )-index pres 2ndv pref (-index1a2εv pref )-index aspv suf (-index17uv suf )-index 2nd sg imper18v suf )-index pres 3rd


Sintaktičko parsiranjeRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsObično u računalnoj lingvistici Earley parser i varijacije togalgoritma (dinamično programiranje):s dodatnom vjerojatnosti za razlučivanje najvjerojatnijeanalize u slučaju višesnačnostis unifikacijom obilježja za pravila kongruencije i perkolacijuoznakas obilježjem semantičkih osobina i funkcija


Statistički modeliza npr. obilježje i prepoznavanjeRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsn-gram modelilingvističko obilježje ovisno o (obično lokalnom) kontekstudistribucijske osobine fonema, morfema, riječi u kontekstuodkriva osobine teksta, riječi itd.za npr. klasifikaciju teksta u jezike, zadržajno; klasifikacijunepoznatih riječi itd.


Glavni zadatciRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsStvaranje lingvističkih resursaStvaranje alata za lingvističku analizulematizacija riječi u tekstu za pretraživače i daljnu analizugramatike i transfer pravila za strojno prevođenjeprepoznavanje jezičnih jedinica i klasifikacija u npr. imeosobe, ime tvrtke, ime produkta, datum i vrijeme, lokacijaitd.klasifikacija tekstovaanaliza govora i procesiranje govornog dijalogaprepoznavanje zadržaja za forenzičku analizuekstrakcija znanja i generiranje novih saznanjaitd.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!