Nova generacija računalne obrade jezika
Nova generacija računalne obrade jezika
Nova generacija računalne obrade jezika
Transform your PDFs into Flipbooks and boost your revenue!
Leverage SEO-optimized Flipbooks, powerful backlinks, and multimedia content to professionally showcase your products and significantly increase your reach.
RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments<strong>Nova</strong> <strong>generacija</strong> <strong>računalne</strong> <strong>obrade</strong> <strong>jezika</strong>Damir ĆavarOdjel za lingvistiku u.o., Sveučilište u Zadru34. skup IT profesionalaca u Splitu 2009
RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments1 Jezik2 Modeliranje lingvističke jezgre3 Namjena4 Modeli5 Comments
Što je jezik?RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsGovor: percepcijaKontinuirani nediskretni akustički događaji u vrijemenuSpektrum varijacije energije na frekvencijama od100–11000 HzFormanti: koncentracija energije na određenimfrekvencijamaPrijelazi između šuma i tišineGovor: artikulacijaKontinuirani nediskretne promjene u vokalnome traktuPut zraka; položaj <strong>jezika</strong>, usana; stanje glasnice itd.kao niz kompleksnih motornih instrukcija
Što je jezik?RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments© Davor Petrinovićhttp://dog.zesoi.fer.hr/predavanja/HTML/Osnoveprocesanastajanjagovora.htm
Što je jezik?RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliComments1.2·10 4 1.1160778CzyToSasza?00.8647 2.367Time (s)
Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsRazine lingvističke analize (teorije i modeli):Fonetika i fonologija: zvukovi i fonemiMorfologija: morfemi i riječiSintaksa: rečenica (i možda kontekst)Semantika: značenje rečenice (možda u kontekstu)Pragmatika: govorni čina, itd.itd.Iluzija zato što:lingvističke jedinice ne koreliraju nužno s fizičkimaspektima <strong>jezika</strong>,nego su kognitivne interpretacije akustičkog događaja.
Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsEkstralingvistička dimenzija:Kognitivni sustav i njegove osobine (npr. Lazy evaluation,Least Effort, Last Resort, pamćenje)Govorna situacija (npr. šum, događaji, biološki uvjeti)Lingvistička kognitivna jezgra:Neovisne formalne osobine <strong>jezika</strong>
Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsFonološka razinaRazličiti (nediskretni) zvukovi klasificirani kao jednalinkvistička jedinica → fonemOsnova: teorija ovisnosti i interdependencije zvukova injihova kombinatorikaPrimjer: hrvatski i španjolski “r” (torero – onaj koji se boris bikom; torrero – npr. stražar u svjetioniku)Fonotaktička razina:Hrvatski prihvaća “dla” a ne “lda” kao slog ili početak riječi
Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsMorfološka razinaFonemi se slažu u morfeme, tj. najmanje jedinice kojeimaju značaj ili neku funkciju, i koje se spajaju u riječiOsnova: teorija značenja i funkcija, ovisnosti iinterdependencije morfema i njihova kombinatorikaPrimjer: hrvatski glagol “čitati” se može razdvojiti u dvaminimalna dijela “čita-” i “-ti” s posebnim značenjem ifunkcijamaMorfotaktička razina:Hrvatski glagoli tipa “čita” se mogu kombinirati sasufiksima kao “-m” i “-š”, ali ne s “-om”, iako je “-om”legitiman sufiks hrvatskog <strong>jezika</strong> (npr. u riječi ruk-om)
Što je jezik?Lingvističke osnoveRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsSintaktiča razinaRiječi se slažu u rečeniceIako imamo dojam da su skoro sve kombinacije moguće,hrvatski je sintaktički jako ograničenPrimjer:Može biti: Ivan se penje na krov.Ne može biti: Krov Ivan se penje na. ili Ivan se krov penjena. itd.Dodatni problemi:Što znači: Ivan je nazvao nekog čovjeka iz Pariza.Tko je on u: Ivan ga je nazvao. i Ivan tvrdi da ga jeMarija nazvala.
Što je jezik?Sintaktiča stabla i hijerarhijska strukturaRaLiD. ĆavarOutlineRJezikModeliranjelingvističkejezgreIFPGGFNamjenaModeliIvanjenazvaoIFCommentsČIPFnekogčovjekaiz Pariza
Što je jezik?Sintaktiča stabla i hijerarhijska strukturaRaLiD. ĆavarOutlineRJezikModeliranjelingvističkejezgreIFPGGFNamjenaModeliIvanjenazvaoIFPFCommentsČIiz Parizanekogčovjeka
Što je jezik?Sintaktiča stabla i hijerarhijska strukturaRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreStrukturalna višeznačnostZa jednu rečenicu ili riječ postoji više struktura u skladu sgramatikom, npr.NamjenaModeliCommentsunablelockableunlockLeksička višeznačnost:Jedna riječ ima više značenja: npr. duga, pita, je
Lingvistička jezgraFormalni aspekti <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsGramatike (elementi i pravila) opisuju mogućukombinatoriku na svim lingvističkim razinamaDeskriptivne gramatikeOpis zvučnih osobina <strong>jezika</strong>RiječniciPreskriptivne gramatike za standardni jezikDijalektološke gramatike
Lingvistička jezgraFormalni aspekti <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsFormalne gramatikekoriste eksplicitnu teoriju i formalizam i omogućavajufalsifikaciju, teoretske predikcije itd.Automati: generatori i prepoznavači jezičnih izraza (nasvim lingvističkim razinama) (niski generativni kapacitet)Parseri: analizatori jezičnih izraza (visoki generativnikapacitet)Palatalizacija (poljski): krok – kroczek; mózg – móżdżek;duch – duszekk,g,h → č,dž,š/ i,e [ Deminutiv | Vokativ ]Sintaksa:S → NP VPNP → (Adj) N (PP). . .
Lingvistička jezgraFormalni aspekti <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreDodatni formalizmi: Unifikacijske gramatike (LFG, HPSGitd.)NamjenaModeliComments© Andrew Bredenkamp http://www.essex.ac.uk/linguistics/clmt/latex4ling/avms/
Lingvistički modeliRazlike: formalni i prirodni jeziciRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsPrirodni jezici su višeznačni na svim višim lingvističkimrazinamaSve razine su povezane i doprinose riješenju problemavišeznačnosti → paralelizam u analizi, procesiranju itd.Gramatike prirodnih <strong>jezika</strong> su rekurzivne (tj. regularne,kontekstno neovisne i ovisne), što objašnjava neograničenbroj izraza, rečenica itd.Formalne osobine:Regularna: fonologija i fonotaktika, morfologijaKontekstno neovisna: sintaksa (možda djelomičnokontekstno ovisna)Semantika itd.: kontekstno ovisna
Lingvistički modeliFormalne osobineRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsKontekstno neovisne i kompleksnije gramatike (i jezici) seformalno ne mogu usvojiti samo s pozitivnom evidencijom(Gold, 1967)iako sada postoje istraživanja koja to relativirajuTakve gramatike kompleksne su u procesiranjuNe pokrivaju nikada 100% podatkeNe predviđaju razlučivanje višeznačnosti
Lingvistički modeliStatistička revolucija (ponovo)RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsGeneriranje gramatika, riječnika i lingvističkih modela izobilježenih lingvističkih podataka (npr. korpusa)Kontekstno neovisne gramatike s vjerojatnosti pravilaS → NP VP p:0.021NP → (Adj) N (PP) p:0.001. . .Konačni automati s vjerojatnosti na prijelazima (i/iliprijelaznim akcijama kod transduktora)n-gram modeliNesimbolički statistički modeli (npr. neuronske mreže). . .
Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsTranskripcija u fonetski i/ili fonemski oblikIPA transkripcijaza npr. phonex, soundex pretraživanje, statističke fonetskemodele za prepoznavanje govora i sintezu itd.Morfološka segmentacija i obilježje:izponapijali: aspektualni prefiks – aspektualni prefiks –korijen i lema napiti – sufiks participa u množiniDodatno obilježje:do neke mijere – malo – “opiti se” od korijenske leme piti –prošlostza parsiranje i semantičku analizu
Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika <strong>jezika</strong>RaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsSintaktičko parsiranjeStabla s kategorijama i hijerarhijskom strukturom skopusasintaktičkih fraza i riječiza npr. razlučivanje višeznačnosti, semantičku analizuSemantičko obilježje i analizaStabla i mreže relacija i povezivanje s reprezentacijomkoncepata i funkcijaza npr. strojno prevođenje, prepoznavanje govornog čina,analizu sadržaja itd.
Konačni automatiRaLiD. ĆavarMorfemi kao deterministički konačni automati (DKA) (Mealy iliMoore automati):OutlineJezikModeliranjelingvističkejezgre0čpšv root (-index15ite 2 3a4v root )-index0npv pref (-index13ao24v pref )-index aspv pref )-index aspNamjenaModeliCommentso8v suf )-index pres 1st plm2v suf )-index pres 1st sgš3v suf )-index pres 2st sg0εtj14v suf )-index pres 3rd sge5v suf )-index pres 2nd plv suf (-index6v suf )-index 2nd sg imperu7v suf )-index pres 3rd pl
Spajanje u monolitičke automate uz regularne izrazeRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsVišeznačnost kao emisija više oznaka: lista emisija 1 do nOznaka DKA s imenomPravila koja koriste ta imena i modeliraju morfotaktičkadistribucijska pravila:glagolAspektPref* . glagolAtiKorijeni . glagolFleksSuf
Generiranje monolitičkih automataRaLiD. ĆavarOutlineMonolitički automati, mogu biti ciklički DKA:JezikModeliranjelingvističkejezgrev suf )-index pres 1st sgNamjenam13o19v suf )-index pres 1st pModeliCommentsp0 3nεεo4εv pref )-index asp5čpšv root (-index68ite 7 9a10v root )-indexε11šεtj141215v suf )-index pres 2st sgv suf )-index pres 3rd sge16v suf )-index pres 2ndv pref (-index1a2εv pref )-index aspv suf (-index17uv suf )-index 2nd sg imper18v suf )-index pres 3rd
Sintaktičko parsiranjeRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsObično u računalnoj lingvistici Earley parser i varijacije togalgoritma (dinamično programiranje):s dodatnom vjerojatnosti za razlučivanje najvjerojatnijeanalize u slučaju višesnačnostis unifikacijom obilježja za pravila kongruencije i perkolacijuoznakas obilježjem semantičkih osobina i funkcija
Statistički modeliza npr. obilježje i prepoznavanjeRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsn-gram modelilingvističko obilježje ovisno o (obično lokalnom) kontekstudistribucijske osobine fonema, morfema, riječi u kontekstuodkriva osobine teksta, riječi itd.za npr. klasifikaciju teksta u jezike, zadržajno; klasifikacijunepoznatih riječi itd.
Glavni zadatciRaLiD. ĆavarOutlineJezikModeliranjelingvističkejezgreNamjenaModeliCommentsStvaranje lingvističkih resursaStvaranje alata za lingvističku analizulematizacija riječi u tekstu za pretraživače i daljnu analizugramatike i transfer pravila za strojno prevođenjeprepoznavanje jezičnih jedinica i klasifikacija u npr. imeosobe, ime tvrtke, ime produkta, datum i vrijeme, lokacijaitd.klasifikacija tekstovaanaliza govora i procesiranje govornog dijalogaprepoznavanje zadržaja za forenzičku analizuekstrakcija znanja i generiranje novih saznanjaitd.