Norsk i den digitale tidsalderen - Meta-Net
Norsk i den digitale tidsalderen - Meta-Net
Norsk i den digitale tidsalderen - Meta-Net
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Statistisk<br />
maskinoversettelse<br />
Kildetekst<br />
Måltekst<br />
Tekstanalyse (formattering,<br />
morfologi, syntaks, osv.)<br />
Tekstgenerering<br />
6: Maskinoversettelse (venstre: statistisk; høyre: regelbasert)<br />
telse er basert på analyser av tospråklige tekstkorpus,<br />
som parallellkorpuset Europarl, som består av møtere-<br />
ferater fra Europaparlamentet på 21 europeiske språk<br />
(norsk er ikke inkludert). Hvis man har tilgang til til-<br />
strekkelige mengder data, kan statistisk maskinoverset-<br />
telse fungere godt nok til å utlede <strong>den</strong> omtrentlige be-<br />
tydningen til en tekst på et annet språk, gjennom å<br />
prosessere parallelle versjoner av tekst og dermed finne<br />
sannsynlige ordmønstre. Datadrevet maskinoversettelse<br />
har sine fordeler, fordi <strong>den</strong> krever mindre menneskelig<br />
innsats, og <strong>den</strong> kan fange opp særegenheter ved språket<br />
(for eksempel idiomatiske uttrykk) som kan bli oversett<br />
av kunskapsdrevne systemer. Men i motsetning til kunn-<br />
skapsdrevne systemer gir statistisk (eller datadrevet) ma-<br />
skinoversettelse oe ugrammatiske resultater.<br />
Oe er det altså slik at fordelene og ulempene ved<br />
kunnskapsdrevet og datadrevet maskinoversettelse ut-<br />
fyller hverandre. Derfor fokuserer nyere forskning oe<br />
på hybridtilnærminger som kombinerer begge metode-<br />
ne. Én slik tilnærming bruker både kunnskapsdrevne og<br />
datadrevne systemer sammen med en selekteringsmo-<br />
dul som avgjør det beste resultatet for hver setning. For<br />
setninger lengre enn omtrent tolv ord blir imidlertid re-<br />
sultatene som regel mindre gode. Her kan en bedre løs-<br />
ning være å kombinere de beste delene fra hver setning<br />
fra flere ulike kilder. Dette kan være en ganske kompleks<br />
oppgave, si<strong>den</strong> si<strong>den</strong> det ikke alltid er klart hvilke av flere<br />
ulike muligheter som passer sammen. Disse må i<strong>den</strong>tifi-<br />
seres og parallellstilles.<br />
Oversettelsesregler<br />
Når det gjelder oversettelse mellom de to norske målfor-<br />
mene er behovet for effektive oversettelsesverktøy stort.<br />
To selskaper har utviklet systemer for dette; Nynodata<br />
og Apertium. Nynodata er en liten bedri som tilbyr<br />
verktøy for oversettelse, korrektur og tekstsøk for bok-<br />
mål og nynorsk. Apertium er et åpen-kilde-initiativ som<br />
også tilbyr automatisert oversettelse mellom de to mål-<br />
formene, implementert av en stu<strong>den</strong>t ved Universitetet<br />
i Bergen.<br />
Selv om det er et klart behov for<br />
maskinoversettelse for norsk, er utviklingen av slik<br />
programvare for norsk ennå ikke omfattende.<br />
Når det gjelder oversettelse mellom norsk og ulike frem-<br />
medspråk har Google Translate en norsk modul for<br />
oversettelse mellom engelsk og norsk; via engelsk er det<br />
mulig å oversette mellom norsk og ethvert språkpar som<br />
inneholder engelsk. GramTrans er en maskinoversettel-<br />
sesplattform som er utviklet av det danske GrammarSo<br />
ApS og <strong>den</strong> norske bedrien Kaldera Språkteknologi<br />
AS. Denne oversettelsesmotoren tilbyr en tjeneste for<br />
gratis, nettbasert oversettelse for de skandinaviske språ-<br />
kene og mellom norsk og engelsk. Programmet er basert<br />
på en robust grammatikkanalyse, en transferkomponent<br />
som behandler overgangen fra et språk til et annet med<br />
hensyn til leksikon og grammatikk, og til slutt en kom-<br />
24