29.08.2013 Views

Norsk i den digitale tidsalderen - Meta-Net

Norsk i den digitale tidsalderen - Meta-Net

Norsk i den digitale tidsalderen - Meta-Net

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Statistisk<br />

maskinoversettelse<br />

Kildetekst<br />

Måltekst<br />

Tekstanalyse (formattering,<br />

morfologi, syntaks, osv.)<br />

Tekstgenerering<br />

6: Maskinoversettelse (venstre: statistisk; høyre: regelbasert)<br />

telse er basert på analyser av tospråklige tekstkorpus,<br />

som parallellkorpuset Europarl, som består av møtere-<br />

ferater fra Europaparlamentet på 21 europeiske språk<br />

(norsk er ikke inkludert). Hvis man har tilgang til til-<br />

strekkelige mengder data, kan statistisk maskinoverset-<br />

telse fungere godt nok til å utlede <strong>den</strong> omtrentlige be-<br />

tydningen til en tekst på et annet språk, gjennom å<br />

prosessere parallelle versjoner av tekst og dermed finne<br />

sannsynlige ordmønstre. Datadrevet maskinoversettelse<br />

har sine fordeler, fordi <strong>den</strong> krever mindre menneskelig<br />

innsats, og <strong>den</strong> kan fange opp særegenheter ved språket<br />

(for eksempel idiomatiske uttrykk) som kan bli oversett<br />

av kunskapsdrevne systemer. Men i motsetning til kunn-<br />

skapsdrevne systemer gir statistisk (eller datadrevet) ma-<br />

skinoversettelse oe ugrammatiske resultater.<br />

Oe er det altså slik at fordelene og ulempene ved<br />

kunnskapsdrevet og datadrevet maskinoversettelse ut-<br />

fyller hverandre. Derfor fokuserer nyere forskning oe<br />

på hybridtilnærminger som kombinerer begge metode-<br />

ne. Én slik tilnærming bruker både kunnskapsdrevne og<br />

datadrevne systemer sammen med en selekteringsmo-<br />

dul som avgjør det beste resultatet for hver setning. For<br />

setninger lengre enn omtrent tolv ord blir imidlertid re-<br />

sultatene som regel mindre gode. Her kan en bedre løs-<br />

ning være å kombinere de beste delene fra hver setning<br />

fra flere ulike kilder. Dette kan være en ganske kompleks<br />

oppgave, si<strong>den</strong> si<strong>den</strong> det ikke alltid er klart hvilke av flere<br />

ulike muligheter som passer sammen. Disse må i<strong>den</strong>tifi-<br />

seres og parallellstilles.<br />

Oversettelsesregler<br />

Når det gjelder oversettelse mellom de to norske målfor-<br />

mene er behovet for effektive oversettelsesverktøy stort.<br />

To selskaper har utviklet systemer for dette; Nynodata<br />

og Apertium. Nynodata er en liten bedri som tilbyr<br />

verktøy for oversettelse, korrektur og tekstsøk for bok-<br />

mål og nynorsk. Apertium er et åpen-kilde-initiativ som<br />

også tilbyr automatisert oversettelse mellom de to mål-<br />

formene, implementert av en stu<strong>den</strong>t ved Universitetet<br />

i Bergen.<br />

Selv om det er et klart behov for<br />

maskinoversettelse for norsk, er utviklingen av slik<br />

programvare for norsk ennå ikke omfattende.<br />

Når det gjelder oversettelse mellom norsk og ulike frem-<br />

medspråk har Google Translate en norsk modul for<br />

oversettelse mellom engelsk og norsk; via engelsk er det<br />

mulig å oversette mellom norsk og ethvert språkpar som<br />

inneholder engelsk. GramTrans er en maskinoversettel-<br />

sesplattform som er utviklet av det danske GrammarSo<br />

ApS og <strong>den</strong> norske bedrien Kaldera Språkteknologi<br />

AS. Denne oversettelsesmotoren tilbyr en tjeneste for<br />

gratis, nettbasert oversettelse for de skandinaviske språ-<br />

kene og mellom norsk og engelsk. Programmet er basert<br />

på en robust grammatikkanalyse, en transferkomponent<br />

som behandler overgangen fra et språk til et annet med<br />

hensyn til leksikon og grammatikk, og til slutt en kom-<br />

24

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!