29.08.2013 Views

Norsk i den digitale tidsalderen - Meta-Net

Norsk i den digitale tidsalderen - Meta-Net

Norsk i den digitale tidsalderen - Meta-Net

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ke ressurser og verktøy til intern bruk, mens de fleste<br />

omfattende (og tilgjengelige) ressurser og verktøy (for<br />

eksempel leksika, taggere og navnegjenkjennere) er ut-<br />

viklet ved forskningsinstitusjonene. På et senere tids-<br />

punkt har disse ressursene i noen tilfeller blitt kjøpt av<br />

private bedrier. Faktisk inneholder tabellen over verk-<br />

tøy og ressurser i slutten av <strong>den</strong>ne rapporten hoved-<br />

saklig ressurser som er utviklet gjennom forskning. For<br />

eksempel har Universitetet i Oslo utviklet talekorpu-<br />

set Nota-Oslo (<strong>Norsk</strong> Talespråkskorpus, Oslo-delen) og<br />

Nordisk dialektkorpus, <strong>Norsk</strong> ordbank er utviklet og<br />

eies av Universitetet i Oslo og <strong>Norsk</strong> språkråd, Oslo-<br />

Bergen-taggeren er laget av Universitetet i Oslo og Uni<br />

Research i Bergen, <strong>Norsk</strong> aviskorpus er utviklet av Uni<br />

Research og NHH, og trebanken INESS er for ti<strong>den</strong> un-<br />

der oppbygging ved Universitetet i Bergen.<br />

Utvikling av grunnleggende tekst- og taledata var ikke en<br />

del av KUNSTIs arbeidsprogram, ettersom dette skulle<br />

være Språkbankens oppgave. Mangelen på grunnleggen-<br />

de språkressurser framsto dermed som en hemsko for<br />

KUNSTI. Nå som Språkbanken er etablert, og med nye<br />

forskere og oppdatert kompetanse på plass, mener man-<br />

ge at ti<strong>den</strong> er mo<strong>den</strong> for en ny satsing på språkteknolo-<br />

gisk forskning som kan få et mer applikasjonsorientert<br />

fokus enn KUNSTI-satsningen.<br />

Etter KUNSTI har større språkteknologiske forsk-<br />

ningsprosjekter (f.eks. INESS, Nota-Oslo, <strong>Norsk</strong> avis-<br />

korpus, WeSearch-Språkteknologi for Internett og SIR-<br />

KUS) blitt finansiert enten gjennom infrastruktur-<br />

programmene (AVIT) eller Forskningsrådets generelle<br />

IKT-programmer, som VERDIKT. På tross av disse in-<br />

vesteringene er likevel støtten til språkteknologiske pro-<br />

sjekter i Norge relativt lavt i forhold til det som brukes<br />

i for eksempel USA på oversettelse og flerspråklig infor-<br />

masjonstilgang [28].<br />

Som en oppsummering har dette delkapittelet vist at<br />

tidligere forskningsprogrammer har ført til en utvikling<br />

av en rekke språkteknologiske verktøy og ressurser for<br />

norsk språk. I neste delkapittel oppsummerer vi situa-<br />

sjonen for språkteknologisk støtte for norsk språk.<br />

4.6 SITUASJONEN FOR<br />

SPRÅKTEKNOLOGISK STØTTE<br />

FOR NORSK SPRÅK<br />

Figur 8 oppsummerer situasjonen for språkteknologisk<br />

støtte for norsk språk gjennom tallmessige verdivurde-<br />

ringer av eksisterende verktøy og ressurser. Vurderinge-<br />

ne er gjort av le<strong>den</strong>de norske eksperter på feltet, som har<br />

satt tallverdier for syv ulike kriterier (f. eks. tilgjengelig-<br />

het), på en skala fra 0 (svært lav) til 6 (svært høy).<br />

De viktigste resultatene for norsk kan oppsummeres<br />

som følger:<br />

Situasjonen for norsk er relativt god når det gjelder<br />

de mest grunnleggende språkteknologiske verktøy-<br />

ene og ressursene, som taggere, morfologisk analy-<br />

se, referansekorpus og talekorpus. Det finnes også<br />

mange talesynteseprodukter for norsk som er gene-<br />

relt anvendelige og som har en akseptabel kvalitet,<br />

selv om de fleste av dem er utviklet av kommersiel-<br />

le aktører, og dermed har begrenset tilgjengelighet.<br />

Der finnes flere leksikalske ressurser som dekker all-<br />

mennspråket, men der er betydelige mangler når det<br />

gjelder terminologi for spesialiserte domener.<br />

Det finnes også ressurser og verktøy med begrenset<br />

funksjonalitet innen felt som talegjenkjenning, ma-<br />

skinoversettelse og teksttolkning. Noen av disse om-<br />

rå<strong>den</strong>e dekkes imidlertid hovedsaklig av kommersi-<br />

elle aktører, og har dermed begrenset tilgjengelighet.<br />

For noen typer verktøy og ressurser finnes nesten<br />

ingen ressurser, mens andre ressurser er utviklet for<br />

kommersielle formål og er ikke allment tilgjengeli-<br />

ge. Dette gjelder for eksempel verktøy og ressurser<br />

for mer avansert språkteknologi for norsk, som avan-<br />

29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!