12.09.2013 Views

Generering av grundformer i Stava

Generering av grundformer i Stava

Generering av grundformer i Stava

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Generering</strong> <strong>av</strong> <strong>grundformer</strong> i St<strong>av</strong>a<br />

utöka suffixlistan med de nödvändiga reglerna.<br />

För de suffix som dessa nya regler ska godkänna gäller att de redan finns med som högerled i<br />

suffixlistan, eftersom de beskriver böjningsformer som lagrats i ordlistan. Ett högerled beskriver<br />

böjningsformer för en viss grupp <strong>av</strong> ord, och för ett ord ur denna grupp ska alltså alla högerledets<br />

suffixformer finnas med i ordlistan. Det innebär att varje suffix ur högerledet kan bilda vänsterled i en<br />

regel där högerledet är oförändrat. Förfarandet blir tydligare med ett exempel:<br />

För att regeln "-orna -a, -an, -or" ska appliceras på ett ord kapporna krävs att kappa, kappan och<br />

kappor finns i ordlistan. Ett ord som tillhör denna grupp finns alltså lagrat just i de tre formerna, och då<br />

kan till exempel kappa anses tillhöra gruppen om både kappa, kappan och kappor finns med i ordlistan.<br />

Det ger upphov till en suffixregel "-a -a, -an, -or". Ytterligare två regler behövs för att fånga upp<br />

formerna kappan och kappor. Dessa två blir då "-an -a, -an, -or" och "-or -a, -an, -or".<br />

Med andra ord ska varje suffix som ingår i ett högerled ge upphov till en ny suffixregel med oförändrat<br />

högerled. Det stora antalet suffixregler (ett tusental) gör det mindre lämpligt att skapa dessa nya regler<br />

för hand, men det går bra att automatgenerera dem. I vår lösning har vi dock inte gjort detta utan bara<br />

lagt in några nya regler, som tillsammans fångar ett stort antal regelbundna substantiv och verb, för att<br />

visa principen. Vi har i efterhand skrivit ett Perlscript (suffixaren.pl) som automatiskt genererar samtliga<br />

nya suffixregler (new_suffixes) enligt denna princip.<br />

Sammansatta ord<br />

I ordlistan lagras inga sammansättningar. Därför måste sammansatta ord delas upp i för- och efterled för<br />

att kunna slås upp. Till suffixkontrollen kommer bara efterledet, men för att grundformsgenereringen ska<br />

vara användbar är det viktigt att den resulterande grundformen är <strong>av</strong> hela ordet, inte bara efterledet.<br />

Annars skulle ett ord som solförmörkelsen få sin grundform presenterad som förmörkelse, snarare än<br />

solförmörkelse. Vi är därför tvungna att hålla reda på eventuella förled som skalats bort under<br />

bearbetningen. För att hantera detta ser vi till att inte bara efterledet utan även en oförändrad upplaga <strong>av</strong><br />

ordet finns med vid suffixkontrollen. Det är detta ursprungliga ord som används för presentation, sedan<br />

vi tagit bort suffixet.<br />

Litteratur<br />

Domeij, R., Hollman, J. & Kann, V. Detection of Spelling Errors in Swedish Not Using a Word List En<br />

Clair. Journal of Quantitative Linguistics, 1(3), 195-201, 1994.<br />

(ftp://ftp.nada.kth.se/pub/documents/Theory/Viggo-Kann/detectspell.ps)<br />

Kann, V., Domeij, R., Hollman, J. & Tillenius, M. Implementation aspects and applications of a<br />

spelling correction algorithm. In Koehler, R., Uhlirova, L., Wimmer, G. (eds.): Text as a Linguistic<br />

Paradigm: Levels, Constituents, Constructs, 1999.<br />

(ftp://ftp.nada.kth.se/pub/documents/Theory/Viggo-Kann/TRITA-NA-9813.pdf)<br />

file:///C|/WINNT/Profiles/d95-nke/Desktop/Spraktek/St<strong>av</strong>alab.html (2 of 2) [2000-12-18 15:00:38]

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!