Generering av grundformer i Stava
Generering av grundformer i Stava
Generering av grundformer i Stava
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Generering</strong> <strong>av</strong> <strong>grundformer</strong> i St<strong>av</strong>a<br />
utöka suffixlistan med de nödvändiga reglerna.<br />
För de suffix som dessa nya regler ska godkänna gäller att de redan finns med som högerled i<br />
suffixlistan, eftersom de beskriver böjningsformer som lagrats i ordlistan. Ett högerled beskriver<br />
böjningsformer för en viss grupp <strong>av</strong> ord, och för ett ord ur denna grupp ska alltså alla högerledets<br />
suffixformer finnas med i ordlistan. Det innebär att varje suffix ur högerledet kan bilda vänsterled i en<br />
regel där högerledet är oförändrat. Förfarandet blir tydligare med ett exempel:<br />
För att regeln "-orna -a, -an, -or" ska appliceras på ett ord kapporna krävs att kappa, kappan och<br />
kappor finns i ordlistan. Ett ord som tillhör denna grupp finns alltså lagrat just i de tre formerna, och då<br />
kan till exempel kappa anses tillhöra gruppen om både kappa, kappan och kappor finns med i ordlistan.<br />
Det ger upphov till en suffixregel "-a -a, -an, -or". Ytterligare två regler behövs för att fånga upp<br />
formerna kappan och kappor. Dessa två blir då "-an -a, -an, -or" och "-or -a, -an, -or".<br />
Med andra ord ska varje suffix som ingår i ett högerled ge upphov till en ny suffixregel med oförändrat<br />
högerled. Det stora antalet suffixregler (ett tusental) gör det mindre lämpligt att skapa dessa nya regler<br />
för hand, men det går bra att automatgenerera dem. I vår lösning har vi dock inte gjort detta utan bara<br />
lagt in några nya regler, som tillsammans fångar ett stort antal regelbundna substantiv och verb, för att<br />
visa principen. Vi har i efterhand skrivit ett Perlscript (suffixaren.pl) som automatiskt genererar samtliga<br />
nya suffixregler (new_suffixes) enligt denna princip.<br />
Sammansatta ord<br />
I ordlistan lagras inga sammansättningar. Därför måste sammansatta ord delas upp i för- och efterled för<br />
att kunna slås upp. Till suffixkontrollen kommer bara efterledet, men för att grundformsgenereringen ska<br />
vara användbar är det viktigt att den resulterande grundformen är <strong>av</strong> hela ordet, inte bara efterledet.<br />
Annars skulle ett ord som solförmörkelsen få sin grundform presenterad som förmörkelse, snarare än<br />
solförmörkelse. Vi är därför tvungna att hålla reda på eventuella förled som skalats bort under<br />
bearbetningen. För att hantera detta ser vi till att inte bara efterledet utan även en oförändrad upplaga <strong>av</strong><br />
ordet finns med vid suffixkontrollen. Det är detta ursprungliga ord som används för presentation, sedan<br />
vi tagit bort suffixet.<br />
Litteratur<br />
Domeij, R., Hollman, J. & Kann, V. Detection of Spelling Errors in Swedish Not Using a Word List En<br />
Clair. Journal of Quantitative Linguistics, 1(3), 195-201, 1994.<br />
(ftp://ftp.nada.kth.se/pub/documents/Theory/Viggo-Kann/detectspell.ps)<br />
Kann, V., Domeij, R., Hollman, J. & Tillenius, M. Implementation aspects and applications of a<br />
spelling correction algorithm. In Koehler, R., Uhlirova, L., Wimmer, G. (eds.): Text as a Linguistic<br />
Paradigm: Levels, Constituents, Constructs, 1999.<br />
(ftp://ftp.nada.kth.se/pub/documents/Theory/Viggo-Kann/TRITA-NA-9813.pdf)<br />
file:///C|/WINNT/Profiles/d95-nke/Desktop/Spraktek/St<strong>av</strong>alab.html (2 of 2) [2000-12-18 15:00:38]