02.08.2013 Views

Vad automatisk indexering och genreklassifikation kan tillföra ...

Vad automatisk indexering och genreklassifikation kan tillföra ...

Vad automatisk indexering och genreklassifikation kan tillföra ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>och</strong> possessiva. Genom att kvantifiera ett antal av de ovannämnda variablerna är det<br />

möjligt att låta en dator skapa funktioner som beskriver skillnaden i förekomst mellan<br />

dem. Dessa funktioner är sedan möjliga att applicera på nya texter för att därigenom<br />

kategorisera in dem i olika undergrupper eller genrer. Det som väsentligen skiljer detta<br />

förfarande från övrig <strong>genreklassifikation</strong> är att istället för att de mest innehållsladdade<br />

orden väljs, väljs istället de som bäst signalerar vilken stil som texten är skriven i.<br />

Exempel på olika urskiljbara stilar är skönlitterär, facklitterär <strong>och</strong> journalistisk eller<br />

tidningsprosa. 130<br />

Naturligtvis är inte Karlgren den enda som forskar kring lingvistikens påver<strong>kan</strong> på<br />

Information Retrieval. Detta är tvärtemot ett väldigt stort <strong>och</strong> produktivt<br />

forskningsområde, som sträcker sig tvärvetenskapligt genom flera väldigt olika<br />

forskningsområden. Förutom att stilistiskt kunna genreindela text <strong>kan</strong> även ett stilistiskt<br />

angreppssätt förbättra <strong>indexering</strong> <strong>och</strong> sökning då detta även tar hänsyn till textens<br />

lingvistiska delar, något som annars <strong>automatisk</strong> <strong>indexering</strong> <strong>och</strong> de flesta sökmotorer<br />

utelämnar. Idag anses troligen att de allra största användningsområdena ligger inom<br />

fulltextsökning, men även indextermsbaserad informationsåtervinning <strong>kan</strong> dra nytta av<br />

flera av disciplinens framsteg. I synnerhet är ett lingvistiskt synsätt fördelaktigt då det<br />

gäller att välja ut vilka enskilda ord som skall kombineras ihop <strong>och</strong> göras sökbara som<br />

grupperingar av ord. Det lingvistiska angreppssättet leder till att texten inte enbart<br />

behandlas som en mängd ord utan inbördes sammanhang; istället får textens helhet även<br />

påver<strong>kan</strong> på resultatet. Stilistisk analys används till exempel ofta som ett verktyg för att<br />

<strong>automatisk</strong>t skapa termer som är länge än ett ord. Att enbart skapa sammansatta termer<br />

efter ordklass blir lätt ett klumpigt verktyg. Om <strong>indexering</strong>smotorn istället tar hänsyn till<br />

stilen <strong>kan</strong> bättre resultat uppnås. Exempelvis är en stor vinst gjord om det är möjligt att<br />

tolka fram ur en mening var meningens egentliga information ligger. Vilka ord som i<br />

meningen är de mest signifi<strong>kan</strong>ta för hela satsens information. Andra områden inom<br />

kombinationen av indextermer där ett lingvistiskt synsätt <strong>kan</strong> förbättra <strong>automatisk</strong><br />

<strong>indexering</strong> är att det på ett mycket mer naturligt sätt <strong>kan</strong> binda samman ord i meningar så<br />

att det substantiv ett adjektiv syftar på <strong>kan</strong> kombineras ihop med adjektivet. Detta är<br />

sällan möjligt om antalet ord i satsen som skiljer dessa båda ord åt är stort, så länge<br />

enbart ett semantiskt angreppssätt används. Ett exempel på en sådan mening är<br />

”Innehållsrika, men för den skull inte långdragna, texter”. Uppenbarligen syftar<br />

innehållsrika på texterna. I en tänkbar databas borde även ”innehållsrika texter” kunna<br />

vara en bra indexterm. Ett system som <strong>kan</strong> extrahera fram sådana ordkombinationer är<br />

alltså troligen väldigt användbart. 131 Ett annat område som berör själva sökfrågan är om<br />

ordens interna ordning i sökfrågan skall tillåtas spela någon roll. I en ordinär sökning<br />

tillåts inte detta. Orden behandlas som om de låg i en påse; de har endast befintlighet, inte<br />

placering. Om substantiv tilläts att antingen vara objekt eller subjekt hade troligen vissa<br />

förbättringar kunnat uppnås. Bland annat möjliggör detta om ord står i en viss ordning<br />

behandlas de som en term, om de står i den motsatta som två. Detta är uppenbarligen ett<br />

problem i språk som vanligen inte sammanskriver, alltså engelska. För språk som<br />

däremot <strong>kan</strong> kombinera ord är detta problem av betydligt mindre storlek. Som exempel<br />

130 Karlgren (2000) s. 50 – 66.<br />

131 Sparck Jones, Karen (1999) What os the role for NLP in Text Retrieval? Kap 1 i Strzalkowski, Tomek<br />

(1999) Natural Language Information Retrieval. Dordrecht: Kluwer Academic Publishers, s. 2 -22.<br />

38

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!