02.08.2013 Views

Vad automatisk indexering och genreklassifikation kan tillföra ...

Vad automatisk indexering och genreklassifikation kan tillföra ...

Vad automatisk indexering och genreklassifikation kan tillföra ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

liknande andra dokument troligen också behandlar ungefär samma ämne. 143 Nackdelen<br />

med ett sådant förfarande är att det kräver att referenserna i en text är enkelt<br />

identifierbara. Modellen är troligen endast användbar om den appliceras på vetenskapliga<br />

texter. Under sådana omständigheter <strong>kan</strong> de ge acceptabla resultat. 144<br />

Samtidigt är en rent semantiskt angreppssätt bara fruktbart till en viss gräns, en<br />

kombination av semantisk <strong>och</strong> lingvistisk analys ger mer möjligheter att på ett<br />

fungerande sätt genreklassificera. Att lyckas inkludera den lingvistiska delen är<br />

emellertid inte enkelt. Det är inte den lingvistiska kunskapen som saknas. Det finns en<br />

fullständig kunskap om hur vår grammatik är uppbyggd. Den tekniska aspekten är också<br />

fullt tillräcklig för uppgiften, inget system behöver idag falla på att datakapaciteten inte<br />

existerar. Det är kombinationen av dessa två som fortfarande behöver utvecklas. 145 En så<br />

enkel tanke som att avgöra om en mening har eller saknar ackusativobjekt kräver en<br />

textanalyserande algoritm som analyserar meningen i flera olika led. En stor anledning<br />

till att systemen fortfarande inte är mer utvecklade är genrebegreppets svaghet. Som<br />

tidigare diskuterats är det inte ens teoretiskt färdigdefinierat vad som kännetecknar en<br />

genre. Denna svaghet förs över till de <strong>automatisk</strong>a systemen, vilket föranleder även dessa<br />

att inte vara fullt fungerande. Om man inte vet vad man letar efter, är det också väldigt<br />

svårt att finna det.<br />

4.2.4: Återvinning av indexerad information<br />

Den största anledningen till all <strong>indexering</strong> är att underlätta återvinning av de indexerade<br />

dokumenten. Denna <strong>kan</strong> både vara manuell, det vill säga att någon läser indexorden till<br />

exempel tryckta på ett försättsblad för att göra en bedömning om texten är intressant.<br />

Vanligast är emellertid troligen att indextermerna används i någon form av datoriserad<br />

sökning med hjälp utav en sökmotor. En sådan sökmotor söker efter likheter mellan<br />

användarens inskrivna sökfråga <strong>och</strong> de indexerade termerna vanligen med hjälp av någon<br />

av tre olikt fungerande sökalgoritmer. Förutom de tre nedan beskrivna modellerna finns<br />

ytterligare ett stort antal antingen helt självständiga sökalgoritmer samt<br />

vidareutvecklingar av dessa tre algoritmer. Nedan beskrivs emellertid enbart de tre<br />

vanligaste algoritmernas grundtanke.<br />

Den äldsta av dessa algoritmer är den booleska sökalgoritmen. Den använder booleskt<br />

logik för att systematiskt söka igenom databasen. Metodens störta fördel är dess enkelhet.<br />

Om användaren behärskar ett grundläggande logiskt tän<strong>kan</strong>de är varje operation<br />

begriplig. Dess huvudsakliga nackdel är att den enbart arbetar med tvåvärdeslogik.<br />

Antingen är dokumentet relevant, eller så är det inte det. Detta medför att om inte väldigt<br />

avancerade söksträngar arbetandes både med ”<strong>och</strong>” <strong>och</strong> ”eller” kommer resultatet<br />

troligen bli förhållandevis dåligt. Metoden möjliggör inte heller för en viktning av<br />

termerna, alla termer anses vara lika återvunna. Detta möjliggör i sin tur att någon<br />

143 Glenisson, Patrick et al (2005), Combining full text and bibliometric information<br />

in mapping scientific disciplines, Information Processing and Management 41 (2005), s. 1548 – 1553.<br />

144 Glenisson (2005), s. 1567.<br />

145 Santini (2004), s. 19 - 22.<br />

42

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!