Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Porter‐Stemmer, som er videreudviklet løbende siden den første udgave fra

1980. Algoritmen fjerner automatisk både regelmæssige og uregelmæssige

endelser fra engelske ord, og opnår derved en ordstamme. Eksemplet

nedenfor viser nogle af de reduktioner, som algoritmen foretager (Tabel 5.2):

Consolation ⇒ CONSOL

Consolation ⇒ CONSOL

Consolatory ⇒ CONSOLATORI

Console ⇒ CONSOL

Consoled ⇒ CONSOL

Consoles ⇒ CONSOL

Consolidate ⇒ CONSOLID

Consolidated ⇒ CONSOLID

Consolidating ⇒ CONSOLID

Consoling ⇒ CONSOL

Consolingly ⇒ CONSOL

Consols ⇒ CONSOL

Tabel 5.2 – Eksempler på stemming.

Kilde: http://snowball.tartarus.org/algorithms/english/stemmer.html

Algoritmen har den fordel ved store datamængder, at frembringelsen af

ordstammer er uafhængig af datasættets størrelse, og at grupperingen er

lineært afhængig (der foretages én sammenligning pr. term i datasættet) ‐

dette betyder at runtime for en klyngealgoritme eller automatisk

indekseringsalgoritme, ikke bliver væsentlig forværret ved at implementere

stemming.

Da stemming bygger på en række regler for det engelske sprog, kombineret

med nogle regler for undtagelser i samme, kan der forekomme situationer,

hvor to termer, der ikke er semantisk identiske, reduceres til samme

ordstamme. F.eks.:

Colon ⇒ COLON

Colonization ⇒ COLON

Tabel 5.3 ‐ Eksempel på dårlig stemming

Hvorvidt dette er et problem afhænger af, hvad ordstammerne skal bruges til.

Når de som her skal bruges til at gruppere termer i klynger, baseret på

hvordan de forekommer sammen, så er det et potentielt problem, da

grumsede stemming‐grupper kan føre til uønskede grupperinger af termer.

Stemming som generel metode, og også Porter‐Stemmer algoritmen specifikt

er blevet undersøgt flere gange, netop pga. ovenstående principielle problem.

Blandt de mest fremtrædende undersøgelser er en undersøgelse af Donna

Harman (1991), der konkluderer, at stemming i princippet er uden effekt, samt

to undersøgelser af David Hull (Hull, 1996; Hull & Grefenstette, 1996), der

omvendt konkluderer, at algoritmen på trods af visse problemer stort set altid

5 ‐ Metode Side 30

More magazines by this user
Similar magazines