Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I sammenhæng med denne undersøgelse er det valgt automatisk at frasortere

alle tags, hvor frekvensen er lig med eller under fem. Der er ikke valgt nogen

øvre grænse for automatisk frasortering af termer, da der blandt de mest

frekvente termer forekommer adskillige termer med potentielt høj resolving

power. Skulle det vise sig ikke at være tilfældet er problemet begrænset, da

det valgte lighedsmål (Ochiai, se afsnit 5.4.1) tager højde for meget frekvente

termer, idet en stor forskel i frekvens mellem to termer vil påvirke Ochiai‐

ligheden mellem dem i negativ retning. I det tilfælde, at der er tale om to

højfrekvente termer med høj koforekomst, vil den valgte metode med stor

sandsynlighed kæde dem sammen. Og idet baggrunden for ønsket om at

diskriminere højfrekvente termer er formodningen om at de er funktionsord,

og dermed har lav indholdsmæssig betydning, er problemet ikke så stort, idet

en klynge udelukkende indeholdende uønskede udvidelsestermer først bliver

et problem, idet der er en af termerne, der optræder i en søgeforespørgsel. Det

vil sige, at hvis der er en søgeforespørgsel der indeholder et sådant

funktionsord vil søgningen blive udvidet med ganske mange andre

funktionsord. Dette er muligvis ikke det informationssøgeren ønskede, men

en naturlig konsekvens af anvendelsen af klynger til udvidelsen. Der foretages

med andre ord en udvidelse der er i forhold til søgningen. Dette er suppleret

med en autoriseret stopordsliste 9 , der indeholder 172 af de mest almindelige,

engelske funktionsord. Efter denne frasortering er samlingen af termer

reduceret fra 19.560 forskellige tags til 3.837.

5.3.3 Gruppering af termer

Et kendetegn ved naturligt sprog er, at det samme ord kan forekomme i

forskellige former, i modsætning til kontrollerede sprog, hvor man ofte

anvender morfologisk kontrol til netop at undgå forskellige grammatiske

former af samme term. Ud over forskellige grammatiske former (f.eks.

ental/flertal) kan der også forekomme substantiv/verbum former af samme

term. Dette er et problem i forhold til termfrekvensanalyser, da det man som

regel er interesseret i er selve termens forekomster, uanset hvilken

morfologisk form den måtte forekomme i.

For at undgå denne unøjagtighed i termfrekvenser, er det derfor nødvendigt

at kombinere alle former af en term til en gruppe, repræsenteret af en

grundform for termen. Typisk gøres dette ved enten stemming eller n‐gram

matching, der begge grupperer ord på baggrund af den måde de er stavet. I

det følgende gennemgås de to metoder, og der argumenteres for valget af en

af metoderne.

Stemming

Idéen i stemming er automatisk at fjerne endelserne af et ord, for derved at

frembringe en ordstamme (stem). En af de mest anvendte algoritmer til at gøre

dette er Michael Porters Snowball‐algoritme (Porter, 1980), også kendt som

9 http://snowball.tartarus.org/algorithms/english/stop.txt/

5 ‐ Metode Side 29

More magazines by this user
Similar magazines