Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

7.5 Alternative fremgangsmåder

Af Jens Peter Andersen

Klyngeanalyse til automatisk indeksering, query expansion og automatisk

tesaurus generering er en metode, der blev udviklet i 1970’erne (bl.a. (Spärck

Jones, 1971)) og har siden da ikke ændret sig væsentligt; der er blevet tilføjet

nye algoritmer og anvendelser (se review, afsnit 4.2), men bortset fra det, er

metoden principielt den samme. Siden metoden blev udviklet, er der ikke

blevet foretaget nogen undersøgelse, der entydigt afgør, om klyngeanalyse

virker eller ej. Metoden er blevet anvendt i mange forskellige sammenhænge,

til tider med succes (f.eks. (Chen & Lynch, 1992)), andre gange uden held

(f.eks. (Peat & Willett, 1991)), men ingen definitiv undersøgelse eksisterer.

Der er siden blevet udviklet et alternativ til klyngeanalysen, som i sin

grundidé minder meget om fremgangsmåden for klyngeanalyse, men som i

udførelsen og resultatet adskiller sig væsentligt, nemlig latent semantisk

indeksering (eller analyse). Metoden blev udviklet i 1990 af Scott Deerwester

et al. (Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990) som en ny

indekseringsmetode. Metoden er udviklet for at overkomme det problem der

er i, at brugeres søgetermer ikke nødvendigvis er de samme der anvendes i

dokumenterne, en central problemstilling for f.eks. vektorrumsmodellen.

Faktisk vælger to brugere den samme term til at beskrive et velkendt objekt

mindre end 20% af tiden (Furnas, Landauer, Gomez, & Dumais, 1983), hvilket

klart indikerer problemet i forhold til at ramme netop den term forfatteren

eller indeksøren brugte.

Princippet i latent semantisk indeksering er, at identificere begreber i stedet

for termer, ved at se på de underliggende strukturer i tekst, for derved at

skabe koblinger mellem termer, og dermed skabe begreber. På denne måde

minder latent semantisk indeksering om klyngeanalyse til query expansion,

som det har været tilfældet for dette speciale. Men LSI ser ikke kun på hvilke

termer der forekommer sammen, også de termer der ikke forekommer

sammen analyseres, især de termer, der ikke forekommer sammen, men som

forekommer sammen med en tredje, fælles term (anden ordens lighed), for at

kunne finde såvel synonymer som polysemer (Deerwester, Dumais, Furnas,

Landauer, & Harshman, 1990). LSI forsøger på baggrund af termers

forekomster i dokumenter at danne et begrebs‐vektorrum, hvilket resulterer i

meget store matricer for selv relativt små dokumentmængder. For rent faktisk

at kunne udføre de beregninger der er nødvendige for at kunne bruge LSI til

noget reduceres disse matricer, f.eks. ved hjælp af SVD (singular value

decomposition), hvilket indebærer, at den oprindelige matrice approksimeres

til en faktor af tre sparse matricer, der er reduceret ud fra den oprindelige.

Dermed bliver det lettere at håndtere matricerne i en søgesituation, og det

tunge regnearbejde flyttes over til indekseringssituationen.

I 1999 tilføjer Thomas Hofmann et probabilistisk element til LSI, der i hans

udgave kommer til at hedde Probabilistic latent semantic analysis (Hofmann,

1999). Hofmanns egen undersøgelse viser, at i forhold til en vektorrumsmodel,

der anvender cosinus som lighedsmål, giver LSI i nogle tilfælde bedre, og i

7 ‐ Diskussion Side 88

More magazines by this user
Similar magazines