Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

andre tilfælde dårligere precision i forhold til vektorrumsmodellen, mens PLSI

konsekvent forbedrer precision (mellem 17% og 58% forbedring i forhold til

vektorrumsmodellen). Inklusionen af det probabilistiske element giver ikke

kun bedre resultater, men også en stærkere teoretisk, statistisk forankring.

Ud fra ovenstående havde PLSI måske været en oplagt metode at anvende til

at danne grupper af termer til query expansion af brugernes søgetermer, og

det var da også en metode, der blev diskuteret og kraftigt overvejet i

projektets opstartsfase. PLSIs gode resultater er meget tiltalende i forhold til

den usikkerhed i resultaterne fra klyngeanalysen (nogle gange virker det,

andre gange ikke), men alligevel blev metoden fravalgt med hensyntagen til

undersøgelsens datamateriale. Problemet med at skulle bruge PLSI på vores

genstandsområde er, at vi ikke på forhånd kunne vide, om der i tags er en

underliggende, semantisk struktur på samme måde som det forholder sig med

fuld tekst, hvorved hele metodens grundlag kunne forsvinde.

Klyngeanalysen virkede derfor som et mere sikkert valg i forhold til

brugergenererede tags, og hvorvidt PLSI havde givet bedre resultater må stå

hen i det uvisse, men kan absolut ikke udelukkes. Det kunne være meget

interessant at undersøge, om det er muligt at finde f.eks. anden ordens

ligheder blandt tags, og om disse ligheder rent faktisk kan identificere

synonyme relationer. En sådan analyse ville kunne fungere som et argument

for eller imod anvendelsen af PLSI af brugergenererede tags, og derved en

potentiel forbedring af genfindingen af socialt indekserede dokumenter.

Kobling mellem søgeterm og indeksterm

I forlængelse af ovenstående diskussion, vil vi her komme ind på hvordan

query expansion så kan bruges til at skabe en forbindelse mellem de termer

brugeren søger på, og dem indeksøren eller forfatteren har anvendt.

Hele formålet med query expansion er, at finde flere eller mere relevante

poster, end med umodificerede søgninger, fordi man udvider brugerens

søgetermer med andre, der formodes at være relevante, og som formodes at

udvide søgeforespørgslen med nye aspekter. For at query expansion kan

virke, må termerne i første omgang opfylde det kriterium, at de har noget med

de oprindelige søgetermer at gøre, og dernæst at de betegner disse nye

aspekter. I denne sammenhæng har analysen vist, at det virker noget af tiden,

dvs. der er tilfælde, hvor en klynge kan danne meningsfyldte sammenhænge

mellem søgetermer og andre termer, der belyser andre emnemæssige aspekter

af termen, eller virker som synonymer for denne.

For at query expansion virkelig skal virke, er der dog et andet krav, der skal

være opfyldt, nemlig at de termer, som brugerens søgetermer udvides med,

rent faktisk findes i de dokumenter der søges i, enten i form af emneord, eller

som ord i titel, abstract etc. Hvis dette krav ikke er opfyldt kan query

expansion ingen effekt have. Udgangspunktet for nærværende undersøgelse

var primært det første krav, mens dette andet krav i nogen grad er blevet

tilsidesat. Kravet er dog implicit blevet undersøgt idet der er foretaget en

analyse af, hvor mange tags der forekommer i titlen på dokumenter fra

7 ‐ Diskussion Side 89

More magazines by this user
Similar magazines