Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I single link metoder defineres ligheden mellem to klynger som den største

lighed der kan findes mellem to elementer fra hver sin klynge. Tilsvarende,

eller modsat, forholder det sig med complete link metoden, hvor det er den

mindste lighed mellem to elementer der afgør hvornår to klynger kan føjes

sammen. Average link, er altid en attraktiv mellemting, afhængig af hvilken

definition af average der anvendes. Der findes mange forskellige måder at

udregne den gennemsnitlige lighed mellem to konkrete klynger. Men ingen af

dem lever op til det krav der her stilles til klyngekvaliteten.

Den væsentligste parameter for valget af klyngealgoritme og lighedsmål er at

vi ønsker så tætte klynger som muligt. Query expansion drejer sig naturligvis

om at udvide søgninger, men givet tidligere erfaringer med automatisk

klyngedannelse som viser, at klynger dannet på denne måde har en tendens til

at indeholde uforholdmæssigt mange støjtermer, altså termer der ikke

bidrager til kvaliteten af de søgninger de anvendes i (Andersen & Tronhus,

2005; Andersen, Tronhus, & Johansen, 2007; Tronhus M. J., 2008) ønsker vi, at

de klynger der skal bruges som basis for udvidelsen har en meget høj intern

konsistens (at der ikke er for stor forskel på lighedsværdierne internt i en

klynge). Og en meget høj intern lighed. Dermed er det oplagte valg for

klyngealgoritmen complete link, idet det giver den største interne konsistens i

klyngerne.

Givet det ovenfor valgte lighedsmål og klyngealgoritme, er udfordringen

derefter at vælge en grænseværdi for hvor stor lighed vi vil kræve internt i

klyngen. Givet valget af complete link klynger dannet ved hjælp af Ochiai

lighedsmålet, skal det besluttes hvilken grad af lighed vi vil sætte som grænse

for at tilføje et nyt objekt til en klynge. Der er to forhold der spiller ind på

valget af grænseværdien. Det ene er, at i forhold til at bevare en så høj

integritet i klyngerne som muligt, ønskes det at sætte grænseværdien meget

højt. Det vil medføre, at vi får mange små klynger. Dernæst er der det forhold,

at vi ønsker at identificere de klynger der giver den bedste performance i det

endelige system. I relation til det, er det muligt det bliver nødvendigt at gå lidt

på kompromis med førnævnte integritet. Den højeste integritet findes i

singleton klynger, men de er ikke specielt velegnede som basis for query

expansion. Derfor er det nødvendigt at finde en metode til at afgøre hvor

meget vi skal gå på kompromis med integriteten før vi har et ʺfornuftigtʺ antal

klynger. Den sædvanlige fremgangsmåde er, at teste forskellige værdier og

forsøge at evaluere hvilken der giver de bedste klynger til det givne formål.

Hvis denne metode skal opfylde videnskabelige kriterier for reproducerbare

resultater, er det nødvendigt på forhånd at definere nogle krav til de ønskede

klynger. Disse krav kan enten defineres ud fra et ønsket absolut antal, et

ønsket antal i forhold til antallet af objekter eller ud fra nogle relationer

mellem konkrete objekter i datamaterialet der skal være opfyldt.

Metoden med at specificere et ønsket antal klynger, enten absolut, eller

udtrykt i forhold til antal objekter har den ulempe, at den strider imod den

resterende metode, idet klyngeanalysen som helhed stræber mod at

identificere de ʺnaturligeʺ klynger i et datamateriale. Den anden metode, hvor

5 ‐ Metode Side 44

More magazines by this user
Similar magazines