Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

6.2 Analyse af cumulated gain

Cumulated gain anvendes i denne analyse til to forskellige ting, nemlig som

det fremgår af forrige afsnit, at identificere søgeresultater med et vist

minimum af relevante dokumenter, og til at supplere analysen af ranking

performance med et udtryk for hvor meget relevant der findes i de forskellige

situationer. Dette relaterer sig til den anden forskningshypotese, H2:

Query expansion med bruger‐genererede tags, fra en videnskabelig

database, kan returnere flere højrelevante dokumenter i den højest

rankede del af et søgesæt.

Denne hypotese ønskes undersøgt ved hjælp af CG(20), dvs. cumulated gain

for de første 20 resultater (se afsnit 5.4.5). Den kvantitative analyse tager

udgangspunkt i H2’s nulhypotese:

Søgeresultater, der er blevet til på grundlag af query expansion,

returnerer lige så mange højrelevante dokumenter som søgeresultater,

der ikke er blevet til på grundlag af query expansion, på de første 20

poster i et ranket søgeresultat.

I det følgende vil vi søge at be‐ eller afkræfte nulhypotesen, for derved at

kunne sige noget om H2. Analysen er især interessant, da der ikke er nogen

signifikant forskel på hvor godt søgeresultaterne er ranket i forhold til

anvendelsen af query expansion. En eventuel forskel i cumulated gain vil

derfor kunne afgøre, hvorvidt query expansion har haft en effekt eller ej.

Første trin i analysen er, at afgøre, om CG(20)‐værdierne er normalfordelte.

Der er til denne del ikke noget minimumskrav for cumulated gain, men

analysen vil alligevel kun blive udført på de samme data som blev anvendt til

testen af H1, for at gøre analyserne sammenlignelige. I Figur 6.5 vises et

histogram for CG(20):

6 ‐ Analyse Side 66

More magazines by this user
Similar magazines