Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Anvender man CG (Cumulated Gain) uden modifikation af Discount‐

logaritmen (se nedenfor) opnår man såvel en visuel fortolkning af søgesættet

samt en slutværdi, der angiver den kumulerede gain, d.v.s. summen af den

numeriske værdi af relevanskategorierne, som et udtryk for hvor meget

relevant der er fundet, uden at komme ind på hvor mange dokumenter det

drejer sig om. Så længe der anvendes den samme relevansskala i alle tilfælde,

som det gælder for denne undersøgelse, er det derfor et enkelt og effektivt

udtryk for, om der i en søgning er fundet mere relevant end i en anden. CG vil

derfor blive brugt til at afgøre om der er sket forbedringer i mængden af

relevans, dvs. en kombination af antallet af relevante dokumenter og hvor

relevante de er. Vi mener, at dette mål i virkeligheden er mere interessant end

blot at se på, hvor mange relevante dokumenter der er fundet, da det øger

fokus på de højrelevante dokumenter, og dermed giver flere informationer

end rent recall.

CG tilbyder også en visuel fremstilling af hvor godt et søgeresultat er ranket,

og her hjælper Discount‐faktoren med at visualisere det, ved at minimere

indflydelsen af relevante dokumenter, der først findes sent i søgeresultatet, da

brugere ofte vil fokusere på de højest rankede dokumenter. Dette opnås ved at

dividere relevansen fundet på en given post med logaritmen af rank‐værdien,

hvorved den kumulerede gain påvirkes mindre af relevante dokumenter

fundet sent i søgesættet, end af dokumenter fundet i starten af søgesættet.

Hvis man afbilder både CG‐ og DCG‐kurver for et søgeresultat samt for en

ideelt sorteret udgave af samme søgesæt, så vil CG‐kurverne altid slutte på

samme værdi, hvorimod dette ikke er tilfældet for DCG, medmindre det

oprindelige søgesæt er idéelt sorteret. Dette vises nedenfor i Figur 5.6:

20

18

16

14

12

10

8

6

4

2

0

CG

0 5 10 15 20

Original Ideal

Figur 5.6 ‐ CG og DCG‐kurver for samme datasæt

I ovenstående eksempel er der anvendt en 2‐talslogaritme som discount‐

faktor, hvilket er den logaritmefunktion Järvelin & Kekäläinen foreslår, for

bedst at simulere brugeres utålmodighed (Järvelin & Kekäläinen, 2000). At

modificere relevans til en værdi, der ligger udenfor de ordinale kategorier er

5 ‐ Metode Side 54

12

10

8

6

4

2

0

DCG

0 5 10 15 20

Original Ideal

More magazines by this user
Similar magazines