Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I bilag 10 præsenteres en mængde mere realistiske eksempler på

koforekomstdata, samt nogle flere forskellige lighedsmål, nemlig Rogers‐

Tanimoto (5.8), Russel‐Rao (5.9), Kulczynski (5.10) og produkt‐moment

korrelation (5.11):

(5.8)

(5.9)




(5.10)


(5.11)

||



Nærmere bestemt den samling Anderberg anvender i sin bog (Anderberg,

1973).

Disse data præsenteres her som et plot af de syv mest anvendelige lighedsmål,

og hvordan de forholder sig til 25 forskellige vektorsammenligninger. Det

ottende lighedsmål, som ikke plottes er Kulsczynski, som vurderes at være

uegnet, på grund at dets manglende normalisering. Det er ikke, som de andre

begrænset i maksimal værdi, og egner sig dermed ikke til at blive medtaget i

samme analyse som de andre.

Som det fremgår af figur 5.4, er der nogle af lighedsmålene der kan sorteres

fra med det samme, nemlig Rogers‐Tanimoto og Simple Matching. De lider

begge af den, i dette tilfælde, svaghed, at de vægter negative match lige så højt

som positive match, hvilket er i direkte modstrid med det ønskede i dette

tilfælde. Derudover antyder figuren, at Russel‐Rao ikke er i stand til at

diskriminere mellem de forskellige ligheder. Men dette er blot et spørgsmål

om manglende detaljegrad på plottet. Som det fremgår af bilag 10 har Russel‐

Rao faktisk tildelt forskellige lighedsværdier til vektorparene, de er ikke

specielt godt differentieret, men de er der, og det ses også at de følger samme

mønster som de øvrige.

5 ‐ Metode Side 40

More magazines by this user
Similar magazines