Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Simple match

(5.4)


Den helt simple matching, er forholdet mellem den mængde tilfælde, hvor de

to vektorer har samme værdi, og den samlede mængde tilfælde der kan

undersøges. Det vil sige, i hvor stor en del af vektorens dimensioner er der

overensstemmelse mellem de to vektorer.

Der diskrimineres ikke mellem positive og negative match, og som lighedsmål

giver det altså lige så stor værdi når det sammenligner to termer uden nogen

koforekomster, som når det sammenligner to termer med mange

koforekomster, så længe der er lige mange tilfælde, hvor den ene term

forekommer uden den anden.

d1 d2 d3 d4 d5 d6 d7 d8 d9 d10

t1 0 0 0 0 0 1 0 1 0 1

t2 0 0 0 0 0 0 1 0 1 0

t3 1 1 1 1 1 1 0 1 0 1

t4 1 1 1 1 1 0 1 0 1 0

t5 1 1 1 1 1 0 0 0 0 0

Tabel 5.6 ‐ Term×dokument matrice

Som ovenstående tilfælde, hvor den simple matching algoritme giver den

samme lighed mellem t1 og t2 (0+5/10), som mellem t3 og t4 (5+0/10). Det er i

det konkrete tilfælde en klar svaghed, at målet giver lige så stor vægt til de

negative match, som til de positive match. Det kan ikke afvises, at de negative

match kan spille en rolle i definitionen af ligheden mellem vektorerne, men i

ovenstående tilfælde demonstreres absurditeten idet der gives lige stor lighed

til to termer der aldrig forekommer sammen, som til to termer der

forekommer sammen i halvdelen af de mulige tilfælde.

Simple

Match

t1 t2 t3 t4 t5

t1 1

t2 0,5 1

t3 0,5 0 1

t4 0 0,5 0,5 1

t5 0,2 0,3 0,7 0,8 1

Tabel 5.7 ‐ Term×term matrice, simple match

5 ‐ Metode Side 36

More magazines by this user
Similar magazines