Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

kan udtrykkes som vinklen imellem de to vektorer. Der er derfor heller ingen

fare for, at de to vektorer kan udtrykkes som en skalering af hinanden (5.13),

og dermed opnår høje ligheder, uden at de rent faktisk ligner hinanden.

(5.13)

Vinklen mellem to vektorer forstås bedst, når man kun arbejder med to

dimensioner, da det er svært, eller endda umuligt, at forestille sig vinkler i

flere dimensioner. Men uanset hvor mange dimensioner man arbejder med (i

dette tilfælde maksimalt 50, da der i et søgeresultat indgår maksimalt 50

poster) er måden at beregne vinklen på den samme. Den beregnes ved hjælp

af cosinus‐formlen, der er nøjagtig lig det cosinus‐lighedsmål, der anvendes til

fremstilling af klyngerne (se afsnit 5.4.1 for nærmere beskrivelse). Vinklen ϕ

mellem to vektorer A og B er udtrykt som (5.14):

(5.14) ·

||||

Brøken består af skalarproduktet mellem de to vektorer (dividend) og

produktet af deres euklidiske længder (divisor). Dette kan omskrives til en

algebraisk formulering, der i højere grad illustrerer hvordan cosinus‐ligheden

(COSIM) fungerer (5.15):

(5.15) ,








Som sagt er længderne identiske for de to vektorer, og afhænger ikke på

nogen måde af hvordan de enkelte værdier er placeret inde i vektorerne. Det

er altså kun skalarproduktet der påvirkes. Da skalarproduktet er en sum af

produkter mellem de enkelte dimensioner, der indeholder ordinale data, er

der for hvert enkelt produkt 3 mulige udfald:

• 0‐værdi i begge vektorer. Når der forekommer 0‐værdier i begge

vektorer på samme position påvirker dette hverken længden eller

skalarproduktet, hvorfor situationen ikke påvirker det endelige

resultat.

• 0‐værdi i én vektor. Når der forekommer en 0‐værdi i en vektor

samme sted som en positiv‐værdi i en anden vektor bliver produktet 0,

hvorved ligheden påvirkes negativt.

• Ingen 0‐værdier. Når der forekommer positiv‐værdier på samme

position i begge vektorer opnås et produkt større end 0, hvilket

påvirker ligheden positivt. Jo tættere værdierne er på hinanden, jo

højere bliver ligheden.

Af ovenstående ses, at cosinus‐ligheden udtrykker en direkte sammenhæng

imellem hvordan det oprindelige søgesæt er ranket, sammenlignet med den

idéelle ranking.

5 ‐ Metode Side 56

More magazines by this user
Similar magazines