Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Givet at vi har valgt det store tekstvindue, er der også mulighed for at

diskutere om koforekomsterne udelukkende er en binær sammenhæng, eller

om der skal tages højde for de tilfælde, hvor et tag forekommer flere gange til

samme bibliografiske post. Det kunne muligvis være interessant at se på hvad

anvendelsen af numeriske vægte i stedet for den binære vægtning kunne

medføre af detaljeringsgrad i undersøgelsen. Men det giver datamaterialet fra

CiteUlike desværre ikke mulighed for.

Lighedsmål

Idet de data der skal sammenlignes, er binære, er det nødvendigt at finde en

analysemodel der egner sig til denne type data. En tidligere anvendt model til

analyse af lighedsmål er den Jones og Furnas (Jones & Furnas, 1987) opstiller,

der ser på vinkel og længde af de givne vektorer. Denne metode egner sig dog

ikke særligt godt til analyse af lighed mellem binære vektor idet længden af

disse ikke varierer særligt meget. I stedet for denne metode andvendes den

metode som Anderberg (Anderberg, 1973) anvender. Her stilles de forskellige

match‐situationer i vektorsammenligningen op i følgende kontingenstabel, og

lighedsmålene formuleres derefter i forhold til denne.

Vektor A

Vektor B

1 0 Total

1 a b a+b

0 c d c+d

Total a+c b+d n

Tabel 5.5 ‐ Kontingenstabel

Hvor a signifierer et positivt match, altså hvor begge de sammenlignede

værdier er 1, eller i relation til nærværende problemstilling: Den situation,

hvor begge tags forekommer i samme post.

Og hvor d signifierer den situation, hvor begge de sammenlignede værdier er

0, eller i relation til klyngeanalysen, den situation hvor der ikke er nogen af de

sammenlignede termer der er tilknyttet som tags til det konkrete dokument.

Og hvor b og c er de tilfælde, hvor den ene term er tilknyttet dokumentet, og

den anden ikke er.

Det er muligt, ud fra denne tabel, at definere en lang række af forskellige

lighedsmål, der hver især har forskellige fokusområder. Her skal blot

præsenteres et par stykker af de mest almindelige, og kort diskuteres hvilke

fordele og ulemper de hver især har i relation til det konkrete formål for den

efterfølgende klyngeanalyse.

5 ‐ Metode Side 35

More magazines by this user
Similar magazines