Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Frekvens

700

600

500

400

300

200

100

0

Figur 5.1 – Frekvens af tags i titler

Skævheden for datamaterialet er beregnet til 1,83 hvilket klart bekræfter det

diagrammet viser, nemlig at der er en kraftig skævhed, hældende til venstre

side, således at det for rigtig mange dokumenter gælder, at ingen eller meget

få tags kan findes i deres titel, mens de resterende dokumenter er fordelt

nogenlunde jævnt over hele intervallet, dog primært den lave ende.

Konklusionen er, at tags i høj grad tilfører ny viden omkring dokumentet i

forhold til titlen. Havde abstract eller fuld tekst været medtaget, ville man

sandsynligvis have fundet flere tags repræsenteret der; Fuld tekst er dog ikke

tilgængelig gennem CiteULike og abstracts er kun meget sjældent angivet,

derfor har det ikke været relevant at sammenligne med disse.

Frekvensfordeling

Frekvensfordelingen af tags er primært foretaget for at kunne afgøre i hvor høj

grad fordelingen svarer til naturligt sprog. Dette tager udgangspunkt i George

Kingsley Zipfs lov, der siger at i et korpus af naturligt sprog, vil frekvensen af

alle termer følge en reciprok funktion af deres rang, eller udtrykt som i (5.1):

(5.1)

Tags i titler (%)

For k=1 betyder det, at den mest frekvente term forekommer dobbelt så mange

gange som den næstmest frekvente, og tre gange så ofte som den tredje, osv.

En analyse af et tekstkorpus’ frekvensfordeling vil derfor kunne indikere om

det anvendte sprog følger samme fordeling som et naturligt sprog. Derfor er

de 19.630 unikke termer fra den originale høstning af CiteULike blevet

analyseret, og resultatet vises her nedenfor sammen med nogle forskellige,

typiske parametre for k, nemlig k=0,5, k=1, k=2:

5 ‐ Metode Side 27

More magazines by this user
Similar magazines