Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

1

0,1

0,01

0,001

0,0001

0,00001

0,000001

0,000000

1E‐08

1E‐09

1 10 100 1000 10000 100000

Tags 1/x 1/x^2 1/SQRT(x)

Figur 5.2 ‐ Frekvens af tag‐forekomster sammenlignet med standardfordelinger, k=1, k=2,

k=0,5

Data er plottet med logaritmisk skala på begge akser, da reciprokke

funktioner vil give rette linier ved dobbelt logaritmisk skala. Som det ses,

ligger data meget tæt på funktionen med k=0,5 for de første ca. 650 termer, og

ser altså ud til at følge Zipfs lov med k=0,5. De resterende ca. 19.000 termer

ligger også på noget, der minder om en ret linie, hvilket betyder at disse har

en lignende opførsel, men med lidt forskellige parametre. På baggrund af

dette er det sandsynligt, at fordelingen af tags svarer til den måde naturligt

sprog opfører sig på.

Det har den konsekvens, at man kan anvende Hans Peter Luhns teori om

resolving power, der i sin essens går ud på, at nogle ord siger mere om det

dokument de forekommer i end andre (Luhn, 1958). Man skelner således

mellem funktionsord og indholdsbærende ord, hvor det er de sidste, der er

brugbare i forhold til såvel automatisk indeksering, og som konsekvens deraf

query expansion. Luhn mente, at der var en sammenhæng mellem ords

placering i en Zipf‐fordeling og deres resolving power, således at de

mellemfrekvente termer var dem med højest resolving power. De termer der

har den højeste frekvens vil ofte være enten funktionsord, eller ord med så

generel betydning at de ikke adskiller dokumentet fra andre i samlingen. De

ord, der har den laveste frekvens vil derimod være så specifikke, at de ikke

kan siges at beskrive indholdet i samlingen. Teorien kan bruges til automatisk

at producere en stopordsliste, hvorved der kan frasorteres store mængder støj.

5 ‐ Metode Side 28

More magazines by this user
Similar magazines