Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

For at kunne foretage en samlet vurdering af en klynges kvalitet tildeles

klyngen 1 point for hver relation, der opfylder ovenstående krav, hvilket

sættes i forhold til klyngens størrelse (5.16):

(5.16)


Hvor Q er klyngens kvalitet, S antallet af semantiske relationer, T antallet af

emnemæssige relationer, F antallet af frase‐relationer, M antallet af

morfologiske relationer og N det samlede antal potentielle relationer. For en

klynge, der indeholder x termer er antallet af relationer givet ved (5.17):

(5.17)


Resultatet af (5.16) bliver dermed et tal mellem 0 og 1, der udtrykker et

direkte, procentuelt forhold mellem brugbare og ikke‐brugbare relationer.

For at teste H3 udvælges en repræsentativ stikprøve fra det samlede sæt af

klynger, der består af ialt 904 klynger. Med et konfidensinterval på 5% og et

konfidensniveau på 95% kræver det en stikprøve på 270 tilfældigt udvalgte

klynger. Ved hjælp af en 1‐sample T‐test er det muligt at afgøre, om værdierne

er distribueret omkring et forventet gennemsnit. Dette forventede gennemsnit

skal i forhold til H3 repræsentere en værdi, hvor antallet af relationer

”primært” er semantiske eller emnemæssige. Vi har valgt at dette er opfyldt

ved værdier over 0,75 – dette er valgt ud fra et skøn af hvad vi mener der kan

forventes af automatisk genererede klynger, på baggrund af tidligere

erfaringer hermed (Andersen & Tronhus, 2005; Andersen, Tronhus, &

Johansen, 2007). Hvorvidt der kan anvendes T‐test og gennemsnit afhænger

af, om data er normalfordelte, hvis dette ikke er tilfældet er det nødvendigt i

stedet at anvende medianen og en binomial‐test.

På baggrund af dette bliver nul‐hypotesen for H3 (H30):

Der er ingen signifikant forskel på stikprøvens gennemsnit/median og

populationens gennemsnit/median (0,75)

Hvis H30 kan forkastes, betyder det, at der er en signifikant forskel på

stikprøvens gennemsnit og grænseværdien på 0,75. Hvorvidt H3 er opfyldt

afhænger så af, om gennemsnittet er højere eller lavere end 0,75.

5 ‐ Metode Side 60

More magazines by this user
Similar magazines