Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

6.3 Analyse af klyngekvalitet

I det følgende evalueres og analyseres kvaliteten af de fundne klynger i

henhold til den metode, der er beskrevet i afsnit 5.4.6. Der vil både fremgå

statistiske test af H3, samt kvalitative analyser af udvalgte klynger, for at

illustrere fremgangsmåden.

Som det fremgår af metodeafsnittet nævnt foroven er der tilfældigt udvalgt

270 klynger som repræsentativ stikprøve for det samlede datasæt på 904

klynger. Disse er blevet analyseret for at identificere de fire typer af relationer;

semantiske (S), emnemæssige (T), frase (F) og morfologiske (M) i forhold til

det samlede antal relationer i en given klynge (N). I det følgende vil der blive

skelnet mellem antallet af potentielle relationer i en klynge og klyngens

størrelse (n), hvor sidstnævnte er antallet af termer i klyngen, omend disse

hænger direkte sammen.

For at synliggøre hvordan evalueringen har fundet sted vil der her blive vist

eksempler på både store og små klynger, både når de opnår høj og lav

kvalitet.

Det første eksempel er en meget lille klynge, med kun to elementer, hvor der

ikke opnås nogen meningsfyldt relation (Figur 6.9). Klyngen er tilfældigt

udvalgt blandt mange lignende klynger, hvor der tilsyneladende ikke er

nogen sammenhæng mellem termerne overhovedet.

Figur 6.9 ‐ Lille klynge uden relationer (Plagiarism ‐ 712)

I dette specifikke tilfælde er især termen ”712” meningsløs, idet det blot er et

tal. Undersøger man anvendelsen i CiteULike viser det sig, at alle dokumenter

med tag’et 712 er oprettet af samme bruger, og sandsynligvis er en kode, der

har en betydning kun for den bruger, f.eks. som betegnelse for et

universitetsfag.

6 ‐ Analyse Side 71

More magazines by this user
Similar magazines