Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

fald søgninger på tags væsentlig bedre, mens den anden adfærd måske også

kan udnyttes, men i hvert fald ikke forbedrer søgninger på tags.

Som det fremgår af eksemplet ovenfor er der ikke anvendt ét bestemt

specialtegn som frase‐indikator, men vi har været så heldige, at Porter‐

stemmer algoritmen også har taget højde for dette, og grupperet mange fraser,

hvor den eneste forskel var hvilket tegn der adskilte ordene i frasen. Havde

dette ikke været tilfældet, skulle det have været tilføjet andetsteds i

undersøgelsen, da både frekvenserne og koforekomsterne af termerne ellers

ville have manglet væsentlige oplysninger.

Fraser er i sig selv problematiske i forhold til automatisk indeksering, da man

aldrig med sikkerhed kan vide, om to ord der står ved siden af hinanden er en

frase. Det er muligt, at foretage statistiske og grammatiske analyser, der kan

sandsynliggøre det, men hvis der findes fraser der ligner hinanden meget,

f.eks. magnetic resonance imaging og magnetic resonance angiography, bliver de

statistiske indikatorer mindre tydelige, ligesom det er svært at identificere

lange fraser, eller at koble visse fraser til deres forkortelser.

Ved at CiteULike og andre tagging‐databaser har valgt, at begrænse tags til

enkeltord, får vi faktisk et nyt redskab til at finde fraser. Identificerer man

først fraser ved hjælp af de mest hyppige specialtegn til formålet, og supplerer

man dette med statistiske metoder, vil man med langt højere sikkerhed kunne

genkende fraser.

Også i vores evaluering af klyngekvaliteten er der blevet identificeret et vist

antal fraser, og det vil sige fraser, dannet på baggrund af enkeltord, som ikke

allerede var fraser på forhånd i CiteULike. Det kunne i den sammenhæng

have været interessant at registrere de enkelte tags rækkefølge i dokumentet,

for at se, om der var nogle tags der skilte sig ud ved altid at følge efter

hinanden, og på den måde sandsynliggøre en frase. Hvorvidt en sådan

analyse ville give brugbare resultater, eller om det blot ville vise, at en bestemt

bruger altid tildeler sine tags i en bestemt rækkefølge er umuligt at sige på

forhånd. Evt. ville metoden kunne kombineres med ovenstående egenskaber,

således at der hvor human og diversity er tildelt samme dokument, i korrekt

rækkefølge, betragtes ordene som frase, fordi termen human_diversity ligeledes

eksisterer i databasen. En sådan fremgangsmåde vil betyde en væsentlig øget

kompleksitet i klyngeanalysen, hvilket ikke nødvendigvis er en fordel, men

lige netop i forbindelse med fraser vil det muligvis kunne betale sig.

7.6.2 Klyngemetode

Af Mikkel Just Tronhus

Klyngeanalyse er, som det fremgår af metoden en analyseform der inkluderer

mange forskellige undermetoder. En af disse undermetoder er selve

klyngealgoritmen, altså definitionen af hvorledes objekterne knyttes sammen.

Der vælges i dette tilfælde en complete link algoritme, men det er et af de

områder hvor der findes interessante alternativer. En af ulemperne ved

complete link metoden er, at den ofte medfører en forholdsvist lav

7 ‐ Diskussion Side 91

More magazines by this user
Similar magazines