Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

og umulige måder. For eksempel kan man se på tagget ”712”. Dette er et tag,

der taget ud af sin sammenhæng, er fuldstændigt meningsforladt, idet det blot

er et tal. Undersøger man anvendelsen i CiteULike viser det sig dog, at alle

dokumenter med tagget ”712” er oprettet af samme bruger, og sandsynligvis

er en kode, der har en betydning kun for den bruger. Det kunne for eksempel

være en betegnelse for et fag taggerene følger på sin uddannelse.

Så ja! Det er helt klart en faktor, at dataene er for beskidte til at klyngeanalyse

uden omtanke er et godt værktøj. Der er dog gjort meget for at afhjælpe det,

og det var (naturligvis) vores formodning, at de forholdsregler vi har truffet

(stemming, stopordsliste) i samarbejde med klyngeanalysen ville overkomme

de problemer den uregelmæssige sprogbrug i tags afstedkommer.

Stemmingen ser umiddelbart ud til at gøre det, den skal. Det er naturligvis

ikke optimalt kun at kunne teste det med stikprøver, men den stikprøve, der

er blevet taget viser med stor tydelighed, at det er et minimalt problem, der er

tale om.

Den anden af de tre foreholdsregler, der er truffet i forhold til beskidte data, er

at der er implementeret en standard engelsk stopordsliste over de 172 mest

anvendte funktionsord. Dette antages ikke at have en stor betydning i denne

sammenhæng idet vi formoder, at funktionsord ikke er de mest hyppigt

anvendte til netop tagging. Ikke desto mindre: Hvis de er der skal de væk.

Eller skulle de nu også det. For man kunne måske godt forestille sig, idet vi

har med tags at gøre, og idet strukturen i sproget er en anden end i naturligt

sprog, at hvis der er en, der bruger et funktionsord som tag, så er det fordi det

i det specifikke tilfælde giver mening. Enten det, eller også bruges de som

bindeled i de fraser der ikke burde være der. Og i det tilfælde er der ingen

tvivl om at de skal sorteres fra. Ud over den autoriserede liste over hyppigt

forekommende ord, foretager vi selv en frasortering af de tags, der

forekommer mindst hyppigt. Således at forstå, at tags der forekommer fem

eller færre gange bliver sorteret fra inden vi starter klyngeanalysen.

Uagtet at vi mener vi har gjort vores til at modvirke de problemer, der er med

beskidte data, må vi stadig konstatere at der er noget, der ikke virker, og det

er stadig sådan, at selv om vi har gjort noget for at forbedre situationen, så er

datakvaliteten nok stadig den største fejlkilde ved denne analyse.

7.4 Evaluerings‐ og analysekritik

Af Jens Peter Andersen

Som det er nævnt indtil flere gange i løbet af dette speciale findes der utallige

måder at evaluere relevansvurderede søgeresultater kvantitativt på, og

ligeledes er det ikke givet på forhånd, at det er den kvantitative evaluering,

der er den bedste fremgangsmåde. I dette afsnit vil der blive diskuteret, om

den valgte fremgangsmåde til evaluering af resultater har virket

hensigtsmæssigt.

En afgørende parameter for valget af evalueringsmetode er den type

søgealgoritme der indgår i undersøgelsen. Vi valgte tidligt i undersøgelsen, at

det var en best‐match algoritme vi ville anvende, hvilket betyder, at ranking

7 ‐ Diskussion Side 85

More magazines by this user
Similar magazines