Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Query expansion med sociale tags til forbedret ranking af

søgeresultater

Skrevet af Jens Peter Andersen og Mikkel Just Tronhus, 23. maj 2008.

Kandidatspeciale, Danmarks Biblioteksskole, Aalborg

Antal ord: 31.212

Vejleder: Jesper W. Schneider

ABSTRACT

Specialet undersøger effekten af automatisk query expansion i en konkret sammenhæng.

Udvidelserne af søgeforespørgslerne sker på baggrund af klynger indeholdende tags,

fundet gennem koforekomstanalyser af tags fra den bibliografiske database CiteULike.

Klyngerne er dannet som complete link klynger ved hjælp af en hierarkisk agglomerativ

klyngealgoritme, med anvendelse af Ochiai lighedsmålet, og en fast tærskelværdi på 0,2.

Der implementeres automatisk stemming i form af Porter‐stemmeren, samt en

stopordsliste og en nedre grænseværdi for frekvensen af tags der inkluderes i

klyngeanalysen. Testen af systemet er udført på et medicinsk bestmatch

informationssystem, og effekten måles ved hjælp at en kombination af simulated

worktask og to forskellige evalueringsmetoder, Cumulated Gain, og Relex.

ENGLISH ABSTRACT

This thesis investigates the effect of automatic query expansion in a specific setting. The

expansions of the requests are based on a collection of clusters of tags as discovered

through cooccurence analysis of tags from the bibliographic database CiteULike. The

clusters are formed as complete link clusters through a hierarchic agglomerative

clustering algorithm utilizing the Ochiai similarity measure, and a threshold for similarity

between objects fixed on 0.2. Automatic stemming in the form of the Porter‐stemmer has

been implemented, as well as a stopword list and a lower frequency threshold for

inclusion of tags in the clustering algorithm. The system has been tested on a medical

bestmatch informations system, and the effect is measured through a combination of

simulated worktasks and two separate methods of evaluation, Cumulated Gain and

Relex.

Jens Peter Andersen

Mikkel Just Tronhus

1 ‐ Indholdsfortegnelse Side 1

More magazines by this user
Similar magazines