Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

3 Problemformulering

Med udgangspunkt i ovenstående indledning opstilles der her en formulering

af det problemfelt der vil blive undersøgt, og der opstilles på baggrund af

dette en række hypoteser, der ønskes testet.

Genstanden for denne undersøgelse er bruger‐genererede tags fra CiteULike 2 ,

en Internet‐database, der indeholder bibliografiske poster for videnskabelige

artikler og bøger, oprettet af brugerne af databasen. Udover denne forskel fra

klassiske bibliografiske databaser, hvor indholdet styres af professionelle

indeksører, indeholder CiteULike en mulighed for at brugere kan tildele tags

til deres poster, som en slags ukontrollerede emneord.

Undersøgelsens formål er, at undersøge om indsamlede tags fra CiteULike, og

deres indbyrdes koforekomster er anvendelige som basis for en

klyngeanalyse med henblik på automatisk query expansion. Dette ud fra en

antagelse om, at der findes en korrelation mellem bruger‐genererede

emneord og brugergenererede søgeforespørgsler. Da det er brugeren, der er

centrum for undersøgelsen, er det derfor heller ikke de klassiske

recall/precision mål, i en exact‐match søgealgoritme, der søges forbedret

gennem query expansion, men derimod en test af to rankede best‐match

søgesystemer med samme søgealgoritme, men henholdsvis med, og uden

query expanion, og deres respektive performance, som målt gennem deres

evne til effektivt at ranke et søgesæt

Dette fører til følgende hypoteser, som ønskes testet gennem undersøgelsen:

H1. Automatisk query expansion ved hjælp af klynger dannet af bruger‐

genererede tags, fra en videnskabelig database, kan forbedre ranking af

søgninger i en bibliografisk database bestående af videnskabelige

dokumenter, indekseret og fremfundet vha. en best‐match algoritme.

H2. Query expansion med bruger‐genererede tags, fra en videnskabelig

database, kan returnere flere højrelevante dokumenter i den højest

rankede del af et søgesæt.

H3. Klynger dannet på baggrund af koforekomstanalyse af tags fra en

videnskabelig database består primært af termer med semantiske og

emnemæssige relationer.

H1 og H2 vil blive undersøgt ved hjælp af et brugerorienteret perspektiv,

således at alle relevansvurderinger og søgetermer skal være brugerafhængige.

Det er således brugernes egne søgeforespørgsler og egne vurderinger af

søgesættene der er afgørende for resultatet. Derfor er det heller ikke hensigten

med hypotesetesten at afsige generelle lovmæssigheder, men derimod at teste

hvad resultatet er i det specifikke tilfælde, for dermed at kunne indikere

mulige områder til videre undersøgelse.

2 http://www.citeulike.org

3 ‐ Problemformulering Side 9

More magazines by this user
Similar magazines