Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Den simpleste adgang til en stor mængde brugergenererede termer, er de

efterhånden allestedsnærværende internetbaserede tagging systemer, hvor

alle brugere af et system har mulighed for at knytte tags til de materialer, der

er i systemet, og dermed mulighed for at indikere overfor hinanden, hvad den

enkelte mener er det relevante fokus for materialet. Dette muliggør en form

for indeksering, der tager højde for mange af de problemer der er forbundet

med den traditionelle manuelle indeksering. Blandt andet udfordringerne i

forhold til exhaustivitet og specificitet i indekseringen. Det bliver med et

sådant system unødvendigt at bekymre sig om, at søge på samme niveau som

indekseringen, idet der i teorien er lavet så mange indekseringer, at alle

niveauer er dækket. Tilsvarende er sprogbrugen i søgesituationen også triviel,

idet indekseringen i teorien også er lavet på de sprog der forventes anvendt i

forhold til det konkrete system.

Det er væsentligt her at bemærke, at der i ovenstående ofte bruges udtryk som

”i teorien” og ”ideelle situation”, for det er netop udfordringen med tagging i

øjeblikket. Det er potentielt et meget stærkt værktøj til at overkomme mange

indekseringsvanskeligheder, men det er også vist tidligere, blandt andet af

Tronhus (Tronhus, 2008), at det ikke er hensigtmæssigt, at anvende disse tags,

og deres koforekomstmønster som grundlag for en automatisk query

expansion.

Et af de problemer der blev identificeret af Tronhus er, at taggere ikke

nødvendigvis overholder de retningslinier en systemdesigner har lavet til et

givent taggingsystem. Det viser sig desværre, at de har en tendens til at tildele

tags så ukontrolleret, at enhver analyse af koforekomster er fejlbehæftet fra

starten. Datamaterialet er simpelthen ikke konsistent nok, til at de

identificerede relationer mellem tags er brugbare. Problemet ved de generelle

tagging systemer er, at brugernes motivation for at bruge systemet er meget

individuel, hvor nogen tagger et dokument for at gøre det tilgængeligt for

andre brugere, tagger andre udelukkende for sig selv. Der er andre parametre

man kan klassificere taggere, og deres tags, efter. Men den væsentligste pointe

her, er at tags er af så forskellig karakter, at de generelle tagging systemer ikke

egner sig som datagrundlag for query expansion

På baggrund af disse erfaringer med uforudsigelige brugere, vil nærværende

projekt i stedet beskæftige sig med tagging indenfor et videnskabeligt område.

Nærmere bestemt indenfor det medicinske/sundhedsvidenskabelige domæne.

Et domæne der er kendt og respekteret indenfor IR forskningstraditionen for

deres store sproglige disciplin. Udgangspunktet for denne analyse er følgelig,

at undersøge, om tags genereret af et fagligt homogent community, samlet om

medicin/sundhedsvidenskab er bedre egnet som datagrundlag for

ovennævnte query expansion.

Med denne analyse in mente, er det også nødvendigt, at overveje hvorledes

man afgør, om et alternativt system er bedre respektivt ringere end det

oprindelige. Dette er en ligeså gammel disciplin, som den ovennævnte, idet

2 ‐ Indledning Side 6

More magazines by this user
Similar magazines