Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret

ranking af søgeresultater

Kandidatspeciale af

Jens Peter Andersen Mikkel Just Tronhus

23. maj 2008, 31.212 ord

Danmarks Biblioteksskole • Frederik Bajers Vej 7K • 9220 Aalborg Ø


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Query expansion med sociale tags til forbedret ranking af

søgeresultater

Skrevet af Jens Peter Andersen og Mikkel Just Tronhus, 23. maj 2008.

Kandidatspeciale, Danmarks Biblioteksskole, Aalborg

Antal ord: 31.212

Vejleder: Jesper W. Schneider

ABSTRACT

Specialet undersøger effekten af automatisk query expansion i en konkret sammenhæng.

Udvidelserne af søgeforespørgslerne sker på baggrund af klynger indeholdende tags,

fundet gennem koforekomstanalyser af tags fra den bibliografiske database CiteULike.

Klyngerne er dannet som complete link klynger ved hjælp af en hierarkisk agglomerativ

klyngealgoritme, med anvendelse af Ochiai lighedsmålet, og en fast tærskelværdi på 0,2.

Der implementeres automatisk stemming i form af Porter‐stemmeren, samt en

stopordsliste og en nedre grænseværdi for frekvensen af tags der inkluderes i

klyngeanalysen. Testen af systemet er udført på et medicinsk bestmatch

informationssystem, og effekten måles ved hjælp at en kombination af simulated

worktask og to forskellige evalueringsmetoder, Cumulated Gain, og Relex.

ENGLISH ABSTRACT

This thesis investigates the effect of automatic query expansion in a specific setting. The

expansions of the requests are based on a collection of clusters of tags as discovered

through cooccurence analysis of tags from the bibliographic database CiteULike. The

clusters are formed as complete link clusters through a hierarchic agglomerative

clustering algorithm utilizing the Ochiai similarity measure, and a threshold for similarity

between objects fixed on 0.2. Automatic stemming in the form of the Porter‐stemmer has

been implemented, as well as a stopword list and a lower frequency threshold for

inclusion of tags in the clustering algorithm. The system has been tested on a medical

bestmatch informations system, and the effect is measured through a combination of

simulated worktasks and two separate methods of evaluation, Cumulated Gain and

Relex.

Jens Peter Andersen

Mikkel Just Tronhus

1 ‐ Indholdsfortegnelse Side 1


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

1 Indholdsfortegnelse

1 Indholdsfortegnelse ................................................................................................. 2

2 Indledning ................................................................................................................. 4

3 Problemformulering ................................................................................................ 9

4 Review ..................................................................................................................... 11

4.1 Query Expansion ............................................................................................ 11

4.2 Klyngeanalyse ................................................................................................. 14

4.3 Evaluering af genfindingssystemer .............................................................. 15

5 Metode ..................................................................................................................... 19

5.1 Fremgangsmåde .............................................................................................. 19

5.2 Tilgang .............................................................................................................. 19

5.2.1 Teoretisk baggrund ................................................................................ 20

5.2.2 Begrebsafklaring ..................................................................................... 22

5.2.3 Litteratur .................................................................................................. 23

5.3 Data ................................................................................................................... 24

5.3.1 Indsamling ............................................................................................... 24

5.3.2 Egenskaber ............................................................................................... 25

5.3.3 Gruppering af termer ............................................................................. 29

5.4 Anvendte metoder .......................................................................................... 33

5.4.1 Klynger ..................................................................................................... 33

5.4.2 Simulated work‐tasks ............................................................................. 45

5.4.3 Søgning med query expansion .............................................................. 47

5.4.4 Relevansvurdering ................................................................................. 50

5.4.5 Evaluering af Query Expansion ............................................................ 53

5.4.6 Evaluering af Klyngekvalitet ................................................................ 59

6 Analyse .................................................................................................................... 61

6.1 Analyse af ranking performance .................................................................. 61

6.2 Analyse af cumulated gain ............................................................................ 66

6.3 Analyse af klyngekvalitet .............................................................................. 71

6.4 Opsamling ........................................................................................................ 81

7 Diskussion ............................................................................................................... 82

7.1 Effekt af query expansion .............................................................................. 82

7.2 Erkendte interne fejlkilder ............................................................................. 83

7.3 Erkendte eksterne fejlkilder........................................................................... 84

7.4 Evaluerings‐ og analysekritik ....................................................................... 85

7.5 Alternative fremgangsmåder ........................................................................ 88

7.6 Videreudvikling .............................................................................................. 90

7.6.1 Fraser ........................................................................................................ 90

7.6.2 Klyngemetode ......................................................................................... 91

8 Konklusion .............................................................................................................. 93

9 Litteratur ................................................................................................................. 95

1 ‐ Indholdsfortegnelse Side 2


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Bilag 1. Klynger med tærskelværdi 0,2 ................................................................ 101

Bilag 2. Klynger med tærskelværdi 0,3 ................................................................ 111

Bilag 3. Klynger med tærskelværdi 0,4 ................................................................ 118

Bilag 4. Klynger med tærskelværdi 0,5 ................................................................ 123

Bilag 5. Klynger med tærskelværdi 0,6 ................................................................ 126

Bilag 6. Klynger med tærskelværdi 0,7 ............................................................... 128

Bilag 7. Klynger med tærskelværdi 0,8 ................................................................ 130

Bilag 8. Klynger med tærskelværdi 0,9 ................................................................ 131

Bilag 9. Oversigt over datamateriale .................................................................... 132

Bilag 10. Eksempler på koforekomstdata .............................................................. 133

1 ‐ Indholdsfortegnelse Side 3


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

2 Indledning

Alle informationssystemer, fra biblioteket i Alexandria til Wikipedia 1 har en

ting til fælles: De forsøger at placere materialer, der omhandler samme emne

ʺi nærhedenʺ af hinanden. Formålet med dette er naturligvis, at en

informationssøger, eller skulle man hellere sige videnssøger, bliver

præsenteret for noget andet og mere, end det, der specifikt blev søgt efter. Det

vil sige, at søgeren ikke blot finder det, der søges efter, men også noget andet.

Dette andet skulle gerne være noget søgeren finder relevant, eller i det

mindste interessant. Udfordringen for ethvert system, der vil gøre brug af

denne teknik, er at afgøre hvilke materialer, der skal knyttes sammen, og

dermed præsenteres sammen. I Alexandria blev dette gjort manuelt, ved at

bibliotekaren bestemte hvor de enkelte materialer skulle opbevares, og

dermed hvilke materialer, der blev ʺopdagetʺ i genfindingsprocessen. Det

medførte dog visse hovedpiner for den stakkels bibliotekar, der skulle beslutte

sig for, hvilken form for relation materialerne skulle sorteres efter. Det vil sige,

skulle de arrangeres kronologisk, således, at dokumenter fra samme

tidsperiode ville blive genfundet sammen, eller skulle man arrangere dem

alfabetisk efter titel, således at dokumenter med ens titler blev genfundet

sammen. Eller skulle man forsøge at afgøre entydigt hvilket emne et givent

dokument drejer sig om? Dette stiller igen den stakkels bibliotekar overfor en

ny hovedpine, for hvordan afgør man entydigt hvilket emne det enkelte

dokument omhandler? I nogle tilfælde er det elementært, i andre er det

fuldstændigt umuligt.

Det er klart, at de forskellige medier der er tale om kræver forskellige

definitioner af hvad ʺnærhedʺ er. Papyrusruller liggende på samme hylde

forventes at have en eller anden relation, ligesom Wikipedia artikler der hører

under kategori, forventes at have det. Det er dog en stor fordel ved de digitale

medier, at deres ʺplaceringʺ ikke er den eneste måde at finde dem. Gennem

indeksering og gennem fuldekstsøgning er det muligt, at placere dokumenter

ʺi nærhedenʺ af mange forskellige placeringer, og dermed muliggøre

genfinding i mange forskellige sammenhænge.

Hvordan kan dette faktum bruges til at facilitere en emnesøgning? Det

kommer igen an på konteksten. I Alexandria drejer det sig om at gøre søgeren

opmærksom på hvilken type relationer, der er mellem papyrusruller på

samme hylde; det kan man bare ikke så godt gøre i online

informationssystemer, da strukturen er usynlig for brugeren. Man kan ikke se

den hylde artiklen ligger på. Der bliver det nyttigt, at indbygge en funktion i

søgesystemet, der kan håndtere at gøre søgeren opmærksom på, at der

muligvis findes andet interessant materiale, end det der specifikt er blevet

søgt på, gennem udnyttelse af flere af de føromtalte ʺplaceringerʺ.

Denne funktionalitet kan i online informationssystemer implementeres på

mange forskellige måder. En af de mest benyttede er query expansion , hvor

den oprindelige søgeforespørgsel udvides med andre søgetermer, der har en

1 http://www.wikipedia.org/

2 ‐ Indledning Side 4


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

relation til det emne der søges efter. Dette kan igen gøres på flere måder:

Enten manuelt/interaktivt, hvor søgeren selv, efter at have set det første

søgeresultat, kommer i tanke om, at der var et par andre termer, der kunne

være interessante til enten at udvide eller modificere den første søgning.

Denne cyklus kan gennemføres flere gange og på flere måder: Enten gennem

en intermediær, gennem et søgeinterface, eller rent manuelt, hvor søgeren blot

indtaster sin forespørgsel en gang til, men med de ønskede modifikationer.

Der er dog visse problemer forbundet med denne model, idet en intermediær

er dyr i drift, og en slutbruger ikke nødvendigvis er specielt kompetent

indenfor informationssøgning eller for den sags skyld har et indgående

kendskab til det system og den samling han/hun benytter. Og derfor ikke

nødvendigvis laver den optimale modifikation af søgeforespørgslen.

Alternativt kan denne query expansion foretages på systemniveau, det vil sige

rent automatisk uden slutbrugerens indblanding. Det medfører naturligvis

også nogle problemer, f.eks. i form af meningsforskelle mellem bruger og

system (når brugeren søger på hane, skal systemet så udvide med husdyr og

fugl, eller skal det udvide med vandrør og sprinklersystemer?), men det er fra

vores synspunkt alligevel den mest interessante metode, idet en god løsning

ad denne vej vil være billig i drift, og uafhængig af slutbrugerens

kompetencer.

For at lave en automatisk query expansion kræves det, at der identificeres

nogle mulige søgetermer og forbindelser imellem disse, således at det kan

bestemmes hvilke termer en søgning skal udvides med. Dette kan igen gøres

på mange måder. Udfordringen er, at bestemme hvilke typer relationer, der

skal udvides med, og derefter også hvordan disse relationer identificeres.

Udfordringen for dette projekt bliver, at identificere de ønskede relationer

automatisk, således at den dyre fagperson der blev sparet væk i forbindelse

med anvendelsen af systemet, også kan fjernes fra budgettet under

udviklingen og vedligeholdelsen af systemet. Denne automatiske

identifikation af relationer mellem søgetermer kræver en analyse af implicitte

forhold mellem termer på baggrund af deres forekomster både med og uden

hinanden. Da det er vores ønske at query expansion skal komme en slutbruger

til gode vil vi tage udgangspunkt i de ord slutbrugerne selv anvender, idet de

ord antages at være udtryk for den enkelte brugers positive identifikation af et

væsentligt aspekt ved det givne dokument. Givet tilpas mange af disse

positive identifikationer, bør det dermed være muligt at afdække en meget

stor del af et dokuments aspekter. Og derigennem bør det være muligt at lave

den ønskede query expansion så søgningerne bliver udvidet til at medtage

både mere exhaustive og mere specifikke søgetermer.

2 ‐ Indledning Side 5


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Den simpleste adgang til en stor mængde brugergenererede termer, er de

efterhånden allestedsnærværende internetbaserede tagging systemer, hvor

alle brugere af et system har mulighed for at knytte tags til de materialer, der

er i systemet, og dermed mulighed for at indikere overfor hinanden, hvad den

enkelte mener er det relevante fokus for materialet. Dette muliggør en form

for indeksering, der tager højde for mange af de problemer der er forbundet

med den traditionelle manuelle indeksering. Blandt andet udfordringerne i

forhold til exhaustivitet og specificitet i indekseringen. Det bliver med et

sådant system unødvendigt at bekymre sig om, at søge på samme niveau som

indekseringen, idet der i teorien er lavet så mange indekseringer, at alle

niveauer er dækket. Tilsvarende er sprogbrugen i søgesituationen også triviel,

idet indekseringen i teorien også er lavet på de sprog der forventes anvendt i

forhold til det konkrete system.

Det er væsentligt her at bemærke, at der i ovenstående ofte bruges udtryk som

”i teorien” og ”ideelle situation”, for det er netop udfordringen med tagging i

øjeblikket. Det er potentielt et meget stærkt værktøj til at overkomme mange

indekseringsvanskeligheder, men det er også vist tidligere, blandt andet af

Tronhus (Tronhus, 2008), at det ikke er hensigtmæssigt, at anvende disse tags,

og deres koforekomstmønster som grundlag for en automatisk query

expansion.

Et af de problemer der blev identificeret af Tronhus er, at taggere ikke

nødvendigvis overholder de retningslinier en systemdesigner har lavet til et

givent taggingsystem. Det viser sig desværre, at de har en tendens til at tildele

tags så ukontrolleret, at enhver analyse af koforekomster er fejlbehæftet fra

starten. Datamaterialet er simpelthen ikke konsistent nok, til at de

identificerede relationer mellem tags er brugbare. Problemet ved de generelle

tagging systemer er, at brugernes motivation for at bruge systemet er meget

individuel, hvor nogen tagger et dokument for at gøre det tilgængeligt for

andre brugere, tagger andre udelukkende for sig selv. Der er andre parametre

man kan klassificere taggere, og deres tags, efter. Men den væsentligste pointe

her, er at tags er af så forskellig karakter, at de generelle tagging systemer ikke

egner sig som datagrundlag for query expansion

På baggrund af disse erfaringer med uforudsigelige brugere, vil nærværende

projekt i stedet beskæftige sig med tagging indenfor et videnskabeligt område.

Nærmere bestemt indenfor det medicinske/sundhedsvidenskabelige domæne.

Et domæne der er kendt og respekteret indenfor IR forskningstraditionen for

deres store sproglige disciplin. Udgangspunktet for denne analyse er følgelig,

at undersøge, om tags genereret af et fagligt homogent community, samlet om

medicin/sundhedsvidenskab er bedre egnet som datagrundlag for

ovennævnte query expansion.

Med denne analyse in mente, er det også nødvendigt, at overveje hvorledes

man afgør, om et alternativt system er bedre respektivt ringere end det

oprindelige. Dette er en ligeså gammel disciplin, som den ovennævnte, idet

2 ‐ Indledning Side 6


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

den har været erkendt længe før biblioteket i Alexandria blev bygget.

Evalueringen har gennem tiden antaget mange forskellige former, men der

har de sidste halvtres år været en klar tendens til, at de evalueringsmetoder

der hører til i den systemorienterede tilgang til systemanalyse har vundet så

meget indpas, at der kun har været meget lidt efterspørgsel af de andre

metoder. Den systemorienterede tilgang til analysen er af natur kvantitativ, og

naturvidenskabelig i oprindelse. Den bygger da også, i de tilfælde, der

fremhæves her, såvel som i resten af periodens teorier, på optællinger af

mængden af relevante poster i et søgeresultat, i forhold til størrelsen på

søgeresultatet, og i forhold til størrelsen af basen. Disse målemetoder, hvor

vidunderligt lette de end er at arbejde med, har nogle indbyggede fejl og

mangler. For eksempel er det i mange tilfælde et problem, at de begrænser sig

til at arbejde med binær relevans. Det vil sige, at for en given

søgeforespørgsel, kan samlingen deles i to dele: En der er relevant, og en del

der er irrelevant for søgeforespørgslen. Dette har været state of the art ind til

for ganske nyligt; der har naturligvis været en del udviklinger i teorien

omkring systemevaluering, men overordnet set, er selve maskinen inden i

evalueringerne ikke blevet ændret – et tankevækkende fænomen, taget i

betragtning hvor meget de kognitive og brugerorienterede tilgange til

systemanalyse har vundet frem i de sidste tyve‐tredive år.

Det er først for nylig, at der for alvor er kommet fart i forskningen omkring

system‐ og performanceevaluering i et interaktivt, brugerorienteret

perspektiv, f.eks. i form af Pia Borlunds IIR model (Borlund, 2003) og Järvelin

& Kekäläinens (D)CG‐mål (Järvelin & Kekäläinen, 2000). Der har været gjort

forsøg tidligere på at inddrage kognitive tanker i selve evalueringen, men

meget ofte er man endt med at anvende recall og precision til at udtrykke

hvorvidt et system var bedre eller ringere end et andet system. Borlund

foreslår i sin artikel, at man kombinerer de to teorier, og således opnår begge

systemers fordele.

Det brugerorienterede element i Borlunds model udgøres af simulated

worktasks, og brugergenererede relevansvurderinger, hvilket muliggør et

mere differencieret relavansmål, end det binære. Denne kvalitative tilgang

suppleres så med en kvantitativ databehandling af de indsamlede

relevansvurderinger.

Efterfølgende er der udviklet adskillige nye og lovende performancemål på

baggrund af blandt andre Borlunds tanker. Nogle af disse vil her blive forsøgt

anvendt til evaluering af det konstruerede query expansion system.

Dette projekt ligger i forlængelse af de ovennævnte problemstillinger, og

forsøger derved at besvare to overordnede spørgmål, et om klyngeanalysens

fordele og ulemper i forbindelse med query expansion, og et om forskellige

performancemåls evne til at afgøre hvorvidt den foregående analyse har haft

en positiv effekt på et givet informationssystem.

Dette speciale tager udgangspunkt i en brugerorienteret tilgang både til query

expansion og system‐ og performanceevaluering. Derfor anvendes der

udelukkende brugergenererede informationsstrukturer som grundlag for en

klyngeanalyse, med henblik på automatisk query expansion. Resultaterne af

2 ‐ Indledning Side 7


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

denne query expansion vil ligeledes blive evalueret af brugere, for at kunne

afgøre om denne automatiske udvidelse af deres søgeforespørgsler har haft et

positivt resultat eller ej.

Som supplement til disse brugerorienterede metoder ønskes der desuden en

analyse af de klynger, der fremkommer, for på et mere overordnet plan at

kunne afgøre hvor godt denne metode virker på bruger‐tildelte tags,

uafhængigt af den faktiske effekt de måtte have.

2 ‐ Indledning Side 8


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

3 Problemformulering

Med udgangspunkt i ovenstående indledning opstilles der her en formulering

af det problemfelt der vil blive undersøgt, og der opstilles på baggrund af

dette en række hypoteser, der ønskes testet.

Genstanden for denne undersøgelse er bruger‐genererede tags fra CiteULike 2 ,

en Internet‐database, der indeholder bibliografiske poster for videnskabelige

artikler og bøger, oprettet af brugerne af databasen. Udover denne forskel fra

klassiske bibliografiske databaser, hvor indholdet styres af professionelle

indeksører, indeholder CiteULike en mulighed for at brugere kan tildele tags

til deres poster, som en slags ukontrollerede emneord.

Undersøgelsens formål er, at undersøge om indsamlede tags fra CiteULike, og

deres indbyrdes koforekomster er anvendelige som basis for en

klyngeanalyse med henblik på automatisk query expansion. Dette ud fra en

antagelse om, at der findes en korrelation mellem bruger‐genererede

emneord og brugergenererede søgeforespørgsler. Da det er brugeren, der er

centrum for undersøgelsen, er det derfor heller ikke de klassiske

recall/precision mål, i en exact‐match søgealgoritme, der søges forbedret

gennem query expansion, men derimod en test af to rankede best‐match

søgesystemer med samme søgealgoritme, men henholdsvis med, og uden

query expanion, og deres respektive performance, som målt gennem deres

evne til effektivt at ranke et søgesæt

Dette fører til følgende hypoteser, som ønskes testet gennem undersøgelsen:

H1. Automatisk query expansion ved hjælp af klynger dannet af bruger‐

genererede tags, fra en videnskabelig database, kan forbedre ranking af

søgninger i en bibliografisk database bestående af videnskabelige

dokumenter, indekseret og fremfundet vha. en best‐match algoritme.

H2. Query expansion med bruger‐genererede tags, fra en videnskabelig

database, kan returnere flere højrelevante dokumenter i den højest

rankede del af et søgesæt.

H3. Klynger dannet på baggrund af koforekomstanalyse af tags fra en

videnskabelig database består primært af termer med semantiske og

emnemæssige relationer.

H1 og H2 vil blive undersøgt ved hjælp af et brugerorienteret perspektiv,

således at alle relevansvurderinger og søgetermer skal være brugerafhængige.

Det er således brugernes egne søgeforespørgsler og egne vurderinger af

søgesættene der er afgørende for resultatet. Derfor er det heller ikke hensigten

med hypotesetesten at afsige generelle lovmæssigheder, men derimod at teste

hvad resultatet er i det specifikke tilfælde, for dermed at kunne indikere

mulige områder til videre undersøgelse.

2 http://www.citeulike.org

3 ‐ Problemformulering Side 9


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Den tredje hypotese (H3) vil blive undersøgt uden brugerindragelse, da

spørgsmålets karakter muliggør en høj grad af objektivitet i analysen.

Undersøgelsen gennemføres indenfor det medicinske domæne, af flere

forskellige årsager. Først og fremmest indeholder CiteULike mange

dokumenter fra netop dette domæne, og med mange forskellige emner der

indenfor. Det medicinske domæne er også kendt for, at have en særlig

stringent sprogbrug, hvilket f.eks. er kendetegnet ved National Library of

Medicines Medical Subject Headings, der anvendes som kontrollerede

emneord i bl.a. Medline og derigennem PubMed. Vi antager, at denne

sprogbrug har indflydelse på brugeres tildeling af tags, og at lige netop det

medicinske domæne derfor er et brugbart udgangspunkt for denne

undersøgelse.

Desuden er der vha. PubMed god mulighed for at fremstille en testdatabase til

at foretage testsøgninger med og uden query expansion, da det er muligt at

hente lige netop det antal bibliografiske poster der måtte være nødvendigt.

Endelig har der været gode muligheder for at finde brugere indenfor netop

dette domæne.

Omend der i undersøgelsen vil indgå litteratur om tagging, og der vil blive

foretaget mindre undersøgelser af særlige egenskaber ved de anvendte data,

er dette ikke en undersøgelse af tagging som socialt, teknologisk eller kulturelt

fænomen, eller omkring taggings anvendelighed i andre sammenhænge end

dem, der specifikt er anført i denne problemformulering.

Ligeledes er dette heller ikke en undersøgelse af klyngeanalyse eller query

expansion generelt. I nærværende sammenhæng er dette blot metoder til at

undersøge den egentlige genstand, nemlig tags anvendelighed til query

expansion.

3 ‐ Problemformulering Side 10


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

4 Review

I det følgende kapitel præsenteres et literært review af de tre centrale

emneområder for specialet, nemlig query expansion, klyngeanalyse og

evaluering af genfindingssystemer. Dette med henblik på at skabe et overblik

over tidligere forskning indenfor disse områder, og gøre status over hvor

forskningen indenfor områderne er nået til i dag.

4.1 Query Expansion

Af Mikkel Just Tronhus

Query Expansion betegner den proces, hvor en brugers søgeforespørgsel

(query) modificeres, og kan både foretages manuelt og automatisk. Den

manuelle query expansion kan foretages af brugeren selv, men involverer ofte

en professionel intermediær. Det der er hovedfokus for denne undersøgelse,

og dermed dette review, er dog den automatiske query expansion, der siden

1960ʹerne har været et væsentligt forskningsområde inden for IR. Automatisk

query expansion (herefter vil automatisk være underforstået) kan enten

betyde, at den oprindelige søgeforespørgsel udvides med nye termer (f.eks.

synonymer, specificerende relaterede termer e.l.) eller at den helt

omformuleres.

Modifikationen af søgeforespørgslen kan foregå flere steder i søgeprocessen,

f.eks. i forbindelse med relevance‐feedback, hvor modifikationen bliver

semiautomatisk, idet den sker automatisk, men på baggrund af

relevansvurderinger foretaget af brugeren, og derfor kan foretages op til flere

gange i løbet af en enkelt søgning. En mere almindelig metode er, at

modificere brugeres søgeforespørgsel automatisk i forhold til en på forhånd

eksisterende tesaurus.

Uanset hvilken udgave af query expansion der er tale om, er formålet, at

forbedre genfindingssystemets resultat, enten i form af forbedret recall,

precision eller ranking (Efthimiadis, 1996). I det følgende beskrives

udviklingen af query expansion fra den tidligste forskning og op til den

nuværende forskningsfront.

Term­baseret query expansion

Et af de første eksempler på query expansion ses i SMART systemet, der

inkorporerer en relevance‐feedback funktion (Rocchio, 1971). Til forskel fra

den tesaurus‐centrerede query expansion, forsøgte man i SMART systemet at

tilpasse vektorrumsrepræsentation af søgeforespørgslen til de dokumenter

brugeren havde vurderet relevant. De termer, som forespørgslen blev udvidet

med behøvede derfor ikke nødvendigvis at have nogen semantisk eller

emnemæssig relation i forhold til søgeforespørgslen, hvilket betyder, at

brugeren med en vis sandsynlighed får flere dokumenter, der ligner de

4 ‐ Review Side 11


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

allerede fundne, relevante, men til gengæld ikke finder dokumenter fra f.eks.

andre forskningsfronter.

En lignende fremgangsmåde blev forsøgt med CITE systemet, der blev

designet som et relevance‐feedback interface til Medline. På baggrund af

brugerens relevansvurderinger blev den originale søgeforespørgsel udvidet

med MeSH tesaurustermer der var tilknyttet de relevante dokumenter

(Efthimiadis, 1996). Metoden minder meget om Rocchios metode, med den

forskel, at CITE anvendte kontrollerede emneord.

OKAPI er et andet eksempel på et relevance‐feedback system, men anvendte

derudover en automatisk udvidelse af søgeforespørgslen med synonyme

termer, hvorved semi‐automatiske og fuldautomatiske query modifikations

metoder blev kombineret (Fieldhouse & Beaulieu, 1994; Efthimiadis, 1996).

En helt anden måde at foretage query expansion på term‐niveau er ved at

gruppere termer på baggrund af deres morfologiske former, f.eks. ved hjælp

af stemming. Harman har undersøgt tre forskellige stemmingalgoritmer på

Cranfield 1400 og to andre systemer, og finder, at ingen af de tre algoritmer

gav en signifikant forøgelse i retrieval performance (Harman, 1991).

Nyere forskning fokuserer primært på den type query expansion, der

beskrives nedenfor, men den term‐baserede query expansion er stadig

genstandsfelt for undersøgelser. Query expansion på term‐niveau er f.eks.

blevet sammenlignet med (pseudo‐)relevance‐feedback for både korte og

lange passager, hvor det har vist sig, at expansion af enkelttermer giver langt

bedre resultater end forventet (Diaz & Allan, 2005). Rocchios oprindelige

relevance‐feedback model er også stadig et emne for diskussion, f.eks. i

sammenhæng med latent semantisk indeksering (Efron, 2008).

Query expansion baseret på videnstrukturer i en samling

I modsætning til term‐baseret query expansion er query expansion baseret på

en samlings videnstruktur ikke i samme omfang afhængigt af en brugers

tilbagemeldinger, da modifikationen som regel udføres fuldautomatisk på

baggrund af relationer, der eksisterer uafhængigt af brugerens

søgeforespørgsel. Metoden kom frem i 1960ʹerne og ʹ70ʹerne, hvor der var

fokus på automatisk gruppering af søgetermer i klynger. Klyngernes

anvendelse har været mange forskellige, men en af mulighederne er

automatisk udvidelse af søgeforespørgsler således at hver enkel term i

forespørgslen erstattes af samtlige elementer fra den klynge termen hører til.

Spärck Jones har gennem en række publikationer udviklet og demonstreret

metoderne, og finder at de bedste resultater af query expansion opnås, når der

dannes forholdsvis små klynger (Spärck Jones, 1971; Efthimiadis, 1996).

Siden 1970ʹerne er teorierne om automatisk query expansion baseret på

klynger af termer og på term co‐occurrence blevet diskuteret livligt, og der er

4 ‐ Review Side 12


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

løbende publiceret negative resultater, som har demonstreret metodernes

mangler. Nogle af disse kritikpunkter er kontekstafhængige, andre er

generelle for de problemer der er med disse metoder (Efthimiadis, 1996).

Nogle af de centrale kritikpunkter af klyngeanalysen som metode til query

expansion er valget af lighedsmål, der som regel er baseret på termfrekvens på

én eller anden måde (Peat & Willett, 1991), samt samlingernes heterogenitet

(Elkalifa, 1991). Elkalifas Ph.D. afhandling viser, at opdelingen af en samling i

homogene delsamlinger giver klart forbedrede resultater, omend han selv kun

anvender en meget begrænset datamængde.

En anden fremgangsmåde ses i Inquery systemet, der anvender en

associations tesaurus til at tilføje fraser til den oprindelige søgeforespørgsel.

Systemet er testet af bl.a. Broglio, Callan, Croft & Nachbar (1995) og Jing &

Croft (1994), der finder, at systemet giver en forbedret retrieval performance.

Nyere forskning i query expansion ved hjælp af videnstrukturer anvender

gerne latent semantisk indeksering som alternativ til klyngeanalyse, f.eks.

Abdelali, Cowie & Soliman (2007).

Query modifikation baseret på videnstrukturer udenfor samlingen

At basere query expansion på vidensstrukturer der er uafhængige af den

samling systemet arbejder på, involverer en tilegnelse af disse strukturer. Hvis

det skal gøres automatisk, kræver det at systemet involverer elementer udefra

i sin etablering af disse strukturer. Dermed kan strukturerne ikke længere

siges at være uafhængige af samlingen, og deraf følger, at query expansion

baseret på eksterne vidensstrukturer ikke kan være rent automatiske, og

dermed ikke er relevante for dette speciale.

Siden de noget negative rapporter fra Efthimiadis blev publiceret i 1996, er der

dog sket en del med området. Som eksempel på noget af det nyere inden for

query expansion kan nævnes for eksempel at basere udvidelsen på logfiler af

brugeres søgeadfærd i systemet. Cui, Wen, Nie & Ma (2002) har demonstreret

en god performanceforbedring ved denne metode, dog har deres

udgangspunkt været internetsøgninger, i stedet for søgning i mere

begrænsede databaser (Cui, Wen, Nie, & Ma, 2002).

En anden, omtrent lige så optimistisk, forskningsretning repræsenteres her af

Carpineto, de Mori, Romano & Bigi (2001) der rapporterer fra en TREC‐

konference, hvor en stor del af de tilstedeværende projekter har fundet

potentiale i en model der baserer query expansion på en automatisk

emneudtrækning fra de højest rangerede dokumenter i det indledende

søgeresultat (Carpineto, de Mori, Romano, & Bigi, 2001).

Uanset, at det tilsyneladende har været problematisk at skaffe endegyldigt

bevis for at query expansion producerer brugbare resultater, i hvert tilfælde

indtil 1996 (1996), er det et emne der stadig bliver gjort til genstand for

4 ‐ Review Side 13


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

forskning (Billerbeck & Zobel, 2006; Abdelali, Cowie, & Soliman, 2007; Willett,

2006; White & Marchionini, 2007).

4.2 Klyngeanalyse

Af Mikkel Just Tronhus

Ideen om at gruppere objekter er ældgammel. Lige så længe videnskab har

eksisteret har der været brug for disse grupperinger for at overskue samlinger

af objekter. Det har også været tilfældet indenfor informationsvidenskaben,

hvor særligt bibliotekerne har en lang tradition for at gruppere materialer

efter alle mulige forskellige kriterier. Der skete dog noget af en revolution

indenfor denne forskningsretning, da det med computerens invasion af

videnskaben pludselig blev muligt at gruppere mange flere objekter efter

mange flere forskellige parametre. I den forbindelse var det et problem, at

beskrivelsen af objekterne var usystematisk og ofte mangelfuld. Derfor

opfattes Gerald Salton og hans hold på Cornell University i IR‐forskningen

som en slags katalysatorer for den udvikling der kom til at ske i forlængelse af

computerens fremkomst. Det Salton og hans kolleger på Cornell i 1960ʹerne

gjorde, var at de opfattede informationsobjekter i en matematisk/datalogisk

tankegang, hvor en samling af objekter kunne beskrives objektivt efter på

forhånd definerede parametre (Salton, 1971). Denne vektorrumsmodel, omend

den ikke blev ʺopfundetʺ før langt senere (Dubin, 2004), ligger til grund for de

tanker van Rijsbergen og Jardine formulerede i 1971 i deres artikel ʺ The use

of hierarchical clustering in information retrievalʺ, hvor de formulerer

klyngehypotesen, der siger, at nært associerede dokumenter har en tendens til

at være relevante for de samme søgeforespørgsler (Jardine & van Rijsbergen,

1971; van Rijsbergen, 1979; Voorhees, 1985). Disse associationer kunne man

med vektorrumsmodellen og moderne computere identificere på mange

forskellige måder.

Disse måder at udforske objektrelationer blev et vigtigt fokus for IR‐

forskningen, og der opstod to parallelle forskningsretninger, den ene

beskæftigede sig med hierarkiske metoder og den anden med partitionelle

algoritmer. Forskellen på de to metoder er overordnet graden af kompleksitet

i selve databehandlingen. Hvor hierarkisk klyngeanalyse er ekstremt

processortungt på store datasamlinger, er partitionelle algoritmer som for

eksempel k‐means algoritmen langt mere effektive på store datamængder. K‐

means algoritmen og dens variationer er traditionelt blevet beskyldt for ikke

at levere lige så gode resultater som de hierarkiske metoder. Men denne

forskydning i performance mellem de to metoder er lige så stille blevet, om

ikke udvisket, så i det mindste udfordret, af resultater der viser gode

resultater gennem anvendelse af k‐means algoritmer (Steinbach, 2000).

En anden forgrening af klyngeanalyseforskningen har sit udspring i en artikel

af Scott Deerwester og hans kolleger fra 1990 (Deerwester, Dumais, Furnas,

Landauer, & Harshman, 1990), hvor forfatterne introducerer en måde at

overkomme de polysemi‐ og synonymi‐problemer som klyngealgoritmer har

4 ‐ Review Side 14


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

haft siden starten. Løsningsforslaget var latent semantisk indeksering (LSI),

hvor man gennem matrixmanipulationer identificerer latente dimensioner, og

anvender disse som grundlag for genfindingen i stedet for de oprindelige

term×dokument matricer. Dette skulle muliggøre genfinding på begrebsniveau,

idet de fundne latente dimensioner opfattes som udtryk for de underliggende

begreber i sproget. Dette er en metode, der har trukket en stor mængde

forskning efterfølgende, og som desuden er blevet udvidet til at involvere

probabilistiske elementer (Hofmann, 1999).

Siden 2000 har det primære fokus for forskningen indenfor klyngeanalyse

været koncentreret omkring udvikling af algoritmer, der kan håndtere store

mængder data. Det betyder, at forskningen har grupperet sig i to retninger. En

retning der arbejder med at udvikle bedre k‐means algoritmer (Modha &

Spangler, 2007), og en der arbejder videre med de hierarkiske metoder, men

hvor fokus er på hvilke data der ligger til grund for klyngeanalysen (Tombros,

Villa, & van Rijsbergen, 2002). Det er desuden blevet påvist, at de gammeldags

hierarkiske metoder kan skaleres til store datamængder og stadig være

håndterbare i forhold til runtime (Cathey, Jensen, Beitzel, Frieder, &

Grossman, 2007).

4.3 Evaluering af genfindingssystemer

Af Jens Peter Andersen

Som det er antydet i indledningen til dette speciale, kan genfindingssystemer,

og deres evaluering spores tilbage til de allerældste biblioteker (Singhal, 2001),

men efterhånden som genfindingssystemerne har udviklet sig, er deres

evaluering fulgt med. Den type evaluering, der vil blive brugt i dette speciale,

og dermed beskrevet i dette review, er den type, der har med evaluering af

elektroniske genfindingssystemer at gøre.

4 ‐ Review Side 15


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Udgangspunktet for elektroniske genfindingssystemer er computeren, og de

første forsøg med genfinding og evaluering fandt sted i 60’erne. De mest

kendte er Cranfield‐forsøgene (Cleverdon, Mills, & Keen, 1966) og Medlars

(Lancaster, 1969), hvor det sidstnævnte må siges at have været forud for sin

tid, ved at involvere faktiske brugere i undersøgelsen – et element der først

blev almindeligt meget senere.

Cranfield‐forsøgene startede en systemorienteret tradition indenfor

informationsvidenskaben, der var præget af, at mange matematikere, fysikere

og andre naturvidenskabsfolk var involveret i arbejdet, hvilket gav det et

positivistisk præg ‐ evaluering skulle være kvantitativt og objektivt.

Evaluering beskæftigede sig på det tidspunkt med mange forskellige aspekter

af genfindingssystemerne, f.eks. var svartider, system‐ og signalfejl ikke

uvæsentlige, og meget af forskningen byggede på modeller, der var

fremkommet f.eks. indenfor telefonvæsenet (f.eks. Hamming‐afstanden

(Hamming, 1950) og Shannons kommunikationsmodel (Shannon, 1948)). De

første relevans‐relaterede evalueringsmål var recall/precision og de dermed

tilhørende underformer, f.eks. fall‐out (van Rijsbergen, 1979). Relevans blev

opfattet som en binær, objektiv størrelse, dvs. et dokument var enten relevant

eller irrelevant for en søgeforespørgsel – der fandtes ikke forskellige grader af

relevans, og det var endeligt afgjort, om et dokument var relevant – det kunne

ikke påvirkes af ydre omstændigheder, som personlig erfaring, tidligere

gennemsete dokumenter, humør e.l. (Ingwersen & Järvelin, 2005).

Omend Lancaster anvendte rigtige brugere i sin Medlars undersøgelse, var

det ikke før et årti senere, at forskere begyndte at anvende brugeresom en del

af undersøgelsers parametre. Afgørende for denne udvikling har især Belkin,

Oddy & Brooks ASK‐model været (Belkin, Oddy, & Brooks, 1982).

Sideløbende med denne udvikling, som Robertson & Hancock‐Beaulieu

betegner den kognitive revolution (Robertson & Hancock‐Beaulieu, 1992) er

den systemorienterede tradition fortsat toneangivende, og eksisterer stadig i

bedste velgående, f.eks. i form af TREC (Text REtrieval Conference), der stadig

primært fokuserer på binær, objektiv relevans, omend recall/precision er

blevet udvidet med en række andre evalueringsmål (f.eks. Average‐precision

(AveP), (Beaulieu, Robertson, & Rasmussen, Evaluating Interactive Systems in

TREC, 1996)), og selvom de også er begyndt at medtage graderede

relevansvurderinger som et sekundært evalueringskriterie (Voorhees, 2006).

Robertson & Hancock‐Beaulieu identificerer yderligere to revolutioner, nemlig

relevans‐ og interaktionsrevolutionerne. Relevansrevolutionen er kendetegnet

ved en omfattende forskning indenfor relevansbegrebet, en forskning der

starter meget tidligt allerede (Cuadra & Katter, 1967), men som først for alvor

tager fart omkring slutningen af 1970’erne. Relevans går i løbet af perioden fra

at være objektiv og binær til også at kunne være subjektiv (f.eks. (Swanson,

1986)), at kunne måles på mange forskellige niveauer og at kunne inddeles i

mange forskellige, unikke undergrupper. Antallet af undergrupper varierer i

høj grad fra den ene undersøgelse til den anden, men Schamber identificerer

ud fra tidligere undersøgelser i 1994 81 distinktivt forskellige typer af relevans

(Schamber, 1994). Også antallet af grader af relevans der evalueres på svinger

4 ‐ Review Side 16


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

meget, især mellem laboratorieforsøg (Tang, Shaw, & Vevea, 1999; Cuadra &

Katter, 1967; Rees & Schultz, 1967) og feltforsøg (Vakkari & Hakala, 2000;

Kekäläinen & Järvelin, 2002). I nyere undersøgelser er der en tendens til, at

graderet relevans inddeles i tre eller fire niveauer (f.eks. (Järvelin &

Kekäläinen, 2000; Borlund, 2003; Borlund & Ingwersen, 1998; Sakai, 2004)). På

trods af talrige undersøgelser, teorier og meninger omkring relevans og især

hvorvidt den bør være binær eller ej, er det stadig ikke usædvanligt, at

graderet relevans bliver normaliseret til binære data, når det kommer til

evaluering af systemer, gerne med recall/precision eller andre mål, der er

direkte relateret dertil (se f.eks. (Voorhees, 2006; Hildreth, 2001; Kekäläinen &

Järvelin, 2002)). En væsentlig årsag til dette er sandsynligvis, at graderet

relevans må betragtes som ordinale data, hvilket begrænser mulighederne for

at analysere dem, hvilket bl.a. ses hos Kekäläinen & Järvelin, der konkluderer,

at graderet relevans i princippet bør evalueres på de enkelte relevansniveauer,

omend et samlet mål er mere ønskeligt (Kekäläinen & Järvelin, 2002). Begge

dele bygger på tidligere undersøgelser, hvor de foretager AveP (Average

Precision) evalueringer for de enkelte relevansniveauer, men også anvender

det samlede mål CG (Cumulated Gain) og de dertil hørende underformer

(Järvelin & Kekäläinen, 2000; Järvelin & Kekäläinen, 2002).

Gruppen af CG‐evalueringsmål er pt. nogle af de mest fremtrædende og

brugbare til evaluering med graderet relevans (Sakai, 2005), og bliver rent

faktisk anvendt i nyere evalueringsundersøgelser uden normalisering til

binære kategorier (Leifman, Meir, & Tal, 2005), og er også blevet anvendt i

sammenhæng med TREC‐evalueringer (Voorhees, 2001), der ellers traditionelt

anvender binær relevans.

Ud over, at CG og lignende evalueringsmål ikke beskæftiger sig med binær

relevans er der også en anden væsentlig forskel på disse evalueringsmål og

recall/precision, nemlig genstanden for evalueringen. Evalueringsmålene

forsøger alle at måle en form for performance, og for recall/precision var det et

spørgsmål om hvor meget af det fundne, der var relevant, og hvor meget af

det relevante, der var fundet, og på den måde passer målene meget godt på

exact‐match genfindingssystemer, hvorimod best‐match genfindingssystemer

i højere grad bør evalueres på deres evne til at ranke højrelevante dokumenter

øverst i et søgeresultat – precision bliver ligegyldig, når visse best‐match

systemer i princippet returnerer alle poster i databsen til enhver

søgeforspørgsel, blot ranket i forhold til brugerens forespørgsel.

Ovenstående review beskæftiger sig udelukkende med de metoder til

evaluering, der har med dokumentbaseret relevans at gøre. Der findes mange

andre kriterier for performance evaluering, f.eks. systemets svartid,

gennemsnitlige søgninger pr. informationsbehov eller brugerens generelle

tilfredshed med systemet. Disse eksempler er primært relevante i forbindelse

med systemudvikling og optimering af søgetilfredshed. Et andet synspunkt

findes hos Soergel, der mener at det bedste evalueringskriterie er i hvilken

grad søgeresultatet påvirker brugerens effektivitet i forhold til en given

4 ‐ Review Side 17


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

arbejdssituation, utility (Soergel, 1976). Soergels synspunkt er interessant, da

det fokuserer på slutresultatet, hvorimod de relevans‐baserede

evalueringsmål ser på et mellemresultat, med den forventning, at et forbedret

mellemresultat giver et forbedret slutresultat, men Soergels forslag må nok

siges at være blevet afløst af den relevanstype af samme navn, som betegner

relevansen af et enkelt dokument i forhold til løsningen af en given

arbejdsopgave.

4 ‐ Review Side 18


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

5 Metode

5.1 Fremgangsmåde

For at besvare problemformuleringens undersøgelsesspørgsmål, opstilles et

samlet undersøgelsesdesign, der tager udgangspunkt i bruger‐genererede tags

fra en videnskabelig database (CiteULike). I det følgende kapitel beskrives de

anvendte metoder, samt det videnskabsteoretiske grundlag for dette speciale.

Undersøgelsens første trin er, at skaffe søgetermer, der kan bruges til query

expansion. For at gøre søgninger uafhængige af vores foruddannede

meninger og antagelser, udarbejdes fem simulerede arbejdsopgaver, som en

række brugere bliver bedt om at udføre i et fiktivt søgeinterface. Brugernes

søgetermer lagres, for at kunne anvendes i den følgende undersøgelse. En

nærmere beskrivelse af worktasks og resultater vil fremgå af afsnit 5.4.2. På

baggrund af disse brugerinput foretages søgninger i CiteULike, for derved at

danne et datasæt som grundlag for klyngeanalysen. Der foretages analyser af

de fremfundne data, for at kunne afgøre, om anvendelsen af metoder som

stemming og frasortering af stopord vil være fordelagtigt (se afsnit 5.3.2).

Den automatiske konstruktion af termklynger tager altså udgangspunkt i

termer, der er fundet ved hjælp af brugerinput, og som er genereret af

CiteULikes egne brugere. De klynger, der fremkommer, anvendes til at

udvide de originale bruger‐søgninger med yderligere søgetermer. Både de

originale og de udvidede søgninger gennemføres i en testdatabase indekseret

vha. Terrier‐systemet, der foretager en ranking af søgeresultaterne ved hjælp

af en vektorrumsmodel (se afsnit 5.4.3).

De fremfundne dokumenter præsenteres derefter for de samme brugere, der

genererede brugerinput, samt en række fag‐ og informationsspecialister, med

henblik på relevansvurdering i forhold til de simulerede arbejdsopgaver.

Endelig evalueres søgeresultaternes ranking vha. Cumulated Gain og Relex‐

modellen, for at kunne afgøre, om query expansion ved hjælp af

brugergenererede tags har nogen indflydelse på ranking.

5.2 Tilgang

I det følgende beskrives den teoretiske baggrund for dette speciale, for derved

at synliggøre indenfor hvilken ramme vores fremgangsmåde, resultater og

konklusioner skal forstås. Derefter følger en begrebsafklaring, hvor

anvendelsen af centrale begreber, der kan opfattes på forskellige måder,

defineres. Endelig vil der følge en beskrivelse af hvilken litteratur der er

anvendt, samt hvordan den er anvendt og fundet. Af dette afsnit vil der også

fremgå baggrundslitteratur, som ikke bliver brugt direkte i specialet, men er

med til at danne den teoretiske basis herfor.

5 ‐ Metode Side 19


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

5.2.1 Teoretisk baggrund

Dette speciale søger at kombinere involvering af brugere med kvantitative,

empiriske metoder til evaluering, og den primære, teoretiske baggrund bør

findes indenfor det postpositivistiske paradigme, der kombinerer klassisk

positivistisk empirisme med en form for pragmatisme (Sohlberg & Sohlberg,

2004). Undersøgelsens konklusioner vil være baseret på kvantificerbare

resultater og metoder, og det er et væsentligt punkt at analysen foretages

tilstræbt objektivt, og reproducerbart. I forhold til informationsvidenskaben

kombinerer undersøgelsen altså de positivistike kriterier fra tidlige

eksperimenter indenfor IR med nyere, holistisk kognitive elementer (som

præsenteret i Ingwersen & Järvelin (2005)). Omend undersøgelsen anvender

positivistiske evalueringskriterier hører den dog primært hjemme indenfor

den kognitive del af informationsvidenskaben, da den er udført med ægte

brugere i et miljø, der er tilstræbt realistisk, i modsætning til forsøg udført

indenfor den systemorienterede tradition, der som regel udføres under

laboratorielignende forhold, f.eks. ved TREC (Text REtrieval Conference),

hvor undersøgelserne udføres på et datasæt, der er udvalgt på forhånd, og

som evalueres af en objektiv ekspert. En anden væsentlig forskel på det

typiske laboratorieforsøg og denne undersøgelse er, at vi ikke forsøger at måle

søgealgoritmens performance, for at evaluere søgealgoritmen og forbedre den.

I stedet søger vi at måle effekten af query expansion ved hjælp af termer, der

er givet af brugerne selv, og betragter søgealgoritmen som en relativt statisk

del af undersøgelsen.

I forhold til brugerinddragelse lægges der især vægt på, at evalueringerne

finder sted på baggrund af brugeres relevansvurderinger, med disses

foruddannede holdninger og erfaringer som påvirkning. Denne involvering af

brugere påvirker ønsket om objektivitet og gentagelighed, idet en bruger

sjældent vil vurdere det samme dokument ens efter et tidsforløb (Spink,

Greisdorf, & Bateman, 1998). Pointen er dog heller ikke, at en tilsvarende

undersøgelse vil opnå samme resultater som her, men derimod, at det er

muligt at opnå resultater af samme type. Det er dermed heller ikke

undersøgelsens formål at overføre hypotesernes resultater til generelle

lovmæssigheder, men derimod at indikere sandsynlige sammenhænge.

Selvom brugeres relevansvurderinger altid vil være påvirket af viden og

erfaring, og dermed aldrig fuldstændig objektive, uanset hvor meget dette

tilstræbes, så er det primært disse relevansvurderinger der bliver påvirket,

hvorimod evalueringen af dem stadig kan foretages objektivt. På samme måde

kan observatørens rolle holdes objektiv ved fremstillingen af søgeresultaterne,

ved at lægge indsamlingen af søgetermer ud til brugerne.

5 ‐ Metode Side 20


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Der vil i undersøgelsen blive anvendt statistiske metoder til at generalisere fra

stikprøver til en population. Der skal her gøres opmærksom på, at dette altid

gøres i forhold til den specifikke population, og ikke i forhold til en generel

population. Konklusionerne fra disse generaliseringer kan altså ikke uden

videre overføres til f.eks. en anden søgealgoritme eller en anden brugergruppe

eller videnskabeligt domæne.

I de følgende kapitler vil der løbende blive taget stilling til hvordan disse

kriterier om objektivitet, kvantitativitet og gentagelighed kan overføres til de

enkelte metoder, og hvilke konsekvenser dette har for metodevalget.

Valg af videnskabeligt domæne

Da udgangspunktet for indsamling af tags til query expansion er CiteULike,

en videnskabelig database, er det nærliggende at vælge et afgrænset,

videnskabeligt domæne for at fokusere undersøgelsen. Da CiteULike i sig selv

ikke er emnemæssigt afgrænset vil det dog være vigtigt også at medtage en

hvis mængde støj i datasættet, for på den måde at simulere de faktiske

forhold.

Som det fremgår af problemformuleringen har vi valgt det medicinske

domæne som hovedfokus ud fra følgende argumenter:

1. Det medicinske domæne har en meget stringent sprogbrug, i form af

f.eks. NLM’s MeSH tesaurus 3 . Undersøgelser har vist, at mange

forskere indenfor domænet selv anvender ord, der er identiske med

termer fra MeSH (Schneider, 2004), hvorfor vi håber på, at dette også i

nogen grad smitter af på tags, så det er muligt at kombinere på

forhånd anerkendte termer med de termer brugerne selv bruger.

2. Selvom CiteULike i princippet tillader alle videnskabelige områder, er

der nogle områder der er bedre repræsenteret end andre. Dette viser

sig for eksempel ved den tag cloud, der vises på CiteULikes startside.

Skyen viser de mest anvendte tags, og ved at variere deres

skriftstørrelse, viser den hvilke der anvendes allermest. Blandt de mest

frekvente tags findes f.eks. cancer, brain, cell, protein og genome 4 som

eksempler på det medicinske domæne. Andre domæner, som f.eks.

datalogi og informationsvidenskab er også fremtrædende.

3. For at konstruere en testdatabase, der med sikkerhed indeholder

dokumenter, der er relevante for brugernes søgeforespørgsler, og som

indeholder et passende datamateriale til at simulere støj, kræves der en

eksisterende database, der tillader udtræk af data på baggrund af

specifikke søgninger. Dette er tilfældet med PubMed 5 , der stiller de

bibliografiske data fra Medline til rådighed. PubMed tillader ikke blot

3 http://www.nlm.nih.gov/mesh/

4 På baggrund af CiteULike.orgs startside d. 10. Maj 2008

http://www.citeulike.org/

5 http://www.ncbi.nlm.nih.gov/sites/entrez/

5 ‐ Metode Side 21


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

søgninger, men også høst af deres data til anvendelse i videnskabelige

analyser.

4. En væsentlig del af en brugerorienteret undersøgelse er naturligvis

tilstedeværelsen af brugere. Da vi på forhånd har haft kontakt til

personale og studerende på hhv. Aalborg Sygehus og University

College Nordjylland (Sygepleje‐ og jordemoderstudierne), har det også

på den måde været en oplagt mulighed for at finde et passende antal

kvalificerede brugere.

Dette valg af det medicinske domæne som hovedfokus betyder, at det

principielt ikke er muligt at overføre undersøgelsens resultater til andre

domæner. Resultaterne kan dog stadig fungere som indikatorer for hvad man

kan forvente af en lignende undersøgelse indenfor et andet videnskabeligt

domæne, samt hvad man bør tage højde for.

5.2.2 Begrebsafklaring

Nedenfor følger en kort beskrivelse af visse centrale begreber for dette

speciale, med fokus på vores forståelse af dem.

Tags – et tag opfattes i dette projekt som en følge af alfanumeriske tegn adskilt

af blanktegn, knyttet til en bestemt post eller et bestemt dokument.

Post – En bibliografisk post fra CiteULike, med en entydig relation til et

dokument.

Dokument – En artikel, en monografi, et konferencebidrag eller lignendne,

sålænge der er en bibliografisk post på CiteULike, der henviser til det, opfattes

det som et dokument. Idet CiteULike er et brugerstyret system, er det ikke

muligt for os at kontrollere hvilke dokumenttyper der inddrages i

undersøgelsen, derfor accepteres i dette specifikke tilfælde, en løsere

definition af hvad et dokument er, i forhold til den gængse.

Tagger – En bruger af CiteULike.

Tagging – Den gruppe af tags, som samtlige taggere har knyttet til en post på

CiteUlike.

Tekstvindue – Det område i en tagging, indenfor hvilket koforekomsten af to

tags registreres.

Klynge – En gruppe af termer, der deler en foruddefineret mængde af fælles

attributter.

Relevans – Angivelse af et dokuments evne til at tilfredsstille en brugers

informationsbehov. Relevans kan enten være binær eller graderet.

5 ‐ Metode Side 22


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Ranking – En rangordning af (i dette tilfælde) poster i et søgeresultat. Efter

forudbestemte kriterier.

Performance – Et informationssøgningssystems evne til at skelne mellem

relevante og irelevante poster, og ranke dem efter relevans, i forhold til et

givet informationsbehov, udtrykt ved en søgeforespørgsel.

5.2.3 Litteratur

Denne undersøgelse bygger til dels videre på tidligere erfaringer med

klyngealgoritmer og query expansion (Andersen & Tronhus, 2005; Tronhus M.

, 2006; Andersen, Tronhus, & Johansen, 2007), evaluering af best‐match

algoritmer (Andersen & Svendsen, 2008), samt tags anvendelighed til query

expansion (Tronhus, 2008). Derfra stammer et kendskab til grundlæggende

litteratur om de nævnte emner. Denne er til nærværende undersøgelse blevet

suppleret med relevant litteratur, der hvor det har været nødvendigt

yderligere at dokumentere de valgte metoders anvendelighed, samt for at

argumentere for valget af de anvendte metoder frem for andre.

Baggrundslitteraturen kan opdeles i fire hovedområder, nemlig

klyngeanalyse, query expansion, bruger‐ og relevansstudier og evaluering af

genfindingssystemer. I det følgende vil der kort blive nævnt hvilken litteratur

det drejer sig om, og hvordan den er blevet anvendt til dette projekt.

Som baggrundslitteratur for klyngeanalyse er især anvendt Spärck Jonesʹ bog

ʺAutomatic keyword classification for information retrievalʺ (Spärck Jones, 1971),

van Rijsbergens oversigtsværk ʺInformation Retrievalʺ (van Rijsbergen, 1979),

og som baggrund for dem Saltons vektorrumsmodel (Salton, 1971; Salton,

Wong, & Yang, 1975). Derudover anvendes Peat & Willet (1991), Voorhees

(1985), Willett (1988) og Ahlgren, Jarneving & Rousseau (2003).

Efthimiadisʹ oversigtsartikel (Efthimiadis, 1996) fungerer som central

baggrundslitteratur for query expansion, da den leverer en omfattende

oversigt over litteraturen omkring query expansion op til

udgivelsestidspunktet. Artiklen er suppleret af mere primære kilder som for

eksempel Elkalifa (1991), Jing & Croft (1994) og Abdelali, Cowie & Soliman

(2007).

Som udgangspunkt for brugerstudier anvendes Borlunds simulated work

tasks (Borlund, 2000), mens studierne i relevans især tager udgangspunkt i

Saracevic (1996) og Swanson (1986), mens Ingwersen & Järvelin (2005)

anvendes som generel videnskabsteoretisk oversigt, blandt andet omkring

relevansbegrebet.

5 ‐ Metode Side 23


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Sidstnævnte værk anvendes også som baggrundslitteratur til de dele af

specialet, der omhandler evaluering, sammen med centrale artikler om

evaluering i det hele taget (Ellis, 1996; Robertson & Hancock‐Beaulieu, 1992;

Buckley & Voorhees, 2000; Saracevic, 1995) og af graderet relevans specifikt

(Voorhees, 2001; Borlund, 2003; Sakai, 2004; 2005).

Baggrundslitteraturen er desuden blevet anvendt som udgangspunkt for

citationssøgninger, sammen med andre centrale dokumenter for de enkelte

metoder. Citationssøgningerne er foretaget i Web of Knowledge 6 , Google

Scholar 7 og Citeseer 8 .

5.3 Data

Af Jens Peter Andersen

5.3.1 Indsamling

Der er til dette projekt fremstillet et datasæt bestående af en række poster fra

CiteULike. Posterne omhandler flere forskellige typer dokumenter, som

videnskabelige artikler, bøger med mere, men primært drejer det sig om

artikler. Da CiteULike er brugerdrevet, er der ingen garanti for kvaliteten af

indekseringen af dokumenterne, og ligeledes er der ingen garanti for, at

dokumenterne rent faktisk er videnskabelige. I det følgende (afsnit 5.3.2) vil

der derfor blive foretaget en analyse af, hvor stor en del af dokumenterne, der

med sikkerhed kan siges at være videnskabelige.

For hvert dokument er der registreret titel og brugertildelte tags i en database.

Der er indhentet 30.198 poster, med ialt 133.469 tags (i gennemsnit 4,42 tags

pr. post). Der er ialt fundet 19.630 forskellige tags i samlingen.

Samlingen er blevet til, ved at høste sider fra CiteULike på baggrund af tags.

Der er således lavet en række emnesøgninger med medicinske emneord.

CiteULike er således opbygget at alle tags på en side er tildelt et link med

strukturen ”http://www.citeulike.org/tag/navn”. Denne struktur er udnyttet til

automatisk at hente alle sider, der er linket til fra emnesøgningerne. CiteULike

begrænser mængden af dokumenter på en side til 50, derfor er der maksimalt

hentet 50 dokumenter for hvert tag ‐ det betyder, at søgningerne ikke er

udtømmende, men samtidig betyder det, at der ikke bliver en

overrepræsentation af visse tags.

Emnesøgningerne er foretaget med udgangspunkt i bruger‐genereret input (se

afsnit 5.4.2), for på den måde at sikre, at de termer der skal anvendes til query

expansion er repræsenteret i datasættet. Derudover er der blevet foretaget

6 http://www.isiwebofknowledge.com/

7 http://scholar.google.com/

8 http://citeseer.ist.psu.edu/

5 ‐ Metode Side 24


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

søgninger med støjtermer, der er relateret til det medicinske domæne. Alle

søgetermer fremgår af tabel 5.1:

Bruger input alzheimer, paranoia, diagnose, diagnosis, welfare, nurse, nursing,

massage, physiotherapy, pain, ache, back, acupuncture, relatives,

family, kin, zone, condom, contraception, birth, backpain,

prevention, sexual, pregnancy, urinary, dementia, old, tired,

fatigue, neurological, stress, hyperventilation, amnesia, smoking,

coughing

Støj carcinoma, cancer, kidney, pancreas, staging, squamous, thyroid,

metastasis, merkel, gastric, adenocarcinoma, breast, human,

microarray, microrna, prostate, breastcancer, carcinogenesis,

chromosome, colon, colorectal

Tabel 5.1 ‐ Søgetermer i CiteULike

Ved hjælp af ovenstående fremgangsmåde er der fundet 3014 HTML‐sider

indeholdende mellem 1 og 50 poster hver.

Disse poster har virket som grundlæggende samling, primært bestående af

poster fra det medicinske domæne. På grund af indsamlingens

fremgangsmåde forekommer der dog også adskillige poster fra andre

domæner.

De fundne HTML‐sider er blevet scannet ved hjælp af et PHP‐script, der på

baggrund af HTML‐koder har fundet titler på dokumenter og tilhørende tags.

Derudover har scriptet brugt CiteULikes eget artikel‐ID til at undgå dublet‐

forekomster.

5.3.2 Egenskaber

I det følgende beskrives de særlige kendetegn, der er fundet ved de

indsamlede data. Først analyseres i hvor høj grad CiteULikes dokumenter er

af videnskabelig karakter, hvorefter der foretages en frekvensanalyse af

fundne tags i forhold til Zipf’s lov (Zipf, 1949). Endelig analyseres tags for

deres lighed med termer der forekommer i titlen på dokumenter, for at kunne

afgøre, om tags rent faktisk tilfører ny information til indekseringen af

dokumenter, eller om de blot fremhæver eksisterende information.

5 ‐ Metode Side 25


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Videnskabelighed

For at undersøge i hvor høj grad referencerne fra CiteULike er videnskabelige,

er der høstet yderligere HTML‐sider fra CiteULike. Disse er blevet automatisk

parset for angivelse af tidsskrift, da dette er den eneste objektive indikator for

hvorvidt et dokument er videnskabeligt eller ej i CiteULike. Der kan

naturligvis forekomme bøger, der også er videnskabelige, eller dokumenter,

der er udkommet i et videnskabeligt tidsskrift uden at dette er anført – dette

er dog ikke umiddelbart muligt at måle.

På denne måde er der fundet 1118 poster, hvoraf de 152 ikke har nogen

angivelse af tidsskrift, hvilket svarer til 13,6%. Den klart overvejende del af

posterne i CiteULike er altså referencer til artikler udgivet i videnskabelige

tidsskrifter (eller conference proceedings). Af de fundne tidsskrifter er de 50

mest anvendte undersøgt for hvorvidt de er peer‐reviewed, for på denne

måde yderligere at kvalificere i hvor høj grad, der er tale om videnskabelige

artikler. Blandt denne top‐50 af tidsskrifter viser det sig, at kun ét tidsskrift

ikke kan bekræftes som peer‐reviewed, hvilket betyder, at 97,5% af artiklerne

er peer‐reviewed.

Tags i titler

For at kunne afgøre hvorvidt tags tilfører ny værdi til de dokumenter de

beskriver, eller om de i højere grad virker som en manuel vægtning af de

termer, der allerede forekommer i dokumenternes titel, analyseres

forekomsten af tags i titlen på de dokumenter de er tilknyttet.

Til formålet er der udtaget 1000 tilfældige poster fra datasættet, hvilket med

den givne population svarer til et konfidensinterval på 3% og et

konfidensniveau på 95%. Optællingen viser, at 601 ud af 4804 tags

forekommer i titlen på det dokument de er tilknyttet, hvilket svarer til et

gennemsnit på 13,3%. Standardafvigelsen er beregnet til 21,4%, hvilket må

siges at være en stor afvigelse. På nedenstående diagram (Figur 5.1) vises

distributionen af dokumenter som funktion af, hvor stor en andel af tags der

forekommer i deres titler.

5 ‐ Metode Side 26


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Frekvens

700

600

500

400

300

200

100

0

Figur 5.1 – Frekvens af tags i titler

Skævheden for datamaterialet er beregnet til 1,83 hvilket klart bekræfter det

diagrammet viser, nemlig at der er en kraftig skævhed, hældende til venstre

side, således at det for rigtig mange dokumenter gælder, at ingen eller meget

få tags kan findes i deres titel, mens de resterende dokumenter er fordelt

nogenlunde jævnt over hele intervallet, dog primært den lave ende.

Konklusionen er, at tags i høj grad tilfører ny viden omkring dokumentet i

forhold til titlen. Havde abstract eller fuld tekst været medtaget, ville man

sandsynligvis have fundet flere tags repræsenteret der; Fuld tekst er dog ikke

tilgængelig gennem CiteULike og abstracts er kun meget sjældent angivet,

derfor har det ikke været relevant at sammenligne med disse.

Frekvensfordeling

Frekvensfordelingen af tags er primært foretaget for at kunne afgøre i hvor høj

grad fordelingen svarer til naturligt sprog. Dette tager udgangspunkt i George

Kingsley Zipfs lov, der siger at i et korpus af naturligt sprog, vil frekvensen af

alle termer følge en reciprok funktion af deres rang, eller udtrykt som i (5.1):

(5.1)

Tags i titler (%)

For k=1 betyder det, at den mest frekvente term forekommer dobbelt så mange

gange som den næstmest frekvente, og tre gange så ofte som den tredje, osv.

En analyse af et tekstkorpus’ frekvensfordeling vil derfor kunne indikere om

det anvendte sprog følger samme fordeling som et naturligt sprog. Derfor er

de 19.630 unikke termer fra den originale høstning af CiteULike blevet

analyseret, og resultatet vises her nedenfor sammen med nogle forskellige,

typiske parametre for k, nemlig k=0,5, k=1, k=2:

5 ‐ Metode Side 27


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

1

0,1

0,01

0,001

0,0001

0,00001

0,000001

0,000000

1E‐08

1E‐09

1 10 100 1000 10000 100000

Tags 1/x 1/x^2 1/SQRT(x)

Figur 5.2 ‐ Frekvens af tag‐forekomster sammenlignet med standardfordelinger, k=1, k=2,

k=0,5

Data er plottet med logaritmisk skala på begge akser, da reciprokke

funktioner vil give rette linier ved dobbelt logaritmisk skala. Som det ses,

ligger data meget tæt på funktionen med k=0,5 for de første ca. 650 termer, og

ser altså ud til at følge Zipfs lov med k=0,5. De resterende ca. 19.000 termer

ligger også på noget, der minder om en ret linie, hvilket betyder at disse har

en lignende opførsel, men med lidt forskellige parametre. På baggrund af

dette er det sandsynligt, at fordelingen af tags svarer til den måde naturligt

sprog opfører sig på.

Det har den konsekvens, at man kan anvende Hans Peter Luhns teori om

resolving power, der i sin essens går ud på, at nogle ord siger mere om det

dokument de forekommer i end andre (Luhn, 1958). Man skelner således

mellem funktionsord og indholdsbærende ord, hvor det er de sidste, der er

brugbare i forhold til såvel automatisk indeksering, og som konsekvens deraf

query expansion. Luhn mente, at der var en sammenhæng mellem ords

placering i en Zipf‐fordeling og deres resolving power, således at de

mellemfrekvente termer var dem med højest resolving power. De termer der

har den højeste frekvens vil ofte være enten funktionsord, eller ord med så

generel betydning at de ikke adskiller dokumentet fra andre i samlingen. De

ord, der har den laveste frekvens vil derimod være så specifikke, at de ikke

kan siges at beskrive indholdet i samlingen. Teorien kan bruges til automatisk

at producere en stopordsliste, hvorved der kan frasorteres store mængder støj.

5 ‐ Metode Side 28


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I sammenhæng med denne undersøgelse er det valgt automatisk at frasortere

alle tags, hvor frekvensen er lig med eller under fem. Der er ikke valgt nogen

øvre grænse for automatisk frasortering af termer, da der blandt de mest

frekvente termer forekommer adskillige termer med potentielt høj resolving

power. Skulle det vise sig ikke at være tilfældet er problemet begrænset, da

det valgte lighedsmål (Ochiai, se afsnit 5.4.1) tager højde for meget frekvente

termer, idet en stor forskel i frekvens mellem to termer vil påvirke Ochiai‐

ligheden mellem dem i negativ retning. I det tilfælde, at der er tale om to

højfrekvente termer med høj koforekomst, vil den valgte metode med stor

sandsynlighed kæde dem sammen. Og idet baggrunden for ønsket om at

diskriminere højfrekvente termer er formodningen om at de er funktionsord,

og dermed har lav indholdsmæssig betydning, er problemet ikke så stort, idet

en klynge udelukkende indeholdende uønskede udvidelsestermer først bliver

et problem, idet der er en af termerne, der optræder i en søgeforespørgsel. Det

vil sige, at hvis der er en søgeforespørgsel der indeholder et sådant

funktionsord vil søgningen blive udvidet med ganske mange andre

funktionsord. Dette er muligvis ikke det informationssøgeren ønskede, men

en naturlig konsekvens af anvendelsen af klynger til udvidelsen. Der foretages

med andre ord en udvidelse der er i forhold til søgningen. Dette er suppleret

med en autoriseret stopordsliste 9 , der indeholder 172 af de mest almindelige,

engelske funktionsord. Efter denne frasortering er samlingen af termer

reduceret fra 19.560 forskellige tags til 3.837.

5.3.3 Gruppering af termer

Et kendetegn ved naturligt sprog er, at det samme ord kan forekomme i

forskellige former, i modsætning til kontrollerede sprog, hvor man ofte

anvender morfologisk kontrol til netop at undgå forskellige grammatiske

former af samme term. Ud over forskellige grammatiske former (f.eks.

ental/flertal) kan der også forekomme substantiv/verbum former af samme

term. Dette er et problem i forhold til termfrekvensanalyser, da det man som

regel er interesseret i er selve termens forekomster, uanset hvilken

morfologisk form den måtte forekomme i.

For at undgå denne unøjagtighed i termfrekvenser, er det derfor nødvendigt

at kombinere alle former af en term til en gruppe, repræsenteret af en

grundform for termen. Typisk gøres dette ved enten stemming eller n‐gram

matching, der begge grupperer ord på baggrund af den måde de er stavet. I

det følgende gennemgås de to metoder, og der argumenteres for valget af en

af metoderne.

Stemming

Idéen i stemming er automatisk at fjerne endelserne af et ord, for derved at

frembringe en ordstamme (stem). En af de mest anvendte algoritmer til at gøre

dette er Michael Porters Snowball‐algoritme (Porter, 1980), også kendt som

9 http://snowball.tartarus.org/algorithms/english/stop.txt/

5 ‐ Metode Side 29


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Porter‐Stemmer, som er videreudviklet løbende siden den første udgave fra

1980. Algoritmen fjerner automatisk både regelmæssige og uregelmæssige

endelser fra engelske ord, og opnår derved en ordstamme. Eksemplet

nedenfor viser nogle af de reduktioner, som algoritmen foretager (Tabel 5.2):

Consolation ⇒ CONSOL

Consolation ⇒ CONSOL

Consolatory ⇒ CONSOLATORI

Console ⇒ CONSOL

Consoled ⇒ CONSOL

Consoles ⇒ CONSOL

Consolidate ⇒ CONSOLID

Consolidated ⇒ CONSOLID

Consolidating ⇒ CONSOLID

Consoling ⇒ CONSOL

Consolingly ⇒ CONSOL

Consols ⇒ CONSOL

Tabel 5.2 – Eksempler på stemming.

Kilde: http://snowball.tartarus.org/algorithms/english/stemmer.html

Algoritmen har den fordel ved store datamængder, at frembringelsen af

ordstammer er uafhængig af datasættets størrelse, og at grupperingen er

lineært afhængig (der foretages én sammenligning pr. term i datasættet) ‐

dette betyder at runtime for en klyngealgoritme eller automatisk

indekseringsalgoritme, ikke bliver væsentlig forværret ved at implementere

stemming.

Da stemming bygger på en række regler for det engelske sprog, kombineret

med nogle regler for undtagelser i samme, kan der forekomme situationer,

hvor to termer, der ikke er semantisk identiske, reduceres til samme

ordstamme. F.eks.:

Colon ⇒ COLON

Colonization ⇒ COLON

Tabel 5.3 ‐ Eksempel på dårlig stemming

Hvorvidt dette er et problem afhænger af, hvad ordstammerne skal bruges til.

Når de som her skal bruges til at gruppere termer i klynger, baseret på

hvordan de forekommer sammen, så er det et potentielt problem, da

grumsede stemming‐grupper kan føre til uønskede grupperinger af termer.

Stemming som generel metode, og også Porter‐Stemmer algoritmen specifikt

er blevet undersøgt flere gange, netop pga. ovenstående principielle problem.

Blandt de mest fremtrædende undersøgelser er en undersøgelse af Donna

Harman (1991), der konkluderer, at stemming i princippet er uden effekt, samt

to undersøgelser af David Hull (Hull, 1996; Hull & Grefenstette, 1996), der

omvendt konkluderer, at algoritmen på trods af visse problemer stort set altid

5 ‐ Metode Side 30


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

forbedrer søgeresultater, dog med undtagelse af ren pluralitetsstemming, der

ikke har nogen målbar effekt.

For at kunne afgøre hvor godt stemming virker på tags, der er fundet via

ovenstående fremgangsmåde, er der udtaget en stikprøve fra den samlede

population, der efter stemming er på 3.596 termer. Med et konfidensinterval

på 5% kræver det en stikprøve på 347 grupper af stemmede termer.

Stikprøven er udvalgt ved hjælp af en tilfældighedsalgoritme, sådan at alle

grupper er unikke, og valgt uden anden påvirkning fra de øvrige grupper.

Hver enkel gruppe er derefter analyseret, sådan at grupper, hvor alle termer i

gruppen er semantisk relaterede modtager værdien 1, og alle øvrige grupper

modtager værdien 0. Der er ikke taget højde for gruppestørrelse. Resultatet er

329 grupper, hvor der er en semantisk relation mellem alle termer, hvilket

svarer til 95% af den samlede stikprøve.

n­gram matching

n‐gram matching adskiller sig fra stemming ved ikke kun at se på en

ordstamme, hvor endelsen er fjernet, men derimod på lighed mellem hvordan

to ord er stavet. Det er altså ligegyldigt, om forskellen i staveformen

forekommer i starten, slutningen eller midt i ordene. Den anden store forskel

er, at n‐gram bygger på en sammenligning mellem to ord.

n‐gram metoden bygger på en opdeling af ord i bogstavstupler af størrelsen n.

Som regel anvendes n=2 eller 3 (Xu & Croft, 1998).

Ligheden mellem to ord, der er opdelt således, kan afgøres på flere måder,

men ofte anvendes Diceʹs lighedsmål (van Rijsbergen, 1979) (5.2):

(5.2) ||

||||

Hvor A er antallet af unikke tupler i ord A og B er antallet af unikke tupler i

ord B. Lighedsmålet udtrykkes som et tal mellem 0 og 1, hvor 0 angiver det

tilfælde, hvor de to ord intet har til fælles, og 1 det tilfælde hvor de to ord er

opbygget af de samme unikke tupler (rækkefølgen er ikke nødvendigvis den

samme). Hvorvidt to ord kan grupperes afhænger derfor af ligheden i forhold

til en valgt tærskelværdi. Valget af tærskelværdi giver mulighed for at

finjustere resultatet af termgrupperingen, men er derfor også følsom overfor

subjektiv indflydelse fra den, der træffer valget. Ydermere kræver det en

grundig analyse i forhold til ethvert tekstkorpus at vælge den rette

tærskelværdi.

5 ‐ Metode Side 31


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Fordelen ved n‐gram matching sammenlignet med stemming er, at der kan

findes stavefejl midt i ordet, og der kan findes ord der har samme semantiske

betydning, men forskellige præfixer eller suffixer. Afhængigt af hvilken

tærskelværdi der vælges, kan problemstillinger som i Tabel 5.3 undgås, men

derimod vil følgende problem være sandsynligt:

Colon Colonization

Colony Grupperes Grupperes ikke

Tabel 5.4 ‐ Eksempel på dårlig n‐gram gruppering

Udover denne problemstilling, er n‐gram matching også besværligt i forhold

til runtime, når der er tale om store datamængder. Modsat stemming, skal n‐

gram matching sammenligne alle termer med hinanden, hvorved runtime,

O(n), får følgende afhængighed (5.3):

(5.3)


Det betyder en væsentlig forøgelse af runtime ved store datamængder, som

det er tilfældet ved denne undersøgelse.

Xu & Croft har sammenlignet trigram‐matching med både Porter‐stemmeren

og andre stemming‐algoritmer (Xu & Croft, 1998) og når frem til at alle testede

former for termgrupperinger giver bedre resultater, end ingen, i forhold til

recall i den testede samling. De når også frem til, at trigram‐matching opnår

lidt højere precision end Porter‐stemmeren ved højt recall, mens det omvendte

er tilfældet ved lavt recall. En anden undersøgelse viser, at Porter‐stemmeren

har højere precision‐tab end mere avancerede stemming‐algoritmer (Kraaij &

Pohlmann, 1996).

Da 95% af ordstamme‐grupperinger vha. stemming rent faktisk giver mening,

og der er så store runtime‐problemer med n‐gram matching, uden at det er

sandsynligt, at det vil opnå væsentligt bedre resultater end stemming, vælger

vi at anvende Porter‐Stemmer algoritmen til at gruppere termer på baggrund

af deres stavemåde inden disse klynges vha. clustering‐algoritmen. Dette på

trods af ovenstående resultater om precision‐tab, da vi er mere interesseret i at

få et godt recall, der til gengæld også er ranket godt. Som nævnt foroven

reducerer dette antallet af termer til 3.596.

5 ‐ Metode Side 32


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

5.4 Anvendte metoder

5.4.1 Klynger

Af Mikkel Just Tronhus

Udgangspunktet for klyngeanalysen, er vektorrumsmodellen, som udviklet af

Gerald Salton et al. i 1960ʹerne og 1970ʹerne (Salton, Wong, & Yang, 1975).

Denne model kan ved anvendelse af et lighedsmål og en klyngealgoritme

knytte termer eller dokumenter sammen efter deres indbyrdes lighedsgrad.

Lighedsgraden bestemmes ved hjælp af førnævnte lighedmål, på baggrund af

vektorrepræsentationer af objekterne. I tilfældet med dokumenter, vil de

enkelte vektorelementer være termer i dokumenterne, og i det modsatte

tilfælde, repræsenterer vektorelementerne de enkelte dokumenter i samlingen.

Værdierne er enten binære eller numeriske, afhængig af hvordan systemet er

designet. I et binært system, tages der blot højde for om termen er tilstede i

dokumentet (1) eller ikke tilstede i dokumentet (0). I de vægtede systemer, er

værdien numerisk, og i de fleste systemer positiv. De positive værdier

indikerer i det tilfælde den konkrete vægt termen har i netop dette dokument,

med en højere værdi signalerende en højere vægt i forhold til dokumentet.

Koforekomster

I nærværende projekt, er der tale om tags og bibliografiske poster. Valget af

tags som udgangspunkt for klyngeanalyse, giver anledning til nogle

spørgsmål der skal besvares inden vi går videre. For eksempel er der

problemet med definitionen af en koforekomst. Spørgsmålet er, hvor stort

tekstvinduet skal være, indenfor hvilket vi vil kigge efter koforekomster. Der

er i tagging forholdsvist mange muligheder. Man kan betragte hele posten

med samtlige tilhørende tags som et tekstvindue. Det vil give den største

mængde af koforekomster, idet det er det største vindue der kan laves i denne

situation. Dette kunne være en god løsning, når man tager i betragtning hvor

få tags mange brugere anvender pr. post. Alternativt kunne man vælge at se

på en enkelt brugers tags til en enkelt post. Dette vil give færre muligheder for

koforekomster, men vil sikre en større konsistens i de koforekomster der

findes, idet det er den samme sprogbrug og taggingmetode der har genereret

det hele. Der findes mange forskellige motivationer for at tagge et givet

dokument, og dermed også mange forskellige måder at tagge på: Nogle tagger

for sig selv, nogle tagger for at oplyse andre om en bibliografisk post, nogle

tagger for at huske sig selv på et eller andet praktisk og personligt om posten

(som det i den sammenhæng frygtede tag ”to‐read”).

Hvis man tager udgangspunkt i den klassifikation af motivationsfaktorer som

Ames og Naaman (2007) anvender, kan man se en del af de faldgruber, der er

i anvendelsen af denne type tags, til det ønskede formål. Klassifikationen er,

som set nedenfor, opdelt efter to parametre, Function og Sociality.

5 ‐ Metode Side 33


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 5.3 ‐ Motiverende faktorer for tagging (Ames & Naaman, 2007)

Af de fire forskellige klassifikationer er det primært kombinationen af Self og

Communication der giver problemer i forhold til det ønskede resultat, idet

denne kombination, hvor man tagger for at kommunikere et eller andet til sig

selv, dels lider af at være meget individuel, og dermed ikke nødvendigvis af

interesse for vi andre og dels ikke særlig deskriptiv i forhold til dokumentet.

Der er tale om situationer hvor en tagger ønsker at minde sig selv om en

ressource eller hvor en tagger beskriver hvilken kontekst hun ser eller forstår

ressourcen i. Konteksten kan i nogle tilfælde være interessant at fastholde i en

klyngeanalyse af tags, men vil i mange tilfælde ikke være det. Tags genereret

som hukommelseshjælp til individuelle taggere er ikke til gavn for den query

expansion der skal foretages. De tre øvrige motivationskategorier er alle

potentielt til gavn for de klynger, der skal dannes bagefter. Hvis funktionen

med taggingen har noget at gøre med organisation af dokumenter, vil vi have

det med i klyngerne. Og tilsvarende, hvis tagget er lavet med fokus på sociale

motivationer, så er det også et tag der er ønskværdigt i klyngeanalysen.

Det er med andre ord tre ud af fire typer motivationsfaktorer der er

ønskværdige, og en ud af fire der ikke er det. Ikke dermed være sagt, at tre ud

af fire tags er lavet med udgangspunkt i de ʺgodeʺ motivationsfaktorer, den

parallel kan ikke drages uden dybere analyser. Dette blot for at pointere, at

der altså findes disse forskellige motivationsfaktorer, og at kvaliteten af tags

afhænger af dem. Der er mange forskellige måder at gøre det på, og en

indsnævring af tekstvinduet ville være en måde at begrænse denne fejlkilde

mest muligt. Idet ”to‐read” oftest ville forekomme sammen med andre tags af

mere personlig og mindre organiserende karakter. Givet de nævnte fordele og

ulemper ved de forskellige størrelser tekstvinduer, vælges det at anvende det

største mulige vindue. Det vurderes, at den større mængde potentielle

koforekomster, vil kvalificere de endelige klynger bedre, end den øgede

konsistens der var potentiale for ved det lille tekstvindue.

5 ‐ Metode Side 34


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Givet at vi har valgt det store tekstvindue, er der også mulighed for at

diskutere om koforekomsterne udelukkende er en binær sammenhæng, eller

om der skal tages højde for de tilfælde, hvor et tag forekommer flere gange til

samme bibliografiske post. Det kunne muligvis være interessant at se på hvad

anvendelsen af numeriske vægte i stedet for den binære vægtning kunne

medføre af detaljeringsgrad i undersøgelsen. Men det giver datamaterialet fra

CiteUlike desværre ikke mulighed for.

Lighedsmål

Idet de data der skal sammenlignes, er binære, er det nødvendigt at finde en

analysemodel der egner sig til denne type data. En tidligere anvendt model til

analyse af lighedsmål er den Jones og Furnas (Jones & Furnas, 1987) opstiller,

der ser på vinkel og længde af de givne vektorer. Denne metode egner sig dog

ikke særligt godt til analyse af lighed mellem binære vektor idet længden af

disse ikke varierer særligt meget. I stedet for denne metode andvendes den

metode som Anderberg (Anderberg, 1973) anvender. Her stilles de forskellige

match‐situationer i vektorsammenligningen op i følgende kontingenstabel, og

lighedsmålene formuleres derefter i forhold til denne.

Vektor A

Vektor B

1 0 Total

1 a b a+b

0 c d c+d

Total a+c b+d n

Tabel 5.5 ‐ Kontingenstabel

Hvor a signifierer et positivt match, altså hvor begge de sammenlignede

værdier er 1, eller i relation til nærværende problemstilling: Den situation,

hvor begge tags forekommer i samme post.

Og hvor d signifierer den situation, hvor begge de sammenlignede værdier er

0, eller i relation til klyngeanalysen, den situation hvor der ikke er nogen af de

sammenlignede termer der er tilknyttet som tags til det konkrete dokument.

Og hvor b og c er de tilfælde, hvor den ene term er tilknyttet dokumentet, og

den anden ikke er.

Det er muligt, ud fra denne tabel, at definere en lang række af forskellige

lighedsmål, der hver især har forskellige fokusområder. Her skal blot

præsenteres et par stykker af de mest almindelige, og kort diskuteres hvilke

fordele og ulemper de hver især har i relation til det konkrete formål for den

efterfølgende klyngeanalyse.

5 ‐ Metode Side 35


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Simple match

(5.4)


Den helt simple matching, er forholdet mellem den mængde tilfælde, hvor de

to vektorer har samme værdi, og den samlede mængde tilfælde der kan

undersøges. Det vil sige, i hvor stor en del af vektorens dimensioner er der

overensstemmelse mellem de to vektorer.

Der diskrimineres ikke mellem positive og negative match, og som lighedsmål

giver det altså lige så stor værdi når det sammenligner to termer uden nogen

koforekomster, som når det sammenligner to termer med mange

koforekomster, så længe der er lige mange tilfælde, hvor den ene term

forekommer uden den anden.

d1 d2 d3 d4 d5 d6 d7 d8 d9 d10

t1 0 0 0 0 0 1 0 1 0 1

t2 0 0 0 0 0 0 1 0 1 0

t3 1 1 1 1 1 1 0 1 0 1

t4 1 1 1 1 1 0 1 0 1 0

t5 1 1 1 1 1 0 0 0 0 0

Tabel 5.6 ‐ Term×dokument matrice

Som ovenstående tilfælde, hvor den simple matching algoritme giver den

samme lighed mellem t1 og t2 (0+5/10), som mellem t3 og t4 (5+0/10). Det er i

det konkrete tilfælde en klar svaghed, at målet giver lige så stor vægt til de

negative match, som til de positive match. Det kan ikke afvises, at de negative

match kan spille en rolle i definitionen af ligheden mellem vektorerne, men i

ovenstående tilfælde demonstreres absurditeten idet der gives lige stor lighed

til to termer der aldrig forekommer sammen, som til to termer der

forekommer sammen i halvdelen af de mulige tilfælde.

Simple

Match

t1 t2 t3 t4 t5

t1 1

t2 0,5 1

t3 0,5 0 1

t4 0 0,5 0,5 1

t5 0,2 0,3 0,7 0,8 1

Tabel 5.7 ‐ Term×term matrice, simple match

5 ‐ Metode Side 36


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Ranking af termpar med positiv lighed og dermed potentiale for at ende i

samme klynge:

Jaccard

1: (t5+t4)

2: (t5+t3)

3: (t1+t2), (t2+t3), (t2+t4), (t3+t4)

4: (t2+t5)

5: (t1+t5)

(5.5)


Jaccards lighedsmål er i det binære tilfælde forholdet mellem antallet af

koforekomster divideret med antallet af tilfælde, hvor mindst en af termerne

forekommer. Det er med andre ord et udtryk for en form for betinget

sandsynlighed for at begge termer er tilknyttet som tag, givet at den ene er

det. Modsat den simple matching så tages der her ikke højde for negative

match. Graden af lighed afhænger med andre ord, ikke af i hvor stor en del af

samlingen ingen af termerne er repræsenterede. I relation til pointen om at et

negativt match, intuitivt set, indikerer en eller anden form for lighed, er det en

svaghed ved lighedsmålet. Eksempel: Ligheden mellem t1 og t2 er 0/(0+3+2)

lig med 0. og ligheden mellem t3 og t4 er 5/(5+3+2) = 0,5 hvilket er intuitivt

fornuftigt nok. Hvis man til gengæld ser på forholdet mellem to andre

vektorer, med en tilsvarende mængde koforekomster, nemlig t3 og t5, så er

deres indbyrdes Jaccard‐lighed 5/(5+3+0) = 0,625. Jaccard belønner altså

vektorpar, hvor der er få mismatch. Dette ses også ud af selve formlen, hvoraf

det fremgår, at Jaccard målet går imod 1, når (b+c) går imod nul, samtidig med

at a er større end nul. I det tilfælde hvor der er få mismatch, nærmer

lighedsmålet sig 1, men er ikke afhængig af mængden af koforekomster, så

længe der er mindst en. Dette kan godt betragtes som en svaghed i det

konkrete tilfælde, hvor vi ønsker at klynge de termer sammen der har mange

koforekomster, idet vi antager at det betyder at de er emnemæssigt

beslægtede.

Jaccard t1 t2 t3 t4 t5

t1 1

t2 0 1

t3 0,375 0 1

t4 0 0,286 0,5 1

t5 0 0 0,625 0,714 1

Tabel 5.8 ‐ Term×term matrice, Jaccard

5 ‐ Metode Side 37


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Ranking af termpar med positiv lighed og dermed potentiale for at ende i

samme klynge:

Dice

1: (t4+t5)

2: (t3+t5)

3: (t3+t4)

4: (t1+t3)

5: (t2+t4)

(5.6)Dice lighedsmålet er identisk med Jaccard, bortset fra, at der er en faktor

knyttet til koforekomsterne. Det eneste formål med denne faktor er at vægte

de situationer hvor begge termer forekommer sammen højere i

sammenligningen. Konsekvenserne af den metode er, at der bliver taget

relativt set mindre hensyn til mismatch situationerne i udregningen af

lighedsgraden. Hvis man ser på den samlede mængde af ligheder i det lille

testsystem fra før, viser det sig, at Dice lighederne er større end de tilsvarende

Jaccard ligheder, men at de følger samme progression i forhold til ranking af

termpar som Jaccard.

Dice t1 t2 t3 t4 t5

t1 1

t2 0 1

t3 0,545 0 1

t4 0 0,444 0,667 1

t5 0 0 0,769 0,833 1

Tabel 5.9 ‐ Term×term matrice, Dice

Ranking af termpar med positiv lighed og dermed potentiale for at ende i

samme klynge:

1: (t4+t5)

2: (t3+t5)

3: (t3+t4)

4: (t1+t3)

5: (t2+t4)

5 ‐ Metode Side 38


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Ochiai

(5.7)(Ellis, Furner‐Hines, & Willet, 1993, s. 137‐138)

Ochiai er en udgave af det almene cosinus lighedsmål, som anvendes

andetsteds i specialet. Det er i forhold til de tre foregående lighedsmål et

markant mere komplekst mål, omend det dog stadig er ret simpelt at udregne

ud fra optællingerne af henholdsvis a, b, c og d. Det er helt ufølsomt overfor

negative hits (d), og dermed velegnet til denne form for analyse idet

vektorerne og matricerne er ”sparse”, det vil sige der er mange 0‐indførsler i

matricen.

Ochiai t1 t2 t3 t4 t5

t1 1

t2 0 1

t3 0,612 0 1

t4 0 0,535 0,668 1

t5 0 0 0,791 0,845 1

Tabel 5.10 ‐ Term×term matrice, Ochiai

Ranking af termpar med positiv lighed og dermed potentiale for at ende i

samme klynge:

1: (t4+t5)

2: (t3+t5)

3: (t3+t4)

4: (t1+t3)

5: (t2+t4)

Det har altså vist sig, at alle de ind til videre gennnemgåede lighedsmål ranker

lighederne mellem de 5 testvektorer ens. Det er en lille stikprøve at basere

noget på, foruden at det er urealistiske data i forhold til de meget tyndt

befolkede vektorer der arbejdes med i koforekomstanalyser.

5 ‐ Metode Side 39


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I bilag 10 præsenteres en mængde mere realistiske eksempler på

koforekomstdata, samt nogle flere forskellige lighedsmål, nemlig Rogers‐

Tanimoto (5.8), Russel‐Rao (5.9), Kulczynski (5.10) og produkt‐moment

korrelation (5.11):

(5.8)

(5.9)
(5.10)


(5.11)

||Nærmere bestemt den samling Anderberg anvender i sin bog (Anderberg,

1973).

Disse data præsenteres her som et plot af de syv mest anvendelige lighedsmål,

og hvordan de forholder sig til 25 forskellige vektorsammenligninger. Det

ottende lighedsmål, som ikke plottes er Kulsczynski, som vurderes at være

uegnet, på grund at dets manglende normalisering. Det er ikke, som de andre

begrænset i maksimal værdi, og egner sig dermed ikke til at blive medtaget i

samme analyse som de andre.

Som det fremgår af figur 5.4, er der nogle af lighedsmålene der kan sorteres

fra med det samme, nemlig Rogers‐Tanimoto og Simple Matching. De lider

begge af den, i dette tilfælde, svaghed, at de vægter negative match lige så højt

som positive match, hvilket er i direkte modstrid med det ønskede i dette

tilfælde. Derudover antyder figuren, at Russel‐Rao ikke er i stand til at

diskriminere mellem de forskellige ligheder. Men dette er blot et spørgsmål

om manglende detaljegrad på plottet. Som det fremgår af bilag 10 har Russel‐

Rao faktisk tildelt forskellige lighedsværdier til vektorparene, de er ikke

specielt godt differentieret, men de er der, og det ses også at de følger samme

mønster som de øvrige.

5 ‐ Metode Side 40


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

1,2000000

1,0000000

0,8000000

0,6000000

0,4000000

0,2000000

0,0000000

‐0,2000000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Dice Jaccard

Simple Russel/Rao

Rogers/Tanimoto Ochiai

Produkt Moment correlation

Figur 5.4 ‐ Oversigt over forskellige lighedsmåls diskriminationsevne på det binære plan

De resterende fire lighedsmål er Dice, Jaccard, Ochiai og Produkt‐moment

korrelation. Af figur 5.4 fremgår det, at de følger samme tendens, og at de vil

være enige om rankingen af de forskellige ligheder over de 25 testpar. Det kan

ikke positivt afgøres at der er tale om lineær afhængighed, men det ser i hvert

tilfælde ud til, at det ikke ville gøre nogen stor forskel i forhold til den

efterfølgende klyngeanalyse, hvilket af de fem lighedsmål der anvendes. Den

sidste parameter, som i dette tilfælde kommer til at afgøre valget, bliver, hvor

godt lighedsmålet er i stand til at diskriminere mellem de forskellige grader af

lighed, eller med andre ord: hvor stor spredning er der indenfor de 25 testpar.

Der bliver Russel/Rao sorteret fra først. Det er simpelthen for besværligt, at

skulle lave klyngeanalyse på så ens lighedsværdier. Dice og Jaccard har begge

en relativt god spredning mellem høje og lave ligheder, men har i forhold til

Ochiai og Produkt moment korrelationen en relativt dårlig præcision, her

forstået således, at Dice og Jaccard har relativt få forskellige værdier i forhold

til de to andre. Diversiteten er vigtig i forbindelse med klyngeanalysen, idet

det vil give mulighed for mere præcise klyngninger. Valget ser dermed ud til

at stå mellem Ochiai og Produkt moment korrelationen, og her vinder Ochiai

på dels at have en stor spredning mellem de store og de mindre store ligheder,

og på ligeledes at have en stor diversitet.

5 ‐ Metode Side 41


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Klyngealgoritme

Klyngealgoritmen er beskrivelsen af hvordan det valgte lighedsmål anvendes

til at danne klynger.

Klynger kan i sig selv klassificeres på mange forskellige måder: Enten gennem

den metode de findes på (klyngealgoritmen) eller gennem den måde de

naturligt optræder i samlingen. Det seneste er naturligvis svært at identificere

i realistiske situationer på grund af det meget store antal dimensioner de

befinder sig i. Typerne kan dog godt diskuteres på denne måde alligevel, som

f.eks. Karen Spärck Jones (1971), hvor naturlige klynger klassificeres efter

hvordan de optræder i et tænkt system. Hun identificerer følgende fire

forskellige typer:

Figur 5.5 ‐ Fire forskellige klyngetyper (Spärck Jones, 1971)

Hvor cliques og clumps er de koncentrerede, konsistente ”gode” klynger,

som vi skal stræbe efter at finde, hvis de vel og mærke er til stede i samlingen.

Stars er også acceptable, fordi de har relativt kort grafteoretisk afstand mellem

yderpunkterne, og dermed mindre risiko for at have lav lighed mellem to

objekter i en klynge. Strings, er den mindst attraktive form for klynger, i

relation til det konkrete formål med disse klynger. Idet klyngerne skal

anvendes til query expansion, skal der helst ikke være for ”langt” mellem de

termer der udvides med, da det vil medføre en øget mængde af støj i

søgningerne. Og det er præcist det der er risikoen ved at have strings i et

sådant system. Hvor de interne ligheder mellem nabo‐termer i en string kan

være meget høj, så kan der sagtens risikere at være meget lille lighed mellem

de to ender af strengen.

Der er mange forskellige måder at danne klynger ud fra den lighedsmatrice

der er dannet ved hjælp af ovenstående lighedsmål. Der er ”billige” metoder,

der rent databehandlingsmæssigt er hurtige, og som derfor egner sig godt til

store systemer og systemer, der skal opdateres løbende. Det er på trods af

5 ‐ Metode Side 42


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

stadig hurtigere computere, endnu et problem, at databehandlingen tager lang

tid med de komplicerede algoritmer, og derfor er der mange operationelle

systemer der vælger at anvende såkaldt ”one‐pass”‐algoritmer, hvor samtlige

data blot skal igennem systemet en gang, hvorefter softwaren bestemmer de

optimale klynger (Kanungo, Mount, Netanyahu, Piatko, Silverman, & Wu,

2002). K‐means algoritmer er de mest populære af den slags. De lider dog af

den, i en videnskabelig sammenhæng, beklagelige egenskab, at de ikke er let

reproducerbare, idet de bygger på en tilfældig fordeling af de første objekter i

hver klynge. Desuden er det en svaghed ved disse algoritmer at man fra

starten skal bestemme hvor mange klynger man gerne vil have ud af systemet.

Det strider imod teorien om, at en klyngealgoritme identificerer de naturlige

klynger i et datamateriale.

Som modsætning til ”one‐pass” algoritmerne findes de hierarkiske algoritmer.

Disse kendetegnes ved, at klyngerne opbygges trinvist, ved en gradvis

sænkning af grænseværdien for den lighed der skal til før to termer klynges

sammen. De er meget tidskrævende at udføre, på grund af deres algoritmiske

kompleksitet, og er dermed ikke velegnede til systemer der skal opdateres

løbende. Til gengæld er de reproducerbare, og ikke afhængige af en tilfældig

fordeling af termer til at starte med.

De hierarkiske algoritmer findes i både agglomerative og divisive versioner,

hvor forskellen blot er om man starter med n diskrete klynger, og arbejder sig

ned mod et mindre antal ved at føje klynger sammen, eller om man starter

med alle termer i en stor ”moderklynge” som derefter splittes op efter nogle

på forhånd specificerede regler (Hjortgaard Christensen, 1991).

Det vurderes i det nærværende tilfælde, at k‐means metoderne er for usikre, i

det der ikke findes en a priori fordeling der kan ligge til grund for algoritmen

lige som der ikke findes et fast antal for hvor mange klynger der skal være til

sidst. Det vælges derfor at anvende en hierarkisk metode, og da Occams

ragekniv siger at man skal undgå unødig komplicerede metoder hvis der ikke

findes et indlysende argument for at anvende dem, vælges det at anvende en

agglomerativ metode idet det er en simplere, bedre gennemtestet model.

Der mangler endnu et valg i forbindelse med klyngealgoritmen, nemlig valget

til afgørelse af hvordan lighed mellem to klynger måles i løbet af

klyngealgoritmens udførelse. Valget står mellem single link, complete link, og

forskellige variationer af average link.

5 ‐ Metode Side 43


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I single link metoder defineres ligheden mellem to klynger som den største

lighed der kan findes mellem to elementer fra hver sin klynge. Tilsvarende,

eller modsat, forholder det sig med complete link metoden, hvor det er den

mindste lighed mellem to elementer der afgør hvornår to klynger kan føjes

sammen. Average link, er altid en attraktiv mellemting, afhængig af hvilken

definition af average der anvendes. Der findes mange forskellige måder at

udregne den gennemsnitlige lighed mellem to konkrete klynger. Men ingen af

dem lever op til det krav der her stilles til klyngekvaliteten.

Den væsentligste parameter for valget af klyngealgoritme og lighedsmål er at

vi ønsker så tætte klynger som muligt. Query expansion drejer sig naturligvis

om at udvide søgninger, men givet tidligere erfaringer med automatisk

klyngedannelse som viser, at klynger dannet på denne måde har en tendens til

at indeholde uforholdmæssigt mange støjtermer, altså termer der ikke

bidrager til kvaliteten af de søgninger de anvendes i (Andersen & Tronhus,

2005; Andersen, Tronhus, & Johansen, 2007; Tronhus M. J., 2008) ønsker vi, at

de klynger der skal bruges som basis for udvidelsen har en meget høj intern

konsistens (at der ikke er for stor forskel på lighedsværdierne internt i en

klynge). Og en meget høj intern lighed. Dermed er det oplagte valg for

klyngealgoritmen complete link, idet det giver den største interne konsistens i

klyngerne.

Givet det ovenfor valgte lighedsmål og klyngealgoritme, er udfordringen

derefter at vælge en grænseværdi for hvor stor lighed vi vil kræve internt i

klyngen. Givet valget af complete link klynger dannet ved hjælp af Ochiai

lighedsmålet, skal det besluttes hvilken grad af lighed vi vil sætte som grænse

for at tilføje et nyt objekt til en klynge. Der er to forhold der spiller ind på

valget af grænseværdien. Det ene er, at i forhold til at bevare en så høj

integritet i klyngerne som muligt, ønskes det at sætte grænseværdien meget

højt. Det vil medføre, at vi får mange små klynger. Dernæst er der det forhold,

at vi ønsker at identificere de klynger der giver den bedste performance i det

endelige system. I relation til det, er det muligt det bliver nødvendigt at gå lidt

på kompromis med førnævnte integritet. Den højeste integritet findes i

singleton klynger, men de er ikke specielt velegnede som basis for query

expansion. Derfor er det nødvendigt at finde en metode til at afgøre hvor

meget vi skal gå på kompromis med integriteten før vi har et ʺfornuftigtʺ antal

klynger. Den sædvanlige fremgangsmåde er, at teste forskellige værdier og

forsøge at evaluere hvilken der giver de bedste klynger til det givne formål.

Hvis denne metode skal opfylde videnskabelige kriterier for reproducerbare

resultater, er det nødvendigt på forhånd at definere nogle krav til de ønskede

klynger. Disse krav kan enten defineres ud fra et ønsket absolut antal, et

ønsket antal i forhold til antallet af objekter eller ud fra nogle relationer

mellem konkrete objekter i datamaterialet der skal være opfyldt.

Metoden med at specificere et ønsket antal klynger, enten absolut, eller

udtrykt i forhold til antal objekter har den ulempe, at den strider imod den

resterende metode, idet klyngeanalysen som helhed stræber mod at

identificere de ʺnaturligeʺ klynger i et datamateriale. Den anden metode, hvor

5 ‐ Metode Side 44


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

man på forhånd definerer nogle obligatoriske relationer der skal være opfyldt

kan derimod opfattes som et forsøg på at holde klyngernes validitet på et højt

niveau, idet de obligatoriske relationer er defineret ud fra semantiske

principper. Denne metode vurderes desuden til at være den der egner sig

bedst til den senere test af dette system, idet det er muligt at vælge de tags der

indgår i testen som udgangspunkt for de obligatoriske relationer. I det

konkrete tilfælde vælges det at anvende de ønskede testtermer som

udgangspunkt, og sætte grænseværdien således at samtlige testtermer bliver

optaget i klynger. Dette valg medfører, at grænseværdien bliver sat på 0,2.

5.4.2 Simulated work­tasks

Af Mikkel Just Tronhus

Formålet med simulated work tasks har tidligere været nært knyttet til

evaluering af IR systemer, hvor man har bedt neutrale personer gennemføre

nogle simulerede arbejdsopgaver med det formål at se hvordan det udviklede

system klarer sig i et miljø der tilnærmer sig virkeligheden. Her anvendes

metoden med et andet sigte, men metoden bygger stadig på de samme

principper som har gjort den til et attraktivt valg i forbindelse med evaluering.

Nemlig antagelsen om at det kan lade sig gøre at sammenligne den situation

man sættet sine testbrugere i med en virkelighed situation.

Formålet med arbejdsopgaverne i nærværende projekt er som nævnt ikke

evaluering, men nærmere dataindsamling. Vi ønsker gennem denne metode

at frigøre os fra bias i valget af hvilke søgetermer der skal anvendes til testen

af query expansion systemet. Det er planen, at arbejdsopgaverne skal bibringe

os nogle realistiske bud på hvordan brugere søger i et konkret

informationssystem. Dette skal vi bruge for at kunne implementere den

automatiske udvidelse af søgningerne, som er formålet med dette projekt.

Inden udførelsen af de simulerede arbejdsopgaver, er der en række

metodeovervejelser, der skal gøres, det gælder designet af arbejdsopgaverne,

valget af deltagere og udførelsen af arbejdsopgaverne.

Designet af arbejdsopgaverne er inspireret af det system vi skal implementere

query expansion på, nemlig PubMed 10 . PubMed er en del af et større

informationssystem, der både henvender sig til professionelle, og til amatører.

National Library of Medicine har mange forskellige indgange til de samme

infomationer, nogle af dem er designet til professionelle, og andre er designet

til almindelige brugere. Da den professionelle indgang (PubMed) er den vi

skal bruge senere, vælger vi at tage udgangspunkt i de informationer der

findes i systemet i udformningen af arbejdsopgaverne. Der findes på NLMʹs

hjemmeside, en underside, der beskriver de mest søgte emner indenfor

sundhedsinformation. Disse ”ofte søgte emner” ligger til grund for de

arbejdsopgaver vi har udformet. Det antages, at dette valg vil betyde, at vores

10 www.ncbi.nlm.nih.gov/pubmed/

5 ‐ Metode Side 45


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

testpersoner vil angive nogle søgetermer der har en relation til noget af det

materiale der er i pubmed. Desuden antages det, idet vi har valgt nogle af de

mest søgte informationsbehov, at situationerne er så almindelige, at vores

testpersoner vil have lettere ved at sætte sig ind i de situationer vi beskriver i

arbejdsopgaverne. Arbejdsopgaverne er udformet, således at der er en kort

indledende tekst, der beskriver selve situationen, sådan at at testpersonerne

kan få en fornemmelse af konteksten de søger i. Dernæst følger en ultrakort

formulering af en mulig retning for søgningen. Denne tjener to formål, dels at

sikre en vis konsistens over de forskellige brugere, således at de emnemæssigt

søger i omtrent samme retning. Dels at sparke deres egen fantasi i gang,

således at de bedre er i stand til selv at komme i tanke om interessante

søgetermer.

Valg af deltagere er, som i så mange andre situationer betinget af praktiske

omstændigheder, som for eksempel: ”Hvem kan vi overtale til at deltage?”

Det pragmatiske svar på det spørgsmål er: Nogen vi kender i forvejen, eller

som vi har en let adgang til at komme i kontakt med. Deres baggrund

vurderes ikke til at være en væsentlig parameter i valget, idet opgaverne er

designet til at være så almengyldige som muligt, således at så mange som

muligt skulle kunne sætte sig ind i den tankegang der er præsenteret i selve

opgaven. Det vurderes, at deltagernes personlige og faglige baggrund ikke har

nogen effekt på hvordan de reagerer på arbejdsopgaverne. Desuden vurderes

det, at en eventuel bias introduceret gennem valg af testpersoner ikke vil have

en negativ effekt på opgavens validitet, idet det eneste de skal gøre er at

generere søgetermer for os. Dermed er der kun to parametre tilbage i valget af

testpersoner, nemlig at vi ønsker at de har et et basalt kendskab til det sprog

der anvendes i den database systemet skal anvendes på, og at det skal være

potentielle brugere af det endelige system (Borlund, 2003). I henhold til at de

skal være potentielle brugere af det endelige system, er det væsentligt at

gentage, at dette system ikke designes med professionelle brugere for øje, men

tænkes anvendt af alle der har behov for medicinsk/sundhedsvidenskabelig

information. Men da det samtidig kræves at de brugere der laver opgaverne

har et basalt kendskab til det medicinske domæne og dets sprogbrug, ender

det med, at vi foretrækker personer med en sundhedsvidenskabelig eller

medicinsk baggrund. Det medfører, at vi henvender os på University College

Nordjylland, hvor den ene af forfatterne var ansat i den periode forsøget

skulle udføres. Her lykkedes det at skaffe fem jordemoderstuderende samt en

fysioterapeutstuderende til at deltage i simulationen. Disse opfylder helt klart

vores behov for kendskab til medicinsk sprogbrug, idet de i deres studie

anvender litteratur fra dette domæne. Den eneste grund til at vi har følt det

var nødvendigt at bruge denne metode, er at vi ønsker at holde søgningerne

så realistiske som muligt, og da det er os der har udvalgt emneområderne vil

denne metode give mere diversitet i valget af søgetermer, idet vi kunne have

svært ved at tænke ud over de opgaver vi har specificeret.

5 ‐ Metode Side 46


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Angående udførelsen af opgaverne, vurderes det at være nødvendigt, at vi er

til stede under selve udførelsen, for at være i stand til at afhjælpe eventuelle

misforståelser så snart de opstår. Selve udførelsen af opgaverne foregår

elektronisk, via en hjemmeside, hvor de enkelte situationer er beskrevet og

præsenteret i tilfældig rækkefølge, for at minimere konsekvent indflydelse af

tasks på hinanden. Søgeinterfacet indeholder et søgefelt, hvor brugerne kan

skrive de søgeord de finder passende til den enkelte opgave. Søgefeltet er

indrettet således, at det er muligt at lave mange søgninger for hver opgave

hvis det er det man synes er det optimale, eller man kan lave en lang

søgestreng for hver opgave, hvis det er det man foretrækker. Der er med

andre ord gjort hvad der kunne gøres for at få siden til at ligne et ʺrigtigtʺ

online informationssøgningssystem, og dermed sætte brugerne i en situation

der er så tæt på den virkelige som muligt.

5.4.3 Søgning med query expansion

Af Mikkel Just Tronhus

For at teste om de klynger der er blevet dannet ville have en positiv effekt på

søgninger i pubmed, skal de fundne klynger implementeres i faktiske

søgninger. Til det formål er der dannet en testdatabase ud fra PubMeds

samlede datamængde. Denne testdatabase skal indeholde poster, der har en

relation til de fem worktasks, samt poster der ikke har den relation, således at

det kan testes hvor effektive klyngerne er til at diskriminere mellem relevante

poster og støjposter. De fem worktasks er anvendt til fem separate søgninger

der har til formål at sikre at der findes poster i databasen, der er relevante for

de enkelte arbejdsopgaver. Disse søgninger er så suppleret med en stor

mængde potentielle støjposter fundet gennem en simpel søgning på

publikationsår i pubmed. Dette giver en testsamling på 125485 poster hvoraf

de 98995 er tilstræbt støj, det vil sige, en søgning efter ”Publication

Year=2007”. De resterende stammer fra de fem forskellige simulerede

arbejdsopgaver på følgende måde, her præsenteret ved de overskrifter de har

på ”Medline Plus use statistics” 11 .

11 http://www.nlm.nih.gov/medlineplus/usestatistics.html#topics

5 ‐ Metode Side 47


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

COPD 3608 poster

Multiple Sclerosis 5075 poster

Contraception 4880 poster

Back Pain 3684 poster

Alzheimer disease 9242 poster

Denne testsamling indekseres derefter ved hjælp af Desktop Terrier 12 , der er

en indekserings‐ og søgemaskine der kan tilpasses til at anvende alle mulige

forskellige metoder indenfor både den automatiske indeksering, og den

efterfølgende søgning i posterne. Den er i vores tilfælde sat op til at indeksere

testsamlingen ved hjælp af TFIDF vægtning. Den indekserer udelukkende

enkeltord, således at de fundne tags bedre kan matches når der skal søges i

samlingen. Terrier er desuden sat op til at outputte søgeresultaterne som en

ranket fil, der indeholder de 50 bedste matchs til hver søgeforespørgsel.

Desktop Terriers standardindstilling er, at lave automatisk query expansion

på de søgninger den foretager. Dette ville naturligvis komme i konflikt med

den query expansion vi laver, så den funktion er slået fra inden søgningerne

blev lavet.

Søgningerne er delt op efter hvilken worktask de hører til, og desuden om de

er almindelige, eller udvidede. De præsenteres her i den præcise form, de er

angivet til søgesystemet. Der var i de fundne søgetermer muligvis en del

fraser, som kunne have været interessante at medtage i analysen, men som på

grund af manglende notation i systemet til registrering af de simulerede

arbejdsopgaver og på grund af en uigennemskuelig fejl i Desktop Terriers

frasesøgningsmekanisme ikke medtages i denne analyse. Det er altså

udelukkende enkelttermer der søges efter, både i de oprindelige, og i de

udvidede søgeformuleringer.

De udvidede søgninger er lavet manuelt, ud fra de klynger de almindelige

termer forekommer i. I det første eksempel, vil det sige, at da termen

”alzheimer” er en del af klyngen ”alzheimer, ad, fad” vil den udvidede

søgning starte med de tre termer, inden ”amnesia” kommer på, efterfulgt af

”paranoia, renal dialysis, bipolarabuse, nursing communication, grief ,mental

illness, ptsd, borderline, geriatric”. Og så fremdeles med alle termerne fra den

almindelige søgning.

12 http://ir.dcs.gla.ac.uk/terrier/doc/terrier_desktop.html

5 ‐ Metode Side 48


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Søgeformuleringer:

Work task 1

Almindelig: aggressive aid alzheimer amnesia dementia diagnosis for help home

loss memory mood needs nervous nervousity nursing of old paranoia

people relatives swing symptoms

Expanded: absn2 ad aggressive aid alzheimer amnesia as bipolarabuse borderline

communication dementia diagnosis dialysis fad for geriatric grief help

home illness loss memory mental mood needs nervous nervousity

nurs33 nursin nursing of old paranoia people print ptsd relatives renal

required shop sum06 swing symptoms system visual vmseminar vstm

welfare

Work task 2

Almindelig: ache acupuncture back lumbal massage medicine pain physiotherapy

relief therapy treatment zone

Expanded: ache acupuncture alternative analgesia article back border

complementary lumbal massage medicine methylphenidate neonatal

pain physiotherapy relief therapy treatment zone

Work task 3

Almindelig: anticonception birth condom cons contraception contraceptive

control diseases female form girls methods prevention pros sex sexual

sexually transmitted unsafe women

Expanded: access anticonception birth condom cons contraception contraceptive

control diseases form girls men methods poisson prevention pros sex

sexual sexually steroids transmitted unsafe women

Work task 4

Almindelig: balance dementia disturbance fatigue hyperventilation infection loss

memory neurological old pregnancy sensation stress urinary visual

Expanded: balance bladder contraction dementia disturbance fatigue

hyperventilation infection load loss m2 memory muscarinic

neurological old pregnancy presentation sensation stress urinary

visual vmseminar vstm

Work task 5

Almindelig: asthmatic breathing bronchitis cancer cardiovascular cold common

copd coughing diagnosis disease health lung prognosis respiration

respiratory smoking treatment

Expanded: asthmatic baroreflex behaviours breast breath breathing bronchitis

cancer cardiovascular cold common copd coughing diagnosis disease

health lung model nica physiological prognosis respiration respiratory

sarcoidosis smoking test treatment

Disse søgninger er gennemført i det testsystem der er lavet til lejligheden, og

de fundne dokumenter og deres ranking er gemt, så de kan gøres til genstand

for analyse senere.

5 ‐ Metode Side 49


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

5.4.4 Relevansvurdering

Af Jens Peter Andersen

Grundlaget for evaluering af IR‐systemers performance, uanset om det er vha.

recall/precision målene eller nyere, brugerorienterede mål, er

relevansvurdering. Vurderingen af de genfundne dokumenters relevans,

enten binært eller efter skalaer med flere relevansniveauer, er afgørende for at,

og hvordan, IR‐systemet kan evalueres (Kekäläinen & Järvelin, 2002).

Relevans kan både forstås og opdeles på mange forskellige måder. Helt

klassisk har relevans været en binær, objektiv størrelse; enten var et dokument

relevant for en forespørgsel eller ej (f.eks. (Cleverdon, 1967)), uafhængigt af,

om brugeren selv syntes det eller ej. Denne opfattelse er gennem tiden blevet

revideret kraftigt, og Schamber (1994) identificerer 80 forskellige typer af

relevans, på baggrund af Cuadra & Katter (1967), Rees & Schultz (1967),

Cooper (1971; 1973) og Taylor (1986).

Til denne undersøgelse har det været vores ønske at anvende en udgave af

relevans, der både giver brugerne flere frihedsgrader end den binære,

objektive relevans, men som samtidig er muligt at operationalisere og måle på

en fornuftig måde. Derfor er der valgt en kombination af Swansons (1986) og

Saracevics (1996) relevansklasser og –typer.

Swanson skelner mellem to grundlæggende forskellige klasser af relevans,

nemlig objektiv og subjektiv relevans. Den største forskel mellem disse to

klasser er, hvorvidt personen, der foretager vurderingen, er den samme

person, der har informationsbehovet.

En person, der f.eks. er fagekspert, og vurderer relevansen af et dokument på

baggrund af et formuleret informationsbehov eller en søgeforespørgsel siges

at anvende objektive relevanskriterier. Den objektive relevans er derfor

kontekstuafhængig og kan til dels anses for at være endegyldig. Omend

denne relevanstype kaldes objektiv er dette ikke et udtryk for en rendyrket

objektivitet, men nærmere en skelnen mellem det tilstræbt objektive og det

bevidst subjektive.

Den subjektive relevansvurdering foretages af samme person, der udfører

søgeforespørgslen, og er altså både afhængig af emneområdet og personlige

præferencer (Swanson, 1986).

5 ‐ Metode Side 50


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Saracevic (1996) inddeler relevans i fem typer, nemlig:

1. Systemisk eller algoritmisk relevans

Den relevans en algoritme tildeler et dokument, f.eks. i form af vægte i

et vektorrumssystem. Denne type relevans er altså uafhængig af

brugeren.

2. Topical (emnemæssig) relevans

Relevansen af emnet i et dokument i forhold til emnet i

søgeforespørgslen.

3. Kognitiv relevans eller pertinence

Den kognitive relevans er afgjort af hvorvidt dokumentet formår at

udvide eller påvirke brugerens state‐of‐knowledge. Dokumentet behøver

altså ikke være direkte relateret til søgeforespørgslen, men kan

alligevel medføre et fornyet informationsbehov.

4. Situationel relevans eller utility

Hvorvidt et dokument er situationelt relevant er afgjort af, om det kan

anvendes i den specifikke situation, f.eks. til at løse en given opgave.

5. Motiverende eller affektiv relevans

Affektivt relevante dokumenter, er dokumenter der giver brugeren en

følelse af succes eller fremgang, hvorved der opnås en motiverende

faktor.

Til denne undersøgelse anvendes en række simulerede informationsbehov (se

afsnit 5.4.2) og relevansvurderinger skal ses i forhold til netop disse

informationsbehov. Der er ikke tale om informationsbehov som brugerne selv

har fremstillet, men derimod fem af de mest almindelige informationsbehov

identificeret i PubMed. Umiddelbart vil det, ifølge Swansons inddeling,

betyde at relevansen er objektiv, men da brugerne bliver bedt om at sætte sig

ind i de beskrevne, meget almindelige situationer, både i søgnings‐ og

relevansvurderingssituationen, mener vi, at der i højere grad er tale om en

subjektiv relevansvurdering – brugerne afgør hvorvidt det er relevant for dem

i den givne situation, hvorved egne erfaringer nødvendigvis vil blive taget i

betragtning. Da der er tale om specifikke situationer, med et særligt mål for

øje, vil der være tale om primært situationel relevans, men det kan ikke

udelukkes, at der vil forekomme elementer af affektiv, kognitiv eller

emnemæssig relevans i vurderingerne – men hovedvægten vil være på den

situationelle relevans, hvorfor dette heller ikke betragtes som et problem for

undersøgelsen.

For at supplere ovenstående, er der også inviteret en gruppe emne‐ og

informationseksperter i undersøgelsen. Emneeksperterne består af

sygeplejersker fra Forskningsenheden for Klinisk Sygepleje på Aalborg

Sygehus, mens informationseksperterne består af bibliotekarisk personale fra

det medicinske bibliotek på Aalborg Sygehus, samt University College

Nordjylland. Eksperterne har forhåndsviden både om informationssøgning og

om de emner der indgår i undersøgelsens simulerede arbejdsopgaver. Til

forskel fra de andre brugere bliver emneeksperterne instrueret i at bedømme

relevans i forhold til emnemæssige kriterier, så der opnås en objektiv,

5 ‐ Metode Side 51


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

emnemæssig relevansvurdering som supplement til den subjektive,

situationelle relevans.

Udførelse

Til hver simuleret worktask er der foretaget to søgninger, en med og en uden

query expansion, dvs. i alt 10 søgninger. Fra hver af disse søgeresultater er de

øverste 50 dokumenter i det rankede søgeresultat udtaget til

relevansvurdering. Dette har resulteret i 346 unikke dokumenter, efter

dubletter er blevet frasorteret. Der er kun valgt de øverste 50 dokumenter, da

en af hensigterne med rankede resultater netop er, at det mest relevante

placeres øverst. Lignende frasorteringer kan findes hos f.eks. Borlund &

Ingwersen (1998) og Järvelin & Kekäläinen (2000), blandt andet med det

argument, at brugere er for utålmodige til at gennemse mere end ca. 50

dokumenter.

Dokumenterne er formateret således, at brugerne er blevet præsenteret for

titlen samt de første 400 tegn fra abstractet (svarende til omtrent fem linier),

således at de har kunnet give en umiddelbar vurdering af relevansen. Denne

reduktion af informationerne er foretaget både for at sikre, at brugerne ville

gennemføre alle relevansvurderingerne, og at de blev gennemført med

nogenlunde samme udgangspunkt. Havde vi bedt brugerne om at foretage

vurderingen på baggrund af den fulde tekst er det ikke sandsynligt at alle

brugere havde været lige vedholdende.

Relevansvurderingerne er foretaget i en elektronisk, online brugerflade, hvor

brugerne blev præsenteret for dokumenterne for en enkelt simuleret worktask

ad gangen, sammen med task‐beskrivelsen, så det var muligt at bedømme

hhv. den situationelle og den emnemæssige relevans i forhold til

formuleringen af informationsbehovet. Dokumentrepræsentationerne blev

præsenteret ét ad gangen, i randomiseret rækkefølge (dog med tilknytning til

den aktuelt valgte worktask), så der ikke har været påvirkninger i form af

placeringen eller rækkefølgen af dokumenterne.

Det er et centralt udgangspunkt for undersøgelsen, at relevansen ønskes

vurderet på en skala med mere end to punkter, da undersøgelser viser, at

virkelige brugere af virkelige systemer skelner mellem dokumenters relevans

på flere niveauer end blot relevant/ikke‐relevant (Spink, Greisdorf, &

Bateman, 1998; Vakkari & Hakala, 2000). Inddeling af relevans på forskellige

skalaer har været undersøgt både under laboratorieforhold (Cuadra & Katter,

1967; Rees & Schultz, 1967; Tang, Shaw, & Vevea, 1999), hvor Tang, Shaw &

Vevea når frem til, at en inddeling i syv niveauer er optimal, og under

virkelige forhold (Spink, Greisdorf, & Bateman, 1998; Vakkari & Hakala, 2000;

Kekäläinen & Järvelin, 2002). I både Spink, Greisdorf & Bateman og Vakkari &

Hakalas undersøgelser anvendes der en tredeling af skalaen, mens Kekäläinen

& Järvelin anvender en firedelt skala. Da forholdene for denne undersøgelse

er tilstræbt realistiske, og i hvert fald anvender virkelige brugere, og da vi ikke

mener det gør en væsentlig forskel om der anvendes en tre‐ eller firedelt skala,

valgtes den tredelte, for derved at øge sikkerheden i valget for brugeren.

5 ‐ Metode Side 52


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Således kunne brugerne vælge mellem tre knapper med teksten ”Ikke

relevant”, ”Måske relevant” og ”Relevant” for hvert dokument. Skalaen er

sidenhen oversat til de ordinale værdier 0 (ikke relevant), 1 (måske relevant)

og 2 (relevant), med henblik på evaluering af resultaterne. Værdien 0 som

betegnelse for ikke‐relevant er valgt af hensyn til de anvendte mål for

performanceevaluering (se afsnit 5.4.5), mens værdierne 1 og 2 er valgt for at

sikre ækvidistance for de ordinale kategorier.

Resultaterne af relevansvurderingerne er samlet i en database, således at

koblingen mellem de enkelte brugeres relevansvurderinger af et dokument i

forhold til en opgave eksisterer. I den endelige udførelse af

relevansvurderingerne deltog to af de oprindelige forsøgspersoner, hvoraf

den ene kun relevansvurderede ét søgeresultat, derudover deltog en

cand.scient.bibl., en bibliotekar DB, en biblioteksassistent samt en lektor i

sygepleje. På baggrund af brugernes relevansvurderinger er der i alt

fremkommet 46 forskellige, rankede, relevansbedømte søgeresultater, som

kan anvendes til evalueringen. En oversigt over datamaterialets resultater kan

ses i bilag 9.

5.4.5 Evaluering af Query Expansion

Af Jens Peter Andersen

Formålet med query expansion er i denne undersøgelse at forbedre et

søgeresultat i en best‐match søgealgoritme. En forbedring kan betyde flere

forskellige ting, nemlig at der findes flere relevante dokumenter, at de fundne

dokumenter er mere relevante, at de relevante dokumenter er placeret højere i

det rankede søgesæt eller en kombination af disse muligheder.

For at kunne måle disse potentielle forbedringer må der derfor anvendes et

mål, der både kan tage højde for ranking af relevante dokumenter, hvor

relevante disse er samt hvor mange dokumenter, med forskellige grader af

relevans, der er fundet. Som det fremgår af reviewet (se afsnit 4.3) er det

stadig meget almindeligt, at anvende mål baseret på binær relevans til

evaluering af søgealgoritmer, selv når der er anvendt flere relevansniveauer i

vurderingen, bliver disse ofte normaliseret til binær relevans i

evalueringssammenhæng, for at kunne anvende mål som recall, precision eller

det mere avancerede AvP (Average Precision), der f.eks. anvendes som

standard i TREC‐evalueringer (Voorhees, 2006; Buckley, trec_eval IR

evaluation package). Normaliseringen af relevans til binære kategorier

medfører et væsentligt tab af informationer, hvorfor vi ønsker at undgå dette,

og bibeholde de tre kategorier, brugerne har anvendt. Sakai (Sakai, 2005) har

for nylig undersøgt en række performancemål, der anvender ikke‐binær

relevans, og når frem til at bl.a. Järvelin & Kekäläinens nDCG‐mål

(normalized Discounted Cumulated Gain) hører til blandt de mest brugbare

og stabile (Sakai, 2005; Järvelin & Kekäläinen, 2000).

5 ‐ Metode Side 53


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Anvender man CG (Cumulated Gain) uden modifikation af Discount‐

logaritmen (se nedenfor) opnår man såvel en visuel fortolkning af søgesættet

samt en slutværdi, der angiver den kumulerede gain, d.v.s. summen af den

numeriske værdi af relevanskategorierne, som et udtryk for hvor meget

relevant der er fundet, uden at komme ind på hvor mange dokumenter det

drejer sig om. Så længe der anvendes den samme relevansskala i alle tilfælde,

som det gælder for denne undersøgelse, er det derfor et enkelt og effektivt

udtryk for, om der i en søgning er fundet mere relevant end i en anden. CG vil

derfor blive brugt til at afgøre om der er sket forbedringer i mængden af

relevans, dvs. en kombination af antallet af relevante dokumenter og hvor

relevante de er. Vi mener, at dette mål i virkeligheden er mere interessant end

blot at se på, hvor mange relevante dokumenter der er fundet, da det øger

fokus på de højrelevante dokumenter, og dermed giver flere informationer

end rent recall.

CG tilbyder også en visuel fremstilling af hvor godt et søgeresultat er ranket,

og her hjælper Discount‐faktoren med at visualisere det, ved at minimere

indflydelsen af relevante dokumenter, der først findes sent i søgeresultatet, da

brugere ofte vil fokusere på de højest rankede dokumenter. Dette opnås ved at

dividere relevansen fundet på en given post med logaritmen af rank‐værdien,

hvorved den kumulerede gain påvirkes mindre af relevante dokumenter

fundet sent i søgesættet, end af dokumenter fundet i starten af søgesættet.

Hvis man afbilder både CG‐ og DCG‐kurver for et søgeresultat samt for en

ideelt sorteret udgave af samme søgesæt, så vil CG‐kurverne altid slutte på

samme værdi, hvorimod dette ikke er tilfældet for DCG, medmindre det

oprindelige søgesæt er idéelt sorteret. Dette vises nedenfor i Figur 5.6:

20

18

16

14

12

10

8

6

4

2

0

CG

0 5 10 15 20

Original Ideal

Figur 5.6 ‐ CG og DCG‐kurver for samme datasæt

I ovenstående eksempel er der anvendt en 2‐talslogaritme som discount‐

faktor, hvilket er den logaritmefunktion Järvelin & Kekäläinen foreslår, for

bedst at simulere brugeres utålmodighed (Järvelin & Kekäläinen, 2000). At

modificere relevans til en værdi, der ligger udenfor de ordinale kategorier er

5 ‐ Metode Side 54

12

10

8

6

4

2

0

DCG

0 5 10 15 20

Original Ideal


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

principielt et problem, da det strider mod definitionen af ordinale data.

Järvelin & Kekäläinen undgår denne problemstilling ved at kalde den

modificerede relevans for gain, en operation der måske virker kunstig, men

resultatet er, at det er muligt at måle graderet relevans på en langt mere

nuanceret og kvantificerbar måde end hidtil.

DCG er i sig selv udelukkende visuel, hvilket besværliggør en samlet analyse

med mere end ét søgeresultat, hvilket er en nødvendighed hvis man ønsker at

udtale sig om andet end en specifik søgealgoritmes performance ved en

specifik query og en specifik brugers relevansvurderinger. Vi ønsker at give et

samlet billede af query expansions anvendelighed, på tværs af brugere og

søgeforespørgsler, hvorfor det er nødvendigt at bruge et mål, der i højere grad

end DCG kan kvantificeres, f.eks. i form af et enkelt tal.

Järvelin & Kekäläinen foreslår selv at kvantificere DCG som et enkelt tal, i

form af den normaliserede udgave, nDCG (Järvelin & Kekäläinen, 2002).

nDCG udtrykker forholdet mellem DCG for det originale søgeresultat og

idealudgaven af samme. Dette kan enten udtrykkes som et løbende forhold,

hvilket igen giver en visuel fortolkning, eller som en enkelt værdi, der

udtrykker forholdet på sidste post i resultatet (om det så er den sidste fundne

post, eller ved et forudvalgt cut‐off). Sidstnævnte mulighed ville tillade en

samlet analyse, som ønsket.

Andersen & Svendsen (2008) foreslår et alternativ til nDCG, kaldet Relex, der

bygger på nogle af de samme idéer om vektorrepræsentation af søgeresultater,

men ser i stedet for kumuleret gain på vinklen mellem vektorerne, hvorved

der ligeledes opnås én enkelt værdi for en søgealgoritmes performance ved en

given query og relevansvurdering.

Princippet i Relex er, at måle ligheden imellem det oprindelige søgeresultat og

en idéelt sorteret udgave af det samme søgeresultat, ved at betragte dem som

vektorer, for på den måde at kunne afgøre i hvor høj grad de ligner hinanden.

Ligheden bruges altså til at udtrykke hvor godt de relevante dokumenter er

ranket i det oprindelige søgesæt, sammenlignet med den idéelt sorterede

udgave, og det er derfor nødvendigt, at et lighedsmål skal kunne udtrykke

netop denne egenskab.

Da de to vektorer indeholder de samme værdier vil de pr. definition have

samme længde. Dette fremgår af (5.12), der udtrykker den euklidiske længde

af en enkelt vektor (A):

(5.12) || ∑

Længden er altså givet ved summen af kvadratet af de enkelte dimensioner i

vektoren, der indgår således ingen diskriminering af rækkefølgen af

værdierne, hvorfor to vektorer med samme værdier, i forskellig rækkefølge,

nødvendigvis må have samme længde. Da en vektor er givet ved en længde

og en retning, bliver forskellen på to lige lange vektorer altså retningen, der

5 ‐ Metode Side 55


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

kan udtrykkes som vinklen imellem de to vektorer. Der er derfor heller ingen

fare for, at de to vektorer kan udtrykkes som en skalering af hinanden (5.13),

og dermed opnår høje ligheder, uden at de rent faktisk ligner hinanden.

(5.13)

Vinklen mellem to vektorer forstås bedst, når man kun arbejder med to

dimensioner, da det er svært, eller endda umuligt, at forestille sig vinkler i

flere dimensioner. Men uanset hvor mange dimensioner man arbejder med (i

dette tilfælde maksimalt 50, da der i et søgeresultat indgår maksimalt 50

poster) er måden at beregne vinklen på den samme. Den beregnes ved hjælp

af cosinus‐formlen, der er nøjagtig lig det cosinus‐lighedsmål, der anvendes til

fremstilling af klyngerne (se afsnit 5.4.1 for nærmere beskrivelse). Vinklen ϕ

mellem to vektorer A og B er udtrykt som (5.14):

(5.14) ·

||||

Brøken består af skalarproduktet mellem de to vektorer (dividend) og

produktet af deres euklidiske længder (divisor). Dette kan omskrives til en

algebraisk formulering, der i højere grad illustrerer hvordan cosinus‐ligheden

(COSIM) fungerer (5.15):

(5.15) ,
Som sagt er længderne identiske for de to vektorer, og afhænger ikke på

nogen måde af hvordan de enkelte værdier er placeret inde i vektorerne. Det

er altså kun skalarproduktet der påvirkes. Da skalarproduktet er en sum af

produkter mellem de enkelte dimensioner, der indeholder ordinale data, er

der for hvert enkelt produkt 3 mulige udfald:

• 0‐værdi i begge vektorer. Når der forekommer 0‐værdier i begge

vektorer på samme position påvirker dette hverken længden eller

skalarproduktet, hvorfor situationen ikke påvirker det endelige

resultat.

• 0‐værdi i én vektor. Når der forekommer en 0‐værdi i en vektor

samme sted som en positiv‐værdi i en anden vektor bliver produktet 0,

hvorved ligheden påvirkes negativt.

• Ingen 0‐værdier. Når der forekommer positiv‐værdier på samme

position i begge vektorer opnås et produkt større end 0, hvilket

påvirker ligheden positivt. Jo tættere værdierne er på hinanden, jo

højere bliver ligheden.

Af ovenstående ses, at cosinus‐ligheden udtrykker en direkte sammenhæng

imellem hvordan det oprindelige søgesæt er ranket, sammenlignet med den

idéelle ranking.

5 ‐ Metode Side 56


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Resultatet af en lighedsmåling ved hjælp af COSIM er et tal mellem 0 (ingen

relevante dokumenter er placeret i toppen af søgesættet) og 1 (det originale

søgeresultat er identisk med den idéelle udgave).

Både nDCG og Relex måler altså søgealgoritmers evne til at ranke

højrelevante dokumenter øverst i et søgesæt og udtrykker resultatet som et tal

mellem 0 og 1, hvor ekstremerne siger omtrent det samme. Der er til gengæld

stor forskel på hvad værdierne mellem 0 og 1 betyder. Andersen & Svendsen

når frem til, at Relex er et meget mere direkte mål, da det opererer med

direkte sammenligninger af umodificerede vektorer, hvorimod vektorerne,

der anvendes til beregning af nDCG er modificeret med en logaritmefunktion,

der er direkte afhængig af rank. Dette har bl.a. den konsekvens at meget små

variationer i toppen af søgesættet kan have meget store konsekvenser for

slutresultatet af nDCG, og også større konsekvenser end det synes rimeligt

(Andersen & Svendsen, 2008). Derfor vælges Relex som mål til evaluering af

rankingen af søgeresultater.

Hypotesetests

Formålet med evalueringen af de relevansvurderede søgeresultater er, at teste

hypoteserne H1 og H2:

H1. Automatisk query expansion ved hjælp af klynger dannet af bruger‐

genererede tags, fra en videnskabelig database, kan forbedre ranking af

søgninger i en en bibliografisk database bestående af videnskabelige

dokumenter, indekseret og fremfundet vha. en best‐match algoritme.

H2. Query expansion med bruger‐genererede tags, fra en videnskabelig

database, kan returnere flere højrelevante dokumenter i den højest

rankede del af et søgesæt.

Nedenfor vil der blive beskrevet hvordan disse hypoteser testes ved hjælp af

henholdsvis Relex og CG.

En forbedring af søgeresultatet opnået gennem query expansion afhænger af,

om søgealgoritmen har ranket flere relevante dokumenter højt i søgesættet

(performance), når der har været anvendt query expansion end når det ikke er

tilfældet. Dette er udtrykt ved hjælp af cosinus‐lighederne fundet gennem

Relex‐analysen. H1 testes derfor ved at måle performance i forskellige

situationer, dvs. med forskellige brugere og forskellige work tasks, hvor der

distingveres mellem anvendelsen af query expansion eller ej som uafhængige

stikprøver. For at teste to uafhængige stikprøver for en evt. forskel bør man

anvende en T‐test, givet at data er normalfordelte, hvis dette kriterium ikke er

opfyldt kan man anvende en Mann‐Whitney‐U test. Begge metoder tester, om

stikprøverne tilhører samme population, hvorved nul‐hypotesen for H1 (H10)

bliver:

5 ‐ Metode Side 57


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Søgeresultater, der er blevet til på grundlag af query expansion, følger

samme performance‐distribution som søgeresultater, der ikke er blevet

til på grundlag af query expansion.

Hvis H10 kan forkastes betyder det, at der er en signifikant forskel på

performance for de to stikprøver. Hvilken stikprøve der opnår den højeste

performance kan efterfølgende afgøres ved at anvende deskriptiv statistik på

de to stikprøver. Hvis der er tale om normalfordelte data, kan man

sammenligne den gennemsnitlige performance, hvorimod det vil være

nødvendigt at se på værdier som skævhed og median, hvis værdierne ikke er

normalfordelte. Denne kombination af deskriptiv statistik og T‐

test/MannWhitney‐U skal altså teste H1.

For at teste H2 foretages principielt de samme tests som for H1, men med den

forskel, at der anvendes CG i stedet for Relex. Testen ønskes udført på

grundlag af den samlede, kumulerede gain for den højest rankede del af

søgesættet, hvilket vi vælger at afgrænse ved de 20 øverste poster, for på den

måde at simulere et realistisk antal poster, der vises på første side af et

søgeresultat, for medicinske søgemaskiner (f.eks. viser PubMed 20 poster som

standard, og Cochrane Library viser 25).

Der gælder de samme forudsætninger for valg af statistisk test som for H1,

hvorved nul‐hypotesen for H2 (H20) bliver:

Søgeresultater, der er blevet til på grundlag af query expansion,

returnerer lige så mange højrelevante dokumenter som søgeresultater,

der ikke er blevet til på grundlag af query expansion, på de første 20

poster i et ranket søgeresultat.

Hvis nulhypotesen kan forkastes, og der altså er en signifikant forskel på de to

stikprøver, vil der også her blive anvendt deskriptiv statistik for at afgøre

hvilken forskel der rent faktisk er tale om.

Ud over at anvende deskriptiv statistik, der beskriver distributioner ved hjælp

af enkelte tal, vil vi også fortolke distributionerne visuelt, for at kunne

identificere evt. årsager til evt. forskelle. Dette vil vi gøre, ved at plotte

distributioner af performance og kumuleret gain grupperet efter forskellige

parametre, nemlig brugere, work tasks og brugertyper. Hvis data ikke er

normalfordelt giver dette mulighed for at finde særlige styrker og svagheder

ved de forskellige stikprøver. Den nøjagtige fremgangsmåde vil fremgå af

analysen, da denne i høj grad afhænger af, hvordan data er fordelt.

5 ‐ Metode Side 58


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

5.4.6 Evaluering af Klyngekvalitet

Af Jens Peter Andersen

Udover at undersøge klynger af tags anvendelighed til query expansion er det

denne undersøgelses formål at evaluere kvaliteten af de klynger, der er

fremkommet i løbet af undersøgelsen. Dette er defineret i

problemformuleringens tredje hypotese:

H3. Klynger dannet på baggrund af koforekomstanalyse af tags fra en

videnskabelig database består primært af termer med semantiske og

emnemæssige relationer.

Antallet af relationer i en klynge, der har en semantisk eller emnemæssig

værdi, mener vi er et tilstræbt objektivt udtryk for klyngens kvalitet, så længe

vurderingen foretages på baggrund af objektive kriterier.

Fremgangsmåden bliver, for hver enkel relation i en klynge at afgøre, om der

er tale om en semantisk/emnemæssig relation eller ej. Med semantiske

relationer forstås i denne sammenhæng synonymer og antonymer, og ved

emnemæssige relationer forstås relationer mellem to termer, der ikke har en

semantisk relation men emnemæssigt er tæt forbundet. De semantiske

relationer er desuden opdelt i to andre typer relationer, der her vil blive

betragtet som selvstændige typer, for at udvide forståelsen af de eksisterende

relationer, men som i sammenhæng med hypotesetests stadig vil blive

betragtet som semantiske relationer. Det drejer sig om frase‐relationer og

morfologiske relationer, hvor en frase‐relation eksisterer i det øjeblik, hvor to

termer med sikkerhed kan siges at udgøre en frase, og den morfologiske

relation opstår i det tilfælde, hvor to termer er forskellige udgaver af samme

leksem.

Det er især den emnemæssige vurdering der potentielt kan være problematisk

i forhold til idealet om objektivitet. Vi forventer i de fleste tilfælde at kunne

afgøre entydigt hvorvidt to termer er emnemæssigt relaterede, men der kan

forekomme tilfælde, hvor der er tvivl om styrken i den emnemæssige relation.

Der er dog ikke nogen måde at komme definitivt uden om denne problematik,

uden at involvere et omfattende antal ekspert‐brugere, hvilket vil være for

omfattende i denne sammenhæng, sammenlignet med hvor begrænset

problemet egentlig er. I stedet vil vi anvende tesauri (thesaurus.com 13 for

generelle termer, Medical Subject Headings (MeSH 14 ) for medicinske termer)

og opslagsværker (Wikipedia 15 ) for generelle begreber) i tvivlstilfælde. Hvis

der ikke i en af de valgte tesauri/opslagsværker eksisterer en emnemæssig

relation mellem de to termer, vil de ikke blive forbundet.

13 http://www.thesaurus.com/

14 http://www.nlm.nih.gov/mesh/

15 http://www.wikipedia.org/

5 ‐ Metode Side 59


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

For at kunne foretage en samlet vurdering af en klynges kvalitet tildeles

klyngen 1 point for hver relation, der opfylder ovenstående krav, hvilket

sættes i forhold til klyngens størrelse (5.16):

(5.16)


Hvor Q er klyngens kvalitet, S antallet af semantiske relationer, T antallet af

emnemæssige relationer, F antallet af frase‐relationer, M antallet af

morfologiske relationer og N det samlede antal potentielle relationer. For en

klynge, der indeholder x termer er antallet af relationer givet ved (5.17):

(5.17)


Resultatet af (5.16) bliver dermed et tal mellem 0 og 1, der udtrykker et

direkte, procentuelt forhold mellem brugbare og ikke‐brugbare relationer.

For at teste H3 udvælges en repræsentativ stikprøve fra det samlede sæt af

klynger, der består af ialt 904 klynger. Med et konfidensinterval på 5% og et

konfidensniveau på 95% kræver det en stikprøve på 270 tilfældigt udvalgte

klynger. Ved hjælp af en 1‐sample T‐test er det muligt at afgøre, om værdierne

er distribueret omkring et forventet gennemsnit. Dette forventede gennemsnit

skal i forhold til H3 repræsentere en værdi, hvor antallet af relationer

”primært” er semantiske eller emnemæssige. Vi har valgt at dette er opfyldt

ved værdier over 0,75 – dette er valgt ud fra et skøn af hvad vi mener der kan

forventes af automatisk genererede klynger, på baggrund af tidligere

erfaringer hermed (Andersen & Tronhus, 2005; Andersen, Tronhus, &

Johansen, 2007). Hvorvidt der kan anvendes T‐test og gennemsnit afhænger

af, om data er normalfordelte, hvis dette ikke er tilfældet er det nødvendigt i

stedet at anvende medianen og en binomial‐test.

På baggrund af dette bliver nul‐hypotesen for H3 (H30):

Der er ingen signifikant forskel på stikprøvens gennemsnit/median og

populationens gennemsnit/median (0,75)

Hvis H30 kan forkastes, betyder det, at der er en signifikant forskel på

stikprøvens gennemsnit og grænseværdien på 0,75. Hvorvidt H3 er opfyldt

afhænger så af, om gennemsnittet er højere eller lavere end 0,75.

5 ‐ Metode Side 60


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

6 Analyse

I den følgende analyse vil de fundne resultater blive evalueret og analyseret,

primært med henblik på at undersøge specialets tre hypoteser, men også for at

belyse mulige årsager til resultaterne. Analysen er inddelt i tre hovedafsnit, ét

for hver hypotese, og til sidst et opsamlende afsnit, hvor analysens

delkonklusioner vil blive samlet op.

6.1 Analyse af ranking performance

Som beskrevet i metodeafsnit 5.4.5 anvendes Relex‐modellen til at evaluere

hvor godt de forskellige søgeresultater er blevet ranket, i forhold til den

enkelte brugers relevansvurderinger. Som det fremgår af metoden, er der

foretaget flere relevansvurderinger af hver enkel søgning, og for hver enkel

brugers relevansvurderede udgave af den samme søgning er der fremstillet en

idéelt sorteret udgave, som den faktiske ranking er holdt op imod, for dermed

at afgøre rankingens performance. Formålet med dette er at teste H1:

Automatisk query expansion ved hjælp af klynger dannet af bruger‐

genererede tags, fra en videnskabelig database, kan forbedre ranking af

søgninger i en bibliografisk database bestående af videnskabelige

dokumenter, indekseret og fremfundet vha. en best‐match algoritme.

For at kunne gøre dette, må H10 først testes:

Søgeresultater, der er blevet til på grundlag af query expansion, følger

samme performance‐distribution som søgeresultater, der ikke er blevet

til på grundlag af query expansion.

Kun hvis nul‐hypotesen kan forkastes, kan det afgøres om der er tale om

forbedringer eller forværringer af statistisk signifikant karakter.

Inden hypoteserne testes er datasættet blevet renset for data, der ikke er gode

nok. Relex fungerer bedst, hvis der er et vist minimum af relevante

dokumenter til rådighed, hvorfor søgeresultater med lav CG (som indikator

for relevante dokumenter) bør sorteres fra. Der er valgt en tærskelværdi på

CG>10, da dette svarer til et minimum på fem dokumenter, d.v.s. 10% af det

samlede søgeresultat, samtidig med, at der i det samlede datamateriale er en

lille gruppe søgeresultater der ligger på eller under CG=10, , med et spring op

til CG=19 som den næste værdi.

For at kunne teste H10 er det nødvendigt først at undersøge, om cosinus‐

lighederne fra Relex‐evalueringen (COSIM) er normalfordelte, da dette er

afgørende for valget af statistisk test. COSIM‐værdierne er her blevet plottet

som histogram, for at synliggøre hvordan disse er fordelt (Figur 6.1).

6 ‐ Analyse Side 61


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 6.1 ‐ Histogram for COSIM‐værdier

Histogrammet viser en tendens, der minder om en normalfordeling, omend

der tilsyneladende er en overvægt mod højre. For at kunne afgøre, om data

rent faktisk er normalfordelt, vises her et Q‐Q plot for COSIM (Figur 6.2):

Figur 6.2 ‐ Q‐Q Plot for COSIM‐værdier

De observerede værdier ligger relativt tæt på linien, der repræsenterer den

perfekte normalfordeling. Punkterne ligger så tæt på linien, at det er

forsvarligt, at antage normalfordelte værdier i forhold til valg af statistisk test.

De variable der indgår i testen af nul‐hypotesen er dermed tilstedeværelsen af

query expansion (uafhængig variabel i to kategorier, der angiver de to

stikprøver) og COSIM (afhængig, normalfordelt variabel, med skala‐værdier).

På baggrund af dette vil vi anvende en T‐test med to uafhængige stikprøver

for at teste, om nul‐hypotesen kan forkastes. Der er valgt et signifikans‐niveau

6 ‐ Analyse Side 62


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

på 0,95 for at kræve en høj grad af signifikans af testen, hvilket betyder, at nul‐

hypotesen kan forkastes hvis p


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 6.3 ‐ High, Low og middelværdi for COSIM, inddelt i work task og query expansion

Ovenstående fordeling er ikke overraskende, givet resultatet fra T‐testen;

COSIM for søgeresultater, der ikke er blevet query expanded har generelt lidt

højere middelværdi, samt mindste‐ og højesteværdi, uden at det er en

overvældende effekt. Ud fra middelværdierne ser det dog ud til, at query

expansion har haft en lille, gavnlig effekt i work task 1, hvorimod det ser

værst ud i work task 4. Dette er ikke videre overraskende, da søgetermerne i

work task 1 er blevet udvidet med en blanding af potentielt gode søgetermer

og bruger‐kodede tags, der sandsynligvis ikke har påvirket søgeresultatet, da

de ikke forekom i testdatabasen overhovedet, mens søgetermerne i work task

4 ikke er blevet udvidet særlig meget, og med termer der potentielt er

støjende.

Der er tilsyneladende ikke den store forskel i variansen for de enkelte work

tasks, men for at kunne afgøre dette, er der blevet lavet en faktoriel ANOVA

test med query expansion og work tasks som uafhængige variable, og COSIM

som afhængig. Resultaterne af testen fremgår af Tabel 6.3:

p

Work task 0,004

Query expansion 0,069

Work task * Query expansion 0,542

Tabel 6.3 ‐ Faktoriel ANOVA for COSIM afhængig af work task og query expansion

p‐værdier under 0,05 indikerer, at parameteren har en signifikant effekt på

den uafhængige variabel. De forskellige work tasks er altså signifikant

forskellige med hensyn til variansen af COSIM, hvorimod query expansion

ikke gør en signifikant forskel. Kombinationen af work task og query

expansion (Work task * Query expansion) har heller ikke en signifikant effekt,

hvilket er en væsentlig pointe i forhold til H1.

6 ‐ Analyse Side 64


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Den tredje parameter er som sagt brugerne, der har foretaget

relevansvurderingerne, der forneden i Figur 6.4 vises på samme måde som det

var tilfældet for work tasks.

Figur 6.4 ‐ High, Low og middelværdi for COSIM, inddelt i bruger og query expansion

Variansen ser her umiddelbart ud til at være noget større end for work tasks,

men da ikke alle anførte brugere har relevansvurderet alle work tasks kan

data ikke tolkes direkte ud fra figuren. Derfor foretages der også her en

faktoriel ANOVA test (Tabel 6.4):

p

Bruger 0,540

Query expansion 0,726

Bruger * Query expansion 0,796

Tabel 6.4 ‐ Faktoriel ANOVA for COSIM afhængig af bruger og query expansion

Ingen af p‐værdierne ligger under 0,05 og der kan derfor ikke udledes nogen

effekt af parametrene. Den eneste parameter, der signifkant påvirker COSIM

er altså work tasks. Påvirkningen fra work tasks afhænger i høj grad af emnets

anvendelse af fagtermer, brugernes oprindelige søgetermer og det fundne

materiale fra PubMed til testdatabasen. En videre analyse af disse elementer er

ikke realistisk, eller interessant, da der netop ikke er nogen effekt når valget af

work task ses i forhold til anvendelsen af query expansion, hvorfor der her

blot skal konkluderes, at der ikke er nogen signifikant forskel på ranking

performance, i forhold til anvendelse af query expansion.

6 ‐ Analyse Side 65


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

6.2 Analyse af cumulated gain

Cumulated gain anvendes i denne analyse til to forskellige ting, nemlig som

det fremgår af forrige afsnit, at identificere søgeresultater med et vist

minimum af relevante dokumenter, og til at supplere analysen af ranking

performance med et udtryk for hvor meget relevant der findes i de forskellige

situationer. Dette relaterer sig til den anden forskningshypotese, H2:

Query expansion med bruger‐genererede tags, fra en videnskabelig

database, kan returnere flere højrelevante dokumenter i den højest

rankede del af et søgesæt.

Denne hypotese ønskes undersøgt ved hjælp af CG(20), dvs. cumulated gain

for de første 20 resultater (se afsnit 5.4.5). Den kvantitative analyse tager

udgangspunkt i H2’s nulhypotese:

Søgeresultater, der er blevet til på grundlag af query expansion,

returnerer lige så mange højrelevante dokumenter som søgeresultater,

der ikke er blevet til på grundlag af query expansion, på de første 20

poster i et ranket søgeresultat.

I det følgende vil vi søge at be‐ eller afkræfte nulhypotesen, for derved at

kunne sige noget om H2. Analysen er især interessant, da der ikke er nogen

signifikant forskel på hvor godt søgeresultaterne er ranket i forhold til

anvendelsen af query expansion. En eventuel forskel i cumulated gain vil

derfor kunne afgøre, hvorvidt query expansion har haft en effekt eller ej.

Første trin i analysen er, at afgøre, om CG(20)‐værdierne er normalfordelte.

Der er til denne del ikke noget minimumskrav for cumulated gain, men

analysen vil alligevel kun blive udført på de samme data som blev anvendt til

testen af H1, for at gøre analyserne sammenlignelige. I Figur 6.5 vises et

histogram for CG(20):

6 ‐ Analyse Side 66


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 6.5 ‐ Histogram for CG(20)

Ligesom for Relex’ COSIM‐værdier er der her en tydelig tendens til noget, der

ligner en normalfordeling, hvilket nedenstående Q‐Q plot da også bekræfter

(Figur 6.6):

Figur 6.6 ‐ Q‐Q Plot for CG(20)

Da data er normalfordelte er det altså muligt, at operere med middelværdier,

og der kan anvendes T‐test til at teste nulhypotesen. Der er også her valgt et

signifikansniveau på 0,95 som værende afgørende for, om nulhypotesen kan

forkastes eller ej. T‐testen er udført med CG(20) som den afhængige,

normalfordelte skala variabel, og query expansions tilstedeværelse som den

uafhængige, nominale variabel. Resultaterne af T‐testen er anført i Tabel 6.5 ‐

6 ‐ Analyse Side 67


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Middelværdi, standardafvigelse og standardfejl for CG(20), med og uden

query expansionTabel 6.6 og deskriptive statistiske data er anført i Tabel 6.5:

Query

Expansion

N Middelværdi Standardafvigelse Standardfejl

CG(20) Ja 20 20,2500 5,99012 1,33943

Nej 22 22,5455 7,24882 1,54545

Tabel 6.5 ‐ Middelværdi, standardafvigelse og standardfejl for CG(20), med og uden query

expansion

Levene’s test for ens

varians

T‐test for ens middelværdi

F p t df p

CG(20) Ens varians

antaget

2,186 0,147 ‐1,112 40 0,273

Ens varians

ikke antaget

‐1,112 39,663 0,268

Tabel 6.6 ‐ T‐test for ens middelværdi af CG(20) med og uden query expansion

Levene’s test viser, at der ikke er nogen statistisk forskel i stikprøvernes

varians, og det samme gælder for middelværdien, hvor T‐testen viser, at der

ikke er nogen signifikant forskel på middelværdien af CG(20) for

søgeresultater fremkommet med og uden query expansion. Det er altså ikke

muligt at forkaste nulhypotesen; Query expansion har ikke haft nogen

signifikant effekt på cumulated gain for de første 20 dokumenter i

søgeresultaterne.

I det følgende analyseres CG(20) i forhold til de to yderligere parametre

bruger og worktask, som det også var tilfældet med Relex, for at afgøre om

der her er nogen signifikant effekt på resultatet af CG(20).

Nedenstående Figur 6.7 viser forskellen i CG(20) for de forskellige work tasks,

hvor top og bund af kasserne markerer de højeste og laveste værdier af

CG(20) for den respektive work task, mens cirklen i kassen angiver

middelværdien. Ud fra en umiddelbar betragtning, ligger resultater, der er

fremkommet uden query expansion generelt lidt højere for alle tre værdier,

men om der er tale om en signifikant forskel afgøres ved hjælp af en faktoriel

ANOVA test (Tabel 6.7)

6 ‐ Analyse Side 68


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 6.7 ‐ High, Low og middelværdi for CG(20) i forhold til work task og query expansion

p

Work task 0,010

Query expansion 0,075

Work task * Query expansion 0,802

Tabel 6.7 ‐ Faktoriel ANOVA for CG(20) afhængig af work task og query expansion

ANOVA testen viser, at valget af work task har en signifikant effekt (p


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 6.8 ‐ High, Low og middelværdi for CG(20) i forhold til bruger og query expansion

Der tegner sig her et lignende billede som det der var tilfældet for Relex, og

generelt ser der ud til at være rimelig stor forskel på hvor mange relevante

dokumenter de enkelte brugere har fundet. Hvorvidt forskellen er signifikant

vil fremgå her af en faktoriel ANOVA test (Tabel 6.8):

p

Bruger 0,283

Query expansion 0,575

Bruger * Query expansion 0,850

Tabel 6.8 ‐ Faktoriel ANOVA for CG(20) afhængig af bruger og query expansion

Der er altså ikke nogen signifikant effekt på CG(20) hverken imellem brugerne

eller for anvendelsen af query expansion i forhold til den enkelte bruger, og

den samlede konklusion for analysen af CG(20) er altså, at der ikke kan

identificeres nogen signifikant effekt af query expansion, hverken generelt

eller i forhold til specifikke parametre.

6 ‐ Analyse Side 70


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

6.3 Analyse af klyngekvalitet

I det følgende evalueres og analyseres kvaliteten af de fundne klynger i

henhold til den metode, der er beskrevet i afsnit 5.4.6. Der vil både fremgå

statistiske test af H3, samt kvalitative analyser af udvalgte klynger, for at

illustrere fremgangsmåden.

Som det fremgår af metodeafsnittet nævnt foroven er der tilfældigt udvalgt

270 klynger som repræsentativ stikprøve for det samlede datasæt på 904

klynger. Disse er blevet analyseret for at identificere de fire typer af relationer;

semantiske (S), emnemæssige (T), frase (F) og morfologiske (M) i forhold til

det samlede antal relationer i en given klynge (N). I det følgende vil der blive

skelnet mellem antallet af potentielle relationer i en klynge og klyngens

størrelse (n), hvor sidstnævnte er antallet af termer i klyngen, omend disse

hænger direkte sammen.

For at synliggøre hvordan evalueringen har fundet sted vil der her blive vist

eksempler på både store og små klynger, både når de opnår høj og lav

kvalitet.

Det første eksempel er en meget lille klynge, med kun to elementer, hvor der

ikke opnås nogen meningsfyldt relation (Figur 6.9). Klyngen er tilfældigt

udvalgt blandt mange lignende klynger, hvor der tilsyneladende ikke er

nogen sammenhæng mellem termerne overhovedet.

Figur 6.9 ‐ Lille klynge uden relationer (Plagiarism ‐ 712)

I dette specifikke tilfælde er især termen ”712” meningsløs, idet det blot er et

tal. Undersøger man anvendelsen i CiteULike viser det sig, at alle dokumenter

med tag’et 712 er oprettet af samme bruger, og sandsynligvis er en kode, der

har en betydning kun for den bruger, f.eks. som betegnelse for et

universitetsfag.

6 ‐ Analyse Side 71


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Som modstykke til ovenstående eksempel følger her en klynge af samme

størrelse, men hvor relationen er meningsfyldt (Figur 6.10):

Figur 6.10 ‐ Lille klynge med relationer (Lyme_disease ‐ Borrelia)

For at dokumentere relationen angives her MeSHs Scope Note for Lyme

Disease:

Lyme Disease 16

An infectious disease caused by a spirochete, BORRELIA BURGDORFERI,

which is transmitted chiefly by Ixodes dammini (see IXODES) and

pacificus ticks in the United States and Ixodes ricinis (see IXODES) in

Europe. It is a disease with early and late cutaneous manifestations plus

involvement of the nervous system, heart, eye, and joints in variable

combinations. The disease was formerly known as Lyme arthritis and

first discovered at Old Lyme, Connecticut.

Year introduced: 1985

Opslaget viser tydeligvis en emnemæssig sammenhæng mellem Lyme Disease

og bakterien Borrelia Burgdorferi, derudover er ”Lyme Borreliosis” anført

som indgangsterm til opslaget.

16 http://www.nlm.nih.gov/cgi/mesh/2005/MB_cgi?mode=&term=Lyme+Disease

6 ‐ Analyse Side 72


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

De følgende, store klynger tillader flere grader af kvalitet end ovenstående,

der enten har Q=1 eller Q=0, hvorfor der vil blive vist tre forskellige

eksempler, nemlig med meget lav, mellem og høj Q. Det første eksempel er

med meget lav Q=0,07 (Figur 6.11):

Figur 6.11 ‐ Stor klynge med en relation (Arthritis ‐ Rheumatoid ‐ Leisure ‐ Newref ‐ CR ‐

RAS)

Termerne “Rheumatoid” og “Arthritis” danner tilsammen frasen

”Rheumatoid Arthritis”, der eksisterer som heading i MeSH, mens ingen af de

andre termer har nogen sikker relation til hinanden. ”Ras” kunne muligvis

fortolkes som forkortelse for ”Rheumatoid Arthritis”, men relationen ville

være søgt, og kan ikke dokumenteres i MeSH, hvorfor den ikke er medtaget,

ligesom leisure med meget god vilje kunne fortolkes som emnemæssigt

relateret, men ikke er blevet det, da det ikke er en tydelig nok sammenhæng,

eller dokumenteret i MeSH.

6 ‐ Analyse Side 73


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Det næste eksempel er på en klynge af samme størrelse som ovenfor, men

hvor Q=0,33 – altså fem gange højere (Figur 6.12).

Figur 6.12 ‐ Stor klynge med moderat antal relationer (Insect ‐ Crickets ‐ Bimaculatus ‐

Bibtex_Import ‐ Phonotaxis ‐ Auditory)

Ved en søgning på ”Bimaculatus” i MeSH fås følgende scope note for

allatostatin A2:

Allatostatin A2 [Substance Name] 17

isolated from the cricket Gryllus bimaculatus

Date introduced: December 1, 1995

Det ses altså, at ”Cricket” og ”Bimaculatus” er forbundet emnemæssigt, og det

samme gælder for ”Insect” og ”Cricket”. Disse første tre termer danner faktisk

en hierarkisk struktur i tre niveauer. ”Phonotaxis” betegner evnen til at

navigere efter lydkilder, og er især kendt fra netop græshopper, hvorved

”Phonotaxis”, ”Auditory” og ”Crickets” indgår i en emnemæssig

sammenhæng.

17 http://www.nlm.nih.gov/cgi/mesh/2008/MB_cgi?term=allatostatin%20A2

6 ‐ Analyse Side 74


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Den sidste klynge, der gennemgås her, består af syv termer, der alle har en

relation til hinanden, hvorved Q=1,00. Klyngen er vist nedenfor i Figur 6.13:

Figur 6.13 ‐ Stor klynge med mange relationer (Renovascular ‐ MRA ‐ Resonance ‐

Hypertension ‐ Artery ‐ Magnetic ‐ Stenosis)

Klyngen består af to fraser, eller dele af, nemlig ”Magnetic Resonance

Angiography” og ”Artery Hypertension”. ”Magnetic Resonance Angiography

mangler godt nok et ord, og kunne måske have været Magnetic Resonance

Imaging i stedet, men koblingen med MRA sandsynliggør ovenstående

fortolkning, sammen med de emnemæssige relationer, som det vil fremgå af

den videre analyse.

6 ‐ Analyse Side 75


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

MRA har følgende scope note i MeSH:

Magnetic Resonance Angiography 18

Non‐invasive method of vascular imaging and determination of internal

anatomy without injection of contrast media or radiation exposure. The

technique is used especially in CEREBRAL ANGIOGRAPHY as well as for studies

of other vascular structures.

Year introduced: 1995

Slår man ”Renovascular” op i MeSH fås følgende:

Hypertension, Renovascular 19

Hypertension due to RENAL ARTERY OBSTRUCTION or compression.

Year introduced: 1984(1979)

Da ”Renovascular” og ”Hypertension” forekommer sammen i titlen vælges

frase‐relationen som den stærkeste, men samtidig er der en synonym

forbindelse med ”Artery Hypertension”, og en direkte emnemæssig relation

til ”Stenosis”:

Constriction, Pathologic 20

The condition of an anatomical structure's being constricted beyond normal

dimensions.

Year introduced: 1976

Entry Terms:

• Stenosis

• …

Stenosis bruges bl.a. i sammenhæng med arterier i form af f.eks. coronary

stenosis eller carotid stenosis (indsnævring af hhv. krans‐ og halspulsårerne),

og kan medføre netop arteriel hypertension. Koblingen mellem MRA‐delen af

klyngen og hypertension/stenosis‐delen består i, at MRA‐teknikken bruges til

18

http://www.nlm.nih.gov/cgi/mesh/2005/MB_cgi?mode=&term=Magnetic+Resonance+

Angiography

19

http://www.nlm.nih.gov/cgi/mesh/2005/MB_cgi?mode=&term=Hypertension,+Renova

scular

20

http://www.nlm.nih.gov/cgi/mesh/2005/MB_cgi?mode=&term=Constriction,+Patholog

ic

6 ‐ Analyse Side 76


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

at fremstille billeder af netop blodårer, hvorved der er en emnemæssig

relation mellem de to dele.

Man kan argumentere for, at der ikke er nogen egentlig emnemæssig relation

mellem f.eks. enkelttermerne ”Stenosis” og ”Magnetic”, men kun mellem

”Stenosis” og frasen ”Magnetic Resonance Angiography”. Vi har valgt at tælle

relationer mellem alle enkeltord i en frase, hvor frasen har en relation til andre

termer, for ikke at straffe dannelsen af fraser i store klynger.

Ovenstående kvalitative analyse viser eksempler på de forskellige typer af

relationer, der er fundet i klyngerne, og hvordan afgørelserne er truffet, men

kan ikke bruges i forhold til at finde generelle mønstre for klyngekvaliteten.

Dette vil derimod fremgå af følgende, kvantitative behandling og analyse af

de samlede resultater fra evalueringen af klyngekvaliteten.

Først og fremmest vises her nedenfor variationen i klyngestørrelse, hvor

frekvensen af klynger er udtrykt som funktion af deres størrelse (Figur 6.14):

Figur 6.14 ‐ Frekvens af klynger inddelt efter klyngestørrelse (n)

Som det tydeligt fremgår af ovenstående histogram, er der en klar overvægt af

klynger med kun to elementer, disse bidrager dog kun hver med én relation,

hvorimod de større klynger bidrager med væsentlig flere relationer (de største

klynger indeholder ni elementer, hvilket betyder 36 mulige relationer).

6 ‐ Analyse Side 77


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Der er i alt fundet 603 mulige relationer (summen af N) i stikprøven.

Relationerne svarer til en stærk koforekomst imellem termerne, men ikke

nødvendigvis en meningsfuld relation. I nedenstående tabel angives det

samlede antal faktiske relationer:

NT ST TT FT MT Faktiske

603 14 191 42 4 251

Det er altså primært emnemæssige relationer, der er fundet, og dernæst frase‐

relationer. Sidstnævnte er ingen overraskelse, da inddateringen af en engelsk

frase i CiteULike automatisk resulterer i to separate tags, hvis ikke brugeren

manuelt angiver sammenhængen, ved f.eks. at anvende specialtegn mellem

ordene i stedet for mellemrum. Det overraskende er nok nærmere, at der ikke

er fundet flere frase‐relationer end 42.

Den faktiske klyngekvalitet, Q, som funktion af klyngernes størrelse, vises i

Figur 6.15 mens klyngekvalitetens fordeling som histogram vises i Figur 6.16.

Figur 6.15 ‐ Gennemsnits klyngekvalitet (Q‐Mean) inddelt efter klyngestørrelse (n)

6 ‐ Analyse Side 78


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Figur 6.16 ‐ Frekvens af klynger inddelt efter klyngekvalitet (Q)

Af Figur 6.15 ses, at der ikke tilsyneladende er nogen sammenhæng mellem

klyngernes størrelse og kvalitet (Værdien for n=8 kan ikke medregnes, da der

kun er én måling), mens Figur 6.16 viser, at data tilsyneladende ikke er

normalfordelte, men derimod fortrinsvis befinder sig i to store grupper i hver

sin ende af spektret. For at tydeliggøre, at der ikke er tale om normalfordelte

data, vises her et Q‐Q plot for klyngekvaliteten:

Figur 6.17 ‐ Q‐Q plot for observerede værdier af Q og forventede normalværdier af Q

Da der tydeligvis ikke er tale om normalfordelte data, er det ikke muligt at

anvende en almindelig 1‐sample T‐test til at teste H30, men i stedet må der

anvendes en binomial test, hvor stikprøven inddeles i to grupper,

indeholdende værdierne henholdsvis over og under testværdien.

Nulhypotesen er, som anført i afsnit 5.4.6:

6 ‐ Analyse Side 79


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Der er ingen signifikant forskel på stikprøvens middelværdi/median

og populationens middelværdi/median (0,75)

Dermed bliver testværdien 0,75 og resultatet af binomial testen bliver:

Kategori N Observeret Test Signifikans

andel andel p

Klyngekvalitet Gruppe

1

0,75 100 0,37

Total 270 1,00

Tabel 6.9 ‐ Binomial test af median‐klyngekvalitet i forhold til testværdi=0,75

Resultatet betyder at nulhypotesen må forkastes, og der er dermed en

signifikant forskel på de to grupper. Testen viser også, at den signifikant

største gruppe er den, hvor klyngekvaliteten ligger under testværdien,

hvorfor H3 ikke kan siges at være opfyldt. Klyngerne har altså ikke opnået

den forventede, høje kvalitet, men er tværtimod signifikant dårligere end den

forventede median på 0,75.

6 ‐ Analyse Side 80


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

6.4 Opsamling

I den forudgående analyse er specialets tre forskningshypoteser blevet testet

på baggrund af det datamateriale, der er fremkommet i løbet af

undersøgelsen, ved at en række brugere har foretaget søgninger og

relevansvurderet søgeresultater fremkommet både med og uden query

expansion. Resultaterne viser, at query expansion ikke har haft nogen målbar

effekt på søgeresultaternes ranking, eller mængden af (høj)relevante

dokumenter fundet øverst i søgesættene. Den effekt, der er indikeret i

resultaterne, men som ikke er signifikant, peger ydermere i den forkerte

retning i forhold til undersøgelsens forventede resultat, nemlig at query

expansion ved hjælp af brugergenererede tags har forværret både rankingen

og mængden af relevant materiale genfundet.

Ligeledes har det heller ikke været muligt at opnå den forventede, høje,

semantiske og emnemæssige kvalitet af klyngerne. Analysen af klyngernes

resultater viser dog, at et relativt stort antal klynger opnår meget høj kvalitet,

og at dette tilsyneladende ikke afhænger af klyngernes størrelse. Det er altså

muligt at producere klynger af høj kvalitet ved hjælp af den her anvendte

metode, men det er nødvendigt at kunne identificere såvel disse som de

dårlige klynger.

6 ‐ Analyse Side 81


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

7 Diskussion

7.1 Effekt af query expansion

Af Mikkel Just Tronhus

Helt overordnet er resultatet af undersøgelsen, at query expansion ved hjælp

af brugergenererede tags ikke virker. Testen af det endelige system viser

tydeligt, at formålet med undersøgelsen, altså at forbedre søgninger (og

særligt deres ranking) gennem automatisk query expansion, ikke er opnået.

Resultaterne fra performance evalueringerne, både gennem Cumulated Gain

metoden og ved hjælp af Relex, viser tydeligt, at de udvidede søgninger ikke

klarer sig bedre end de oprindelige søgninger. Der er dog en del spredning i

det resultat, idet der er stor forskel fra arbejdsopgave til arbejdsopgave og

ligeledes mellem de enkelte brugere. Dermed ikke være sagt, at de anvendte

performancemål skal tilsidesættes, blot, at der findes indikationer af, at der

eksisterer mere specifikke sammenhænge, hvor den anvendte metode kan

have en positiv effekt på performance.

Det fremgår af analysen, at den anvendte metode rent faktisk er i stand til at

etablere forbindelser mellem relaterede termer. Den gør det ikke konsistent

nok, og der er stadig for mange fejl, men samtidig mener vi også at

resultaterne af nærværende undersøgelse viser at der er potentiale i metoden.

Hvis man ser på den kvalitative undersøgelse af klyngekvaliteten, så viser den

jo, at der ud af 603 etablerede relationer er 251, der er ønskværdige. Ikke noget

prangende resultat i sig selv, og i hvert tilfælde ikke af en kaliber der egner sig

til operationalisering i sin nuværende form. Men dog udtryk for, at metoden

kan identificere de ønskede relationer. Udfordringen bliver herefter at få den

til enten at lade være med at lave så mange fejl, eller at identificere hvad der er

fejl, og hvad der ikke er. Fejl her defineret som dels ønskede relationer, der

ikke identificeres, og falske positive, relationer der ikke burde have været

identificeret.

Den kvantitative del af analysen viser, at der set over hele undersøgelsen ikke

er nogen forbedring af søgeresultaterne ved anvendelse af de udvidede

søgninger i forhold til de oprindelige. Men denne del af analysen afslører

samtidig store forskelle set over de forskellige situationer. Denne forskel kan

have mange forskellige oprindelser, det er slet ikke sikkert, at en tilsvarende

undersøgelse med andre tasks/brugere ville vise samme mønster, men det må

dog tages med i diskussionen som et usikkerhedsmoment ved det resultat

analysen har vist.

7 ‐ Diskussion Side 82


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

7.2 Erkendte interne fejlkilder

Af Mikkel Just Tronhus

I relation til de simulerede arbejdsopgaver, er der en metodisk afvigelse fra

den måde Borlund (2000) har beskrevet simulated work tasks. Idet de

søgninger brugerne blev bedt om at udføre ikke var reelle, på den måde, at

systemet slet ikke var operationelt på det tidspunkt hvor de lavede dem, kan

vi ikke være sikre på, om de søgetermer vi fik, er de samme som vi havde fået

hvis de havde siddet med et reelt operationelt system foran sig. Der ville de

muligvis have reformuleret deres søgninger efter at have set første

søgeresultat, og dermed have angivet andre søgetermer end dem vi fik. Vi har

gjort alt hvad vi kunne for at få det system de tastede søgetermerne ind i til at

ligne et reelt søgesystem så meget som muligt, men der mangler lige en

væsentlige pointe, at der kommer et resultat ud af det man taster. Som sagt;

det kan have betydet at vi fik nogle andre søgetermer end vi burde.

Til gengæld slipper vi (ved hjælp af ovenstående problematik) uden om

problemet med dobbelt query expansion, hvor søgeforespørgslen bliver

udvidet flere på hinanden følgende gange. Det er naturligvis ikke meningen

med det, idet det ville medføre en overhængende risiko for alt for brede

søgninger. Desuden risikerer det at forvirre brugerne, idet de på forhånd er

orienteret om vores formål med udviklingen af systemet, og derfor muligvis

ville blive forvirrede over muligheden for selv at udvikle deres

søgeformuleringer iterativt.

Angående de simulerede arbejdsopgaver, er der også en anden metodisk

afvigelse fra normen. Det er ikke lykkedes os at overtale de brugere, der

lavede søgningerne til at lave relevansvurderinger, i det omfang vi havde

håbet og forventet. Det har været nødvendigt med en tidsforskydning mellem

de to dele af arbejdsopgaverne, idet de søgetermer der blev fundet i første del

af undersøgelsen var en væsentlig brik i selve udformningen af det system der

skulle søges i. Ved at anvende de fundne søgetermer til at danne den samling,

der skulle søges i, kunne vi sikre os, at der var en tilpas mængde ”relevante”

poster der kunne genfindes. Den negative side af tidsforskydningen er så, at

det kun var én af de oprindelige brugere, der rent faktisk gennemførte

relevansvurderingerne. Der var mange af dem der skrev sig op til at deltage

den dag vi foretog søgetermindsamlingen, men af en eller anden grund var

der kun en af dem, der svarede, da vi sendte dem relevansvurderingerne.

Selvfølgelig kan der argumenteres for, at det var en fejl ikke at have et fysisk

møde med dem når de skulle lave relevansvurderingerne, men vi antog det

var bedre med den elektroniske form, idet de så ikke behøvede at sætte så

lang tid af på en gang. Der tog vi muligvis fejl.

7 ‐ Diskussion Side 83


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

I erkendelse af at vi ikke kunne få de ønskede relevansvurderinger fra de

brugere, der havde lavet søgningerne, vendte vi os mod andre ”hjælpere” det

vil sige folk vi kender, der har en sundhedsvidenskabelig domæneviden, som

vi vurderede var på niveau med de oprindelige søgere. Denne forskydning

kan have påvirket relevansvurderingerne. Som det endte, var der ikke nogen

signfikant forskel i relevansvurderingerne mellem de enkelte brugere, og da

den ene af disse brugere også var med til at lave de oprindelige

søgeformuleringer, tager vi det som udtryk for, at det ikke havde gjort nogen

væsentlig forskel om vi havde haft de oprindelige brugere til at lave

relevansvurderingerne. Hvis der skal findes en forskel i den forskydning, så

mener vi mere det er i forhold til tidsforskydningen, hvor det muligvis havde

givet et andet resultat hvis vi kunne have lavet det hele ”live” således at de

relevansvurderede i forbindelse med deres søgninger. Det giver så igen nogle

metodiske overvejelser omkring hvad de skulle præsenteres for i

søgeinterfacet (udvidede søgninger eller originale søgninger) , men den

diskussion er af rent akademisk karakter, og skal derfor ikke føres videre her.

Der er en anden, ikke mindre væsentlig fejlkilde, der sandsynligvis har en

negativ effekt på systemets performance. Der er naturligvis problemer med

datakvaliteten, men der er sandelig også problemer med klyngealgoritmen,

mere specifikt er der problemer med tærskelværdien for lighedsmålet. Efter at

have set resultaterne af analysen, og kigget på hvordan tags fordeler sig over

de forskellige klynger, er vi kommet frem til, at det krav vi stillede om at

systemet skulle kunne testes, og at de søgetermerne fra de simulerede

arbejdsopgaver derfor skulle være indlemmet i klynger, formentlig har en

meget negativ effekt på det endelige system. Dette krav gjorde det nødvendigt

at sænke tærskelværdien for lighedsmålet til 0,2. Og det har igen betydet, at

klyngernes integritet er dalet ganske betragteligt i forhold til hvad den kunne

have været med en højere tærskelværdi.

7.3 Erkendte eksterne fejlkilder

Af Mikkel Just Tronhus

Selv efter en gennemgang af ovennævnte interne fejkilder ved det udviklede

system, forventedes en bedre performance. Når denne forventede

performanceforbedring så ikke opnås, må man naturligvis stille spørgsmålet:

Hvorfor virkede det så ikke bedre end det gjorde?

Det første svar til den slags spørgsmål er traditionelt, at de data der danner

grundlag for klyngeanalysen er for ”beskidte”. Altså at de ikke er

kontrollerede nok, at der forekommer stavefejl, mærkelige ”ikke‐ord”, fraser

hvor der ikke skulle have været fraser, semantiske former der ikke er taget

højde for og så videre. Det kan naturligvis ikke benægtes at de her anvendte

data er beskidte. Der er tale om brugergenerede tags, og den slags er notorisk

beskidte. Som det blev nævnt i metodeafsnittet, er der mange forskellige

motivationer for at tagge, og det medfører også at folk tagger på alle mulige

7 ‐ Diskussion Side 84


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

og umulige måder. For eksempel kan man se på tagget ”712”. Dette er et tag,

der taget ud af sin sammenhæng, er fuldstændigt meningsforladt, idet det blot

er et tal. Undersøger man anvendelsen i CiteULike viser det sig dog, at alle

dokumenter med tagget ”712” er oprettet af samme bruger, og sandsynligvis

er en kode, der har en betydning kun for den bruger. Det kunne for eksempel

være en betegnelse for et fag taggerene følger på sin uddannelse.

Så ja! Det er helt klart en faktor, at dataene er for beskidte til at klyngeanalyse

uden omtanke er et godt værktøj. Der er dog gjort meget for at afhjælpe det,

og det var (naturligvis) vores formodning, at de forholdsregler vi har truffet

(stemming, stopordsliste) i samarbejde med klyngeanalysen ville overkomme

de problemer den uregelmæssige sprogbrug i tags afstedkommer.

Stemmingen ser umiddelbart ud til at gøre det, den skal. Det er naturligvis

ikke optimalt kun at kunne teste det med stikprøver, men den stikprøve, der

er blevet taget viser med stor tydelighed, at det er et minimalt problem, der er

tale om.

Den anden af de tre foreholdsregler, der er truffet i forhold til beskidte data, er

at der er implementeret en standard engelsk stopordsliste over de 172 mest

anvendte funktionsord. Dette antages ikke at have en stor betydning i denne

sammenhæng idet vi formoder, at funktionsord ikke er de mest hyppigt

anvendte til netop tagging. Ikke desto mindre: Hvis de er der skal de væk.

Eller skulle de nu også det. For man kunne måske godt forestille sig, idet vi

har med tags at gøre, og idet strukturen i sproget er en anden end i naturligt

sprog, at hvis der er en, der bruger et funktionsord som tag, så er det fordi det

i det specifikke tilfælde giver mening. Enten det, eller også bruges de som

bindeled i de fraser der ikke burde være der. Og i det tilfælde er der ingen

tvivl om at de skal sorteres fra. Ud over den autoriserede liste over hyppigt

forekommende ord, foretager vi selv en frasortering af de tags, der

forekommer mindst hyppigt. Således at forstå, at tags der forekommer fem

eller færre gange bliver sorteret fra inden vi starter klyngeanalysen.

Uagtet at vi mener vi har gjort vores til at modvirke de problemer, der er med

beskidte data, må vi stadig konstatere at der er noget, der ikke virker, og det

er stadig sådan, at selv om vi har gjort noget for at forbedre situationen, så er

datakvaliteten nok stadig den største fejlkilde ved denne analyse.

7.4 Evaluerings‐ og analysekritik

Af Jens Peter Andersen

Som det er nævnt indtil flere gange i løbet af dette speciale findes der utallige

måder at evaluere relevansvurderede søgeresultater kvantitativt på, og

ligeledes er det ikke givet på forhånd, at det er den kvantitative evaluering,

der er den bedste fremgangsmåde. I dette afsnit vil der blive diskuteret, om

den valgte fremgangsmåde til evaluering af resultater har virket

hensigtsmæssigt.

En afgørende parameter for valget af evalueringsmetode er den type

søgealgoritme der indgår i undersøgelsen. Vi valgte tidligt i undersøgelsen, at

det var en best‐match algoritme vi ville anvende, hvilket betyder, at ranking

7 ‐ Diskussion Side 85


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

bliver en relevant evalueringsparameter, hvorimod ranking er temmelig

overflødig for en exact‐match algoritme, da sorteringen her som regel er

alfabetisk efter forfatter, eller kronologisk efter udgivelsesår eller

inddateringsdato. Omend man ikke blankt kan afvise, at der er en

relevansrelateret mening med en sortering på f.eks. førsteforfatterens

efternavn, er det dog højst usandsynligt, og det er derfor heller ikke

sandsynligt, at sådanne sorteringer ville kunne anvendes som

evalueringsparameter.

Best‐match algoritmer er efterhånden blevet sofistikerede nok til at være

dominerende på mange områder, især indenfor Internettet, hvor

søgemaskiner som Google formår at præsentere i hvert fald et udsnit af de

mest relevante sider, udvalgt fra ofte flere millioner, som de øverste, og

dermed tilsyneladende bedste. Indenfor det medicinske domæne er best‐

match dog ikke nogen selvfølge på samme måde. F.eks. er PubMed et exact‐

match genfindingssystem, og det samme gælder for f.eks. Embase og Cinahl.

Det kunne derfor have været oplagt at fokusere på exact‐match, men også

indenfor det sundhedsvidenskabelige område sker der en udvikling i forhold

til hvad brugerne efterspørger i retning af Google‐lignende søgeresultater (van

den Brekel, 2007), og der findes etablerede eksempler på best‐match

genfindingssystemer, der tager udgangspunkt i PubMeds data (f.eks.

gopubmed 21 og HubMed 22 ). Valget af best‐match algoritme er derfor et

proaktivt valg, i forhold til brugerbehov, og konsekvensen er, at ranking er en

langt mere interessant evalueringsparameter end ren recall/precision. Det er

dog ikke ensbetydende med, at det er den eneste mulighed.

Cooper foreslår f.eks. at anvende brugerens generelle tilfredshed med

søgeresultatet som indikator for hvor godt et genfindingssystem virker

(Cooper, 1973). Vi vil dog tilslutte os Dagobert Soergels kritik af dette forslag,

og medgive ham, at det er meget mere interessant at se på hvor meget

brugeren rent faktisk får ud af søgeresultatet (utility) (Soergel, 1976). Soergel

mener, at dette bør udtrykkes som en forskel i arbejdseffektivitet efter

søgningen er foretaget, hvilket til gengæld er problematisk på mange

forskellige måder. Det er f.eks. ikke altid en søgning er direkte relateret til en

specifik arbejdsopgave, og selvom de i denne situation er det, er

forespørgslerne nærmere eksplorative eller bekræftende i deres natur.

Derudover kan det være problematisk at opgøre hvorvidt en arbejdsopgave

efterfølgende udføres mere effektivt – er der udelukkende fokus på forbrug af

ressourcer, eller er antallet og størrelsen af fejl vigtigere? Og hvordan skal

dette måles på en hensigtsmæssig, ikke‐forstyrrende måde? I stedet vælger vi

at se på Saracevic’ relevanstype af samme navn; utility, eller situationel

relevans (Saracevic, 1996), der ligeledes er et udtryk for hvor meget brugeren

får ud af søgningen i forhold til en given arbejdsopgave, men afgjort på

dokumentniveau, og ud fra brugerens egen kvalitative vurdering, i stedet for

en objektiv vurdering af forbedret effektivitet. Omend der findes adskillige

andre kriterier for hvad der er et godt søgeresultat, og der ikke findes én rigtig

21 http://www.gopubmed.org/

22 http://www.hubmed.org

7 ‐ Diskussion Side 86


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

fremgangsmåde, mener vi, at den valgte indikator både er mere beskrivende

og nuanceret end andre. Relevans som indikator betyder også, at det er muligt

at evaluere flere forskellige elementer af søgealgoritmens performance, da

relevansen har flere forskellige egenskaber (placering i søgesæt, niveau,

placering i forhold til andre dokumenter).

Som det fremgår af metoden, er der valgt en kombination af Relex og

cumulated gain til at evaluere de relevansvurderede søgesæt. I metoden er der

desuden argumenteret for hvorfor lige netop disse to evalueringsmål er valgt

fremfor adskillige andre mål. I det følgende vil vi diskutere hvor godt de to

mål har formået at belyse undersøgelsens problemstillinger.

Relex er et nyt og relativt uprøvet evalueringsmål, og fokuserer udelukkende

på hvor godt søgesæt er ranket. Dette er man nødt til at tage højde for, når

man anvender målet, da der i evalueringen ikke indgår en vurdering af hvor

mange relevante dokumenter der er fundet, og man kan diskutere hvad der er

bedst: At finde ti relevante dokumenter, og placere dem øverst i et søgesæt,

eller finde 50 relevante dokumenter, men placere dem forholdsvis langt nede?

Den bedste løsning afhænger naturligvis af brugeres tålmodighed og formålet

med søgningen, men sat på spidsen kan man sige, at et relevant dokument,

der genfindes af systemet, men ikke af brugeren (fordi det står for langt

nede/på næste side), har ingen praktisk relevans. At fokusere på rankingen

virker derfor som et fornuftigt udgangspunkt, og Relex beskriver

tilsyneladende denne ranking på fornuftig vis. Det virker også som en meget

god idé, at kombinere Relex med et andet mål, der netop kan beskrive

mængden af relevant materiale, som f.eks. cumulated gain. Alternativt kunne

man have anvendt recall, og normaliseret relevanskategorierne til binære

grupper. Anvendelsen af CG har dog den fordel, at den bruger de samme data

som Relex, med den ekstra nuance i grad af relevans, som recall ikke har.

Et andet mål, der beskæftiger sig med graderet relevans og ranking af

søgeresultater er ranked half‐life, RHL (Borlund & Ingwersen, 1998), der

beskriver hvor i et søgesæt man har opnået halvdelen af den kumulerede

relevans. Ranked half‐life beskriver altså også med et enkelt tal hvor godt et

søgeresultat er ranket, men da tallet ikke er et forholdstal som f.eks. Relex, er

det stort set umuligt at sammenligne søgeresultater, hvor der indgår flere

forskellige brugeres relevansvurderinger. I stedet er det nødvendigt at

kombinere brugernes vurderinger, f.eks. til et gennemsnitssæt, eller at vælge

de relevansværdier for hver enkelt dokument som flest brugere er enige om.

Selv med dette forbehold er det ikke muligt direkte at sammenligne

søgeresultaters ranking, f.eks. kan et søgeresultat med relativt få, dårligt

rankede dokumenter opnå en lavere RHL‐værdi end et andet søgeresultat, der

er ranket væsentligt bedre, men også indeholder flere relevante dokumenter.

Det faktum at Relex‐værdier er forholdstal der kan sammenlignes direkte gør

at det er muligt at foretage en helhedsvurdering af en søgealgoritme, samt at

analysere på enkelte aspekter af dennes performance, som det har været

tilfældet i denne undersøgelse. På trods af visse forholdsregler har

kombinationen af Relex og CG altså vist sig at være en effektiv måde at belyse

undersøgelsens problemstillinger på en kvantitativ og nuanceret måde.

7 ‐ Diskussion Side 87


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

7.5 Alternative fremgangsmåder

Af Jens Peter Andersen

Klyngeanalyse til automatisk indeksering, query expansion og automatisk

tesaurus generering er en metode, der blev udviklet i 1970’erne (bl.a. (Spärck

Jones, 1971)) og har siden da ikke ændret sig væsentligt; der er blevet tilføjet

nye algoritmer og anvendelser (se review, afsnit 4.2), men bortset fra det, er

metoden principielt den samme. Siden metoden blev udviklet, er der ikke

blevet foretaget nogen undersøgelse, der entydigt afgør, om klyngeanalyse

virker eller ej. Metoden er blevet anvendt i mange forskellige sammenhænge,

til tider med succes (f.eks. (Chen & Lynch, 1992)), andre gange uden held

(f.eks. (Peat & Willett, 1991)), men ingen definitiv undersøgelse eksisterer.

Der er siden blevet udviklet et alternativ til klyngeanalysen, som i sin

grundidé minder meget om fremgangsmåden for klyngeanalyse, men som i

udførelsen og resultatet adskiller sig væsentligt, nemlig latent semantisk

indeksering (eller analyse). Metoden blev udviklet i 1990 af Scott Deerwester

et al. (Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990) som en ny

indekseringsmetode. Metoden er udviklet for at overkomme det problem der

er i, at brugeres søgetermer ikke nødvendigvis er de samme der anvendes i

dokumenterne, en central problemstilling for f.eks. vektorrumsmodellen.

Faktisk vælger to brugere den samme term til at beskrive et velkendt objekt

mindre end 20% af tiden (Furnas, Landauer, Gomez, & Dumais, 1983), hvilket

klart indikerer problemet i forhold til at ramme netop den term forfatteren

eller indeksøren brugte.

Princippet i latent semantisk indeksering er, at identificere begreber i stedet

for termer, ved at se på de underliggende strukturer i tekst, for derved at

skabe koblinger mellem termer, og dermed skabe begreber. På denne måde

minder latent semantisk indeksering om klyngeanalyse til query expansion,

som det har været tilfældet for dette speciale. Men LSI ser ikke kun på hvilke

termer der forekommer sammen, også de termer der ikke forekommer

sammen analyseres, især de termer, der ikke forekommer sammen, men som

forekommer sammen med en tredje, fælles term (anden ordens lighed), for at

kunne finde såvel synonymer som polysemer (Deerwester, Dumais, Furnas,

Landauer, & Harshman, 1990). LSI forsøger på baggrund af termers

forekomster i dokumenter at danne et begrebs‐vektorrum, hvilket resulterer i

meget store matricer for selv relativt små dokumentmængder. For rent faktisk

at kunne udføre de beregninger der er nødvendige for at kunne bruge LSI til

noget reduceres disse matricer, f.eks. ved hjælp af SVD (singular value

decomposition), hvilket indebærer, at den oprindelige matrice approksimeres

til en faktor af tre sparse matricer, der er reduceret ud fra den oprindelige.

Dermed bliver det lettere at håndtere matricerne i en søgesituation, og det

tunge regnearbejde flyttes over til indekseringssituationen.

I 1999 tilføjer Thomas Hofmann et probabilistisk element til LSI, der i hans

udgave kommer til at hedde Probabilistic latent semantic analysis (Hofmann,

1999). Hofmanns egen undersøgelse viser, at i forhold til en vektorrumsmodel,

der anvender cosinus som lighedsmål, giver LSI i nogle tilfælde bedre, og i

7 ‐ Diskussion Side 88


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

andre tilfælde dårligere precision i forhold til vektorrumsmodellen, mens PLSI

konsekvent forbedrer precision (mellem 17% og 58% forbedring i forhold til

vektorrumsmodellen). Inklusionen af det probabilistiske element giver ikke

kun bedre resultater, men også en stærkere teoretisk, statistisk forankring.

Ud fra ovenstående havde PLSI måske været en oplagt metode at anvende til

at danne grupper af termer til query expansion af brugernes søgetermer, og

det var da også en metode, der blev diskuteret og kraftigt overvejet i

projektets opstartsfase. PLSIs gode resultater er meget tiltalende i forhold til

den usikkerhed i resultaterne fra klyngeanalysen (nogle gange virker det,

andre gange ikke), men alligevel blev metoden fravalgt med hensyntagen til

undersøgelsens datamateriale. Problemet med at skulle bruge PLSI på vores

genstandsområde er, at vi ikke på forhånd kunne vide, om der i tags er en

underliggende, semantisk struktur på samme måde som det forholder sig med

fuld tekst, hvorved hele metodens grundlag kunne forsvinde.

Klyngeanalysen virkede derfor som et mere sikkert valg i forhold til

brugergenererede tags, og hvorvidt PLSI havde givet bedre resultater må stå

hen i det uvisse, men kan absolut ikke udelukkes. Det kunne være meget

interessant at undersøge, om det er muligt at finde f.eks. anden ordens

ligheder blandt tags, og om disse ligheder rent faktisk kan identificere

synonyme relationer. En sådan analyse ville kunne fungere som et argument

for eller imod anvendelsen af PLSI af brugergenererede tags, og derved en

potentiel forbedring af genfindingen af socialt indekserede dokumenter.

Kobling mellem søgeterm og indeksterm

I forlængelse af ovenstående diskussion, vil vi her komme ind på hvordan

query expansion så kan bruges til at skabe en forbindelse mellem de termer

brugeren søger på, og dem indeksøren eller forfatteren har anvendt.

Hele formålet med query expansion er, at finde flere eller mere relevante

poster, end med umodificerede søgninger, fordi man udvider brugerens

søgetermer med andre, der formodes at være relevante, og som formodes at

udvide søgeforespørgslen med nye aspekter. For at query expansion kan

virke, må termerne i første omgang opfylde det kriterium, at de har noget med

de oprindelige søgetermer at gøre, og dernæst at de betegner disse nye

aspekter. I denne sammenhæng har analysen vist, at det virker noget af tiden,

dvs. der er tilfælde, hvor en klynge kan danne meningsfyldte sammenhænge

mellem søgetermer og andre termer, der belyser andre emnemæssige aspekter

af termen, eller virker som synonymer for denne.

For at query expansion virkelig skal virke, er der dog et andet krav, der skal

være opfyldt, nemlig at de termer, som brugerens søgetermer udvides med,

rent faktisk findes i de dokumenter der søges i, enten i form af emneord, eller

som ord i titel, abstract etc. Hvis dette krav ikke er opfyldt kan query

expansion ingen effekt have. Udgangspunktet for nærværende undersøgelse

var primært det første krav, mens dette andet krav i nogen grad er blevet

tilsidesat. Kravet er dog implicit blevet undersøgt idet der er foretaget en

analyse af, hvor mange tags der forekommer i titlen på dokumenter fra

7 ‐ Diskussion Side 89


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

CiteULike. Undersøgelsen viste, at det var relativt få tags, der forekom i titlen

på det dokument de var tildelt. En mindre eksakt, udokumenteret

undersøgelse blev sideløbende foretaget, for at sammenligne hvorvidt tags

forekom i titlen på andre dokumenter end dem de var tildelt, og den

undersøgelse viste et væsentligt højere tal. Det skal her ikke tjene som andet

end at belyse, i sammenhæng med den meget omfattende mængde poster i

testdatabasen, hvorfor vi formodede trods alt at kunne danne en

sammenhæng mellem klynger af tags og termer forekommende i

videnskabelige dokumenter.

Efterfølgende tyder det dog på, at det kunne have været fordelagtigt i højere

grad at anvende dokumenternes egne ord som termer i klyngerne. En

interessant fremgangsmåde kunne have været, at koble brugernes tags med

dokumenternes titler og abstracts, således at det stadig var tags der var

grundlag for klyngerne, men hvor de enkelte tags i udvidelsessituationen

substitueredes med de termer der forekommer i de titler og abstracts der

havde fået tagget tilknyttet. Dette kunne gøres gennem en parallel

klyngeanalyse der grupperede termer fra titel og abstracts i samlingen efter

hvilke tags de forekom sammen med. Denne kombination ville muliggøre

etableringen af en forbindelse mellem de ord som brugerne anvender og de

ord, som forfatterne og indeksørerne anvender. Idet søgetermer ville blive

udvidet to gange. Første gang med de tags vi har fundet her, præcist som vi

gør det i denne undersøgelse. Og anden gang, hvor de tilføjede tags

substitueredes med termer fra samlingen i stedet for.

Det er umuligt at forudse resultatet af en sådan metode, men eftersom

nærværende metode ikke har signifikant forværret resultaterne, og den

foreslåede fremgangsmåde teoretisk set indebærer en stærkere forbindelse

mellem bruger og dokument, mener vi, at der er potentiale i

fremgangsmåden.

7.6 Videreudvikling

I det følgende gennemgås to elementer af denne undersøgelse som vi finder

særlig interessante i forhold til videreudvikling af den anvendte metode.

7.6.1 Fraser

Af Jens Peter Andersen

I løbet af undersøgelsen er der flere gange dukket en problematik om fraser

op, som er lidt anderledes end i lignende undersøgelser på fuld tekst (se f.eks.

(Andersen & Tronhus, 2005)), nemlig at nogle fraser eksisterer på forhånd,

eller er indikeret af brugeren. CiteULike tillader ligesom de fleste andre

tagging‐sites kun enkeltords‐tags, hvilket har medført, at mange brugere

bruger specialtegn til at tildele fraser som tags, f.eks. human_diversity eller

enzyme‐nomenclature, mens andre brugere ikke skelner mellem enkeltord og

fraser, og blot tildeler fraserne med mellemrum, hvorved de bliver splittet op i

enkeltord. Den første adfærd kan muligvis udnyttes relativt let, og gør i hvert

7 ‐ Diskussion Side 90


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

fald søgninger på tags væsentlig bedre, mens den anden adfærd måske også

kan udnyttes, men i hvert fald ikke forbedrer søgninger på tags.

Som det fremgår af eksemplet ovenfor er der ikke anvendt ét bestemt

specialtegn som frase‐indikator, men vi har været så heldige, at Porter‐

stemmer algoritmen også har taget højde for dette, og grupperet mange fraser,

hvor den eneste forskel var hvilket tegn der adskilte ordene i frasen. Havde

dette ikke været tilfældet, skulle det have været tilføjet andetsteds i

undersøgelsen, da både frekvenserne og koforekomsterne af termerne ellers

ville have manglet væsentlige oplysninger.

Fraser er i sig selv problematiske i forhold til automatisk indeksering, da man

aldrig med sikkerhed kan vide, om to ord der står ved siden af hinanden er en

frase. Det er muligt, at foretage statistiske og grammatiske analyser, der kan

sandsynliggøre det, men hvis der findes fraser der ligner hinanden meget,

f.eks. magnetic resonance imaging og magnetic resonance angiography, bliver de

statistiske indikatorer mindre tydelige, ligesom det er svært at identificere

lange fraser, eller at koble visse fraser til deres forkortelser.

Ved at CiteULike og andre tagging‐databaser har valgt, at begrænse tags til

enkeltord, får vi faktisk et nyt redskab til at finde fraser. Identificerer man

først fraser ved hjælp af de mest hyppige specialtegn til formålet, og supplerer

man dette med statistiske metoder, vil man med langt højere sikkerhed kunne

genkende fraser.

Også i vores evaluering af klyngekvaliteten er der blevet identificeret et vist

antal fraser, og det vil sige fraser, dannet på baggrund af enkeltord, som ikke

allerede var fraser på forhånd i CiteULike. Det kunne i den sammenhæng

have været interessant at registrere de enkelte tags rækkefølge i dokumentet,

for at se, om der var nogle tags der skilte sig ud ved altid at følge efter

hinanden, og på den måde sandsynliggøre en frase. Hvorvidt en sådan

analyse ville give brugbare resultater, eller om det blot ville vise, at en bestemt

bruger altid tildeler sine tags i en bestemt rækkefølge er umuligt at sige på

forhånd. Evt. ville metoden kunne kombineres med ovenstående egenskaber,

således at der hvor human og diversity er tildelt samme dokument, i korrekt

rækkefølge, betragtes ordene som frase, fordi termen human_diversity ligeledes

eksisterer i databasen. En sådan fremgangsmåde vil betyde en væsentlig øget

kompleksitet i klyngeanalysen, hvilket ikke nødvendigvis er en fordel, men

lige netop i forbindelse med fraser vil det muligvis kunne betale sig.

7.6.2 Klyngemetode

Af Mikkel Just Tronhus

Klyngeanalyse er, som det fremgår af metoden en analyseform der inkluderer

mange forskellige undermetoder. En af disse undermetoder er selve

klyngealgoritmen, altså definitionen af hvorledes objekterne knyttes sammen.

Der vælges i dette tilfælde en complete link algoritme, men det er et af de

områder hvor der findes interessante alternativer. En af ulemperne ved

complete link metoden er, at den ofte medfører en forholdsvist lav

7 ‐ Diskussion Side 91


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

tærskelværdi for lighedsmålet, eller at den danner meget få klynger. Og hvis

tærskelværdien bliver lav, dannes der dermed et uforholdsmæssigt stort antal

klynger med to elementer. Problemet er, at antallet af klynger med to

elementer er de samme uanset om der er tale om en single link eller en

complete link metode. Derfor foreslåes her muligheden for at graduere

grænseværdien i forhold til klyngestørrelsen. Det er en utestet metode der

ikke er fundet litterært belæg for, så derfor er metoden ikke anvendt, men

præsenteres her som potentiel videreudvikling af systemet. Metoden ville

have som formål at kunne anvende den til en hver tid optimale grænseværdi,

netop i skillelinien mellem klynger med to elementer og klynger med tre eller

flere elementer. Man kunne forestille sig en complete link algoritme, hvor

grænseværdien sættes således at der dannes ʺpassendeʺ klynger, hvorefter

klyngerne med to elementer splittes op, hvis ikke de har en intern lighed der

er ʺvæsentligtʺ højere. Dette ville gøre det muligt at have en lav nok

tærskelværdi til at der kunne dannes relativt store klynger, samtidig med at

det ville være muligt at holde lidt snor i hvad det er for nogle små klynger der

bliver dannet. Det er i effekt, en tilsvarende tankegang, som gør sig gældende

for average link algoritmerne, men som tager klyngernes størrelse som en

ekstra parameter. Det kunne naturligvis også lade sig gøre, at lave en mere

findelt graduering, således at grænseværdien for lighedsmålet gradueredes i

takt med klyngestørrelsen, men dette ville kræve en mere avanceret software

at udføre, end en simpel todelt grænseværdi. Desuden mener vi at der i

relation til complete link er væsentlig større forskel på klynger med to

elementer, og klynger med tre eller flere elementer. Idet klynger med to

elementer i realiteten lige så kunne have været single link klynger. Hvis man

ser på udviklingen i krævede relationer der skal være opfyldt for at danne

klynger i en complete link algoritme er det (7.1):

(7.1)Denne udvikling gør det ret hurtigt svært at danne klynger af en vis størrelse,

og derfor mener vi der er basis for at diskutere en gradueret metode.

7 ‐ Diskussion Side 92


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

8 Konklusion

I problemformuleringen for dette speciale blev der opstillet tre

forskningshypoteser i forhold til det overordnede genstandsområde, query

expansion på baggrund af brugergenererede tags. Disse tre hypoteser blev

formuleret som følger:

H1. Automatisk query expansion ved hjælp af klynger dannet af bruger‐

genererede tags, fra en videnskabelig database, kan forbedre ranking af

søgninger i en bibliografisk database bestående af videnskabelige

dokumenter, indekseret og fremfundet vha. en best‐match algoritme.

H2. Query expansion med bruger‐genererede tags, fra en videnskabelig

database, kan returnere flere højrelevante dokumenter i den højest

rankede del af et søgesæt.

H3. Klynger dannet på baggrund af koforekomstanalyse af tags fra en

videnskabelig database består primært af termer med semantiske og

emnemæssige relationer.

I det følgende gennemgås analysens og diskussionens delkonklusioner for

disse hypoteser, og der samles op i et overordnet, afsluttende afsnit.

H1 ­ Forbedring af ranking

Analysen har vist, at der ikke er en signifikant forskel på rankingen af

søgesæt, der er fremkommet med og uden query expansion. Den første

forskningshypotese kan derfor ikke bekræftes.

H2 ­ Forbedring af genfinding

Analysen har vist, at der ikke er en signifikant forskel på mængden af

højrelevante dokumenter fundet i toppen af rankede søgesæt, fremkommet

med og uden query expansion. Den anden forskningshypotese kan derfor

heller ikke bekræftes.

H3 ­ Klyngekvalitet

Analysen har vist, at der er signifikant forskel på den observerede kvalitet af

de semantiske og emnemæssige relationer i klyngerne, og den forventede

kvalitet. Forskellen falder dog ud til fordel for den forventede kvalitet, og den

tredje forskningshypotese kan derfor heller ikke bekræftes.

Analysen har vist, at sådan som undersøgelsen er udført på det anvendte

datamateriale, har det ikke været muligt at opnå de forventede resultater. Dog

er der en indikation af, at metoderne i sig selv virker udemærket, men at

problemet primært er datamaterialet. Udgangspunktet for dette speciale var

bl.a. en formodning om, at problemerne med datakvalitet i forbindelse med

tagging, ville være mindre i en videnskabelig database, end hos generelle

tagging‐sites. Hvorvidt de er mindre er ikke undersøgt her, men det kan

8 ‐ Konklusion Side 93


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

konstateres at mange af de generelle problematikker omkring brugeres

tagging‐opførsel også gælder for videnskabelige databaser.

Der er desuden identificeret en særlig fejlkilde, der muligvis kan forklare den

manglende forbedring af resultaterne, nemlig den relativt lave tærskelværdi

for lighed i forbindelse med dannelsen af klynger. Det har været nødvendigt

at vælge denne lave tærskelværdi for at sikre, at undersøgelsen kunne

gennemføres, hvilket har betydet, at klyngekvaliteten nok har været noget

lavere end hvis tærskelværdien havde været højere, hvilket sandsynligvis

også har haft implikationer for rankingen og genfindingen af højrelevante

dokumenter.

Vi vil dog ikke afvise tags og tag‐strukturer helt som et interessant

genstandsområde for videre forskning, men på baggrund af diskussionen

(afsnit 7.5) vil vi foreslå, at fokus bliver på en kombination af tag‐strukturer og

dokumenternes egne termer, således at søgeforespørgsler udvides med

termer, der rent faktisk forekommer i dokumentsamlingen.

8 ‐ Konklusion Side 94


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

9 Litteratur

Abdelali, A., Cowie, J., & Soliman, H. S. (2007). Improving query precision

using semantic expansion. Information Processing & Management , 43 (3),

705‐716.

Ahlgren, P., Jarneving, B., & Rousseau, R. (2003). Requirements for a cocitation

similarity measure, with special reference to Pearsonsʹ correlation

coefficient. Journal of the American Society for Information Science and

Technology , 54 (6), 550‐560.

Ames, M., & Naaman, M. (2007). Why we tag: motivations for annotation in

mobile and online media. Proceedings of the SIGCHI conference on

Human factors in computing systems, (s. 971‐980).

Anderberg, M. (1973). Cluster analysis for applications. New York, NY:

Academic Press.

Andersen, J. P., & Svendsen, A. M. (2008). Relex ‐ Vektorbaseret model til

evaluering af best‐match søgealgoritmer. Aalborg: Danmarks

Biblioteksskole.

Andersen, J. P., & Tronhus, M. J. (2005). Automatisk tesauruskonstruktion

indenfor det medicinske domæne. Aalborg: Danmarks Biblioteksskole.

Andersen, J. P., Tronhus, M. J., & Johansen, K. H. (2007). JuraLex ‐ Konstruktion

af juridisk vidensorganisationssystem. Aalborg: Danmarks

Biblioteksskole.

Beaulieu, M., Robertson, S., & Rasmussen, E. (1996). Evaluating Interactive

Systems in TREC. Journal of the American Society for Information Science ,

47 (1), 85‐94.

Belkin, N. J., Oddy, R. N., & Brooks, H. M. (1982). ASK for information

retrieval: Part I. Background and theory. Journal of Documentation , 38

(2), 61‐71.

Billerbeck, B., & Zobel, J. (2006). Efficient query expansion with auxiliary data

structures. Information Systems , 31 (7), 573‐584.

Borlund, P. (2000). Evaluation of interactive information retrieval systems. Åbo,

Finland: Åbo Akademis Förlag.

Borlund, P. (2003). The IIR evaluation model: a framework for evaluation of

interactive information retrieval systems. Information Research , 8 (3).

Borlund, P., & Ingwersen, P. (1998). Measures of relative relevance and ranked

half‐life: performance indicators for interactive IR. Proceedings of the

21st annual international ACM SIGIR conference on Research and

development in information retrieval, (s. 324‐331).

9 ‐ Litteratur Side 95


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Broglio, J., Callan, J. P., Croft, W. B., & Nachbar, D. W. (1995). Document

retrieval and routing using the INQUERY System. Proceedings of the

Third Text REtrieval Conference, TREC‐3, (s. 29‐38).

Buckley, C. (u.d.). trec_eval IR evaluation package.

Buckley, C., & Voorhees, E. M. (2000). Evaluating Evaluation Measure

Stability. Proceedings of the 23rd annual international ACM SIGIR

conference on Research and development in information retrieval, (s. 33‐40).

Carpineto, C., de Mori, R., Romano, G., & Bigi, B. (2001). An information‐

theoretic approach to automatic query expansion. ACM Transactions on

Information Systems , 19 (1), 1‐27.

Cathey, R. J., Jensen, E. C., Beitzel, S. M., Frieder, O., & Grossman, D. (2007).

Exploiting parallelism to support scalable hierarchical clustering.

Journal of the American Society for Information Science and Technology , 58

(8), 1207‐1221.

Chen, H., & Lynch, K. J. (1992). Automatic Construction of Networks of

Concepts Characterizing Document Databases. IEEE Transactions on

Systems, Man and Cybernetics , 22, 885‐902.

Cleverdon, C. W. (1967). The Cranfield Tests on Index Language Devices. Aslib

Proceedings, 19(6), s. 173‐194.

Cleverdon, C. W., Mills, J., & Keen, E. M. (1966). Factors determining the

performance of indexing systems. Cranfield, UK: Aslib Cranfield Research

Project, College of Aeronautics.

Cooper, W. S. (1971). A Definion of Relevance for Information Retrieval.

Information Storage and Retrieval , 7 (1), 19‐37.

Cooper, W. S. (1973). On Selecting a Measure of Retrieval Effectiveness. Journal

of the American Society for Information Science , 24 (2), 87‐100.

Cuadra, C. W., & Katter, R. V. (1967). Experimental Studies of Relevance

Judgments Final Report, Volume I: Project Summary. Santa Monica, CA:

System Development Corp.

Cui, H., Wen, J. R., Nie, J. Y., & Ma, W. Y. (2002). Probabilistic query expansion

using query logs. Proceedings of the 11th international conference on World

Wide Web.

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R.

(1990). Indexing by latent semantic analysis. Journal of the American

Society for Information Science , 41 (6), 391‐407.

Diaz, F., & Allan, J. (2005). When Less is More: Relevance Feedback Falls Short

and Term Expansion Succeeds at HARD 2005. Text REttrieval

Conference (TREC 2005) Notebook.

Dubin, D. (2004). The most influential paper Gerard Salton never wrote.

Library Trends , 52 (4), 748‐764.

9 ‐ Litteratur Side 96


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Efron, M. (2008). Query expansion and dimensionality reduction: Notions of

optimality in Rocchio relevance feedback and latent semantic indexing.

Information Processing & Management , 44, 163‐180.

Efthimiadis, E. (1996). Query expansion. Annual Review of Information Science

and Technology , 31, 121‐187.

Elkalifa, E. S. (1991). The Effect of Collection Homogeneity on Term Association as a

Method of Request Expansion in Information Retrieval. USA: Case Western

Reserve University.

Ellis, D. (1996). The dilemma of measurement in information retrieval

research. Journal of Documentation , 45 (3), 23‐36.

Ellis, D., Furner‐Hines, J., & Willet, P. (1993). Measuring the degree of

similarity between objects in text retrieval systems. Perspectives in

Information Management , 3 (2), 128‐149.

Fieldhouse, M., & Beaulieu, M. (1994). The Changing Face of Okapi. Library

Review , 43 (4), 39‐51.

Hamming, R. W. (1950). Error Detecting and Error Correcting Codes. Bell

System Technical Journal , 26 (2), 147‐160.

Harman, D. (1991). How effective is Suffixing? Journal of the American Society

for Information Science , 42 (1), 7‐15.

Hildreth, C. R. (2001). Accounting for usersʹ inflated assessments of on‐line

catalogue search performance and usefulness: an experimental study.

Information Research , 6 (2).

Hjortgaard Christensen, H. (1991). Vektorer, Ligheder, Klynger og Kort.

København: Danmarks Biblioteksskole.

Hofmann, T. (1999). Probabilistic Latent Semantic Analysis. Proceedings of

Uncertainty in Artificial Intelligence, UAIʹ99.

Hull, D. A. (1996). Stemming Algorithms: A Case Study for Detailed

Evaluation. Journal of the American Society for Information Science , 47 (1),

70‐84.

Hull, D. A., & Grefenstette, G. (1996). A detailed analysis of English stemming

algorithms. XEROX Technical Report .

Ingwersen, P., & Järvelin, K. (2005). The Turn: integration of information seeking

and retrieval in context. New York, NY: Springer‐Verlag New York Inc.

Jardine, N., & van Rijsbergen, C. J. (1971). The Use of Hierarchic Clustering in

Information Retrieval. Information Storage and Retrieval , 7 (5), 217‐240.

Jing, Y., & Croft, W. B. (1994). An association thesaurus for information

retrieval. RIAO 94 Conference Proceedings, (s. 146‐160).

Jones, W. P., & Furnas, G. W. (1987). Pictures of Relevance: A Geometric

Analysis of Similarity Measures. Journal of the American Society for

Information Science , 38 (6), 420‐442.

9 ‐ Litteratur Side 97


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Järvelin, K., & Kekäläinen, J. (2002). Cumulated gain‐based evaluation of IR

techniques. ACM Transactions on Information Systems , 20 (4), 422‐446.

Järvelin, K., & Kekäläinen, J. (2000). IR evaluation methods for retrieving

highly relevant documents. Proceedings of the 23rd Annual International

ACM SIGIR Conference on Research and Development in Information

Retrieval, (s. 41‐48).

Kanungo, T., Mount, D. M., Netanyahu, N., Piatko, C., Silverman, R., & Wu,

A. (2002). An efficient k‐means clustering algorithm: analysis and

implementation. IEEE Transactions on Pattern Analysis and Machine

Intelligence , 24 (7), 881‐892.

Kekäläinen, J., & Järvelin, K. (2002). Using Graded Relevance Assessments in

IR Evaluation. Journal of the American Society for Information Science and

Technology , 53 (13), 1120‐1129.

Kraaij, W., & Pohlmann, R. (1996). Viewing Stemming as Recall Enhancement.

Proceedings of the 19th annual international ACM SIGIR conference on

Research and development in information retrieval, (s. 40‐48).

Lancaster, F. W. (1969). MEDLARS: Report on the Evaluation of its Operating

Efficiency. American Documentation , 20 (2), 119‐143.

Leifman, G., Meir, R., & Tal, A. (2005). Semantic‐oriented 3d shape retrieval

using relevance feedback. The Visual Computer , 21, 865‐875.

Luhn, H. P. (1958). The Automatic Creation of Literature Abstracts. IBM

Journal of Research and Development , 159‐165.

Modha, D. S., & Spangler, W. S. (2007). Patentnr. 7233943 B2.

Peat, H. J., & Willett, P. (1991). The limitation of term co‐occurence data for

query expansion in document retrieval systems. Journal of the American

Society for Information Science , 42 (5), 378‐383.

Porter, M. (1980). An Algorithm for suffix stripping. Program , 14 (3), 130‐137.

Rees, A., & Schultz, D. (1967). A Field Experimental Approach to the Study of

Relevance Assessments in Relation to Document Searching: Final Report:

Volume I. Springfield, VA: Clearinghouse for Federal Scientific and

Technical Information.

Robertson, S. E., & Hancock‐Beaulieu, M. M. (1992). On the evaluation of IR

systems. Information Processing & Management , 28 (4), 457‐466.

Rocchio, J. J. (1971). Relevance feedback in information retrieval. I G. Salton,

The SMART Retrieval System (s. 313‐323). Englewood Cliffs, NJ: Prentice

Hall.

Sakai, T. (2004). New Performance Measures Based on Multigrade Relevance:

Their Application to Question Answering. NTCIR Workshop 4 Meeting

Working Notes.

9 ‐ Litteratur Side 98


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Sakai, T. (2005). The Reliability of Metrics Based on Graded Relevance. I

Information Retrieval Technology (s. 1‐16). Berlin, Germany: Springer

Verlag.

Salton, G. (1971). The SMART Retrieval System. Engelwood Cliffs, NJ: Prentice

Hall.

Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic

indexing. Communications of the ACM , 18 (11), 613.

Saracevic, T. (1995). Evaluation of evaluation in information retrieval.

Proceedings of the 18th annual international ACM SIGIR conference on

Research and development in information retrieval, (s. 138‐146).

Saracevic, T. (1996). Relevance Reconsidered. Information science: integration in

perspective. Proceedings of CoLIS 2, second international conference on

conceptions of library and information science: integration in perspective, (s.

201‐218).

Schamber, L. (1994). Relevance and Information Behaviour. Annual Review of

Information Science and Technology , 29, 3‐48.

Schneider, J. W. (2004). Verification of bibliometric methodsʹ applicability for

thesaurus construction. Aalborg: Danmarks Biblioteksskole.

Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System

Technical Journal , 27, 379‐423, 623‐656.

Singhal, A. (2001). Modern Information Retrieval: A Brief Overview. Bulletin of

the IEEE Computer Society Technical Committee on Data Engineering , 24

(4), 35‐43.

Soergel, D. (1976). Is user satisfaction a hobgoblin? Journal of the American

Society for Information Science , 27, 256‐259.

Sohlberg, P., & Sohlberg, B. M. (2004). Erkendelsens former : videnskabsteori og

forskningsmetode. Klim.

Spink, A., Greisdorf, H., & Bateman, J. (1998). From highly relevant to not

relevant. Information Processing & Management , 34 (5), 559‐621.

Spärck Jones, K. (1971). Automatic keyword classification for information retrieval.

London, UK: Butterworth & Co (Publishers) Ltd.

Steinbach, M. (2000). A comparison of document clustering techniques. KDD

Workshop on Text Mining.

Swanson, D. R. (1986). Subjective versus objective relevance in bibliographic

retrieval systems. Library Quarterly , 56 (4), 389‐398.

Tang, R., Shaw, W. M., & Vevea, J. L. (1999). Towards the identification of the

optimal number of relevance categories. Journal of the American Society

for Information Science , 50 (3), 254‐264.

Taylor, R. S. (1986). Value‐Added Processes in Information Systems. Norwood, NJ:

Ablex Publishing Corp.

9 ‐ Litteratur Side 99


Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Tombros, A., Villa, R., & van Rijsbergen, C. J. (2002). The effectiveness of

query‐specified hierarchial clustering in information retrieval.

Information Processing & Management , 38, 559‐582.

Tronhus, M. J. (2006). Analyse af forskellige term/term‐similaritetsmål. Aalborg:

Danmarks Biblioteksskole.

Tronhus, M. J. (2008). Del.icio.us + Google.com = Query Expansion på brugernes

præmisser. Aalborg: Danmarks Biblioteksskole.

Vakkari, P., & Hakala, N. (2000). Changes in Relevance Criteria and Problem

Stages in Task Performance. Journal of Documentation , 56 (5), 540‐562.

van den Brekel, G. (2007). Into the user environment now! How users have

changed and how libraries can adjust. Journal of the European Association

for Health Information and Libraries , 3 (1), 8‐16.

van Rijsbergen, C. (1979). Information Retrieval. London, UK: Butterworth &

Co. (Publishers) Ltd.

Voorhees, E. M. (2001). Evaluation by highly relevant documents. Proceedings

of the 24th Annual ACM Sigir conference on Research and development in

information retrieval, (s. 74‐82).

Voorhees, E. M. (2006). Overview of the TREC 2006. The 15th Text Retrieval

Conference Proceedings (s. 1‐16). NIST.

Voorhees, E. M. (1985). The cluster hypothesis revisited. Proceedings of the 8th

Annual international ACM SIGIR Conference on Research and Development

in Information Retrieval.

White, R. W., & Marchionini, G. (2007). Examining the effectiveness of real‐

time query expansion. Information Processing & Management , 43 (3),

685‐704.

Willett, P. (1988). Recent trends in hierarchic document clustering: a critical

review. Information Processing & Management , 24 (5), 577‐597.

Willett, P. (2006). The Porter stemming algorithm: then and now. Program:

electronic library and information systems , 40 (3), 219‐223.

Xu, J., & Croft, B. (1998). Corpus‐Based Stemming Using Cooccurrence of

Word Variants. ACM Transactions on Information Systems , 16 (1), 61‐81.

Zipf, G. K. (1949). Human Behavior and the Principle of Least‐Effort. Reading, MA:

Addison‐Wesley.

9 ‐ Litteratur Side 100


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 101

Bilag 1. Klynger med tærskelværdi 0,2

game‐theory

autoimmune

graves

fear‐conditioning

syria

cotinine

politicaltheory

earlyrepublic

unitedstates

republicanism

federalism

18c

america

constitution

california

labor_history

migrant_labor

immigration

japanese

shisha

narghile

hookah

tobacco

hcii‐minis

cs‐mini

input

ctpa

angiogram

pregnant

vq

ventilation

protection

radiation

renal‐dialysis

bipolarabuse

nursing‐

communication

paranoia

grief

mental‐illness

ptsd

borderline

geriatric

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

nursing‐chronically_ill

nursing‐death

nursing‐disaster

nursing‐christian

nursing‐spirituality

intracavitary

aspergilloma

percutaneous

amphotericin

fungus

reticulum

sarcoplasmic

srs

petri

nets

siphon

petri‐nets

petrinets

launay‐vacher

insufficiency

ckd

renal

constructivist

perspectives

seminar

reading

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

inflammtion

immmun‐response

immune‐response

genotype‐phenotype

phosphatidylinositol

45‐diphosphate

rectifying

laziness

lazy‐evaluation

accumulating‐

parameters

tree‐transducers

program‐

transformation

deforestation

functional‐

programming

folkloristics

folklore

vernacular

religion

photolithography

lithography

fabrication

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

tfl1

prospectus

ryanodine

ryr

receptor

calcium

annuities

pensions

markets

niere

physiologie

herz

nervous‐system

microbial

govt

non‐us

support

wbp

naylor

literary

brewster

mbp

epitalon

epithalon

self‐incompatibility

autogamy

reading_disability

discrepancy

psy145

dyslexia

iq

renovascular

stenosis

mra

resonance

magnetic

artery

hypertension

h

frog

transgenic

brian

nichola

jessica

shiva

heather

arash

bob

jie

kristina

botanical‐medicine

phytomedicine

phytochemicals

preventive‐medicine

initial_segment

nav

somatodendritic

ion_channels

axon

bombus

bumblebees

foraging

yag

garnet

nd

transparent_ceramic

laser

diode

arthritis

rheumatoid

leisure

newref

cr

ras

nutritional‐medicine

clinical‐nutrition

functional‐foods

leader

kol

keyopinionleader

impact‐factor

opinionleader

socialnetworkanalysis

buzz

thoughtleader

persuasion

citation‐analysis

scientific

opinion

citation

professionals

mit‐harvard‐ccne

ccne‐grant

ccne

polymer‐nanoparticle

drug_design

aptamer

te

herv

cited

132

virulence

ctx

vibrio

phage

pilus

tefl

tesol

efl

tesl

esl

english

polycystic

pcos

ovarian

microelectrode

cell‐attachment

cortical

implant

silicon

anaplasmosis

ehrlichiosis

lyme

vmseminar

visual_memory

vstm

memory

fear

neuroethicsnet

riskpaper

refusalstats

stai

fearstats

pdfcopy

tweezers

trap

optical

microspheres

apis

mellifera

honeybees

divisionoflabor


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 102

serm

chemoprevention

ac

acrosome

acrosome‐reaction

downregulation

shedding

mic

enidtl

pysics

multiagent

dtl

eni

multimodal

crossmodal

haptics

tactile

toj

freshwater

ornamental

marine

trade

acculturation

asian_american

sea

renewable

ukgreecepolicyreview

electricity

commercialization

vt

vf

regional_ischemia

myeloma

fdg

pet

nhs

health_policy

uk

denotational‐

semantics

free‐theorems

parametric

types

hrv

vfc

spectral_analysis

autonomic_ns

clinical_study

structure_prediction

statistical_potentials

computational_biology

inactivation

x‐chromosome

brca1

splitting

spin

prb

ancient

plato

republic

justice

parallel

tig

mapping

msh6

mmr

dumbbell

doublet

dimer

sphere

gmx

exploratory

calculus

tgfbeta

smad3

hyperinsulinaemia

euglycaemic_clamp

hypoglycaemia

operating

cisd730

encryption

security

nematic

liquid‐crystal

free‐standing

film

sudomotor_function

electrodermal

scr

umetani

hoon

melanoma

hypnosis

forgetting

direct

localisation

nls

nuclear

structure_learning

bayesian_network

graphical_model

pulmonary_hypertensi

on

lille

circulation

sheep

kibra

dendrin

mir

silicon_nitride

silicon_oxide

waveguide

sabio

ring_resonator

pgd

ivf

ap

action_potential

intrathecal

clonidine

toxicity

spinal

united

states

small‐area

quality

reading_acquisition

phonological_awarene

ss

child

vertebrates

sequence‐evolution

primates

mammals

animals

source‐trees

radiograph

plain

abdominal

rotterdam

oa

knee

xray

lpl

lipolysis

silicon_oxynitride

refractive_index

lpcvd

absorption

sociological_theory

political_theory

civil_war

collective_action

conflict

ethnicity

pam

polytrauma

rtcs

motor_vehicles

capillary

gas‐filled

plasma

tsh

roman

archaeology

minicircle

schizodeme

kinetoplast

kdna

subcultures

cultural_studies

iown

ctd

rnapii

ttx

lamprey

nmda

digitalimages

digitalmemories

photography

systemdesign

gpx

glutathione_peroxidas

e

redox_regulation

kinetics

kinetic_modeling

murine_macrophage

immune_activation

nitric_oxide

ifn‐gamma

inos

gene_regulation

muscarinic

m2

bladder

urinary

contraction

sexualabuse

nonoffendingparent

mothering

stark

broadening

diagnostic

abuse

substance

printed

unread

mirna

complex‐network

smallworld‐network

soc

mh

synthetic‐biology

sbw_systemreports

genecircuits

sbw_designstrategies

cgms

type1

dynamic‐typing

type‐dynamic

myocardium

heart

electrophysiology

cardiac

defibrillation

pollinator

scent

plant

manufacturing‐control

manufacturing

architecture

pylori

baba

captive_breeding

aquaculture

absn2‐sum06‐nurs33

absn2‐sum06‐required

absn2‐sum06‐

as_print_shop

nursing


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 103

Serotonin

transporter

serotonin_polymorphi

sm

serotonin

amyloid

fibrillation

tumor‐infiltrating

breg

b‐cell

dnmt3l

germ

iap

university

industry

tracking

sbma

polyglutamine

ar

nf‐kappab

network_motifs

toll‐like_receptor

lps

feedback

pesticide

hsp70

hsp

math

fuzzy_logic

game_theory

insects

crickets

auditory

bimaculatus

phonotaxis

bibtex‐import

helix

transmembrane

membrane_proteins

ffa

fattyacids

endothelium

ng

sz

dg

partial

pharmaceuticals

trips

wto

named

entity

recognition

fp

functionalprogrammin

g

cerebral

palsy

hip

dislocated

ip

intellectual‐property

copyright

cdh

trachealocclusion

lungmaturation

deprest

languagedesign

proglang

dsl

littlelanguage

languageimplementati

on

m_ephys

accumbens

econometrics

dipl1

regression

iff

unified‐concept‐theory

chu‐space

shock

hemorrhagic

resuscitation

oral

scc

vector

machines

chagas_disease

trypanosoma_cruzi

cv_cmmorel

bolivia

quantization

quantisation

gaussian

sccne

nanotech

emulsions

endoscopic

vesicoureteral

reflux

support‐vector‐

machine

kernel

machine‐learning

svm

classifier

tick‐borne

ticks

ixodes

encephalitis

tbe

donor

live

liver

innate

interferon

node

lymph

rac1

rhoa

cdc42

gtpase

abla

stamant

discrimination

morphometry

vbm

dbm

ligands

nkg2d

mica

micb

induced

demand

hpa‐axis

dhea

electrodes

modified

nanotubes

carbon

neurotransmitters

c

mental‐health

user‐involvement

carers

hp

ulcere

supervisory

deadlock

citas

sperm‐egg‐recognition

sperm‐egg‐binding

dissertation

behaviorchange

growth_rate

quantitative_data

epigenetics

imprinting

nnat

neuronatin

bc10

blcap

cryptography

steganography

encapsulation

hiding

authentication

message

fiber

purkinje

pregnancy

presentation

hedgehog

smo

residency

scutwork

codon‐usage

gene‐characteristics

gene‐expression

neuroblastoma

mycn

elavl4

colon_cancer

progression

glioma

csc

instruction

bibliographic

imitation

mirror_neuron

literary_history

authority

african‐american

background

multivariate

series

time

warming

arctic

american

cinema

stone

molecule

single

b2ar

agonist

activation

orthography

correspondence

phonology

cannabis

endocannabinoid

cannabinoid

qtl

sex_comb_ref

quantitative_genetics

gene‐duplication

proteasome

acid

amino

jpeg

compression

discrete

transforms

debt

credit

infrared

near

angiography

vessel

medical‐imaging

age‐related

presbycusis

informatics

supportgroup

chess

cmr

cad

cardiology

mmc

icl


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 104

gst

glutathione‐s‐

transferase

carcinogenesis

medsci302

artificial

intelligence

swarm

emergence

alternative

complementary

article

medicine

phospholipid

vesicle

master‐equation

biorefs

stochastic

nursing_informatics

pda

dipeptide

vilon

sharing

secret

lyme_disease

borrelia

softnet

tool

dea

mar

conditioning

respondent

tcell

costimulation

microsatellite

printout

manual

array

oligonucleotide

zp3

zona‐pellucida

zp2

ability

mental

routing

manet

ant

qt_interval

qt_dispersion

medical‐informatics

mghlcspub

ehr

lr

carbohydrate

msh2

hnpcc

digital

archive

p‐darkness

junctions

gap

storage

571r

distributed

lamb

body_weight

cytosqueleton

signaling_pathways

topoisomerase_ii

topoisomerase

equipment

orthopedic

rehabilitation

biomechanics

gait

autosomal

archaic

bounded

rationality

employment

equal‐opportunities

arrhythmia

arrhythmogenesis

inward

transient

current

nfkb

carma1

breastcancer

survivorship

transition

psychosocial

ebpneuro

citherapy

upper‐limb

logic

ai

reasoning_about_actio

n

dan

neuropathy

diabetes

thrombosis

venous

vein

wall

pointing

psychophysiological

ngd

heartrate

mutagenicity

carcinogen

nsclc

iressa

sirtuin

sirt1

il6

il‐6

syndrome

bartter

drug‐delivery

med‐chem

tom_in_motion

false_belief

theory‐of‐mind

feminism

rhetoric

wm

remap

pfc

colon

stent

carcinose

tags

folksonomy

functional_annotation

gene_set_analysis

shrimp

penaeus

murray

elina

faces

melatonin

epithalamin

hrt

postmenopausal

song

gryllus

milk

goat

km

knowledge_transfer

mitochondria

methodspaper

diversity

population‐genetics

islands

canary

sir2

nicotinamide

nadnadh

sar

speckle

hnf4

s1a

targets

human_monocyte

human_macrophage

personality

traits

csf

flc

ms

systems_biology

genego

analgesia

neonatal

pain

pattern_separation

ca3

appetitive

hippo

m_behav

tartumicro

tartumicropapers

drm

intellectualproperty

interoperability

radiative‐forcing

climate‐sensitivity

nonword

cksearch

infertility

male‐fertility

y‐chromosome

azf

porcine

pig

branching

branching‐diffusion

cortical‐thickness

cerebral‐cortex

coercion

enforcement

realism

release

spontaneous

ensemble

gcm

2

mellitus

teams

remote

advanced

www

blogs

granuloma

host‐

pathogen_interaction

immune_cell_kinetics

mycobacterium_tuber

culosis

neuroleptic

side_effect

ubiquitin

post‐translation


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 105

ad

alzheimers

fad

urban

city

testosterone

malegonadal

androgen

intentionality

counterfactual

deception

usedinthesis

ecite

w3c

hardcopy

developmental_disabil

ities

behavior_analysis

nas

finasteride

cardiovascular

physiological_model

baroreflex

cp

print‐red

children

autophagy

clearance

tor

il‐12

adjuvants

estrogen

estradiol

choline

ach

motorcontrol

reachgrasp

choicebehavior

paradox_of_choice

toxicology

nephrotoxicity

ischemia

ri2d

border_zone

elements

cis‐regulatory

intense

pmoi

acute

pancreatic

metabolomics

mendes

postop

xrt

presma

premotor

pharmacology

nigella

hemolymph

fs

molecular‐biology

floral‐color

adhd

adult

myc

burkitts

lymphoma

cvd

igf1

gh

taiwan

taiwan‐history

attitudes

health‐professionals

data‐mining

phyloinformatics

hepatitis

tgf

unsupervised

neuralnetwork

hcs

molecularbiology

ht

urodynamic

videourodynamic

yigal

motor_planning

p21

ht‐29

functional‐connectivity

connectivity‐map

rest

fmri

signature

one‐time

pulsar

glitch

observation

trafficking

arrestin

gpcr

user‐computer

interface

decision‐making

neuroeconomics

tml‐project

workplace

caveolin‐1

caveolae

material

folk

art

sexual_selection

sexual_conflict

syncope

vasovagal

ttt

spectrum

luminescence

wolbachia

parasite

septic

sepsis

cilia

ift

dti

spinal‐cord

elearning

healthcare

training

2007

chat

narrative

ijceell06

chagas

trypanosoma

cruzi

lasko

cyp2a6

piaget

vygotsky

externalization

degeneration

wallerian

water

d20

climate

impacts

falls

older_people

malaria

transcriptome

elongation

cdk9

cortisol

diurnal

circadian

exocytosis

synaptic_vesicles

endocytosis

parp

dnadamagerepair

par

coexpression

wgcna

ot

occupational‐therapy

lit‐review

groups

productivity

psychology

vitamink

anticancer

mtdna

projmt

aggression

betta_splendens

tom

preschoolers

false

belief

yb

dy

tb

preference_assessmen

t

preference

1digitalyouth

kids

cyp19

aromatase

apparent‐diffusion‐

coefficient

dw‐mri

bacteria

ultrastructure

avian

zp1

balance

load

child‐maltreatment

dv

tau

simulation_algorithms

toprint

yttria

laboratory

molecular_markers

phyllotaxis

auxin

pin

eus

trucut

male

xx

hyperefficiency

ui

lh

fsh

literature

preventivemedicine


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 106

mediation

semiotic

evidence

info

ebm

desiccation

nematoda

rolling

friction

imaging

brain

mri

mathgamespatterns

participatory

design

learner‐centered

chip

comparative_study

arabidopsis

shape

shading

stratification

inequality

shear

endothelial

agrobacterium

tesi

open

source

plasmodium

postgenomics

akt

pi3k

thymus

bone_marrow

pineal_gland

fat

in‐refman

decondensation

xenopus_laevis

sociocognitive

sociocultural

marriage

19c

law

copper

emt

cancer_pain

hrql

afm

1

cell

stem

biomedical

nlp

visceral

subcutaneous

adipose

advertising

clothing

reduction

dimensionality

neural‐network

4

myocardial

infarction

antiphospholipid

catastrophic

raclopride

endogenous

major_depression

clinical_trial

anti‐depressant

rnai

argonaute

pollen

chemistry

soil

pip2

inositol

generic‐programming

type‐classes

haskell

business

bpel

migraine

5‐htreceptor

qc

adiabatic

potassium

i‐katp

k

pharmacogenetics

personalized‐medicine

theoretical

category‐learning‐use

social

socialnetwork

babies

lbw

cattle

situ

chain

reversible

extracellular

matrix

mas

ssnmr

cnv

amd

cd5

t

scintillator

pr

informed‐consent

biobanks

psychophysics

reaction_time

early

visual‐motor

childhood

sensor‐networks

energy‐efficient

hpa

glucocorticoids

corticosterone

end‐of‐life‐decisions

euthanasia

physician

virtual‐reality

avatars

sp

cgrp

plagiarism

712

dual

antenna

schizophrenia

psychosis

prodromal

amygdala

fear_conditioning

equation

parameter

estimation

coherence

bec

rowing

sci

paper1

poster_amigus

embryo

early_embryo

paternal_exposure

degradation

fbw7

vagus

nodose

radiography

dog

joints

sat

bdd

microrna

microrna_target_predi

ction

environment

sustainability

consumption

collection

garbage

chirurgie

emc

pd

msa

overlay

path

rnasep

subunit

genetic‐testing

direct‐to‐consumer

elsi

antibiotic

fungi

ctcf

insulators

two‐photon

spine

somatosensory

contrast

comparative

reconstruction

p2p

bittorrent

experimental

inhibition

faah

topos‐theory

higher‐dimensional‐

category‐theory

category‐theory

ecology

mangrove

biochemistry

purification

enzyme

restriction

smoking

nica

older

iadl

kir

katp

head

neck

radiotherapy

disclosure

transparency

copy

number

dialogue

perspective_taking


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 107

msi

sporadic

p53

mdm2

integrin

rap1

management

resource

self‐administration

cocaine

est

‐drosophila

chemotaxis

chemokine

neuroanatomy

basal_ganglia

neurodynamics

italy

anaplasma_phagocyto

philum

zoonoses

babesia

proof

convergence

thinking

usage‐based

corpora

vla‐4

lfa‐1

cdk2

p16

ion

gating

sentence

wordlevel

sport

athletic

copy‐number

snp‐arrays

bayesian

bayesnet

autoregulation

pic

erk12

enos

zone

border

attacks

watermarking

distortion

prenatal

amniocentesis

decisionmaking

lip

neurophysiology

monkey

protein‐protein

interactome

macrophage

uspio

sitting

postural

reach

bold

cbf

addiction

aa

glass

colloidal

confocal

fluoride

monocrystal

multistability

signallingcircuits

expression

gene

search

information‐seeking

polymer

coil

compilers

pl

scheme

app

presenilin

sampling

active_learning

rhodopsin

crystallography

markers

tamoxifen

breast‐cancer

risk_assessment

false_positivefalse_ne

gative

anatomy

zoology

academic

writing

cues

reinstatement

staging

staged‐programming

mice

emu

chapter

chicken

dna_repair

chromatin_structure

fibroblast

masculinity

basketball

media

ayurveda

biblio‐extracted‐

import

streaming

rate‐distortion

gold

nanoparticles

social‐networks

influence

large

scale

aphasia

frontal

bolted‐joint

composite

noise

fluctuations

probability

pde

fret

fluorophores

navigation

augmented_reality

muscle

smooth

detrusor

sleep

consolidation

lung‐cancer

breath‐test

cell‐cycle

caulobacter

publishing

ranking

pediatric‐research

survey‐research

death

yoga

fluorescence‐

microscopy

aminated‐cross‐linked‐

iron‐oxide‐

nanoparticles

hdl

ldl

detachment

hydrolysis

status

propagate

bladder_neck_obstruc

tion

diagnosis_treatment

consult_liason

delirium

chronicdisease

medicare

paediatrics

sitting‐ability

dna_loop

smar

dna‐damage

chromatin‐

remodeling‐

modification

sf36

pcs

drosophila

tramtrack

ps1

pathology

respiration

breath

rejection

rma

rae

family‐law

insemination

motor

kinesin

genotype

drd4

tissue‐classification

multiple‐sclerosis

retrotransposon

retrotransposition

sine

line

database

factual

mossyfibers

tle

hemodynamics

stata

vit_d

australia

entry

envelope

secretase

gamma

coevolution

pdfi

evolution‐plant

play

playfulness

herceptin

erbb2

blood

coagulation


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 108

bone

marrow

repeat

tandem

nucleus

nuclear_matrix

transfer

energy

hcv

idu

gsr

gd

diffusion

rotation

levels

deep

episodic

autobiographical

household

travel

neuroticism

extraversion

qt_c

ecg_processing

multimedia

video

coding

embedding

v1

normalization

dt

semanticweb

asia

south

flies

transposon

neural

fuzzy

thesis

graph‐theory

x‐ray

magnetar

karyotype

bat

web‐service

data‐analysis

high‐throughput

autonomic

dysfunction

prostate‐cancer

herb

pixel

expansion

implementation

ipr

fibromyalgia

cfs

vegetation

mitigation

flood

magnesium

hydrogen

ser

raman

scattering

eeg

fmrt

hybridization

cross

preterm

delivery

monitoring

chromatic‐dispersion

capital

governance

differential

geneselection

ambient

ubicomp

fetal

noninvasive

ecg

variation

saa

pancreas

beta‐cell

sp‐c

sp‐a

virus

tvcv

neurodegenerative

flavonoids

medline

pubmed

cgi

dnmt3a

period

cxcr4

stroma

term

bio

ifg

jc‐cercor

health

behaviours

seat

printed‐read

wheelchair

norepinephrine

tc

dominant

inheritance

facial

emg

8q24

gwa

obesity

hf

access

control

care

primary

livelihood

amazon

efficiency

organizational

norms

normative‐systems

binding

site

crf

acth

fluid

carotid

crisis

disaster

platelet

talin

parahippocampus

object‐location

metagenomics

virology

longitudinal

serial

segmentation

image‐analysis

islam

lam

autonomic‐nervous‐

system

peripheral‐nerves

technology

occupation

coli

polymerase

initiation

phobia

desensitization

kainate

strain

polypeptide_factors

epiphysis

vitamin

mineral

lighting

brightness

dna_organisation

centromere

thermal

temperature

central

sna

expert

space‐time

fractal

ko

genetique

fmr1

reality

mixed

mass‐spectrometry

estrone

stimuli

rhythm

women

men

protein

interaction

birth

poisson

dna

methylation

peptides

pineal

prostate

gleason

lymphocyte

antigen

immunohistochemistry

spinalcord

cfos

disorder

graphite

cytoskeleton

actin

administration

numerical

atlas

testis

niche

mapk

cascade

orchid

diversification

rapd

allozyme


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 109

chromosome

aberration

reform

radical

saccade

fef

vaccine

pneumovax

cancer

breast

valsalva

ssr

key

doctors

adsorption

microparticles

impaired

stm

fourier

coefficients

pigeon

matching_law

shake‐bake

microstructure

cooling

fast

biosensor

slot_waveguide

wireless

sensor

lifespan

fly

surface

modification

presence

awareness

profile

latent

priming

repetition

mpfc

m_anatomy

ultrasound

cat

palliative‐care

spiritual

thyroid

pax

tissue

engineering

pharmacotherapy

hepatic_encephalopat

hy

oocyte

oogenesis

localization

to‐read

hplp

chd

intervention

tailoring

language

acquisition

cbt

psychotherapy

cyclin

cdk

sanskrit

grammar

retrograde

cb1

precursor

drosha

transnational

citizenship

traffic

packet

negotiations

compulsory‐license

histone

acetylation

categories

concept

field

textbook

registration

mutual‐information

phylogeny

mitochondrial

computerized

imr

k‐ras

apc

aids

walking

statd

epinephrine

dopamine

reward

ncrna

rasirna

recombination

linkage

macromolecular

contrast‐agent

plasticity

synapse

vegfr2

vegf

moral

social‐neuroscience

identification

contextual

illness

disc1

prophylaxis

uti

child_fatalities

farm

cytotoxicity

antiangiogenic

psychiatry

application

dce‐mri

perfusion

crack

brazil

ventral_striatum

nucleus‐accumbens

gag

assembly

planning

incomplete_knowledg

e

france

germany

predictors

relationship

association

rules

homology

eukaryotic

peripheral

nerve

transcription_factor

her2

antagonist

decode

anthropogenic

co2

pgp

mutant

reproduction

mating_system

small

area

replication

origin

hypertext

disorientation

spectroscopy

mr‐spectro

kv

kcnq

transcription‐control

polycomb

wet

sinter

blind

pegar

cooperation

reciprocity

chromatin

organization

web

20

behavior

execise

decision‐support

public‐health

real‐time

portfolio

fm

citas‐caise05

designpatterns

alexander

pattern

popgen

neanderthal

graphics

implicit

regional

precipitation

default‐mode

resting‐state

discourse

cda

sud

comorbidity

services

ecosystem

capsaicin

trigeminal

camp

repression

anthropology

kinship

correlates

neo

pedagogy

l2

java

static_analysis


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 1 ‐ Klynger med tærskelværdi 0,2

Side 110

gm

inference

hiv

apobec

drugdiscovery

assay

events

enterprise

mass

spectrometry

biomarkers

blood_classifier

inflammatory

journals

clathrin

tirf

alignment

multiple

tms

visual‐cortex

sirna

off‐target

protein_structure

biophysics

occlusion

template

consensus

definition

divergence

hominidae

recycling

endosomes

treatment

methylphenidate

lung

sarcoidosis

snp

population‐structure

hci

ids

mortality

hals

caffeine

adenosine

insulinresistance

pkc

skills

choking

mood_stabilizer

drug_drug_interaction

foundations

power‐law

‐mytilus

larvae

heart_failure

sodium

shoulder

kinematics

duty_to_warn

ownership

constructivism

symbolic

class

secondary

ethnography

caregivers

claustrophobia

long‐term

olfaction

meta

neurite

ngf

antidepressants

neurotrophic

bovine

prion

happiness

smiling

project

restoration

clustering

trna

research

qualitative

family

tsh3

aversive

punishment

nonlinear_dynamics

review_article

systems

dht

information

retrieval

steroid

sex

intron

ii

surfactant

immunoassay

parkinsons

wiki

immunomodulators

thymalin

aging

oxidative‐stress

wavelet

texture

image‐processing

signaling

transduction

2d

bci

ocean

paleoclimate

allocation

telecommunication

lipids

imp

antisense

sensing

‐virus

epistasis

synchronization

phase

tolerance

fault

transcription

hematopoiesis

rac

rho

characters

parsimony

fish

predators

abstract

head_injuries

yeast

two‐hybrid

theorem_proving

resolution

cyclophosphamide

alkylation

mrna

mrnp

natural

solutions

communication

online

alcohol

cocaethylene

race

disparities

coronary

logistic

animal_studies

experimental_design

3‐d

eye‐tracking

indel

chimp

efficacy

systematic_review

spermatozoa

protamine

guinea

biodiversity

ca2

spark

membrane

tension

tbm

volumetry

mining

news

alpha

beta

probabilistic

proteininteraction

metastasis

microenvironment

immunity

cytokines

sound

virtual‐environment

extraction

relation

semantic‐web

ontology

amplification

centrosome


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 2 ‐ Klynger med tærskelværdi 0,3

Side 111

Bilag 2. Klynger med tærskelværdi 0,3

game‐theory

autoimmune

graves

fear‐conditioning

syria

cotinine

politicaltheory

earlyrepublic

unitedstates

republicanism

federalism

18c

america

constitution

california

labor_history

migrant_labor

immigration

shisha

narghile

hookah

tobacco

hcii‐minis

cs‐mini

input

ctpa

angiogram

pregnant

vq

ventilation

protection

renal‐dialysis

bipolarabuse

nursing‐

communication

paranoia

grief

mental‐illness

ptsd

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

nursing‐chronically_ill

nursing‐death

nursing‐disaster

nursing‐christian

nursing‐spirituality

intracavitary

aspergilloma

percutaneous

amphotericin

fungus

reticulum

sarcoplasmic

srs

petri

nets

siphon

petri‐nets

petrinets

launay‐vacher

insufficiency

ckd

renal

constructivist

perspectives

seminar

reading

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

inflammtion

immmun‐response

immune‐response

genotype‐phenotype

phosphatidylinositol

45‐diphosphate

rectifying

laziness

lazy‐evaluation

folkloristics

folklore

vernacular

legend

photolithography

lithography

fabrication

keyopinionleader

impact‐factor

opinionleader

socialnetworkanalysis

buzz

thoughtleader

persuasion

citation‐analysis

scientific

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

tfl1

prospectus

nnat

neuronatin

bc10

blcap

ryanodine

ryr

receptor

calcium

annuities

pensions

markets

niere

physiologie

herz

nervous‐system

microbial

govt

non‐us

support

wbp

naylor

literary

brewster

mbp

epitalon

epithalon

self‐incompatibility

autogamy

accumulating‐

parameters

tree‐transducers

program‐

transformation

deforestation

functional‐

programming

reading_disability

discrepancy

psy145

dyslexia

iq

renovascular

stenosis

mra

resonance

magnetic

h

frog

transgenic

brian

nichola

jessica

shiva

botanical‐medicine

phytomedicine

phytochemicals

preventive‐medicine

initial_segment

nav

somatodendritic

ion_channels

bombus

bumblebees

foraging

yag

garnet

nd

transparent_ceramic

laser

arthritis

rheumatoid

leisure

newref

cr

nutritional‐medicine

clinical‐nutrition

functional‐foods

leader

kol

citation

mit‐harvard‐ccne

ccne‐grant

ccne

polymer‐nanoparticle

drug_design

te

herv

cited

132

virulence

ctx

vibrio

phage

pilus

tefl

tesol

efl

tesl

english

polycystic

pcos

ovarian

microelectrode

cell‐attachment

cortical

anaplasmosis

ehrlichiosis

vmseminar

visual_memory

vstm

fear

neuroethicsnet

riskpaper

refusalstats

stai

fearstats

tweezers

trap

optical

apis

mellifera

honeybees

divisionoflabor

serm

chemoprevention

ac

acrosome

acrosome‐reaction

downregulation

shedding

mic

enidtl

pysics

multiagent

dtl


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 2 ‐ Klynger med tærskelværdi 0,3

Side 112

multimodal

crossmodal

haptics

tactile

freshwater

ornamental

marine

trade

acculturation

asian_american

sea

renewable

ukgreecepolicyreview

electricity

commercialization

inward

transient

current

vt

vf

myeloma

fdg

pet

nhs

health_policy

denotational‐

semantics

free‐theorems

parametric

hrv

vfc

spectral_analysis

autonomic_ns

structure_prediction

statistical_potentials

computational_biolog

y

inactivation

x‐chromosome

brca1

splitting

spin

prb

ancient

plato

republic

justice

parallel

tig

msh6

mmr

dumbbell

doublet

dimer

rotation

gmx

exploratory

tgfbeta

smad3

hyperinsulinaemia

euglycaemic_clamp

hypoglycaemia

operating

cisd730

encryption

nematic

liquid‐crystal

free‐standing

sudomotor_function

electrodermal

scr

umetani

hoon

hypnosis

forgetting

direct

localisation

nls

structure_learning

bayesian_network

graphical_model

pulmonary_hypertens

ion

lille

circulation

kibra

dendrin

silicon_nitride

silicon_oxide

waveguide

ring_resonator

pgd

ivf

ap

action_potential

intrathecal

clonidine

toxicity

spinal

united

states

small‐area

reading_acquisition

phonological_awaren

ess

child

vertebrates

sequence‐evolution

primates

mammals

animals

source‐trees

radiograph

plain

abdominal

rotterdam

oa

knee

xray

lpl

lipolysis

silicon_oxynitride

refractive_index

sociological_theory

political_theory

civil_war

collective_action

conflict

pam

polytrauma

rtcs

motor_vehicles

capillary

gas‐filled

tsh

roman

minicircle

schizodeme

kinetoplast

kdna

subcultures

cultural_studies

ctd

rnapii

ttx

lamprey

nmda

digitalimages

digitalmemories

photography

gpx

glutathione_peroxida

se

kinetics

kinetic_modeling

murine_macrophage

immune_activation

nitric_oxide

ifn‐gamma

muscarinic

m2

sexualabuse

nonoffendingparent

mothering

stark

broadening

diagnostic

abuse

substance

printed

unread

mirna

complex‐network

smallworld‐network

bimaculatus

phonotaxis

soc

mh

synthetic‐biology

sbw_systemreports

genecircuits

cgms

type1

dynamic‐typing

type‐dynamic

myocardium

heart

electrophysiology

pollinator

scent

manufacturing‐

control

manufacturing

pylori

baba

captive_breeding

aquaculture

absn2‐sum06‐nurs33

absn2‐sum06‐

required

serotonin_transporter

serotonin_polymorphi

sm

amyloid

fibrillation

tumor‐infiltrating

breg

b‐cell

dnmt3l

germ

iap

university

industry

tracking

sbma

polyglutamine

ar

nf‐kappab

network_motifs

toll‐like_receptor

lps

pesticide

hsp70

mica

micb

math

fuzzy_logic

insects

crickets

auditory

helix

transmembrane

ffa

fattyacids

endothelium


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 2 ‐ Klynger med tærskelværdi 0,3

Side 113

ng

sz

dg

pharmaceuticals

trips

wto

named

entity

fp

functionalprogrammi

ng

cerebral

palsy

ip

intellectual‐property

copyright

cdh

trachealocclusion

lungmaturation

deprest

languagedesign

proglang

dsl

littlelanguage

m_ephys

accumbens

econometrics

dipl1

iff

unified‐concept‐

theory

shock

hemorrhagic

oral

scc

vector

machines

svm

chagas_disease

trypanosoma_cruzi

cv_cmmorel

quantization

quantisation

heather

arash

bob

jie

kristina

sccne

nanotech

emulsions

endoscopic

vesicoureteral

reflux

support‐vector‐

machine

kernel

machine‐learning

classifier

tick‐borne

ticks

ixodes

donor

live

liver

innate

interferon

node

lymph

rac1

rhoa

cdc42

gtpase

abla

stamant

authentication

message

morphometry

vbm

ligands

nkg2d

induced

demand

hpa‐axis

dhea

electrodes

modified

nanotubes

carbon

mental‐health

user‐involvement

hp

ulcere

supervisory

deadlock

citas

sperm‐egg‐

recognition

sperm‐egg‐binding

dissertation

behaviorchange

growth_rate

quantitative_data

epigenetics

imprinting

cryptography

steganography

encapsulation

fiber

purkinje

pregnancy

presentation

hedgehog

smo

residency

scutwork

codon‐usage

gene‐characteristics

neuroblastoma

mycn

elavl4

colon_cancer

progression

glioma

csc

instruction

bibliographic

imitation

mirror_neuron

literary_history

authority

african‐american

multivariate

series

warming

arctic

american

cinema

molecule

single

b2ar

agonist

orthography

correspondence

phonology

cannabis

endocannabinoid

qtl

sex_comb_ref

quantitative_genetics

gene‐duplication

proteasome

acid

amino

jpeg

compression

debt

credit

infrared

near

angiography

vessel

medical‐imaging

age‐related

presbycusis

informatics

supportgroup

chess

cmr

cad

cardiology

mmc

icl

gst

glutathione‐s‐

transferase

artificial

intelligence

swarm

alternative

complementary

article

phospholipid

vesicle

master‐equation

biorefs

nursing_informatics

pda

dipeptide

vilon

sharing

secret

lyme_disease

borrelia

softnet

tool

dea

mar

conditioning

respondent

tcell

costimulation

microsatellite

printout

manual

array

oligonucleotide

zp3

zona‐pellucida

zp2

ability

mental

routing

manet

ant

qt_interval

qt_dispersion

medical‐informatics

mghlcspub

lr

carbohydrate

msh2

hnpcc

digital

archive

p‐darkness

junctions

gap


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 2 ‐ Klynger med tærskelværdi 0,3

Side 114

storage

571r

lamb

body_weight

cytosqueleton

signaling_pathways

y‐chromosome

azf

topoisomerase_ii

topoisomerase

equipment

orthopedic

rehabilitation

autosomal

archaic

bounded

rationality

employment

equal‐opportunities

arrhythmia

arrhythmogenesis

nfkb

carma1

breastcancer

survivorship

psychosocial

ebpneuro

citherapy

logic

ai

reasoning_about_acti

on

dan

neuropathy

thrombosis

venous

wall

pointing

psychophysiological

ngd

mutagenicity

carcinogen

nsclc

iressa

sirtuin

sirt1

il6

il‐6

syndrome

bartter

drug‐delivery

med‐chem

tom_in_motion

false_belief

feminism

rhetoric

wm

remap

colon

stent

tags

folksonomy

functional_annotation

gene_set_analysis

shrimp

penaeus

murray

elina

melatonin

epithalamin

hrt

postmenopausal

song

gryllus

milk

goat

km

knowledge_transfer

mitochondria

methodspaper

diversity

population‐genetics

islands

sir2

nicotinamide

nadnadh

sar

speckle

hnf4

s1a

targets

human_monocyte

human_macrophage

inos

personality

traits

csf

flc

systems_biology

genego

analgesia

neonatal

pattern_separation

ca3

appetitive

hippo

tartumicro

tartumicropapers

drm

intellectualproperty

interoperability

radiative‐forcing

climate‐sensitivity

nonword

cksearch

infertility

male‐fertility

porcine

pig

branching

branching‐diffusion

cortical‐thickness

cerebral‐cortex

coercion

enforcement

release

spontaneous

ensemble

gcm

2

mellitus

teams

remote

advanced

www

granuloma

host‐

pathogen_interaction

immune_cell_kinetics

neuroleptic

side_effect

ubiquitin

post‐translation

ad

alzheimers

urban

city

testosterone

malegonadal

androgen

intentionality

counterfactual

usedinthesis

ecite

w3c

hardcopy

developmental_disabi

lities

behavior_analysis

nas

finasteride

cardiovascular

physiological_model

cp

print‐red

autophagy

clearance

il‐12

adjuvants

estrogen

estradiol

choline

ach

motorcontrol

reachgrasp

choicebehavior

paradox_of_choice

toxicology

nephrotoxicity

ischemia

ri2d

elements

cis‐regulatory

intense

pmoi

acute

pancreatic

metabolomics

mendes

postop

xrt

presma

premotor

pharmacology

nigella

hemolymph

fs

molecular‐biology

floral‐color

adhd

adult

myc

burkitts

lymphoma

cvd

igf1

taiwan

taiwan‐history

dbm

tbm

attitudes

health‐professionals

data‐mining

phyloinformatics

hepatitis

tgf

unsupervised

neuralnetwork


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 2 ‐ Klynger med tærskelværdi 0,3

Side 115

hcs

molecularbiology

urodynamic

videourodynamic

yigal

motor_planning

p21

ht‐29

functional‐

connectivity

connectivity‐map

rest

signature

one‐time

pulsar

glitch

trafficking

arrestin

gpcr

user‐computer

interface

decision‐making

neuroeconomics

hip

dislocated

watermarking

hiding

embedding

tml‐project

workplace

caveolin‐1

caveolae

material

folk

sexual_selection

sexual_conflict

syncope

vasovagal

ttt

spectrum

luminescence

wolbachia

parasite

septic

sepsis

cilia

ift

dti

spinal‐cord

elearning

healthcare

2007

chat

narrative

ijceell06

chagas

trypanosoma

cruzi

lasko

cyp2a6

piaget

vygotsky

degeneration

wallerian

water

d20

climate

impacts

falls

older_people

malaria

transcriptome

elongation

cdk9

cortisol

diurnal

exocytosis

synaptic_vesicles

parp

dnadamagerepair

coexpression

wgcna

ot

occupational‐therapy

groups

productivity

vitamink

anticancer

mtdna

projmt

aggression

betta_splendens

tom

preschoolers

false

yb

dy

tb

preference_assessme

nt

preference

1digitalyouth

kids

cyp19

aromatase

apparent‐diffusion‐

coefficient

dw‐mri

bacteria

ultrastructure

avian

zp1

balance

load

child‐maltreatment

dv

tau

simulation_algorithms

toprint

yttria

laboratory

molecular_markers

phyllotaxis

auxin

eus

trucut

male

xx

hyperefficiency

ui

lh

fsh

literature

preventivemedicine

mediation

semiotic

evidence

info

desiccation

nematoda

rolling

friction

imaging

brain

mri

mathgamespatterns

participatory

learner‐centered

chip

comparative_study

shape

shading

stratification

inequality

shear

endothelial

agrobacterium

tesi

open

source

plasmodium

postgenomics

akt

pi3k

thymus

bone_marrow

pineal_gland

fat

in‐refman

decondensation

xenopus_laevis

sociocognitive

sociocultural

marriage

19c

transforms

discrete

copper

emt

cancer_pain

hrql

afm

1

cell

stem

biomedical

nlp

visceral

subcutaneous

advertising

clothing

reduction

dimensionality

neural‐network

4

myocardial

infarction

antiphospholipid

catastrophic

raclopride

endogenous

major_depression

clinical_trial

rnai

argonaute

biomechanics

gait

pollen

chemistry

pip2

inositol

generic‐programming

type‐classes

haskell

smalltalk

languageimplementat

ion

business

bpel


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 2 ‐ Klynger med tærskelværdi 0,3

Side 116

migraine

5‐htreceptor

qc

adiabatic

potassium

i‐katp

pharmacogenetics

personalized‐

medicine

theoretical

category‐learning‐use

social

socialnetwork

babies

lbw

cattle

situ

extracellular

matrix

mas

ssnmr

fetal

sheep

cnv

amd

cd5

t

scintillator

pr

informed‐consent

biobanks

psychophysics

reaction_time

early

visual‐motor

sensor‐networks

energy‐efficient

hpa

glucocorticoids

end‐of‐life‐decisions

euthanasia

virtual‐reality

avatars

sp

cgrp

plagiarism

712

dual

antenna

schizophrenia

psychosis

amygdala

fear_conditioning

equation

parameter

coherence

bec

rowing

sci

paper1

poster_amigus

embryo

early_embryo

paternal_exposure

degradation

fbw7

vagus

nodose

artery

hypertension

radiography

dog

sat

bdd

microrna

microrna_target_pred

iction

environment

sustainability

collection

garbage

chirurgie

emc

pd

msa

overlay

path

rnasep

subunit

genetic‐testing

direct‐to‐consumer

antibiotic

fungi

ctcf

insulators

two‐photon

spine

contrast

comparative

p2p

bittorrent

inhibition

faah

topos‐theory

higher‐dimensional‐

category‐theory

ecology

mangrove

biochemistry

purification

bladder

urinary

enzyme

restriction

smoking

nica

older

iadl

kir

katp

head

neck

disclosure

transparency

copy

number

dialogue

perspective_taking

msi

sporadic

p53

mdm2

integrin

rap1

management

resource

self‐administration

cocaine

est

‐drosophila

chemotaxis

chemokine

computer

lit‐review

neuroanatomy

basal_ganglia

italy

anaplasma_phagocyt

ophilum

zoonoses

babesia

proof

convergence

usage‐based

corpora

vla‐4

lfa‐1

cdk2

p16

ion

gating

sentence

wordlevel

fluctuations

stochastic

sport

athletic

theory‐of‐mind

chimpanzee

copy‐number

snp‐arrays

bayesian

bayesnet

autoregulation

pic

tor

disjunction

erk12

enos

art

ambient

zone

border

prenatal

amniocentesis

decisionmaking

lip

neurophysiology

protein‐protein

interactome

macrophage

uspio

sitting

postural

bold

cbf

addiction

aa

glass

colloidal

fluoride

monocrystal

multistability

signallingcircuits

expression

gene

search

information‐seeking

polymer

coil

compilers

pl

app

presenilin

sampling

active_learning


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

rhodopsin

crystallography

markers

tamoxifen

risk_assessment

false_positivefalse_ne

gative

anatomy

zoology

chain

reversible

academic

writing

cues

reinstatement

staging

staged‐programming

mice

emu

chapter

chicken

dna_repair

chromatin_structure

masculinity

basketball

ayurveda

biblio‐extracted‐

import

streaming

rate‐distortion

gold

nanoparticles

social‐networks

influence

large

scale

aphasia

frontal

bolted‐joint

composite

probability

pde

fret

fluorophores

cardiac

myocyte

navigation

augmented_reality

muscle

smooth

sleep

consolidation

lung‐cancer

breath‐test

cell‐cycle

caulobacter

publishing

ranking

pediatric‐research

survey‐research

death

yoga

fluorescence‐

microscopy

aminated‐cross‐

linked‐iron‐oxide‐

nanoparticles

hdl

ldl

detachment

hydrolysis

status

propagate

bladder_neck_obstruc

tion

diagnosis_treatment

consult_liason

delirium

chronicdisease

medicare

paediatrics

sitting‐ability

dna_loop

smar

dna‐damage

chromatin‐

remodeling‐

modification

Bilag 2 ‐ Klynger med tærskelværdi 0,3

sf36

pcs

drosophila

tramtrack

ps1

pathology

respiration

breath

rejection

rma

family‐law

insemination

motor

kinesin

genotype

drd4

tissue‐classification

multiple‐sclerosis

retrotransposon

retrotransposition

database

factual

mossyfibers

tle

hemodynamics

stata

Side 117


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 3 ‐ Klynger med tærskelværdi 0,4

Side 118

Bilag 3. Klynger med tærskelværdi 0,4

game‐theory

autoimmune

fear‐conditioning

syria

cotinine

politicaltheory

earlyrepublic

unitedstates

republicanism

federalism

18c

america

california

labor_history

migrant_labor

immigration

shisha

narghile

hookah

tobacco

hcii‐minis

cs‐mini

input

ctpa

angiogram

pregnant

vq

ventilation

renal‐dialysis

bipolarabuse

nursing‐

communication

paranoia

grief

mental‐illness

borderline

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐

older_adults

nursing‐

chronically_ill

nursing‐death

nursing‐disaster

nursing‐christian

nursing‐spirituality

intracavitary

aspergilloma

percutaneous

amphotericin

reticulum

sarcoplasmic

srs

petri

nets

siphon

launay‐vacher

insufficiency

ckd

renal

constructivist

perspectives

seminar

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

inflammtion

immmun‐response

immune‐response

phosphatidylinosit

ol

45‐diphosphate

rectifying

laziness

lazy‐evaluation

functional‐

programming

folkloristics

folklore

vernacular

photolithography

lithography

fabrication

keyopinionleader

impact‐factor

opinionleader

socialnetworkanal

ysis

buzz

thoughtleader

persuasion

citation‐analysis

propagate

data‐generation‐

control

microarray‐

algorithms

pebp

lipid‐binding

tfl1

nnat

neuronatin

bc10

blcap

ryanodine

ryr

receptor

annuities

pensions

niere

physiologie

nervous‐system

microbial

govt

non‐us

wbp

naylor

literary

brewster

epitalon

epithalon

self‐incompatibility

autogamy

accumulating‐

parameters

tree‐transducers

program‐

transformation

deforestation

reading_disability

discrepancy

psy145

dyslexia

renovascular

stenosis

mra

resonance

magnetic

h

frog

transgenic

brian

nichola

jessica

shiva

botanical‐medicine

phytomedicine

phytochemicals

initial_segment

nav

somatodendritic

ion_channels

bombus

bumblebees

foraging

yag

garnet

nd

transparent_cera

mic

leisure

newref

cr

arthritis

rheumatoid

nutritional‐

medicine

clinical‐nutrition

functional‐foods

preventive‐

medicine

leader

kol

citation

mit‐harvard‐ccne

ccne‐grant

ccne

polymer‐

nanoparticle

te

herv

cited

virulence

ctx

vibrio

phage

pilus

tefl

tesol

efl

tesl

polycystic

pcos

microelectrode

cell‐attachment

cortical

anaplasmosis

ehrlichiosis

vmseminar

visual_memory

vstm

fear

neuroethicsnet

claustrophobia

tweezers

trap

optical

apis

mellifera

honeybees

serm

chemoprevention

ac

acrosome

acrosome‐reaction

downregulation

shedding

enidtl

pysics

multiagent

multimodal

crossmodal

haptics

freshwater

ornamental

marine

trade


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 3 ‐ Klynger med tærskelværdi 0,4

Side 119

acculturation

asian_american

renewable

ukgreecepolicyrevi

ew

electricity

inward

transient

current

vt

vf

myeloma

fdg

pet

nhs

health_policy

denotational‐

semantics

free‐theorems

hrv

vfc

spectral_analysis

structure_predicti

on

statistical_potentia

ls

computational_bio

logy

inactivation

x‐chromosome

brca1

splitting

spin

prb

ancient

plato

republic

parallel

tig

petri‐nets

petrinets

msh6

mmr

riskpaper

refusalstats

stai

fearstats

dumbbell

doublet

dimer

gmx

exploratory

tgfbeta

smad3

hyperinsulinaemia

euglycaemic_clam

p

hypoglycaemia

operating

cisd730

nematic

liquid‐crystal

free‐standing

sudomotor_functi

on

electrodermal

scr

umetani

hoon

hypnosis

forgetting

direct

localisation

nls

structure_learning

bayesian_network

graphical_model

pulmonary_hypert

ension

lille

kibra

dendrin

silicon_nitride

silicon_oxide

waveguide

ring_resonator

pgd

ivf

ap

action_potential

intrathecal

clonidine

toxicity

united

states

reading_acquisitio

n

phonological_awar

eness

vertebrates

sequence‐

evolution

primates

mammals

animals

radiograph

plain

abdominal

rotterdam

oa

knee

lpl

lipolysis

silicon_oxynitride

refractive_index

sociological_theor

y

political_theory

civil_war

collective_action

pam

polytrauma

rtcs

motor_vehicles

capillary

gas‐filled

tsh

roman

minicircle

schizodeme

kinetoplast

kdna

subcultures

cultural_studies

ctd

rnapii

ttx

lamprey

digitalimages

digitalmemories

photography

Gpx

glutathione_peroxi

dase

kinetics

kinetic_modeling

murine_macropha

ge

immune_activatio

n

nitric_oxide

ifn‐gamma

muscarinic

m2

sexualabuse

nonoffendingpare

nt

stark

broadening

cdc42

gtpase

abuse

substance

printed

unread

complex‐network

smallworld‐

network

bimaculatus

phonotaxis

soc

mh

synthetic‐biology

sbw_systemreport

s

genecircuits

cgms

type1

dynamic‐typing

type‐dynamic

myocardium

heart

electrophysiology

pollinator

scent

manufacturing‐

control

manufacturing

pylori

baba

captive_breeding

aquaculture

absn2‐sum06‐

nurs33

absn2‐sum06‐

required

serotonin_transpo

rter

serotonin_polymor

phism

amyloid

fibrillation

tumor‐infiltrating

breg

b‐cell

dnmt3l

germ

university

industry

tracking

sbma

polyglutamine

nf‐kappab

network_motifs

toll‐like_receptor

pesticide

hsp70

mica

micb

math

fuzzy_logic

insects

crickets

helix

transmembrane

ffa

fattyacids


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 3 ‐ Klynger med tærskelværdi 0,4

Side 120

ng

sz

dg

pharmaceuticals

trips

named

entity

fp

functionalprogram

ming

cerebral

palsy

ip

intellectual‐

property

copyright

cdh

trachealocclusion

lungmaturation

languagedesign

proglang

dsl

littlelanguage

m_ephys

accumbens

econometrics

dipl1

iff

unified‐concept‐

theory

shock

hemorrhagic

oral

scc

vector

machines

chagas_disease

trypanosoma_cruzi

cv_cmmorel

quantization

quantisation

heather

arash

bob

jie

sccne

nanotech

emulsions

endoscopic

vesicoureteral

support‐vector‐

machine

kernel

tick‐borne

ticks

ixodes

donor

live

innate

interferon

node

lymph

rac1

rhoa

abla

stamant

authentication

message

morphometry

vbm

ligands

nkg2d

induced

demand

hpa‐axis

dhea

electrodes

modified

mental‐health

user‐involvement

hp

ulcere

supervisory

deadlock

citas

sperm‐egg‐

recognition

sperm‐egg‐binding

dissertation

behaviorchange

growth_rate

quantitative_data

epigenetics

imprinting

cryptography

steganography

fiber

purkinje

pregnancy

presentation

hedgehog

smo

residency

scutwork

codon‐usage

gene‐

characteristics

neuroblastoma

mycn

elavl4

colon_cancer

progression

glioma

csc

instruction

bibliographic

imitation

mirror_neuron

literary_history

authority

multivariate

series

encapsulation

hiding

embedding

warming

arctic

american

cinema

molecule

single

b2ar

agonist

orthography

correspondence

cannabis

endocannabinoid

qtl

sex_comb_ref

gene‐duplication

proteasome

acid

amino

jpeg

compression

debt

credit

infrared

near

angiography

vessel

age‐related

presbycusis

informatics

supportgroup

cmr

cad

mmc

icl

gst

glutathione‐s‐

transferase

artificial

intelligence

swarm

alternative

complementary

article

phospholipid

vesicle

master‐equation

biorefs

nursing_informatic

s

pda

dipeptide

vilon

sharing

secret

lyme_disease

borrelia

softnet

tool

dea

mar

conditioning

respondent

tcell

costimulation

microsatellite

printout

array

oligonucleotide

zp3

zona‐pellucida

ability

mental

routing

manet

qt_interval

qt_dispersion

medical‐

informatics

mghlcspub

lr

carbohydrate

msh2

hnpcc

digital

archive

junctions

gap

storage

571r

lamb

body_weight


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 3 ‐ Klynger med tærskelværdi 0,4

Side 121

cytosqueleton

signaling_pathway

s

y‐chromosome

azf

topoisomerase_ii

topoisomerase

equipment

orthopedic

autosomal

archaic

bounded

rationality

employment

equal‐

opportunities

arrhythmia

arrhythmogenesis

nfkb

carma1

breastcancer

survivorship

ebpneuro

citherapy

logic

ai

dan

neuropathy

thrombosis

venous

wall

pointing

psychophysiologic

al

ngd

mutagenicity

carcinogen

nsclc

iressa

sirtuin

sirt1

il6

il‐6

syndrome

bartter

drug‐delivery

med‐chem

tom_in_motion

false_belief

feminism

rhetoric

wm

remap

colon

stent

tags

folksonomy

functional_annotat

ion

gene_set_analysis

shrimp

penaeus

murray

elina

melatonin

epithalamin

hrt

postmenopausal

song

gryllus

milk

goat

km

knowledge_transfe

r

mitochondria

methodspaper

diversity

population‐

genetics

sir2

nicotinamide

nadnadh

sar

speckle

hnf4

s1a

human_monocyte

human_macropha

ge

personality

traits

csf

flc

systems_biology

genego

analgesia

neonatal

pattern_separatio

n

ca3

appetitive

hippo

tartumicro

tartumicropapers

drm

intellectualpropert

y

radiative‐forcing

climate‐sensitivity

nonword

cksearch

infertility

male‐fertility

porcine

pig

branching

branching‐

diffusion

cortical‐thickness

cerebral‐cortex

coercion

enforcement

release

spontaneous

ensemble

gcm

2

mellitus

teams

remote

advanced

www

granuloma

host‐

pathogen_interacti

on

neuroleptic

side_effect

ubiquitin

post‐translation

ad

alzheimers

urban

city

testosterone

malegonadal

intentionality

counterfactual

usedinthesis

ecite

hardcopy

developmental_dis

abilities

behavior_analysis

nas

finasteride

cardiovascular

physiological_mod

el

cp

print‐red

autophagy

clearance

il‐12

adjuvants

estrogen

estradiol

choline

ach

motorcontrol

reachgrasp

choicebehavior

paradox_of_choice

toxicology

nephrotoxicity

ischemia

ri2d

elements

cis‐regulatory

intense

pmoi

acute

pancreatic

metabolomics

mendes

postop

xrt

presma

premotor

pharmacology

nigella

hemolymph

fs

molecular‐biology

floral‐color

adhd

adult

myc

burkitts

cvd

igf1

spinal

cord

taiwan

taiwan‐history

dbm

tbm

attitudes

health‐

professionals

data‐mining

phyloinformatics

hepatitis

tgf

english

esl


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

unsupervised

neuralnetwork

hcs

molecularbiology

urodynamic

videourodynamic

yigal

motor_planning

p21

ht‐29

functional‐

connectivity

connectivity‐map

signature

one‐time

pulsar

glitch

trafficking

arrestin

user‐computer

interface

decision‐making

neuroeconomics

hip

dislocated

scars

reflux

tml‐project

workplace

caveolin‐1

caveolae

material

folk

sexual_selection

sexual_conflict

syncope

vasovagal

spectrum

luminescence

wolbachia

parasite

septic

sepsis

cilia

ift

dti

spinal‐cord

elearning

healthcare

2007

chat

narrative

ijceell06

chagas

trypanosoma

cruzi

lasko

cyp2a6

piaget

vygotsky

degeneration

wallerian

water

d20

climate

impacts

falls

older_people

malaria

transcriptome

elongation

cdk9

islands

canary

cortisol

diurnal

exocytosis

synaptic_vesicles

parp

dnadamagerepair

coexpression

wgcna

ot

occupational‐

therapy

Bilag 3 ‐ Klynger med tærskelværdi 0,4

groups

productivity

sheep

circulation

vitamink

anticancer

mtdna

projmt

aggression

betta_splendens

tom

preschoolers

yb

dy

preference_assess

ment

preference

1digitalyouth

kids

cyp19

aromatase

apparent‐

diffusion‐

coefficient

dw‐mri

bacteria

ultrastructure

avian

zp1

balance

load

child‐

maltreatment

dv

tau

simulation_algorit

hms

toprint

yttria

laboratory

molecular_marker

s

phyllotaxis

auxin

eus

trucut

male

xx

hyperefficiency

ui

scientific

professionals

lh

fsh

literature

preventivemedicin

e

mediation

semiotic

evidence

info

Side 122


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 4 ‐ Klynger med tærskelværdi 0,5

Side 123

Bilag 4. Klynger med tærskelværdi 0,5

game‐theory

autoimmune

fear‐conditioning

syria

politicaltheory

earlyrepublic

unitedstates

republicanism

federalism

18c

america

california

labor_history

migrant_labor

immigration

shisha

narghile

hookah

tobacco

hcii‐minis

cs‐mini

input

ctpa

angiogram

pregnant

renal‐dialysis

bipolarabuse

nursing‐

communication

paranoia

grief

mental‐illness

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

nursing‐chronically_ill

nursing‐death

nursing‐disaster

nursing‐christian

nursing‐spirituality

intracavitary

aspergilloma

percutaneous

amphotericin

reticulum

sarcoplasmic

srs

petri

nets

siphon

launay‐vacher

insufficiency

ckd

renal

constructivist

perspectives

seminar

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

inflammtion

immmun‐response

immune‐response

phosphatidylinositol

45‐diphosphate

laziness

lazy‐evaluation

folkloristics

folklore

photolithography

lithography

fabrication

keyopinionleader

impact‐factor

opinionleader

socialnetworkanalysis

buzz

thoughtleader

persuasion

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

tfl1

nnat

neuronatin

bc10

blcap

ryanodine

ryr

receptor

annuities

pensions

niere

physiologie

nervous‐system

microbial

govt

non‐us

wbp

naylor

literary

epitalon

epithalon

self‐incompatibility

autogamy

accumulating‐

parameters

tree‐transducers

program‐

transformation

deforestation

reading_disability

discrepancy

psy145

dyslexia

renovascular

stenosis

mra

h

frog

transgenic

brian

nichola

jessica

botanical‐medicine

phytomedicine

phytochemicals

initial_segment

nav

somatodendritic

bombus

bumblebees

yag

garnet

nd

transparent_ceramic

leisure

newref

arthritis

rheumatoid

nutritional‐medicine

clinical‐nutrition

functional‐foods

leader

kol

citation‐analysis

mit‐harvard‐ccne

ccne‐grant

te

herv

cited

virulence

ctx

vibrio

tefl

tesol

efl

polycystic

pcos

microelectrode

cell‐attachment

cortical

anaplasmosis

ehrlichiosis

vmseminar

visual_memory

vstm

fear

neuroethicsnet

tweezers

trap

optical

dsl

littlelanguage

apis

mellifera

honeybees

serm

chemoprevention

ac

acrosome

acrosome‐reaction

kinetoplast

kdna

downregulation

shedding

enidtl

pysics

multiagent

multimodal

crossmodal

freshwater

ornamental

acculturation

asian_american

renewable

ukgreecepolicyreview

electricity

inward

transient

vt

vf

myeloma

fdg

nhs

health_policy

denotational‐

semantics

free‐theorems

hrv

vfc

structure_prediction

statistical_potentials

inactivation

x‐chromosome

splitting

spin

prb

ancient

plato

republic

parallel

tig

petri‐nets

petrinets

msh6

mmr


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 4 ‐ Klynger med tærskelværdi 0,5

Side 124

riskpaper

refusalstats

stai

fearstats

dumbbell

doublet

dimer

gmx

exploratory

tgfbeta

smad3

hyperinsulinaemia

euglycaemic_clamp

operating

cisd730

nematic

liquid‐crystal

sudomotor_function

electrodermal

umetani

hoon

hypnosis

forgetting

localisation

nls

structure_learning

bayesian_network

pulmonary_hypertens

ion

lille

kibra

dendrin

silicon_nitride

silicon_oxide

waveguide

pgd

ivf

ap

action_potential

intrathecal

clonidine

united

states

reading_acquisition

phonological_awaren

ess

vertebrates

sequence‐evolution

primates

mammals

radiograph

plain

abdominal

rotterdam

oa

knee

lpl

lipolysis

silicon_oxynitride

refractive_index

sociological_theory

political_theory

civil_war

collective_action

pam

polytrauma

rtcs

motor_vehicles

capillary

gas‐filled

tsh

roman

minicircle

schizodeme

subcultures

cultural_studies

ctd

rnapii

ttx

lamprey

digitalimages

digitalmemories

gpx

glutathione_peroxida

se

kinetics

kinetic_modeling

murine_macrophage

immune_activation

ifn‐gamma

muscarinic

m2

sexualabuse

nonoffendingparent

stark

broadening

cdc42

gtpase

abuse

substance

printed

unread

complex‐network

smallworld‐network

bimaculatus

phonotaxis

soc

mh

synthetic‐biology

sbw_systemreports

cgms

type1

dynamic‐typing

type‐dynamic

myocardium

heart

electrophysiology

pollinator

scent

manufacturing‐

control

manufacturing

pylori

baba

captive_breeding

aquaculture

absn2‐sum06‐nurs33

absn2‐sum06‐

required

esl

tesl

serotonin_transporter

serotonin_polymorphi

sm

amyloid

fibrillation

tumor‐infiltrating

breg

b‐cell

dnmt3l

germ

university

industry

sbma

polyglutamine

nf‐kappab

network_motifs

pesticide

hsp70

mica

micb

math

fuzzy_logic

insects

crickets

helix

transmembrane

ffa

fattyacids

ng

sz

dg

pharmaceuticals

trips

named

entity

fp

functionalprogrammi

ng

cerebral

palsy

ip

intellectual‐property

cdh

trachealocclusion

lungmaturation

languagedesign

proglang

m_ephys

accumbens

econometrics

dipl1

iff

unified‐concept‐

theory

shock

hemorrhagic

oral

scc

vector

machines

chagas_disease

trypanosoma_cruzi

quantization

quantisation

heather

arash

sccne

nanotech

endoscopic

vesicoureteral

support‐vector‐

machine

kernel

tick‐borne

ticks

donor

live

innate

interferon

node

lymph

rac1

rhoa

abla

stamant

authentication

message

morphometry

vbm

ligands

nkg2d

induced

demand


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

hpa‐axis

dhea

electrodes

modified

mental‐health

user‐involvement

hp

ulcere

supervisory

deadlock

sperm‐egg‐

recognition

sperm‐egg‐binding

dissertation

behaviorchange

growth_rate

quantitative_data

epigenetics

imprinting

cryptography

steganography

fiber

purkinje

ccne

polymer‐nanoparticle

scr

neuralnetwork

pregnancy

presentation

hedgehog

smo

residency

scutwork

codon‐usage

gene‐characteristics

neuroblastoma

mycn

colon_cancer

progression

glioma

csc

instruction

bibliographic

imitation

mirror_neuron

literary_history

authority

citas

citas‐caise05

multivariate

series

encapsulation

hiding

warming

arctic

american

cinema

molecule

single

b2ar

agonist

orthography

correspondence

cannabis

endocannabinoid

qtl

sex_comb_ref

gene‐duplication

proteasome

acid

amino

jpeg

compression

debt

credit

infrared

near

angiography

vessel

age‐related

presbycusis

informatics

supportgroup

cmr

cad

mmc

icl

Bilag 4 ‐ Klynger med tærskelværdi 0,5

gst

glutathione‐s‐

transferase

artificial

intelligence

alternative

complementary

phospholipid

vesicle

master‐equation

biorefs

nursing_informatics

pda

dipeptide

vilon

religion

vernacular

sharing

secret

lyme_disease

borrelia

softnet

tool

dea

mar

conditioning

respondent

tcell

costimulation

microsatellite

printout

array

oligonucleotide

zp3

zona‐pellucida

ability

mental

routing

manet

qt_interval

qt_dispersion

medical‐informatics

mghlcspub

lr

carbohydrate

msh2

hnpcc

digital

archive

junctions

gap

storage

571r

lamb

body_weight

cytosqueleton

signaling_pathways

y‐chromosome

azf

Side 125


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 5 ‐ Klynger med tærskelværdi 0,6

Side 126

Bilag 5. Klynger med tærskelværdi 0,6

game‐theory

autoimmune

fear‐conditioning

syria

politicaltheory

earlyrepublic

unitedstates

republicanism

federalism

18c

california

labor_history

migrant_labor

shisha

narghile

hookah

tobacco

hcii‐minis

cs‐mini

ctpa

angiogram

pregnant

renal‐dialysis

bipolarabuse

nursing‐

communication

paranoia

grief

mental‐illness

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

nursing‐chronically_ill

nursing‐death

nursing‐disaster

nursing‐christian

nursing‐spirituality

intracavitary

aspergilloma

percutaneous

reticulum

sarcoplasmic

petri

nets

siphon

launay‐vacher

insufficiency

ckd

constructivist

perspectives

seminar

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

inflammtion

immmun‐response

phosphatidylinositol

45‐diphosphate

laziness

lazy‐evaluation

folkloristics

folklore

photolithography

lithography

keyopinionleader

impact‐factor

opinionleader

socialnetworkanalysis

buzz

thoughtleader

persuasion

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

tfl1

nnat

neuronatin

bc10

blcap

ryanodine

ryr

annuities

pensions

niere

physiologie

nervous‐system

microbial

govt

non‐us

wbp

naylor

literary

epitalon

epithalon

self‐incompatibility

autogamy

accumulating‐

parameters

tree‐transducers

program‐

transformation

reading_disability

discrepancy

psy145

renovascular

stenosis

mra

h

frog

brian

nichola

botanical‐medicine

phytomedicine

initial_segment

nav

bombus

bumblebees

yag

garnet

leisure

newref

arthritis

rheumatoid

nutritional‐medicine

clinical‐nutrition

leader

kol

citation‐analysis

mit‐harvard‐ccne

ccne‐grant

stai

fearstats

te

herv

virulence

ctx

vibrio

tefl

tesol

tesl

polycystic

pcos

microelectrode

cell‐attachment

anaplasmosis

ehrlichiosis

vmseminar

visual_memory

fear

neuroethicsnet

tweezers

trap

dsl

littlelanguage

apis

mellifera

honeybees

serm

chemoprevention

ac

acrosome

acrosome‐reaction

kinetoplast

kdna

downregulation

shedding

enidtl

pysics

multimodal

crossmodal

freshwater

ornamental

acculturation

asian_american

renewable

ukgreecepolicyreview

inward

transient

vt

vf

myeloma

fdg

nhs

health_policy

denotational‐

semantics

free‐theorems

hrv

vfc

structure_prediction

statistical_potentials

inactivation

x‐chromosome

splitting

spin

ancient

plato

parallel

tig

petri‐nets

petrinets

msh6

mmr

riskpaper

refusalstats

dumbbell

doublet

gmx

exploratory

tgfbeta

smad3

hyperinsulinaemia

euglycaemic_clamp


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

operating

cisd730

nematic

liquid‐crystal

sudomotor_function

electrodermal

umetani

hoon

hypnosis

forgetting

localisation

nls

structure_learning

bayesian_network

pulmonary_hypertens

ion

lille

kibra

dendrin

silicon_nitride

silicon_oxide

pgd

ivf

ap

action_potential

intrathecal

clonidine

united

states

reading_acquisition

phonological_awaren

ess

vertebrates

sequence‐evolution

primates

radiograph

plain

rotterdam

oa

knee

lpl

lipolysis

silicon_oxynitride

refractive_index

sociological_theory

political_theory

collective_action

pam

polytrauma

rtcs

motor_vehicles

capillary

gas‐filled

tsh

roman

minicircle

schizodeme

subcultures

cultural_studies

ctd

rnapii

ttx

lamprey

digitalimages

digitalmemories

efl

esl

gpx

glutathione_peroxida

se

kinetics

kinetic_modeling

murine_macrophage

immune_activation

muscarinic

m2

sexualabuse

nonoffendingparent

stark

broadening

cdc42

gtpase

abuse

substance

printed

unread

Bilag 5 ‐ Klynger med tærskelværdi 0,6

complex‐network

smallworld‐network

bimaculatus

phonotaxis

soc

mh

synthetic‐biology

sbw_systemreports

cgms

type1

dynamic‐typing

type‐dynamic

myocardium

heart

pollinator

scent

manufacturing‐

control

manufacturing

pylori

baba

captive_breeding

aquaculture

absn2‐sum06‐nurs33

absn2‐sum06‐

required

serotonin_transporter

serotonin_polymorphi

sm

amyloid

fibrillation

tumor‐infiltrating

breg

dnmt3l

germ

university

industry

sbma

polyglutamine

nf‐kappab

network_motifs

pesticide

hsp70

mica

micb

math

fuzzy_logic

insects

crickets

helix

transmembrane

ffa

fattyacids

ng

sz

pharmaceuticals

trips

named

entity

fp

functionalprogrammi

ng

cerebral

palsy

ip

intellectual‐property

cdh

trachealocclusion

Side 127


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

game‐theory

autoimmune

fear‐conditioning

syria

politicaltheory

earlyrepublic

unitedstates

republicanism

federalism

california

labor_history

migrant_labor

shisha

narghile

hookah

hcii‐minis

cs‐mini

ctpa

angiogram

renal‐dialysis

bipolarabuse

nursing‐

communication

paranoia

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

nursing‐chronically_ill

nursing‐death

nursing‐disaster

intracavitary

aspergilloma

percutaneous

reticulum

sarcoplasmic

petri

nets

launay‐vacher

insufficiency

ckd

constructivist

perspectives

seminar

Bilag 6. Klynger med tærskelværdi 0,7

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

inflammtion

immmun‐response

phosphatidylinositol

45‐diphosphate

laziness

lazy‐evaluation

folkloristics

folklore

photolithography

lithography

keyopinionleader

impact‐factor

opinionleader

socialnetworkanalysis

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

tfl1

nnat

neuronatin

bc10

ryanodine

ryr

annuities

pensions

niere

physiologie

nervous‐system

microbial

govt

non‐us

wbp

naylor

epitalon

epithalon

self‐incompatibility

autogamy

Bilag 6 ‐ Klynger med tærskelværdi 0,7

accumulating‐

parameters

tree‐transducers

program‐

transformation

nursing‐christian

nursing‐spirituality

reading_disability

discrepancy

renovascular

stenosis

h

frog

brian

nichola

botanical‐medicine

phytomedicine

initial_segment

nav

bombus

bumblebees

yag

garnet

leisure

newref

arthritis

rheumatoid

nutritional‐medicine

clinical‐nutrition

leader

kol

buzz

thoughtleader

mit‐harvard‐ccne

ccne‐grant

stai

fearstats

te

herv

virulence

ctx

tefl

tesol

polycystic

pcos

microelectrode

cell‐attachment

anaplasmosis

ehrlichiosis

vmseminar

visual_memory

fear

neuroethicsnet

tweezers

trap

dsl

littlelanguage

apis

mellifera

honeybees

serm

chemoprevention

ac

acrosome

acrosome‐reaction

kinetoplast

kdna

downregulation

shedding

enidtl

pysics

multimodal

crossmodal

freshwater

ornamental

acculturation

asian_american

renewable

ukgreecepolicyreview

inward

transient

vt

vf

myeloma

fdg

nhs

health_policy

denotational‐

semantics

free‐theorems

hrv

vfc

structure_prediction

statistical_potentials

inactivation

x‐chromosome

splitting

spin

ancient

plato

parallel

tig

petri‐nets

petrinets

msh6

mmr

riskpaper

refusalstats

dumbbell

doublet

gmx

exploratory

tgfbeta

smad3

hyperinsulinaemia

euglycaemic_clamp

operating

cisd730

nematic

liquid‐crystal

sudomotor_function

electrodermal

umetani

hoon

Side 128


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

hypnosis

forgetting

localisation

nls

structure_learning

bayesian_network

pulmonary_hypertens

ion

lille

Bilag 6 ‐ Klynger med tærskelværdi 0,7

kibra

dendrin

silicon_nitride

silicon_oxide

pgd

ivf

ap

action_potential

intrathecal

clonidine

united

states

reading_acquisition

phonological_awaren

ess

Side 129


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

game‐theory

autoimmune

fear‐conditioning

syria

politicaltheory

earlyrepublic

unitedstates

republicanism

inflammtion

immmun‐response

california

labor_history

migrant_labor

shisha

narghile

hookah

hcii‐minis

cs‐mini

ctpa

angiogram

renal‐dialysis

bipolarabuse

nursing‐

communication

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

nursing‐chronically_ill

nursing‐death

nursing‐disaster

intracavitary

aspergilloma

percutaneous

reticulum

sarcoplasmic

petri

nets

launay‐vacher

insufficiency

ckd

constructivist

perspectives

seminar

Bilag 7. Klynger med tærskelværdi 0,8

trypansomiasis

trypanotolerance

trypanosomiasis

trypanosome

phosphatidylinositol

45‐diphosphate

laziness

lazy‐evaluation

folkloristics

folklore

photolithography

lithography

keyopinionleader

impact‐factor

opinionleader

socialnetworkanalysis

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

tfl1

nnat

neuronatin

bc10

ryanodine

ryr

annuities

pensions

niere

physiologie

nervous‐system

microbial

govt

non‐us

wbp

naylor

epitalon

epithalon

self‐incompatibility

autogamy

accumulating‐

parameters

tree‐transducers

Bilag 7 ‐ Klynger med tærskelværdi 0,8

nursing‐christian

nursing‐spirituality

reading_disability

discrepancy

renovascular

stenosis

h

frog

brian

nichola

botanical‐medicine

phytomedicine

initial_segment

nav

bombus

bumblebees

yag

garnet

leisure

newref

arthritis

rheumatoid

nutritional‐medicine

clinical‐nutrition

leader

kol

buzz

thoughtleader

mit‐harvard‐ccne

ccne‐grant

stai

fearstats

te

herv

virulence

ctx

tefl

tesol

polycystic

pcos

microelectrode

cell‐attachment

anaplasmosis

ehrlichiosis

vmseminar

visual_memory

fear

neuroethicsnet

tweezers

trap

dsl

littlelanguage

apis

mellifera

serm

chemoprevention

acrosome

acrosome‐reaction

kinetoplast

kdna

downregulation

shedding

Side 130


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

game‐theory

autoimmune

fear‐conditioning

syria

politicaltheory

earlyrepublic

unitedstates

opinionleader

socialnetworkanalysis

inflammtion

immmun‐response

california

labor_history

migrant_labor

shisha

narghile

hookah

hcii‐minis

cs‐mini

ctpa

angiogram

renal‐dialysis

bipolarabuse

nursing‐acutely_ill

nursing‐children

nursing‐grief

nursing‐older_adults

intracavitary

aspergilloma

trypanosomiasis

trypanosome

reticulum

sarcoplasmic

petri

nets

launay‐vacher

insufficiency

constructivist

perspectives

trypansomiasis

trypanotolerance

nursing‐chronically_ill

nursing‐death

Bilag 8. Klynger med tærskelværdi 0,9

phosphatidylinositol

45‐diphosphate

laziness

lazy‐evaluation

folkloristics

folklore

photolithography

lithography

keyopinionleader

impact‐factor

data‐generation‐

control

microarray‐algorithms

pebp

lipid‐binding

nnat

neuronatin

ryanodine

ryr

annuities

pensions

niere

physiologie

nervous‐system

microbial

Bilag 8 ‐ Klynger med tærskelværdi 0,9

Side 131


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 9. Oversigt over datamateriale

Task Type Bruger COSIM CG CG(20)

1

2

3

4

5

Ikke expanded

Expanded

Ikke expanded

Expanded

Ikke expanded

Expanded

Ikke expanded

Expanded

Ikke expanded

Expanded

2 0,8076923 60 33

10 0,6521739 28 18

12 0,5660377 35 17

18 0,5522388 41 19

19 0,4852941 40 19

20 0,641791 41 41

2 0,7254902 62 26

10 0,7142857 37 22

12 0,4444444 29 13

18 0,7457627 35 22

19 0,5945946 42 21

20 0,6309524 50 22

2 0,6666667 62 31

12 0,6699029 57 27

18 0,53125 38 18

19 0,7651007 75 34

20 0,635514 57 24

2 0,5225225 57 21

12 0,575 46 20

18 0,4444444 27 14

19 0,7099237 67 28

20 0,5243902 46 19

2 0,704918 64 30

12 0,7 52 22

19 0,5 40 17

20 0,3970588 42 14

2 0,6428571 58 28

12 0,5466667 49 20

19 0,375 38 15

20 0,3389831 37 12

2 0,5208333 34 14

12 0,3125 10 7

19 0,3571429 24 9

20 0,5405405 25 16

2 0,2857143 19 7

12 1 2 2

19 0,2857143 5 5

20 0,4 6 4

2 0,8308824 74 35

12 0,6162791 50 24

19 0,75 56 27

20 0,6 40 20

2 0,8156028 77 32

12 0,5802469 47 22

19 0,7590361 57 23

20 0,5423729 37 18

Bilag 9 ‐ Oversigt over datamateriale Side 132


Query Expansion med brugergenererede tags fra en videnskabelig database Danmarks Biblioteksskole

Bilag 10. Eksempler på koforekomstdata

1+1 1+0 0+1 0+0 a+b+c+d Matching coefficients Angle

a b c d n Dice Jaccard Kulczynski Simple Russel/Rao

Rogers/Tani

moto

Ochiai Produkt

Moment

korrelation

1 1000 1000 997999 1000000 ,0009990 ,0004998 ,0005000 ,9980000 ,0000010 ,9960080 ,0009990 ‐,0000002

1 2000 0 997999 1000000 ,0009990 ,0004998 ,0005000 ,9980000 ,0000010 ,9960080 ,0223551 ,0003746

1 0 2000 997999 1000000 ,0009990 ,0004998 ,0005000 ,9980000 ,0000010 ,9960080 ,0223551 ,0003746

1 10 10 999979 1000000 ,0909091 ,0476190 ,0500000 ,9999800 ,0000010 ,9999600 ,0909091 ,0061975

1 20 0 999979 1000000 ,0909091 ,0476190 ,0500000 ,9999800 ,0000010 ,9999600 ,2182179 ,0357141

1 0 20 999979 1000000 ,0909091 ,0476190 ,0500000 ,9999800 ,0000010 ,9999600 ,2182179 ,0357141

2 1000 1000 997998 1000000 ,0019960 ,0009990 ,0010000 ,9980000 ,0000020 ,9960080 ,0019960 ,0000007

2 2000 0 997998 1000000 ,0019960 ,0009990 ,0010000 ,9980000 ,0000020 ,9960080 ,0316070 ,0004369

2 0 2000 997998 1000000 ,0019960 ,0009990 ,0010000 ,9980000 ,0000020 ,9960080 ,0316070 ,0004369

2 10 10 999978 1000000 ,1666667 ,0909091 ,1000000 ,9999800 ,0000020 ,9999600 ,1666667 ,0121521

2 20 0 999978 1000000 ,1666667 ,0909091 ,1000000 ,9999800 ,0000020 ,9999600 ,3015113 ,0397727

2 0 20 999978 1000000 ,1666667 ,0909091 ,1000000 ,9999800 ,0000020 ,9999600 ,3015113 ,0397727

10 1000 1000 997990 1000000 ,0099010 ,0049751 ,0050000 ,9980000 ,0000100 ,9960080 ,0099010 ,0000086

10 2000 0 997990 1000000 ,0099010 ,0049751 ,0050000 ,9980000 ,0000100 ,9960080 ,0705346 ,0004851

10 0 2000 997990 1000000 ,0099010 ,0049751 ,0050000 ,9980000 ,0000100 ,9960080 ,0705346 ,0004851

10 10 10 999970 1000000 ,5000000 ,3333333 ,5000000 ,9999800 ,0000100 ,9999600 ,5000000 ,0243750

10 20 0 999970 1000000 ,5000000 ,3333333 ,5000000 ,9999800 ,0000100 ,9999600 ,5773503 ,0325003

10 0 20 999970 1000000 ,5000000 ,3333333 ,5000000 ,9999800 ,0000100 ,9999600 ,5773503 ,0325003

100 1000 1000 997900 1000000 ,0909091 ,0476190 ,0500000 ,9980000 ,0001000 ,9960080 ,0909091 ,0000816

100 2000 0 997900 1000000 ,0909091 ,0476190 ,0500000 ,9980000 ,0001000 ,9960080 ,2182179 ,0004750

100 0 2000 997900 1000000 ,0909091 ,0476190 ,0500000 ,9980000 ,0001000 ,9960080 ,2182179 ,0004750

100 10 10 999880 1000000 ,9090909 ,8333333 ,0000000 ,9999800 ,0001000 ,9999600 ,9090909 ,0082446

100 20 0 999880 1000000 ,9090909 ,8333333 ,0000000 ,9999800 ,0001000 ,9999600 ,9128709 ,0083133

100 0 20 999880 1000000 ,9090909 ,8333333 ,0000000 ,9999800 ,0001000 ,9999600 ,9128709 ,0083133

100 100000 100000 799900 1000000 ,0009990 ,0004998 ,0005000 ,8000000 ,0001000 ,6666667 ,0009990 ,0000012

Bilag 10 ‐ Eksempler på koforekomstdata Side 133

More magazines by this user
Similar magazines