Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

Der vil i undersøgelsen blive anvendt statistiske metoder til at generalisere fra

stikprøver til en population. Der skal her gøres opmærksom på, at dette altid

gøres i forhold til den specifikke population, og ikke i forhold til en generel

population. Konklusionerne fra disse generaliseringer kan altså ikke uden

videre overføres til f.eks. en anden søgealgoritme eller en anden brugergruppe

eller videnskabeligt domæne.

I de følgende kapitler vil der løbende blive taget stilling til hvordan disse

kriterier om objektivitet, kvantitativitet og gentagelighed kan overføres til de

enkelte metoder, og hvilke konsekvenser dette har for metodevalget.

Valg af videnskabeligt domæne

Da udgangspunktet for indsamling af tags til query expansion er CiteULike,

en videnskabelig database, er det nærliggende at vælge et afgrænset,

videnskabeligt domæne for at fokusere undersøgelsen. Da CiteULike i sig selv

ikke er emnemæssigt afgrænset vil det dog være vigtigt også at medtage en

hvis mængde støj i datasættet, for på den måde at simulere de faktiske

forhold.

Som det fremgår af problemformuleringen har vi valgt det medicinske

domæne som hovedfokus ud fra følgende argumenter:

1. Det medicinske domæne har en meget stringent sprogbrug, i form af

f.eks. NLM’s MeSH tesaurus 3 . Undersøgelser har vist, at mange

forskere indenfor domænet selv anvender ord, der er identiske med

termer fra MeSH (Schneider, 2004), hvorfor vi håber på, at dette også i

nogen grad smitter af på tags, så det er muligt at kombinere på

forhånd anerkendte termer med de termer brugerne selv bruger.

2. Selvom CiteULike i princippet tillader alle videnskabelige områder, er

der nogle områder der er bedre repræsenteret end andre. Dette viser

sig for eksempel ved den tag cloud, der vises på CiteULikes startside.

Skyen viser de mest anvendte tags, og ved at variere deres

skriftstørrelse, viser den hvilke der anvendes allermest. Blandt de mest

frekvente tags findes f.eks. cancer, brain, cell, protein og genome 4 som

eksempler på det medicinske domæne. Andre domæner, som f.eks.

datalogi og informationsvidenskab er også fremtrædende.

3. For at konstruere en testdatabase, der med sikkerhed indeholder

dokumenter, der er relevante for brugernes søgeforespørgsler, og som

indeholder et passende datamateriale til at simulere støj, kræves der en

eksisterende database, der tillader udtræk af data på baggrund af

specifikke søgninger. Dette er tilfældet med PubMed 5 , der stiller de

bibliografiske data fra Medline til rådighed. PubMed tillader ikke blot

3 http://www.nlm.nih.gov/mesh/

4 På baggrund af CiteULike.orgs startside d. 10. Maj 2008

http://www.citeulike.org/

5 http://www.ncbi.nlm.nih.gov/sites/entrez/

5 ‐ Metode Side 21

More magazines by this user
Similar magazines