Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

5.4.6 Evaluering af Klyngekvalitet

Af Jens Peter Andersen

Udover at undersøge klynger af tags anvendelighed til query expansion er det

denne undersøgelses formål at evaluere kvaliteten af de klynger, der er

fremkommet i løbet af undersøgelsen. Dette er defineret i

problemformuleringens tredje hypotese:

H3. Klynger dannet på baggrund af koforekomstanalyse af tags fra en

videnskabelig database består primært af termer med semantiske og

emnemæssige relationer.

Antallet af relationer i en klynge, der har en semantisk eller emnemæssig

værdi, mener vi er et tilstræbt objektivt udtryk for klyngens kvalitet, så længe

vurderingen foretages på baggrund af objektive kriterier.

Fremgangsmåden bliver, for hver enkel relation i en klynge at afgøre, om der

er tale om en semantisk/emnemæssig relation eller ej. Med semantiske

relationer forstås i denne sammenhæng synonymer og antonymer, og ved

emnemæssige relationer forstås relationer mellem to termer, der ikke har en

semantisk relation men emnemæssigt er tæt forbundet. De semantiske

relationer er desuden opdelt i to andre typer relationer, der her vil blive

betragtet som selvstændige typer, for at udvide forståelsen af de eksisterende

relationer, men som i sammenhæng med hypotesetests stadig vil blive

betragtet som semantiske relationer. Det drejer sig om frase‐relationer og

morfologiske relationer, hvor en frase‐relation eksisterer i det øjeblik, hvor to

termer med sikkerhed kan siges at udgøre en frase, og den morfologiske

relation opstår i det tilfælde, hvor to termer er forskellige udgaver af samme

leksem.

Det er især den emnemæssige vurdering der potentielt kan være problematisk

i forhold til idealet om objektivitet. Vi forventer i de fleste tilfælde at kunne

afgøre entydigt hvorvidt to termer er emnemæssigt relaterede, men der kan

forekomme tilfælde, hvor der er tvivl om styrken i den emnemæssige relation.

Der er dog ikke nogen måde at komme definitivt uden om denne problematik,

uden at involvere et omfattende antal ekspert‐brugere, hvilket vil være for

omfattende i denne sammenhæng, sammenlignet med hvor begrænset

problemet egentlig er. I stedet vil vi anvende tesauri (thesaurus.com 13 for

generelle termer, Medical Subject Headings (MeSH 14 ) for medicinske termer)

og opslagsværker (Wikipedia 15 ) for generelle begreber) i tvivlstilfælde. Hvis

der ikke i en af de valgte tesauri/opslagsværker eksisterer en emnemæssig

relation mellem de to termer, vil de ikke blive forbundet.

13 http://www.thesaurus.com/

14 http://www.nlm.nih.gov/mesh/

15 http://www.wikipedia.org/

5 ‐ Metode Side 59

More magazines by this user
Similar magazines