Speciale a03jean a03mitr 2008 - Forskning

pure.iva.dk

Speciale a03jean a03mitr 2008 - Forskning

Query expansion med sociale tags til forbedret ranking af søgeresultater Danmarks Biblioteksskole

forskning (Billerbeck & Zobel, 2006; Abdelali, Cowie, & Soliman, 2007; Willett,

2006; White & Marchionini, 2007).

4.2 Klyngeanalyse

Af Mikkel Just Tronhus

Ideen om at gruppere objekter er ældgammel. Lige så længe videnskab har

eksisteret har der været brug for disse grupperinger for at overskue samlinger

af objekter. Det har også været tilfældet indenfor informationsvidenskaben,

hvor særligt bibliotekerne har en lang tradition for at gruppere materialer

efter alle mulige forskellige kriterier. Der skete dog noget af en revolution

indenfor denne forskningsretning, da det med computerens invasion af

videnskaben pludselig blev muligt at gruppere mange flere objekter efter

mange flere forskellige parametre. I den forbindelse var det et problem, at

beskrivelsen af objekterne var usystematisk og ofte mangelfuld. Derfor

opfattes Gerald Salton og hans hold på Cornell University i IR‐forskningen

som en slags katalysatorer for den udvikling der kom til at ske i forlængelse af

computerens fremkomst. Det Salton og hans kolleger på Cornell i 1960ʹerne

gjorde, var at de opfattede informationsobjekter i en matematisk/datalogisk

tankegang, hvor en samling af objekter kunne beskrives objektivt efter på

forhånd definerede parametre (Salton, 1971). Denne vektorrumsmodel, omend

den ikke blev ʺopfundetʺ før langt senere (Dubin, 2004), ligger til grund for de

tanker van Rijsbergen og Jardine formulerede i 1971 i deres artikel ʺ The use

of hierarchical clustering in information retrievalʺ, hvor de formulerer

klyngehypotesen, der siger, at nært associerede dokumenter har en tendens til

at være relevante for de samme søgeforespørgsler (Jardine & van Rijsbergen,

1971; van Rijsbergen, 1979; Voorhees, 1985). Disse associationer kunne man

med vektorrumsmodellen og moderne computere identificere på mange

forskellige måder.

Disse måder at udforske objektrelationer blev et vigtigt fokus for IR‐

forskningen, og der opstod to parallelle forskningsretninger, den ene

beskæftigede sig med hierarkiske metoder og den anden med partitionelle

algoritmer. Forskellen på de to metoder er overordnet graden af kompleksitet

i selve databehandlingen. Hvor hierarkisk klyngeanalyse er ekstremt

processortungt på store datasamlinger, er partitionelle algoritmer som for

eksempel k‐means algoritmen langt mere effektive på store datamængder. K‐

means algoritmen og dens variationer er traditionelt blevet beskyldt for ikke

at levere lige så gode resultater som de hierarkiske metoder. Men denne

forskydning i performance mellem de to metoder er lige så stille blevet, om

ikke udvisket, så i det mindste udfordret, af resultater der viser gode

resultater gennem anvendelse af k‐means algoritmer (Steinbach, 2000).

En anden forgrening af klyngeanalyseforskningen har sit udspring i en artikel

af Scott Deerwester og hans kolleger fra 1990 (Deerwester, Dumais, Furnas,

Landauer, & Harshman, 1990), hvor forfatterne introducerer en måde at

overkomme de polysemi‐ og synonymi‐problemer som klyngealgoritmer har

4 ‐ Review Side 14

More magazines by this user
Similar magazines