24.12.2012 Aufrufe

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

es gilt:<br />

2 Grundlagen<br />

k = Korpusgröße (Anzahl der Sätze insgesamt)<br />

kij = Anzahl der Sätze, in denen die Wörter ti und tj gem<strong>ein</strong>sam vorkommen<br />

ki = Anzahl der Sätze, in denen ti vorkommt<br />

kj = Anzahl der Sätze, in denen tj vorkommt<br />

Der Log-Likelihood-Ratio Test ist besonders in der Korpuslinguistik beliebt, da<br />

er Ereignisse mit geringer Häufigkeit ebenso bei der Gewichtung berücksichtigt,<br />

wie das häufige Auftreten von Ereignissen. Dies ist besonders bei niedrigen<br />

Korpushäufigkeiten, auch »sparse-data-problem« genannt, von großer Bedeutung,<br />

da hier <strong>ein</strong> besserer Vergleich der Signifikanz zwischen häufigen und seltenen Wörtern<br />

ermöglicht wird (vgl. [Manning und Schütze, 1999]).<br />

2.2.3 Assoziationsmaß nach psychologischen Lerngesetzen<br />

[Wettler et al., 1993] stellten <strong>ein</strong>e Formel zur Berechnung von freien Assoziationen<br />

vor, die sich nach den psychologischen Lerngesetzen rechtfertigen ließ.<br />

Durch diese Formel konnten »sich bei Versuchspersonen gefundenen freien Wortassoziationen<br />

all<strong>ein</strong> auf der Grundlage des Assoziationsgesetzes in guter Näherung<br />

vorhersagen lassen« [Rapp, 1996].<br />

Diese psychologische Assoziationsformel wurde wie folgt definiert<br />

[Wettler et al., 1993]:<br />

es gilt:<br />

Ãi,j = H(i&j)<br />

H(j) α<br />

Ãi,j = Assoziationsstärke zwischen den Wörtern i und j<br />

H(i&j) = Häufigkeit des gem<strong>ein</strong>samen Auftretens der Wörter i und j<br />

H(j) = Häufigkeit des Wortes j<br />

(2.4)<br />

Der Parameter α wurde von [Rapp, 1996] auf 0,68 festgelegt, da hier die<br />

besten Ergebnisse erzielt wurden.<br />

Eines der Schwächen dieser Formel ist, das Schätzfehler bei seltenen Wörtern starke<br />

Auswirkungen auf die berechneten Assoziationsstärken haben, da H(j) im Nenner<br />

steht [Rapp, 1996].<br />

Insgesamt zeigt sich, das sich die Assoziationsstärken auf unterschiedliche Weise<br />

berechnen lassen. Die Ergebnisse der berechneten Assoziationsstärken könnten als<br />

<strong>ein</strong>e Begriff-Begriff-Matrix betrachtet werden.<br />

Auf Grundlage dieser Matrix, können Ähnlichkeiten zwischen Begriffsvektoren <strong>durch</strong><br />

6

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!