24.12.2012 Aufrufe

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.5 Vorgehensweise<br />

3 Das <strong>Verfahren</strong><br />

Das hier vorgestellte <strong>Verfahren</strong> gruppiert automatisch Begriffe nach ihrer semantischen<br />

Ähnlichkeit (»semantisches <strong>Clustering</strong>«). Dazu wird wie folgt vorgegangen:<br />

Als Eingabe erhält das <strong>Verfahren</strong> <strong>ein</strong>e Liste von Begriffen und die Anzahl an Gruppen,<br />

die gebildet werden sollen.<br />

Im ersten Schritt werden die Einzelhäufigkeiten und Kookkurrenzhäufigkeiten der<br />

<strong>ein</strong>gegebenen Begriffe abgefragt. Dies geschieht <strong>durch</strong> Suchanfragen an die Webressource.<br />

Die daraufhin gelieferten Trefferangaben bilden die Häufigkeiten. Nach dem<br />

Durchlaufen aller Kombinationen von Begriffspaaren, ergibt sich <strong>ein</strong>e Begriff-Begriff-<br />

Kookkurrenzmatrix mit den jeweiligen Kookkurrenzhäufigkeiten.<br />

b1<br />

b2<br />

...<br />

bn<br />

b1<br />

cooc(b2,b1)<br />

...<br />

cooc(bn,b1)<br />

b2<br />

cooc(b1,b2)<br />

...<br />

cooc(bn,b2)<br />

Kookkurrenzmatrix<br />

...<br />

...<br />

...<br />

...<br />

bn<br />

cooc(b1,bn)<br />

cooc(b2,bn)<br />

...<br />

Assoziationsmaß<br />

b1<br />

b2<br />

...<br />

bn<br />

b1<br />

sig(b2,b1)<br />

...<br />

sig(bn,b1)<br />

b2<br />

sig(b1,b2)<br />

...<br />

sig(bn,b2)<br />

Assoziationsmatrix<br />

...<br />

...<br />

...<br />

...<br />

bn<br />

sig(b1,bn)<br />

sig(b2,bn)<br />

Abbildung 3.2: Berechnung der Assoziationsmatrix auf Grundlage der Kookkurrenzmatrix<br />

Aus der Kookkurrenzmatrix Matrix wird nun die Begriff-Begriff-Assoziationsmatrix<br />

berechnet (siehe Abb. 3.2), wobei die Einträge der Matrix die Assoziationsstärken<br />

zwischen den Begriffen darstellen. Bei der Berechnung werden die Häufigkeiten<br />

<strong>durch</strong> <strong>ein</strong> Assoziationsmaß in <strong>ein</strong>e Assoziationsstärke umgerechnet. Nachdem alle<br />

Assoziationsstärken berechnet wurden, werden die Einträge der Assoziationsmatrix<br />

entsprechend der Formel 3.2 normalisiert.<br />

b1<br />

b2<br />

...<br />

bn<br />

b1<br />

sig(b2,b1)<br />

...<br />

sig(bn,b1)<br />

b2<br />

sig(b1,b2)<br />

...<br />

sig(bn,b2)<br />

Assoziationsmatrix<br />

...<br />

...<br />

...<br />

...<br />

bn<br />

sig(b1,bn)<br />

sig(b2,bn)<br />

...<br />

Ähnlichkeitsmaß<br />

b1<br />

b2<br />

...<br />

bn<br />

b1<br />

sim(b2,b1)<br />

...<br />

sim(bn,b1)<br />

b2<br />

sim(b1,b2)<br />

...<br />

sim(bn,b2)<br />

Ähnlichkeitsmatrix<br />

...<br />

...<br />

...<br />

...<br />

...<br />

bn<br />

sim(b1,bn)<br />

sim(b2,bn)<br />

Abbildung 3.3: Berechnung der Ähnlichkeitsmatrix auf Grundlage der Assoziationsmatrix<br />

16<br />

...

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!