24.12.2012 Aufrufe

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

Semantisches Clustering durch ein web-mining-basiertes Verfahren ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

3.1 Komponenten<br />

3 Das <strong>Verfahren</strong><br />

Begriffe<br />

Webressource<br />

Häufigkeiten Berechnung<br />

der<br />

Berechnung<br />

der<br />

Graph<br />

<strong>Clustering</strong><br />

Gruppen<br />

Assoziation Ähnlichkeit<br />

Abbildung 3.1: Komponenten des <strong>Verfahren</strong>s<br />

Das <strong>Verfahren</strong> lässt sich in drei Komponenten <strong>ein</strong>teilen:<br />

1. die Webressource – liefert die Worthäufigkeiten<br />

2. die Berechnungs-Komponente – berechnet die Beziehung der Wörter<br />

3. die <strong>Clustering</strong>-Komponente – teilt die Wörter in Gruppen <strong>ein</strong><br />

Die Berechnungs-Komponente bezieht die Worthäufigkeiten von der Webressource<br />

und führt darauf die Berechnung der Assoziationstärke <strong>durch</strong>. Nachdem die<br />

Ähnlichkeiten der Wörter <strong>durch</strong> diese Komponente bestimmt wurden, wird das<br />

Ergebnis an die <strong>Clustering</strong>-Komponente weitergegeben, die die Gruppierung der<br />

Begriffe <strong>durch</strong>führt.<br />

Im Folgenden werden die <strong>ein</strong>zelnen Komponenten und ihre Eigenschaften näher<br />

erklärt.<br />

3.2 Webressource<br />

Die Webressource liefert die Häufigkeiten für die darauf aufbauende Berechnung<br />

der Assoziationen. Es gibt verschiedene Möglichkeiten das Web als Datengrundlage<br />

zu verwenden (siehe Kapitel 2.4).<br />

Das hier vorgestellte <strong>Verfahren</strong> bezieht die Worthäufigkeiten direkt aus den Trefferanzahlen<br />

von Suchmaschinen, da <strong>ein</strong> Herunterladen und Anschließendes analysieren<br />

der Webseiten sehr zeitintensiv wäre. Zudem zeigten [Keller und Lapata, 2003]<br />

in ihrer Arbeit, dass Suchmaschinen-basierte Häufigkeiten <strong>ein</strong>e hohe Korrelation<br />

mit den Korpus-basierten Häufigkeiten hatten.<br />

In der vorliegenden Arbeit werden mehrere Suchmaschinen verwendet, um die<br />

verschiedene Datengrundlagen mit<strong>ein</strong>ander vergleichen zu können. Die verwendeten<br />

Suchmaschinen sind unter anderen Google und Bing, wobei jeweils über die<br />

bereitgestellte API auf die Suchergebnisse zugegriffen wird. Statt Yahoo wird<br />

Altavista verwendet, da Altavista seit März 2004 den Yahoo-Index benutzt (vgl.<br />

[Vaughan, 2006]), aber den Vorteil hat, dass der NEAR-Operator bereitgestellt wird<br />

(siehe 2.4). Zudem wird die etwas unbekanntere Suchmaschine Exalead verwendet,<br />

12

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!