Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Semantisches Clustering durch ein web-mining-basiertes Verfahren ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
5 Evaluation<br />
Aus <strong>ein</strong>er Gruppe mit den 3 Begriffen: Hund, Katze, Fisch würden sich beispielsweise<br />
drei Assoziationspaare ergeben: Hund ↔ Katze, Hund ↔ F isch,<br />
Katze ↔ F isch.<br />
Die Gruppen, die sich <strong>durch</strong> das Card-Sorting-Experiment gebildet haben, ergeben<br />
dabei die Menge an relevanten Assoziationspaaren. Die Ergebnisse des semantsichen<br />
<strong>Clustering</strong>s bilden die Menge an gefundenen Assoziationspaaren. Wobei auch nicht<br />
relevante Assoziationspaare enthalten s<strong>ein</strong> können. Aus der Schnittmenge beider<br />
Mengen ergeben sich die gefundenen relevanten Assoziationspaare.<br />
Aus den Betrag der Mengen lassen sich wie folgt die Maße Recall, Precision und<br />
F-Measure berechnen:<br />
Trefferquote:<br />
Recall =<br />
|{relevante Assoziationspaare} ∩ {gefundene Assoziationspaare}|<br />
|{relevante Assoziationspaare}|<br />
(5.1)<br />
Der Recall ist <strong>ein</strong>e Kennzahl für die Vollständigkeit und gibt an, wieviel Prozent<br />
der relevanten Assoziationspaare gefunden wurden.<br />
Genauigkeit:<br />
P recision =<br />
|{relevante Assoziationspaare} ∩ {gefundene Assoziationspaare}|<br />
|{gefundene Assoziationspaare}|<br />
(5.2)<br />
Die Precision gibt an, wieviel Prozent der gefundenen Assoziationspaare relevant<br />
sind und ist somit <strong>ein</strong>e Kennzahl für die Genauigkeit des <strong>Verfahren</strong>s.<br />
Harmonisches Mittel [Yang und Liu, 1999]:<br />
F − Measure =<br />
2 ∗ P recision ∗ Recall<br />
P recision + Recall<br />
(5.3)<br />
Das F-Measure wird als harmonisches Mittel aus Precision und Recall berechnet<br />
und beim Vergleich als Qualitätsmaß verwendet.<br />
27