06.11.2013 Aufrufe

Schwarmintelligenz und evolutionäre Algorithmen in ...

Schwarmintelligenz und evolutionäre Algorithmen in ...

Schwarmintelligenz und evolutionäre Algorithmen in ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

5 Evaluationsmethoden <strong>und</strong> Experimente<br />

Abbildung 5.2: E<strong>in</strong>e beispielhafte Abbildung zweier Wahrsche<strong>in</strong>lichkeitsverteilungen für relevante<br />

(rechts) <strong>und</strong> irrelevante Items (l<strong>in</strong>ks).<br />

liegen, desto besser kann das System zwischen Signal <strong>und</strong> Rauschen unterscheiden. In Recommendersytemen<br />

wird dem Benutzer typischerweise e<strong>in</strong>e absteigend sortierte Liste von<br />

Empfehlungen präsentiert, die dieser bis zu e<strong>in</strong>em gewissen Limit betrachtet. Dieses Limit<br />

kann e<strong>in</strong>e vom System festgelegte Begrenzung se<strong>in</strong> (Top-N Empfehlungen) oder auch vom<br />

Benutzer selbst festgelegt werden, beispielsweise wenn ihm die Top-5 Empfehlungen genügen.<br />

Für diesen cutoff Wert, wird e<strong>in</strong> neuer Recall berechnet, also die Anzahl der relevanten<br />

Items die dem Benutzer präsentiert werden. Dieser Wert entspricht der Fläche unter der relevanten<br />

Verteilung, rechts des cutoff. Der Fallout, also die Anzahl der irrelevanten Items die<br />

präsentiert werden, entspricht der Fläche unter der irrelevanten Verteilung, rechts des cutoff.<br />

Der Fallout ist def<strong>in</strong>iert als<br />

F = N is<br />

N i<br />

.<br />

E<strong>in</strong>e ROC Kurve ist e<strong>in</strong> Plot, der Recall gegen Fallout beschreibt, wobei jeder Punkt auf der<br />

Kurve für e<strong>in</strong>en anderen cutoff -Wert steht, siehe auch das Beispiel <strong>in</strong> Abbildung 5.3. Für e<strong>in</strong>en<br />

perfekten Schätzer würde die ROC Kurve zuerst ausschließlich nach oben zeigen bis 100%<br />

der relevanten Items behandelt wurden <strong>und</strong> dann e<strong>in</strong>e horizontale L<strong>in</strong>ie zeichen bis 100%<br />

irrelevante Items abgedeckt s<strong>in</strong>d. E<strong>in</strong> zufälliger Schätzer würde e<strong>in</strong>e W<strong>in</strong>kelhalbierende von<br />

l<strong>in</strong>ks unten nach rechts oben ziehen.<br />

5.2.4 Statistische Tests<br />

Die Resultate der e<strong>in</strong>zelnen Testläufe werden zusätzlich mit zwei statistischen Tests untersucht.<br />

Der Kruskal-Wallis-Test vergleicht, ob sich verschiedene unabhängige Stichproben h<strong>in</strong>sichtlich<br />

m<strong>in</strong>destens e<strong>in</strong>er ord<strong>in</strong>alskalierten Variable unterscheiden. Der Wilcoxon-Test prüft<br />

anhand von zwei gepaarten Stichproben die Gleichheit der zentralen Tendenz der zugr<strong>und</strong>e-<br />

66

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!