06.11.2013 Aufrufe

Schwarmintelligenz und evolutionäre Algorithmen in ...

Schwarmintelligenz und evolutionäre Algorithmen in ...

Schwarmintelligenz und evolutionäre Algorithmen in ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

5 Evaluationsmethoden <strong>und</strong> Experimente<br />

x 1 x 2 y Tra<strong>in</strong><strong>in</strong>gsdatensatz<br />

Testdatensatz<br />

Abbildung 5.1: Aufteilung e<strong>in</strong>es Datensatzes <strong>in</strong> Tra<strong>in</strong><strong>in</strong>gs- <strong>und</strong> Testdatensatz. Der <strong>in</strong> dieser<br />

Arbeit verwendete MovieLens Datensatz wird im Verhältnis 80/20 aufgeteilt.<br />

Der MAE eignet sich für die Evaluation von Recommender, bei denen die gesamte Genauigkeit<br />

des Systems wichtig ist. Das bedeutet, es werden alle unbewerteten Items e<strong>in</strong>es Benutzers<br />

geschätzt <strong>und</strong> somit geht der gesamte Fehler über alle unbewertete Items <strong>in</strong> die Genauigkeit<br />

e<strong>in</strong>. Darunter s<strong>in</strong>d für den Benutzer auch nicht relevante Items. Das s<strong>in</strong>d Items, für die das<br />

Recommendersystem korrekt e<strong>in</strong>e niedrige Bewertung bestimmt, zum Beispiel geschätzte Bewertungen<br />

< 4.<br />

E<strong>in</strong>e Variante des MAE ist der root mean square error, der die e<strong>in</strong>zelnen Fehler vor der Summierung<br />

quadriert <strong>und</strong> somit größere Fehler mehr hervorhebt als der MAE:<br />

RMSE =<br />

√<br />

∑ n i=1 (r i − p i ) 2<br />

n<br />

5.2.3 Klassifizierende Genauigkeitsmaße<br />

Klassifizierende Genauigkeitsmaße messen die Häufigkeit, mit der e<strong>in</strong> Recommender korrekte<br />

oder falsche Empfehlungen gibt, also e<strong>in</strong>e ja / ne<strong>in</strong> Entscheidung auf Seiten des Benutzers<br />

vorliegt, ob die gegebene Empfehlung letztendlich korrekt oder falsch war. Die genaue Schätzung<br />

des numerischen Werts e<strong>in</strong>er Bewertung (z.B. Film i geschätzt 3,7 Sterne) ist weniger<br />

wichtig, so lange dadurch ke<strong>in</strong>e Klassifizierungsfehler auftreten. Solche Maße s<strong>in</strong>d Precision,<br />

Recall <strong>und</strong> ROC Kurven (receiver operat<strong>in</strong>g characteristic).<br />

Recall <strong>und</strong> Precision werden aus e<strong>in</strong>er 2x2 Tabelle berechnet, für die die Items <strong>in</strong> die zwei<br />

Klassen relevant (N r ) <strong>und</strong> irrelevant (N i ) aufgeteilt werden müssen, siehe Tabelle 5.5. Weiterh<strong>in</strong><br />

muss unterschieden werden, ob e<strong>in</strong>e Item dem Benutzer als Empfehlung präsentiert<br />

wurde (N s ) oder nicht (N n ). Daraus ergeben sich 4 Kategorien, über die Precision P <strong>und</strong> Recall<br />

64

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!