Schwarmintelligenz und evolutionäre Algorithmen in ...

Empfehlungen

Info

5 Evaluationsmethoden und Experimente x 1 x 2 y Trainingsdatensatz Testdatensatz Abbildung 5.1: Aufteilung eines Datensatzes in Trainings- und Testdatensatz. Der in dieser Arbeit verwendete MovieLens Datensatz wird im Verhältnis 80/20 aufgeteilt. Der MAE eignet sich für die Evaluation von Recommender, bei denen die gesamte Genauigkeit des Systems wichtig ist. Das bedeutet, es werden alle unbewerteten Items eines Benutzers geschätzt und somit geht der gesamte Fehler über alle unbewertete Items in die Genauigkeit ein. Darunter sind für den Benutzer auch nicht relevante Items. Das sind Items, für die das Recommendersystem korrekt eine niedrige Bewertung bestimmt, zum Beispiel geschätzte Bewertungen < 4. Eine Variante des MAE ist der root mean square error, der die einzelnen Fehler vor der Summierung quadriert und somit größere Fehler mehr hervorhebt als der MAE: RMSE = √ ∑ n i=1 (r i − p i ) 2 n 5.2.3 Klassifizierende Genauigkeitsmaße Klassifizierende Genauigkeitsmaße messen die Häufigkeit, mit der ein Recommender korrekte oder falsche Empfehlungen gibt, also eine ja / nein Entscheidung auf Seiten des Benutzers vorliegt, ob die gegebene Empfehlung letztendlich korrekt oder falsch war. Die genaue Schätzung des numerischen Werts einer Bewertung (z.B. Film i geschätzt 3,7 Sterne) ist weniger wichtig, so lange dadurch keine Klassifizierungsfehler auftreten. Solche Maße sind Precision, Recall und ROC Kurven (receiver operating characteristic). Recall und Precision werden aus einer 2x2 Tabelle berechnet, für die die Items in die zwei Klassen relevant (N r ) und irrelevant (N i ) aufgeteilt werden müssen, siehe Tabelle 5.5. Weiterhin muss unterschieden werden, ob eine Item dem Benutzer als Empfehlung präsentiert wurde (N s ) oder nicht (N n ). Daraus ergeben sich 4 Kategorien, über die Precision P und Recall 64
5.2 Messverfahren und Qualitätsmaße Benutzer ID Film ID Rating 1 1 5 1 2 3 1 3 4 1 4 3 2 1 4 2 10 2 3 181 4 3 258 2 3 260 4 4 11 4 4 210 3 4 258 5 Benutzer ID Film ID Rating 1 6 ? 1 10 ? 1 12 ? 1 14 ? 2 13 ? 2 19 ? 3 245 ? 3 264 ? 3 272 ? 4 50 ? 4 260 ? 4 264 ? Tabelle 5.4: Ausschnitt aus einem Teil des Trainingsdatensatzes (links) und Testdatensatzes (rechts). Jeder Testdatensatz enthält eine Teilmenge der Bewertungen eines Users. Jeder User kommt in jedem Testdatensatz vor. Ausgewählt Nicht Ausgewählt Total Relevant Richtig positiv (N rs ) Falsch negativ (N rn ) N r Irrelevant Falsch positiv (N is ) Richtig negativ (N in ) N i Total N s N n N Tabelle 5.5: Aufteilung der Items in relevante und irrelevante Items sowie ausgewählte (dem Nutzer präsentierte) und nicht ausgewählte Items. R wie folgt definiert sind: P = N rs N s , R = N rs N r Precision gibt die Wahrscheinlichkeit an, mit der ein ausgewähltes Item relevant ist. Recall sagt, wie wahrscheinlich es ist, dass ein relevantes Item ausgewählt wird. Die Relevanz eines Items muss bestimmt werden. Herlocker et. al. [31] schlägt vor, dass die bisher bekannten Ratings eines Users in Trainings- und Testdatensätze aufgeteilt werden, der Algorithmus auf dem Trainingsdatensatz trainiert wird und dieser anschließend die Top- N Items aus dem Testdatensatz bestimmt. Wenn die Abweichung der echten Bewertung zu der vom Algorithmus geschätzten Bewertung hinreichend klein ist (kleiner als ein vorher festgelegtes ɛ), kann man das Items für diesen Nutzer als relevant ansehen. Die Wahl des ɛ ist problemspezifisch. ROC Kurven sind eine Alternative zu Recall und Precision. Das ROC Modell versucht zu messen, inwieweit das zugrunde liegende System zwischen Signal (Relevanz) und Rauschen (keine Relevanz) unterscheiden kann. Es wird angenommen, dass der Recommender jedem Item eine bestimmte Relevanz zuordnet, beispielsweise ob ein Item über einer bestimmten Bewertungspunktezahl liegt. Daraus entstehen zwei Verteilungen, siehe Abbildung 5.2. Die linke Verteilung gibt an, mit welcher Wahrscheinlichkeit das System ein gewisses Level an Relevanz für ein Item schätzt, dass in Wirklichkeit gar nicht relevant ist und die rechte Verteilung für Items, die wirklich relevant sind. Je weiter die beiden Verteilungen auseinander 65
Seite 1 und 2:
Fakultät für Ingenieurwissenschaf
Seite 3 und 4:
Inhaltsverzeichnis 1 Einleitung 1 1
Seite 5 und 6:
1 Einleitung In der heutigen Zeit w
Seite 7 und 8:
2 Recommendersysteme 2.1 Motivation
Seite 9 und 10:
2.3 Übersicht existierende Recomme
Seite 11 und 12:
2.3 Übersicht existierende Recomme
Seite 13 und 14:
2.4 Content-based Filtering Collabo
Seite 15 und 16:
2.5 Collaborative Filtering bewerte
Seite 17 und 18: 2.5 Collaborative Filtering und ¯r
Seite 19 und 20: 2.5 Collaborative Filtering Bei die
Seite 21 und 22: 2.5 Collaborative Filtering Benutze
Seite 23 und 24: 2.7 Überblick über die bisherige
Seite 25 und 26: 2.7 Überblick über die bisherige
Seite 27 und 28: 3 Schwarmintelligenz und evolution
Seite 29 und 30: eiden Chromosome gekreuzt werden, w
Seite 31 und 32: GA ES Typisches Kombinatorische Kon
Seite 33 und 34: Ansatz leitete den Schwarm ohne die
Seite 35 und 36: 3.1 Genetischer Algorithmus 1 BEGIN
Seite 37 und 38: 3.1 Genetischer Algorithmus 0 0 0 0
Seite 39 und 40: 3.2 Particle Swarm Optimization 3.2
Seite 41 und 42: 3.2 Particle Swarm Optimization Abb
Seite 43 und 44: 3.3 Invasive Weed Optimization aus
Seite 45 und 46: 3.3 Invasive Weed Optimization bede
Seite 47 und 48: 4 Recommender mit Schwarmintelligen
Seite 49 und 50: 4.3 Forschungsüberblick Recommende
Seite 51 und 52: 4.5 Particle Swarm Optimization Rec
Seite 57 und 58: 4.6 Genetic Algorithm Recommender (
Seite 63 und 64: 4.7 Invasive Weed Optimization Reco
Seite 65 und 66: 5 Evaluationsmethoden und Experimen
Seite 67: 5.2 Messverfahren und Qualitätsma
Seite 71 und 72: 5.3 Experimente True positive rate
Seite 73 und 74: 5.3 Experimente zelnen Features ent
Seite 75 und 76: 5.3 Experimente 1.2 1.1 Optimierte
Seite 77 und 78: 5.3 Experimente 0.71546 0.70665 0.7
Seite 79 und 80: 5.3 Experimente MAE (mean absolute
Seite 81 und 82: 5.3 Experimente -0.2 0.0 0.2 0.4 0.
Seite 83 und 84: 5.3 Experimente MAE (mean absolute
Seite 85 und 86: 5.3 Experimente -0.2 -0.1 0.0 0.1 0
Seite 87 und 88: 5.3 Experimente 1.2 1.1 Mutationswh
Seite 89 und 90: 5.3 Experimente -0.05 0.00 0.05 0.1
Seite 91 und 92: 5.3 Experimente 1.2 1.1 Mit FPS Ohn
Seite 93 und 94: 6 Diskussion der Ergebnisse In dies
Seite 95 und 96: 6.2 Diskussion IWO und Vergleich zu
Seite 97 und 98: 6.4 Diskussion der Evaluationsmetho
Seite 99 und 100: 6.5 Diskussion der experimentellen
Seite 105 und 106: 6.7 Ausblick Dies ist aber bei den
Seite 107 und 108: 7 Zusammenfassung der Hauptergebnis
Seite 109 und 110: Literaturverzeichnis [1] Adomaviciu
Seite 111 und 112: Literaturverzeichnis [28] Good, N.
Seite 113 und 114: Literaturverzeichnis ; Thrun, Sebas
Seite 115: Name: Matthias Schneider Matrikelnu
Alle anzeigen

Schwarmintelligenz und evolutionäre Algorithmen in ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?