Schwarmintelligenz und evolutionäre Algorithmen in ...

Fakultät für Ingenieurwissenschaften und Informatik 

Institut für Neuroinformatik 

Diplomarbeit 

Schwarmintelligenz und evolutionäre 

Algorithmen in Recommendersystemen 

Matthias Schneider 

vorgelegt am 

3. Mai 2010 

Gutachter 

Dr. Hans A. Kestler 

Prof. Dr. Günther Palm

Begleitende Webseite: www.matthias-schneider.org/diplomarbeit 

Der Quellcode, die Arbeit als PDF und weitere Materialien sind unter der oben genannten 

Adresse bereitgestellt. 

Fassung vom 3. Mai 2010 

Umschlagbild von Eric (etgeek), Flickr - Abgerufen am 30. März 2010. 

http://www.flickr.com/photos/tofsrud/4171421134/ 

Some rights reserved. 

This work is licensed under the Creative Commons Attribution-Noncommercial-No Derivative Works 

3.0 Germany License. To view a copy of this license, visit http://creativecommons.org/ 

licenses/by-nc-nd/3.0/de/ or send a letter to Creative Commons, 171 Second Street, Suite 300, 

San Francisco, California, 94105, USA.

Inhaltsverzeichnis 

1 Einleitung 1 

1.1 Motivation und Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

2 Recommendersysteme 3 

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

2.2 Basis-Recommendersystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

2.3 Übersicht existierende Recommendersysteme . . . . . . . . . . . . . . . . . . . . 5 

2.3.1 Einteilung der verschiedenen Verfahren . . . . . . . . . . . . . . . . . . . . 6 

2.4 Content-based Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.5 Collaborative Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.5.1 Memory-based Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.5.2 Item-based Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.5.3 Model-based Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.5.4 Latent Factor Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

2.6 Hybrid Filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.7 Überblick über die bisherige Forschung . . . . . . . . . . . . . . . . . . . . . . . . 18 

3 Schwarmintelligenz und evolutionäre Algorithmen 23 

3.1 Genetischer Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

3.2 Particle Swarm Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

3.3 Invasive Weed Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

4 Recommender mit Schwarmintelligenz und evolutionären Algorithmen 43 

4.1 Idee und Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

4.2 Ziel der vorgestellten Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

4.3 Forschungsüberblick Recommender mit EA und SI . . . . . . . . . . . . . . . . . 45 

4.4 Parallelisierung mit Clojure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

4.5 Particle Swarm Optimization Recommender (PSOREC) . . . . . . . . . . . . . . . 46 

4.5.1 Beschreibung des Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

4.5.2 Vorgeschlagene Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . 49 

4.6 Genetic Algorithm Recommender (GAREC) . . . . . . . . . . . . . . . . . . . . . 53 



4.6.3 Variante: Selbstanpassung der Mutationsschritte und Evolution Strategies 56 

4.7 Invasive Weed Optimization Recommender (IWOREC) . . . . . . . . . . . . . . . 58 


iii

Inhaltsverzeichnis 


5 Evaluationsmethoden und Experimente 61 

5.1 Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

5.2 Messverfahren und Qualitätsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

5.2.1 Trainings- und Testdatensatz . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

5.2.2 Vorhersagende Genauigkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . 63 

5.2.3 Klassifizierende Genauigkeitsmaße . . . . . . . . . . . . . . . . . . . . . . 64 

5.2.4 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 

5.3 Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

5.3.1 Resultat Abstandsmaße ohne Optimierung . . . . . . . . . . . . . . . . . . 68 

5.3.2 Resultat exemplarischer Fitnessverlauf . . . . . . . . . . . . . . . . . . . . 69 

5.3.3 Resultate PSOREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

5.3.4 Resultate GAREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

5.3.5 Resultate IWOREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

6 Diskussion der Ergebnisse 89 

6.1 Diskussion Recommendersysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

6.1.1 Content-based filtering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

6.1.2 Collaborative-based filtering . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

6.2 Diskussion IWO und Vergleich zu GA / ES . . . . . . . . . . . . . . . . . . . . . . 90 

6.2.1 Verwandtschaft zu Evolution Strategies . . . . . . . . . . . . . . . . . . . . 91 

6.3 Parallelisierung mit Clojure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 

6.4 Diskussion der Evaluationsmethoden . . . . . . . . . . . . . . . . . . . . . . . . . 93 

6.5 Diskussion der experimentellen Resultate . . . . . . . . . . . . . . . . . . . . . . . 95 

6.5.1 Resultat Abstandsmaße ohne Optimierung . . . . . . . . . . . . . . . . . . 95 

6.5.2 Resultat exemplarischer Fitnessverlauf . . . . . . . . . . . . . . . . . . . . 95 

6.5.3 Diskussion der PSOREC Resultate . . . . . . . . . . . . . . . . . . . . . . . 95 

6.5.4 Diskussion der GAREC Resultate . . . . . . . . . . . . . . . . . . . . . . . 98 

6.5.5 Diskussion der IWOREC Resultate . . . . . . . . . . . . . . . . . . . . . . . 99 

6.5.6 Zusammenfassung der Experimente . . . . . . . . . . . . . . . . . . . . . . 100 

6.6 Weitere Erkenntnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

6.7 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

7 Zusammenfassung der Hauptergebnisse 103 

Literaturverzeichnis 105 

iv

1 Einleitung 

In der heutigen Zeit wird man mit einer großen Menge von Angeboten zu Produkten und 

Dienstleistungen konfrontiert. Man findet sich häufig in der Situation, Entscheidungen ohne 

ausreichend viele Informationen treffen zu müssen. Im alltäglichen Leben treffen wir diese 

Entscheidungen auf Basis von Empfehlungen von Freunden, durch Mund zu Mund Propaganda, 

durch Testberichte in Fachmagazinen oder durch allgemeine Ratgeber zu den jeweiligen 

Themen. 

Recommendersysteme unterstützen einen Konsumenten bei dieser Entscheidung, indem die 

Kaufgewohnheiten des einzelnen Konsumenten sowie die der anderen Konsumenten analysiert 

werden um persönliche Empfehlungen für den Einzelnen zu erstellen. Dabei wird auf 

eine Vielzahl an Methoden zurückgegriffen, die gute und verlässliche Empfehlungen generieren 

sollen. Die Zufriedenheit des Konsumenten ist von großer Bedeutung, da die Toleranz 

für schlechte oder unpassende Empfehlungen sehr niedrig ist. 

Das rasante Wachstum des Internets und die steigende Bereitschaft der Nutzer, Inhalte und 

Informationen zu erstellen, führt zu einer großen Menge an Daten, die einen detaillierten Einblick 

in die persönlichen Vorlieben, Erfahrungen und Verhaltensweisen der Nutzer gewähren. 

Die Analyse dieser Daten, das Ableiten und Interpretieren der Verhaltensmuster der Benutzer 

und die Empfehlung oder Vorhersage von zukünftigen Aktionen sollen in dieser Arbeit 

untersucht werden. 

1.1 Motivation und Zielsetzung 

Recommendersysteme sind in der aktuellen Forschung ein sehr aktives Gebiet, das in der 

zweiten Hälfte der 1990er stark angewachsen ist und in den letzten Jahren wiederholt Aufmerksamkeit 

bekommen hat. Auch Schwarmintelligenz und evolutionäre Algorithmen bleiben 

ein aktives Forschungsfeld [23]. In dieser Arbeit soll untersucht werden, inwieweit beide 

Bereiche verbunden werden können um bessere, performantere und persönlichere Empfehlungen 

zu erzeugen. 

Recommendersysteme können mit Methoden der Schwarmintelligenz (SI) und evolutionären 

Algorithmen (EA) erweitert werden, um klassische deterministische Optimierungsverfahren 

(etwa lokale Suche, simulated annealing oder Gradientenaufstieg) zu ersetzen. Auch die Einbeziehung 

von erweiterten Daten über die Benutzer, statt sich nur auf die bisherigen Bewertungen 

zu beziehen, sind mit SI und EA möglich. Diese Verfahren ersetzen dabei nicht die 

klassischen Verfahren der Recommendersysteme, sondern stellen Erweiterungen und Ergänzungen 

dar. 

1

1 Einleitung 

Das Ziel dieser Arbeit soll die Untersuchung bestehender Recommendersysteme und Recommendersysteme 

mit SI und EA sein, dabei den möglichen Einsatz von SI- und EA- 

Erweiterungen zu beschreiben und diese Verfahren entsprechend zu implementieren und 

zu evaluieren. Eigene Verbesserungen und Erweiterungen der bestehenden Verfahren sollen 

zusätzlich entwickelt werden. 

1.2 Aufbau der Arbeit 

In Kapitel 2 werden die bisherigen Forschungen zu Recommendersystemen besprochen und 

eine grobe Einteilung der Verfahren vorgenommen. Es wird ein generisches Recommendersystem 

als Basis aller folgenden Verfahren vorgestellt, anschließend werden die konkreten 

Verfahren im Detail formell erläutert. 

Kapitel 3 gibt eine Übersicht über die Methoden der Schwarmintelligenz und evolutionären 

Algorithmen sowie eine kurzer Vergleich mit verwandten Methoden und deren Eigenschaften. 

Kapitel 4 beschreibt drei um Schwarmintelligenz und evolutionäre Algorithmen erweiterte 

Recommendersysteme, bespricht deren Eigenschaften und die Auswirkungen auf die Empfehlungsqualität. 

Zusätzlich werden eigene Verbesserungen und Erweiterungen vorgestellt. 

In Kapitel 5 werden die vorgestellten Verfahren experimentell untersucht und eine Evaluation 

der Ergebnisse vorgestellt. Es wird parallel auf die Methoden der Evaluation und deren Eignung 

in Recommendersystemen eingegangen, sowie eine kurze Besprechung der praktischen 

Implementierung gegeben. 

Kapitel 6 diskutiert die Ergebnisse dieser Arbeit und gibt einen Ausblick auf weitere Forschungsmöglichkeiten. 

In Kapitel 7 werden in kompakter Form die Hauptergebnisse dieser Arbeit zusammengefasst. 

Anmerkung Im Folgenden werden die englischen Begriffe User und Item synonym für Benutzer 

und Objekt/Gegenstand verwendet. Auch der englische Begriff rating wird an manchen 

stellen für Bewertungen verwendet. Viele englische Begriffe für Fachgebiete oder Forschungsgegenstände 

werden nicht übersetzt, sondern hervorgehoben in ihrem englischen Original 

verwendet. Wo es möglich und sinnvoll ist, werden jedoch deutsche Übersetzungen 

verwendet. 

2

2 Recommendersysteme 

2.1 Motivation 

In den letzten zwei Jahrzehnten ist ein Wachstum an Informationsquellen und daraus resultierenden 

Informationen in Kommunikationssystemen, wie etwa dem Internet, beobachtet 

worden. Weit über 90% der weltweit verfügbaren Informationen sind digital vorhanden und 

übersteigen, nach Schätzungen, im Jahr 2010 die Grenze von 1000 Exabytes (1 Billion Gigabyte) 

[17, 25]. Rund 1,5 Milliarden Menschen haben ständigen Zugriff auf das Internet und 

geben täglich ca. 10 Milliarden Suchanfragen ab. Dieser stetige Wachstum macht es für den 

Einzelnen immer schwieriger für ihn relevante Informationen, Produkte und Wissen zu finden. 

Recommendersyteme sind in den letzten Jahren zu einer Lösung dieses Informationsüberflusses 

herangewachsen. Sie bieten den Benutzern von Informationssystemen Empfehlungen 

an, welche Informationen oder Produkte für sie relevant sein könnten und orientieren sich 

dabei am bisherigen Verhalten dieser Personen. Diese personalisierten Empfehlungen verbessern 

die Kundenzufriedenheit erheblich [68, 41, 79]. Vor allem e-commerce Dienstleister 

wie Amazon.com oder Netflix verwenden Empfehlungssysteme als verkaufsförderndes Mittel 

und nennen diese einen wichtigen Bestandteil ihres Verkaufskonzepts [68]. 

2.2 Basis-Recommendersystem 

Es folgt eine formelle Beschreibung eines generischen Recommendersystems. 

Ein Recommendersystem erstellt geschätzte Bewertungen für einzelne Items (z.B. Filme, Webseiten 

oder Bücher), die ein Benutzer bisher noch nicht bewertet hat. Dieser Benutzer wird im 

Folgenden auch der aktive Benutzer genannt. Die typische Eingabe ist eine User-Item-Matrix, 

die die jeweiligen Ratings der Benutzer auf die Items enthält oder eine Item-Features-Matrix, 

die die Items über die Features beschreiben. Siehe dazu Abbildung 2.2 und Abbildung 2.3. 

Sei U die Menge aller Benutzer und sei I die Menge aller Items und sei r eine Bewertungsfunktion, 

die die Bedeutung (oder Bewertung) eines Items für den Nutzer bestimmt: 

r : U × I → R, wobei R eine vollständig geordnete Menge ist, beispielsweise natürliche oder 

reelle Zahlen in einem bestimmten Bereich (z.B. eine Bewertung zwischen 1 und 5). Dann 

soll für jeden Nutzer u ∈ U ein Item i ′ ∈ I gefunden werden, dass die Bewertungsfunktion 

maximiert: 

∀u ∈ U, i u ′ = arg max r(u, i). 

i∈I 

3


Abbildung 2.1: Ein vereinfachtes kollaboratives und benutzerorientiertes Recommendersystem 

am Beispiel von Filmen. Der aktive Nutzer bevorzugt die drei Filme auf 

der linken Seite (dargestellt durch die Linie). Das System bestimmt die ähnlichsten 

Nutzer für den aktiven Benutzer (Mitte). Das sind die Nutzer, die 

diese drei Filme auch bevorzugen. Das Recommendersystem bestimmt nun, 

welche weiteren Filme diese Nutzer bevorzugen, die der aktive Nutzer noch 

nicht kennt. In diesem Beispiel präferieren alle drei den Film 1 (Blade Runner), 

weshalb dieser an erster Stelle empfohlen wird. Film 4 wird von keinem 

Benutzer der Nachbarschaft empfohlen und ergibt daher keine Empfehlung. 

Film 2 stellt die zweitbeste Empfehlung dar, Film 3 die drittbeste. 

Die Hauptaufgabe eines Recommendersystems besteht darin, über die Bewertungsfunktion r 

die Bewertungen für alle noch nicht bewerteten Items eines oder mehrerer User zu schätzen. 

Daraus können Empfehlungen erstellt werden, in dem man die am besten bewerteten Items 

4

2.3 Übersicht existierende Recommendersysteme 

Items 

1 i j n 

1 

Users 

u 

m 

Input: User-Item-Matrix 

= nicht bewertete Items 

Recommender 

Geschätzte 

Bewertungen 

i und j für User u 

rating = 4 

rating = 3 

Abbildung 2.2: Das grundlegende Modell eines (kollaborativen) Recommendersystems. Die 

User-Item-Matrix enthält bewertete (leeres Feld) und nicht bewertete (⊘) 

Items der jeweiligen Benutzer. Der Recommender generiert aus diesen Daten 

die geschätzten Bewertungen der bisher nicht bewerteten Items. Hier am 

Beispiel des Benutzers u dargestellt. 

unter allen geschätzten Items auswählt. Es können Empfehlungen entweder nur für einen Benutzer 

erstellt werden, wenn dieser seine Empfehlungen anfordert (z.b. per Webseite). Oder 

ein System erstellt direkt, aber “offline” für alle Benutzer alle Empfehlungen für die jeweils 

bisher unbekannten Items. Letzteres wird bei Recommendern eingesetzt, die eine sehr große 

Anzahl an Items und Benutzer haben und eine Echtzeitberechnung (“online”) für eine große 

Anzahl an gleichzeitig aktiver Benutzer (z.B. ein großer Onlineshop oder Nachrichtenwebseite) 

nicht machbar ist. 

Um die vorhergesagte Bewertung eines Items zu bestimmen, werden Heuristiken oder Modelle 

aufgestellt und untersucht, die die Bewertungsfunktion definieren. Siehe dazu die folgenden 

Abschnitte. Diese Bewertungsfunktion wird über Qualitätsmaße wie dem mean square 

error (MSE), root mean square error (RMSE) oder mean absolut error (MAE) optimiert, um eine 

möglichst genaue Vorhersage über das Rating des Users für ein ihm bisher unbekanntes Item 

zu treffen. Siehe dazu Abschnitt 5.2.2. 

Die in diesem Abschnitt verwendeten Abkürzungen und Symbole werden im weiteren Verlauf 

der Arbeit wiederverwendet. Wenn der Kontext der Bewertungsfunktion eindeutig ist, 

wird statt r(u, i) auch r ui geschrieben. 


Im nächsten Abschnitt wird eine Übersicht über die verschiedenen Varianten von Recommendersystemen 

gegeben. Eine ausführliche Übersicht zu Forschungen, die Schwarmintelligenz 

5


u 

Items 

1 n 

1 

Recommender 

Geschätzte 

Bewertung 

von User u 

für Item j 

User 

f 

Input: User und Item-Features-Matrix 

j 

Abbildung 2.3: Das grundlegende Modell eines (inhalts-basierten) Recommendersystems. Die 

Item-Feature-Matrix enthält Items dargestellt durch ihre Features f . Der Recommender 

erstellt mit dieser Matrix und dem aktiven Benutzer u die geschätzte 

Bewertung des bisher nicht vom aktiven Benutzer bewerteten Items 

j. 

Star Wars Life of Brian Big Fish Pulp Fiction 

Alice 4 2 5 ⊘ 

Toby 2 ⊘ 4 4 

Charles 1 2 5 4 

Dolly ⊘ 3 4 3 

Tabelle 2.1: Ein Ausschnitt einer User-Item-Matrix mit Bewertungen für Filme auf einer Skala 

von 1 bis 5. Die von den Users nicht bewerteten Filme sind mit ⊘ gekennzeichnet. 

und evolutionäre Algorithmen in Recommendersystemen behandeln, wird in Kapitel 4 gegeben. 

2.3.1 Einteilung der verschiedenen Verfahren 

Recommendersysteme können in drei Kategorien eingeteilt werden [1]: 

• Inhalts-basiertes filtern (content-based filtering) 

Bei diesem Verfahren werden Profile für die Benutzer und/oder die Items angelegt um 

ihre Eigenschaften zu charakterisieren. Beispielsweise kann ein Film die Eigenschaften 

Genre, Einspielergebnis oder mitwirkende Schauspieler enthalten. Für die Erstellung 

solcher Profile sind oft externe Informationen notwendig, die von Experten manuell 

erstellt werden müssen [58, 57]. Wenn ein Profil eines Items mit einem Profil eines Nutzers, 

der dieses für sich selbst mit seinen eigenen Vorlieben gefüllt hat, übereinstimmt, 

wird eine Empfehlung für dieses Item abgegeben. 

• Kollaboratives filtern (collaborative filtering) 

Für dieses Verfahren werden in der Vergangenheit abgegebene Bewertungen von Benut- 

6


zern für Items als Input des Verfahrens verwendet, siehe Tabelle 2.1. Für einen Benutzer 

werden andere Benutzer gesucht, welche die gleichen Filme wie dieser Benutzer bewertet 

haben und in dieser Bewertung auch übereinstimmen. Anhand dieser Nachbarschaft 

werden für den aktiven Nutzer Bewertungen für Items erstellt, die dieser noch nicht bewertet 

hat [29, 71, 59]. 

• Hybrides filtern (hybrid filtering) 

Inhalts-basierte Filtermethoden und kollaborative Filtermethoden werden zu einem Modell 

kombiniert. Folgende Varianten sind vorgeschlagen worden [1]: 

1. Getrennte Implementierung von kollaborativen und inhalts-basierten Methoden 

mit anschließender Kombination der Ergebnisse. 

2. Verwendung von klassischen inhalts-basierten Methoden (Itemprofile) in kollaborative 

Verfahren. 

3. Verwendung von klassischen kollaborativen Methoden (Benutzernachbarschaft) in 

inhalts-basierten Verfahren. 

4. Ein vereinigendes Modell, dass beide Ansätze auf eine neue und nicht in die obigen 

Kategorien passende Art umsetzt. 

Der Begriff filtering wird in der Literatur oft synonym zu recommender systems verwendet. Die 

ersten Forschungen zu Recommendersystemen [26] haben diesen Begriff geprägt. 

Abbildung 2.4 und die Tabellen 2.2 und 

Varianten der Recommendersysteme. 

2.3 geben eine Übersicht über die verschiedenen 

Content-based Methode Input Output 

Heuristische Bestimmung ähnlicher, Items als Vektoren, Bewertung für 

Methoden bewerteter Items zu Features beschreiben unbekanntes 

einem unbekannten Item, das Item. Item 

Schätzung der Bewertung Benutzer per 

anhand dieser Gruppe. Vektor beschrieben. 

(z.B. Mittelwert der 

bewerteten Items) 

Klassifizierung Bayes’scher Items als Vektoren, Einteilung in 

Klassifikator, Features beschreiben relevante oder 

Bestimmung der Whkt., das Item. irrelevante Klasse 

ob ein Item relevant Benutzer per 

ist oder nicht. 

Vektor beschrieben. 

Maschinelles Clustering, Items als Vektoren, Einteilung in 

Lernen Entscheidungsbäume, Features beschreiben Gruppen. 

oder künstl. neuronale das Item. Jede Gruppe 

Netze Benutzer per gibt eine 

Vektor beschrieben. Bewertungsmöglichkeit 

an 

Tabelle 2.2: Übersicht der content-based Verfahren. 

7


Latent 

Factor 

basierend 

Kombinierte 

Bewertungen 

Item 

basierend 

Content 

in Kollaborativ 

Collaborative 

Filtering 

Recommender 

Systeme 

Hybrid 


Modell 

basierend 

Kollaborativ 

in Content 

Memory 

basierend 

Vereintes 

Modell 

Content 


Maschinelles 

Lernen 

Heuristiken 

Bayes’scher 

Klassifikator 

Abbildung 2.4: Einteilung der verschiedenen Varianten von Recommendersystemen. 

2.4 Content-based Filtering 

In inhalts-basierten Recommendersystemen wird die Bewertung eines Items über die Bewertungen 

von anderen ähnlichen Items geschätzt, die der User in der Vergangenheit bewertet 

hat, siehe Abbildung 2.5. Formell ausgedrückt, die Bewertung r ui des Users u für Item i ergibt 

sich aus den Bewertungen r uik , die der User den Items i k ∈ I, die ähnlich zu Item i sind, 

gegeben hat. 

Das inhalts-basierte System versucht Gemeinsamkeiten zwischen den Items zu finden, die 

der User bisher mit hohen Ratings bewertet hat. Eine Möglichkeit um eine Beschreibung der 

Items zu erstellen, ist die Verarbeitung der wichtigsten Wörter (keywords) dieser Items bzw. 

Dokumente, um damit die jeweiligen Items zu charakterisieren. Formal kann dies wie folgt 

ausgedrückt werden: 

Sei profile(i) das Profil eines Items, d.h. eine Menge von Attributen die es beschreiben. Diese 

Attribute werden bei textuellen Systemen durch die Analyse der wichtigsten Wörter des 

Dokuments erzeugt [4, 57, 58]. Die Bedeutung eines keyword wird über das term frequency / 

inverse document frequency (TF/IDF) Verfahren bestimmt: 

8

2.4 Content-based Filtering 

Collaborative Methode Input Output 

Memory-based Bestimmung ähnlicher User-Item Bewertung für 

Benutzer zum aktiven Matrix unbekannte 

Benutzer per k-nearest 

Items des 

neighbor. Schätzung 

aktiven Benutzers 

der Bewertung anhand 

dieser Gruppe. 

(z.B. Mittelwert der 

Ratings) 

Item-based Bestimmung ähnlicher, User-Item Bewertung für 

gemeinsam bewerteter Matrix unbekannte 

Items und Berechnung 

Items des 

der jeweiligen Ab- 

aktiven Benutzers 

stände und Bestimmung 

der Nachbarschaft 

(k-nearest neighbor) 

Model-based Clustering in Gruppen, User-Item Items werden in 

oder per Bayes’scher Matrix Bewertungsgruppen 

Klassifikatoren die 

eingeteilt (Cluster) 

Bestimmung der wahr-, 

scheinlichen Bewertung 

oder die Bewertung 

mit der höchsten 

Whkt. wird 

ausgegeben (Bayes) 

Tabelle 2.3: Übersicht der collaborative-based Verfahren. 

Sei d j ein gegebenes Dokument oder Item und k i ein keyword in d j . Die normalisierte Häufigkeit 

des Auftretens dieses keywords ist definiert als 

TF i,j = 

n i,j 

∑ k n k,j 

mit n i,j als die gesamte Anzahl des Auftretens von k i und der Zähler als Summe aller Auftrittshäufigkeiten 

aller keywords. Jedoch sind keywords, die in vielen Dokumenten auftreten, 

nicht nützlich für die Unterscheidung von Dokumenten. Daher wird die inverse document 

frequency (IDF) in Kombination mit TF genutzt. IDF ist definiert als 

IDF i = log N n i 

mit N für die gesamte Anzahl aller Dokumente und n i als Anzahl der Dokumente, in der k i 

auftritt. Das TDF/IDF-Gewicht für keyword k i ist definiert als 

w i,j = TF i,j × IDF i 

und das Profil eines Items i für ein Dokument d j als pro f ile(i) = (w 1,j , ..., w k,j ). 

Um nun bisher ungesehene Items einem User zu empfehlen, werden diese mit den bisher bewerteten 

Items verglichen. Dabei wird aus den Profilen der bekannten und bewerteten Items 

9


Ähnliche Items 

? 3 4 3 

unbewertes Item 

bewertete Items 

Recommender: 

? 

3,3 

Abbildung 2.5: Vereinfachte Darstellung eines Content-based Recommender. Zu einem bisher 

nicht bewerteten Item werden die ähnlichsten, bewerteten Items bestimmt und 

zum Beispiel der Mittelwert dieser Items als Bewertung übernommen. 

ein User-Profil pro f ile(u) = (w u,1 , ...w u,k ) erstellt, wobei jedes Gewicht w u,i die Wichtigkeit 

des keywords k i bestimmt. Dieses Profil gibt die Vorlieben des Benutzers wieder und kann auf 

verschiedenen Wegen erzeugt werden. Der Rocchio Algorithmus [62] beispielsweise bestimmt 

das Userprofil als Durchschnitt der Itemprofile, wohingegen auch Bayes’sche Klassifikatoren 

eingesetzt werden können [57]. Eine weitere Möglichkeit ist die Anwendung des Winnow- 

Algorithmus [56]. 

Die Bewertungsfunktion r ui ergibt sich nun als 

r ui = score(pro f ile(u), pro f ile(i)), 

mit score als beliebige Funktion, die aus den beiden Argumenten eine Bewertung erstellt. Dabei 

werden die Profile der Benutzer als Gewichtsvektoren dargestellt, wobei die Gewichte für 

die einzelnen keywords stehen. Es können daher heuristische Bewertungen verwendet werden, 

um die Ähnlichkeit zwischen den Vektoren zu bestimmen, so zum Beispiel die Kosinus- 

Ähnlichkeit: 

r(u, i) = cos( ⃗w u , ⃗w i ) = 

⃗w u · ⃗w i 

‖ ⃗w u ‖ 2 × ‖⃗w i ‖ 2 

= 

mit K als die gesamte Anzahl der keywords im System. 

∑ K x=1 w x,uw x,i 

√ 

∑ K x=1 w2 x,u 

√ 

∑ K x=1 w2 x,i 

Weitere Techniken, denen nicht der bisher vorgestellte heuristische Ansatz zugrunde liegt, 

sind Bayes’sche Klassifikatoren und zahlreiche Methoden aus dem Bereich des maschinellen 

Lernen wie etwa Clustering, Entscheidungsbäume oder künstliche neuronale Netze. Pazzani 

et al. [57] verwenden beispielsweise ein naiver Bayes’scher Klassifikator, um Webseiten zu 

10

2.5 Collaborative Filtering 

bewerten. Diese werden in Klassen C i eingeteilt, z.B. relevant und nicht relevant, indem man 

die Wahrscheinlichkeiten berechnet zu welcher Klasse C i die Webseite p j gehört, gegeben die 

Keywords k 1j , · · · , k nj dieser Webseite: 

Pr(C i |k 1j & · · · &k nj ) (2.1) 

Weiter wird angenommen, dass die Schlüsselwörter einer Webseite unabhängig sind und 

daher die Wahrscheinlichkeiten proportional zu 

P(C i ) ∏ P(k x,j |C i ) 

x 

sind. Es können P(C i ) und P(k x,j |C i ) aus den zugrunde liegenden Daten des Trainingsdatensatzes 

bestimmt werden. Es wird die Wahrscheinlichkeit in Formel 2.1 für jede Webseite p j 

und jede Klasse C j berechnet und p j in eben die Klasse C j eingeteilt, die die höchste Wahrscheinlichkeit 

hat. 


Die grundlegende Idee hinter collaborative filtering ist die Empfehlung oder Vorhersage einer 

Bewertung eines Items auf Basis der Meinungen anderer Benutzer mit ähnlichem Geschmack, 

die dieses Item schon bewertet haben. Die Meinung über ein Item kann dabei entweder explizit 

oder implizit von den Benutzern eingeholt werden. Der Benutzer kann etwa ein explizites 

Rating auf einer Skala von 1 bis 5 abgeben oder das Rating wird aufgrund der impliziten 

Beobachtungen seines Kaufverhaltens, der Analyse von Logdateien oder des Klickverhalten 

auf einer Webseite erstellt. 

Formal ausgedrückt ergibt sich die geschätzte Bewertung r ui eines Users u für ein Item i aus 

den Bewertungen r uk i, die dem Item i von anderen Usern u k ∈ U gegeben wurde. Eine konkrete 

Implementierung eines Recommendersystems für Filme würde beispielsweise zuerst 

die User suchen, die den gleichen Filmgeschmack wie der aktive User haben (d.h. manche 

Filme ähnlich bewertet), um mit diesen Informationen den Film zu finden, der von dieser 

Nachbarschaft kollektiv am besten bewertet wurde. 

Im Folgenden werden die vier Hauptansätze der kollaborativen Filtermethoden vorgestellt. 

Die ersten drei Methoden, memory-based, item-based und model-based, werden in der Literatur 

häufig gemeinschaftlich als neighbourhood-Methoden bezeichnet. Der vierte Ansatz, latent 

factor models kann man als model-based Ansatz ansehen, er wird hier aber als eigenständige 

Methode behandelt. 

2.5.1 Memory-based Ansatz 

Dieser Ansatz arbeitet auf dem gesamten Datensatz, also der gesamten User-Item Matrix (siehe 

Tabelle 2.1). Es werden verschiedene Methoden angewandt, um die ähnlichsten Benutzer 

11


Item 

5 

3 

1 

5 

3 

Item 

5 

4 

3 

2 

? 

geschätzte 

Bewertung: 

1,33 

4 

Item 

4 

3 

4 

1 

Abbildung 2.6: Vereinfachter kollaborativer Recommender. Der aktive User links und seine 

Nachbarn haben eine ähnliche Meinung (hohe Bewertung) über die gemeinsam 

gesehenen Items (links). Die Nachbarn bewerten, hier vereinfacht als Mittelwert, 

das für den aktiven Benutzer unbekannte Item “?” mit dem Wert 1,33. 

Dieser Wert wird als Schätzung für die Bewertung des aktiven Benutzers angenommen. 

für einen gegebenen aktiven Benutzer zu finden. Mit dieser Menge und einer Aggregationsfunktion 

werden die bisher abgegebenen Bewertungen so kombiniert, dass eine Empfehlung 

für das unbekannte Item geschätzt werden kann. 

Es wird dafür eine Aggregation der Ratings der Nachbarn aufgestellt. Die Bewertungen der 

Nachbarn für das zu bewertende Item des aktiven Benutzers fließen in die folgenden Methoden 

mit ein und berechnen die Bewertung des unbekannten Items, mit sim als beliebige 

Abstandsfunktion zwischen zwei Benutzern, die im Folgenden besprochen werden: 

r ui = 1 

|Û| ∑ rûi (2.2) 

û∈Û 

r ui = k ∑ sim(u, û) × rûi (2.3) 

û∈Û 

r ui = ¯r u + k ∑ sim(u, û) × (rûi − ¯rû) (2.4) 

û∈Û 

mit k als Normalisierungsfaktor, in der Regel definiert als 

k = 

∑û∈Û 

1 

|sim(u, û)| 

12


und ¯r c als durchschnittliches Rating des Users u, definiert als 

¯r u = 1 

|I u | ∑ 

i∈I u 

r ui , mit I u = {i ∈ I|r ui ̸= ⊘}. 

Der einfachste Fall ist der Mittelwert aller Ratings, Formel 2.2. Jedoch ist die gebräuchlichste 

Art die Schätzung der Ratings eine gewichtete Summe der Mittelwerte, Formel 2.3. Die 

dabei verwendete Ähnlichkeit sim zweier User u und û, wird als Gewicht der Ratings verwendet. 

Je ähnlicher sich zwei User sind, desto mehr fließt das Rating dieses Nachbarn î 

in das geschätzte Rating ein. Dabei können die verschiedenen Recommender für sim eigene 

Ähnlichkeitsmaße definieren, so lange sie eine Normalisierung der Werte über den Faktor k 

durchführen. Jedoch berücksichtigt die gewichtete Summe nicht, dass verschiedene User die 

Ratingskala durchaus anders verwenden bzw. interpretieren. Zwei verschiedene User könnten 

ein Item unterschiedlich bewerten, obwohl sie subjektiv genau die gleiche Meinung von 

ihm haben. Daher bietet sich eine Modifikation der gewichteten Summe an, die diese Abweichungen 

korrigieren kann. Formel 2.4 tut dies und verwendet statt dem absoluten Betrag der 

Bewertung die Abweichung vom Mittelwert dieses Users. 

Für die Berechnung der Ähnlichkeit zweier User in kollaborativen Systemen wurden verschiedene 

Methoden entwickelt, die meist auf den Bewertungen der Items basieren, die beide 

User in der Vergangenheit bewertet haben. Zwei mögliche Maße sind der Pearson Korrelationskoeffizient 

und der Kosinus des Winkel zwischen zwei Vektoren (Benutzer). Seien u und 

v zwei verschiedene User und I uv = {i ∈ I|r ui ̸= ⊘ ∧ r vi ̸= ⊘} die Menge der Items, für die u 

und v beide Bewertungen abgegeben haben. Die Pearson Korrelation ist definiert als 

sim(u, v) = 

∑ i∈Iuv (r ui − ¯r u )(r vi − ¯r v ) 

√∑ i∈Iuv (r ui − ¯r u ) 2 ∑ i∈Iuv (r vi − ¯r v ) 2 (2.5) 

Das kosinus-basierte Ähnlichkeitsmaß, das die beiden User u und v als m-dimensionalen 

Vektor mit m = |I uv | beschreibt, wird bestimmt durch 

sim(u, v) = cos(⃗u,⃗v) = 

⃗u ·⃗v 

||⃗u|| 2 × ||⃗v|| 2 

= 

∑ i∈Iuv r ui r vi 

√ 

∑ i∈Iuv r 2 ui 

√ 

∑ i∈Iuv r 2 vi 

mit ⃗u · ⃗v als Skalarprodukt zwischen Vektor ⃗u und ⃗v. Ein weiterer Korrelationskoeffizient ist 

der Rangkorrelationskoeffizient von Spearman. Für eine Diskussion, siehe Kapitel 6. 

, 

2.5.2 Item-based Ansatz 

Ein Nachteil von memory-basierenden Ansätzen ist der große Aufwand für die Berechnung 

aller Abstände zwischen den Usern. Dies hat vor allem dann Gewicht, wenn sich die Eigenschaften 

der User häufig ändern, d.h. wenn die User beispielsweise oft viele Filme bewerten 

und sich somit ihre persönliche Nachbarschaft verändert. Item-basierende Verfahren [66] umgehen 

dieses Problem, indem sie die Ähnlichkeit zwischen Items und nicht zwischen Usern 

13


berechnen, da sich die Ähnlichkeiten zwischen Items (z.B. Filme, Bücher etc.) nicht bzw. 

nur sehr selten ändern. Daher muss diese Berechnung nur einmal durchgeführt werden und 

bleibt dann statisch im System bestehen. Mit geeigneten Datenstrukturen (z.B. Hashtabelle) 

kann eine Abfrage der Ähnlichkeit performant durchgeführt werden. 

Die Ähnlichkeitsberechnung der Items geschieht nicht wie bei den inhalts-basierten Methoden 

über die Profile der Items, sondern über die von anderen Usern abgegebenen Bewertungen 

über dieses Item. Es werden weiterhin, wie bei allen kollaborativen Verfahren, die 

anderen User des Systems in die Vorhersage der Bewertungen mit einbezogen. 

Der Algorithmus berechnet zu einem gegebenen Item i die k ähnlichsten Items I k = {i 1 , · · · i k } 

und deren Abstände zu i, S i = {s i1 , · · · s ik }. Das Rating für Item i wird dann als gewichtetes 

Mittel über all diese ähnlichen Bewertungen bestimmt. 

Für die Berechnung der Ähnlichkeit zweier Items i und j stellt Sarwar et al. [66] drei Varianten 

vor: Kosinusähnlichkeit, Pearson Korrelationskoeffizient und eine modifizierte Kosinusähnlichkeit. 

Es wird für jedes Itempaar die Menge U ij an Usern bestimmt, die beide Items in der 

Vergangenheit bewertet haben, siehe Abbildung 2.7. Implementieren kann man dies, indem 

man die Schnittmenge der Mengen U i und U j berechnet. 

1 

2 

Item 

1 2 i j n-1 n 

r r 

- 

r 

User 

u 

r 

r 

Co-rated 

Items 

m-1 

m 

r 

r 

r 

- 

Abbildung 2.7: Exemplarische Berechnung der Ähnlichkeit zweier Items. Es werden dabei 

nur die gemeinsam bewerteten Items betrachtet. Die Paare werden dabei aus 

verschiedenen Benutzern gewählt. 

Bei der Kosinus-basierten Ähnlichkeit werden die Items als m-dimensionale Vektoren (die 

Spalten in Grafik 2.7) aufgefasst. Als Ähnlichkeit wird, analog zum memory-based Verfahren, 

der Kosinuswinkel zwischen diesen beiden Vektoren angewandt. Es wird der komplette Vektor 

inklusive aller nicht bewerteten Items verwendet. Die fehlenden Bewertungen werden 

dabei durch den Wert 0 ersetzt. 

Für die Pearson-Korrelationskoeffizient ist es wichtig, dass mit der die Menge U ij und nicht 

mit der Menge I uv der Items gerechnet wird, die Formel 2.5 muss angepasst werden. 

14


Bei dieser Varianten der Kosinusähnlichkeit wird das Problem berücksichtigt, dass zwei User 

die Bewertungsskala anders interpretieren können. Es könnte beispielsweise sein, das ein 

User einen Film, den er “durchschnittlich” fand, auf einer Skala von 1 bis 5 die Wertung 3 

gibt, während ein anderer Benutzer genau die gleiche Meinung hat, aber die Wertung 2.5 

vergibt. Diese Abweichung kann man dadurch auffangen, indem von jedem Rating eines 

Users u ∈ U ij der Mittelwert alles Ratings dieses Users, ¯r u , abgezogen wird. 

Wenn man mit diesen Methoden die Ähnlichkeiten eines bisher unbewerteten Items i zu allen 

anderen Items bestimmt hat, kann man daraus die k-ähnlichsten Items auswählen. Damit, 

und den bisherigen Bewertungen des aktiven Users für diese ähnlichen Items, wird nun eine 

Schätzung für die Bewertung des Items i abgegeben. 

Es wird die Bewertung eines Users u für ein Item i über eine gewichtete Summe aller Bewertungen 

dieses Users auf die zu i ähnlichen Items S i = {s i1 , · · · s ik } bestimmt: 

r ui = ∑ s ij ∈S i 

(s ij × r uj ) 

∑ s∈Si |s ij | 

Es wird ausgewertet, wie der User die ähnlichen Items von i bisher bewertet hat und gewichtet 

diese Wertungen mit der vorab bestimmten Ähnlichkeit. Die Skalierung der Bewertung 

erfolgt dabei über die Summe aller Abstände. 

2.5.3 Model-based Ansatz 

Der model-based Ansatz beschreibt viele grundlegend unterschiedliche Ansätze. Es wird hier 

ein Verfahren mit zwei konkreten Umsetzungen exemplarisch vorgestellt. Für weitere Verfahren 

siehe die Übersicht in Abschnitt 2.7. 

Die Bestimmung der Bewertung eines Users u für ein Item i kann bei modell-basierten Verfahren 

auch als Wahrscheinlichkeit aufgefasst werden, mit der dieser User dieses Item bewerten 

würde. Diese Schätzung berechnet man aufgrund dessen, was man bisher über diesen User 

in Erfahrung gebracht hat. Formell kann man dies wie folgt beschreiben, wenn man eine 

diskrete Bewertungsskala von 0 bis m annimmt: 

p ui = E(r ui ) = 

m 

∑ Pr(r ui = i|r uk , k ∈ I i ) × i (2.6) 

i=0 

mit I i als Menge aller Items, die User i bisher bewertet hat. Es wird also die Wahrscheinlichkeit 

bestimmt, mit der der User u ein Item i mit einem bestimmten Wert bewertet, unter Berücksichtigung 

seiner bisherigen Bewertungen. Um nun diese Wahrscheinlichkeit zu bestimmen, 

können zwei alternative Modelle eingesetzt werden: Ein Modell basierend auf Clustering (und 

einem naiven Bayes’schen Klassifikators) und ein Modell basierend auf Bayes’schen Netzen. 

Ersteres clustert ähnliche User in verschiedene Gruppen. Für jeden User, dessen Gruppe bekannt 

ist, wird angenommen, dass seine Bewertungen für die Items unabhängig voneinander 

15


sind. Dieses Modell ist ein naiver Bayes’schen Klassifikator: 

Pr(C = u, r 1 · · · r n ) = Pr(C = u) 

n 

∏ 

i=1 

Pr(r i |C = u) 

Der linke Teil der Formel beschreibt die Wahrscheinlichkeit, dass ein User u einer Klasse C angehört 

und ein dazugehöriger kompletter Satz von Bewertungen. Die in Formel 2.6 benötigte 

Wahrscheinlichkeit lässt sich nun aus dieser Formel bestimmen. Die Parameter für den naiven 

Bayes-Klassifikator, Pr(U = u) und Pr(r i |C = u), werden mit einem Trainingsdatensatz 

geschätzt. 

Der zweite Modell, basiert auf Bayes’schen Netzen. Dabei ist jedes Item ein Knoten in einem 

Bayes’schen Netz und der Zustand jedes Knoten entspricht den möglichen Werten der Bewertungsskala 

für jedes Item. Es wird auf einem Trainingsdatensatz ein Algorithmus für das 

Lernen von Bayes’schen Netzen angewandt [14]. Im daraus resultierenden Netz hat jedes Item 

die Knoten als Eltern, die die besten Vorhersagen über die Bewertung dieses Items treffen. Ein 

Problem bei diesem Verfahren ist, dass ein User nur in genau ein Cluster eingeteilt werden 

kann [1]. Es ist aber möglich, dass ein User sich für zwei vollkommen andere Themengebiete 

gleich interessiert und eine solche Einteilung daher problematisch ist. 

2.5.4 Latent Factor Models 

Latent Factor Models schließen aus dem Bewertungsmuster der Benutzer per Lernverfahren auf 

mehrere Faktoren (ab ca. 20 bis über 100), die die Items und die User charakterisieren. Jedes 

Item und jeder User wird über einen Vektor charakterisiert, der diese Faktoren enthält. Jeder 

Faktor eines Items beschreibt dessen Eigenschaften, für den Fall von Filmen beispielsweise 

Faktoren wie Menge an Action, Tiefe der Charaktere, Comedy vs. Drama, Eignung für Kinder 

oder auch Faktoren, die direkt gar nicht vorherzusagen sind. Für den Benutzer misst jeder 

Faktor den Grad, wie sehr dieser an den entsprechenden Eigenschaften interessiert ist. 

Eine mögliche Durchführung von Latent Factor Models ist die Matrixfaktorisierung, die jedes 

Item und jeden Benutzer als Vektor von Faktoren darstellt [41]. Eine hohe Ähnlichkeit der 

beiden Vektoren führt zu einer Empfehlung. Viele Recommendersysteme arbeiten auf expliziten 

Bewertungen von anderen Items, beispielsweise wenn die Benutzer konkrete Werte 

für ein Item auf einer Skala von 1 bis 5 abgeben. Dies führt zu einer sehr spärlich gefüllten 

User-Item-Matrix, da die meisten Benutzer im Vergleich zur gesamten Anzahl an Items 

nur sehr wenige bewertet haben. Der Vorteil der Matrixfaktorisierung ist, dass auch implizite 

Bewertungen bzw. Präferenzen der Benutzer in das Modell mit einfließen können [41]. Dies 

wären z.B. Dinge wie die Art der besuchten Seiten einer Webseite, Muster bei der Suche, das 

Kaufverhalten der Benutzer, etc. 

Die Matrixfaktorisierung bildet Items und Benutzer in einen gemeinsamen latent factor Merkmalsraum 

ab, so dass man die Gemeinsamkeiten zwischen Items und Benutzern als Skalarprodukt 

der jeweiligen Vektoren beschreiben kann [39]. Die geschätzte Bewertung ˆr von 

16


Benutzer u für Item i berechnet sich als 

ˆr ui = q T i p u (2.7) 

mit q i als Vektor, der das Item mit den angesprochenen Faktoren beschreibt und p u als Vektor, 

der die Faktoren des Benutzers beinhaltet. Die Faktoren können dabei positiv wie negativ 

sein, je nach genauer Charakterisierung dieses Items bzw. Nutzers. 

Die eigentliche Schwierigkeit dieses Verfahrens ist die Abbildung des Verhaltens der Benutzer 

auf die Vektoren sowie das Lernen der Itemfaktoren in den Itemvektoren. Diese Beschreibungen 

der Items und Benutzer sind a priori nicht bekannt und müssen aus der User-Item- 

Matrix gelernt werden. Dieses Problem, das mit der Singulärwertszerlegung (SVD) verwandt 

ist, wird gelöst [41, 40, 39], indem die vorliegenden Bewertungen der Benutzer genommen 

werden, um damit direkt ein Modell des Benutzerverhaltens zu modellieren. Die Vektoren q i 

und p u werden erlernt, indem der regulierte, quadrierte Fehler in der Menge der bekannten 

Bewertungen minimiert wird: 

min 

∑ 

(u,i)∈K 

(r ui − q T i p u) 2 + λ(||q i || 2 + ||p u || 2 ) (2.8) 

mit K als Menge aller Item-Nutzer-Paare (u, i), für die eine Bewertung r ui bekannt ist. Das 

System lernt die bisherigen Bewertungen und soll daraus eine Verallgemeinerung für zukünftige 

Bewertungen ableiten. Es besteht jedoch die Gefahr der Überanpassung, so dass die 

Konstante λ den Grad der Regulierung kontrolliert und üblicherweise per Kreuzvalidierung 

bestimmt wird [41]. 

Eine Möglichkeit, die Gleichung 2.8 zu minimieren ist ein stochastischer Gradientenabstieg, 

der von Simon Funk 1 vorgeschlagen und mit großem Erfolg im Netflix Prize eingesetzt wurde 

(die Lösung der Gewinner setzt dieses Verfahren erfolgreich ein [38]). Für jeden Fall im 

Trainingsdatensatz schätzt das Verfahren die echte Bewertung r ui und bestimmt den entsprechenden 

Fehler e: 

e ui := r ui − q T i p u. 

Danach modifiziert es die Parameter um die Größenordnung γ in die entgegengesetzte Richtung 

des Gradienten: 

q i ← q i + γ · (e ui · p u − λ · q i ) (2.9) 

p u ← p u + γ · (e ui · q i − λ · p u ) (2.10) 

Dieses Verfahren bietet die Möglichkeit, zusätzliche implizite Informationsquellen mit einzubeziehen. 

Dafür kann die Gleichung 2.7 erweitert werden. Eine sinnvolle Erweiterung ist 

die Beachtung des systematischen Fehlers, der sich ergeben kann, wenn beispielsweise zwei 

Benutzer die Bewertungsskala verschieden interpretieren oder wenn es Items gibt, die allgemein 

besser als alle anderen Items bewertet werden, auch wenn sie dies objektiv gar nicht 

1 http://sifter.org/~simon/journal/20061211.html 

17


sind. Dieser Bias b lässt sich wie folgt schätzen: 

b ui = µ + b i + b u 

mit µ als globaler Mittelwert alles Bewertungen, b i als Abweichung des Items i vom Mittelwert, 

beispielsweise wenn ein Film immer 0.5 Sterne besser bewertet wird als der Durchschnitt 

aller Filme, und b u als Abweichung des Benutzers u vom Mittelwert, beispielsweise wenn ein 

kritische Benutzer immer 0.4 Sterne weniger vergibt als der Durchschnitt. Daraus ergibt sich 

folgende Modifikation der Formel 2.7: 

ˆr ui = µ + b i + b u + q T i p u (2.11) 

Das Modell minimiert nun den Fehler über die angepasste Funktion 

min 

∑ 

(u,i)∈K 

(r ui − µ − b u − b i − q T i p u) 2 + λ(||q i || 2 + ||p u || 2 + b 2 u + b 2 i ). 

2.6 Hybrid Filtering 

Stellvertretend für die große Anzahl an verschiedenen hybriden Ansätzen für Recommendersystemen 

wird im Folgenden das Verfahren von Claypool et al. [15] vorgestellt. 

Claypool et al. setzen einen klassischen memory-based kollaborativen Filter ein, siehe Abschnitt 

2.5.1, sowie einen inhalts-basierten Filter basierend auf keywords, ähnlich dem Abschnitt 

2.4 vorgestellten Verfahren. Beide Verfahren schätzen unabhängig voneinander die 

Bewertungen für ein Item, das der aktive User noch nicht gesehen hat. Anschließend werden 

beide Bewertungen linear miteinander kombiniert. Die Schwierigkeit liegt darin, die jeweiligen 

Gewichte w col und w cont zu finden, damit sich die kombinierte Bewertung r ui ergibt 

als 

r ui = w col · r colui + w cont · r contui 

mit r colui als Bewertung des kollaborativen Filter und r contui als Bewertung des inhalts-basierten 

Filter. Die Gewichte werden erstellt, indem zu Beginn mit gleichen Gewichten begonnen wird. 

Immer dann, wenn ein Benutzer ein neues Item bewertet und in den Datensatz einfügt, wird 

der absolute Fehler zwischen den beiden geschätzten Bewertung des Algorithmus und dieser 

echten Bewertung des Benutzer bestimmt und die Gewichte so angepasst, das der Fehler 

dazwischen minimiert wird. Die Gewichte werden per Benutzer erstellt, also jeder Benutzer 

hat sein eigenes Paar von Gewichten [15]. 

2.7 Überblick über die bisherige Forschung 

Die Wurzeln der Recommendersysteme sind in anderen Forschungsdisziplinen, namentlich 

in den Bereichen der cognitive science, approximation theory, information retrieval, forecasting theo- 

18


ries, management science und consumer choice modeling in marketing, zu finden [1]. Das Gebiet 

hat sich Mitte der 1990er zu einem eigenständigen Forschungsbereich entwickelt, nicht zuletzt 

aufgrund der kommerziellen Bedeutung und dem von nun an expliziten Fokus auf die 

Schätzung von Bewertungen. Die erste Veröffentlichung zu Recommendersystems wurden 

zuerst von Goldberg et al. [26] aufgegriffen und gilt unter dem Namen information tapestry als 

das erste Recommendersystem [60]. 

Die erste, im Allgemeinen akzeptierte Formulierung eines Recommendersystems ist in Hill 

et al. [32, 59, 71] zu finden. Ausgehend von diesem Model sind alle weiteren Verfahren abgeleitet. 

Die Anfänge der Forschung zu Content-based filtering finden sich in den Gebieten information 

retrieval [65] und information filtering [7]. In diesen Bereichen haben sich früh Methoden 

entwickelt, welche mit Textdokumenten arbeiten und bis heute von Bedeutung sind und sich 

daher auch auf die meisten inhalts-basierten Recommender niedergeschlagen haben. Auch 

in der Entwicklung von Suchmaschinen sind solche Methoden erfolgreich eingesetzt worden 

[11]. Eine wichtige Verbesserung der Ansätze der information retrieval und information filtering-Forschung 

ergab sich mit der Einbeziehung von explizit oder implizit erstellen Benutzerprofilen, 

die Informationen über die Vorlieben und Bedürfnisse der Benutzer enthielten. Ein 

Beispiel hierfür ist der Recommender Fab [4], welcher Webseiten empfiehlt, indem es die 100 

wichtigsten Wörter pro Webseiten bestimmt und daraus ein Profil der Webseite erstellt. 

Forschung zu Content-based Filtering Das erste Content-based Recommendersystem wurde 

von Pazzani et al. [57, 58] vorgeschlagen. Balabanovic et al. [4] und Lang [46] setzen den 

Roccio Algorithmus in einem [62] inhalts-basierten Recommendersystem ein. Littlestone et 

al. [47] entwickelte einen Algorithmus für Verfahren mit großer Anzahl von Features. 

Neben diesen klassischen Verfahren aus der information retrieval haben sich auch andere Techniken 

entwickelt, die aus den zugrunde liegenden Daten ein Modell erstellen, um daraus 

Empfehlungen zu berechnen. Bayes’sche Klassifikatoren setzt Mooney et al. [54] und Pazzani 

et al. [57] ein. Money et al. [54] empfiehlt bisher nicht bewertete Webseiten, indem es einen 

naiven Bayes’schen Klassifikator einsetzt, der als Input Webseiten, eingeteilt in die Kategorien 

“relevant” und “nicht relevant”, erhält und daraus Empfehlungen generiert. 

Eine bekannte Implementierung des content-based Ansatzes ist das Music Genome Project, 

welches vom Internetradio Pandora 2 genutzt wird. Musikexperten trainieren das Verfahren 

explizit, indem jeder Song mit hunderten von musikalischen Merkmalen charakterisiert wird. 

Der Benutzer bestimmt über die Weboberfläche seinen Musikgeschmack bzw. einen Künstler, 

und das System liefert einen persönlichen Radiostream zurück, der den Eingaben möglichst 

ähnlich ist. 

Forschung zu Collaborative Filtering Tapestry [26] wird oft als das erste Recommendersystem 

bezeichnet, wobei hier die ähnlichen User noch manuell bestimmt werden mussten. Erst 

2 http://www.pandora.com/ (Aus lizenzrechtlichen Gründen bisher nicht ausserhalb der USA verwendbar.) 

19


die folgenden Systeme, GroupLens [37], Video Recommender [32] und Ringo [71], automatisierten 

die Vorhersage der Bewertungen und gelten daher als die ersten echten kollaborativen 

Recommender. Aus heutiger Sicht sind beispielsweise die Systeme von Netflix, Amazon und 

Last.fm interessant. Netflix, eine Online-DVD-Videothek mit USA-weitem Distributionsnetzwerk, 

hat mit dem von ihnen ausgeschriebenen Netflix Prize 3 für viel Aufsehen im Forschungsbereich 

der Recommendersysteme gesorgt. Der mit 1 Million US-Dollar dotierte Preis 

für den Algorithmus, der den bisherigen Netflix Recommender um 10% verbessert, ging nach 

ca. 3 Jahren an ein international zusammengesetztes Forscherteam namens BellKor’s Pragmatic 

Chaos. Die Veröffentlichung und genaue Beschreibung ihres Algorithmus, eine Bedingung des 

Wettbewerbs, ist unter [38] zu finden. 

Breese et al. [29] teilte die kollaborativen Recommender in zwei Gebiete ein: Memory-based 

und model-based. Beispiele für reine memory-based Algorithmen und Verfahren sind in Breese 

et al. [29], Resnick et al. [59] und Shardanand et al. [71] zu finden. Alternativ schlägt Aggarwal 

et al. [2] einen Graph-basierten Recommender vor, der Vorteile beim Bestimmen der 

Nachbarschaften hat, da diese systembedingt schon vorliegen. Beispiele für Model-basierte Verfahren 

[29, 9, 33, 49, 55, 76] sind in der Literatur zahlreich zu finden. Neuronale Netze setzt 

Billsus et al. [9] ein, induction rule learning Basu et al. [5], lineare Klassifikatoren Zhang et al. 

[80], Bayes’sche Netzwerke und Clustering Breese et al. [29] und Verfahren basierend auf der 

Hauptkomponentenanalyse Goldberg et al. [27]. 

Aktuellere Forschung in diesem Bereich beschäftigt sich mehr und mehr mit komplexen 

probabilistischen Modellen für die Schätzung von Ratings. Beispielsweise betrachtet Shani 

et al [70] den Recommenderprozess als sequentielles Entscheidungsproblem und schlägt 

einen Markov-Entscheidungsprozess für die Erstellung der Bewertungen vor. Kumar et al [43] 

schlägt hingegen ein einfaches probabilistisches Modell vor, das demonstrieren soll, dass auch 

schon bei sehr wenigen Daten über jeden User sinnvolle Empfehlungen abgegeben werden 

können. 

Item-basierte Methoden schlägt Sarwar et al. in [66] vor. Von Desphande et al. [20] wird dieser 

Ansatz weiter verfolgt und bestätigt dort auch das Ergebnis von [66], dass Item-basierende 

Methoden unter Umständen qualitativ bessere Ergebnisse als User-basierende Methoden liefern. 

Forschung zu Hybrid Filtering Kombinierte Verfahren wendet Claypool et al. [15] an, indem 

Bewertungen verschiedener Recommender linearer kombiniert werden, während Pazzani 

et al. [56] eine Votierung verwendet. Das DailyLearner System [10] wählt das Rating aus, 

dass die größte Sicherheit unter allen Ratings bietet. 

Beispiele für inhalts-basierte Methoden in kollaborative Verfahren sind das Fab System [4] 

und das schon genannte Verfahren von Pazzani et al. [56]. Good et al. [28] schlägt ein System 

vor, das mit sogenannten filterbots arbeitet, die die Inhalte des Systems feiner untersuchen um 

damit die Empfehlungen zu verbessern. 

3 http://www.netflixprize.com/ 

20


Ein Beispiel für kollaborative Methoden in inhalts-basierten Verfahren ist Soboroff et al. [72], 

die latent semantic indexing verwenden, eine Technik aus der information retrieval um Dimensionalitäten 

zu reduzieren. 

Beispiele für Verfahren, die kollaborative und inhalts-basierte Recommender vereinigen sind 

Basu et al. [5], die einen regelbasierten Klassifikator einsetzen, der die Charakteristiken der 

Items und User berücksichtigt (z.B. Alter, Geschlecht, Genre von Filmen etc.). Ein Ansatz 

von Condliff et al. [18] nutzt Bayes’sche Regressionsmodelle mit Mischeffekten, um damit 

Markovketten und Monte-Carlo Methoden für die Einstellung von Parameter anzuwenden. 

Forschung zu Latent Factor Models Hofmann untersucht in [33] und [34] latent semantic 

models, mit denen er die Ratings des aktiven User als gemischtes System von Usergruppen 

modelliert, bei denen die User mit einer gewissen Wahrscheinlichkeit in einer der Gruppen 

teilnehmen. Koren [39] untersucht einen Vorschlag, der kollaborative Modelle und latent factor 

models kombiniert und die Empfehlungsqualität durch die Einbeziehung von explizitem und 

implizitem Benutzerfeedback empirisch verbessern kann. Weiter beschreibt Koren in [40] die 

Entwicklung eines Verfahrens, dass die zeitliche Verschiebung von Benutzerinteressen bei der 

Schätzung der Empfehlungen mit einbezieht. Beide von Koren vorgeschlagenen Verfahren 

wurden mit Erfolg beim Netfliz Prize eingesetzt. 

Weitere Entwicklungen im Forschungsbereich der Recommendersysteme In den letzten 

Jahren hat sich die Forschung zu Recommendersystemen und allen angrenzenden Gebieten 

sehr rasch entwickelt. Dabei sind viele Vorschläge zu Verfahren entstanden, die sich nicht 

mehr genau in eine der bisher vorgestellten Kategorien einsortieren lassen. Im Folgenden 

wird versucht, einen kurzen Überblick über diese Arbeiten zu geben. 

Schweighofer et al. [67] schlagen ein probabilistisches memory-based Verfahren vor, dass weniger 

auf die reine Verbesserung der Vorhersagequalität zielt, sondern andere Aspekte wie 

Skalierung, Anpassung auf neue Daten und Verständlichkeit der Empfehlungen (“warum 

wurde dieses Item empfohlen”) in den Vordergrund stellt. Gassner et al. [24] schlägt ein 

Verfahren zur Visualisierung von Empfehlungen vor. Eine geografische Visualisierung der 

Empfehlungen soll zeigen, wie die Empfehlungen zustande kamen und die Nachbarschaften 

der Items zueinander angeordnet sind. Miller et al. [53] setzt mit ihrem PocketLens-Verfahren 

auf ein portables System, das nicht auf large-scale Computern eingesetzt werden muss, sondern 

auf mobilen Geräten funktionieren soll. Das Thema Privacy in Recommendersystemen 

untersucht Canny et al. [13] und Lam et al. [45, 44]. Mehta et al. [52] verwenden robuste 

statistische Methoden (M-estimators), mit denen sie absichtliche Verfälschungen oder unabsichtliche 

Abweichungen der Ratings abzufangen versuchen. 

Herlocker et al. [31] untersuchen die verschiedenen Möglichkeiten zur Evaluation von Recommendersystemen 

und gehen auf die dabei wichtigsten zu treffenden Entscheidungen ein. 

Darunter die Art der Analyse und Auswahl der Datensätze, wie die Qualität von Empfehlungen 

evaluiert wird, alternative Arten der Qualitätsmessung (Precision und Recall) und die 

allgemeine Zufriedenheit des Benutzers mit dem System. 

21


Zaier et al. [79] beschreibt die Bedeutung von Recommendersystemen in kommerziellen Umgebungen 

mit exponentiellen Warenverteilungen (long tail). In solchen Systemen wird eine 

kleine Menge von Produkte sehr häufig gekauft (z.B. der aktuelle Bestseller oder der neueste 

Kinofilm auf DVD), eine große Menge an Waren aber nur selten. Recommendersysteme helfen 

dabei, dieses große Potential an “versteckten Waren” zu nutzen und diese dem passenden 

Kunden anzubieten. Zaier et al. [79] untersucht bekannte Datensätze (Netflix, MovieLens, Jester, 

BookCrossing und EachMovie) auf diese Eigenschaften. 

22

3 Schwarmintelligenz und evolutionäre 

Algorithmen 

Schwarmintelligenz [36] und evolutionäre Algorithmen [22] sind nicht-standard Optimierungsverfahren, 

mit deren Hilfe kombinatorische Probleme näherungsweise gelöst werden 

können. Beide Verfahren werden durch Vorgänge in der Natur inspiriert; bei Schwarmintelligenz 

durch das Verhalten von Schwärmen, Kolonien und anderen kollektiven Gruppierungen, 

bei evolutionären Algorithmen durch den Vorgang der biologischen Evolution. Ziel 

beider Ansätze ist es, zur Lösung des zugrunde liegenden Problems Methoden aus der Natur 

zu abstrahieren und damit Lösungen für die gestellten Probleme zu finden. Die Vorgänge in 

der Natur können dabei aus einer höheren Sicht auf einfache Regeln abgebildet werden, die 

die jeweiligen Verfahren umsetzen. 

Die folgenden Abschnitte beschreiben die verschiedenen Varianten von Schwarmintelligenz 

und evolutionären Algorithmen sowie die bisherigen Forschungen auf diesem Gebiet. Anschließend 

werden die in dieser Arbeit eingesetzten Verfahren im Detail beschreiben. 

Evolutionäre Algorithmen Die biologische Evolution besteht vereinfacht aus drei Vorgängen, 

die sich in jeder Generation wiederholen: Rekombination, Mutation und Selektion [22]. 

Mit diesen drei Vorgehensweisen ist die Natur in der Lage, das Erbgut der Individuen an 

die Bedingungen und Lebensumstände in ihrer Umwelt anzupassen. Gut angepasste und 

damit erfolgreiche Lebewesen haben so eine größere Chance sich fortzupflanzen und damit 

ihre Gene in die nächste Generation weiter zu reichen. Die natürliche Evolution bevorzugt 

Individuen, die sich ihrer direkten Umgebung am besten anpassen und im Wettstreit um die 

vorhanden Ressourcen als Sieger hervorgehen. 

Evolutionäre Algorithmen greifen dies in vereinfachter Art auf und entwickeln ein Modell, 

mit dessen Hilfe man komplexe Probleme mit den Methoden der Evolution näherungsweise 

lösen kann. Ein solches Modell ist vereinfacht eine Umgebung, in welche zufällig generierte 

Individuen platziert werden. Diese Individuen spiegeln in einem evolutionären Algorithmus 

die möglichen Lösungen des Problems wieder. Repräsentiert wird jedes Individuum i als 

mehrdimensionaler Vektor v i , der für jede Dimension eine Komponente der Lösung des Problems 

der Größe n enthält bzw. die Position in der Fitnesslandschaft darstellt: 

v i = (k 1 , · · · , k n ). 

Die gesamte Population P besteht aus der Menge aller Individuen v i : 

P = {v 1 , · · · , v |P| }. 

23

3 Schwarmintelligenz und evolutionäre Algorithmen 

Selektiere Eltern 

Eltern 

Initialisierung 

Rekombination 

Population 

Mutation 

Abbruchbedingung erfüllt 

Selektiere Überlebende 

Nachkommen 

Abbildung 3.1: Das allgemeine Schema eines evolutionären Algorithmus 

mit |P| als Anzahl aller Individuen in der Population. 

Die Fitness f (die Güte einer Lösung) wird durch die momentane Position des Individuum in 

der Landschaft bestimmt und gibt damit wieder, wie gut sich dieses Individuum mit seinen 

Eigenschaften auf dieser Stelle der Landschaft verhält. Wenn die Fitness hoch ist, d.h. das 

Individuum gut an die momentane Position angepasst ist, steigt die Chance des Überlebens 

und der damit verbundenen Weitergabe der eigenen Eigenschaften in die nächste Generation. 

Wenn dies nicht der Fall ist, wird das Individuum mit hoher Wahrscheinlichkeit dem evolutionären 

Druck nicht standhalten können und seine (negativen) Merkmale werden aus der 

Population entfernt. 

Die zufällig generierten Individuen/Lösungen eines evolutionären Algorithmus durchlaufen 

Rekombination, Mutation und Selektion in jeder Generation bzw. Iteration des Algorithmus 

und werden anschließend durch die problemspezifische Fitnessfunktion bewertet. Die Repräsentation 

einer Lösung wird vom zugrunde liegenden Problem bestimmt. In der Regel formuliert 

man eine Lösung als reellen oder binären Vektor, der die Problemstellung erfüllt, unabhängig 

der Qualität dieser Lösung. Der biologischen Begriffe Chromosom und Gen werden 

häufig synonym für diesen Vektor und die Elemente des Vektors verwendet. In Abbildung 3.1 

wird das allgemeine Schema eines evolutionären Algorithmus dargestellt. Ein evolutionärer 

Algorithmus durchläuft folgende Schritte: 

• Rekombination 

Bei der Rekombination (auch crossover) werden die Chromosome der beiden Elternpaare 

zu einem neuen Chromosom kombiniert. Dabei werden Eigenschaften beider Eltern 

in die Kindgeneration weitergegeben mit dem Ziel, dass sich daraus eine Lösung, die 

eine mindestens genauso gute Qualität wie ihre Eltern hat. Die Position, an der die 

24

eiden Chromosome gekreuzt werden, wird problemspezifisch bestimmt. Es existieren 

verschiedene Ansätze für die Umsetzung der Kreuzung, für eine nähere Untersuchung 

siehe Eiben et al. [22]. Die Rekombination von Individuen führt zur weitläufigen Erkundung 

der Fitnesslandschaft, da das Ergebnis einer Kreuzung an einer ganz anderen 

Stelle der Landschaft als dessen Eltern liegen kann. In der Literatur spricht man hier 

auch von Exploration. 

• Mutation 

Die zufällige Mutation eines Chromosoms bzw. eines Gens liefert ein leicht verändertes 

Individuum zurück, dessen Fitness sich dadurch nicht zwingend verbessert, aber 

durch die stochastische Komponente der Mutation wird “frisches Blut” in die Population 

eingefügt [22]. Mutation verändert das Individuum zwar nur in einem kleinen 

Rahmen, diese Veränderung kann aber häufig dazu führen, dass die direkte Nachbarschaft 

der Fitnesslandschaft genauer untersucht wird und dadurch vielleicht das lokale 

(und eventuell das globale) Optimum gefunden wird. In der Literatur spricht man auch 

von Exploitation. 

• Selektion 

Die Selektion kommt in zwei Varianten zu verschiedenen Zeiten im Ablauf des Algorithmus 

vor. Zum einen werden die Individuen bestimmt, die per Rekombination neue 

Nachkommen generieren dürfen. Die Wahl dieser Paare ist von der jeweiligen Ausprägung 

des evolutionären Systems und des zugrunde liegenden Problems abhängig. Es 

können beispielsweise werden nur die besten 50% einer Generation zur Rekombination 

verwendet werden. 

Zum anderen findet nach Rekombination und Mutation eine Auswahl statt, welche Individuen 

aus der Menge der Eltern und Kinder in die nächste Generation übernommen 

werden. Verschiedene Modelle sind möglich, es können beispielsweise nur die Nachkommen 

oder eine Kombination aus Eltern und Nachkommen übernommen werden. 

Die Fitnessfunktion bestimmt die Güte einer Lösung. Sie stellt eine Vorgabe dar, in welche 

Richtung sich eine Population entwickeln soll und definiert, was eine Verbesserung der Fitness 

bedeutet und leitet damit den evolutionären Vorgang. Aus der Sicht der Problemlösung 

definiert sie das eigentliche Problem und der evolutionäre Algorithmus liefert mögliche Lösungen. 

Die beste dieser Lösungen wird gesucht. 

Die Fitnessfunktion und die von ihr definierte Fitnesslandschaft ist für zwei Merkmale (oder 

Gene) in Abbildung 3.2 dargestellt. Die Höhe dieser Landschaft spiegelt die Fitness wieder: 

Eine hohe Position bedeutet eine hohe Fitness, tiefer liegende Positionen bedeuten niedrige 

Fitness (im Falle eines Maximierungsproblems). 

Eine detaillierte Beschreibung des Genetischen Algorithmus, eine Variante der evolutionären 

Algorithmen, folgt in Abschnitt 3.1. Dieses Verfahren findet danach in Kapitel 4.6 Einsatz in 

einem Recommendersystem. 

Überblick evolutionäre Algorithmen In der Vergangenheit haben sich verschiedene Varianten 

von evolutionäre Algorithmen entwickelt. In den USA der 1960er haben Fogel, Walsh 

25


55 

50 

45 

40 

0 

5 

10 

15 

0 1 2 3 4 5 6 7 8 9 

Abbildung 3.2: Beispiel für eine aus einer Fitnessfunktion mit zwei Merkmalen ergebenden 

Fitnesslandschaft. Für ein Maximierungsproblem spiegeln die hohen Positionen 

eine hohe Fitness wieder, niedrige Positionen eine schlechtere Fitness. Es 

können mehrere lokale Optima auftreten (multimodale Landschaft). 

und Owens Evolutionary Programming (EP) vorgeschlagen, während Holland seine Variante 

Genetic Algorithm (GA) genannt hat. In Deutschland haben Rechenberg und Schwefel unter 

den Namen Evolutionary Strategies (ES) erste Forschungen auf diesem Gebiet betrieben. In den 

1990er hat Koza mit Genetic Programming (GP) eine weitere Variante vorgeschlagen. 

Allen Varianten liegt die gleiche evolutionäre Idee zugrunde, während sie sich in den Details 

und Einsatzgebieten sehr voneinander unterscheiden. Dabei ist es vom eigentlichen Problem 

und dessen Ausprägung abhängig, welche Variante sich am besten zur Lösung anbietet. Die 

Tabellen 3.1 und 3.2 geben eine Übersicht über die vier großen Varianten der evolutionären 

Algorithmen und deren typische Anwendungsfälle. 

Schwarmintelligenz Die Bildung von Gruppen und Teams in der Tierwelt ist ein häufig 

beobachtetes Verhalten [3], z.B. in Vogel-, Fisch- und Bienenschwärmen oder Ameisenkolonien. 

Interessant sind vor allem solche Gruppen, die von keinem Führer (Alphatier) geleitet 

werden, sondern ein emergentes Verhalten zeigen. Die einzelnen Individuen in solchen Gruppen 

haben kein direktes Wissen über ihre Umgebung und das globale Verhalten der eigenen 

Gruppe, können sich aber trotzdem gegenseitig finden und zusammen fortbewegen. Dieses 

Verhalten basiert auf der lokalen Kommunikation eines Individuum mit seinen direkten 

Nachbarn im Schwarm. Auf diese Weise entwickelt der Schwarm Verhaltensweisen wie die 

Erkundung der Umgebung, Rückkehr an einen bestimmten Ort oder hütendes Verhalten. 

26

GA 

ES 

Typisches Kombinatorische Kontinuierliche 

Problem Optimierung Optimierung 

Typische Zeichenketten in einem Vektoren 

Repräsentation endlichen Alphabet mit reellen Zahlen 

Rolle der Primärer Variations- Wichtig, aber 

Rekombination operator zweitrangig 

Rolle der Sekundärer Variations- Wichtig, manchmal 

Mutation operator der einzige Operator 

Selektion Zufällig, beeinflusst Zufällig, uniform 

der Eltern durch die Fitness 

Selektion Generational: nicht alle Deterministisch, 

der neuen Individuen werden ersetzt Beeinflusst durch Fitness 

Generation Steady-state: deterministisch 

Beeinflusst durch Fitness 

Tabelle 3.1: Übersicht über die GA und ES Dialekte in evolutionären Algorithmen. 

Diverse Simulationen zu diesem Verhalten haben zu einem besseren Verständnis der Schwärme 

geführt. Reynolds [61] hat mit den vom ihm entwickelten Boids grundlegende Erkenntnisse 

für das Verhaltensweisen in Schwärmen erforscht. Er führt drei Regeln auf, die jedes 

Individuum einhalten muss, damit der Schwarm ein emergentes Verhalten zeigt: 

• Vermeidung von Kollisionen 

Jedes Individuum versucht nicht mit seinen direkten Nachbarn zu kollidieren, basierend 

auf der physikalischen Koordinaten jedes Individuum. 

• Angleichung der Geschwindigkeit 

Jedes Individuum passt sich der Richtung und Geschwindigkeit der umliegenden Individuen 

an. 

• Zentrierung des Schwarms 

Jedes Individuum versucht in der Nähe des Zentrums des Schwarms zu bleiben. 

Abbildung 3.3: Boids: Vermeidung von Kollisionen innerhalb der direkten Nachbarschaft 

(Kreis), Angleichung an die umliegenden Nachbarn und Zentrierung in der 

Nachbarschaft, exemplarisch für einen Teilnehmer (mitte, schwarz). 

27


EP 

GP 

Typisches Optimierung Modellierung 

Problem 

Typische Problemspezifisch Bäume 

Repräsentation 

Rolle der Nicht angewandt Primär / einziger 

Rekombination 

Variationsoperator 

Rolle der Der einzige Variations- Sekundär, manchmal 

Mutation operator gar nicht eingesetzt 

Selektion Jedes Individuum Zufällig, beeinflusst durch 

der Eltern erstellt ein Kind Fitness 

Selektion Zufällig, beeinflusst durch Zufällig, beeinflusst durch 

der neuen Fitness Fitness 

Generation 

Tabelle 3.2: Übersicht über die EP und GP Dialekte in evolutionären Algorithmen. 

Ein ähnliches Modell wurde von Heppner und Grenander [30] vorgeschlagen. Sie erweiterten 

das Modell von Reynolds um einen sogenannten “Rooster”, der den anderen Teilnehmer des 

Schwarms als Anziehungspunkt dient. 

Eine ganze Reihe weiterer Modelle wurde in den nachfolgenden Jahren vorgeschlagen. Das 

Verhalten von Fischschwärmen wird Stephens et al. [73] untersucht. Eine Modell für das Verhalten 

von Menschenmassen bespricht Saiwak et al. [64]. Das Modell von Crepinsek et al. [19] 

modelliert das Verhalten der Teilnehmer bei der Wahl der Nachbarn und der Richtungsangleichung. 

Das Modell, das in den späteren Kapiteln eingesetzt wird, ist der Particle Swarm Optimization-Algorithmus 

(PSO), vorgeschlagen von Kennedy und Eberhart [21, 36]. Dieses Modell 

optimiert beliebige Funktionen. Andere Einsatzgebiete außerhalb der Optimierung, für die 

teilweise die obigen Modelle verwendet werden (wie Computerspiele oder Filmanimationen), 

sind im PSO Modell nicht vorgesehen. 

Particle Swarm Optimization basiert auf dem sozial-psychologischen Modell der sozialen Einflussnahme 

und dem sozialen Lernen. Alle Partikel in einem Schwarm verfolgen ein Hauptziel: 

Die Nachahmung des Verhaltens der direkten Nachbarn im Schwarm. Wenn alle Partikel 

dieses Verhalten befolgen, konvergiert der Schwarm in Richtung des globalen Optimums der 

Umgebung. 

Das PSO Modell durchlief einige Iterationen, in denen jeweils die Ergebnisse aus anderen 

Arbeiten einflossen sowie eigene Verbesserungen und Erweiterungen vorgenommen wurden. 

So wurde nach einem anfänglichen Modell, welches nur die Bestimmung der nächsten Nachbarn 

und die Angleichung der Richtung implementiert hatte, dass Konzept der “Rooster” von 

Heppner und Grenander [30] übernommen, um den ganzen Schwarm auf die lokalen und 

globalen Optima der Nachbarn und des Schwarms selbst zu leiten. Der bis dahin verwendete 

28

Ansatz leitete den Schwarm ohne diese Erweiterung zu schnell in eine feste Richtung, die 

nicht mehr verlassen wurde [23]. 

Invasive Weed Optimization Ein weiteres der Schwarmintelligenz zugeteiltes Optimierungsverfahren 

wird durch das Verbreitungsverhalten von Unkraut motiviert: Invasive Weed Optimization 

[51]. Unkraut werden dabei all die Pflanzen in einer Agrikultur genannt, die dort 

nicht gewollt sind bzw. die ein angreifendes und schädlichen Verhalten gegenüber ihrer Umwelt 

zeigen. Das vorliegende numerische Optimierungsverfahren ist einfach aufgebaut, konvergiert 

aber sehr effektiv auf das globale Optimum. In einer ausführlichen Evaluation vergleicht 

Mehrabian et. al. [51] IWO auf verschiedenen Testfunktionen (die aus der Forschung 

zu evolutionären Algorithmen bekannten Funktionen Sphere, Griewank und Rastrigin) mit 

genetischen Algorithmen (GA), memetischen Algorithmen (MA), Particle Swarm Algorithmen 

(PSO) und Shuffled frog leap Algorithmen (SFL). Zusätzlich wird IWO mit diversen Simulated 

Annealing-Varianten verglichen. 

Abbildung 3.4: IWO: Verlauf der Pflanzenausbreitung in einer zweidimensionalen Landschaft. 

Grafik aus [51]. 

IWO wurde in nachfolgenden Forschungsarbeiten hauptsächlich für die Optimierung von 

Funktionen verwendet. Eine Veröffentlichung von Rad et al. [69], die in den späteren Kapiteln 

aufgegriffen wird, ist ein Recommendersystem, dass den von Ujjin et al. [74] vorgeschlagenen 

evolutionären Recommender als Grundlage verwendet, dabei aber die Optimierungsfunktion 

durch das Invasive Weed Optimization-Verfahren (IWO) ersetzt. Dieses Verfahren wird in 

Kapitel 4.7 besprochen. 

Zhang et al. [81] erweitern den IWO Algorithmus zu einer populations-basierten Optimierungsmethode, 

shuffled IWO genannt, indem sie IWO mit einem shuffled complex evolution- 

Ansatz kombinieren. Das dynamische Verhalten von Energiemärkten wird von Sahraei et al. 

[63] mit Hilfe des IWO untersucht. Die Optimierung von Antennen mithilfe des IWO untersucht 

Karimkashi et al. [35]. 

Überblick Schwarmintelligenz Die Varianten der Schwarmintelligenz werden von zwei 

Methoden dominiert, die in den letzten Jahren in der Forschung die meiste Aufmerksam- 

29


keit bekommen haben: Particle Swarm Optimization und Ant Colony Optimization. Jedoch 

sind auch andere Ansätze verbreitet und werden aktiv untersucht. In Tabelle 3.3 und 3.4 wird 

ein Überblick über die verschiedenen Varianten gegeben. 

Particle Swarm Ant Colony Bees Algorithm 

Typisches Optimierung Optimaler Pfad, Kombinatorische oder 

Problem Optimierung funktionale Optimierung 

Motivation Verhalten der Mitglieder Wegfindung von Nahrungssuche von 

von (Vogel-)Schwärmen Ameisen in Kolonien Bienenschwärmen 

Tabelle 3.3: Übersicht über Methoden der Schwarmintelligenz 

Invasive Weed Firefly Algorithm 

Typisches Optimierung Optimierung 

Problem 

Motivation Ausbreitung von Ausbreitung und gegenseitige 

Pflanzensamen Anziehung von Leuchtkäfern 

Tabelle 3.4: Übersicht über Methoden der Schwarmintelligenz 

3.1 Genetischer Algorithmus 

Der genetische Algorithmus (GA) ist der am weitesten verbreitete evolutionäre Algorithmus. 

Er ist einfacher zu implementieren als die anderen EA-Varianten [22], da er keine besonderen 

Spezialisierungen, im Gegensatz zu den anderen Varianten, implementiert. Evolution 

Strategies, mit der vergleichsweise komplexen Selbstanpassung der Mutationsschritte oder 

die Baumstruktur zur Repräsentation der Individuen bei Genetic Programming, sind je nach 

Umfang des Einsatzes um ein vielfaches komplexer als ein GA-Algorithmus. 

Typischer Ablauf Der typische Ablauf eines genetischen Algorithmus ist im Listing 3.1 als 

Pseudocode aufgeführt. Dieser Ablauf kann auch auf alle anderen Varianten von EAs übertragen 

werden, der Ablauf ist bis auf Details identisch. Die Abbruchbedingung ist problemspezifisch 

und kann auf viele Arten definiert werden. Oft verwendete Bedingungen sind das 

Erreichen einer vorgegeben Anzahl von Iterationen bzw. Generationen der Population, keine 

messbare Verbesserung der Fitness in den letzten n Iterationen oder das Erreichen einer vorab 

definierten Qualität der Lösung. 

Repräsentation der Individuen Die Wahl der Repräsentation eines Individuum ist eine 

wichtige Entscheidung im Entwurfsprozess eines evolutionären Algorithmus. Dabei muss 

diese Entscheidung immer mit Blick auf das zugrunde liegende Problem getroffen werden, eine 

allgemeine und immer erfolgreiche Methode gibt es nicht. Zusätzlich muss die Abbildung 

des Genotyps auf den Phenotyps definiert werden, also die Abbildung der im evolutionären 

30


1 BEGIN 

Listing 3.1: Der generische Ablauf eines evolutionären Algorithmus als Pseudocode 

2 INITIALISE random population; 

3 EVALUATE each member; 

4 REPEAT UNTIL (TERMINATION CONDITION is true) DO 

5 1 SELECT parents; 

6 2 CROSSOVER parent pairs; 

7 3 MUTATE resulting offspring; 

8 4 EVALUATE every offspring; 

9 5 SELECT survivors; 

10 OD 

11 END 

12 } 

1 0 1 0 1 1 0 0 

Abbildung 3.5: Binäres Chromosom 

Algorithmus verwendeten Repräsentation in eine Repräsentation die zum lösenden Problem 

passt. 

Eine mögliche Repräsentationsart ist die binäre Repräsentation. Der Genotyp besteht hier aus 

einem Bitstring. Für ein spezifisches Problem muss die Länge des Strings und die Abbildung 

der binären (genotypischen) Werte auf die phenotypische Lösung bestimmt werden. Diese 

Lösung muss weiterhin eine gültige Lösung im Problemraum darstellen. Für Probleme, deren 

Lösungen aus boolschen Variablen bestehen, bietet sich diese Repräsentation auf natürliche 

Weise an. 

Eine weitere Möglichkeit ist die Repräsentation durch ganze Zahlen, die sich für Probleme 

anbietet, bei denen jedes Gen mehr als zwei Werte annehmen kann, beispielsweise die Angaben 

{hoch, runter, links, rechts}. Die reellwertige Repräsentation wird bei Problemen verwendet, 

die kontinuierliche Werte verlangen. Die Repräsentation durch Permutationen bietet sich bei 

kombinatorischen Problemen an, beispielsweise beim Problem des Handlungsreisenden, bei 

der eine Lösung den Verlauf der Reise (feste Abfolge von Städten) darstellt. 

Mutation Falls die Mutation der einzige Operator ist, der pro Generation neue Lösungen erzeugt, 

wird nur ein Elternteil verwendet, um ein Nachkommen zu generieren. Wenn aber vor 

der Mutation zusätzlich eine Rekombination aus zwei Eltern stattfindet, wird die Mutation 

anschließend auf den neu entstandenen Nachkommen angewandt. 

Eine Lösung wird durch eine zufällige Operation verändert und damit eine neue Lösung 

erstellt. Eine Art der Mutation bei binärer Repräsentation ist der Bitflip eines Gens, siehe 

Abbildung 3.6. Dabei wird der Wert eines Gens mit einer Wahrscheinlichkeit p m negiert. Die 

Anzahl L der Bitflips in einem Chromosom wird dabei vom Algorithmus bestimmt, auch dieser 

Wert kann zufällig bestimmt werden. Es ergeben sich L · p m -viele Bitflips pro Chromosom. 

31


1 0 1 0 1 1 0 0 1 0 1 0 0 1 0 1 

Abbildung 3.6: Mutation eines binären Chromosoms 

0 0 0 0 1 1 0 0 

0 0 0 0 0 0 1 1 

1 0 1 0 0 0 1 1 

1 0 1 0 1 1 0 0 

Abbildung 3.7: One-Point Crossover 

Ganzzahlige Repräsentationen verwenden typischerweise zwei Mutationsvarianten: Zufälliges 

zurücksetzen eines Gens auf einen zufällig bestimmten neuen Wert oder creep mutation, 

bei der jedes Gen mit Wahrscheinlichkeit p um einen zufällig gezogenen Wert (positiv oder 

negativ) erhöht wird. Reellwertige Repräsentationen mutieren ihre Gene indem aus einem fest 

definierten Intervall ein neuer Wert zufällig gezogen wird. Die Wahrscheinlichkeitsverteilung, 

aus der die Werte gezogen werden, ist entweder stetig oder unstetig gleichverteilt. Permutationsrepräsentationen 

tauschen zwei Gene innerhalb eines Chromosoms aus, verschieben die 

Position eines Gens oder mischen zufällig Teilabschnitte des Chromosom. 

Rekombination Die Rekombination von zwei (oder mehr) Individuen aus der Elternpopulation 

erzeugt zwei (oder mehr) Nachkommen aus den Informationen, die die Elternchromosome 

in sich tragen. Mit dieser Operation wird die Vielfalt innerhalb der möglichen Lösungen 

gewahrt. Die Rekombination unterscheidet einen EA von globalen Optimierungsalgorithmen. 

Die Wahrscheinlichkeit einer Rekombination zweier Lösungen wird über die Crossover-Rate 

p c bestimmt, die üblicherweise im Intervall [0.5, 1.0] liegt. Zwei Eltern werden rekombiniert, 

wenn eine zufällig aus dem Intervall [0, 1) gezogene Variable kleiner ist als p c . Wenn die 

Zufallsvariable größer ist, dann werden die Kinder als Kopien der Eltern, ohne Veränderung, 

erzeugt. 

Die Rekombinationsoperatoren für die Kombination zweier Lösungen sind von der Repräsentation 

der Lösungen abhängig. Für binäre Repräsentationen können zwei Chromosome 

per one-point crossover kombiniert werden, siehe auch Abbildung 3.7. An einem zufällig gewählten 

Punkt innerhalb des Chromosoms werden die hinteren Teile der Eltern vertauscht. 

Eine generalisierte Variante davon ist der n-point crossover, bei dem mehr als ein Punkt für 

die Kombination gewählt wird und abwechselnd die Teilabschnitte vertauscht werden, siehe 

Abbildung 3.8. Der einheitliche Crossover (uniform crossover) behandelt jedes Gen unabhängig 

und wählt zufällig aus, ob dieses Gen aus dem einen oder anderen Elternteil übernommen 

wird. Das zweite Chromosom wird als Inverses des Ersten erzeugt, siehe Abbildung 3.9 

Bei ganzzahliger Repräsentation werden die selben Operatoren wie bei binärer Darstellung 

verwendet. Für die restlichen Repräsentationsformen besteht eine große Auswahlmöglich- 

32


0 0 0 0 1 1 0 0 

0 0 0 0 0 0 0 0 

1 0 1 0 0 0 1 1 

1 0 1 0 1 1 1 1 

Abbildung 3.8: N-Point Crossover 

0 0 0 0 1 1 0 0 

0 0 1 0 0 0 0 1 

1 0 1 0 0 0 1 1 

1 0 0 0 1 1 1 0 

Abbildung 3.9: Uniform Crossover 

keit an Operatoren, die je nach Problemstellung gewählt werden müssen. Für eine genaue 

Darstellung siehe Eiben et al. [22]. 

Populationsmodelle Nach Rekombination und Mutation muss entschieden werden, welche 

Individuen in die nächste Generation übernommen werden. Zwei Modelle können hier 

genannt werden: Entweder wird die gesamte Elternpopulation µ durch die gesamte Kindpopulation 

λ ersetzt (generational model), oder es wird nur ein Teil der Eltern durch neue 

Kinder ersetzt (steady-state)-Modell. Dabei ist die Anzahl der zu ersetzenden Eltern variabel 

und muss problemspezifisch entschieden werden, jedoch hat sich durch das erste steady-state- 

Modell GENITOR ein Wert von λ = 1 in vielen Anwendungen durchgesetzt, es wird also 

immer nur ein neues Kind in die Elternpopulation eingefügt. 

Selektion An zwei Stellen im Ablauf eines evolutionären Algorithmus muss aus den Individuen 

der Population eine Auswahl getroffen werden: Zum einen muss entschieden werden, 

welche Individuen in die nächste Generation übernommen werden, zum anderen welche Individuen 

für die Rekombination in Frage kommen. Beide Entscheidungen hängen nur von 

der jeweiligen Fitness ab. Je besser die Fitness, desto höher ist die Wahrscheinlichkeit ausgewählt 

zu werden. 

Eine Möglichkeit ist die fitness proportional selection (FPS), bei der die Individuen gemäß ihrer 

absoluten Fitness in der Population gemessen werden. Die Wahrscheinlichkeit P i als Elternteil 

ausgewählt zu werden liegt für Individuum f i bei 

P i = 

f i 

∑ µ j=1 f j 

Dieses Verfahren hat jedoch Nachteile. Entweder können sehr fitte Ausreißer die Population 

sehr schnell übernehmen (premature convergence), da sie fast immer gewählt werden, oder es 

33


kann passieren, dass wenn alle Individuen ähnliche Fitnesswerte haben, der Selektionsdruck 

praktisch nicht vorhanden ist. Zur Vermeidung dieser Probleme sind von Eiben et al. [22] 

Erweiterungen vorgeschlagen worden. 

A 

3/6 = 50% 

B 

1/6 = 17% 

C 

2/6 = 33% 

Abbildung 3.10: Fitness-Proportional Selektion für drei Individuen. A mit Fitness 3, B mit 

Fitness 1 und C mit Fitness 2. Im Prozent ist angegeben, mit welcher Wahrscheinlichkeit 

das Individuum überlebt. 

Eine weitere Möglichkeit ist die Sortierung der Population nach Fitness und die nachfolgende 

Zuweisung von Selektionswahrscheinlichkeiten je nach Rang des Individuum. Auf dieser Art 

wird ein konstanter Selektionsdruck ausgeübt, der nicht direkt von der Fitness abhängt, sondern 

nur vom Rang innerhalb der Population. Die Berechnung der Wahrscheinlichkeiten kann 

wie folgt vorgenommen werden, mit 1.0 < s

3.2 Particle Swarm Optimization 


Der PSO Algorithmus arbeitet mit einem Schwarm von Partikeln, von denen jeder einzelne 

Partikel eine mögliche Lösung des Optimierungsproblems darstellt. Die Partikel bewegen 

sich durch einen mehrdimensionalen Problemraum, um in diesem ein Optimum zu finden. 

Die Partikel werden dabei so gesteuert, dass sie zum einen auf ihre bisher beste Position, im 

Sinne einer auf dem Problemraum definierten Fitnessfunktion, zusteuern und zum anderen 

sich in Richtung des globalen oder lokalen Optimums des Schwarms bewegen. Die Position 

eines Partikels wird geändert, indem ein Geschwindigkeitsvektor v i (t) auf die momentane 

Position x i (t) des Partikels i addiert wird: 

x i (t + 1) = x t (t) + v i (t + 1) 

mit t als diskreter Zeitschritt des Algorithmus. Der Geschwindigkeitsvektor ist die treibende 

Kraft hinter der Optimierung und enthält die Informationen darüber, wo der Partikel in der 

Vergangenheit die beste Fitness hatte bzw. wo der gesamte Schwarm in der Vergangenheit 

ein (temporäres) Optimum gefunden hat. 

Die Bestimmung des Geschwindigkeitsvektor v i (t) kann auf zwei Arten durchgeführt werden: 

Indem man den gesamten Schwarm des Partikels i und dessen bisheriges Optimum 

betrachtet (global best, gbest) oder nur die Nachbarschaft eines Partikels i und dessen bisheriges 

Optimum in die Berechnung der Geschwindigkeit mit einbezieht (local best, lbest). Im 

ersten Fall liegt eine sternförmige Nachbarschaft, siehe Abbildung 3.12, zwischen den Partikeln 

vor. D.h. jeder Partikel ist mit jedem anderen Partikel verbunden. Im zweiten Fall ist 

die Nachbarschaft zwischen den Partikeln die eines Rings. Ein Partikel ist nur mit einer Teilmenge 

der Partikeln verbunden und sieht jeweils nur seine beiden direkten Nachbarn. In der 

Praxis wird der zweite Fall über die Indizierung der Partikel realisiert und nicht über eine 

topologische Nachbarschaft. 

Global best PSO Für gbest PSO ist die Berechnung des Geschwindigkeitsvektors wie folgt 

definiert, mit y als persönlich beste Position des Partikels und ŷ als beste Position des Schwarms: 

v ij (t + 1) = v ij (t) + c 1 r 1j (t)[y ij (t) − x ij (t)] + c 2 r 2j (t)[ŷ j (t) − x ij (t)] (3.1) 

für die j-te Dimension des Positions- und Geschwindigkeitsvektors, siehe auch Abbildung 3.11. 

Der zweite Term der Formel ist der kognitiven Anteil des Geschwindigkeitsvektors, der den 

bisherigen Verlauf dieses Partikels beschreibt. Der dritte Term der Formel stellt dementsprechend 

den sozialen Anteil dar, der den bisherigen Verlauf des gesamten Schwarms widerspiegelt. 

c 1 und c 2 sind positive Konstanten für die Beschleunigung der Partikel bestimmen. 

r 1j (t) und r 2j (t) sind gleichverteile Zufallszahlen zwischen 0 und 1, die dem Algorithmus ein 

stochastisches Element hinzufügen. 

35


ŷ(t) 

x(t + 1) 

neue Richtung 

soziale Geschwindigkeit 

x 2 

x(t + 2) 

x(t + 1) 

Trägheit 

x(t) 

x 2 

y(t + 1) 

soziale 

Geschwindigkeit 

ŷ(t + 1) 

Trägheit 

neue Richtung 

kognitive Geschwindigkeit 

kognitive Geschwindigkeit 

y(t) 

x(t) 

x 1 

x 1 

Abbildung 3.11: Geometrische Darstellung eines Positionsupdates eines zweidimensionalen 

Partikels. 

Die persönlich beste Position y i für den nächsten Zeitschritt (t + 1) wird, bei einem Minimierungsproblem, 

wie folgt bestimmt: 

y i (t + 1) = 

{ 

y i (t) 

x i (t + 1) 

if f (x i (t + 1)) ≥ f (y i (t)) 

if f (x i (t + 1)) < f (y i (t)) 

mit f : R n x 

→ R als Fitnessfunktion. Analog für Maximierungsprobleme. 

Die global beste Position, ŷ(t), ist definiert als 

ŷ(t) ∈ {y 0 (t), · · · , y ns (t)}| f (ŷ(t)) = min{ f (y 0 (t)), · · · , f (y ns (t))} 

mit n s als Anzahl der Partikel im gesamten Schwarm. 

Local best PSO Der lbest PSO Algorithmus bestimmt den Geschwindigkeitsvektor wie 

folgt: 

v ij (t + 1) = v ij (t) + c 1 r 1j (t)[y ij (t) − x ij (t)] + c 2 r 2j (t)[ŷ ij (t) − x ij (t)] (3.2) 

Der Unterschied zum global best Verfahren ist, dass ŷ ij die beste Position in der lokalen Nachbarschaft 

um Partikel i bestimmt und nicht das bisher entdeckte globale Optimum des kompletten 

Schwarms darstellt. Formell ausgedrückt wird das lokale Optimum ŷ i in der Nachbarschaft 

N i definiert als 

ŷ i (t + 1) ∈ {N i | f (ŷ i (t + 1)) = min{ f (x)}, ∀x ∈ N i }, 

36


Abbildung 3.12: Zwei exemplarische soziale Netze in Schwärmen. Links Ring, rechts Stern. 

mit der Nachbarschaft definiert als 

N i = {y i−nNi (t), y i−nNi +1(t), · · · , y i−1(t) (t), y i (t), y i+1 (t), · · · , y i+nNi (t)} 

für Nachbarschaften der Größe n. Die persönlich beste Position wird wie beim global best PSO 

bestimmt. 

Untersuchungen der Partikelflugbahnen des bisher vorgestellten, klassischen PSO haben gezeigt, 

dass dieser nicht immer zum globalen Optimum konvergiert [23]. Daher wurden eine 

Reihe von Erweiterungen vorgeschlagen, die eine schnellere und zuverlässigere Konvergenz 

sicherstellen sollen. 

Velocity Clamping Ein wichtiger Aspekt eines Optimierungsalgorithmus ist der Kompromiss 

zwischen Exploration und Exploitation des Suchraums. Exploration ist die weitläufige 

Suche im gesamten Raum, während Exploitation die genauere lokale Suche beschreibt. Für 

einen erfolgreichen Optimierungsalgorithmus sollte beides ungefähr gleichmäßig vorhanden 

sein [23]. 

Wenn in den Gleichungen 3.2 und 3.1 die Geschwindigkeitsvektoren berechnet werden, 

kann es vorkommen, dass vor allem für weit außerhalb der lokalen und globalen Optima 

des Schwarms liegende Partikel ein sehr großes Positionsupdate berechnet wird. Das hat die 

Folge, das Partikel aus dem Suchraum heraus fliegen. Dieses Verhalten kann man verhindern, 

indem man eine Schranke V max für die maximale Positionsänderung einführt: 

v i (t + 1) = 

{ 

v i (t + 1) 

if v i (t + 1) < V max 

V max if v i (t + 1) ≥ V max 

37


x 2 

v 2 (t + 1) 

x i (t + 1) 

x 

i ′ (t + 1) 

v 

2 ′ (t + 1) 

v 1 (t + 1) 

x i (t) 

Velocityupdate 

Positionsupdate 

x 1 

Abbildung 3.13: Die Veränderung der Richtung durch Velocity Clamping. 

Die Wahl eines korrekten Wertes für V max ist sehr wichtig. Große Werte für V max erlauben 

Exploration, jedoch mit der Gefahr, dass gute Lösungen überflogen werden. Zu kleine Werte 

für V max führen zu lokaler Exploitation, jedoch wird der Schwarm womöglich in lokalen 

Optima hängen bleiben bzw. nur auf einem sehr kleinen Bereich des Suchraums arbeiten. 

Eine gute Wahl für V max ist daher sehr wichtig. In der Regel wird der Wert auf einen Bruchteil 

des Wertebereichs des Suchraums gesetzt: 

V max = γ(x max − x min ) 

mit x max und x min als maximaler bzw. minimaler Wert des Problemraums und γ ∈ (0, 1]. Der 

Wert für γ ist problemspezifisch und kann beispielsweise per Kreuzvalidierung gefunden 

werden. Für eine geometrische Darstellung in zwei Dimensionen siehe Abbildung 3.13. 

Trägheitsgewicht Shi und Eberhart [21] schlagen eine Erweiterung vor, mit der die Exploration 

und Exploitation kontrolliert werden kann und welche zusätzlich die Verwendung von 

Velocity Clamping obsolet machen soll. Ersteres konnte gezeigt werden, letzteres jedoch nicht. 

Die Erweiterung führt Trägheitsgewichte (inertia weights) ein, die den Einfluss des vorherigen 

Geschwindigkeitsvektors gewichtet und somit Einfluss darauf nimmt, wie viel Information 

38

3.3 Invasive Weed Optimization 

aus der bisherigen Flugrichtung in den neuen Geschwindigkeitsvektor eingeht: 

v ij (t + 1) = wv ij (t) + c 1 r 1j (t)[y ij (t) − x ij (t)] + c 2 r 2j (t)[ŷ j (t) − x ij (t)] (3.3) 

mit w als Trägheitsgewicht. Die Wahl dieses Gewichts ist sehr wichtig für die Konvergenz des 

Schwarms und regelt das Verhältnis zwischen Exploration und Exploitation, ähnlich V max bei 

velocity clamping. Wird w ≥ 1 gewählt, beschleunigen die Partikel mit jeder Generation bis die 

maximale Geschwindigkeit erreicht ist. Dies führt zu Exploration. Für w < 1 verringern die 

Partikel ihre Geschwindigkeit Schritt für Schritt und erlauben damit Exploitation. 

Multi-start PSO Engelbrecht [23] bespricht eine Erweiterung des PSO, das verhindern soll, 

dass die Partikel in einem Schwarm zu früh an einem bestimmten Punkt im Problemraum 

hängen bleiben und sich nicht mehr von diesem lösen können, selbst wenn dieser Punkt kein 

globales oder gar lokales Optimum darstellt. Die Erweiterung initialisiert Partikel zufällig 

neu und bewirkt damit, dass weiterhin Bereiche im Problemraum untersucht werden, selbst 

wenn ein Großteil der Partikel in einer anderen Region konvergiert sind. 

Es stellt sich die Frage, wie man diese Partikel neu setzen sollte. Es können entweder die Positionsvektoren 

der Partikel neu gesetzt werden und/oder die Richtungsvektoren. Im ersten 

Fall werden die Partikel in zufällige neue Bereiche gesetzt und führen dort ihre Suche fort. Im 

zweiten Fall wird die aktuelle und die persönlich beste Position des Partikels behalten und 

nur die Richtung neu gesetzt, in die sich ein Partikel bewegt. Wenn in dieser Richtung keine 

bessere Lösung gefunden werden kann, bewegt sich der Partikel wieder zurück in Richtung 

der alten besten Lösung. Welche der beiden Varianten eingesetzt wird, muss entsprechend 

des zugrunde liegenden Problems und der Charakteristika des Lösungsraums entschieden 

werden. 

Es muss entschieden werden, wann ein Partikel neu gesetzt wird. Wenn dies zu früh geschieht, 

hatte der Partikel mit hoher Wahrscheinlichkeit keine Möglichkeit die Nachbarschaft 

im Detail zu untersuchen. Wenn zu lange gewartet wird, ist das Partikel wahrscheinlich schon 

an einer Stelle konvergiert. Engelbrecht [23] schlägt verschiedene Strategien zur Wahl des besten 

Zielpunkts vor. 

Zuletzt muss die Frage beantwortet werden, welche Partikel aus dem Schwarm neu gesetzt 

werden. Engelbrecht [23] schlägt entweder probabilistische Methoden vor, die ein Partikel mit 

einer gewissen Wahrscheinlichkeit neu setzten, oder Methoden basierend auf der Konvergenz 

von Partikeln, die bestimmte Kriterien der Konvergenz verwenden, z.B. keine Veränderung 

der Fitness in τ-vielen Iterationen, um zu entscheiden, ob ein Partikel neu gesetzt werden 

kann. 


Die Grundidee des Invasive Weed Optimization-Algorithmus [51] ist, dass eine Pflanze (gleichbedeutend 

mit einer möglichen Lösung) in einem mehrdimensionalen Raum entsprechend 

39


ihrer Fitness neue Pflanzensamen zufällig in ihrer direkten Umgebung ablegt. Je fitter eine 

Pflanze ist, desto mehr Samen darf sie in ihrer direkten Umgebung ablegen. Der umliegende 

Bereich einer Pflanze wird zu Beginn des Verfahrens zuerst groß gewählt und verkleinert 

sich mit jeder Iteration, so dass von einer weitläufigen Suche mehr und mehr zu einer lokalen 

Suche übergegangen wird. Wenn die maximale Anzahl der Pflanzen in der Population 

überschritten wird, werden nur die besten Pflanzen in die nächste Generation übernommen. 

Algorithmus 

1. Im ersten Schritt wird eine endliche Anzahl an Pflanzensamen im Problemraum zufällig 

verteilt und per Fitnessfunktion evaluiert. 

2. Anschließend generiert jede Pflanze gemäß ihrer Fitness neue Samen und verteilt diese 

in ihrer direkten Umgebung. 

Die Anzahl der zu produzierenden Samen s wird über eine lineare Funktion definiert, 

siehe auch Abbildung 3.15, in die die Fitness der entsprechenden Vaterpflanze und die 

minimale sowie die maximale Fitness der gesamten Population eingeht: 

s = 

f p − f max 

f min − f max 

s max + 

f p − f min 

f max − f min 

s min 

mit s max als maximale und s min als minimale Anzahl Samen pro Pflanze, f p als aktuelle 

Fitness der Pflanze, f max und f min als maximale bzw. minimale Fitness der gesamten 

Population zu diesem Zeitpunkt, wobei hier eine niedrigere Fitness eine bessere Lösung 

darstellt (Minimierungsproblem). 

Diese besondere Eigenschaft ermöglicht es, dass auch Pflanzen mit niedriger Fitness Nachkommen 

erzeugen können (falls die minimale Anzahl an Samen > 0 ist). In klassischen 

evolutionären Algorithmen ist dies oft nicht erlaubt. Es ist aber durchaus möglich, dass 

zuerst schlechte Lösungen eigentlich eine sehr gute Lösung in sich tragen, die erst durch 

eine kleine Veränderung (z.B. per Mutation) zum Vorschein kommt. Weiterhin ist es oft 

nötig, dass Lösungen auch schlechte Gebiete der Fitnesslandschaft durchlaufen, um bessere 

Gebiete zu finden. Wenn Lösungen, die sich momentan in solchen Tälern befinden, 

nicht überleben können, können gute Lösungen durchaus gar nicht erreicht werden. 

3. Für die räumliche Verteilung der Samen um eine Pflanze werden für jede Dimension 

zufällige Werte aus einer Normalverteilung mit Erwartungswert 0 und variierender 

Standardabweichung gezogen. Die Samen platzieren sich dadurch in der direkten Umgebung 

der Pflanze, man kann den Erwartungswert 0 als Mittelpunkt der räumlichen 

Samenverteilung ansehen. Die variierende Standardabweichung wird dabei von einem 

hohen Wert (= breite Normalverteilung) Generation für Generation zu einem kleinen 

Wert (= schmale Normalverteilung) verringert, so dass eine zuerst weitläufige Verteilung 

der Samen zu einer lokalen Verteilung der Samen führt, siehe Abbildung 3.14. Die 

folgende Formel gibt die Berechnung der Standardabweichung σ für Iteration (gleich- 

40


bedeutend mit einer Generation) iter an: 

σ iter = (iter max − iter) n 

(iter max ) 2 (σ initial − σ f inal ) + σ f inal 

mit iter max als maximale Anzahl der Iterationen, σ initial als Standardabweichung zu Beginn, 

σ f inal als Standardabweichung am Ende und σ iter als Standardabweichung zum 

aktuellen Zeitpunkt. n bestimmt den nicht-linearen Modulationsindex. 

4. Im letzten Schritt des Algorithmus muss die Anzahl der Pflanzen in der Population 

beschränkt werden. Sobald die vorab definierte maximale Anzahl der Pflanzen erreicht 

ist, werden alle Vaterpflanzen und deren evaluierte Samen nach Fitness sortiert und nur 

die besten p max -vielen Pflanzen oder Samen in die nächste Generation übernommen. 

Auf diesem Weg werden die besten Lösungen übernommen, egal ob es Pflanzen aus 

der vorherigen Generation sind die Samen abgelegt haben, oder es sich um Samen 

der aktuellen Generation handelt. Auf diese Weise wird immer in den Regionen des 

Lösungsraum gesucht, in denen die bisher besten Lösungen gefunden wurden. 

Abbildung 3.14: Anpassung der Normalverteilung für die Wahl der Zufallszahlen. Die Standardabweichung 

wird mit jeder Generation der Population verringert. 

max. Anzahl der Samen 

Anzahl der Samen dieser Pflanze 

min. Anzahl der Samen 

min. Fitness in der Population 

Fitness dieser Pflanze 

max. Fitness in der Population 

Abbildung 3.15: Funktion für die Anzahl der zu produzierenden Samen einer Pflanze. 

Das IWO Verfahren bietet sich an, wenn die zu optimierende Funktion viele lokale Optima 

besitzt, wie die Evaluation der Autoren in [51] gezeigt hat. Dort wurden drei Testfunktionen 

41


Symbol Beschreibung Wert 

N 0 Anzahl der Pflanzen zu Beginn 10 

iter max Maximale Anzahl Iterationen 500 

dim Dimensionen des Problems 22 

p max Maximale Anzahl an Pflanzen 30 

s max Maximale Anzahl an Samen/Pflanze 5 

s min Minimale Anzahl pro Samen/Pflanzen 0 

n Nichtlinearer Modulationsindex 3 

σ init Initialer Wert der Standardabweichung 10 

σ init Finaler Wert der Standardabweichung 0.02 

Tabelle 3.5: Empirisch bestimmte Parameter für die Griewank- und Rastriginfunktionen. 

untersucht, bei denen der IWO Algorithmus jeweils mit die besten Lösungen gefunden hat. 

Nur ein memetischer Algorithmus liefert für gewisse Parameter teilweise bessere Lösungen. 

Die Testfunktionen, namentlich Sphere, Griewank und Rastrigin, sind Minimierungsprobleme 

und sind wie folgt definiert: 

f (x) = 1 

4000 

f (x) = 

n 

∑ 

i=1 

f (x) = 

n 

∑ 

i=1 

x 2 i − 

n 

∑ xi 2 (3.4) 

i=1 

n 

( ) 

xi 

cos √ + 1 (3.5) 

i 

∏ 

i=1 

(x 2 i − 10 cos(2πx i ) + 10) (3.6) 

Diese Funktionen sind beliebte Benchmarks für Funktionsoptimierer und werden oft für die 

Evaluation von evolutionären Algorithmen verwendet. 

Für die Griewank- und Rastriginfunktion haben sich laut [51] die Parameter in Tabelle 3.5 

bewährt und lieferten die besten Lösungen für die jeweiligen Funktionen. Diese Parameter 

werden im späteren Kapitel 4.7 für die Implementierung des IWO-Algorithmus in einem 

Recommender als Basis verwendet. Für eine weitere Untersuchung des Verfahrens siehe dort. 

42

4 Recommender mit Schwarmintelligenz und 

evolutionären Algorithmen 

4.1 Idee und Motivation 

Schwarm- und evolutionäre Algorithmen sind metaheuristische Methoden um Funktionen 

zu optimieren. Sie werden erfolgreich eingesetzt, wenn nicht nach der einen besten Lösung 

gesucht wird, sondern nur nach einer hinreichend guten Lösung in jedoch vergleichsweise 

annehmbarer Zeit [22]. Damit ist es möglich eine Lösung zu finden, die zwar beispielsweise 

nur 80% der Güte der bestmöglichsten Lösung entspricht, jedoch in 10% der Zeit gefunden 

werden kann. Wenn diese Beschränkung für das zugrunde liegende Problem funktioniert und 

man mit nicht ganz optimalen Lösungen arbeiten kann, sind diese Methoden eine gute Wahl 

zur Optimierung von Funktionen. 

In Recommendersystemen werden für den aktiven Benutzer passende Empfehlungen für 

Items gesucht. Diese Bewertungen werden berechnet, indem eine möglichst ähnliche Gruppe 

von anderen Benutzern gefunden wird, die ihren Geschmack mit dem des aktiven Benutzers 

teilen. Die Suche nach solch einer Nachbarschaft kann mittels einem k-nearest-neighbor- 

Verfahren erfolgen, das zur Bestimmung der Ähnlichkeit zweier Benutzer ein vorher definiertes 

Abstandsmaß verwendet, beispielsweise die Pearson-Korrelation oder eine Minkowski- 

Metrik (Euklidische Metrik, Manhattan-Metrik, etc.). Wenn dieses Abstandsmaß, das die Profile 

(Charakteristiken) zweier Benutzer miteinander vergleicht, mit zusätzlichen Faktoren gewichtet 

wird, können für den aktiven Benutzer eventuell ähnlichere Benutzer gefunden werden, 

als es dies ohne Gewichte der Fall wäre. Dabei werden die für den aktiven Nutzer 

bevorzugten Eigenschaften (in einem Filmkontext z.B. Alter, Beruf, Genres der Filme) stärker 

gewichtet und somit eine persönlichere Auswahl der Nachbarschaft getroffen. 

Die Optimierung dieser Gewichte kann mit einem evolutionären oder schwarmbasierten Optimierungsalgorithmus 

vorgenommen werden, indem das gesamte Recommendersystem als 

Fitnessfunktion verwendet wird. Dabei spielt die Eigenschaft der nicht optimalen Lösungen, 

welche jedoch in angemessener Zeit berechenbar ist, eine wichtige Rolle. Eine Suche nach 

dem einen besten Gewicht ist aus zeitlichen Gründen oft nicht möglich. In Recommendersystemen 

mit vielen tausenden Benutzern und Produkten ist die Berechnung der Nachbarschaft 

sehr aufwendig und kann nicht für jeden Benutzer so oft wiederholt werden, bis das optimale 

Gewicht gefunden ist. Schwarm- und evolutionäre Algorithmen zur Optimierung von 

Funktionen können hier eingesetzt werden, um die Schätzung von Empfehlungen an einen 

Benutzer zu verbessern, ohne zeitliche Beschränkungen zu überschreiten. 

43

4 Recommender mit Schwarmintelligenz und evolutionären Algorithmen 

Klassische kollaborative Recommendersysteme betrachten nur die Bewertungen der Nutzer 

für Items. Weitere Informationen über die Nutzer und Items, wie zum Beispiel demografische 

Werte oder Beschreibungen der Items durch Genres, werden nicht in die Berechnung 

der Empfehlungen mit einbezogen. Durch die Berücksichtigung solcher Daten könnte ein 

Recommendersystem persönlichere Empfehlungen abgeben, da es neben den reinen Bewertungen 

auf Items auch die Charakterisierung des Nutzer kennt. Wenn diese Charakterzüge 

noch zusätzlich gewichtet werden, könnte es möglich sein, noch passendere Empfehlung zu 

erstellen. 

4.2 Ziel der vorgestellten Verfahren 

Ziel dieses Arbeit und der darin vorgestellten und erweiterten Verfahren ist die Verbesserung 

der Empfehlungsqualität eines kollaborativen Recommendersystems, die Untersuchung des 

durch den Datensatz und das Optimierungsverfahren entstehende Fitnesslandschaft sowie 

eine mögliche Verbesserung der Optimierungsverfahren durch zusätzliche in der Literatur 

vorgeschlagene Erweiterungen. 

Das hier besprochenen Verfahren sowie die Metriken zur Evaluation der Algorithmen betrachten 

immer alle bewerteten und unbewerteten Items des aktiven Benutzers und misst die 

Abweichungen aller Items, auch die der niedrigen Bewertungen. Es soll das grundlegende 

Modell eines Recommendersystems im Zusammenspiel mit Optimierungsverfahren betrachtet 

werden und diese den praxistypischen Überlegungen vorziehen. Ein Top-N Recommender 

ist beispielsweise nur daran interessiert, die die besten N Empfehlungen möglichst genau 

vorauszusagen. Er kann sich dabei größere Fehler bei irrelevanten Empfehlungen (eine zu 

niedrige Bewertung) leisten. 

Es wird von dieser Arbeit die Hypothese aufgestellt, dass die in einem Recommendersystem 

verwendeten Datensätze (Tupel aus und weiteren Eigenschaften 

von Items und Benutzern) eine sehr multimodale Fitnesslandschaft ergeben. Durch die 

große Anzahl an Benutzer, die sehr ähnlich oder unähnlich zu einander sein können, und die 

teilweise sehr unterschiedlich bewerteten Items, ist in den ersten Untersuchungen des Verfahrens 

diese Vermutung gewachsen. Es konnte in den ersten Testläufen kein festes Gewicht 

für einen Benutzer gefunden werden. Es ergeben sich für mehrere unabhängig durchgeführte 

Läufe jeweils unterschiedliche Gewichtsvektoren. Diese Eigenschaft muss von den eingesetzten 

Optimierungsalgorithmen beachtet werden, um nicht verfrüht in einem lokalen Optimum 

hängen zu bleiben. 

Eine solche Situation kann auftreten, wenn die verwendete Fitnessfunktion das zugrunde liegende 

Problem nicht komplett spezifiziert [23]. Dies ist in Recommendersystemen der Fall, 

da die Fitnessfunktion nur die Abweichung der geschätzten von den tatsächlichen Bewertungen 

wiedergibt und diese Abweichung (vermutlich) nicht auf einen theoretisch möglichen 

Minimalwert von 0 reduziert werden kann. 

44

4.3 Forschungsüberblick Recommender mit EA und SI 

4.3 Forschungsüberblick Recommender mit EA und SI 

In der Literatur sind in der Vergangenheit Recommendersysteme vorgeschlagen worden, die 

um biologisch motivierte Ansätze erweitert wurden. Im Folgenden wird eine chronologische 

Übersicht über diese Verfahren und ihre grundlegenden Ideen gegeben. 

Ujjin und Bentley [74] untersuchen ein kollaboratives Recommendersystem, dass die Suche 

nach ähnlichen Benutzern um einen genetischen Algorithmus erweitert. Der GA bestimmt 

dabei einen Gewichtsvektor für die einzelnen Präferenzen des aktiven Benutzer, der bei der 

Ähnlichkeitsbestimmung zwischen zwei Benutzern eingesetzt wird. Ujjin und Bentley [75] 

verwenden später das gleiche System mit einem Particle Swarm Optimization-Algorithmus 

(PSO). Dieses Verfahren dient auch als Grundlage für den in den kommenden Kapiteln vorgestellten 

Recommender. 

Lorenzi et al. [48] beschreiben ein Recommendersystem basierend auf case-based reasoning, das 

mit Hilfe von Bienenschwärmen und deren Futtersuchverhalten nach ähnlichen Fällen (cases) 

in einer vorab gefüllten Datenbank von bisher bekannten Fällen sucht. Es wird die Beobachtung 

verwendet, dass innerhalb von Bienenschwärmen die Position von guten Futterplätzen 

weitergegeben wird und in der Folge diese Stellen von mehr Bienen besucht werden, um die 

dort vorhandene Nahrung einzusammeln. Dieses Modell basiert auf einem von Burke [12] 

vorgeschlagenen Verfahren. 

Rad et al. [69] stellen ein System vor, dass die von Ujjin und Bentley [74, 75] vorgeschlagenen 

Verfahren umsetzt, jedoch die Optimierung der Gewichtsvektoren durch ein Optimierungsverfahren 

namens Invasive Weed Optimization [51] ersetzt, siehe dazu auch Kapitel 3.3. 

Bedi et al. [6] beschreibt ein auf Ant Colony Optimization (ACO) basierendes Recommendersystem. 

Das Verfahren gliedert sich in zwei Phasen: Zuerst werden ähnliche Benutzer in eine 

zuvor festgelegt Anzahl von Gruppen geclustert. Danach werden damit für den aktiven Benutzer 

geschätzte Empfehlungen generiert. Dabei wird auf das Cluster zurückgegriffen, dass 

diesem Nutzer am ähnlichsten ist. Zusätzlich wird auf die von den Ameisen in Phase 1 abgelegten 

Pheromonspuren zurückgegriffen, um alternative Cluster zu finden, die dem besten 

Cluster ähnlich sind bzw. auch häufig von den Ameisen besucht wurden. Auch die Benutzer 

in diesen Clustern werden für die Schätzung der Empfehlungen betrachtet. Damit soll verhindert 

werden, dass gute Empfehlungen nicht präsentiert werden, nur weil die ähnlichsten 

anderen Benutzer dieses Item bisher nicht betrachtet haben. 

4.4 Parallelisierung mit Clojure 

Alle Algorithmen wurden in Clojure 1 implementiert, einem modernen LISP-Dialekt. Clojure 

bietet eine robuste Infrastruktur für Mehrkern-Parallelisierung, die in dieser Arbeit in den 

Optimierungsalgorithmen eingesetzt wurde. Alle Fitnessevaluationen der Agenten (Partikel, 

1 http://clojure.org 

45


Individuen, Pflanzen) einer Generation werden parallel berechnet. Dadurch ist der Algorithmus 

stark skalierbar, da jeder zusätzliche CPU-Kern eine Beschleunigung des Verfahrens 

bedeutet. Eine Fitnessevaluation des Algorithmus entspricht einen kompletten Durchlauf des 

Recommendersystems für den aktiven Nutzer. Je nach Größe des Datensatzes und der damit 

verbundenen Anzahl der Benutzer benötigt eine Evaluation relativ lange, was durch die 

parallele Implementierung deutlich beschleunigt werden kann [42]. 

4.5 Particle Swarm Optimization Recommender (PSOREC) 

In diesem Abschnitt folgt eine Untersuchung des von Ujjin et. al. [75] vorgestellten Verfahrens. 

Zusätzlich zu den dort vorgestellten Ansätzen und Qualitätsmaßen zur Evaluation werden 

selbst entwickelte Verbesserungen und eine erweiterte Evaluation vorgestellt. Die folgende 

Beschreibung verwendet zur Darstellung des Ablaufs den MovieLens Datensatz, für Details 

siehe Abschnitt 5.1. 

4.5.1 Beschreibung des Verfahrens 

Das Verfahren implementiert ein hybrides Recommendersystem, das den Particle Swarm Optimization-Algorithmus 

(PSO) verwendet, um die Suche nach den ähnlichsten Benutzern zur 

Erstellung der Nachbarschaft zu verbessern. 

1. Schritt Es wird für jeden Benutzer ein Profil erstellt, das sich aus den von diesem Benutzer 

bewerteten Items (im MovieLens Datensatz sind dies Filme) zusammensetzt. Ein profile(u) 

für User u besteht, vorausgesetzt der Benutzer hat mehr als ein Item bewertet, aus mehreren 

Itemvektoren i, die wie in Abbildung 4.1 aufgebaut sind. Das Profil enthält neben der 

Rating Alter Geschlecht Beruf Genres des Films 

4 27 0 15 000101000100010001 

Abbildung 4.1: Profil eines bewerteten Films in einem Benutzerprofil. 

Bewertung für diesen Film auch die demografischen Werte des aktiven Benutzers sowie die 

18 möglichen Genres des Films als Bitmaske. Eine 1 gibt an, dass der Film in die jeweilige 

Kategorie passt. Alle Profilwerte werden vorab normiert, so dass alle Werte im Intervall [0, 1] 

liegen. 

profile(u,i) bezeichnet den von Benutzer u bewerteten Film i. In der Regel hat jeder Benutzer 

mehr als einen bewerteten Film und daher auch mehr als einen Itemvektor in seinem Profil. 

Im MovieLens Datensatz ist garantiert, dass jeder Benutzer mindestens 20 Filme bewertet hat. 

46


2. Schritt Im nächsten Schritt müssen die ähnlichsten Benutzer (die Nachbarschaft) zum aktiven 

Benutzer a bestimmt werden. Hierfür muss zuerst festgelegt werden, welche Benutzer 

in dieser Suche verwendet werden. Es ist oft der Fall, dass aus Performanzgründen nur eine 

Teilmenge zufällig gezogener Benutzer in die Nachbarschaftsberechnung eingeht. In dieser 

Arbeit werden alle Benutzer des Datensatzes verwendet, die Parallelisierung der Implementierung 

macht dies möglich. 

Nun folgt die Bestimmung der Nachbarschaft zum aktiven Benutzer a. Die meisten der bestehenden 

Recommendersysteme [31] verwenden für diese Berechnung nur die abgegebenen 

Bewertungen der Benutzer. Es ist im “echten Leben” aber häufig der Fall, das zwei Personen 

nicht nur deshalb ähnlich sind, weil sie bestimmte Items, z.B. Filme, gleich bewertet haben. 

Oft sind auch demografische Eigenschaften wie Alter, Geschlecht oder Beruf von Bedeutung. 

Beispielsweise könnte ein Benutzer viel mehr Wert darauf legen, was gleichaltrige Kinogänger 

von einem Film halten. Diese Präferenzen versucht das vorgeschlagene Verfahren einzufangen 

und in die Nachbarschaftsbestimmung mit aufzunehmen. Für diese Überlegung wird 

mit dem PSO Algorithmus ein Gewichtsvektor bestimmt, der jedes Feature im Profil eines 

Benutzers gewichtet, siehe Abbildung 4.2, um damit die Nachbarschaftsbestimmung persönlicher 

zu gestalten. Der Gewichtsvektor wird dabei wie folgt bestimmt: Der PSO generiert 

w 1 w 2 w 3 w 4 ... 

w 22 

Abbildung 4.2: Der Gewichtsvektor für den aktiven User. Jedes der 22 Gewichte beeinflusst 

die entsprechende Präferenz. 

n-viele zufällige 22-dimensionale Partikel und verwendet als Fitnessfunktion den gesamten 

Recommenderprozess. Je besser der Recommender mit einem gegebenen Partikel bzw. Gewicht 

abläuft, desto besser ist dieser Gewichtsvektor für den aktiven Benutzer geeignet. Die 

Details des hier verwendeten PSO Algorithmus werden im späteren Verlauf dieses Abschnitts 

erläutert. 

Der Recommenderprozess verwendet anschließend den Partikel bzw. Gewichtsvektor mit der 

höchsten Fitness in der Ähnlichkeitsbestimmung zweier Benutzer, genauer in der Berechnung 

des euklidischen Abstands zwischen zwei Benutzerprofilen: 

√ 

sim(a, u) = 

√ ∑ 

û∈Û 

22 

∑ w f · diff u, f 

(a, u) 2 (4.1) 

f =1 

mit diff i, f 

(a, u) als Differenz der Profilvektoren von User a und u für Feature f bei Item i und 

z als Anzahl der Filme, die beide Benutzer bisher bewertet haben. Dabei ist der Unterschied 

für das Feature Beruf gleich 0, wenn die beiden Benutzer denselben Beruf haben, und gleich 

1 sonst. 

47


Sobald die Nachbarschaft Û bestimmt ist, kann aus dieser Menge die Bewertung für ein Item 

i bestimmt werden, dass der aktive Benutzer a noch nicht bewertet hat. 

r ai = ¯r a + k ∑ sim(a, û) × (rûi − ¯rû) (4.2) 

û∈Û 

mit r ai als geschätztes Rating für User a auf Item i. Die Berechnung wurde von Breese et al. 

[29] übernommen und verwendet als Gewicht die eben bestimmten euklidischen Abstände 

(und damit auch den Gewichtsvektor), siehe dazu auch Formel 2.4 in Abschnitt 2.5.1 für den 

allgemeinen Fall ohne PSO Gewichte. 

Details zum verwendeten PSO Ujjin und Bentley [75] verwenden einen global best PSO 

Algorithmus mit Velocity Clamping, für Details siehe die ausführliche Beschreibung in Kapitel 

3.2. Die Partikel bewegen sich in einem 22-dimensionalen Raum, der den 22 Features in 

den Profilen entspricht. Die Positionswerte der Partikel bei der Initialisierung einer Dimension 

liegen zwischen 0 und 255. 

Die Fitnessfunktion für die Bewertung der Position eines Partikels ist sehr rechenintensiv. 

Jede Positionsänderung eines Partikels wird im PSO per Fitnessfunktion neu bewertet. Die 

Position eines Partikels wird dabei in einen Gewichtsvektor umgeschrieben (siehe unten) und 

damit das komplette Recommendersystem für diesen einen festgehaltenen Gewichtsvektor 

neu gestartet. Die Fitness, also die qualitative Güte eines Partikels, wird als mittlere absolute 

Abweichung (MAE, siehe Abschnitt 5.2.2) zwischen dem geschätzten und dem von diesem 

Benutzer wirklich abgegebenen Rating bestimmt. Dafür wird der Datensatz in Trainings- und 

Testdatensatz aufgeteilt. Auf dem Trainingsdatensatz wird das Gewicht für die Abstandsbestimmung 

berechnet. Anschließend werden für alle bewerteten Items des aktiven Benutzers 

im Testdatensatz (seine realen Bewertungen) die Bewertungen geschätzt und mit den 

tatsächlich abgegebenen Bewertungen verglichen. Der Mittelwert aller Abweichungen von 

geschätzten zu echten Bewertungen ergibt die Fitness eines Gewichtsvektors bzw. dessen zugeordneten 

Partikels. Eine hohe Abweichung der geschätzten Bewertungen von den echten 

Bewertungen entspricht einer niedrigen Fitness, eine kleine Abweichung einer hohen Fitness. 

Um aus einem Positionsvektor eines Partikels ein für den Recommender nutzbares Gewicht 

zu erzeugen, muss dieser zuerst normiert werden. Zusätzlich werden die 18 Genre-Features 

reduziert, da man diese Features als ein großes Feature mit 18 Kategorien deuten kann. Damit 

gibt man den ersten vier unabhängigen Features eine bessere Chance genutzt zu werden. Ujjin 

et al. verwenden in [75] eine Reduzierung auf 25% des Originalwerts. 

Details zu Trainings- und Testdatensatz für das PSOREC Verfahren Bei der Aufteilung in 

Trainings- und Testdatensatz in diesem Verfahren muss darauf hingewiesen werden, dass die 

einzelnen Testdatensätze (5 Stück, disjunkt zueinander, Aufteilung 80/20) für jeden Benutzer 

mindestens ein Datensample der Form 〈User, Item, Rating〉 enthält. Für genau diese Items 

werden vom Algorithmus die Bewertungen geschätzt und mit den echten Bewertungen im 

Testdatensatz per MAE verglichen. Das Resultat ist der Fitnesswert des jeweiligen Partikel. 

48


4.5.2 Vorgeschlagene Erweiterungen 

Mersenne Twister Die Methode (rand) der Clojure Bibliothek (bzw. die zugrunde liegende 

Java-Implementierung) verwendet eine lineare Kongruenzmethode zur Generierung von 

Pseudozufallszahlen: 

y i = (ay i−1 + b) mod m 

mit Modul m ∈ {2, 3, 4, · · · }, Faktor a ∈ {1, · · · , m − 1}, Inkrement b ∈ {1, · · · , m − 1} und 

Startwert y 1 ∈ {1, · · · , m − 1}. 

In der PSOREC Implementierung wird diese Methode durch den Pseudozufallszahlengenerator 

Mersenne Twister [50] ersetzt, der eine sehr lange Periode von 2 19937 − 1 besitzt und dessen 

Ausgabewerte hochgradig gleichverteilt sind, so dass die Korrelation zwischen 2 aufeinander 

folgenden Zufallszahlen sehr niedrig ist. 

In dieser Arbeit wird die Mersenne Twister Implementierung des ColtProjektes 2 verwendet. 

Auch die folgenden Verfahren (GAREC und IWOREC) verwenden diese Bibliotheken. 

Velocity Clamping Eberhart et al. [21] setzen den Wert für V max ursprünglich auf 10-20% 

des Wertebereichs der jeweiligen Dimension. Spätere Untersuchungen zu Trägheitsgewichten 

(siehe nächster Abschnitt) ergaben, dass bei Verwendung dieser Erweiterung der initiale Wert 

für V max fest auf das Maximum des Wertebereichs eingestellt werden kann. 

Ujiin et al. [74] machen keine Angabe für den von ihnen verwendeten Wert für V max . Zur 

Untersuchung der zugrunde liegenden 22-dimensionalen Fitnesslandschaft des Datensatzes 

wird in dieser Arbeit der Wert für V max schrittweise linear um einen Faktor β verringert, wenn 

in den letzten τ Iterationen keine Verbesserung der globalen Fitness beobachtet wurde: 

V max (t + 1) = 

{ 

βV max (t), f (ŷ(t)) ≥ f (ŷ(t − t ′ )) ∀t ′ = 1, · · · , τ 

V max (t), sonst 

Der Grund für diese Verringerung ist folgender: Wenn alle Partikel eine maximale Geschwindigkeit 

von V max hätten, würden die Partikel den Merkmalsraum nicht mehr normal durchsuchen, 

sondern würden sich nur an den Rändern eines Hyperkubus, definiert durch [x i − 

V max , x i + V max ], bewegen und nicht mehr von diesen Stellen abweichen. Durch die schrittweise 

Verringerung von V max wird dieses Problem behoben. 

Die Verwendung eines Trägheitsgewichts (auch inertia weight genannt), ist eine weitere Möglichkeit 

zur Vermeidung des eben geschilderten Problems. Beide Methoden können nebeneinander 

eingesetzt werden, um das Verhältnis zwischen Exploration und Exploitation zu 

steuern. 

Trägheitsgewicht Ujjin et. al. [75] verwenden für das Trägheitsgewicht w einen zufälligen 

Wert zwischen 0.5 und 1.0. Weitere Angaben zur genaueren Wahl werden nicht gemacht. 

2 http://acs.lbl.gov/~hoschek/colt/ 

49


Erberhart et al. [21] schlägt eine schrittweise lineare Verringerung von 0.9 nach 0.4 für w vor, 

die folgendermaßen umgesetzt werden kann: 

w(t) = (w(0) − w(n t )) (n t − t) 

n t 

+ w(n t ) (4.3) 

mit n t als Gesamtanzahl der Iterationen des entsprechenden Laufs, w(0) als Startwert und 

w(n t ) als Endwert für w. 

Eine weitere Möglichkeit ist die zufällige Anpassung von w. Entweder wird w aus einer 

Gauss’schen Normalverteilung N(0.72, σ) gezogen, mit σ klein genug das w deutlich größer 

1 ist. Der Erwartungswert von 0.72 entspricht dem Vorschlag von Clerc [16], mehr dazu im 

weiteren Verlauf dieses Abschnitts. Oder w wird über die Zufallszahlen und Konstanten des 

wie folgt PSO berechnet: 

w = (c 1 r 1 + c 2 r 2 ). (4.4) 

Clerc [16] schlägt in seiner Arbeit eine Alternative zum Trägheitsgewicht vor, bei dem die 

Geschwindigkeiten im PSO durch einen Faktor χ beschränkt werden. Diese Faktor stellt die 

Konvergenz des Partikelschwarms sicher und wird wie folgt berechnet: 

v ij (t + 1) = χ[v ij (t) + c 1 r 1j (t)(y ij (t) − x ij (t)) + c 2 r 2j (t)(ŷ j (t) − x ij (t))] (4.5) 

wobei 

mit φ = c 1 r 1 + c 2 r 2 und κ ∈ [0, 1]. 

χ = 

2κ 

|2 − φ − √ φ(φ − 4)| 

Eberhart et al. [21] nutzen diese Theorie und geben konkrete Werte für w, c 1 und c 2 an: 

0.5 + rand 

w = 

2.0 

(4.6) 

c 1 = c 2 = 1.494 (4.7) 

mit rand als Zufallszahl im Intervall [0.5, 1.0] mit Erwartungswert 0.75, was in etwa den oben 

genannten Untersuchungen von Clerc entspricht. 

Beschleunigungskoeffizienten Für die Beschleunigungskoeffizienten c 1 und c 2 in Formel 

3.1 wählt Ujjin et. al. jeweils den Wert 1.494. Diese beiden Koeffizienten bestimmen, 

wie stark die Partikel in Richtung der globalen und lokalen besten Position gezogen werden. 

Niedrige Werte erlauben, dass sich die Partikel weiter von der Zielposition entfernen dürfen, 

höhere Werte bewirken, dass sich Partikel schnell in Richtung des Ziels bewegen. Die Wahl 

des Wertes 1.494 stützt sich auf die Untersuchungen von Eberhart et al. [21] bzw. Clerc [16], 

dessen Beschränkungsfaktor schon besprochen wurde. Ein Nebenprodukt der Berechnung 

dieses Faktors sind konkrete Werte für c 1 und c 2 , die laut Eberhart [21] problemunabhängig 

eingesetzt werden können und empirisch gute Lösungen ergeben haben. 

50


Die einzelnen Partikel ziehen ihre Stärke aus der (impliziten) Zusammenarbeit des ganzen 

Schwarms und arbeiten am besten zusammen, wenn c 1 ≈ c 2 , also wenn die kognitive Komponente 

eines Partikels ähnlich wie die soziale Komponente gewichtet ist. Die Geschichte 

eines Partikels ist ähnlich wichtig ist wie der Neid auf die besten Positionen im Schwarm. 

Wenn c 1 ≫ c 2 , wird der Partikel mehr von der bisherigen besten Position geleitet, was in 

einer intensiveren Untersuchung des eigenen Umfeldes resultiert. Diese Variante bietet sich 

bei multimodalen Fitnesslandschaften an. Wenn c 1 ≪ c 2 , werden die Partikel schneller in 

Richtung des globalen Optimums gezogen, was eine verfrühte Konvergenz zu folgen haben 

könnte. Diese Variante bietet sich daher bei flachen, unimodalen Fitnesslandschaften an. 

Wenn in Recommendersystemen eine multimodale Fitnesslandschaft mit sehr vielen in etwa 

gleich großen lokalen Optima vorliegt, wählt man die Werte für c 1 und c 2 in etwa gleich, 

mit einer leichten Bevorzugung der c 1 -Komponente. Dies könnte die Auswirkung haben, das 

unter all diesen lokalen Optima das wirkliche globale Optima (falls überhaupt vorhanden) 

gefunden wird. 

Random Resetting und Konvergenz Der in Abschnitt 3.2 vorgestellte multi-start PSO wird 

im PSOREC Algorithmus wie folgt implementiert: Alle τ Iterationen werden n-viele Partikel 

auf eine zufällig gewählte neue Position gesetzt. Der Geschwindigkeitsvektor bzw. die 

bisherige Richtung des Partikels wird in allen Dimensionen neu initialisiert, entweder mit 

Zufallszahlen oder konstant mit 0. Eine Untersuchung beider Varianten sowie die Empfehlung 

für konkrete Werte für τ und n folgt in Kapitel 5.3.3. 

Engelbrecht [23] zeigt, dass der klassische PSO Algorithmus nicht mit Sicherheit eine globale 

sowie lokale Konvergenz der Partikel herbeiführen kann. Jedoch kann durch Modifikationen 

am klassischen Verfahren solch einen Zustand herbeigeführt werden. Engelbrecht [23] zeigt 

einige Varianten dafür, darunter auch der Multi-start PSO Algorithmus, der eine garantierte 

globale Konvergenz verspricht. 

Es wird in dieser Arbeit der Multi-start Ansatz verwendet, um die Suche nach dem globalen 

Optimum im Problemraum des Recommendersystems zu verbessern. Es wird erwartet, dass 

damit neue Bereiche im Problemraum entdeckt werden, die ohne Rücksetzen sonst nicht 

erreicht werden könnten. Konkret wird die Methode von Van der Bergh [8] verwendet, die 

die oben genannten zufällige Zurücksetzung mancher Partikel implementiert. 

Abstandsmaße Ujiin et al. [75] verwenden eine um einen Gewichtsvektor modifizierte euklidische 

Abstandsfunktion, siehe Formel 4.1. Es existieren jedoch noch weitere Möglichkeiten 

eine Ähnlichkeit zwischen zwei Benutzern bzw. Vektoren zu bestimmen. 

In dieser Arbeit werden alternative Möglichkeiten vorgeschlagen. Es wird die gewichtete 

Kosinusähnlichkeit eingesetzt, um bei der Bestimmung der Nachbarschaft die ähnlichsten 

Benutzer zum aktiven Benutzer zu finden: 

51


⎛ 

sim(u, v) = 1 

|I uv | · 

⎜ ∑ ⎝ 

i∈I uv 

⎞ 

n 

∑ w u f 

p ui f 

p vi f 

f =1 

√ √ n∑ 

n∑ ⎟ 

w u f 

p 2 ui 

w u f f 

p 2 ⎠ 

vi f 

f =1 

f =1 

(4.8) 

mit n als Anzahl der Features, p ui als Profil des Benutzer u für Item i sowie p vi als Profil des 

Benutzers v für Item i und w u als Gewichtsvektor des Users u. 

Die Idee, die dieser Formel zugrunde liegt, ist, dass die Ähnlichkeit zweier Benutzer als 

Mittelwert der Ähnlichkeiten aller gemeinsamen Items gebildet wird. Dabei wird für alle 

gemeinsamen Items I uv zweier Benutzer u und v jeweils zuerst die Ähnlichkeit der (Item- 

)Profile berechnet und anschließend der Mittelwert dieser Werte bestimmt. 

Eine weitere Möglichkeit, die mit dem gleichen Grundgedanken entwickelt wurde, ist die 

Verwendung der gewichteten Pearson-Korrelation: 

⎛ 

sim(u, v) = 1 

|I uv | · 

⎜ ∑ ⎝ 

i∈I uv 

⎞ 

n 

∑ w u f 

(p ui f 

− ¯p ui )(p vi f 

− ¯p vi ) 

f =1 

√ √ n∑ 

n∑ 

⎟ 

w u f 

(p ui f 

− ¯p ui ) 2 w u f 

(p vi f 

− ¯p vi ) 2 ⎠ 

f =1 

f =1 

mit ¯p ui als Mittelwert der Elemente des Vektors p für Item i und User u. Im Gegensatz zum 

euklidischen Abstand bedeutet hier ein Wert von 1 eine perfekte Ähnlichkeit. Dies ist bei der 

Implementierung und der Bestimmung der Nachbarschaft zu beachten. 

Es wurden die Maße durch einen entsprechenden Gewichtsvektor des Benutzers u erweitert, 

der die einzelnen Features je nach Vorlieben des Benutzers gewichtet und somit eine genauere 

Auswahl der Nachbarschaft erlaubt. 

Die Wahl dieser Abstandsmaße gegenüber dem euklidischen Abstand, der von Ujjin und 

Bentley [75] für dieses Verfahren vorgeschlagen wurde, begründet sich darin, dass die Pearson 

Korrelation und die Kosinusähnlichkeit in der Literatur durchweg bessere Ergebnisse erzielt 

haben als ein euklidischer Abstand [1]. Die gewichteten Varianten sind in dieser Form in 

Recommendersystemen, nach dem besten Wissen des Autors, noch nicht eingesetzt worden 

sind. 

(4.9) 

Wahl der Nachbarschaft Zaier et al. [78] untersucht die Auswirkung der Nachbarschaftsgröße 

auf die Empfehlungsqualität. Es wird gezeigt, dass ab einer Größe von ungefähr 50% 

der gesamten Benutzer des Systems keine deutliche Verbesserung der mittleren Abweichung 

des Schätzungen mehr beobachtbar ist. 

In dieser Arbeit wird eine andere Grenze für die Anzahl der Benutzer in der Nachbarschaft 

verwendet, da ein fester Wert immer auch User mit einbeziehen kann, die nur eine geringe 

Ähnlichkeit zum aktiven User haben. Auch wenn deren Gewicht in der Schätzung der Bewertung 

(siehe Gleichung 4.2) sehr niedrig ist, kann bei der Aufnahme vieler solcher Benutzer 

52

4.6 Genetic Algorithm Recommender (GAREC) 

die Empfehlung durchaus verfremdet werden. Daher wird in dieser Arbeit unter anderem 

ein Verfahren angewandt, dass nur die überdurchschnittlich ähnlichsten User betrachtet. 

Zuerst wird der Mittelwert aller Abstände vom aktiven Benutzer zu allen anderen Benutzern 

bestimmt. Wenn nun der Abstand eines Benutzers gleich oder kleiner als der Mittelwerts 

ist, wird er in die Nachbarschaft aufgenommen. Eine Untersuchung der Auswirkung dieser 

Maßnahme sowie alternative Werte für die Grenze erfolgt in Abschnitt 5.3.3. 

Untersuchung des globalen Optimum mit einem künstlichen Datensatz Die vermutlich 

dicht mit lokalen Optima durchsetzte Fitnesslandschaft soll mit einem künstlich erzeugten 

bzw. einer künstlich veränderten Variante des originalen Datensatzes untersucht werden. Es 

werden in verschiedenen Kombinationen Features aus dem originalen Datensatz entfernt und 

anschließend in Testläufen untersucht, wie sich diese Änderungen auf die Empfehlungsqualität 

und die weiteren Evaluationsmetriken auswirken. Vielleicht lässt sich aus den so gewonnenen 

Daten eine Erklärung für das Verhalten der ermittelten Gewichtsvektoren finden. 


Das nun folgende Verfahren verwendet das gleiche Recommendersystem wie in Abschnitt 4.5. 

Jedoch wird für die Bestimmung und Optimierung des Gewichtsvektors ein genetischer Algorithmus 

verwendet [74]. Zusätzlich wurde eine Variante implementiert, die Eigenschaften 

der Evolution Strategies umsetzt. 


Das verwendete Recommendersystem entspricht dem aus Abschnitt 4.5.1. Der dort verwendete 

Particle Swarm Optimierer wurde durch den hier vorgestellten genetischen Algorithmus 

ersetzt. Alle weiteren Details bleiben gleich und können im genannten Abschnitt nachgelesen 

werden. 

Details zum verwendeten GA Der genetische Algorithmus verwendet ein elitäres Auswahlverfahren 

für die Individuen der nächsten Generation, indem immer die besten 25% der Population 

in die nächste Generation übernommen werden, egal ob sie aus der Menge der 

Eltern µ oder der Menge der Nachkommen λ stammen. Es soll damit sichergestellt werden, 

dass keine guten Lösungen verworfen werden. Dies ist beispielsweise bei EAs der Fall, bei 

denen die komplette Kindgeneration die Elterngeneration ersetzt. Da wir an einer optimalen 

Lösung interessiert sind, die die Empfehlungsqualität möglichst optimiert und es egal ist, 

in welchen Bereichen des Lösungsraums diese gefunden wurden, sollte diese Strategie von 

Vorteil sein. 

Für die Wahl der Eltern in der Rekombination werden aus den besten 40% der Population zufällig 

Elternpaare gezogen. Die von diesen Paaren erzeugten Nachkommen werden immer per 

53


Rekombination erstellt (Wahrscheinlichkeit 1.0) und anschließend mit einer Wahrscheinlichkeit 

von 0.03 (pro Gen) einer Mutation unterzogen. Für die Rekombination wird ein one-point 

crossover Ansatz verwendet. Bei der Mutation wird jedes Gene mit der oben angegebenen 

Wahrscheinlichkeit negiert (bit-flip). Die Wahl der Wahrscheinlichkeiten für Crossover und 

Mutation wird im nachfolgenden Abschnitt genauer untersucht. 

Jedes Gen eines 22-stelligen Chromosom wird durch eine 8-bit Darstellung repräsentiert. Jedes 

Gen kann einen dezimalen Wert von 0 bis 255 annehmen. 


Mutations- und Rekombinationswahrscheinlichkeit Wenn eine neue Lösung erzeugt wird, 

verwenden Ujjin et al. [74] den Rekombinationsoperator zu 100% und die Mutation eines einzelnen 

Gens in 3% aller Fälle. Ob die letztere Entscheidung richtig ist, oder ob ein höherer 

Wert die Empfehlungsqualität verbessern könnte, soll untersucht werden. Da die Fitnesslandschaft 

vermutlich stark multimodal ist, wird vermutet, dass eine höhere Mutationswahrscheinlichkeit 

helfen könnte, aus lokalen Optima auszubrechen und die lokale Exploitation 

breiter zu gestalten. 

Fitness Sharing und Crowding In einer multimodalen Fitnesslandschaft existieren viele 

Punkte, die eine höhere Fitness besitzen als alle anderen benachbarten Punkte, jedoch nicht 

dem globalen Maximum entsprechen. In den Bereichen zwischen diesen Punkten kann man 

durch Trennlinien Täler mit unterschiedlicher Anziehungskraft (basins of attraction) beschreiben, 

welche Lösungen, die auf der einen Seite liegen, zum Optimum auf dieser Seite wandern 

lassen. Die dadurch entstehenden lokalen, nicht direkt miteinander verbundenen Optima 

nennt man, motiviert durch den biologischen/evolutionären Hintergrund, Nischen. Für ein 

Beispiel siehe auch Abbildung 4.3. Es ist möglich, dass sich eine Population in einer nicht global 

optimalen Region festsetzt und diese nicht durch Rekombination und Mutation verlassen 

kann, da sie es nicht schafft, die eigene Nische zu verlassen und das Tal der unterschiedlichen 

Anziehungskraft zu überwinden. 

Wenn für ein gegebenes Problem eine multimodale Fitnesslandschaft vorliegt, kann man das 

beschriebene Verhalten vermeiden bzw. vermindern, indem man verschiedene implizite oder 

explizite Ansätze verwendet. Implizite Ansätze erzwingen kein entsprechendes Verhalten, 

das die Vielfältigkeit der Lösungen (also eine weitreichende Ausbreitung in der Fitnesslandschaft) 

garantiert. Explizite Ansätze nehmen dagegen Veränderungen vor, die die Population 

zwingen, sich in der Fitnesslandschaft auszubreiten. Implizite Methoden werden hier nicht 

verwendet, für eine Übersicht siehe Eiben et al. [22]. Bei expliziten Methoden sind zwei Varianten 

bekannt, die hier untersucht werden: Crowding und Fitness Sharing. 

Fitness Sharing kontrolliert die Anzahl der Individuen innerhalb einer Nische, indem sie vor 

den Selektionen die Fitness aller Individuen anpasst. Je fitter eine Nische ist, desto mehr 

Individuen werden ihr zugeordnet. Zwischen allen Individuen der Population wird paarweise 

der Abstand berechnet (auch der Abstand zu sich selbst) und die Fitness anschließend 

54


Nische 

Basin of Attraction 

Abbildung 4.3: Eindimensionale Landschaft mit drei Optima. Das mittlere Optimum mit dem 

kleinsten Basins of Attraction ist das globale Optimum, das linke Optimum 

weist die größte Nische auf. 

je nach Anzahl der Individuen, die innerhalb eines definierten Abstandes liegen, angepasst. 

Diese Neuberechnung der Fitness wird wie folgt durchgeführt: 

F ′ (i) = 

F(i) 

∑ j sh(d(i, j)) 

mit Sharing-Funktion sh und Abstandsmaß d, das je nach Repräsentation gewählt wird. Die 

Sharing-Funktion sh wird definiert durch 

sh(d) = 

{ 

1 − ( 

d 

σ share 

) α f alls d ≤ σ share , 

0 sonst. 

α bestimmt die Form der Sharing-Funktion, z.B. für α = 1 ist die Funktion linear, für größere 

Werte nimmt die Reduzierung der Fitness mancher Individuen schneller ab. 

Bei der Crowding-Methode generieren zwei Eltern Nachkommen per Rekombination und Mutation, 

die anschließend evaluiert werden. Diese vier paarweisen Abstände zwischen Eltern 

und Kindern werden berechnet. Jedes der Kinder tritt in einem Wettbewerb gegen das Elternteil 

an, dem es am ähnlichsten ist. Formell ausgedrückt muss d(p 1 , o 1 ) + d(p 2 , o 2 ) < 

d(p 1 , o 2 ) + d(p 2 , o 1 ), mit p als Eltern und o als Kinder, minimiert werden. 

Dieses Auswahlverfahren stellt sicher, dass Subpopulationen innerhalb von Nischen bestehen 

bleiben, ihre Größe aber nicht abhängig von der Fitness ist. Die Subpopulationen verteilen 

sich dabei gleichmäßig auf die bestehenden Nischen, siehe Abbildung 4.4. 

Recommendersystem Es wird das gleiche Recommendersystem verwendet wie im vorherigen 

Abschnitt, so dass auch hier die gleichen Fragestellungen wie zuvor untersucht werden. 

Wenn sich spezielle Unterschiede ergeben, wird gesondert darauf hingewiesen. 

55


6 

f(x) 

5 

4 

3 

2 

1 

x 

xx 

x x 

xx x x 

x 

x x 

0 

0 1 2 3 x 4 5 6 

6 

f(x) 

5 

4 

3 

2 

1 

xxx 

xxx 

x x x 

xxx 

x x x 

s 

0 

0 1 2 3 x 4 5 6 

Abbildung 4.4: Effekt der expliziten Methoden bei multimodalen Landschaften auf die Verteilung 

der Individuen in verschiedene Nischen. Oben Fitness Sharing, unten 

Crowding. 

4.6.3 Variante: Selbstanpassung der Mutationsschritte und Evolution 

Strategies 

Wie in Abschnitt 6.2.1 angesprochen, kann zur besseren Untersuchung der Fitnesslandschaft 

durch den genetischen Algorithmus eine Anpassung der Mutationsschritte verwendet werden. 

Diese Idee ist das Alleinstellungsmerkmal der Evolution Strategies, es lässt sich jedoch 

auch in jedem anderen EA Verfahren einsetzen. Da im Invasive Weed Optimierer Ähnlichkeiten 

zu den anpassenden Mutationsschritten eines ES beobachtet werden konnten und sich die 

Frage stellt, wie sich das vorgestellte GA Verfahren mit solchen angepassten Mutationsschritten 

verhält, soll nun das GA Verfahren um ein solches Feature erweitert und anschließend 

mit den bestehenden Verfahren verglichen werden. 

GA mit anpassenden Mutationsschritten Der in den vorherigen Abschnitten vorgestellte 

GA (GAREC) wird übernommen, jedoch wird die Mutation durch eine ES-typische, anpassende 

Mutation ersetzt, sowie die Repräsentation und Rekombination entsprechend angepasst, 

siehe auch Abbildung 4.5. Alle anderen Operatoren und Parameter bleiben gleich. 

Damit soll untersucht werden, wie sich der GA mit anpassenden Mutationsschritten auf dem 

Recommenderdatensatz verhält und ob damit eine positive oder negative Veränderung der 

Empfehlungsqualität beobachtet werden kann. 

56


Individuum 

Chromosome (Phenotyp) 

0.2 0.6 0.3 0.1 0.8 0.7 ... 0.1 

0 1 2 3 4 5 21 

Mutationsschritte 

3.2 5.6 1.3 4.5 2.1 6.2 ... 5.0 

0 1 2 3 4 5 21 

Abbildung 4.5: Angepasste Repräsentation eines Individuums für den GA mit anpassenden 

Mutationsschritten. Es wurden zusätzliche Informationen für die Mutationsschrittweiten 

hinzugefügt. 

Die Rekombination zweier Chromosome und Mutationsschritte wird ES-typisch per diskretem 

Crossover implementiert. Dafür wird jedes Gen zufällig aus einem der Elternteile übernommen. 

Dies entspricht dem uniformen Crossover klassischer GA-Verfahren. 

z i = x i oder y i zufällig 

für alle i ∈ {1, · · · , n} mit z i als neues Kind, x i und y i als Eltern. 

Die Mutation mit n unterschiedlichen Mutationschritten ist die klassische Mutationsmethode 

der Evolution Strategies. Die Motivation dabei ist, dass unterschiedliche Dimensionen bei der 

Mutation unterschiedlich behandelt werden, sprich es sollen für die einzelnen Features/Gene 

unterschiedliche Mutationsschrittweiten verwendet werden. Dabei wird jedes Chromosome 

〈x 1 , · · · , x n 〉 durch Mutationsschrittweiten erweitert, für jede Dimension genau eine, was zu 

einem neuen Chromosom 〈x 1 , · · · , x n , σ 1 , · · · , σ n 〉 führt. Die Mutation wird dann wie folgt 

berechnet: 

σ ′ i = σ i · e τ′·N(0,1)+τ·N i (0,1) 

(4.10) 

x ′ i = x i + σ ′ i · N i(0, 1) (4.11) 

mit τ ′ ∝ 1/ √ 2, τ ∝ 1/ √ 2 √ n und N(0, 1) als Zufallszahl aus einer Normalverteilung mit 

Erwartungswert 0 und Standardabweichung 1 bzw. τ, da gilt N(0, τ) = τ · N(0, 1). Zusätzlich 

wird eine Schranke eingebaut, die Standardabweichungen nahe Null verhindert: 

σ ′ i < ɛ 0 ⇒ σ ′ i = ɛ 0 . 

Jedes neue σ hat dabei seine eigene Zufallszahl aus N i (0, 1) und eine globale Zufallszahl für 

dieses Chromosom, N(0, 1), die nur einmal pro Mutation gezogen wird. Die erste Komponente 

erlaubt eine globale Mutation in alle Richtungen, während die zweite Komponente die 

57


Symbol Beschreibung Wert 

N 0 Anzahl der Pflanzen zu Beginn 10 

iter max Maximale Anzahl Iterationen 500 

dim Dimensionen des Problems 22 

p max Maximale Anzahl an Pflanzen 30 

s max Maximale Anzahl an Samen/Pflanze 3 

s min Minimale Anzahl pro Samen/Pflanzen 0 

n Nichtlinearer Modulationsindex 3 

σ init Initialer Wert der Standardabweichung 25 

σ init Finaler Wert der Standardabweichung 0.02 

Tabelle 4.1: IWO Standardparameter für den IWOREC-Algorithmus. 

Flexibilität bietet, verschiedene Mutationsstrategien in verschiedene Richtungen anzuwenden, 

siehe dazu Eiben et al. [22]. 

4.7 Invasive Weed Optimization Recommender (IWOREC) 

Es soll nun ein Recommendersystem vorgestellt werden, dass zur Optimierung der Gewichtsvektoren 

eines Benutzers das Invasive Weed Optimization-Verfahren verwendet [69], welches in 

Abschnitt 3.3 beschrieben wird. Es wird wieder das bekannte Recommendersystem aus Abschnitt 

4.5.1 eingesetzt. 


Um die bisher vorgestellten Optimierungsverfahren PSO, GA und die GA-Variante mit EStypischer 

Mutation im Kontext eines Recommendersystems besser vergleichen zu können, 

wird dieses dritte, alternative Optimierungsverfahren implementiert. Es zeigt eine große Ähnlichkeit 

mit einem klassischen genetischen Algorithmus, unterscheidet sich aber in den Details 

deutlich. Siehe dazu auch die Besprechung in Abschnitt 6.2. 

Details zum verwendeten IWO Das IWO Verfahren ist ein relativ neues und im Detail 

bisher bei weitem nicht so intensiv untersuchtes Verfahren wie zum Beispiel Particle Swarm 

Optimization oder evolutionäre Algorithmen. Daher werden keine Erweiterungen der Standardmethoden 

besprochen und untersucht, wie es bei den bisherigen Methoden der Fall war. 

Untersucht werden dennoch die einzelnen Parameter, die einen großen Einfluss auf die Leistung 

des Algorithmus haben, auf das globale Optimum zu konvergieren. 

In Tabelle 4.1 werden die Parameter aufgeführt, die als Ausgangswerte für die Untersuchung 

verwendet werden. Sie gleichen im Prinzip denen in Tabelle 3.5, sind jedoch auf die Problemstellung 

des Recommendersystems angepasst bzw. auf den verwendeten Datensatz und 

deren Wertebereiche. 

58

4.7 Invasive Weed Optimization Recommender (IWOREC) 


Parameterwahl Der initiale Wert für die Standardabweichung bestimmt die Größe der Umgebung, 

in die neue Samen abgelegt werden. Dieser Wert gibt direkt an, in welchen Maßstab 

die Exploration zu Beginn des Algorithmus durchgeführt wird. In der IWOREC Implementierung 

wird jede Dimension zu Beginn zufällig mit einem Wert zwischen 0 und 255 initialisiert. 

Es ist wichtig, dass die Standardabweichung für die Normalverteilung diesem Parameter angepasst 

wird. Initial wird ein Wert von 25 verwendet, um einen relativ großen Bereich der 

Fitnesslandschaft abzudecken. 

Es ist zu beachten, dass ein neu generierter Samen den initialen Wertebereich einer Dimension, 

hier konkret [0, 255], durchaus verlassen kann. Dies ist der Fall, wenn beispielsweise auf 

einen Wert nahe 0 eine große negative Zufallszahl aus der Normalverteilung addiert wird. 

Auch die maximale und minimale Anzahl an Samen, die eine Pflanze produzieren kann, 

soll untersucht werden. Ein minimaler Wert von 0, der in [51] vorgeschlagen wird, ist auch 

im Kontext der Recommendersysteme ein sinnvoller Wert. Damit verhindert man zwar, das 

sehr schlechte Pflanzen Nachkommen erzeugen und widerspricht damit den Überlegungen 

in Abschnitt 3.3, Schritt 2 im Algorithmus. Da es aber immer noch Pflanzen gibt, die eine 

vergleichsweise schlechte Fitness haben, aber ≥ 0 Samen produzieren, gelten die dortigen 

Überlegungen weiterhin. 

Eigenschaften von GAs in IWO Da das IWO-Verfahren einem klassischen GA und ES sehr 

ähnelt, soll untersucht auch werden, inwiefern man Erweiterungen und Parameter dieser 

Verfahren übernehmen kann. 

Eine nahe liegende Erweiterung wäre, das man die Wahl der Überlebenden verändert, indem 

nicht wie bisher nur die besten p max Pflanzen übernommen werden, sondern eine der 

Strategien der klassischen evolutionären Verfahren verwendet wird, z.B. alters-basierte oder 

fitness-basierte Ersetzung. In dieser Arbeit wurde die Implementierung einer Fitness Proportional 

Selection eingesetzt, die Individuen mit höherer Fitness eine größere Chance gibt, in 

die nächste Generation übernommen zu werden. Dieser Ansatz ersetzt nicht zwingend alle 

schlechten Pflanzen, sondern lässt mit einer kleinen Wahrscheinlichkeit auch schlechtere 

Lösungen überleben. Dies steht im Sinne der schon besprochenen Überlegung, dass auch 

schlechtere Lösungen, die vielleicht sehr gute Lösungen in sich tragen, übernommen werden 

sollen (Abschnitt 3.3, Schritt 2). 

59


60

5 Evaluationsmethoden und Experimente 

In diesem Kapitel werden die in Kapitel 4 vorgestellten Verfahren experimentell untersucht. 

Die dabei verwendeten Maße werden zuerst vorgestellt, sowie eine Beschreibung des Ablaufs 

der Experimente aufgezeigt. Zusätzlich wird der verwendete Datensatz und dessen Eigenschaften 

beschrieben. 

5.1 Datensatz 

Für die Evaluation der Algorithmen wird der Datensatz MovieLens 1 der Universität von Minnesota 

eingesetzt. Dieser Datensatz ist in der Forschungsgemeinde zu Recommendersystemen 

verbreitet und wird oft für die Evaluation von neuen Verfahren verwendet. Neben diesem Datensatz 

ist noch der Datensatz des Netflix Grand Prize 2 des Online-DVD-Verleihers Netflix, der 

Jester Datensatz 3 mit Bewertungen zu Witzen, der Book-Crossing Datensatz 4 mit Buchbewertungen 

und der EachMovie Datensatz für Filme in der Literatur verwendete Datensätze. Der 

EachMovie Datensatz wird jedoch seit 2004 nicht mehr gepflegt und kann nicht mehr aus 

offizieller Quelle bezogen werden. 

MovieLens Der MovieLens ist in drei verschiedenen Varianten erhältlich, die sich jeweils 

nur in der Anzahl der abgegebenen Ratings, User und Filmen unterscheiden. Der Grundaufbau 

des Datensatzes ist bei allen Varianten derselbe. 

Der Hauptdatensatz, siehe Tabelle 5.1, enthält jeweils einen Benutzer, der von diesem Benutzer 

bewertete Film, die entsprechende Bewertung und einen Zeitstempel. Für jeden Benutzer 

sind in einer weiteren Tabelle die jeweiligen demografischen Daten abgelegt, siehe Tabelle 5.2. 

Für jeden Film sind dessen Details wie in Tabelle 5.3 abgelegt. Die Genre werden durch eine 

Bitmaske definiert, eine 1 bedeutet der Film ist diesem Genre zugeordnet, bei einer 0 nicht. 

Ein Film kann zu mehreren Genres gehören. 

Nicht alle Daten dieses Datensatzes wurden verwendet. Die Postleitzahl, der Zeitstempel 

sowie das Veröffentlichungsdatum des Film (nicht in Tabelle 5.3 aufgeführt) werden nicht in 

den hier vorgestellten Recommendersystemen verwendet, da diese Daten sich nicht für die 

in Kapitel 4 vorgestellten Methoden eignen. Der Zeitpunkt der Bewertungsabgabe sowie die 

Veröffentlichung des Film sagt nichts über die Präferenz eines Benutzer zu einem Item aus. 

1 http://grouplens.org/node/73 

2 http://archive.ics.uci.edu/ml/datasets/Netflix+Prize 

3 http://eigentaste.berkeley.edu/dataset/ 

4 http://www.informatik.uni-freiburg.de/~cziegler/BX/ 

61


Benutzer ID Film ID Rating Zeitstempel 

196 242 3 881250949 

186 302 3 891717742 

22 377 1 878887116 

244 51 2 880606923 

166 346 1 886397596 

298 474 4 884182806 

115 265 2 881171488 

253 465 5 891628467 

305 451 3 886324817 

6 86 3 883603013 

62 257 2 879372434 

286 1014 5 879781125 

Tabelle 5.1: Aufbau des MovieLens Datensatzes mit Beispieldaten. Der Zeitstempel sind die 

vergangenen Sekunden seit 01.01.1970. 

Benutzer ID Alter Geschlecht Beruf Postleitzahl 

1 24 0 20 85711 

2 53 1 14 94043 

3 23 0 21 32067 

4 24 0 20 43537 

5 33 1 14 15213 

6 42 0 7 98101 

7 57 0 1 91344 

8 36 0 1 05201 

9 29 0 19 01002 

10 53 0 10 90703 

11 39 1 14 30329 

12 28 1 14 06405 

Tabelle 5.2: Benutzerdetails im MovieLens Datensatz. 

Sie könnten nur bei der letztendlichen Empfehlung verwendet werden, wenn in Nutzer zum 

Beispiel nur neue Filme sehen will. Ähnlich lassen sich aus gleichen Postleitzahlen zweier 

Benutzer nur schwer Rückschlüsse auf gleiche Vorlieben schließen. Hier müsste eine genaue 

geografische Analyse des Postleitzahlensystems der USA mit in den Algorithmus einfließen. 

5.2 Messverfahren und Qualitätsmaße 

Jedes Verfahren wird per einfacher Kreuzvalidierung mit 5 Testdurchläufen auf dem Movie- 

Lens Datensatzen durchgeführt und anschließend mit den in Abschnitten 5.2.3 und 5.2.2 

vorgestellen Maße evaluiert. 

62


Film ID Name des Films Genres 

1 Toy Story 0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0 

2 GoldenEye 0|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0 

3 Four Rooms 0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|0|1|0|0 

4 Get Shorty 0|1|0|0|0|1|0|0|1|0|0|0|0|0|0|0|0|0|0 

5 Copycat 0|0|0|0|0|0|1|0|1|0|0|0|0|0|0|0|1|0|0 

6 Shanghai Triad 0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|0 

7 Twelve Monkeys 0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|1|0|0|0 

8 Babe 0|0|0|0|1|1|0|0|1|0|0|0|0|0|0|0|0|0|0 

9 Dead Man Walking 0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|0 

10 Richard III 0|0|0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|1|0 

11 Seven (Se7en) 0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|1|0|0 

12 Usual Suspects, The 0|0|0|0|0|0|1|0|0|0|0|0|0|0|0|0|1|0|0 

Tabelle 5.3: Filmdetails im MovieLens Datensatz. Die 18 Genre-Bits geben an, ob ein Film 

einem Genre zugeordnet ist (1) oder nicht (0). Filme können mehreren Genres 

zugeordnet werden. Die Genres obigen Genres sind, in genau dieser Reihenfolge: 

Action, Adventure, Animation, Children, Comedy, Crime, Documentary, Drama, 

Fantasy, Film-Noir, Horror, Musical, Mystery, Romance, Sci-Fi, Thriller, War und 

Western. 

5.2.1 Trainings- und Testdatensatz 

Um die Qualität der Empfehlungen für einen aktiven User zu messen, wird der verwendete 

Datensatz in Trainings- und Testdatensatz aufgeteilt, siehe Abbildung 5.1. Es wird die 

beim MovieLens Datensatz mitgelieferte Aufteilungsmethode verwendet. Jeder Testdatensatz 

enthält eine Teilmenge der Bewertungen eines Users. Jeder User kommt in jedem Testdatensatz 

als Tupel 〈User, Item, Rating〉 mindestens einmal vor. Der Algorithmus wird auf dem 

Trainingsteil trainiert, mit der die Nachbarschaft zum aktiven Benutzer inkl. des optimierten 

Gewichts bestimmt wird. Anschließend werden die im Testdatensatz enthaltenen Items 

des aktiven Users geschätzt (und die darin enthaltenen echten Bewertungen ignoriert) und 

nachfolgend mit dessen richtigen Bewertungen verglichen, siehe dafür Abschnitt 5.2.2. 

5.2.2 Vorhersagende Genauigkeitsmaße 

Vorhersagende Genauigkeitsmaße messen wie nahe die geschätzten Bewertungen eines Recommendersystems 

an die wirklichen Bewertungen eines Benutzer herankommen. 

Die mittlere absolute Abweichung (mean absolut error, MAE) misst die durchschnittliche Abweichung 

aller vom Recommendersystem geschätzten Bewertungen p i zu den echten Bewertungen 

r i und wird wie folgt berechnet: 

MAE = ∑n i=1 |r i − p i | 

n 

mit n als Anzahl aller Items im Testdatensatz des aktiven Benutzers. 

63


x 1 x 2 y Trainingsdatensatz 

Testdatensatz 

Abbildung 5.1: Aufteilung eines Datensatzes in Trainings- und Testdatensatz. Der in dieser 

Arbeit verwendete MovieLens Datensatz wird im Verhältnis 80/20 aufgeteilt. 

Der MAE eignet sich für die Evaluation von Recommender, bei denen die gesamte Genauigkeit 

des Systems wichtig ist. Das bedeutet, es werden alle unbewerteten Items eines Benutzers 

geschätzt und somit geht der gesamte Fehler über alle unbewertete Items in die Genauigkeit 

ein. Darunter sind für den Benutzer auch nicht relevante Items. Das sind Items, für die das 

Recommendersystem korrekt eine niedrige Bewertung bestimmt, zum Beispiel geschätzte Bewertungen 

< 4. 

Eine Variante des MAE ist der root mean square error, der die einzelnen Fehler vor der Summierung 

quadriert und somit größere Fehler mehr hervorhebt als der MAE: 

RMSE = 

√ 

∑ n i=1 (r i − p i ) 2 

n 

5.2.3 Klassifizierende Genauigkeitsmaße 

Klassifizierende Genauigkeitsmaße messen die Häufigkeit, mit der ein Recommender korrekte 

oder falsche Empfehlungen gibt, also eine ja / nein Entscheidung auf Seiten des Benutzers 

vorliegt, ob die gegebene Empfehlung letztendlich korrekt oder falsch war. Die genaue Schätzung 

des numerischen Werts einer Bewertung (z.B. Film i geschätzt 3,7 Sterne) ist weniger 

wichtig, so lange dadurch keine Klassifizierungsfehler auftreten. Solche Maße sind Precision, 

Recall und ROC Kurven (receiver operating characteristic). 

Recall und Precision werden aus einer 2x2 Tabelle berechnet, für die die Items in die zwei 

Klassen relevant (N r ) und irrelevant (N i ) aufgeteilt werden müssen, siehe Tabelle 5.5. Weiterhin 

muss unterschieden werden, ob eine Item dem Benutzer als Empfehlung präsentiert 

wurde (N s ) oder nicht (N n ). Daraus ergeben sich 4 Kategorien, über die Precision P und Recall 

64


Benutzer ID Film ID Rating 

1 1 5 

1 2 3 

1 3 4 

1 4 3 

2 1 4 

2 10 2 

3 181 4 

3 258 2 

3 260 4 

4 11 4 

4 210 3 

4 258 5 

Benutzer ID Film ID Rating 

1 6 ? 

1 10 ? 

1 12 ? 

1 14 ? 

2 13 ? 

2 19 ? 

3 245 ? 

3 264 ? 

3 272 ? 

4 50 ? 

4 260 ? 

4 264 ? 

Tabelle 5.4: Ausschnitt aus einem Teil des Trainingsdatensatzes (links) und Testdatensatzes 

(rechts). Jeder Testdatensatz enthält eine Teilmenge der Bewertungen eines Users. 

Jeder User kommt in jedem Testdatensatz vor. 

Ausgewählt Nicht Ausgewählt Total 

Relevant Richtig positiv (N rs ) Falsch negativ (N rn ) N r 

Irrelevant Falsch positiv (N is ) Richtig negativ (N in ) N i 

Total N s N n N 

Tabelle 5.5: Aufteilung der Items in relevante und irrelevante Items sowie ausgewählte (dem 

Nutzer präsentierte) und nicht ausgewählte Items. 

R wie folgt definiert sind: 

P = N rs 

N s 

, 

R = N rs 

N r 

Precision gibt die Wahrscheinlichkeit an, mit der ein ausgewähltes Item relevant ist. Recall 

sagt, wie wahrscheinlich es ist, dass ein relevantes Item ausgewählt wird. 

Die Relevanz eines Items muss bestimmt werden. Herlocker et. al. [31] schlägt vor, dass die 

bisher bekannten Ratings eines Users in Trainings- und Testdatensätze aufgeteilt werden, der 

Algorithmus auf dem Trainingsdatensatz trainiert wird und dieser anschließend die Top- 

N Items aus dem Testdatensatz bestimmt. Wenn die Abweichung der echten Bewertung zu 

der vom Algorithmus geschätzten Bewertung hinreichend klein ist (kleiner als ein vorher 

festgelegtes ɛ), kann man das Items für diesen Nutzer als relevant ansehen. Die Wahl des ɛ 

ist problemspezifisch. 

ROC Kurven sind eine Alternative zu Recall und Precision. Das ROC Modell versucht zu 

messen, inwieweit das zugrunde liegende System zwischen Signal (Relevanz) und Rauschen 

(keine Relevanz) unterscheiden kann. Es wird angenommen, dass der Recommender jedem 

Item eine bestimmte Relevanz zuordnet, beispielsweise ob ein Item über einer bestimmten 

Bewertungspunktezahl liegt. Daraus entstehen zwei Verteilungen, siehe Abbildung 5.2. Die 

linke Verteilung gibt an, mit welcher Wahrscheinlichkeit das System ein gewisses Level an 

Relevanz für ein Item schätzt, dass in Wirklichkeit gar nicht relevant ist und die rechte Verteilung 

für Items, die wirklich relevant sind. Je weiter die beiden Verteilungen auseinander 

65


Abbildung 5.2: Eine beispielhafte Abbildung zweier Wahrscheinlichkeitsverteilungen für relevante 

(rechts) und irrelevante Items (links). 

liegen, desto besser kann das System zwischen Signal und Rauschen unterscheiden. In Recommendersytemen 

wird dem Benutzer typischerweise eine absteigend sortierte Liste von 

Empfehlungen präsentiert, die dieser bis zu einem gewissen Limit betrachtet. Dieses Limit 

kann eine vom System festgelegte Begrenzung sein (Top-N Empfehlungen) oder auch vom 

Benutzer selbst festgelegt werden, beispielsweise wenn ihm die Top-5 Empfehlungen genügen. 

Für diesen cutoff Wert, wird ein neuer Recall berechnet, also die Anzahl der relevanten 

Items die dem Benutzer präsentiert werden. Dieser Wert entspricht der Fläche unter der relevanten 

Verteilung, rechts des cutoff. Der Fallout, also die Anzahl der irrelevanten Items die 

präsentiert werden, entspricht der Fläche unter der irrelevanten Verteilung, rechts des cutoff. 

Der Fallout ist definiert als 

F = N is 

N i 

. 

Eine ROC Kurve ist ein Plot, der Recall gegen Fallout beschreibt, wobei jeder Punkt auf der 

Kurve für einen anderen cutoff -Wert steht, siehe auch das Beispiel in Abbildung 5.3. Für einen 

perfekten Schätzer würde die ROC Kurve zuerst ausschließlich nach oben zeigen bis 100% 

der relevanten Items behandelt wurden und dann eine horizontale Linie zeichen bis 100% 

irrelevante Items abgedeckt sind. Ein zufälliger Schätzer würde eine Winkelhalbierende von 

links unten nach rechts oben ziehen. 

5.2.4 Statistische Tests 

Die Resultate der einzelnen Testläufe werden zusätzlich mit zwei statistischen Tests untersucht. 

Der Kruskal-Wallis-Test vergleicht, ob sich verschiedene unabhängige Stichproben hinsichtlich 

mindestens einer ordinalskalierten Variable unterscheiden. Der Wilcoxon-Test prüft 

anhand von zwei gepaarten Stichproben die Gleichheit der zentralen Tendenz der zugrunde- 

66

5.3 Experimente 

True positive rate 

0.0 0.2 0.4 0.6 0.8 1.0 

4 

3 

2 

0.0 0.2 0.4 0.6 0.8 1.0 

False positive rate 

Abbildung 5.3: Eine ROC Kurve mit eingezeichneten cutoff-Werten von 4, 3 und 2, die Bewertungen 

auf einer Skala von 1 bis 5 entsprechen. Wenn man nur Items mit 

Bewertungen gröser-gleich 4 dem Benutzer präsentiert, werden ca. 30% aller 

relevanter Items und ca. 10% aller irrelevanter Items erwartet. 

liegenden Grundgesamtheit. Die Nullhypothese H 0 lautet: 

H 0 : es gibt keinen Unterschied zwischen den Stichproben. 

Die Stichproben sind im Falle der folgenden Experimente die einzelnen MAE Werte der gewählten 

Benutzer. 


In diesem Abschnitt werden die im vorherigen Kapitel vorgestellen Verfahren und die jeweils 

vorgeschlagenen Verbesserungen untersucht. Es wird dabei auf die folgenden Parameter und 

Fragestellungen eingegangen: 

• Verhalten der Verfahren mit und ohne optimierten Gewichtsvektor 

Wie verhält sich die Qualität der Empfehlungen wenn kein Gewichtsvektor eingesetzt 

wird? Bewirkt die vorgeschlagene Erweiterung wirklich eine Verbesserung im mittle- 

67


ren Fehler der geschätzen Bewertungen? Wie verhält sich das Verfahren bei zufällig 

bestimmten Gewichtsvektoren? 

• Kein globales Optimum und damit kein stabiler Gewichtsvektor 

Warum ergeben mehrere unabhängige Läufe der vorgeschlagenen Verfahren verschiedene 

Gewichtsvektoren für den gleichen aktiven Benutzer? Ist in der Fitnesslandschaft 

kein globales Optimum zu finden und existieren stattdessen viele kleine lokale Optima? 

• Größe der Nachbarschaft 

Wie wirkt sich die Wahl der Nachbarschaftsgröße auf die Empfehlungsqualität aus? 

Sollte man eine große Menge an Nutzern befragen oder eher eine kleine Expertengruppe? 

• Verschiedene Abstandsmaße 

Wie verhält sich die Bestimmung der Nachbarschaft (und die daraus resultierende Genauigkeit 

der Empfehlungen), wenn verschiedene Abstandsmaße verwendet werden? 

• Spezifische Parameter der Optimierungsverfahren 

Alle eingesetzten Optimierungsverfahren verfügen über mehrere Parameter, die den 

Ablauf des Algorithmus beeinflussen. Kann man durch die Anpassung der Parameter 

auf das zugrundeliegende Problem Verbesserungen in der Empehlungsqualität erzielen? 

Wenn ja, wie ist dies zu begründen? 

Ablauf der experimentellen Untersuchung Im Folgenden werden alle in Kapitel 4 vorgeschlagenen 

Algorithmen und Verfahren untersucht. PSOREC, das erste Verfahren das besprochen 

wird, geht intensiv auf das verwendetete Recommendersystem und dessen Parameter 

ein. Wenn sich in den folgenden Verfahren keine Veränderungen in dieser Hinsicht ergeben, 

wird darauf hingewiesen und wenn möglich, eine Begründung abgegeben. Auf eine redundante 

Untersuchung wird aber verzichtet. 

Alle Testläufe der Algorithmen werden per 5-facher Kreuzvalidierung untersucht und 20 

feste Benutzer im Wechsel als aktive Benutzer, die zufällig aus dem Datensatz gezogen wurden, 

verwendet. Je nach Art des zu testenden Problems werden mehrere unabhängige Läufe 

durchgeführt, um die Zufallskomponenten der verwendeten Optimierungsalgorithmen auszugleichen. 

Die MAE-Werte, der in den folgenden Abbildungen aufgezeigt sind, geben den Durchschnitt 

der fünf Resultate der Kreuzvalidierung wieder. Innerhalb einer der fünf Resultate wurde 

jeweils der beste MAE Wert der unabhängingen Läufe (meist zwischen 10 und 50) ausgewählt. 

Dies ist üblich bei Recommendersystemen, bei denen die Empfehlungen off-line vorberechnet 

werden können und es nur wichtig ist, welcher der Läufe den kleinsten mittleren Fehler 

ergeben hat [75, 39]. 

5.3.1 Resultat Abstandsmaße ohne Optimierung 

Ohne Verwendung der Optimierungsalgorithmen werden vier verschiedene Abstandsmaße 

für die Ähnlichkeitsberechnung zweier Benutzer untersucht, die keine Gewichte auf den ein- 

68


zelnen Features enthalten. Neben den schon vorgestellten Maßen (Pearson-Korrelation, Kosinusähnlichkeit 

und euklidischer Abstand) wird zusätzlich die Manhatten-Distanz verwendet. 

Die Empfehlungen werden mit Formel 2.4 berechnet und für zufällig gewählte 20 Benutzer 

jeweils der MAE bestimmt. 

In Abbildung 5.4 sind die MAE Werte für jeden der 20 Benutzer und jeweils die Abstandsmaße 

darstellt. Diese Werte wurden mit dem Kruskal-Wallis-Test analysiert. H 0 lautet, dass 

zwischen den vier Verfahren kein Unterschied besteht. Es ergibt sich ein p-Wert von 0.9965. 

H 0 kann nicht abgelehnt werden. 

MAE (mean absolute error) 

1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

Manhattan Metrik 

Euklidische Metrik 

Pearson-Korrelation 

Kosinusähnlichkeit 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.4: MAE für 20 Benutzer bei Verwendung von vier unterschiedlichen Abstandsfunktionen 

ohne Optimierung. 

5.3.2 Resultat exemplarischer Fitnessverlauf 

Es soll am Beispiel eines zufällig bestimmten aktiven Benutzers der Verlauf der Fitness während 

des Optimierungsverfahrens aufgezeigt werden. Der mittlere absolute Fehler verringert 

sich im Verlauf der Optimierung. Siehe dafür die entsprechenden MAE Werte in Abbildung 

5.5. 

5.3.3 Resultate PSOREC 

Gewichtete Abstandsmaße Es soll untersucht werden, wie sich der PSOREC verhält, wenn 

statische, zufällige und optimierte Gewichtsvektoren eingesetzt werden. Es wurden für 20 

Benutzer je 50 unabhängige Läufe durchgeführt und jeweils der MAE bestimmt. 

69


0.59 

Fitnessverlauf 

Fitness (mean absolute error) 

0.585 

0.58 

0.575 

0.57 

0.565 

0.56 

0 10 20 30 40 50 60 70 80 90 100 

Zeit in Iterationen 

Abbildung 5.5: Exemplatischer Verlauf der Fitness (MAE) während der Optimierung durch 

ein gegebenes Optimierungsverfahren für einen festen aktiven Benutzer. 

In Abbildung 5.6 sind die einzelnen MAE Werte aufgeführt. Der MAE ist für optimierte 

Gewichte bei allen 20 Benutzern kleiner oder gleich den nicht optimierten Gewichten. Für 

den statistischen Test wurde der Wilcoxon-Test verwendet. Die Nullhypothese lautet, das es 

keinen Unterschied zwischen den optimierten und statischen Gewichtsvektoren. Es ergibt 

sich ein p-Wert von 0, 005722, d.h. es gibt einen statistisch signifikanten Unterschied. 

Für Benutzer 14 wurden ROC Kurven gezeichnet, siehe Abbildung 5.7. Für die linke Kurve 

wurde kein optimierter Gewichtsvektor für die Nachbarschaftsbestimmung verwendet, für 

die rechte Kurve wurde ein per PSOREC optimierter Vektor eingesetzt. Tabelle 5.6 listet die 

Werte für die beiden areas under the curce (AUC) auf. 

Methode 

Area under the curve 

Ohne Optimierung 0.5349206 

PSOREC Optimierung 0.6293706 

Tabelle 5.6: Area under the curve für Benutzer 14, mit und ohne optimiertem Gewichtsvektor. 

Globales Optimum Die vorgeschlagene Fitnessfunktion zeigt auf den Datensätzen kein eindeutiges 

globales Optimum. Dieses Verhalten konnte bei der Entwicklung des Algorithmus 

beobachtet werden. Unabhängige, aufeinander folgende Läufe des Algorithmus konvergieren 

immer auf einen ähnlichen Fitnesswert, der zugehörige Gewichtsvektor endet jedoch 

nicht auf gleichen Werten. Jeder unabhängige Lauf gewichtet die Präferenzen des aktiven 

Users anders, so dass für einen festgehaltenen User kein eindeutiger Gewichtsvektor gefunden 

werden kann. In Abbildung 5.8 sind 50 unabhängige Läufe exemplarisch für vier feste 

70


1.2 

1.1 

Optimierte Gewichte 

Zufällige Gewichte 

Kein Gewicht 


1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.6: Auswirkungen von optimierten, zufälligen oder festen Gewichtsvektoren für 

20 Benutzer auf den mittleren absoluten Fehler (MAE). Der optimierte Gewichtsvektor 

ergibt für fast alle Benutzer einen kleineren Fehler und für keinen 

Benutzer einen schlechteren Fehler. 

aktive Benutzer als Heatmap aufgeführt, aus der man diese Schwankungen ablesen kann. Zusätzlich 

wurde für die gleichen Benutzer die Streuung der einzelnen Gewichte mit Boxplots 

dargestellt, siehe Abbildung 5.9. 

Verschiedene Abstandsmaße Es soll untersucht werden, wie sich die verschiedenen Abstandsmaße 

auf den MAE auswirken. Es wurden für alle vier vorgestellten Abstandsmaße 

für 20 Benutzer je 5 unabhängige Läufe durchgeführt und der minimale MAE-Wert verwendet. 

In Abbildung 5.10 sieht man, dass für manche Benutzer eines der Maße einen besseren 

MAE Wert ergibt als die anderen Maße, jedoch kein Maß bei allen Benutzern immer besser 

ist als die anderen. Der euklidische Abstand ist in 14 von 20 Fällen das schlechteste Maß. 

Als statistischer Test wurde Kruskal-Wallis-Test verwendet. H 0 lautet, dass es keinen Unterschied 

zwischen den Abstandsmaßen gibt. Es ergibt sich p-Wert von 0.5813, d.h. H 0 kann 

nicht abgelehnt werden. 

Wahl der Nachbarschaftsgröße Es wurde die Auswirkung der Nachbarschaftsgröße auf 

den mittleren absoluten Fehler untersucht. Dafür wurde für 10 verschiedene aktive Benutzer 

im Wechsel jede mögliche Nachbarschaftsgröße verwendet und der MAE bestimmt. In 

Abbildung 5.11 ist der Verlauf des MAE abgebildet. Es ist zu sehen, dass sich der MAE bei 

ansteigender Nachbarschaftsgröße verringert und ab ca. 400 Benutzern stabilisiert. 

71



0.0 0.2 0.4 0.6 0.8 1.0 

3.43 3.78 4.13 4.49 4.84 5.19 


0.0 0.2 0.4 0.6 0.8 1.0 

3.53 3.86 4.19 4.52 4.85 5.18 

0.0 0.2 0.4 0.6 0.8 1.0 


0.0 0.2 0.4 0.6 0.8 1.0 


Abbildung 5.7: ROC Kurven für einen exemplatischen Benutzer (14). Links ohne optimierten 

Gewichtsvektor, rechts per PSOREC optimiert. 

Reduzierung von Features Es soll untersucht werden, inwiefern sich der MAE und die 

Gewichtsvektoren verändern, wenn Teile der demografischen Features und die Genres aus 

dem Datensatz entfernt werden. Es wurden dazu aus dem MovieLens Datensatz modifizierte 

Datensätze erstellt, die diese Features jeweils nicht enthalten. Es werden exemplarisch zwei 

Benutzer ausgewählt, die auch bei der Untersuchung zum globalen Optimum verwendet 

wurden: Benutzer 12 und 19, die beide Eigenschaften vorweisen, die zur experimentellen 

Untersuchung nützlich sind (siehe dazu die Diskussion in Kapitel 6.5.3). 

Für beide Benutzer wurde jeweils die Abweichung der Gewichtswerte für folgende Varianten 

des Datensatzes in Abbildung 5.12 und 5.13 aufgezeigt: Kein Geschlecht, kein Alter, 

überhaupt keine demografischen Daten und keine Genreinformationen der Items. In Abbildung 

5.14 ist der Verlauf des mittleren absoluten Fehlers für 20 Benutzer abgebildet. Es ist zu 

erkennen, dass für manche Benutzer der Unterschied zwischen den Varianten größer ist als 

für andere. Es wurde der Kruskal-Wallis-Test als statistischer Test verwendet. H 0 lautet, dass 

es keinen Unterschied zwischen den MAE Werten gibt, wenn Features weggelassen werden. 

Der Kruskal-Wallis-Test ergab einen p-Wert von 0.9787, d.h. H 0 kann nicht abgelehnt werden. 

Auswirkungen von Velocity Clamping und Trägheitsgewichten Für die in Tabelle 5.7 aufgeführten 

Kombinationen wurden 50 unabhängige Läufe durchgeführt und jeweils der MAE 

berechnet. Das Trägheitsgewicht (TG) wurde in zwei Varianten untersucht, siehe dazu auch 

Abschnitt 4.5.2. Die Mittelwerte des MAE über die 50 Läufe sind in der zweiten Spalte aufgeführt. 

72


0.71546 

0.70665 

0.78251 

0.86519 

0.69509 

0.69176 

0.75966 

0.67989 

0.65857 

0.70404 

0.71409 

0.70412 

0.71568 

0.69943 

0.67155 

0.64140 

0.67828 

0.71797 

0.71373 

0.72955 

0.69804 

0.72820 

0.69885 

0.72415 

0.68596 

0.68532 

0.70963 

0.69323 

0.69770 

0.68020 

0.98210 

0.67420 

0.70987 

0.68926 

1.10581 

0.71468 

0.71065 

1.25463 

0.71728 

0.99730 

0.72246 

0.66131 

0.71779 

0.72129 

0.69297 

0.70643 

0.68802 

0.71990 

0.69265 

0.70272 

0.59135 

0.56914 

0.58819 

0.57763 

0.58075 

0.57233 

0.57810 

0.58807 

0.58306 

0.58172 

0.58721 

0.58129 

0.57746 

0.59998 

0.57474 

0.57517 

0.57100 

0.57917 

0.58238 

0.58937 

0.58097 

0.56544 

0.59027 

0.58083 

0.56129 

0.57346 

0.57893 

0.58107 

0.57539 

0.57497 

0.57706 

0.57898 

0.58232 

0.58784 

0.58072 

0.58617 

0.57351 

0.58033 

0.57278 

0.57509 

0.58624 

0.58633 

0.57479 

0.56892 

0.57015 

0.58486 

0.58404 

0.57150 

0.61490 

0.57034 

Rating 

Alter 

Geschlecht 

Beruf 

Action 

Adventure 

Animation 

Children 

Comedy 

Crime 

Documentary 

Drama 

Fantasy 

Film.Noir 

Horror 

Musical 

Mystery 

Romance 

Sci.Fi 

Thriller 

War 

Western 

0.82827 

0.81614 

0.81724 

0.82496 

0.82379 

0.82425 

0.82193 

0.81898 

0.82055 

0.82117 

0.82197 

0.82424 

0.82403 

0.82289 

0.82014 

0.8291 

0.81985 

0.8324 

0.82049 

0.82327 

0.82553 

0.82545 

0.82074 

0.82403 

0.82399 

0.82158 

0.82934 

0.82026 

0.8239 

0.84175 

0.82508 

0.82278 

0.82697 

0.82353 

0.82048 

0.82409 

0.82045 

0.82228 

0.82415 

0.81965 

0.82949 

0.82541 

0.82238 

0.82047 

0.82458 

0.82 

0.82353 

0.83047 

0.82342 

0.82683 


Alter 

Geschlecht 

Beruf 

Action 

Adventure 

Animation 

Children 

Comedy 

Crime 

Documentary 

Drama 

Fantasy 

Film.Noir 

Horror 

Musical 

Mystery 

Romance 

Sci.Fi 

Thriller 

War 

Western 

0.78733 

0.77410 

0.79168 

0.85049 

0.77860 

0.77730 

0.77408 

0.81226 

0.79401 

0.78355 

0.77071 

0.77822 

0.75062 

0.78711 

0.78429 

0.77664 

0.77913 

0.78362 

0.79635 

0.79765 

0.77675 

0.78306 

0.77831 

0.77868 

0.78955 

0.79160 

0.77254 

0.77762 

0.77787 

0.77593 

0.77770 

0.78066 

0.78100 

0.77150 

0.77443 

0.77457 

0.78869 

0.77625 

0.77958 

0.77564 

0.77380 

0.77198 

0.77612 

0.77184 

0.77155 

0.77868 

0.78558 

0.80339 

0.78413 

0.79566 


Alter 

Geschlecht 

Beruf 

Action 

Adventure 

Animation 

Children 

Comedy 

Crime 

Documentary 

Drama 

Fantasy 

Film.Noir 

Horror 

Musical 

Mystery 

Romance 

Sci.Fi 

Thriller 

War 

Western 

Abbildung 5.8: Heatmap für vier feste aktive Benutzer und 50 unabhängige Läufe. Die rechte 

Spalte jeder Heatmap gibt die Fitness des jeweiligen Gewichts an. Je heller ein 

Feld, desto höher ist das Gewicht für die Features auf der horizontalen Achse. 

Von links oben nach rechts unten geben die Heatmaps die Benutzer 19, 12, 1 

und 8 des MovieLens Datensatzes wieder. 


Alter 

Geschlecht 

Beruf 

Action 

Adventure 

Animation 

Children 

Comedy 

Crime 

Documentary 

Drama 

Fantasy 

Film.Noir 

Horror 

Musical 

Mystery 

Romance 

Sci.Fi 

Thriller 

War 

Western 

Methode 

Mittelwert über 50 Läufe 

TG linear Absteigend 0.814354392422 

TG Zufällig aus [0.5,1.0] 0.814961980444 

Nur Velocity Clamping 0.817766193135 

Ohne VC und TG 0.830134952941 

Tabelle 5.7: Mittelwerte des MAE über 50 unabhängige Läufe auf dem MovieLens Datensatz 

für die ersten 20 Benutzer. 

73


-0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 

-0.1 0.0 0.1 0.2 0.3 0.4 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

0.0 0.1 0.2 0.3 0.4 

-0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

Abbildung 5.9: Streuung der Werte der 22 Gewichte für vier feste aktive Benutzer und 50 

unabhängige Läufe. Von links oben nach rechts sind dies die Benutzer 19, 12, 

1 und 8. 

Random Resetting Für diese Erweiterung des PSOREC Algorithmus wurden zwei Methoden 

untersucht. Die erste Methode setzt den Geschwindigkeitsvektor in allen Dimensionen 

auf 0 zurück, während die zweite Methode einen zufälligen neuen Vektor generiert. Alle 10 

Iterationen wurde die Hälfte der Partikel an eine neue, zufällige Position gesetzt. 

Abbildung 5.16 beschreibt den Verlauf des MAE für 20 verschiedene Benutzer. Für die meisten 

Benutzer ist der Unterschied sehr gering und es kann sich kein Verfahren eindeutig absetzen. 

Es wurde als statistischer Test der Kruskal-Wallis-Test verwendet. H 0 lautet, das es keinen 

Unterschied zwischen den jeweiligen MAE Werten gibt. Der p-Wert ist 0.9863, d.h. H 0 kann 

nicht abgelehnt werden. 

74



1.3 

1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 



Pearson Korrelationskoeffizient 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.10: PSOREC: Mittlerer absoluter Fehler für 20 Benutzer und jeweils unterschiedliche 

Abstandsmetriken für die Berechnung der Nachbarschaft. 

Es soll untersucht werden, ob Random Resetting die erhofften Verbesserungen in der Stabilität 

der Gewichtsvektoren ergeben kann. Abbildung 5.17 zeigt für einen exemplarischen 

Benutzer, der sich in den bisherigen Experimenten als interessant herausgestellt hat (siehe 

dazu Kapitel 6.5.3), die Abweichungen der einzelnen Gewichte. 

5.3.4 Resultate GAREC 

Gewichtete Abstandsmaße Die im vorherigen Abschnitt untersuchten Gewichte, die durch 

den eingesetzten PSO optimiert wurden, sollen mit einem per GAREC optimierten Gewichtsvektor 

verglichen werden. Es wurden wieder 20 Benutzer untersucht und die besten MAE- 

Werte der unabhängigen Läufe in Abbildung 5.18 dargestellt. Zusätzlich wurde die besprochene 

Selbstanpassung der Mutationsschritte als Alternative zum Standard-GA sowie das 

IWOREC Verfahren mit in diesen Plot aufgenommen. Zum Vergleich wird ebenfalls das PSO- 

REC Verfahren dargestellt. Es ist zu erkennen, dass nur Benutzer 20 große Unterschiede zeigt. 

IWOREC ist in 10 von 20 Fällen das beste Maß. Die Nullhypothese für den statistischen Test 

lautet, dass es keinen Unterschied zwischen den Verfahren gibt. Der Kruskal-Wallis-Test ergibt 

einen p-Wert von 0.9749, d.h. H 0 kann nicht abgelehnt werden. 

Verschiedene Abstandsmaße Es wurden, wie schon zuvor beim PSOREC Algorithmus, 

die Auswirkungen der verschiedenen Abstandsmaße auf den MAE untersucht. Abbildung 5.19 

zeigt für jeden Benutzer und jedes der Abstandsmaße den entsprechenden MAE Wert. Man 

sieht, dass für manche Benutzer jeweils eines der Maße einen besseren MAE Wert ergibt als 

75


0.95 

Mittlerer absoluter Fehler (MAE) 


0.9 

0.85 

0.8 

0.75 

0.7 

0.65 

0 100 200 300 400 500 600 700 800 900 1000 

Anzahl Benutzer in Nachbarschaft 

Abbildung 5.11: Verlauf des MAE für verschiedene Nachbarschaftsgrößen, gemittelt über 10 

Benutzer. Gültig für PSOREC, GAREC und IWOREC. 

die anderen Maße, jedoch kein Maß bei allen Benutzern immer einen niedrigeren Wert ergibt. 

H 0 für den statistischen Test Lautet, dass es keinen Unterschied zwischen den Abstandmaßen 

gibt. Der Kruskal-Wallis-Test ergab einen p-Wert von 0.5613, d.h. H 0 kann nicht abgelehnt 

werden. 

Mutationswahrscheinlichkeit Es wurde der Parameter für die Wahrscheinlichkeit einer 

Mutation eines Individuums untersucht. Zwei Tests wurden durchgeführt, einmal mit der 

Standard-Wahrscheinlichkeit für GAREC von 3% und einmal mit einer Wahrscheinlichkeit 

von 25%. Der mittlere absolute Fehler für 20 Benutzer der jeweiligen Verfahren ist in Abbildung 

5.20 gezeigt. Für 18 von 20 Benutzer ist der MAE bei einer 3%-igen Wahrscheinlichkeit 

niedriger. Es wurde der Wilcoxon-Test als statistischer Test verwendet. Es ergibt sich ein p- 

Wert von 0, 03624, d.h. es gibt einen statistisch signifikanten Unterschied. 

Auswirkung von Fitness-Sharing Es soll die Auswirkung der Fitness-Sharing Erweiterung 

untersucht werden. Diese Erweiterung soll eine verbesserte Verteilung der Individuen in einer 

multimodalen Fitnesslandschaft gewährleisten, siehe Abschnitt 4.6.2. Es wurden 20 Benutzer 

auf ihren MAE Wert untersucht. Die Ergebnisse werden in Abbildung 5.21 mit den 

Ergebnissen eines GA’s ohne Fitness Sharing verglichen. Man kann erkennen, das bei 14 von 

20 Benutzern der MAE Wert mit Fitness-Sharing niedriger ist. Es wurde der Wilcoxon-Test 

verwendet. Die Nullhypothese H 0 lautet, dass es keinen Unterschied zwischen den beiden 

Verfahren gibt. Der p-Wert ist 0.01531, d.h. es gibt einen statistisch signifikanten Unterschied. 

76


-0.2 0.0 0.2 0.4 0.6 

-1.0 -0.5 0.0 0.5 1.0 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

-10 -5 0 5 

-2 -1 0 1 2 3 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

Abbildung 5.12: PSOREC: Streuung der Gewichte für Benutzer 19 für einen modizifierten 

Datensatz, bei dem das Alter (links oben), das Geschlecht (rechts oben), alle 

demografischen Werte (links unten) und die Genres (rechts unten) weggelassen 

wurde (für je 50 unabhängige Läufe). 

Selbstanpassung der Mutationsschritte und Evolution Strategies Nachdem in den vorherigen 

Paragraphen der Standard-GAREC untersucht wurde, wird nun die in Abschnitt 4.6.3 

vorgestellte Variante mit den bisherigen Ergebnissen verglichen. Die Anpassung der Mutationsschritte 

innerhalb der Evolution der Population kann einen positiven Effekt auf die Stabilität 

der Gewichte und die Recommenderqualität (MAE) haben, indem sie lokale Optima durch 

die unterschiedliche Veränderung der Muationsschritte in jeder Dimension überwinden kann. 

Es wurden zwei Experimente durchgeführt: Zum einen wurde der mittlere absolute Fehler 

über 20 Benutzer berechnet und mit dem GAREC Verfahren verglichen, siehe dazu die schon 

erwähnten MAE-Werte in Abbildung 5.18. Es wurde der Wilcoxon-Test für die Stichproben 

77


-0.1 0.0 0.1 0.2 0.3 0.4 0.5 

-2 -1 0 1 2 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

-4 -2 0 2 4 

-6 -4 -2 0 2 4 6 8 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

Abbildung 5.13: PSOREC: Streuung der Gewichte für Benutzer 12 für einen modizifierten 

Datensatz, bei dem das Alter (links oben), das Geschlecht (rechts oben), alle 

demografischen Werte (links unten) und die Genres (rechts unten) weggelassen 

wurde (für je 50 unabhängige Läufe). 

des GAREC und des erweiterten GAREC Verfahren durchgeführt. Es ergab sich ein p-Wert 

von 0.08255. H 0 kann damit bei einem Signifikanzniveau von 0,05 nicht abgelehnt werden. 

Zum anderen wurden für ausgewählten Benutzer 12 und 19 die jeweiligen Gewichtsvektoren 

untersucht, um zu sehen, ob sich Unterschiede in der Stabilität ergeben. Siehe dazu die 

Abbildung 5.22, in der für die jeweiligen Features die Abweichungen dargestellt sind. 

78



1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

Kein Alter 

Kein Geschlecht 

Keine Demografie 

Keine Genres 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.14: PSOREC: Verlauf des MAE mit jeweiligen Reduzierungen der Features für 

20 Benutzer. 


1 

0.95 

0.9 

0.85 

0.8 

0.75 

Trägheitsgewicht linear absteigend von 0.9 auf 0.4 

Zufälliges Trägheitsgewicht aus [0.5,1.0] 

Kein Trägheitsgewicht, Vmax Verringerung 

0.7 

0 5 10 15 20 25 30 35 40 45 50 

Unabhängige Läufe 

Abbildung 5.15: PSOREC: Verlauf des MAE für verschiedene Berechnungsmethoden der 

Trägheitsgewichte. 

5.3.5 Resultate IWOREC 

Globales Optimum Auch beim IWOREC-Verfahren wurde das globales Optimum untersucht. 

Die bisher verwendeten Benutzer 1, 8, 12 und 19 sind wie in den vorherigen Experi- 

79



1.4 

1.3 

1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

Nullvektor 

zufälliger Vektor 

kein Resetting 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.16: PSOREC: MAE für 20 Benutzer und verschiede Ansätze zur Reinitialisierung 

der Partikel im PSOREC Algorithmus. 

menten für 50 unabhängige Läufe in Abbildung 5.23 als Boxplots dargestellt. Es wurden die 

Standardparameter aus Tabelle 4.1 für das IWOREC Verfahren verwendet. 

Verschiedene Abstandsmaße Die vier Abstandsmaße wurden für das PSOREC Verfahren 

untersucht. Für 20 Benutzer sind in Abbildung 5.24 die MAE Werte für die jeweilgen Maße 

aufgeführt. Die Pearsonkorrelation ist in 10 von 20 Fällen das beste Maß, der euklidische 

Abstands in keinem der Fälle. Für den statistischen Test lautet H 0 , dass es keinen Unterschied 

zwischen den Maßen gibt. Der p-Wert, ermittelt durch den Kruskal-Wallis-Test, ist 0.7524. D.h. 

H 0 kann nicht abgelehnt werden. 

Wahl der IWO Parameter Es wurden für die Wahl der Standardabweichung σ für die 

Ausbreitungsweite der Samen im IWO Algorithmus verschiedene Werte getestet. In Abbildung 

5.25 ist der MAE für alle ganzzahligen Werte von 1 bis 50 für σ aufgeführt. Für jeden 

dieser Werte wurden für 20 Benutzer aus dem MovieLens Datensatz die besten MAE Werte 

aus 5 unabhängigen Läufen ausgewählt und der Mittelwert berechnet. Ab einem σ von ca. 25 

ist ein Anstieg des MAE zu erkennen. 

FPS Strategie für IWO Es wurde die in Abschnitt 4.7.2 besprochene Fitness proportional selection 

als Alternative für die Auswahl der Nachkommen untersucht. Der Standard für IWOREC 

ist eine Fitness-based Selektion. In Abbildung 5.26 ist der mittlere absolute Fehler für 20 Benutzer 

dargestellt. Bei 15 von 20 Benutzern ergibt sich für das Verfahren ohne FPS ein niedriger 

80


-0.2 -0.1 0.0 0.1 0.2 0.3 0.4 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

-0.2 0.0 0.2 0.4 

0.0 0.1 0.2 0.3 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

Abbildung 5.17: PSOREC: Boxplots der Streuung der einzelnen Gewichtswerte bei 50 unabhängigen 

Läufen für Benutzer 12. In der oberen Abbildung wurde kein 

Random Resetting verwendet, links unten wurde der neue Geschwindigkeitsvektor 

zufällig generiert und rechts unten in allen Dimensionen auf 0 

gesetzt. 

MAE Wert. Der Wilcoxon-Test für diese beiden Stichproben ergab einen p-Wert von 0.02148, 

d.h. es gibt einen statistisch signifikanten Unterschied. 

81



1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

PSOREC 

GAREC 

GAREC + Adapted 

IWOREC 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.18: MAE für optimierte Gewichtsvektoren der Verfahren PSOREC, GAREC, GA- 

REC + angepasste Mutation und IWOREC. 


1.3 

1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 



Pearson Korrelation 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.19: GAREC: Mittlerer absoluter Fehler für 20 Benutzer und jeweils unterschiedliche 

Abstandsmetriken für die Berechnung der Nachbarschaft. 

82


1.2 

1.1 

Mutationswhkt. von 25% 

Mutationswhkt. von 3% 


1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.20: GAREC: Auswirkung einer höheren Mutationswahrscheinlichkeit (Wahrscheinlichkeit 

von 25auf den mittleren absoluten Fehler. 

1.2 

1.1 

GAREC mit Fitness-Sharing 

GAREC 


1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.21: GAREC: Auswirkung der Verwendung von Fitness Sharing auf die Empfehlungsqualität 

(MAE). 

83


0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 

0.00 0.05 0.10 0.15 0.20 0.25 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

0.0 0.1 0.2 0.3 

0.0 0.1 0.2 0.3 0.4 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

Abbildung 5.22: GAREC+Adapted: Streuung der Gewichte für die Benutzer 12 (obere Reihe) 

und 19 (untere Reihe), jeweils für den Standard-GAREC (links) und GAREC 

mit angepassten Muationsschritten (rechts). 

84


-0.05 0.00 0.05 0.10 0.15 0.20 0.25 0.30 

0.00 0.05 0.10 0.15 0.20 0.25 0.30 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

0.00 0.05 0.10 0.15 0.20 0.25 0.30 

0.00 0.05 0.10 0.15 0.20 0.25 0.30 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 22 

Abbildung 5.23: IWOREC: Streuung der Featuregewichte für 50 unabhängige Läufe der Benutzer 

19 (links oben), 12 (rechts oben), 1 (links unten) und 8 (rechts unten). 

85



1.3 

1.2 

1.1 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 



Pearson Korrelation 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.24: IWOREC: Verlauf des MAE für alle vier verschiedenen Abstandsmaße und 

20 Benutzer. 

0.8 

0.795 

Verlauf des MAE 


0.79 

0.785 

0.78 

0.775 

0.77 

0.765 

0.76 

0.755 

0 5 10 15 20 25 30 35 40 45 50 

Standardabweichung sigma 

Abbildung 5.25: Verlauf des MAE für verschiedene Werte für die Standardabweichung σ im 

IWOREC Algorithmus. Gemittelt über 20 Benutzer. 

86


1.2 

1.1 

Mit FPS 

Ohne FPS 


1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 

Benutzer 

Abbildung 5.26: IWOREC: MAE Werte für zwei verschiedene Auswahlstrategien der Nachkommen: 

Fitness Proportional Selection und Fitness-based Replacement 

(Standard im IWOREC). 

87


88

6 Diskussion der Ergebnisse 

In diesem Kapitel folgt eine Besprechung der Ergebnisse der Experimente aus Kapitel 5. 

Es werden Zusammenhänge und Ähnlichkeiten der vorgestellten Verfahren angesprochen 

sowie Verbindungen zu anderen Optimierungsverfahren gezogen. Anschließend folgt eine 

Diskussion der Ergebnisse der Experimente. 

6.1 Diskussion Recommendersysteme 

6.1.1 Content-based filtering 

Inhalts-basierte Systeme haben einige Einschränkungen [1]. Ein Problem ist, dass die Eigenschaften 

eines Items die einzigen Informationen sind, auf die das System aufbauen kann. Die 

Erstellung und Entdeckung dieser Eigenschaften ist in text-basierten Dokumenten einfach [1], 

aber andere Objekte wie etwa Bilder, Musikstücke oder Filme sind nur mit Hilfe von menschlichen 

Experten manuell oder mit sehr aufwendigen und nicht unbedingt ausgereiften automatischen 

Techniken zu klassifizieren. Weiterhin können beispielsweise zwei Textdokumente 

durchaus qualitativ inhaltliche Unterschiede haben, sind jedoch aufgrund ihrer keywords sehr 

ähnlich und werden daher gleichbedeutend empfohlen. 

Ein weiteres Problem ist eine mögliche Überanpassung [1]. Wenn einem Benutzer nur die 

Items empfohlen werden, die ähnlich zu bisher gut bewerteten Items sind, werden keine Empfehlungen 

aus einem fremden Interessengebiet erstellt. Der Benutzer steckt in der bisherigen 

Empfehlungskategorie fest und es gibt für ihn keine unerwarteten aber trotzdem interessante 

Empfehlungen. Zusätzlich ist es problematisch, wenn ein Recommender zu ähnliche Items 

empfiehlt. Dies ist beispielsweise der Fall, wenn zwei Artikel aus verschiedenen Nachrichtenmagazinen 

aufgrund der keywords als ähnlich gelten, aber in Wirklichkeit das genau gleiche 

Thema besprechen. 

6.1.2 Collaborative-based filtering 

Collaborative Recommendersysteme können auf verschiedene Weisen implementiert werden. 

Bei Systemen, die nicht häufig um neue Daten (Bewertungen, Items, Nutzer) erweitert werden, 

werden die Ähnlichkeiten aller User zueinander offline vorberechnet und nur im Falle 

einer Änderung der Daten angepasst. Diese Anpassung kann inkrementell geschehen, d.h. 

wenn ein User seine Eigenschaften ändert, müssen nur die Abstände zu |U|-vielen Benutzern 

89


neu berechnet werden. Dieser Vorteil fällt bei Systemen, die ständigen Änderungen ihrer Daten 

unterworfen sind, weg. Dort kann sich eine nicht erfolgte Neuberechnung der Abstände 

möglicherweise negativ auf die Vorhersage der Ratings auswirken [1]. 

Eine weitere Verbesserung ist das Default Voting. Es nimmt für die bisher nicht bewerteten 

Items eines Users den Mittelwert der Bewertung aller anderen Benutzer für dieses Item an. 

Ein neuer Benutzer, der erst sehr wenige Items bewertet hat, hat nur eine kleine Schnittmenge 

an gemeinsamen Items mit anderen Benutzern. Durch die Verwendung des Mittelwerts für 

unbekannte Items konnte, durch empirische Tests, eine Verbesserung gezeigt werden [29]. 

6.2 Diskussion IWO und Vergleich zu GA / ES 

Der vorgestellte Invasive Weed Optimization Algorithmus ähnelt in seiner biologischen Motivation 

und Idee nur entfernt einem genetischen Algorithmus, jedoch sind die beiden Verfahren 

in ihrem zugrunde liegenden mathematischen Modell sehr ähnlich. Im Folgenden soll 

ein Vergleich durchgeführt werden, der die Unterschiede und Gemeinsamkeiten der beiden 

Verfahren aufzeigt. 

Die Initialisierungsphase der beiden Algorithmen ist identisch. Es wird jeweils eine feste Anzahl 

an zufälligen Lösungen generiert und entsprechend im Lösungsraum verteilt. Bei der 

Wahl der Eltern findet sich erste Unterschied: In einem typischen GA werden die Eltern nach 

ihrer Fitness ausgewählt, also nur die fittesten Eltern reproduzieren Nachkommen. Im IWO 

produziert jede Pflanze alleine für sich Nachkommen. Es findet daher auch keine Rekombination 

zwischen zwei Pflanzen statt, wie sie bei GAs typisch ist. Die Mutation ist dabei die 

einzige Komponente, die Veränderungen in den Lösungen/Individuen einführt. Eine für reelle 

Repräsentationen in GAs verbreitete Mutationsform ist die uneinheitliche Mutation mit 

fester Verteilung [22]. Diese Mutation zieht zufällig Zahlen aus einer Standardnormalverteilung 

mit Erwartungswert 0 und einer festen Standardabweichung und addiert diese Werte auf 

die Gene. Dies ist genau das Schema, dass ein IWO für die Erzeugung neuer Pflanzen verwendet, 

mit dem Unterschied, dass die Standardabweichung von Generation zu Generation 

verringert wird. Die Auswahl der Lösungen, die in die nächste Generation übernommen werden, 

ist bei beiden Verfahren ähnlich. Ein IWO hat ein festes Populationslimit von n und lässt 

nur die besten n Pflanzen überleben. Bei GAs ist eine solche Vorgehensweise als Elitismus bekannt 

und eine von vielen möglichen Strategien. Ein weiterer Unterschied ist, dass in einem 

IWO die Anzahl der pro Generation erzeugten Nachkommen nicht fest ist. Jede Pflanze kann 

innerhalb gegebener Grenzen neue Pflanzensamen generieren. In einem klassischen GA ist 

die Anzahl der Nachkommen pro Generation fest vorgegeben. Dies kann bei einem IWO den 

Vorteil haben, dass in Gebieten mit hoher Fitness intensiver, d.h. mit mehr neuen Lösungen 

nach der besten Lösung gesucht wird. Jedoch erhöht sich mit der Anzahl an zu evaluierenden 

Kandidaten auch die Rechenzeit des Algorithmus, so dass man zur Schätzung dieser einen 

Mittelwert der möglichen Anzahl an neuen Pflanzen pro Generation (average-case) oder die 

maximal mögliche Anzahl (worst-case) annehmen muss. 

90

6.2 Diskussion IWO und Vergleich zu GA / ES 

GA 

IWO 

Initialisierung n zufällige Lösungen n zufällige Lösungen 

Rekombination Diverse Varianten Keine 

Mutation Diverse Varianten Zufällige Platzierung in Nachbarschaft 

Parent Selection Fitness basierend Alle, aber nur ein Elternteil 

Survivor Selection Fitness basierend Elite, beste n Pflanzen 

Besonderheit - Implizite Exploration/Exploitation, 

variable Anzahl an Lösungen pro Generation 

Tabelle 6.1: Vergleich zwischen GA und IWO 

Durch die Anpassung der Standardabweichung implementiert ein IWO implizit eine zuerst 

breite Exploration des Lösungsraum, die immer mehr zu einer Exploitation der direkten Umgebung 

um die fittesten Pflanzen führt. Dieses Verhalten ist in einem klassischen GA nicht zu 

finden. 

6.2.1 Verwandtschaft zu Evolution Strategies 

Ein IWO unterscheidet sich nur geringfügig von einem klassischen GA, da für diesen Varianten 

existieren, die den Eigenschaften eines IWO entsprechen. Der IWO kann aber durch seine 

stetige Verringerung der Standardabweichung für die Ziehung der Mutationsschritte und der 

variablen Populationsgröße innerhalb einer Generation von einem GA unterschieden werden. 

Die erste der obigen Eigenschaften erinnert dabei an eine andere Variante von evolutionären 

Algorithmen, denEvolution Strategies. 

Diese Variante enthält eine Besonderheit unter allen klassischen EA-Varianten: Die automatische 

Anpassung der Mutationsschritte. Für jedes Gen (bzw. jede Dimension der Lösung) wird 

für die Mutation eine zufällige Zahl aus einer Normalverteilung mit Standardabweichung σ 

gezogen, die auch Teil der Repräsentation des Individuums ist. Jedes Gen x i hat ein ihm 

zugeordnetes σ i , dass die Länge des Chromosoms verdoppelt und anschließend in die Rekombination 

und Mutation mit einbezogen wird. Dies bewirkt, dass der mögliche Raum, in 

den eine Lösung fallen kann, sich nicht mehr kreisförmig um die bestehenden Lösung anordnet, 

sondern für jede Dimension eine elliptische Form annehmen kann, siehe Abbildung 6.1. 

Es können damit verschiedene Dimensionen mit verschiedenen Schrittweiten untersucht werden. 

Wenn man nun diese Eigenschaft der Evolution Strategies in die Mutation eines GA mit einbezieht, 

könnte man damit das Mutationsverhalten eines IWO in gewissem Rahmen nachbilden 

und auf diese Art weitere Vergleiche zwischen den Verfahren aufstellen. Genau dies wird in 

Abschnitt 4.6.3 und bei den Experimenten in Kapitel 5 durchgeführt. 

91


y 

globales Optimum 

Abbildung 6.1: Anpassung der Mutationsschritte mit n Schritten auf einer zweidimensionalen 

Fitnesslandschaft. Der Punkt innerhalb der Ellipse repräsentiert ein Individuum. 

Die Ellipse bestimmt den Raum, in den durch Mutation neue Lösungen 

fallen können. Auf der x-Koordinate ist eine weitere Ausbreitung möglich als 

auf der y-Koordinate. 

x 

6.3 Parallelisierung mit Clojure 

Zur Verdeutlichung der Mehrkern Parallelisierung mit Clojure wurden die drei implementierten 

Verfahren (PSOREC, GAREC, IWOREC) einmal mit und einmal ohne Parallelisierung 

gestartet und die Berechnungszeiten gestoppt. Die Ladezeit des Datensatzes wurde hierbei 

nicht mit einbezogen. Es ergaben sich folgende Zeiten für 5 Iterationen und Benutzer 1 auf 

einem Rechner mit zwei Intel Xeon W5580 CPUs mit je 4 Kernen getaktet auf 3,20 GHz: 

Parallelisiert Nicht Parallelisiert Faktor 

PSOREC 21,915 Sekunden 132,184 Sekunden 6,03 

GAREC 44,837 Sekunden 246,593 Sekunden 5,50 

IWOREC 35,637 Sekunden 217,746 Sekunden 6,11 

Tabelle 6.2: Vergleich der Verfahren, wenn eine parallelisierte und eine nicht parallelisierte 

Variante der Implementierung verwendet wird. Vorsicht: Verfahren untereinander 

hier nicht vergleichbar! 

Der maximal erreichbare Faktor läge bei perfekter Auslastung bei 8,0 (ohne Betrachtung des 

Overheads des Betriebssystems). Die Faktoren in Tabelle 6.2 sind niedriger, da die einzelnen 

Fitnessevaluationen unterschiedlich lange dauern können (da sie unterschiedliche Abstände 

berechnen) und immer auf den letzten der Agenten gewartet werden muss. 

92

6.4 Diskussion der Evaluationsmethoden 

Listing 6.1: Parallelisierte Berechnung der Fitnessfunktionen aller Partikel eines PSO 

1 (defn fly [swarm] 

2 (dorun (map #(send % update-particle (:gbest swarm)) 

3 (:particlelist swarm))) 

4 (apply await (:particlelist swarm))) 

Ein Geschwindigkeitsvergleich zwischen den einzelnen Verfahren ist durch diese Tabelle nicht 

möglich, da die Algorithmen eine unterschiedliche Anzahl an neuen Lösungen pro Generation 

erstellen und jeweils eine nicht vergleichbare Anzahl an Evaluationen durchlaufen. 

Agenten auffordern, die Evaluation durchzuführen 

Agenten melden jeweils das Ende ihrer Berechnungen 

Agent 

Agent 

Agent 

Agent 

Agent 

Agent 

Agent 

Agent 

runEvaluation 

runEvaluation 

Warten auf alle Agenten 

Abbildung 6.2: Clojure Agenten berechnen die Fitnessfunktion parallel und melden selbstständig 

das Ende der Berechnung an die Kontrollfunktion zurück. 

Der Quellcode in der Auflistung 6.1 beschreibt den Ablauf der parallelen Aufrufe der Fitnessfunktion. 

Um eine möglichst hohe Performance zu erreichen, werden statt Clojure-eigenen Vektoren 

oder Listen native Java-Arrays für die Repräsentation der Benutzerprofile verwendet. Dies 

bewirkt vor allem bei den Abstandsmaßen eine nahezu doppelt so schnelle Berechnung der 

Abstände zwischen zwei Vektoren bzw. double-arrays, siehe Listing 6.2. Jede Berechnung wurde 

mehrfach durchgeführt um Seiteneffekte auszuschließen. Die jeweils erste Berechnung 

dauert länger als die Folgenden, da ab der zweiten Berechnung die Caching-Mechanismen 

der Java Virtual Machine verwendet werden. 

6.4 Diskussion der Evaluationsmethoden 

Traings- und Testdatensatz Das Verhältnis der Aufteilung des Datensatzes ist bei der Evaluation 

wichtig. Sarwar et al. [66] bespricht die Auswirkung dieser Wahl auf ein Recommendersystem 

und zeigt, dass mit der steigenden Größe des Trainigsdatensatz die Genauigkeit 

der Empfehlungen ansteigt. Dies begründet er damit, dass ein großer Trainingsdatensatz das 

Modell sehr gut an die vorhandenen Daten anpasst und dadurch auf einer entsprechend 

kleinen Testmenge die Vorhersage genauer wird. Wenn die Trainingsmenge kleiner gewählt 

93


Listing 6.2: Optimierte Berechnung der Pearson-Korrelation mit Java-Arrays in Clojure. 

1 ; Standard Clojure Listen 

2 > (dotimes [_ 10] (time (weighted-pearson v1 v2 w))) 

3 "Elapsed time: 0.345911 msecs" 





8 

9 ; Java Arrays 

10 > (dotimes [_ 10] (time (weighted-pearson-optimized v1a v2a wa))) 






wird, z.B. weniger als 40%, wird das Modell schlechter an das Benutzerverhalten angepasst 

und erstellt schlechtere Empfehlungen. 

Vorhersagende Genauigkeitsmaße Es soll diskutiert werden, wie Verbesserungen im MAE 

zu deuten sind. Viele in der Literatur vorgeschlagene Erweiterungen der Standardalgorithmen 

ergeben oft nur kleine Verbesserungen des mittleren Fehlers (in der Regel Verbesserungen 

um 1% bis ca. 3% gegenüber Standardverfahren). Es stellt sich die Frage, ob diese 

Verbesserungen letztendlich überhaupt bessere Empfehlungen für den Benutzer bedeuten. 

Koren [39] untersucht diese Frage mit einem Top-N Recommender, der dem Benutzer die N 

besten Items empfiehlt und vergleicht die verschiedenen mittleren Fehler mehrerer Recommenderalgorithmen 

dahingehend, wie sich die Qualität der Top-N Empfehlungen verändert. 

Dafür nimmt er alle Items eines Benutzers aus dem Testdatensatz, die dieser Benutzer mit 

einem maximalen Rating bewertet hat (5 Punkte auf einer ganzzahligen Skala von 1 bis 5). Er 

bestimmt für jedes Item i aus dieser Menge und 1000 zufällig gewählten Items die geschätzte 

Bewertung und ordnet sie absteigend nach ihrem Ranking an. Das beste erhoffte Resultat ist, 

dass das Item i vor allen 1000 zufälligen Items angeordnet wird, also der Recommender das 

vom Benutzer maximal bewertete Item i auch an erster Stelle empfiehlt. 

Koren [39] führt dieses Verfahren für alle maximalen Ratings des Testdatensatzes und 5 verschiedenen 

Recommendersystemen durch und kann damit zeigen, dass schon eine kleine 

Verbesserung des mittleren absoluten Fehlers deutlich bessere Empfehlungen in einem Top-N 

Recommender ergeben. Ein Verfahren, dass einen mittleren Fehler auf dem von ihm verwendeten 

Datensatz (Netflix) von 0.8870 ergibt, hat eine 3-fach bessere Chance Item i an erster 

Stelle zu empfehlen als ein Verfahren, dass einen mittleren Fehler von 1.0534 aufweist. 

94

6.5 Diskussion der experimentellen Resultate 


6.5.1 Resultat Abstandsmaße ohne Optimierung 

Die Ergebnisse in Abbildung 5.4 zeigen, dass die verschiedenen Metriken für die meisten 

Nutzer einen Unterschied im mittleren Fehler ergeben. Jedoch konnte kein Maß ausgemacht 

werden, dass für alle Benutzer einen besseren MAE Wert als die anderen Maße ergibt. Man 

könnte für jeden Benutzer und für jeweils alle vier Maße den MAE Wert berechnen und die 

entsprechend beste Nachbarschaft festhalten, was jedoch relativ auswendig ist. 

6.5.2 Resultat exemplarischer Fitnessverlauf 

Man kann in Abbildung 5.5 erkennen, dass nach einer anfänglichen starken Verbesserung der 

Fitness die Kurve nach und nach abflacht. Danach sind keine deutlichen Verbesserungen mehr 

zu erwarten, ausgenommen man wendet multi-start-Methoden an, wie z.B. beim PSOREC- 

Verfahren, um Lösungen neu zu initialisieren und damit eventuell ein lokales Optimum zu 

verlassen. Für Details hierzu siehe auch Abschnitt 4.5.2. 

6.5.3 Diskussion der PSOREC Resultate 

Gewichtete Abstandsmaße Man kann in Abbildung 5.6 erkennen, dass zufällige und feste 

Gewichte bei fast allen Benutzern höhere MAE-Fehler bei der Vorhersage ergeben als das 

optimierte Gewicht. In keinem Fall war ein schlechterer MAE zu beobachten. Die Bestimmung 

eines optimierten Gewichtvektors zur persönlicheren Berechnung der Nachbarschaft 

eines aktiven Benutzers schlägt sich positiv auf den mittleren absoluten Fehler nieder. Alle 20 

zufällig gewählten Benutzer zeigen dieses Verhalten. Auch der durchgeführte Wilcoxon-Test 

ergab einen p-Wert deutlich unter dem Signifikanzniveau von 0,05. 

Der Unterschied zwischen den einzelnen Abstandsmaßen ist jedoch nicht eindeutig. Abbildung 

5.10 zeigt, dass es große Unterschiede zwischen den verschiedenen Metriken für einzelne 

Benutzer gibt. Es kann keine Metrik ausgemacht werden, die in der Mehrheit der Fälle 

besser ist als die anderen Metriken. 

Für manche Benutzer gibt es keinen oder nur einen sehr geringen Unterschied im mittleren 

absoluten Fehler (Benutzer 3, 4, 5, 7 und 18 in Abbildung 5.10) zwischen den Abstandsmaßen. 

Bei anderen Benutzern hingegen kann jedoch ein starker Unterschied ausgemacht werden. 

Bei manchen Benutzern (z.B. 9, 12, 19) ist er sogar so stark, dass die Verbesserung im mittleren 

Fehler eine deutlich bessere Empfehlung ergeben würde. Für eine genaue Diskussion 

des Zusammenhangs zwischen Verbesserungen im MAE und besseren Empfehlungen siehe 

Abschnitt 5.2.2 und [39]. 

Dieses Ergebnis kann für Verbesserungen in Recommendersystemen verwenden werden, indem 

man pro Benutzer das beste Maß bestimmt und dieses für zukünftige Empfehlungen 

95


verwendet. Wenn der Benutzer weitere Bewertungen in das System einpflegt, muss jedoch 

eine Neubestimmung des besten Maßes durchgeführt werden. 

Globales Optimum In Abbildung 5.8 und 5.9 ist für manche Benutzer eine klare Präferenz 

für ein Feature direkt zu erkennen, während die anderen Features für jeden Lauf (leicht) 

unterschiedlich gewichtet werden. Für andere Benutzer jedoch kann kein beherrschendes 

Feature ausgemacht werden. Was man immer erkennen kann ist, dass das Rating und die 

demografischen Features deutlich stärker gewichtet werden als die 18 Genres der Filme. Der 

Grund ist, dass die Genre-Features vorab reduziert werden, siehe Abschnitt 4.5.1. 

Benutzer 19 (links oben) zeigt, dass das Feature “Beruf” deutlich höher gewichtet wird als alle 

anderen Features. In einigen wenigen Läufen ist dies zwar nicht der Fall und die Verteilung 

über alle Features ist relativ gleichmäßig, jedoch kann für diesen Benutzer ein nahezu stabiles 

Gewicht gefunden werden. 

Benutzer 12 (rechts oben) zeigt, dass man für diesen kein festes Gewicht finden kann. Es 

ist aber zu beobachten, dass immer dann, wenn der Beruf sehr stark gewichtet wurde, die 

anderen Featuregewichte vergleichsweise niedrig sind. Ansonsten werden die Gewichte zwischen 

den demografischen Werten gleichmäßig verteilt, so dass kein dominierendes Feature 

zu erkennen ist. 

Benutzer 1 (links unten) lässt erkennen, das hier der Beruf im Vergleich zu den anderen 

demografischen Werten keine Rolle spielt, für diese jedoch kein festes Gewicht gefunden 

werden kann. 

Für Benutzer 8 (rechts unten) lässt sich entnehmen, dass entweder das Rating oder der Beruf 

im Wechsel dominant gewichtet werden. Wenn eines der beiden Features einen im Vergleich 

hohen Wert zeigt, ist das jeweils andere Feature entsprechend niedrig gewertet. 

An diesen vier Beispielen lässt sich erkennen, dass für keinen der Benutzer ein immer eindeutiges 

Gewicht gefunden werden kann. Manche Benutzer tendieren zwar zu einem nahezu 

festen Gewicht, andere jedoch zeigen überhaupt keine feste Tendenz zu einem (oder mehreren) 

Features. 

Wahl der Nachbarschaftsgröße Es ist in Abbilding 5.11 zu erkennen, dass ab einer Größe 

von 200 Benutzern der MAE langsam abflacht und sich ab 500 Benutzern (also etwa die Hälfte 

der Gesamtgröße des Datensatzes) nicht mehr verändert. Die Ausreißer und Schwankungen 

ab einer Nachbarschaftsgröße von ca. 750 Benutzer sind damit zu erklären, dass nun auch 

Benutzer mit aufgenommen werden, die überhaupt keine Ähnlichkeit (bedingt durch keine 

gemeinsamen Items) mit dem aktiven Benutzer haben. Es ist daher zu empfehlen, eine Nachbarschaftsgröße 

zu wählen, die vor diesen Schwankungen liegt, z.B. im Bereich zwischen 50% 

und 70% der Gesamtgröße. 

Dieses Ergebnis bestätigt die Untersuchungen von Zaier et al. [78], der ebenfalls eine Untersuchung 

verschiedener Nachbarschaftsgrößen durchgeführt hat. Für die Verfahren GAREC 

96


(inklusive der Variante mit ES Mutation) und IWOREC ergeben sich hier keine Veränderungen. 

Reduzierung von Features Anhand der Ergebnisse für Benutzer 19, der relativ stabile Gewichte 

bei Verwendung aller Features gezeigt hat, zeigt sich auf dem angepassten Datensatz, 

dass das Entfernen von Feature “Alter” keine merklichen Veränderungen ergibt. Ebenso beim 

Geschlecht, wobei hier die Varianz der einzelnen Läufe pro Feature geringer wurde. Es kann 

überhaupt kein festes Gewicht mehr ausgemacht werden, wenn alle demografischen Features 

ausgeblendet werden. Wenn nur Genres fehlen, ist eine mittlere Stabilität der Gewichte zu 

beobachten. 

Benutzer 12, für den in Abbildung 5.8 kein festes Gewicht gefunden werden konnte, zeigt 

durch die Reduzierung von Features folgendes Verhalten: Entfernen des Alters ergibt keinen 

Unterschied. Wenn Feature “Geschlecht” entfernt wird, verschlechtert sich die Stabilität, die 

demografischen Features sind weniger klar von den Genres getrennt wie zuvor. Das selbe gilt 

logischerweise für das komplette entfernen der demografischen Features. Wenn die Genres 

entfernen werden, kann eine Tendenz gegen das Feature Beruf ausgemacht werden. 

Für die Reduzierung an diesen zwei exemplarischen Benutzern kann man erkennen, dass das 

entfernen von Features keine deutliche Verbesserung der Gewichtsstabilität mit sich bringt. 

Sie wird eher verschlechtert, wenn komplette Featuresätze wie die demografischen Features 

entfernt werden. 

Auswirkungen von Velocity Clamping und Trägheitsgewichten Eine Untersuchung der 

verschiedenen Methoden auf dem PSOREC Algorithmus haben ergeben, dass die Wahl der 

Berechnung keine messbare Auswirkung hat. Wenn weder Velocity Clamping (VC) noch Trägheitsgewichte 

(TG) eingesetzt werden, ist jedoch eine Verschlechterung des mittleren absoluten 

Fehlers messbar, siehe Tabelle 5.7. 

In Abbildung 5.15 ist der Verlauf des mittleren MAE über 50 unabhängige Läufe für die 

ersten 20 Benutzer aufgezeigt. Im Mittel ist zu sehen, dass alle Ansätze mit VC und TG 

nahezu ähnliche Werte liefern. Daher ist anzunehmen, dass es keine Auswirkung auf die 

Qualität der Empfehlungen des Recommenders hat, auf welche Weise man das Trägheitsgewicht 

berechnet. Die zugrunde liegende Fitnesslandschaft scheint die positiven Effekte eines 

Trägheitsgewicht wieder auszugleichen. 

Random Resetting Die beiden untersuchten Varianten des Random Resetting haben, siehe 

Abbildung 5.16, haben keine Verbesserung im mittleren absoluten Fehler erbracht. Dies hat 

auch der statistische Test ergeben, man kann einen Unterschied zwischen den Stichproben 

ausmachen. 

Es wurde exemplarisch Benutzer 12 ausgewählt, der in Abbildung 5.8 keinen festen Gewichtsvektor 

finden konnte. Die Untersuchung der Gewichtsstabilität zeigt, siehe Abbildung 5.17, 

dass wenn kein Random Resetting verwendet wird, die Gewichte leicht instabiler sind als mit 

97


Random Resetting. Man kann mehr Instabilität innerhalb der Genrefeatures erkennen. Die 

Wahl der Initialisierungsmethode (zufällig oder 0) ergibt keinen erkennbaren Unterschied. 

6.5.4 Diskussion der GAREC Resultate 

Gewichtete Abstandsmaße Man kann über die MAE-Werte in Abbildung 5.18 erkennen, 

dass es bei den meisten Benutzern keine großen Unterschiede in den verwendeten Verfahren 

gibt und man keinen eindeutig besten Algorithmus ausmachen kann. Alle Verfahren bewegen 

sich, bis auf einige Ausreißer, auf dem gleiche Niveau. Bei Benutzer 20 ist der mittlere 

absolute Fehler für das GAREC- und IWOREC-Verfahren deutlich niedriger. PSOREC zeigt 

bei Benutzer 9 einen niedrigeren MAE Wert als die anderen Verfahren. 

Der Kruskal-Wallis-Test ergab einen p-Wert von 0.9749. Die Nullhypothese kann damit nicht 

abgelehnt werden und sagt aus, dass es vermutlich keinen Unterschied macht, welches der 

Verfahren man verwendet. 

Verschiedene Abstandsmaße Für die verschiedenen Abstandsmaße im GAREC Verfahren 

ergeben sich interessante MAE Werte für die 20 zufällig gewählten Benutzer, siehe Abbildung 

5.19. Die Kosinusähnlichkeit ist in 13 von 20 Fällen das beste Maß ist und der über die 

Pearson Korrelation berechnete Abstand liegt im MAE jeweils nur knapp darüber. Die beiden 

Metriken (Manhattan und Euklid) sind beide in 16 von 20 Fällen das schlechtere Maß. 

Man kann daher sagen, dass beim GAREC Verfahren die Kosinusähnlichkeit oder der Pearson 

Korrelationskoeffizient das bessere Maß ist, auch wenn die Nullhypothese nicht abgelehnt 

werden konnte (p-Wert von 0.5613). 

Mutationswahrscheinlichkeit und Auswirkung von Fitness-Sharing Die Erhöhung der 

Mutationswahrscheinlichkeit hat eine signifikante Auswirkung auf die MAE Werte der 20 Benutzer. 

Der p-Wert des statistischen Test von 0, 03624 liegt unter den Signifikanzniveau von 

0, 05. In 17 von 20 Fällen ist der MAE deutlich schlechter, wenn eine Mutationswahrscheinlichkeit 

von 25% verwendet wird, siehe Abbildung 5.20. 

Für die Verwendung von Fitness-Sharing zeigt sich, dass in 15 von 20 Fällen der mittlere 

absolute Fehler besser oder gleich ist, wenn Fitness Sharing angewendet wird. Die Verbesserung 

des MAE ist bei manchen Benutzern relativ deutlich, so dass man eine Verbesserung 

der Empfehlungen erwarten kann. Auch der statistische Test mit einem p-Wert von 0.01531 

untermauert diese Aussage. 

Selbstanpassung der Mutationsschritte und Evolution Strategies Die Verteilung der Gewichtswerte 

in den unabhängigen Läufen, Abbildung 5.22, zeigen, dass es keinen Unterschied 

macht ob eine angepasste oder feste Mutationsstrategie verwendet wird. Die Gewichte für beide 

Benutzer bleiben gleich stabil, zwischen den beiden Verfahren gibt es keine Unterschiede. 

In dieser Abbildung ist auch zu sehen, dass das Standard-GAREC Verfahren ähnlich stabile 

98


Gewichte erzeugt wie das PSOREC Verfahren, es also in dieser Hinsicht keinen Unterschied 

zwischen den Verfahren gibt. 

Die MAE Werte für 20 Benutzer bei der angepassten GA Variante sind in 14 von 20 Fällen 

schlechter als beim Standardverfahren GAREC, siehe Abbildung 5.18. Der p-Wert von 0.08255 

zeigt, auch wenn er knapp über dem Signifikanzniveau von 0, 05 liegt, dass das erweitere 

GAREC Verfahren auch statistisch keine Verbesserung darstellt. 

6.5.5 Diskussion der IWOREC Resultate 

Gewichtete Abstandsmaße Für das IWOREC Verfahren liegt bei 10 von 20 Benutzern der 

MAE niedriger im Vergleich zu den anderen Verfahren, siehe Abbildung 5.18. Der statistische 

Test hat zwar keinen signifikanten Unterschied zwischen allen vier vorgestellten Verfahren 

ergeben (p-Wert 0.9749), jedoch ist das IWOREC Verfahren bei einer eindeutigen Mehrzahl 

der Benutzer das beste Maß, jedoch ist der jeweilige Unterschied relativ gering. 

Globales Optimum Das resultierenden Boxplots zeigen in Abbildung 5.23, dass die Gewichte 

weniger stabil sind als die optimierten Gewichte im PSOREC Verfahren (Abbildung 5.8). 

Besonders Benutzer 19, der per PSOREC relativ stabil war, zeigt nun nicht mehr eine deutliche 

Präferenz für ein Feature. Auch Benutzer 8, der bisher ein Feature (Geschlecht) durchgängig 

relativ niedrig bewertet hat, kann dies nicht mehr in den per IWOREC optimierten Gewichten 

vorweisen. 

Verschiedene Abstandsmaße Man sieht in Abbildung 5.24, dass für manche Benutzer jeweils 

eines der Maße einen besseren MAE Wert ergibt als die anderen Maße, jedoch kein Maß 

bei allen Benutzern immer einen niedrigeren Wert ergibt. Jedoch ist die Pearson-Korrelation 

in 10 von 20 Fällen das beste Maß und der euklidische Abstand in keinem der Fälle. Damit, 

trotz des nicht signifikanten statistischen Tests, kann man sagen, dass die Pearson-Korrelation 

(unter Berücksichtigung der kleinen Stichprobe) das bevorzugte Maß im IWOREC Verfahren 

ist. Das Gegenteil gilt für das euklidische Maß. Da die Unterschiede im MAE teilweise sehr 

groß sind (z.B. bei Benutzer 4) könnte man auch hier wieder für jeden Benutzer das beste 

Maß vorab bestimmen und dieses im tatsächlichen Empfehlungsprozess einsetzen. 

Wahl der IWO Parameter Es ist in Abbildung 5.25 zu erkennen, dass für niedrige σ-Werte 

der mittlere absolute Fehler niedriger ist als für höhere σ-Werte. Dieser Unterschied unterliegt 

aber starken Schwankungen, die ab ungefähr σ = 25 im MAE deutlich ansteigen. Es wird 

daher empfohlen, für den MovieLens Datensatz einen σ-Wert von kleiner als 25 zu wählen. 

FPS Strategie für IWO Der statistische Test sowie die einzelnen MAE Werte zeigen in Abbildung 

5.26, dass die FPS-Strategie eine signifikante negative Auswirkung auf den MAE hat. 

Dies liegt daran, dass durch die Fitness Proportional Selection gute Lösungen verloren gehen 

können. 

99


6.5.6 Zusammenfassung der Experimente 

Die experimentelle Untersuchung hat ergeben, dass optimierte Gewichtsvektoren eine signifikante 

Verbesserung der Empfehlungsqualität ergeben. Es kann jedoch kein stabiler Gewichtsvektor 

für die einzelnen Benutzer gefunden werden, jedoch sind die zugehörigen MAE-Werte 

stabil. 

Für das PSOREC Verfahren hat sich das euklidische Maß als das schlechteste Maß herausgestellt. 

Die Verwendung von Velocity Clamping und Trägheitsgewichten ergeben eine deutliche 

Verbesserung. Im GAREC Verfahren ist die Kosinusähnlichkeit vermutlich das beste, der 

Manhattan- und euklidische Abstand deutlich das schlechteste Maß. Die Verwendung von 

Fitness-Sharing hat eine signifikante Verbesserung der Empfehlungsqualität ergeben. Für das 

IWOREC Verfahren hat sich, wie bei PSOREC, das euklidische Maß als das eindeutig schlechteste 

Maß herausgestellt. IWOREC konnte bei der Hälfte der Benutzer die besten MAE Werte 

ermitteln. 

6.6 Weitere Erkenntnisse 

Spearman Rangkorrelationskoeffizient Durch Verwendung des Pearson Korrelationskoeffizienten 

stellt sich die Frage, ob nicht auch der Spearman Rankkorrelationskoeffizient verwendet 

werden kann, da dieser keine lineare Beziehung zwischen zwei Variablen benötigt 

und stabil gegenüber Ausreißern ist. Die erste Eigenschaft würde auf die ganzzahlige Bewertungsskala 

von 1 bis 5 des MovieLens Datensatzes passen. Auch wäre eine gewichtete 

Variante möglich, wie sie bei den anderen in dieser Arbeit verwendeten Abstandsmaßen eingesetzt 

wurde. 

Jedoch stößt man durch die Verwendung der demografischen Informationen der Nutzer und 

Genres der Items auf das Problem, dass man diese Werte nicht auf einen Rang abbilden kann. 

So ist es z.B. nicht möglich, Features wie “Beruf” oder “Geschlecht” in eine Rangreihenfolge 

zu bringenl, ausser man verwendet Ausnahmen für solche Features (z.b. Abstand 1 bei gleichem 

Wert, sonst 0). Wenn man jedoch, wie es in anderen Recommendersystem oft der Fall 

ist, nur die Bewertungen von Benutzern auf Items verwendet und ansonsten keine weiteren 

Informationen verwendet, könnte man den Rangkorrelationskoeffizient für die Bestimmung 

der Ähnlichkeit zweier Bewertungsvektoren verwenden. 

Multiobjective Optimisation Problems Die oft angesprochene multimodale Fitnesslandschaft, 

die aus dem Recommenderdatensatz entsteht, und die Beobachtung, dass kein eindeutig 

festes Gewicht für einen aktiven Benutzer gefunden werden kann, führt schnell zu der 

Annahme, dass es sich hier um ein multikriterielle Optimierungsproblem handelt. Bei solchen 

Problemen stehen sich zwei (oder mehr) Bedingungen so gegenüber, dass sie sich gegenseitig 

beschränken (constraints). Das heißt, man kann nie beide Bedingungen so belegen, dass ein 

optimales Ergebnis erreicht wird. 

100

6.7 Ausblick 

Dies ist aber bei den Gewichtsvektoren, die die Präferenzen eines Benutzers abbilden, nicht 

der Fall, da ein Benutzer durchaus alle Features maximal gewichtet (bzw. gleich) haben kann 

und daraus kein Nachteil in der Empfehlungsqualität entsteht. Die einzelnen Präferenzen 

sind unabhängig voneinander und beeinflussen daher die anderen Präferenzen nicht. 

6.7 Ausblick 

Im Laufe dieser Arbeit haben sich weitere interessante Ansätze für die Verbindung von Recommendersystemen 

und evolutionären Algorithmen sowie Schwarmintelligenz ergeben, die 

jedoch nicht in den Fokus dieser Arbeit gepasst haben. 

Ein möglicher Ansatz wäre die Modellierung von Regelwerken, die beschreiben wie und 

warum ein Benutzer ein Item so bewertet wie er es tut. Diese Regeln bzw. deren Syntax 

könnte man per Parse Tree beschreiben und mit einem Genetic Programming [22]-Algorithmus 

mutieren, um nach und nach die Regeln so zu verfeinern, dass sie die genauen Regeln wiedergeben, 

warum ein Benutzer ein Item hoch bewertet. Darüber hinaus wäre die Verwendung 

von Learning Classifier Systems an dieser Stelle ein zusätzlicher interessanter Forschungsbereich. 

Die in Abschnitt 2.5.4 vorgestellten Latent Factor Models werden (unter anderem) mit einem 

stochastischen Gradientenabstiegsverfahren trainiert, um die Präferenzen der Benutzer zu 

lernen. Statt diesen Lernalgorithmen könnte man einen evolutionären Algorithmus einsetzen, 

der die entsprechenden Präferenzvektoren als Individuen verwendet und diese Schritt für 

Schritt optimiert. Es würde sich hier die Frage stellen, welche der beiden Verfahren qualitativ 

bessere und schnellere Lösungen findet. 

101


102

7 Zusammenfassung der Hauptergebnisse 

Recommendersysteme analysieren das Verhalten von Benutzern eines Informationssystems 

und bieten ihnen personalisierte Empfehlungen für bisher unbekannte Produkte an, die für 

sie relevant sein könnten. Der Internetversandhändler Amazon.com ist ein bekanntes Beispiel 

für die Umsetzung dieser Idee. 

Das Grundproblem für Recommendersysteme ist es, eine Schätzung über die vermutliche 

Bewertung eines Benutzers für ein Item (zum Beispiel ein Buch, einen Film oder ein beliebig 

anderes, bewertbares Produkt) abzugeben. Eine Möglichkeit dieses Problem zu lösen ist, 

die einzelnen Items durch verschiedene Eigenschaften zu charakterisieren und diese mit den 

Vorlieben des Benutzers zu vergleichen. Eine weitere Möglichkeit ist die Betrachtung von 

anderen Benutzern mit ähnlichem Geschmack. Anhand deren Bewertungen für ein bisher 

unbekanntes Item wird die Bewertung des Benutzers dafür geschätzt. Die qualitativ höchsten 

Bewertungen innerhalb dieser Nachbarschaft werden dem Benutzer anschließend als Empfehlungen 

präsentiert. Die Schwierigkeit in einem Recommendersystem besteht nun darin, 

das Verhalten der Benutzer möglichst exakt abzubilden und eine präzise Nachbarschaft der 

ähnlichsten Benutzer zu bilden. Je genauer diese Informationen sind, desto bessere Empfehlungen 

für Items können erstellt werden. 

In dieser Arbeit wurden ein Verfahren entwickelt und um mehrere Varianten und Verbesserungen 

erweitert, das für die Berechnung der Nachbarschaft (k-nearest-neighbor) eines Benutzers 

für diesen einen persönlichen Gewichtsvektor erstellt. Dieser Vektor gewichtet die 

einzelnen Features bei der Abstandsberechnung zwischen diesem Benutzer und allen anderen 

Benutzern des Systems entsprechend ihrer Vorlieben, die durch die Features der Vektoren 

beschrieben werden. Die algorithmische Bestimmung dieser Gewichte erfolgt über nichtstandard 

Optimierungsverfahren. Es wurden ein Particle Swarm Optimization Algorithmus 

(PSO), ein genetischer Algorithmus (GA) in zwei Varianten und ein Invasive Weed Optimization 

Algorithmus (IWO) angewandt. Die Fitnessfunktion der jeweiligen Algorithmen ist das 

entwickelte Recommendersystem, das als mögliche Lösung einen Gewichtsvektor übergeben 

bekommt und für diesen die Qualität der daraus resultierenden Empfehlungen bestimmt. Ein 

möglicher Gewichtsvektor für einen Benutzer wird so lange optimiert, bis die daraus resultierende 

Nachbarschaft einen minimalen Schätzungsfehler (mean absolute error, MAE) zwischen 

echten und vorhergesagten Bewertungen dieses Benutzers ergibt. 

Die experimentelle und statistische Untersuchung der Verfahren hat ergeben, dass optimierte 

Gewichtsvektoren zur Nachbarschaftsbestimmung eine signifikante Verbesserung der Empfehlungsqualität 

ergeben. Es hat sich jedoch gezeigt, dass die Wahl der Abstandsfunktion 

keine signifikante Auswirkung auf die globale Qualität der Verfahren hat, jedoch für einen 

einzelnen Benutzer durchaus stark unterschiedlich sein kann. Durch die Erweiterung der Op- 

103

7 Zusammenfassung der Hauptergebnisse 

timierungsverfahren mit Velocity Clamping und Intertia Weights (PSO) sowie Fitness-Sharing 

(GA), konnten Verbesserungen im MAE erreicht werden. Koren et al. [39] hat gezeigt, dass 

selbst kleine Verbesserungen im MAE eine deutliche Auswirkungen auf die Kundenzufriedenheit 

hatten. Das IWOREC Verfahren hat sich bei 10 von 20 Fällen als das beste unter vier 

Verfahren herausgestellt. Es wurde durch die experimentelle Untersuchung die Erkenntnis erlangt, 

dass die entstehende Fitnesslandschaft stark multimodal ist. Es konnte für die meisten 

Benutzer kein fester Gewichtsvektor für aufeinander folgende, unabhängige Läufe des Algorithmus 

gefunden werden. Die verschiedenen Gewichte ergaben jedoch zuverlässig gleiche 

MAE Werte. 

Alle Algorithmen wurden in Clojure implementiert, einem modernen LISP-Dialekt, der eine 

robuste Infrastruktur für Mehrkern-Parallelisierung bietet. Dies ermöglichte es, die Berechnung 

der Fitnessfunktionen nebenläufig durchzuführen, was einen großen Einfluss auf die 

Laufzeiten der Verfahren hatte. Es konnte eine bis zu 6-fache Laufzeitverbesserung auf einem 

8-Kern Rechner beobachtet werden. 

Zusammenfassend lässt sich sagen, dass die Verwendung eines optimierten und personalisierten 

Gewichtsvektor für die Berechnung der Nachbarschaft eine signifikante Auswirkung 

auf die Empfehlungsqualität des Recommendersystems hat. Erweiterungen der Optimierungsverfahren 

ergeben weitere Verbesserungen. Jedoch konnte kein signifikanter Unterschied 

zwischen den verschiedenen Optimierungsverfahren gefunden werden. 

Für zukünftigen Arbeiten in diesem Bereich könnte die Abbildung des Benutzerverhaltens in 

Regelwerke und anschließende Optimierung durch einen Genetic Programming-Ansatz interessant 

sein. Auch die Verbindung von Latent Factor Models mit nicht-standard Optimierungsverfahren 

wurde bisher noch nicht untersucht. 

104

Literaturverzeichnis 

[1] Adomavicius, G. ; Tuzhilin, A.: Toward the next generation of recommender systems: a 

survey of the state-of-the-art and possible extensions. In: IEEE Transactions on Knowledge 

and Data Engineering 17 (2005), Nr. 6, S. 734–749 

[2] Aggarwal, C. C. ; Wolf, J. L. ; Wu, K. ; Yu, P. S.: Horting Hatches an Egg: A New Graph- 

Theoretic Approach to Collaborative Filtering. In: Proceedings of the fifth ACM SIGKDD 

international conference on Knowledge discovery and data mining. San Diego, California, 

United States : ACM, 1999, S. 201–212 

[3] Anderson, C. ; Franks, N. R.: Teams in animal societies. In: Behavioral Ecology 12 (2001), 

September, Nr. 5, S. 534–540 

[4] Balabanović, M. ; Shoham, Y.: Fab: content-based, collaborative recommendation. In: 

Communications of the ACM 40 (1997), Nr. 3, S. 66–72 

[5] Basu, C. ; Hirsh, H. ; Cohen, W.: Recommendation as classification: Using social and 

content-based information in recommendation. In: Proceedings of the National Conference 

on Artificial Intelligence Bd. pp, John Wiley & Sons LTD, 1998, S. 714–720 

[6] Bedi, P. ; Sharma, R. ; Kaur, H.: Recommender System Based on Collaborative Behavior 

of Ants. In: Journal of Artificial Intelligence 2 (2009), Nr. 2, S. 40–55 

[7] Belkin, N. J. ; Croft, B.: Information Filtering and Information Retrieval: Two Sides of 

the Same Coin? In: Communcations to the ACM 35 (1992), Nr. 12, S. 29–38 

[8] Bergh, F.: An analysis of particle swarm optimizers, University of Pretoria, PhD Thesis, 2001 

[9] Billsus, D. ; Pazzani, M. J.: Learning collaborative information filters. In: Shavlik, 

Jude W. (Hrsg.): Proceedings of the Fifteenth International Conference on Machine Learning 

Bd. 54, ACM, 1998, S. 46–54 

[10] Billsus, D. ; Pazzani, M. J.: User Modeling for Adaptive News Access. In: User Modeling 

and User-Adapted Interaction 10 (2000), Nr. 2-3, S. 147–180 

[11] Brin, S. ; Page, L.: The anatomy of a large-scale hypertextual Web search engine. In: 

Computer networks and ISDN systems 30 (1998), Nr. 1-7, S. 107–117 

[12] Burke, Robin D.: A Case-Based Reasoning Approach to Collaborative Filtering. In: 

Blanzieri, Enrico (Hrsg.) ; Portinale, Luigi (Hrsg.): EWCBR Bd. 1898, Springer, 2000 

(Lecture Notes in Computer Science). – ISBN 3–540–67933–2, S. 370–379 

[13] Canny, J. F.: Collaborative Filtering with Privacy. In: Proceedings of the 2002 IEEE Symposium 

on Security and Privacy. Berkeley, CA, USA : IEEE, 2002, S. 45–57 

105


[14] Chickering, D.M. ; Heckerman, D. ; Meek, C.: A Bayesian approach to learning Bayesian 

networks with local structure. In: In Proceedings of Thirteenth Conference on Uncertainty 

in Artificial Intelligence, Morgan Kaufmann, 1997, S. 80–89 

[15] Claypool, M. ; Gokhale, A. ; Miranda, T. ; Murnikov, P. ; Netes, D. ; Sartin, M.: 

Combining Content-Based and Collaborative Filters in an Online Newspaper. In: Proceedings 

of ACM SIGIR Workshop on Recommender Systems. Berkeley, CA, USA : ACM, 

August 1999, S. 40–48 

[16] Clerc, M.: The swarm and the queen: towards a deterministic and adaptive particle 

swarm optimization. In: Proceedings of the 1999 Congress on Evolutionary Computation 

Bd. 3. Washington, DC, USA : IEEE, 1999. – ISBN 0–7803–5536–9, S. 1951–1957 

[17] Computer Idustry Almanac: Worldwide Internet Users Top 1.5 Billion in 2008. http: 

//c-i-a.com/pr0509.htm. Version: 15.12.2010 

[18] Condliff, M. K. ; Lewis, D. D. ; Madigan, D. ; Posse, C. ; Talaria, I.: Bayesian mixedeffects 

models for recommender systems. In: Conference SIGIR-99 Workshop on Recommender 

Systems: Algorithms and Evaluation Bd. 99, ACM, 1999, S. 20–28 

[19] Crepinsek, M. ; Mernik, M. ; Zumer, V.: Using flocks for solving numerical optimization 

problems. In: Glavinic, Vlado (Hrsg.) ; Dobric, Vesna H. (Hrsg.) ; Simic, Diana (Hrsg.): 

Proceedings of the 24th International Conference on Information Technology Interfaces. Cavtat, 

Croatia : SRCE University Computing Centre, University of Zagreb, 2002. – ISSN 1330– 

1012, S. 395–400 

[20] Deshpande, M. ; Karypis, G.: Item-based top-n recommendation algorithms. In: ACM 

Transactions on Information Systems 22 (2004), Nr. 1, S. 143–177 

[21] Eberhart, R.C. ; Shi, Y.: Particle swarm optimization: developments, applications and 

resources. In: Proceedings of the 2001 congress on evolutionary computation Bd. 1. Piscataway, 

NJ, USA : IEEE, 2001, S. 81–86 

[22] Eiben, A. E. ; Smith, J. E.: Introduction to evolutionary computing. Heidelberg : Springer 

Verlag, 2003 

[23] Engelbrecht, A. P.: Fundamentals of computational swarm intelligence. New York : Wiley, 

2005 

[24] Gansner, E. ; Hu, Y. ; Kobourov, S. ; Volinsky, C.: Putting recommendations on the 

map: visualizing clusters and relations. In: Proceedings of the third ACM conference on 

Recommender systems. New York, NY, USA : ACM, 2009, S. 345–348 

[25] Gantz, J. F.: Das digitale Universum - Vielfalt und rasantes Wachstum. IDC Whitepaper, 

2008 

[26] Goldberg, D. ; Nichols, D. A. ; Oki, B. M. ; Terry, D. B.: Using Collaborative Filtering 

to Weave an Information Tapestry. In: Communications of the ACM 35 (1992), Nr. 12, S. 

61–70 

[27] Goldberg, K. ; Roeder, T. ; Gupta, D. ; Perkins, C.: Eigentaste: A constant time collaborative 

filtering algorithm. In: Information Retrieval, Springer LCS 4 (2001), Nr. 2, S. 

133–151 

106


[28] Good, N. ; Schafer, J. B. ; Konstan, J. A. ; Borchers, A. ; Sarwar, B. ; Herlocker, 

J. L. ; Riedl, J.: Combining collaborative filtering with personal agents for better recommendations. 

In: Proceedings of the National Conference on Artificial Intelligence Bd. pp, John 

Wiley & Sons LTD, 1999, S. 439–446 

[29] Heckerman, D. ; Breese, J. S. ; Kadie, C.: Empirical analysis of predictive algorithms 

for collaborative filtering. In: Proceedings of the 14th Conf. on Uncertainty in Artificial Intelligence. 

Madison, WI, USA : Morgan Kaufmann, 1998, S. 43–52 

[30] Heppner, F ; Grenander, U: A stochastic nonlinear model for coordinated bird flocks. 

In: Krasner, E (Hrsg.): The Ubiquity of Chaos, AAAS Publications, 1990, S. 233–238 

[31] Herlocker, J. L. ; Konstan, J. ; Terveen, L. G. ; Riedl, J.: Evaluating collaborative 

filtering recommender systems. In: ACM Transactions on Information Systems 22 (2004), 

Januar, Nr. 1, S. 5–53 

[32] Hill, W. ; Stead, L. ; Rosenstein, M. ; Furnas, G.: Recommending and evaluating choices 

in a virtual community of use. In: Proceedings of the SIGCHI conference on Human factors 

in computing systems Bd. pp. Denver, Colorado, United States : ACM Press/Addison- 

Wesley Publishing Co., 1995, S. 194–201 

[33] Hofmann, T.: Collaborative filtering via gaussian probabilistic latent semantic analysis. 

In: International ACM SIGIR Conference on Research and Development in Information Retrieval. 

Toronto : ACM, 2003. – ISBN 1–58113–646–3, S. 259–266 

[34] Hofmann, T.: Latent semantic models for collaborative filtering. In: ACM Transactions 

on Information Systems 22 (2004), Nr. 1, S. 89–115 

[35] Karimkashi, S. ; Kishk, A. A.: Antenna array synthesis using Invasive Weed Optimization: 

A new optimization technique in electromagnetics. In: 2009 IEEE Antennas and 

Propagation Society International Symposium. Charleston, SC , USA : IEEE, 2009. – ISBN 

978–1–4244–3647–7, S. 1–4 

[36] Kennedy, James ; Eberhart, Russell C.: Swarm intelligence. San Francisco, CA, USA : 

Morgan Kaufmann Publishers Inc., 2001. – ISBN 1–55860–595–9 

[37] Konstan, J. A. ; Miller, B. N. ; Maltz, D. ; Herlocker, J. L. ; Gordon, L. R. ; Riedl, J.: 

GroupLens: Applying Collaborative Filtering to Usenet News. In: Communications of the 

ACM 40 (1997), Nr. 3, S. 77–87 

[38] Koren, Y.: The BellKor Solution to the Netflix Grand Prize. http://www.stat.osu.edu/ 

~dmsl/GrandPrize2009_BPC_BellKor.pdf. Version: 15.04.2010 

[39] Koren, Y.: Factorization meets the neighborhood: a multifaceted collaborative filtering 

model. In: Proceeding of the 14th ACM SIGKDD international conference on Knowledge discovery 

and data mining. Las Vegas, Nevada, USA : ACM, 2008, S. 426–434 

[40] Koren, Y.: Collaborative filtering with temporal dynamics. In: Proceedings of the 15th 

ACM SIGKDD international conference on Knowledge discovery and data mining. New York, 

New York, USA : ACM, 2009. – ISBN 9781605584959, S. 447–456 

[41] Koren, Y. ; Bell, R. ; Volinsky, C.: Matrix factorization for Recommender Systems. In: 

IEEE Computer 42 (2009), Nr. 8, S. 30–37 

107


[42] Kraus, J. M. ; Kestler, H. A.: Multi-core parallelization in Clojure: a case study. In: 

Proceedings of the 6th European Lisp Workshop. Genova, Italy : ACM, 2009, S. 8–17 

[43] Kumar, R. ; Raghavan, P. ; Rajagopalan, S. ; Tomkins, A.: Recommendation systems: 

A probabilistic analysis. In: Proceedings of the 39th Annual Symposium on Foundations of 

Computer Science 63 (1998), Nr. 1, S. 664–673 

[44] Lam, S. K. ; Frankowski, D. ; Riedl, J.: Do You Trust Your Recommendations? An Exploration 

of Security and Privacy Issues in Recommender Systems. In: Müller, Günter 

(Hrsg.): Emerging Trends in Information and Communication Security, International Conference. 

Freiburg, Germany : Springer, 2006, S. 14–29 

[45] Lam, S. K. ; Riedl, J.: Shilling recommender systems for fun and profit. In: Feldman, 

Stuart I. (Hrsg.) ; Uretsky, Mike (Hrsg.) ; Najork, Marc (Hrsg.) ; Wills, Craig E. (Hrsg.): 

Proceedings of the 13th international conference on World Wide Web. New York, NY, USA : 

ACM, 2004. – ISBN 1–58113–844–X, S. 393–402 

[46] Lang, K.: Newsweeder: Learning to filter netnews. In: Prieditis, Armand (Hrsg.) ; 

Russell, Stuart J. (Hrsg.): In Proceedings of the Twelfth International Conference on Machine 

Learning. Tahoe City, California, USA : Morgan Kaufmann, 1995, S. 331–339 

[47] Littlestone, N. ; Warmuth, MK: The weighted majority algorithm. In: 30th Annual 

Symposium on Foundations of Computer Science, 1989 108 (1994), Nr. 2, S. 256–261 

[48] Lorenzi, F. ; Scherer Dos Santos, D. ; Bazzan, A. L. C.: Case-based recommender 

system inspired by social insects. In: Proceeding of the 15th Congresso da Sociedade Brasileira 

de Computação. Sao Leopoldo : Unisinos, 2005, S. 752–760 

[49] Marlin, B.: Modeling User Rating Profiles For Collaborative Filtering. In: Thrun, Sebastian 

(Hrsg.) ; Saul, Lawrence K. (Hrsg.) ; Schölkopf, Bernhard (Hrsg.): Advances in 

Neural Information Processing Systems. Vancouver and Whistler, British Columbia : MIT 

Press, 2003. – ISBN 0–262–20152–6, S. 40–48 

[50] Matsumoto, M. ; Nishimura, T.: Mersenne twister: a 623-dimensionally equidistributed 

uniform pseudo-random number generator. In: ACM Transactions on Modeling and 

Computer Simulation 8 (1998), Januar, Nr. 1, S. 3–30. – ISSN 10493301 

[51] Mehrabian, A. ; Lucas, C.: A novel numerical optimization algorithm inspired from 

weed colonization. In: Ecological Informatics 1 (2006), Nr. 4, S. 355–366. – ISSN 15749541 

[52] Mehta, B. ; Hofmann, T. ; Nejdl, W.: Robust collaborative filtering. In: Proceedings of the 

2007 ACM conference on Recommender systems. Minneapolis, MN, USA : ACM, 2007, S. 56 

[53] Miller, B. N. ; Konstan, J. A. ; Riedl, J.: Pocketlens: Toward a personal recommender 

system. In: ACM Transactions on Information Systems 22 (2004), Nr. 3, S. 437–476 

[54] Mooney, R. J. ; Roy, L.: Content-based book recommending using learning for text 

categorization. In: Proceedings of the fifth ACM conference on Digital libraries, ACM New 

York, NY, USA, 2000, S. 195–204 

[55] Pavlov, D. Y. ; Pennock, D. M.: A Maximum Entropy Approach To Collaborative Filtering 

in Dynamic, Sparse, High-Dimensional Domains. In: Becker, Suzanna (Hrsg.) 

108


; Thrun, Sebastian (Hrsg.) ; Obermayer, Klaus (Hrsg.): Advances in Neural Information 

Processing Systems. Vancouver, British Columbia : MIT Press, 2003, S. 1441–1448 

[56] Pazzani, M. J.: A Framework for Collaborative, Content-Based and Demographic Filtering. 

In: Artificial Intelligence Review 13 (1999), Nr. 5-6, S. 393–408 

[57] Pazzani, M. J. ; Billsus, D.: Learning and Revising User Profiles: The Identification of 

Interesting Web Sites. In: Machine Learning 27 (1997), Nr. 3, S. 313–331 

[58] Kapitel 10. In: Pazzani, M. J. ; Billsus, D.: Content-Based Recommendation Systems. Berlin 

/ Heidelberg : Springer, 2007. – ISBN 978–3–540–72078–2, S. 325 – 341 

[59] Resnick, P. ; Iacovou, N. ; Suchak, M. ; Bergstrom, P. ; Riedl, J.: GroupLens: An 

open architecture for collaborative filtering of netnews. In: Proceedings of the 1994 ACM 

conference on Computer supported cooperative work Bd. pp. New York, NY, USA : ACM, 

1994, S. 175–186 

[60] Resnick, P. ; Varian, H. R.: Recommender systems. In: Communications of the ACM 40 

(1997), März, Nr. 3, S. 56–58 

[61] Reynolds, C.: Flocks, Herds, and Schools: A Distributed Behavioral Model. In: Stone, 

Maureen C. (Hrsg.): Proceedings of the 14th annual conference on Computer graphics and 

interactive techniques. New York, NY, USA : ACM, 1987, S. 25–34 

[62] Kapitel 3. In: Rocchio, J. J.: Relevance feedback in information retrieval. Englewood, Cliffs, 

New Jersey : Prentice Hall, 1971, S. 313–323 

[63] Sahraei-Ardakani, M. ; Roshanaei, M. ; Rahimi-Kian, A. ; Lucas, C.: A study of 

electricity market dynamics using Invasive Weed Colonization Optimization. In: IEEE 

Symposium On Computational Intelligence and Games. Perth, Australia : IEEE Computer 

Society, 2008, S. 276–282 

[64] Saiwaki, Naoki ; Komatsu, Toshiaki ; Nishida, Shogo: Automatic Generation of Moving 

Crowds in the Virtual Environment. In: Nishio, Shojiro (Hrsg.) ; Kishino, Fumio (Hrsg.): 

AMCP Bd. 1554, Springer, 1998 (Lecture Notes in Computer Science). – ISBN 3–540– 

65762–2, S. 422–432 

[65] Salton, G.: Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information 

by Computer. Boston, MA, USA : Addison-Wesley, 1989. – 530 S. – ISBN 

0–201–12227–8 

[66] Sarwar, B. ; Karypis, G. ; Konstan, J. ; Reidl, J.: Item-based collaborative filtering 

recommendation algorithms. In: Proceedings of the tenth international conference on World 

Wide Web. New York, NY, USA : ACM Press, 2001, S. 285–295 

[67] Schwaighofer, A. ; Tresp, V. ; Kriegel, H.: Probabilistic memory-based collaborative 

filtering. In: IEEE Transactions on Knowledge and Data Engineering 16 (2004), Januar, Nr. 1, 

S. 56–69. – ISSN 1041–4347 

[68] Segaran, T.: Programming collective intelligence. O’Reilly, 2007. – 368 S. – ISBN 

9780596529321 

109


[69] Sepehri Rad, H. ; Lucas, C.: A recommender system based on invasive weed optimization 

algorithm. In: Proceedings of the IEEE Congress on Evolutionary Computation, Singapore 

(2007), S. 4297–4304 

[70] Shani, G. ; Heckerman, D. ; Brafman, R.I.: An MDP-based recommender system. In: 

Journal of Machine Learning Research 6 (2006), Nr. 2, S. 1265 

[71] Shardanand, U. ; Maes, P.: Social information filtering: algorithms for automating 

“word of mouth”. In: Proceedings of the SIGCHI conference on Human factors in computing 

systems, ACM Press/Addison-Wesley Publishing Co., 1995, S. 210–217 

[72] Soboroff, I. M. ; Nicholas, C. K.: Combining content and collaboration in text filtering. 

In: Proceedings of the IJCAI’99 Workshop on Machine Learning for Information Filtering Bd. 99, 

1999, S. 86–91 

[73] Stephens, K. ; Pham, B. ; Wardhani, A.: Modelling fish behaviour. In: Adcock, Matt 

(Hrsg.) ; Gwilt, Ian (Hrsg.) ; Tsui, Lee Y. (Hrsg.): Proceedings of the 1st international conference 

on Computer graphics and interactive techniques in Australasia and South East Asia. New 

York, NY, USA : ACM, 2003, S. 71–78 

[74] Ujjin, S. ; Bentley, P. J.: Learning User Preferences Using Evolution. In: Proceedings of 

the 4th Asia-Pacific Conference on Simulated Evolution And Learning (SEAL 2002). Singapore 

: Springer, 2002, S. 6–10 

[75] Ujjin, S. ; Bentley, P. J.: Particle swarm optimization recommender system. In: Shi, Yuhui 

(Hrsg.) ; Eberhart, Russell C. (Hrsg.): Proceedings of the 2003 IEEE Swarm Intelligence 

Symposium. SIS’03. Indianapolis, Indiana, USA : IEEE, 2003. – ISBN 0–7803–7914–4, S. 

124–131 

[76] Ungar, L. H. ; Foster, D. P.: Clustering methods for collaborative filtering. In: AAAI 

Workshop on Recommendation Systems Bd. pp, AAAI Press, 1998, S. 112–125 

[77] Zafra, A. ; Romero, C. ; Ventura, S. ; Herrera-Viedma, E.: Multi-instance genetic 

programming for web index recommendation. In: Expert Systems with Applications 36 

(2009), November, Nr. 9, S. 11470–11479. http://dx.doi.org/10.1016/j.eswa. 

2009.03.059. – DOI 10.1016/j.eswa.2009.03.059. – ISSN 09574174 

[78] Zaier, Z. ; Godin, R. ; Faucher, L.: Recommendation Quality Evolution Based on Neighborhood 

Size. In: Third International Conference on Automated Production of Cross Media 

Content for Multi-Channel Distribution. AXMEDIS ’07. Barcelona, Spain : IEEE Computer 

Society, 2007, S. 33–36 

[79] Zaier, Z. ; Godin, R. ; Faucher, L.: Evaluating Recommender Systems. In: Nesi, Paolo 

(Hrsg.) ; Ng, Kia (Hrsg.) ; Delgado, Jaime (Hrsg.): International Conference on Automated 

Solutions for Cross Media Content and Multi-Channel Distribution. Florence, Italy : IEEE, 

2008, S. 211–217 

[80] Zhang, T. ; Iyengar, V. S.: Recommender Systems Using Linear Classifier. In: Journal of 

Machine Learning Research 2 (2002), Nr. 1, S. 313–334 

[81] Zhang, X. ; Wang, Y. ; Cui, G.: SIWO: A Hybrid Algorithm Combined with the Conventional 

SCE and Novel IWO. In: Journal of Computational and Theoretical Nanoscience 4 

(2007), Nr. 7-8, S. 1316–1323 

110

Name: Matthias Schneider Matrikelnummer: 517082 

Erklärung 

Ich erkläre, dass ich die Arbeit selbständig verfasst und keine anderen als die angegebenen 

Quellen und Hilfsmittel verwendet habe. 

Ulm, den . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 

Matthias Schneider

Schwarmintelligenz und evolutionäre Algorithmen in ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?