Maschinelles Lernen Ãbungsblatt 9 - ISMLL - UniversitÃ¤t Hildesheim

Maschinelles Lernen 

Übungsblatt 9 

Prof. Dr. Dr. Lars Schmidt-Thieme, Steffen Rendle, Zeno Gantner 

Wirtschaftsinformatik und Maschinelles Lernen (ISMLL) 

Universität Hildesheim 

07. Januar 2008 

Abgabe bis Dienstag, 15. Januar 2008 

Bemerkung: Die Aufgabe 2 des letzten Übungsblattes (Kreuzvalidierung) muss nicht bearbeitet werden. 

Wir werden sie noch einmal stellen, sobald wir zum Thema Evaluation zurückkehren. 

Aufgabe 1: k-means-Clustering (25 Punkte) 

Seien folgende Datenpunkte im euklidischen Raum gegeben: 

a) 

Punkt X Y 

A 2 12 

B 3 11 

C 3 8 

D 5 4 

E 7 5 

F 7 3 

G 10 8 

H 13 8 

Führen Sie das k-means-Verfahren aus der Vorlesung für k = 3 mit den initialen Cluster-Mittelwerten 

A, B, C bzw. E, F, G aus. Weist ein Punkt zu mehreren Zentroiden die gleiche Entfernung auf, so wählen 

Sie denjenigen Mittelwert, der näher am Nullpunkt liegt. 

Geben Sie für jede Iteration die drei Cluster und ihren Mittelpunkt an. Zeichnen Sie für die beiden Durchläufe 

des Verfahrens jeweils ein Koordinatensystem, in welchem Sie die auftretenden Zentroide vermerken. 

b) 

Zeichnen Sie in die vorhandenen Koordinatensysteme die Cluster-Trennlinien für das Endergebnis ein 

(Voronoi-Diagramme). 

c) 

Berechnen Sie für beide Resultate die Intra-Cluster-Varianz (ICV). Welches Clustering ist demnach das 

bessere? Für welches k ist bei k-means die kleinste Intra-Cluster-Varianz (ICV) zu erwarten? 

1

Aufgabe 2: Clustering-Verfahren (15 Punkte) 

a) 

Clustering-Verfahren sind typische Verfahren im Bereich unüberwachtes Lernen. Erklären Sie mit einem 

Satz den Unterschied zwischen überwachtem und unüberwachtem Lernen. 

b) 

Erläutern Sie kurz die folgenden Begriffspaare aus der Vorlesung: 

c) 

• hierarchisches Clustering vs. partitionierendes Clustering 

• hard clustering vs. soft clustering 

Wodurch unterscheiden sich das Verfahren greedy agglomerative clustering mit vorgegebener Cluster-Zahl 

und complete linkage als Cluster-Ähnlichkeitsmaß und das Verfahren k-means? Beschreiben Sie beide 

Algorithmen kurz und erläutern Sie Unterschiede und Gemeinsamkeiten. 

2

Maschinelles Lernen Ãbungsblatt 9 - ISMLL - UniversitÃ¤t Hildesheim

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?

Maschinelles Lernen Ãbungsblatt 9 - ISMLL - UniversitÃ¤t Hildesheim