Maschinelles Lernen Ãbungsblatt 9 - ISMLL - Universität Hildesheim
Maschinelles Lernen Ãbungsblatt 9 - ISMLL - Universität Hildesheim
Maschinelles Lernen Ãbungsblatt 9 - ISMLL - Universität Hildesheim
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Maschinelles</strong> <strong>Lernen</strong><br />
Übungsblatt 9<br />
Prof. Dr. Dr. Lars Schmidt-Thieme, Steffen Rendle, Zeno Gantner<br />
Wirtschaftsinformatik und <strong>Maschinelles</strong> <strong>Lernen</strong> (<strong>ISMLL</strong>)<br />
Universität <strong>Hildesheim</strong><br />
07. Januar 2008<br />
Abgabe bis Dienstag, 15. Januar 2008<br />
Bemerkung: Die Aufgabe 2 des letzten Übungsblattes (Kreuzvalidierung) muss nicht bearbeitet werden.<br />
Wir werden sie noch einmal stellen, sobald wir zum Thema Evaluation zurückkehren.<br />
Aufgabe 1: k-means-Clustering (25 Punkte)<br />
Seien folgende Datenpunkte im euklidischen Raum gegeben:<br />
a)<br />
Punkt X Y<br />
A 2 12<br />
B 3 11<br />
C 3 8<br />
D 5 4<br />
E 7 5<br />
F 7 3<br />
G 10 8<br />
H 13 8<br />
Führen Sie das k-means-Verfahren aus der Vorlesung für k = 3 mit den initialen Cluster-Mittelwerten<br />
A, B, C bzw. E, F, G aus. Weist ein Punkt zu mehreren Zentroiden die gleiche Entfernung auf, so wählen<br />
Sie denjenigen Mittelwert, der näher am Nullpunkt liegt.<br />
Geben Sie für jede Iteration die drei Cluster und ihren Mittelpunkt an. Zeichnen Sie für die beiden Durchläufe<br />
des Verfahrens jeweils ein Koordinatensystem, in welchem Sie die auftretenden Zentroide vermerken.<br />
b)<br />
Zeichnen Sie in die vorhandenen Koordinatensysteme die Cluster-Trennlinien für das Endergebnis ein<br />
(Voronoi-Diagramme).<br />
c)<br />
Berechnen Sie für beide Resultate die Intra-Cluster-Varianz (ICV). Welches Clustering ist demnach das<br />
bessere? Für welches k ist bei k-means die kleinste Intra-Cluster-Varianz (ICV) zu erwarten?<br />
1
Aufgabe 2: Clustering-Verfahren (15 Punkte)<br />
a)<br />
Clustering-Verfahren sind typische Verfahren im Bereich unüberwachtes <strong>Lernen</strong>. Erklären Sie mit einem<br />
Satz den Unterschied zwischen überwachtem und unüberwachtem <strong>Lernen</strong>.<br />
b)<br />
Erläutern Sie kurz die folgenden Begriffspaare aus der Vorlesung:<br />
c)<br />
• hierarchisches Clustering vs. partitionierendes Clustering<br />
• hard clustering vs. soft clustering<br />
Wodurch unterscheiden sich das Verfahren greedy agglomerative clustering mit vorgegebener Cluster-Zahl<br />
und complete linkage als Cluster-Ähnlichkeitsmaß und das Verfahren k-means? Beschreiben Sie beide<br />
Algorithmen kurz und erläutern Sie Unterschiede und Gemeinsamkeiten.<br />
2