08.03.2014 Aufrufe

Maschinelles Lernen Übungsblatt 9 - ISMLL - Universität Hildesheim

Maschinelles Lernen Übungsblatt 9 - ISMLL - Universität Hildesheim

Maschinelles Lernen Übungsblatt 9 - ISMLL - Universität Hildesheim

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Maschinelles</strong> <strong>Lernen</strong><br />

Übungsblatt 9<br />

Prof. Dr. Dr. Lars Schmidt-Thieme, Steffen Rendle, Zeno Gantner<br />

Wirtschaftsinformatik und <strong>Maschinelles</strong> <strong>Lernen</strong> (<strong>ISMLL</strong>)<br />

Universität <strong>Hildesheim</strong><br />

07. Januar 2008<br />

Abgabe bis Dienstag, 15. Januar 2008<br />

Bemerkung: Die Aufgabe 2 des letzten Übungsblattes (Kreuzvalidierung) muss nicht bearbeitet werden.<br />

Wir werden sie noch einmal stellen, sobald wir zum Thema Evaluation zurückkehren.<br />

Aufgabe 1: k-means-Clustering (25 Punkte)<br />

Seien folgende Datenpunkte im euklidischen Raum gegeben:<br />

a)<br />

Punkt X Y<br />

A 2 12<br />

B 3 11<br />

C 3 8<br />

D 5 4<br />

E 7 5<br />

F 7 3<br />

G 10 8<br />

H 13 8<br />

Führen Sie das k-means-Verfahren aus der Vorlesung für k = 3 mit den initialen Cluster-Mittelwerten<br />

A, B, C bzw. E, F, G aus. Weist ein Punkt zu mehreren Zentroiden die gleiche Entfernung auf, so wählen<br />

Sie denjenigen Mittelwert, der näher am Nullpunkt liegt.<br />

Geben Sie für jede Iteration die drei Cluster und ihren Mittelpunkt an. Zeichnen Sie für die beiden Durchläufe<br />

des Verfahrens jeweils ein Koordinatensystem, in welchem Sie die auftretenden Zentroide vermerken.<br />

b)<br />

Zeichnen Sie in die vorhandenen Koordinatensysteme die Cluster-Trennlinien für das Endergebnis ein<br />

(Voronoi-Diagramme).<br />

c)<br />

Berechnen Sie für beide Resultate die Intra-Cluster-Varianz (ICV). Welches Clustering ist demnach das<br />

bessere? Für welches k ist bei k-means die kleinste Intra-Cluster-Varianz (ICV) zu erwarten?<br />

1


Aufgabe 2: Clustering-Verfahren (15 Punkte)<br />

a)<br />

Clustering-Verfahren sind typische Verfahren im Bereich unüberwachtes <strong>Lernen</strong>. Erklären Sie mit einem<br />

Satz den Unterschied zwischen überwachtem und unüberwachtem <strong>Lernen</strong>.<br />

b)<br />

Erläutern Sie kurz die folgenden Begriffspaare aus der Vorlesung:<br />

c)<br />

• hierarchisches Clustering vs. partitionierendes Clustering<br />

• hard clustering vs. soft clustering<br />

Wodurch unterscheiden sich das Verfahren greedy agglomerative clustering mit vorgegebener Cluster-Zahl<br />

und complete linkage als Cluster-Ähnlichkeitsmaß und das Verfahren k-means? Beschreiben Sie beide<br />

Algorithmen kurz und erläutern Sie Unterschiede und Gemeinsamkeiten.<br />

2

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!