Grafiken und Statistik in R
Grafiken und Statistik in R
Grafiken und Statistik in R
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
• Hierarchische Cluster Verfahren:<br />
– agglomerative Beg<strong>in</strong>nend mit n Clustern werden die ähnlichsten Cluster zusammengefaßt: Ward<br />
Clusteranalyse, Zentroid Clusteranalyse, Median - Cluster<strong>in</strong>g.<br />
– divisive Beg<strong>in</strong>nend mit e<strong>in</strong>em Cluster werden die Daten weiter aufgeteilt <strong>in</strong> immer heterogenere<br />
Cluster: nearest neighbor, complete l<strong>in</strong>kage.<br />
• Modell basierte Methoden: unter Annahme e<strong>in</strong>er bestimmten Verteilung (<strong>und</strong> Anzahl von Clustern)<br />
wird die Zugehörigkeit zu e<strong>in</strong>em Cluster mittels e<strong>in</strong>er Wahrsche<strong>in</strong>lichkeit bestimmt. (s. Modell basiertes<br />
Cluster<strong>in</strong>g)<br />
• Fuzzy Cluster<strong>in</strong>g: fordert ke<strong>in</strong>e 100% Zugehörigkeit zu e<strong>in</strong>em bestimmten Cluster, sondern erlaubt die<br />
Zugehörigkeit zu αi - %. (<strong>in</strong> im Paket cluster die Funktion fanny(...))<br />
(Quelle http://stats.math.uni-augsburg.de/lehre/SS04/stat3.shtml), s.a. Distanzmaße<br />
Vergleich der verschiedenen Verfahren<br />
• Nachteil des S<strong>in</strong>gle-L<strong>in</strong>kage Verfahrens: Verkettungseigenschaft, sensitiv gegenüber Ausreißern, Vorteil:<br />
auch Cluster mit beliebiger Form (anstatt von Kreisen oder Ellipsen) können entdeckt werden<br />
• Nachteil des Complete-L<strong>in</strong>kage-Verfahrens: kle<strong>in</strong>e, kompakte Gruppen; Fusion zweier Gruppen unterbleibt<br />
• Vorteile Zentroid <strong>und</strong> Average L<strong>in</strong>kage: space conserv<strong>in</strong>g<br />
• Vorteile Ward, Average L<strong>in</strong>kage <strong>und</strong> Zentroid: Ausreißerrobust<br />
• Ward Verfahren: f<strong>in</strong>det tendenziell kreisförmige Cluster ähnlicher Größe<br />
• Complete L<strong>in</strong>kage: tendenziell Cluster ähnlicher Größe <strong>und</strong> Gestalt, Nachteil: ausreißerempf<strong>in</strong>dlich<br />
aus Hilfe A number of different cluster<strong>in</strong>g methods are provided. Ward’s m<strong>in</strong>imum variance method aims at<br />
f<strong>in</strong>d<strong>in</strong>g compact, spherical clusters. The complete l<strong>in</strong>kage method f<strong>in</strong>ds similar clusters. The s<strong>in</strong>gle<br />
l<strong>in</strong>kage method (which is closely related to the m<strong>in</strong>imal spann<strong>in</strong>g tree) adopts a ’friends of friends’<br />
cluster<strong>in</strong>g strategy. The other methods can be regarded as aim<strong>in</strong>g for clusters with characteristics<br />
somewhere between the s<strong>in</strong>gle and complete l<strong>in</strong>k methods.<br />
Viele Studien empfehlen Ward <strong>und</strong> Average L<strong>in</strong>kage, dennoch können die Ergebnisse bezüglich der<br />
Performance der Verfahren von den Daten abhängen. Empfohlene Strategie: mehrere Alternativen testen,<br />
so zeigt sich auch, ob die Gruppen quasi „robuste“ Gruppen s<strong>in</strong>d.<br />
Co - Inertia Die Co - Inertia Analyse untersucht die Beziehungen zweier Tabellen oder Matrizen mite<strong>in</strong>ander.<br />
Man kann sie z.B. benutzen wenn man die Beziehungen zwischen gezählten Arten e<strong>in</strong>erseits <strong>und</strong> gemessenen<br />
Umweltvariablen andererseits untersuchen will. s.a. Inertia.<br />
complete l<strong>in</strong>kage<br />
– Farthest neighbor Auch hier wird aus jedem Cluster nur e<strong>in</strong> Objekt<br />
betrachtet. Dabei wird jedoch das Objektpaar ausgewählt, das die größte<br />
Distanz aufweist. Diese Distanz bildet dan den Abstand zwischen den<br />
beiden Clustern. (s.a.Cluster Analyse Verfahren).<br />
condition<strong>in</strong>g variables legen Untergruppen des Datensatzes fest http://stats.math.uni-augsburg.de/lehre/<br />
WS04/Sem<strong>in</strong>arPFDs/Trellis.pdf.<br />
constra<strong>in</strong>ed Ord<strong>in</strong>ation Unter Ord<strong>in</strong>ationsmethoden, die als constra<strong>in</strong>ed 41 bezeichnet werden, versteht man<br />
jeweils die direkten (=kanonischen 36 ) Ord<strong>in</strong>ationsmethoden, wie RDA <strong>und</strong> CCA. Unconstra<strong>in</strong>ed bezeichnet<br />
die <strong>in</strong>direkten Ord<strong>in</strong>ationsmethoden, wie PCA <strong>und</strong> CA. Man kann sich sozusagen vorstellen, daß die<br />
consrta<strong>in</strong>ed - Methoden zur Erklärung auf die Umweltfaktoren beschränkt s<strong>in</strong>d, während die <strong>in</strong>direkten<br />
Methoden hypothetische Faktoren errechnen, die dann <strong>in</strong>terpretiert werden müssen.<br />
41 engl.: gezwungen, genötigt<br />
156