07.01.2013 Aufrufe

Grafiken und Statistik in R

Grafiken und Statistik in R

Grafiken und Statistik in R

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

• Hierarchische Cluster Verfahren:<br />

– agglomerative Beg<strong>in</strong>nend mit n Clustern werden die ähnlichsten Cluster zusammengefaßt: Ward<br />

Clusteranalyse, Zentroid Clusteranalyse, Median - Cluster<strong>in</strong>g.<br />

– divisive Beg<strong>in</strong>nend mit e<strong>in</strong>em Cluster werden die Daten weiter aufgeteilt <strong>in</strong> immer heterogenere<br />

Cluster: nearest neighbor, complete l<strong>in</strong>kage.<br />

• Modell basierte Methoden: unter Annahme e<strong>in</strong>er bestimmten Verteilung (<strong>und</strong> Anzahl von Clustern)<br />

wird die Zugehörigkeit zu e<strong>in</strong>em Cluster mittels e<strong>in</strong>er Wahrsche<strong>in</strong>lichkeit bestimmt. (s. Modell basiertes<br />

Cluster<strong>in</strong>g)<br />

• Fuzzy Cluster<strong>in</strong>g: fordert ke<strong>in</strong>e 100% Zugehörigkeit zu e<strong>in</strong>em bestimmten Cluster, sondern erlaubt die<br />

Zugehörigkeit zu αi - %. (<strong>in</strong> im Paket cluster die Funktion fanny(...))<br />

(Quelle http://stats.math.uni-augsburg.de/lehre/SS04/stat3.shtml), s.a. Distanzmaße<br />

Vergleich der verschiedenen Verfahren<br />

• Nachteil des S<strong>in</strong>gle-L<strong>in</strong>kage Verfahrens: Verkettungseigenschaft, sensitiv gegenüber Ausreißern, Vorteil:<br />

auch Cluster mit beliebiger Form (anstatt von Kreisen oder Ellipsen) können entdeckt werden<br />

• Nachteil des Complete-L<strong>in</strong>kage-Verfahrens: kle<strong>in</strong>e, kompakte Gruppen; Fusion zweier Gruppen unterbleibt<br />

• Vorteile Zentroid <strong>und</strong> Average L<strong>in</strong>kage: space conserv<strong>in</strong>g<br />

• Vorteile Ward, Average L<strong>in</strong>kage <strong>und</strong> Zentroid: Ausreißerrobust<br />

• Ward Verfahren: f<strong>in</strong>det tendenziell kreisförmige Cluster ähnlicher Größe<br />

• Complete L<strong>in</strong>kage: tendenziell Cluster ähnlicher Größe <strong>und</strong> Gestalt, Nachteil: ausreißerempf<strong>in</strong>dlich<br />

aus Hilfe A number of different cluster<strong>in</strong>g methods are provided. Ward’s m<strong>in</strong>imum variance method aims at<br />

f<strong>in</strong>d<strong>in</strong>g compact, spherical clusters. The complete l<strong>in</strong>kage method f<strong>in</strong>ds similar clusters. The s<strong>in</strong>gle<br />

l<strong>in</strong>kage method (which is closely related to the m<strong>in</strong>imal spann<strong>in</strong>g tree) adopts a ’friends of friends’<br />

cluster<strong>in</strong>g strategy. The other methods can be regarded as aim<strong>in</strong>g for clusters with characteristics<br />

somewhere between the s<strong>in</strong>gle and complete l<strong>in</strong>k methods.<br />

Viele Studien empfehlen Ward <strong>und</strong> Average L<strong>in</strong>kage, dennoch können die Ergebnisse bezüglich der<br />

Performance der Verfahren von den Daten abhängen. Empfohlene Strategie: mehrere Alternativen testen,<br />

so zeigt sich auch, ob die Gruppen quasi „robuste“ Gruppen s<strong>in</strong>d.<br />

Co - Inertia Die Co - Inertia Analyse untersucht die Beziehungen zweier Tabellen oder Matrizen mite<strong>in</strong>ander.<br />

Man kann sie z.B. benutzen wenn man die Beziehungen zwischen gezählten Arten e<strong>in</strong>erseits <strong>und</strong> gemessenen<br />

Umweltvariablen andererseits untersuchen will. s.a. Inertia.<br />

complete l<strong>in</strong>kage<br />

– Farthest neighbor Auch hier wird aus jedem Cluster nur e<strong>in</strong> Objekt<br />

betrachtet. Dabei wird jedoch das Objektpaar ausgewählt, das die größte<br />

Distanz aufweist. Diese Distanz bildet dan den Abstand zwischen den<br />

beiden Clustern. (s.a.Cluster Analyse Verfahren).<br />

condition<strong>in</strong>g variables legen Untergruppen des Datensatzes fest http://stats.math.uni-augsburg.de/lehre/<br />

WS04/Sem<strong>in</strong>arPFDs/Trellis.pdf.<br />

constra<strong>in</strong>ed Ord<strong>in</strong>ation Unter Ord<strong>in</strong>ationsmethoden, die als constra<strong>in</strong>ed 41 bezeichnet werden, versteht man<br />

jeweils die direkten (=kanonischen 36 ) Ord<strong>in</strong>ationsmethoden, wie RDA <strong>und</strong> CCA. Unconstra<strong>in</strong>ed bezeichnet<br />

die <strong>in</strong>direkten Ord<strong>in</strong>ationsmethoden, wie PCA <strong>und</strong> CA. Man kann sich sozusagen vorstellen, daß die<br />

consrta<strong>in</strong>ed - Methoden zur Erklärung auf die Umweltfaktoren beschränkt s<strong>in</strong>d, während die <strong>in</strong>direkten<br />

Methoden hypothetische Faktoren errechnen, die dann <strong>in</strong>terpretiert werden müssen.<br />

41 engl.: gezwungen, genötigt<br />

156

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!