Grafiken und Statistik in R
Grafiken und Statistik in R
Grafiken und Statistik in R
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
.<br />
Residue Als Residuen bezeichnet man die Differenzen zwischen den beobachteten Meßwerten yi <strong>und</strong> den<br />
berechneten geschätzten Werten ˆyi e<strong>in</strong>es Modells (Köhler et. al 1996). Die Residuen entsprechen dann dem<br />
Abstand der Punkte von der Modellgleichung: beobachtet − geschätzt.<br />
Riemann Distanz wird verwendet, wenn 2 Projektionen h<strong>in</strong>sichtlich Größe UND Form verglichen werden. So<br />
z.B. <strong>in</strong> der Biometrie bei der Prokrust Analyse (Prokrustes-Test). Der Wertebereich dieser Distanz ist 0 bis<br />
π<br />
2 (1,5708).<br />
robust E<strong>in</strong> Verfahren der analytischen <strong>Statistik</strong> heißt robust, wenn es näherungsweise auch bei bestimmten<br />
Abweichungen (z.B. Ausreißern) von den Voraussetzungen, unter denen es abgeleitet wurde, gültig ist.<br />
S<br />
Shapiro-Wilk Test Dieser Test, testet auf Normalverteilung (= H0). shapiro.test(x) Paket ctest/stats<br />
für n = 3...5000, H0 : die Streuung von x gleicht der, der Normalverteilung – Bsp.: P = 0.004, dann ist x<br />
NICHT normalverteilt.<br />
shapiro.test(rnorm(100, mean = 5, sd = 3)) shapiro.test(runif(100, m<strong>in</strong> = 2, max = 4)).<br />
Shepard Diagramm E<strong>in</strong> Shepard-Diagramm wird oft dazu benutzt, um zu sehen wie repräsentativ die<br />
errechnete (weniger dimensionierte) Ord<strong>in</strong>ation ist. Es werden dabei auf der x - Achse die Distanzen im<br />
multidimensionalen Raum (Datenraum) <strong>und</strong> auf der y - Achse die Distanzen aus der Berechnung (reduzierter<br />
Datenraum) aufgetragen. (Legendre <strong>und</strong> Legendre 1998)<br />
Abbildung 9: (a) der reduzierte Dimensionsraum repräsentiert<br />
e<strong>in</strong>en großen Varianzanteil. (b) der Varianzanteil, den<br />
die reduzierte Dimension repräsentiert, ist kle<strong>in</strong>er. (c) dasselbe<br />
wie b, nur manche Distanzen werden gut <strong>und</strong> manche<br />
schlecht repräsentiert. Das Optimum wäre, wenn alle Punkte<br />
nahe 45 liegen.<br />
.<br />
Silhouette Plots<br />
178<br />
s<strong>in</strong>d e<strong>in</strong>e graphische Darstellung des Ergebnisses e<strong>in</strong>er<br />
hierarchischen Clusteranalyse <strong>und</strong> werden z.B. beim Fuzzy<br />
Cluster<strong>in</strong>g (s.Cluster Analyse Verfahren) mit der Funktion<br />
fanny(...) im Paket cluster ausgegeben. Um e<strong>in</strong>e<br />
Silhouette zu erstellen benötigt man e<strong>in</strong>e Distanzmatrix<br />
D <strong>und</strong> die Information, zu welcher Klasse das i-te Objekt<br />
Distanz --<br />
“reduziert”-- dimensional<br />
45°<br />
(a)<br />
(b)<br />
(c)<br />
Distanz --<br />
multidimensional<br />
Beurteilung des Silhouettenkoefizienten SC<br />
0.71 bis 1.00 starke Struktur<br />
0.51 bis 0.70 vernünftige Struktur<br />
0.26 bis 0.50 schwache Struktur<br />
0.00 bis 0.25 ke<strong>in</strong>e substantielle Struktur<br />
gehört. Beim Berechnen der Distanzmatrix wird jedem „Distanz“-Objekt e<strong>in</strong>e Zahl s(i) zugeordnet, die<br />
angibt, wie gut das Objekt klassifiziert wurde. Dabei werden zwei Aspekte betrachtet. E<strong>in</strong>erseits wird<br />
durch e<strong>in</strong>e Maßzahl beschrieben, wie nah e<strong>in</strong> Objekt an allen anderen Objekten se<strong>in</strong>er Klasse liegt,<br />
andererseits wird e<strong>in</strong>e Maßzahl bestimmt, die die Nähe e<strong>in</strong>es Objekts zu se<strong>in</strong>er nächsten Klasse beschreibt.<br />
Beide Maßzahlen werden zu e<strong>in</strong>er Maßzahl zusammengefaßt. Die Werte von s(i) liegen zwischen -1 <strong>und</strong> 1.<br />
Je höher der Wert von s(i), desto mehr liegt Objekt i <strong>in</strong> se<strong>in</strong>em Cluster.