07.01.2013 Aufrufe

Grafiken und Statistik in R

Grafiken und Statistik in R

Grafiken und Statistik in R

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

.<br />

Residue Als Residuen bezeichnet man die Differenzen zwischen den beobachteten Meßwerten yi <strong>und</strong> den<br />

berechneten geschätzten Werten ˆyi e<strong>in</strong>es Modells (Köhler et. al 1996). Die Residuen entsprechen dann dem<br />

Abstand der Punkte von der Modellgleichung: beobachtet − geschätzt.<br />

Riemann Distanz wird verwendet, wenn 2 Projektionen h<strong>in</strong>sichtlich Größe UND Form verglichen werden. So<br />

z.B. <strong>in</strong> der Biometrie bei der Prokrust Analyse (Prokrustes-Test). Der Wertebereich dieser Distanz ist 0 bis<br />

π<br />

2 (1,5708).<br />

robust E<strong>in</strong> Verfahren der analytischen <strong>Statistik</strong> heißt robust, wenn es näherungsweise auch bei bestimmten<br />

Abweichungen (z.B. Ausreißern) von den Voraussetzungen, unter denen es abgeleitet wurde, gültig ist.<br />

S<br />

Shapiro-Wilk Test Dieser Test, testet auf Normalverteilung (= H0). shapiro.test(x) Paket ctest/stats<br />

für n = 3...5000, H0 : die Streuung von x gleicht der, der Normalverteilung – Bsp.: P = 0.004, dann ist x<br />

NICHT normalverteilt.<br />

shapiro.test(rnorm(100, mean = 5, sd = 3)) shapiro.test(runif(100, m<strong>in</strong> = 2, max = 4)).<br />

Shepard Diagramm E<strong>in</strong> Shepard-Diagramm wird oft dazu benutzt, um zu sehen wie repräsentativ die<br />

errechnete (weniger dimensionierte) Ord<strong>in</strong>ation ist. Es werden dabei auf der x - Achse die Distanzen im<br />

multidimensionalen Raum (Datenraum) <strong>und</strong> auf der y - Achse die Distanzen aus der Berechnung (reduzierter<br />

Datenraum) aufgetragen. (Legendre <strong>und</strong> Legendre 1998)<br />

Abbildung 9: (a) der reduzierte Dimensionsraum repräsentiert<br />

e<strong>in</strong>en großen Varianzanteil. (b) der Varianzanteil, den<br />

die reduzierte Dimension repräsentiert, ist kle<strong>in</strong>er. (c) dasselbe<br />

wie b, nur manche Distanzen werden gut <strong>und</strong> manche<br />

schlecht repräsentiert. Das Optimum wäre, wenn alle Punkte<br />

nahe 45 liegen.<br />

.<br />

Silhouette Plots<br />

178<br />

s<strong>in</strong>d e<strong>in</strong>e graphische Darstellung des Ergebnisses e<strong>in</strong>er<br />

hierarchischen Clusteranalyse <strong>und</strong> werden z.B. beim Fuzzy<br />

Cluster<strong>in</strong>g (s.Cluster Analyse Verfahren) mit der Funktion<br />

fanny(...) im Paket cluster ausgegeben. Um e<strong>in</strong>e<br />

Silhouette zu erstellen benötigt man e<strong>in</strong>e Distanzmatrix<br />

D <strong>und</strong> die Information, zu welcher Klasse das i-te Objekt<br />

Distanz --<br />

“reduziert”-- dimensional<br />

45°<br />

(a)<br />

(b)<br />

(c)<br />

Distanz --<br />

multidimensional<br />

Beurteilung des Silhouettenkoefizienten SC<br />

0.71 bis 1.00 starke Struktur<br />

0.51 bis 0.70 vernünftige Struktur<br />

0.26 bis 0.50 schwache Struktur<br />

0.00 bis 0.25 ke<strong>in</strong>e substantielle Struktur<br />

gehört. Beim Berechnen der Distanzmatrix wird jedem „Distanz“-Objekt e<strong>in</strong>e Zahl s(i) zugeordnet, die<br />

angibt, wie gut das Objekt klassifiziert wurde. Dabei werden zwei Aspekte betrachtet. E<strong>in</strong>erseits wird<br />

durch e<strong>in</strong>e Maßzahl beschrieben, wie nah e<strong>in</strong> Objekt an allen anderen Objekten se<strong>in</strong>er Klasse liegt,<br />

andererseits wird e<strong>in</strong>e Maßzahl bestimmt, die die Nähe e<strong>in</strong>es Objekts zu se<strong>in</strong>er nächsten Klasse beschreibt.<br />

Beide Maßzahlen werden zu e<strong>in</strong>er Maßzahl zusammengefaßt. Die Werte von s(i) liegen zwischen -1 <strong>und</strong> 1.<br />

Je höher der Wert von s(i), desto mehr liegt Objekt i <strong>in</strong> se<strong>in</strong>em Cluster.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!