07.01.2013 Aufrufe

Grafiken und Statistik in R

Grafiken und Statistik in R

Grafiken und Statistik in R

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

E<br />

Eigenvektor Eigenvektoren e<strong>in</strong>es l<strong>in</strong>earen Operators (etwa durch e<strong>in</strong>e Matrix dargestellt) s<strong>in</strong>d Vektoren, auf<br />

welche die Anwendung des Operators (etwa die Multiplikation mit der Matrix) e<strong>in</strong> skalares Vielfaches ihrer<br />

selbst ergeben. Der Nullvektor kann def<strong>in</strong>itionsgemäß nicht e<strong>in</strong> Eigenvektor se<strong>in</strong>. Den entsprechenden Skalar<br />

nennt man Eigenwert. Ist A e<strong>in</strong>e (n, n) - Matrix, so heißt �x e<strong>in</strong> Eigenvektor zum Eigenwert λ, wenn gilt:<br />

A · �x = λ · �x.<br />

Eigenwert Der Eigenwert λ ist der Varianzanteil, der durch e<strong>in</strong>en (hypothetischen) Faktor j erfaßt wird. Der<br />

Eigenwert e<strong>in</strong>es Faktors j berechnet sich als Summe der quadrierten Ladungen e<strong>in</strong>es Faktors. Siehe auch<br />

PCA.<br />

Erwartungswert Der Mittelwert e<strong>in</strong>er Zufallsvariablen oder e<strong>in</strong>er Verteilung wird Erwartungswert µ genannt.<br />

Mit der Varianz σ 2 gehört der Erwartungswert zu den Parametern, die e<strong>in</strong>e Zufallsvariable oder e<strong>in</strong>e<br />

Verteilung charakterisieren.<br />

Euklid - Distanz<br />

In e<strong>in</strong>em zweidimensionalen Zahlenraum läßt sich die direkte Distanz zwischen zwei<br />

Punkten nach dem Satz von Pythagoras 43 als Hypotenuse e<strong>in</strong>es „gedachten“ rechtw<strong>in</strong>kligen<br />

Dreiecks berechnen. Dieses Distanzmaß ist verglichen mit anderen Distanzmaßen mit<br />

e<strong>in</strong>igen Schwächen behaftet: es tendiert dazu Ausreißern mehr Wichtung zu verleihen, als<br />

bei Sørensen <strong>und</strong> verliert an Sensitivität, wenn die Heterogenität des Datensatzes zunimmt.<br />

s. Distanzmaße<br />

Anm.: die bei den Ord<strong>in</strong>ationstechniken PCA <strong>und</strong> RDA ebenso verwendete Euklidische Distanz ist<br />

ungeeignet sobald viele Arten <strong>in</strong> der Ab<strong>und</strong>anztabelle mit Nullwerten vorkommen. Hilfreich kann dann e<strong>in</strong>e<br />

Datentransformation se<strong>in</strong> (Legendre <strong>und</strong> Gallagher 2001).<br />

F<br />

F - Test Der F - Test verwendet zum Testen nicht den Ansatz, daß die Lageparameter (arithmetisches Mittel)<br />

von Variablen mit Normalverteilungen verglichen werden, sondern er schaut sich die Unterschiede <strong>in</strong> den<br />

Streuungen an. Mit anderen Worten <strong>in</strong> den Varianzen. Daher kann man mit dieser Art von Test prüfen<br />

ob sich aus statistischer Sicht Wechselwirkungen zwischen zwei oder mehr Variablen aufdecken lassen.<br />

Voraussetzungen, um diesen Test anzuwenden, s<strong>in</strong>d: die Stichproben seien aus Gr<strong>und</strong>gesamtheiten, die der<br />

Normalverteilung gleichen; die Varianzen σ 2 seien für alle Stichproben gleich (also σ 2 1 = σ 2 2 = ...), die<br />

Stichproben se<strong>in</strong>en unabhängig mit gleichem Stichprobenumfang n > 1. Die Nullhypothese H0 ist: die Effekte<br />

(i.w.S. Unterschiede) zwischen zwei oder mehr Faktoren s<strong>in</strong>d gleich null, so daß die Mittelwerte µi alle gleich<br />

s<strong>in</strong>d. Mathematisch: µ1 = µ2 = ... = µk; die Wechselwirkungen zwischen den Faktoren s<strong>in</strong>d null. Anm.: der<br />

F - Test wird auch verwendet beim Modelltest der Regressionsanalyse. Test auf Normalverteilung: Shapiro-<br />

Wilk Test (shapiro.test(x) Paket ctest/stats für n = 3...5000, H0 : die Streuung von x gleicht der,<br />

der Normalverteilung – Bsp.: P = 0.004, dann ist x NICHT normalverteilt) oder Kolmogorov-Smirnov-Test<br />

(testen, wenn 2 Variablen unabhängig s<strong>in</strong>d, ks.test(x, y) Paket ctest/stats; H0 : x <strong>und</strong> y s<strong>in</strong>d aus der<br />

selben Verteilung).<br />

F - Verteilung Die F Verteilung ergibt sich aus der Verteilung des Verhältnisses zweier Varianzschätzungen<br />

zue<strong>in</strong>ander. Mit ihrer Hilfe werden die Wahrsche<strong>in</strong>lichkeiten bei der Varianzanalyse berechnet. Vergleicht<br />

man nun verschiedene Stichproben mite<strong>in</strong>ander, so lassen sich Unterschiede aufzeigen, <strong>in</strong>dem man sich die<br />

Varianz (also die Streuung) zwischen den Stichproben (Sigma σ2 zw) <strong>und</strong> die Varianz <strong>in</strong>nerhalb der gesamten<br />

Stichprobe σ2 <strong>in</strong> vergleicht. Dabei werden sogenannte F - Werte berechnet, die dann mit e<strong>in</strong>er<br />

43 Gleichung: c = √ a 2 + b 2<br />

159

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!