Grafiken und Statistik in R
Grafiken und Statistik in R
Grafiken und Statistik in R
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>und</strong> xi werden die Deskriptoren<br />
standardisiert <strong>und</strong> danach wird die Kovarianz ermittelt. Damit kann e<strong>in</strong>e Korrelation auch zwischen<br />
unterschiedlich dimensionierten Deskriptoren ermittelt werden. (Tabelle Pearsonscher<br />
Korrelationskoeffizient r <strong>und</strong> se<strong>in</strong>e E<strong>in</strong>stufung). In berechnet man die Korrelationsmatrix mit cor(...).<br />
Kovariable Die Kovariable (auch Begleitvariable) bezieht sich auf die Variable (Umweltvariable), die bei der<br />
Berechnung ausgeklammert werden soll 45 . Dies ist entweder e<strong>in</strong>e störende oder e<strong>in</strong>e wichtige Variable, die<br />
bei e<strong>in</strong>er Fragestellung nicht von unmittelbarem Interesse ist <strong>und</strong> herausgerechnet werden soll.<br />
Kovarianzmatrix Die Kovarianz cov(x, y) beschreibt den Grad des mite<strong>in</strong>ander Variierens (oder Kovariierens)<br />
zweier Meßwertreihen x <strong>und</strong> y. Die Kovarianz ist die Summe der gemittelten Abweichungsprodukte zweier<br />
Variablen. Nachteilig ist, daß sie abhängig ist von den Maße<strong>in</strong>heiten der gemessenen Variablen. Positive<br />
Kovarianz: hohe x-Werte entsprechen hohen y-Werten, negative Kovarianz: hohe x-Werte entsprechen<br />
niedrigen y-Werten, ke<strong>in</strong>e Kovarianz: ke<strong>in</strong> Zusammenhang zwischen x <strong>und</strong> y-Werten. – cov(...) – s.auch<br />
Korrelationsmatrix;.<br />
Kreuzvalidierung Form der Validitätsprüfung durch Replikation; d.h. die an e<strong>in</strong>er Stichprobe gewonnenen<br />
Bef<strong>und</strong>e werden zur Absicherung an e<strong>in</strong>er zweiten, von der ersten unabhängigen Stichprobe erneut überprüft.<br />
Kruskal - Wallis - Test Dieser Test führt e<strong>in</strong>e e<strong>in</strong>faktorielle Varianzanalyse durch, um festzustellen, ob zwischen<br />
den k Faktorstufen signifikante Unterschiede auftreten, oder ob man davon ausgehen muß, daß alle Stichproben<br />
aus der gleichen Gr<strong>und</strong>gesamtheit stammen. Für k = 2 kann man auch den Wilcoxon - Test verwenden.<br />
Im Gegensatz zur Varianzanalyse mit F - Test setzt man hier ke<strong>in</strong>e normalverteilten Gr<strong>und</strong>gesamtheiten voraus,<br />
zudem genügen ord<strong>in</strong>alskalierte Daten. Fragestellung: entstammen die k Stichproben aus m<strong>in</strong>destens zwei<br />
verschiedenen Gr<strong>und</strong>gesamtheiten? Voraussetzungen: die k ≧ 3 Gr<strong>und</strong>gesamtheiten sollen stetige Verteilungen<br />
von gleicher Form haben, die Stichproben seien unabhängig <strong>und</strong> die Daten m<strong>in</strong>destens ord<strong>in</strong>alskaliert.<br />
H0 : gleiche Gr<strong>und</strong>gesamtheit. kruskal.test(x, ...) im Paket ctest/stats.<br />
Kurtosis<br />
Die Kurtosis ist e<strong>in</strong> Maß für die Art der Verteilung an den Rändern (Seiten).<br />
Verteilungen mit stark ausgeprägten Rändern (hohen Seitenwerten) werden leptokurtic<br />
(leptos = dünn) genannt, Verteilungen mit wenig ausgeprägten Seiten heißen platykurtic<br />
(platys = breit). E<strong>in</strong>e Verteilung, die dieselbe Kurtosis wie die Normalverteilung<br />
aufweist, wird mesokurtic genannt. Die nebenstehenden Verteilungen haben dieselbe<br />
Varianz, ungefähr dieselbe Schiefe, aber e<strong>in</strong>e ganz unterschiedliche Kurtosis. E<strong>in</strong>e<br />
Normalverteilung hat die Kurtosis von 0.<br />
In mit dem Paket fBasics ab v1.9: kurtosis(rnorm(1000)), kurtosis(runif(1000)); (s.a.Skewness).<br />
L<br />
Likelihood-Funktion (engl.: Likelihood Function). Die im Rahmen der Maximum Likelihood-Schätzung verwendete<br />
Funktion, gibt an, welche(r) geschätzte(n) Parameter bei gegebenen Daten die größte Wahrsche<strong>in</strong>lichkeit<br />
aufweist, dem wahren Parameter <strong>in</strong> der Gr<strong>und</strong>gesamtheit zu entsprechen. Die L. kann aber aber aus<br />
formalen Gründen nicht als Wahrsche<strong>in</strong>lichkeitsfunktion aufgefaßt werden, weshalb es auch s<strong>in</strong>nvoll ist, <strong>in</strong><br />
der deutschen Sprache bei dem englischen Namen zu bleiben, um Verwechslungen vorzubeugen.<br />
Da die L. e<strong>in</strong> Produkt vieler E<strong>in</strong>zelwahrsche<strong>in</strong>lichkeiten ist, ist sie numerisch schwer zu handhaben. Daher<br />
ist es s<strong>in</strong>nvoll, den Logarithmus der L., meist als LL (Log-Likelihood) abgekürzt, zu maximieren; häufig<br />
wird stattdessen auch -LL m<strong>in</strong>imiert. Ich erwähne dies deshalb, weil man den Output von Computerprogrammen<br />
genau darauf h<strong>in</strong> prüfen muss, welcher Wert ausgegeben wird. Häufig ist dies auch nicht LL oder<br />
-LL, sondern 2 * LL oder 2 * -LL. Die Gründe dafür f<strong>in</strong>den sich beim Likelihood-Verhältnis-Test. (Quelle:<br />
http://www.lrz-muenchen.de/~wlm/ilm_l2.htm).<br />
45 Ist nicht dasselbe wie löschen!!<br />
165