07.01.2013 Aufrufe

Grafiken und Statistik in R

Grafiken und Statistik in R

Grafiken und Statistik in R

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

horseshoe effect Siehe arch effect.<br />

I<br />

Inertia ist e<strong>in</strong> Maß für die totale Varianz <strong>in</strong> e<strong>in</strong>em Datensatz. Sie steht direkt <strong>in</strong> Beziehung zu dem<br />

physikalischen Konzept (auch <strong>in</strong> Ökosystemen so), daß e<strong>in</strong> Objekt, welches die Tendenz hat <strong>in</strong> Bewegung zu<br />

se<strong>in</strong> auch <strong>in</strong> Bewegung bleiben möchte. Ebenso bei Objekten mit stehender Tendenz. Bei den unimodalen<br />

Ord<strong>in</strong>ationstechniken (DCA & CCA) ist die Inertia eher als Spannweite der Art um ihren häufigsten<br />

Wert (Modalwert) oder Optimum im Ord<strong>in</strong>ationsraum zu verstehen als die Varianz der Artenab<strong>und</strong>anz.<br />

http://www.okstate.edu/artsci/botany/ord<strong>in</strong>ate/glossary.htm.<br />

Intervallskala Intervallskalen s<strong>in</strong>d metrische Skalen, <strong>in</strong> denen über den Unterschied zweier Meßwerte ausgesagt<br />

werden kann, ob er größer, gleich oder kle<strong>in</strong>er als der Unterschied zweier anderer Meßwerte ist. Das bedeutet:<br />

Skalenwerte e<strong>in</strong>er Intervallskala können bezüglich ihrer Differenzen (<strong>und</strong> Summen) verglichen werden. Erst<br />

auf dem Niveau von Intervallskalen ist die Addition oder Subtraktion von Meßwerten s<strong>in</strong>nvoll <strong>und</strong> erlaubt.<br />

Beispiel: Temperatur <strong>in</strong> Grad Celsius : Die Differenz zwischen den Temperaturen 7 <strong>und</strong> 10 C ist genauso groß<br />

wie die Temperaturdifferenz zwischen 20 <strong>und</strong> 23 C°. Für viele psychologische Skalen wird Intervallskalenniveau<br />

angestrebt (z. B. Persönlichkeits- <strong>und</strong> Intelligenztests). Siehe auch Skalenniveau.<br />

J<br />

Jaccard Dies ist e<strong>in</strong> Index, <strong>in</strong> welchem geme<strong>in</strong>sam fehlende Größen aus der Betrachtung ausgeschlossen werden.<br />

Übere<strong>in</strong>stimmungen <strong>und</strong> Nichtübere<strong>in</strong>stimmungen werden gleich gewichtet. – für B<strong>in</strong>ärdaten, s. Distanzmaße.<br />

jackknife Es gibt noch e<strong>in</strong> „Gegenstück“ zum bootstrap, das jackknife. Dieses mißt die Güte e<strong>in</strong>es Schätzers<br />

(z.B.: Mittelwert, Median – allg.: θ∗ ) anhand se<strong>in</strong>er Sensibilität gegenüber Datenveränderungen, <strong>in</strong>dem die<br />

jackknife-Prozedur jeden Datenpunkt e<strong>in</strong>zeln entfernt, <strong>und</strong> dann den Schätzer θ∗ i neu berechnet. Schließlich<br />

wird dann der jackknife-korrigierte Schätzer (θ∗ jack ) berechnet (Dormann <strong>und</strong> Kühn 2004). In gibt es für<br />

das jackknife e<strong>in</strong>e eigene Funktion jackknife im package bootstrap.<br />

K<br />

k - means<br />

Bei diesem Verfahren wird die<br />

Anzahl der Cluster vorgegeben. In se<strong>in</strong>er e<strong>in</strong>fachsten Version<br />

arbeitet das Verfahren wie folgt. Gegeben se<strong>in</strong>en k ≥ 1 Cluster<br />

<strong>und</strong> n Datensätze, sowie e<strong>in</strong>e Abstandsfunktion zwischen<br />

den Daten. Für k = 2 wird folgendermaßen vorgegangen:<br />

1. Zwei (k) Kernpunkte werden zufällig<br />

ausgewählt (•). Die schwarze L<strong>in</strong>ie ( ) ist die geometrische<br />

Grenze zwischen Gruppe e<strong>in</strong>s <strong>und</strong> Gruppe zwei. 2. Berechnen<br />

der Zentren bzw. des Durchschnittes (= means - Teil) von<br />

Gruppe e<strong>in</strong>s <strong>und</strong> Gruppe zwei (•). Gruppengrenze ist jetzt ( ).<br />

3. Neuer Kernpunkt ist •. Dazu wird neues Zentrum berechnet<br />

(•). Dieser Vorgang wird sooft wiederholt, bis sich alle k<br />

Kernpunkte stabilisieren, d.h. nicht mehr verschieben. (Quelle:<br />

http://www.bilyap.com/dwhd/kmeans.php?ottrid=zzQH7IoYEI)<br />

Anmerkung: Größtes Problem von k-means ist die Wahl der Anzahl der Cluster. Die Wahl der Startwerte<br />

(Seeds) kann das Ergebnis des Algorithmus entscheidend bee<strong>in</strong>flussen. ⇒ Oft werden daher die Ergebnisse<br />

anderer Clustermethoden zur Bestimmung der Seeds benutzt. Durch die Mittelwertbildung können auch<br />

163

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!