Grafiken und Statistik in R

Weitere Magazine

Empfehlungen

Info

Minimum Spanning Tree ... ist eigentlich so eine Art Minimalgerüst: so als ob ein Postbote verschiedene Orte abfahren muß, aber nur den kürzesten Weg zurücklegen darf. Die Berechnung minimaler Spannbäume findet direkte Anwendungen in der Praxis, wenn man zum Beispiel kostengünstig zusammenhängende Netzwerke (z.B. Telefonnetzwerke, elektrische Netzwerke u.a.) herstellen will oder bei Computernetzwerken mit Redundanz, wo das Spanning Tree Protocol zur Anwendung kommt. In der Graphentheorie selbst sind MST-Algorithmen häufig Grundlage komplexerer Algorithmen für schwierigere Probleme. Die Berechnung minimaler Spannbäume ist zum Beispiel Bestandteil von Approximationsalgorithmen für das Steinerbaum-Problem oder für das Problem des Handlungsreisenden (oft auch Traveling- Salesman-Problem genannt und TSP abgekürzt). nach http://de.wikipedia.org. MMDS Metrische Multidimensionale Skalierung 48 siehe PCoA. Es gibt 2 Typen: metrische und nichtmetrische MDS. • eine MDS, die auf gemessenen Näherungswerten 49 beruht wird Metrische Multidimensionale Skalierung genannt (hier MMDS) cmdscale(stats) • eine MDS, die auf Beurteilungswerten 50 basiert, nennt man nichtmetrische Multidimensionale Skalierung (hier NMDS), da sie eben für nicht-metrische Werte verwendet wird. sammon(MASS), isoMDS(MASS) Bei der metrischen MDS gibt die räumliche Anordnung die Unähnlichkeit der Objekte wieder – je weiter weg, desto verschiedener –, während die nichtmetrische MDS die Ordnung der Ränge anhand ihrer Unähnlichkeit repräsentiert. Quelle: Guide to Advanced Data Analysis using IDAMS Software P.S. NAGPAUL, New Delhi (India) http://www.unesco.org/webworld/idams/advguide/TOC.htm. Modalwert Der Modus oder Modalwert ist der am häufigsten in einer Verteilung vorkommende Meßwert. Haben wir in einer Verteilung nicht einen, sondern zwei oder mehr Modalwerte, die nicht nebeneinander liegen, spricht man von einer bi - bzw. multimodalen Verteilung. Bei Häufigkeitsverteilungen mit Klassen ist der Modalwert die Mitte derjenigen Klasse, die am häufigsten vorkommt. Ein Vorteil des Modus: er kann leicht erkannt werden aus der Häufigkeitstabelle oder Graphik. Ein Nachteil: je nach Stichprobe fällt er unterschiedlich aus; auch innerhalb einer Stichprobe verändert er sich je nachdem, wie viele Klassen eingerichtet werden und wie breit diese sind. Der Modus kann für Daten jeden Skalenniveaus bestimmt werden. Modell basiertes Clustering Frage: wieviele Cluster gibt es? Die Idee gründet auf der Annahme, daß die Daten aus k unabhängigen Populationen entstammen, deren Gruppenzuordnung jedoch nicht mehr bekannt ist. Wären die Gruppenbezeichner γi bekannt, und Gruppe i hätte Dichte fi(xi, θ), dann ist die Likelihood n� i=1 fγi (xi, θ) Da die Gruppenbezeichner γi unbekannt sind, und somit als Parameter angesehen werden müssen, wird die Likelihood-Funktion über (θ, γ) maximiert. (zu θ s.Anteilswert) Quelle: http://stats.math.uni-augsburg.de/lehre/SS04/CA1.pdf. Monte - Carlo - Test Ein Synonym dafür ist auch Randomisationstest. a synonym of randomization tests (at least as commonly used by ecologists). A Monte Carlo permutation test is when the actual data values are maintained, but they are randomly permuted in order to obtain the distribution of the test statistic. Exactly how they are permuted depends on the null hypothesis to be tested. In the simplest use of Monte Carlo permutation tests in CCA, the values for the environmental variables are randomly reassigned to the values for the species data. 48 Anm.: hier herrscht etwas Konfusion, da manchmal sowohl die Metrisch Multidimensionale Skalierung als auch die Nichtmetrische Multidimensionale Skalierung mit MDS abgekürzt wird. Um dies zu vermeiden wurden hier die Abkürzungen MMDS und NMDS verwendet. 49 von proximities übersetzt 50 Ränge: z.B. 1, 2, 3, 4 od ja-nein 168
Multikolinearität Das Vorliegen einer gegenseitigen Abhängigkeit der erklärenden Variablen einer multiplen Korrelations- oder Regressionsgleichung, d.h. eine hohe Korrelation der erklärenden Variablen untereinander. Beispiel: Die Produktion von Kieselalgen in einem See hängt z.B. von den Faktoren Temperatur, pH - Wert, Carbonatgehalt, Sonnenscheindauer, Trübung,... Vermutlich werden viele dieser Variablen zusammenhängen, das heißt, hoch miteinander korrelieren (= Multikolinearität). Multiple lineare Regression Klassisches Regressionsverfahren bei denen mehr als eine Variable („multiple“) in die Kalibriergleichung aufgenommen wird. Die Auswahl der Variablen wird per Hand (step up) oder programmgesteuert (stepwise) vorgenommen. N nearest neighbor – single linkage Aus jedem der beiden Cluster wird nur ein Objekt betrachtet. Es werden die beiden Objekte ausgewählt, zwischen denen die geringste Distanz besteht. Diese Distanz wird als Distanz zwischen den beiden Clustern angesehen. Nachteil dieses Verfahrens Verkettungseigenschaft und sensitiv gegenüber Ausreißern. (s.a.Cluster Analyse Verfahren). nichtparametrisch Ein Test, der keine Verteilungsannahme der Daten braucht, um durchgeführt zu werden bezeichnet man als nichtparametrischen Test oder auch „verteilungsfrei“. NMDS Nichtmetrische Multidimensionale Skalierung 51 betrachtet die Ähnlichkeit bzw. Verschiedenheit von n Objekten und versucht diese in einem möglichst niederdimensionalen Raum (meist k = 1,2,3) so anzuordnen, daß die Ähnlichkeit bzw. Verschiedenheit möglichst gut wiedergegeben wird. Bei der Bestimmung der Konfiguration der Punkte zueinander verwendet die NMDS einen iterativen Prozeß. Die Grundidee dieses Prozesses ist relativ simpel: alle Objekte werden zunächst mehr oder weniger willkürlich im Raum angeordnet. Im nächsten Schritt werden die Distanzen zwischen den Objekten mit den Ähnlichkeiten verglichen (wobei das Skalenniveau der Ähnlichkeiten berücksichtigt wird). Wenn nun zwei Objekte im Verhältnis zu ihrer Ähnlichkeit zu weit auseinanderliegen, werden sie aufeinander zu geschoben. Sollten zwei eher unähnliche Objekte zu nahe bei einander liegen, werden sie voneinander weg bewegt. Dieser Vorgang wird so lange fortgesetzt, bis die Konfiguration der Objekte die erhobenen Ähnlichkeiten zufriedenstellend widerspiegelt. Dabei muß vorher festgelegt werden, wieviel Dimensionen der Raum haben soll (http://www.wiwi.uniwuppertal.de/kappelhoff/papers/mds.pdf, Ablauf s. Abb. 7 auf der nächsten Seite) Ein Unterschied zu den Eigenwertmethoden (PCA,PCoA, oder CA) besteht in der Weise, daß sie die Variabilität auf die Achsen maximieren. Beginnend mit der 1. Achse mit dem höchsten Erklärungsanteil an der Gesamtvariabilität. Bei der NMDS sind die Achsen hingegen beliebig. D.h. man kann die ganze Ordination drehen, zentrieren, invertieren. In gibt es die Funktion: isoMDS(...) – MASS - Paket.. Nominalskala Die Nominalskala setzt nur die Gleichheit oder Ungleichheit von Eigenschaften (z. B. Geschlecht) bzw. die Möglichkeit mehrklassiger Einteilungen (etwa in Berufe, Muttersprache, Haarfarbe, Studienrichtung... ) in Kategorien voraus. Diese Kategorien müssen exakt definiert, sich gegenseitig ausschließend und erschöpfend sein. Die einzig erlaubte Rechenoperation ist Zählen, d. h. es wird festgestellt, ob eine Merkmalsausprägung überhaupt vorhanden ist und wenn ja, wie häufig sie auftritt. Siehe auch Skalenniveau. 51 Anm.: hier herrscht etwas Konfusion, da manchmal sowohl die Metrisch Multidimensionale Skalierung als auch die Nichtmetrische Multidimensionale Skalierung mit MDS abgekürzt wird. Um dies zu vermeiden wurden hier die Abkürzungen MMDS und NMDS verwendet. Meist ist mit MDS die NMDS gemeint. 52 = Ungleichheiten, Unterschiede [lat. disparatum „abgesondert, getrennt“] 169
Seite 1 und 2:
Skript zum Umgang und zur multivari
Seite 3 und 4:
Inhaltsverzeichnis Abbildungsverzei
Seite 5 und 6:
3.2.16 Balkendiagramme/Histogramme
Seite 7 und 8:
4.6.1 Umkehrpunkte . . . . . . . .
Seite 9 und 10:
1 Allgemeines Benutzung des Skripte
Seite 11 und 12:
1 Allgemeines 1.2 Blitzstart die Au
Seite 13 und 14:
1 Allgemeines 1.2 Blitzstart 1.2.2
Seite 15 und 16:
1 Allgemeines 1.2 Blitzstart m[1,]
Seite 17 und 18:
1 Allgemeines 1.2 Blitzstart par(ma
Seite 19 und 20:
1 Allgemeines 1.4 Pakete laden, her
Seite 21 und 22:
2 Daten log(...) # natürlicher Log
Seite 23 und 24:
2 Daten 2.3 Datenumgang cat(file=ff
Seite 25 und 26:
2 Daten 2.3 Datenumgang 2.3.4 Einge
Seite 27 und 28:
2 Daten 2.3 Datenumgang # Reihe än
Seite 29 und 30:
2 Daten 2.3 Datenumgang sich natür
Seite 31 und 32:
2 Daten 2.3 Datenumgang # 1 (4.33,4
Seite 33 und 34:
2 Daten 2.4 Transformieren . . . .
Seite 35 und 36:
3 Grafik 3.1 Einstellungen Zusätze
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
Seite 59 und 60:
3 Grafik 3.2 Diagramme Für die Leg
Seite 61 und 62:
3 Grafik 3.2 Diagramme # subset in
Seite 63 und 64:
3 Grafik 3.2 Diagramme Entsprechend
Seite 65 und 66:
3 Grafik 3.2 Diagramme def.par
Seite 67 und 68:
3 Grafik 3.2 Diagramme Fallen mehre
Seite 69 und 70:
3 Grafik 3.2 Diagramme # Zufallsdat
Seite 71 und 72:
3 Grafik 3.2 Diagramme # Bsp.: Lini
Seite 73 und 74:
3 Grafik 3.2 Diagramme −20 −25
Seite 75 und 76:
3 Grafik 3.2 Diagramme # Gitternetz
Seite 77 und 78:
3 Grafik 3.2 Diagramme par(las=1) #
Seite 79 und 80:
3 Grafik 3.2 Diagramme par(las=1) #
Seite 81 und 82:
3 Grafik 3.2 Diagramme −20 −25
Seite 83 und 84:
3 Grafik 3.2 Diagramme plot.after =
Seite 85 und 86:
3 Grafik 3.2 Diagramme 3.2.16 Balke
Seite 87 und 88:
3 Grafik 3.2 Diagramme # mtext = ma
Seite 89 und 90:
3 Grafik 3.2 Diagramme polygon(x.bo
Seite 91 und 92:
3 Grafik 3.2 Diagramme # Sterndiagr
Seite 93 und 94:
3 Grafik 3.2 Diagramme data(volcano
Seite 95 und 96:
3 Grafik 3.2 Diagramme library(plot
Seite 97 und 98:
4 Statistik set.seed(25) # Zufallsg
Seite 99 und 100:
4 Statistik # allgemeine Modell Aus
Seite 101 und 102:
4 Statistik 4.3 Regressionsanalyse
Seite 103 und 104:
4 Statistik data(airquality) # Date
Seite 105 und 106:
4 Statistik } val
Seite 107 und 108:
4 Statistik rect.hclust(hc, h=50, w
Seite 109 und 110:
4 Statistik library(fpc) # Paket la
Seite 111 und 112:
4 Statistik msplot(boston.pv, edges
Seite 113 und 114:
4 Statistik # Dendrogramm verkürze
Seite 115 und 116:
4 Statistik 4.4.10 Heatmaps 4.4 Clu
Seite 117 und 118:
4 Statistik 4.4 Clusteranalyse 3. D
Seite 119 und 120:
4 Statistik similarities distances
Seite 121 und 122:
4 Statistik Methode pro & contra Be
Seite 123 und 124:
4 Statistik ostr.pca $ci s.arrow(o
Seite 125 und 126: 4 Statistik 4.5 Ordinationsmethoden
Seite 127 und 128: 4 Statistik # mit Maus platzieren l
Seite 129 und 130: 4 Statistik ?dune # Hilfe zum Daten
Seite 131 und 132: 4 Statistik # Schwerpunkt jeder Gru
Seite 133 und 134: 4 Statistik # gehören die Daten zu
Seite 135 und 136: 4 Statistik bnr2
Seite 137 und 138: 4 Statistik YY
Seite 139 und 140: 4 Statistik 4.8 Paläo - Rekonstruk
Seite 141 und 142: 4 Statistik 4.8 Paläo - Rekonstruk
Seite 143 und 144: 5 Programmierung # Grafik wieder 1x
Seite 145 und 146: 5 Programmierung 5.1 Benutzerfunkti
Seite 147 und 148: 6 Diverses NULL # default )# end sw
Seite 149 und 150: 6 Diverses 6.5 L ATEX/HTML Ausgaben
Seite 151 und 152: 7 Linkliste - Tutorien - Pakete We
Seite 153 und 154: 7 Linkliste - Tutorien - Pakete Abb
Seite 155 und 156: 7 Linkliste - Tutorien - Pakete Tab
Seite 157 und 158: 7 Linkliste - Tutorien - Pakete än
Seite 159 und 160: Glossar A abhängig X → Y - Hier
Seite 161 und 162: B am Ähnlichsten ist, hat die Auto
Seite 163 und 164: Chi 2 - Test Mit dem Chi-Quadrat-Te
Seite 165 und 166: D Datentransformation Die Transform
Seite 167 und 168: E Eigenvektor Eigenvektoren eines l
Seite 169 und 170: Friedman - Test Der Friedman - Test
Seite 171 und 172: horseshoe effect Siehe arch effect.
Seite 173 und 174: und xi werden die Deskriptoren stan
Seite 175: Manhattan-Metrik (auch City-Block-M
Seite 179 und 180: man schreibt das mathematisch so au
Seite 181 und 182: P Datenmatrizen unsymmetrisch symme
Seite 183 und 184: post-hoc Tests auch a posteriori Te
Seite 185 und 186: R R - Modus s. Q - Modus. R 2 auch
Seite 187 und 188: skaleninvariant Skaleninvarianz ist
Seite 189 und 190: Normalverteilung: Shapiro-Wilk Test
Seite 191 und 192: Verteilungen Binomialverteilung, B(
Seite 193 und 194: W Ward Clusteranalyse Beim Ward - V
Seite 195 und 196: Literatur Amaral, G. J. A., I. L. D
Seite 197 und 198: Anhang Funktion 1: Zum Zeichnen von
Seite 199 und 200: # NA - data (not available) show.na
Seite 201 und 202: x.max
Seite 203 und 204: x=seq(from=x.axis[1] , to=x.axis[nx
Seite 205 und 206: data.null[, 1], col=ifelse(length(p
Seite 207 und 208: } y1
Seite 209 und 210: stop("\n#> 'chain' should be a char
Seite 211 und 212: } ) data
Seite 213 und 214: # y
Seite 215 und 216: # stop("Stop: chain data needed wit
Seite 217 und 218: "theta[ni=%8$2s]:%1$32.50f psi=%2$8
Seite 219 und 220: # mod.lm
Seite 221 und 222: xy$y[2:3]
Seite 223 und 224: R Reference Card by Tom Short, EPRI
Seite 225 und 226: Where leading zeros are shown they
Seite 227 und 228:
character expansion font = 1 (1,2,3
Seite 229 und 230:
Index Alle Stichwörter mit (G) fin
Seite 231 und 232:
k - medoid pma(...) cluster . . . .
Seite 233 und 234:
Blattfunktion . . . . . . . . . . .
Seite 235 und 236:
Linienenden par(lend="rounded") 29
Seite 237 und 238:
Redundanzanalyse Glossar . . . . .
Seite 239 und 240:
Partial least squares . . . . . . .
Alle anzeigen

Grafiken und Statistik in R

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?