07.01.2013 Aufrufe

Grafiken und Statistik in R

Grafiken und Statistik in R

Grafiken und Statistik in R

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Likelihood-Verhältnis-Test (auch: Likelihood-Quotienten-Test, Likelihood-Ratio Test [engl.]) Der L.-V.-T. ist<br />

e<strong>in</strong> relativ allgeme<strong>in</strong> e<strong>in</strong>setzbares Verfahren zum Vergleich von Modellen auf der Gr<strong>und</strong>lage der Maximum<br />

Likelihood-Schätzung. Verglichen werden jeweils zwei Modelle:<br />

E<strong>in</strong> Ausgangsmodell, welches i.a. mehrere Modellparameter enthält, <strong>und</strong> e<strong>in</strong> Vergleichsmodell, <strong>in</strong> welchem<br />

e<strong>in</strong>em oder mehreren dieser Parameter Restriktionen auferlegt wurden. (Das Ausgangsmodell heißt daher<br />

auch unrestr<strong>in</strong>giertes Modell, das Vergleichsmodell restr<strong>in</strong>giertes Modell; diese Begriffe s<strong>in</strong>d aber immer<br />

relativ zum jeweiligen Test-Ziel zu verstehen). Der Vergleich dient stets der Prüfung, ob das unrestr<strong>in</strong>gierte<br />

Modell tatsächlich (signifikant) „besser“ ist als das restr<strong>in</strong>gierte, d.h. e<strong>in</strong>en besseren Fit aufweist. Ist das<br />

nicht der Fall, ist das restr<strong>in</strong>gierte Modell, weil e<strong>in</strong>facher (<strong>und</strong> dennoch h<strong>in</strong>sichtlich der Erklärungskraft<br />

nicht schlechter), vorzuziehen. Folgende „Restriktionen“ wären z. B. denkbar (dies dürften die wichtigsten<br />

praktischen Anwendungsbed<strong>in</strong>gungen se<strong>in</strong>):<br />

• Alle Parameter werden auf Null gesetzt. Dies ist e<strong>in</strong>e Prüfung, ob das unrestr<strong>in</strong>gierte Modell<br />

<strong>in</strong>sgesamt mehr „erklärt“ als re<strong>in</strong> durch Zufallsschwankungen (im Rahmen der Stichprobenziehung) zu<br />

erwarten wäre. Dieser Test entspricht dem F-Test auf Signifkanz des Gesamtmodells <strong>in</strong> der l<strong>in</strong>earen<br />

Regressionsanalyse. Er wird von vielen <strong>Statistik</strong>-Paketen standardmäßig bei der Modellschätzung<br />

ausgegeben.<br />

• E<strong>in</strong> Parameter wird auf Null 46 gesetzt. Dies ist e<strong>in</strong>e Prüfung, ob die betreffende Variable e<strong>in</strong>en statistisch<br />

signifikanten E<strong>in</strong>fluß auf die abhängige Variable hat. Diese Prüfung ist anderen <strong>Statistik</strong>en (etwa mittels<br />

der Wald-<strong>Statistik</strong> oder der t-<strong>Statistik</strong>) überlegen.<br />

• Mehrere Parameter werden auf Null gesetzt. Hier soll geprüft werden, ob e<strong>in</strong>e Gruppe von Variablen<br />

e<strong>in</strong>en statistisch signifikanten E<strong>in</strong>fluß auf die abhängige Variable hat.<br />

• Zwei oder mehr Parameter sollen identisch se<strong>in</strong> (oder e<strong>in</strong>e bestimmte, vorgegebene Differenz aufweisen).<br />

Hiermit kann geprüft werden, ob die Beträge zweier (oder mehrerer Parameter) sich <strong>in</strong> statistisch<br />

signifikanter Weise vone<strong>in</strong>ander unterscheiden bzw. ihre Differenz e<strong>in</strong>en bestimmten Betrag über- bzw.<br />

unterschreitet.<br />

(Quelle: http://www.lrz-muenchen.de/~wlm/ilm_l7.htm).<br />

Logarithmustransformation s. Symmetrisierung.<br />

M<br />

Mahalanobisdistanz E<strong>in</strong>ige E<strong>in</strong>schränkungen der Euklid - Distanz können durch die sog. Mahalanobisdistanz<br />

behoben werden. Insbesondere dann, wenn die Merkmale e<strong>in</strong>en zu kle<strong>in</strong>en Maßstab haben <strong>und</strong>/oder hoch<br />

korreliert s<strong>in</strong>d. Die Mahalanobisdistanz e<strong>in</strong> Maß, das angibt wie weit die unabhängigen Variablen vom<br />

Durchschnitt aller Klassen abhängen. E<strong>in</strong>e große Mahalanobisdistanz steht für die Fälle, die extreme Werte<br />

von e<strong>in</strong>er oder von mehreren unabhängigen Variablen aufweist. Die Mahalanobisdistanz beseitigt e<strong>in</strong>ige<br />

E<strong>in</strong>schränkungen der Euklid - Distanz:<br />

es berücksichtigt automatisch die Skalierung der Koord<strong>in</strong>atenachsen (es ist skalen<strong>in</strong>variant), es behebt<br />

Korrelationen zwischen unterschiedlichen Merkmalen, es kann ebenso verwendet werden, wenn die Grenze<br />

zwischen den Merkmalen l<strong>in</strong>ear oder gekrümmt verläuft. Die Vorteile, die dieses Maß bietet, haben aber ihren<br />

Preis: die Kovarianzmatrix 47 kann schwer bestimmbar se<strong>in</strong> <strong>und</strong> der Speicherbedarf sowie der Zeitaufwand<br />

nehmen im quadratischen Maße zu, wenn die Anzahl der Merkmale steigt. Dieses Problem ist sicher<br />

unbedeutend, wenn nur wenige Merkmale geclustert werden sollen, verschärft sich aber bei vielen Merkmalen.<br />

In der Diskrim<strong>in</strong>anzanalyse wird die Zuordnung e<strong>in</strong>es Punktes zu e<strong>in</strong>er bestimmten gegebenen Population<br />

unter anderem mit der Mahalanobis-Distanz bestimmt. s.a Distanzmaße.<br />

46 Man beachte: In der Praxis heißt „Parameter auf Null setzen“ nichts anderes als e<strong>in</strong> Modell zu schätzen, <strong>in</strong> welchem<br />

die entsprechenden Variablen weggelassen werden. Andere Restriktionen (wie die zuletzt genannte) s<strong>in</strong>d nicht <strong>in</strong> allen<br />

<strong>Statistik</strong>paketen standardmäßig implementiert.<br />

47 Streuungsmatrix der Zeilen- <strong>und</strong> Spaltenwerte<br />

166

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!