Grafiken und Statistik in R
Grafiken und Statistik in R
Grafiken und Statistik in R
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Likelihood-Verhältnis-Test (auch: Likelihood-Quotienten-Test, Likelihood-Ratio Test [engl.]) Der L.-V.-T. ist<br />
e<strong>in</strong> relativ allgeme<strong>in</strong> e<strong>in</strong>setzbares Verfahren zum Vergleich von Modellen auf der Gr<strong>und</strong>lage der Maximum<br />
Likelihood-Schätzung. Verglichen werden jeweils zwei Modelle:<br />
E<strong>in</strong> Ausgangsmodell, welches i.a. mehrere Modellparameter enthält, <strong>und</strong> e<strong>in</strong> Vergleichsmodell, <strong>in</strong> welchem<br />
e<strong>in</strong>em oder mehreren dieser Parameter Restriktionen auferlegt wurden. (Das Ausgangsmodell heißt daher<br />
auch unrestr<strong>in</strong>giertes Modell, das Vergleichsmodell restr<strong>in</strong>giertes Modell; diese Begriffe s<strong>in</strong>d aber immer<br />
relativ zum jeweiligen Test-Ziel zu verstehen). Der Vergleich dient stets der Prüfung, ob das unrestr<strong>in</strong>gierte<br />
Modell tatsächlich (signifikant) „besser“ ist als das restr<strong>in</strong>gierte, d.h. e<strong>in</strong>en besseren Fit aufweist. Ist das<br />
nicht der Fall, ist das restr<strong>in</strong>gierte Modell, weil e<strong>in</strong>facher (<strong>und</strong> dennoch h<strong>in</strong>sichtlich der Erklärungskraft<br />
nicht schlechter), vorzuziehen. Folgende „Restriktionen“ wären z. B. denkbar (dies dürften die wichtigsten<br />
praktischen Anwendungsbed<strong>in</strong>gungen se<strong>in</strong>):<br />
• Alle Parameter werden auf Null gesetzt. Dies ist e<strong>in</strong>e Prüfung, ob das unrestr<strong>in</strong>gierte Modell<br />
<strong>in</strong>sgesamt mehr „erklärt“ als re<strong>in</strong> durch Zufallsschwankungen (im Rahmen der Stichprobenziehung) zu<br />
erwarten wäre. Dieser Test entspricht dem F-Test auf Signifkanz des Gesamtmodells <strong>in</strong> der l<strong>in</strong>earen<br />
Regressionsanalyse. Er wird von vielen <strong>Statistik</strong>-Paketen standardmäßig bei der Modellschätzung<br />
ausgegeben.<br />
• E<strong>in</strong> Parameter wird auf Null 46 gesetzt. Dies ist e<strong>in</strong>e Prüfung, ob die betreffende Variable e<strong>in</strong>en statistisch<br />
signifikanten E<strong>in</strong>fluß auf die abhängige Variable hat. Diese Prüfung ist anderen <strong>Statistik</strong>en (etwa mittels<br />
der Wald-<strong>Statistik</strong> oder der t-<strong>Statistik</strong>) überlegen.<br />
• Mehrere Parameter werden auf Null gesetzt. Hier soll geprüft werden, ob e<strong>in</strong>e Gruppe von Variablen<br />
e<strong>in</strong>en statistisch signifikanten E<strong>in</strong>fluß auf die abhängige Variable hat.<br />
• Zwei oder mehr Parameter sollen identisch se<strong>in</strong> (oder e<strong>in</strong>e bestimmte, vorgegebene Differenz aufweisen).<br />
Hiermit kann geprüft werden, ob die Beträge zweier (oder mehrerer Parameter) sich <strong>in</strong> statistisch<br />
signifikanter Weise vone<strong>in</strong>ander unterscheiden bzw. ihre Differenz e<strong>in</strong>en bestimmten Betrag über- bzw.<br />
unterschreitet.<br />
(Quelle: http://www.lrz-muenchen.de/~wlm/ilm_l7.htm).<br />
Logarithmustransformation s. Symmetrisierung.<br />
M<br />
Mahalanobisdistanz E<strong>in</strong>ige E<strong>in</strong>schränkungen der Euklid - Distanz können durch die sog. Mahalanobisdistanz<br />
behoben werden. Insbesondere dann, wenn die Merkmale e<strong>in</strong>en zu kle<strong>in</strong>en Maßstab haben <strong>und</strong>/oder hoch<br />
korreliert s<strong>in</strong>d. Die Mahalanobisdistanz e<strong>in</strong> Maß, das angibt wie weit die unabhängigen Variablen vom<br />
Durchschnitt aller Klassen abhängen. E<strong>in</strong>e große Mahalanobisdistanz steht für die Fälle, die extreme Werte<br />
von e<strong>in</strong>er oder von mehreren unabhängigen Variablen aufweist. Die Mahalanobisdistanz beseitigt e<strong>in</strong>ige<br />
E<strong>in</strong>schränkungen der Euklid - Distanz:<br />
es berücksichtigt automatisch die Skalierung der Koord<strong>in</strong>atenachsen (es ist skalen<strong>in</strong>variant), es behebt<br />
Korrelationen zwischen unterschiedlichen Merkmalen, es kann ebenso verwendet werden, wenn die Grenze<br />
zwischen den Merkmalen l<strong>in</strong>ear oder gekrümmt verläuft. Die Vorteile, die dieses Maß bietet, haben aber ihren<br />
Preis: die Kovarianzmatrix 47 kann schwer bestimmbar se<strong>in</strong> <strong>und</strong> der Speicherbedarf sowie der Zeitaufwand<br />
nehmen im quadratischen Maße zu, wenn die Anzahl der Merkmale steigt. Dieses Problem ist sicher<br />
unbedeutend, wenn nur wenige Merkmale geclustert werden sollen, verschärft sich aber bei vielen Merkmalen.<br />
In der Diskrim<strong>in</strong>anzanalyse wird die Zuordnung e<strong>in</strong>es Punktes zu e<strong>in</strong>er bestimmten gegebenen Population<br />
unter anderem mit der Mahalanobis-Distanz bestimmt. s.a Distanzmaße.<br />
46 Man beachte: In der Praxis heißt „Parameter auf Null setzen“ nichts anderes als e<strong>in</strong> Modell zu schätzen, <strong>in</strong> welchem<br />
die entsprechenden Variablen weggelassen werden. Andere Restriktionen (wie die zuletzt genannte) s<strong>in</strong>d nicht <strong>in</strong> allen<br />
<strong>Statistik</strong>paketen standardmäßig implementiert.<br />
47 Streuungsmatrix der Zeilen- <strong>und</strong> Spaltenwerte<br />
166