Nachtrag zu Mittelwerten und MaÃen der Dispersion ... - IPdS in Kiel

dur [ms] 

40 60 80 100 120 140 160 

Modul G.1 WS 06/07: Statistik 15.11.2006 1 

Nachtrag zu Mittelwerten und Maßen der Dispersion 

Consonant duration 

Darstellungsmethode Boxplot 

Strich innerhalb der Boxen: Median 

Boxen: Interquartilsabstand 

Whiskers: 1.5 * Interquartilsabstand an 

den äußeren Rändern der Box 

Bedeutung: innerhalb der „whiskers“ 

liegen 95% der Daten (entspricht 1.96* 

s x ) 

Ausreißer bzw. outlier: Werte 

außerhalb der whiskers 

L N S 

Zur Erinnerung: 

 

 

 

Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die 

oberen und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte 

über und unter dem Median gleich. 

Als Quartile werden jene Punkte Q 1 , Q 2 und Q 3 bezeichnet, welche eine 

Verteilung in vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q 2 

entspricht dem Median, das untere Quartil Q 1 einem Prozentrang von 25 und 

das obere Quartil Q 3 von 75. Die Differenz von Q 3 und Q 1 wird als 

Interquartilabstand (IQA) bezeichnet. 

s x ist die Standardabweichung einer Stichprobe 

Normalverteilung 

(Auch Gauß’sche Normalverteilung oder „Glockenverteilung“, normal distribution) 

Bei der Normalverteilung handelt es sich um eine unimodale, symmetrische Verteilung, die 

sich asymptotisch der Abszisse annähert. 

Die Gauß´sche Normalverteilung wird bei vielen natur- und sozialwissenschaftlichen 

Variablen vorausgesetzt. Der Ausgangspunkt ist, dass Messungen in Experimenten meist 

zufälligen Variationen unterliegen (Reaktion der Versuchsperson, Messmethode etc.). Ist 

diese Annahme korrekt, so ergibt eine genügend große Anzahl an Messungen eine 

symmetrische Verteilung um einen zentralen Wert, der am häufigsten auftritt und durch den 

Mittelwert widergegeben werden kann.


Johnson (2004, p.14) beschreibt diese mittlere Tendenz als das zugrundeliegende Merkmal, 

das wir bei Experimenten herausfinden wollen, das aber durch zufällige Fehler „verfälscht“ 

wird. Für die zufälligen Fehler gilt, dass die größeren Abweichungen seltener auftreten, 

weshalb sich die Verteilung zu den Rändern hin an null annähert. 

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen 

Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten 

Zufallsvariablen im Grenzwert 

normalverteilt ist. Das bedeutet, dass man 

Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer 

großen Zahl von Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis 

zur Gesamtsumme unbedeutenden Beitrag liefert. 

Beispiel: 

Auf einer Hühnerfarm mit sehr vielen Hühnern werden eine Woche lang die einzelnen Eier 

gewogen. Definieren wir die Zufallsvariable X: Gewicht eines Eis in Gramm. Es stellt sich 

heraus, dass ein Ei im Durchschnitt 50 g wiegt. Der Erwartungswert EX (oder auch µ) ist 

daher 50. Außerdem sei bekannt, dass die Varianz s 2 (x) = 25 g 2 beträgt. Man kann die 

Verteilung des Gewichts annähernd wie in der Grafik darstellen. Man sieht, dass sich die 

meisten Eier in der Nähe des Erwartungswerts 50 befinden und dass die Wahrscheinlichkeit, 

sehr kleine oder sehr große Eier zu erhalten, sehr klein wird. Wir haben hier eine 

Normalverteilung vor uns. Sie ist typisch für Zufallsvariablen, die sich aus sehr vielen 

verschiedenen Einflüssen zusammensetzen, die man nicht mehr trennen kann, z.B. Gewicht 

des Huhns, Alter, Gesundheit, Standort, Vererbung usw. 

Die Normalverteilung ist symmetrisch bezüglich μ. Die Verteilung P(X ≤ a) von X ist die 

Fläche unter dem Graph der Dichtefunktion. Sie wird bezeichnet als 

Beispielsweise beträgt die Wahrscheinlichkeit, dass ein Ei höchstens 55 g wiegt, 0,8413. Das 

entspricht der roten Fläche in der Abbildung.


Mit Standardabweichung = σ und Erwartungswert = µ 

Der Erwartungswert (selten und doppeldeutig Mittelwert) ist ein Begriff der Stochastik. Der 

Erwartungswert μ einer Zufallsvariablen (X) ist jener Wert, der sich (in der Regel) bei 

oftmaligem Wiederholen des zugrunde liegenden Experiments als Mittelwert der Ergebnisse 

ergibt. Er bestimmt die Lokalisation (Lage) einer Verteilung und ist vergleichbar mit dem 

empirischen arithmetischen Mittel einer Häufigkeitsverteilung in der deskriptiven Statistik. 

Das Gesetz der großen Zahlen sichert in vielen Fällen zu, dass der Stichprobenmittelwert bei 

wachsender Stichprobengröße gegen den Erwartungswert konvergiert. 

Eigenschaften: 

Datenreduktion: Mit den beiden Kenngrößen μ und σ kann die Wahrscheinlichkeit für das 

Auftreten einzelner Messwerte vorhergesagt werden. 

Die Fläche unterhalb der Kurve ist immer 1, d.h. Normalverteilungen mit einem 

Mittelwert, der eine geringe Häufigkeit aufweist, haben eine große Standardabweichung 

(„flach und breit“) und umgekehrt („spitz und schmal“) 

Dichte (density): gibt die Wahrscheinlichkeit an, dass ein Maß sehr nah an einem 

Messwert liegt. Wahrscheinlichkeiten liegen zwischen 0 und 1 mit steigender 

Wahrscheinlichkeit. Durch die Definition der Funktionsgleichung ist es möglich, das 

Integral, die Fläche, unter der Kurve, zu berechnen. Mit dieser Fläche kann man die 

Intervalle bestimmen, in denen gewisse Prozentanteile der Stichprobe mit hoher 

Wahrscheinlichkeit enthalten sind. Eine Dichtefunktion, Wahrscheinlichkeitsdichte oder 

Wahrscheinlichkeitsdichtefunktion (WDF oder pdf von engl. probability density function) 

dient in der Mathematik der Beschreibung von Wahrscheinlichkeitsverteilungen 

Bei normalverteilten Daten liegen 68,28% der Daten innerhalb eines Bereiches von ± 

1Standardabweichung und 95,44 % im Bereich von ± 2 SD 

Im statistischen Sinne normale Daten liegen zwischen -1,96 * SD und +1,96*SD. Alle 

außerhalb dieser 95% Marke liegenden Daten sind Ausreißer.

Density 

0.002 0.004 0.006 0.008 0.010 0.012 


Die Wahrscheinlichkeiten der einzelnen Ausprägungen einer stetigen Zufallsvariablen können 

(im Gegensatz zum diskreten Fall der Wahrscheinlichkeitsfunktion) nicht angegeben werden, 

denn die Wahrscheinlichkeiten für jede einzelne Ausprägung müssen streng genommen 0 

gesetzt werden. Es lassen sich nur Wahrscheinlichkeiten f(x)dx dafür angeben, dass die Werte 

innerhalb eines Intervalls dx um x liegen. Die Funktion f(x) heißt dann Dichtefunktion. Die 

Wahrscheinlichkeit, dass die Zufallsvariable Werte zwischen a und b annimmt, wird dann 

allgemein definiert als das Integral über diese Funktion mit den Integrationsgrenzen a und b. 

Beispielsweise fragt man nicht, wie viele Personen exakt 1,75 Meter groß sind, sondern z. B., 

wie viele Personen zwischen 1,75 und 1,76 m groß sind. Denn die Wahrscheinlichkeit, dass 

eine Person auf beliebig viele Nachkommastellen genau 1,75 Meter groß ist, ist theoretisch 

und praktisch gleich Null (daraus folgt: Nullmenge). 

Beispiel: 

Der HAWIE (Hamburg-Wechsler-Intelligenztest für Erwachsene) besitzt einen Mittelwert 

von x = 100 IQ-Punkte und eine Standardabweichung von sx=15 Punkten. Dies bedeutet, dass 

4,56% der Bevölkerung einen IQ von unter 70 oder über 130 Punkten haben. 

Abweichungen von der Normalverteilung 

1. Mehrere Gipfel (bimodal bis multimodal) 

bedeutet meist, dass die Quelle der Variation nicht zufällig ist, z.B. Vokaldauern, wenn Kurzund 

Langvokale in einem Datensatz analysiert werden. 

60 80 100 120 140 160 180 

Vokaldauer [ms]


2. Asymmetrie (skewness) 

Achtung: linkssteil = rechtsschief, rechtsteil = linksschief 

Die Schiefe wird mit dem zentralen Moment dritter Ordnung berechnet. Als zentrales 

Moment wird die Differenz eines individuellen Werts vom Mittelwert bezeichnet: 

(x i - x ) a 

Der Exponent a bestimmt die Ordnung des zentralen Moments. 

a 3 =0: Symmetrie 

a 3 0: linkssteil


3. „Gipfeligkeit“, Exzess, Breite 

a 4 =3: normal 

a 4 3: leptokurtisch (spitz)


Rechenbeispiel zur Schiefe und Gipfeligkeit einer Verteilung


Normierung 

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1 ist, also der Wahrscheinlichkeit 

eines fast sicheren Ereignisses entspricht. Somit folgt, dass, wenn zwei gaußsche 

Glockenkurven dasselbe μ, aber unterschiedliche σ-Werte haben, jene Kurve mit dem 

größeren σ breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert von 1 

haben und nur die Standardabweichung (oder „Streuung“) höher ist). Zwei Glockenkurven 

mit dem gleichen σ, aber unterschiedlichen μ haben gleich aussehende Graphen, die jedoch 

auf der x-Achse um die Differenz der μ-Werte zueinander verschoben sind. 

Standardnormalverteilung und die z-Transformation 

Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von 

1.


Dichtefunktion der Standardnormalverteilung 

Eigenschaften der z-Verteilung: Die Fläche ist wiederum 1 bzw. 100%. 

Transformation zur Standardnormalverteilung (z-Transformation) 

Ist eine Normalverteilung mit beliebigen μ und σ gegeben, so kann diese durch eine 

Transformation auf eine 

-Normalverteilung zurückgeführt werden. 

Die Überführung geschieht durch die z-Transformation in die sogenannten z scores. 

z i =(x i -x )/s x 

Geometrisch betrachtet entspricht die durchgeführte Substition einer flächentreuen 

Transformation der Glockenkurve von zur Glockenkurve von . 

Durch die z-Transformation können sämtliche Normalverteilungen standardisiert werden, 

d.h. auf einen Standard gebracht werden. Wir bezeichnen deshalb die Normalverteilung 

mit μ= 0 und σ=1 als Standardnormalverteilung.


(vgl. Bortz, 5. Auflage, S. 75, vgl. Übungsaufgabe zur z-Transformation) 

Wichtige Anwendung in der Phonetik: Sprechernormalisierung 

Problem: Formanten sind nicht nur von der Vokalqualität sondern auch von sprecherspezifischen 

Merkmalen des Ansatzrohres abhängig. 

Lösung: 

1. z-Transformation mit sprecherspezifischen Mittelwerten und Standardabweichungen = 

Lobanov-Transformation 

F n.norm =(F n -F n.mean )/F n.sd 

F n.norm wird für jeden einzelnen Sprecher berechnet. 

n entspricht jeweils dem n-ten Formanten (F1, F2 etc.) 

2. Daten werden auf den maximalen Range der einzelnen Sprecher normalisiert = 

Gerstman-Transformation 

(vgl. Harrington & Cassidy (1999) S. 76-78) 

F n.norm =(F n -F n.min )/(F n.max -F n.min )

Nachtrag zu Mittelwerten und MaÃen der Dispersion ... - IPdS in Kiel

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?

Nachtrag zu Mittelwerten und MaÃen der Dispersion ... - IPdS in Kiel