01.08.2014 Aufrufe

Formelsammlung für die Vorlesung Statistik A - Universität Bonn

Formelsammlung für die Vorlesung Statistik A - Universität Bonn

Formelsammlung für die Vorlesung Statistik A - Universität Bonn

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Formelsammlung</strong><br />

für <strong>die</strong> <strong>Vorlesung</strong><br />

<strong>Statistik</strong> A<br />

Univ.-Prof. Dr. Kneip / Dr. Scheer<br />

Universität <strong>Bonn</strong><br />

Statistische Abteilung<br />

Wintersemester 2009/2010<br />

Inhaltsverzeichnis<br />

2 Univariate Deskription und Exploration von Daten 2<br />

3 Bivariate Deskription und Exploration von Daten 9<br />

4 Zeitreihenanalyse 16<br />

5 Indexzahlen 17<br />

6 Wahrscheinlichkeitsrechnung 20


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 2<br />

2 Univariate Deskription und Exploration von<br />

Daten<br />

Gegeben seien Daten x 1 , . . . , x n eines Merkmals X mit Ausprägungen a 1 , . . . , a k .<br />

Häugkeiten und ihre graphischen Darstellungen<br />

Formel/Notation<br />

Erläuterung<br />

Absolute Häugkeit h(a j ) = h j Anzahl der Werte mit x i = a j<br />

Relative Häugkeit f(a j ) = f j = h j<br />

Anteil der Werte mit x<br />

n<br />

i = a j<br />

Abs. Häugkeitsverteilung {h 1 , . . . , h k } Menge der abs. Häugkeiten<br />

Rel. Häugkeitsverteilung {f 1 , . . . , f k } Menge der rel. Häugkeiten<br />

Diagramm<br />

Strichliste<br />

Stabdiagramm<br />

Säulendiagramm<br />

Balkendiagramm<br />

Kreisdiagramm<br />

Histogramm<br />

Beschreibung<br />

Für jedes a k jeweils h k Striche<br />

Über a 1 , . . . , a k jeweils zur x-Achse senkrechter Strich<br />

mit Höhe h 1 , . . . , h k (oder f 1 , . . . , f k )<br />

wie Stabdiagramm, jedoch mit Rechtecken anstatt<br />

Strichen<br />

wie Säulendiagramm, jedoch mit a 1 , . . . , a k auf der y-<br />

Achse<br />

Kreissektoren mit Winkeln α j = f j · 360 ◦ , so daÿ Fläche<br />

proportional zu den Häugkeiten<br />

Über den Klassen [c 0 , c 1 ], . . . , (c k−1 , c k ] Rechtecke mit<br />

Breite δ j = c j − c j−1 und Höhe gleich (oder proportional<br />

zu) h j /δ j bzw. f j /δ j . Damit ist <strong>die</strong> Fläche der<br />

Rechtecke gleich (oder proportinal zu) h j bzw. f j .<br />

Kumulierte Häugkeitsverteilungen<br />

Absolute kumulierte<br />

Häugkeitsverteilung<br />

Empirische Verteilungsfunktion<br />

(relative kumulierte<br />

Häugkeitsverteilung)<br />

Formel/Notation<br />

H(x) =<br />

∑ h(a i )<br />

i:a i ≤x<br />

F (x) = H(x)<br />

n<br />

= ∑<br />

i:a i ≤x<br />

f(a i )<br />

Erläuterung<br />

Anzahl der Werte x i<br />

mit x i ≤ x<br />

Anteil der Werte x i mit<br />

x i ≤ x<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 3<br />

Lagemaÿe<br />

Lagemaÿ Formel Erläuterung<br />

Arithmetisches<br />

n∑<br />

¯x =<br />

Mittel<br />

1 Empirischer Mittelwert der Beobachtungen<br />

x<br />

n i<br />

i=1<br />

∑<br />

¯x = k k∑<br />

f j a j = 1 h<br />

h<br />

n j a j = h(a j ) abs. Häugkeiten<br />

j<br />

j=1<br />

j=1<br />

f j = f(a j ) rel. Häugkeiten<br />

Für ungerades n:<br />

x med = x (<br />

n+1<br />

Median<br />

Modus<br />

Geometrisches<br />

Mittel<br />

Harmonisches<br />

Mittel<br />

2 )<br />

Für gerades ( n: )<br />

x med = 1 x(n/2) + x<br />

2<br />

(n/2+1)<br />

x mod = a i ,<br />

mit f i = max j=1,···k f j<br />

¯x geo = n√ x 1 · x 2 · · · x n<br />

n∑<br />

bzw. ln(¯x geo ) = 1 ln(x<br />

n i )<br />

i=1<br />

x (1) ≤ . . . ≤ x (n) bezeichnet<br />

<strong>die</strong> aufsteigend sortierte Urliste<br />

x 1 , . . . , x n .<br />

Ausprägung mit gröÿter Häugkeit.<br />

Nur für positive x 1 , . . . , x n .<br />

∑<br />

bzw. ln(¯x geo ) = k f j ln(a j ) Häugkeitsdaten mit a j > 0<br />

¯x har = 1<br />

1<br />

n<br />

bzw.<br />

1<br />

¯x har<br />

bzw.<br />

1<br />

¯x har<br />

n∑<br />

i=1<br />

1<br />

x i<br />

n∑<br />

= 1 n<br />

i=1<br />

= k ∑<br />

j=1<br />

j=1<br />

Entweder alle x i > 0<br />

1<br />

oder alle x i < 0<br />

x i<br />

f j<br />

1<br />

aj<br />

Häugkeitsdaten und entweder<br />

alle a j > 0 oder alle a j < 0<br />

Lageregeln<br />

Verteilung<br />

symmetrisch<br />

linkssteil (rechtsschief)<br />

rechtssteil (linksschief)<br />

Lagemaÿe<br />

¯x ≈ x med ≈ x mod<br />

¯x > x med > x mod<br />

¯x < x med < x mod<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 4<br />

Streuungsmaÿe<br />

Streuungsmaÿ Formel Erläuterung<br />

Empirische Varianz<br />

n∑<br />

n∑<br />

˜s 2 = 1 (x<br />

n i − ¯x) 2 = 1 x 2 n i − ¯x 2 ¯x emp. Mittelwert<br />

Empirische Standardabweichung<br />

i=1<br />

i=1<br />

∑<br />

˜s 2 = k ∑<br />

f j (a j − ¯x) 2 = k f j a 2 j − ¯x 2<br />

j=1<br />

Stichprobenvarianz s 2 = 1<br />

n−1<br />

j=1<br />

Für Häugkeitsdaten<br />

˜s = √˜s Quadratwurzel aus emp.<br />

2<br />

Varianz<br />

n∑<br />

(x i − ¯x) 2 Division durch n − 1<br />

i=1<br />

Sinnvoll für<br />

Variationskoezient v = ˜s/¯x<br />

Beobachtungen x i > 0<br />

x<br />

Spannweite R = max i x i − min i x i = x (n) − x (1) ≤ . . . ≤ x (n) , geordnete<br />

(1)<br />

Urliste<br />

x<br />

Interquartilsabstand QA = x 0.75 − x 0.25 , x 0.75 unteres bzw. oberes<br />

0.25<br />

Quartil<br />

Bemerkung: Die Formel für <strong>die</strong> empirische Varianz wird oft auch in der<br />

n∑<br />

Form ˜s 2 = x 2 − ¯x 2 , wobei x 2 = 1 x 2 n i der Mittelwert der quadrierten Daten<br />

ist, geschrieben.<br />

i=1<br />

Schichtung und Streuungszerlegung<br />

Eine Erhebungseinheit E vom Umfang n sei zerlegt in r Schichten (oder Teilgesamtheiten)<br />

E 1 , . . . , E r , jeweils vom Umfang n j , ∑ r<br />

j=1 n j = n, mit Mittel<br />

¯x j und Varianz ˜s 2 j. Dann gilt<br />

• Gesamtmittel in E:<br />

• Varianz in E:<br />

¯x = 1 n<br />

r∑<br />

n j ¯x j<br />

j=1<br />

˜s 2 1<br />

r∑<br />

= n j˜s 2 j + 1 r∑<br />

n j (¯x j − ¯x) 2<br />

n<br />

n<br />

j=1<br />

j=1<br />

} {{ } } {{ }<br />

Streuung innerhalb Streuung zwischen<br />

der Schichten den Schichten<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 5<br />

Quantile und Boxplot<br />

Quantile<br />

Für 0 < p < 1 heiÿt jeder Wert x p , für den<br />

Anzahl(x i : x i ≤ x p )<br />

Anzahl(x<br />

≥ p und<br />

i : x i ≥ x p )<br />

n<br />

n<br />

gilt, p-Quantil. Damit gilt für das p-Quantil:<br />

Bemerkungen:<br />

x p = x (⌊np⌋+1) , wenn np nicht ganzzahlig<br />

x p ∈ [ x (np) , x (np+1)<br />

]<br />

, wenn np ganzzahlig<br />

• Spezielle Bezeichnungen:<br />

x 0.5 Median<br />

x 0.25 , x 0.75 Unteres bzw. Oberes Quartil<br />

x 0.1 , . . . , x 0.9 Dezile<br />

≥ 1 − p<br />

• Analog zum Median kann man für ganzzahliges ( np) ein p-Quantil auch<br />

eindeutig als den Mittelwert x p = 1 x(np) + x<br />

2<br />

(np+1) denieren.<br />

• In <strong>Statistik</strong>programmen werden empirische p-Quantile gewöhnlich durch<br />

lineare Näherung aus der empirischen Verteilungsfunktion gewonnen.<br />

Graphische Darstellung<br />

• 5-Punkte Zusammenfassung einer Verteilung:<br />

Angabe von x min , x 0.25 , x med , x 0.75 , x max .<br />

• Boxplot:<br />

1. x 0.25 = Anfang der Box<br />

2. x 0.75 = Ende der Box<br />

3. x med durch senkr. Strich in der Box markieren<br />

4. Berechnung der Zäune z u = x 0.25 − 1.5 QA und z o = x 0.75 +<br />

1.5 QA<br />

5. Zwei Linien (whiskers) gehen von der Box aus zum kleinsten und<br />

gröÿten Beobachtungswert innerhalb des Bereichs [z u , z o ] der Zäune.<br />

(Üblicherweise werden <strong>die</strong> Endpunkte durch senkrechte Striche<br />

markiert.)<br />

6. Beobachtungen auÿerhalb der Zäune z u , z o werden einzeln markiert.<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 6<br />

Gruppierte Daten<br />

Lagemaÿe<br />

Arithm. Mittel<br />

Median<br />

Formel<br />

Erläuterung<br />

∑<br />

¯x = k f j¯c j<br />

¯c j Mitte der Klasse (c j−1 , c j ]<br />

f j rel. Häugkeit<br />

j=1<br />

x med = c i−1 + δ i<br />

0.5−F i−1<br />

f i<br />

F i−1 = ∑ i−1<br />

j=1 f j (emp. Vert.),<br />

(c i−1 , c i ] Einfallsklasse des Medians,<br />

d.h. F i−1 ≤ 0.5 < F i<br />

δ i = c i − c i−1 Breite der i-ten Klasse<br />

Modus x mod = ¯c i ¯c i Mitte der Modalklasse<br />

Geom. Mittel<br />

k∑<br />

ln(¯x geo ) = 1 f<br />

n j ln(¯c j ) Alle ¯c j > 0<br />

Harm. Mittel<br />

1<br />

¯x har<br />

Streuungsmaÿe<br />

Empirische Varianz<br />

Empirische Varianz<br />

mit Sheppard-Korrektur<br />

k∑<br />

= 1 n<br />

j=1<br />

j=1<br />

Formel<br />

f j<br />

¯c j<br />

Entweder alle ¯c j > 0 oder alle ¯c j < 0<br />

∑<br />

˜s 2 = k ∑<br />

f j (¯c j − ¯x) 2 = k f j¯c 2 j − ¯x 2<br />

j=1<br />

˜s 2 = k ∑<br />

j=1<br />

j=1<br />

f j (¯c j − ¯x) 2 − δ2<br />

12<br />

Erläuterung<br />

¯x emp. Mittelwert,<br />

f j rel. Häugkeit,<br />

¯c j Klassenmitte<br />

Nur für konstante Klassenbreiten<br />

δ = c j − c j−1<br />

c 0 Untergrenze der untersten<br />

Klasse<br />

Spannweite R = c k − c 0<br />

c k Obergrenze der obersten<br />

Klasse<br />

x 0.25 , x 0.75 unteres bzw.<br />

Interquartilsabstand QA = x 0.75 − x 0.25 oberes Quartil (für gruppierte<br />

Daten)<br />

p-Quantil für gruppierte Daten<br />

Analog zum Median für gruppierte Daten wird ein p-Quantil (0 < p < 1)<br />

deniert durch<br />

x p = c i−1 + δ i<br />

p − F i−1<br />

f i<br />

,<br />

wobei der Index i so bestimmt wird, daÿ ∑ i−1<br />

j=1 f j ≤ p < ∑ i<br />

j=1 f j.<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 7<br />

Maÿzahlen für Schiefe<br />

Empirische Momente<br />

Empirische Momente<br />

Empirische zentrale<br />

Momente<br />

Formel<br />

M r = 1 n<br />

m r = 1 n<br />

Erläuterung<br />

n∑<br />

x r i r = 1, 2, . . . M 1 = Arithmetisches Mittel<br />

n∑<br />

(x i − ¯x) r r = 2, 3, . . . m 2 = Empirische Varianz<br />

i=1<br />

i=1<br />

Maÿzahlen für Schiefe (Skewness)<br />

Schiefemaÿ Formel Erläuterung<br />

Momentenkoezient<br />

n∑<br />

m 3 emp. 3tes zentrales Moment,<br />

g<br />

der Schiefe<br />

m = m 3<br />

mit m<br />

s 3 3 = 1 (x<br />

n i − ¯x) 3<br />

i=1<br />

s emp. Standardabw.<br />

Quantilskoezient<br />

g<br />

der Schiefe<br />

p = (x 1−p−x med )−(x med −x p) Für p = 0.25 ergibt sich<br />

x 1−p −x p<br />

der Quartilskoezient<br />

Konzentrationsmaÿe<br />

Lorenzkurve und Gini-Koezient<br />

Die Lorenzkurve ist der Streckenzug durch <strong>die</strong> Punkte (0, 0), (u 1 , v 1 ), . . . , (u κ , v κ ) =<br />

(1, 1), wobei für <strong>die</strong> Punkte (u j , v j ) gilt:<br />

• Bei geordneter Urliste x 1 ≤ . . . ≤ x n :<br />

u j = j n<br />

v j =<br />

∑ j<br />

i=1 x i<br />

∑ n<br />

i=1 x i<br />

für j = 1, . . . , n<br />

• Bei Häugkeitsdaten {(a i , f i )} 1≤i≤k (aufsteigend geordnet):<br />

u j =<br />

j∑<br />

f i v j =<br />

i=1<br />

∑ j<br />

i=1 f ia i<br />

∑ k<br />

i=1 f ia i<br />

für j = 1, . . . , k<br />

• Bei gruppierten Daten mit Klassen [c 0 , c 1 ], . . . , (c k−1 , c k ] und Klassenmittelpunkten<br />

¯c i :<br />

u j =<br />

j∑<br />

f i v j =<br />

i=1<br />

∑ j<br />

i=1 f i¯c i<br />

∑ k<br />

i=1 f i¯c i<br />

für j = 1, . . . , k<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 8<br />

Gini-Koezient<br />

Fläche zw. Diagonale u. Lorenzkurve<br />

G = = 2·Fläche zw. Diagonale u. Lorenzkurve<br />

Fläche zw. Diagonale und u-Achse<br />

Damit ergibt sich für den Gini-Koezienten<br />

• Bei geordneter Urliste x 1 ≤ . . . ≤ x n :<br />

G =<br />

∑<br />

2 n ix i<br />

i=1<br />

n n ∑<br />

i=1<br />

− n + 1<br />

n<br />

x i<br />

= n + 1<br />

n − 2 · 1<br />

n<br />

• Bei Häugkeitsdaten {(a i , f i )} 1≤i≤k (aufsteigend geordnet):<br />

n∑<br />

j=1<br />

v j<br />

G =<br />

∑ k<br />

i=1 (u i−1 + u i )f i a i<br />

∑ k<br />

i=1 f ia i<br />

− 1 = 1 − 2 ·<br />

k∑<br />

j=1<br />

f j¯v j , mit ¯v j = v j−1 + v j<br />

2<br />

• Bei gruppierten Daten mit Klassen [c 0 , c 1 ], . . . , (c k−1 , c k ] und Klassenmittelpunkten<br />

¯c i :<br />

G =<br />

∑ k<br />

i=1 (u i−1 + u i )f i¯c i<br />

∑ k<br />

i=1 f i¯c i<br />

− 1 = 1 − 2 ·<br />

k∑<br />

j=1<br />

f j¯v j , mit ¯v j = v j−1 + v j<br />

2<br />

Normierter Gini-Koezient (Lorenz-Münzner-Koezient)<br />

G ⋆ =<br />

G<br />

G max<br />

=<br />

Absolute Konzentrationsmaÿe<br />

n<br />

n − 1 G mit dem Wertebereich: G⋆ ∈ [0, 1]<br />

Ausgangspunkt ist eine geordnete Urliste x 1 ≤ . . . ≤ x n .<br />

• Merkmalsanteil der i-ten Einheit: p i =<br />

x i<br />

n∑<br />

x j<br />

j=1<br />

• Konzentrationsrate der g gröÿten Merkmalsträger: CR g =<br />

∑<br />

• Herndahl-Index: H = n p 2 i ; Wertebereich: H ∈ [ 1 , 1] n<br />

i=1<br />

n∑<br />

p i<br />

i=n−g+1<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 9<br />

3 Bivariate Deskription und Exploration von<br />

Daten<br />

Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungen<br />

a 1 , . . . , a k für X und b 1 , . . . , b m für Y .<br />

Die Urliste enthält für jedes Objekt <strong>die</strong> gemeinsamen Messwerte (x 1 , y 1 ), . . . , (x n , y n ).<br />

Kontingenztabelle der absoluten Häugkeiten<br />

Eine (k × m)Kontingenztabelle der absoluten Häugkeiten besitzt <strong>die</strong> Form<br />

XY b 1 b 2 · · · b m<br />

a 1 h 11 h 12 . . . h 1m h 1•<br />

a 2<br />

.<br />

h 21<br />

.<br />

h 22<br />

.<br />

. . . h 2m<br />

.<br />

h 2•<br />

.<br />

a k h k1 h k2 . . . h km h k•<br />

h •1 h •2 · · · h •m n<br />

und gibt <strong>die</strong> gemeinsame Verteilung der Merkmale X und Y in absoluten<br />

Häugkeiten wieder.<br />

Bezeichnungen<br />

Absolute Häugkeit der Kombination<br />

(a i , b j )<br />

h ij = h(a i , b j )<br />

Zeilensummen h i• = h i1 + · · · + h im , 1 ≤ i ≤ k<br />

Spaltensummen h •j = h 1j + · · · + h kj , 1 ≤ j ≤ m<br />

∑<br />

Gesamtsumme<br />

h • • = k m∑ ∑<br />

h ij = k ∑<br />

h i• = m h •j = n<br />

Randhäugkeiten<br />

des Merkmals X<br />

Randhäugkeiten<br />

des Merkmals Y<br />

i=1 j=1<br />

h 1• , . . . , h k•<br />

h •1 , . . . , h •m<br />

i=1<br />

j=1<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 10<br />

Kontingenztabelle der relativen Häugkeiten<br />

Eine (k × m)-Kontingenztabelle der relativen Häugkeiten besitzt <strong>die</strong> Form<br />

XY b 1 b 2 · · · b m<br />

a 1 f 11 f 12 . . . f 1m f 1•<br />

a 2<br />

.<br />

f 21<br />

.<br />

f 22<br />

.<br />

. . . f 2m<br />

.<br />

f 2•<br />

.<br />

a k f k1 f k2 . . . f km f k•<br />

f •1 f •2 · · · f •m 1<br />

und gibt <strong>die</strong> gemeinsame Verteilung der Merkmale X und Y wieder.<br />

Relative Häugkeit der Kombination<br />

(a i , b j )<br />

Zeilensummen<br />

Spaltensummen<br />

Gesamtsumme<br />

Bezeichnungen<br />

f ij = h ij<br />

n<br />

f i• = f i1 + · · · + f im = h i•<br />

, 1 ≤ i ≤ k<br />

n<br />

f •j = f 1j + · · · + f kj = h •j<br />

, 1 ≤ j ≤ m<br />

n<br />

k∑ m∑ ∑<br />

f ij = k ∑<br />

f i• = m f •j = 1<br />

i=1 j=1<br />

i=1<br />

Randverteilung des Merkmals X {f 1• , . . . , f k• }<br />

Randverteilung des Merkmals Y {f •1 , . . . , f •m }<br />

Bedingte Häugkeitsverteilung<br />

von X unter der Bedingung<br />

Y = b j , kurz X|Y = b j<br />

Bedingte Häugkeitsverteilung<br />

von Y unter der Bedingung<br />

X = a i , kurz Y |X = a i<br />

j=1<br />

f X (a 1 |Y = b j ) = f 1j<br />

f •j , . . . , f X(a k |Y = b j ) = f kj<br />

f •j<br />

f Y (b 1 |X = a i ) = f i1<br />

f i• , . . . , f Y (b m |X = a i ) = f im<br />

f<br />

i•<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 11<br />

Graphische Darstellung quantitativer Merkmale<br />

Streudiagramm (Scatter plot)<br />

• Darstellung der Meÿwerte (x 1 , y 1 ), . . . , (x n , y n ) im xy-Koordinatensystem.<br />

Zweidimensionales Histogramm<br />

• Intervalle [c 0 , c 1 ], . . . , (c k−1 , c k ] für Merkmal X.<br />

• Intervalle [d 0 , d 1 ], . . . , (d m−1 , d m ] für Merkmal Y .<br />

• Quader mit den Rechtecken (c i−1 , c i ] × (d j−1 , d j ] als Grundäche und<br />

Höhe<br />

h ij<br />

(c i − c i−1 ) · (d j − d j−1 )<br />

bzw.<br />

f ij<br />

(c i − c i−1 ) · (d j − d j−1 )<br />

Odds und Kreuzproduktverhältnis<br />

Ausgangspunkt ist eine (k×m)-Kontingenztabelle der relativen Häugkeiten.<br />

• (Empirische) bedingte Chance (Odds) zwischen Y = b r und Y = b s<br />

für gegebenes X = a i ist:<br />

γ(b r , b s |X = a i ) = h ir<br />

h is<br />

• Das Kreuzproduktverhältnis (Odds ratio) zwischen X = a i und X =<br />

a j in bezug auf <strong>die</strong> Chancen von Y = b r zu Y = b s ist:<br />

γ(b r , b s |X = a i , X = a j ) = h ir/h is<br />

h jr /h js<br />

= h irh js<br />

h jr h is<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 12<br />

Kontingenz und χ 2 Koezient<br />

Formel<br />

Wertebereich/Erläuterung<br />

χ 2 -Koezient<br />

χ 2 =<br />

k∑<br />

i=1<br />

(<br />

m∑ h ij − h i•h •j<br />

n<br />

j=1<br />

h i• h •j<br />

n<br />

) 2<br />

Es gilt: 0 ≤ χ 2 ≤ n · (min(k, m) − 1)<br />

˜h ij = h i•h •j<br />

= erwartete Häugkeiten,<br />

n<br />

wenn kein Zusammenhang vorliegt.<br />

Kontingenzkoezient<br />

Korrigierter<br />

Kontingenzkoezient<br />

K =<br />

√<br />

K ⋆ =<br />

χ 2<br />

K ∈ [0, K max ], wobei K max =<br />

n + χ 2 M = min(k, m).<br />

K<br />

K max<br />

K ⋆ ∈ [0, 1]<br />

√<br />

M−1<br />

M ,<br />

√<br />

Assoziationsmaÿ<br />

χ<br />

von Cramér V =<br />

2<br />

n(min(k, m) − 1)<br />

V ∈ [0, 1]<br />

V = |φ-Koezient| für 2 × 2-Tafeln<br />

Spezialfall: Vierfeldertafel<br />

Für eine (2 × 2)Kontingenztafel der Form<br />

h 11 h 12 h 11 + h 12<br />

h 21 h 22 h 21 + h 22<br />

h 11 + h 21 h 12 + h 22 n<br />

gilt<br />

χ 2 n(h 11 h 22 − h 12 h 21 ) 2<br />

=<br />

(h 11 + h 12 )(h 11 + h 21 )(h 12 + h 22 )(h 21 + h 22 )<br />

und der φ-Koezient ist deniert als<br />

φ =<br />

h 11 h 22 − h 12 h 21<br />

√<br />

(h11 + h 12 )(h 11 + h 21 )(h 12 + h 22 )(h 21 + h 22 )<br />

und hat den Wertebereich φ ∈ [−1, 1].<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 13<br />

Zusammenhangsmaÿe bei metrischen Merkmalen<br />

Empirischer Korrelationskoezient nach Bravais-Pearson<br />

• Empirische Standardabweichungen (für X bzw. Y ): ˜s X , ˜s Y<br />

˜s 2 X = 1 n∑<br />

x 2 i − ¯x 2 und ˜s 2 Y = 1 n<br />

n<br />

i=1<br />

• Empirische Kovarianz (zwischen X und Y ):<br />

n∑<br />

yi 2 − ȳ 2<br />

i=1<br />

˜s XY = 1 n<br />

n∑<br />

(x i − ¯x)(y i − ȳ) = 1 n<br />

i=1<br />

n∑<br />

x i y i − ¯x · ȳ<br />

i=1<br />

• Empirischer Korrelationskoezient :<br />

• Wertebereich: r ∈ [−1, 1].<br />

r = r XY = ˜s XY<br />

˜s X ˜s Y<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 14<br />

Spearmans Korrelationskoezient<br />

• Rang von x i : rang(x i ) = Position des i-ten Messwertes in der aufsteigend<br />

sortierten Urliste x (1) ≤ x (2) ≤ . . . ≤ x (n) mit der Zusatzregel,<br />

dass gleichen Messwerten (sog. Bindungen, ties) jeweils das Mittel<br />

ihrer Ränge zugewiesen wird.<br />

• Mittel aller Ränge: rang X = 1 n<br />

n∑<br />

rang(x i ) = 1 n<br />

i=1<br />

• Spearmans Korrelationskoezient :<br />

r SP =<br />

n∑<br />

i=1<br />

i = n+1<br />

2<br />

n∑<br />

(rang(x i ) − rang X )(rang(y i ) − rang Y )<br />

i=1<br />

√<br />

∑ n ∑<br />

(rang(x i ) − rang X ) 2<br />

n (rang(y i ) − rang Y ) 2<br />

i=1<br />

• Wertebereich: r SP ∈ [−1, 1]<br />

• Rechentechnisch günstige Version:<br />

Unter der Voraussetzung, dass keine Bindungen (ties) auftreten<br />

(d.h., x i ≠ x j , y i ≠ y j für alle i, j), gilt:<br />

i=1<br />

∑<br />

6 n Di<br />

2<br />

i=1<br />

r SP = 1 −<br />

n(n 2 − 1)<br />

mit den Rang<strong>die</strong>renzen D i = rang(x i ) − rang(y i ), 1 ≤ i ≤ n.<br />

Lineare Einfachregression<br />

Gegeben seien n Beobachtungen der Merkmale Y und X: (y 1 , x 1 ), . . . , (y n , x n ).<br />

• Lineare Einfachregression:<br />

y i = α + βx i + ɛ i ,<br />

i = 1, . . . , n<br />

• Parameter α, β: α bezeichnet den Achsenabschnitt, β <strong>die</strong> Steigung.<br />

• Fehlerterme ɛ i . (Annahme: Unsystematische Schwankung um 0.)<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 15<br />

• Bestimmung der Paramter der Ausgleichsgeraden durch <strong>die</strong> Kleinste-<br />

Quadrate-Methode:<br />

ˆα = ȳ − ˆβ¯x,<br />

n∑<br />

(x i − ¯x)(y i − ȳ)<br />

ˆβ =<br />

i=1<br />

n∑<br />

= ˜s XY<br />

(x i − ¯x) 2 ˜s 2 X<br />

i=1<br />

• als Lösung der Normalgleichungen:<br />

ˆα n + ˆβ<br />

n∑<br />

x i =<br />

n∑<br />

ˆα x i + ˆβ<br />

i=1<br />

i=1 i=1<br />

n∑<br />

x 2 i =<br />

n∑<br />

i=1<br />

y i<br />

n∑<br />

x i y i<br />

i=1<br />

• Angepaÿte Werte: ŷ i = ˆα + ˆβx i , i = 1, . . . , n.<br />

• Residuen: ˆɛ i = y i − ŷ i , i = 1, . . . , n.<br />

n∑<br />

• Streuungszerlegung:<br />

(y i − ŷ i ) 2<br />

∑<br />

(y i − ȳ) 2 = n ∑<br />

(ŷ i − ȳ) 2 + n<br />

n∑<br />

(y i − ȳ) 2 i=1<br />

i=1<br />

i=1<br />

Gesamtstreuung<br />

i=1<br />

n∑<br />

(ŷ i − ȳ) 2 = ˆβ ∑<br />

2 n (x i − ¯x) 2 Durch Regression erklärte Streuung<br />

i=1<br />

i=1<br />

n∑<br />

(y i − ŷ i ) 2 Residualstreuung<br />

i=1<br />

• Bestimmtheitsmaÿ (Determinationskoezient):<br />

R 2 =<br />

n∑<br />

(ŷ i − ȳ) 2<br />

i=1<br />

n∑<br />

= 1 −<br />

(y i − ȳ) 2<br />

i=1<br />

n∑<br />

(y i − ŷ i ) 2<br />

i=1<br />

n∑<br />

=<br />

(y i − ȳ) 2<br />

i=1<br />

(<br />

˜sXY<br />

˜s X ˜s Y<br />

) 2<br />

= r 2 XY<br />

• Prognose an einer Stelle x 0 : ŷ 0 = ˆα + ˆβx 0<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 16<br />

4 Zeitreihenanalyse<br />

Gegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merkmals<br />

X: x 1 , x 2 , . . . , x n<br />

Graphische Darstellung<br />

• Zeitreihenpolygon: Darstellung der Werte {x t } 1≤t≤n in Abhängigkeit<br />

von t mit anschlieÿender linearer Interpolation.<br />

• Alternativ: Darstellung von x t in Abhängigkeit vom Datum der t-ten<br />

Messung mit anschlieÿender linearer Interpolation.<br />

Komponentenmodelle<br />

• Additives Komponentenmodell:<br />

Modellierung der Zeitreihe als: x t =<br />

g t<br />

}{{}<br />

Trend<br />

+ s t }{{}<br />

Saison<br />

• Multiplikatives Komponentenmodell:<br />

Modellierung der Zeitreihe als: x t = g t · s t · z t .<br />

+ z t }{{}<br />

Durch Logarithmieren kann ein multiplikatives Modell auf ein additives<br />

Komponentenmodell zurückgeführt werden: ln x }{{} t = ln g t + ln s }{{} t + ln z }{{} }{{} t<br />

x ⋆ t gt<br />

⋆ s ⋆ t zt<br />

⋆<br />

Schätzung eines linearen Trends<br />

• Modell: g t = β 0 + β 1 · t<br />

• Schätzung der Parameter durch <strong>die</strong> KQ-Methode:<br />

Rest<br />

ˆβ 0 und ˆβ1 minimieren<br />

• Lösungen: (für t = 1, 2, . . . , n)<br />

ˆβ 1 =<br />

∑<br />

12 n x t · t<br />

t=1<br />

n(n 2 − 1) −<br />

6¯x<br />

n − 1<br />

n∑<br />

(x t − β 0 − β 1 · t) 2<br />

t=1<br />

und ˆβ0 = ¯x − ˆβ 1<br />

n + 1<br />

2<br />

• Geschätzte Trendfunktion: ĝ t = ˆβ 0 + ˆβ 1 · t<br />

• Trendbereinigte Zeitreihe: x t − ĝ t<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 17<br />

• Bestimmtheitsmaÿ:<br />

R 2 =<br />

∑ n<br />

t=1 (ĝ t − ¯x) 2<br />

∑ n<br />

t=1 (x t − ¯x) 2 = ˆβ2 1 n(n 2 − 1)<br />

12 ∑ n<br />

t=1 (x t − ¯x) 2<br />

• Exponentieller Trend:<br />

Durch Logarithmieren kann ein exponentielles Trendmodell der Form:<br />

g t = β 0 · β t 1 in ein lineares Trendmodell überführt werden.<br />

Schätzung einer konstanten Saisongur<br />

• Gegebene Periodizität: l<br />

Für j = 1, . . . , l sind x j , x l+j , x 2l+j , x 3l+j , . . . jeweils <strong>die</strong> Beobachtungen<br />

zur j-ten Periode (Quartal, Monat, o.ä.)<br />

• Annahme: (Konstante Saisongur)<br />

Für jedes j = 1, . . . , l gilt: s j = s l+j = s 2l+j = s 3l+j = · · ·<br />

• Schätzung der s j : Arithmetische Mittel ŝ j = 1 m∑<br />

j −1<br />

m j<br />

(x kl+j − ĝ kl+j )<br />

k=0<br />

(Bemerkung: Falls n = m · l, dann m j = m für alle j)<br />

• Geschätzte Saisonkomponente: ŝ t = ŝ j falls t = j, l + j, 2l + j, 3l + j, . . .<br />

• Prognose (von x n+h , h ≥ 1):<br />

ˆx n+h = ĝ n+h + ŝ n+h (additiv) bzw. ˆx n+h = ĝ n+h · ŝ n+h (multiplikativ)<br />

5 Indexzahlen<br />

Klassikation der Verhältniszahlen<br />

• Gliederungszahl<br />

• Beziehungszahl<br />

• Meÿzahl (einfache/zusammengesetzte Indexzahl)<br />

Preis-, Mengen und Wertindizes<br />

Bezeichnungen<br />

• Bezeichnungen (Warenkorb mit m Gütern.)<br />

q 0i , p 0i : Menge und Preis des i-ten Gutes in der Basisperiode 0<br />

q ti , p ti : Menge und Preis des i-ten Gutes in der Berichtsperiode t<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 18<br />

• Preisindex nach Laspeyres: P L 0t =<br />

m∑<br />

i=1<br />

m∑<br />

i=1<br />

p ti q 0i<br />

p 0i q 0i<br />

• Preisindex nach Paasche: P P 0t =<br />

m∑<br />

i=1<br />

m∑<br />

i=1<br />

p ti q ti<br />

p 0i q ti<br />

• Mengenindex nach Laspeyres: Q L 0t =<br />

m∑<br />

i=1<br />

m∑<br />

i=1<br />

p 0i q ti<br />

p 0i q 0i<br />

• Mengenindex nach Paasche: Q P 0t =<br />

m∑<br />

i=1<br />

m∑<br />

i=1<br />

p ti q ti<br />

p ti q 0i<br />

• Wertindex: (auch: Umsatz- oder Ausgabenindex) W 0t =<br />

m∑<br />

i=1<br />

m∑<br />

i=1<br />

q ti p ti<br />

q 0i p 0i<br />

• Preisindex nach Fisher: P F 0t = √ P P 0tP L 0t<br />

Indexumrechnungen<br />

• Umbasierung:<br />

Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Basisperiode<br />

0): I 00 = 1, I 01 , I 02 , . . . , I 0k , . . . , I 0n<br />

I ⋆ kt = I 0t/I 0k ergibt <strong>die</strong> auf <strong>die</strong> neue Basisperiode k umbasierte Zeitreihe.<br />

• Verknüpfung:<br />

Gegeben seien zwei Zeitreihen von Indexzahlen, <strong>die</strong> sich in einer Periode<br />

(hier in t) überlappen: I 01 , I 02 , . . . , I 0t und I kt , I k,t+1 , . . .<br />

Fortführung der alten Zeitreihe:<br />

I ⋆ 0,t+h = I k,t+h · I0t<br />

I kt<br />

, h = 1, 2, . . .<br />

Rückrechnung der neuen Zeitreihe:<br />

I ⋆ k,t−h = I 0,t−h · Ikt<br />

I 0t<br />

, h = 1, 2, . . .<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 19<br />

• Verkettung:<br />

Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperiode<br />

als Basis: I 01 , I 12 , I 23 , I 34 , . . .<br />

I ⋆ 0t = I 01 · I 12 · · · I t−1,t bezeichnet <strong>die</strong> verkettete Zeitreihe mit gemeinsamer<br />

Basis 0.<br />

• Deationierung oder Preisbereinigung: Division einer nominalen<br />

Gröÿe V t durch einen sachlich zugehörigen Preisindex P 0t ergibt <strong>die</strong><br />

reale (preisbereinigte) Gröÿe R t = V t /P 0t .<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 20<br />

6 Wahrscheinlichkeitsrechnung<br />

Kombinatorik<br />

Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:<br />

Reihenfolge wichtig<br />

Sortieren nicht erlaubt<br />

ohne Zurücklegen N · (N − 1) · · · (N − (n − 1))<br />

Reihenfolge nicht wichtig<br />

Sortieren erlaubt<br />

( N<br />

n<br />

)<br />

( )<br />

n + N − 1<br />

mit Zurücklegen N n =<br />

n<br />

( )<br />

n + N − 1<br />

N − 1<br />

Binomialkoezienten<br />

• Denition:<br />

( n<br />

=<br />

k)<br />

n · (n − 1) · · · (n − (k − 1))<br />

k · (k − 1) · · · 1<br />

=<br />

n!<br />

k!(n − k)!<br />

• Rechenregeln:<br />

( ( n n<br />

= = 1<br />

0)<br />

n)<br />

( n<br />

=<br />

k)<br />

( ( )<br />

n<br />

n<br />

=<br />

n − k)<br />

k<br />

( ( )<br />

n n<br />

= = n<br />

1)<br />

n − 1<br />

( ) n − 1<br />

+<br />

k<br />

( ) n − 1<br />

k − 1<br />

Rechenregeln für Mengen<br />

• Kommutativgesetz:<br />

A ∩ B = B ∩ A<br />

A ∪ B = B ∪ A<br />

• Distributivgesetz:<br />

(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)<br />

(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)<br />

• Aus A ⊂ B folgt ¯B ⊂ Ā<br />

• Assoziativgesetz:<br />

(A ∩ B) ∩ C = A ∩ (B ∩ C)<br />

(A ∪ B) ∪ C = A ∪ (B ∪ C)<br />

• De Morgansche Regeln:<br />

(A ∪ B) = Ā ∩ ¯B<br />

(A ∩ B) = Ā ∪ ¯B<br />

• Für <strong>die</strong> Dierenzmenge A\B<br />

gilt: A\B = A ∩ ¯B<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 21<br />

Wahrscheinlichkeiten und Axiome von Kolmogoro<br />

• Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P )<br />

- Grundraum Ω = {ω 1 , ω 2 , . . . ω N }<br />

- Ereignisse P(Ω) = Menge aller Teilmengen A ⊂ Ω<br />

- Wahrscheinlichkeit P P (A) = Wahrscheinlichkeit für das Eintreten<br />

von A<br />

Die Wahrscheinlichkeitsverteilung P erfüllt <strong>die</strong> Axiome von Kolmogoro:<br />

(A1) (Nichtnegativität) P (A) ≥ 0<br />

(A2) (Normiertheit) P (Ω) = 1<br />

(A3) (Additivität) P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅<br />

• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt<br />

durch das Axiom<br />

∞⋃ ∞∑<br />

(A3') (σ−Additivität) P ( A k ) = P (A k ) für A i ∩A j = ∅, i ≠ j<br />

k=1<br />

k=1<br />

Rechenregeln für Wahrscheinlichkeiten<br />

1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1<br />

2. A ⊆ B ⇒ P (A) ≤ P (B)<br />

3. P (Ā) = 1 − P (A) mit Ā = Ω\A<br />

4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)<br />

5. P (A 1 ∪ A 2 ∪ · · · ∪ A n ) = P (A 1 ) + P (A 2 ) + · · · + P (A n ),<br />

falls A 1 , A 2 , . . . , A n paarweise disjunkt, d.h. A i ∩ A j = ∅<br />

6. P (A 1 ∪ A 2 ∪ · · · A n ) ≤ P (A 1 ) + P (A 2 ) + · · · + P (A n )<br />

7. Wenn <strong>die</strong> Elementarwahrscheinlichkeiten p i = P ({ω i }), i = 1, 2, . . . bekannt<br />

sind,<br />

dann gilt für <strong>die</strong> Wahrscheinlichkeit eines Ereignisses A:<br />

P (A) = ∑<br />

P ({ω i }) = ∑<br />

i:ω i ∈A<br />

i:ω i ∈A<br />

p i<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 22<br />

Laplace-Modell<br />

1. Annahme: Endlicher Grundraum Ω = {ω 1 , . . . , ω N }<br />

2. Annahme: P ({ω 1 }) = P ({ω 2 }) = · · · = P ({ω N })<br />

Wahrscheinlichkeiten: P (A) = Anzahl ω i in A<br />

Anzahl ω i in Ω = #A<br />

#Ω = #A<br />

N<br />

Bedingte Wahrscheinlichkeit<br />

Bedingte Wahrscheinlichkeit von A gegeben B<br />

P (A|B) =<br />

P (A ∩ B)<br />

P (B)<br />

für A, B ⊂ Ω mit P (B) > 0<br />

Unabhängigkeit von Ereignissen<br />

• Zwei Ereignisse A und B heiÿen stochastisch unabhängig, wenn<br />

P (A ∩ B) = P (A) · P (B)<br />

• Ereignisse A 1 , . . . , A n heiÿen stochastisch unabhängig, wenn für jede Auswahl<br />

A i1 , . . . , A ik mit k ≤ n gilt:<br />

P (A i1 ∩ . . . ∩ A ik ) = P (A i1 ) · P (A i2 ) · · · P (A ik )<br />

Multiplikationssatz<br />

• Für Ereignisse A 1 , . . . , A n gilt:<br />

P (A 1 ∩. . .∩A n ) = P (A 1 )·P (A 2 |A 1 )·P (A 3 |A 1 ∩A 2 ) · · · P (A n |A 1 ∩. . .∩A n−1 )<br />

• Falls <strong>die</strong> Ereignisse A 1 , . . . , A n unabhängig sind, gilt:<br />

P (A 1 ∩ A 2 ∩ . . . ∩ A n ) = P (A 1 ) · P (A 2 ) · · · P (A n )<br />

Totale Wahrscheinlichkeit und Satz von Bayes<br />

Seien A 1 , . . . , A n Ereignisse, <strong>die</strong> eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte<br />

Vereinigung der A i ; es gilt: A i ≠ ∅, A i ∩A j = ∅, i ≠ j, und A 1 ∪A 2 ∪. . .∪A n = Ω).<br />

<strong>Statistik</strong>_A@statistik.uni-bonn


<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 23<br />

B sei ein Ereignis mit P (B) > 0.<br />

P (B|A k ) · P (A k ) = P (B ∩ A k ) = P (A k |B) · P (B)<br />

n∑<br />

n∑<br />

P (B) = P (B|A i ) · P (A i ) = P (B ∩ A i )<br />

i=1<br />

i=1<br />

(totale Wahrscheinlichkeit)<br />

P (A k |B) = P (B|A k) · P (A k )<br />

P (B)<br />

= P (B|A k) · P (A k )<br />

n∑<br />

P (B|A i ) · P (A i )<br />

i=1<br />

(Satz von Bayes)<br />

<strong>Statistik</strong>_A@statistik.uni-bonn

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!