Formelsammlung für die Vorlesung Statistik A - Universität Bonn
Formelsammlung für die Vorlesung Statistik A - Universität Bonn
Formelsammlung für die Vorlesung Statistik A - Universität Bonn
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Formelsammlung</strong><br />
für <strong>die</strong> <strong>Vorlesung</strong><br />
<strong>Statistik</strong> A<br />
Univ.-Prof. Dr. Kneip / Dr. Scheer<br />
Universität <strong>Bonn</strong><br />
Statistische Abteilung<br />
Wintersemester 2009/2010<br />
Inhaltsverzeichnis<br />
2 Univariate Deskription und Exploration von Daten 2<br />
3 Bivariate Deskription und Exploration von Daten 9<br />
4 Zeitreihenanalyse 16<br />
5 Indexzahlen 17<br />
6 Wahrscheinlichkeitsrechnung 20
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 2<br />
2 Univariate Deskription und Exploration von<br />
Daten<br />
Gegeben seien Daten x 1 , . . . , x n eines Merkmals X mit Ausprägungen a 1 , . . . , a k .<br />
Häugkeiten und ihre graphischen Darstellungen<br />
Formel/Notation<br />
Erläuterung<br />
Absolute Häugkeit h(a j ) = h j Anzahl der Werte mit x i = a j<br />
Relative Häugkeit f(a j ) = f j = h j<br />
Anteil der Werte mit x<br />
n<br />
i = a j<br />
Abs. Häugkeitsverteilung {h 1 , . . . , h k } Menge der abs. Häugkeiten<br />
Rel. Häugkeitsverteilung {f 1 , . . . , f k } Menge der rel. Häugkeiten<br />
Diagramm<br />
Strichliste<br />
Stabdiagramm<br />
Säulendiagramm<br />
Balkendiagramm<br />
Kreisdiagramm<br />
Histogramm<br />
Beschreibung<br />
Für jedes a k jeweils h k Striche<br />
Über a 1 , . . . , a k jeweils zur x-Achse senkrechter Strich<br />
mit Höhe h 1 , . . . , h k (oder f 1 , . . . , f k )<br />
wie Stabdiagramm, jedoch mit Rechtecken anstatt<br />
Strichen<br />
wie Säulendiagramm, jedoch mit a 1 , . . . , a k auf der y-<br />
Achse<br />
Kreissektoren mit Winkeln α j = f j · 360 ◦ , so daÿ Fläche<br />
proportional zu den Häugkeiten<br />
Über den Klassen [c 0 , c 1 ], . . . , (c k−1 , c k ] Rechtecke mit<br />
Breite δ j = c j − c j−1 und Höhe gleich (oder proportional<br />
zu) h j /δ j bzw. f j /δ j . Damit ist <strong>die</strong> Fläche der<br />
Rechtecke gleich (oder proportinal zu) h j bzw. f j .<br />
Kumulierte Häugkeitsverteilungen<br />
Absolute kumulierte<br />
Häugkeitsverteilung<br />
Empirische Verteilungsfunktion<br />
(relative kumulierte<br />
Häugkeitsverteilung)<br />
Formel/Notation<br />
H(x) =<br />
∑ h(a i )<br />
i:a i ≤x<br />
F (x) = H(x)<br />
n<br />
= ∑<br />
i:a i ≤x<br />
f(a i )<br />
Erläuterung<br />
Anzahl der Werte x i<br />
mit x i ≤ x<br />
Anteil der Werte x i mit<br />
x i ≤ x<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 3<br />
Lagemaÿe<br />
Lagemaÿ Formel Erläuterung<br />
Arithmetisches<br />
n∑<br />
¯x =<br />
Mittel<br />
1 Empirischer Mittelwert der Beobachtungen<br />
x<br />
n i<br />
i=1<br />
∑<br />
¯x = k k∑<br />
f j a j = 1 h<br />
h<br />
n j a j = h(a j ) abs. Häugkeiten<br />
j<br />
j=1<br />
j=1<br />
f j = f(a j ) rel. Häugkeiten<br />
Für ungerades n:<br />
x med = x (<br />
n+1<br />
Median<br />
Modus<br />
Geometrisches<br />
Mittel<br />
Harmonisches<br />
Mittel<br />
2 )<br />
Für gerades ( n: )<br />
x med = 1 x(n/2) + x<br />
2<br />
(n/2+1)<br />
x mod = a i ,<br />
mit f i = max j=1,···k f j<br />
¯x geo = n√ x 1 · x 2 · · · x n<br />
n∑<br />
bzw. ln(¯x geo ) = 1 ln(x<br />
n i )<br />
i=1<br />
x (1) ≤ . . . ≤ x (n) bezeichnet<br />
<strong>die</strong> aufsteigend sortierte Urliste<br />
x 1 , . . . , x n .<br />
Ausprägung mit gröÿter Häugkeit.<br />
Nur für positive x 1 , . . . , x n .<br />
∑<br />
bzw. ln(¯x geo ) = k f j ln(a j ) Häugkeitsdaten mit a j > 0<br />
¯x har = 1<br />
1<br />
n<br />
bzw.<br />
1<br />
¯x har<br />
bzw.<br />
1<br />
¯x har<br />
n∑<br />
i=1<br />
1<br />
x i<br />
n∑<br />
= 1 n<br />
i=1<br />
= k ∑<br />
j=1<br />
j=1<br />
Entweder alle x i > 0<br />
1<br />
oder alle x i < 0<br />
x i<br />
f j<br />
1<br />
aj<br />
Häugkeitsdaten und entweder<br />
alle a j > 0 oder alle a j < 0<br />
Lageregeln<br />
Verteilung<br />
symmetrisch<br />
linkssteil (rechtsschief)<br />
rechtssteil (linksschief)<br />
Lagemaÿe<br />
¯x ≈ x med ≈ x mod<br />
¯x > x med > x mod<br />
¯x < x med < x mod<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 4<br />
Streuungsmaÿe<br />
Streuungsmaÿ Formel Erläuterung<br />
Empirische Varianz<br />
n∑<br />
n∑<br />
˜s 2 = 1 (x<br />
n i − ¯x) 2 = 1 x 2 n i − ¯x 2 ¯x emp. Mittelwert<br />
Empirische Standardabweichung<br />
i=1<br />
i=1<br />
∑<br />
˜s 2 = k ∑<br />
f j (a j − ¯x) 2 = k f j a 2 j − ¯x 2<br />
j=1<br />
Stichprobenvarianz s 2 = 1<br />
n−1<br />
j=1<br />
Für Häugkeitsdaten<br />
˜s = √˜s Quadratwurzel aus emp.<br />
2<br />
Varianz<br />
n∑<br />
(x i − ¯x) 2 Division durch n − 1<br />
i=1<br />
Sinnvoll für<br />
Variationskoezient v = ˜s/¯x<br />
Beobachtungen x i > 0<br />
x<br />
Spannweite R = max i x i − min i x i = x (n) − x (1) ≤ . . . ≤ x (n) , geordnete<br />
(1)<br />
Urliste<br />
x<br />
Interquartilsabstand QA = x 0.75 − x 0.25 , x 0.75 unteres bzw. oberes<br />
0.25<br />
Quartil<br />
Bemerkung: Die Formel für <strong>die</strong> empirische Varianz wird oft auch in der<br />
n∑<br />
Form ˜s 2 = x 2 − ¯x 2 , wobei x 2 = 1 x 2 n i der Mittelwert der quadrierten Daten<br />
ist, geschrieben.<br />
i=1<br />
Schichtung und Streuungszerlegung<br />
Eine Erhebungseinheit E vom Umfang n sei zerlegt in r Schichten (oder Teilgesamtheiten)<br />
E 1 , . . . , E r , jeweils vom Umfang n j , ∑ r<br />
j=1 n j = n, mit Mittel<br />
¯x j und Varianz ˜s 2 j. Dann gilt<br />
• Gesamtmittel in E:<br />
• Varianz in E:<br />
¯x = 1 n<br />
r∑<br />
n j ¯x j<br />
j=1<br />
˜s 2 1<br />
r∑<br />
= n j˜s 2 j + 1 r∑<br />
n j (¯x j − ¯x) 2<br />
n<br />
n<br />
j=1<br />
j=1<br />
} {{ } } {{ }<br />
Streuung innerhalb Streuung zwischen<br />
der Schichten den Schichten<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 5<br />
Quantile und Boxplot<br />
Quantile<br />
Für 0 < p < 1 heiÿt jeder Wert x p , für den<br />
Anzahl(x i : x i ≤ x p )<br />
Anzahl(x<br />
≥ p und<br />
i : x i ≥ x p )<br />
n<br />
n<br />
gilt, p-Quantil. Damit gilt für das p-Quantil:<br />
Bemerkungen:<br />
x p = x (⌊np⌋+1) , wenn np nicht ganzzahlig<br />
x p ∈ [ x (np) , x (np+1)<br />
]<br />
, wenn np ganzzahlig<br />
• Spezielle Bezeichnungen:<br />
x 0.5 Median<br />
x 0.25 , x 0.75 Unteres bzw. Oberes Quartil<br />
x 0.1 , . . . , x 0.9 Dezile<br />
≥ 1 − p<br />
• Analog zum Median kann man für ganzzahliges ( np) ein p-Quantil auch<br />
eindeutig als den Mittelwert x p = 1 x(np) + x<br />
2<br />
(np+1) denieren.<br />
• In <strong>Statistik</strong>programmen werden empirische p-Quantile gewöhnlich durch<br />
lineare Näherung aus der empirischen Verteilungsfunktion gewonnen.<br />
Graphische Darstellung<br />
• 5-Punkte Zusammenfassung einer Verteilung:<br />
Angabe von x min , x 0.25 , x med , x 0.75 , x max .<br />
• Boxplot:<br />
1. x 0.25 = Anfang der Box<br />
2. x 0.75 = Ende der Box<br />
3. x med durch senkr. Strich in der Box markieren<br />
4. Berechnung der Zäune z u = x 0.25 − 1.5 QA und z o = x 0.75 +<br />
1.5 QA<br />
5. Zwei Linien (whiskers) gehen von der Box aus zum kleinsten und<br />
gröÿten Beobachtungswert innerhalb des Bereichs [z u , z o ] der Zäune.<br />
(Üblicherweise werden <strong>die</strong> Endpunkte durch senkrechte Striche<br />
markiert.)<br />
6. Beobachtungen auÿerhalb der Zäune z u , z o werden einzeln markiert.<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 6<br />
Gruppierte Daten<br />
Lagemaÿe<br />
Arithm. Mittel<br />
Median<br />
Formel<br />
Erläuterung<br />
∑<br />
¯x = k f j¯c j<br />
¯c j Mitte der Klasse (c j−1 , c j ]<br />
f j rel. Häugkeit<br />
j=1<br />
x med = c i−1 + δ i<br />
0.5−F i−1<br />
f i<br />
F i−1 = ∑ i−1<br />
j=1 f j (emp. Vert.),<br />
(c i−1 , c i ] Einfallsklasse des Medians,<br />
d.h. F i−1 ≤ 0.5 < F i<br />
δ i = c i − c i−1 Breite der i-ten Klasse<br />
Modus x mod = ¯c i ¯c i Mitte der Modalklasse<br />
Geom. Mittel<br />
k∑<br />
ln(¯x geo ) = 1 f<br />
n j ln(¯c j ) Alle ¯c j > 0<br />
Harm. Mittel<br />
1<br />
¯x har<br />
Streuungsmaÿe<br />
Empirische Varianz<br />
Empirische Varianz<br />
mit Sheppard-Korrektur<br />
k∑<br />
= 1 n<br />
j=1<br />
j=1<br />
Formel<br />
f j<br />
¯c j<br />
Entweder alle ¯c j > 0 oder alle ¯c j < 0<br />
∑<br />
˜s 2 = k ∑<br />
f j (¯c j − ¯x) 2 = k f j¯c 2 j − ¯x 2<br />
j=1<br />
˜s 2 = k ∑<br />
j=1<br />
j=1<br />
f j (¯c j − ¯x) 2 − δ2<br />
12<br />
Erläuterung<br />
¯x emp. Mittelwert,<br />
f j rel. Häugkeit,<br />
¯c j Klassenmitte<br />
Nur für konstante Klassenbreiten<br />
δ = c j − c j−1<br />
c 0 Untergrenze der untersten<br />
Klasse<br />
Spannweite R = c k − c 0<br />
c k Obergrenze der obersten<br />
Klasse<br />
x 0.25 , x 0.75 unteres bzw.<br />
Interquartilsabstand QA = x 0.75 − x 0.25 oberes Quartil (für gruppierte<br />
Daten)<br />
p-Quantil für gruppierte Daten<br />
Analog zum Median für gruppierte Daten wird ein p-Quantil (0 < p < 1)<br />
deniert durch<br />
x p = c i−1 + δ i<br />
p − F i−1<br />
f i<br />
,<br />
wobei der Index i so bestimmt wird, daÿ ∑ i−1<br />
j=1 f j ≤ p < ∑ i<br />
j=1 f j.<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 7<br />
Maÿzahlen für Schiefe<br />
Empirische Momente<br />
Empirische Momente<br />
Empirische zentrale<br />
Momente<br />
Formel<br />
M r = 1 n<br />
m r = 1 n<br />
Erläuterung<br />
n∑<br />
x r i r = 1, 2, . . . M 1 = Arithmetisches Mittel<br />
n∑<br />
(x i − ¯x) r r = 2, 3, . . . m 2 = Empirische Varianz<br />
i=1<br />
i=1<br />
Maÿzahlen für Schiefe (Skewness)<br />
Schiefemaÿ Formel Erläuterung<br />
Momentenkoezient<br />
n∑<br />
m 3 emp. 3tes zentrales Moment,<br />
g<br />
der Schiefe<br />
m = m 3<br />
mit m<br />
s 3 3 = 1 (x<br />
n i − ¯x) 3<br />
i=1<br />
s emp. Standardabw.<br />
Quantilskoezient<br />
g<br />
der Schiefe<br />
p = (x 1−p−x med )−(x med −x p) Für p = 0.25 ergibt sich<br />
x 1−p −x p<br />
der Quartilskoezient<br />
Konzentrationsmaÿe<br />
Lorenzkurve und Gini-Koezient<br />
Die Lorenzkurve ist der Streckenzug durch <strong>die</strong> Punkte (0, 0), (u 1 , v 1 ), . . . , (u κ , v κ ) =<br />
(1, 1), wobei für <strong>die</strong> Punkte (u j , v j ) gilt:<br />
• Bei geordneter Urliste x 1 ≤ . . . ≤ x n :<br />
u j = j n<br />
v j =<br />
∑ j<br />
i=1 x i<br />
∑ n<br />
i=1 x i<br />
für j = 1, . . . , n<br />
• Bei Häugkeitsdaten {(a i , f i )} 1≤i≤k (aufsteigend geordnet):<br />
u j =<br />
j∑<br />
f i v j =<br />
i=1<br />
∑ j<br />
i=1 f ia i<br />
∑ k<br />
i=1 f ia i<br />
für j = 1, . . . , k<br />
• Bei gruppierten Daten mit Klassen [c 0 , c 1 ], . . . , (c k−1 , c k ] und Klassenmittelpunkten<br />
¯c i :<br />
u j =<br />
j∑<br />
f i v j =<br />
i=1<br />
∑ j<br />
i=1 f i¯c i<br />
∑ k<br />
i=1 f i¯c i<br />
für j = 1, . . . , k<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 8<br />
Gini-Koezient<br />
Fläche zw. Diagonale u. Lorenzkurve<br />
G = = 2·Fläche zw. Diagonale u. Lorenzkurve<br />
Fläche zw. Diagonale und u-Achse<br />
Damit ergibt sich für den Gini-Koezienten<br />
• Bei geordneter Urliste x 1 ≤ . . . ≤ x n :<br />
G =<br />
∑<br />
2 n ix i<br />
i=1<br />
n n ∑<br />
i=1<br />
− n + 1<br />
n<br />
x i<br />
= n + 1<br />
n − 2 · 1<br />
n<br />
• Bei Häugkeitsdaten {(a i , f i )} 1≤i≤k (aufsteigend geordnet):<br />
n∑<br />
j=1<br />
v j<br />
G =<br />
∑ k<br />
i=1 (u i−1 + u i )f i a i<br />
∑ k<br />
i=1 f ia i<br />
− 1 = 1 − 2 ·<br />
k∑<br />
j=1<br />
f j¯v j , mit ¯v j = v j−1 + v j<br />
2<br />
• Bei gruppierten Daten mit Klassen [c 0 , c 1 ], . . . , (c k−1 , c k ] und Klassenmittelpunkten<br />
¯c i :<br />
G =<br />
∑ k<br />
i=1 (u i−1 + u i )f i¯c i<br />
∑ k<br />
i=1 f i¯c i<br />
− 1 = 1 − 2 ·<br />
k∑<br />
j=1<br />
f j¯v j , mit ¯v j = v j−1 + v j<br />
2<br />
Normierter Gini-Koezient (Lorenz-Münzner-Koezient)<br />
G ⋆ =<br />
G<br />
G max<br />
=<br />
Absolute Konzentrationsmaÿe<br />
n<br />
n − 1 G mit dem Wertebereich: G⋆ ∈ [0, 1]<br />
Ausgangspunkt ist eine geordnete Urliste x 1 ≤ . . . ≤ x n .<br />
• Merkmalsanteil der i-ten Einheit: p i =<br />
x i<br />
n∑<br />
x j<br />
j=1<br />
• Konzentrationsrate der g gröÿten Merkmalsträger: CR g =<br />
∑<br />
• Herndahl-Index: H = n p 2 i ; Wertebereich: H ∈ [ 1 , 1] n<br />
i=1<br />
n∑<br />
p i<br />
i=n−g+1<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 9<br />
3 Bivariate Deskription und Exploration von<br />
Daten<br />
Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungen<br />
a 1 , . . . , a k für X und b 1 , . . . , b m für Y .<br />
Die Urliste enthält für jedes Objekt <strong>die</strong> gemeinsamen Messwerte (x 1 , y 1 ), . . . , (x n , y n ).<br />
Kontingenztabelle der absoluten Häugkeiten<br />
Eine (k × m)Kontingenztabelle der absoluten Häugkeiten besitzt <strong>die</strong> Form<br />
XY b 1 b 2 · · · b m<br />
a 1 h 11 h 12 . . . h 1m h 1•<br />
a 2<br />
.<br />
h 21<br />
.<br />
h 22<br />
.<br />
. . . h 2m<br />
.<br />
h 2•<br />
.<br />
a k h k1 h k2 . . . h km h k•<br />
h •1 h •2 · · · h •m n<br />
und gibt <strong>die</strong> gemeinsame Verteilung der Merkmale X und Y in absoluten<br />
Häugkeiten wieder.<br />
Bezeichnungen<br />
Absolute Häugkeit der Kombination<br />
(a i , b j )<br />
h ij = h(a i , b j )<br />
Zeilensummen h i• = h i1 + · · · + h im , 1 ≤ i ≤ k<br />
Spaltensummen h •j = h 1j + · · · + h kj , 1 ≤ j ≤ m<br />
∑<br />
Gesamtsumme<br />
h • • = k m∑ ∑<br />
h ij = k ∑<br />
h i• = m h •j = n<br />
Randhäugkeiten<br />
des Merkmals X<br />
Randhäugkeiten<br />
des Merkmals Y<br />
i=1 j=1<br />
h 1• , . . . , h k•<br />
h •1 , . . . , h •m<br />
i=1<br />
j=1<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 10<br />
Kontingenztabelle der relativen Häugkeiten<br />
Eine (k × m)-Kontingenztabelle der relativen Häugkeiten besitzt <strong>die</strong> Form<br />
XY b 1 b 2 · · · b m<br />
a 1 f 11 f 12 . . . f 1m f 1•<br />
a 2<br />
.<br />
f 21<br />
.<br />
f 22<br />
.<br />
. . . f 2m<br />
.<br />
f 2•<br />
.<br />
a k f k1 f k2 . . . f km f k•<br />
f •1 f •2 · · · f •m 1<br />
und gibt <strong>die</strong> gemeinsame Verteilung der Merkmale X und Y wieder.<br />
Relative Häugkeit der Kombination<br />
(a i , b j )<br />
Zeilensummen<br />
Spaltensummen<br />
Gesamtsumme<br />
Bezeichnungen<br />
f ij = h ij<br />
n<br />
f i• = f i1 + · · · + f im = h i•<br />
, 1 ≤ i ≤ k<br />
n<br />
f •j = f 1j + · · · + f kj = h •j<br />
, 1 ≤ j ≤ m<br />
n<br />
k∑ m∑ ∑<br />
f ij = k ∑<br />
f i• = m f •j = 1<br />
i=1 j=1<br />
i=1<br />
Randverteilung des Merkmals X {f 1• , . . . , f k• }<br />
Randverteilung des Merkmals Y {f •1 , . . . , f •m }<br />
Bedingte Häugkeitsverteilung<br />
von X unter der Bedingung<br />
Y = b j , kurz X|Y = b j<br />
Bedingte Häugkeitsverteilung<br />
von Y unter der Bedingung<br />
X = a i , kurz Y |X = a i<br />
j=1<br />
f X (a 1 |Y = b j ) = f 1j<br />
f •j , . . . , f X(a k |Y = b j ) = f kj<br />
f •j<br />
f Y (b 1 |X = a i ) = f i1<br />
f i• , . . . , f Y (b m |X = a i ) = f im<br />
f<br />
i•<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 11<br />
Graphische Darstellung quantitativer Merkmale<br />
Streudiagramm (Scatter plot)<br />
• Darstellung der Meÿwerte (x 1 , y 1 ), . . . , (x n , y n ) im xy-Koordinatensystem.<br />
Zweidimensionales Histogramm<br />
• Intervalle [c 0 , c 1 ], . . . , (c k−1 , c k ] für Merkmal X.<br />
• Intervalle [d 0 , d 1 ], . . . , (d m−1 , d m ] für Merkmal Y .<br />
• Quader mit den Rechtecken (c i−1 , c i ] × (d j−1 , d j ] als Grundäche und<br />
Höhe<br />
h ij<br />
(c i − c i−1 ) · (d j − d j−1 )<br />
bzw.<br />
f ij<br />
(c i − c i−1 ) · (d j − d j−1 )<br />
Odds und Kreuzproduktverhältnis<br />
Ausgangspunkt ist eine (k×m)-Kontingenztabelle der relativen Häugkeiten.<br />
• (Empirische) bedingte Chance (Odds) zwischen Y = b r und Y = b s<br />
für gegebenes X = a i ist:<br />
γ(b r , b s |X = a i ) = h ir<br />
h is<br />
• Das Kreuzproduktverhältnis (Odds ratio) zwischen X = a i und X =<br />
a j in bezug auf <strong>die</strong> Chancen von Y = b r zu Y = b s ist:<br />
γ(b r , b s |X = a i , X = a j ) = h ir/h is<br />
h jr /h js<br />
= h irh js<br />
h jr h is<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 12<br />
Kontingenz und χ 2 Koezient<br />
Formel<br />
Wertebereich/Erläuterung<br />
χ 2 -Koezient<br />
χ 2 =<br />
k∑<br />
i=1<br />
(<br />
m∑ h ij − h i•h •j<br />
n<br />
j=1<br />
h i• h •j<br />
n<br />
) 2<br />
Es gilt: 0 ≤ χ 2 ≤ n · (min(k, m) − 1)<br />
˜h ij = h i•h •j<br />
= erwartete Häugkeiten,<br />
n<br />
wenn kein Zusammenhang vorliegt.<br />
Kontingenzkoezient<br />
Korrigierter<br />
Kontingenzkoezient<br />
K =<br />
√<br />
K ⋆ =<br />
χ 2<br />
K ∈ [0, K max ], wobei K max =<br />
n + χ 2 M = min(k, m).<br />
K<br />
K max<br />
K ⋆ ∈ [0, 1]<br />
√<br />
M−1<br />
M ,<br />
√<br />
Assoziationsmaÿ<br />
χ<br />
von Cramér V =<br />
2<br />
n(min(k, m) − 1)<br />
V ∈ [0, 1]<br />
V = |φ-Koezient| für 2 × 2-Tafeln<br />
Spezialfall: Vierfeldertafel<br />
Für eine (2 × 2)Kontingenztafel der Form<br />
h 11 h 12 h 11 + h 12<br />
h 21 h 22 h 21 + h 22<br />
h 11 + h 21 h 12 + h 22 n<br />
gilt<br />
χ 2 n(h 11 h 22 − h 12 h 21 ) 2<br />
=<br />
(h 11 + h 12 )(h 11 + h 21 )(h 12 + h 22 )(h 21 + h 22 )<br />
und der φ-Koezient ist deniert als<br />
φ =<br />
h 11 h 22 − h 12 h 21<br />
√<br />
(h11 + h 12 )(h 11 + h 21 )(h 12 + h 22 )(h 21 + h 22 )<br />
und hat den Wertebereich φ ∈ [−1, 1].<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 13<br />
Zusammenhangsmaÿe bei metrischen Merkmalen<br />
Empirischer Korrelationskoezient nach Bravais-Pearson<br />
• Empirische Standardabweichungen (für X bzw. Y ): ˜s X , ˜s Y<br />
˜s 2 X = 1 n∑<br />
x 2 i − ¯x 2 und ˜s 2 Y = 1 n<br />
n<br />
i=1<br />
• Empirische Kovarianz (zwischen X und Y ):<br />
n∑<br />
yi 2 − ȳ 2<br />
i=1<br />
˜s XY = 1 n<br />
n∑<br />
(x i − ¯x)(y i − ȳ) = 1 n<br />
i=1<br />
n∑<br />
x i y i − ¯x · ȳ<br />
i=1<br />
• Empirischer Korrelationskoezient :<br />
• Wertebereich: r ∈ [−1, 1].<br />
r = r XY = ˜s XY<br />
˜s X ˜s Y<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 14<br />
Spearmans Korrelationskoezient<br />
• Rang von x i : rang(x i ) = Position des i-ten Messwertes in der aufsteigend<br />
sortierten Urliste x (1) ≤ x (2) ≤ . . . ≤ x (n) mit der Zusatzregel,<br />
dass gleichen Messwerten (sog. Bindungen, ties) jeweils das Mittel<br />
ihrer Ränge zugewiesen wird.<br />
• Mittel aller Ränge: rang X = 1 n<br />
n∑<br />
rang(x i ) = 1 n<br />
i=1<br />
• Spearmans Korrelationskoezient :<br />
r SP =<br />
n∑<br />
i=1<br />
i = n+1<br />
2<br />
n∑<br />
(rang(x i ) − rang X )(rang(y i ) − rang Y )<br />
i=1<br />
√<br />
∑ n ∑<br />
(rang(x i ) − rang X ) 2<br />
n (rang(y i ) − rang Y ) 2<br />
i=1<br />
• Wertebereich: r SP ∈ [−1, 1]<br />
• Rechentechnisch günstige Version:<br />
Unter der Voraussetzung, dass keine Bindungen (ties) auftreten<br />
(d.h., x i ≠ x j , y i ≠ y j für alle i, j), gilt:<br />
i=1<br />
∑<br />
6 n Di<br />
2<br />
i=1<br />
r SP = 1 −<br />
n(n 2 − 1)<br />
mit den Rang<strong>die</strong>renzen D i = rang(x i ) − rang(y i ), 1 ≤ i ≤ n.<br />
Lineare Einfachregression<br />
Gegeben seien n Beobachtungen der Merkmale Y und X: (y 1 , x 1 ), . . . , (y n , x n ).<br />
• Lineare Einfachregression:<br />
y i = α + βx i + ɛ i ,<br />
i = 1, . . . , n<br />
• Parameter α, β: α bezeichnet den Achsenabschnitt, β <strong>die</strong> Steigung.<br />
• Fehlerterme ɛ i . (Annahme: Unsystematische Schwankung um 0.)<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 15<br />
• Bestimmung der Paramter der Ausgleichsgeraden durch <strong>die</strong> Kleinste-<br />
Quadrate-Methode:<br />
ˆα = ȳ − ˆβ¯x,<br />
n∑<br />
(x i − ¯x)(y i − ȳ)<br />
ˆβ =<br />
i=1<br />
n∑<br />
= ˜s XY<br />
(x i − ¯x) 2 ˜s 2 X<br />
i=1<br />
• als Lösung der Normalgleichungen:<br />
ˆα n + ˆβ<br />
n∑<br />
x i =<br />
n∑<br />
ˆα x i + ˆβ<br />
i=1<br />
i=1 i=1<br />
n∑<br />
x 2 i =<br />
n∑<br />
i=1<br />
y i<br />
n∑<br />
x i y i<br />
i=1<br />
• Angepaÿte Werte: ŷ i = ˆα + ˆβx i , i = 1, . . . , n.<br />
• Residuen: ˆɛ i = y i − ŷ i , i = 1, . . . , n.<br />
n∑<br />
• Streuungszerlegung:<br />
(y i − ŷ i ) 2<br />
∑<br />
(y i − ȳ) 2 = n ∑<br />
(ŷ i − ȳ) 2 + n<br />
n∑<br />
(y i − ȳ) 2 i=1<br />
i=1<br />
i=1<br />
Gesamtstreuung<br />
i=1<br />
n∑<br />
(ŷ i − ȳ) 2 = ˆβ ∑<br />
2 n (x i − ¯x) 2 Durch Regression erklärte Streuung<br />
i=1<br />
i=1<br />
n∑<br />
(y i − ŷ i ) 2 Residualstreuung<br />
i=1<br />
• Bestimmtheitsmaÿ (Determinationskoezient):<br />
R 2 =<br />
n∑<br />
(ŷ i − ȳ) 2<br />
i=1<br />
n∑<br />
= 1 −<br />
(y i − ȳ) 2<br />
i=1<br />
n∑<br />
(y i − ŷ i ) 2<br />
i=1<br />
n∑<br />
=<br />
(y i − ȳ) 2<br />
i=1<br />
(<br />
˜sXY<br />
˜s X ˜s Y<br />
) 2<br />
= r 2 XY<br />
• Prognose an einer Stelle x 0 : ŷ 0 = ˆα + ˆβx 0<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 16<br />
4 Zeitreihenanalyse<br />
Gegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merkmals<br />
X: x 1 , x 2 , . . . , x n<br />
Graphische Darstellung<br />
• Zeitreihenpolygon: Darstellung der Werte {x t } 1≤t≤n in Abhängigkeit<br />
von t mit anschlieÿender linearer Interpolation.<br />
• Alternativ: Darstellung von x t in Abhängigkeit vom Datum der t-ten<br />
Messung mit anschlieÿender linearer Interpolation.<br />
Komponentenmodelle<br />
• Additives Komponentenmodell:<br />
Modellierung der Zeitreihe als: x t =<br />
g t<br />
}{{}<br />
Trend<br />
+ s t }{{}<br />
Saison<br />
• Multiplikatives Komponentenmodell:<br />
Modellierung der Zeitreihe als: x t = g t · s t · z t .<br />
+ z t }{{}<br />
Durch Logarithmieren kann ein multiplikatives Modell auf ein additives<br />
Komponentenmodell zurückgeführt werden: ln x }{{} t = ln g t + ln s }{{} t + ln z }{{} }{{} t<br />
x ⋆ t gt<br />
⋆ s ⋆ t zt<br />
⋆<br />
Schätzung eines linearen Trends<br />
• Modell: g t = β 0 + β 1 · t<br />
• Schätzung der Parameter durch <strong>die</strong> KQ-Methode:<br />
Rest<br />
ˆβ 0 und ˆβ1 minimieren<br />
• Lösungen: (für t = 1, 2, . . . , n)<br />
ˆβ 1 =<br />
∑<br />
12 n x t · t<br />
t=1<br />
n(n 2 − 1) −<br />
6¯x<br />
n − 1<br />
n∑<br />
(x t − β 0 − β 1 · t) 2<br />
t=1<br />
und ˆβ0 = ¯x − ˆβ 1<br />
n + 1<br />
2<br />
• Geschätzte Trendfunktion: ĝ t = ˆβ 0 + ˆβ 1 · t<br />
• Trendbereinigte Zeitreihe: x t − ĝ t<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 17<br />
• Bestimmtheitsmaÿ:<br />
R 2 =<br />
∑ n<br />
t=1 (ĝ t − ¯x) 2<br />
∑ n<br />
t=1 (x t − ¯x) 2 = ˆβ2 1 n(n 2 − 1)<br />
12 ∑ n<br />
t=1 (x t − ¯x) 2<br />
• Exponentieller Trend:<br />
Durch Logarithmieren kann ein exponentielles Trendmodell der Form:<br />
g t = β 0 · β t 1 in ein lineares Trendmodell überführt werden.<br />
Schätzung einer konstanten Saisongur<br />
• Gegebene Periodizität: l<br />
Für j = 1, . . . , l sind x j , x l+j , x 2l+j , x 3l+j , . . . jeweils <strong>die</strong> Beobachtungen<br />
zur j-ten Periode (Quartal, Monat, o.ä.)<br />
• Annahme: (Konstante Saisongur)<br />
Für jedes j = 1, . . . , l gilt: s j = s l+j = s 2l+j = s 3l+j = · · ·<br />
• Schätzung der s j : Arithmetische Mittel ŝ j = 1 m∑<br />
j −1<br />
m j<br />
(x kl+j − ĝ kl+j )<br />
k=0<br />
(Bemerkung: Falls n = m · l, dann m j = m für alle j)<br />
• Geschätzte Saisonkomponente: ŝ t = ŝ j falls t = j, l + j, 2l + j, 3l + j, . . .<br />
• Prognose (von x n+h , h ≥ 1):<br />
ˆx n+h = ĝ n+h + ŝ n+h (additiv) bzw. ˆx n+h = ĝ n+h · ŝ n+h (multiplikativ)<br />
5 Indexzahlen<br />
Klassikation der Verhältniszahlen<br />
• Gliederungszahl<br />
• Beziehungszahl<br />
• Meÿzahl (einfache/zusammengesetzte Indexzahl)<br />
Preis-, Mengen und Wertindizes<br />
Bezeichnungen<br />
• Bezeichnungen (Warenkorb mit m Gütern.)<br />
q 0i , p 0i : Menge und Preis des i-ten Gutes in der Basisperiode 0<br />
q ti , p ti : Menge und Preis des i-ten Gutes in der Berichtsperiode t<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 18<br />
• Preisindex nach Laspeyres: P L 0t =<br />
m∑<br />
i=1<br />
m∑<br />
i=1<br />
p ti q 0i<br />
p 0i q 0i<br />
• Preisindex nach Paasche: P P 0t =<br />
m∑<br />
i=1<br />
m∑<br />
i=1<br />
p ti q ti<br />
p 0i q ti<br />
• Mengenindex nach Laspeyres: Q L 0t =<br />
m∑<br />
i=1<br />
m∑<br />
i=1<br />
p 0i q ti<br />
p 0i q 0i<br />
• Mengenindex nach Paasche: Q P 0t =<br />
m∑<br />
i=1<br />
m∑<br />
i=1<br />
p ti q ti<br />
p ti q 0i<br />
• Wertindex: (auch: Umsatz- oder Ausgabenindex) W 0t =<br />
m∑<br />
i=1<br />
m∑<br />
i=1<br />
q ti p ti<br />
q 0i p 0i<br />
• Preisindex nach Fisher: P F 0t = √ P P 0tP L 0t<br />
Indexumrechnungen<br />
• Umbasierung:<br />
Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Basisperiode<br />
0): I 00 = 1, I 01 , I 02 , . . . , I 0k , . . . , I 0n<br />
I ⋆ kt = I 0t/I 0k ergibt <strong>die</strong> auf <strong>die</strong> neue Basisperiode k umbasierte Zeitreihe.<br />
• Verknüpfung:<br />
Gegeben seien zwei Zeitreihen von Indexzahlen, <strong>die</strong> sich in einer Periode<br />
(hier in t) überlappen: I 01 , I 02 , . . . , I 0t und I kt , I k,t+1 , . . .<br />
Fortführung der alten Zeitreihe:<br />
I ⋆ 0,t+h = I k,t+h · I0t<br />
I kt<br />
, h = 1, 2, . . .<br />
Rückrechnung der neuen Zeitreihe:<br />
I ⋆ k,t−h = I 0,t−h · Ikt<br />
I 0t<br />
, h = 1, 2, . . .<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 19<br />
• Verkettung:<br />
Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperiode<br />
als Basis: I 01 , I 12 , I 23 , I 34 , . . .<br />
I ⋆ 0t = I 01 · I 12 · · · I t−1,t bezeichnet <strong>die</strong> verkettete Zeitreihe mit gemeinsamer<br />
Basis 0.<br />
• Deationierung oder Preisbereinigung: Division einer nominalen<br />
Gröÿe V t durch einen sachlich zugehörigen Preisindex P 0t ergibt <strong>die</strong><br />
reale (preisbereinigte) Gröÿe R t = V t /P 0t .<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 20<br />
6 Wahrscheinlichkeitsrechnung<br />
Kombinatorik<br />
Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:<br />
Reihenfolge wichtig<br />
Sortieren nicht erlaubt<br />
ohne Zurücklegen N · (N − 1) · · · (N − (n − 1))<br />
Reihenfolge nicht wichtig<br />
Sortieren erlaubt<br />
( N<br />
n<br />
)<br />
( )<br />
n + N − 1<br />
mit Zurücklegen N n =<br />
n<br />
( )<br />
n + N − 1<br />
N − 1<br />
Binomialkoezienten<br />
• Denition:<br />
( n<br />
=<br />
k)<br />
n · (n − 1) · · · (n − (k − 1))<br />
k · (k − 1) · · · 1<br />
=<br />
n!<br />
k!(n − k)!<br />
• Rechenregeln:<br />
( ( n n<br />
= = 1<br />
0)<br />
n)<br />
( n<br />
=<br />
k)<br />
( ( )<br />
n<br />
n<br />
=<br />
n − k)<br />
k<br />
( ( )<br />
n n<br />
= = n<br />
1)<br />
n − 1<br />
( ) n − 1<br />
+<br />
k<br />
( ) n − 1<br />
k − 1<br />
Rechenregeln für Mengen<br />
• Kommutativgesetz:<br />
A ∩ B = B ∩ A<br />
A ∪ B = B ∪ A<br />
• Distributivgesetz:<br />
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)<br />
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)<br />
• Aus A ⊂ B folgt ¯B ⊂ Ā<br />
• Assoziativgesetz:<br />
(A ∩ B) ∩ C = A ∩ (B ∩ C)<br />
(A ∪ B) ∪ C = A ∪ (B ∪ C)<br />
• De Morgansche Regeln:<br />
(A ∪ B) = Ā ∩ ¯B<br />
(A ∩ B) = Ā ∪ ¯B<br />
• Für <strong>die</strong> Dierenzmenge A\B<br />
gilt: A\B = A ∩ ¯B<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 21<br />
Wahrscheinlichkeiten und Axiome von Kolmogoro<br />
• Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P )<br />
- Grundraum Ω = {ω 1 , ω 2 , . . . ω N }<br />
- Ereignisse P(Ω) = Menge aller Teilmengen A ⊂ Ω<br />
- Wahrscheinlichkeit P P (A) = Wahrscheinlichkeit für das Eintreten<br />
von A<br />
Die Wahrscheinlichkeitsverteilung P erfüllt <strong>die</strong> Axiome von Kolmogoro:<br />
(A1) (Nichtnegativität) P (A) ≥ 0<br />
(A2) (Normiertheit) P (Ω) = 1<br />
(A3) (Additivität) P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅<br />
• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt<br />
durch das Axiom<br />
∞⋃ ∞∑<br />
(A3') (σ−Additivität) P ( A k ) = P (A k ) für A i ∩A j = ∅, i ≠ j<br />
k=1<br />
k=1<br />
Rechenregeln für Wahrscheinlichkeiten<br />
1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1<br />
2. A ⊆ B ⇒ P (A) ≤ P (B)<br />
3. P (Ā) = 1 − P (A) mit Ā = Ω\A<br />
4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)<br />
5. P (A 1 ∪ A 2 ∪ · · · ∪ A n ) = P (A 1 ) + P (A 2 ) + · · · + P (A n ),<br />
falls A 1 , A 2 , . . . , A n paarweise disjunkt, d.h. A i ∩ A j = ∅<br />
6. P (A 1 ∪ A 2 ∪ · · · A n ) ≤ P (A 1 ) + P (A 2 ) + · · · + P (A n )<br />
7. Wenn <strong>die</strong> Elementarwahrscheinlichkeiten p i = P ({ω i }), i = 1, 2, . . . bekannt<br />
sind,<br />
dann gilt für <strong>die</strong> Wahrscheinlichkeit eines Ereignisses A:<br />
P (A) = ∑<br />
P ({ω i }) = ∑<br />
i:ω i ∈A<br />
i:ω i ∈A<br />
p i<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 22<br />
Laplace-Modell<br />
1. Annahme: Endlicher Grundraum Ω = {ω 1 , . . . , ω N }<br />
2. Annahme: P ({ω 1 }) = P ({ω 2 }) = · · · = P ({ω N })<br />
Wahrscheinlichkeiten: P (A) = Anzahl ω i in A<br />
Anzahl ω i in Ω = #A<br />
#Ω = #A<br />
N<br />
Bedingte Wahrscheinlichkeit<br />
Bedingte Wahrscheinlichkeit von A gegeben B<br />
P (A|B) =<br />
P (A ∩ B)<br />
P (B)<br />
für A, B ⊂ Ω mit P (B) > 0<br />
Unabhängigkeit von Ereignissen<br />
• Zwei Ereignisse A und B heiÿen stochastisch unabhängig, wenn<br />
P (A ∩ B) = P (A) · P (B)<br />
• Ereignisse A 1 , . . . , A n heiÿen stochastisch unabhängig, wenn für jede Auswahl<br />
A i1 , . . . , A ik mit k ≤ n gilt:<br />
P (A i1 ∩ . . . ∩ A ik ) = P (A i1 ) · P (A i2 ) · · · P (A ik )<br />
Multiplikationssatz<br />
• Für Ereignisse A 1 , . . . , A n gilt:<br />
P (A 1 ∩. . .∩A n ) = P (A 1 )·P (A 2 |A 1 )·P (A 3 |A 1 ∩A 2 ) · · · P (A n |A 1 ∩. . .∩A n−1 )<br />
• Falls <strong>die</strong> Ereignisse A 1 , . . . , A n unabhängig sind, gilt:<br />
P (A 1 ∩ A 2 ∩ . . . ∩ A n ) = P (A 1 ) · P (A 2 ) · · · P (A n )<br />
Totale Wahrscheinlichkeit und Satz von Bayes<br />
Seien A 1 , . . . , A n Ereignisse, <strong>die</strong> eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte<br />
Vereinigung der A i ; es gilt: A i ≠ ∅, A i ∩A j = ∅, i ≠ j, und A 1 ∪A 2 ∪. . .∪A n = Ω).<br />
<strong>Statistik</strong>_A@statistik.uni-bonn
<strong>Formelsammlung</strong> <strong>Statistik</strong> I Seite 23<br />
B sei ein Ereignis mit P (B) > 0.<br />
P (B|A k ) · P (A k ) = P (B ∩ A k ) = P (A k |B) · P (B)<br />
n∑<br />
n∑<br />
P (B) = P (B|A i ) · P (A i ) = P (B ∩ A i )<br />
i=1<br />
i=1<br />
(totale Wahrscheinlichkeit)<br />
P (A k |B) = P (B|A k) · P (A k )<br />
P (B)<br />
= P (B|A k) · P (A k )<br />
n∑<br />
P (B|A i ) · P (A i )<br />
i=1<br />
(Satz von Bayes)<br />
<strong>Statistik</strong>_A@statistik.uni-bonn