You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
UNIVERSITE PARIS-DAUPHINE<br />
Département MIDO<br />
A.M.<strong>Boussion</strong>/Probabilités DU MI2E 2ème année (2008-2009)<br />
Le programme de ce cours comprend :<br />
- la notion générale <strong>d'</strong>espace de probabilité<br />
- les variables aléatoires réelles définies sur un espace de probabilité, la notion de loi<br />
(en particulier les lois continues qui n'ont pas été vues en première année), moments,<br />
lois usuelles (en particulier les lois normales) ;<br />
- les couples et vecteurs aléatoires : lois marginales, indépendance, lois<br />
conditionnelles et espérances conditionnelles.<br />
Le chapitre 0 de ce polycopié rappelle les prérequis <strong>d'</strong>Analyse nécessaires :<br />
- l’intégrale simple et les propriétés de l’intégrale fonction de la borne supérieure,<br />
(ces notions ont été étudiées en première année) ;<br />
- les séries et l’intégrale généralisée, qui sont étudiées parallèlement en Analyse 3.<br />
Le chapitre 1 traite des espaces de probabilité : seule sera exposée en amphi la notion<br />
nouvelle de tribu, les définitions et propriétés vues en première année dans le cas des<br />
espaces finis ou dénombrables étant simplement rappelées. C'est la raison pour<br />
laquelle sont explicitées dans ce chapitre toutes les démonstrations utiles pour réviser<br />
ou se mettre à niveau.<br />
A partir du chapitre 2, le polycopié ne contient plus les démonstrations ; celles-ci<br />
seront développées en cours ainsi que les exemples.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.1
TABLE DES MATIERES<br />
Chapitre 0 : Rappels d’Analyse 3<br />
1 - Séries numériques 3<br />
2 - Intégrales 4<br />
Chapitre 1 : Espace de probabilité 10<br />
1 - Espace probabilisable 11<br />
2 - Espace de probabilité 14<br />
3 - Probabilité conditionnelle 19<br />
4 - Evénements indépendants 23<br />
5 - Ω non dénombrable : deux exemples pour réfléchir 26<br />
6 - Espaces de probabilité liés aux différents modes de tirage 29<br />
Chapitre 2 : Variables aléatoires réelles 31<br />
1 - Définition générale <strong>d'</strong>une variable aléatoire 31<br />
2 - Loi et fonction de répartition <strong>d'</strong>une variable aléatoire 34<br />
3 - Variable aléatoire discrète 35<br />
4 - Variable aléatoire continue 38<br />
5 - Moments <strong>d'</strong>une variable aléatoire 43<br />
6 - Les lois normales ou de Laplace-Gauss 49<br />
7 - Les lois usuelles 52<br />
Table de la loi normale centrée réduite 57<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.2
Chapitre 0 : Rappels d’Analyse<br />
1 - Séries numériques<br />
Définition 0.1.1 : Série convergente et absolument convergente :<br />
• La série de terme général u est dite convergente si la suite des sommes partielles<br />
n<br />
n<br />
(∑<br />
i=1<br />
u ) est convergente.<br />
i n<br />
+∞<br />
On note alors ∑<br />
i=1<br />
u i<br />
= lim<br />
n→+∞<br />
n<br />
∑<br />
i=1<br />
u et on l’appelle somme de la série.<br />
i<br />
Dans le cas contraire, la série de terme général u est dite divergente.<br />
n<br />
Propriété 0.1.2 : Condition nécessaire de convergence d’une série<br />
Si une série converge, son terme général tend vers 0. Cette condition est nécessaire<br />
mais non suffisante.<br />
k Exemples :<br />
+∞<br />
- série géométrique : ∑<br />
+∞<br />
et pour ⎢x ⎢ < 1 ∑<br />
i=0<br />
i=0<br />
x i<br />
- série exponentielle : ∑<br />
+∞<br />
- ∑<br />
i=1<br />
1<br />
i(i+1)<br />
= 1<br />
- série de Riemann : ∑<br />
+∞<br />
En particulier ∑<br />
i=1<br />
+∞<br />
i=0<br />
+∞<br />
i=1<br />
=<br />
1<br />
x i<br />
x i<br />
i!<br />
converge si et seulement si ⎢x ⎢ < 1<br />
1<br />
1 - x<br />
= e x pour tout réel x<br />
converge si et seulement si α > 1<br />
α<br />
i<br />
1<br />
est divergente.<br />
i<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.3
Propriété 0.1.3 : Convergence des séries à termes positifs<br />
• Toute série positive majorée par une série convergente est convergente.<br />
• Deux séries positives dont les termes généraux sont équivalents au voisinage de<br />
l’infini sont de même nature.<br />
Définition 0.1.4 : Série absolument convergente :<br />
La série de terme général u est dite absolument convergente si la série de terme<br />
n<br />
général ⎢u ⎢ converge.<br />
n<br />
k Exemples :<br />
+∞<br />
- ∑<br />
i=0<br />
+∞<br />
- ∑<br />
i=1<br />
x i<br />
(-1) i<br />
i<br />
Propriété 0.1.5 :<br />
est absolument convergente pour ⎢x ⎢ < 1<br />
est convergente, mais non absolument convergente (= semi-convergente)<br />
Toute série absolument convergente est convergente.<br />
* Attention !<br />
Si on modifie l'ordre des termes <strong>d'</strong>une série absolument convergente, la somme de<br />
la série est inchangée. Par contre si la série est semi-convergente, une modification<br />
de l'ordre de ses termes peut entraîner une modification de la valeur de la somme,<br />
et même transformer la série en une série divergente.<br />
2 - Intégrales<br />
a) Intégrale <strong>d'</strong>une fonction continue sur un segment<br />
Définition et propriétés 0.2.1 :<br />
• Soit f une fonction définie sur un intervalle I de R.<br />
Une fonction F est une primitive de f sur I si F est définie et dérivable sur I et :<br />
∀ x ∈ I F'(x) = f(x)<br />
• Si une fonction f admet une primitive F sur I, elle en admet une infinité qui se<br />
déduisent de F par l'addition <strong>d'</strong>une constante.<br />
• Toute fonction continue sur un intervalle I admet une primitive sur I.<br />
Définition 0.2.2 :<br />
Soient a et b deux réels distincts, et f une fonction continue sur le segment [a, b] (ou<br />
[b, a] si b < a). Soit F une primitive de f sur [a, b].<br />
On appelle intégrale de f sur [a, b] la différence F(b) - F(a) : cette différence ne<br />
dépend pas de la primitive F choisie.<br />
On note F(b) - F(a) = ∫ f(t) dt<br />
b<br />
a<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.4
Interprétation géométrique en repère orthonormé : si a < b, cette intégrale est égale<br />
à l’aire algébrique limitée par le graphe de f, l’axe des abscisses et les droites<br />
verticales d’équations x = a et x = b.<br />
Propriétés 0.2.3 :<br />
• Par convention, pour tout réel a : ∫<br />
• Pour tous réels a et b : ∫<br />
Propriétés 0.2.4 :<br />
a<br />
b<br />
a<br />
a<br />
f(t) dt = - ∫<br />
f(t) dt = 0<br />
b<br />
a<br />
f(t) dt<br />
Soient f et g deux fonctions continues sur [a, b] :<br />
• Pour tous réels λ et µ, ∫<br />
• Si a ≤ b et si f ≤ g sur [a, b] , alors ∫<br />
b<br />
a<br />
[λ f(t) + µ g(t)] dt = λ ∫<br />
b<br />
a<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.5<br />
b<br />
a<br />
b<br />
f(t) dt ≤ ∫<br />
a<br />
b<br />
f(t) dt + µ ∫<br />
g(t) dt<br />
a<br />
g(t) dt<br />
On résume ces deux propriétés en disant que l’intégrale est une forme linéaire<br />
positive (ou croissante).<br />
• Relation de Chasles :<br />
Pour a < c < b : ∫<br />
b<br />
a<br />
f(t) dt = ∫<br />
a<br />
c<br />
f(t) dt + ∫<br />
b<br />
c<br />
f(t) dt<br />
Cette formule reste vraie quelles que soient les positions relatives de a, b, c pourvu<br />
que f soit continue sur le plus grand des intervalles.<br />
• Formule d’intégration par parties :<br />
Si f et g sont de classe C 1<br />
sur [ a, b ] :<br />
b<br />
∫<br />
a<br />
f(t) g’(t) dt = f(b) g(b) - f(a) g(a) - ∫<br />
• Formule de changement de variable :<br />
b<br />
a<br />
f’(t) g(t)dt<br />
Soit ϕ une bijection de classe C 1<br />
définie sur le segment [a, b], et soit f une fonction<br />
continue sur le segment ϕ([a, b]).<br />
On pose α = ϕ(a) et β = ϕ(b). On a alors :<br />
β<br />
∫<br />
α<br />
b<br />
f(t) dt = ∫ f[ϕ(x)] ϕ’(x) dx<br />
a
) Intégrale généralisée<br />
Définition 0.2.5 :<br />
On suppose ici b réel ou b = +∞.<br />
Soit f une fonction continue sur [a, b [ : pour tout réel x < b, f est donc continue sur le<br />
segment [a, x] et on peut calculer ∫<br />
Si lim<br />
x→b<br />
x
k Exemples : Intégrales de Riemann<br />
+∞<br />
• ∫<br />
1<br />
• ∫<br />
0<br />
• ∫<br />
0<br />
1<br />
+∞<br />
1<br />
dt converge si et seulement si α > 1 (résultat similaire à celui des séries)<br />
α<br />
t<br />
1<br />
dt converge si et seulement si α < 1.<br />
α<br />
t<br />
1<br />
dt diverge pour toute valeur de α (ici il y a un problème aux deux bornes)<br />
α<br />
t<br />
Propriétés 0.2.6 : Généralisation des propriétés 0.2.3 et 0.2.4<br />
• Les égalités 0.2.3 sont vraies pour les intégrales généralisées.<br />
• L’intégrale généralisée est une forme linéaire positive et la relation de Chasles est<br />
vraie.<br />
• La formule d’intégration par parties reste vraie sous réserve de l’existence des<br />
limites en b de toutes les expressions qui interviennent : il se peut en effet que<br />
l'intégrale généralisée ∫<br />
b<br />
a<br />
f(t) g’(t) dt ait un sens alors que ni f(x) g(x) ni ∫<br />
n’ont de limite finie quand x tend vers b à gauche.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.7<br />
x<br />
a<br />
f’(t) g(t) dt<br />
Il est donc conseillé <strong>d'</strong>écrire <strong>d'</strong>abord la formule d’intégration par parties sur un<br />
intervalle [a, x] (x < b), et seulement ensuite de passer à la limite en b.<br />
1<br />
sint<br />
k Exemple : ∫ dt converge ; il n’y a même pas ici de vrai problème d’intégrale généralisée<br />
0<br />
t<br />
puisque lim<br />
t→0<br />
t>0<br />
1<br />
Posons f(t) =<br />
t<br />
sint<br />
1<br />
sint<br />
Pour tout x de ]0, 1] : ∫<br />
x<br />
t<br />
cosx<br />
Mais<br />
x<br />
t<br />
= 1, la fonction à intégrer peut être prolongée par continuité en 0.<br />
1<br />
et g’(t) = sint. On a f’(t) = -<br />
2<br />
t<br />
et g(t) = - cost.<br />
1<br />
cosx cost<br />
dt = - cos1 + - ∫ dt<br />
x<br />
x<br />
2<br />
t<br />
1<br />
cost<br />
n’a pas de limite finie en 0, donc ∫ dt non plus.<br />
2<br />
x<br />
t<br />
• La formule de changement de variable s'énonce de la façon suivante :<br />
Soit ϕ une bijection de classe C 1<br />
sur [a, b[ et f une fonction continue sur l'intervalle<br />
ϕ([a, b[). On pose α = ϕ(a) et β = lim ϕ(x) (β réel, ou β = ± ∞)<br />
x→b<br />
x
Alors les intégrales ∫<br />
β<br />
∫<br />
α<br />
{ Remarque :<br />
f(t) dt = ∫<br />
a<br />
β<br />
α<br />
b<br />
b<br />
f(t) dt et ∫<br />
a<br />
f[ϕ(x)] ϕ’(x) dx<br />
f[ϕ(x)] ϕ’(x) dx sont de même nature et on a :<br />
Il n'est pas nécessaire de montrer <strong>d'</strong>abord la convergence <strong>d'</strong>une des deux intégrales<br />
pour écrire la formule du changement de variable. Au contraire, cette formule peut<br />
être utilisée pour étudier la convergence <strong>d'</strong>une intégrale en la transformant en une<br />
autre dont la nature est plus simple à établir.<br />
Propriétés 0.2.7 : Conditions suffisantes de convergence des intégrales<br />
généralisées<br />
Ces propriétés sont analogues à celles des séries.<br />
Les énoncés ci-dessous sont donnés pour a < b (b réel ou b = +∞).<br />
• Si f est positive et majorée par une fonction g intégrable sur [a, b[, alors f est<br />
intégrable sur [a, b[, et ∫<br />
k Exemple :<br />
b<br />
a<br />
b<br />
f(t) dt ≤ ∫<br />
1<br />
a<br />
g(t) dt.<br />
+∞<br />
-t<br />
La convergence de l’intégrale ∫ e<br />
2<br />
-t<br />
dt est assurée par l’inégalité e<br />
2<br />
-t<br />
≤ e vraie pour t ≥ 1, et par<br />
+∞<br />
-t<br />
la convergence de l’intégrale ∫ e dt qui se calcule aisément (= 1/e).<br />
• L’intégrale ∫<br />
convergente.<br />
b<br />
a<br />
1<br />
f(t) dt est dite absolument convergente si l’intégrale ∫<br />
• Toute intégrale absolument convergente est convergente, et on a :<br />
b<br />
⎢ ∫<br />
a<br />
f(t) dt ⎢ ≤ ∫<br />
b<br />
a<br />
⎢f(t) ⎢ dt<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.8<br />
b<br />
a<br />
⎢f(t) ⎢ dt est<br />
• si f ≥ 0 (ou f ≤ 0) au voisinage de b, et si g est une fonction équivalente à f au<br />
voisinage de b, les intégrales généralisées ∫<br />
nature.<br />
b<br />
a<br />
f(t) dt et ∫<br />
b<br />
a<br />
g(t) dt sont de même
* Attention !<br />
Ce résultat n'est plus vrai si f ne garde pas un signe constant au voisinage de b.<br />
k Exemples :<br />
1<br />
sint<br />
• ∫ dt converge :<br />
3/2<br />
0 t<br />
1<br />
sint<br />
sint 1<br />
en effet, pour t de [0, 1], ≥ 0 ; sint ~ t d’où ~ et ∫<br />
3/2<br />
t<br />
0<br />
3/2 1/2<br />
t 0 t<br />
0<br />
1<br />
cost<br />
• ∫ dt diverge :<br />
2<br />
0 t<br />
cost cost<br />
en effet, pour t de [0, 1], ≥ 0 ; ~<br />
2 2<br />
t t 0<br />
+∞<br />
• ∫<br />
1<br />
√⎺t<br />
dt converge :<br />
2<br />
(t+1)<br />
en effet, pour t ≥ 1<br />
√⎺ t<br />
2<br />
(t+1)<br />
≥ 0 ;<br />
√⎺ t<br />
~<br />
2<br />
(t+1) +∞<br />
1<br />
2<br />
t<br />
1<br />
3/2<br />
t<br />
1<br />
et ∫<br />
0<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.9<br />
1<br />
1/2<br />
t<br />
1<br />
dt diverge puisque 2 ≥ 1.<br />
2<br />
t<br />
+∞<br />
et ∫<br />
1<br />
1<br />
3/2<br />
t<br />
c) Intégrale fonction de la borne supérieure<br />
Rappels 0.2.8 : Fonction de la borne supérieure :<br />
1<br />
dt converge puisque<br />
2<br />
3<br />
dt converge puisque<br />
2<br />
Soit f une fonction continue sur un intervalle I de R, et soit a un élément de I<br />
On pose : ∀ x ∈ I F(x) = ∫<br />
x<br />
a<br />
f(t) dt<br />
F est de classe C 1<br />
sur I et on a : ∀ x ∈ I F'(x) = f(x).<br />
(en fait, F est l’unique primitive de f sur I nulle en a).<br />
Ces résultats restent vrais pour des intégrales généralisées, sous réserve bien<br />
entendu de convergence de ces intégrales.<br />
Par exemple si f continue sur R est telle que pour tout réel x l'intégrale ∫<br />
converge, alors la fonction F définie sur R par F(x) = ∫<br />
et on a F’ = f.<br />
x<br />
-∞<br />
> 1.<br />
< 1.<br />
x<br />
-∞<br />
f(t) dt<br />
f(t) dt est de classe C 1 sur R,
Chapitre 1 : Espace de probabilité<br />
Le calcul des probabilités est la modélisation mathématique de phénomènes dus au<br />
“hasard”. Au départ, il s'agissait de résoudre des problèmes de jeux (jeux de dés par<br />
exemple). Bien que certains calculs aient été effectués dans ce domaine par des<br />
mathématiciens italiens de la Renaissance, on considère généralement que les<br />
fondateurs des Probabilités sont Pascal et Fermat au XVII ème siècle. Le calcul des<br />
probabilités se développa ensuite, motivé par des problèmes d’assurance et de<br />
rentes viagères, puis au XVIII ème siècle on passa du cas fini au cas continu (Laplace).<br />
Le vocabulaire et les techniques utilisées se sont précisés au fil du temps, et les<br />
probabilités ont trouvé de nombreuses applications en physique, économie,<br />
médecine, sciences sociales, finance …<br />
La formalisation utilisée de nos jours et exposée ci-dessous est due au mathématicien<br />
russe Kolmogorov (XX ème siècle).<br />
On appelle expérience aléatoire une expérience dont le résultat dépend du hasard.<br />
On ne connaît pas à l'avance le résultat <strong>d'</strong>une expérience aléatoire, mais on connaît<br />
l'ensemble de tous les résultats qu'elle peut avoir.<br />
k Exemple 1 : On lance un dé à 6 faces numérotées, en s'intéressant au numéro sorti;<br />
le résultat de l'expérience peut être représenté par un nombre entier compris entre 1<br />
et 6.<br />
k Exemple 2 : On joue à pile ou face jusqu'à ce que pile sorte. L'ensemble des<br />
résultats de l'expérience est l'ensemble des suites finies p, fp, ffp, … , fffffp, … ,<br />
auxquelles on ajoute par précaution la suite infinie ffff… (au cas où pile ne sortirait<br />
jamais).<br />
k Exemple 3 : On joue indéfiniment à pile ou face. L'ensemble des résultats de<br />
l'expérience est l'ensemble des suites infinies à valeur dans {p, f}. On note cet<br />
ensemble {p, f} N<br />
.<br />
k Exemple 4 : On observe la durée de vie <strong>d'</strong>une particule prise au hasard (ou la<br />
durée de fonctionnement sans panne <strong>d'</strong>une machine) ; le résultat de l'expérience peut<br />
être représenté au moins en théorie par un nombre réel positif (une unité de temps<br />
ayant été choisie).<br />
k Exemple 5 : On observe entre les instants 0 et T un signal continu sur l'écran <strong>d'</strong>un<br />
radar ; le résultat de l'expérience peut être représenté par une fonction continue<br />
définie sur l'intervalle [0, T].<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.10
L'ensemble de tous les résultats possibles <strong>d'</strong>une expérience aléatoire est appelé<br />
ensemble fondamental, ou univers et noté usuellement Ω. Chaque élément de Ω est<br />
appelé possible ou issue, et noté ω.<br />
L'ensemble Ω peut être fini (exemple 1), dénombrable (exemple 2) ou non<br />
dénombrable (exemples 3, 4 et 5).<br />
On peut le modéliser facilement pour des expériences aléatoires simples.<br />
1 - Espace probabilisable<br />
On considère une expérience aléatoire, et Ω l'ensemble fondamental associé. On va<br />
s'intéresser aux parties de Ω que l'on peut décrire à partir de l'expérience aléatoire et<br />
que l'on appelle événements.<br />
On impose à l'ensemble des événements <strong>d'</strong>avoir un certain nombre de propriétés<br />
"naturelles", que l'on résume sous le nom de tribu.<br />
Définition 1.1.1 :<br />
On appelle tribu (ou σσσσ-algèbre) sur Ω une partie A de P(Ω) vérifiant les axiomes<br />
suivants :<br />
i) Ω ∈A<br />
ii) ∀ A ∈ A Α c ∈ A (A est stable par passage au complémentaire)<br />
iii) Si (A ) est une suite <strong>d'</strong>éléments de A, B = ∪ A est aussi élément de<br />
n n≥1 i<br />
A (A est stable par réunion dénombrable).<br />
Propriétés 1.1.2 :<br />
Si A est une tribu sur Ω, alors :<br />
i)' ∅ ∈A<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.11<br />
+∞<br />
i=1<br />
iii)' Si (A n ) n≥1 est une suite <strong>d'</strong>éléments de A, C = ∩<br />
A (A est stable par intersection dénombrable).<br />
+∞<br />
i=1<br />
iv) A est stable par réunion et par intersection finies.<br />
A i est aussi élément de<br />
dém : • i)' : Ω ∈A (propriété i) et A est stable par passage au complémentaire (propriété ii) donc Ω c<br />
= ∅ ∈A.<br />
• iii)' : Pour tout entier i A i ∈A , donc (propriété ii) A i<br />
Toujours <strong>d'</strong>après la propriété ii) B c ∈A . Or B c = ∩ A = C.<br />
i<br />
+∞<br />
i=1<br />
c<br />
+∞<br />
∈A , donc (propriété iii) B = ∪<br />
• iv) : Soient A et B deux éléments de A. On pose A 1 = A, A 2 = B et A i = ∅ pour i ≥ 3. La suite<br />
(A ) ainsi définie est une suite <strong>d'</strong>éléments de A, donc ∪ A ∈A ; comme ∪ A = A ∪ B, on a bien<br />
n n≥1 i i<br />
+∞<br />
i=1<br />
+∞<br />
i=1<br />
i=1<br />
c<br />
A<br />
i<br />
∈A .
montré que A est stable pour la réunion de deux de ses éléments. On montre alors par récurrence sur n<br />
que A est stable pour la réunion de n de ses éléments.<br />
La stabilité de A pour l'intersection finie se prouve par passage au complémentaire, comme cela a été<br />
fait pour démontrer iii)'.<br />
Conséquence : Pour montrer qu'un sous-ensemble A de P(Ω) est une tribu, on doit<br />
vérifier qu'il a trois propriétés :<br />
i) ou i)' (au choix)<br />
ii)<br />
iii) ou iii)' (au choix)<br />
Définition 1.1.3 :<br />
On appelle espace probabilisable un couple (Ω, A), où A est une tribu sur Ω .<br />
Définitions 1.1.4 :<br />
• Si A est un événement de Ω, pour chaque résultat ω de l'expérience aléatoire,<br />
ou ω ∈ A : on dit que A est réalisé.<br />
ou ω ∉ A : on dit que A n'est pas réalisé.<br />
• La non-réalisation de A, c'est-à-dire l'événement A c , est appelé événement<br />
contraire de A.<br />
• La réalisation simultanée de deux événements A et B (A et B) est l'événement A∩B.<br />
• La réalisation <strong>d'</strong>au moins un des deux événements A et B (A ou B) est l'événement<br />
A∪B.<br />
• Si A et B sont deux événements tels que A 1 B, on dit que l'événement A entraîne<br />
(ou implique) l'événement B.<br />
• Le singleton {ω} est appelé événement élémentaire.<br />
• Ω est l'événement certain.<br />
• ∅ est l'événement impossible.<br />
• Deux événements A et B dont la réalisation simultanée est impossible (A∩B = ∅)<br />
sont dits incompatibles.<br />
k Exemples élémentaires de tribus :<br />
• P(Ω) est une tribu, c’est toujours elle que l’on prendra comme tribu d’événements<br />
si Ω est fini ou dénombrable.<br />
• A = {∅, Ω} est une tribu, appelée tribu grossière de Ω.<br />
• Pour tout A fixé de P(Ω), A = {∅, A, A c , Ω} est une tribu, appelée tribu engendrée<br />
par A.<br />
• Sur Ω = {1, 2, 3} :<br />
A = {∅, {1}, {2, 3} , {1, 2, 3}} est une tribu strictement incluse dans P(Ω).<br />
B = {∅, {2}, {2, 3} , {1, 2, 3}} n'est pas une tribu.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.12
k Exemple fondamental : la tribu borélienne de R ou R n<br />
Soit Ω = R, considérons la famille I des intervalles de R.<br />
Proposition et définitions 1.1.5 : (admise en partie)<br />
• I n’est pas une tribu, mais il existe une tribu, notée B(R), contenant tous les<br />
intervalles de R, et qui est la plus petite tribu (au sens de l'inclusion) contenant tous<br />
ces intervalles.<br />
On l’appelle tribu borélienne de R , et on la note B(R) ou plus simplement B.<br />
On dit que la tribu B est engendrée par les intervalles de R.<br />
• Il existe des parties de R qui ne sont pas boréliennes.<br />
On a donc : I 1 B(R) 1 P(R)<br />
≠<br />
≠<br />
dém : • I n’est pas une tribu, en particulier parce qu'elle n'est pas stable par passage au<br />
complémentaire : par exemple, le complémentaire de [0, 1] est ]-∞, 0[ ∪]1, +∞[, qui n'est pas un<br />
intervalle.<br />
• On note T l'ensemble des tribus de R contenant tous les intervalles. L'ensemble T est non vide<br />
puisqu'au moins P(R) appartient à T. Soit B l'intersection de toutes les tribus de T. B est une tribu,<br />
elle contient I, et toute autre tribu de R contenant I contient nécessairement B.<br />
B, appelée tribu borélienne de R, est donc la plus petite tribu au sens de l'inclusion contenant tous les<br />
intervalles de R.<br />
• On admettra dans ce cours l'existence de parties non boréliennes de R (ceci se démontre en utilisant<br />
l'axiome du choix, une partie non borélienne de R ne se construit donc pas de manière élémentaire).<br />
De même, la tribu borélienne de R n<br />
la note B(R n<br />
).<br />
est la tribu engendrée par les pavés (*) de R n<br />
. On<br />
(*) : un pavé de R n<br />
est le produit cartésien de n intervalles de R<br />
par exemple dans R 2<br />
: [a, b] x ]c, d], ]a, b[ x ]-∞,+∞[, ]a,+∞[ x ]b,+∞[ sont des pavés.<br />
{ Remarque :<br />
Dans le cadre de ce cours, en dimension 1, on ne rencontrera en pratique que des<br />
boréliens de type intervalle ou réunion finie d’intervalles. Mais en dimension n, on<br />
verra fréquemment dans les calculs des boréliens qui ne sont ni des pavés ni des<br />
réunions finies de pavés (par exemple, si n = 2, l'intérieur d’un disque ou <strong>d'</strong>un<br />
triangle ou plus généralement un domaine du plan dont la frontière est une courbe<br />
de classe C 1<br />
par morceaux sont des boréliens).<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.13
2 - Espace de probabilité<br />
La donnée d’un espace probabilisable ne suffit pas à décrire une expérience aléatoire.<br />
Par exemple, si on joue une fois à pile ou face, l’espace fondamental est très simple :<br />
Ω = {pile, face}, avec A = P(Ω) (puisque Ω est fini), mais les conditions de l’expérience<br />
ne sont pas les mêmes selon que la pièce utilisée est truquée ou non.<br />
a) Probabilité<br />
Définitions 1.2.1 :<br />
• Soit (Ω, A) un espace probabilisable. On appelle probabilité une application P de A<br />
dans R ayant les propriétés suivantes :<br />
i) ∀ A ∈ A P(A) ≥ 0<br />
ii) P(Ω) = 1<br />
iii) Pour toute suite (A n ) n≥1 <strong>d'</strong>événements deux à deux incompatibles :<br />
+∞<br />
P (∪ Ai ) = ∑ P(Ai ) (σσσσ-additivité de P)<br />
i=1<br />
+∞<br />
i=1<br />
• Le triplet (Ω, A, P) est appelé espace de probabilité, ou espace probabilisé.<br />
Construire un modèle probabiliste lié à une expérience aléatoire, c'est se donner le<br />
triplet (Ω, A, P). On admettra que pour une expérience aléatoire donnée, il existe<br />
l'espace de probabilité correspondant.<br />
Propriétés 1.2.2 :<br />
1) P(∅) = 0<br />
2) Additivité de P : si A et B sont incompatibles, P(A∪B) = P(A) + P(B)<br />
Plus généralement, si A 1 , A 2 , … , A n sont n événements incompatibles deux à deux :<br />
P(A 1 ∪A 2 ∪ … ∪A n ) = P(A 1 ) + P(A 2 ) + … + P(A n )<br />
3) P(A c ) = 1 - P(A)<br />
4) Si A et B sont deux événements, P(A∪B) = P(A) + P(B) - P(A∩B)<br />
5) Croissance de P : si A et B sont deux événements tels que A 1 B, P(A) ≤ P(B)<br />
6) ∀ A ∈ A P(A) ≤ 1<br />
7) Propriété de la limite monotone :<br />
- pour toute suite croissante (au sens de l'inclusion) <strong>d'</strong>événements (A n ) n≥1<br />
lim<br />
n→+∞<br />
P(An ) = sup P(An ) = P (∪ Ai )<br />
n<br />
+∞<br />
i=1<br />
- pour toute suite décroissante (au sens de l'inclusion) <strong>d'</strong>événements (A n ) n≥1<br />
lim<br />
n→+∞<br />
P(An ) = inf P(An ) = P (∩ A )<br />
i<br />
n<br />
+∞<br />
i=1<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.14
dém :<br />
• 1) : se démontre par l'absurde : On pose P(∅) = a . Par définition, a ≥ 0. Supposons a > 0. Soit A n = ∅<br />
pour tout n, les A n sont deux à deux disjoints, donc P( ∪<br />
définition de la somme <strong>d'</strong>une série. Or ∪<br />
contradiction.<br />
+∞<br />
i=1<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.15<br />
+∞<br />
i=1<br />
+∞<br />
A ) =<br />
i ∑ P(A<br />
i<br />
) = lim<br />
i=1<br />
A i = ∅ , <strong>d'</strong>où a = lim<br />
n→+∞<br />
n→+∞<br />
n<br />
∑<br />
i=1<br />
P(A i ) par<br />
(n a) = +∞ si a > 0, <strong>d'</strong>où la<br />
• 2) : on pose A 1 = A, A 2 = B et A i = ∅ pour i ≥ 3. La suite (A n ) n≥1 ainsi définie est une suite<br />
<strong>d'</strong>éléments de A deux à deux incompatibles, donc P( ∪ A ) =<br />
i ∑ P(A<br />
i<br />
) ;<br />
i=1<br />
i=1<br />
+∞<br />
i=1<br />
+∞<br />
or ∪ A = A ∪ B et<br />
i ∑ P(A<br />
i<br />
) = P(A) + P(B) + ∑ P(∅) = P(A) + P(B) puisque P(∅) = 0.<br />
i=1<br />
+∞<br />
i=3<br />
+∞<br />
Le cas <strong>d'</strong>une réunion finie se prouve de manière analogue.<br />
• 3) : on écrit la propriété 2) avec B = A c ; P(A) + P(A c ) = P(A∪A c ) = P(Ω) = 1<br />
• 4) : on écrit A∪B comme une réunion disjointe afin de se ramener au 2) :<br />
A∪B = A∪(B∩A c ) cette réunion étant disjointe,<br />
<strong>d'</strong>où P(A∪B ) = P(A) + P(B∩A c )<br />
De plus B = (B∩A)∪(B∩A c ) , cette réunion étant disjointe,<br />
<strong>d'</strong>où (propriété 3) : P(B) = P(B∩A) + P(B∩A c )<br />
On en déduit : P(B∩A c )) = P(B) - P(B∩A)<br />
<strong>d'</strong>où : P(A∪B ) = P(A) + P(B) - P(B∩A)<br />
Remarque : dans le cas où B∩A = ∅ , on retrouve la propriété 2).<br />
• 5) : si A est inclus dans B, B peut s'écrire : B = A∪(B∩A c ) , cette réunion étant disjointe.<br />
Toujours <strong>d'</strong>après 3), on a : P(B) = P(A) + P(B∩A c )), or P(B∩A c ) ≥ 0, <strong>d'</strong>où P(A) ≤ P(B);<br />
• 6) : se déduit de la précédente : A 1 Ω, <strong>d'</strong>où P(A) ≤ P(Ω) = 1.<br />
• 7) :<br />
- si la suite <strong>d'</strong>événements (A n ) n≥1 est croissante au sens de l'inclusion :<br />
pour tout entier n A n 1 A n+1 , <strong>d'</strong>où P(A n ) ≤ P(A n+1 ) par croissance de P. La suite réelle (P(A n )) n≥1<br />
étant croissante et majorée par 1, elle converge et sa limite est sa borne supérieure.<br />
Ensuite, on écrit la réunion croissante comme une réunion <strong>d'</strong>événements incompatibles deux à deux<br />
afin <strong>d'</strong>utiliser la σ-additivité de P :<br />
pour cela on pose :<br />
B 1 = A 1<br />
B 2 = A 2 ∩A 1<br />
…<br />
c<br />
c<br />
B n = A n ∩A n-1<br />
Par construction, les B i sont deux à deux disjoints ; de plus, pour tout entier n, A n = B 1 ∪B 2 ∪…∪B n ,<br />
<strong>d'</strong>où par application de 2) : P(A n ) = P(B 1 ) + P(B 2 ) +… +P(B n ) (*)<br />
+∞
+∞<br />
+∞<br />
De plus : ∪ A = ∪ B<br />
i i<br />
i=1 i=1<br />
+∞<br />
En effet : par définition des B , B 1 A <strong>d'</strong>où ∪ B 1 ∪ A . Inversement, soit ω un élément de ∪ A .<br />
i i i i i i<br />
i=1<br />
Il existe au moins un indice i tel que ω appartient à A i , donc l'ensemble I = {i ∈N/ω appartient à A i }<br />
est non vide. Toute partie non vide de N admet un plus petit élément, soit k le plus petit élément de I<br />
(I et k dépendent de ω). Par définition de k, ω appartient à A k et n'appartient pas à A k-1 , donc ω<br />
+∞<br />
appartient à B , et donc aussi à ∪ B .<br />
k i<br />
+∞<br />
+∞<br />
i=1<br />
On en déduit : P( ∪ A ) = P( ∪ B<br />
i i<br />
) = ∑ P(B<br />
i<br />
) (σ-additivité de P)<br />
i=1 i=1<br />
i=1<br />
+∞<br />
Or ∑<br />
i=1<br />
P(B i ) = lim<br />
n<br />
∑<br />
n→+∞ i=1<br />
+∞<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.16<br />
+∞<br />
i=1<br />
P(B i ) par définition de la somme <strong>d'</strong>une série = lim<br />
- si la suite <strong>d'</strong>événements (A n ) n≥1 est décroissante au sens de l'inclusion :<br />
n→+∞<br />
c<br />
on applique le résultat ci-dessus à la suite croissante <strong>d'</strong>événements (A ) .<br />
n n≥1<br />
b) Cas où Ω est fini ou dénombrable<br />
P(A n ) <strong>d'</strong>après (*)<br />
Cas fini : l'expérience aléatoire considérée n'a qu'un nombre fini de résultats<br />
possibles : Ω = {ω , … , ω }.<br />
1 m<br />
A chaque ω i<br />
(1 ≤ i ≤ m), on associe un réel noté P(ω ) (en fait, la notation rigoureuse<br />
i<br />
devrait être P({ω })), tel que :<br />
i<br />
i) P(ω ) ≥ 0<br />
i<br />
m<br />
ii) ∑<br />
i=1<br />
P(ω ) = 1<br />
i<br />
Toute partie A = {ω , … , ω } de l'ensemble fini Ω est un événement, et on pose :<br />
i1 ik<br />
P(A) = ∑<br />
j=1<br />
avec la convention : P(∅) = 0<br />
k<br />
P(ω ) (on note aussi cette somme : ∑ P(ω) )<br />
ij<br />
ω∈A<br />
On démontre que l'application P ainsi définie sur P(Ω) est bien une probabilité.<br />
P(A) est la probabilité de l'événement A.<br />
Cas particulier de probabilité finie : la probabilité uniforme<br />
Définition 1.2.3 : La probabilité P est uniforme sur l’espace fini Ω si tous les réels<br />
P(ω ) sont égaux. On dit alors que tous les résultats possibles de l’expérience sont<br />
i<br />
équiprobables.<br />
+∞<br />
i=1
k Exemple : Si on lance un dé à 6 faces numérotées, on met sur Ω = {1, 2, … , 6} la<br />
probabilité uniforme lorsque le dé n'est pas truqué.<br />
Propriétés 1.2.4 :<br />
1<br />
1) Si la probabilité est uniforme sur Ω, alors pour tout ω de Ω, P(ω) =<br />
cardΩ<br />
2) Si la probabilité est uniforme sur Ω, alors pour tout événement A,<br />
P(A) =<br />
cardA<br />
cardΩ<br />
C’est la formule classique :<br />
(Règle de Laplace)<br />
nombre de cas favorables<br />
nombre de cas possibles<br />
* Attention ! cette formule n’est applicable que sous l’hypothèse d’équiprobabilité.<br />
Cas dénombrable : Ω = {ω / i ∈N*}<br />
i<br />
La démarche ci-dessus se généralise en utilisant les séries.<br />
A chaque ω i<br />
, on associe un réel noté P(ω ), tel que :<br />
i<br />
i) P(ω ) ≥ 0<br />
i<br />
+∞<br />
ii) ∑<br />
i=1<br />
P(ω ) = 1<br />
i<br />
Cette somme de série est indépendante de la numérotation choisie pour les ω ,<br />
i<br />
et on définit la probabilité de toute partie A de Ω par : P(A) = ∑<br />
ω∈A<br />
P(ω)<br />
(somme finie ou somme de série)<br />
On peut démontrer en utilisant les propriétés des séries que l'application P ainsi<br />
définie sur P(Ω) est bien une probabilité.<br />
c) Système complet d’événements<br />
Définitions 1.2.5 :<br />
• On appelle événement négligeable (ou événement quasi-impossible) un événement<br />
dont la probabilité est nulle.<br />
• On appelle événement quasi-certain un événement dont la probabilité est égale à 1.<br />
B est quasi-certain ⇔ Β c est négligeable.<br />
• Une propriété vraie sur un événement quasi-certain de Ω est dite vraie presque<br />
sûrement (noté en abrégé : p. s.)<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.17
Propriété 1.2.6 :<br />
Si B est quasi-certain, pour tout événement A : P(A∩B) = P(A).<br />
dém : On a P(A) = P(A∩B) + P(A∩B c ) (égalité vue à la dém. de la propriété 1.2.2-4)<br />
Or par croissance de P , 0 ≤ P(A∩B c ) ≤ P(B c ) = 1 - P(B) = 0, <strong>d'</strong>où P(A∩B c ) = 0 et P(A) = P(A∩B).<br />
Conséquence : Pour calculer une probabilité, on peut, sans changer les résultats, se<br />
limiter à un événement quasi-certain de Ω.<br />
Définitions 1.2.7 :<br />
• Une suite (finie ou non) B , B , … , B , … <strong>d'</strong>événements non impossibles est un<br />
1 2 n<br />
système complet <strong>d'</strong>événements si :<br />
1) ∀ i ≠ j B ∩B = ∅<br />
i j<br />
2) Ω = ∪ B<br />
i<br />
i<br />
En termes ensemblistes, un système complet <strong>d'</strong>événements est une partition de Ω.<br />
• On définit aussi un système quasi-complet <strong>d'</strong>événements en remplaçant la condition<br />
2) ci-dessus par :<br />
2') ∪ B est quasi-certain.<br />
i<br />
i<br />
Proposition 1.2.8 : Formule des probabilités totales (1ère forme)<br />
• Si {B , B , … , B } est un système quasi-complet <strong>d'</strong>événements, pour tout<br />
1 2 n<br />
événement A : P(A) = ∑<br />
n<br />
i=1<br />
P(A∩B )<br />
i<br />
• Si B , B , … , B , … est une suite infinie <strong>d'</strong>événements constituant un système<br />
1 2 n<br />
quasi-complet, pour tout événement A : P(A) = ∑<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.18<br />
+∞<br />
i=1<br />
P(A∩B )<br />
i<br />
• Conséquence : dans les deux cas (système fini ou dénombrable) : ∑<br />
dém :<br />
i<br />
P(B ) = 1<br />
i<br />
• Par définition <strong>d'</strong>un système quasi-complet, ∪ B est quasi-certain, donc (propriété1.2.6), P(A) =<br />
i<br />
i<br />
P(A∩(∪ B )) = P(∪ (A∩B )). Or les (A∩B ) sont deux à deux incompatibles puisque les B le sont,<br />
i<br />
i<br />
i<br />
i<br />
i i<br />
donc P(∪ (A∩B ) = ∑<br />
i<br />
i<br />
i<br />
P(A∩B ) (par additivité de P dans le cas <strong>d'</strong>un système quasi-complet fini ; par<br />
i<br />
σ-additivité de P dans le cas <strong>d'</strong>un système quasi-complet dénombrable).<br />
• L'égalité ∑<br />
i<br />
P(B ) = 1 s'obtient en remplaçant A par Ω dans la formule ci-dessus.<br />
i
3 - Probabilité conditionnelle<br />
a) Définition<br />
Considérons un espace de probabilité (Ω, A, P) lié à une expérience aléatoire.<br />
Supposons que l'on sache qu'un événement B de A est réalisé. La probabilité <strong>d'</strong>un<br />
événement quelconque A de A risque alors <strong>d'</strong>être modifiée.<br />
k Exemple :<br />
Une famille de trois enfants vient de s’installer à côté de chez vous, et vous cherchez<br />
la probabilité qu’il y ait au moins une fille, lorsque :<br />
a) vous ne disposez d’aucun renseignement supplémentaire.<br />
b) vous savez qu'il y a au moins un garçon.<br />
c) vous savez que l’aîné est un garçon.<br />
L'ensemble Ω de toutes les configurations possibles <strong>d'</strong>une famille de trois enfants est l'ensemble des<br />
triplets dont les composantes valent F ou G ; la ième composante du triplet définit le sexe du ième<br />
enfant de la famille (i = 1, 2, 3).<br />
L'ensemble Ω étant fini, toute partie de Ω est un événement, et on met sur Ω la probabilité uniforme.<br />
Il y a donc 8 configurations possibles, chacune de probabilité<br />
a) Soit A l'événement "il y a au moins une fille". Les éléments de A sont les triplets dont au moins<br />
7<br />
une des composantes est F. Il y en a 7, donc P(A) = .<br />
8<br />
b) Si on sait qu'il y a au moins un garçon, on exclut le triplet (F, F, F) et il n'y a plus a priori que 7<br />
possibilités ; sur ces 7 triplets restants que l'on considère comme équiprobables, il y en a 6 pour<br />
6<br />
lesquels A est réalisé, <strong>d'</strong>où la probabilité cherchée : P (A) = .<br />
1 7<br />
c) Si on sait que l'aîné est un garçon, on ne garde que les 4 triplets dont la première composante est G ;<br />
3<br />
sur ces 4 triplets, il y en a 3 pour lesquels A est réalisé, <strong>d'</strong>où la probabilité cherchée : P (A) = .<br />
2 4<br />
Considérer que B est réalisé revient à ne plus raisonner sur Ω tout entier, mais<br />
seulement sur B, ce qui revient à mettre sur Ω une autre probabilité que la<br />
probabilité initiale.<br />
Définition 1.3.1 :<br />
Soit B un événement tel que P(B) ≠ 0.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.19<br />
1<br />
.<br />
8<br />
On appelle probabilité conditionnelle de A sachant B :<br />
P(A/B) =<br />
P(A∩B)<br />
P(B)
Dans la question b) de l'exemple ci-dessus, si on note B l'événement "il y a au moins un garçon", on a<br />
P(B) =<br />
7<br />
8<br />
et P(A∩B) =<br />
6<br />
8<br />
On retrouve la valeur que l'on avait notée P (A).<br />
1<br />
P(A∩C)<br />
De même P (A) =<br />
2 P(C)<br />
Propriété 1.3.2 :<br />
P(. /B) est une probabilité sur (Ω, A).<br />
(il y a 6 configurations mixtes sur les 8 possibles) <strong>d'</strong>où<br />
en notant C l'événement "l'aîné est un garçon".<br />
P(A∩B) 6<br />
= .<br />
P(B) 7<br />
Dans certains ouvrages, P(. /B) est notée P : nous n'utiliserons pas cette notation<br />
B<br />
pour éviter toute confusion avec la notation P qui sera introduite au chapitre 2.<br />
X<br />
dém : P(. /B) est bien une application de A dans R, et on va prouver qu'elle vérifie les trois conditions<br />
i) ii) iii) de la définition 1.2.1 :<br />
• i) ∀ A ∈ A P(A/B) =<br />
• ii) P(Ω/B) =<br />
P(Ω∩B)<br />
P(B)<br />
P(A∩B)<br />
P(B)<br />
P(B)<br />
= = 1<br />
P(B)<br />
≥ 0 car P(A∩B) ≥ 0 et P(B) > 0.<br />
• iii) Soit (A n ) n≥1 une suite <strong>d'</strong>événements deux à deux incompatibles :<br />
+∞<br />
1 +∞<br />
1 +∞<br />
P( (∪ A )/B) = P( ( ∪ A )∩B) = P (∪ (A<br />
i i i<br />
∩B))<br />
i=1<br />
P(B)<br />
i=1<br />
P(B)<br />
i=1<br />
les (A ∩B) sont deux à deux incompatibles puisque les A le sont, donc par σ-additivité de P,<br />
i<br />
i<br />
+∞<br />
+∞<br />
+∞<br />
1 +∞<br />
+∞<br />
P (∪ (A<br />
i<br />
∩B)) = ∑ P(A ∩B) <strong>d'</strong>où P( (∪ A )/B) =<br />
i<br />
i ∑ P(A ∩B) = ∑ P(A<br />
i<br />
/B)<br />
i=1<br />
i=1<br />
P(B) i<br />
i=1<br />
i=1<br />
i=1<br />
Conséquence :<br />
Toutes les propriétés 1.2.2 sont vraies en remplaçant P par P(. /B).<br />
Par exemple :<br />
• 0 ≤ P(A/B) ≤ 1<br />
• P(A c /B) = 1 - P(A/B)<br />
• P[(A∪A')/B] = P(A/B) + P(A'/B) - P[(A∩A')/B]<br />
• Pour toute suite croissante <strong>d'</strong>événements (A n ) n∈N<br />
etc…<br />
lim<br />
n→+∞<br />
P(An /B) = sup P(An /B)<br />
n<br />
b) Les trois formules de probabilité conditionnelle<br />
Formule des probabilités composées 1.3.3 :<br />
• Soit B un événement tel que P(B) ≠ 0. La formule ci-dessus s'écrit :<br />
P(A∩B) = P(B) P(A/B)<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.20
• Plus généralement :<br />
Soient A , A , … , A<br />
1 2 n n événements tels que P(A ∩A ∩ … ∩A ) ≠ 0. On a :<br />
1 2 n-1<br />
P(A ∩A ∩ … ∩A ) = P(A ) P(A /A ) P(A /A ∩A ) … P(A /A ∩A ∩ … ∩A )<br />
1 2 n 1 2 1 3 1 2 n 1 2 n-1<br />
dém :<br />
La condition P(A ∩A ∩ … ∩A ) ≠ 0 assure que pour tout k ≤ n-1, P(A ∩A ∩ … ∩A ) ≠ 0, donc<br />
1 2 n-1<br />
1 2 k<br />
toutes les probabilités conditionnelles P(A /A ), P(A /A ∩A ), … , P(A /A ∩A ∩ … ∩A )<br />
2 1 3 1 2 n 1 2 n-1<br />
existent. La formule se démontre par récurrence sur n.<br />
{ Remarque : On utilise souvent cette formule dans le cas où plusieurs événements<br />
se sont succédé (par exemple des tirages successifs dans une urne dont la<br />
composition est modifiée à chaque tirage en fonction du résultat du tirage<br />
précédent). Les événements sont alors introduits par ordre chronologique : A est le<br />
1<br />
premier événement à s'être produit, A le second etc …<br />
2<br />
La formule des probabilités composées justifie l’utilisation des arbres pour certains<br />
calculs probabilistes.<br />
Formule des probabilités totales 1.3.4 : (2ème forme)<br />
• Soit une famille finie B , B , … , B <strong>d'</strong>événements tous de probabilité non nulle et<br />
1 2 n<br />
constituant un système quasi-complet <strong>d'</strong>événements. On a pour tout événement A :<br />
n<br />
P(A) = ∑<br />
i=1<br />
P(A/B ) P(B )<br />
i i<br />
Cette formule est fréquemment utilisée avec un système complet <strong>d'</strong>événements de<br />
type { B, B c } tel que 0 < P(B) < 1 : P(A) = P(A/B) P(B) + P(A/B c ) P(B c )<br />
• Si le système quasi-complet <strong>d'</strong>événements est constitué <strong>d'</strong>une suite infinie B , B ,<br />
1 2<br />
… , B , … <strong>d'</strong>événements tous de probabilité non nulle, on a :<br />
n<br />
dém :<br />
+∞<br />
P(A) = ∑<br />
i=1<br />
P(A/B ) P(B )<br />
i i<br />
il suffit <strong>d'</strong>écrire la formule 1.2.8 en remplaçant P(A∩B ) par P(A/B ) P(B )<br />
i<br />
i i<br />
k Exemple :<br />
Une urne contient initialement 2 boules blanches. Un compteur affiche un entier<br />
aléatoire non nul i, on ajoute alors i boules noires dans l'urne puis on en tire une<br />
boule au hasard. Pour i ≥ 1, la probabilité <strong>d'</strong>afficher i est<br />
probabilité que la boule tirée soit blanche ?<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.21<br />
1<br />
i(i+1)<br />
. Quelle est la
dém :<br />
On définit les événements :<br />
A : "la boule tirée est blanche"<br />
B : "le compteur affiche l'entier i"<br />
i<br />
Les B constituent un système complet <strong>d'</strong>événements , <strong>d'</strong>où P(A) = ∑<br />
i<br />
i=1<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.22<br />
+∞<br />
+∞<br />
P(A/B ) P(B ) = ∑<br />
i i<br />
2<br />
1<br />
i+2 i(i+1)<br />
i=1<br />
(en effet, lorsque B est réalisé, il y a dans l'urne avant le tirage 2 boules blanches et i boules noires)<br />
i<br />
Pour calculer la somme de la série, on décompose en éléments simples la fraction rationnelle en i :<br />
2<br />
i(i+1)(i+2)<br />
1<br />
=<br />
i<br />
n 2 n<br />
∑<br />
i(i+1)(i+2)<br />
= ∑<br />
i=1<br />
i=1<br />
2 1<br />
- +<br />
i+1 i+2<br />
1<br />
(<br />
i<br />
1<br />
= (<br />
i<br />
1 1 1<br />
- ) - ( - )<br />
i+1 i+1 i+2<br />
1 n 1<br />
- ) - ∑ ( -<br />
i+1 i+1<br />
i=1<br />
n 2<br />
On conclut : P(A) = lim ∑<br />
i(i+1)(i+2)<br />
n→+∞ i=1<br />
Formule de Bayes 1.3.5 :<br />
1<br />
=<br />
2<br />
1<br />
n<br />
) = ∑<br />
i+2<br />
i=1<br />
1<br />
(<br />
i<br />
-<br />
1<br />
n+1<br />
) - ∑<br />
i+1<br />
i=2<br />
Soient A et B deux événements de probabilité non nulle.<br />
P(A/B) =<br />
P(B/A) P(A)<br />
P(B)<br />
1<br />
(<br />
i<br />
1 1 1 1<br />
- ) = - +<br />
i+1 2 n+1 n+2<br />
dém : il suffit <strong>d'</strong>écrire de deux façons différentes P(A∩B) = P(A/B) P(B) = P(B/A) P(A)<br />
Considérons deux événements dont l'un, B , est la conséquence de l'autre, A, appelé<br />
cause. On suppose que P(B/A) est connue. La formule de Bayes permet de calculer la<br />
probabilité conditionnelle de A sachant que B est réalisé. Pour cette raison, elle était<br />
autrefois appelée formule de probabilité des causes.<br />
k Exemples :<br />
Dans l'exemple ci-dessus de l'urne et du compteur : sachant que la boule tirée est<br />
blanche, quelle est la probabilité que le numéro affiché soit 1 ?<br />
dém : On demande P(B /A) =<br />
1<br />
2<br />
P(A/B ) =<br />
1 3<br />
A retenir :<br />
1<br />
; P(B ) =<br />
1 2<br />
et P(A) =<br />
P(A/B ) P(B )<br />
1 1<br />
1<br />
2<br />
P(A)<br />
2<br />
(calcul ci-dessus) <strong>d'</strong>où P(B /A) =<br />
1 3<br />
• La notion de probabilité conditionnelle s'introduit naturellement chaque fois qu'on<br />
acquiert une information partielle sur le résultat <strong>d'</strong>une expérience aléatoire.<br />
• Elle s'utilise aussi lorsqu'on se livre à deux expériences aléatoires successives telles<br />
que les conditions de la seconde sont fonction du résultat de la première.
4 - Evénements indépendants<br />
a) Indépendance de deux événements<br />
Définition 1.4.1 :<br />
Soit (Ω, A, P) un espace de probabilité. Deux événements A et B sont dits<br />
(stochastiquement) indépendants si P(A∩B) = P(A) P(B).<br />
k Exemple :<br />
On tire une carte au hasard dans un jeu de 32 cartes. Les événements A = "c'est un<br />
pique" et B ="c'est un honneur" sont indépendants.<br />
dém : Ω est l'ensemble des 32 cartes : 8 cartes (as-roi-dame-valet-10-9-8-7) pour chacune des 4<br />
couleurs (pique-coeur-carreau-trèfle) ; on munit Ω de la probabilité uniforme puisque le tirage se<br />
8 1<br />
fait au hasard, donc P(A) = =<br />
32 4<br />
16 1<br />
Il y a 16 honneurs (as- roi-dame-valet de chaque couleur), donc P(B) = =<br />
32 2<br />
Enfin il y a 4 honneurs de pique, donc P(A∩B) =<br />
{ Remarques :<br />
4 1<br />
= = P(A) P(B)<br />
32 8<br />
• Ne pas confondre événements indépendants et événements incompatibles.<br />
• L'indépendance se définit par rapport à une certaine probabilité P.<br />
Deux événements peuvent être indépendants pour une probabilité P et ne pas l'être<br />
pour une autre probabilité Q définie sur (Ω, A) (par exemple, Q = P(. /E) où E est un<br />
événement de probabilité non nulle).<br />
k Exemple :<br />
Reprendre l'exemple ci-dessus avec la probabilité conditionnelle P(. /E), où E est<br />
l'événement " c'est une dame ou un coeur".<br />
P(A∩E)<br />
dém : Posons Q = P(. /E) ; par définition, Q(A) =<br />
P(E)<br />
11<br />
Il y a 4 dames et 7 coeurs autres que la dame, donc P(E) =<br />
32<br />
1<br />
appartient à A∩E) <strong>d'</strong>où Q(A) =<br />
11<br />
1<br />
On remarque que A∩B∩E = A∩E <strong>d'</strong>où Q(A∩B) = Q(A) =<br />
11<br />
1<br />
; P(A∩E) =<br />
32<br />
(seule la dame de pique<br />
7<br />
7<br />
De plus P(B∩E) = (les 4 dames et les 3 honneurs de coeur autres que la dame) <strong>d'</strong>où Q(B) =<br />
32<br />
11<br />
Q(A∩B) ≠ Q(A) Q(B) : A et B ne sont pas indépendants pour la probabilité Q, alors qu'ils le sont<br />
pour la probabilité P.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.23
Propriété 1.4.2 :<br />
Soient A et B deux événements de probabilité non nulle. Les trois conditions sont<br />
équivalentes :<br />
i) A et B sont indépendants<br />
ii) P(A/B) = P(A)<br />
iii) P(B/A) = P(B)<br />
Les propriétés ii) et iii) justifient le terme "indépendants" : la probabilité de A n'est<br />
pas modifiée par le fait que l'on sache B réalisé.<br />
dém :<br />
• ii) ⇒ i) : l'égalité P(A∩B) = P(A/B) P(B) est toujours vraie dès que P(A/B) existe ; si P(A/B) =<br />
P(A), on en déduit P(A∩B) = P(A) P(B)<br />
• i) ⇒ ii) : l'égalité P(A∩B) = P(A/B) P(B) est vraie, et par hypothèse P(A∩B) = P(A) P(B), <strong>d'</strong>où<br />
P(A/B) P(B) = P(A) P(B) et P(A/B) = P(A) puisque P(B) ≠ 0.<br />
L'équivalence i) ⇔ iii) s'établit par symétrie entre A et B.<br />
Propriété 1.4.3 : Si A et B sont deux événements indépendants, alors :<br />
A et B c sont indépendants<br />
A c et B sont indépendants<br />
A c et B c sont indépendants<br />
dém : P(A) = P(A∩B) + P(A∩B c ), <strong>d'</strong>où P(A∩B c ) = P(A) - P(A∩B) = P(A) - P(A)P(B) (indépendance<br />
de A et B) = P(A) [1 - P(B)] = P(A) P(B c ) c.q.f.d.<br />
On inverse les rôles de A et B pour la deuxième propriété. La troisième se démontre en deux temps :<br />
l'indépendance de A et B assure celle de A et B c , puis (même raisonnement) celle de A c et B c .<br />
b) Indépendance mutuelle<br />
Définition 1.4.4 :<br />
Une suite (finie ou non) A , A , … , A , … <strong>d'</strong>événements est une suite indépendante<br />
1 2 n<br />
si et seulement si pour toute sous-famille finie <strong>d'</strong>indices 1 ≤ i 1 < i 2 < … < i k :<br />
P(A ∩A ∩ … ∩A ) = P(A ) P(A ) … P(A )<br />
i1 i2 ik i1 i2 ik<br />
On dit aussi que les événements A i<br />
Exemple :<br />
sont mutuellement indépendants.<br />
• Pour établir l'indépendance mutuelle de trois événements A, B, C, il faut vérifier 4 égalités :<br />
⎧ P(A∩B) = P(A) P(B)<br />
⎪<br />
⎪ P(A∩C) = P(A) P(C)<br />
⎨<br />
⎪ P(B∩C) = P(B) P(C)<br />
⎪<br />
⎩ P(A∩B∩C) = P(A) P(B) P(C)<br />
• Dans le cas <strong>d'</strong>une famille finie de n événements, vérifier l'indépendance mutuelle conduit à<br />
n<br />
vérifier (2 - n - 1) égalités (11 égalités à vérifier pour n = 4, et 26 égalités pour n = 5 …)<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.24
Propriété 1.4.5 :<br />
Par définition, l'indépendance mutuelle <strong>d'</strong>une famille implique l'indépendance deux à<br />
deux des événements de cette famille, mais la réciproque est fausse.<br />
k Exemple :<br />
On lance deux fois un dé, et on définit les événements suivants :<br />
A = " le premier lancer est pair"<br />
B = " le deuxième lancer est pair"<br />
C = " la somme des lancers est paire".<br />
A, B et C sont indépendants deux à deux, mais ne sont pas mutuellement indépendants.<br />
(le dé est supposé honnête, et les deux lancers indépendants).<br />
1<br />
dém : P(A) = P(B) =<br />
2<br />
(le dé est honnête, et à chaque lancer il y a 3 numéros pairs sur les 6 possibles)<br />
1<br />
Par hypothèse, A et B sont indépendants, P(A∩B) = P(A) P(B) =<br />
4<br />
C = C 0 ∪C 1 (union disjointe) avec : C 0 = les deux lancers sont pairs et C 1 = les deux lancers sont<br />
impairs<br />
1<br />
P(C ) = P(A∩B) =<br />
0<br />
4<br />
1<br />
. On démontre de même P(C ) =<br />
1<br />
4<br />
1<br />
. Donc P(C) =<br />
2<br />
1<br />
On a A∩C = A∩B, donc P(A∩C) = P(A∩B) = = P(A) P(C) : A et C sont indépendants.<br />
4<br />
On démontre de même que B et C sont indépendants.<br />
Les trois événements A, B et C sont donc bien indépendants deux à deux.<br />
1<br />
Par contre A∩B∩C = A∩B, <strong>d'</strong>où P(A∩B∩C) = ≠ P(A) P(B) P(C)<br />
4<br />
Proposition 1.4.6 :<br />
Si A , A , … , A , … est une famille finie ou non <strong>d'</strong>événements mutuellement<br />
1 2 n<br />
indépendants, pour toute sous-famille finie <strong>d'</strong>indices 1 ≤ i 1 < i 2 < … < i k ,<br />
P(A' ∩A' ∩ … ∩A' ) = P(A' ) P(A' ) … P(A' )<br />
i1 i2 ik i1 i2 ik<br />
avec pour tout i, A' i = A i<br />
ou A i<br />
c<br />
dém : par récurrence sur le nombre <strong>d'</strong>indices i tels que A est remplacé par son complémentaire.<br />
i<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.25
5 - Ω non dénombrable : deux exemples pour réfléchir<br />
A part la définition 1.2.1 <strong>d'</strong>une probabilité qui introduit la notion nouvelle de tribu,<br />
on constate que les définitions et propriétés énoncées aux §2-3-4 sont<br />
rigoureusement identiques (y compris les démonstrations) à celles vues en première<br />
année, où la probabilité P était définie sur P(Ω).<br />
D'où la question : pourquoi cette notion de tribu ?<br />
La réponse est que sans les tribus, on ne pourrait garantir l'existence de certaines<br />
probabilités sur les espaces Ω non dénombrables.<br />
Ce problème <strong>d'</strong>existence ne se pose pas dans le cas où Ω est fini : on a vu au §2-b)<br />
qu'il est très facile de définir une probabilité en donnant la valeur de chaque P(ω). Il<br />
suffit de respecter les conditions : P(ω) ≥ 0 pour tout ω de Ω et ∑<br />
ω∈Ω<br />
P(ω) = 1.<br />
Il en va de même si Ω est dénombrable. Les justifications sont juste un petit peu plus<br />
compliquées puisqu'elles utilisent les propriétés des séries.<br />
Dans le cas où Ω n'est pas dénombrable, l'exemple 1 ci-dessous va nous montrer<br />
qu'on ne peut plus en général définir P "point par point" sur chaque ω de Ω. Il faut<br />
donc la définir directement sur les événements, qui sont des parties de Ω.<br />
Or on verra à l'exemple 2 que pour des raisons techniques, certains types de<br />
probabilités pourtant très intéressantes ne peuvent être définies sur P(Ω) tout entier,<br />
<strong>d'</strong>où la nécessité de ne considérer comme événements qu'une sous-famille stricte de<br />
P(Ω). Il est naturel pour des raisons logiques que cette sous-famille contienne Ω<br />
(événement certain) et ∅ (événement impossible), soit stable par passage au<br />
complémentaire (événement contraire <strong>d'</strong>un événement donné) ainsi que par<br />
intersection (réalisation simultanée <strong>d'</strong>événements, lien logique : et) et réunion<br />
(réalisation <strong>d'</strong>au moins un des événements considérés, lien logique : ou non exclusif)<br />
finies (ou dénombrables car certaines expériences théoriques conduisent à étudier<br />
des suites <strong>d'</strong>événements, voir l'exemple 1 ci-dessous). D'où la définition des tribus.<br />
a) Exemple 1 : P doit être définie directement sur A<br />
Voici un exemple <strong>d'</strong>expérience aléatoire, à propos duquel on verra l'utilité de<br />
certaines des propriétés de calcul <strong>d'</strong>une probabilité (passage au complémentaire,<br />
additivité, passage à la limite croissante ou décroissante).<br />
Une urne (que l'on appellera dans la suite du cours "urne RBV”) contient 3 boules,<br />
une rouge, une blanche, une verte. Dans cette urne, on tire une infinité de fois une<br />
boule avec remise.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.26
• Modélisation de l'espace de probabilité :<br />
Ω = {R, B, V} N* = ensemble des suites (u ) où u est la couleur tirée au ième tirage<br />
n n≥1 i<br />
(u = R, B, ou V)<br />
i<br />
Cet ensemble Ω est évidemment infini.<br />
On admettra (cela se démontre) qu'il existe une tribu A formée des parties de Ω que<br />
l'on peut décrire à partir de l'expérience aléatoire et une probabilité P définie sur A<br />
telle que :<br />
- à chaque tirage, la probabilité <strong>d'</strong>avoir une couleur donnée vaut 1/3 ;<br />
- les résultats des différents tirages sont indépendants (tirages avec remise).<br />
• Probabilité <strong>d'</strong>avoir un tirage tricolore sur les n premiers tirages (n ≥ 3)<br />
Soit n fixé ≥ 3, et soit A n l'événement : "les trois couleurs sont apparues sur les n<br />
premiers tirages".<br />
On montre que : P(A n ) =<br />
3 n-1 - 2 n + 1<br />
3 n-1<br />
• Probabilité <strong>d'</strong>avoir un tirage tricolore sur l'ensemble des tirages<br />
Soit A l'événement : "les trois couleurs sont apparues sur l'ensemble des tirages".<br />
+∞<br />
On a : A = ∪ A<br />
i<br />
i=3<br />
On montre que : P(A) = lim<br />
n→+∞<br />
L'événement A est quasi-certain.<br />
P(A n ) = 1<br />
• Probabilité <strong>d'</strong>un événement élémentaire {ω}<br />
Soit ω un élément de Ω fixé. ω est une suite (u ) où u est la couleur tirée au ième<br />
n n≥1 i<br />
tirage (u = R, B, ou V)<br />
i<br />
On montre que : P(ω) = 0<br />
Tout événement élémentaire est négligeable.<br />
• Conclusion :<br />
Puisque pour tout ω P(ω) = 0, il est impossible ici de reconstituer la probabilité P à<br />
partir des P(ω) comme on peut le faire dans le cas où Ω est fini ou dénombrable en<br />
posant pour tout événement A : P(A) = ∑<br />
ω∈A<br />
P(ω) .<br />
Ici, l'ensemble fondamental Ω n'est pas dénombrable, <strong>d'</strong>où la nécessité de définir la<br />
probabilité P non pas "point par point" mais directement sur la tribu A des<br />
événements.<br />
b) Exemple 2 : Prendre A = P(Ω) n'est pas toujours possible<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.27
Supposons maintenant qu'on lance une aiguille infiniment fine sur une règle de<br />
longueur 1, le résultat de l'expérience est l'abscisse ω (réel compris entre 0 et 1) de<br />
l'impact de l'aiguille sur la règle. Ici Ω = [0, 1] et les parties de Ω auxquelles on pense<br />
"naturellement" sont les intervalles [a, b] avec 0 ≤ a ≤ b ≤ 1, ou les réunions finies de<br />
tels intervalles (rappelons qu'un point est un intervalle : { a} = [a, a]).<br />
Si on suppose que les conditions de l'expérience sont telles qu'il n'y a pas de région<br />
privilégiée de la règle, il est naturel de penser que la probabilité que l'impact de<br />
l'aiguille se trouve dans un intervalle donné [a, b] est proportionnelle à la longueur<br />
de cet intervalle, ce qui conduit ici à poser : P( [a, b]) = b - a (condition (*))<br />
D'où la question : une telle probabilité existe-t-elle ?<br />
Si elle existe, on a nécessairement P(ω) = 0 pour tout ω, donc même problème que<br />
dans l'exemple précédent.<br />
On ne peut se limiter à une probabilité qui serait définie seulement sur la famille des<br />
intervalles de [0, 1], car cette famille n'est pas une tribu.<br />
Vous verrez (cours <strong>d'</strong>Intégrale de Lebesgue en L3) qu'on peut construire une<br />
probabilité définie de manière unique sur la tribu borélienne de [0, 1] (tribu<br />
engendrée par les intervalles de [0, 1]) et vérifiant la condition (*).<br />
Cette probabilité s'appelle probabilité uniforme sur l'intervalle [0, 1].<br />
Par contre, on peut montrer par l'absurde qu'il n'existe pas de probabilité P définie<br />
sur P([0,1]) et vérifiant la condition (*), en construisant une famille dénombrable de<br />
parties A (évidemment non boréliennes), deux à deux disjointes et toutes de même<br />
n<br />
+∞<br />
probabilité, telles que [0, 1 [ = ∪ A<br />
n<br />
n=1<br />
Cette construction nécessite l'axiome du choix.<br />
Que P(A ) = 0 ou P(A ) > 0, on arrive dans les deux cas à une contradiction.<br />
n<br />
n<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.28
6 - <strong>Anne</strong>xe : Construction des espaces de probabilité<br />
liés aux différents modes de tirage<br />
Voici trois exemples de construction <strong>d'</strong>espaces Ω liés aux divers modes de tirage de<br />
boules dans une urne.<br />
On appelle E l'ensemble des boules de l'urne, et on pose cardE = N (N ≥ 1).<br />
k Exemple 1 : tirages successifs avec remise<br />
On tire n fois de suite une boule, en la remettant dans l'urne avant le tirage suivant.<br />
• Ω = E n<br />
= { (x , x , … , x ) / ∀ i ∈ [[1, n]] x ∈E}<br />
1 2 n<br />
i<br />
Chaque ω = (x , x , … , x ) est donc un n-uplet (ou n-liste) où pour 1≤i≤n, x est la<br />
1 2 n<br />
i<br />
i ème<br />
boule tirée.<br />
Il y a un ordre de tirage, et la même boule peut être tirée deux ou plusieurs fois, donc<br />
pas de condition restrictive sur les x .<br />
i<br />
• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce<br />
qui revient à munir Ω de la probabilité uniforme :<br />
∀ ω ∈ Ω P(ω) =<br />
1<br />
cardΩ<br />
cardΩ = N n<br />
k Exemple 2 : tirages successifs sans remise<br />
On tire n fois de suite une boule, en mettant de côté les boules tirées. On doit donc<br />
avoir : n ≤ N.<br />
• Ω = { (x , x , … , x ) ∈ E<br />
1 2 k<br />
n<br />
/ ∀ (i, j) ∈ [[1, n]] 2<br />
Pour 1≤ i ≤ n, x est la boule tirée au i<br />
i<br />
ème<br />
i ≠ j ⇒ x ≠ x }<br />
i j<br />
un n-uplet dont les composantes sont deux à deux distinctes.<br />
tirage; chaque ω = (x , x , … , x ) est donc<br />
1 2 k<br />
Il y a un ordre de tirage, mais la même boule ne peut être tirée plus <strong>d'</strong>une fois, <strong>d'</strong>où<br />
les conditions sur les x .<br />
i<br />
• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce qui<br />
revient à munir Ω de la probabilité uniforme :<br />
∀ ω ∈ Ω P(ω) =<br />
1<br />
cardΩ<br />
n<br />
cardΩ = A<br />
N<br />
k Exemple 3 : tirage simultané (ou exhaustif)<br />
Les n boules sont tirées en une fois. Ici aussi : n ≤ N.<br />
• Ω = P (E) , ensemble des parties à n éléments de E.<br />
n<br />
Il n'y a pas ici <strong>d'</strong>ordre de tirage, cela n'a donc pas de sens de parler de première ou<br />
dernière boule.<br />
• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce qui<br />
revient à munir Ω de la probabilité uniforme :<br />
∀ ω ∈ Ω P(ω) =<br />
1<br />
cardΩ<br />
n<br />
cardΩ = C<br />
N<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.29
Propriété 1.6.1 :<br />
Si A est un événement relatif seulement à la composition de l'échantillon obtenu<br />
(par exemple A = n'obtenir aucune boule noire ou A = obtenir dans l'échantillon un<br />
nombre de boules noires inférieur au nombre de boules blanches), on peut<br />
démontrer que P(A) a la même valeur dans le cas de tirages successifs sans remise<br />
ou dans le cas <strong>d'</strong>un tirage exhaustif.<br />
On peut donc raisonner pour calculer P(A) indifféremment avec l'un ou l'autre<br />
modèle, mais attention à être cohérent dans le choix de ΩΩΩΩ , le calcul de cardΩΩΩΩ, et le<br />
calcul de cardA.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.30
Chapitre 2 : Variables aléatoires réelles<br />
1 - Définition générale <strong>d'</strong>une variable aléatoire<br />
a) Image et image réciproque <strong>d'</strong>un ensemble par une application<br />
Définitions 2.1.1 :<br />
Soit f une application <strong>d'</strong>un ensemble E dans un ensemble F.<br />
• Soit A une partie de E. On note f(A) = {y ∈ F/∃ x ∈ A y = f(x)}<br />
f(A) est une partie de F. On l'appelle image de A par f.<br />
• Soit B une partie de F. On note f -1<br />
(B) = {x ∈ E/ f(x) ∈ B}<br />
f -1<br />
(B) est une partie de E. On l'appelle image réciproque de B par f.<br />
* Attention ! La notation f -1<br />
(B) ne signifie pas que f est une application bijective.<br />
b) Variable aléatoire<br />
Soit une expérience aléatoire modélisée par un espace de probabilité (Ω, A, P).<br />
On peut être amené à associer à chaque résultat ω de l'expérience aléatoire un réel<br />
dépendant de ω.<br />
k Exemple 1 :<br />
On lance trois fois un dé, et pour tout tirage ω on note S(ω) la somme des chiffres<br />
obtenus. Selon une règle fixée à l'avance, il peut être convenu que le joueur touchera<br />
un gain X(ω) dépendant de S(ω).<br />
⎧ S(ω) - 10 si S(ω) ≥ 10<br />
Par exemple : X(ω) = ⎨<br />
⎩ 0 sinon<br />
Si le joueur a misé une somme m pour jouer, on peut aussi considérer le gain<br />
algébrique : Y(ω) = X(ω) - m.<br />
X est une application à valeurs dans N, Y est à valeurs dans Z (si m entier).<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.31
k Exemple 2 : l'urne RBV<br />
Dans une urne contenant 1 boule rouge, 1 blanche et 1 verte, on tire n fois une boule<br />
avec remise, et on note pour tout tirage ω :<br />
X(ω) = le nombre de boules rouges obtenues ;<br />
Y(ω) = le rang <strong>d'</strong>apparition de la première boule rouge (en posant Y(ω) = n+1 si<br />
aucune boule rouge ne sort à ce tirage) ;<br />
Z(ω) =<br />
⎧ 1 si on obtient un tirage unicolore<br />
⎨<br />
⎩<br />
0 sinon<br />
T(ω) = le nombre de couleurs apparues.<br />
X, Y, Z, T sont à valeurs dans N.<br />
k Exemple 3 :<br />
On observe les arrivées de véhicules à un péage à partir de l'instant 0.<br />
On peut définir :<br />
X(ω) = le nombre de véhicules arrivé entre l'instant 0 et l'instant t (t fixé).<br />
T (ω) et plus généralement T (ω) l'instant <strong>d'</strong>arrivée du premier (du n<br />
1<br />
n<br />
ème<br />
) véhicule.<br />
T est à valeurs dans R + .<br />
n<br />
Dans chaque cas, on a défini une (ou plusieurs) applications de Ω dans R : pour une<br />
telle application X, il est naturel de s’intéresser à l’ensemble des résultats ω de Ω tels<br />
que par exemple on ait X(ω) = x ou X(ω) ≤ x (x étant un réel fixé) et à calculer la<br />
probabilité de ces éventualités.<br />
Mais pour que ces calculs soient possibles, il faut que les sous-ensembles de Ω définis<br />
par {ω ∈ Ω/ X(ω) = x } ou {ω ∈ Ω/ X(ω) ≤ x } soient des événements (c’est-à-dire des<br />
éléments de la tribu A), d’où les propriétés que l’on impose à l’application X.<br />
Définition 2.1.2 :<br />
Soit (Ω, A, P) un espace de probabilité. On appelle variable aléatoire (en abrégé v.a.)<br />
une application X de Ω dans R telle que l’image réciproque par X de tout borélien de<br />
R est un événement.<br />
∀ B ∈ B X -1<br />
(B) = {ω ∈ Ω/ X(ω) ∈ B} ∈ A<br />
B désigne l'ensemble des boréliens de R.<br />
On notera aussi : X -1<br />
(B) = (X ∈ B).<br />
En particulier, l’image réciproque de tout intervalle de R est un événement :<br />
X -1<br />
( ] a, b [) = (X ∈ ] a, b [) = (a < X < b)<br />
X -1<br />
( [ a, b ]) = (X ∈ [ a, b ]) = (a ≤ X ≤ b)<br />
X -1<br />
( ] a, +∞ [) = (X ∈ ] a, +∞ [) = (X > a)<br />
X -1<br />
({a}) = (X = a)<br />
etc …<br />
• Dans le cas où A = P(Ω) (condition toujours réalisée si Ω est fini ou dénombrable),<br />
toute application réelle X définie sur Ω est une variable aléatoire.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.32
• Dans le cas général, on admettra que pour que X soit une variable aléatoire, il suffit<br />
que :<br />
- l’image réciproque par X de tout intervalle de R soit un événement (condition a<br />
priori moins forte que celle de la définition)<br />
ou même que :<br />
- l’image réciproque par X de toute demi-droite de type ] -∞, x ] (x réel) soit un<br />
événement (condition encore moins forte que la précédente).<br />
k Exemple fondamental :<br />
Soit A un événement de A, on appelle fonction indicatrice de A la fonction définie<br />
sur Ω par :<br />
⎧<br />
⎪ ∀ ω ∈ A 1A(ω)<br />
= 1<br />
⎨<br />
⎪ ∀ ω ∉ A 1 (ω) = 0<br />
⎩<br />
A<br />
1 est une variable aléatoire.<br />
A<br />
* Attention !<br />
Cet exemple établit un lien entre la notion <strong>d'</strong>événement et celle de variable aléatoire,<br />
mais il ne faut pas confondre ces deux notions : un événement est une partie de Ω<br />
alors qu’une variable aléatoire est une application de Ω dans R (autrement dit une<br />
fonction).<br />
En particulier, si X est une v.a., la notation P(X) n'a aucun sens.<br />
Proposition 2.1.3 : (admise)<br />
Si X et Y sont deux v.a. sur le même espace probabilisable (Ω, A), pour tout réel λ, les<br />
applications λX, X + Y et XY sont des v.a.<br />
ce qui peut s'énoncer : l'ensemble des v.a. définies sur l'espace probabilisable (Ω, A) a<br />
une structure d’algèbre.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.33
2 - Loi et fonction de répartition <strong>d'</strong>une v. a.<br />
Soit X une v.a. définie sur un espace de probabilité (Ω, A, P). Par définition d’une<br />
variable aléatoire, pour tout borélien B de R, (X ∈ B) est un événement. On peut<br />
donc calculer la probabilité de cet événement : en toute rigueur, il faudrait noter cette<br />
probabilité P((X ∈ B)) mais en pratique on écrit simplement P(X ∈ B).<br />
Proposition et définition 2.2.1 :<br />
Pour tout borélien B de R, on pose : P (B) = P(X ∈ B)<br />
X<br />
P est une probabilité sur l’espace probabilisable (R, B(R)). On l’appelle la loi de X,<br />
X<br />
ou distribution de probabilité de X.<br />
On admettra que la loi P X<br />
est totalement connue si on connait P [(a, b)] pour tout<br />
X<br />
intervalle (a, b) de R. On peut même se limiter aux intervalles de type ]-∞, a].<br />
Définition 2.2.2 :<br />
On appelle fonction de répartition de X la fonction F définie sur R par :<br />
X<br />
∀ x ∈ R F (x) = P(X ≤ x)<br />
X<br />
Notations équivalentes : P(X ≤ x) = P(X ∈] -∞, x ]) = P (] -∞, x ])<br />
X<br />
* Attention aux notations ! On réserve les lettres majuscules (X) aux variables<br />
aléatoires, et les lettres minuscules (x) aux réels.<br />
La fonction de répartition est un outil mathématique dont l’intérêt principal est de<br />
caractériser la loi d’une variable aléatoire. Toutes les fonctions de répartition ont des<br />
propriétés communes, énoncées ci-dessous dans le cas général. On étudiera dans ce<br />
cours deux grands types de variables aléatoires réelles : les variables aléatoires<br />
discrètes et les variables aléatoires à densité. Il existe aussi des variables dont les lois<br />
sont des mélanges d’une loi discrète et d’une loi à densité.<br />
Propriétés 2.2.3 :<br />
• La fonction de répartition F est croissante et à valeurs dans [ 0, 1 ].<br />
X<br />
• On a : lim F (x) = 0 et lim F (x) = 1<br />
X<br />
X<br />
x→-∞<br />
x→+∞<br />
• ∀ a ∈ R P(X > a) = 1 - F (a)<br />
X<br />
• ∀ (a, b) ∈ R 2<br />
a < b P(a < X ≤ b) = F (b) - F (a)<br />
X X<br />
• F est continue à droite et a une limite à gauche en tout point :<br />
X<br />
lim F (x) = F (a) lim F (x) = P(X < a)<br />
X X<br />
X<br />
x→a+<br />
x→a-<br />
• ∀ a ∈ R P(X = a) = F (a) - lim F (x)<br />
X<br />
X<br />
x→a-<br />
• La fonction de répartition <strong>d'</strong>une variable aléatoire caractérise sa loi. (admis)<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.34
* Attention ! Dans certains ouvrages figure une définition légèrement différente de<br />
la fonction de répartition : F (x) = P(X < x) = P(X ∈] -∞, x [).<br />
X<br />
Avec cette définition, la fonction de répartition est continue à gauche, et non plus<br />
continue à droite.<br />
3 - Variable aléatoire discrète<br />
a) Définition<br />
Définitions et proposition 2.3.1 :<br />
Une variable aléatoire X est discrète finie si elle ne prend qu'un nombre fini de<br />
valeurs { x / 1 ≤ i ≤ n }.<br />
i<br />
Une variable aléatoire X est discrète dénombrable si elle prend une infinité<br />
dénombrable de valeurs { x i / i ∈ N }. Dans le cadre de ce cours, les v.a. discrètes<br />
dénombrables que l'on rencontrera seront à valeurs dans N ou Z.<br />
Pour unifier les notations, on notera { x i / i ∈ I } l’ensemble des valeurs prises par X,<br />
I étant une partie finie ou non de N.<br />
• Connaître la loi de X, c'est connaître :<br />
- l'ensemble des valeurs de X : X(Ω) = { x / i ∈ I }<br />
i<br />
- la suite (p i ) de réels (suite finie ou non) définis par : ∀ i ∈ I p i<br />
⎧ ∀ i ∈ I p ≥ 0<br />
i<br />
⎪<br />
⎨<br />
⎪<br />
⎩<br />
∑<br />
i∈I<br />
p i<br />
= 1 (somme finie ou somme de série)<br />
= P(X = x )<br />
i<br />
• Réciproquement, on admettra que si on se donne une partie A = { x i / i ∈ I } finie<br />
ou dénombrable de R, et une famille (p ) de réels vérifiant les propriétés ci-dessus,<br />
i i∈I<br />
il existe une v.a. discrète X dont l’ensemble des valeurs prises est A, et la loi donnée<br />
par les p .<br />
i<br />
Dans le cas fini, la loi de X peut-être présentée sous forme <strong>d'</strong>un tableau :<br />
X x 1<br />
P(X=x ) p<br />
i 1<br />
… x i<br />
On a alors pour tout borélien B de R : P(X ∈ B) = ∑<br />
… x n<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.35<br />
p i<br />
{i/x i ∈B}<br />
p n<br />
p i<br />
(somme finie ou non)<br />
→ somme = 1
{ Remarque : Les conditions simultanées p ≥ 0 et ∑ p = 1 impliquent que<br />
i<br />
i<br />
i∈I<br />
0 ≤ p ≤ 1 pour tout i.<br />
i<br />
k Exemples de lois finies classiques :<br />
- loi certaine<br />
- loi uniforme sur {1, 2, … , n}<br />
- loi de Bernoulli<br />
- loi hypergéométrique<br />
- loi binômiale : nombre de succès sur n essais indépendants<br />
k Exemples de lois dénombrables :<br />
1<br />
- X(Ω) = N* et p =<br />
i i (i+1)<br />
- loi de Poisson : loi limite <strong>d'</strong>une loi binômiale<br />
- loi géométrique : temps <strong>d'</strong>attente du premier succès sur une suite infinie <strong>d'</strong>essais<br />
indépendants<br />
- loi binômiale négative (dite aussi loi de Pascal): temps <strong>d'</strong>attente du n ième succès sur<br />
une suite infinie <strong>d'</strong>essais indépendants<br />
Proposition 2.3.2 :<br />
Si X est une v.a. discrète de loi (x , p ) , { (X = x ) / i ∈ I } est un système complet<br />
i i i∈I<br />
i<br />
d’événements. On l’appelle système complet associé à la v.a. X.<br />
b) Fonction de répartition <strong>d'</strong>une variable aléatoire discrète<br />
Cas fini :<br />
Propriétés 2.3.3 :<br />
Soit X une variable aléatoire discrète finie, prenant les valeurs x < … < x .<br />
1 n<br />
La fonction de répartition F X<br />
• Les points de discontinuité de F X<br />
• F X<br />
de X est une fonction en escalier :<br />
sont les x .<br />
i<br />
est constante sur chaque intervalle [x , x [ :<br />
i i+1<br />
⎧ F (x) = 0 si x < x<br />
X<br />
1<br />
⎪<br />
⎨<br />
⎪<br />
⎩<br />
On en déduit :<br />
F (x) = p + … + p<br />
X 1 i<br />
si x ≤ x < x<br />
i i+1<br />
F (x) = 1 si x ≥ x<br />
X<br />
n<br />
⎧<br />
⎪ p1 = P(X = x ) = F (x )<br />
1 X 1<br />
⎨<br />
⎪ p = P(X = x ) = F (x ) - F (x ) pour 2 ≤ i ≤ n<br />
⎩ i<br />
i X i X i-1<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.36
Cas dénombrable :<br />
Dans le cas le plus classique (celui où X prend une suite croissante de valeurs x i<br />
tendant vers +∞), les propriétés sont identiques à celles écrites ci-dessus, modulo les<br />
modifications suivantes :<br />
- La fonction de répartition F X<br />
une infinité de “marches”)<br />
de X est une fonction en escalier “généralisée” (avec<br />
- La condition “F (x) = 1 si x ≥ x ” est à supprimer (dans ce cas, F n’atteint jamais la<br />
X<br />
n<br />
X<br />
valeur 1)<br />
Dans les autres cas, il faut faire des adaptations évidentes.<br />
La loi de X se retrouve donc aisément à partir de sa fonction de répartition.<br />
Dans la pratique, la fonction de répartition <strong>d'</strong>une v.a. discrète est particulièrement<br />
utilisée lorsque cette variable est définie comme un max ou un min.<br />
k Exemple :<br />
Dans une urne contenant N boules numérotées de 1 à N, on tire n boules une à une<br />
avec remise. Soit X (respectivement Y) la variable aléatoire égale au plus grand<br />
(respectivement plus petit) des numéros tirés. Trouver les lois de X et Y.<br />
d) Variable aléatoire ϕ(X) :<br />
Proposition 2.3.4 : (admise)<br />
Si X est une v.a. discrète, et si ϕ est une fonction quelconque de D dans R (le sous-<br />
ensemble X(Ω) étant inclus dans D), ϕ(X) = ϕoX est une variable aléatoire discrète.<br />
Loi de ϕ(X) : On suppose la loi de X donnée par la suite double (x , p ) .<br />
i i i∈I<br />
Posons : ∀ i ∈ I y i<br />
= ϕ(x )<br />
i<br />
Considérons les valeurs y j distinctes (ϕ n'étant pas forcément injective, on peut avoir<br />
ϕ(x ) = ϕ(x ) pour i ≠ i'). La famille { y / j ∈ J } est au plus dénombrable (en<br />
i i’<br />
j<br />
particulier, si I est fini, J l’est aussi et on a cardJ ≤ cardI)<br />
Posons : q j = ∑<br />
{i/ϕ(x ) = y }<br />
i<br />
j<br />
p i<br />
(somme finie ou non)<br />
La suite double (y<br />
j , q ) définit la loi de ϕ(X).<br />
j j∈J<br />
k Exemples :<br />
• On lance quatre fois une pièce honnête, en codant à chaque lancer le résultat<br />
obtenu par -1 si on obtient face et 1 si on obtient pile. X est la somme des quatre<br />
lancers. Trouver la loi de X, puis celle de Y = X 2<br />
.<br />
• Si X suit une loi géométrique G(p), on pose Y =<br />
Trouver la loi deY.<br />
⎩ ⎪<br />
⎪⎧ 0 si X est impair<br />
⎪<br />
⎨ X<br />
⎪<br />
si X est pair<br />
2<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.37
4 - Variable aléatoire continue (ou à densité)<br />
a) Définition<br />
Définitions et proposition 2.4.1:<br />
• Soit une fonction f de R dans R ayant les propriétés suivantes :<br />
i) f est positive,<br />
ii) f est continue sauf peut-être en un nombre fini de points,<br />
+∞<br />
iii) ∫<br />
-∞<br />
f(t) dt = 1.<br />
+∞<br />
{ Remarque : On écrit ∫<br />
-∞<br />
x<br />
1<br />
f(t) dt = ∫<br />
-∞<br />
f(t) dt + ∫<br />
où x < … < x sont les points de discontinuité de f.<br />
1 n<br />
L'existence de ∫<br />
x<br />
1<br />
intégrales ∫<br />
-∞<br />
+∞<br />
-∞<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.38<br />
x<br />
2<br />
x<br />
1<br />
f(t) dt + … + ∫<br />
+∞<br />
x<br />
n<br />
f(t) dt<br />
f(t) dt est par définition équivalente à l'existence de chacune des<br />
f(t) dt , … , ∫<br />
x<br />
i+1<br />
x<br />
i<br />
f(t) dt , … , ∫<br />
+∞<br />
x<br />
n<br />
f(t) dt.<br />
On se ramène ainsi aux cas d’intégration rappelés au chapitre 0.<br />
Une variable aléatoire X est dite absolument continue ou à densité s'il existe une<br />
fonction f ayant les trois propriétés ci-dessus telle que :<br />
pour tout réel x P(X ≤ x ) = ∫<br />
f est une densité de probabilité de X.<br />
x<br />
-∞<br />
f(t) dt<br />
• Réciproquement, on admettra que pour toute fonction f ayant les propriétés ci-<br />
dessus, il existe une variable aléatoire X définie sur un espace de probabilité<br />
(Ω, A, P) convenable, et admettant la fonction f pour densité.<br />
k Exemples :<br />
- f(x) = 1 (x) : X suit une loi (continue) uniforme sur l’intervalle [0, 1].<br />
[0, 1]<br />
1<br />
- f(x) =<br />
b-a<br />
1 (x) : X suit une loi (continue) uniforme sur l’intervalle [a, b].<br />
[a, b]<br />
- f(x) = λ e -λx 1 (x) : X suit une loi exponentielle de paramètre λ (λ > 0).<br />
R+<br />
-2 ⎢x ⎢<br />
- f(x) = e<br />
- f(x) =<br />
1<br />
2√⎺x<br />
1 (x)<br />
] 0, 1]
{ Remarque 1 : La condition ii) que l'on impose à une densité peut être allégée. On a<br />
donné cette formulation ici parce qu'elle est réalisée dans tous les cas classiques, et<br />
qu'elle est adaptée aux connaissances en intégration des étudiants abordant ce cours.<br />
{ Remarque 2 : La densité de probabilité de X n'est pas unique. Toute fonction égale<br />
à f sauf en un nombre fini de points est aussi une densité de probabilité de X. En<br />
général, on choisit pour f une version “la plus continue possible”, mais même cette<br />
condition ne suffit pas à assurer l’unicité.<br />
{ Remarque 3 : Interprétation géométrique en repère orthonormé : si f est une<br />
densité de probabilité, son graphe est situé au-dessus de l’axe des abscisses, et l’aire<br />
comprise entre cet axe et le graphe est égale à 1.<br />
b) Fonction de répartition <strong>d'</strong>une variable aléatoire à densité<br />
Théorème 2.4.2 :<br />
Si X est une variable aléatoire de densité f, sa fonction de répartition F X<br />
par : ∀ x ∈ R F (x) = ∫ f(t) dt<br />
X<br />
-∞<br />
x<br />
est définie<br />
Cette fonction de répartition est continue, elle est continûment dérivable sauf peut-<br />
être en un nombre fini de points, et on a :<br />
Réciproque : (admise)<br />
F' (x) = f(x) en tout point x où f est continue.<br />
X<br />
Si X a une fonction de répartition F X<br />
continue sur R, de classe C 1 sauf en un nombre<br />
fini de points, alors X est une v.a. à densité. Toute fonction f positive sur R qui ne<br />
diffère de F' qu’en un nombre fini de points est une densité de X.<br />
X<br />
On obtient donc la densité <strong>d'</strong>une v.a. absolument continue en dérivant sa fonction de<br />
répartition en tout point où cela est possible.<br />
Propriété 2.4.3 :<br />
Si X est une v.a. à densité, pour tout réel x, P(X = x) = 0<br />
L'événement (X = x) est quasi-impossible. La probabilité que X soit égale à une<br />
valeur fixée x est toujours nulle, mais on peut calculer la probabilité que X soit à<br />
valeurs dans un intervalle aussi petit soit-il, "proche" de x.<br />
On écrit de manière formelle :<br />
P(x < X ≤ x + dx) = f(x) dx en tout point x où f est continue.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.39
Conséquence 2.4.4 :<br />
Si a et b sont deux réels tels que a < b :<br />
P(a < X ≤ b ) = P(a < X < b ) = P(a ≤ X < b ) = P(a ≤ X ≤ b ) = ∫<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.40<br />
b<br />
a<br />
f(t) dt<br />
Autrement dit, dans le cas d’une loi continue, contrairement à ce qui se passe dans le<br />
cas d’une loi discrète, on n’a pas besoin d’être pointilleux sur la distinction entre<br />
inégalités strictes et inégalités larges.<br />
c) Variable aléatoire ϕϕ(X)<br />
On a vu que si X est discrète et si ϕ est une fonction quelconque définie sur X(Ω),<br />
alors U = ϕ(X) est une variable aléatoire.<br />
Si X est une variable à densité, il n'est plus vrai que pour toute fonction ϕ<br />
l'application ϕ(X) soit une variable aléatoire, mais on admettra que c’est vrai si ϕ est<br />
une fonction continue (ou continue par morceaux) sur un intervalle I contenant X(Ω).<br />
Mais même alors, la v.a. ϕ(X) n’est pas toujours une v.a. à densité (prendre par<br />
exemple ϕ = constante).<br />
Le théorème ci-dessous donne une condition suffisante pour que ϕ(X) ait une<br />
densité.<br />
Théorème 2.4.5 :<br />
Soit X une variable aléatoire dont la densité f est nulle en dehors d’un intervalle I, et<br />
soit ϕ une fonction continûment dérivable sur I, et dont la dérivée ne s'annule pas (ce<br />
qui implique en particulier que ϕ est bijective de I sur ϕ(I)).<br />
Alors U = ϕ(X) est une variable aléatoire à densité.<br />
Pour calculer la densité g de ϕ(X), deux méthodes possibles :<br />
• Méthode 1 : Méthode dite "de la fonction muette"<br />
Cette méthode se généralise facilement à la dimension n ≥ 2. Elle repose sur le<br />
théorème suivant (admis) :<br />
Théorème 2.4.6 :<br />
Pour qu'une variable aléatoire X admette une fonction f pour densité, il faut et il<br />
suffit que pour toute fonction h continue bornée sur R, on ait :<br />
+∞<br />
E[h(X)] = ∫<br />
-∞<br />
h(t) f(t) dt<br />
h est quelconque, <strong>d'</strong>où le nom de "fonction muette".
Pour déterminer une densité de U, on cherche donc une fonction g telle que, pour<br />
toute fonction h continue bornée sur R, on ait :<br />
+∞<br />
E[h(U)] = ∫<br />
-∞<br />
Or E[h(U)] = E[h(ϕ(X)] = E[hoϕ(X)] = ∫<br />
h(u) g(u) du<br />
+∞<br />
-∞<br />
hoϕ(t) f(t) dt = ∫<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.41<br />
+∞<br />
-∞<br />
h(ϕ(t)) f(t) dt<br />
Sous les hypothèses du théorème 2.4.5, le changement de variable u = ϕ(t) dans cette<br />
intégrale permet <strong>d'</strong>obtenir une expression de g :<br />
g(u) =<br />
⎧<br />
⎪<br />
⎪<br />
⎨<br />
⎪<br />
⎪<br />
⎩<br />
f (ϕ -1<br />
(u)) ⎢(ϕ -1<br />
)’(u) ⎢ =<br />
0 sinon<br />
f (ϕ -1<br />
(u))<br />
⎢ϕ'(ϕ -1<br />
(u))⎢<br />
si u ∈ ϕ(I)<br />
{ Remarque : Plutôt que <strong>d'</strong>apprendre par coeur cette formule, on peut sur des<br />
exemples concrets la redémontrer "à la main".<br />
• Méthode 2 : Utilisation de la fonction de répartition<br />
Cette méthode est simple à utiliser en dimension 1. On calcule la fonction de<br />
répartition de U, et on la dérive pour avoir la densité. Sous les hypothèses du<br />
théorème 2.4.5, la fonction de répartition de ϕ(X) est effectivement de classe C 1<br />
par<br />
morceaux.<br />
Cette méthode est utilisable aussi dans certains cas où ϕ n'est pas bijective.<br />
La fonction ϕ étant de classe C 1 est en particulier continue ; or l'image <strong>d'</strong>un intervalle<br />
par une fonction continue est un intervalle, donc ϕ(I) est un intervalle (α, β) (avec<br />
éventuellement α = -∞ et β = +∞)<br />
Si la dérivée ϕ’ ne s’annule pas sur I, elle garde un signe constant (puisqu’une<br />
fonction continue qui change de signe sur un intervalle s’annule nécessairement<br />
d’après le théorème des valeurs intermédiaires).<br />
Supposons pour fixer les idées ϕ’ > 0, ϕ est alors continue strictement croissante sur I,<br />
donc elle admet une application réciproque ϕ -1 définie de l’intervalle ϕ(I) sur I, elle<br />
aussi strictement croissante.<br />
On écrit donc : ∀ u ∈ R F U (u) = P(U ≤ u) = P(ϕ(X) ≤ u)<br />
- si u ∈ ϕ(I) : P(ϕ(X) ≤ u) = P(X ≤ ϕ -1 (u)) = F X (ϕ -1 (u))<br />
On obtient ainsi une fonction de u que l'on dérive.<br />
- si u ∉ ϕ(I) : • ou bien u = α ou β (dans le cas où ϕ(I) n'est pas fermé), on peut poser<br />
arbitrairement g(u) = 0 en ces deux points<br />
• ou bien u < α or P(U ≤ t) = 0 pour t < α<br />
• ou bien u > β, or P(U ≤ t) = 1 pour t > β<br />
Dans ces deux cas F U est constante au voisinage de u, et on trouve par dérivation<br />
F ‘(u) = 0.<br />
U
Le cas ϕ’ < 0 se traite de manière analogue, avec les adaptations nécessaires pour le<br />
sens des inégalités.<br />
{ Remarques :<br />
• Le résultat reste vrai si la dérivée ϕ' s'annule en un nombre fini de points x sans<br />
i<br />
changer de signe. Aux points u i<br />
(par exemple en posant g(u ) = 0).<br />
i<br />
= ϕ(x ), on pourra définir g de manière arbitraire<br />
i<br />
• Pour utiliser cette méthode, il n'est pas nécessaire que ϕ soit bijective : il suffit que<br />
la condition ϕ(X) ≤ u se traduise de manière équivalente en une condition sur X telle<br />
que l'on obtienne ainsi une fonction de u dérivable (voir ci-dessous ϕ(X) = X 2<br />
).<br />
k Exemples :<br />
Soit X une variable aléatoire de densité f. On pose :<br />
T = aX + b (a et b réels, a ≠ 0)<br />
U = X 3<br />
V = X 2<br />
Calculer en fonction de f les densités de T, U et V.<br />
{ Remarque : Il se peut que ϕ(X) ne soit définie que presque sûrement. On parle<br />
alors tout de même de la v.a. ϕ(X).<br />
Par exemple, si X suit une loi continue uniforme sur [0, 1], on peut définir presque<br />
1<br />
sûrement la variable aléatoire Y =<br />
X<br />
puisque P(X = 0) = 0.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.42
5 - Moments <strong>d'</strong>une variable aléatoire<br />
a) Espérance mathématique<br />
Définitions 2.5.1 :<br />
• Soit X une v.a. discrète finie de loi (x , p ) .<br />
i i<br />
1≤i≤n<br />
On appelle alors espérance ou moyenne de X le réel défini par :<br />
n<br />
E(X) = ∑<br />
i=1<br />
n<br />
x i p i = ∑<br />
i=1<br />
x i P(X = x i )<br />
• Soit X une v.a. discrète dénombrable de loi (x , p ) .<br />
i i<br />
i∈N<br />
On suppose que la série de terme général (x i p i ) est absolument convergente.<br />
On appelle espérance ou moyenne de X le réel défini par :<br />
+∞<br />
E(X) = ∑<br />
i=0<br />
+∞<br />
x i p i = ∑<br />
i=0<br />
x i P(X = x i )<br />
L'hypothèse <strong>d'</strong>absolue convergence assure qu'il n'y a dans cette définition aucune<br />
ambiguité liée à la numérotation des x i .<br />
• Soit X une v.a. de densité f, telle que ∫<br />
+∞<br />
-∞<br />
⎢t ⎢ f(t) dt converge.<br />
On appelle espérance ou moyenne de X le réel défini par :<br />
+∞<br />
E(X) = ∫<br />
-∞<br />
t f(t) dt<br />
* Attention ! Si X est une v.a. discrète finie ou une v.a. admettant une densité<br />
continue sur un segment [a, b] et nulle en dehors de [a, b], l'espérance de X existe<br />
toujours. Par contre certaines v.a. discrètes dénombrables et certaines v.a. à densité<br />
n’ont pas d’espérance.<br />
k Exemples :<br />
Les v.a. suivantes ont-elles une espérance ? Si oui, la calculer.<br />
1<br />
• v.a. discrète telle que X(Ω) = N* et P(X = i) = pour i ≥ 1<br />
i(i+1)<br />
-2 ⎢x ⎢<br />
• v.a. uniforme, exponentielle, de densité f(x) = e<br />
• v.a. suivant une loi de Cauchy<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.43
Définition 2.5.2 :<br />
Si E(X) = 0, on dit que la v.a. X est centrée.<br />
Propriétés 2.5.3 :<br />
• Si X = a (constante), X a une espérance et E(X) = a .<br />
• ∀ A ∈ A 1 a une espérance et E(1 ) = P(A)<br />
A<br />
A<br />
• Si X a une espérance, ∀λ∈R λX a une espérance et E(λX) = λ E(X)<br />
• Si X et Y ont une espérance , X+Y a une espérance et E(X+Y) = E(X) + E(Y)<br />
(cette propriété est provisoirement admise)<br />
On résume les deux propriétés ci-dessus en disant que l'ensemble des v.a. discrètes<br />
qui ont une espérance (pour une probabilité donnée) est un espace vectoriel réel, sur<br />
lequel l'espérance définit une forme linéaire.<br />
• Si E(X) = m, la v.a. Y = X - m est centrée.<br />
• X ≥ 0 ⇒ E(X) ≥ 0 et X ≤ Y ⇒ E(X) ≤ E(Y)<br />
L'espérance est une forme linéaire positive (ou croissante).<br />
{ Remarque : Les v.a. discrètes forment un sous-espace vectoriel de l’espace vectoriel<br />
des v.a. définies sur un espace de probabilité (Ω, A, P), mais ce n’est pas le cas des v.a.<br />
à densité.<br />
Théorème 2.5.4 : Théorème dit “de transfert” (admis)<br />
• version “discrète”<br />
Soit une variable aléatoire discrète X de loi (x<br />
i , p )<br />
i i∈I<br />
La v.a. discrète ϕ(X) a une espérance si et seulement si la série ∑<br />
absolument convergente, et on a : E[ϕ(X)] = ∑<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.44<br />
i∈I<br />
ϕ(x ) p<br />
i i<br />
i∈I<br />
ϕ(x ) p<br />
i i<br />
Dans le cas où I est fini, la condition d’existence est évidemment toujours réalisée.<br />
• version “continue”<br />
Soit X une v.a. de densité f, soit ϕ une fonction continue (ou continue par morceaux)<br />
sur un intervalle contenant X(Ω). Alors la v.a. ϕ(X) a une espérance si et seulement si<br />
+∞<br />
l’intégrale ∫<br />
-∞<br />
⎢ϕ(t) ⎢ f(t) dt converge, et on a : E[ϕ(X)] = ∫<br />
+∞<br />
-∞<br />
ϕ(t) f(t) dt<br />
Dans le cas où f est continue sur un segment [a, b], et nulle en dehors de [a, b], la<br />
condition d’existence est automatiquement réalisée.<br />
{ Remarque : L'intérêt de ce théorème est de calculer directement l'espérance de ϕ(X)<br />
à partir de la loi de X, sans chercher auparavant la loi de ϕ(X).<br />
est
) Variance et écart-type<br />
Définition 2.5.5 :<br />
Soit X une v.a. discrète admettant une espérance m.<br />
Si la v.a. (X - m) 2<br />
a une espérance, on appelle variance de X le réel défini par :<br />
var(X) = E [(X - m) 2<br />
] .<br />
cas discret : var(X) = ∑<br />
i∈I<br />
(x - m)<br />
i 2<br />
p (somme finie ou non)<br />
i<br />
sous réserve, dans le cas dénombrable, que la série ci-dessus soit convergente.<br />
+∞<br />
cas continu : var(X) = ∫<br />
-∞<br />
(t -m) 2<br />
f(t) dt<br />
sous réserve que l’intégrale ci-dessus soit convergente.<br />
Théorème 2.5.6 (de Koenig-Huygens) :<br />
{ Remarque :<br />
var(X) = E(X 2<br />
) - [E(X)] 2<br />
C'est cette formule que l'on utilise usuellement pour calculer la variance.<br />
k Exemples :<br />
• Soit X une v.a. à valeurs dans N*, dont la loi est définie par :<br />
P(X = i) =<br />
a<br />
i(i+1)(i+2)<br />
a) Déterminer la constante a.<br />
pour i ≥ 1.<br />
b) Calculer l'espérance et la variance de X si elles existent.<br />
• variance d’une v.a. uniforme, exponentielle<br />
• variance d’une v.a. de densité x → f(x) =<br />
(loi de Pareto à deux paramètres (2, 1))<br />
Propriétés 2.5.7 :<br />
• La variance est toujours positive.<br />
2<br />
x 3 1 (x))<br />
[1,+∞[<br />
• La variance est quadratique : ∀ λ ∈ R var(λX) = λ 2<br />
var(X)<br />
• La variance est inchangée par translation : ∀ µ ∈ R var(X + µ) = var(X)<br />
• On a donc : ∀ λ ∈ R ∀ µ ∈ R var(λX + µ) = λ 2<br />
var(X)<br />
Définitions et propriété 2.5.8 :<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.45
• √⎺⎺⎺⎺⎺ var(X) se note σ et s'appelle l'écart-type de X.<br />
L'écart-type <strong>d'</strong>une variable aléatoire sert à mesurer la dispersion de cette variable<br />
autour de sa moyenne. Il s’exprime dans la même unité que X.<br />
• Si var(X) = 1, on dit que la v.a. X est réduite.<br />
X - m<br />
Lorsque X est une v.a. <strong>d'</strong>espérance m et <strong>d'</strong>écart-type σ, la v.a. Y =<br />
σ<br />
réduite.<br />
c) Moments <strong>d'</strong>ordre r<br />
Définition 2.5.9 :<br />
Soit X une v.a., et soit r un entier naturel ≥ 1. On suppose que m = E(X) existe.<br />
est centrée<br />
On appelle moment <strong>d'</strong>ordre r (respectivement moment centré <strong>d'</strong>ordre r) de X le réel<br />
E(X r<br />
) (respectivement E[(X - m) r<br />
] .<br />
cas discret : E(X r<br />
) = ∑<br />
i∈I<br />
x i<br />
r<br />
p i<br />
et E[(X - m) r<br />
] = ∑<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.46<br />
i∈I<br />
(x - m)<br />
i<br />
r<br />
sous réserve bien entendu que les séries ci-dessus soient absolument convergentes<br />
dans le cas dénombrable.<br />
cas continu : E(X r<br />
+∞<br />
) = ∫<br />
-∞<br />
t r<br />
f(t) dt et E[(X - m) r<br />
+∞<br />
] = ∫<br />
-∞<br />
p i<br />
(t - m) r<br />
f(t) dt<br />
sous réserve que les intégrales ci-dessus soient absolument convergentes dans le cas<br />
<strong>d'</strong>une "vraie" intégrale généralisée..<br />
Proposition 2.5.10 :<br />
• L'existence du moment <strong>d'</strong>ordre r entraîne l'existence des moments <strong>d'</strong>ordre<br />
inférieur.<br />
r-1<br />
Ceci se démontre par récurrence descendante à partir de l'inégalité t<br />
• L'espérance est le moment <strong>d'</strong>ordre 1.<br />
• La variance est le moment centré <strong>d'</strong>ordre 2.<br />
r<br />
≤ t + 1<br />
vraie pour t ≥ 0.<br />
• L'existence du moment <strong>d'</strong>ordre r équivaut à l'existence du moment centré d’ordre<br />
r. En particulier, l’existence du moment <strong>d'</strong>ordre 2 équivaut à l'existence de la<br />
variance.<br />
{ Remarque : Les moments <strong>d'</strong>une v.a. (s’ils existent) ne dépendent que de sa loi.<br />
Deux v.a. équidistribuées (= qui ont même loi) auront mêmes moments, et en<br />
particulier même espérance et même variance. La réciproque est fausse en général.
d) Fonction génératrice des moments<br />
Définition 2.5.11 :<br />
Soit X une variable aléatoire réelle. On considère l'application :<br />
t → E(e tX ) =<br />
⎧ ∑<br />
⎪<br />
⎨<br />
⎪<br />
⎩<br />
i<br />
+∞<br />
∫<br />
-∞<br />
e tx i pi<br />
(<strong>d'</strong>après le théorème de transfert)<br />
Cette application est définie au moins pour t = 0.<br />
si X est une variable discrète<br />
e tx f(x) dx si X est une variable de densité f<br />
Si elle est définie sur un voisinage de 0 (c'est-à-dire définie au moins sur un intervalle<br />
] -α, α [ avec α > 0), on l'appelle fonction génératrice des moments de X et on la note :<br />
t → M (t) = E(e<br />
X<br />
tX )<br />
Si l'application t → E(e tX ) n'est pas définie sur un voisinage de 0, on dit que la<br />
fonction génératrice des moments de X n'existe pas.<br />
{ Remarque :<br />
Dans les cas suivants la fonction génératrice des moments existe et est définie sur R :<br />
- X est une v.a. discrète finie ;<br />
- X est une v.a. admettant une densité continue sur un segment [a, b] et nulle en<br />
dehors de [a, b].<br />
k Exemples :<br />
Calculer la fonction génératrice des moments de X si elle existe dans les cas suivants :<br />
- X suit la loi binômiale B(n, p)<br />
- X suit loi géométrique G(p)<br />
- X suit la loi exponentielle E(λ)<br />
L'intérêt majeur de la fonction génératrice des moments apparaît dans le théorème<br />
ci-dessous, qui permet <strong>d'</strong>établir certains résultats importants en évitant des calculs<br />
laborieux (voir chapitre 4) :<br />
Théorème 2.5.12 : (admis)<br />
Soient X et Y deux variables aléatoires telles que leurs fonctions génératrices des<br />
moments existent.<br />
Si M (t) = M (t) sur un voisinage de 0, alors X et Y ont même loi.<br />
X Y<br />
Autrement dit, lorsqu'elle existe, la fonction génératrice des moments caractérise la<br />
loi de X.<br />
Un autre intérêt de la fonction M X<br />
est de permettre de retrouver les moments de X,<br />
(<strong>d'</strong>où son nom), avec dans certains cas des calculs plus simples que les calculs directs :<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.47
Proposition 2.5.13 :<br />
Soit X une variable aléatoire telle que la fonction génératrice des moments M X existe.<br />
• L'espérance de X existe si et seulement si la fonction M est dérivable en 0, et on a :<br />
X<br />
E(X) = M' (0)<br />
X<br />
• Plus généralement, le moment <strong>d'</strong>ordre r de X existe si et seulement si la fonction<br />
M est r fois dérivable en 0, et on a :<br />
X<br />
E(X r<br />
(r)<br />
) = M (0)<br />
X<br />
En particulier, si la fonction M X<br />
donnée par :<br />
var(X) = M" (0) - [M' (0)]<br />
X X<br />
2<br />
est 2 fois dérivable en 0, X admet une variance,<br />
La fonction génératrice des moments a l'inconvénient de ne pas être toujours définie<br />
(même si elle existe pour les lois classiques) ; il existe une autre fonction ayant des<br />
propriétés analogues (elle caractérise la loi de X et permet de calculer ses moments<br />
s'ils existent) et qui, elle, est toujours définie sur R, mais est à valeurs complexes.<br />
C'est la fonction caractéristique de X, définie par :<br />
t → Φ(t) = E(e itX )<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.48
6 - Les lois normales ou de Laplace-Gauss<br />
a) Variable gaussienne centrée réduite<br />
Définition 2.6.1 :<br />
La variable aléatoire réelle X est une variable gaussienne (ou normale) centrée<br />
réduite si elle a pour densité la fonction f : x → ϕ(x) =<br />
On note : X ~ N(0, 1)<br />
Proposition 2.6.2 : On a les égalités suivantes :<br />
•<br />
1<br />
√⎺⎺2π<br />
• E(X) =<br />
•<br />
+∞<br />
∫<br />
-∞<br />
E(X 2<br />
) =<br />
- x<br />
e<br />
2 /2<br />
1<br />
√⎺⎺2π<br />
1<br />
√⎺⎺2π<br />
+∞<br />
∫<br />
-∞<br />
dx = 1<br />
- x<br />
x e<br />
2 /2<br />
+∞<br />
2<br />
∫ x<br />
-∞<br />
- x<br />
e<br />
2 /2<br />
(admise provisoirement)<br />
dx = 0<br />
dx = 1<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.49<br />
1<br />
√⎺⎺2π<br />
<strong>d'</strong>où var(X) = 1<br />
- x<br />
e<br />
2 /2<br />
• Plus généralement, une v.a. gaussienne centrée réduite admet des moments de<br />
tous ordres, les moments d’ordre impair étant nuls.<br />
Propriétés 2.6.3 : Fonction de répartition de la loi N(0, 1) :<br />
On note usuellement Φ cette fonction de répartition : Φ(x) = ∫<br />
x<br />
-∞<br />
1<br />
√⎺⎺2π<br />
- t<br />
e<br />
2 /2<br />
Il n'existe pas <strong>d'</strong>expression explicite de Φ autre que sous cette forme <strong>d'</strong>une intégrale.<br />
• Elle est tabulée pour les valeurs de x positives.<br />
• On a pour tout réel x, Φ(-x) = 1 - Φ(x) , ce qui permet de calculer Φ(x) pour les<br />
valeurs de x négatives.<br />
• Pour tout x ≥ 0 P(⎢X ⎢≤ x) = 2 Φ(x) -1<br />
P(⎢X ⎢> x) = 2 [1 - Φ(x)]<br />
• La lecture de la table nous permet en particulier <strong>d'</strong>affirmer :<br />
P(⎢X ⎢> 1, 96) = 0, 05 et P(⎢X ⎢> 2, 6) = 0, 01<br />
ce qui montre qu'une variable gaussienne réduite est très concentrée autour de 0 qui<br />
est sa valeur moyenne.<br />
dt
Proposition 2.6.4 : Fonction génératrice des moments de la loi N(0, 1) :<br />
La fonction génératrice des moments de la loi normale centrée réduite est définie sur<br />
R par : ∀ t ∈R M (t) = e<br />
X<br />
t2 /2<br />
b) Variable gaussienne réelle<br />
Définition 2.6.5 : La variable aléatoire réelle X définie sur un espace de probabilité<br />
(Ω, A, P) est une variable gaussienne si elle peut s'écrire X = aU + b, où U est une<br />
variable gaussienne centrée réduite, et a et b sont des réels.<br />
{ Remarque : Avec cette définition, une variable constante (cas a = 0) est considérée<br />
comme un cas particulier de variable gaussienne. On dit alors que cette variable est<br />
dégénérée.<br />
Propriété 2.6.6 :<br />
Une variable gaussienne admet des moments de tous ordres.<br />
On a en particulier : E(X) = b et var(X) = a 2<br />
.<br />
Théorème 2.6.7 :<br />
Soit X une v.a. <strong>d'</strong>espérance m et de variance σ 2<br />
non nulle.<br />
Les propriétés suivantes sont équivalentes :<br />
i) X est gaussienne <strong>d'</strong>espérance m et de variance σ 2<br />
.<br />
ii)<br />
X - m<br />
σ<br />
On note : X ~ N(m, σ 2<br />
)<br />
est gaussienne centrée réduite.<br />
L’intérêt de ce théorème est de permettre de calculer la fonction de répartition de<br />
n’importe quelle loi gaussienne à partir de la table de la fonction de répartition de la<br />
loi N(0, 1).<br />
En effet, pour tout réel x :<br />
k Exemple :<br />
F (x) = P(X ≤ x) = P(<br />
X<br />
X - m<br />
σ ≤<br />
x - m x - m<br />
σ<br />
) = Φ(<br />
σ )<br />
Si X suit une loi N(-1, 4), pour quelles valeurs de x a-t-on P(X ≤ x) ≥ 3/4 ?<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.50
Proposition 2.6.8 : Densité <strong>d'</strong>une variable gaussienne :<br />
Une densité <strong>d'</strong>une variable gaussienne non dégénérée <strong>d'</strong>espérance m et de variance<br />
σ 2<br />
est définie par :<br />
x → f(x) =<br />
1<br />
√⎺⎺2π σ<br />
On a donc les égalités suivantes :<br />
•<br />
•<br />
•<br />
1<br />
√⎺⎺2π σ<br />
1<br />
√⎺⎺2π σ<br />
1<br />
√⎺⎺2π σ<br />
+∞<br />
∫<br />
-∞<br />
-∞<br />
- (x-m)<br />
e<br />
2 /2σ 2<br />
- (x-m)<br />
e<br />
2 /2σ 2<br />
dx = 1<br />
+∞<br />
- (x-m)<br />
∫ x e<br />
2 /2σ 2<br />
dx = m E(X) = m<br />
+∞<br />
∫<br />
-∞<br />
2 - (x-m)<br />
(x-m) e<br />
2 /2σ 2<br />
dx = σ 2<br />
var(X) = σ 2<br />
Il faut bien connaître ces formules qui interviennent souvent dans les calculs<br />
gaussiens.<br />
{ Remarque : une loi normale est totalement connue si on a ses deux premiers<br />
moments, ce qui justifie la notation.<br />
Proposition 2.6.9 : Fonction génératrice des moments de la loi N(m, σ 2 ) :<br />
La fonction génératrice des moments de la loi normale N(m, σ 2 ) est définie sur R par<br />
: ∀ t ∈R M (t) = e<br />
X<br />
tm + t2σ 2 /2<br />
Les variables gaussiennes jouent un très grand rôle en probabilités-statistiques.<br />
On les utilise pour modéliser des phénomènes qui fluctuent symétriquement autour<br />
de leur moyenne.<br />
Elles apparaissent aussi dans de nombreux calculs approchés, en application du<br />
théorème fondamental de la statistique, appelé théorème de la limite centrale.<br />
(Ce théorème dit que sous de bonnes hypothèses, une somme de n variables<br />
aléatoires de même loi suit approximativement, quelle que soit cette loi, une loi<br />
normale si n est grand : voir le chapitre sur les convergences).<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.51
7 - Les lois usuelles<br />
Pour chaque loi est indiquée la définition, espérance et variance si elles existent. La<br />
fonction génératrice des moments n'est mentionnée que si elle est utilisée en<br />
pratique.<br />
a) Lois discrètes finies<br />
• Loi certaine :<br />
X est une v.a. quasi-certaine si elle est presque sûrement constante ( = constante sauf<br />
peut-être sur un événement de probabilité nulle)<br />
∃ a ∈ R P(X = a) = 1<br />
E(X) = a var(X) = 0<br />
Réciproquement : Toute v.a. dont la variance est nulle est quasi-certaine.<br />
• Loi discrète uniforme : X ~ U n<br />
X suit une loi discrète uniforme sur [[1, n]] si :<br />
⎪⎧ X(Ω) = [[1, n]]<br />
⎪<br />
⎨<br />
1<br />
⎪<br />
∀ k ∈ [[1, n]] P(X = k) =<br />
⎪<br />
⎩<br />
n<br />
E(X) =<br />
n+1<br />
2<br />
var(X) =<br />
• Loi de Bernoulli : X ~ B(1, p)<br />
n 2<br />
-1<br />
X suit une loi de Bernoulli de paramètre p (0 < p < 1) si :<br />
⎧ X(Ω) = {0, 1}<br />
⎨<br />
⎩P(X<br />
= 1) = p et P(X = 0) = 1-p<br />
E(X) = p var(X) = pq en posant q = 1-p<br />
12<br />
Fonction génératrice des moments : D MX<br />
k Exemple :<br />
t<br />
= R ∀ t ∈R M (t) = pe + q<br />
X<br />
On utilise une variable de Bernoulli pour modéliser le résultat <strong>d'</strong>une expérience<br />
aléatoire à deux issues (succès ou échec), en posant X = 1 en cas de succès et X = 0<br />
sinon.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.52
• Loi binômiale : X ~ B(n, p)<br />
X suit une loi binômiale de paramètres n et p (n entier, 0 < p < 1) si :<br />
⎪⎧<br />
X(Ω) = [[0, n]]<br />
⎪<br />
⎨<br />
⎪<br />
k k<br />
∀ k ∈ [[0, n]] P(X = k) = C p<br />
⎪<br />
⎩<br />
n<br />
q n-k<br />
E(X) = np var(X) = npq en posant q = 1-p.<br />
Fonction génératrice des moments : D MX<br />
Pour n = 0, X est la variable certaine égale à 0.<br />
t<br />
= R ∀ t ∈R M (t) = (pe + q)n<br />
X<br />
Pour n = 1, on retrouve la loi de Bernoulli B(1, p) , ce qui justifie la notation.<br />
k Exemple 1 :<br />
On tire avec remise n fois dans une population comportant un proportion p<br />
<strong>d'</strong>individus ayant une caractéristique donnée. La variable aléatoire égale au nombre<br />
<strong>d'</strong>individus de l'échantillon ayant cette caractéristique suit une loi binômiale de<br />
paramètres n et p.<br />
k Exemple 2 :<br />
On répète n fois de manière indépendante une expérience aléatoire à deux issues<br />
(succès avec probabilité p ou échec avec probabilité 1-p).<br />
La variable aléatoire égale au nombre de succès obtenus suit une loi binômiale de<br />
paramètres n et p.<br />
• Loi hypergéométrique : X ~ H(N, n, p)<br />
X suit une loi hypergéométrique de paramètres N, n et p (N et n entiers non nuls, 0 <<br />
p < 1 tel que Np soit entier) si :<br />
X(Ω) 1 [[0, n]]<br />
⎪<br />
⎧<br />
⎪<br />
⎨<br />
⎪<br />
⎪<br />
⎩<br />
∀ k ∈ [[0, n]] P(X = k) =<br />
k<br />
C<br />
Np<br />
C<br />
N<br />
C<br />
Nq<br />
en posant q = 1-p , et avec la convention C<br />
M<br />
k Exemple :<br />
N-n<br />
E(X) = np var(X) = npq<br />
N-1<br />
n<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.53<br />
j<br />
n - k<br />
= 0 si jM.<br />
On tire sans remise n fois dans une population comportant N individus dont une<br />
proportion p a une caractéristique donnée. La variable aléatoire égale au nombre<br />
<strong>d'</strong>individus de l'échantillon ayant cette caractéristique suit une loi hypergéométrique<br />
de paramètres N, n et p.
) Lois discrètes dénombrables<br />
• Loi géométrique : X ~ G(p)<br />
X suit une loi géométrique de paramètre p (0 < p < 1) si :<br />
⎧<br />
⎪ X(Ω) = N*<br />
⎨<br />
⎪<br />
k-1 en posant q = 1-p<br />
∀ k ∈ N* P(X = k) = p q<br />
⎩<br />
1<br />
E(X) =<br />
p<br />
var(X) =<br />
q<br />
p 2<br />
Fonction génératrice des moments :<br />
D MX<br />
= ] -∞, - lnq [ ∀ t < - lnq M (t) =<br />
X<br />
k Exemple : Temps <strong>d'</strong>attente du premier succès.<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.54<br />
pe t<br />
1 - qe t<br />
On répète de manière indépendante une expérience aléatoire à deux issues (succès<br />
avec probabilité p ou échec avec probabilité q). La variable aléatoire égale au rang<br />
<strong>d'</strong>apparition du premier succès suit une loi géométrique de paramètre p.<br />
• Loi de Poisson : X ~ P(λ)<br />
X suit une loi de Poisson de paramètre λλλλ ( λ > 0) si :<br />
⎧<br />
⎪ X(Ω) = N<br />
⎪<br />
⎨<br />
⎪<br />
⎪∀<br />
k ∈ N P(X = k) = e<br />
⎩<br />
-λ<br />
λ k<br />
k!<br />
E(X) = λ var(X) = λ<br />
Fonction génératrice des moments :<br />
D MX<br />
= R ∀ t ∈R M (t) = e<br />
X<br />
λ(et - 1)<br />
La loi de Poisson est souvent utilisée en probabilité pour modéliser toute une série<br />
de phénomènes aléatoires :<br />
- le nombre <strong>d'</strong>appels reçus à un standard téléphonique pendant une période donnée,<br />
- le nombre de clients se présentant à un guichet pendant une période donnée,<br />
- le nombre <strong>d'</strong>oeufs pondus par certains insectes, etc …<br />
Cette loi apparaît aussi comme loi limite de la loi binômiale B(n, p n ) lorsque n tend<br />
vers +∞ et (np n ) tend vers λ.
c) Lois continues<br />
• Loi continue uniforme sur l’intervalle [0, 1] : X ~ U [0, 1]<br />
X suit une loi (continue) uniforme sur [ 0, 1 ] si elle a pour densité :<br />
x → f(x) = 1 [0, 1] (x)<br />
1<br />
E(X) =<br />
2<br />
1<br />
var(X) =<br />
12<br />
Les v.a. de loi continue uniforme sur [0, 1] sont très utilisées en simulation.<br />
• Loi continue uniforme sur l’intervalle [a, b] : X ~ U [a, b]<br />
X suit une loi (continue) uniforme sur [ a, b ] si elle a pour densité :<br />
x → f(x) =<br />
a+b<br />
E(X) =<br />
2<br />
1<br />
b-a<br />
1 [a, b] (x)<br />
• Loi exponentielle : X ~ E(λ)<br />
(b-a)<br />
(moyenne des valeurs extrêmes) var(X) =<br />
2<br />
12<br />
X suit une loi exponentielle de paramètre λλλλ (λ > 0) si elle a pour densité :<br />
x → f(x) = λ e -λx 1 (x)<br />
R+<br />
E(X) =<br />
1<br />
λ<br />
var(X) =<br />
1<br />
λ 2<br />
Fonction génératrice des moments :<br />
D MX<br />
= ] -∞, λ [ ∀ t < λ M (t) =<br />
X<br />
• Loi Gamma : X ~ G(a, θ)<br />
λ<br />
λ - t<br />
X suit une loi Gamma de paramètres a et θθθθ (a > 0 et θ > 0) si elle a pour densité :<br />
x → f(x) =<br />
1<br />
xa-1<br />
a<br />
Γ(a) θ<br />
E(X) = a θ var(X) = a θ 2<br />
Fonction génératrice des moments :<br />
1<br />
1<br />
D = ] -∞, [ ∀ t <<br />
MX θ θ M 1<br />
(t) =<br />
X<br />
(1 - θt) a<br />
e -x/θ 1 (x) où Γ(a) = ∫<br />
R+<br />
0<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.55<br />
+∞<br />
x a-1<br />
e -x<br />
dx<br />
1<br />
{ Remarque : La loi exponentielle de paramètre λ est une loi Gamma G (1,<br />
λ ).
• Loi normale ou de Laplace-Gauss : X ~ N(m, σ 2 )<br />
X suit une loi normale centrée réduite N(0, 1) si elle a pour densité :<br />
x → f(x) =<br />
1<br />
√⎺⎺2π<br />
- x<br />
e<br />
2 /2<br />
E(X) = 0 var(X) = 1<br />
Fonction génératrice des moments :<br />
D MX<br />
= R ∀ t ∈R M (t) = e<br />
X<br />
t2 /2<br />
X suit une loi normale N(m, σ 2<br />
) si sa densité f est :<br />
x → f(x) =<br />
1<br />
√⎺⎺2π σ<br />
E(X) = m var(X) = σ 2<br />
- (x-m)<br />
e<br />
2 /2σ 2<br />
Fonction génératrice des moments :<br />
D MX<br />
= R ∀ t ∈R M (t) = e<br />
X<br />
tm + t2σ 2 /2<br />
• On rencontre un certain nombre <strong>d'</strong>autres lois dont on peut trouver les<br />
caractéristiques dans des livres standard de Probabilités :<br />
n<br />
- loi du chi-2 à n degrés de liberté (c’est une loi Gamma G( , 2), n entier ≥ 1),<br />
2<br />
- loi de Student-Fisher,<br />
(ces deux lois sont utilisées en statistiques pour l’estimation et les tests)<br />
- loi log-normale,<br />
- loi Bêta,<br />
- loi de Cauchy,<br />
- loi de Pareto<br />
(utilisée en économie pour des modèles de répartition de revenus),<br />
etc …<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.56
FONCTION DE REPARTITION DE LA LOI NORMALE CENTREE REDUITE<br />
X ∼ N(0,1)<br />
Φ(x) = P(X ≤ x)<br />
x 0, 00 0, 01 0, 02 0, 03 0, 04 0, 05 0, 06 0, 07 0, 08 0, 09<br />
0, 0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359<br />
0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753<br />
0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141<br />
0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517<br />
0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879<br />
0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224<br />
0, 6 0, 7257 0, 7290 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549<br />
0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852<br />
0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133<br />
0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389<br />
1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621<br />
1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830<br />
1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015<br />
1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177<br />
1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319<br />
1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441<br />
1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545<br />
1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633<br />
1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706<br />
1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767<br />
2, 0 0, 9772 0, 9779 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817<br />
2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857<br />
2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890<br />
2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916<br />
2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936<br />
2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952<br />
2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964<br />
2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974<br />
2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981<br />
2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986<br />
Table pour les grandes valeurs de x :<br />
x 3, 0 3, 1 3, 2 3, 3 3, 4 3, 5 3, 6 3, 8 4, 0 4, 5<br />
Φ(x) 0, 99865 0, 99904 0, 99931 0, 99952 0, 99966 0, 99976 0, 999841 0, 999928 0, 999968 0, 999997<br />
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.57
Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.58