06.05.2013 Views

Cours d' Anne-Marie Boussion

Cours d' Anne-Marie Boussion

Cours d' Anne-Marie Boussion

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

UNIVERSITE PARIS-DAUPHINE<br />

Département MIDO<br />

A.M.<strong>Boussion</strong>/Probabilités DU MI2E 2ème année (2008-2009)<br />

Le programme de ce cours comprend :<br />

- la notion générale <strong>d'</strong>espace de probabilité<br />

- les variables aléatoires réelles définies sur un espace de probabilité, la notion de loi<br />

(en particulier les lois continues qui n'ont pas été vues en première année), moments,<br />

lois usuelles (en particulier les lois normales) ;<br />

- les couples et vecteurs aléatoires : lois marginales, indépendance, lois<br />

conditionnelles et espérances conditionnelles.<br />

Le chapitre 0 de ce polycopié rappelle les prérequis <strong>d'</strong>Analyse nécessaires :<br />

- l’intégrale simple et les propriétés de l’intégrale fonction de la borne supérieure,<br />

(ces notions ont été étudiées en première année) ;<br />

- les séries et l’intégrale généralisée, qui sont étudiées parallèlement en Analyse 3.<br />

Le chapitre 1 traite des espaces de probabilité : seule sera exposée en amphi la notion<br />

nouvelle de tribu, les définitions et propriétés vues en première année dans le cas des<br />

espaces finis ou dénombrables étant simplement rappelées. C'est la raison pour<br />

laquelle sont explicitées dans ce chapitre toutes les démonstrations utiles pour réviser<br />

ou se mettre à niveau.<br />

A partir du chapitre 2, le polycopié ne contient plus les démonstrations ; celles-ci<br />

seront développées en cours ainsi que les exemples.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.1


TABLE DES MATIERES<br />

Chapitre 0 : Rappels d’Analyse 3<br />

1 - Séries numériques 3<br />

2 - Intégrales 4<br />

Chapitre 1 : Espace de probabilité 10<br />

1 - Espace probabilisable 11<br />

2 - Espace de probabilité 14<br />

3 - Probabilité conditionnelle 19<br />

4 - Evénements indépendants 23<br />

5 - Ω non dénombrable : deux exemples pour réfléchir 26<br />

6 - Espaces de probabilité liés aux différents modes de tirage 29<br />

Chapitre 2 : Variables aléatoires réelles 31<br />

1 - Définition générale <strong>d'</strong>une variable aléatoire 31<br />

2 - Loi et fonction de répartition <strong>d'</strong>une variable aléatoire 34<br />

3 - Variable aléatoire discrète 35<br />

4 - Variable aléatoire continue 38<br />

5 - Moments <strong>d'</strong>une variable aléatoire 43<br />

6 - Les lois normales ou de Laplace-Gauss 49<br />

7 - Les lois usuelles 52<br />

Table de la loi normale centrée réduite 57<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.2


Chapitre 0 : Rappels d’Analyse<br />

1 - Séries numériques<br />

Définition 0.1.1 : Série convergente et absolument convergente :<br />

• La série de terme général u est dite convergente si la suite des sommes partielles<br />

n<br />

n<br />

(∑<br />

i=1<br />

u ) est convergente.<br />

i n<br />

+∞<br />

On note alors ∑<br />

i=1<br />

u i<br />

= lim<br />

n→+∞<br />

n<br />

∑<br />

i=1<br />

u et on l’appelle somme de la série.<br />

i<br />

Dans le cas contraire, la série de terme général u est dite divergente.<br />

n<br />

Propriété 0.1.2 : Condition nécessaire de convergence d’une série<br />

Si une série converge, son terme général tend vers 0. Cette condition est nécessaire<br />

mais non suffisante.<br />

k Exemples :<br />

+∞<br />

- série géométrique : ∑<br />

+∞<br />

et pour ⎢x ⎢ < 1 ∑<br />

i=0<br />

i=0<br />

x i<br />

- série exponentielle : ∑<br />

+∞<br />

- ∑<br />

i=1<br />

1<br />

i(i+1)<br />

= 1<br />

- série de Riemann : ∑<br />

+∞<br />

En particulier ∑<br />

i=1<br />

+∞<br />

i=0<br />

+∞<br />

i=1<br />

=<br />

1<br />

x i<br />

x i<br />

i!<br />

converge si et seulement si ⎢x ⎢ < 1<br />

1<br />

1 - x<br />

= e x pour tout réel x<br />

converge si et seulement si α > 1<br />

α<br />

i<br />

1<br />

est divergente.<br />

i<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.3


Propriété 0.1.3 : Convergence des séries à termes positifs<br />

• Toute série positive majorée par une série convergente est convergente.<br />

• Deux séries positives dont les termes généraux sont équivalents au voisinage de<br />

l’infini sont de même nature.<br />

Définition 0.1.4 : Série absolument convergente :<br />

La série de terme général u est dite absolument convergente si la série de terme<br />

n<br />

général ⎢u ⎢ converge.<br />

n<br />

k Exemples :<br />

+∞<br />

- ∑<br />

i=0<br />

+∞<br />

- ∑<br />

i=1<br />

x i<br />

(-1) i<br />

i<br />

Propriété 0.1.5 :<br />

est absolument convergente pour ⎢x ⎢ < 1<br />

est convergente, mais non absolument convergente (= semi-convergente)<br />

Toute série absolument convergente est convergente.<br />

* Attention !<br />

Si on modifie l'ordre des termes <strong>d'</strong>une série absolument convergente, la somme de<br />

la série est inchangée. Par contre si la série est semi-convergente, une modification<br />

de l'ordre de ses termes peut entraîner une modification de la valeur de la somme,<br />

et même transformer la série en une série divergente.<br />

2 - Intégrales<br />

a) Intégrale <strong>d'</strong>une fonction continue sur un segment<br />

Définition et propriétés 0.2.1 :<br />

• Soit f une fonction définie sur un intervalle I de R.<br />

Une fonction F est une primitive de f sur I si F est définie et dérivable sur I et :<br />

∀ x ∈ I F'(x) = f(x)<br />

• Si une fonction f admet une primitive F sur I, elle en admet une infinité qui se<br />

déduisent de F par l'addition <strong>d'</strong>une constante.<br />

• Toute fonction continue sur un intervalle I admet une primitive sur I.<br />

Définition 0.2.2 :<br />

Soient a et b deux réels distincts, et f une fonction continue sur le segment [a, b] (ou<br />

[b, a] si b < a). Soit F une primitive de f sur [a, b].<br />

On appelle intégrale de f sur [a, b] la différence F(b) - F(a) : cette différence ne<br />

dépend pas de la primitive F choisie.<br />

On note F(b) - F(a) = ∫ f(t) dt<br />

b<br />

a<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.4


Interprétation géométrique en repère orthonormé : si a < b, cette intégrale est égale<br />

à l’aire algébrique limitée par le graphe de f, l’axe des abscisses et les droites<br />

verticales d’équations x = a et x = b.<br />

Propriétés 0.2.3 :<br />

• Par convention, pour tout réel a : ∫<br />

• Pour tous réels a et b : ∫<br />

Propriétés 0.2.4 :<br />

a<br />

b<br />

a<br />

a<br />

f(t) dt = - ∫<br />

f(t) dt = 0<br />

b<br />

a<br />

f(t) dt<br />

Soient f et g deux fonctions continues sur [a, b] :<br />

• Pour tous réels λ et µ, ∫<br />

• Si a ≤ b et si f ≤ g sur [a, b] , alors ∫<br />

b<br />

a<br />

[λ f(t) + µ g(t)] dt = λ ∫<br />

b<br />

a<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.5<br />

b<br />

a<br />

b<br />

f(t) dt ≤ ∫<br />

a<br />

b<br />

f(t) dt + µ ∫<br />

g(t) dt<br />

a<br />

g(t) dt<br />

On résume ces deux propriétés en disant que l’intégrale est une forme linéaire<br />

positive (ou croissante).<br />

• Relation de Chasles :<br />

Pour a < c < b : ∫<br />

b<br />

a<br />

f(t) dt = ∫<br />

a<br />

c<br />

f(t) dt + ∫<br />

b<br />

c<br />

f(t) dt<br />

Cette formule reste vraie quelles que soient les positions relatives de a, b, c pourvu<br />

que f soit continue sur le plus grand des intervalles.<br />

• Formule d’intégration par parties :<br />

Si f et g sont de classe C 1<br />

sur [ a, b ] :<br />

b<br />

∫<br />

a<br />

f(t) g’(t) dt = f(b) g(b) - f(a) g(a) - ∫<br />

• Formule de changement de variable :<br />

b<br />

a<br />

f’(t) g(t)dt<br />

Soit ϕ une bijection de classe C 1<br />

définie sur le segment [a, b], et soit f une fonction<br />

continue sur le segment ϕ([a, b]).<br />

On pose α = ϕ(a) et β = ϕ(b). On a alors :<br />

β<br />

∫<br />

α<br />

b<br />

f(t) dt = ∫ f[ϕ(x)] ϕ’(x) dx<br />

a


) Intégrale généralisée<br />

Définition 0.2.5 :<br />

On suppose ici b réel ou b = +∞.<br />

Soit f une fonction continue sur [a, b [ : pour tout réel x < b, f est donc continue sur le<br />

segment [a, x] et on peut calculer ∫<br />

Si lim<br />

x→b<br />

x


k Exemples : Intégrales de Riemann<br />

+∞<br />

• ∫<br />

1<br />

• ∫<br />

0<br />

• ∫<br />

0<br />

1<br />

+∞<br />

1<br />

dt converge si et seulement si α > 1 (résultat similaire à celui des séries)<br />

α<br />

t<br />

1<br />

dt converge si et seulement si α < 1.<br />

α<br />

t<br />

1<br />

dt diverge pour toute valeur de α (ici il y a un problème aux deux bornes)<br />

α<br />

t<br />

Propriétés 0.2.6 : Généralisation des propriétés 0.2.3 et 0.2.4<br />

• Les égalités 0.2.3 sont vraies pour les intégrales généralisées.<br />

• L’intégrale généralisée est une forme linéaire positive et la relation de Chasles est<br />

vraie.<br />

• La formule d’intégration par parties reste vraie sous réserve de l’existence des<br />

limites en b de toutes les expressions qui interviennent : il se peut en effet que<br />

l'intégrale généralisée ∫<br />

b<br />

a<br />

f(t) g’(t) dt ait un sens alors que ni f(x) g(x) ni ∫<br />

n’ont de limite finie quand x tend vers b à gauche.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.7<br />

x<br />

a<br />

f’(t) g(t) dt<br />

Il est donc conseillé <strong>d'</strong>écrire <strong>d'</strong>abord la formule d’intégration par parties sur un<br />

intervalle [a, x] (x < b), et seulement ensuite de passer à la limite en b.<br />

1<br />

sint<br />

k Exemple : ∫ dt converge ; il n’y a même pas ici de vrai problème d’intégrale généralisée<br />

0<br />

t<br />

puisque lim<br />

t→0<br />

t>0<br />

1<br />

Posons f(t) =<br />

t<br />

sint<br />

1<br />

sint<br />

Pour tout x de ]0, 1] : ∫<br />

x<br />

t<br />

cosx<br />

Mais<br />

x<br />

t<br />

= 1, la fonction à intégrer peut être prolongée par continuité en 0.<br />

1<br />

et g’(t) = sint. On a f’(t) = -<br />

2<br />

t<br />

et g(t) = - cost.<br />

1<br />

cosx cost<br />

dt = - cos1 + - ∫ dt<br />

x<br />

x<br />

2<br />

t<br />

1<br />

cost<br />

n’a pas de limite finie en 0, donc ∫ dt non plus.<br />

2<br />

x<br />

t<br />

• La formule de changement de variable s'énonce de la façon suivante :<br />

Soit ϕ une bijection de classe C 1<br />

sur [a, b[ et f une fonction continue sur l'intervalle<br />

ϕ([a, b[). On pose α = ϕ(a) et β = lim ϕ(x) (β réel, ou β = ± ∞)<br />

x→b<br />

x


Alors les intégrales ∫<br />

β<br />

∫<br />

α<br />

{ Remarque :<br />

f(t) dt = ∫<br />

a<br />

β<br />

α<br />

b<br />

b<br />

f(t) dt et ∫<br />

a<br />

f[ϕ(x)] ϕ’(x) dx<br />

f[ϕ(x)] ϕ’(x) dx sont de même nature et on a :<br />

Il n'est pas nécessaire de montrer <strong>d'</strong>abord la convergence <strong>d'</strong>une des deux intégrales<br />

pour écrire la formule du changement de variable. Au contraire, cette formule peut<br />

être utilisée pour étudier la convergence <strong>d'</strong>une intégrale en la transformant en une<br />

autre dont la nature est plus simple à établir.<br />

Propriétés 0.2.7 : Conditions suffisantes de convergence des intégrales<br />

généralisées<br />

Ces propriétés sont analogues à celles des séries.<br />

Les énoncés ci-dessous sont donnés pour a < b (b réel ou b = +∞).<br />

• Si f est positive et majorée par une fonction g intégrable sur [a, b[, alors f est<br />

intégrable sur [a, b[, et ∫<br />

k Exemple :<br />

b<br />

a<br />

b<br />

f(t) dt ≤ ∫<br />

1<br />

a<br />

g(t) dt.<br />

+∞<br />

-t<br />

La convergence de l’intégrale ∫ e<br />

2<br />

-t<br />

dt est assurée par l’inégalité e<br />

2<br />

-t<br />

≤ e vraie pour t ≥ 1, et par<br />

+∞<br />

-t<br />

la convergence de l’intégrale ∫ e dt qui se calcule aisément (= 1/e).<br />

• L’intégrale ∫<br />

convergente.<br />

b<br />

a<br />

1<br />

f(t) dt est dite absolument convergente si l’intégrale ∫<br />

• Toute intégrale absolument convergente est convergente, et on a :<br />

b<br />

⎢ ∫<br />

a<br />

f(t) dt ⎢ ≤ ∫<br />

b<br />

a<br />

⎢f(t) ⎢ dt<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.8<br />

b<br />

a<br />

⎢f(t) ⎢ dt est<br />

• si f ≥ 0 (ou f ≤ 0) au voisinage de b, et si g est une fonction équivalente à f au<br />

voisinage de b, les intégrales généralisées ∫<br />

nature.<br />

b<br />

a<br />

f(t) dt et ∫<br />

b<br />

a<br />

g(t) dt sont de même


* Attention !<br />

Ce résultat n'est plus vrai si f ne garde pas un signe constant au voisinage de b.<br />

k Exemples :<br />

1<br />

sint<br />

• ∫ dt converge :<br />

3/2<br />

0 t<br />

1<br />

sint<br />

sint 1<br />

en effet, pour t de [0, 1], ≥ 0 ; sint ~ t d’où ~ et ∫<br />

3/2<br />

t<br />

0<br />

3/2 1/2<br />

t 0 t<br />

0<br />

1<br />

cost<br />

• ∫ dt diverge :<br />

2<br />

0 t<br />

cost cost<br />

en effet, pour t de [0, 1], ≥ 0 ; ~<br />

2 2<br />

t t 0<br />

+∞<br />

• ∫<br />

1<br />

√⎺t<br />

dt converge :<br />

2<br />

(t+1)<br />

en effet, pour t ≥ 1<br />

√⎺ t<br />

2<br />

(t+1)<br />

≥ 0 ;<br />

√⎺ t<br />

~<br />

2<br />

(t+1) +∞<br />

1<br />

2<br />

t<br />

1<br />

3/2<br />

t<br />

1<br />

et ∫<br />

0<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.9<br />

1<br />

1/2<br />

t<br />

1<br />

dt diverge puisque 2 ≥ 1.<br />

2<br />

t<br />

+∞<br />

et ∫<br />

1<br />

1<br />

3/2<br />

t<br />

c) Intégrale fonction de la borne supérieure<br />

Rappels 0.2.8 : Fonction de la borne supérieure :<br />

1<br />

dt converge puisque<br />

2<br />

3<br />

dt converge puisque<br />

2<br />

Soit f une fonction continue sur un intervalle I de R, et soit a un élément de I<br />

On pose : ∀ x ∈ I F(x) = ∫<br />

x<br />

a<br />

f(t) dt<br />

F est de classe C 1<br />

sur I et on a : ∀ x ∈ I F'(x) = f(x).<br />

(en fait, F est l’unique primitive de f sur I nulle en a).<br />

Ces résultats restent vrais pour des intégrales généralisées, sous réserve bien<br />

entendu de convergence de ces intégrales.<br />

Par exemple si f continue sur R est telle que pour tout réel x l'intégrale ∫<br />

converge, alors la fonction F définie sur R par F(x) = ∫<br />

et on a F’ = f.<br />

x<br />

-∞<br />

> 1.<br />

< 1.<br />

x<br />

-∞<br />

f(t) dt<br />

f(t) dt est de classe C 1 sur R,


Chapitre 1 : Espace de probabilité<br />

Le calcul des probabilités est la modélisation mathématique de phénomènes dus au<br />

“hasard”. Au départ, il s'agissait de résoudre des problèmes de jeux (jeux de dés par<br />

exemple). Bien que certains calculs aient été effectués dans ce domaine par des<br />

mathématiciens italiens de la Renaissance, on considère généralement que les<br />

fondateurs des Probabilités sont Pascal et Fermat au XVII ème siècle. Le calcul des<br />

probabilités se développa ensuite, motivé par des problèmes d’assurance et de<br />

rentes viagères, puis au XVIII ème siècle on passa du cas fini au cas continu (Laplace).<br />

Le vocabulaire et les techniques utilisées se sont précisés au fil du temps, et les<br />

probabilités ont trouvé de nombreuses applications en physique, économie,<br />

médecine, sciences sociales, finance …<br />

La formalisation utilisée de nos jours et exposée ci-dessous est due au mathématicien<br />

russe Kolmogorov (XX ème siècle).<br />

On appelle expérience aléatoire une expérience dont le résultat dépend du hasard.<br />

On ne connaît pas à l'avance le résultat <strong>d'</strong>une expérience aléatoire, mais on connaît<br />

l'ensemble de tous les résultats qu'elle peut avoir.<br />

k Exemple 1 : On lance un dé à 6 faces numérotées, en s'intéressant au numéro sorti;<br />

le résultat de l'expérience peut être représenté par un nombre entier compris entre 1<br />

et 6.<br />

k Exemple 2 : On joue à pile ou face jusqu'à ce que pile sorte. L'ensemble des<br />

résultats de l'expérience est l'ensemble des suites finies p, fp, ffp, … , fffffp, … ,<br />

auxquelles on ajoute par précaution la suite infinie ffff… (au cas où pile ne sortirait<br />

jamais).<br />

k Exemple 3 : On joue indéfiniment à pile ou face. L'ensemble des résultats de<br />

l'expérience est l'ensemble des suites infinies à valeur dans {p, f}. On note cet<br />

ensemble {p, f} N<br />

.<br />

k Exemple 4 : On observe la durée de vie <strong>d'</strong>une particule prise au hasard (ou la<br />

durée de fonctionnement sans panne <strong>d'</strong>une machine) ; le résultat de l'expérience peut<br />

être représenté au moins en théorie par un nombre réel positif (une unité de temps<br />

ayant été choisie).<br />

k Exemple 5 : On observe entre les instants 0 et T un signal continu sur l'écran <strong>d'</strong>un<br />

radar ; le résultat de l'expérience peut être représenté par une fonction continue<br />

définie sur l'intervalle [0, T].<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.10


L'ensemble de tous les résultats possibles <strong>d'</strong>une expérience aléatoire est appelé<br />

ensemble fondamental, ou univers et noté usuellement Ω. Chaque élément de Ω est<br />

appelé possible ou issue, et noté ω.<br />

L'ensemble Ω peut être fini (exemple 1), dénombrable (exemple 2) ou non<br />

dénombrable (exemples 3, 4 et 5).<br />

On peut le modéliser facilement pour des expériences aléatoires simples.<br />

1 - Espace probabilisable<br />

On considère une expérience aléatoire, et Ω l'ensemble fondamental associé. On va<br />

s'intéresser aux parties de Ω que l'on peut décrire à partir de l'expérience aléatoire et<br />

que l'on appelle événements.<br />

On impose à l'ensemble des événements <strong>d'</strong>avoir un certain nombre de propriétés<br />

"naturelles", que l'on résume sous le nom de tribu.<br />

Définition 1.1.1 :<br />

On appelle tribu (ou σσσσ-algèbre) sur Ω une partie A de P(Ω) vérifiant les axiomes<br />

suivants :<br />

i) Ω ∈A<br />

ii) ∀ A ∈ A Α c ∈ A (A est stable par passage au complémentaire)<br />

iii) Si (A ) est une suite <strong>d'</strong>éléments de A, B = ∪ A est aussi élément de<br />

n n≥1 i<br />

A (A est stable par réunion dénombrable).<br />

Propriétés 1.1.2 :<br />

Si A est une tribu sur Ω, alors :<br />

i)' ∅ ∈A<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.11<br />

+∞<br />

i=1<br />

iii)' Si (A n ) n≥1 est une suite <strong>d'</strong>éléments de A, C = ∩<br />

A (A est stable par intersection dénombrable).<br />

+∞<br />

i=1<br />

iv) A est stable par réunion et par intersection finies.<br />

A i est aussi élément de<br />

dém : • i)' : Ω ∈A (propriété i) et A est stable par passage au complémentaire (propriété ii) donc Ω c<br />

= ∅ ∈A.<br />

• iii)' : Pour tout entier i A i ∈A , donc (propriété ii) A i<br />

Toujours <strong>d'</strong>après la propriété ii) B c ∈A . Or B c = ∩ A = C.<br />

i<br />

+∞<br />

i=1<br />

c<br />

+∞<br />

∈A , donc (propriété iii) B = ∪<br />

• iv) : Soient A et B deux éléments de A. On pose A 1 = A, A 2 = B et A i = ∅ pour i ≥ 3. La suite<br />

(A ) ainsi définie est une suite <strong>d'</strong>éléments de A, donc ∪ A ∈A ; comme ∪ A = A ∪ B, on a bien<br />

n n≥1 i i<br />

+∞<br />

i=1<br />

+∞<br />

i=1<br />

i=1<br />

c<br />

A<br />

i<br />

∈A .


montré que A est stable pour la réunion de deux de ses éléments. On montre alors par récurrence sur n<br />

que A est stable pour la réunion de n de ses éléments.<br />

La stabilité de A pour l'intersection finie se prouve par passage au complémentaire, comme cela a été<br />

fait pour démontrer iii)'.<br />

Conséquence : Pour montrer qu'un sous-ensemble A de P(Ω) est une tribu, on doit<br />

vérifier qu'il a trois propriétés :<br />

i) ou i)' (au choix)<br />

ii)<br />

iii) ou iii)' (au choix)<br />

Définition 1.1.3 :<br />

On appelle espace probabilisable un couple (Ω, A), où A est une tribu sur Ω .<br />

Définitions 1.1.4 :<br />

• Si A est un événement de Ω, pour chaque résultat ω de l'expérience aléatoire,<br />

ou ω ∈ A : on dit que A est réalisé.<br />

ou ω ∉ A : on dit que A n'est pas réalisé.<br />

• La non-réalisation de A, c'est-à-dire l'événement A c , est appelé événement<br />

contraire de A.<br />

• La réalisation simultanée de deux événements A et B (A et B) est l'événement A∩B.<br />

• La réalisation <strong>d'</strong>au moins un des deux événements A et B (A ou B) est l'événement<br />

A∪B.<br />

• Si A et B sont deux événements tels que A 1 B, on dit que l'événement A entraîne<br />

(ou implique) l'événement B.<br />

• Le singleton {ω} est appelé événement élémentaire.<br />

• Ω est l'événement certain.<br />

• ∅ est l'événement impossible.<br />

• Deux événements A et B dont la réalisation simultanée est impossible (A∩B = ∅)<br />

sont dits incompatibles.<br />

k Exemples élémentaires de tribus :<br />

• P(Ω) est une tribu, c’est toujours elle que l’on prendra comme tribu d’événements<br />

si Ω est fini ou dénombrable.<br />

• A = {∅, Ω} est une tribu, appelée tribu grossière de Ω.<br />

• Pour tout A fixé de P(Ω), A = {∅, A, A c , Ω} est une tribu, appelée tribu engendrée<br />

par A.<br />

• Sur Ω = {1, 2, 3} :<br />

A = {∅, {1}, {2, 3} , {1, 2, 3}} est une tribu strictement incluse dans P(Ω).<br />

B = {∅, {2}, {2, 3} , {1, 2, 3}} n'est pas une tribu.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.12


k Exemple fondamental : la tribu borélienne de R ou R n<br />

Soit Ω = R, considérons la famille I des intervalles de R.<br />

Proposition et définitions 1.1.5 : (admise en partie)<br />

• I n’est pas une tribu, mais il existe une tribu, notée B(R), contenant tous les<br />

intervalles de R, et qui est la plus petite tribu (au sens de l'inclusion) contenant tous<br />

ces intervalles.<br />

On l’appelle tribu borélienne de R , et on la note B(R) ou plus simplement B.<br />

On dit que la tribu B est engendrée par les intervalles de R.<br />

• Il existe des parties de R qui ne sont pas boréliennes.<br />

On a donc : I 1 B(R) 1 P(R)<br />

≠<br />

≠<br />

dém : • I n’est pas une tribu, en particulier parce qu'elle n'est pas stable par passage au<br />

complémentaire : par exemple, le complémentaire de [0, 1] est ]-∞, 0[ ∪]1, +∞[, qui n'est pas un<br />

intervalle.<br />

• On note T l'ensemble des tribus de R contenant tous les intervalles. L'ensemble T est non vide<br />

puisqu'au moins P(R) appartient à T. Soit B l'intersection de toutes les tribus de T. B est une tribu,<br />

elle contient I, et toute autre tribu de R contenant I contient nécessairement B.<br />

B, appelée tribu borélienne de R, est donc la plus petite tribu au sens de l'inclusion contenant tous les<br />

intervalles de R.<br />

• On admettra dans ce cours l'existence de parties non boréliennes de R (ceci se démontre en utilisant<br />

l'axiome du choix, une partie non borélienne de R ne se construit donc pas de manière élémentaire).<br />

De même, la tribu borélienne de R n<br />

la note B(R n<br />

).<br />

est la tribu engendrée par les pavés (*) de R n<br />

. On<br />

(*) : un pavé de R n<br />

est le produit cartésien de n intervalles de R<br />

par exemple dans R 2<br />

: [a, b] x ]c, d], ]a, b[ x ]-∞,+∞[, ]a,+∞[ x ]b,+∞[ sont des pavés.<br />

{ Remarque :<br />

Dans le cadre de ce cours, en dimension 1, on ne rencontrera en pratique que des<br />

boréliens de type intervalle ou réunion finie d’intervalles. Mais en dimension n, on<br />

verra fréquemment dans les calculs des boréliens qui ne sont ni des pavés ni des<br />

réunions finies de pavés (par exemple, si n = 2, l'intérieur d’un disque ou <strong>d'</strong>un<br />

triangle ou plus généralement un domaine du plan dont la frontière est une courbe<br />

de classe C 1<br />

par morceaux sont des boréliens).<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.13


2 - Espace de probabilité<br />

La donnée d’un espace probabilisable ne suffit pas à décrire une expérience aléatoire.<br />

Par exemple, si on joue une fois à pile ou face, l’espace fondamental est très simple :<br />

Ω = {pile, face}, avec A = P(Ω) (puisque Ω est fini), mais les conditions de l’expérience<br />

ne sont pas les mêmes selon que la pièce utilisée est truquée ou non.<br />

a) Probabilité<br />

Définitions 1.2.1 :<br />

• Soit (Ω, A) un espace probabilisable. On appelle probabilité une application P de A<br />

dans R ayant les propriétés suivantes :<br />

i) ∀ A ∈ A P(A) ≥ 0<br />

ii) P(Ω) = 1<br />

iii) Pour toute suite (A n ) n≥1 <strong>d'</strong>événements deux à deux incompatibles :<br />

+∞<br />

P (∪ Ai ) = ∑ P(Ai ) (σσσσ-additivité de P)<br />

i=1<br />

+∞<br />

i=1<br />

• Le triplet (Ω, A, P) est appelé espace de probabilité, ou espace probabilisé.<br />

Construire un modèle probabiliste lié à une expérience aléatoire, c'est se donner le<br />

triplet (Ω, A, P). On admettra que pour une expérience aléatoire donnée, il existe<br />

l'espace de probabilité correspondant.<br />

Propriétés 1.2.2 :<br />

1) P(∅) = 0<br />

2) Additivité de P : si A et B sont incompatibles, P(A∪B) = P(A) + P(B)<br />

Plus généralement, si A 1 , A 2 , … , A n sont n événements incompatibles deux à deux :<br />

P(A 1 ∪A 2 ∪ … ∪A n ) = P(A 1 ) + P(A 2 ) + … + P(A n )<br />

3) P(A c ) = 1 - P(A)<br />

4) Si A et B sont deux événements, P(A∪B) = P(A) + P(B) - P(A∩B)<br />

5) Croissance de P : si A et B sont deux événements tels que A 1 B, P(A) ≤ P(B)<br />

6) ∀ A ∈ A P(A) ≤ 1<br />

7) Propriété de la limite monotone :<br />

- pour toute suite croissante (au sens de l'inclusion) <strong>d'</strong>événements (A n ) n≥1<br />

lim<br />

n→+∞<br />

P(An ) = sup P(An ) = P (∪ Ai )<br />

n<br />

+∞<br />

i=1<br />

- pour toute suite décroissante (au sens de l'inclusion) <strong>d'</strong>événements (A n ) n≥1<br />

lim<br />

n→+∞<br />

P(An ) = inf P(An ) = P (∩ A )<br />

i<br />

n<br />

+∞<br />

i=1<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.14


dém :<br />

• 1) : se démontre par l'absurde : On pose P(∅) = a . Par définition, a ≥ 0. Supposons a > 0. Soit A n = ∅<br />

pour tout n, les A n sont deux à deux disjoints, donc P( ∪<br />

définition de la somme <strong>d'</strong>une série. Or ∪<br />

contradiction.<br />

+∞<br />

i=1<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.15<br />

+∞<br />

i=1<br />

+∞<br />

A ) =<br />

i ∑ P(A<br />

i<br />

) = lim<br />

i=1<br />

A i = ∅ , <strong>d'</strong>où a = lim<br />

n→+∞<br />

n→+∞<br />

n<br />

∑<br />

i=1<br />

P(A i ) par<br />

(n a) = +∞ si a > 0, <strong>d'</strong>où la<br />

• 2) : on pose A 1 = A, A 2 = B et A i = ∅ pour i ≥ 3. La suite (A n ) n≥1 ainsi définie est une suite<br />

<strong>d'</strong>éléments de A deux à deux incompatibles, donc P( ∪ A ) =<br />

i ∑ P(A<br />

i<br />

) ;<br />

i=1<br />

i=1<br />

+∞<br />

i=1<br />

+∞<br />

or ∪ A = A ∪ B et<br />

i ∑ P(A<br />

i<br />

) = P(A) + P(B) + ∑ P(∅) = P(A) + P(B) puisque P(∅) = 0.<br />

i=1<br />

+∞<br />

i=3<br />

+∞<br />

Le cas <strong>d'</strong>une réunion finie se prouve de manière analogue.<br />

• 3) : on écrit la propriété 2) avec B = A c ; P(A) + P(A c ) = P(A∪A c ) = P(Ω) = 1<br />

• 4) : on écrit A∪B comme une réunion disjointe afin de se ramener au 2) :<br />

A∪B = A∪(B∩A c ) cette réunion étant disjointe,<br />

<strong>d'</strong>où P(A∪B ) = P(A) + P(B∩A c )<br />

De plus B = (B∩A)∪(B∩A c ) , cette réunion étant disjointe,<br />

<strong>d'</strong>où (propriété 3) : P(B) = P(B∩A) + P(B∩A c )<br />

On en déduit : P(B∩A c )) = P(B) - P(B∩A)<br />

<strong>d'</strong>où : P(A∪B ) = P(A) + P(B) - P(B∩A)<br />

Remarque : dans le cas où B∩A = ∅ , on retrouve la propriété 2).<br />

• 5) : si A est inclus dans B, B peut s'écrire : B = A∪(B∩A c ) , cette réunion étant disjointe.<br />

Toujours <strong>d'</strong>après 3), on a : P(B) = P(A) + P(B∩A c )), or P(B∩A c ) ≥ 0, <strong>d'</strong>où P(A) ≤ P(B);<br />

• 6) : se déduit de la précédente : A 1 Ω, <strong>d'</strong>où P(A) ≤ P(Ω) = 1.<br />

• 7) :<br />

- si la suite <strong>d'</strong>événements (A n ) n≥1 est croissante au sens de l'inclusion :<br />

pour tout entier n A n 1 A n+1 , <strong>d'</strong>où P(A n ) ≤ P(A n+1 ) par croissance de P. La suite réelle (P(A n )) n≥1<br />

étant croissante et majorée par 1, elle converge et sa limite est sa borne supérieure.<br />

Ensuite, on écrit la réunion croissante comme une réunion <strong>d'</strong>événements incompatibles deux à deux<br />

afin <strong>d'</strong>utiliser la σ-additivité de P :<br />

pour cela on pose :<br />

B 1 = A 1<br />

B 2 = A 2 ∩A 1<br />

…<br />

c<br />

c<br />

B n = A n ∩A n-1<br />

Par construction, les B i sont deux à deux disjoints ; de plus, pour tout entier n, A n = B 1 ∪B 2 ∪…∪B n ,<br />

<strong>d'</strong>où par application de 2) : P(A n ) = P(B 1 ) + P(B 2 ) +… +P(B n ) (*)<br />

+∞


+∞<br />

+∞<br />

De plus : ∪ A = ∪ B<br />

i i<br />

i=1 i=1<br />

+∞<br />

En effet : par définition des B , B 1 A <strong>d'</strong>où ∪ B 1 ∪ A . Inversement, soit ω un élément de ∪ A .<br />

i i i i i i<br />

i=1<br />

Il existe au moins un indice i tel que ω appartient à A i , donc l'ensemble I = {i ∈N/ω appartient à A i }<br />

est non vide. Toute partie non vide de N admet un plus petit élément, soit k le plus petit élément de I<br />

(I et k dépendent de ω). Par définition de k, ω appartient à A k et n'appartient pas à A k-1 , donc ω<br />

+∞<br />

appartient à B , et donc aussi à ∪ B .<br />

k i<br />

+∞<br />

+∞<br />

i=1<br />

On en déduit : P( ∪ A ) = P( ∪ B<br />

i i<br />

) = ∑ P(B<br />

i<br />

) (σ-additivité de P)<br />

i=1 i=1<br />

i=1<br />

+∞<br />

Or ∑<br />

i=1<br />

P(B i ) = lim<br />

n<br />

∑<br />

n→+∞ i=1<br />

+∞<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.16<br />

+∞<br />

i=1<br />

P(B i ) par définition de la somme <strong>d'</strong>une série = lim<br />

- si la suite <strong>d'</strong>événements (A n ) n≥1 est décroissante au sens de l'inclusion :<br />

n→+∞<br />

c<br />

on applique le résultat ci-dessus à la suite croissante <strong>d'</strong>événements (A ) .<br />

n n≥1<br />

b) Cas où Ω est fini ou dénombrable<br />

P(A n ) <strong>d'</strong>après (*)<br />

Cas fini : l'expérience aléatoire considérée n'a qu'un nombre fini de résultats<br />

possibles : Ω = {ω , … , ω }.<br />

1 m<br />

A chaque ω i<br />

(1 ≤ i ≤ m), on associe un réel noté P(ω ) (en fait, la notation rigoureuse<br />

i<br />

devrait être P({ω })), tel que :<br />

i<br />

i) P(ω ) ≥ 0<br />

i<br />

m<br />

ii) ∑<br />

i=1<br />

P(ω ) = 1<br />

i<br />

Toute partie A = {ω , … , ω } de l'ensemble fini Ω est un événement, et on pose :<br />

i1 ik<br />

P(A) = ∑<br />

j=1<br />

avec la convention : P(∅) = 0<br />

k<br />

P(ω ) (on note aussi cette somme : ∑ P(ω) )<br />

ij<br />

ω∈A<br />

On démontre que l'application P ainsi définie sur P(Ω) est bien une probabilité.<br />

P(A) est la probabilité de l'événement A.<br />

Cas particulier de probabilité finie : la probabilité uniforme<br />

Définition 1.2.3 : La probabilité P est uniforme sur l’espace fini Ω si tous les réels<br />

P(ω ) sont égaux. On dit alors que tous les résultats possibles de l’expérience sont<br />

i<br />

équiprobables.<br />

+∞<br />

i=1


k Exemple : Si on lance un dé à 6 faces numérotées, on met sur Ω = {1, 2, … , 6} la<br />

probabilité uniforme lorsque le dé n'est pas truqué.<br />

Propriétés 1.2.4 :<br />

1<br />

1) Si la probabilité est uniforme sur Ω, alors pour tout ω de Ω, P(ω) =<br />

cardΩ<br />

2) Si la probabilité est uniforme sur Ω, alors pour tout événement A,<br />

P(A) =<br />

cardA<br />

cardΩ<br />

C’est la formule classique :<br />

(Règle de Laplace)<br />

nombre de cas favorables<br />

nombre de cas possibles<br />

* Attention ! cette formule n’est applicable que sous l’hypothèse d’équiprobabilité.<br />

Cas dénombrable : Ω = {ω / i ∈N*}<br />

i<br />

La démarche ci-dessus se généralise en utilisant les séries.<br />

A chaque ω i<br />

, on associe un réel noté P(ω ), tel que :<br />

i<br />

i) P(ω ) ≥ 0<br />

i<br />

+∞<br />

ii) ∑<br />

i=1<br />

P(ω ) = 1<br />

i<br />

Cette somme de série est indépendante de la numérotation choisie pour les ω ,<br />

i<br />

et on définit la probabilité de toute partie A de Ω par : P(A) = ∑<br />

ω∈A<br />

P(ω)<br />

(somme finie ou somme de série)<br />

On peut démontrer en utilisant les propriétés des séries que l'application P ainsi<br />

définie sur P(Ω) est bien une probabilité.<br />

c) Système complet d’événements<br />

Définitions 1.2.5 :<br />

• On appelle événement négligeable (ou événement quasi-impossible) un événement<br />

dont la probabilité est nulle.<br />

• On appelle événement quasi-certain un événement dont la probabilité est égale à 1.<br />

B est quasi-certain ⇔ Β c est négligeable.<br />

• Une propriété vraie sur un événement quasi-certain de Ω est dite vraie presque<br />

sûrement (noté en abrégé : p. s.)<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.17


Propriété 1.2.6 :<br />

Si B est quasi-certain, pour tout événement A : P(A∩B) = P(A).<br />

dém : On a P(A) = P(A∩B) + P(A∩B c ) (égalité vue à la dém. de la propriété 1.2.2-4)<br />

Or par croissance de P , 0 ≤ P(A∩B c ) ≤ P(B c ) = 1 - P(B) = 0, <strong>d'</strong>où P(A∩B c ) = 0 et P(A) = P(A∩B).<br />

Conséquence : Pour calculer une probabilité, on peut, sans changer les résultats, se<br />

limiter à un événement quasi-certain de Ω.<br />

Définitions 1.2.7 :<br />

• Une suite (finie ou non) B , B , … , B , … <strong>d'</strong>événements non impossibles est un<br />

1 2 n<br />

système complet <strong>d'</strong>événements si :<br />

1) ∀ i ≠ j B ∩B = ∅<br />

i j<br />

2) Ω = ∪ B<br />

i<br />

i<br />

En termes ensemblistes, un système complet <strong>d'</strong>événements est une partition de Ω.<br />

• On définit aussi un système quasi-complet <strong>d'</strong>événements en remplaçant la condition<br />

2) ci-dessus par :<br />

2') ∪ B est quasi-certain.<br />

i<br />

i<br />

Proposition 1.2.8 : Formule des probabilités totales (1ère forme)<br />

• Si {B , B , … , B } est un système quasi-complet <strong>d'</strong>événements, pour tout<br />

1 2 n<br />

événement A : P(A) = ∑<br />

n<br />

i=1<br />

P(A∩B )<br />

i<br />

• Si B , B , … , B , … est une suite infinie <strong>d'</strong>événements constituant un système<br />

1 2 n<br />

quasi-complet, pour tout événement A : P(A) = ∑<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.18<br />

+∞<br />

i=1<br />

P(A∩B )<br />

i<br />

• Conséquence : dans les deux cas (système fini ou dénombrable) : ∑<br />

dém :<br />

i<br />

P(B ) = 1<br />

i<br />

• Par définition <strong>d'</strong>un système quasi-complet, ∪ B est quasi-certain, donc (propriété1.2.6), P(A) =<br />

i<br />

i<br />

P(A∩(∪ B )) = P(∪ (A∩B )). Or les (A∩B ) sont deux à deux incompatibles puisque les B le sont,<br />

i<br />

i<br />

i<br />

i<br />

i i<br />

donc P(∪ (A∩B ) = ∑<br />

i<br />

i<br />

i<br />

P(A∩B ) (par additivité de P dans le cas <strong>d'</strong>un système quasi-complet fini ; par<br />

i<br />

σ-additivité de P dans le cas <strong>d'</strong>un système quasi-complet dénombrable).<br />

• L'égalité ∑<br />

i<br />

P(B ) = 1 s'obtient en remplaçant A par Ω dans la formule ci-dessus.<br />

i


3 - Probabilité conditionnelle<br />

a) Définition<br />

Considérons un espace de probabilité (Ω, A, P) lié à une expérience aléatoire.<br />

Supposons que l'on sache qu'un événement B de A est réalisé. La probabilité <strong>d'</strong>un<br />

événement quelconque A de A risque alors <strong>d'</strong>être modifiée.<br />

k Exemple :<br />

Une famille de trois enfants vient de s’installer à côté de chez vous, et vous cherchez<br />

la probabilité qu’il y ait au moins une fille, lorsque :<br />

a) vous ne disposez d’aucun renseignement supplémentaire.<br />

b) vous savez qu'il y a au moins un garçon.<br />

c) vous savez que l’aîné est un garçon.<br />

L'ensemble Ω de toutes les configurations possibles <strong>d'</strong>une famille de trois enfants est l'ensemble des<br />

triplets dont les composantes valent F ou G ; la ième composante du triplet définit le sexe du ième<br />

enfant de la famille (i = 1, 2, 3).<br />

L'ensemble Ω étant fini, toute partie de Ω est un événement, et on met sur Ω la probabilité uniforme.<br />

Il y a donc 8 configurations possibles, chacune de probabilité<br />

a) Soit A l'événement "il y a au moins une fille". Les éléments de A sont les triplets dont au moins<br />

7<br />

une des composantes est F. Il y en a 7, donc P(A) = .<br />

8<br />

b) Si on sait qu'il y a au moins un garçon, on exclut le triplet (F, F, F) et il n'y a plus a priori que 7<br />

possibilités ; sur ces 7 triplets restants que l'on considère comme équiprobables, il y en a 6 pour<br />

6<br />

lesquels A est réalisé, <strong>d'</strong>où la probabilité cherchée : P (A) = .<br />

1 7<br />

c) Si on sait que l'aîné est un garçon, on ne garde que les 4 triplets dont la première composante est G ;<br />

3<br />

sur ces 4 triplets, il y en a 3 pour lesquels A est réalisé, <strong>d'</strong>où la probabilité cherchée : P (A) = .<br />

2 4<br />

Considérer que B est réalisé revient à ne plus raisonner sur Ω tout entier, mais<br />

seulement sur B, ce qui revient à mettre sur Ω une autre probabilité que la<br />

probabilité initiale.<br />

Définition 1.3.1 :<br />

Soit B un événement tel que P(B) ≠ 0.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.19<br />

1<br />

.<br />

8<br />

On appelle probabilité conditionnelle de A sachant B :<br />

P(A/B) =<br />

P(A∩B)<br />

P(B)


Dans la question b) de l'exemple ci-dessus, si on note B l'événement "il y a au moins un garçon", on a<br />

P(B) =<br />

7<br />

8<br />

et P(A∩B) =<br />

6<br />

8<br />

On retrouve la valeur que l'on avait notée P (A).<br />

1<br />

P(A∩C)<br />

De même P (A) =<br />

2 P(C)<br />

Propriété 1.3.2 :<br />

P(. /B) est une probabilité sur (Ω, A).<br />

(il y a 6 configurations mixtes sur les 8 possibles) <strong>d'</strong>où<br />

en notant C l'événement "l'aîné est un garçon".<br />

P(A∩B) 6<br />

= .<br />

P(B) 7<br />

Dans certains ouvrages, P(. /B) est notée P : nous n'utiliserons pas cette notation<br />

B<br />

pour éviter toute confusion avec la notation P qui sera introduite au chapitre 2.<br />

X<br />

dém : P(. /B) est bien une application de A dans R, et on va prouver qu'elle vérifie les trois conditions<br />

i) ii) iii) de la définition 1.2.1 :<br />

• i) ∀ A ∈ A P(A/B) =<br />

• ii) P(Ω/B) =<br />

P(Ω∩B)<br />

P(B)<br />

P(A∩B)<br />

P(B)<br />

P(B)<br />

= = 1<br />

P(B)<br />

≥ 0 car P(A∩B) ≥ 0 et P(B) > 0.<br />

• iii) Soit (A n ) n≥1 une suite <strong>d'</strong>événements deux à deux incompatibles :<br />

+∞<br />

1 +∞<br />

1 +∞<br />

P( (∪ A )/B) = P( ( ∪ A )∩B) = P (∪ (A<br />

i i i<br />

∩B))<br />

i=1<br />

P(B)<br />

i=1<br />

P(B)<br />

i=1<br />

les (A ∩B) sont deux à deux incompatibles puisque les A le sont, donc par σ-additivité de P,<br />

i<br />

i<br />

+∞<br />

+∞<br />

+∞<br />

1 +∞<br />

+∞<br />

P (∪ (A<br />

i<br />

∩B)) = ∑ P(A ∩B) <strong>d'</strong>où P( (∪ A )/B) =<br />

i<br />

i ∑ P(A ∩B) = ∑ P(A<br />

i<br />

/B)<br />

i=1<br />

i=1<br />

P(B) i<br />

i=1<br />

i=1<br />

i=1<br />

Conséquence :<br />

Toutes les propriétés 1.2.2 sont vraies en remplaçant P par P(. /B).<br />

Par exemple :<br />

• 0 ≤ P(A/B) ≤ 1<br />

• P(A c /B) = 1 - P(A/B)<br />

• P[(A∪A')/B] = P(A/B) + P(A'/B) - P[(A∩A')/B]<br />

• Pour toute suite croissante <strong>d'</strong>événements (A n ) n∈N<br />

etc…<br />

lim<br />

n→+∞<br />

P(An /B) = sup P(An /B)<br />

n<br />

b) Les trois formules de probabilité conditionnelle<br />

Formule des probabilités composées 1.3.3 :<br />

• Soit B un événement tel que P(B) ≠ 0. La formule ci-dessus s'écrit :<br />

P(A∩B) = P(B) P(A/B)<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.20


• Plus généralement :<br />

Soient A , A , … , A<br />

1 2 n n événements tels que P(A ∩A ∩ … ∩A ) ≠ 0. On a :<br />

1 2 n-1<br />

P(A ∩A ∩ … ∩A ) = P(A ) P(A /A ) P(A /A ∩A ) … P(A /A ∩A ∩ … ∩A )<br />

1 2 n 1 2 1 3 1 2 n 1 2 n-1<br />

dém :<br />

La condition P(A ∩A ∩ … ∩A ) ≠ 0 assure que pour tout k ≤ n-1, P(A ∩A ∩ … ∩A ) ≠ 0, donc<br />

1 2 n-1<br />

1 2 k<br />

toutes les probabilités conditionnelles P(A /A ), P(A /A ∩A ), … , P(A /A ∩A ∩ … ∩A )<br />

2 1 3 1 2 n 1 2 n-1<br />

existent. La formule se démontre par récurrence sur n.<br />

{ Remarque : On utilise souvent cette formule dans le cas où plusieurs événements<br />

se sont succédé (par exemple des tirages successifs dans une urne dont la<br />

composition est modifiée à chaque tirage en fonction du résultat du tirage<br />

précédent). Les événements sont alors introduits par ordre chronologique : A est le<br />

1<br />

premier événement à s'être produit, A le second etc …<br />

2<br />

La formule des probabilités composées justifie l’utilisation des arbres pour certains<br />

calculs probabilistes.<br />

Formule des probabilités totales 1.3.4 : (2ème forme)<br />

• Soit une famille finie B , B , … , B <strong>d'</strong>événements tous de probabilité non nulle et<br />

1 2 n<br />

constituant un système quasi-complet <strong>d'</strong>événements. On a pour tout événement A :<br />

n<br />

P(A) = ∑<br />

i=1<br />

P(A/B ) P(B )<br />

i i<br />

Cette formule est fréquemment utilisée avec un système complet <strong>d'</strong>événements de<br />

type { B, B c } tel que 0 < P(B) < 1 : P(A) = P(A/B) P(B) + P(A/B c ) P(B c )<br />

• Si le système quasi-complet <strong>d'</strong>événements est constitué <strong>d'</strong>une suite infinie B , B ,<br />

1 2<br />

… , B , … <strong>d'</strong>événements tous de probabilité non nulle, on a :<br />

n<br />

dém :<br />

+∞<br />

P(A) = ∑<br />

i=1<br />

P(A/B ) P(B )<br />

i i<br />

il suffit <strong>d'</strong>écrire la formule 1.2.8 en remplaçant P(A∩B ) par P(A/B ) P(B )<br />

i<br />

i i<br />

k Exemple :<br />

Une urne contient initialement 2 boules blanches. Un compteur affiche un entier<br />

aléatoire non nul i, on ajoute alors i boules noires dans l'urne puis on en tire une<br />

boule au hasard. Pour i ≥ 1, la probabilité <strong>d'</strong>afficher i est<br />

probabilité que la boule tirée soit blanche ?<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.21<br />

1<br />

i(i+1)<br />

. Quelle est la


dém :<br />

On définit les événements :<br />

A : "la boule tirée est blanche"<br />

B : "le compteur affiche l'entier i"<br />

i<br />

Les B constituent un système complet <strong>d'</strong>événements , <strong>d'</strong>où P(A) = ∑<br />

i<br />

i=1<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.22<br />

+∞<br />

+∞<br />

P(A/B ) P(B ) = ∑<br />

i i<br />

2<br />

1<br />

i+2 i(i+1)<br />

i=1<br />

(en effet, lorsque B est réalisé, il y a dans l'urne avant le tirage 2 boules blanches et i boules noires)<br />

i<br />

Pour calculer la somme de la série, on décompose en éléments simples la fraction rationnelle en i :<br />

2<br />

i(i+1)(i+2)<br />

1<br />

=<br />

i<br />

n 2 n<br />

∑<br />

i(i+1)(i+2)<br />

= ∑<br />

i=1<br />

i=1<br />

2 1<br />

- +<br />

i+1 i+2<br />

1<br />

(<br />

i<br />

1<br />

= (<br />

i<br />

1 1 1<br />

- ) - ( - )<br />

i+1 i+1 i+2<br />

1 n 1<br />

- ) - ∑ ( -<br />

i+1 i+1<br />

i=1<br />

n 2<br />

On conclut : P(A) = lim ∑<br />

i(i+1)(i+2)<br />

n→+∞ i=1<br />

Formule de Bayes 1.3.5 :<br />

1<br />

=<br />

2<br />

1<br />

n<br />

) = ∑<br />

i+2<br />

i=1<br />

1<br />

(<br />

i<br />

-<br />

1<br />

n+1<br />

) - ∑<br />

i+1<br />

i=2<br />

Soient A et B deux événements de probabilité non nulle.<br />

P(A/B) =<br />

P(B/A) P(A)<br />

P(B)<br />

1<br />

(<br />

i<br />

1 1 1 1<br />

- ) = - +<br />

i+1 2 n+1 n+2<br />

dém : il suffit <strong>d'</strong>écrire de deux façons différentes P(A∩B) = P(A/B) P(B) = P(B/A) P(A)<br />

Considérons deux événements dont l'un, B , est la conséquence de l'autre, A, appelé<br />

cause. On suppose que P(B/A) est connue. La formule de Bayes permet de calculer la<br />

probabilité conditionnelle de A sachant que B est réalisé. Pour cette raison, elle était<br />

autrefois appelée formule de probabilité des causes.<br />

k Exemples :<br />

Dans l'exemple ci-dessus de l'urne et du compteur : sachant que la boule tirée est<br />

blanche, quelle est la probabilité que le numéro affiché soit 1 ?<br />

dém : On demande P(B /A) =<br />

1<br />

2<br />

P(A/B ) =<br />

1 3<br />

A retenir :<br />

1<br />

; P(B ) =<br />

1 2<br />

et P(A) =<br />

P(A/B ) P(B )<br />

1 1<br />

1<br />

2<br />

P(A)<br />

2<br />

(calcul ci-dessus) <strong>d'</strong>où P(B /A) =<br />

1 3<br />

• La notion de probabilité conditionnelle s'introduit naturellement chaque fois qu'on<br />

acquiert une information partielle sur le résultat <strong>d'</strong>une expérience aléatoire.<br />

• Elle s'utilise aussi lorsqu'on se livre à deux expériences aléatoires successives telles<br />

que les conditions de la seconde sont fonction du résultat de la première.


4 - Evénements indépendants<br />

a) Indépendance de deux événements<br />

Définition 1.4.1 :<br />

Soit (Ω, A, P) un espace de probabilité. Deux événements A et B sont dits<br />

(stochastiquement) indépendants si P(A∩B) = P(A) P(B).<br />

k Exemple :<br />

On tire une carte au hasard dans un jeu de 32 cartes. Les événements A = "c'est un<br />

pique" et B ="c'est un honneur" sont indépendants.<br />

dém : Ω est l'ensemble des 32 cartes : 8 cartes (as-roi-dame-valet-10-9-8-7) pour chacune des 4<br />

couleurs (pique-coeur-carreau-trèfle) ; on munit Ω de la probabilité uniforme puisque le tirage se<br />

8 1<br />

fait au hasard, donc P(A) = =<br />

32 4<br />

16 1<br />

Il y a 16 honneurs (as- roi-dame-valet de chaque couleur), donc P(B) = =<br />

32 2<br />

Enfin il y a 4 honneurs de pique, donc P(A∩B) =<br />

{ Remarques :<br />

4 1<br />

= = P(A) P(B)<br />

32 8<br />

• Ne pas confondre événements indépendants et événements incompatibles.<br />

• L'indépendance se définit par rapport à une certaine probabilité P.<br />

Deux événements peuvent être indépendants pour une probabilité P et ne pas l'être<br />

pour une autre probabilité Q définie sur (Ω, A) (par exemple, Q = P(. /E) où E est un<br />

événement de probabilité non nulle).<br />

k Exemple :<br />

Reprendre l'exemple ci-dessus avec la probabilité conditionnelle P(. /E), où E est<br />

l'événement " c'est une dame ou un coeur".<br />

P(A∩E)<br />

dém : Posons Q = P(. /E) ; par définition, Q(A) =<br />

P(E)<br />

11<br />

Il y a 4 dames et 7 coeurs autres que la dame, donc P(E) =<br />

32<br />

1<br />

appartient à A∩E) <strong>d'</strong>où Q(A) =<br />

11<br />

1<br />

On remarque que A∩B∩E = A∩E <strong>d'</strong>où Q(A∩B) = Q(A) =<br />

11<br />

1<br />

; P(A∩E) =<br />

32<br />

(seule la dame de pique<br />

7<br />

7<br />

De plus P(B∩E) = (les 4 dames et les 3 honneurs de coeur autres que la dame) <strong>d'</strong>où Q(B) =<br />

32<br />

11<br />

Q(A∩B) ≠ Q(A) Q(B) : A et B ne sont pas indépendants pour la probabilité Q, alors qu'ils le sont<br />

pour la probabilité P.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.23


Propriété 1.4.2 :<br />

Soient A et B deux événements de probabilité non nulle. Les trois conditions sont<br />

équivalentes :<br />

i) A et B sont indépendants<br />

ii) P(A/B) = P(A)<br />

iii) P(B/A) = P(B)<br />

Les propriétés ii) et iii) justifient le terme "indépendants" : la probabilité de A n'est<br />

pas modifiée par le fait que l'on sache B réalisé.<br />

dém :<br />

• ii) ⇒ i) : l'égalité P(A∩B) = P(A/B) P(B) est toujours vraie dès que P(A/B) existe ; si P(A/B) =<br />

P(A), on en déduit P(A∩B) = P(A) P(B)<br />

• i) ⇒ ii) : l'égalité P(A∩B) = P(A/B) P(B) est vraie, et par hypothèse P(A∩B) = P(A) P(B), <strong>d'</strong>où<br />

P(A/B) P(B) = P(A) P(B) et P(A/B) = P(A) puisque P(B) ≠ 0.<br />

L'équivalence i) ⇔ iii) s'établit par symétrie entre A et B.<br />

Propriété 1.4.3 : Si A et B sont deux événements indépendants, alors :<br />

A et B c sont indépendants<br />

A c et B sont indépendants<br />

A c et B c sont indépendants<br />

dém : P(A) = P(A∩B) + P(A∩B c ), <strong>d'</strong>où P(A∩B c ) = P(A) - P(A∩B) = P(A) - P(A)P(B) (indépendance<br />

de A et B) = P(A) [1 - P(B)] = P(A) P(B c ) c.q.f.d.<br />

On inverse les rôles de A et B pour la deuxième propriété. La troisième se démontre en deux temps :<br />

l'indépendance de A et B assure celle de A et B c , puis (même raisonnement) celle de A c et B c .<br />

b) Indépendance mutuelle<br />

Définition 1.4.4 :<br />

Une suite (finie ou non) A , A , … , A , … <strong>d'</strong>événements est une suite indépendante<br />

1 2 n<br />

si et seulement si pour toute sous-famille finie <strong>d'</strong>indices 1 ≤ i 1 < i 2 < … < i k :<br />

P(A ∩A ∩ … ∩A ) = P(A ) P(A ) … P(A )<br />

i1 i2 ik i1 i2 ik<br />

On dit aussi que les événements A i<br />

Exemple :<br />

sont mutuellement indépendants.<br />

• Pour établir l'indépendance mutuelle de trois événements A, B, C, il faut vérifier 4 égalités :<br />

⎧ P(A∩B) = P(A) P(B)<br />

⎪<br />

⎪ P(A∩C) = P(A) P(C)<br />

⎨<br />

⎪ P(B∩C) = P(B) P(C)<br />

⎪<br />

⎩ P(A∩B∩C) = P(A) P(B) P(C)<br />

• Dans le cas <strong>d'</strong>une famille finie de n événements, vérifier l'indépendance mutuelle conduit à<br />

n<br />

vérifier (2 - n - 1) égalités (11 égalités à vérifier pour n = 4, et 26 égalités pour n = 5 …)<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.24


Propriété 1.4.5 :<br />

Par définition, l'indépendance mutuelle <strong>d'</strong>une famille implique l'indépendance deux à<br />

deux des événements de cette famille, mais la réciproque est fausse.<br />

k Exemple :<br />

On lance deux fois un dé, et on définit les événements suivants :<br />

A = " le premier lancer est pair"<br />

B = " le deuxième lancer est pair"<br />

C = " la somme des lancers est paire".<br />

A, B et C sont indépendants deux à deux, mais ne sont pas mutuellement indépendants.<br />

(le dé est supposé honnête, et les deux lancers indépendants).<br />

1<br />

dém : P(A) = P(B) =<br />

2<br />

(le dé est honnête, et à chaque lancer il y a 3 numéros pairs sur les 6 possibles)<br />

1<br />

Par hypothèse, A et B sont indépendants, P(A∩B) = P(A) P(B) =<br />

4<br />

C = C 0 ∪C 1 (union disjointe) avec : C 0 = les deux lancers sont pairs et C 1 = les deux lancers sont<br />

impairs<br />

1<br />

P(C ) = P(A∩B) =<br />

0<br />

4<br />

1<br />

. On démontre de même P(C ) =<br />

1<br />

4<br />

1<br />

. Donc P(C) =<br />

2<br />

1<br />

On a A∩C = A∩B, donc P(A∩C) = P(A∩B) = = P(A) P(C) : A et C sont indépendants.<br />

4<br />

On démontre de même que B et C sont indépendants.<br />

Les trois événements A, B et C sont donc bien indépendants deux à deux.<br />

1<br />

Par contre A∩B∩C = A∩B, <strong>d'</strong>où P(A∩B∩C) = ≠ P(A) P(B) P(C)<br />

4<br />

Proposition 1.4.6 :<br />

Si A , A , … , A , … est une famille finie ou non <strong>d'</strong>événements mutuellement<br />

1 2 n<br />

indépendants, pour toute sous-famille finie <strong>d'</strong>indices 1 ≤ i 1 < i 2 < … < i k ,<br />

P(A' ∩A' ∩ … ∩A' ) = P(A' ) P(A' ) … P(A' )<br />

i1 i2 ik i1 i2 ik<br />

avec pour tout i, A' i = A i<br />

ou A i<br />

c<br />

dém : par récurrence sur le nombre <strong>d'</strong>indices i tels que A est remplacé par son complémentaire.<br />

i<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.25


5 - Ω non dénombrable : deux exemples pour réfléchir<br />

A part la définition 1.2.1 <strong>d'</strong>une probabilité qui introduit la notion nouvelle de tribu,<br />

on constate que les définitions et propriétés énoncées aux §2-3-4 sont<br />

rigoureusement identiques (y compris les démonstrations) à celles vues en première<br />

année, où la probabilité P était définie sur P(Ω).<br />

D'où la question : pourquoi cette notion de tribu ?<br />

La réponse est que sans les tribus, on ne pourrait garantir l'existence de certaines<br />

probabilités sur les espaces Ω non dénombrables.<br />

Ce problème <strong>d'</strong>existence ne se pose pas dans le cas où Ω est fini : on a vu au §2-b)<br />

qu'il est très facile de définir une probabilité en donnant la valeur de chaque P(ω). Il<br />

suffit de respecter les conditions : P(ω) ≥ 0 pour tout ω de Ω et ∑<br />

ω∈Ω<br />

P(ω) = 1.<br />

Il en va de même si Ω est dénombrable. Les justifications sont juste un petit peu plus<br />

compliquées puisqu'elles utilisent les propriétés des séries.<br />

Dans le cas où Ω n'est pas dénombrable, l'exemple 1 ci-dessous va nous montrer<br />

qu'on ne peut plus en général définir P "point par point" sur chaque ω de Ω. Il faut<br />

donc la définir directement sur les événements, qui sont des parties de Ω.<br />

Or on verra à l'exemple 2 que pour des raisons techniques, certains types de<br />

probabilités pourtant très intéressantes ne peuvent être définies sur P(Ω) tout entier,<br />

<strong>d'</strong>où la nécessité de ne considérer comme événements qu'une sous-famille stricte de<br />

P(Ω). Il est naturel pour des raisons logiques que cette sous-famille contienne Ω<br />

(événement certain) et ∅ (événement impossible), soit stable par passage au<br />

complémentaire (événement contraire <strong>d'</strong>un événement donné) ainsi que par<br />

intersection (réalisation simultanée <strong>d'</strong>événements, lien logique : et) et réunion<br />

(réalisation <strong>d'</strong>au moins un des événements considérés, lien logique : ou non exclusif)<br />

finies (ou dénombrables car certaines expériences théoriques conduisent à étudier<br />

des suites <strong>d'</strong>événements, voir l'exemple 1 ci-dessous). D'où la définition des tribus.<br />

a) Exemple 1 : P doit être définie directement sur A<br />

Voici un exemple <strong>d'</strong>expérience aléatoire, à propos duquel on verra l'utilité de<br />

certaines des propriétés de calcul <strong>d'</strong>une probabilité (passage au complémentaire,<br />

additivité, passage à la limite croissante ou décroissante).<br />

Une urne (que l'on appellera dans la suite du cours "urne RBV”) contient 3 boules,<br />

une rouge, une blanche, une verte. Dans cette urne, on tire une infinité de fois une<br />

boule avec remise.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.26


• Modélisation de l'espace de probabilité :<br />

Ω = {R, B, V} N* = ensemble des suites (u ) où u est la couleur tirée au ième tirage<br />

n n≥1 i<br />

(u = R, B, ou V)<br />

i<br />

Cet ensemble Ω est évidemment infini.<br />

On admettra (cela se démontre) qu'il existe une tribu A formée des parties de Ω que<br />

l'on peut décrire à partir de l'expérience aléatoire et une probabilité P définie sur A<br />

telle que :<br />

- à chaque tirage, la probabilité <strong>d'</strong>avoir une couleur donnée vaut 1/3 ;<br />

- les résultats des différents tirages sont indépendants (tirages avec remise).<br />

• Probabilité <strong>d'</strong>avoir un tirage tricolore sur les n premiers tirages (n ≥ 3)<br />

Soit n fixé ≥ 3, et soit A n l'événement : "les trois couleurs sont apparues sur les n<br />

premiers tirages".<br />

On montre que : P(A n ) =<br />

3 n-1 - 2 n + 1<br />

3 n-1<br />

• Probabilité <strong>d'</strong>avoir un tirage tricolore sur l'ensemble des tirages<br />

Soit A l'événement : "les trois couleurs sont apparues sur l'ensemble des tirages".<br />

+∞<br />

On a : A = ∪ A<br />

i<br />

i=3<br />

On montre que : P(A) = lim<br />

n→+∞<br />

L'événement A est quasi-certain.<br />

P(A n ) = 1<br />

• Probabilité <strong>d'</strong>un événement élémentaire {ω}<br />

Soit ω un élément de Ω fixé. ω est une suite (u ) où u est la couleur tirée au ième<br />

n n≥1 i<br />

tirage (u = R, B, ou V)<br />

i<br />

On montre que : P(ω) = 0<br />

Tout événement élémentaire est négligeable.<br />

• Conclusion :<br />

Puisque pour tout ω P(ω) = 0, il est impossible ici de reconstituer la probabilité P à<br />

partir des P(ω) comme on peut le faire dans le cas où Ω est fini ou dénombrable en<br />

posant pour tout événement A : P(A) = ∑<br />

ω∈A<br />

P(ω) .<br />

Ici, l'ensemble fondamental Ω n'est pas dénombrable, <strong>d'</strong>où la nécessité de définir la<br />

probabilité P non pas "point par point" mais directement sur la tribu A des<br />

événements.<br />

b) Exemple 2 : Prendre A = P(Ω) n'est pas toujours possible<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.27


Supposons maintenant qu'on lance une aiguille infiniment fine sur une règle de<br />

longueur 1, le résultat de l'expérience est l'abscisse ω (réel compris entre 0 et 1) de<br />

l'impact de l'aiguille sur la règle. Ici Ω = [0, 1] et les parties de Ω auxquelles on pense<br />

"naturellement" sont les intervalles [a, b] avec 0 ≤ a ≤ b ≤ 1, ou les réunions finies de<br />

tels intervalles (rappelons qu'un point est un intervalle : { a} = [a, a]).<br />

Si on suppose que les conditions de l'expérience sont telles qu'il n'y a pas de région<br />

privilégiée de la règle, il est naturel de penser que la probabilité que l'impact de<br />

l'aiguille se trouve dans un intervalle donné [a, b] est proportionnelle à la longueur<br />

de cet intervalle, ce qui conduit ici à poser : P( [a, b]) = b - a (condition (*))<br />

D'où la question : une telle probabilité existe-t-elle ?<br />

Si elle existe, on a nécessairement P(ω) = 0 pour tout ω, donc même problème que<br />

dans l'exemple précédent.<br />

On ne peut se limiter à une probabilité qui serait définie seulement sur la famille des<br />

intervalles de [0, 1], car cette famille n'est pas une tribu.<br />

Vous verrez (cours <strong>d'</strong>Intégrale de Lebesgue en L3) qu'on peut construire une<br />

probabilité définie de manière unique sur la tribu borélienne de [0, 1] (tribu<br />

engendrée par les intervalles de [0, 1]) et vérifiant la condition (*).<br />

Cette probabilité s'appelle probabilité uniforme sur l'intervalle [0, 1].<br />

Par contre, on peut montrer par l'absurde qu'il n'existe pas de probabilité P définie<br />

sur P([0,1]) et vérifiant la condition (*), en construisant une famille dénombrable de<br />

parties A (évidemment non boréliennes), deux à deux disjointes et toutes de même<br />

n<br />

+∞<br />

probabilité, telles que [0, 1 [ = ∪ A<br />

n<br />

n=1<br />

Cette construction nécessite l'axiome du choix.<br />

Que P(A ) = 0 ou P(A ) > 0, on arrive dans les deux cas à une contradiction.<br />

n<br />

n<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.28


6 - <strong>Anne</strong>xe : Construction des espaces de probabilité<br />

liés aux différents modes de tirage<br />

Voici trois exemples de construction <strong>d'</strong>espaces Ω liés aux divers modes de tirage de<br />

boules dans une urne.<br />

On appelle E l'ensemble des boules de l'urne, et on pose cardE = N (N ≥ 1).<br />

k Exemple 1 : tirages successifs avec remise<br />

On tire n fois de suite une boule, en la remettant dans l'urne avant le tirage suivant.<br />

• Ω = E n<br />

= { (x , x , … , x ) / ∀ i ∈ [[1, n]] x ∈E}<br />

1 2 n<br />

i<br />

Chaque ω = (x , x , … , x ) est donc un n-uplet (ou n-liste) où pour 1≤i≤n, x est la<br />

1 2 n<br />

i<br />

i ème<br />

boule tirée.<br />

Il y a un ordre de tirage, et la même boule peut être tirée deux ou plusieurs fois, donc<br />

pas de condition restrictive sur les x .<br />

i<br />

• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce<br />

qui revient à munir Ω de la probabilité uniforme :<br />

∀ ω ∈ Ω P(ω) =<br />

1<br />

cardΩ<br />

cardΩ = N n<br />

k Exemple 2 : tirages successifs sans remise<br />

On tire n fois de suite une boule, en mettant de côté les boules tirées. On doit donc<br />

avoir : n ≤ N.<br />

• Ω = { (x , x , … , x ) ∈ E<br />

1 2 k<br />

n<br />

/ ∀ (i, j) ∈ [[1, n]] 2<br />

Pour 1≤ i ≤ n, x est la boule tirée au i<br />

i<br />

ème<br />

i ≠ j ⇒ x ≠ x }<br />

i j<br />

un n-uplet dont les composantes sont deux à deux distinctes.<br />

tirage; chaque ω = (x , x , … , x ) est donc<br />

1 2 k<br />

Il y a un ordre de tirage, mais la même boule ne peut être tirée plus <strong>d'</strong>une fois, <strong>d'</strong>où<br />

les conditions sur les x .<br />

i<br />

• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce qui<br />

revient à munir Ω de la probabilité uniforme :<br />

∀ ω ∈ Ω P(ω) =<br />

1<br />

cardΩ<br />

n<br />

cardΩ = A<br />

N<br />

k Exemple 3 : tirage simultané (ou exhaustif)<br />

Les n boules sont tirées en une fois. Ici aussi : n ≤ N.<br />

• Ω = P (E) , ensemble des parties à n éléments de E.<br />

n<br />

Il n'y a pas ici <strong>d'</strong>ordre de tirage, cela n'a donc pas de sens de parler de première ou<br />

dernière boule.<br />

• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce qui<br />

revient à munir Ω de la probabilité uniforme :<br />

∀ ω ∈ Ω P(ω) =<br />

1<br />

cardΩ<br />

n<br />

cardΩ = C<br />

N<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.29


Propriété 1.6.1 :<br />

Si A est un événement relatif seulement à la composition de l'échantillon obtenu<br />

(par exemple A = n'obtenir aucune boule noire ou A = obtenir dans l'échantillon un<br />

nombre de boules noires inférieur au nombre de boules blanches), on peut<br />

démontrer que P(A) a la même valeur dans le cas de tirages successifs sans remise<br />

ou dans le cas <strong>d'</strong>un tirage exhaustif.<br />

On peut donc raisonner pour calculer P(A) indifféremment avec l'un ou l'autre<br />

modèle, mais attention à être cohérent dans le choix de ΩΩΩΩ , le calcul de cardΩΩΩΩ, et le<br />

calcul de cardA.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.30


Chapitre 2 : Variables aléatoires réelles<br />

1 - Définition générale <strong>d'</strong>une variable aléatoire<br />

a) Image et image réciproque <strong>d'</strong>un ensemble par une application<br />

Définitions 2.1.1 :<br />

Soit f une application <strong>d'</strong>un ensemble E dans un ensemble F.<br />

• Soit A une partie de E. On note f(A) = {y ∈ F/∃ x ∈ A y = f(x)}<br />

f(A) est une partie de F. On l'appelle image de A par f.<br />

• Soit B une partie de F. On note f -1<br />

(B) = {x ∈ E/ f(x) ∈ B}<br />

f -1<br />

(B) est une partie de E. On l'appelle image réciproque de B par f.<br />

* Attention ! La notation f -1<br />

(B) ne signifie pas que f est une application bijective.<br />

b) Variable aléatoire<br />

Soit une expérience aléatoire modélisée par un espace de probabilité (Ω, A, P).<br />

On peut être amené à associer à chaque résultat ω de l'expérience aléatoire un réel<br />

dépendant de ω.<br />

k Exemple 1 :<br />

On lance trois fois un dé, et pour tout tirage ω on note S(ω) la somme des chiffres<br />

obtenus. Selon une règle fixée à l'avance, il peut être convenu que le joueur touchera<br />

un gain X(ω) dépendant de S(ω).<br />

⎧ S(ω) - 10 si S(ω) ≥ 10<br />

Par exemple : X(ω) = ⎨<br />

⎩ 0 sinon<br />

Si le joueur a misé une somme m pour jouer, on peut aussi considérer le gain<br />

algébrique : Y(ω) = X(ω) - m.<br />

X est une application à valeurs dans N, Y est à valeurs dans Z (si m entier).<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.31


k Exemple 2 : l'urne RBV<br />

Dans une urne contenant 1 boule rouge, 1 blanche et 1 verte, on tire n fois une boule<br />

avec remise, et on note pour tout tirage ω :<br />

X(ω) = le nombre de boules rouges obtenues ;<br />

Y(ω) = le rang <strong>d'</strong>apparition de la première boule rouge (en posant Y(ω) = n+1 si<br />

aucune boule rouge ne sort à ce tirage) ;<br />

Z(ω) =<br />

⎧ 1 si on obtient un tirage unicolore<br />

⎨<br />

⎩<br />

0 sinon<br />

T(ω) = le nombre de couleurs apparues.<br />

X, Y, Z, T sont à valeurs dans N.<br />

k Exemple 3 :<br />

On observe les arrivées de véhicules à un péage à partir de l'instant 0.<br />

On peut définir :<br />

X(ω) = le nombre de véhicules arrivé entre l'instant 0 et l'instant t (t fixé).<br />

T (ω) et plus généralement T (ω) l'instant <strong>d'</strong>arrivée du premier (du n<br />

1<br />

n<br />

ème<br />

) véhicule.<br />

T est à valeurs dans R + .<br />

n<br />

Dans chaque cas, on a défini une (ou plusieurs) applications de Ω dans R : pour une<br />

telle application X, il est naturel de s’intéresser à l’ensemble des résultats ω de Ω tels<br />

que par exemple on ait X(ω) = x ou X(ω) ≤ x (x étant un réel fixé) et à calculer la<br />

probabilité de ces éventualités.<br />

Mais pour que ces calculs soient possibles, il faut que les sous-ensembles de Ω définis<br />

par {ω ∈ Ω/ X(ω) = x } ou {ω ∈ Ω/ X(ω) ≤ x } soient des événements (c’est-à-dire des<br />

éléments de la tribu A), d’où les propriétés que l’on impose à l’application X.<br />

Définition 2.1.2 :<br />

Soit (Ω, A, P) un espace de probabilité. On appelle variable aléatoire (en abrégé v.a.)<br />

une application X de Ω dans R telle que l’image réciproque par X de tout borélien de<br />

R est un événement.<br />

∀ B ∈ B X -1<br />

(B) = {ω ∈ Ω/ X(ω) ∈ B} ∈ A<br />

B désigne l'ensemble des boréliens de R.<br />

On notera aussi : X -1<br />

(B) = (X ∈ B).<br />

En particulier, l’image réciproque de tout intervalle de R est un événement :<br />

X -1<br />

( ] a, b [) = (X ∈ ] a, b [) = (a < X < b)<br />

X -1<br />

( [ a, b ]) = (X ∈ [ a, b ]) = (a ≤ X ≤ b)<br />

X -1<br />

( ] a, +∞ [) = (X ∈ ] a, +∞ [) = (X > a)<br />

X -1<br />

({a}) = (X = a)<br />

etc …<br />

• Dans le cas où A = P(Ω) (condition toujours réalisée si Ω est fini ou dénombrable),<br />

toute application réelle X définie sur Ω est une variable aléatoire.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.32


• Dans le cas général, on admettra que pour que X soit une variable aléatoire, il suffit<br />

que :<br />

- l’image réciproque par X de tout intervalle de R soit un événement (condition a<br />

priori moins forte que celle de la définition)<br />

ou même que :<br />

- l’image réciproque par X de toute demi-droite de type ] -∞, x ] (x réel) soit un<br />

événement (condition encore moins forte que la précédente).<br />

k Exemple fondamental :<br />

Soit A un événement de A, on appelle fonction indicatrice de A la fonction définie<br />

sur Ω par :<br />

⎧<br />

⎪ ∀ ω ∈ A 1A(ω)<br />

= 1<br />

⎨<br />

⎪ ∀ ω ∉ A 1 (ω) = 0<br />

⎩<br />

A<br />

1 est une variable aléatoire.<br />

A<br />

* Attention !<br />

Cet exemple établit un lien entre la notion <strong>d'</strong>événement et celle de variable aléatoire,<br />

mais il ne faut pas confondre ces deux notions : un événement est une partie de Ω<br />

alors qu’une variable aléatoire est une application de Ω dans R (autrement dit une<br />

fonction).<br />

En particulier, si X est une v.a., la notation P(X) n'a aucun sens.<br />

Proposition 2.1.3 : (admise)<br />

Si X et Y sont deux v.a. sur le même espace probabilisable (Ω, A), pour tout réel λ, les<br />

applications λX, X + Y et XY sont des v.a.<br />

ce qui peut s'énoncer : l'ensemble des v.a. définies sur l'espace probabilisable (Ω, A) a<br />

une structure d’algèbre.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.33


2 - Loi et fonction de répartition <strong>d'</strong>une v. a.<br />

Soit X une v.a. définie sur un espace de probabilité (Ω, A, P). Par définition d’une<br />

variable aléatoire, pour tout borélien B de R, (X ∈ B) est un événement. On peut<br />

donc calculer la probabilité de cet événement : en toute rigueur, il faudrait noter cette<br />

probabilité P((X ∈ B)) mais en pratique on écrit simplement P(X ∈ B).<br />

Proposition et définition 2.2.1 :<br />

Pour tout borélien B de R, on pose : P (B) = P(X ∈ B)<br />

X<br />

P est une probabilité sur l’espace probabilisable (R, B(R)). On l’appelle la loi de X,<br />

X<br />

ou distribution de probabilité de X.<br />

On admettra que la loi P X<br />

est totalement connue si on connait P [(a, b)] pour tout<br />

X<br />

intervalle (a, b) de R. On peut même se limiter aux intervalles de type ]-∞, a].<br />

Définition 2.2.2 :<br />

On appelle fonction de répartition de X la fonction F définie sur R par :<br />

X<br />

∀ x ∈ R F (x) = P(X ≤ x)<br />

X<br />

Notations équivalentes : P(X ≤ x) = P(X ∈] -∞, x ]) = P (] -∞, x ])<br />

X<br />

* Attention aux notations ! On réserve les lettres majuscules (X) aux variables<br />

aléatoires, et les lettres minuscules (x) aux réels.<br />

La fonction de répartition est un outil mathématique dont l’intérêt principal est de<br />

caractériser la loi d’une variable aléatoire. Toutes les fonctions de répartition ont des<br />

propriétés communes, énoncées ci-dessous dans le cas général. On étudiera dans ce<br />

cours deux grands types de variables aléatoires réelles : les variables aléatoires<br />

discrètes et les variables aléatoires à densité. Il existe aussi des variables dont les lois<br />

sont des mélanges d’une loi discrète et d’une loi à densité.<br />

Propriétés 2.2.3 :<br />

• La fonction de répartition F est croissante et à valeurs dans [ 0, 1 ].<br />

X<br />

• On a : lim F (x) = 0 et lim F (x) = 1<br />

X<br />

X<br />

x→-∞<br />

x→+∞<br />

• ∀ a ∈ R P(X > a) = 1 - F (a)<br />

X<br />

• ∀ (a, b) ∈ R 2<br />

a < b P(a < X ≤ b) = F (b) - F (a)<br />

X X<br />

• F est continue à droite et a une limite à gauche en tout point :<br />

X<br />

lim F (x) = F (a) lim F (x) = P(X < a)<br />

X X<br />

X<br />

x→a+<br />

x→a-<br />

• ∀ a ∈ R P(X = a) = F (a) - lim F (x)<br />

X<br />

X<br />

x→a-<br />

• La fonction de répartition <strong>d'</strong>une variable aléatoire caractérise sa loi. (admis)<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.34


* Attention ! Dans certains ouvrages figure une définition légèrement différente de<br />

la fonction de répartition : F (x) = P(X < x) = P(X ∈] -∞, x [).<br />

X<br />

Avec cette définition, la fonction de répartition est continue à gauche, et non plus<br />

continue à droite.<br />

3 - Variable aléatoire discrète<br />

a) Définition<br />

Définitions et proposition 2.3.1 :<br />

Une variable aléatoire X est discrète finie si elle ne prend qu'un nombre fini de<br />

valeurs { x / 1 ≤ i ≤ n }.<br />

i<br />

Une variable aléatoire X est discrète dénombrable si elle prend une infinité<br />

dénombrable de valeurs { x i / i ∈ N }. Dans le cadre de ce cours, les v.a. discrètes<br />

dénombrables que l'on rencontrera seront à valeurs dans N ou Z.<br />

Pour unifier les notations, on notera { x i / i ∈ I } l’ensemble des valeurs prises par X,<br />

I étant une partie finie ou non de N.<br />

• Connaître la loi de X, c'est connaître :<br />

- l'ensemble des valeurs de X : X(Ω) = { x / i ∈ I }<br />

i<br />

- la suite (p i ) de réels (suite finie ou non) définis par : ∀ i ∈ I p i<br />

⎧ ∀ i ∈ I p ≥ 0<br />

i<br />

⎪<br />

⎨<br />

⎪<br />

⎩<br />

∑<br />

i∈I<br />

p i<br />

= 1 (somme finie ou somme de série)<br />

= P(X = x )<br />

i<br />

• Réciproquement, on admettra que si on se donne une partie A = { x i / i ∈ I } finie<br />

ou dénombrable de R, et une famille (p ) de réels vérifiant les propriétés ci-dessus,<br />

i i∈I<br />

il existe une v.a. discrète X dont l’ensemble des valeurs prises est A, et la loi donnée<br />

par les p .<br />

i<br />

Dans le cas fini, la loi de X peut-être présentée sous forme <strong>d'</strong>un tableau :<br />

X x 1<br />

P(X=x ) p<br />

i 1<br />

… x i<br />

On a alors pour tout borélien B de R : P(X ∈ B) = ∑<br />

… x n<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.35<br />

p i<br />

{i/x i ∈B}<br />

p n<br />

p i<br />

(somme finie ou non)<br />

→ somme = 1


{ Remarque : Les conditions simultanées p ≥ 0 et ∑ p = 1 impliquent que<br />

i<br />

i<br />

i∈I<br />

0 ≤ p ≤ 1 pour tout i.<br />

i<br />

k Exemples de lois finies classiques :<br />

- loi certaine<br />

- loi uniforme sur {1, 2, … , n}<br />

- loi de Bernoulli<br />

- loi hypergéométrique<br />

- loi binômiale : nombre de succès sur n essais indépendants<br />

k Exemples de lois dénombrables :<br />

1<br />

- X(Ω) = N* et p =<br />

i i (i+1)<br />

- loi de Poisson : loi limite <strong>d'</strong>une loi binômiale<br />

- loi géométrique : temps <strong>d'</strong>attente du premier succès sur une suite infinie <strong>d'</strong>essais<br />

indépendants<br />

- loi binômiale négative (dite aussi loi de Pascal): temps <strong>d'</strong>attente du n ième succès sur<br />

une suite infinie <strong>d'</strong>essais indépendants<br />

Proposition 2.3.2 :<br />

Si X est une v.a. discrète de loi (x , p ) , { (X = x ) / i ∈ I } est un système complet<br />

i i i∈I<br />

i<br />

d’événements. On l’appelle système complet associé à la v.a. X.<br />

b) Fonction de répartition <strong>d'</strong>une variable aléatoire discrète<br />

Cas fini :<br />

Propriétés 2.3.3 :<br />

Soit X une variable aléatoire discrète finie, prenant les valeurs x < … < x .<br />

1 n<br />

La fonction de répartition F X<br />

• Les points de discontinuité de F X<br />

• F X<br />

de X est une fonction en escalier :<br />

sont les x .<br />

i<br />

est constante sur chaque intervalle [x , x [ :<br />

i i+1<br />

⎧ F (x) = 0 si x < x<br />

X<br />

1<br />

⎪<br />

⎨<br />

⎪<br />

⎩<br />

On en déduit :<br />

F (x) = p + … + p<br />

X 1 i<br />

si x ≤ x < x<br />

i i+1<br />

F (x) = 1 si x ≥ x<br />

X<br />

n<br />

⎧<br />

⎪ p1 = P(X = x ) = F (x )<br />

1 X 1<br />

⎨<br />

⎪ p = P(X = x ) = F (x ) - F (x ) pour 2 ≤ i ≤ n<br />

⎩ i<br />

i X i X i-1<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.36


Cas dénombrable :<br />

Dans le cas le plus classique (celui où X prend une suite croissante de valeurs x i<br />

tendant vers +∞), les propriétés sont identiques à celles écrites ci-dessus, modulo les<br />

modifications suivantes :<br />

- La fonction de répartition F X<br />

une infinité de “marches”)<br />

de X est une fonction en escalier “généralisée” (avec<br />

- La condition “F (x) = 1 si x ≥ x ” est à supprimer (dans ce cas, F n’atteint jamais la<br />

X<br />

n<br />

X<br />

valeur 1)<br />

Dans les autres cas, il faut faire des adaptations évidentes.<br />

La loi de X se retrouve donc aisément à partir de sa fonction de répartition.<br />

Dans la pratique, la fonction de répartition <strong>d'</strong>une v.a. discrète est particulièrement<br />

utilisée lorsque cette variable est définie comme un max ou un min.<br />

k Exemple :<br />

Dans une urne contenant N boules numérotées de 1 à N, on tire n boules une à une<br />

avec remise. Soit X (respectivement Y) la variable aléatoire égale au plus grand<br />

(respectivement plus petit) des numéros tirés. Trouver les lois de X et Y.<br />

d) Variable aléatoire ϕ(X) :<br />

Proposition 2.3.4 : (admise)<br />

Si X est une v.a. discrète, et si ϕ est une fonction quelconque de D dans R (le sous-<br />

ensemble X(Ω) étant inclus dans D), ϕ(X) = ϕoX est une variable aléatoire discrète.<br />

Loi de ϕ(X) : On suppose la loi de X donnée par la suite double (x , p ) .<br />

i i i∈I<br />

Posons : ∀ i ∈ I y i<br />

= ϕ(x )<br />

i<br />

Considérons les valeurs y j distinctes (ϕ n'étant pas forcément injective, on peut avoir<br />

ϕ(x ) = ϕ(x ) pour i ≠ i'). La famille { y / j ∈ J } est au plus dénombrable (en<br />

i i’<br />

j<br />

particulier, si I est fini, J l’est aussi et on a cardJ ≤ cardI)<br />

Posons : q j = ∑<br />

{i/ϕ(x ) = y }<br />

i<br />

j<br />

p i<br />

(somme finie ou non)<br />

La suite double (y<br />

j , q ) définit la loi de ϕ(X).<br />

j j∈J<br />

k Exemples :<br />

• On lance quatre fois une pièce honnête, en codant à chaque lancer le résultat<br />

obtenu par -1 si on obtient face et 1 si on obtient pile. X est la somme des quatre<br />

lancers. Trouver la loi de X, puis celle de Y = X 2<br />

.<br />

• Si X suit une loi géométrique G(p), on pose Y =<br />

Trouver la loi deY.<br />

⎩ ⎪<br />

⎪⎧ 0 si X est impair<br />

⎪<br />

⎨ X<br />

⎪<br />

si X est pair<br />

2<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.37


4 - Variable aléatoire continue (ou à densité)<br />

a) Définition<br />

Définitions et proposition 2.4.1:<br />

• Soit une fonction f de R dans R ayant les propriétés suivantes :<br />

i) f est positive,<br />

ii) f est continue sauf peut-être en un nombre fini de points,<br />

+∞<br />

iii) ∫<br />

-∞<br />

f(t) dt = 1.<br />

+∞<br />

{ Remarque : On écrit ∫<br />

-∞<br />

x<br />

1<br />

f(t) dt = ∫<br />

-∞<br />

f(t) dt + ∫<br />

où x < … < x sont les points de discontinuité de f.<br />

1 n<br />

L'existence de ∫<br />

x<br />

1<br />

intégrales ∫<br />

-∞<br />

+∞<br />

-∞<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.38<br />

x<br />

2<br />

x<br />

1<br />

f(t) dt + … + ∫<br />

+∞<br />

x<br />

n<br />

f(t) dt<br />

f(t) dt est par définition équivalente à l'existence de chacune des<br />

f(t) dt , … , ∫<br />

x<br />

i+1<br />

x<br />

i<br />

f(t) dt , … , ∫<br />

+∞<br />

x<br />

n<br />

f(t) dt.<br />

On se ramène ainsi aux cas d’intégration rappelés au chapitre 0.<br />

Une variable aléatoire X est dite absolument continue ou à densité s'il existe une<br />

fonction f ayant les trois propriétés ci-dessus telle que :<br />

pour tout réel x P(X ≤ x ) = ∫<br />

f est une densité de probabilité de X.<br />

x<br />

-∞<br />

f(t) dt<br />

• Réciproquement, on admettra que pour toute fonction f ayant les propriétés ci-<br />

dessus, il existe une variable aléatoire X définie sur un espace de probabilité<br />

(Ω, A, P) convenable, et admettant la fonction f pour densité.<br />

k Exemples :<br />

- f(x) = 1 (x) : X suit une loi (continue) uniforme sur l’intervalle [0, 1].<br />

[0, 1]<br />

1<br />

- f(x) =<br />

b-a<br />

1 (x) : X suit une loi (continue) uniforme sur l’intervalle [a, b].<br />

[a, b]<br />

- f(x) = λ e -λx 1 (x) : X suit une loi exponentielle de paramètre λ (λ > 0).<br />

R+<br />

-2 ⎢x ⎢<br />

- f(x) = e<br />

- f(x) =<br />

1<br />

2√⎺x<br />

1 (x)<br />

] 0, 1]


{ Remarque 1 : La condition ii) que l'on impose à une densité peut être allégée. On a<br />

donné cette formulation ici parce qu'elle est réalisée dans tous les cas classiques, et<br />

qu'elle est adaptée aux connaissances en intégration des étudiants abordant ce cours.<br />

{ Remarque 2 : La densité de probabilité de X n'est pas unique. Toute fonction égale<br />

à f sauf en un nombre fini de points est aussi une densité de probabilité de X. En<br />

général, on choisit pour f une version “la plus continue possible”, mais même cette<br />

condition ne suffit pas à assurer l’unicité.<br />

{ Remarque 3 : Interprétation géométrique en repère orthonormé : si f est une<br />

densité de probabilité, son graphe est situé au-dessus de l’axe des abscisses, et l’aire<br />

comprise entre cet axe et le graphe est égale à 1.<br />

b) Fonction de répartition <strong>d'</strong>une variable aléatoire à densité<br />

Théorème 2.4.2 :<br />

Si X est une variable aléatoire de densité f, sa fonction de répartition F X<br />

par : ∀ x ∈ R F (x) = ∫ f(t) dt<br />

X<br />

-∞<br />

x<br />

est définie<br />

Cette fonction de répartition est continue, elle est continûment dérivable sauf peut-<br />

être en un nombre fini de points, et on a :<br />

Réciproque : (admise)<br />

F' (x) = f(x) en tout point x où f est continue.<br />

X<br />

Si X a une fonction de répartition F X<br />

continue sur R, de classe C 1 sauf en un nombre<br />

fini de points, alors X est une v.a. à densité. Toute fonction f positive sur R qui ne<br />

diffère de F' qu’en un nombre fini de points est une densité de X.<br />

X<br />

On obtient donc la densité <strong>d'</strong>une v.a. absolument continue en dérivant sa fonction de<br />

répartition en tout point où cela est possible.<br />

Propriété 2.4.3 :<br />

Si X est une v.a. à densité, pour tout réel x, P(X = x) = 0<br />

L'événement (X = x) est quasi-impossible. La probabilité que X soit égale à une<br />

valeur fixée x est toujours nulle, mais on peut calculer la probabilité que X soit à<br />

valeurs dans un intervalle aussi petit soit-il, "proche" de x.<br />

On écrit de manière formelle :<br />

P(x < X ≤ x + dx) = f(x) dx en tout point x où f est continue.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.39


Conséquence 2.4.4 :<br />

Si a et b sont deux réels tels que a < b :<br />

P(a < X ≤ b ) = P(a < X < b ) = P(a ≤ X < b ) = P(a ≤ X ≤ b ) = ∫<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.40<br />

b<br />

a<br />

f(t) dt<br />

Autrement dit, dans le cas d’une loi continue, contrairement à ce qui se passe dans le<br />

cas d’une loi discrète, on n’a pas besoin d’être pointilleux sur la distinction entre<br />

inégalités strictes et inégalités larges.<br />

c) Variable aléatoire ϕϕ(X)<br />

On a vu que si X est discrète et si ϕ est une fonction quelconque définie sur X(Ω),<br />

alors U = ϕ(X) est une variable aléatoire.<br />

Si X est une variable à densité, il n'est plus vrai que pour toute fonction ϕ<br />

l'application ϕ(X) soit une variable aléatoire, mais on admettra que c’est vrai si ϕ est<br />

une fonction continue (ou continue par morceaux) sur un intervalle I contenant X(Ω).<br />

Mais même alors, la v.a. ϕ(X) n’est pas toujours une v.a. à densité (prendre par<br />

exemple ϕ = constante).<br />

Le théorème ci-dessous donne une condition suffisante pour que ϕ(X) ait une<br />

densité.<br />

Théorème 2.4.5 :<br />

Soit X une variable aléatoire dont la densité f est nulle en dehors d’un intervalle I, et<br />

soit ϕ une fonction continûment dérivable sur I, et dont la dérivée ne s'annule pas (ce<br />

qui implique en particulier que ϕ est bijective de I sur ϕ(I)).<br />

Alors U = ϕ(X) est une variable aléatoire à densité.<br />

Pour calculer la densité g de ϕ(X), deux méthodes possibles :<br />

• Méthode 1 : Méthode dite "de la fonction muette"<br />

Cette méthode se généralise facilement à la dimension n ≥ 2. Elle repose sur le<br />

théorème suivant (admis) :<br />

Théorème 2.4.6 :<br />

Pour qu'une variable aléatoire X admette une fonction f pour densité, il faut et il<br />

suffit que pour toute fonction h continue bornée sur R, on ait :<br />

+∞<br />

E[h(X)] = ∫<br />

-∞<br />

h(t) f(t) dt<br />

h est quelconque, <strong>d'</strong>où le nom de "fonction muette".


Pour déterminer une densité de U, on cherche donc une fonction g telle que, pour<br />

toute fonction h continue bornée sur R, on ait :<br />

+∞<br />

E[h(U)] = ∫<br />

-∞<br />

Or E[h(U)] = E[h(ϕ(X)] = E[hoϕ(X)] = ∫<br />

h(u) g(u) du<br />

+∞<br />

-∞<br />

hoϕ(t) f(t) dt = ∫<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.41<br />

+∞<br />

-∞<br />

h(ϕ(t)) f(t) dt<br />

Sous les hypothèses du théorème 2.4.5, le changement de variable u = ϕ(t) dans cette<br />

intégrale permet <strong>d'</strong>obtenir une expression de g :<br />

g(u) =<br />

⎧<br />

⎪<br />

⎪<br />

⎨<br />

⎪<br />

⎪<br />

⎩<br />

f (ϕ -1<br />

(u)) ⎢(ϕ -1<br />

)’(u) ⎢ =<br />

0 sinon<br />

f (ϕ -1<br />

(u))<br />

⎢ϕ'(ϕ -1<br />

(u))⎢<br />

si u ∈ ϕ(I)<br />

{ Remarque : Plutôt que <strong>d'</strong>apprendre par coeur cette formule, on peut sur des<br />

exemples concrets la redémontrer "à la main".<br />

• Méthode 2 : Utilisation de la fonction de répartition<br />

Cette méthode est simple à utiliser en dimension 1. On calcule la fonction de<br />

répartition de U, et on la dérive pour avoir la densité. Sous les hypothèses du<br />

théorème 2.4.5, la fonction de répartition de ϕ(X) est effectivement de classe C 1<br />

par<br />

morceaux.<br />

Cette méthode est utilisable aussi dans certains cas où ϕ n'est pas bijective.<br />

La fonction ϕ étant de classe C 1 est en particulier continue ; or l'image <strong>d'</strong>un intervalle<br />

par une fonction continue est un intervalle, donc ϕ(I) est un intervalle (α, β) (avec<br />

éventuellement α = -∞ et β = +∞)<br />

Si la dérivée ϕ’ ne s’annule pas sur I, elle garde un signe constant (puisqu’une<br />

fonction continue qui change de signe sur un intervalle s’annule nécessairement<br />

d’après le théorème des valeurs intermédiaires).<br />

Supposons pour fixer les idées ϕ’ > 0, ϕ est alors continue strictement croissante sur I,<br />

donc elle admet une application réciproque ϕ -1 définie de l’intervalle ϕ(I) sur I, elle<br />

aussi strictement croissante.<br />

On écrit donc : ∀ u ∈ R F U (u) = P(U ≤ u) = P(ϕ(X) ≤ u)<br />

- si u ∈ ϕ(I) : P(ϕ(X) ≤ u) = P(X ≤ ϕ -1 (u)) = F X (ϕ -1 (u))<br />

On obtient ainsi une fonction de u que l'on dérive.<br />

- si u ∉ ϕ(I) : • ou bien u = α ou β (dans le cas où ϕ(I) n'est pas fermé), on peut poser<br />

arbitrairement g(u) = 0 en ces deux points<br />

• ou bien u < α or P(U ≤ t) = 0 pour t < α<br />

• ou bien u > β, or P(U ≤ t) = 1 pour t > β<br />

Dans ces deux cas F U est constante au voisinage de u, et on trouve par dérivation<br />

F ‘(u) = 0.<br />

U


Le cas ϕ’ < 0 se traite de manière analogue, avec les adaptations nécessaires pour le<br />

sens des inégalités.<br />

{ Remarques :<br />

• Le résultat reste vrai si la dérivée ϕ' s'annule en un nombre fini de points x sans<br />

i<br />

changer de signe. Aux points u i<br />

(par exemple en posant g(u ) = 0).<br />

i<br />

= ϕ(x ), on pourra définir g de manière arbitraire<br />

i<br />

• Pour utiliser cette méthode, il n'est pas nécessaire que ϕ soit bijective : il suffit que<br />

la condition ϕ(X) ≤ u se traduise de manière équivalente en une condition sur X telle<br />

que l'on obtienne ainsi une fonction de u dérivable (voir ci-dessous ϕ(X) = X 2<br />

).<br />

k Exemples :<br />

Soit X une variable aléatoire de densité f. On pose :<br />

T = aX + b (a et b réels, a ≠ 0)<br />

U = X 3<br />

V = X 2<br />

Calculer en fonction de f les densités de T, U et V.<br />

{ Remarque : Il se peut que ϕ(X) ne soit définie que presque sûrement. On parle<br />

alors tout de même de la v.a. ϕ(X).<br />

Par exemple, si X suit une loi continue uniforme sur [0, 1], on peut définir presque<br />

1<br />

sûrement la variable aléatoire Y =<br />

X<br />

puisque P(X = 0) = 0.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.42


5 - Moments <strong>d'</strong>une variable aléatoire<br />

a) Espérance mathématique<br />

Définitions 2.5.1 :<br />

• Soit X une v.a. discrète finie de loi (x , p ) .<br />

i i<br />

1≤i≤n<br />

On appelle alors espérance ou moyenne de X le réel défini par :<br />

n<br />

E(X) = ∑<br />

i=1<br />

n<br />

x i p i = ∑<br />

i=1<br />

x i P(X = x i )<br />

• Soit X une v.a. discrète dénombrable de loi (x , p ) .<br />

i i<br />

i∈N<br />

On suppose que la série de terme général (x i p i ) est absolument convergente.<br />

On appelle espérance ou moyenne de X le réel défini par :<br />

+∞<br />

E(X) = ∑<br />

i=0<br />

+∞<br />

x i p i = ∑<br />

i=0<br />

x i P(X = x i )<br />

L'hypothèse <strong>d'</strong>absolue convergence assure qu'il n'y a dans cette définition aucune<br />

ambiguité liée à la numérotation des x i .<br />

• Soit X une v.a. de densité f, telle que ∫<br />

+∞<br />

-∞<br />

⎢t ⎢ f(t) dt converge.<br />

On appelle espérance ou moyenne de X le réel défini par :<br />

+∞<br />

E(X) = ∫<br />

-∞<br />

t f(t) dt<br />

* Attention ! Si X est une v.a. discrète finie ou une v.a. admettant une densité<br />

continue sur un segment [a, b] et nulle en dehors de [a, b], l'espérance de X existe<br />

toujours. Par contre certaines v.a. discrètes dénombrables et certaines v.a. à densité<br />

n’ont pas d’espérance.<br />

k Exemples :<br />

Les v.a. suivantes ont-elles une espérance ? Si oui, la calculer.<br />

1<br />

• v.a. discrète telle que X(Ω) = N* et P(X = i) = pour i ≥ 1<br />

i(i+1)<br />

-2 ⎢x ⎢<br />

• v.a. uniforme, exponentielle, de densité f(x) = e<br />

• v.a. suivant une loi de Cauchy<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.43


Définition 2.5.2 :<br />

Si E(X) = 0, on dit que la v.a. X est centrée.<br />

Propriétés 2.5.3 :<br />

• Si X = a (constante), X a une espérance et E(X) = a .<br />

• ∀ A ∈ A 1 a une espérance et E(1 ) = P(A)<br />

A<br />

A<br />

• Si X a une espérance, ∀λ∈R λX a une espérance et E(λX) = λ E(X)<br />

• Si X et Y ont une espérance , X+Y a une espérance et E(X+Y) = E(X) + E(Y)<br />

(cette propriété est provisoirement admise)<br />

On résume les deux propriétés ci-dessus en disant que l'ensemble des v.a. discrètes<br />

qui ont une espérance (pour une probabilité donnée) est un espace vectoriel réel, sur<br />

lequel l'espérance définit une forme linéaire.<br />

• Si E(X) = m, la v.a. Y = X - m est centrée.<br />

• X ≥ 0 ⇒ E(X) ≥ 0 et X ≤ Y ⇒ E(X) ≤ E(Y)<br />

L'espérance est une forme linéaire positive (ou croissante).<br />

{ Remarque : Les v.a. discrètes forment un sous-espace vectoriel de l’espace vectoriel<br />

des v.a. définies sur un espace de probabilité (Ω, A, P), mais ce n’est pas le cas des v.a.<br />

à densité.<br />

Théorème 2.5.4 : Théorème dit “de transfert” (admis)<br />

• version “discrète”<br />

Soit une variable aléatoire discrète X de loi (x<br />

i , p )<br />

i i∈I<br />

La v.a. discrète ϕ(X) a une espérance si et seulement si la série ∑<br />

absolument convergente, et on a : E[ϕ(X)] = ∑<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.44<br />

i∈I<br />

ϕ(x ) p<br />

i i<br />

i∈I<br />

ϕ(x ) p<br />

i i<br />

Dans le cas où I est fini, la condition d’existence est évidemment toujours réalisée.<br />

• version “continue”<br />

Soit X une v.a. de densité f, soit ϕ une fonction continue (ou continue par morceaux)<br />

sur un intervalle contenant X(Ω). Alors la v.a. ϕ(X) a une espérance si et seulement si<br />

+∞<br />

l’intégrale ∫<br />

-∞<br />

⎢ϕ(t) ⎢ f(t) dt converge, et on a : E[ϕ(X)] = ∫<br />

+∞<br />

-∞<br />

ϕ(t) f(t) dt<br />

Dans le cas où f est continue sur un segment [a, b], et nulle en dehors de [a, b], la<br />

condition d’existence est automatiquement réalisée.<br />

{ Remarque : L'intérêt de ce théorème est de calculer directement l'espérance de ϕ(X)<br />

à partir de la loi de X, sans chercher auparavant la loi de ϕ(X).<br />

est


) Variance et écart-type<br />

Définition 2.5.5 :<br />

Soit X une v.a. discrète admettant une espérance m.<br />

Si la v.a. (X - m) 2<br />

a une espérance, on appelle variance de X le réel défini par :<br />

var(X) = E [(X - m) 2<br />

] .<br />

cas discret : var(X) = ∑<br />

i∈I<br />

(x - m)<br />

i 2<br />

p (somme finie ou non)<br />

i<br />

sous réserve, dans le cas dénombrable, que la série ci-dessus soit convergente.<br />

+∞<br />

cas continu : var(X) = ∫<br />

-∞<br />

(t -m) 2<br />

f(t) dt<br />

sous réserve que l’intégrale ci-dessus soit convergente.<br />

Théorème 2.5.6 (de Koenig-Huygens) :<br />

{ Remarque :<br />

var(X) = E(X 2<br />

) - [E(X)] 2<br />

C'est cette formule que l'on utilise usuellement pour calculer la variance.<br />

k Exemples :<br />

• Soit X une v.a. à valeurs dans N*, dont la loi est définie par :<br />

P(X = i) =<br />

a<br />

i(i+1)(i+2)<br />

a) Déterminer la constante a.<br />

pour i ≥ 1.<br />

b) Calculer l'espérance et la variance de X si elles existent.<br />

• variance d’une v.a. uniforme, exponentielle<br />

• variance d’une v.a. de densité x → f(x) =<br />

(loi de Pareto à deux paramètres (2, 1))<br />

Propriétés 2.5.7 :<br />

• La variance est toujours positive.<br />

2<br />

x 3 1 (x))<br />

[1,+∞[<br />

• La variance est quadratique : ∀ λ ∈ R var(λX) = λ 2<br />

var(X)<br />

• La variance est inchangée par translation : ∀ µ ∈ R var(X + µ) = var(X)<br />

• On a donc : ∀ λ ∈ R ∀ µ ∈ R var(λX + µ) = λ 2<br />

var(X)<br />

Définitions et propriété 2.5.8 :<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.45


• √⎺⎺⎺⎺⎺ var(X) se note σ et s'appelle l'écart-type de X.<br />

L'écart-type <strong>d'</strong>une variable aléatoire sert à mesurer la dispersion de cette variable<br />

autour de sa moyenne. Il s’exprime dans la même unité que X.<br />

• Si var(X) = 1, on dit que la v.a. X est réduite.<br />

X - m<br />

Lorsque X est une v.a. <strong>d'</strong>espérance m et <strong>d'</strong>écart-type σ, la v.a. Y =<br />

σ<br />

réduite.<br />

c) Moments <strong>d'</strong>ordre r<br />

Définition 2.5.9 :<br />

Soit X une v.a., et soit r un entier naturel ≥ 1. On suppose que m = E(X) existe.<br />

est centrée<br />

On appelle moment <strong>d'</strong>ordre r (respectivement moment centré <strong>d'</strong>ordre r) de X le réel<br />

E(X r<br />

) (respectivement E[(X - m) r<br />

] .<br />

cas discret : E(X r<br />

) = ∑<br />

i∈I<br />

x i<br />

r<br />

p i<br />

et E[(X - m) r<br />

] = ∑<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.46<br />

i∈I<br />

(x - m)<br />

i<br />

r<br />

sous réserve bien entendu que les séries ci-dessus soient absolument convergentes<br />

dans le cas dénombrable.<br />

cas continu : E(X r<br />

+∞<br />

) = ∫<br />

-∞<br />

t r<br />

f(t) dt et E[(X - m) r<br />

+∞<br />

] = ∫<br />

-∞<br />

p i<br />

(t - m) r<br />

f(t) dt<br />

sous réserve que les intégrales ci-dessus soient absolument convergentes dans le cas<br />

<strong>d'</strong>une "vraie" intégrale généralisée..<br />

Proposition 2.5.10 :<br />

• L'existence du moment <strong>d'</strong>ordre r entraîne l'existence des moments <strong>d'</strong>ordre<br />

inférieur.<br />

r-1<br />

Ceci se démontre par récurrence descendante à partir de l'inégalité t<br />

• L'espérance est le moment <strong>d'</strong>ordre 1.<br />

• La variance est le moment centré <strong>d'</strong>ordre 2.<br />

r<br />

≤ t + 1<br />

vraie pour t ≥ 0.<br />

• L'existence du moment <strong>d'</strong>ordre r équivaut à l'existence du moment centré d’ordre<br />

r. En particulier, l’existence du moment <strong>d'</strong>ordre 2 équivaut à l'existence de la<br />

variance.<br />

{ Remarque : Les moments <strong>d'</strong>une v.a. (s’ils existent) ne dépendent que de sa loi.<br />

Deux v.a. équidistribuées (= qui ont même loi) auront mêmes moments, et en<br />

particulier même espérance et même variance. La réciproque est fausse en général.


d) Fonction génératrice des moments<br />

Définition 2.5.11 :<br />

Soit X une variable aléatoire réelle. On considère l'application :<br />

t → E(e tX ) =<br />

⎧ ∑<br />

⎪<br />

⎨<br />

⎪<br />

⎩<br />

i<br />

+∞<br />

∫<br />

-∞<br />

e tx i pi<br />

(<strong>d'</strong>après le théorème de transfert)<br />

Cette application est définie au moins pour t = 0.<br />

si X est une variable discrète<br />

e tx f(x) dx si X est une variable de densité f<br />

Si elle est définie sur un voisinage de 0 (c'est-à-dire définie au moins sur un intervalle<br />

] -α, α [ avec α > 0), on l'appelle fonction génératrice des moments de X et on la note :<br />

t → M (t) = E(e<br />

X<br />

tX )<br />

Si l'application t → E(e tX ) n'est pas définie sur un voisinage de 0, on dit que la<br />

fonction génératrice des moments de X n'existe pas.<br />

{ Remarque :<br />

Dans les cas suivants la fonction génératrice des moments existe et est définie sur R :<br />

- X est une v.a. discrète finie ;<br />

- X est une v.a. admettant une densité continue sur un segment [a, b] et nulle en<br />

dehors de [a, b].<br />

k Exemples :<br />

Calculer la fonction génératrice des moments de X si elle existe dans les cas suivants :<br />

- X suit la loi binômiale B(n, p)<br />

- X suit loi géométrique G(p)<br />

- X suit la loi exponentielle E(λ)<br />

L'intérêt majeur de la fonction génératrice des moments apparaît dans le théorème<br />

ci-dessous, qui permet <strong>d'</strong>établir certains résultats importants en évitant des calculs<br />

laborieux (voir chapitre 4) :<br />

Théorème 2.5.12 : (admis)<br />

Soient X et Y deux variables aléatoires telles que leurs fonctions génératrices des<br />

moments existent.<br />

Si M (t) = M (t) sur un voisinage de 0, alors X et Y ont même loi.<br />

X Y<br />

Autrement dit, lorsqu'elle existe, la fonction génératrice des moments caractérise la<br />

loi de X.<br />

Un autre intérêt de la fonction M X<br />

est de permettre de retrouver les moments de X,<br />

(<strong>d'</strong>où son nom), avec dans certains cas des calculs plus simples que les calculs directs :<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.47


Proposition 2.5.13 :<br />

Soit X une variable aléatoire telle que la fonction génératrice des moments M X existe.<br />

• L'espérance de X existe si et seulement si la fonction M est dérivable en 0, et on a :<br />

X<br />

E(X) = M' (0)<br />

X<br />

• Plus généralement, le moment <strong>d'</strong>ordre r de X existe si et seulement si la fonction<br />

M est r fois dérivable en 0, et on a :<br />

X<br />

E(X r<br />

(r)<br />

) = M (0)<br />

X<br />

En particulier, si la fonction M X<br />

donnée par :<br />

var(X) = M" (0) - [M' (0)]<br />

X X<br />

2<br />

est 2 fois dérivable en 0, X admet une variance,<br />

La fonction génératrice des moments a l'inconvénient de ne pas être toujours définie<br />

(même si elle existe pour les lois classiques) ; il existe une autre fonction ayant des<br />

propriétés analogues (elle caractérise la loi de X et permet de calculer ses moments<br />

s'ils existent) et qui, elle, est toujours définie sur R, mais est à valeurs complexes.<br />

C'est la fonction caractéristique de X, définie par :<br />

t → Φ(t) = E(e itX )<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.48


6 - Les lois normales ou de Laplace-Gauss<br />

a) Variable gaussienne centrée réduite<br />

Définition 2.6.1 :<br />

La variable aléatoire réelle X est une variable gaussienne (ou normale) centrée<br />

réduite si elle a pour densité la fonction f : x → ϕ(x) =<br />

On note : X ~ N(0, 1)<br />

Proposition 2.6.2 : On a les égalités suivantes :<br />

•<br />

1<br />

√⎺⎺2π<br />

• E(X) =<br />

•<br />

+∞<br />

∫<br />

-∞<br />

E(X 2<br />

) =<br />

- x<br />

e<br />

2 /2<br />

1<br />

√⎺⎺2π<br />

1<br />

√⎺⎺2π<br />

+∞<br />

∫<br />

-∞<br />

dx = 1<br />

- x<br />

x e<br />

2 /2<br />

+∞<br />

2<br />

∫ x<br />

-∞<br />

- x<br />

e<br />

2 /2<br />

(admise provisoirement)<br />

dx = 0<br />

dx = 1<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.49<br />

1<br />

√⎺⎺2π<br />

<strong>d'</strong>où var(X) = 1<br />

- x<br />

e<br />

2 /2<br />

• Plus généralement, une v.a. gaussienne centrée réduite admet des moments de<br />

tous ordres, les moments d’ordre impair étant nuls.<br />

Propriétés 2.6.3 : Fonction de répartition de la loi N(0, 1) :<br />

On note usuellement Φ cette fonction de répartition : Φ(x) = ∫<br />

x<br />

-∞<br />

1<br />

√⎺⎺2π<br />

- t<br />

e<br />

2 /2<br />

Il n'existe pas <strong>d'</strong>expression explicite de Φ autre que sous cette forme <strong>d'</strong>une intégrale.<br />

• Elle est tabulée pour les valeurs de x positives.<br />

• On a pour tout réel x, Φ(-x) = 1 - Φ(x) , ce qui permet de calculer Φ(x) pour les<br />

valeurs de x négatives.<br />

• Pour tout x ≥ 0 P(⎢X ⎢≤ x) = 2 Φ(x) -1<br />

P(⎢X ⎢> x) = 2 [1 - Φ(x)]<br />

• La lecture de la table nous permet en particulier <strong>d'</strong>affirmer :<br />

P(⎢X ⎢> 1, 96) = 0, 05 et P(⎢X ⎢> 2, 6) = 0, 01<br />

ce qui montre qu'une variable gaussienne réduite est très concentrée autour de 0 qui<br />

est sa valeur moyenne.<br />

dt


Proposition 2.6.4 : Fonction génératrice des moments de la loi N(0, 1) :<br />

La fonction génératrice des moments de la loi normale centrée réduite est définie sur<br />

R par : ∀ t ∈R M (t) = e<br />

X<br />

t2 /2<br />

b) Variable gaussienne réelle<br />

Définition 2.6.5 : La variable aléatoire réelle X définie sur un espace de probabilité<br />

(Ω, A, P) est une variable gaussienne si elle peut s'écrire X = aU + b, où U est une<br />

variable gaussienne centrée réduite, et a et b sont des réels.<br />

{ Remarque : Avec cette définition, une variable constante (cas a = 0) est considérée<br />

comme un cas particulier de variable gaussienne. On dit alors que cette variable est<br />

dégénérée.<br />

Propriété 2.6.6 :<br />

Une variable gaussienne admet des moments de tous ordres.<br />

On a en particulier : E(X) = b et var(X) = a 2<br />

.<br />

Théorème 2.6.7 :<br />

Soit X une v.a. <strong>d'</strong>espérance m et de variance σ 2<br />

non nulle.<br />

Les propriétés suivantes sont équivalentes :<br />

i) X est gaussienne <strong>d'</strong>espérance m et de variance σ 2<br />

.<br />

ii)<br />

X - m<br />

σ<br />

On note : X ~ N(m, σ 2<br />

)<br />

est gaussienne centrée réduite.<br />

L’intérêt de ce théorème est de permettre de calculer la fonction de répartition de<br />

n’importe quelle loi gaussienne à partir de la table de la fonction de répartition de la<br />

loi N(0, 1).<br />

En effet, pour tout réel x :<br />

k Exemple :<br />

F (x) = P(X ≤ x) = P(<br />

X<br />

X - m<br />

σ ≤<br />

x - m x - m<br />

σ<br />

) = Φ(<br />

σ )<br />

Si X suit une loi N(-1, 4), pour quelles valeurs de x a-t-on P(X ≤ x) ≥ 3/4 ?<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.50


Proposition 2.6.8 : Densité <strong>d'</strong>une variable gaussienne :<br />

Une densité <strong>d'</strong>une variable gaussienne non dégénérée <strong>d'</strong>espérance m et de variance<br />

σ 2<br />

est définie par :<br />

x → f(x) =<br />

1<br />

√⎺⎺2π σ<br />

On a donc les égalités suivantes :<br />

•<br />

•<br />

•<br />

1<br />

√⎺⎺2π σ<br />

1<br />

√⎺⎺2π σ<br />

1<br />

√⎺⎺2π σ<br />

+∞<br />

∫<br />

-∞<br />

-∞<br />

- (x-m)<br />

e<br />

2 /2σ 2<br />

- (x-m)<br />

e<br />

2 /2σ 2<br />

dx = 1<br />

+∞<br />

- (x-m)<br />

∫ x e<br />

2 /2σ 2<br />

dx = m E(X) = m<br />

+∞<br />

∫<br />

-∞<br />

2 - (x-m)<br />

(x-m) e<br />

2 /2σ 2<br />

dx = σ 2<br />

var(X) = σ 2<br />

Il faut bien connaître ces formules qui interviennent souvent dans les calculs<br />

gaussiens.<br />

{ Remarque : une loi normale est totalement connue si on a ses deux premiers<br />

moments, ce qui justifie la notation.<br />

Proposition 2.6.9 : Fonction génératrice des moments de la loi N(m, σ 2 ) :<br />

La fonction génératrice des moments de la loi normale N(m, σ 2 ) est définie sur R par<br />

: ∀ t ∈R M (t) = e<br />

X<br />

tm + t2σ 2 /2<br />

Les variables gaussiennes jouent un très grand rôle en probabilités-statistiques.<br />

On les utilise pour modéliser des phénomènes qui fluctuent symétriquement autour<br />

de leur moyenne.<br />

Elles apparaissent aussi dans de nombreux calculs approchés, en application du<br />

théorème fondamental de la statistique, appelé théorème de la limite centrale.<br />

(Ce théorème dit que sous de bonnes hypothèses, une somme de n variables<br />

aléatoires de même loi suit approximativement, quelle que soit cette loi, une loi<br />

normale si n est grand : voir le chapitre sur les convergences).<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.51


7 - Les lois usuelles<br />

Pour chaque loi est indiquée la définition, espérance et variance si elles existent. La<br />

fonction génératrice des moments n'est mentionnée que si elle est utilisée en<br />

pratique.<br />

a) Lois discrètes finies<br />

• Loi certaine :<br />

X est une v.a. quasi-certaine si elle est presque sûrement constante ( = constante sauf<br />

peut-être sur un événement de probabilité nulle)<br />

∃ a ∈ R P(X = a) = 1<br />

E(X) = a var(X) = 0<br />

Réciproquement : Toute v.a. dont la variance est nulle est quasi-certaine.<br />

• Loi discrète uniforme : X ~ U n<br />

X suit une loi discrète uniforme sur [[1, n]] si :<br />

⎪⎧ X(Ω) = [[1, n]]<br />

⎪<br />

⎨<br />

1<br />

⎪<br />

∀ k ∈ [[1, n]] P(X = k) =<br />

⎪<br />

⎩<br />

n<br />

E(X) =<br />

n+1<br />

2<br />

var(X) =<br />

• Loi de Bernoulli : X ~ B(1, p)<br />

n 2<br />

-1<br />

X suit une loi de Bernoulli de paramètre p (0 < p < 1) si :<br />

⎧ X(Ω) = {0, 1}<br />

⎨<br />

⎩P(X<br />

= 1) = p et P(X = 0) = 1-p<br />

E(X) = p var(X) = pq en posant q = 1-p<br />

12<br />

Fonction génératrice des moments : D MX<br />

k Exemple :<br />

t<br />

= R ∀ t ∈R M (t) = pe + q<br />

X<br />

On utilise une variable de Bernoulli pour modéliser le résultat <strong>d'</strong>une expérience<br />

aléatoire à deux issues (succès ou échec), en posant X = 1 en cas de succès et X = 0<br />

sinon.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.52


• Loi binômiale : X ~ B(n, p)<br />

X suit une loi binômiale de paramètres n et p (n entier, 0 < p < 1) si :<br />

⎪⎧<br />

X(Ω) = [[0, n]]<br />

⎪<br />

⎨<br />

⎪<br />

k k<br />

∀ k ∈ [[0, n]] P(X = k) = C p<br />

⎪<br />

⎩<br />

n<br />

q n-k<br />

E(X) = np var(X) = npq en posant q = 1-p.<br />

Fonction génératrice des moments : D MX<br />

Pour n = 0, X est la variable certaine égale à 0.<br />

t<br />

= R ∀ t ∈R M (t) = (pe + q)n<br />

X<br />

Pour n = 1, on retrouve la loi de Bernoulli B(1, p) , ce qui justifie la notation.<br />

k Exemple 1 :<br />

On tire avec remise n fois dans une population comportant un proportion p<br />

<strong>d'</strong>individus ayant une caractéristique donnée. La variable aléatoire égale au nombre<br />

<strong>d'</strong>individus de l'échantillon ayant cette caractéristique suit une loi binômiale de<br />

paramètres n et p.<br />

k Exemple 2 :<br />

On répète n fois de manière indépendante une expérience aléatoire à deux issues<br />

(succès avec probabilité p ou échec avec probabilité 1-p).<br />

La variable aléatoire égale au nombre de succès obtenus suit une loi binômiale de<br />

paramètres n et p.<br />

• Loi hypergéométrique : X ~ H(N, n, p)<br />

X suit une loi hypergéométrique de paramètres N, n et p (N et n entiers non nuls, 0 <<br />

p < 1 tel que Np soit entier) si :<br />

X(Ω) 1 [[0, n]]<br />

⎪<br />

⎧<br />

⎪<br />

⎨<br />

⎪<br />

⎪<br />

⎩<br />

∀ k ∈ [[0, n]] P(X = k) =<br />

k<br />

C<br />

Np<br />

C<br />

N<br />

C<br />

Nq<br />

en posant q = 1-p , et avec la convention C<br />

M<br />

k Exemple :<br />

N-n<br />

E(X) = np var(X) = npq<br />

N-1<br />

n<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.53<br />

j<br />

n - k<br />

= 0 si jM.<br />

On tire sans remise n fois dans une population comportant N individus dont une<br />

proportion p a une caractéristique donnée. La variable aléatoire égale au nombre<br />

<strong>d'</strong>individus de l'échantillon ayant cette caractéristique suit une loi hypergéométrique<br />

de paramètres N, n et p.


) Lois discrètes dénombrables<br />

• Loi géométrique : X ~ G(p)<br />

X suit une loi géométrique de paramètre p (0 < p < 1) si :<br />

⎧<br />

⎪ X(Ω) = N*<br />

⎨<br />

⎪<br />

k-1 en posant q = 1-p<br />

∀ k ∈ N* P(X = k) = p q<br />

⎩<br />

1<br />

E(X) =<br />

p<br />

var(X) =<br />

q<br />

p 2<br />

Fonction génératrice des moments :<br />

D MX<br />

= ] -∞, - lnq [ ∀ t < - lnq M (t) =<br />

X<br />

k Exemple : Temps <strong>d'</strong>attente du premier succès.<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.54<br />

pe t<br />

1 - qe t<br />

On répète de manière indépendante une expérience aléatoire à deux issues (succès<br />

avec probabilité p ou échec avec probabilité q). La variable aléatoire égale au rang<br />

<strong>d'</strong>apparition du premier succès suit une loi géométrique de paramètre p.<br />

• Loi de Poisson : X ~ P(λ)<br />

X suit une loi de Poisson de paramètre λλλλ ( λ > 0) si :<br />

⎧<br />

⎪ X(Ω) = N<br />

⎪<br />

⎨<br />

⎪<br />

⎪∀<br />

k ∈ N P(X = k) = e<br />

⎩<br />

-λ<br />

λ k<br />

k!<br />

E(X) = λ var(X) = λ<br />

Fonction génératrice des moments :<br />

D MX<br />

= R ∀ t ∈R M (t) = e<br />

X<br />

λ(et - 1)<br />

La loi de Poisson est souvent utilisée en probabilité pour modéliser toute une série<br />

de phénomènes aléatoires :<br />

- le nombre <strong>d'</strong>appels reçus à un standard téléphonique pendant une période donnée,<br />

- le nombre de clients se présentant à un guichet pendant une période donnée,<br />

- le nombre <strong>d'</strong>oeufs pondus par certains insectes, etc …<br />

Cette loi apparaît aussi comme loi limite de la loi binômiale B(n, p n ) lorsque n tend<br />

vers +∞ et (np n ) tend vers λ.


c) Lois continues<br />

• Loi continue uniforme sur l’intervalle [0, 1] : X ~ U [0, 1]<br />

X suit une loi (continue) uniforme sur [ 0, 1 ] si elle a pour densité :<br />

x → f(x) = 1 [0, 1] (x)<br />

1<br />

E(X) =<br />

2<br />

1<br />

var(X) =<br />

12<br />

Les v.a. de loi continue uniforme sur [0, 1] sont très utilisées en simulation.<br />

• Loi continue uniforme sur l’intervalle [a, b] : X ~ U [a, b]<br />

X suit une loi (continue) uniforme sur [ a, b ] si elle a pour densité :<br />

x → f(x) =<br />

a+b<br />

E(X) =<br />

2<br />

1<br />

b-a<br />

1 [a, b] (x)<br />

• Loi exponentielle : X ~ E(λ)<br />

(b-a)<br />

(moyenne des valeurs extrêmes) var(X) =<br />

2<br />

12<br />

X suit une loi exponentielle de paramètre λλλλ (λ > 0) si elle a pour densité :<br />

x → f(x) = λ e -λx 1 (x)<br />

R+<br />

E(X) =<br />

1<br />

λ<br />

var(X) =<br />

1<br />

λ 2<br />

Fonction génératrice des moments :<br />

D MX<br />

= ] -∞, λ [ ∀ t < λ M (t) =<br />

X<br />

• Loi Gamma : X ~ G(a, θ)<br />

λ<br />

λ - t<br />

X suit une loi Gamma de paramètres a et θθθθ (a > 0 et θ > 0) si elle a pour densité :<br />

x → f(x) =<br />

1<br />

xa-1<br />

a<br />

Γ(a) θ<br />

E(X) = a θ var(X) = a θ 2<br />

Fonction génératrice des moments :<br />

1<br />

1<br />

D = ] -∞, [ ∀ t <<br />

MX θ θ M 1<br />

(t) =<br />

X<br />

(1 - θt) a<br />

e -x/θ 1 (x) où Γ(a) = ∫<br />

R+<br />

0<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.55<br />

+∞<br />

x a-1<br />

e -x<br />

dx<br />

1<br />

{ Remarque : La loi exponentielle de paramètre λ est une loi Gamma G (1,<br />

λ ).


• Loi normale ou de Laplace-Gauss : X ~ N(m, σ 2 )<br />

X suit une loi normale centrée réduite N(0, 1) si elle a pour densité :<br />

x → f(x) =<br />

1<br />

√⎺⎺2π<br />

- x<br />

e<br />

2 /2<br />

E(X) = 0 var(X) = 1<br />

Fonction génératrice des moments :<br />

D MX<br />

= R ∀ t ∈R M (t) = e<br />

X<br />

t2 /2<br />

X suit une loi normale N(m, σ 2<br />

) si sa densité f est :<br />

x → f(x) =<br />

1<br />

√⎺⎺2π σ<br />

E(X) = m var(X) = σ 2<br />

- (x-m)<br />

e<br />

2 /2σ 2<br />

Fonction génératrice des moments :<br />

D MX<br />

= R ∀ t ∈R M (t) = e<br />

X<br />

tm + t2σ 2 /2<br />

• On rencontre un certain nombre <strong>d'</strong>autres lois dont on peut trouver les<br />

caractéristiques dans des livres standard de Probabilités :<br />

n<br />

- loi du chi-2 à n degrés de liberté (c’est une loi Gamma G( , 2), n entier ≥ 1),<br />

2<br />

- loi de Student-Fisher,<br />

(ces deux lois sont utilisées en statistiques pour l’estimation et les tests)<br />

- loi log-normale,<br />

- loi Bêta,<br />

- loi de Cauchy,<br />

- loi de Pareto<br />

(utilisée en économie pour des modèles de répartition de revenus),<br />

etc …<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.56


FONCTION DE REPARTITION DE LA LOI NORMALE CENTREE REDUITE<br />

X ∼ N(0,1)<br />

Φ(x) = P(X ≤ x)<br />

x 0, 00 0, 01 0, 02 0, 03 0, 04 0, 05 0, 06 0, 07 0, 08 0, 09<br />

0, 0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359<br />

0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753<br />

0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141<br />

0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517<br />

0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879<br />

0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224<br />

0, 6 0, 7257 0, 7290 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549<br />

0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852<br />

0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133<br />

0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389<br />

1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621<br />

1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830<br />

1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015<br />

1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177<br />

1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319<br />

1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441<br />

1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545<br />

1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633<br />

1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706<br />

1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767<br />

2, 0 0, 9772 0, 9779 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817<br />

2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857<br />

2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890<br />

2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916<br />

2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936<br />

2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952<br />

2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964<br />

2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974<br />

2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981<br />

2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986<br />

Table pour les grandes valeurs de x :<br />

x 3, 0 3, 1 3, 2 3, 3 3, 4 3, 5 3, 6 3, 8 4, 0 4, 5<br />

Φ(x) 0, 99865 0, 99904 0, 99931 0, 99952 0, 99966 0, 99976 0, 999841 0, 999928 0, 999968 0, 999997<br />

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.57


Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / <strong>Cours</strong> A.M.B. 1ère partie p.58

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!