Cours d' Anne-Marie Boussion

UNIVERSITE PARIS-DAUPHINE 

Département MIDO 

A.M.Boussion/Probabilités DU MI2E 2ème année (2008-2009) 

Le programme de ce cours comprend : 

- la notion générale d'espace de probabilité 

- les variables aléatoires réelles définies sur un espace de probabilité, la notion de loi 

(en particulier les lois continues qui n'ont pas été vues en première année), moments, 

lois usuelles (en particulier les lois normales) ; 

- les couples et vecteurs aléatoires : lois marginales, indépendance, lois 

conditionnelles et espérances conditionnelles. 

Le chapitre 0 de ce polycopié rappelle les prérequis d'Analyse nécessaires : 

- l’intégrale simple et les propriétés de l’intégrale fonction de la borne supérieure, 

(ces notions ont été étudiées en première année) ; 

- les séries et l’intégrale généralisée, qui sont étudiées parallèlement en Analyse 3. 

Le chapitre 1 traite des espaces de probabilité : seule sera exposée en amphi la notion 

nouvelle de tribu, les définitions et propriétés vues en première année dans le cas des 

espaces finis ou dénombrables étant simplement rappelées. C'est la raison pour 

laquelle sont explicitées dans ce chapitre toutes les démonstrations utiles pour réviser 

ou se mettre à niveau. 

A partir du chapitre 2, le polycopié ne contient plus les démonstrations ; celles-ci 

seront développées en cours ainsi que les exemples. 

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / Cours A.M.B. 1ère partie p.1

TABLE DES MATIERES 

Chapitre 0 : Rappels d’Analyse 3 

1 - Séries numériques 3 

2 - Intégrales 4 

Chapitre 1 : Espace de probabilité 10 

1 - Espace probabilisable 11 

2 - Espace de probabilité 14 

3 - Probabilité conditionnelle 19 

4 - Evénements indépendants 23 

5 - Ω non dénombrable : deux exemples pour réfléchir 26 

6 - Espaces de probabilité liés aux différents modes de tirage 29 

Chapitre 2 : Variables aléatoires réelles 31 

1 - Définition générale d'une variable aléatoire 31 

2 - Loi et fonction de répartition d'une variable aléatoire 34 

3 - Variable aléatoire discrète 35 

4 - Variable aléatoire continue 38 

5 - Moments d'une variable aléatoire 43 

6 - Les lois normales ou de Laplace-Gauss 49 

7 - Les lois usuelles 52 

Table de la loi normale centrée réduite 57 


Chapitre 0 : Rappels d’Analyse 

1 - Séries numériques 

Définition 0.1.1 : Série convergente et absolument convergente : 

• La série de terme général u est dite convergente si la suite des sommes partielles 

n 

n 

(∑ 

i=1 

u ) est convergente. 

i n 

+∞ 

On note alors ∑ 

i=1 

u i 

= lim 

n→+∞ 

n 

∑ 

i=1 

u et on l’appelle somme de la série. 

i 

Dans le cas contraire, la série de terme général u est dite divergente. 

n 

Propriété 0.1.2 : Condition nécessaire de convergence d’une série 

Si une série converge, son terme général tend vers 0. Cette condition est nécessaire 

mais non suffisante. 

k Exemples : 

+∞ 

- série géométrique : ∑ 

+∞ 

et pour ⎢x ⎢ < 1 ∑ 

i=0 

i=0 

x i 

- série exponentielle : ∑ 

+∞ 

- ∑ 

i=1 

1 

i(i+1) 

= 1 

- série de Riemann : ∑ 

+∞ 

En particulier ∑ 

i=1 

+∞ 

i=0 

+∞ 

i=1 

= 

1 

x i 

x i 

i! 

converge si et seulement si ⎢x ⎢ < 1 

1 

1 - x 

= e x pour tout réel x 

converge si et seulement si α > 1 

α 

i 

1 

est divergente. 

i 


Propriété 0.1.3 : Convergence des séries à termes positifs 

• Toute série positive majorée par une série convergente est convergente. 

• Deux séries positives dont les termes généraux sont équivalents au voisinage de 

l’infini sont de même nature. 

Définition 0.1.4 : Série absolument convergente : 

La série de terme général u est dite absolument convergente si la série de terme 

n 

général ⎢u ⎢ converge. 

n 

k Exemples : 

+∞ 

- ∑ 

i=0 

+∞ 

- ∑ 

i=1 

x i 

(-1) i 

i 

Propriété 0.1.5 : 

est absolument convergente pour ⎢x ⎢ < 1 

est convergente, mais non absolument convergente (= semi-convergente) 

Toute série absolument convergente est convergente. 

* Attention ! 

Si on modifie l'ordre des termes d'une série absolument convergente, la somme de 

la série est inchangée. Par contre si la série est semi-convergente, une modification 

de l'ordre de ses termes peut entraîner une modification de la valeur de la somme, 

et même transformer la série en une série divergente. 

2 - Intégrales 

a) Intégrale d'une fonction continue sur un segment 

Définition et propriétés 0.2.1 : 

• Soit f une fonction définie sur un intervalle I de R. 

Une fonction F est une primitive de f sur I si F est définie et dérivable sur I et : 

∀ x ∈ I F'(x) = f(x) 

• Si une fonction f admet une primitive F sur I, elle en admet une infinité qui se 

déduisent de F par l'addition d'une constante. 

• Toute fonction continue sur un intervalle I admet une primitive sur I. 

Définition 0.2.2 : 

Soient a et b deux réels distincts, et f une fonction continue sur le segment [a, b] (ou 

[b, a] si b < a). Soit F une primitive de f sur [a, b]. 

On appelle intégrale de f sur [a, b] la différence F(b) - F(a) : cette différence ne 

dépend pas de la primitive F choisie. 

On note F(b) - F(a) = ∫ f(t) dt 

b 

a 


Interprétation géométrique en repère orthonormé : si a < b, cette intégrale est égale 

à l’aire algébrique limitée par le graphe de f, l’axe des abscisses et les droites 

verticales d’équations x = a et x = b. 

Propriétés 0.2.3 : 

• Par convention, pour tout réel a : ∫ 

• Pour tous réels a et b : ∫ 


a 

b 

a 

a 

f(t) dt = - ∫ 

f(t) dt = 0 

b 

a 

f(t) dt 

Soient f et g deux fonctions continues sur [a, b] : 

• Pour tous réels λ et µ, ∫ 

• Si a ≤ b et si f ≤ g sur [a, b] , alors ∫ 

b 

a 

[λ f(t) + µ g(t)] dt = λ ∫ 

b 

a 

Université Paris Dauphine / DUMI2E 2ème année / Probabilités 2008-2009 / Cours A.M.B. 1ère partie p.5 

b 

a 

b 

f(t) dt ≤ ∫ 

a 

b 

f(t) dt + µ ∫ 

g(t) dt 

a 

g(t) dt 

On résume ces deux propriétés en disant que l’intégrale est une forme linéaire 

positive (ou croissante). 

• Relation de Chasles : 

Pour a < c 

b 

a 

f(t) dt = ∫ 

a 

c 

f(t) dt + ∫ 

b 

c 

f(t) dt 

Cette formule reste vraie quelles que soient les positions relatives de a, b, c pourvu 

que f soit continue sur le plus grand des intervalles. 

• Formule d’intégration par parties : 

Si f et g sont de classe C 1 

sur [ a, b ] : 

b 

∫ 

a 

f(t) g’(t) dt = f(b) g(b) - f(a) g(a) - ∫ 

• Formule de changement de variable : 

b 

a 

f’(t) g(t)dt 

Soit ϕ une bijection de classe C 1 

définie sur le segment [a, b], et soit f une fonction 

continue sur le segment ϕ([a, b]). 

On pose α = ϕ(a) et β = ϕ(b). On a alors : 

β 

∫ 

α 

b 

f(t) dt = ∫ f[ϕ(x)] ϕ’(x) dx 

a

) Intégrale généralisée 


On suppose ici b réel ou b = +∞. 

Soit f une fonction continue sur [a, b [ : pour tout réel x < b, f est donc continue sur le 

segment [a, x] et on peut calculer ∫ 

Si lim 

x→b 

x

k Exemples : Intégrales de Riemann 

+∞ 

• ∫ 

1 

• ∫ 

0 

• ∫ 

0 

1 

+∞ 

1 

dt converge si et seulement si α > 1 (résultat similaire à celui des séries) 

α 

t 

1 

dt converge si et seulement si α < 1. 

α 

t 

1 

dt diverge pour toute valeur de α (ici il y a un problème aux deux bornes) 

α 

t 

Propriétés 0.2.6 : Généralisation des propriétés 0.2.3 et 0.2.4 

• Les égalités 0.2.3 sont vraies pour les intégrales généralisées. 

• L’intégrale généralisée est une forme linéaire positive et la relation de Chasles est 

vraie. 

• La formule d’intégration par parties reste vraie sous réserve de l’existence des 

limites en b de toutes les expressions qui interviennent : il se peut en effet que 

l'intégrale généralisée ∫ 

b 

a 

f(t) g’(t) dt ait un sens alors que ni f(x) g(x) ni ∫ 

n’ont de limite finie quand x tend vers b à gauche. 


x 

a 

f’(t) g(t) dt 

Il est donc conseillé d'écrire d'abord la formule d’intégration par parties sur un 

intervalle [a, x] (x < b), et seulement ensuite de passer à la limite en b. 

1 

sint 

k Exemple : ∫ dt converge ; il n’y a même pas ici de vrai problème d’intégrale généralisée 

0 

t 

puisque lim 

t→0 

t>0 

1 

Posons f(t) = 

t 

sint 

1 

sint 

Pour tout x de ]0, 1] : ∫ 

x 

t 

cosx 

Mais 

x 

t 

= 1, la fonction à intégrer peut être prolongée par continuité en 0. 

1 

et g’(t) = sint. On a f’(t) = - 

2 

t 

et g(t) = - cost. 

1 

cosx cost 

dt = - cos1 + - ∫ dt 

x 

x 

2 

t 

1 

cost 

n’a pas de limite finie en 0, donc ∫ dt non plus. 

2 

x 

t 

• La formule de changement de variable s'énonce de la façon suivante : 

Soit ϕ une bijection de classe C 1 

sur [a, b[ et f une fonction continue sur l'intervalle 

ϕ([a, b[). On pose α = ϕ(a) et β = lim ϕ(x) (β réel, ou β = ± ∞) 

x→b 

x

Alors les intégrales ∫ 

β 

∫ 

α 

{ Remarque : 

f(t) dt = ∫ 

a 

β 

α 

b 

b 

f(t) dt et ∫ 

a 

f[ϕ(x)] ϕ’(x) dx 

f[ϕ(x)] ϕ’(x) dx sont de même nature et on a : 

Il n'est pas nécessaire de montrer d'abord la convergence d'une des deux intégrales 

pour écrire la formule du changement de variable. Au contraire, cette formule peut 

être utilisée pour étudier la convergence d'une intégrale en la transformant en une 

autre dont la nature est plus simple à établir. 

Propriétés 0.2.7 : Conditions suffisantes de convergence des intégrales 

généralisées 

Ces propriétés sont analogues à celles des séries. 

Les énoncés ci-dessous sont donnés pour a 

• Si f est positive et majorée par une fonction g intégrable sur [a, b[, alors f est 

intégrable sur [a, b[, et ∫ 

k Exemple : 

b 

a 

b 

f(t) dt ≤ ∫ 

1 

a 

g(t) dt. 

+∞ 

-t 

La convergence de l’intégrale ∫ e 

2 

-t 

dt est assurée par l’inégalité e 

2 

-t 

≤ e vraie pour t ≥ 1, et par 

+∞ 

-t 

la convergence de l’intégrale ∫ e dt qui se calcule aisément (= 1/e). 

• L’intégrale ∫ 

convergente. 

b 

a 

1 

f(t) dt est dite absolument convergente si l’intégrale ∫ 

• Toute intégrale absolument convergente est convergente, et on a : 

b 

⎢ ∫ 

a 

f(t) dt ⎢ ≤ ∫ 

b 

a 

⎢f(t) ⎢ dt 


b 

a 

⎢f(t) ⎢ dt est 

• si f ≥ 0 (ou f ≤ 0) au voisinage de b, et si g est une fonction équivalente à f au 

voisinage de b, les intégrales généralisées ∫ 

nature. 

b 

a 

f(t) dt et ∫ 

b 

a 

g(t) dt sont de même

* Attention ! 

Ce résultat n'est plus vrai si f ne garde pas un signe constant au voisinage de b. 

k Exemples : 

1 

sint 

• ∫ dt converge : 

3/2 

0 t 

1 

sint 

sint 1 

en effet, pour t de [0, 1], ≥ 0 ; sint ~ t d’où ~ et ∫ 

3/2 

t 

0 

3/2 1/2 

t 0 t 

0 

1 

cost 

• ∫ dt diverge : 

2 

0 t 

cost cost 

en effet, pour t de [0, 1], ≥ 0 ; ~ 

2 2 

t t 0 

+∞ 

• ∫ 

1 

√⎺t 

dt converge : 

2 

(t+1) 

en effet, pour t ≥ 1 

√⎺ t 

2 

(t+1) 

≥ 0 ; 

√⎺ t 

~ 

2 

(t+1) +∞ 

1 

2 

t 

1 

3/2 

t 

1 

et ∫ 

0 


1 

1/2 

t 

1 

dt diverge puisque 2 ≥ 1. 

2 

t 

+∞ 

et ∫ 

1 

1 

3/2 

t 

c) Intégrale fonction de la borne supérieure 

Rappels 0.2.8 : Fonction de la borne supérieure : 

1 

dt converge puisque 

2 

3 

dt converge puisque 

2 

Soit f une fonction continue sur un intervalle I de R, et soit a un élément de I 

On pose : ∀ x ∈ I F(x) = ∫ 

x 

a 

f(t) dt 

F est de classe C 1 

sur I et on a : ∀ x ∈ I F'(x) = f(x). 

(en fait, F est l’unique primitive de f sur I nulle en a). 

Ces résultats restent vrais pour des intégrales généralisées, sous réserve bien 

entendu de convergence de ces intégrales. 

Par exemple si f continue sur R est telle que pour tout réel x l'intégrale ∫ 

converge, alors la fonction F définie sur R par F(x) = ∫ 

et on a F’ = f. 

x 

-∞ 

> 1. 

< 1. 

x 

-∞ 

f(t) dt 

f(t) dt est de classe C 1 sur R,

Chapitre 1 : Espace de probabilité 

Le calcul des probabilités est la modélisation mathématique de phénomènes dus au 

“hasard”. Au départ, il s'agissait de résoudre des problèmes de jeux (jeux de dés par 

exemple). Bien que certains calculs aient été effectués dans ce domaine par des 

mathématiciens italiens de la Renaissance, on considère généralement que les 

fondateurs des Probabilités sont Pascal et Fermat au XVII ème siècle. Le calcul des 

probabilités se développa ensuite, motivé par des problèmes d’assurance et de 

rentes viagères, puis au XVIII ème siècle on passa du cas fini au cas continu (Laplace). 

Le vocabulaire et les techniques utilisées se sont précisés au fil du temps, et les 

probabilités ont trouvé de nombreuses applications en physique, économie, 

médecine, sciences sociales, finance … 

La formalisation utilisée de nos jours et exposée ci-dessous est due au mathématicien 

russe Kolmogorov (XX ème siècle). 

On appelle expérience aléatoire une expérience dont le résultat dépend du hasard. 

On ne connaît pas à l'avance le résultat d'une expérience aléatoire, mais on connaît 

l'ensemble de tous les résultats qu'elle peut avoir. 

k Exemple 1 : On lance un dé à 6 faces numérotées, en s'intéressant au numéro sorti; 

le résultat de l'expérience peut être représenté par un nombre entier compris entre 1 

et 6. 

k Exemple 2 : On joue à pile ou face jusqu'à ce que pile sorte. L'ensemble des 

résultats de l'expérience est l'ensemble des suites finies p, fp, ffp, … , fffffp, … , 

auxquelles on ajoute par précaution la suite infinie ffff… (au cas où pile ne sortirait 

jamais). 

k Exemple 3 : On joue indéfiniment à pile ou face. L'ensemble des résultats de 

l'expérience est l'ensemble des suites infinies à valeur dans {p, f}. On note cet 

ensemble {p, f} N 

. 

k Exemple 4 : On observe la durée de vie d'une particule prise au hasard (ou la 

durée de fonctionnement sans panne d'une machine) ; le résultat de l'expérience peut 

être représenté au moins en théorie par un nombre réel positif (une unité de temps 

ayant été choisie). 

k Exemple 5 : On observe entre les instants 0 et T un signal continu sur l'écran d'un 

radar ; le résultat de l'expérience peut être représenté par une fonction continue 

définie sur l'intervalle [0, T]. 


L'ensemble de tous les résultats possibles d'une expérience aléatoire est appelé 

ensemble fondamental, ou univers et noté usuellement Ω. Chaque élément de Ω est 

appelé possible ou issue, et noté ω. 

L'ensemble Ω peut être fini (exemple 1), dénombrable (exemple 2) ou non 

dénombrable (exemples 3, 4 et 5). 

On peut le modéliser facilement pour des expériences aléatoires simples. 

1 - Espace probabilisable 

On considère une expérience aléatoire, et Ω l'ensemble fondamental associé. On va 

s'intéresser aux parties de Ω que l'on peut décrire à partir de l'expérience aléatoire et 

que l'on appelle événements. 

On impose à l'ensemble des événements d'avoir un certain nombre de propriétés 

"naturelles", que l'on résume sous le nom de tribu. 


On appelle tribu (ou σσσσ-algèbre) sur Ω une partie A de P(Ω) vérifiant les axiomes 

suivants : 

i) Ω ∈A 

ii) ∀ A ∈ A Α c ∈ A (A est stable par passage au complémentaire) 

iii) Si (A ) est une suite d'éléments de A, B = ∪ A est aussi élément de 

n n≥1 i 

A (A est stable par réunion dénombrable). 


Si A est une tribu sur Ω, alors : 

i)' ∅ ∈A 


+∞ 

i=1 

iii)' Si (A n ) n≥1 est une suite d'éléments de A, C = ∩ 

A (A est stable par intersection dénombrable). 

+∞ 

i=1 

iv) A est stable par réunion et par intersection finies. 

A i est aussi élément de 

dém : • i)' : Ω ∈A (propriété i) et A est stable par passage au complémentaire (propriété ii) donc Ω c 

= ∅ ∈A. 

• iii)' : Pour tout entier i A i ∈A , donc (propriété ii) A i 

Toujours d'après la propriété ii) B c ∈A . Or B c = ∩ A = C. 

i 

+∞ 

i=1 

c 

+∞ 

∈A , donc (propriété iii) B = ∪ 

• iv) : Soient A et B deux éléments de A. On pose A 1 = A, A 2 = B et A i = ∅ pour i ≥ 3. La suite 

(A ) ainsi définie est une suite d'éléments de A, donc ∪ A ∈A ; comme ∪ A = A ∪ B, on a bien 

n n≥1 i i 

+∞ 

i=1 

+∞ 

i=1 

i=1 

c 

A 

i 

∈A .

montré que A est stable pour la réunion de deux de ses éléments. On montre alors par récurrence sur n 

que A est stable pour la réunion de n de ses éléments. 

La stabilité de A pour l'intersection finie se prouve par passage au complémentaire, comme cela a été 

fait pour démontrer iii)'. 

Conséquence : Pour montrer qu'un sous-ensemble A de P(Ω) est une tribu, on doit 

vérifier qu'il a trois propriétés : 

i) ou i)' (au choix) 

ii) 

iii) ou iii)' (au choix) 


On appelle espace probabilisable un couple (Ω, A), où A est une tribu sur Ω . 

Définitions 1.1.4 : 

• Si A est un événement de Ω, pour chaque résultat ω de l'expérience aléatoire, 

ou ω ∈ A : on dit que A est réalisé. 

ou ω ∉ A : on dit que A n'est pas réalisé. 

• La non-réalisation de A, c'est-à-dire l'événement A c , est appelé événement 

contraire de A. 

• La réalisation simultanée de deux événements A et B (A et B) est l'événement A∩B. 

• La réalisation d'au moins un des deux événements A et B (A ou B) est l'événement 

A∪B. 

• Si A et B sont deux événements tels que A 1 B, on dit que l'événement A entraîne 

(ou implique) l'événement B. 

• Le singleton {ω} est appelé événement élémentaire. 

• Ω est l'événement certain. 

• ∅ est l'événement impossible. 

• Deux événements A et B dont la réalisation simultanée est impossible (A∩B = ∅) 

sont dits incompatibles. 

k Exemples élémentaires de tribus : 

• P(Ω) est une tribu, c’est toujours elle que l’on prendra comme tribu d’événements 

si Ω est fini ou dénombrable. 

• A = {∅, Ω} est une tribu, appelée tribu grossière de Ω. 

• Pour tout A fixé de P(Ω), A = {∅, A, A c , Ω} est une tribu, appelée tribu engendrée 

par A. 

• Sur Ω = {1, 2, 3} : 

A = {∅, {1}, {2, 3} , {1, 2, 3}} est une tribu strictement incluse dans P(Ω). 

B = {∅, {2}, {2, 3} , {1, 2, 3}} n'est pas une tribu. 


k Exemple fondamental : la tribu borélienne de R ou R n 

Soit Ω = R, considérons la famille I des intervalles de R. 

Proposition et définitions 1.1.5 : (admise en partie) 

• I n’est pas une tribu, mais il existe une tribu, notée B(R), contenant tous les 

intervalles de R, et qui est la plus petite tribu (au sens de l'inclusion) contenant tous 

ces intervalles. 

On l’appelle tribu borélienne de R , et on la note B(R) ou plus simplement B. 

On dit que la tribu B est engendrée par les intervalles de R. 

• Il existe des parties de R qui ne sont pas boréliennes. 

On a donc : I 1 B(R) 1 P(R) 

≠ 

≠ 

dém : • I n’est pas une tribu, en particulier parce qu'elle n'est pas stable par passage au 

complémentaire : par exemple, le complémentaire de [0, 1] est ]-∞, 0[ ∪]1, +∞[, qui n'est pas un 

intervalle. 

• On note T l'ensemble des tribus de R contenant tous les intervalles. L'ensemble T est non vide 

puisqu'au moins P(R) appartient à T. Soit B l'intersection de toutes les tribus de T. B est une tribu, 

elle contient I, et toute autre tribu de R contenant I contient nécessairement B. 

B, appelée tribu borélienne de R, est donc la plus petite tribu au sens de l'inclusion contenant tous les 

intervalles de R. 

• On admettra dans ce cours l'existence de parties non boréliennes de R (ceci se démontre en utilisant 

l'axiome du choix, une partie non borélienne de R ne se construit donc pas de manière élémentaire). 

De même, la tribu borélienne de R n 

la note B(R n 

). 

est la tribu engendrée par les pavés (*) de R n 

. On 

(*) : un pavé de R n 

est le produit cartésien de n intervalles de R 

par exemple dans R 2 

: [a, b] x ]c, d], ]a, b[ x ]-∞,+∞[, ]a,+∞[ x ]b,+∞[ sont des pavés. 

{ Remarque : 

Dans le cadre de ce cours, en dimension 1, on ne rencontrera en pratique que des 

boréliens de type intervalle ou réunion finie d’intervalles. Mais en dimension n, on 

verra fréquemment dans les calculs des boréliens qui ne sont ni des pavés ni des 

réunions finies de pavés (par exemple, si n = 2, l'intérieur d’un disque ou d'un 

triangle ou plus généralement un domaine du plan dont la frontière est une courbe 

de classe C 1 

par morceaux sont des boréliens). 


2 - Espace de probabilité 

La donnée d’un espace probabilisable ne suffit pas à décrire une expérience aléatoire. 

Par exemple, si on joue une fois à pile ou face, l’espace fondamental est très simple : 

Ω = {pile, face}, avec A = P(Ω) (puisque Ω est fini), mais les conditions de l’expérience 

ne sont pas les mêmes selon que la pièce utilisée est truquée ou non. 

a) Probabilité 


• Soit (Ω, A) un espace probabilisable. On appelle probabilité une application P de A 

dans R ayant les propriétés suivantes : 

i) ∀ A ∈ A P(A) ≥ 0 

ii) P(Ω) = 1 

iii) Pour toute suite (A n ) n≥1 d'événements deux à deux incompatibles : 

+∞ 

P (∪ Ai ) = ∑ P(Ai ) (σσσσ-additivité de P) 

i=1 

+∞ 

i=1 

• Le triplet (Ω, A, P) est appelé espace de probabilité, ou espace probabilisé. 

Construire un modèle probabiliste lié à une expérience aléatoire, c'est se donner le 

triplet (Ω, A, P). On admettra que pour une expérience aléatoire donnée, il existe 

l'espace de probabilité correspondant. 


1) P(∅) = 0 

2) Additivité de P : si A et B sont incompatibles, P(A∪B) = P(A) + P(B) 

Plus généralement, si A 1 , A 2 , … , A n sont n événements incompatibles deux à deux : 

P(A 1 ∪A 2 ∪ … ∪A n ) = P(A 1 ) + P(A 2 ) + … + P(A n ) 

3) P(A c ) = 1 - P(A) 

4) Si A et B sont deux événements, P(A∪B) = P(A) + P(B) - P(A∩B) 

5) Croissance de P : si A et B sont deux événements tels que A 1 B, P(A) ≤ P(B) 

6) ∀ A ∈ A P(A) ≤ 1 

7) Propriété de la limite monotone : 

- pour toute suite croissante (au sens de l'inclusion) d'événements (A n ) n≥1 

lim 

n→+∞ 

P(An ) = sup P(An ) = P (∪ Ai ) 

n 

+∞ 

i=1 

- pour toute suite décroissante (au sens de l'inclusion) d'événements (A n ) n≥1 

lim 

n→+∞ 

P(An ) = inf P(An ) = P (∩ A ) 

i 

n 

+∞ 

i=1 


dém : 

• 1) : se démontre par l'absurde : On pose P(∅) = a . Par définition, a ≥ 0. Supposons a > 0. Soit A n = ∅ 

pour tout n, les A n sont deux à deux disjoints, donc P( ∪ 

définition de la somme d'une série. Or ∪ 

contradiction. 

+∞ 

i=1 


+∞ 

i=1 

+∞ 

A ) = 

i ∑ P(A 

i 

) = lim 

i=1 

A i = ∅ , d'où a = lim 

n→+∞ 

n→+∞ 

n 

∑ 

i=1 

P(A i ) par 

(n a) = +∞ si a > 0, d'où la 

• 2) : on pose A 1 = A, A 2 = B et A i = ∅ pour i ≥ 3. La suite (A n ) n≥1 ainsi définie est une suite 

d'éléments de A deux à deux incompatibles, donc P( ∪ A ) = 

i ∑ P(A 

i 

) ; 

i=1 

i=1 

+∞ 

i=1 

+∞ 

or ∪ A = A ∪ B et 

i ∑ P(A 

i 

) = P(A) + P(B) + ∑ P(∅) = P(A) + P(B) puisque P(∅) = 0. 

i=1 

+∞ 

i=3 

+∞ 

Le cas d'une réunion finie se prouve de manière analogue. 

• 3) : on écrit la propriété 2) avec B = A c ; P(A) + P(A c ) = P(A∪A c ) = P(Ω) = 1 

• 4) : on écrit A∪B comme une réunion disjointe afin de se ramener au 2) : 

A∪B = A∪(B∩A c ) cette réunion étant disjointe, 

d'où P(A∪B ) = P(A) + P(B∩A c ) 

De plus B = (B∩A)∪(B∩A c ) , cette réunion étant disjointe, 

d'où (propriété 3) : P(B) = P(B∩A) + P(B∩A c ) 

On en déduit : P(B∩A c )) = P(B) - P(B∩A) 

d'où : P(A∪B ) = P(A) + P(B) - P(B∩A) 

Remarque : dans le cas où B∩A = ∅ , on retrouve la propriété 2). 

• 5) : si A est inclus dans B, B peut s'écrire : B = A∪(B∩A c ) , cette réunion étant disjointe. 

Toujours d'après 3), on a : P(B) = P(A) + P(B∩A c )), or P(B∩A c ) ≥ 0, d'où P(A) ≤ P(B); 

• 6) : se déduit de la précédente : A 1 Ω, d'où P(A) ≤ P(Ω) = 1. 

• 7) : 

- si la suite d'événements (A n ) n≥1 est croissante au sens de l'inclusion : 

pour tout entier n A n 1 A n+1 , d'où P(A n ) ≤ P(A n+1 ) par croissance de P. La suite réelle (P(A n )) n≥1 

étant croissante et majorée par 1, elle converge et sa limite est sa borne supérieure. 

Ensuite, on écrit la réunion croissante comme une réunion d'événements incompatibles deux à deux 

afin d'utiliser la σ-additivité de P : 

pour cela on pose : 

B 1 = A 1 

B 2 = A 2 ∩A 1 

… 

c 

c 

B n = A n ∩A n-1 

Par construction, les B i sont deux à deux disjoints ; de plus, pour tout entier n, A n = B 1 ∪B 2 ∪…∪B n , 

d'où par application de 2) : P(A n ) = P(B 1 ) + P(B 2 ) +… +P(B n ) (*) 

+∞

+∞ 

+∞ 

De plus : ∪ A = ∪ B 

i i 

i=1 i=1 

+∞ 

En effet : par définition des B , B 1 A d'où ∪ B 1 ∪ A . Inversement, soit ω un élément de ∪ A . 

i i i i i i 

i=1 

Il existe au moins un indice i tel que ω appartient à A i , donc l'ensemble I = {i ∈N/ω appartient à A i } 

est non vide. Toute partie non vide de N admet un plus petit élément, soit k le plus petit élément de I 

(I et k dépendent de ω). Par définition de k, ω appartient à A k et n'appartient pas à A k-1 , donc ω 

+∞ 

appartient à B , et donc aussi à ∪ B . 

k i 

+∞ 

+∞ 

i=1 

On en déduit : P( ∪ A ) = P( ∪ B 

i i 

) = ∑ P(B 

i 

) (σ-additivité de P) 

i=1 i=1 

i=1 

+∞ 

Or ∑ 

i=1 

P(B i ) = lim 

n 

∑ 

n→+∞ i=1 

+∞ 


+∞ 

i=1 

P(B i ) par définition de la somme d'une série = lim 

- si la suite d'événements (A n ) n≥1 est décroissante au sens de l'inclusion : 

n→+∞ 

c 

on applique le résultat ci-dessus à la suite croissante d'événements (A ) . 

n n≥1 

b) Cas où Ω est fini ou dénombrable 

P(A n ) d'après (*) 

Cas fini : l'expérience aléatoire considérée n'a qu'un nombre fini de résultats 

possibles : Ω = {ω , … , ω }. 

1 m 

A chaque ω i 

(1 ≤ i ≤ m), on associe un réel noté P(ω ) (en fait, la notation rigoureuse 

i 

devrait être P({ω })), tel que : 

i 

i) P(ω ) ≥ 0 

i 

m 

ii) ∑ 

i=1 

P(ω ) = 1 

i 

Toute partie A = {ω , … , ω } de l'ensemble fini Ω est un événement, et on pose : 

i1 ik 

P(A) = ∑ 

j=1 

avec la convention : P(∅) = 0 

k 

P(ω ) (on note aussi cette somme : ∑ P(ω) ) 

ij 

ω∈A 

On démontre que l'application P ainsi définie sur P(Ω) est bien une probabilité. 

P(A) est la probabilité de l'événement A. 

Cas particulier de probabilité finie : la probabilité uniforme 

Définition 1.2.3 : La probabilité P est uniforme sur l’espace fini Ω si tous les réels 

P(ω ) sont égaux. On dit alors que tous les résultats possibles de l’expérience sont 

i 

équiprobables. 

+∞ 

i=1

k Exemple : Si on lance un dé à 6 faces numérotées, on met sur Ω = {1, 2, … , 6} la 

probabilité uniforme lorsque le dé n'est pas truqué. 


1 

1) Si la probabilité est uniforme sur Ω, alors pour tout ω de Ω, P(ω) = 

cardΩ 

2) Si la probabilité est uniforme sur Ω, alors pour tout événement A, 

P(A) = 

cardA 

cardΩ 

C’est la formule classique : 

(Règle de Laplace) 

nombre de cas favorables 

nombre de cas possibles 

* Attention ! cette formule n’est applicable que sous l’hypothèse d’équiprobabilité. 

Cas dénombrable : Ω = {ω / i ∈N*} 

i 

La démarche ci-dessus se généralise en utilisant les séries. 

A chaque ω i 

, on associe un réel noté P(ω ), tel que : 

i 

i) P(ω ) ≥ 0 

i 

+∞ 

ii) ∑ 

i=1 

P(ω ) = 1 

i 

Cette somme de série est indépendante de la numérotation choisie pour les ω , 

i 

et on définit la probabilité de toute partie A de Ω par : P(A) = ∑ 

ω∈A 

P(ω) 

(somme finie ou somme de série) 

On peut démontrer en utilisant les propriétés des séries que l'application P ainsi 

définie sur P(Ω) est bien une probabilité. 

c) Système complet d’événements 


• On appelle événement négligeable (ou événement quasi-impossible) un événement 

dont la probabilité est nulle. 

• On appelle événement quasi-certain un événement dont la probabilité est égale à 1. 

B est quasi-certain ⇔ Β c est négligeable. 

• Une propriété vraie sur un événement quasi-certain de Ω est dite vraie presque 

sûrement (noté en abrégé : p. s.) 



Si B est quasi-certain, pour tout événement A : P(A∩B) = P(A). 

dém : On a P(A) = P(A∩B) + P(A∩B c ) (égalité vue à la dém. de la propriété 1.2.2-4) 

Or par croissance de P , 0 ≤ P(A∩B c ) ≤ P(B c ) = 1 - P(B) = 0, d'où P(A∩B c ) = 0 et P(A) = P(A∩B). 

Conséquence : Pour calculer une probabilité, on peut, sans changer les résultats, se 

limiter à un événement quasi-certain de Ω. 


• Une suite (finie ou non) B , B , … , B , … d'événements non impossibles est un 

1 2 n 

système complet d'événements si : 

1) ∀ i ≠ j B ∩B = ∅ 

i j 

2) Ω = ∪ B 

i 

i 

En termes ensemblistes, un système complet d'événements est une partition de Ω. 

• On définit aussi un système quasi-complet d'événements en remplaçant la condition 

2) ci-dessus par : 

2') ∪ B est quasi-certain. 

i 

i 

Proposition 1.2.8 : Formule des probabilités totales (1ère forme) 

• Si {B , B , … , B } est un système quasi-complet d'événements, pour tout 

1 2 n 

événement A : P(A) = ∑ 

n 

i=1 

P(A∩B ) 

i 

• Si B , B , … , B , … est une suite infinie d'événements constituant un système 

1 2 n 

quasi-complet, pour tout événement A : P(A) = ∑ 


+∞ 

i=1 

P(A∩B ) 

i 

• Conséquence : dans les deux cas (système fini ou dénombrable) : ∑ 

dém : 

i 

P(B ) = 1 

i 

• Par définition d'un système quasi-complet, ∪ B est quasi-certain, donc (propriété1.2.6), P(A) = 

i 

i 

P(A∩(∪ B )) = P(∪ (A∩B )). Or les (A∩B ) sont deux à deux incompatibles puisque les B le sont, 

i 

i 

i 

i 

i i 

donc P(∪ (A∩B ) = ∑ 

i 

i 

i 

P(A∩B ) (par additivité de P dans le cas d'un système quasi-complet fini ; par 

i 

σ-additivité de P dans le cas d'un système quasi-complet dénombrable). 

• L'égalité ∑ 

i 

P(B ) = 1 s'obtient en remplaçant A par Ω dans la formule ci-dessus. 

i

3 - Probabilité conditionnelle 

a) Définition 

Considérons un espace de probabilité (Ω, A, P) lié à une expérience aléatoire. 

Supposons que l'on sache qu'un événement B de A est réalisé. La probabilité d'un 

événement quelconque A de A risque alors d'être modifiée. 

k Exemple : 

Une famille de trois enfants vient de s’installer à côté de chez vous, et vous cherchez 

la probabilité qu’il y ait au moins une fille, lorsque : 

a) vous ne disposez d’aucun renseignement supplémentaire. 

b) vous savez qu'il y a au moins un garçon. 

c) vous savez que l’aîné est un garçon. 

L'ensemble Ω de toutes les configurations possibles d'une famille de trois enfants est l'ensemble des 

triplets dont les composantes valent F ou G ; la ième composante du triplet définit le sexe du ième 

enfant de la famille (i = 1, 2, 3). 

L'ensemble Ω étant fini, toute partie de Ω est un événement, et on met sur Ω la probabilité uniforme. 

Il y a donc 8 configurations possibles, chacune de probabilité 

a) Soit A l'événement "il y a au moins une fille". Les éléments de A sont les triplets dont au moins 

7 

une des composantes est F. Il y en a 7, donc P(A) = . 

8 

b) Si on sait qu'il y a au moins un garçon, on exclut le triplet (F, F, F) et il n'y a plus a priori que 7 

possibilités ; sur ces 7 triplets restants que l'on considère comme équiprobables, il y en a 6 pour 

6 

lesquels A est réalisé, d'où la probabilité cherchée : P (A) = . 

1 7 

c) Si on sait que l'aîné est un garçon, on ne garde que les 4 triplets dont la première composante est G ; 

3 

sur ces 4 triplets, il y en a 3 pour lesquels A est réalisé, d'où la probabilité cherchée : P (A) = . 

2 4 

Considérer que B est réalisé revient à ne plus raisonner sur Ω tout entier, mais 

seulement sur B, ce qui revient à mettre sur Ω une autre probabilité que la 

probabilité initiale. 


Soit B un événement tel que P(B) ≠ 0. 


1 

. 

8 

On appelle probabilité conditionnelle de A sachant B : 

P(A/B) = 

P(A∩B) 

P(B)

Dans la question b) de l'exemple ci-dessus, si on note B l'événement "il y a au moins un garçon", on a 

P(B) = 

7 

8 

et P(A∩B) = 

6 

8 

On retrouve la valeur que l'on avait notée P (A). 

1 

P(A∩C) 

De même P (A) = 

2 P(C) 


P(. /B) est une probabilité sur (Ω, A). 

(il y a 6 configurations mixtes sur les 8 possibles) d'où 

en notant C l'événement "l'aîné est un garçon". 

P(A∩B) 6 

= . 

P(B) 7 

Dans certains ouvrages, P(. /B) est notée P : nous n'utiliserons pas cette notation 

B 

pour éviter toute confusion avec la notation P qui sera introduite au chapitre 2. 

X 

dém : P(. /B) est bien une application de A dans R, et on va prouver qu'elle vérifie les trois conditions 

i) ii) iii) de la définition 1.2.1 : 

• i) ∀ A ∈ A P(A/B) = 

• ii) P(Ω/B) = 

P(Ω∩B) 

P(B) 

P(A∩B) 

P(B) 

P(B) 

= = 1 

P(B) 

≥ 0 car P(A∩B) ≥ 0 et P(B) > 0. 

• iii) Soit (A n ) n≥1 une suite d'événements deux à deux incompatibles : 

+∞ 

1 +∞ 

1 +∞ 

P( (∪ A )/B) = P( ( ∪ A )∩B) = P (∪ (A 

i i i 

∩B)) 

i=1 

P(B) 

i=1 

P(B) 

i=1 

les (A ∩B) sont deux à deux incompatibles puisque les A le sont, donc par σ-additivité de P, 

i 

i 

+∞ 

+∞ 

+∞ 

1 +∞ 

+∞ 

P (∪ (A 

i 

∩B)) = ∑ P(A ∩B) d'où P( (∪ A )/B) = 

i 

i ∑ P(A ∩B) = ∑ P(A 

i 

/B) 

i=1 

i=1 

P(B) i 

i=1 

i=1 

i=1 

Conséquence : 

Toutes les propriétés 1.2.2 sont vraies en remplaçant P par P(. /B). 

Par exemple : 

• 0 ≤ P(A/B) ≤ 1 

• P(A c /B) = 1 - P(A/B) 

• P[(A∪A')/B] = P(A/B) + P(A'/B) - P[(A∩A')/B] 

• Pour toute suite croissante d'événements (A n ) n∈N 

etc… 

lim 

n→+∞ 

P(An /B) = sup P(An /B) 

n 

b) Les trois formules de probabilité conditionnelle 

Formule des probabilités composées 1.3.3 : 

• Soit B un événement tel que P(B) ≠ 0. La formule ci-dessus s'écrit : 

P(A∩B) = P(B) P(A/B) 


• Plus généralement : 

Soient A , A , … , A 

1 2 n n événements tels que P(A ∩A ∩ … ∩A ) ≠ 0. On a : 

1 2 n-1 

P(A ∩A ∩ … ∩A ) = P(A ) P(A /A ) P(A /A ∩A ) … P(A /A ∩A ∩ … ∩A ) 

1 2 n 1 2 1 3 1 2 n 1 2 n-1 

dém : 

La condition P(A ∩A ∩ … ∩A ) ≠ 0 assure que pour tout k ≤ n-1, P(A ∩A ∩ … ∩A ) ≠ 0, donc 

1 2 n-1 

1 2 k 

toutes les probabilités conditionnelles P(A /A ), P(A /A ∩A ), … , P(A /A ∩A ∩ … ∩A ) 

2 1 3 1 2 n 1 2 n-1 

existent. La formule se démontre par récurrence sur n. 

{ Remarque : On utilise souvent cette formule dans le cas où plusieurs événements 

se sont succédé (par exemple des tirages successifs dans une urne dont la 

composition est modifiée à chaque tirage en fonction du résultat du tirage 

précédent). Les événements sont alors introduits par ordre chronologique : A est le 

1 

premier événement à s'être produit, A le second etc … 

2 

La formule des probabilités composées justifie l’utilisation des arbres pour certains 

calculs probabilistes. 

Formule des probabilités totales 1.3.4 : (2ème forme) 

• Soit une famille finie B , B , … , B d'événements tous de probabilité non nulle et 

1 2 n 

constituant un système quasi-complet d'événements. On a pour tout événement A : 

n 

P(A) = ∑ 

i=1 

P(A/B ) P(B ) 

i i 

Cette formule est fréquemment utilisée avec un système complet d'événements de 

type { B, B c } tel que 0 < P(B) < 1 : P(A) = P(A/B) P(B) + P(A/B c ) P(B c ) 

• Si le système quasi-complet d'événements est constitué d'une suite infinie B , B , 

1 2 

… , B , … d'événements tous de probabilité non nulle, on a : 

n 

dém : 

+∞ 

P(A) = ∑ 

i=1 

P(A/B ) P(B ) 

i i 

il suffit d'écrire la formule 1.2.8 en remplaçant P(A∩B ) par P(A/B ) P(B ) 

i 

i i 

k Exemple : 

Une urne contient initialement 2 boules blanches. Un compteur affiche un entier 

aléatoire non nul i, on ajoute alors i boules noires dans l'urne puis on en tire une 

boule au hasard. Pour i ≥ 1, la probabilité d'afficher i est 

probabilité que la boule tirée soit blanche ? 


1 

i(i+1) 

. Quelle est la

dém : 

On définit les événements : 

A : "la boule tirée est blanche" 

B : "le compteur affiche l'entier i" 

i 

Les B constituent un système complet d'événements , d'où P(A) = ∑ 

i 

i=1 


+∞ 

+∞ 

P(A/B ) P(B ) = ∑ 

i i 

2 

1 

i+2 i(i+1) 

i=1 

(en effet, lorsque B est réalisé, il y a dans l'urne avant le tirage 2 boules blanches et i boules noires) 

i 

Pour calculer la somme de la série, on décompose en éléments simples la fraction rationnelle en i : 

2 

i(i+1)(i+2) 

1 

= 

i 

n 2 n 

∑ 

i(i+1)(i+2) 

= ∑ 

i=1 

i=1 

2 1 

- + 

i+1 i+2 

1 

( 

i 

1 

= ( 

i 

1 1 1 

- ) - ( - ) 

i+1 i+1 i+2 

1 n 1 

- ) - ∑ ( - 

i+1 i+1 

i=1 

n 2 

On conclut : P(A) = lim ∑ 

i(i+1)(i+2) 

n→+∞ i=1 

Formule de Bayes 1.3.5 : 

1 

= 

2 

1 

n 

) = ∑ 

i+2 

i=1 

1 

( 

i 

- 

1 

n+1 

) - ∑ 

i+1 

i=2 

Soient A et B deux événements de probabilité non nulle. 

P(A/B) = 

P(B/A) P(A) 

P(B) 

1 

( 

i 

1 1 1 1 

- ) = - + 

i+1 2 n+1 n+2 

dém : il suffit d'écrire de deux façons différentes P(A∩B) = P(A/B) P(B) = P(B/A) P(A) 

Considérons deux événements dont l'un, B , est la conséquence de l'autre, A, appelé 

cause. On suppose que P(B/A) est connue. La formule de Bayes permet de calculer la 

probabilité conditionnelle de A sachant que B est réalisé. Pour cette raison, elle était 

autrefois appelée formule de probabilité des causes. 

k Exemples : 

Dans l'exemple ci-dessus de l'urne et du compteur : sachant que la boule tirée est 

blanche, quelle est la probabilité que le numéro affiché soit 1 ? 

dém : On demande P(B /A) = 

1 

2 

P(A/B ) = 

1 3 

A retenir : 

1 

; P(B ) = 

1 2 

et P(A) = 

P(A/B ) P(B ) 

1 1 

1 

2 

P(A) 

2 

(calcul ci-dessus) d'où P(B /A) = 

1 3 

• La notion de probabilité conditionnelle s'introduit naturellement chaque fois qu'on 

acquiert une information partielle sur le résultat d'une expérience aléatoire. 

• Elle s'utilise aussi lorsqu'on se livre à deux expériences aléatoires successives telles 

que les conditions de la seconde sont fonction du résultat de la première.

4 - Evénements indépendants 

a) Indépendance de deux événements 


Soit (Ω, A, P) un espace de probabilité. Deux événements A et B sont dits 

(stochastiquement) indépendants si P(A∩B) = P(A) P(B). 

k Exemple : 

On tire une carte au hasard dans un jeu de 32 cartes. Les événements A = "c'est un 

pique" et B ="c'est un honneur" sont indépendants. 

dém : Ω est l'ensemble des 32 cartes : 8 cartes (as-roi-dame-valet-10-9-8-7) pour chacune des 4 

couleurs (pique-coeur-carreau-trèfle) ; on munit Ω de la probabilité uniforme puisque le tirage se 

8 1 

fait au hasard, donc P(A) = = 

32 4 

16 1 

Il y a 16 honneurs (as- roi-dame-valet de chaque couleur), donc P(B) = = 

32 2 

Enfin il y a 4 honneurs de pique, donc P(A∩B) = 

{ Remarques : 

4 1 

= = P(A) P(B) 

32 8 

• Ne pas confondre événements indépendants et événements incompatibles. 

• L'indépendance se définit par rapport à une certaine probabilité P. 

Deux événements peuvent être indépendants pour une probabilité P et ne pas l'être 

pour une autre probabilité Q définie sur (Ω, A) (par exemple, Q = P(. /E) où E est un 

événement de probabilité non nulle). 

k Exemple : 

Reprendre l'exemple ci-dessus avec la probabilité conditionnelle P(. /E), où E est 

l'événement " c'est une dame ou un coeur". 

P(A∩E) 

dém : Posons Q = P(. /E) ; par définition, Q(A) = 

P(E) 

11 

Il y a 4 dames et 7 coeurs autres que la dame, donc P(E) = 

32 

1 

appartient à A∩E) d'où Q(A) = 

11 

1 

On remarque que A∩B∩E = A∩E d'où Q(A∩B) = Q(A) = 

11 

1 

; P(A∩E) = 

32 

(seule la dame de pique 

7 

7 

De plus P(B∩E) = (les 4 dames et les 3 honneurs de coeur autres que la dame) d'où Q(B) = 

32 

11 

Q(A∩B) ≠ Q(A) Q(B) : A et B ne sont pas indépendants pour la probabilité Q, alors qu'ils le sont 

pour la probabilité P. 



Soient A et B deux événements de probabilité non nulle. Les trois conditions sont 

équivalentes : 

i) A et B sont indépendants 

ii) P(A/B) = P(A) 

iii) P(B/A) = P(B) 

Les propriétés ii) et iii) justifient le terme "indépendants" : la probabilité de A n'est 

pas modifiée par le fait que l'on sache B réalisé. 

dém : 

• ii) ⇒ i) : l'égalité P(A∩B) = P(A/B) P(B) est toujours vraie dès que P(A/B) existe ; si P(A/B) = 

P(A), on en déduit P(A∩B) = P(A) P(B) 

• i) ⇒ ii) : l'égalité P(A∩B) = P(A/B) P(B) est vraie, et par hypothèse P(A∩B) = P(A) P(B), d'où 

P(A/B) P(B) = P(A) P(B) et P(A/B) = P(A) puisque P(B) ≠ 0. 

L'équivalence i) ⇔ iii) s'établit par symétrie entre A et B. 

Propriété 1.4.3 : Si A et B sont deux événements indépendants, alors : 

A et B c sont indépendants 

A c et B sont indépendants 

A c et B c sont indépendants 

dém : P(A) = P(A∩B) + P(A∩B c ), d'où P(A∩B c ) = P(A) - P(A∩B) = P(A) - P(A)P(B) (indépendance 

de A et B) = P(A) [1 - P(B)] = P(A) P(B c ) c.q.f.d. 

On inverse les rôles de A et B pour la deuxième propriété. La troisième se démontre en deux temps : 

l'indépendance de A et B assure celle de A et B c , puis (même raisonnement) celle de A c et B c . 

b) Indépendance mutuelle 


Une suite (finie ou non) A , A , … , A , … d'événements est une suite indépendante 

1 2 n 

si et seulement si pour toute sous-famille finie d'indices 1 ≤ i 1 

P(A ∩A ∩ … ∩A ) = P(A ) P(A ) … P(A ) 

i1 i2 ik i1 i2 ik 

On dit aussi que les événements A i 

Exemple : 

sont mutuellement indépendants. 

• Pour établir l'indépendance mutuelle de trois événements A, B, C, il faut vérifier 4 égalités : 

⎧ P(A∩B) = P(A) P(B) 

⎪ 

⎪ P(A∩C) = P(A) P(C) 

⎨ 

⎪ P(B∩C) = P(B) P(C) 

⎪ 

⎩ P(A∩B∩C) = P(A) P(B) P(C) 

• Dans le cas d'une famille finie de n événements, vérifier l'indépendance mutuelle conduit à 

n 

vérifier (2 - n - 1) égalités (11 égalités à vérifier pour n = 4, et 26 égalités pour n = 5 …) 



Par définition, l'indépendance mutuelle d'une famille implique l'indépendance deux à 

deux des événements de cette famille, mais la réciproque est fausse. 

k Exemple : 

On lance deux fois un dé, et on définit les événements suivants : 

A = " le premier lancer est pair" 

B = " le deuxième lancer est pair" 

C = " la somme des lancers est paire". 

A, B et C sont indépendants deux à deux, mais ne sont pas mutuellement indépendants. 

(le dé est supposé honnête, et les deux lancers indépendants). 

1 

dém : P(A) = P(B) = 

2 

(le dé est honnête, et à chaque lancer il y a 3 numéros pairs sur les 6 possibles) 

1 

Par hypothèse, A et B sont indépendants, P(A∩B) = P(A) P(B) = 

4 

C = C 0 ∪C 1 (union disjointe) avec : C 0 = les deux lancers sont pairs et C 1 = les deux lancers sont 

impairs 

1 

P(C ) = P(A∩B) = 

0 

4 

1 

. On démontre de même P(C ) = 

1 

4 

1 

. Donc P(C) = 

2 

1 

On a A∩C = A∩B, donc P(A∩C) = P(A∩B) = = P(A) P(C) : A et C sont indépendants. 

4 

On démontre de même que B et C sont indépendants. 

Les trois événements A, B et C sont donc bien indépendants deux à deux. 

1 

Par contre A∩B∩C = A∩B, d'où P(A∩B∩C) = ≠ P(A) P(B) P(C) 

4 

Proposition 1.4.6 : 

Si A , A , … , A , … est une famille finie ou non d'événements mutuellement 

1 2 n 

indépendants, pour toute sous-famille finie d'indices 1 ≤ i 1 

P(A' ∩A' ∩ … ∩A' ) = P(A' ) P(A' ) … P(A' ) 

i1 i2 ik i1 i2 ik 

avec pour tout i, A' i = A i 

ou A i 

c 

dém : par récurrence sur le nombre d'indices i tels que A est remplacé par son complémentaire. 

i 


5 - Ω non dénombrable : deux exemples pour réfléchir 

A part la définition 1.2.1 d'une probabilité qui introduit la notion nouvelle de tribu, 

on constate que les définitions et propriétés énoncées aux §2-3-4 sont 

rigoureusement identiques (y compris les démonstrations) à celles vues en première 

année, où la probabilité P était définie sur P(Ω). 

D'où la question : pourquoi cette notion de tribu ? 

La réponse est que sans les tribus, on ne pourrait garantir l'existence de certaines 

probabilités sur les espaces Ω non dénombrables. 

Ce problème d'existence ne se pose pas dans le cas où Ω est fini : on a vu au §2-b) 

qu'il est très facile de définir une probabilité en donnant la valeur de chaque P(ω). Il 

suffit de respecter les conditions : P(ω) ≥ 0 pour tout ω de Ω et ∑ 

ω∈Ω 

P(ω) = 1. 

Il en va de même si Ω est dénombrable. Les justifications sont juste un petit peu plus 

compliquées puisqu'elles utilisent les propriétés des séries. 

Dans le cas où Ω n'est pas dénombrable, l'exemple 1 ci-dessous va nous montrer 

qu'on ne peut plus en général définir P "point par point" sur chaque ω de Ω. Il faut 

donc la définir directement sur les événements, qui sont des parties de Ω. 

Or on verra à l'exemple 2 que pour des raisons techniques, certains types de 

probabilités pourtant très intéressantes ne peuvent être définies sur P(Ω) tout entier, 

d'où la nécessité de ne considérer comme événements qu'une sous-famille stricte de 

P(Ω). Il est naturel pour des raisons logiques que cette sous-famille contienne Ω 

(événement certain) et ∅ (événement impossible), soit stable par passage au 

complémentaire (événement contraire d'un événement donné) ainsi que par 

intersection (réalisation simultanée d'événements, lien logique : et) et réunion 

(réalisation d'au moins un des événements considérés, lien logique : ou non exclusif) 

finies (ou dénombrables car certaines expériences théoriques conduisent à étudier 

des suites d'événements, voir l'exemple 1 ci-dessous). D'où la définition des tribus. 

a) Exemple 1 : P doit être définie directement sur A 

Voici un exemple d'expérience aléatoire, à propos duquel on verra l'utilité de 

certaines des propriétés de calcul d'une probabilité (passage au complémentaire, 

additivité, passage à la limite croissante ou décroissante). 

Une urne (que l'on appellera dans la suite du cours "urne RBV”) contient 3 boules, 

une rouge, une blanche, une verte. Dans cette urne, on tire une infinité de fois une 

boule avec remise. 


• Modélisation de l'espace de probabilité : 

Ω = {R, B, V} N* = ensemble des suites (u ) où u est la couleur tirée au ième tirage 

n n≥1 i 

(u = R, B, ou V) 

i 

Cet ensemble Ω est évidemment infini. 

On admettra (cela se démontre) qu'il existe une tribu A formée des parties de Ω que 

l'on peut décrire à partir de l'expérience aléatoire et une probabilité P définie sur A 

telle que : 

- à chaque tirage, la probabilité d'avoir une couleur donnée vaut 1/3 ; 

- les résultats des différents tirages sont indépendants (tirages avec remise). 

• Probabilité d'avoir un tirage tricolore sur les n premiers tirages (n ≥ 3) 

Soit n fixé ≥ 3, et soit A n l'événement : "les trois couleurs sont apparues sur les n 

premiers tirages". 

On montre que : P(A n ) = 

3 n-1 - 2 n + 1 

3 n-1 

• Probabilité d'avoir un tirage tricolore sur l'ensemble des tirages 

Soit A l'événement : "les trois couleurs sont apparues sur l'ensemble des tirages". 

+∞ 

On a : A = ∪ A 

i 

i=3 

On montre que : P(A) = lim 

n→+∞ 

L'événement A est quasi-certain. 

P(A n ) = 1 

• Probabilité d'un événement élémentaire {ω} 

Soit ω un élément de Ω fixé. ω est une suite (u ) où u est la couleur tirée au ième 

n n≥1 i 

tirage (u = R, B, ou V) 

i 

On montre que : P(ω) = 0 

Tout événement élémentaire est négligeable. 

• Conclusion : 

Puisque pour tout ω P(ω) = 0, il est impossible ici de reconstituer la probabilité P à 

partir des P(ω) comme on peut le faire dans le cas où Ω est fini ou dénombrable en 

posant pour tout événement A : P(A) = ∑ 

ω∈A 

P(ω) . 

Ici, l'ensemble fondamental Ω n'est pas dénombrable, d'où la nécessité de définir la 

probabilité P non pas "point par point" mais directement sur la tribu A des 

événements. 

b) Exemple 2 : Prendre A = P(Ω) n'est pas toujours possible 


Supposons maintenant qu'on lance une aiguille infiniment fine sur une règle de 

longueur 1, le résultat de l'expérience est l'abscisse ω (réel compris entre 0 et 1) de 

l'impact de l'aiguille sur la règle. Ici Ω = [0, 1] et les parties de Ω auxquelles on pense 

"naturellement" sont les intervalles [a, b] avec 0 ≤ a ≤ b ≤ 1, ou les réunions finies de 

tels intervalles (rappelons qu'un point est un intervalle : { a} = [a, a]). 

Si on suppose que les conditions de l'expérience sont telles qu'il n'y a pas de région 

privilégiée de la règle, il est naturel de penser que la probabilité que l'impact de 

l'aiguille se trouve dans un intervalle donné [a, b] est proportionnelle à la longueur 

de cet intervalle, ce qui conduit ici à poser : P( [a, b]) = b - a (condition (*)) 

D'où la question : une telle probabilité existe-t-elle ? 

Si elle existe, on a nécessairement P(ω) = 0 pour tout ω, donc même problème que 

dans l'exemple précédent. 

On ne peut se limiter à une probabilité qui serait définie seulement sur la famille des 

intervalles de [0, 1], car cette famille n'est pas une tribu. 

Vous verrez (cours d'Intégrale de Lebesgue en L3) qu'on peut construire une 

probabilité définie de manière unique sur la tribu borélienne de [0, 1] (tribu 

engendrée par les intervalles de [0, 1]) et vérifiant la condition (*). 

Cette probabilité s'appelle probabilité uniforme sur l'intervalle [0, 1]. 

Par contre, on peut montrer par l'absurde qu'il n'existe pas de probabilité P définie 

sur P([0,1]) et vérifiant la condition (*), en construisant une famille dénombrable de 

parties A (évidemment non boréliennes), deux à deux disjointes et toutes de même 

n 

+∞ 

probabilité, telles que [0, 1 [ = ∪ A 

n 

n=1 

Cette construction nécessite l'axiome du choix. 

Que P(A ) = 0 ou P(A ) > 0, on arrive dans les deux cas à une contradiction. 

n 

n 


6 - Annexe : Construction des espaces de probabilité 

liés aux différents modes de tirage 

Voici trois exemples de construction d'espaces Ω liés aux divers modes de tirage de 

boules dans une urne. 

On appelle E l'ensemble des boules de l'urne, et on pose cardE = N (N ≥ 1). 

k Exemple 1 : tirages successifs avec remise 

On tire n fois de suite une boule, en la remettant dans l'urne avant le tirage suivant. 

• Ω = E n 

= { (x , x , … , x ) / ∀ i ∈ [[1, n]] x ∈E} 

1 2 n 

i 

Chaque ω = (x , x , … , x ) est donc un n-uplet (ou n-liste) où pour 1≤i≤n, x est la 

1 2 n 

i 

i ème 

boule tirée. 

Il y a un ordre de tirage, et la même boule peut être tirée deux ou plusieurs fois, donc 

pas de condition restrictive sur les x . 

i 

• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce 

qui revient à munir Ω de la probabilité uniforme : 

∀ ω ∈ Ω P(ω) = 

1 

cardΩ 

cardΩ = N n 

k Exemple 2 : tirages successifs sans remise 

On tire n fois de suite une boule, en mettant de côté les boules tirées. On doit donc 

avoir : n ≤ N. 

• Ω = { (x , x , … , x ) ∈ E 

1 2 k 

n 

/ ∀ (i, j) ∈ [[1, n]] 2 

Pour 1≤ i ≤ n, x est la boule tirée au i 

i 

ème 

i ≠ j ⇒ x ≠ x } 

i j 

un n-uplet dont les composantes sont deux à deux distinctes. 

tirage; chaque ω = (x , x , … , x ) est donc 

1 2 k 

Il y a un ordre de tirage, mais la même boule ne peut être tirée plus d'une fois, d'où 

les conditions sur les x . 

i 

• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce qui 

revient à munir Ω de la probabilité uniforme : 

∀ ω ∈ Ω P(ω) = 

1 

cardΩ 

n 

cardΩ = A 

N 

k Exemple 3 : tirage simultané (ou exhaustif) 

Les n boules sont tirées en une fois. Ici aussi : n ≤ N. 

• Ω = P (E) , ensemble des parties à n éléments de E. 

n 

Il n'y a pas ici d'ordre de tirage, cela n'a donc pas de sens de parler de première ou 

dernière boule. 

• Les tirages se faisant au hasard, toutes les configurations sont équiprobables, ce qui 

revient à munir Ω de la probabilité uniforme : 

∀ ω ∈ Ω P(ω) = 

1 

cardΩ 

n 

cardΩ = C 

N 



Si A est un événement relatif seulement à la composition de l'échantillon obtenu 

(par exemple A = n'obtenir aucune boule noire ou A = obtenir dans l'échantillon un 

nombre de boules noires inférieur au nombre de boules blanches), on peut 

démontrer que P(A) a la même valeur dans le cas de tirages successifs sans remise 

ou dans le cas d'un tirage exhaustif. 

On peut donc raisonner pour calculer P(A) indifféremment avec l'un ou l'autre 

modèle, mais attention à être cohérent dans le choix de ΩΩΩΩ , le calcul de cardΩΩΩΩ, et le 

calcul de cardA. 


Chapitre 2 : Variables aléatoires réelles 

1 - Définition générale d'une variable aléatoire 

a) Image et image réciproque d'un ensemble par une application 


Soit f une application d'un ensemble E dans un ensemble F. 

• Soit A une partie de E. On note f(A) = {y ∈ F/∃ x ∈ A y = f(x)} 

f(A) est une partie de F. On l'appelle image de A par f. 

• Soit B une partie de F. On note f -1 

(B) = {x ∈ E/ f(x) ∈ B} 

f -1 

(B) est une partie de E. On l'appelle image réciproque de B par f. 

* Attention ! La notation f -1 

(B) ne signifie pas que f est une application bijective. 

b) Variable aléatoire 

Soit une expérience aléatoire modélisée par un espace de probabilité (Ω, A, P). 

On peut être amené à associer à chaque résultat ω de l'expérience aléatoire un réel 

dépendant de ω. 

k Exemple 1 : 

On lance trois fois un dé, et pour tout tirage ω on note S(ω) la somme des chiffres 

obtenus. Selon une règle fixée à l'avance, il peut être convenu que le joueur touchera 

un gain X(ω) dépendant de S(ω). 

⎧ S(ω) - 10 si S(ω) ≥ 10 

Par exemple : X(ω) = ⎨ 

⎩ 0 sinon 

Si le joueur a misé une somme m pour jouer, on peut aussi considérer le gain 

algébrique : Y(ω) = X(ω) - m. 

X est une application à valeurs dans N, Y est à valeurs dans Z (si m entier). 


k Exemple 2 : l'urne RBV 

Dans une urne contenant 1 boule rouge, 1 blanche et 1 verte, on tire n fois une boule 

avec remise, et on note pour tout tirage ω : 

X(ω) = le nombre de boules rouges obtenues ; 

Y(ω) = le rang d'apparition de la première boule rouge (en posant Y(ω) = n+1 si 

aucune boule rouge ne sort à ce tirage) ; 

Z(ω) = 

⎧ 1 si on obtient un tirage unicolore 

⎨ 

⎩ 

0 sinon 

T(ω) = le nombre de couleurs apparues. 

X, Y, Z, T sont à valeurs dans N. 

k Exemple 3 : 

On observe les arrivées de véhicules à un péage à partir de l'instant 0. 

On peut définir : 

X(ω) = le nombre de véhicules arrivé entre l'instant 0 et l'instant t (t fixé). 

T (ω) et plus généralement T (ω) l'instant d'arrivée du premier (du n 

1 

n 

ème 

) véhicule. 

T est à valeurs dans R + . 

n 

Dans chaque cas, on a défini une (ou plusieurs) applications de Ω dans R : pour une 

telle application X, il est naturel de s’intéresser à l’ensemble des résultats ω de Ω tels 

que par exemple on ait X(ω) = x ou X(ω) ≤ x (x étant un réel fixé) et à calculer la 

probabilité de ces éventualités. 

Mais pour que ces calculs soient possibles, il faut que les sous-ensembles de Ω définis 

par {ω ∈ Ω/ X(ω) = x } ou {ω ∈ Ω/ X(ω) ≤ x } soient des événements (c’est-à-dire des 

éléments de la tribu A), d’où les propriétés que l’on impose à l’application X. 


Soit (Ω, A, P) un espace de probabilité. On appelle variable aléatoire (en abrégé v.a.) 

une application X de Ω dans R telle que l’image réciproque par X de tout borélien de 

R est un événement. 

∀ B ∈ B X -1 

(B) = {ω ∈ Ω/ X(ω) ∈ B} ∈ A 

B désigne l'ensemble des boréliens de R. 

On notera aussi : X -1 

(B) = (X ∈ B). 

En particulier, l’image réciproque de tout intervalle de R est un événement : 

X -1 

( ] a, b [) = (X ∈ ] a, b [) = (a < X < b) 

X -1 

( [ a, b ]) = (X ∈ [ a, b ]) = (a ≤ X ≤ b) 

X -1 

( ] a, +∞ [) = (X ∈ ] a, +∞ [) = (X > a) 

X -1 

({a}) = (X = a) 

etc … 

• Dans le cas où A = P(Ω) (condition toujours réalisée si Ω est fini ou dénombrable), 

toute application réelle X définie sur Ω est une variable aléatoire. 


• Dans le cas général, on admettra que pour que X soit une variable aléatoire, il suffit 

que : 

- l’image réciproque par X de tout intervalle de R soit un événement (condition a 

priori moins forte que celle de la définition) 

ou même que : 

- l’image réciproque par X de toute demi-droite de type ] -∞, x ] (x réel) soit un 

événement (condition encore moins forte que la précédente). 

k Exemple fondamental : 

Soit A un événement de A, on appelle fonction indicatrice de A la fonction définie 

sur Ω par : 

⎧ 

⎪ ∀ ω ∈ A 1A(ω) 

= 1 

⎨ 

⎪ ∀ ω ∉ A 1 (ω) = 0 

⎩ 

A 

1 est une variable aléatoire. 

A 

* Attention ! 

Cet exemple établit un lien entre la notion d'événement et celle de variable aléatoire, 

mais il ne faut pas confondre ces deux notions : un événement est une partie de Ω 

alors qu’une variable aléatoire est une application de Ω dans R (autrement dit une 

fonction). 

En particulier, si X est une v.a., la notation P(X) n'a aucun sens. 

Proposition 2.1.3 : (admise) 

Si X et Y sont deux v.a. sur le même espace probabilisable (Ω, A), pour tout réel λ, les 

applications λX, X + Y et XY sont des v.a. 

ce qui peut s'énoncer : l'ensemble des v.a. définies sur l'espace probabilisable (Ω, A) a 

une structure d’algèbre. 


2 - Loi et fonction de répartition d'une v. a. 

Soit X une v.a. définie sur un espace de probabilité (Ω, A, P). Par définition d’une 

variable aléatoire, pour tout borélien B de R, (X ∈ B) est un événement. On peut 

donc calculer la probabilité de cet événement : en toute rigueur, il faudrait noter cette 

probabilité P((X ∈ B)) mais en pratique on écrit simplement P(X ∈ B). 

Proposition et définition 2.2.1 : 

Pour tout borélien B de R, on pose : P (B) = P(X ∈ B) 

X 

P est une probabilité sur l’espace probabilisable (R, B(R)). On l’appelle la loi de X, 

X 

ou distribution de probabilité de X. 

On admettra que la loi P X 

est totalement connue si on connait P [(a, b)] pour tout 

X 

intervalle (a, b) de R. On peut même se limiter aux intervalles de type ]-∞, a]. 


On appelle fonction de répartition de X la fonction F définie sur R par : 

X 

∀ x ∈ R F (x) = P(X ≤ x) 

X 

Notations équivalentes : P(X ≤ x) = P(X ∈] -∞, x ]) = P (] -∞, x ]) 

X 

* Attention aux notations ! On réserve les lettres majuscules (X) aux variables 

aléatoires, et les lettres minuscules (x) aux réels. 

La fonction de répartition est un outil mathématique dont l’intérêt principal est de 

caractériser la loi d’une variable aléatoire. Toutes les fonctions de répartition ont des 

propriétés communes, énoncées ci-dessous dans le cas général. On étudiera dans ce 

cours deux grands types de variables aléatoires réelles : les variables aléatoires 

discrètes et les variables aléatoires à densité. Il existe aussi des variables dont les lois 

sont des mélanges d’une loi discrète et d’une loi à densité. 


• La fonction de répartition F est croissante et à valeurs dans [ 0, 1 ]. 

X 

• On a : lim F (x) = 0 et lim F (x) = 1 

X 

X 

x→-∞ 

x→+∞ 

• ∀ a ∈ R P(X > a) = 1 - F (a) 

X 

• ∀ (a, b) ∈ R 2 

a 

X X 

• F est continue à droite et a une limite à gauche en tout point : 

X 

lim F (x) = F (a) lim F (x) = P(X < a) 

X X 

X 

x→a+ 

x→a- 

• ∀ a ∈ R P(X = a) = F (a) - lim F (x) 

X 

X 

x→a- 

• La fonction de répartition d'une variable aléatoire caractérise sa loi. (admis) 


* Attention ! Dans certains ouvrages figure une définition légèrement différente de 

la fonction de répartition : F (x) = P(X < x) = P(X ∈] -∞, x [). 

X 

Avec cette définition, la fonction de répartition est continue à gauche, et non plus 

continue à droite. 

3 - Variable aléatoire discrète 


Définitions et proposition 2.3.1 : 

Une variable aléatoire X est discrète finie si elle ne prend qu'un nombre fini de 

valeurs { x / 1 ≤ i ≤ n }. 

i 

Une variable aléatoire X est discrète dénombrable si elle prend une infinité 

dénombrable de valeurs { x i / i ∈ N }. Dans le cadre de ce cours, les v.a. discrètes 

dénombrables que l'on rencontrera seront à valeurs dans N ou Z. 

Pour unifier les notations, on notera { x i / i ∈ I } l’ensemble des valeurs prises par X, 

I étant une partie finie ou non de N. 

• Connaître la loi de X, c'est connaître : 

- l'ensemble des valeurs de X : X(Ω) = { x / i ∈ I } 

i 

- la suite (p i ) de réels (suite finie ou non) définis par : ∀ i ∈ I p i 

⎧ ∀ i ∈ I p ≥ 0 

i 

⎪ 

⎨ 

⎪ 

⎩ 

∑ 

i∈I 

p i 

= 1 (somme finie ou somme de série) 

= P(X = x ) 

i 

• Réciproquement, on admettra que si on se donne une partie A = { x i / i ∈ I } finie 

ou dénombrable de R, et une famille (p ) de réels vérifiant les propriétés ci-dessus, 

i i∈I 

il existe une v.a. discrète X dont l’ensemble des valeurs prises est A, et la loi donnée 

par les p . 

i 

Dans le cas fini, la loi de X peut-être présentée sous forme d'un tableau : 

X x 1 

P(X=x ) p 

i 1 

… x i 

On a alors pour tout borélien B de R : P(X ∈ B) = ∑ 

… x n 


p i 

{i/x i ∈B} 

p n 

p i 

(somme finie ou non) 

→ somme = 1

{ Remarque : Les conditions simultanées p ≥ 0 et ∑ p = 1 impliquent que 

i 

i 

i∈I 

0 ≤ p ≤ 1 pour tout i. 

i 

k Exemples de lois finies classiques : 

- loi certaine 

- loi uniforme sur {1, 2, … , n} 

- loi de Bernoulli 

- loi hypergéométrique 

- loi binômiale : nombre de succès sur n essais indépendants 

k Exemples de lois dénombrables : 

1 

- X(Ω) = N* et p = 

i i (i+1) 

- loi de Poisson : loi limite d'une loi binômiale 

- loi géométrique : temps d'attente du premier succès sur une suite infinie d'essais 

indépendants 

- loi binômiale négative (dite aussi loi de Pascal): temps d'attente du n ième succès sur 

une suite infinie d'essais indépendants 


Si X est une v.a. discrète de loi (x , p ) , { (X = x ) / i ∈ I } est un système complet 

i i i∈I 

i 

d’événements. On l’appelle système complet associé à la v.a. X. 

b) Fonction de répartition d'une variable aléatoire discrète 

Cas fini : 


Soit X une variable aléatoire discrète finie, prenant les valeurs x < … < x . 

1 n 

La fonction de répartition F X 

• Les points de discontinuité de F X 

• F X 

de X est une fonction en escalier : 

sont les x . 

i 

est constante sur chaque intervalle [x , x [ : 

i i+1 

⎧ F (x) = 0 si x < x 

X 

1 

⎪ 

⎨ 

⎪ 

⎩ 

On en déduit : 

F (x) = p + … + p 

X 1 i 

si x ≤ x < x 

i i+1 

F (x) = 1 si x ≥ x 

X 

n 

⎧ 

⎪ p1 = P(X = x ) = F (x ) 

1 X 1 

⎨ 

⎪ p = P(X = x ) = F (x ) - F (x ) pour 2 ≤ i ≤ n 

⎩ i 

i X i X i-1 


Cas dénombrable : 

Dans le cas le plus classique (celui où X prend une suite croissante de valeurs x i 

tendant vers +∞), les propriétés sont identiques à celles écrites ci-dessus, modulo les 

modifications suivantes : 

- La fonction de répartition F X 

une infinité de “marches”) 

de X est une fonction en escalier “généralisée” (avec 

- La condition “F (x) = 1 si x ≥ x ” est à supprimer (dans ce cas, F n’atteint jamais la 

X 

n 

X 

valeur 1) 

Dans les autres cas, il faut faire des adaptations évidentes. 

La loi de X se retrouve donc aisément à partir de sa fonction de répartition. 

Dans la pratique, la fonction de répartition d'une v.a. discrète est particulièrement 

utilisée lorsque cette variable est définie comme un max ou un min. 

k Exemple : 

Dans une urne contenant N boules numérotées de 1 à N, on tire n boules une à une 

avec remise. Soit X (respectivement Y) la variable aléatoire égale au plus grand 

(respectivement plus petit) des numéros tirés. Trouver les lois de X et Y. 

d) Variable aléatoire ϕ(X) : 

Proposition 2.3.4 : (admise) 

Si X est une v.a. discrète, et si ϕ est une fonction quelconque de D dans R (le sous- 

ensemble X(Ω) étant inclus dans D), ϕ(X) = ϕoX est une variable aléatoire discrète. 

Loi de ϕ(X) : On suppose la loi de X donnée par la suite double (x , p ) . 

i i i∈I 

Posons : ∀ i ∈ I y i 

= ϕ(x ) 

i 

Considérons les valeurs y j distinctes (ϕ n'étant pas forcément injective, on peut avoir 

ϕ(x ) = ϕ(x ) pour i ≠ i'). La famille { y / j ∈ J } est au plus dénombrable (en 

i i’ 

j 

particulier, si I est fini, J l’est aussi et on a cardJ ≤ cardI) 

Posons : q j = ∑ 

{i/ϕ(x ) = y } 

i 

j 

p i 

(somme finie ou non) 

La suite double (y 

j , q ) définit la loi de ϕ(X). 

j j∈J 

k Exemples : 

• On lance quatre fois une pièce honnête, en codant à chaque lancer le résultat 

obtenu par -1 si on obtient face et 1 si on obtient pile. X est la somme des quatre 

lancers. Trouver la loi de X, puis celle de Y = X 2 

. 

• Si X suit une loi géométrique G(p), on pose Y = 

Trouver la loi deY. 

⎩ ⎪ 

⎪⎧ 0 si X est impair 

⎪ 

⎨ X 

⎪ 

si X est pair 

2 


4 - Variable aléatoire continue (ou à densité) 


Définitions et proposition 2.4.1: 

• Soit une fonction f de R dans R ayant les propriétés suivantes : 

i) f est positive, 

ii) f est continue sauf peut-être en un nombre fini de points, 

+∞ 

iii) ∫ 

-∞ 

f(t) dt = 1. 

+∞ 

{ Remarque : On écrit ∫ 

-∞ 

x 

1 

f(t) dt = ∫ 

-∞ 

f(t) dt + ∫ 

où x < … < x sont les points de discontinuité de f. 

1 n 

L'existence de ∫ 

x 

1 

intégrales ∫ 

-∞ 

+∞ 

-∞ 


x 

2 

x 

1 

f(t) dt + … + ∫ 

+∞ 

x 

n 

f(t) dt 

f(t) dt est par définition équivalente à l'existence de chacune des 

f(t) dt , … , ∫ 

x 

i+1 

x 

i 

f(t) dt , … , ∫ 

+∞ 

x 

n 

f(t) dt. 

On se ramène ainsi aux cas d’intégration rappelés au chapitre 0. 

Une variable aléatoire X est dite absolument continue ou à densité s'il existe une 

fonction f ayant les trois propriétés ci-dessus telle que : 

pour tout réel x P(X ≤ x ) = ∫ 

f est une densité de probabilité de X. 

x 

-∞ 

f(t) dt 

• Réciproquement, on admettra que pour toute fonction f ayant les propriétés ci- 

dessus, il existe une variable aléatoire X définie sur un espace de probabilité 

(Ω, A, P) convenable, et admettant la fonction f pour densité. 

k Exemples : 

- f(x) = 1 (x) : X suit une loi (continue) uniforme sur l’intervalle [0, 1]. 

[0, 1] 

1 

- f(x) = 

b-a 

1 (x) : X suit une loi (continue) uniforme sur l’intervalle [a, b]. 

[a, b] 

- f(x) = λ e -λx 1 (x) : X suit une loi exponentielle de paramètre λ (λ > 0). 

R+ 

-2 ⎢x ⎢ 

- f(x) = e 

- f(x) = 

1 

2√⎺x 

1 (x) 

] 0, 1]

{ Remarque 1 : La condition ii) que l'on impose à une densité peut être allégée. On a 

donné cette formulation ici parce qu'elle est réalisée dans tous les cas classiques, et 

qu'elle est adaptée aux connaissances en intégration des étudiants abordant ce cours. 

{ Remarque 2 : La densité de probabilité de X n'est pas unique. Toute fonction égale 

à f sauf en un nombre fini de points est aussi une densité de probabilité de X. En 

général, on choisit pour f une version “la plus continue possible”, mais même cette 

condition ne suffit pas à assurer l’unicité. 

{ Remarque 3 : Interprétation géométrique en repère orthonormé : si f est une 

densité de probabilité, son graphe est situé au-dessus de l’axe des abscisses, et l’aire 

comprise entre cet axe et le graphe est égale à 1. 

b) Fonction de répartition d'une variable aléatoire à densité 

Théorème 2.4.2 : 

Si X est une variable aléatoire de densité f, sa fonction de répartition F X 

par : ∀ x ∈ R F (x) = ∫ f(t) dt 

X 

-∞ 

x 

est définie 

Cette fonction de répartition est continue, elle est continûment dérivable sauf peut- 

être en un nombre fini de points, et on a : 

Réciproque : (admise) 

F' (x) = f(x) en tout point x où f est continue. 

X 

Si X a une fonction de répartition F X 

continue sur R, de classe C 1 sauf en un nombre 

fini de points, alors X est une v.a. à densité. Toute fonction f positive sur R qui ne 

diffère de F' qu’en un nombre fini de points est une densité de X. 

X 

On obtient donc la densité d'une v.a. absolument continue en dérivant sa fonction de 

répartition en tout point où cela est possible. 


Si X est une v.a. à densité, pour tout réel x, P(X = x) = 0 

L'événement (X = x) est quasi-impossible. La probabilité que X soit égale à une 

valeur fixée x est toujours nulle, mais on peut calculer la probabilité que X soit à 

valeurs dans un intervalle aussi petit soit-il, "proche" de x. 

On écrit de manière formelle : 

P(x < X ≤ x + dx) = f(x) dx en tout point x où f est continue. 


Conséquence 2.4.4 : 

Si a et b sont deux réels tels que a 

P(a < X ≤ b ) = P(a < X 


b 

a 

f(t) dt 

Autrement dit, dans le cas d’une loi continue, contrairement à ce qui se passe dans le 

cas d’une loi discrète, on n’a pas besoin d’être pointilleux sur la distinction entre 

inégalités strictes et inégalités larges. 

c) Variable aléatoire ϕϕ(X) 

On a vu que si X est discrète et si ϕ est une fonction quelconque définie sur X(Ω), 

alors U = ϕ(X) est une variable aléatoire. 

Si X est une variable à densité, il n'est plus vrai que pour toute fonction ϕ 

l'application ϕ(X) soit une variable aléatoire, mais on admettra que c’est vrai si ϕ est 

une fonction continue (ou continue par morceaux) sur un intervalle I contenant X(Ω). 

Mais même alors, la v.a. ϕ(X) n’est pas toujours une v.a. à densité (prendre par 

exemple ϕ = constante). 

Le théorème ci-dessous donne une condition suffisante pour que ϕ(X) ait une 

densité. 


Soit X une variable aléatoire dont la densité f est nulle en dehors d’un intervalle I, et 

soit ϕ une fonction continûment dérivable sur I, et dont la dérivée ne s'annule pas (ce 

qui implique en particulier que ϕ est bijective de I sur ϕ(I)). 

Alors U = ϕ(X) est une variable aléatoire à densité. 

Pour calculer la densité g de ϕ(X), deux méthodes possibles : 

• Méthode 1 : Méthode dite "de la fonction muette" 

Cette méthode se généralise facilement à la dimension n ≥ 2. Elle repose sur le 

théorème suivant (admis) : 


Pour qu'une variable aléatoire X admette une fonction f pour densité, il faut et il 

suffit que pour toute fonction h continue bornée sur R, on ait : 

+∞ 

E[h(X)] = ∫ 

-∞ 

h(t) f(t) dt 

h est quelconque, d'où le nom de "fonction muette".

Pour déterminer une densité de U, on cherche donc une fonction g telle que, pour 

toute fonction h continue bornée sur R, on ait : 

+∞ 

E[h(U)] = ∫ 

-∞ 

Or E[h(U)] = E[h(ϕ(X)] = E[hoϕ(X)] = ∫ 

h(u) g(u) du 

+∞ 

-∞ 

hoϕ(t) f(t) dt = ∫ 


+∞ 

-∞ 

h(ϕ(t)) f(t) dt 

Sous les hypothèses du théorème 2.4.5, le changement de variable u = ϕ(t) dans cette 

intégrale permet d'obtenir une expression de g : 

g(u) = 

⎧ 

⎪ 

⎪ 

⎨ 

⎪ 

⎪ 

⎩ 

f (ϕ -1 

(u)) ⎢(ϕ -1 

)’(u) ⎢ = 

0 sinon 

f (ϕ -1 

(u)) 

⎢ϕ'(ϕ -1 

(u))⎢ 

si u ∈ ϕ(I) 

{ Remarque : Plutôt que d'apprendre par coeur cette formule, on peut sur des 

exemples concrets la redémontrer "à la main". 

• Méthode 2 : Utilisation de la fonction de répartition 

Cette méthode est simple à utiliser en dimension 1. On calcule la fonction de 

répartition de U, et on la dérive pour avoir la densité. Sous les hypothèses du 

théorème 2.4.5, la fonction de répartition de ϕ(X) est effectivement de classe C 1 

par 

morceaux. 

Cette méthode est utilisable aussi dans certains cas où ϕ n'est pas bijective. 

La fonction ϕ étant de classe C 1 est en particulier continue ; or l'image d'un intervalle 

par une fonction continue est un intervalle, donc ϕ(I) est un intervalle (α, β) (avec 

éventuellement α = -∞ et β = +∞) 

Si la dérivée ϕ’ ne s’annule pas sur I, elle garde un signe constant (puisqu’une 

fonction continue qui change de signe sur un intervalle s’annule nécessairement 

d’après le théorème des valeurs intermédiaires). 

Supposons pour fixer les idées ϕ’ > 0, ϕ est alors continue strictement croissante sur I, 

donc elle admet une application réciproque ϕ -1 définie de l’intervalle ϕ(I) sur I, elle 

aussi strictement croissante. 

On écrit donc : ∀ u ∈ R F U (u) = P(U ≤ u) = P(ϕ(X) ≤ u) 

- si u ∈ ϕ(I) : P(ϕ(X) ≤ u) = P(X ≤ ϕ -1 (u)) = F X (ϕ -1 (u)) 

On obtient ainsi une fonction de u que l'on dérive. 

- si u ∉ ϕ(I) : • ou bien u = α ou β (dans le cas où ϕ(I) n'est pas fermé), on peut poser 

arbitrairement g(u) = 0 en ces deux points 

• ou bien u < α or P(U ≤ t) = 0 pour t < α 

• ou bien u > β, or P(U ≤ t) = 1 pour t > β 

Dans ces deux cas F U est constante au voisinage de u, et on trouve par dérivation 

F ‘(u) = 0. 

U

Le cas ϕ’ < 0 se traite de manière analogue, avec les adaptations nécessaires pour le 

sens des inégalités. 

{ Remarques : 

• Le résultat reste vrai si la dérivée ϕ' s'annule en un nombre fini de points x sans 

i 

changer de signe. Aux points u i 

(par exemple en posant g(u ) = 0). 

i 

= ϕ(x ), on pourra définir g de manière arbitraire 

i 

• Pour utiliser cette méthode, il n'est pas nécessaire que ϕ soit bijective : il suffit que 

la condition ϕ(X) ≤ u se traduise de manière équivalente en une condition sur X telle 

que l'on obtienne ainsi une fonction de u dérivable (voir ci-dessous ϕ(X) = X 2 

). 

k Exemples : 

Soit X une variable aléatoire de densité f. On pose : 

T = aX + b (a et b réels, a ≠ 0) 

U = X 3 

V = X 2 

Calculer en fonction de f les densités de T, U et V. 

{ Remarque : Il se peut que ϕ(X) ne soit définie que presque sûrement. On parle 

alors tout de même de la v.a. ϕ(X). 

Par exemple, si X suit une loi continue uniforme sur [0, 1], on peut définir presque 

1 

sûrement la variable aléatoire Y = 

X 

puisque P(X = 0) = 0. 


5 - Moments d'une variable aléatoire 

a) Espérance mathématique 


• Soit X une v.a. discrète finie de loi (x , p ) . 

i i 

1≤i≤n 

On appelle alors espérance ou moyenne de X le réel défini par : 

n 

E(X) = ∑ 

i=1 

n 

x i p i = ∑ 

i=1 

x i P(X = x i ) 

• Soit X une v.a. discrète dénombrable de loi (x , p ) . 

i i 

i∈N 

On suppose que la série de terme général (x i p i ) est absolument convergente. 

On appelle espérance ou moyenne de X le réel défini par : 

+∞ 

E(X) = ∑ 

i=0 

+∞ 

x i p i = ∑ 

i=0 

x i P(X = x i ) 

L'hypothèse d'absolue convergence assure qu'il n'y a dans cette définition aucune 

ambiguité liée à la numérotation des x i . 

• Soit X une v.a. de densité f, telle que ∫ 

+∞ 

-∞ 

⎢t ⎢ f(t) dt converge. 

On appelle espérance ou moyenne de X le réel défini par : 

+∞ 

E(X) = ∫ 

-∞ 

t f(t) dt 

* Attention ! Si X est une v.a. discrète finie ou une v.a. admettant une densité 

continue sur un segment [a, b] et nulle en dehors de [a, b], l'espérance de X existe 

toujours. Par contre certaines v.a. discrètes dénombrables et certaines v.a. à densité 

n’ont pas d’espérance. 

k Exemples : 

Les v.a. suivantes ont-elles une espérance ? Si oui, la calculer. 

1 

• v.a. discrète telle que X(Ω) = N* et P(X = i) = pour i ≥ 1 

i(i+1) 

-2 ⎢x ⎢ 

• v.a. uniforme, exponentielle, de densité f(x) = e 

• v.a. suivant une loi de Cauchy 



Si E(X) = 0, on dit que la v.a. X est centrée. 


• Si X = a (constante), X a une espérance et E(X) = a . 

• ∀ A ∈ A 1 a une espérance et E(1 ) = P(A) 

A 

A 

• Si X a une espérance, ∀λ∈R λX a une espérance et E(λX) = λ E(X) 

• Si X et Y ont une espérance , X+Y a une espérance et E(X+Y) = E(X) + E(Y) 

(cette propriété est provisoirement admise) 

On résume les deux propriétés ci-dessus en disant que l'ensemble des v.a. discrètes 

qui ont une espérance (pour une probabilité donnée) est un espace vectoriel réel, sur 

lequel l'espérance définit une forme linéaire. 

• Si E(X) = m, la v.a. Y = X - m est centrée. 

• X ≥ 0 ⇒ E(X) ≥ 0 et X ≤ Y ⇒ E(X) ≤ E(Y) 

L'espérance est une forme linéaire positive (ou croissante). 

{ Remarque : Les v.a. discrètes forment un sous-espace vectoriel de l’espace vectoriel 

des v.a. définies sur un espace de probabilité (Ω, A, P), mais ce n’est pas le cas des v.a. 

à densité. 

Théorème 2.5.4 : Théorème dit “de transfert” (admis) 

• version “discrète” 

Soit une variable aléatoire discrète X de loi (x 

i , p ) 

i i∈I 

La v.a. discrète ϕ(X) a une espérance si et seulement si la série ∑ 

absolument convergente, et on a : E[ϕ(X)] = ∑ 


i∈I 

ϕ(x ) p 

i i 

i∈I 

ϕ(x ) p 

i i 

Dans le cas où I est fini, la condition d’existence est évidemment toujours réalisée. 

• version “continue” 

Soit X une v.a. de densité f, soit ϕ une fonction continue (ou continue par morceaux) 

sur un intervalle contenant X(Ω). Alors la v.a. ϕ(X) a une espérance si et seulement si 

+∞ 

l’intégrale ∫ 

-∞ 

⎢ϕ(t) ⎢ f(t) dt converge, et on a : E[ϕ(X)] = ∫ 

+∞ 

-∞ 

ϕ(t) f(t) dt 

Dans le cas où f est continue sur un segment [a, b], et nulle en dehors de [a, b], la 

condition d’existence est automatiquement réalisée. 

{ Remarque : L'intérêt de ce théorème est de calculer directement l'espérance de ϕ(X) 

à partir de la loi de X, sans chercher auparavant la loi de ϕ(X). 

est

) Variance et écart-type 


Soit X une v.a. discrète admettant une espérance m. 

Si la v.a. (X - m) 2 

a une espérance, on appelle variance de X le réel défini par : 

var(X) = E [(X - m) 2 

] . 

cas discret : var(X) = ∑ 

i∈I 

(x - m) 

i 2 

p (somme finie ou non) 

i 

sous réserve, dans le cas dénombrable, que la série ci-dessus soit convergente. 

+∞ 

cas continu : var(X) = ∫ 

-∞ 

(t -m) 2 

f(t) dt 

sous réserve que l’intégrale ci-dessus soit convergente. 

Théorème 2.5.6 (de Koenig-Huygens) : 

{ Remarque : 

var(X) = E(X 2 

) - [E(X)] 2 

C'est cette formule que l'on utilise usuellement pour calculer la variance. 

k Exemples : 

• Soit X une v.a. à valeurs dans N*, dont la loi est définie par : 

P(X = i) = 

a 

i(i+1)(i+2) 

a) Déterminer la constante a. 

pour i ≥ 1. 

b) Calculer l'espérance et la variance de X si elles existent. 

• variance d’une v.a. uniforme, exponentielle 

• variance d’une v.a. de densité x → f(x) = 

(loi de Pareto à deux paramètres (2, 1)) 


• La variance est toujours positive. 

2 

x 3 1 (x)) 

[1,+∞[ 

• La variance est quadratique : ∀ λ ∈ R var(λX) = λ 2 

var(X) 

• La variance est inchangée par translation : ∀ µ ∈ R var(X + µ) = var(X) 

• On a donc : ∀ λ ∈ R ∀ µ ∈ R var(λX + µ) = λ 2 

var(X) 

Définitions et propriété 2.5.8 : 


• √⎺⎺⎺⎺⎺ var(X) se note σ et s'appelle l'écart-type de X. 

L'écart-type d'une variable aléatoire sert à mesurer la dispersion de cette variable 

autour de sa moyenne. Il s’exprime dans la même unité que X. 

• Si var(X) = 1, on dit que la v.a. X est réduite. 

X - m 

Lorsque X est une v.a. d'espérance m et d'écart-type σ, la v.a. Y = 

σ 

réduite. 

c) Moments d'ordre r 


Soit X une v.a., et soit r un entier naturel ≥ 1. On suppose que m = E(X) existe. 

est centrée 

On appelle moment d'ordre r (respectivement moment centré d'ordre r) de X le réel 

E(X r 

) (respectivement E[(X - m) r 

] . 

cas discret : E(X r 

) = ∑ 

i∈I 

x i 

r 

p i 

et E[(X - m) r 

] = ∑ 


i∈I 

(x - m) 

i 

r 

sous réserve bien entendu que les séries ci-dessus soient absolument convergentes 

dans le cas dénombrable. 

cas continu : E(X r 

+∞ 

) = ∫ 

-∞ 

t r 

f(t) dt et E[(X - m) r 

+∞ 

] = ∫ 

-∞ 

p i 

(t - m) r 

f(t) dt 

sous réserve que les intégrales ci-dessus soient absolument convergentes dans le cas 

d'une "vraie" intégrale généralisée.. 


• L'existence du moment d'ordre r entraîne l'existence des moments d'ordre 

inférieur. 

r-1 

Ceci se démontre par récurrence descendante à partir de l'inégalité t 

• L'espérance est le moment d'ordre 1. 

• La variance est le moment centré d'ordre 2. 

r 

≤ t + 1 

vraie pour t ≥ 0. 

• L'existence du moment d'ordre r équivaut à l'existence du moment centré d’ordre 

r. En particulier, l’existence du moment d'ordre 2 équivaut à l'existence de la 

variance. 

{ Remarque : Les moments d'une v.a. (s’ils existent) ne dépendent que de sa loi. 

Deux v.a. équidistribuées (= qui ont même loi) auront mêmes moments, et en 

particulier même espérance et même variance. La réciproque est fausse en général.

d) Fonction génératrice des moments 


Soit X une variable aléatoire réelle. On considère l'application : 

t → E(e tX ) = 

⎧ ∑ 

⎪ 

⎨ 

⎪ 

⎩ 

i 

+∞ 

∫ 

-∞ 

e tx i pi 

(d'après le théorème de transfert) 

Cette application est définie au moins pour t = 0. 

si X est une variable discrète 

e tx f(x) dx si X est une variable de densité f 

Si elle est définie sur un voisinage de 0 (c'est-à-dire définie au moins sur un intervalle 

] -α, α [ avec α > 0), on l'appelle fonction génératrice des moments de X et on la note : 

t → M (t) = E(e 

X 

tX ) 

Si l'application t → E(e tX ) n'est pas définie sur un voisinage de 0, on dit que la 

fonction génératrice des moments de X n'existe pas. 

{ Remarque : 

Dans les cas suivants la fonction génératrice des moments existe et est définie sur R : 

- X est une v.a. discrète finie ; 

- X est une v.a. admettant une densité continue sur un segment [a, b] et nulle en 

dehors de [a, b]. 

k Exemples : 

Calculer la fonction génératrice des moments de X si elle existe dans les cas suivants : 

- X suit la loi binômiale B(n, p) 

- X suit loi géométrique G(p) 

- X suit la loi exponentielle E(λ) 

L'intérêt majeur de la fonction génératrice des moments apparaît dans le théorème 

ci-dessous, qui permet d'établir certains résultats importants en évitant des calculs 

laborieux (voir chapitre 4) : 

Théorème 2.5.12 : (admis) 

Soient X et Y deux variables aléatoires telles que leurs fonctions génératrices des 

moments existent. 

Si M (t) = M (t) sur un voisinage de 0, alors X et Y ont même loi. 

X Y 

Autrement dit, lorsqu'elle existe, la fonction génératrice des moments caractérise la 

loi de X. 

Un autre intérêt de la fonction M X 

est de permettre de retrouver les moments de X, 

(d'où son nom), avec dans certains cas des calculs plus simples que les calculs directs : 



Soit X une variable aléatoire telle que la fonction génératrice des moments M X existe. 

• L'espérance de X existe si et seulement si la fonction M est dérivable en 0, et on a : 

X 

E(X) = M' (0) 

X 

• Plus généralement, le moment d'ordre r de X existe si et seulement si la fonction 

M est r fois dérivable en 0, et on a : 

X 

E(X r 

(r) 

) = M (0) 

X 

En particulier, si la fonction M X 

donnée par : 

var(X) = M" (0) - [M' (0)] 

X X 

2 

est 2 fois dérivable en 0, X admet une variance, 

La fonction génératrice des moments a l'inconvénient de ne pas être toujours définie 

(même si elle existe pour les lois classiques) ; il existe une autre fonction ayant des 

propriétés analogues (elle caractérise la loi de X et permet de calculer ses moments 

s'ils existent) et qui, elle, est toujours définie sur R, mais est à valeurs complexes. 

C'est la fonction caractéristique de X, définie par : 

t → Φ(t) = E(e itX ) 


6 - Les lois normales ou de Laplace-Gauss 

a) Variable gaussienne centrée réduite 


La variable aléatoire réelle X est une variable gaussienne (ou normale) centrée 

réduite si elle a pour densité la fonction f : x → ϕ(x) = 

On note : X ~ N(0, 1) 

Proposition 2.6.2 : On a les égalités suivantes : 

• 

1 

√⎺⎺2π 

• E(X) = 

• 

+∞ 

∫ 

-∞ 

E(X 2 

) = 

- x 

e 

2 /2 

1 

√⎺⎺2π 

1 

√⎺⎺2π 

+∞ 

∫ 

-∞ 

dx = 1 

- x 

x e 

2 /2 

+∞ 

2 

∫ x 

-∞ 

- x 

e 

2 /2 

(admise provisoirement) 

dx = 0 

dx = 1 


1 

√⎺⎺2π 

d'où var(X) = 1 

- x 

e 

2 /2 

• Plus généralement, une v.a. gaussienne centrée réduite admet des moments de 

tous ordres, les moments d’ordre impair étant nuls. 

Propriétés 2.6.3 : Fonction de répartition de la loi N(0, 1) : 

On note usuellement Φ cette fonction de répartition : Φ(x) = ∫ 

x 

-∞ 

1 

√⎺⎺2π 

- t 

e 

2 /2 

Il n'existe pas d'expression explicite de Φ autre que sous cette forme d'une intégrale. 

• Elle est tabulée pour les valeurs de x positives. 

• On a pour tout réel x, Φ(-x) = 1 - Φ(x) , ce qui permet de calculer Φ(x) pour les 

valeurs de x négatives. 

• Pour tout x ≥ 0 P(⎢X ⎢≤ x) = 2 Φ(x) -1 

P(⎢X ⎢> x) = 2 [1 - Φ(x)] 

• La lecture de la table nous permet en particulier d'affirmer : 

P(⎢X ⎢> 1, 96) = 0, 05 et P(⎢X ⎢> 2, 6) = 0, 01 

ce qui montre qu'une variable gaussienne réduite est très concentrée autour de 0 qui 

est sa valeur moyenne. 

dt

Proposition 2.6.4 : Fonction génératrice des moments de la loi N(0, 1) : 

La fonction génératrice des moments de la loi normale centrée réduite est définie sur 

R par : ∀ t ∈R M (t) = e 

X 

t2 /2 

b) Variable gaussienne réelle 

Définition 2.6.5 : La variable aléatoire réelle X définie sur un espace de probabilité 

(Ω, A, P) est une variable gaussienne si elle peut s'écrire X = aU + b, où U est une 

variable gaussienne centrée réduite, et a et b sont des réels. 

{ Remarque : Avec cette définition, une variable constante (cas a = 0) est considérée 

comme un cas particulier de variable gaussienne. On dit alors que cette variable est 

dégénérée. 


Une variable gaussienne admet des moments de tous ordres. 

On a en particulier : E(X) = b et var(X) = a 2 

. 


Soit X une v.a. d'espérance m et de variance σ 2 

non nulle. 

Les propriétés suivantes sont équivalentes : 

i) X est gaussienne d'espérance m et de variance σ 2 

. 

ii) 

X - m 

σ 

On note : X ~ N(m, σ 2 

) 

est gaussienne centrée réduite. 

L’intérêt de ce théorème est de permettre de calculer la fonction de répartition de 

n’importe quelle loi gaussienne à partir de la table de la fonction de répartition de la 

loi N(0, 1). 

En effet, pour tout réel x : 

k Exemple : 

F (x) = P(X ≤ x) = P( 

X 

X - m 

σ ≤ 

x - m x - m 

σ 

) = Φ( 

σ ) 

Si X suit une loi N(-1, 4), pour quelles valeurs de x a-t-on P(X ≤ x) ≥ 3/4 ? 


Proposition 2.6.8 : Densité d'une variable gaussienne : 

Une densité d'une variable gaussienne non dégénérée d'espérance m et de variance 

σ 2 

est définie par : 

x → f(x) = 

1 

√⎺⎺2π σ 

On a donc les égalités suivantes : 

• 

• 

• 

1 

√⎺⎺2π σ 

1 

√⎺⎺2π σ 

1 

√⎺⎺2π σ 

+∞ 

∫ 

-∞ 

-∞ 

- (x-m) 

e 

2 /2σ 2 

- (x-m) 

e 

2 /2σ 2 

dx = 1 

+∞ 

- (x-m) 

∫ x e 

2 /2σ 2 

dx = m E(X) = m 

+∞ 

∫ 

-∞ 

2 - (x-m) 

(x-m) e 

2 /2σ 2 

dx = σ 2 

var(X) = σ 2 

Il faut bien connaître ces formules qui interviennent souvent dans les calculs 

gaussiens. 

{ Remarque : une loi normale est totalement connue si on a ses deux premiers 

moments, ce qui justifie la notation. 

Proposition 2.6.9 : Fonction génératrice des moments de la loi N(m, σ 2 ) : 

La fonction génératrice des moments de la loi normale N(m, σ 2 ) est définie sur R par 

: ∀ t ∈R M (t) = e 

X 

tm + t2σ 2 /2 

Les variables gaussiennes jouent un très grand rôle en probabilités-statistiques. 

On les utilise pour modéliser des phénomènes qui fluctuent symétriquement autour 

de leur moyenne. 

Elles apparaissent aussi dans de nombreux calculs approchés, en application du 

théorème fondamental de la statistique, appelé théorème de la limite centrale. 

(Ce théorème dit que sous de bonnes hypothèses, une somme de n variables 

aléatoires de même loi suit approximativement, quelle que soit cette loi, une loi 

normale si n est grand : voir le chapitre sur les convergences). 


7 - Les lois usuelles 

Pour chaque loi est indiquée la définition, espérance et variance si elles existent. La 

fonction génératrice des moments n'est mentionnée que si elle est utilisée en 

pratique. 

a) Lois discrètes finies 

• Loi certaine : 

X est une v.a. quasi-certaine si elle est presque sûrement constante ( = constante sauf 

peut-être sur un événement de probabilité nulle) 

∃ a ∈ R P(X = a) = 1 

E(X) = a var(X) = 0 

Réciproquement : Toute v.a. dont la variance est nulle est quasi-certaine. 

• Loi discrète uniforme : X ~ U n 

X suit une loi discrète uniforme sur [[1, n]] si : 

⎪⎧ X(Ω) = [[1, n]] 

⎪ 

⎨ 

1 

⎪ 

∀ k ∈ [[1, n]] P(X = k) = 

⎪ 

⎩ 

n 

E(X) = 

n+1 

2 

var(X) = 

• Loi de Bernoulli : X ~ B(1, p) 

n 2 

-1 

X suit une loi de Bernoulli de paramètre p (0 

⎧ X(Ω) = {0, 1} 

⎨ 

⎩P(X 

= 1) = p et P(X = 0) = 1-p 

E(X) = p var(X) = pq en posant q = 1-p 

12 

Fonction génératrice des moments : D MX 

k Exemple : 

t 

= R ∀ t ∈R M (t) = pe + q 

X 

On utilise une variable de Bernoulli pour modéliser le résultat d'une expérience 

aléatoire à deux issues (succès ou échec), en posant X = 1 en cas de succès et X = 0 

sinon. 


• Loi binômiale : X ~ B(n, p) 

X suit une loi binômiale de paramètres n et p (n entier, 0 

⎪⎧ 

X(Ω) = [[0, n]] 

⎪ 

⎨ 

⎪ 

k k 

∀ k ∈ [[0, n]] P(X = k) = C p 

⎪ 

⎩ 

n 

q n-k 

E(X) = np var(X) = npq en posant q = 1-p. 

Fonction génératrice des moments : D MX 

Pour n = 0, X est la variable certaine égale à 0. 

t 

= R ∀ t ∈R M (t) = (pe + q)n 

X 

Pour n = 1, on retrouve la loi de Bernoulli B(1, p) , ce qui justifie la notation. 

k Exemple 1 : 

On tire avec remise n fois dans une population comportant un proportion p 

d'individus ayant une caractéristique donnée. La variable aléatoire égale au nombre 

d'individus de l'échantillon ayant cette caractéristique suit une loi binômiale de 

paramètres n et p. 

k Exemple 2 : 

On répète n fois de manière indépendante une expérience aléatoire à deux issues 

(succès avec probabilité p ou échec avec probabilité 1-p). 

La variable aléatoire égale au nombre de succès obtenus suit une loi binômiale de 

paramètres n et p. 

• Loi hypergéométrique : X ~ H(N, n, p) 

X suit une loi hypergéométrique de paramètres N, n et p (N et n entiers non nuls, 0 < 

p < 1 tel que Np soit entier) si : 

X(Ω) 1 [[0, n]] 

⎪ 

⎧ 

⎪ 

⎨ 

⎪ 

⎪ 

⎩ 

∀ k ∈ [[0, n]] P(X = k) = 

k 

C 

Np 

C 

N 

C 

Nq 

en posant q = 1-p , et avec la convention C 

M 

k Exemple : 

N-n 

E(X) = np var(X) = npq 

N-1 

n 


j 

n - k 

= 0 si jM. 

On tire sans remise n fois dans une population comportant N individus dont une 

proportion p a une caractéristique donnée. La variable aléatoire égale au nombre 

d'individus de l'échantillon ayant cette caractéristique suit une loi hypergéométrique 

de paramètres N, n et p.

) Lois discrètes dénombrables 

• Loi géométrique : X ~ G(p) 

X suit une loi géométrique de paramètre p (0 

⎧ 

⎪ X(Ω) = N* 

⎨ 

⎪ 

k-1 en posant q = 1-p 

∀ k ∈ N* P(X = k) = p q 

⎩ 

1 

E(X) = 

p 

var(X) = 

q 

p 2 

Fonction génératrice des moments : 

D MX 

= ] -∞, - lnq [ ∀ t < - lnq M (t) = 

X 

k Exemple : Temps d'attente du premier succès. 


pe t 

1 - qe t 

On répète de manière indépendante une expérience aléatoire à deux issues (succès 

avec probabilité p ou échec avec probabilité q). La variable aléatoire égale au rang 

d'apparition du premier succès suit une loi géométrique de paramètre p. 

• Loi de Poisson : X ~ P(λ) 

X suit une loi de Poisson de paramètre λλλλ ( λ > 0) si : 

⎧ 

⎪ X(Ω) = N 

⎪ 

⎨ 

⎪ 

⎪∀ 

k ∈ N P(X = k) = e 

⎩ 

-λ 

λ k 

k! 

E(X) = λ var(X) = λ 


D MX 

= R ∀ t ∈R M (t) = e 

X 

λ(et - 1) 

La loi de Poisson est souvent utilisée en probabilité pour modéliser toute une série 

de phénomènes aléatoires : 

- le nombre d'appels reçus à un standard téléphonique pendant une période donnée, 

- le nombre de clients se présentant à un guichet pendant une période donnée, 

- le nombre d'oeufs pondus par certains insectes, etc … 

Cette loi apparaît aussi comme loi limite de la loi binômiale B(n, p n ) lorsque n tend 

vers +∞ et (np n ) tend vers λ.

c) Lois continues 

• Loi continue uniforme sur l’intervalle [0, 1] : X ~ U [0, 1] 

X suit une loi (continue) uniforme sur [ 0, 1 ] si elle a pour densité : 

x → f(x) = 1 [0, 1] (x) 

1 

E(X) = 

2 

1 

var(X) = 

12 

Les v.a. de loi continue uniforme sur [0, 1] sont très utilisées en simulation. 

• Loi continue uniforme sur l’intervalle [a, b] : X ~ U [a, b] 

X suit une loi (continue) uniforme sur [ a, b ] si elle a pour densité : 

x → f(x) = 

a+b 

E(X) = 

2 

1 

b-a 

1 [a, b] (x) 

• Loi exponentielle : X ~ E(λ) 

(b-a) 

(moyenne des valeurs extrêmes) var(X) = 

2 

12 

X suit une loi exponentielle de paramètre λλλλ (λ > 0) si elle a pour densité : 

x → f(x) = λ e -λx 1 (x) 

R+ 

E(X) = 

1 

λ 

var(X) = 

1 

λ 2 


D MX 

= ] -∞, λ [ ∀ t < λ M (t) = 

X 

• Loi Gamma : X ~ G(a, θ) 

λ 

λ - t 

X suit une loi Gamma de paramètres a et θθθθ (a > 0 et θ > 0) si elle a pour densité : 

x → f(x) = 

1 

xa-1 

a 

Γ(a) θ 

E(X) = a θ var(X) = a θ 2 


1 

1 

D = ] -∞, [ ∀ t < 

MX θ θ M 1 

(t) = 

X 

(1 - θt) a 

e -x/θ 1 (x) où Γ(a) = ∫ 

R+ 

0 


+∞ 

x a-1 

e -x 

dx 

1 

{ Remarque : La loi exponentielle de paramètre λ est une loi Gamma G (1, 

λ ).

• Loi normale ou de Laplace-Gauss : X ~ N(m, σ 2 ) 

X suit une loi normale centrée réduite N(0, 1) si elle a pour densité : 

x → f(x) = 

1 

√⎺⎺2π 

- x 

e 

2 /2 

E(X) = 0 var(X) = 1 


D MX 

= R ∀ t ∈R M (t) = e 

X 

t2 /2 

X suit une loi normale N(m, σ 2 

) si sa densité f est : 

x → f(x) = 

1 

√⎺⎺2π σ 

E(X) = m var(X) = σ 2 

- (x-m) 

e 

2 /2σ 2 


D MX 

= R ∀ t ∈R M (t) = e 

X 

tm + t2σ 2 /2 

• On rencontre un certain nombre d'autres lois dont on peut trouver les 

caractéristiques dans des livres standard de Probabilités : 

n 

- loi du chi-2 à n degrés de liberté (c’est une loi Gamma G( , 2), n entier ≥ 1), 

2 

- loi de Student-Fisher, 

(ces deux lois sont utilisées en statistiques pour l’estimation et les tests) 

- loi log-normale, 

- loi Bêta, 

- loi de Cauchy, 

- loi de Pareto 

(utilisée en économie pour des modèles de répartition de revenus), 

etc … 


FONCTION DE REPARTITION DE LA LOI NORMALE CENTREE REDUITE 

X ∼ N(0,1) 

Φ(x) = P(X ≤ x) 

x 0, 00 0, 01 0, 02 0, 03 0, 04 0, 05 0, 06 0, 07 0, 08 0, 09 

0, 0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359 

0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753 

0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141 

0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517 

0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879 

0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224 

0, 6 0, 7257 0, 7290 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549 

0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852 

0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133 

0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389 

1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621 

1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830 

1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015 

1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177 

1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319 

1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441 

1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545 

1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633 

1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706 

1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767 

2, 0 0, 9772 0, 9779 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817 

2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857 

2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890 

2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916 

2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936 

2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952 

2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964 

2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974 

2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981 

2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986 

Table pour les grandes valeurs de x : 

x 3, 0 3, 1 3, 2 3, 3 3, 4 3, 5 3, 6 3, 8 4, 0 4, 5 

Φ(x) 0, 99865 0, 99904 0, 99931 0, 99952 0, 99966 0, 99976 0, 999841 0, 999928 0, 999968 0, 999997

Cours d' Anne-Marie Boussion

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?