Systèmes Dynamiques Notes du cours de M2

Systèmes Dynamiques 

Notes du cours de M2 

Raphaël KRIKORIAN 

Université Paris 6 

Année 2008-2009

Table des matières 

1 Quelques Notions de Dynamique 7 

1.1 Systèmes dynamiques . . . . . . . . . . . . . . . . . . . . . . . 7 

2 Dynamique Topologique 9 

2.1 Récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

2.2 Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.2.1 Minimalité . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.2.2 Transitivité . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.2.3 Mélange topologique . . . . . . . . . . . . . . . . . . . 13 

2.3 Décalages (ou shifts) . . . . . . . . . . . . . . . . . . . . . . . 13 

2.3.1 Shift de Bernoulli . . . . . . . . . . . . . . . . . . . . . 13 

2.3.2 Sous-shifts de type fini . . . . . . . . . . . . . . . . . . 14 

2.4 Application à la preuve du théorème de van der Waerden . . . 17 

3 Mesures Invariantes 21 

3.1 Ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.1.1 Premiers exemples . . . . . . . . . . . . . . . . . . . . 25 

3.2 Les Théorèmes ergodiques . . . . . . . . . . . . . . . . . . . . 27 

3.2.1 Le point de vue spectral et le théorème de Von Neumann 27 

3.2.2 Convergence presque sûre . . . . . . . . . . . . . . . . 29 

3.3 Liens avec la dynamique topologique . . . . . . . . . . . . . . 31 

3.3.1 Existence de mesures ergodiques . . . . . . . . . . . . . 31 

3.3.2 Points génériques . . . . . . . . . . . . . . . . . . . . . 33 

3.3.3 Unique ergodicité . . . . . . . . . . . . . . . . . . . . . 33 

3.4 Mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

4 Homéomorphismes et difféomorphismes du cercle 43 

4.1 Homéomorphismes du cercle . . . . . . . . . . . . . . . . . . . 43 

4.1.1 Forme des relevés d’un homéomorphisme du cercle . . . 43 

4.1.2 Nombre de rotation . . . . . . . . . . . . . . . . . . . . 45 

4.1.3 Le théorème de Poincaré . . . . . . . . . . . . . . . . . 48 

3

4 TABLE DES MATIÈRES 

4.2 Difféomorphismes du cercle . . . . . . . . . . . . . . . . . . . . 51 

4.2.1 Rappels sur les fractions continues . . . . . . . . . . . 51 

4.2.2 Théorème de Denjoy . . . . . . . . . . . . . . . . . . . 54 

4.2.3 Contre-exemples de Denjoy . . . . . . . . . . . . . . . 56 

4.2.4 Le Théorème d’Herman-Yoccoz . . . . . . . . . . . . . 57 

4.2.5 Théorème d’Arnold . . . . . . . . . . . . . . . . . . . . 57 

5 Hyperbolicité 59 

5.1 Point fixe hyperbolique d’un difféomorphisme . . . . . . . . . 59 

5.2 Stabilité structurelle des automorphismes du tore . . . . . . . 63 

5.2.1 Forme des homéomorphismes du tore . . . . . . . . . . 63 

5.2.2 Conjugaison topologique . . . . . . . . . . . . . . . . . 64 

5.3 Variétés stables et instables . . . . . . . . . . . . . . . . . . . 65 

6 Théorie spectrale 69 

6.1 Le théorème spectral . . . . . . . . . . . . . . . . . . . . . . . 70 

6.2 Transformations à spectre discret . . . . . . . . . . . . . . . . 72 

6.3 Mélange faible . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

6.4 Facteur de Kronecker . . . . . . . . . . . . . . . . . . . . . . . 77 

6.5 Couplages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

6.6 Mélange faible d’ordre supérieur . . . . . . . . . . . . . . . . . 79 

6.7 Argument de Hopf et Théorie spectrale . . . . . . . . . . . . . 80 

7 Entropie 83 

7.1 Entropie métrique . . . . . . . . . . . . . . . . . . . . . . . . . 83 

7.1.1 Entropie d’une partition finie . . . . . . . . . . . . . . 83 

7.1.2 Entropie d’une transformation . . . . . . . . . . . . . . 86 

7.1.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 91 

7.1.4 Théorème de Shannon . . . . . . . . . . . . . . . . . . 92 

7.1.5 Entropie d’un facteur, d’un produit et d’une puissance 94 

A Calcul différentiel 97 

A.1 Théorèmes du Point Fixe . . . . . . . . . . . . . . . . . . . . . 97 

A.1.1 Théorème du Point Fixe pour les applications contractantes 

. . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

A.2 Le théorème d’Inversion Locale et ses conséquences . . . . . . 100 

A.2.1 Difféomorphismes . . . . . . . . . . . . . . . . . . . . . 100 

A.2.2 Inversion locale . . . . . . . . . . . . . . . . . . . . . . 101 

A.2.3 Fonctions Implicites . . . . . . . . . . . . . . . . . . . 103 

A.2.4 Théorème du rang constant . . . . . . . . . . . . . . . 104 

A.3 Sous-variétés de R m . . . . . . . . . . . . . . . . . . . . . . . . 105

TABLE DES MATIÈRES 5 

A.3.1 Définition, exemples . . . . . . . . . . . . . . . . . . . 105 

A.3.2 Espace tangent . . . . . . . . . . . . . . . . . . . . . . 106 

A.3.3 Groupes et algèbres de Lie linéaires . . . . . . . . . . . 107 

A.3.4 Variétés . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6 TABLE DES MATIÈRES

Chapitre 1 

Quelques Notions de Dynamique 

1.1 Systèmes dynamiques 

Un système dynamique est la donnée d’un ensemble X (l’espace des 

phases) et d’un groupe G agissant sur X. Bien souvent ce groupe est Z et on 

dit que le système dynamique est discret ou R et on parle alors de système 

dynamique continu. On peut considérer cependant des dynamiques associées 

à des groupes de Lie, par exemple SL(2, R). On peut également considérer 

l’action de semi-groupes sur G et on parle de dynamiques non-inversibles. 

Une action du groupe Z sur X est équivalente à l’itération d’une application 

bijective f : X → X ; plus généralement l’itération d’une application 

f : X → X non nécéssairement injective est équivalente à l’action du semigroupe 

N sur X. Ces exemples seront les principaux sujets d’étude de ce 

cours. 

Une action de R sur X est équivalente à un groupe à un paramètre réel 

de bijections de X sur X. 

Pour obtenir des objets d’étude intéressants, il faut supposer que l’espace 

X et la dynamique sont munis de structure supplémentaires. 

Quand X est un espace muni d’une σ-algèbre B (et d’une mesure de probabilité 

µ ) et que f : X → X est une application mesurable, la dynamique est 

dite mesurable ; 

quand X est un espace topologique (muni d’une topologie U) et que l’action 

de Z est continue (ou l’application f : X → X est continue) on dit que l’on 

a à faire à un système dynamique topologique ; 

si X est une variété différentiable et f : X → X est de classe C k on dit que 

la dynamique est différentiable. 

L’objet de la théorie ergodique est l’étude des dynamiques mesurables. 

7

8 CHAPITRE 1. QUELQUES NOTIONS DE DYNAMIQUE 

Définition 1.1.1 Un système dynamique mesurable est la donnée d’un espace 

mesurable (X, B) et d’une application f : X → X mesurable : pour tout 

B ∈ B, f −1 (B) ∈ B. Si f est bijective et que f −1 est également mesurable on 

dit que la dynamique est inversible. 

Dans la pratique, nos espaces mesurables sont munis d’une mesure de 

probabilité µ. 

Définition 1.1.2 Un système dynamique mesuré est la donnée dun espace 

mesuré (X, B, µ) et d’une application f : X 1 → X 2 où X −X 1 et X −X 2 sont 

µ-négligeables, f est mesurable et préserve la mesure µ : pour tout B ∈ B, 

µ(f −1 (B)) = µ(B). Si f est bijective et que f −1 est également mesurable on 

dit que la dynamique est inversible. 

Exercice Soit S : R/Z définie par Sx = 2x. Montrer que S est bien définie 

et montrer que pour tout entier n, x = p/(2 n − 1) (0 ≤ p < 2 n − 1) est 

un point périodique de période n. (Il s’agit de démontrer que les points 

x, Sx, . . . , S n−1 x sont distincts, ce qui revient à démontrer que (2 b −1)/(2 a −1) 

n’est pas entier si a ne divise pas b ; on pourra faire la division euclidienne 

b = qa + r).

Chapitre 2 

Dynamique Topologique 

Dans ce qui suit X est un espace métrique compact et f : X → X est 

une application continue. 

Ensembles invariants Un ensemble A ⊂ X est dit invariant si f(A) ⊂ A, 

fortement invariant si f(A) = A et complètement invariant si f −1 (A) = A. 

Quand f est un homéomorphisme, ces notions coincident. 

2.1 Récurrence 

Point périodique Un point x ∈ X est périodique s’il existe n 0 ∈ N tel 

que f n 0 

(x) = x. Nous noterons P n (f) l’ensemble des points fixes de f n : c’est 

un compact ; de même nous noterons P (f) = ⋃ n∈N P n(f). 

Point récurrent 

Un point x est dit récurrent ssi 

inf d(x, f n (x)) = 0. 

n≥1 

Ensembles α et ω-limite Si x ∈ X, l’ensemble des points ω-limite de x est 

l’ensemble des y ∈ X qui sont points d’accumulation de la suite (f n (x)) n≥0 . 

Si f est inversible on définit également l’ensemble α-limite de x qui est l’ensemble 

des points d’accumulation de la suite (f n (x)) n≤0 . Si f est inversible, 

nous notons 

( ⋃ 

) 

L(f) = Adh ω(x) ∪ P ∪ α(x) . 

x∈X 

9

10 CHAPITRE 2. DYNAMIQUE TOPOLOGIQUE 

Point non errant Un point x 0 est dit errant ssi il existe un voisinage U 

de x 0 tel que pour tout n ≥ 1, f n (U) ∩ U = ∅ ; un point est non-errant s’il 

n’est pas errant. On note Ω(f) l’ensemble des points non errants. 

Point récurrent par chaînes Un point x est récurrent par chaîınes si 

et seulement si pour tout ɛ > 0 il existe une suite x i , 0 ≤ i ≤ n telle que 

x 0 = x = x n et telle que pour tout 0 ≤ i ≤ n − 1, on a d(x i+1 , f(x i )) ≤ ɛ. 

2.2 Irréductibilité 

2.2.1 Minimalité 

Notons F l’ensemble des compacts non-vides K ⊂ X qui sont f-invariants. 

Un compact K est dit minimal s’il est minimal dans F pour l’inclusion (si 

L ⊂ K avec L compact et f(L) ⊂ L alors L = K). On dit que X est minimal 

s’il ne contient aucun compact non vide invariant autre que lui-même. 

L’intérêt de cette notion réside dans la proposition suivante : 

Proposition 2.2.1 Un compact K ⊂ X est minimal ssi pour tout x ∈ K, 

Adh(f n (x)) n∈N = K. 

Démonstration.— Supposons que K soit minimal. Alors pour tout x ∈ K 

le compact Adh(f n (x)) n∈N = K est f-invariant non vide inclus dans K et 

égale donc K. Réciproquement si pour tout x ∈ K on a Adh(f n (x)) n∈N = K, 

alors si L ⊂ K est un compact invariant on a pour x ∈ L, et tout n ≥ 0, 

f n (x) ∈ L et partant K = Adh(f n (x)) n∈N ⊂ L c’est-à-dire L = K. 

Le principal rèsultat est : 

Théorème 2.2.1 Si (X, d) est un espace métrique compact et f : X → X 

est continue, il existe toujours un compact K ⊂ X minimal. 

✷ 

Démonstration.— 

Nous aurons besoin pour la preuve du lemme de Zorn 

Lemme 2.2.1 (Zorn) Si F est un ensemble muni d’une relation d’ordre, il 

existe un sous-ensemble totalement ordonné et maximal pour cette propriété. 

Ainsi, (F, ⊂) contient un sous-ensemble totalement ordonné maximal G. Le 

compact K = ∩ K∈G L est f-invariant et minimal. 

✷

2.2. IRRÉDUCTIBILITÉ 11 

Définition 2.2.1 On dit que f est minimale sur X ou que X est minimale 

pour f si X est f-minimal. 

Remarque : Si f est minimale et si X est infini alors f n’admet pas d’orbite 

périodique. 

Exemples : a) Soit X = R/Z le tore et f(x) = x + α. Montrons que 

f est minimale si et seulement si α /∈ Q/Z. Si α = p/q il est clair que 

tout point est périodique (f q (x) = x mod 1). Réciproquement supposons α 

irrationnel : alors la suite nα est dense sur T. En effet, la suite nα prend une 

infinité de valeurs sur le compact X et admet donc un point d’accumulation, 

disons x 0 , c’est-à-dire qu’il existe une suite n k strictement croissante telle 

que n k α converge vers x 0 . Ainsi, pour tout ɛ > 0, il existe N tel que, dès que 

n k > n l ≥ N, on a d(n k α, n l α) < ɛ soit : d(mα, 0) < ɛ où m = n k − n l . Il est 

facile de voir que si z ∈ T vérifie d(z, 0) < ɛ alors pour tout x ∈ T il existe 

r ∈ N tel que d(x, rz) < ɛ. Si on pose z = mα, on a ainsi d(x, (rm)α) < ɛ. 

Terminons la preuve de la minimalité : si x et y sont deux points il existe 

r ′ ∈ N tel que d(y − x, r ′ α) < ɛ et donc d(y, x + r ′ α) < ɛ. 

b) Sur X = R/Z, f(x) = 2x n’est pas minimale car elle admet des points 

périodiques (les k/2 n ). 

c) Un homéomorphisme de R n’est jamais minimal 

d) Un homéomorphisme de R 2 n’est jamais minimal (c’est une conséquence 

du théorème de translation de Brouwer : si un homéomorphisme de R 2 est 

sans point fixe alors tout point est errant). 

2.2.2 Transitivité 

Définition 2.2.2 On dit que f est transitive sur X si et seulement s’il existe 

un point x ∈ X tel que l’ensemble des points d’accumulation de l’orbite positive 

de x soit dense dans X. (Si f est inversible il est équivalent de dire que 

l’orbite de x est dense dans X). 

Voici une proposition qui justifie la terminologie : 

Proposition 2.2.2 f est transitive sur X si et seulement si pour tous ouverts 

U et V de X il existe n tel que f −n (U) ∩ V ≠ ∅ (c’est-à-dire il existe 

un point de U qui visite un point de V ). 

Démonstration.— Supposons donc qu’il existe un point z ∈ X tel que l’ensemble 

des points d’accumulation de l’orbite positive de z soit dense et soient 

U, V deux ouverts de X. Il existe donc n > m entiers positifs tels f m (z) ∈ U 

et f n−m (f m (z)) = f n (z) ∈ V . On a donc f m (z) ∈ U ∩ f −(n−m) (V ).


Réciproquement, supposons que pour tous ouverts U, V de X il existe n 

tel que U ∩ f −n (V ) ≠ ∅. Remarquons qu’en fait il existe une infinité de tels 

entiers n (pourquoi ). On en déduit que pour tout N l’ouvert 

⋃ 

n≥N 

f −n (B) 

est dense. Puisque X est compact, pour tout p ≥ 1 il existe un recouvrement 

fini de X par des boules ouvertes de rayon 1/p. Notons R p cet ensemble fini 

de boules de rayons 1/p. L’ensemble 

⋂ 

⋂ 

⋂ 

⋃ 

p≥1 B∈R p N≥0 n≥N 

f −n (B) 

est l’ensemble des points dont l’orbite positive a un ensemble dense de points 

d’accumulation. Mais, c’est une intersection dénombrable d’ouverts denses et 

d’après la propriété de Baire (X est compact) c’est un ensemble dense, donc 

en particulier non vide. 

Remarque La preuve du théorème précédent montre que l’ensemble des 

points z dont l’orbite est dense est en fait un G δ -dense de X. 

Exercice : a) Montrer que f est minimale si et seulement si pour tout ouvert 

U de X il existe N tel que 

X = 

N⋃ 

f −i (U). 

b) Montrer que f est transitive si et seulement pour tout ouvert U, 

est dense dans X. 

i=0 

∞⋃ 

f −i (U) 

i=0 

c) Montrer que si f est transitive alors pour toute fonction continue φ : X → 

R φ ◦ f = φ implique que φ est constante. Que dire de la réciproque 

d) Montrer qu’une action isométrique est transitive si et seulement si elle est 

minimale. 

✷

2.3. DÉCALAGES (OU SHIFTS) 13 

2.2.3 Mélange topologique 

Définition 2.2.3 On dit que f est topologiquement mélangeante si pour tous 

ouverts U, V de X il existe N tel que pour tout n ≥ N f −N (U) ∩ V ≠ ∅. 

Remarque : Le mélange topologique, tout comme la minimalité entraîne la 

transitivité l’inverse étant faux. 

Exemples a) Sur X = R/Z, f(x) = 2x est topologiquement mélangeante 

(et donc transitive). En effet, il suffit de démontrer que pour tous intervalles 

dyadiques I et J, il existe N tel que pour tout n ≥ N f −n (I)∩J est non vide. 

Or dès que n ≥ N, f −n (I) a une intersection non vide avec tout intervalle 

dyadique de longueur 2 −N . 

b) Une translation T α sur R/Z n’est jamais faiblement mélangeante : si α est 

rationnel c’est clair car T α n’est pas transitive ; si α est irrationnel soient I 

et J deux intervalles de longueur 1/4 par exemple et notons I 0 un intervalle 

de longueur 1/4 disjoint de J. Comme T α est minimale, on sait que Tα 

−n (I) 

sera pour une infinité de valeurs de n proche de I 0 et sera donc disjoint de J. 

c) L’application du tore R 2 /Z 2 définie par A(x, y) = (2x + y, x + y) est 

topologiquement mélangeante (mais pas minimale : elle admet une infinité 

de points périodiques). 

2.3 Décalages (ou shifts) 

2.3.1 Shift de Bernoulli 

Notons Σ = {0, 1} N , l’ensemble des suites (x i ) i∈N , x i ∈ {0, 1}. On munit 

Σ de la distance ultra-métrique 

d(x, y) = 2 −m(x,y) , m(x, y) = inf{j : x j ≠ y j }. 

Les cylindres C(m; a 0 , . . . , a m ) = {(x j ) j∈N : x 0 = a 0 , . . . , x m = a m } est une 

base d’ouverts de la topologie définie par d. Le théorème de Tykhonov (ou 

encore un argument diagonal) montre que (Σ, d) est compact. On définit alors 

l’application de décalage ou shift σ par 

(σ(x)) i = x i+1 . 

Il est facile de voir que σ est continue sur (Σ, d). 

Proposition 2.3.1 L’application σ est faiblement mélangeante.


Démonstration.— Il suffit de démontrer que pour tous cylindres C = 

C(m; a 0 , . . . , a m ), C ′ = C(m ′ ; a ′ 0, . . . , a ′ m ′) il existe N tel que pour tout n ≥ N 

σ −n (C) ∩ C ′ ≠ ∅. Mais σ −n (C) est l’ensemble des mots de la forme yaz où 

a = a 0 . . . a m et y est une suite quelconque de longueur n, et z ∈ Σ est 

également quelconque. Ainsi, si n ≥ m ′ , tout mot de la forme a ′ waz où 

a ′ = a ′ 0 . . . a ′ m et w de longueur n − ′ 

m′ et z sont quelconques, appartient à 

σ −n (C) ∩ C ′ . 

On peut généraliser la construction et la proposition précédente au cas d’un 

shift sur un alphabet à r symboles. 

2.3.2 Sous-shifts de type fini 

Soit A = {1, . . . , r} un alphabet à r symboles et A une matrice r × r à 

coefficients dans {0, 1} telle que pour tout 1 ≤ i ≤ r il existe j et j ′ dans 

A tels (A) ij = 1 et (A) j ′ i = 1. On associe à A un graphe orienté tel que 

pour tous sommets i, j il existe au plus une flèche de i vers j et pour tout 

sommet i il existe une flèche arrivant en i et une flèche sortant de i (cette 

association (matrice,graphe) est alors bijective). Nous noterons Γ A le graphe 

orienté associé à A et ˜Γ A le graphe non-orienté associé à Γ A . Les hypothèses 

que nous avons faites sur A assure que le graphe non orienté ˜Γ A associé à A est 

connexe. En revanche, la connexité du graphe orienté n’est pas automatique. 

Définition 2.3.1 Le graphe orienté Γ A est dit fortement connexe si pour 

toute paire i, j dans l’alphabet A il existe un chemin allant de i à j (en 

suivant le sens des flèches). 

Remarque : Le nombre de chemins de longueur r allant de i à j est le 

coefficient (A r ) ij . Le graphe Γ A est donc fortement connexe si et seulement 

si 

∀ i, j ∃r(i, j), (A r ) ij > 0. 

Nous noterons Σ A l’ensemble des suites (x i ) i∈N de A N qui vérifient la 

condition de compatibilité suivante : pour tout i ≥ 0, A xi x 1+1 

= 1. Il est 

clair que Σ A est encore un espace compact quand on le munit de la distance 

induite par l’inclusion et que Σ A est un fermé invariant par σ. 

Théorème 2.3.1 Le système dynamique (Σ A , σ) est transitif si et seulement 

si le graphe Γ A est fortement connexe. 

Démonstration.— Remarquons déjà que si i, j ∈ A l’existence d’un chemin 

de i à j est équivalente au fait qu’il existe un entier n tel que U i ∩σ −n (U j ) ≠ ∅ 

✷

2.3. DÉCALAGES (OU SHIFTS) 15 

où on note U i = {x : x 0 = i} U j = {x : x 0 = j}. On a donc clairement que si 

(Σ A , σ) est transitif alors Γ A est fortement connexe. 

Réciproquement, supposons le graphe Γ A fortement connexe. Pour démontrer 

la transitivité il suffit de prouver que pour tous cylindres C = 

C(m; a 0 , . . . , a m ) et C ′ = C(m ′ ; a ′ 0, . . . , a ′ m ′) il existe n tel que C ∩ σ−n (C ′ ) ≠ 

∅. Notons a (resp. a ′ ) le mot a 0 , . . . , a m (resp. a ′ 0, . . . , a ′ m ′). On sait qu’il existe 

un chemin allant de la fin du mot a m de a au début du mot a ′ 0 de a ′ . On peut 

donc construire un mot b commençant par a m et terminant par a ′ 0. Alors tout 

mot aba ′ x est dans C et est tel que σ l (aba ′ x) ∈ C ′ pour l égal à la somme 

des longueurs des mots a et b. 

Caractérisons les sous-shifts de type fini topologiquement mélangeant : 

Théorème 2.3.2 Le système dynamique (Σ A , σ) est topologiquement mélangeant 

si et seulement si Γ A vérifie la propiété suivante : il existe un entier 

r > 0 tel que pour toute paire (i, j) il existe un chemin de longueur r allant 

de i à j (ce qui est équivalent à (A r ) ij > 0). 

Démonstration.— Le début de la preuve du théorème précédent montre que 

si (Σ A , σ) est topologiquement mélangeant, pour toute paire (i, j) il existe 

un entier N i,j tel que pour n ≥ N i,j , U i ∩ σ −n (U j ) ≠ ∅. Par conséquent si on 

pose r = max i, jN i,j on a bien l’existence d’un chemin de longueur r dans le 

graphe Γ A allant de i à j. 

Réciproquement, supposons que le graphe vérifie la propriété du théorème. 

Alors, A r a tous ses coefficients positifs strictement. Comme aucune 

ligne de A n’est nulle (et comme A est à coefficients positifs ou nuls), A r+1 

et plus généralement A k , k ≥ r a tous ses coefficients strictement positifs. Il 

existe donc des chemins pour tout k ≥ r et toute paire i, j, des chemins de 

longueur k allant de i à j. Si on reprend la deuxième partie de la preuve du 

théorème précédent, on voit que les mots de la forme aba ′ x où b est un mot 

de longueur k ≥ r sont dans C ∩ σ −k (C ′ ). 

Il existe en fait une décomposition des sous-shifts de type fini transitifs 

en union disjointe de fermés ou la restriction d’une puissance de σ est topologiquement 

mélangeant. 

Théorème 2.3.3 Le système (Σ A , σ) est transitif si et seulement si il existe 

Σ 1 , . . . , Σ m fermés de Σ A disjoints et dont l’union est Σ A tels que 

a) pour tout 1 ≤ i < m on a σ(Σ i ) = Σ i+1 et σ(Σ m ) = Σ 1 ; 

b) σ m |Σ 1 est topologiquement mélangeant. 

✷ 

✷


Démonstration.— Montrons déjà le sens direct. Notons Λ ij l’ensemble des 

longueurs de chemins allant de i à j ; on a pour i, j, k ∈ A Λ ij + Λ jk ⊂ Λ ik . 

En particulier Λ 11 +Λ 11 ⊂ Λ 11 et si on note m le pgcd des éléments de Λ 11 on 

peut dire que Λ 11 contient tous les multiples de m assez grands (Exercice). 

Définissons alors les sous-ensembles de A, I 1 , . . . , I m de la façon suivante : 

j appartient à I l si et seulement s’il existe un chemin allant de 1 à j de 

longueurs congrue à l − 1 modulo m. On a alors, 

Lemme 2.3.1 Si i ∈ I l et j ∈ I l ′ tous les chemins allant de i à j sont de 

longueurs congrues à l ′ − l modulo m 

Démonstration.— a) Démontrons déjà qu’il existe un chemin allant de i à 

1 de longueur congrue à −l modulo m. On sait qu’il existe un chemin allant 

de i à 1 dont on note s la longueur ; on peut donc construire un chemin 

allant de 1 à 1 en concaténant un chemin de longueur congrue à l modulo 

m et le chemin de longueur s. Comme tous les chemins allant de 1 à 1 sont 

de longueurs divisibles par m (par définition de m), s doit être congru à −l 

modulo m. 

b) Démontrons que tous les chemins allant de 1 à i ont une longueur congrue 

à l modulo m. En effet, étant donné un tel chemin de longueur t, puisqu’il en 

existe un autre allant de i à 1 de longueur congrue à −l modulo m, on peut 

en concaténant construire un chemin de 1 à 1 de longueur congrue à t − l 

modulo m. Mais un tel chemin a une longueur divisble par m si bien que t 

est congru à l modulo m. 

c) Comme tout chemin allant de i à i concaténé à un chemin allant de i à 1 

donne un chemin allant de i à 1, on déduit de b) que tout chemin de i à i est 

de longueur congrue à 0 modulo m. 

d) D’après b), il existe un chemin allant de i à j de longueur congrue à l ′ − l 

modulo m (en concaténant via 1) et un autre de j à i de longueur congrue à 

l − l ′ modulo m. Pour tout chemin allant de i à j de longueur t on peut en 

concaténant en j construire un chemin de i à i de longueur congrue à t+l −l ′ 

modulo m et comme cette longueur doit être un multiple de m d’après c) on 

a bien la conclusion du lemme. 

Définissons alors Σ l comme étant l’ensemble des suites x = (x i ) i∈N de Σ A 

telles que x 0 ∈ I l . Automatiquement, x 1 ∈ I l+1 mod m car il existe un chemin 

de 1 à x 1 de longueur 1 + l (l de 1 à x 0 et 1 de x 0 à x 1 ) et de façon plus 

générale x k ∈ I l+k mod m . On a donc bien σ(Σ l ) = Σ l+1 mod m . Vérifions que 

σ m restreint à Σ 1 est topologiquement mélangeant. Pour cela on reprend la 

démonstration du théorème précédent : il suffit de démontrer que si a est un 

✷

2.4. APPLICATION À LA PREUVE DU THÉORÈME DE VAN DER WAERDEN17 

mot de longueur p commençant par une lettre de I 1 et a ′ un mot de longueur 

p ′ commençant par une lettre de I 1 , on peut construire pour tout entier km 

un mot compatible de la forme aba ′ x où b est un mot de longueur km. Or 

ceci est toujours possible dès que k est assez grand puisque Λ 11 contient tous 

les multiples de m assez grands. 

La réciproque est laissée en exercice au lecteur. 

✷ 

2.4 Application à la preuve du théorème de van 

der Waerden 

Nous nous proposons de démontrer par des méthodes de dynamique topologique 

le théorème suivant dû à van der Waerden : 

Théorème 2.4.1 (van der Waerden) Si Z = A 1 ∪ · · · ∪ A p est une partition 

de Z il existe i ∈ {1, . . . , p} tel que A i contienne des progressions 

arithmétiques de longueur arbitraire i.e : pour tout r ∈ N il existe a, b ∈ Z 

tels que a, a + b, . . . , a + (r − 1)b appartiennent à A i . 

La preuve du théorème précédent est basée sur un théorème de récurrence 

multiple : 

Théorème 2.4.2 Si (X, d) est un espace métrique compact et T un homéomorphisme 

de X il existe x ∈ X tel que pour tout r ≥ 1 

inf max d(x, T in x) = 0. 

n≥1 1≤i≤r 

Démonstration.— La preuve se fait par récurrence sur r ≥ 1. 

i) Si r = 1 nous avons vu que le résultat est vrai : si K est un ensemble 

minimal de X, tout point x de K est d’orbite dense dans K et en particulier 

r{ecurrent. 

ii) Notons K un ensemble minimal fixé et notons pour r ≥ 1, E r l’ensemble 

des x ∈ K pour lesquels 

inf max d(x, T in x) = 0. 

n≥1 i≤r 

Lemme 2.4.1 Si E r est un G δ -dense de K alors il en est de même de E r+1 .


Démonstration.— [du lemme 2.4.1] 

A) Remarquons tout d’abord que l’ensemble Ẽr des x ∈ K pour lesquels 

T n x ∈ E r pour tout n ∈ Z, x ∈ E r est encore un G δ -dense (c’est l’ensemble 

⋂ 

n∈Z T −n (E r )). Définissons alors par récurrence les suites ɛ n de réels positifs 

et x n d’éléments de Ẽr de la fa¸on suivante : x 1 ∈ Ẽr et ɛ 1 étant choisis, il 

existe n 1 tel que 

max 

1≤i≤r d(x, T −in 1 

x 1 ) ≤ (1/2)ɛ 1 . 

On pose alors x 2 = T −(r+1)n 1 

x 1 et on choisit ɛ 2 suffisamment petit pour que 

ɛ 2 ≤ (1/2)ɛ 1 et pour que d(y, x 2 ) ≤ ɛ 2 implique d(T n 1(r+1) y, x 1 ) ≤ ɛ 1 .. Nous 

noterons 

x 2 

n 1 

−→ɛ1 x 1 

les relations 

max d(x 1, T in 1 

x 2 ) ≤ ɛ 1 /2. 

1≤i≤r+1 

Avec le choix que nous avons fait pour ɛ 2 il est clair que pour tout y tel que 

d(y, x 2 ) ≤ ɛ 2 on a 

y n 1 

−→ x 1 . 

ɛ1 

On sait qu’il existe n 2 tel que 

max 

1≤i≤r d(x, T −in 2 

x 2 ) ≤ (1/2)ɛ 2 , 

et on pose x 3 = T −(r+1)n 2 

x 2 . On a bien 

n 

x 

2 

3 −→ x 2 ɛ2 /2 

et si ɛ 3 ≤ ɛ 2 /2 est choisi suffisamment petit on a 

y n 2 

−→ x 2 ɛ2 

pour tout y tel que d(y, x 3 ) ≤ ɛ 3 . On a donc pour un tel y 

y n 2 n 

−→ x 

1 

2 −→ɛ1 x 1 . 

ɛ2 

Par récurrence on construit des suites infinies ɛ k , x k telles que 

· · · x k+1 

n k 

−→ɛk 

n 1 

n k−1 

x k −→ · · · −→ɛ1 x 1 . 

ɛk−1 

Comme K est compact, pour tout ɛ > 0 il existe x k , x l ∈ Ẽr avec k > l er 

d(x k , x l ) < ɛ tels que 

n k,l 

x k −→ɛl 

où n k,l = n k−1 + · · · + n l . En particulier, comme on peut choisir l tel que 

ɛ l < ɛ, on a prouvé le lemme suivant : 

x l

2.4. APPLICATION À LA PREUVE DU THÉORÈME DE VAN DER WAERDEN19 

Lemme 2.4.2 Pour tout ɛ > 0 il existe x ɛ ∈ Ẽr et n ɛ tels que 

x ɛ 

n ɛ 

−→ɛ x ɛ . 

B) Démontrons que l’on peut inverser l’ordre des quantificateurs : Notons 

A ɛ l’ensemble des x ∈ Ẽr pour lesquels il existe n ɛ tel que 

x −→ nɛ 

x. 

ɛ 

Cet ensemble est un ouvert de Ẽr ⊂ K et est donc un G δ de K. Démontrons 

qu’il est dense dans K. Comme T est minimale sur K, pour tout y ∈ K et 

η > 0 il existe un entier N tel que tout point x de K se trouve après moins 

de N itérations dans B(y, η/2) (∃0 ≤ j ≤ N, T j x ∈ B(y, η/2)) et comme les 

applications T j , j ≤ N sont uniformément continues sur K on peut affirmer 

qu’il existe ɛ 0 tel que toute boule de rayon plus petit que ɛ 0 se trouve après 

au plus N itérations dans B(y, η). D’autre part, pour tout ɛ > 0 on sait qu’il 

existe un point x ɛ et n ɛ tel que 

x ɛ 

Ainsi, si ɛ ≤ ɛ 0 , il existe j ≤ N tel que, 

n ɛ 

−→ɛ x ɛ . 

T j x ɛ , T j (T nɛ x ɛ ), . . . , T j (T (r+1)nɛ x ɛ ) ∈ B(y, η). 

Puisque T j (T inɛ (x ɛ )) = T inɛ (T j (x ɛ )) on a démontré que z = T j x ɛ est dans 

B(y, η) ∩ Ẽr+1. Ceci démontre que A ɛ est dense dans K et est donc un G δ - 

dense. 

C) D’après le théorème de Baire 

∞⋂ 

m=1 

A 1/m 

est donc également un G δ -dense ; mais cet ensemble n’est rien d’autre que 

E r+1 . La preuve du lemme est terminée. 

Terminons la preuve du théorème 2.4.2. L’intersection 

E = ⋂ r≥1 

E r 

✷ 

est un G δ -dense d’après le théorème de Baire. Si x est dans E la conclusion 

du théorème 2.4.2 est vérifiée. 

✷


Preuve du théorème 2.4.1 Soit ω ∈ {1, . . . , p} Z la suite définie par ω i = 

k si i ∈ A k et notons X l’adhérence de l’orbite de ω sous l’action du décalage 

σ : {1, . . . , p} Z → {1, . . . , p} Z . L’application σ est un homéomorphisme de 

X. Appliquons le théorème de récurrence multiple 2.4.2 à (X, σ) : il existe 

x ∈ X tel que pour tout r ≥ 1 et ɛ = 1/4 on peut trouver un entier b pour 

lequel 

max 

1≤i≤r d(x, T ib x) < (1/4). 

Notons i = x 0 . On déduit de l’inégalité précédente que i = x 0 = (T b x) 0 = 

· · · = (T rb x) 0 . Comme x est dans l’adhérence de {σ k ω} k∈Z , il existe a tel que 

d(T a ω, x) < (1/4) et également 

max d(T a ω, T ib (T a ω)) < (1/4). 

1≤i≤r 

Ainsi, ω a = x 0 = i et ω a = ω a+b = · · · = ω a+rb . On a donc démontré que a, a+ 

b, . . . , a + rb appartiennent à A i . Ceci termine la preuve du théorème 2.4.1.

Chapitre 3 

Mesures Invariantes 

Dans ce qui suit X est encore un espace métrique compact, B désigne la 

tribu borélienne de X (la plus petite tribu engendrée par les ouverts de X et 

f : X → X est une application continue. 

Définition 3.0.1 Une mesure de probabilité µ sur (X, B) est dite f-invariante 

si f ∗ µ = µ c’est-à-dire si pour tout A ∈ B 

µ(f −1 (A)) = µ(A). 

Nous noterons M f l’ensemble des mesures de probabilité f-invariantes. De 

façon équivalente, µ est f-invariante si et seulement si pour toute fonction 

continue φ ∈ C(X), µ(φ ◦ f) = µ(φ) 

Exemple 

La mesure de Haar sur le tore R/Z est invariante par toute translation T α : 

x ↦→ x + α. Nous verrons plus loin que dans le cas où α est irrationnel, c’est 

l’unique mesure invariante par T α . En revanche, si α = p/q, toute orbite 

périodique porte une mesure invariante. 

La mesure de Haar sur le tore R/Z est invariante par l’application S : x ↦→ 

2x. Il existe une infinité d’autres mesures invariantes, en particulier les mesures 

portées par les orbites périodiques. Si x est un point périodique de 

période p, la mesure (δ x + · · · + δ S p−1 (x))/p est une mesure de probabilité 

S-invariante qui n’est pas équivalente à la mesure de Lebesgue. 

Exercice : Construire une dynamique sur [0, 1] (non continue) qui n’admet 

pas de mesure de probabilité invariante. 

L’ensemble M f sera muni de la topologie faible ∗ : une suite de mesures 

de probabilité µ n converge vers µ si pour toute fonction continue φ ∈ C(X), 

∫ 

φdµn = 〈µ n , φ〉 = µ n (φ) converge vers ∫ φdµ = 〈µ, φ〉 = µ(φ). 

21

22 CHAPITRE 3. MESURES INVARIANTES 

La proposition qui suit montre que lorsque f est continue il existe toujours 

des mesures f-invariantes sur X compact. 

Proposition 3.0.1 L’ensemble M f est non vide, convexe et compact pour 

la topologie faible ∗ . 

Démonstration.— La convexité de M f est immédiate. Sa compacité pour 

la topologie faible ∗ résulte du fait que M f est fermé pour cette topologie 

et du fait que l’ensemble des mesures de probabilités sur X compact est 

compact pour cette topologie. Il reste donc à démontrer qu’il existe une 

mesure de probabilité f-invariante : soit x ∈ X et considérons le barycentre 

des mesures de Dirac : 

µ n = 1 ∑n−1 

δ 

n f (x). k 

On a pour φ ∈ C(X) 

k=0 

µ n (φ) = 1 ∑n−1 

φ(f k (x)). 

n 

k=0 

On peut extraire de la suite µ n une sous-suite µ nk qui converge pour la 

topologie faible ∗ vers une mesure de probabilité µ. Comme, 

µ n (φ ◦ f) = φ(f n (x)) − φ(x) 

n 

+ 1 ∑n−1 

φ(f k (x)) 

n 

on a bien la conclusion en prenant n = n k et en faisant k → ∞. 

Savoir qu’une mesure est f-invariante donne des renseignements précieux 

sur les propriétés de récurrence de f : 

Théorème 3.0.3 ( de récurrence de Poincaré) Si µ est une mesure f- 

invariante et A ∈ B un sous-ensemble de X de µ-mesure positive µ(A) > 0 

alors pour µ-presque tout point x de A il existe une suite infinie d’entiers n k 

telle que f n k (x) ∈ A. 


dans A c’est-à-dire 

k=0 

Notons B l’ensemble des x ∈ A qui ne reviennent jamais 

B = A ∩ ⋂ n≥1 

f −n (X − A). 

Nous allons démontrer que µ(B) = 0. Prouvons pour cela que les ensembles 

B, f −1 (B), . . . , f −k (B), . . . dont 2 à 2 disjoints. En effet pour j > i 

f −i (B) ∩ f −j (B) = f −i (B ∩ f −(j−i) (B)); 

✷

or si un point x appartient à B ∩ f −(j−i) (B), son itéré f j−i (x) appartient à 

B donc à A ce qui contredit la définition de B puisque x est dans A et qu’un 

de ses itérés est dans A. 

Puisque les f −n (B), n ≥ 0 sont disjoints deux à deux on a 

∑ 

n≥0 

µ(f −n (B)) = µ( ⋃ n≥0 

f −n (B)); 

L’inégalité µ(B) > 0 est impossible puisque d’après l’invariance de µ par f 

le membre de gauche est infini, tandis que le membre de droite est inférieur 

ou égal à 1 (µ est une mesure de probabilité). Nous avons démontré que 

µ(B) = 0. D’après l’invariance de µ par f nous avons aussi µ(f −k (B)) = 0 et 

donc µ( ⋃ k≥0 f −k (B)) = 0. Mais cet ensemble contient les x ∈ A pour lesquels 

il existe k 0 tel que f k (x) /∈ A pour k ≥ k 0 . Le théorème est démontré. 

Corollaire 3.0.1 Si (X, d) est métrique compact, l’ensemble des x ∈ X qui 

sont f-récurrents est de µ-mesure totale. 

Démonstration.— Notons U n , n ≥ 1 une base dénombrable de voisinage 

de X. Notons C n l’ensemble des x ∈ U n qui ne sont pas récurrents dans U n . 

L’enemble des points non récurrents de X est la réunion des C n et comme 

d’après le théorème précédent chaque C n est de mesure nulle, le corollaire est 

démontré. 

23 

✷ 

✷ 

Exemples Translations sur les tores : Si T n = R n /Z n est le tore de dimension 

n, la mesure de Haar µ = dx 1 ∧ · · · ∧ dx n (on identifie la forme 

volume avec une mesure) est l’unique mesure invariante par les translations 

T α , T α (x) = x + α, α ∈ T n . 

T : x ↦→ 2x sur [0, 1] : La mesure de Lebesgue λ est invariante par T puisque 

pour tout intervalle dyadique I = ([k/2 p , (k + 1)/2 p [, T −1 ([k/2 p , (k + 1)/2 p [) 

est l’union disjointe de [k/2 p+1 , (k + 1)/2 p+1 [ et de (1/2) + [k/2 p+1 , (k + 

1)/2 p+1 [. On a donc bien λ(T −1 (I) = λ(I) et comme les intervalles dyadiques 

engendrent la tribu borélienne, la propriété d’invariance s’etend à tous les 

boréliens. 

Décalage et sous-décalage de type fini : Si p ∈ [0, 1] on peut définir la mesure µ 

sur {0, 1} Z (muni de la tribu engendrée par les cylindres) de la façon suivante : 

pour tout cylindre C = C(ɛ 0 , . . . , ɛ n−1 ) on pose µ(C) = p r (1 − p) n−r où r est 

le nombre de ɛ i égaux à 1. Le théorème de Carathéodory (ou Kolmogorov)


permet d’étendre cette mesure à la tribu borélienne toute entière. La mesure 

obtenue est clairement invariante par le shift σ (c’est clair sur les cylindres 

et on utilise la partie unicité du théorème de Carathéodory). Ceci fournit 

une famille entière de mesures invariantes par le décalage, les mesures de 

Bernoulli. Ce ne sont pas les seules : chaque orbite périodique de σ définit 

naturellement une mesure σ-invariante : la moyenne des mesures de Dirac 

portées par l’orbite périodique. 

Pour les sous-shifts de type fini sur un alphabet à r symboles et de matrice 

de transition A, la construction de mesures naturelles invariantes par σ se fait 

de la manière suivante : soit P ij (1 ≤ i, j ≤ r) les coefficients d’une matrice 

stochastique P : 

a) P ij ≥ 0 

b) ∑ r 

j=1 P ij = 1 

et faisons l’hypothèse que P est compatible avec A c’est-à-dire que A ij = 0 

si et seulement si P ij = 0 et supposons que A soit irréductible c’est-à-dire 

que (Σ A , σ) soit transitif. 

La condition b montre que le vecteur dont toutes les composantes valent 

1 est vecteur propre de P associé à la valeur propre 1. Par conséquent 1 est 

valeur propre de t P et il est possible de démontrer que l’espace propre correspondant 

est engendré par un vecteur dont tous les coefficeients p 1 , . . . , p r 

sont positifs ou nuls. On peut supposer que la somme p 1 + · · · + p r = 1. On 

a donc pour tout 1 ≤ j ≤ r 

r∑ 

p i P ij = p j . (3.1) 

Pour tout cylindre C = C(ɛ 0 , . . . , ɛ n ) de Σ A définissons 

i=1 

µ(C) = p ɛ0 P ɛ0 ɛ 1 

· · · P ɛn−1 ɛ n 

. 

La condition b) garantit la cohérence au sens du théorème de Kolmogorov : 

µ(C(ɛ 0 , . . . , ɛ n−1 )) = 

r∑ 

µ(C(ɛ 0 , . . . , ɛ n−1 , l)). 

l=1 

Par conséquent, on peut étendre µ en une mesure (de probabilité) à la tribu 

entière. L’invariance de µ par σ se fait sur les cylindres en utilisant (3.1) et 

µ(σ −1 (C(ɛ 0 , . . . , ɛ n ) = 

r∑ 

µ(C(l, ɛ 0 , . . . , ɛ n )). 

l=1

3.1. ERGODICITÉ 25 

Automorphismes des tores Si A ∈ SL(n, Z), l’application Ā de Rn /Z n dans 

lui même définie par Ā(x + Zn ) = Ax + Z n est inversible et s’appelle un 

automorphisme du tore T n . Puisque det(A) = 1 on voit que la mesure de 

Haar est invariante par Ā. Bien évidemment ce n’est pas la seule puisque A 

admet une infinité de points périodiques. 

3.1 Ergodicité 

Définition 3.1.1 Un système dynamique (X, B, µ, T ) est dit ergodique ssi 

tout ensemble A ∈ B tel que µ(A∆T −1 (A)) = 0 est de µ mesure 0 ou 1. 

En d’autres termes, d’un point de vue mesurable, les seuls ensembles invariants 

sont ∅ ou X. On peut reformuler la définition précédente : 

Proposition 3.1.1 Le système dynamique (X, B, µ, T ) est ergodique si et 

seulement si les seules fonctions φ ∈ L ∞ (X, µ) vérifiant φ ◦ T = φ sont les 

fonctions constantes 

Démonstration.— Prouvons que si T est ergodique les seules fonctions 

invariantes par T sont les constantes : introduisons E λ = {x ∈ X : φ(x) ≤ λ}. 

Comme φ ◦ T = φ on a φ 1 (E λ ) = E λ (µ p.p) et d’après l’ergodicité F φ (λ) := 

µ(φ ≤ λ) ∈ {0, 1}. Comme la fonction de répartition F φ est croissante et 

continue à droite il existe λ 0 tel que pour tout λ ≥ λ 0 , µ(φ ≤ λ) = µ(φ = 

λ 0 ) = 1. Ainsi, φ est µ-p.p constante (égale à λ 0 ). 

La réciproque est claire (observer que φ = 1 A est T -invariante ssi A est 

un ensemble T -invariant). 

3.1.1 Premiers exemples 

Translation sur des tores 

Si X = T et µ est la mesure de Haar, la transformation T : x ↦→ x + α 

est µ-ergodique si et seulement si α est irrationnel. En effet, soit φ est une 

fonction L ∞ telle que φ ◦ T = φ. Puisque φ est L 2 , on a l’identité dans L 2 

✷ 

φ(x) = ∑ k∈Z 

ˆφ(k)e 2πikx 

où les ˆφ(k) sont les coefficients de Fourier de φ. De l’unicité de la décomposition 

de Fourier et de l’identité dans L 2 , φ ◦ T = φ on tire 

ˆφ(k)e 2πikα = ˆφ(k).


Si α est irrationnel on a alors pour tout k ≠ 0 ˆφ(k) = 0 et par conséquent, 

φ est constante. Si α = p/q il existe clairement des fonctions φ qui sont 

T -invariantes et qui ne sont pas constantes, par exemple φ(x) = e 2πiqx . 

On peut donner une deuxième preuve de ce résultat qui est plus géométrique 

et ne fait pas appel à la décomposition en série de Fourier. Si α = p/q 

(p ∧ q = 1) est rationnel, l’orbite de 0 est un ensemble discret. Il est clair 

qu’il existe un petit intervalle ouvert I contenant 0 et dont tous les itérés (qui 

sont au nombre de q) sont disjoints deux à deux. L’union de ces intervalles 

est un borélien de mesure de Haar différente de 0 et de 1 et invariant par T 

ce qui prouve que T n’est pas ergodique pour la mesure de Haar. Supposons 

à présent α irrationnel et faisons l’hypothèse qu’il existe un ensemble borélien 

A T -invariant, de mesure de Lebesgue comprise entre 0 et 1 strictement. 

D’après le théorème de densité de Lebesgue, presque tout point de A est un 

point de densité de A, ce qui signifie que pour Lebesgue presque tout x ∈ A 

on a 

Leb(]x − ɛ, x + ɛ[∩A) 

lim 

= 1. 

ɛ→0 2ɛ 

Soit x un point de densité et I =]x − ɛ, x + ɛ[ tel que Leb(]x−ɛ,x+ɛ[∩A) ≥ 1 − δ. 

2ɛ 

Comme T est une isométrie minimale, il est clair que l’on peut trouver une 

suite d’entiers n k , 0 ≤ k ≤ r telle que les T n k , 1 ≤ k ≤ r soient disjoints 

deux à deux et couvrent un ensemble de mesure plus grande que 1 − δ. Dans 

chaque T n k I la proportion de points de A est supérieure à 1−δ puisque A est 

T -invariant , si bien que A ∩ ∪ 0≤k≤r T n k I a une mesure supérieure ou égale à 

(1 − δ) 2 . Par conséquent la mesure de A est supérieure ou égale à (1 − δ) 2 . 

Comme ceci vaut pour tout δ, on en déduit que la mesure de A égale 1, ce 

qui est une contradiction. 

Exercice Montrer qu’une translation T α sur le tore de dimension n est ergodique 

pour la mesure de Haar, si et seulement si 〈k, α〉 ∈ Z, k ∈ Z entraîne 

k = 0. 

Ergodicité de x ↦→ 2x 

Démontrons que T : x ↦→ 2x est ergodique pour la mesure de Haar sur 

T. Soit φ une fonction T -invariante. Les coefficients de Fourier de φ vérifient 

ˆφ(2k) = ˆφ(k) si bien que ˆφ(2 p k) = ˆφ(k) pour tous entiers k, p. Si k ≠ 0 

lim p→∞ ˆφ(2 p k) = 0 car les coefficients de Fourier d’une fonction L 2 sont dans 

l 2 (Z) et donc tendent vers 0 à l’infini. Ainsi, φ est constante, ce qui prouve 

l’ergodicité. 

Exercice Démontrer que si X = T 2 , l’automorphisme du tore T (x, y) = 

(2x+y, x+y) préserve la mesure de Haar et est ergodique pour cette mesure.

3.2. LES THÉORÈMES ERGODIQUES 27 

Exercice Démontrer que le décalage est ergodique pour les mesures de Bernoulli. 

3.2 Les Théorèmes ergodiques 

3.2.1 Le point de vue spectral et le théorème de Von 

Neumann 

Considérons un système dynamique mesurable (X, B, T, µ). L’espace L 2 (X, B, µ) 

muni du produit scalaire 

∫ 

〈φ, ψ〉 = φ ¯ψdµ, φ, ψ ∈ L 2 (X, B, µ) 

X 

est un espace de Hilbert. Le point de vue spectral consiste à étudier l’opérateur 

linéaire U T (que nous noterons souvent T ) agissant sur L 2 (X, B, µ) : 

Notons U ∗ l’adjoint de U défini par 

U T : L 2 (X, B, µ) → L 2 (X, B, µ) 

φ ↦→ φ ◦ T 

〈U ∗ φ, ψ〉 = 〈φ, Uψ〉; 

puisque T préserve µ il est facile de voir que U T est une isométrie c’est-à-dire 

préserve la norme (ou le produit scalaire) ‖U T φ‖ = ‖φ‖ et par conséquent 

U ∗ U = Id. 

Si en outre T est inversible T est unitaire c’est-à-dire que U ∗ = U −1 puisque, 

T préservant µ 

∫ 

〈φ ◦ T, ψ〉 = (φ · ¯ψ ◦ T −1 ) ◦ T dµ = 〈φ, ψ ◦ T −1 〉. 

X 

Essayons de comprendre la situation quand T n’est pas inversible. La sigma 

algèbre T −1 B est incluse dans B et il est possible de définir l’espace L 2 (X, T −1 B, µ) 

des fonctions T −1 B-mesurables qui sont L 2 pour la (restriction à T −1 B de la) 

mesure µ. C’est un sous-espace fermé de L 2 (X, B, µ) et on peut introduire la 

projection orthogonale P : L 2 (X, B, µ) → L 2 (X, T −1 B, µ) (rappelons qu’une 

projection orthogonale est caractérisée par P ∗ = P et P 2 = P ). Cette projection 

s’appelle l’espérance conditionnelle par rapport à la tribu T −1 B. On 

a le lemme facile suivant :


Lemme 3.2.1 L’espace L 2 (X, T −1 B, µ) est l’ensemble des fonctions φ ∈ 

L 2 (X, B, µ) qui s’écrivent sous la forme φ = ψ ◦ T où ψ ∈ L 2 (X, B, µ). 

Démonstration.— Il est clair qu’une fonction de la forme φ = ψ ◦ T où ψ ∈ 

L 2 (X, B, µ) est mesurable par rapport à la tribu T −1 B et appartient donc à 

L 2 (X, T −1 B, µ). Réciproquement, si une fonction φ est dans L 2 (X, T −1 B, µ), 

il est possible de trouver une suite de fonctions étagées φ n = ∑ i λ i,n1 Bi,n 

avec B i,n ∈ T −1 B convergeant µ-pp et L 2 vers φ. Les B i,n sont par définition 

de la forme T −1 A i,n et 1 T −1 A i,n 

= 1 1i,n ◦ T . Remarquons que 

‖ ∑ i 

λ i 1 T −1 C i 

‖ 2 = ∑ i 

|λ i | 2 µ(T −1 C i ) = ∑ i 

|λ i | 2 µ(T −1 C i ) = ‖ ∑ i 

λ i 1 Ci ‖ 2 . 

Ainsi, la suite φ n = ∑ i λ i,n1 Bi,n converge dans L 2 si et seulement si la suite 

ψ n = ∑ i λ i,n1 Ai,n converge dans L 2 . Notons ψ sa limite. Puisque φ n = ψ n ◦ 

T = U T ψ n et que U T est continue dans L 2 on a φ = ψ ◦ T . 

Le lemme précédent montre que ImP = ImU. Comme P est un projecteur 

ker P = (ImP ) ⊥ et comme de façon générale (ImU) ⊥ = ker U ∗ on a 

ker P = ker U ∗ . L’opérateur UU ∗ est symétrique borné et vérifie (UU ∗ ) 2 = 

UU ∗ UU ∗ = UU ∗ (car U est une isométrie) si bien que UU ∗ est une projection 

orthogonale ; son noyau ker UU ∗ est ker U ∗ (exercice) i.e ker P . Cela suffit 

pour affirmer que UU ∗ = P . Nous avons donc démontré 

Lemme 3.2.2 On a U ∗ T U T = Id et U T U ∗ T = E(·|T −1 B). 

La tribu des invariants Notons I la tribu constituée des A ∈ B tels que 

T −1 A = A mod 0. L’espace L 2 (X, I, µ) est l’ensemble des φ ∈ L 2 telles que 

φ ◦ T = φ (exercice). On définit comme précédemment E(·|I) la projection 

orthogonale sur L 2 (X, I, µ). On peut énoncer le théorème de Von Neumann 

Théorème 3.2.1 Si (X, B, µ, T ) est un système dynamique, alors pour toute 

fonction φ ∈ L 2 (X, B, µ) la suite 

1 

n S nφ = 1 ) 

(φ + φ ◦ T + · · · + φ ◦ T n−1 

n 

converge dans L 2 (X, B, µ) vers E(φ|I). 

Démonstration.— Nous allons démontrer que pour toute fonction φ ∈ 

L 2 (X, B, µ) et tout ɛ > 0 il existe ψ ∈ L 2 (X, B, µ) et η ɛ ∈ L 2 (X, B, µ) tels 

que‖η ɛ ‖ < ɛ/2 et 

φ = ψ ɛ ◦ T − ψ ɛ + E(φ|I) + η ɛ . 

✷

3.2. LES THÉORÈMES ERGODIQUES 29 

Il suffit pour cela de démontrer que φ − E(φ|I) est dans l’adhérence L 2 de 

U − I. Un calcul simple montre Im(I − U) ⊥ = ker(I − U ∗ ). Or, si U ∗ φ = φ 

on a P φ = UU ∗ φ = Uφ. Mais, ‖Uφ‖ = ‖φ‖ i.e ‖P φ‖ = ‖φ‖. Ceci n’est 

possible que si φ ∈ ImP c’est-à-dire si P φ = φ d’où l’on déduit Uφ = φ. 

Réciproquement, si Uφ = φ on a φ = U ∗ Uφ = U ∗ φ. On a donc prouvé 

On a donc, 

Im(U − I) ⊥ = ker(U ∗ − I) = ker(U − I) = L 2 (X, I, µ). 

Im(U − I) = L 2 (X, I, µ) ⊥ 

Mais par définition pour tout φ ∈ L 2 (X, B, µ), φ − E(φ|I) ∈ L 2 (X, I, µ) ⊥ 

Concluons la preuve du théorème : 

mais ‖ 1 n S nη ɛ ‖ ≤ ɛ/2 si bien que 

1 

n S nφ = 1 n (φ ◦ T n − φ) + E(φ|I) + 1 n S nη ɛ ; 

‖ 1 n S nφ − E(φ|I)‖ ≤ 2‖ψ ɛ‖ 

+ ‖η ɛ ‖ 

n 

≤ ɛ 

si n est assez grand. 

✷ 

3.2.2 Convergence presque sûre 

Théorème 3.2.2 a) Si (X, B, µ, T ) est un système dynamique, alors pour 

toute fonction φ ∈ L 1 (X, B, µ) la suite 

converge vers E(φ|I) 

i) µ-presque sûrement 

ii) dans L 1 (X, B, µ). 

1 

n S nφ = 1 ) 

(φ + φ ◦ T + · · · + φ ◦ T n−1 

n 

b) Si T est inversible on a la même conclusion pour n → −∞. 


Un ingrédient crucial de la preuve de ce théorème est le lemme suivant


Lemme 3.2.3 (ergodique maximal de Hopf) Si φ est mesurable, notons 

Snφ(x) ∗ = max 1≤k≤n (S k φ(x)), E n = {x ∈ X : Snφ(x) ∗ ≥ 0} et E = ∪E n . 

Alors, ∫ φdµ ≥ 0. 

E 


si bien que 

et 

On observe que 

−φ(x) + S ∗ n+1φ(x) = max(S ∗ nφ(T x), 0) 

φ(x) = S ∗ n+1φ(x) − (S ∗ nφ) + ◦ T (x) 

∫ 

∫ 

∫ 

φdµ = (Sn+1φ)dµ ∗ − ((Snφ) ∗ ◦ T ) + dµ 

Sn+1 ∗ φ≥0 Sn+1 ∗ φ≥0 Sn+1 ∫ 

∫ 

∗ φ≥0 

≥ (Sn+1φ) ∗ + dµ − (Snφ) ∗ + ◦ T dµ 

∫X 

∫X 

≥ (Sn+1φ) ∗ + dµ − (Snφ) ∗ + dµ 

≥ 0 

X 

la dernière inégalité provenant du fait que max(0, φ(x), . . . , S n−1 φ(x), S n φ(x)) ≥ 

max(0, φ(x), . . . , S n−1 φ(x)). On a donc ∫ E n+1 

φdµ ≥ 0 pour tout n et on 

conclut par convergence dominée. 

Un corollaire du lemme précédent est le suivant : Si A ∈ B vérifie T −1 A = 

A alors ∫ φdµ ≥ 0. Démontrons à présent le théorème de Birkhoff : soit 

E∩A 

A α,β l’ensemble des x ∈ X tels que 

lim inf 

n→∞ 

1 

n S 1 

nφ(x) ≤ α < β ≤ lim sup 

n→∞ n S nφ(x) 

L’ensemble A α,β est T invariant. Le lemme de Hopf appliqué à α − φ et φ − β 

montre que (pourquoi ) 

∫ 

∫ 

φ ≤ αµ(A α,β ), φ ≥ βµ(A α,β ) 

A α,β A α,β 

ce qui n’est possible que si µ(A α,β ) = 0. Par conséquent, pour µ-presque 

1 

tout x ∈ X lim inf n→∞ S 1 

n nφ(x) = lim sup S n→∞ n nφ(x) et donc 1 S n nφ(x) 

converge. 

Nous avons donc montré l’existence d’une fonction ˜φ telle que pour µ-pp 

X 

lim 

n→∞ 

1 

n S nφ(x) = ˜φ(x). 

✷

3.3. LIENS AVEC LA DYNAMIQUE TOPOLOGIQUE 31 

On a nécessairement ˜φ ◦ T = ˜φ et pour toute fonction ψ ∈ L ∞ (I) (i.e 

ψ ◦ T = ψ) on a ∫ ψ ˜φdµ = ∫ ψφdµ, c’est-à-dire que E(φ|I) = ˜φ. 

X X 

Prouvons à présent ii) : d’après le théorème de convergence dominée c’est 

évident si φ est dans L ∞ (X, µ). Sinon, pour tout ɛ > 0 il existe φ ɛ ∈ L ∞ qui 

est ɛ-L 1 -proche de φ. Comme ‖E(φ − φ ɛ |I)‖ L 1 ≤ ɛ et que l’on a convergence 

L 1 de n −1 S n φ ɛ vers E(φ ɛ |I) on conclut aisément. 

✷ 

Exercice Démontrer le point b) du théorème. (On pourra utiliser la convergence 

L 1 donnée par le théorème de Birkhoff.) 

3.3 Liens avec la dynamique topologique 

Dans cette section on suppose que (X, d) est un espace métrique compact. 

La tribu avec laquelle on travaille est la tribu borélienne. 

3.3.1 Existence de mesures ergodiques 

Définition 3.3.1 Si K est un ensemble convexe, on dit qu’un point x ∈ X 

est extrémal si x = tx 1 + (1 − t)x 2 , 0 < t < 1, x 1 ∈ K, x 2 ∈ K implique 

x = x 1 = x 2 . 

Notons M l’ensemble des mesures invariantes T -invariantes. C’est un ensemble 

convexe non vide et compact pour la topologie faible*. Le théorème 

suivant permet de caractériser les mesures T -invariantes ergodiques 

Théorème 3.3.1 Si (X, d) est un espace métrique compact et si T : X → 

X est continue, une mesure de probabilité T -invariante est ergodique si et 

seulement si elle est extrémale. 

Démonstration.— Supposons que µ est T -ergodique et qu’il existe une 

décomposition µ = tµ 1 + (1 − t)µ 2 , 0 < t < 1, µ 1 , µ 2 étant T -invariantes. La 

mesure µ 1 est absolument continue par rapport à la mesure µ et d’après le 

théorème de Radon-Nikodym, il existe une fonction f ∈ L 1 (µ), f ≥ 0 telle 

que dµ 1 = fdµ. Montrons que f est T -invariante. Observons que comme µ 1 

est T -invariante on a pour toute fonction φ ∈ L ∞ 

∫ 

∫ 

φdµ 1 = φ ◦ T dµ 1


c’est-à-dire 

∫ 

∫ 

φfdµ = 

φ ◦ T · fdµ 

et comme µ est T -invariante 

∫ 

∫ 

φ ◦ T · f ◦ T dµ = 

φ ◦ T · fdµ. 

Posons à présent φ = 1 f>λ . On a 

∫ 

∫ 

f ◦ T dµ = 

f◦T >λ 

et puisque µ est T -invariante 

∫ 

∫ 

(f − λ) + dµ = 

X 

On a donc pour tout λ 

f◦T >λ 

f◦T >λ 

fdµ 

∫ 

(f ◦ T − λ) + dµ = 

{f > λ} = {f ◦ T > λ}, 

f◦T >λ 

(f − λ)dµ. 

modulo un ensemble de µ-mesure nulle. Par conséquent, f = f ◦ T , µ-pp. 

La réciproque est plus facile à démontrer. Supposons que µ ne soit pas 

T -ergodique. Il existe donc un ensemble A dans la tribu, T -invariant et tel 

que 0 < µ(A) < 1. Si on pose µ 1 = µ(· ∩ A)/µ(A) et µ 2 = µ(· ∩ A c )/µ(A c ), 

on a µ = tµ 1 + (1 − t)µ 2 avec t = µ(A), ce qui contredit le fait que µ est un 

point extrémal. 

Un corollaire du théorème précédent est l’existence de mesure ergodique 

pour toute transformation continue sur un espace compact. 

Corollaire 3.3.1 Si (X, d) est un espace métrique compact et T : X → X 

une application continue, il existe une mesure qui est T -ergodique. 

Démonstration.— Ceci résulte du théorème de Krein-Milman qui affirme 

que tout compact, convexe d’un espace vectoriel topologique admet des points 

extrémaux 1 . Dans le cas qui nous intéresse, on peut le démontrer directement. 

Choisissons (φ n ) n une suite de fonctions continues dense dans C 0 (X). 

L’ensemble M 0 des mesures de probabilités µ sur X telles que 〈µ, φ 0 〉 = 

sup ν∈M 〈ν, φ 0 〉 est non vide puisque M est compact pour la topologie faible* 

1 et qu’il est l’enveloppe convexe de ses points extrémaux 

✷


et est un espace convexe compact pour la topologie faible*. Par récurrence on 

construit M p qui est l’ensemble non vide convexe compact pour la topologie 

faible* constitué des mesures ν ∈ M p−1 telles que 〈µ, φ p 〉 = sup ν∈Mp−1 

〈ν, φ p 〉. 

Notons M ∞ l’intersection des M p , p ≥ 0. C’est toujours un ensemble non 

vide convexe compact pour la topologie faible*. Démontrons qu’il est constitué 

de points extrémaux. Supposons par l’absurde que ce ne soit pas le cas 

et que l’on ait une écriture µ = tµ 1 + (1 − t)µ 2 avec 0 < t < 1. Il est facile 

de voir que pour tout p, 〈µ, φ p 〉 = 〈µ 1 , φ p 〉 = 〈µ 2 , φ p 〉 (utiliser la définition de 

M p ) et comme la suite φ p est dense dans C 0 (X) on a µ = µ 1 = µ 2 . 

✷ 

3.3.2 Points génériques 

Supposons que (X, d) soit un espace métrique compact, et soient T une 

transformation mesurable sur X, µ une mesure T -invariante ergodique et 

(φ k ) k≥0 une suite de fonctions continues sur X dense dans C 0 (X). Le Théorème 

de Birkhoff nous apprend qu’il existe un ensemble E k de µ-mesure 1 

tel que pour tout x ∈ E k , (1/n)S n φ k (x) converge vers ∫ φ X kdµ. L’ensemble 

E = ∩ k E k est de µ-mesure 1 et comme la suite des φ k est C 0 -dense dans 

C 0 (X), il est clair que pour toute φ ∈ C 0 (X) et tout x ∈ X, la suite 

(1/n)S n φ(x) converge également vers ∫ φdµ. On dit que l’ensemble E est 

X 

un ensemble générique pour (T, µ). 

Un corollaire du résultat précédent est le suivant : 

Corollaire 3.3.2 Si µ et ν sont deux mesures de probabilité T -invariantes 

et ergodiques elles sont mutuellement singulières 2 ou égales. 

Démonstration.— Supposons que ce ne soit pas le cas. L’intersection E de 

l’ensemble des points réguliers de µ et de l’ensemble des points réguliers de ν 

est alors de µ-mesure et de ν-mesure positive. Pour toute fonction continue 

φ et x ∈ E, on a donc convergence de (1/n)S n φ(x) vers ∫ φdµ et ∫ φdν. 

X X 

Par conséquent, µ = ν. 

✷ 

3.3.3 Unique ergodicité 

Définition 3.3.2 On dit qu’un système dynamique (X, T, µ) est uniquement 

ergodique, si µ est l’unique mesure de probabilité invariante par T . 

2 pour tout borélien, µ(A) > 0 implique ν(A) = 0 et ν(A) > 0 implique µ(A) = 0


Puisque l’ensemble des mesures ergodiques est l’ensemble des mesures extrémales 

on a 

Proposition 3.3.1 Si (X, T, µ) est uniquement ergodique, il est ergodique. 

Exemple : La translation R α : x ↦→ x+α sur le cercle R/Z avec α irrationnel 

admet la mesure de Lebesgue comme unique mesure invariante. En effet, si 

(R α ) ∗ µ = µ, on a (R n a ) ∗ µ = µ et comme la suite nα est dense sur le cercle, 

il est facile de voir que pour tout β sur le cercle (R β ) ∗ µ = µ. Mais la mesure 

de Haar est l’unique mesure invariante par toute translation. 

Théorème 3.3.2 Soit (X, d) un espace métrique compact et T : X → X une 

transformation continue et µ une mesure T -invariante. Les trois propriétés 

suivantes sont équivalentes : 

i) µ est l’unique mesure de probabilité invariante par T ; 

ii) pour toute fonction φ ∈ C(X) et tout ɛ > 0 il existe des fonctions ψ, η ∈ 

C(X) telles que 

∫ 

φ = ψ ◦ T − ψ + η + φdµ, ‖η‖ 0 ≤ ɛ; 

iii) pour toute fonction continue φ ∈ C(X), les moyennes de Birkhoff de φ, 

(1/n)S n φ(·) convergent uniformément vers ∫ X φdµ. 

Le fait que pour toute fonction continue φ ∈ C(X), les moyennes de Birkhoff 

de φ, (1/n)S n φ(·) convergent uniformément vers une constante est équivalent 

à l’unique ergodicité de (T, µ). 


i) ⇔ ii) : Notons E l’ensemble des fonctions continues de X de µ-intégrale 

nulle et F l’adhérence pour la topologie C 0 de l’ensemble des fonctions de la 

forme ψ ◦ T − ψ. Si E ̸= F, le théorème de Hanh-Banach nous enseigne qu’il 

existe une forme linéaire non nulle Λ ∈ E ∗ dont la restriction à F est nulle. 

D’après le théorème de représentation de Riesz, il existe une mesure (réelle) ν 

telle que pour tout φ ∈ E, Λφ = ∫ φdν. Par conséquent, pour toute fonction 

X 

φ = ψ◦T −ψ où ψ est continue on a ∫ φdν = 0, et donc ∫ ψ◦T dν = ∫ ψdν. 

X X X 

On a donc T ∗ ν = ν. La mesure ν admet une écriture unique de la forme 

ν = ν + −ν − où ν ± sont des mesures boréliennes positives telles que pour tout 

borélien A, ν ± (A) = ±ν(A ∩ E ± ), où E ± sont des boréliens. Démontrons que 

ν ± sont T -invariantes. Déjà, 

ν + (T −1 E + ) ≥ ν(T −1 E + ) = ν(E + ) = ν + (E + ) 

X


et donc ν + (T −1 E + ∆E + ) = 0. En outre, 

ν + (T −1 E + ) − ν − (T −1 E + ) = ν(T −1 E + ) = ν(E + ) = ν + (E + ) 

et comme ν + (E + ) = ν + (T −1 E + ) on en déduit ν − (T −1 E + ) = 0 et ν(T −1 E + ∆E + ) = 

0. Pour tout borélien A 

ν + (T −1 A) = ν(T −1 A ∩ E + ) = ν(T −1 A ∩ T −1 E + ) = ν(A ∩ E + ) = ν + (A) 

. On verrait de même que ν − est T -invariante. Comme par hypothèse (T, µ) 

est uniquement ergodique, on a ν + = µ. Mais alors, Λ est nulle sur E, ce qui 

est une contradiction. 

ii) ⇔ iii) : C’est clair. 

iii) ⇔ i) : Si ν est une mesure de probabilité T -invariante, ∫ ∫ 

(1/n)S X nφdν = 

φdν. De la convergence uniforme des moyennes de Birkhoff de φ vers 

∫X 

φdµ on déduit µ = ν. 

✷ 

X 

Skew-shift 

Pour α ∈ T irrationnel, notons T = T α : T 2 → T 2 défini par T (x, y) = 

(x + α, y + x). Les itérés de T se calculent aisément : pour n ≥ 0, 

T n (x, y) = (x + nα, y + nx + n(n − 1)α/2). 

Si m désigne la mesure de Lebesgue, il est clair que m est T -invariante puisque 

le jacobien de T est constant égal à 1. Démontrons que (T, m) est ergodique : 

si f est une fonction bornée T -invariante, il est facile de voir que ses coefficients 

de Fourier vérifient ˆf(k + l, l) = e 2πikα ˆf(k, l) ; comme ils sont dans 

l 2 (Z 2 ) on voit facilement que f est constante. 

Démontrons à présent 

Théorème 3.3.3 Si α est irrationnel, T α est uniquement ergodique. 

Démonstration.— Il suffit pour cela de démontrer que si ν est une mesure 

de probabilité T -invariante elle est égale à m. Si π : T 2 → T est la projection 

suivant la première variable, on voit que π ◦ T α = R α ◦ π où R α est la 

translation d’angle α sur T. On a donc (R α ) ∗ (π ∗ ν) = (π ∗ ν) et comme la 

mesure de Lebesgue est l’unique mesure invariante par R α (α est irrationnel) 

on a nécessairement π ∗ ν = Leb : ν se projette par le premier facteur sur la 

mesure de Lebesgue. Ainsi, pour tout borélien I ⊂ T, ν(π −1 I) = Leb(I). 

Notons E m (resp. E ν ) l’ensemble des points m-génériques (resp. ν-générique)


pour T . Le théorème de Fubini implique qu’il existe un ensemble I ⊂ T de 

mesure de Lebesgue 1 tel que pour tout x ∈ I la mesure de Lebesgue de la 

fibre π −1 (x) ∩ E m égale 1.Si on note J l’ensemble des x ∈ I pour lesquels 

π −1 (x) ∩ E ν = ∅, on a Leb 1 (J) = ν(π −1 (J)) = 0 ; en notant Ĩ = I − J on voit 

que ν(π −1 (Ĩ)) = 1 si bien que E −1 

ν = π (Ĩ) mod ν . Comme pour x ∈ Ĩ, 

π −1 (x) ∈ E m on a que pour tout (x, y) ∈ T 2 avec x ∈ Ĩ il existe une suite 

y n ∈ T convergeant vers y telle que chaque (x, y n ) est m-générique. On a 

donc pour toute fonction continue f : T 2 → R, 

lim 

N→∞ 

1 

N 

N∑ 

f(x + kα, y + kx + k(k − 1)α) = ˜f ν (x, y), 

k=0 

lim 

N→∞ 

1 

N 

N∑ 

∫ 

f(x + kα, y n + kx + k(k − 1)α) = 

k=0 

et du fait de l’uniforme continuité de f 

fdm, 

lim sup 

N→∞ 

1 

N 

N∑ 

|f(x+kα, y+kx+k(k−1)α)−f(x+kα, y n +kx+k(k−1)α)| ≤ δ(|y−y n |), 

k=0 

où δ est une fonction tendant vers 0 en 0. Ceci démontre que pour tout x ∈ Ĩ, 

la fibre entière π −1 (x) est dans E m et donc que ν-presque tout point de E ν 

est appartient à E m . Mais ceci entraîne de façon claire que ν = m puisque le 

théorème de convergence dominée montre que pour toute fonction continue 

f, ∫ X fdν = ∫ X (1/n)S nfdν converge vers ∫ X fdm. ✷ 

On peut donner une preuve qui s’inspire du point de vue spectral. Supposons 

que ν soit une mesure invariante par T et notons U : L 2 (T 2 , ν) → L 2 (T 2 , ν) 

l’opérateur unitaire 3 défini par Uf = f ◦ T . Pour r = (k, l) ∈ Z 2 notons 

ˆν(r) = 〈ν, e −r 〉 = ∫ T 2 e −2πi〈r,z〉 dz les coefficients de Fourier de ν (rappelons 

qu’une mesure est caractérisée par ses coefficients de Fourier). 

Si r ≠ 0 est fixé, les vecteurs (U n e r ) n≥1 sont deux à deux orthogonaux. 

En effet, 〈U n e r , U m e r 〉 = 〈U n−m e r , e r 〉. Comme Ue (k,l) = e 2πikα e (k+l,l) on voit 

que U (n−m) e r est de la forme e (k ′ ,l) (avec k ′ = k ssi n − m = 0), si bien que 

〈U n−m e r , e r 〉 = 〈e (k ′ ,0), e (k,0) 〉. Mais on a 

〈e (k ′ ,0), e (k,0) 〉 = 〈Ue (k ′ ,0), Ue (k,0) 〉 = e (2πi(k′ −k)α) 〈e (k ′ ,0), e (k,0) 〉 

3 on munit L 2 (X, ν) du produit hermitien 〈f, g〉 = ∫ T 2 f(z)ḡ(z)dν(z)


ce qui entraîne que 〈e (k ′ ,0), e (k,0) 〉 égale 0 si k ≠ k ′ et 1 sinon. On a donc bien 

démontré que les vecteurs (U n e r ) n≥1 sont deux à deux orthogonaux. Projetons 

le vecteur 1 sur l’espace engendré par les (U n e r ) n≥1 : d’après l’inégalité 

de Parseval-Bessel 

∑ 

|〈U n e r , 1〉| 2 ≤ ‖1‖ 2 L 2 (ν) = 1. 

n≥0 

Mais, 〈U n e r , 1〉 = 〈U n e r , U n 1〉 = 〈e r , 1〉 = ˆν(−r). On a donc démontré que 

pour tout r ∈ Z 2 , ˆν(r) = 0 si r ≠ 0 et ˆν(0) = 1. Ces relations caractérisent 

la mesure de Lebesgue sur T 2 . 

Equirépartition 

Définition 3.3.3 Une suite (x n ) de points dans [0, 1] d 

pour tout pavé I ⊂ [0, 1] d on a 

est équirépartie si 

#{k ∈ {1, . . . , N} : x k ∈ I} 

lim 

N→∞ 

N 

= vol d (I) 

Un critère d’équirépartition est le suivant (preuve laissée en exercice au lecteur). 

Théorème 3.3.4 Les propriétés suivantes sont équivalentes : 

i) La suite (x n ) est équirépartie ; 

ii) Pour toute fonction Riemann intégrable f sur [0, 1] d la suite 1 n 

∑ n 

k=1 f(x k) 

converge vers ∫ [0,1] d f(x)dx. 

iii) Pour toute fonction continue f sur [0, 1] d la suite 1 n 

∑ n 

k=1 f(x k) converge 

vers ∫ [0,1] d f(x)dx. 

iv) Pour tout polynôme trigonométrique P la suite 1 n 

∑ n 

k=1 P (x k) converge 

vers ∫ T d P (x)dx. 

Comme corollaire des deux sous-sections précédentes on a 

Corollaire 3.3.3 Si α est irrationnel, la suite n(n − 1)α/2 est équirépartie 

sur [0, 1] 

Démonstration.— Il suffit de poser f(x, y) = e 2πir y et d’appliquer les théorèmes 

3.3.2, 3.3.3, 3.3.4 

✷


On peut démontrer par cette méthode que si P (n) est un polynôme dont 

le coefficient du monôme du plus haut degré est irrationnel, alors la suite 

(P (n)) est équirépartie. On introduira pour cela T : T d → T d défini par 

T : (θ 1 , θ 2 , . . . , , θ d ) ↦→ (θ 1 + α, θ 2 + θ 1 , . . . , θ d + θ d−1 ), 

et on démontrera que l’unique mesure de probabilité T -invariante est la 

mesure de Lebesgue sur T 2 . Si P est de degré d, on pose P d = P , et 

P j = P j+1 (X + 1) − P j+1 (X), j = N − 1, . . . , 0. On a P 0 (X) = α où on 

a noté α/N! le coefficient dominant de P . Si on pose θ n = P 1 (n), . . . , P d (n)) 

on a T n θ 0 = θ n . On conclut alors comme précédemment. 

3.4 Mélange 

Définition 3.4.1 Un système dynamique (X, A, T, m) est dit mélangeant si 

pour tous boréliens A, B ∈ A on a 

Il n’est pas difficile de prouver que 

lim m(T −n A ∩ B) = m(A)m(B). 

n→∞ 

Proposition 3.4.1 Un système dynamique est mélangeant si et seulement 

si pour toutes fonctions f, g ∈ L 2 (X, m) on a 

∫ 

∫ ∫ 

f ◦ T n ḡdm = fdm ḡdm 

lim 

n→∞ 

X 

Théorème 3.4.1 Si un système dynamique est mélangeant il est ergodique. 

Démonstration.— En effet, si A est un borélien T -invariant on a lim n→∞ m(T −n A∩ 

A) = m(A)m(A) ce qui s’écrit m(A) = m(A) 2 et donc m(A) égale 0 ou 1. 

Dans un cadre probabiliste il s’agit de la loi du 0,1 de Kolmogorov. 

Un exemple important de systèmes mélangeants est fourni par les sousshifts 

de type fini. 

Théorème 3.4.2 (Perron-Frobenius) Si P ∈ M r (R) est une matrice stochastique 

irréductible 4 alors il existe une unique mesure stationnaire, c’està-dire 

un unique vecteur p ∈ R n à coordonnées positives et dont la somme 

des composantes vaut 1 tel que µP = µ. En outre, si P est apériodique 5 

alors pour toute mesure de probabilité ν sur {1, . . . , r}, ν, lim n→∞ qP n = p. 

4 ce qui signifie que le graphe orienté de P est connexe 

5 ∃m ≥ 0, ∀i, j, (P m ) ij > 0 

X 

X 

✷

3.4. MÉLANGE 39 

Démonstration.— Supposons P irréductible, et faisons l’hypothèse qu’il 

existe deux mesures de probabilités µ 1 , µ 2 différentes telles que µ 1 = µ 1 P 

et 

∑ 

µ 2 = µ 2 P . Si on appelle x le vecteur ligne x = µ 1 − µ 2 on a x = xP et 

i∈E x i = 0 ; en particulier il existe deux indices i, j tels que x i et x j sont de 

signes opposés. Puisque la matrice P est irréductible il existe un exposant m 

tel que (P m ) ij > 0. Ecrivons x = xP m puis, 

∑ 

|x j | = ∑ | ∑ x k (P m ) kj | 

j∈E j∈E k∈E 

≤ ∑ ∑ 

|x k ||(P m ) kj | 

j∈E k∈E 

≤ ∑ ∑ 

|x k |(P m ) kj 

k∈E j∈E 

≤ ∑ k∈E 

|x k | 

puisque la matrice P est stochastique ( ∑ j∈E (P m ) ij = 1). Or, cette dernière 

inégalité est une égalité ; par conséquent dans la suite d’inégalités que nous 

avons écrites nous avions en fait déjà des égalités. Il en résulte que pour tout 

j, 

|x j | = | ∑ x k (P m ) kj | = ∑ |x k |(P m ) kj , 

k∈E 

k∈E 

ce qui n’est possible que si les |x k |(P m ) kj , sont tous de même signe quand k 

varie dans le sous-ensemble de E constitué des k pour lesquels |x k |(P m ) kj est 

non nul. Puisque x i ≠ 0 et que par définition de m le coefficient (P m ) ij > 0, 

ceci entraîne que x j est de même signe que x i ce qui est une contradiction. 

Supposons à présent P apériodique. Notons M 0 l’ensemble des vecteurs 

lignes x tels que ∑ i∈E x i = 0. Définissons pour x ∈ M 0 la norme suivante : 

‖x‖ = 1 ∑ 

|x i | = ∑ i ) 

2 

i∈E(x + . 

i∈E 

(Avec la notation z + = max(0, z)). L’application x ↦→ xP envoie M 0 dans 

lui même. On a le lemme suivant 

Lemme 3.4.1 Soit Q une matrice stochastique telle que α = min i,j∈E Q ij > 

0. Alors, Q est une (1 − α)-contraction : pour tout x ∈ M 0 

‖xQ‖ ≤ (1 − α)‖x‖.



On a 

‖xQ‖ = 

∑ 

(xQ) i 

i:(xQ) i >0 

= ∑ 

≤ 

i:(xQ) i >0 k∈E 

∑ 

∑ 

x k (Q) ki 

∑ 

i:(xQ) i >0 k:x k >0 

≤ ∑ 

∑ 

k:x k >0 i:(xQ) i >0 

|x k |(Q) ki | 

x k (Q) ki 

Comme xQ ∈ M 0 on a ∑ i∈E (xQ) i = 0 et l’ensemble des i ∈ E pour lesquels 

(xQ) i > 0 n’est pas E tout entier. Par conséquent, 

∑ 

(Q) ki − 

∑ 

(Q) ki 

ki = 

i:(xQ) i >0(Q) ∑ i∈E 

= 1 − ∑ 

Revenant aux inégalités précédentes 

i:(xQ) i ≤0 

≤ (1 − α). 

i:(xQ) i ≤0 

(Q) ki 

‖xQ‖ ≤ (1 − α)‖x‖. 

Puisque P est apériodique il existe un entier m tel que Q = P m soit à 

coefficients strictement positifs. L’application x ↦→ xP m de (M 0 , ‖ · ‖) dans 

lui même est donc une (1−α)-contraction et par conséquent pour tout entier 

l, ‖xP lm ‖ ≤ (1 − α) l ‖x‖. Si µ est l’unique mesure de probabilité stationnaire 

et ν une mesure de probabilité µ − ν ∈ M 0 et donc pour tous entiers l, c 

ce qui s’écrit (en utilisant µP n = µ) 

‖(µ − ν)P lm+c ‖ ≤ (1 − α) l ‖(µ − ν)P c ‖ 

‖µ − νP lm+c ‖ ≤ (1 − α) l ‖(µ − ν)P c ‖. 

Comme tout entier n s’écrit de façon unique n = lm + c avec 0 ≤ c < m, 

l ≥ n/m (division euclidienne de n par m) et comme 0 ≤ (1 − α) < 1, la 

suite µ − νP n converge vers 0. 

Comme corollaire on obtient : 

✷ 

✷

3.4. MÉLANGE 41 

Théorème 3.4.3 Si P est une matrice stochastique et A la matrice de transition 

associée à P (A i,j = 1 ssi P ij > 0) notons p l’unique mesure stationnaire 

telle que pP = p et m la mesure correspondante sur (Σ A , Bor). Le 

système dynamique (Σ A , Bor, σ, m) est mélangeant. 

Démonstration.— Il suffit de démontrer que pour tous cylindres C = 

C(ɛ 0 , . . . , ɛ n ), C ′ = C(ɛ ′ 0, . . . , ɛ ′ n ′) on a 

lim m(C ∩ 

k→∞ σ−k C ′ ) = 0. 

Si k est assez grand (k ≥ n), C∩σ −k C ′ est le cylindre C ′′ = C(ɛ 0 , . . . , ɛ n , ∗, ɛ k , . . . , ɛ k+n ′) 

dont la m mesure vaut 

m(C ′′ ) = p ɛ0 P ɛ0 ɛ 1 

· · · P ɛn−1 ɛ n 

(P k−n ) ɛnɛ k 

P ɛk ɛ k+1 · · · P ɛk+n ′ −1 ɛ k+n ′ 

= p ɛ0 P ɛ0 ɛ 1 

· · · P ɛn−1 ɛ n 

(P k−n ) ɛnɛ ′ 0 P ɛ ′ 0 ɛ′ 1 · · · P ɛ ′ n ′ −1 ɛ′ n ′ 

Mais q j (P k−n ) ji converge vers p i quand k tend vers l’infini ; ainsi, quand k 

tend vers l’infini m(C ′′ ) tend vers 

p ɛ0 P ɛ0 ɛ 1 

· · · P ɛn−1 ɛ n 

p ɛ ′ 

0 

P ɛ ′ 

0 ɛ ′ 1 · · · P ɛ ′ n ′ −1 ɛ′ n ′ 

qui vaut m(C)m(C ′ ). 

✷

42 CHAPITRE 3. MESURES INVARIANTES

Chapitre 4 

Homéomorphismes et 

difféomorphismes du cercle 

4.1 Homéomorphismes du cercle 

4.1.1 Forme des relevés d’un homéomorphisme du cercle 

Nous entreprenons dans cette section l’étude des homéomorphismes du 

cercle (ou plutôt du tore de dimension 1) T = R/Z = {x + Z : x ∈ R}. 

Nous notons π a projection canonique π : R → R/Z. On dit que x ∈ R est 

un relevé de ¯x ∈ R/Z si π(x) = ¯x. Si ¯x, ȳ ∈ R/Z admettent pour relevés 

respectifs x, y ∈ R nous posons d(x, y) = min k∈Z |x − y − k|. Il est facile de 

voir que (R/Z, d) est un espace métrique complet compact. Par construction 

(R, π) est un revêtement de R/Z. Ceci permet de définir une orientation sur 

R/Z : nous dirons que ¯x, ȳ, ¯z sont ordonnés dans le sens direct s’il existe des 

relevés x, y, z ∈ R tels que x < y < z < x + 1. On dit qu’une application 

continue f : R/Z → R/Z préserve l’orientation si pour tout triplé ordonné 

dans le sens direct (x, y, z) le triplet image (f(x), f(y), f(z)) est ordonné dans 

le sens direct. 

Exemple L’application de T dans lui même x ↦→ −x ne préserve pas l’orientation 

(elle la renverse). 

Comme [0, 1] est simplement connexe, pour tout chemin continu γ : 

[0, 1] → R/Z et tout ˜x ∈ π −1 (γ(0)) il existe un unique chemin continu 

˜γ : [0, 1] → R tel que ˜γ(0) = ˜x et qui relève γ : π ◦ ˜γ = γ. De la même 

façon, toute application continue g : R → R/Z se relève en une application 

continue G : R → R, tous les autres relèvement de g étant de la forme 

G(·) + k, k ∈ Z. Par conséquent si f : R/Z → R/Z est une application 

continue elle se relève en une application continue F : R → R (considérer 

43

44CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE 

g = f ◦ π) toutes les autres applications relevant f étant de la forme F + k, 

k ∈ Z. On a ainsi 

π ◦ F = f ◦ π 

et Z étant discret, il existe un unique entier k ∈ Z tel que 

F (· + 1) = F (·) + k. 

Lemme 4.1.1 Une application f : R/Z → R/Z est un homéomorphisme 

préservant l’orientation si et seulement si il existe un relèvement F : R → 

R de f continu strictement monotone tel que F (· + 1) = F (·) + 1. Par 

conséquent il existe une fonction φ ∈ C 0 (R, R) qui est Z-périodique et telle 

que F = id + φ. Tout autre relèvement est de la forme id + φ + k où k ∈ Z. 

Démonstration.— Soit F un relèvement continu de f tel que F (x + 1) = 

F (x) + k, k ∈ Z. Comme f est injective F est strictement monotone (sinon 

on peut trouver deux points x, y ∈ R x < y < x + 1 tels que F (x) = 

F (y) ; mais cela fournit deux points distincts ¯x = π(x), ȳ = π(y) tels que 

f(¯x) = f(ȳ) contredisant l’injectivité de f). Ceci entraîne k ≠ 0 et par 

conséquent lim ±∞ F ∈ {−∞, ∞} si bien que F est un homéomorphisme 

de R. Comme f préserve l’orientation, F est strictement croissante et on 

a k > 0. Supposons l’entier k > 1. Alors, d’après le théorème des valeurs 

intermédiaires, il existerait 0 < x < 1 tel que F (0) < F (x) = F (0) + 1 < 

F (1) = F (0) + k (F est nécessairement strictement croissante si p > 0). 

Mais ceci contredit l’injectivité de f = π ◦ F ◦ π. On a donc k = 1 et 

F (· + 1) = F (·) + 1. Il est alors clair que la fonction φ : x ↦→ F (x) − x est 

Z-périodique. 

✷ 

Remarque Un critère pour qu’une application de la forme x + φ(x) où 

φ ∈ C 0 (R/Z) soit un homéomorphisme croissant de R est que |φ(x)−φ(y)| < 

|x − y| pour tous x, y. En particulier, si φ est dérivable et sup x∈R |φ ′ (x)| < 1 

ce sera le cas. 

Nous notons Homeo + (RZ) l’ensemble des homéomorphismes de RZ préservant 

l’orientation et D 0 +(R/Z) l’ensemble des homéomorphismes F de R 

croissants tels que x ↦→ F (x)−x est croissant. Ce dernier espace s’identifie naturellement 

à C 0 (R/Z) et nous définirons une distance d sur D 0 +(T) en posant 

d C 0(F, G) = sup x∈R |((F (x)−x)−(G(x)−x))|. Nous munirons Homeo + (R/Z) 

de la plus petite topologie qui rend l’application π : D 0 +(T) → Homeo + (T) 

continue : une base de voisinage de Homeo + (T) est l’ensemble des V δ (f) où 

V δ (f) est {π ◦ (F + φ) : φ ∈ C 0 (T), ‖φ‖ C 0 < δ} où F est un relèvement de F .

4.1. HOMÉOMORPHISMES DU CERCLE 45 

4.1.2 Nombre de rotation 

Soit f un homéomorphisme du cercle et F (x) = x + φ(x) un relèvement 

(φ est 1-périodique). Remarquons que puisque φ est 1-périodique on peut 

considérer φ comme une application définie sur R/Z (exercice : vérifier). 

Le lemme et la remarque qui suivent sont à la base de la théorie du nombre 

de rotation 

Lemme 4.1.2 Si F (x) = x + φ(x) est le relèvement d’un homéomorphisme 

du cercle (préservant l’orientation) on a pour tout x, y ∈ R tels que |x − y| < 

1, l’inégalité |F (x) − F (y)| < 1. 

Démonstration.— Supposons en effet que x < y < x + 1. Comme F est 

strictement croissante et que F (x + 1) = F (x) + 1 on a F (x) < F (y) < 

F (x) + 1. 

Remarque : Si on note F n l’itéré n-ième de F on a 

∑n−1 

F n (x) − x = φ ◦ f k (x). 

k=0 

Le théorème fondamental de cette section est le suivant : 

Théorème 4.1.1 Les moyennes de Birkhoff de φ le long de f (ou F ) 

✷ 

F n (x) − x 

n 

= 1 ∑n−1 

φ ◦ f k (x) 

n 

k=0 

convergent uniformément vers un nombre ρ(F ). Pour toute mesure de probabilité 

µ sur R/Z invariante par f on a ρ(F ) = ∫ φdµ. Comme ρ(F + k) = 

R/Z 

ρ(F ) + k pour tout k ∈ Z on définit ρ(f) = ρ(F ) mod Z. 

Démonstration.— Considérons φ comme une application continue de R/Z 

sur R et soit µ une mesure de probabilité sur R/Z invariante par f. D’après 

le théorème de Birkhoff, on sait qu’il existe au moins un point x 0 ∈ R/Z pour 

lequel la somme de Birkhoff 1/n ∑ n−1 

k=0 φ ◦ f k (x 0 ) converge. Mais ceci signifie 

que (F n (x 0 ) − x 0 )/n converge vers un nombre ρ. Comme F n est un relevé de 

f n on a |F n (x) − F n (y)| < 1 pourvu que |x − y| < 1. Par conséquent, pour 

tout x tel que |x − x 0 | < 1 on a 

1 

n |(F n (x) − x) − (F n (x 0 ) − x 0 )| ≤ 2 n ,


ce qui prouve la convergence uniforme de 1 (F n (x) − x) vers un nombre ρ. 

n 

Pour identifier ce dernier, il suffit de constater que 

∫ 

∫ 

(F n (x) − x)dµ(x) = n φdµ 

R/Z 

pour obtenir que ρ = ∫ φdµ pour toute mesure de probabilité µ qui est 

R/Z 

f-invariante. 

Remarque On peut éviter le recours au Théorème ergodique en observant 

que l’égalité ∫ ( 

∫ ) 

(F k (x) − x) − k φdµ dµ(x) = 0 

R/Z 

assure l’existence d’un point x k pour lequel F k (x k ) − x k = kρ. 

Remarque La remarque de la preuve précédent montre que pour tout k ∈ Z 

il existe un point x k tel que R −kρ ◦ f k admette x k comme point fixe. 

Propriétés du nombre de rotation 

Proposition 4.1.1 1) Si f, g ∈ Homeo + (R/Z) et h : R/Z est une semiconjugaison 

: f ◦ h = h ◦ g alors ρ(f) = ρ(g). 

2) L’application ρ : D 0 +(T) → R (resp. ρ : Homeo + (R/Z) → T) est continue. 

3) Si f, g ∈ Homeo + (T) commutent (f ◦g = g◦f) alors ρ(f ◦g) = ρ(f)◦ρ(g). 

4) Si F, G ∈ D 0 +(T) vérifient ∀x ∈ R F (x) ≤ G(x) alors ρ(F ) ≤ ρ(G). 

5) Si f ∈ Homeo + (T), ρ(f) = p/q ((p, q) ∈ Z × Z, p.g.c.d.(p, q) = 1) si et 

seulement si f admet un point périodique de période q. 

6) Si on note R λ : R → R l’application R λ (x) = x + λ alors l’application 

λ ↦→ ρ(R λ ◦ F ) est croissante au sens large et si ρ(f) /∈ Q alors ρ(R λ ◦ f) = 

ρ(f) implique λ = 0. 


1) Soient F , G, H des relèvements de f, g, h et φ, ψ, θ ∈ C 0 (T) tels que 

F (x) = x + φ(x), G(x) = x + ψ(x), H(x) = x + θ(x). La relation de semiconjugaison 

se relève sous la forme F ◦ H = H ◦ G + k où k est un entier 

que l’on peut supposer nul quitte à le retrancher à F . Il est facile de voir que 

pour tout entier n on a F n ◦ H = H ◦ G n si bien que 

R/Z 

R/Z 

✷ 

F n (H(x)) − H(x) 

n 

= H(Gn (x)) − H(x) 

. 

n


Mais H(G n (x)) = G n (x) + θ(G n (x)), si bien que 

F n (H(x)) − H(x) 

n 

= Gn (x) − G(x) + (θ(G n (x)) − θ(x)) 

. 

n 

Mais θ est bornée sur R et en faisant tendre n vers l’infini on obtient le 

résultat. 

2) On a vu que (F n − id)/n convergeait uniformément vers ρ(F ). Mais F ↦→ 

(F n − id)/n est continue. Par conséquent (une limite uniforme de fonctions 

continues est continue) F ↦→ ρ(F ) est continue. 

3) On peut trouver des relèvements tels que F ◦ G = G ◦ F . On a donc 

(F ◦ G) n = F n ◦ G n et 

(F ◦ G) n (x) − x 

n 

et donc 

‖ (F ◦ G)n − id 

n 

−(ρ(F )+ρ(G)) = ( F n (G n (x)) − G n (x) 

n 

−(ρ(F )+ρ(G))‖ 0 ≤ ‖ F n − id 

n 

−ρ(F ))+( Gn (x) − x 

−ρ(G)) 

n 

−ρ(F ))|‖ 0 +‖ Gn − id 

−ρ(G))‖ 0 . 

n 

4) Si pour tout x F (x) ≤ G(x) alors comme F et G sont croissantes F (F (x)) ≤ 

F (G(x)) ≤ G(G(x)) et plus généralement F n (x) ≤ G n (x). 

5) Si f admet un point périodique x de période q, il existe un relèvement F 

et un entier p tel que F q (˜x) = ˜x + p (˜x est un relèvement de x). On a donc 

F nq (x) − x = np et donc ρ(F ) = p/q. Réciproquement si ρ(f) = p/q alors il 

existe un relèvement F tel que ρ(F ) = p/q. On a vu (cf. la Remarque dans 

la preuve de l’existence du nombre de rotation) qu’il existait x ∈ R tel que 

F q (x) = x+q(p/q) = x+p. Par conséquent f q (x) = x. Démontrons que q est 

la plus petite période. Notons l cette plus petite période : il existe un entier m 

tels que F l (x) = x+m ; la division euclidienne de q par l, q = al+r, 0 ≤ r < l 

donne le résultat suivant ; x + p = F q (x) = F q−al (F al (x)) = F q−al (x + am) = 

F r (x) + am. Par conséquent F r (x) = x + p − am où 0 ≤ r < l ce qui 

contredit la minimalité de l si r est non nul. On a donc r = 0 c’est-à-dire 

q = al et p = am ; mais alors p et q ne sont pas premiers entre eux d’où une 

contradiction. 

6) Notons F λ = R λ ◦ F . La croissance résulte du point 4). Si ρ(F ) /∈ Q et 

λ > 0 alors il existe un rationnel p/q tel que (p/q) − (λ/2q) < ρ(F ) < p/q. 

En outre, on sait qu’il existe un x ∈ R pour lequel F q (x) = x + qρ(F ) et 

donc x + p − (λ/2) < F q (x) < x + p. Par conséquent, comme F, F λ sont 

croissantes et λ > 0, F q λ (x) = F λ(F q−1 

λ 

(x)) ≥ F λ (F q−1 (x)) = λ + F q (x), 

si bien que F q λ (x) ≥ x + p + (λ/2) et donc ρ(F q λ 

) ≥ p + (λ/2). On a donc 

ρ(F λ ) > p/q > ρ(F ).


✷ 

Exercice Démontrer qu’en général le nombre de rotation de la composition 

de deux homéomorphismes du cercle préservant l’orientation n’est pas égal à 

la somme de leurs nombres de rotation. (Considérer une perturbation d’un 

difféomorphisme du cercle admettant un point fixe hyperbolique). 

4.1.3 Le théorème de Poincaré 

Une question centrale en systèmes dynamiques est de savoir si une dynamique 

donnée peut être conjuguée à une dynamique modèle plus simple. Dans 

le cas qui nous intéresse il s’agit de savoir si un homéomorphisme du cercle 

peut être conjugué à une rotation par un homéomorphisme. Comme nous 

allons le voir, ce n’est en général pas le cas mais on a le résultat important 

suivant dû à Poincaré. En fait, si ρ(f) /∈ Q on peut toujours semi-conjuguer 

f à une rotation. 

Théorème 4.1.2 Soit f ∈ Homeo + (T) tel que ρ(f) /∈ Q. Alors, il existe 

h : T → T continue surjective telle que f ◦ h = R ρ(f) ◦ h et h admet un 

relèvement de la forme H(x) = x + θ(x) croissant au sens large sur R avec 

θ ∈ C 0 (R/Z). En outre, si µ est une mesure de probabilité f-invariante et 

˜µ est un relèvement de µ à R (π ∗˜µ = µ) on peut choisir H(x) = ∫ x 

d˜µ(t). 0 

L’application h appartient à Homeo + (T) si et seulement si supp(µ) = T. 

Démonstration.— Soit µ une mesure de probabilité sur T invariante par f. 

Remarquons déjà que µ est sans atome car si ce n’était pas le cas l’orbite d’un 

atome serait nécessairement finie et donc f admettrait un point périodique ; 

or, cela est impossible car ρ(f) /∈ Q. On peut relever µ à R en posant pour 

tout borélien A de R ˜µ(A) = ∑ k∈Z 

µ(A ∩ [k, k + 1)). On a ˜µ(A + k) = ˜µ(A) 

pour tout borélien A de R et tout entier k. La mesure ˜µ ainsi obtenue est 

également F invariante si F est un relèvement de f. Posons H(x) = ∫ x 

d˜µ(t). 0 

Cette application est croissante au sens large puisque ˜µ est positive, elle est 

continue car ˜µ est sans atome et elle vérifie H(x + 1) = H(x) + 1 ; détaillons 

ce dernier point : ˜µ([0, x + 1]) = ˜µ([0, x]) + ˜µ([x, x + 1]) ; mais si k est l’entier 

pour lequel x ≤ k < x + 1 on a ˜µ([x, x + 1]) = ˜µ([x, k]) + ˜µ([k, x + 1]) = 

˜µ([x, k])+˜µ([k−1, x]) = ˜µ([k−1, k]) = 1. Démontrons que H vérifie la relation 

de semi-conjugaison. On a H(F (x)) = ˜µ([0, F (x)]) = ˜µ([0, x]) + ˜µ([x, F (x)]). 

Comme 

˜µ([x, F (x)]) = −˜µ([0, x]) + ˜µ([0, F (0)]) + ˜µ([F (0), F (x)])


et comme ˜µ est F -invariante et que F est un homéomorphisme (monotone) 

on a ˜µ([F (0), F (x)]) = ˜µ([0, x]) si bien que 

H(F (x)) = F (x) + λ 

où λ = ˜µ([0, F (0)]). Mais comme le nombre de rotation est invariant par 

semi-conjugaison on déduit de cela que λ = ρ(F ). 

L’application H est surjective puisque H(k) = k pour tout entier k et elle 

est strictement croissante si µ charge tout ouvert. 

✷ 

Remarques 1) On dit que (T, R ρ(f) ) est un facteur de (T, f). 

2) Il est commode de considérer que T = [0, 1]/ ∼ où ∼ est l’identification 

de 0 et de 1 et de voir h comme une application continue croissante au sens 

large de [0, 1] dans lui même et telle que h(0) = 0, h(1) = 1. 

3) Supposons que le support de µ ne soit pas égal à T. Son complémentaire 

est un ouvert qui possède ainsi un nombre dénombrable de composantes 

connexes. Si I est l’une d’entre elles h est constante sur I. Réciproquement, 

si I est un intervalle sur lequel h est constante alors I est inclus dans le 

support de µ 

4) Si I = (a, b), J = (c, d) sont deux composantes connexes distinctes et si on 

suppose par exemple (a, b, c, d) bien ordonné on a b < c car sinon {b} serait un 

point isolé dans le support de µ et serait un atome. On a µ([b, c]) > 0 car sinon 

(a, d) serait inclus dans le support de µ et I ne serait pas une composante 

connexe du complémentaire de suppµ. On a donc h(c) = h(b) + µ([b, c]) > 

h(b). On voit donc que les composantes connexes de O µ sont indexées par 

leurs h-hauteur. 

5) Notons O µ le complémentaire de suppµ. C’est un ouvert qui est invariant 

par f (puisque le support de µ est f-invariant). Si I est une composante 

connexe de O µ alors pour tout k ∈ Z, f k (I) est une composante connexe 

de I qui est toujours disjointe de I car h|f k (I) = h|I + kρ(f) mod 1 et 

ρ(f) /∈ Q. Par conséquent, toute composante connexe de O µ est un ensemble 

errant. 

6) Notons I µ l’ensemble dénombrable des composantes connexes de O µ et D µ 

l’union des ∂I, pour I variant dans I µ . Alors, D µ est un ensemble dénombrable 

et il est invariant par f puisque si x ∈ ∂I, I ∈ I µ on a f(I) ∈ I µ et 

x ∈ ∂(f(I)). 

Lemme 4.1.3 Soit h : [0, 1] → [0, 1], h(0) = 0, h(1) = 1 une application 

continue croissante. Notons O l’ouvert sur lequel h est localement constante,


K son complémentaire, I l’ensemble des composantes connexes de O et D 

l’union des ∂I, I ∈ I. Alors, D est dénombrable, h|(K − D) est un homéomorphisme 

de K − D sur son image et h −1 ([0, 1] − h(D)) = K − D. 

Démonstration.— Comme I est dénombrable, il en est de même de D. Si 

h(x) = h(y) avec x, y ∈ K − D et x < y alors h|]x, y[ est constante et donc 

]x, y[ est inclus dans une composante connexe I de O. Mais comme x, y sont 

dans K ceci implique que x, y ∈ ∂I ⊂ D ce qui est une contradiction. Ainsi, 

h est injective sur K − D. Par ailleurs, si h(x) ∈ [0, 1] − h(D) alors h n’est 

pas constante sur un voisinage de x (sinon il existerait I composante connexe 

de O contenant x et h(x) = h|∂I ∈ h(D)) et donc x ∈ K et n’est pas dans 

D. On a donc h −1 ([0, 1] − h(D)) = K − D. Enfin, si h −1 (x n ) → h −1 (x) avec 

x n , x ∈ [0, 1] − h(D), on a x n → x (car h est continue). 

✷ 

Minimal invariant 

Soit µ une probabilité invariante sur T par f ∈ Homeo + (T) et supposons 

que ρ(f) /∈ Q. Notons K µ le support de la mesure µ. C’est un ensemble 

compact de T qui est f-invariant. 

Proposition 4.1.2 Si K µ := suppµ ≠ T alors K µ est un ensemble de Cantor, 

c’est-à-dire est fermé, sans point isolé et d’intérieur vide. En outre K µ 

est l’unique compact minimal invariant. 

Démonstration.— L’ensemble K µ est sans point isolé car sinon un tel point 

serait un atome de µ. Démontrons que K µ est minimal. Pour cela il suffit de 

démontrer que si L est un compact invariant par f on a K µ ⊂ L. Le théorème 

de Poincaré montre que h µ (L) (resp. h µ (K µ )) est un compact de T invariant 

par R ρ : c’est donc T (R ρ est minimale). Comme h µ est injective sauf sur 

l’ensemble dénombrable D µ (cf. le Lemme 4.1.3), on a K µ −D µ ⊂ L. Comme 

K µ est sans point isolé et que D µ est dénombrable, on a K µ ⊂ L car K µ et L 

sont fermés, ce qui démontre que K µ est l’unique ensemble fermé f-invariant 

minimal. Ceci implique que K µ est d’intérieur vide : en effet, si ce n’était 

pas le cas, sa frontière K µ − int(K µ ) serait un ensemble fermé f -invariant 

(comme f est un homéomorphisme l’intérieur d’un ensemble invariant est 

invariant) et K µ ne serait pas minimal. 

✷

4.2. DIFFÉOMORPHISMES DU CERCLE 51 

Unique ergodicité 

Théorème 4.1.3 Si f ∈ Homeo + (T) vérifie ρ(f) /∈ Q alors f est uniquement 

ergodique. 

Démonstration.— Soit h telle que h ◦ f = R ρ ◦ h et ν une mesure de 

probabilité f invariante (on ne suppose pas que h(·) = ν([0, ·])).Comme 

h : (T, f) → (T, R ρ ) est un facteur, on voit que h ∗ ν est R ρ invariante et 

comme ρ est irrationnel h ∗ ν = Leb (R ρ est uniquement ergodique) 

Si h est un homéomorphisme on a donc ν = (h −1 ) ∗ Leb et ν est unique. 

Sinon, notons K le minimal invariant de f et D l’union des extrémités des 

composantes connexes de son complémentaire. Remarquons que suppν = K, 

car sinon il existerait un intervalle errant dans le support de ν, ce qui est 

impossible. Mais pour tout borélien A ⊂ R on a ν(A) = ν(K ∩ A) car 

K = suppν et comme D est dénombrable et que ν est sans atome ν(A) = 

ν((K ∩ A) − D). Comme h((K ∩ A) − D) ⊂ [0, 1] − h(D) on a d’après le 

Lemme 4.1.3 h −1 (h((K ∩ A) − D) = (K ∩ A) − D et comme h ∗ ν = Leb 

ν(A) = ν((K ∩ A) − D) = Leb(h((K ∩ A) − D)). 

Cette dernière quantité ne dépend pas de ν, donc ν est unique. 

✷ 

4.2 Difféomorphismes du cercle 

Nous donnons dans cette section un critère qui permet de déterminer 

quand la semi-conjugaison obtenue dans le théorème de Poincaré est en fait 

une conjugaison et quelle est la régularité que l’on peut espérer pour cette 

conjugaison. 

4.2.1 Rappels sur les fractions continues 

Soit 0 < α < 1 un nombre irrationnel et définissons par récurrence deux 

suites (a n ), (α n ) (n ≥ 0) où les a n ≥ 1 sont des entiers et les α n sont dans 

]0, 1[ : 

α n+1 = {α −1 

n }, a n+1 = [α −1 

n ], α 0 = α (4.1)


({·}, [·] sont respectivement la partie fractionnaire et la partie entière). On a 

ainsi la représentation 

α = 

1 

. 

1 

a 1 + 

1 

a 2 + 

1 

· · · + 

a n + α n 

Nous noterons p n /q n (p n ∧ q n = 1) le rationnel 

p n 

q n 

= 

1 

. 

1 

a 1 + 

1 

a 2 + 

· · · + 1 a n 

On dit que p n /q n est la n-ième réduite de α. Remarquons que si on effectue 

la procédure précédente avec p n /q n à la place de α on obtient des ˜α k pour 

1 ≤ k ≤ n avec ˜α n = 0 tels que 

˜α k+1 = {˜α −1 

k }, a k+1 = [˜α −1 

k ], α 0 = p n /q n (4.2) 

Il est commode d’introduire également les suites β n où 

Multipliant l’égalité α −1 

n 

ce qu’on peut écrire 

β n = α n · · · α 0 , β −1 = 1. 

= a n+1 + α n+1 par β n on voit que 

β n−1 = a n+1 β n + β n+1 

(−1) n+1 β n+1 = a n+1 (−1) n β n + (−1) n−1 β n−1 

ou encore ( ) 

(−1) n+1 β n+1 

(−1) n = 

β n 

On a donc 

( ) 

(−1) n β n 

(−1) n−1 = 

β n−1 

( ) ( ) 

an+1 1 (−1) n β n 

1 0 (−1) n−1 β n−1 

( ) ( ( ) 

an 1 a1 1 α 

· · · 

1 0 1 0) 

−1


Si on pose ˜β k = ˜α k · · · ˜α 0 on aura ˜β n = 0 et 

( 

) 

0 

(−1) n−1 = 

˜βn−1 

Notons P k , Q k ∈ N 

( ) 

Qn P n 

:= 

Q n−1 P n−1 

( ) 

an 1 

· · · 

1 0 

( ) 

an 1 

· · · 

1 0 

( 

a1 1 

1 0 

) ⎛ ⎞ 

p n 

⎝ 

q 

⎠ 

n 

−1 

( ) 

a1 1 

1 0 

( ) 

Qn P 

On a Q n P n−1 − Q n−1 P n = det 

n 

= (−1) 

Q n−1 P n si bien que P n ∧ Q n = 

n−1 

1. Par conséquent comme 0 = Q n p n /q n − P n on voit que P n /Q n = p n /q n 

mais comme P n ∧ Q n = p n ∧ q n cela implique P n = p n et Q n = q n . On a donc 

démontré 

Lemme 4.2.1 Les suites p n , q n sont définies par les relations de récurrence 

{ 

p n = a n p n−1 + p n−1 , p 0 = 1, p −1 = 0 

q n = a n q n−1 + q n−2 q 0 = a 1 , q −1 = 0 

Remarque Il est facile de voir que pour tout n ≥ 1 on a q n+1 > q n et 

tout n ≥ 2, q n ≥ 2 n/2 . 

Lemme 4.2.2 Pour tout n ≥ 1 on a 

α = p n + α n p n−1 

q n + α n q n−1 


On a 

α − p n 

q n 

= 

(−1) n 

(q n+1 + α n+1 q n )q n 

|α − p n 

| ≤ 1 < 1 . 

q n q n+1 q n qn 

2 

p n + α n p n−1 

q n + α n q n−1 

= a np n−1 + p n−2 + α n p n−1 

a n q n−1 + q n−2 + α n q n−1 

= α−1 n−1p n−1 + p n−2 

αn−1q n−1 + q n−2 

= p n−1 + α n−1 p n−2 

q n−1 + α n−1 q n−2


ce qui démontre la première égalité. 

On a 

α − p n 

= p n + α n p n−1 

− p n 

q n q n + α n q n−1 q n 

= α n(p n−1 q n − q n−1 p n ) 

q n (q n + α n q n−1 ) 

(−1) n 

= 

q n (α −1 

n q n + q n−1 ) 

En utilisant le fait que αn 

−1 = α n+1 + a n+1 et la relation de récurrence des q n 

on obtient la deuxième égalité. 

Enfin l’inégalité est immédiate. 

4.2.2 Théorème de Denjoy 

L’objet de cette section est la démonstration du théorème de Denjoy. 

Théorème 4.2.1 Soit f un homéomorphisme du cercle préservant l’orientation 

de nombre de rotation irrationnel. Supposons que f soit dérivable et que 

log(Df) (où Df(·) = f ′ est la dérivée de f) soit à variation bornée 1 . Alors, 

il existe un homéomorphisme h ∈ Homeo + (T) qui conjugue f à R ρ (f). 

Démonstration.— D’après le théorème de Poincaré, il s’agit de démontrer 

qu’il n’existe pas d’intervalles errants pour f. Cela est garanti par le lemme 

suivant : 

Lemme 4.2.3 (Inégalité de Denjoy) Sous les hypothèses du Théorème de 

Denjoy on a l’inégalité de Denjoy : pour tout q ∈ N tel qu’il existe p ∈ N 

vérifiant |α − (p/q)| < 1/q 2 (donc pour toute réduite) et tout x ∈ T 

où V = V ar(log(Df)). 

e −V ≤ Df q (x) ≤ e V , 

✷ 


Koksma : 

La preuve de ce lemme repose sur l’inégalité de Denjoy- 

1 Une fonction φ : [a, b] → R est à variation bornée s’il existe une constante C telle que 

pour tous a = x 0 < x 1 < · · · < x n < x n+1 = b on a ∑ n 

k=0 |φ(x k+1) − φ(x k )| ≤ C. On note 

alors V ar(φ) la plus petite constante C possible. Une fonction φ dont la dérivée est L 1 est 

automatiquement à variation bornée et V ar(φ) ≤ ‖φ ′ ‖ L 1


Lemme 4.2.4 (Denjoy-Koksma) Soit f un homéomorhisme du cercle préservant 

l’orientation et µ une mesure de probabilité telle que F ∗ µ = µ. Alors 

pour toute fonction φ ∈ C 0 (T) à variation bornée, tout x ∈ T et tout q ∈ N 

tel qu’il existe p ∈ N vérifiant |α − (p/q)| < 1/q 2 on a 

q−1 

∑ 

∫ 

∣ φ(f i (x)) − q φdµ 

∣ ≤ V ar(φ). 

T 

i=0 

Démonstration.— Considérons x = 0, identifions T avec [0, 1]/ ∼ et définissons 

q intervalles I k (x) = [x k , x k+1 [ (0 ≤ k ≤ q − 1) où 0 = x 0 < x 1 < . . . < 

x q−1 < x q = 1 sont définis par µ([x k , x k+1 ]) = (1/q) (on découpe donc le cercle 

en q parties d’égales µ-mesure). Supposons que (p/q) − (1/q 2 ) < ρ < p/q (sinon 

on considère f −1 ) ; on a pour tout 0 ≤ i ≤ q − 1 

ip 

q < iρ < ip q + 1 q . 

Notons que comme p et q sont premiers entre eux, p est inversible modulo 

q et l’ensemble {ip mod q, 0 ≤ i ≤ q − 1} a q éléments et est en bijection 

avec {k mod q, 0 ≤ k ≤ q − 1}. Nous noterons i ↦→ i(k) cette bijection et 

k ↦→ k(i) la bijection réciproque. Par conséquent, il y a un et un seul point 

de iρ mod Z (0 ≤ i ≤ q − 1) dans chaque intervalle I k ; nous noterons I k(i) 

l’intervalle contenant iρ mod Z. On a 

q−1 

∑ 

∫ 

∣ ∣∣∣ 

q−1 

∣ φ(f i (x)) − q φ(t)dµ(t) 

∣ = ∑ 

i=0 

T 

i=0 

q−1 

∑ 

= q 

∣ 

i=0 

q−1 

∑ 

= q 

∣ 

k=0 

q−1 

∫ 

φ(f k(i) (x)) − q 

T 

φ(t)dµ(t) 

∣ 

∫I k(i) 

( 

φ(f k(i) (x)) − φ(t) 

( 

) 

φ(f 

∫I i(k) (x)) − φ(t) 

k 

∣ ∑ ∣∣∣ ≤ max φ(f i(k) (x)) − φ(t) 

t∈I k 

∣ 

k=0 

≤ V ar(φ). 

) 

dµ(t) 

∣ 

dµ(t) 

∣ 

Nous pouvons démontrer l’inégalité de Denjoy : appliquons l’inégalité de 

Denjoy-Koksma à φ = log Df et observons que d’après la formule donnant 

✷


la dérivée d’une composition on a 

q−1 

∑ 

log Df q (x) = (log Df)(f k (x)). 

k=0 

On a donc 

∫ 

∣ log Df q (x) − q 

T 

log(Df(t))dµ(t) 

∣ ≤ V ar(log(Df)). 

Si on avait ∫ log(Df(t))dµ(t) > 0 par exemple, alors log Df q (x) convergerait 

uniformément vers ∞ tout comme Df q (x). Mais comme ∫ 1 

|Df q (t)|dt 

T 

0 

est égal à 1 (c’est la longueur de l’image du cercle par f q ) on obtient une 

contradiction. De même ∫ log(Df(t))dµ(t) ne peut être négative : elle est 

T 

donc nulle et l’inégalité de Denjoy est alors claire. 

Démontrons enfin le théorème de Denjoy. On sait qu’il existe un homéomorphisme 

h qui semi-conjugue f et R ρ et que h est un homéomorphisme si 

et seulement si f n’admet pas d’intervalles errants. Supposons que I soit 

un intervalle errant. Alors, on a lim n→∞ |f qn (I)| = 0 (|J| est la longueur de 

l’intervalle J). Mais d’après le théorème des valeurs intermédiaires il existe 

z n ∈ I tel que 

|f qn (I)| 

= Df qn (z n ). 

|I| 

On doit donc avoir lim n→∞ Df qn (z n ) = 0 ce qui contredit l’inégalité de Denjoy. 

La semi-conjugaison h est donc un homéomorphisme. 

4.2.3 Contre-exemples de Denjoy 

Le théorème de Denjoy est en général faux si f est seulement C 1 : 

Théorème 4.2.2 Si α est un nombre irrationnel, il existe un difféomorphisme 

C 1 de T qui préserve l’orientation et qui admet un minimal invariant 

différent de T (f n’est donc pas topologiquement conjugué à R α ou à une 

rotation en général). 

Nous ne donnerons pas la preuve de ce résultat. Disons seulement que l’idée 

de la preuve est d’"ouvrir" le cercle (en rajoutant des intervalles de longueurs 

variables) aux points R k α(0). 

✷ 

✷


4.2.4 Le Théorème d’Herman-Yoccoz 

Il est naturel de se demander si l’on ne peut pas obtenir dans le théorème 

de Denjoy une conjugaison plus régulière quitte à supposer f régulière (par 

exemple C ∞ ). C’est en général faux si l’on ne fait pas d’hypothèse sur le 

nombre de rotation de f. 

Définition 4.2.1 On dit que α est diophantien d’exposant σ ≥ 0 et de 

constante γ (on note α ∈ CD(γ, σ)) si pour tous entiers (p, q) ∈ Z×(Z−{0}) 

on a 

|α − p q | ≥ γ 

q 2+σ . 

Remarques 1) Il n’existe pas de nombre diophantien d’exposant σ < 0 

(pourquoi ). 

2) Il n’est pas difficile de démontrer que si σ > 0 et si on choisit γ suffisamment 

petit l’ensemble CD(γ, σ) est de mesure de Lebesgue positive. 

3) Si on définit CD(σ) = ⋃ γ>0 

CD(γ, σ) l’ensemble des nombres diophantiens 

d’exposant σ > 0, alors cet ensemble est de mesure de Lebesgue totale. 

4) Si α ∈ CD(σ) avec σ = 0 on dit que α est de type constant. Il est 

équivalent de dire que les a i qui interviennent dans le développement en 

fractions continues de α sont bornés. 

5) Un nombre est diophantien (dans l’union des CD(σ), σ ≥ 0) si et seulement 

si il existe une constante A > 0 telle que q i+1 ≤ q A i pour tout i. 

Théorème 4.2.3 Si f est un difféomorphisme de T préservant l’orientation, 

de classe C ∞ et tel que ρ(f) est diophantien, alors il existe un difféomorphisme 

de classe C ∞ qui conjugue f à R ρ(f) . 

Remarques 1) On peut en fait relier la régularité minimale de f requise pour 

que le théorème fournisse un conjugaison de classe au moins C 0 à l’exposant 

σ de ρ(f). 

2) Si α n’est pas diophantien, il existe des difféomorphismes f de classe C ∞ 

tels que ρ(f) = α qui ne sont pas linérisables (conjugués à des rotations). 

4.2.5 Théorème d’Arnold

58CHAPITRE 4. HOMÉOMORPHISMES ET DIFFÉOMORPHISMES DU CERCLE

Chapitre 5 

Hyperbolicité 

5.1 Point fixe hyperbolique d’un difféomorphisme 

Soit (E, ‖ · ‖) un espace de Banach et A : E → E un opérateur linéaire 

continu et inversible (son inverse est donc continu). On dit que A est hyperbolique 

s’il existe une décomposition E s ⊕ E u et des constantes positives 

C, ρ s , ρ u telles que pour tout v s ∈ E s (resp. v u ∈ E u ) et tout n ∈ N on a 

‖A n v s ‖ ≤ Ce −ρsn ‖v‖ (resp ; ‖A −n v u ‖ ≤ e −nρu ‖v‖ u . 

Quand E = R n est de dimension finie et A ∈ GL n (R), on peut démontrer 

que A est hyperbolique si et seulement si le σ(A), spectre de A (l’ensemble de 

ses valeurs propres) a une intersection vide avec le cercle unité {z ∈ C, |z| = 

1}. Dans ce cas, 

E s = 

⊕ 

λ∈σ(A):|λ|1 

et on peut choisir ρ s < min λ∈σ(A):|λ|1 (log |λ|). 

C’est une conséquence du théorème de décomposition de Jordan (cf. Annexe 

B) Comme les valeurs propres d’une matrice dépendent de façon continue de 

cette matrice on déduit facilement le résultat suivant. 

Proposition 5.1.1 L’ensemble des A ∈ GL(n, R) qui sont hyperboliques est 

un ouvert (le même résultat est vrai dans les Banach) 

Si A est hyperbolique, on dit qu’une norme est adaptée à A si pour tout 

v s ∈ E s (resp. v u ∈ E u ) on a ‖Av s ‖ ≤ e −ρs ‖v‖ (resp ; ‖A −1 v u ‖ ≤ e −ρu ‖v‖ u . 

Lemme 5.1.1 Si A est hyperbolique, il existe une norme A-adaptée (quitte 

à diminuer les valeurs de ρ s , ρ u ). 

59 

Γ λ ,

60 CHAPITRE 5. HYPERBOLICITÉ 

Démonstration.— Il suffit d’en construire une sur E s (et une sur E u ). Il 

suffit pour cela de définir pour v ∈ E s et ρ ′ s < ρ s 

‖v‖ ∗ = 

∞∑ 

e ρ′k ‖A k v‖. 

k=0 

Cette somme converge du fait de la décroissance exponentielle des termes de 

la série. En outre, 

‖Av‖ ∗ = 

∞∑ 

e ρ′k ‖A k+1 v‖ (5.1) 

k=0 

≤ e −ρ′ 

∞ 

∑ 

l=1 

e ρ′l ‖A l v‖ (5.2) 

≤ e −ρ′ ‖v‖ ∗ (5.3) 

On procède de la même manière pour définir ‖ · ‖ ∗ sur E u mais en itérant 

dans le passé. 

Définition 5.1.1 Soit f un difféomorphisme local de (R n , x 0 ) (on peut également 

travailler dans des Banach). On dit que x 0 est un point fixe hyperbolique 

de f si f(x 0 ) = x 0 et si Df(x 0 ) est hyperbolique. 

Lemme 5.1.2 Soit A ∈ Gl(n, R) et ε > 0. Alors il existe une constante 

δ > 0 pour laquelle ce qui suit est vrai : si F : R n → R n est une application 

de classe C 1 telle que 

‖F ‖ 1 := sup 

x∈R n max(‖F (x)‖, ‖DF (x)‖) < δ, 

alors, l’application f = A + F est un difféomorphisme de R n et (A + F ) −1 

est de la forme A −1 + G où G : R n → R n est ε-lipschitizienne : pour tous 

x 1 , x 2 ∈ R n ‖G(x 1 ) − G(x 2 )‖ ≤ ε‖x 1 − x 2 ‖. 

Démonstration.— L’équation y = Ax+F (x) est équivalente à x = K y (x) := 

A −1 y − A −1 F (x). ainsi, y étant donné, x est point fixe de K y . Or cette application 

K y : R n → R n est clairement k-contractante avec k = ‖F ‖ 1 ‖A −1 ‖ −1 

(pourvu que la constante de Lipschitz de F soit plus petite que ‖A −1 ‖ −1 ) et 

admet donc un unique point fixe x y . Comme la constante k est indépendante 

de y et que K y est continue par rapport à y, le point fixe x y dépend continûment 

de y. On a ainsi x = y + G(y) avec G continue. Montrons que G 

✷

5.1. POINT FIXE HYPERBOLIQUE D’UN DIFFÉOMORPHISME 61 

est Lipschitz. Pour y 1 , y 2 on a ‖x 1 − x 2 ‖ ≤ ‖A −1 (y 1 − y 2 )‖ + ‖F ‖ 1 ‖x 1 − x 2 ‖ 

c’est-à-dire ‖x 1 − x 2 ‖ ≤ (‖A −1 ‖/(1 − ‖F ‖ 1 )‖y 1 − y 2 ‖. 

Théorème 5.1.1 (Hartman-Grobman) Si A est linéaire et hyperbolique 

alors il existe ε > 0 tel que pour toute application F : R n → R n de classe C 1 

et telle que ‖F ‖ 1 ≤ ε il existe un homéomorphisme h : R n → R n de la forme 

h(x) = x + H(x) avec ‖H‖ 0 < ∞ tel que 

A + F = h ◦ A ◦ h −1 . 

En outre, un tel h est unique si on le cherche sous la forme id + K avec 

‖K‖ 0 < ∞. 

La preuve de ce théorème passe par la preuve de la proposition plus 

générale suivante 

Lemme 5.1.3 Si A est linéaire et hyperbolique alors il existe ε > 0 tel que 

pour toutes applications F 1 , F 2 : R n → R n de classe C 1 et telle que ‖F i ‖ 1 ≤ ε 

(i = 1, 2) il existe un homéomorphisme h : R n → R n de la forme h(x) = 

x + H(x) avec ‖H‖ 0 < ∞ tel que 

A + F 2 = h ◦ (A + F 1 ) ◦ h −1 . 

En outre, un tel h est unique si on le cherche sous la forme id + K avec 

‖K‖ 0 < ∞. 

Démonstration.— On peut supposer que la norme de notre espace de Banach 

est A-adaptée. Si G : R n → R n on note G s , G u ses projections sur E s 

parallèlement à E u et sur E s parallèlement à E s . L’équation de conjugaison 

que nous voulons résoudre est équivalente à 

et en projetant sur E s , E u 

(A + F 2 ) ◦ (I + H) = (I + H) ◦ (A + F 1 ) (5.4) 

AH + F 2 ◦ (I + H) = F 1 + H ◦ (A + F 1 ) 

A s H s + F 2,s ◦ (I + H) = F 1,s + H s ◦ (A + F 1 ) 

A u H u + F 2,u ◦ (I + H) = F 1,u + H u ◦ (A + F 1 ). 

Puisque d’après le lemme 5.1.2 A + F 1 est inversible si la norme C 1 de F 1 est 

suffisamment petite, on peut récrire ce système sous la forme 

H s = A s H s ◦ (A + F 1 ) −1 + F 2,s ◦ (I + H) ◦ (A + F 1 ) −1 − F 1,s ◦ (A + F 1 ) −1 

( 

) 

H u = A −1 

u F 1,u + H u ◦ (A + F 1 ) − F 2,u ◦ (I + H) 

✷


Introduisons alors l’espace de Banach (E, ‖ · ‖) des paires (H s , H u ) avec 

H s , H u ∈ C 0 (R n , R n ) telles que ‖(H s , H u )‖ := max(‖H s ‖ C 0 (R n ), ‖H u ‖ C 0 (R n )) 

soit fini et l’application Φ : E → E définie par Φ(H s , H u ) = ( ˜H s , ˜H u ) où 

˜H s = A s H s ◦ (A + F 1 ) −1 + F 2,s ◦ (I + H) ◦ (A + F 1 ) −1 − F 1,s ◦ (A + F 1 ) −1 

( 

) 

˜H u = A −1 

u F 1,u + H u ◦ (A + F 1 ) − F 2,u ◦ (I + H) . 

Utilisant le fait que F 2,u est ‖F 2 ‖-lipschitzienne, on voit que l’application Φ 

est k-contractante avec 

k = min(ρ s + ‖F 2 ‖ 1 , ρ u (1 + ‖F 2 ‖ 1 )) 

On a bien 0 ≤ k < 1 si ‖F ‖ 2 est suffisamment petite. Par conséquent l’équation 

(5.4) a une unique solution de la forme I + H où H est de norme C 0 - 

bornée sur R n . Il n’est en revanche pas clair a priori que I + H est inversible. 

Ceci découle de la remarque suivante : Intervertissons les rôles de F 1 et F 2 : 

on obtient ˜H tel que 

(A + F 1 ) ◦ (I + ˜H) = (I + ˜H) ◦ (A + F 2 ) 

et tenant compte de (5.4) on obtient 

(I + ˜H) ◦ (I + H) ◦ (A + F 1 ) = (A + F 1 ) ◦ (I + ˜H) ◦ (I + H). (5.5) 

L’application (I + ˜H) ◦ (I + H) est de la forme I + Ĥ où Ĥ est C0 -bornée sur 

R n et est de ce fait l’unique solution de (5.5). Mais I est également solution 

de cette équation : par conséquent (I + ˜H) ◦ (I + H) = I, ce qui démontre 

que I + H est un homéomorphisme. 

Le théorème précédent admet une version locale : 

Théorème 5.1.2 Si f : (R n , 0) est un difféomorphisme local de classe C 1 

tel que A = Df(0) est hyperbolique, alors il existe un homéomorphisme local 

h : (R n , 0) tel que sur un voisinage de 0 

f = h ◦ Df(0) ◦ h −1 . 

Démonstration.— L’idée de la preuve est de trouver une extension ˜f de f 

à R n tout entier qui reste un difféomorphisme C 1 de R n sur R n . Supposons 

que f soit défini sur une boule de centre 0 et de rayon 3δ. On conjugue tout 

✷

5.2. STABILITÉ STRUCTURELLE DES AUTOMORPHISMES DU TORE63 

d’abord f par une dilatation M δ : x ↦→ δx pour obtenir f δ = M −1 

δ 

◦ f ◦ M δ ; 

on a ainsi pour tout x dans la boule B(0, 3) de centre 0 et de rayon 3 

f δ (x) = 1 δ f(δx), 

Df δ(x) = Df(x). 

D’après le théorème des accroissements finis 

|f δ (x) − Df(0)x| ≤ 3ε(δ) 

où ε(δ) = max x∈B(0,3δ) |Df(x) − Df(0)| tend vers 0 avec δ (f est C 1 ). Soit 

alors η une fonction de classe C ∞ qui vaut 0 sur B(0, 1) et 1 en dehors de 

B(0, 2) et posons 

˜f δ (x) = Df(0)x + η(x)(f δ (x) − Df(0)x). 

Il est clair que sur la boule B(0, 1) on a ˜f δ (x) = f / d(x) et en dehors de la boule 

B(0, 2) ˜f δ (x) = Df(0)x. En outre, comme D ˜f δ (x) = Df(0) + Dη(x)(f δ (x) − 

Df(0)x)+η(x)(Df δ (x)−Df(0)) on voit que ‖ ˜f δ −Df(0)x‖ C 1 (R n ) ≤ 3ε(δ)‖η‖ C 1. 

Par conséquent, dès que δ est suffisamment petit, le théorème de Hartman- 

Grobman global s’applique à ˜f δ et il existe une conjugaison ˜h telle que 

˜f δ = ˜h ◦ Df(0) ◦ ˜h −1 . Cette relation est vraie sur B(0, 1) et on a donc 

f = h ◦ Df(0) ◦ h −1 où h = M δ ◦ ˜h ◦ M −1 

δ 

. 

5.2 Stabilité structurelle des automorphismes 

du tore 

Nous appliquons les résultats de la section précédente à un exemple de 

stabilité structurelle. Soit A ∈( SL(d, ) Z) telle que Spec(A) ∩ {|z| = 1} = ∅ 

2 1 

(par exemple la matrice A = ). La matrice A est donc hyperbolique. 

1 1 

On a vu que A définissait un difféomorphisme T A de T d qui préserve la 

mesure de Haar sur T d . En outre, il est facile de voir par l’analyse de Fourier 

que (T A , Haar) est ergodique. Considérons à présent une perturbation f, C 1 - 

proche de T A (‖f − A‖ C 1 est petite). Le théorème que nous allons démontrer 

établit que f est C 0 -conjuguée à A. 

5.2.1 Forme des homéomorphismes du tore 

Proposition 5.2.1 Soit f un homéomorphisme de T d . Alors, il existe une 

matrice A ∈ GL(d, Z) et une application φ : R d /Z d → R d continue elles que 

✷


F : R d → R d , F (x) = Ax + φ(x) est un relèvement de f (π ◦ F = f ◦ π où 

π : R d → T d est la projection canonique). 

Démonstration.— Soit F un relèvement continue de f. Pour tout entier 

k ∈ Z d , F (· + k) − F (·) prend des valeurs entières et il existe donc l(k) ∈ Z d 

tel que F (·+k)−F (·) = l F (k). Il es facile de voir que l F (k+k ′ ) = l F (k)+l F (k ′ ) 

pour tous k, k ′ ∈ Z d . En outre, si on note G un relevé de f −1 tel que G = F −1 , 

il est facile de voir que l F ◦ l G = id. Par conséquent (Exercice) il existe une 

matrice A ∈ GL(d, /Z) telle que l F (k) = Ak pour tout k ∈ Z d . L’application 

F − l F est clairement Z d -périodique. 

Remarque La matrice A est l’action f ∗ de f sur H 1 (T d , Z). 

5.2.2 Conjugaison topologique 

Théorème 5.2.1 Si f est un difféomorphisme du tore T d de classe C 1 de 

la forme f = A + φ où A ∈ GL(d, Z) est hyperbolique et ‖φ‖ C 1 (T d ) est 

suffisamment petite, alors il existe un homéomorphisme h de T d tel que 

f = h ◦ T A ◦ h −1 . 

Démonstration.— Soit F (x) = Ax + φ(x) un relèvement de f avec ϕ ∈ 

C 1 (R d /Z d , R d ). On sait d’après la forme global du théorème d’Hartman- 

Grobman qu’il existe une application θ : R d → R d continue bornée, telle 

que H := id + θ soit un homéomorphisme de R d et telle que 

F = A + φ = (I + θ) −1 ◦ A ◦ (I + θ). 

Démontrons que θ est Z d -périodique. Comme φ est Z d -périodique, on voit 

que pour tout point x ∈ R d , tout k ∈ Z d et tout n ∈ Z 

F n (x + k) = F n (x) + A n k. 

Comme H(x) = x + θ(x) avec θ bornée par une constante disons M on a 

( 

) 

max ‖H(F n (x + k)) − F n (x + k)‖, ‖H(F n (x)) − F n (x)‖ ≤ M 

et d’après la relation de conjugaison 

( 

) 

max ‖A n (H(x + k)) − F n (x + k)‖, ‖A n (H(x)) − F n (x)‖ ≤ M 

ce qui entraîne 

‖A n (H(x + k) − H(x)) − (F n (x + k) − F n (x))‖ ≤ 2M 

✷

5.3. VARIÉTÉS STABLES ET INSTABLES 65 

c’est-à-dire 

‖A n (H(x + k) − H(x)) − A n k)‖ ≤ 2M. 

Par conséquent, pour tout n ∈ Z la suite A n (H(x+k)−H(x)−k) est bornée. 

Comme A est hyperbolique cela implique que 

H(x + k) = H(x) + k; 

comme cela est vrai pour tout k ∈ Z d , θ est bien Z d périodique et H passe 

au quotient par Z d : si on pose h = H ◦ π on a bien h ◦ f = T A ◦ h, et il est 

facile de voir que h est inversible (H l’est). 

✷ 

5.3 Variétés stables et instables 

Nous supposerons dans la suite que A ∈ GL(n, R) est une matrice hyperbolique 

et nous noterons E s et E u ses espaces stables et instables et ρ s et ρ u 

des exposants associés. 

Théorème 5.3.1 Soient A : R n une matrice hyperbolique et k ≥ 1. Il 

existe ε tel que pour toute application F : R n → R n de classe C k telle que 

‖F ‖ C k (R n ) ≤ ε, F (0) = 0, DF (0) = 0, l’ensemble W s des points de R n tels 

que lim n→∞ d(f n (x), 0) = 0 (où f = A + F ) est le graphe d’une fonction 

S : E s → E u de classe C k telle que S(0) = 0 et DS(0)|E s = 0, c’est-à-dire 

que W s coïncide avec {x s + S(x s ) : x s }. En outre, pour tout x ∈ W s on a 

pour tout 0 ≤ α < ρ 

d(f n (x), 0) ≤ C x e −nα . 

Démonstration.— On peut supposer que la norme de R n avec laquelle 

on travaille est A-adaptée. Introduisons l’espace E des couples de suites 

((s n ) n≥1 , (u n ) n≥0 )) où pour tout n ≥ 1, s n ∈ E s et tout n ≥ 0, u n ∈ E u . 

Posons pour α > 0, 

‖(s, u)‖ α = max(sup 

n≥1 

e nα |s n |, sup e nα |u n |), 

n≥0 

et notons E α l’ensemble des (s, u) ∈ E tels que ‖(s, v)‖ α < ∞. Muni de ‖ · ‖ α 

c’est un espace de Banach. Notons Φ l’application Φ : E s × E α → E α qui à 

(t, (s, u)) associe la (˜s, ũ) définie par les relations suivantes : pour tout n ≥ 1 

˜s n+1 = A s s n + F s (s n , u n ) 

u n+1 = A u ũ n + F u (s n , u n )


et 

˜s 1 = A s t + F s (t, u 0 ) 

u 1 = A u ũ 0 + F u (t, u 0 ) 

On a donc, 

˜s n = A s s n−1 + F s (s n−1 , u n−1 ) ˜s 1 = A s t + F s (t, u 0 ) 

ũ n = A −1 

u (u n+1 − F u (s n , u n )) ũ 0 = A −1 

u (u 1 − F u (t, u 0 )) 

Remarquons que si Φ(t, (s, u)) = (s, u), cela signifie que pour tout n ≥ 1, 

(s n , u n ) = f n (t, u 0 ) et que (s n , u n ) est dans E α . 

Exercice Montrer que pour t fixé Φ(t, ·) est κ-contractante où κ := max(e α (ρ+ 

‖DF ‖), ρ(e −α + ‖DF ‖)) < 1 

Exercice Montrer que Φ est C k et que la dérivée D 2 Φ(t, (u, v)) · (∆u, ∆v) = 

(∆ũ, ∆ṽ) où 

∆˜s n = A s ∆s n−1 + DF s (s n−1 , u n−1 ) · (∆s n−1 , ∆u n−1 ) 

∆ũ n = A −1 

u (∆u n+1 − DF u (s n−1 , u n−1 ) · (∆s n , ∆u n )) 

∆˜s 1 = DF s (t, u 0 ) · (0, ∆u 0 ) 

∆ũ 0 = A −1 

u (∆u 1 − DF u (t, u 0 ) · (0, ∆u 0 )) 

On a donc ‖D 2 Φ‖ ≤ max(e α (κ + ‖DF ‖), κ(e −α + ‖DF ‖)) < 1. Le théorème 

du point fixe à dépendance C k s’applique et permet de conclure la 

preuve du théorème. 

Comme corollaire du théorème précédent on obtient : 

Théorème 5.3.2 Si f : (R n , 0) est une application de classe C k telle que 

(f(0) = 0) Df(0) est hyperbolique, alors il existe des voisinages de 0, V ⊂ 

R n , V s ⊂ E s et V u ⊂ E u et des applications S s : V s → E u , S u : V u → E s , 

telles que S s,u (0) = 0 et DS s,u (0) = 0 et 

{(x s , x u ) ∈ V, lim 

n→∞ 

f n (x) = 0} = {(x s , S s (x s ), x s ∈ V s } 

{(x s , x u ) ∈ V, lim 

n→−∞ f n (x) = 0} = {(S u (x u ), x u ), x u ∈ V u }. 

En outre, pour tout α < ρ, et tout x ∈ W s 

loc (resp. x ∈ W u 

loc ), ‖f n (x)‖ ≤ 

C x e −nα pour tout n ≥ 0 (resp. n ≤ 0). 

✷

5.3. VARIÉTÉS STABLES ET INSTABLES 67 

Remarque : Si on considère des perturbations f λ de classe C k du difféomorphisme 

précédent telles qu’en topologie C k , λ ↦→ f λ soit continue, alors, 

il existe au voisinage de 0 un unique point fixe x λ hyperbolique pour f λ et 

les variétés stable et instable associées à x λ dépendent continûment de λ en 

topologie C k . (Exercice : Le démontrer ; on pourra démontrer une version 

à deux paramètres du théorème du point fixe).

68 CHAPITRE 5. HYPERBOLICITÉ

Chapitre 6 

Théorie spectrale 

Dans ce qui suit (X, B, µ, T ) est un système dynamique mesurable, X 

étant un espace de Lebesgue. L’idée de la théorie specrale est d’étudier ce système 

dynamique via les propriétés spectrales de l’isométrie U T : L 2 (X, µ) → 

L 2 (X, µ), φ ↦→ φ ◦ T . Nous supposerons dans la suite que T est inversible 

(T −1 étant B mesurable) de façon que U T est en fait un opérateur unitaire 

UT 

∗ = U −1 

T 

. On peut reformuler les notions d’ergodicité, de mélange ou de 

mélange faible au moyen de U T . Si on note P la projection orthogonale de 

L 2 (X, µ) sur ker(U T − Id) = L 2 (I, µ) (I étant la tribu des invariants de T ) : 

i) (X, B, µ, T ) est ergodique si et seulement si, la tribu des invariants I égale la 

tribu triviale {∅, X} ; d’après le théorème de Von Neumann ceci est équivalent 

au fait que pour tout φ ∈ L 2 (X, µ) 

1 ∑n−1 

lim UT k φ = P φ = 〈φ, 1〉1 

n→∞ n 

k=0 

au sens L 2 , où P est la projection orthogonale sur l’espace des fonctions 

constantes. En fait, (X, B, µ, T ) est ergodique si et seulement si pour tout 

φ ∈ L 2 (X, µ), S n φ/n converge faiblement vers P φ : pour tout ψ ∈ L 2 (X, µ) 

1 ∑n−1 

lim 〈UT k φ, ψ〉 = 〈P φ, ψ〉. 

n→∞ n 

k=0 

ii) (X, B, µ, T ) est mélangeant si pour tous φ, ψ ∈ L 2 (X, µ) 

lim 〈U T n φ, ψ〉 = 〈φ, 1〉〈ψ, 1〉 = 〈P φ, ψ〉, 

n→∞ 

(c’est-à-dire UT n φ converge faiblement vers P φ. 

69

70 CHAPITRE 6. THÉORIE SPECTRALE 

6.1 Le théorème spectral 

Le théorème fondamental est le suivant : 

Théorème 6.1.1 (Théorème spectral) Si H est un espace de Hilbert (séparable) 

et U : H → H un opérateur unitaire (U∗ = U −1 ) alors il existe 

a) r ∈ N ∪ {∞} et des mesuresν i , 1 ≤ i ≤ r telles que ν 1 >> ν 2 >> . . . 

b) une isométrie bijective Λ entre H et E = ⊕ r 

i=1 L2 (S 1 , Bor, ν i ) qui conjugue 

U (qui agit sur H) à l’opérateurM z de multiplication par z (qui agit sur E) : 

si Λv = φ(·) alors (ΛHv)(z) = zφ(z). 

En outre cette décomposition est essentiellement unique : si (H, U) est 

isométriquement équivalent à ( ⊕˜r 

i=1 L2 (S 1 , Bor, ˜ν i ), M z ) avec ˜ν 1 >> ˜ν 2 >> 

. . ., alors ˜r = r et ˜ν i est équivalente à ν i pour tout i. 

La démonstration du théorème spectral que nous ne ferons pas complètement 

repose sur les résultats suivants 

Théorème 6.1.2 (Existence des mesures spectrales) 1) Pour tout x ∈ 

H il existe une mesure de probabilité ν x telle que pour tout n ∈ Z 

∫ 

∫ 

〈U n x, x〉 = ˆν x (n) := z −n dν(z) = 

S 1 

R/Z 

e −2πinθ d˜ν(θ). 

2) Pour tout x ∈ H l’opérateur unitaire U restreint à l’espace cyclique 

C(x) = Adh{U k x, k ∈ Z} est isométriquement équivalent à l’opérateur de 

multiplication M z agissant sur L 2 (S 1 , Bor(S 1 , ν). 

Démonstration.— 1) Nous travaillerons plutôt sur R/Z ≡ S 1 (on note 

z = e 2πiθ ). Posons pour ‖x‖ = 1 

Par définition ν N ≥ 0 et puisque 

ν N (θ) = 1 N 

ν N (θ) = 1 N−1 

∑ 

∥ ∥∥∥ N ∥ (U k x)e 

2. 

2πikθ 

∑ 

0≤k,l≤N−1 

= ‖x‖ 2 + 1 N 

k=0 

〈U k , U l x〉e 2πi(k−l)θ 

∑ 

0≤k≠l≤N−1 

〈U k−l x, x〉e 2πi(k−l)θ

6.1. LE THÉORÈME SPECTRAL 71 

on voit que ∫ T ν(θ)dθ = 1. Ainsi la mesure ν N = ν N (θ)dθ est de probabilité. 

Le calcul précédent montre que 

ˆν N (n) = 1 N 

∑ 

0≤k≠l≤N−1 

k−l=n 

= N − n 

N 〈U n x, x〉 

〈U k−l x, x〉 

et donc pour tout n ∈ Z, lim n→∞ ˆν N (n) = 〈U n x, x〉. Ceci implique que ν N 

converge faiblement vers une mesure de probabilité ν et que ˆν(n) = 〈U n x, x〉. 1 

2) Pour tout polynôme trigonométrique P on a ν(P ) = 〈P (U)x, x〉. Par 

ailleurs, 

‖P (U)x‖ 2 = 〈(P (U)) ∗ P (U)x, x〉 

= 〈 ¯P (U −1 )P (U)x, x〉 

= ν(Q) (Q(z) := ¯P (z −1 )P (z)) 

= ν(|P | 2 ) 

car pour z ∈ S 1 (|z| = 1) ¯P (z −1 )P (z) = |P | 2 (z). On a donc démontré que 

pour tout polynôme trigonométrique 

∫ 

‖P (U)x‖ 2 = |P (z)| 2 dν(z). 

S 1 

Si P n (U)x est une suite de C(x) convergeant vers y ∈ C(x), la suite P n (U)x 

est de Cauchy et d’après l’inégalité précédente il en est de même de P n (·) ∈ 

L 2 (S 1 , ν). Il existe donc φ ∈ L 2 (S 1 , ν) tel que lim n→∞ ‖P n −φ‖ L 2 (ν) = 0. Si Q n 

est une autre suite de polynôme trigonométrique telle que Q n (U)x converge 

vers y il est facile de voir que Q n qui est de Cauchy dans L 2 (S 1 , ν) converge 

également vers φ 2 . Si on pose Ly = φ il est facile de voir que L est linéaire 

et par définition ‖y‖ = ‖Ly‖ L 2 (S 1 ,ν). 

Proposition 6.1.1 Si x et y sont dans H, notons µ x et µ y des mesures 

spectrales associées à x et y comme cela a été fait dans le théorème précédent. 

Alors, 

1 Pour tout polynôme trigonométrique la limite lim N→∞ ν N (P ) existe ; en outre, pour 

toutes fonctions continues φ, P : S 1 → C, on a |ν N (φ) − ν N ′(φ)| ≤ |ν N (P ) − ν N ′(P )| + 

sup S 1 |φ(z)−P (z)|. Par conséquent, pour toute fonction continue φ la suite ν N (φ) converge 

vers un réel ν(φ) ; d’après le théorème de Banach-Steinhaus ν est une mesure de probabilité. 

2 car ‖P n − Q n ‖ L2 (S 1 ,ν) converge vers 0 

✷


a) si µ x ⊥ µ y alors C(x) + C(y) ⊂ C(x + y). 

b) si C(x) ⊂ C(y) alors µ x

6.3. MÉLANGE FAIBLE 73 

On dit qu’ils sont métriquement isomorphes s’il existe une application inversible 

h : (X 1 , B 1 , ν 1 ) → (X 2 , B 2 , ν 2 ) telle que 

T 2 = h ◦ T 1 ◦ h −1 . 

D’après le théorème spectral et la propriété précédente, deux systèmes dynamiques 

ergodiques et à spectre discret sont spectralement isomorphe si et 

seulement si ils ont le même spectre. 

Théorème 6.2.1 Si deux systèmes dynamiques à spectre discret sont ergodiques 

et spectralement isomorphes (ont le même spectre) alors ils sont 

mesurablement isomorphes. 

Théorème 6.2.2 Un système dynamique ergodique et à spectre discret est 

métriquement isomorphe à une translation sur un groupe abelien compact. 

6.3 Mélange faible 

Définition 6.3.1 On dit que (X, B, ν, T ) est faiblement mélangeant (en abrégé 

f.m.) si 1 est l’unique valeur propre de U T et si elle est simple (les seules 

fonctions propres sont les constantes). 

Ainsi, une transformation f.m est ergodique. Le théorème spectral permet de 

caractériser les transformations faiblement mélangeante. : 

Théorème 6.3.1 Les assertions suivantes sont équivalentes : 

i) (X, B, µ, T ) est faiblement mélangeant ; 

ii) pour tous A, B ∈ B 

1 

lim 

n→∞ n 

∑n−1 

∣ µ(T −k A ∩ B) − µ(A)µ(B) 

∣ = 0; 

k=0 

iii) pour tous A, B ∈ B il existe un sous-ensemble N de N de densité 1 3 tel 

que 

lim µ(T −k A ∩ B) = µ(A)µ(B); 

n→∞ 

n∈N 

iv) les mêmes assertions que ii) et iii) mais en remplaçant "tous A, B ∈ B 

par "pour tous A, B dans un ensemble engendrant la tribu B" 

3 un ensemble A ∈ N est de densité 1 si (1/n) ∑ n−1 

k=0 1 A(k) converge vers 1 quand n → ∞


v) Pour toutes f, g ∈ L 2 (X, µ) 

1 ∑n−1 

(∫ 

lim |〈U k f, g〉| 2 = 

n→∞ n 

k=0 

X 

)(∫ ) 

fdµ ḡdµ . 

X 

Démonstration.— a) Nous allons d’abord démontrer i)ssiv). 

Supposons que i) soit vraie : par polarisation il suffit de démontrer que 

pour toute f ∈ L 2 (X, µ) 

1 ∑n−1 

(∫ 

) 2 

lim |〈U k f, f〉| 2 = f(x)dµ(x) 

n→∞ n 

k=0 

et il est facile de voir qu’il suffit de démontrer ceci pour f telle que ∫ f(x)dµ(x) = 

X 

0. Utilisons le théorème spectral pour U restreinte à l’espace cyclique engendré 

par f : il existe une mesure de probabilité ν borélienne sur S 1 et une 

fonction φ ∈ L 2 (S 1 , ν) telles que pour tout k 

∫ 

〈U k f, f〉 = z k φ(z) ¯φ(z)dν(z). 

S 1 

On a donc 

1 ∑n−1 

|〈U k f, f〉| 2 = 1 ∑n−1 

∫ 

n 

n ∣ z k φ(z) ¯φ(z)dν(z) 

2 

∣ 

k=0 

k=0 

S 1 

= 1 n−1 

∑ 

∫ 

2 

n ∣ z k dσ(z) 

∣ 

S 1 

k=0 

n−1 

X 

= 1 ∑ 

|ˆσ(k)| 2 

n 

k=0 

où µ est la mesure de probabilité dσ(z) = |φ(z)| 2 dν(z). Or, on a le théorème 

suivant : 

Théorème 6.3.2 (Wiener) Si σ est une mesure de probabilité sur S 1 

1 ∑n−1 

lim |ˆσ(k)| 2 = 

n→∞ n 

k=0 

∑ 

a atome de σ 

|σ({a})| 2 

Démonstration.— En effet 

1 ∑n−1 

|ˆµ(k)| 2 = 1 ∑n−1 

(∫ )(∫ 

) 

z k dσ(z) w −k dσ(w) 

n 

n 

k=0 

k=0 

S 1 S 1 

∫ ( 1 ∑n−1 

= 

(zw −1 ) 

)d(σ k ⊗ σ)(z, w). 

S 1 ×S n 1 

k=0

6.3. MÉLANGE FAIBLE 75 

Or, 

n−1 ∣ 1 ∑ ∣∣∣ 

∣ (zw −1 ) k ≤ 1 ∈ L 2 

n 

k=0 

converge simplement vers 1 ∆ (z, w) où ∆ est la diagonale z = w dans S 1 ×S 1 . 

Le théorème de convergence dominée montre donc que 

1 ∑n−1 

∫ 

lim |ˆµ(k)| 2 = 1 ∆ (z, w)d(σ ⊗ σ)(z, w) 

n→∞ n 

k=0 

S 1 ×S 

∫ 

1 

= σ({z})dσ(z) 

S 1 ∑ 

= |σ({a})| 2 

a atome de σ 

Utilisant ce théorème de Wiener on voit que 

1 ∑n−1 

lim |〈U k f, f〉| 2 = 

n→∞ n 

X 

k=0 

∑ 

a atome de ν 

|φ(a)| 2 |ν({a})| 2 . 

Mais, si ν({a}) > 0 cela signifie que a est valeur propre de U T restreint à 

C(f) (Pourquoi ) ; comme T est f.m a = 1 et la fonction propre associée 

est une constante non nulle. Ceci est impossible car toute fonction de C(f) 

est de µ moyenne nulle. 

L’implication réciproque est facile : si Uf = λf alors λ est de module 1 (car 

U est une isométrie) et U k f = λ k f. Par conséquent, 

(∫ 2 

1 ∑n−1 

fdµ) 

= lim |〈U k f, f〉| 2 1 ∑n−1 

= lim λ 2k = 0. 

n→∞ n 

n→∞ n 

k=0 

b) Les autres implications découleront facilement du lemme important suivant. 

Lemme 6.3.1 Soit (a k ) une suite de réels positifs. On a 

(a) 

1 ∑n−1 

lim a k = 0 

n→∞ n 

si et seulement si : (b) la suite a k tend vers 0 le long d’un ensemble de densité 

1 : il existe Z ⊂ N de densité 1 tel que 

k=0 

lim a 

n→∞ n = 0. 

n∈Z 

k=0 

✷


Démonstration.— Le fait que (b) implique (a) est trivial et laissé au lecteur. 

Montrons donc que (a) entraîne (b). Pour tout p ≥ 1 l’ensemble 

Z p = {k : a k ≥ 1 p } 

est de densité 0 (son complémentaire est de densité 1). Par conséquent il 

existe n p tel que pour tout n ≥ n p 

n 

1 ∑ p−1 

1 Zp (k) ≤ 1 n 

p . 

k=0 

Posons alors 

Z = ⋃ p≥1(Z p ∩ [n p , ∞[). 

Le long de Z c la suite a n tend vers 0 ; en effet, si n /∈ Z alors pour n ≥ n p 

on a a n ≤ (1/p). En outre, Z est de densité 0 : puisque les ensembles Z p 

croissent avec p, pour n ≥ 1, Z ∩ [0, n] ⊂ Z p où n p ≤ n < n p+1 . Donc, 

1 ∑n−1 

1 Z (k) ≤ 1 ∑n−1 

1 Zp (k) ≤ 1 n 

n 

p . k=0 

k=0 

✷ 

Le fait que v) implique iii) se fait en utilisant le lemme précédent et en 

faisant dans v) f = 1 A − µ(A), g = 1 B − µ(B). L’équivalence de iii) et ii) 

est encore due au lemme précédent. Montrons que iii) entraîne v) : Le lemme 

et iii) impliquent que v) a lieu pour f et g de la forme f = 1 A − µ(A), 

g = 1 B − µ(B) et donc v) a lieu pour f et g fonctions indicatrices puis 

fonctions simples puis L 2 . L’équivalence de iv) avec le reste est facile est 

laissée au lecteur. 

✷ 

Exercice : Démontrer que T est faiblement mélangeante si pour tous A, B, C ∈ 

B 

1 ∑n−1 

µ(A ∩ T −k B ∩ T −2k C) = µ(A)µ(B)µ(C). 

n 

k=0 

Le théorème précédent a pour conséquence le suivant :

6.4. FACTEUR DE KRONECKER 77 

Théorème 6.3.3 Les assertions suivantes sont équivalentes 

i) (X × X, B ⊗ B, µ ⊗ µ, T × T ) est ergodique 

ii) (X, B, µ, T ) est faiblement mélangeant 

iii) (X × X, B ⊗ B, µ ⊗ µ, T × T ) est faiblement mélangeant 

iv) pour tout (Y, C, ν, S) le système dynamique (X × Y, B ⊗ C, µ ⊗ ν, T × S) 

est ergodique. 


Montrons que i) implique ii) : Si φ est une fonction propre de T de v.p λ, 

T φ = λφ on a T ¯φ = ¯barφ si bien que si on pose ψ = φ ⊗ ¯φ (ψ(x, y) = 

φ(x) ¯ψ(y)) on a (T × T )ψ = ¯λλψ. Or, |λ| = 1 (U T est une isométrie) si bien 

que ψ est constante (T × T est ergodique) et par conséquent φ est constante 

µ-pp (Pourquoi ). 

ii) implique iii) : soient A, B, C, D ∈ B et Z un ensemble de densité 1 sur 

lequel µ(T −k A ∩ C) → µ(A)µ(C) et µ(T −k B ∩ D) → µ(B)µ(D) . On a par 

définition de la mesure produit 

(µ ⊗ µ)((T −k A × T −k B) ∩ (C × D)) = µ(T −k A ∩ C)µ(T −k B ∩ D). 

et quand k ∈ Z cette dernière quantité tend vers µ(A)µ(C)µ(B)µ(D) qui est 

(µ ⊗ µ)(A × B) · (µ ⊗ µ)(C × D)). 

iii) implique i) est immédiat. 

L’équivalence de iv) avec le reste se fait comme "ii) implique iii)". 

✷ 

Remarque : Quand on étudie des actions de groupes autres que Z on définit 

le faible mélange comme étant l’absence de sous-espaces vectoriels de 

dimension finie invariants en dehors de l’ensemble des constantes. 

6.4 Facteur de Kronecker 

Supposons que (X, B, µ, T ) soit ergodique et notons F l’adhérence dans 

L 2 (X, µ) de l’espace vectoriel engendré par les fonctions propres de U T . 

Notons par ailleurs K la tribu engendrée par les fonctions propres de U 

(c’est-à-dire engendrée par les {f > λ}, λ ∈ R, f fonction propre de U). Il 

est clair que F ⊂ L 2 (X, K). Démontrons l’inclusion réciproque. Remarquons 

que si f est une fonction propre de U de valeur propre associée λ alors 

f n est fonction propre de valeur propre λ n . Les valeurs propres de U sont 

simples, si bien que les fonctions f n , n ∈ Z sont deux à deux orthogonales


dans L 2 (X, µ). Si P (z) = ∑ |k|≤N a kz k est un polynôme en z, z −1 on a donc 

‖P (f)‖ L 2 (µ) = ∑ |k|≤N |a k| 2 et donc 

∫ 

‖P (f)‖ 2 L 2 (X,µ) = |P (z)| 2 dz. 

Si A est un borélien de T il existe une suite de tels polynômes trigonométriques 

P n qui converge vers 1 A dans L 2 (T, dz), si bien que 1 A ◦ f est limite 

dans L 2 (X, µ) de P n (f). Ceci démontre que toute fonction de L 2 (X, µ) de la 

forme 1 A ◦ f est dans F . Mais il est clair que L 2 (K, µ) est engendré par les 

1 A ◦ f quand A décrit les boréliens de T et f les fonctions propres de U. 

Notons à présent Λ le groupe abélien constitué des valeurs propres de U et 

Γ son groupe dual, c’est-à-dire le groupe des caractères de Λ. 

6.5 Couplages 

Etant donnés deux systèmes dynamiques (X 1 , B 1 , µ 1 , T 1 ) et (X 2 , B 2 , µ 2 , T 2 ), 

on appelle couplage, toute mesure ν définie sur la tribu B = B 1 ⊗ B 2 , invariante 

par T 1 × T 2 : X 1 × X 2 → X 1 × X 2 et qui se projette sur le premier 

facteur sur µ 1 et sur le deuxième facteur sur µ 2 . 

Exemple a) La mesure produit ν = µ 1 ⊗ µ 2 définie par ν(A 1 × A 2 ) = 

µ 1 (A 1 )µ 2 (A 2 ) est toujours un couplage. 

b) Si (X i , B i , µ i , T i ) = (X, B, µ, T ), i = 1, 2, la mesure diagonale ∆(A 1 × 

A 2 ) = µ(A 1 ∩ A 2 ) est un couplage. 

Définition 6.5.1 On dit que les systèmes dynamiques sont disjoints (X 1 , B 1 , µ 1 , T 1 ) 

et (X 2 , B 2 , µ 2 , T 2 ) si le seul couplage qu’ils admettent est la mesure produit. 

On a alors la propriété suivante simple mais très utile : 

Proposition 6.5.1 L’identité est toujours disjointe des ergodiques : avec les 

notations précédentes, si T 1 = Id et si (X 2 , B 2 , µ 2 , T 2 ) est ergodique, alors le 

seul couplage possible est la mesure produit. 

Démonstration.— Soit ν est une 

∑ 

mesure invariante par I × T 2 ; pour f ∈ 

C(X 1 ), g ∈ C(X 2 ) la moyenne 1 n−1 

n k=0 f(x 1)g(T2 k x 2 ) converge pour tout 

x 1 ∈ X 1 et µ 2 -p.t x 2 ∈ X 2 vers f(x 1 ) ∫ X 2 

g(y)dµ 2 (y). En particulier, puisque 

(π 2 ) ∗ ν = µ 2 la convergence a lieu ν-p.p. et d’après le théorème de convergence 

dominée 

∫ 

f(x 1 )g(x 2 )dν(x 1 , x 2 ) = 

X 1 ×X 2 

∫ 

f(x 1 )dν(x 1 , x 2 ) 

X 1 ×X 2 

∫ 

g(x 2 )dµ 2 (x 2 ). 

X 2 

T

6.6. MÉLANGE FAIBLE D’ORDRE SUPÉRIEUR 79 

Comme (π 1 ) ∗ ν = µ 1 on a donc 

∫ 

∫ 

∫ 

f(x 1 )g(x 2 )dν(x 1 , x 2 ) = 

X 1 ×X 2 

f(x 1 )dµ 1 (x 1 ) 

X 1 

g(x 2 )dµ 2 (x 2 ), 

X 2 

ce qui prouve que ν est la mesure produit. 

✷ 

Exercice On suppose que (X, B, µ, T ) est faiblement mélangeant. 

1) On note S = I ×T ×T 2 et ∆ la mesure diagonale sur (X 3 , B 3⊗ ) définie par 

∆(A × B × C) = µ(A ∩ B ∩ C). Soit λ une limite pour la topologie faible-∗ 

de la suite (1/N) ∑ N 

k=0 (S ∗) k ∆. Démontrer que λ est un couplage de (I, µ) et 

(T × T 2 , µ ⊗ µ). 

2) En déduire que pour tous A, B, C ∈ A 

lim 

N→∞ 

1 

N 

N∑ 

µ(A ∩ T −k B ∩ T −2k C) = µ(A)µ(B)µ(C). 

k=0 

[Comme (T 2 , µ) est ergodique ((T, µ) est f.m) et que (T, µ) est f.m., on voit 

que (T × T 2 , µ ⊗ µ) est ergodique] 

3). Démontrer que pour tous A, B, C ∈ A il existe N ⊂ N de densité 1 tel 

que 

lim 

k→∞,N∈N µ(A ∩ T −k B ∩ T −2k C) = µ(A)µ(B)µ(C). 

[Appliquer le résultat du 2. à (T × T, µ ⊗ µ), A × A, B × B, C × C pour 

obtenir 

] 

lim 

N→∞ 

1 

N 

N∑ 

( 

2 

µ(A ∩ T −k B ∩ T −2k C) − µ(A)µ(B)µ(C)) 

. 

k=0 

6.6 Mélange faible d’ordre supérieur 

B 

On dit qu’une transformation est p-mélangeante si pour tous A 1 , . . . , A p ∈ 

lim µ(A 1 ∩ T −n A 2 · · · ∩ T −n(r−1) A p ) = µ(A 1 )µ(A 2 ) · · · µ(A p ). 

n→∞ 

Une question toujours non résolue qui est l’objet de recherches actives est 

la suivante : le 2-mélange implique-t-il le 3-mélange Il est remarquable que


l’analogue faible de cette question admette une réponse positive dont la démonstration 

est non triviale. On dit qu’une transformation est faiblement 

mélangeante d’ordre p si pour tous A 1 , . . . , A p ∈ B il existe un ensemble 

Z ⊂ N de densité 1 tel que 

lim µ(A 

n→∞ 1 ∩ T −n A 2 · · · ∩ T −n(r−1) A p ) = µ(A 1 )µ(A 2 ) · · · µ(A p ). 

n∈Z 

Il est équivalent de dire que pour tous A 1 , . . . , A p ∈ B 

n−1 

lim 

n→∞ 

k=0 

On a 

∑ 

|µ(A 1 ∩ T −k A 2 · · · ∩ T −k(r−1) A p ) − µ(A 1 )µ(A 2 ) · · · µ(A p )| = 0. 

Théorème 6.6.1 Si (X, B, µ, T ) est faiblement mélangeant alors pour tout 

p ≥ 3 il est faiblement mélangeant d’ordre p. 

Il est facile d’adapter la preuve de l’exercice de la section précédente pour 

démontrer ce résultat. On peut également en donner une preuve en utilisant 

la méthode de Van der Corput. 

6.7 Argument de Hopf et Théorie spectrale 

Soit T un automorphisme ergodique du tore T 2 . Nous illustrons dans ce 

qui suit une méthode (due à Martine Babillot) qui permet de démontrer 

qu’un tel automorphisme est mélangeant. Soit f une fonction continue sur 

T 2 de moyenne nulle. Il existe une suite n k d’entiers pour laquelle f ◦ T n k 

converge faiblement dans L 2 (T 2 ) vers une fonction de carré intégrable g et 

nous devons démontrer que g est nulle. Supposons par l’absurde que g ne 

soit pas nulle. D’après le Théorème spectral, il existe une mesure ν sur le 

cercle et un isomorphisme unitaire V de {f ◦ T k : k ∈ Z} L2 (T 2 ) 

sur L 2 (ν) tel 

que V (l ◦ T ) = zV (l). Notons φ = V (f), ψ = V (g) et A le sous-espace de 

L 2 (ν) constitué des limites faibles de la suite de fonctions z n φ(z), n → ±∞. 

Il est facile de voir que A est stable par conjugaison complexe et par produit. 

Posons alors θ = |ψ| 2 qui est non identiquement nulle et dans A et posons 

h = V −1 (θ). Par définition il existe une suite n k → ∞ pour laquelle f ◦ T n k 

converge faiblement vers h et comme h est invariante par conjugaison il existe 

une suite n ′ k → ∞ telle que f ◦ T −n′ k converge faiblement vers h. D’après le 

Théorème de Banach-Sachs on sait que l’on peut extraire une sous-suite n ik de 

n k telle que les moyennes de Cesaro M K := (1/K) ∑ K 

i=1 f ◦T n ik 

converge dans

6.7. ARGUMENT DE HOPF ET THÉORIE SPECTRALE 81 

L 2 (T 2 ) vers h. Il existe donc une sous-suite K p pour laquelle M Kp converge 

p.p vers h. Par un argument classique on voit que h est constante sur presque 

toute feuille stable de T et on voit de la même manière que h est constante 

sur presque toute feuille instable de T . On en déduit que h est constante et 

comme h n’est pas identiquement nulle cette constante est également nonnulle. 

Mais cela est une contradiction car comme f est de moyenne nulle, 

toute limite faible de la suite f ◦ T n doit être de moyenne nulle. 

Cet argument présent l’intérêt de donner une démonstration simple du 

mélange du flot géodésique.

82 CHAPITRE 6. THÉORIE SPECTRALE

Chapitre 7 

Entropie 

La notion d’entropie métrique (resp. topologique) en théorie ergodique 

est un invariant très utile de conjugaison mesurable (resp. topologique). 

7.1 Entropie métrique 

Dans tout ce qui suit (X, B, µ, T ) est un système dynamique. 

7.1.1 Entropie d’une partition finie 

Si ξ est une partition mesurable finie de X c’est-à-dire si ξ est une partition 

finie de X en ensembles C i ∈ B, 1 ≤ i ≤ r (r = #ξ) de µ-mesure 

non-nulle 1 on définit l’entropie de la partition ξ par rapport à µ par 

H µ (ξ) = − 

r∑ 

µ(C i ) log(µ(C i )). 

i=1 

Dans la suite nous omettrons souvent l’indice µ. 

Il est commode d’introduire la fonction d’information définie pour tout 

x ∈ X par 

r∑ 

I(ξ)(x) = − log(µ(C i ))1 Ci (x). 

On a 

i=1 

∫ 

H µ (ξ) = 

X 

I(ξ)(x)dµ(x). 

Si ξ et η sont deux partitions mesurables finies on introduit la partition 

ξ ∨ η qui est la plus petite partition raffinant ξ et η (contenant les atomes de 

1 Nous dirons que les C i sont les atomes de la partition ξ 

83

84 CHAPITRE 7. ENTROPIE 

ξ et de η) : c’est la partition dont les atomes sont les C i ∩ D j , C i ∈ ξ, D j ∈ η. 

Essayons de calculer l’entropie de la partition ξ ∨ η en fonction de celles de 

ξ et de η : 

H(ξ ∨ η) = − 

∑ 

µ(C i ∩ D j ) log(µ(C i ∩ D j )) 

C i ∈ξ,D j ∈η 

= − ∑ 


= − ∑ 


= H(η) − ∑ 

µ(C i ∩ D j ) log(µ(C i |D j )µ(D j )) 

µ(C i ∩ D j ) log(µ(D j )) − 


∑ 


µ(C i ∩ D j ) log(µ(C i |D j )) 


où on a noté µ(C i |D j ) = µ(C i ∩ D j )/µ(D j ). Si on introduit l’entropie conditionnelle 

H(ξ|η) de ξ par rapport à η 

H(ξ|η) = − 

∑ 



on obtient la formule très importante 

Il est utile parfois d’écrire 

H µ (ξ ∨ η) = H µ (ξ|η) + H µ (η). 

H µ (ξ|η) = ∑ D j ∈η 

µ(D j )H µ(·|Dj )(ξ) 

où µ(·|D j ) est la mesure conditionnelle par rapport à D j (i.e µ(·|D j ) = µ(· ∩ 

D j )/µ(D j )). 

A ce stade il est pertinent d’introduire la fonction d’information conditionnelle. 

Supposons que ξ est une partition mesurable finie et que A est une 

sous-tribu de B ; dans la situation précédente, A sera la tribu ˆη engendrée par 

les atomes de la partition η. Introduisons l’espérance conditionnelle E(·|A) 

par rapport à la tribu A ; dans le cas où A = ˆη on a pour toute fonction 

f ∈ L 1 (X, B, µ) 

E(f|A)(·) = ∑ ( ∫ 

) 

1 

f(x)dµ(x) 1 Dj (·). 

µ(D j ) 

D j ∈η 

D j 

Nous définissons alors 

I(ξ|A)(·) = − ∑ C i ∈ξ 

( ) 

log E(1 Ci |A)(·) 1 Ci (·).

7.1. ENTROPIE MÉTRIQUE 85 

On définit alors l’entropie conditionelle de ξ par rapport à la tribu A 

∫ 

H(ξ|A) = I(ξ|A)(x)dµ(x). 

Remarquons que puisque ∫ E(f|A)dµ = ∫ fdµ on a 

X X 

∫ ∑ 

( ) ) 

H(ξ|A) = − log E(1 Ci |A)(·) E(1 Ci |A)(·) dµ 

X( 

C i ∈ξ 

ou encore en notant φ(t) = −t log t 

∫ 

∑ 

H(ξ|A) = 

X 

X 

C i ∈ξ 

Dans la cas où A = ˆη on retrouve le résultat précédent. 

( ) 

φ E(1 Ci |A)(·) dµ (7.1) 

Remarque : Si A = {∅, X} est la tribu triviale I(ξ|A)(·) = I(ξ)(·) tandis 

que si A = B on a I(ξ|A)(·) = 0 µ-pp. En effet, si A est la tribu triviale 

le résultat est clair tandis que si A = B on a E(1 Ci |A)(·) = 1 Ci (·) et donc 

I(ξ|A)(x) = ∑ C i ∈ξ φ(1 C i 

(x)) où φ(t) = −t log t (observer que φ(0) = φ(1) = 

0). 

Nous regroupons dans la proposition qui suit quelques propriétés utiles de 

l’entropie : 

Proposition 7.1.1 Si ξ et η sont des partitions mesurables finies 

1) H(ξ ∨ η) = H(η) + H(ξ|η) = H(ξ) + H(η|ξ) 2 

2) H(ξ ∨ η) ≤ H(ξ) + H(η). 

3) Si T : X → X est B-mesurable et préserve µ 

H(T −1 ξ|T −1 η) = H(ξ|η). 

4) Si ξ 1 < ξ 2 (ξ 2 est plus fine que ξ 1 3 ) alors H(ξ 1 |A) ≤ H(ξ 2 |A). 

5) Si A 1 ⊂ A 2 sont des tribus, H(ξ|A 2 ) ≤ H(ξ|A 1 ) 4 . (En particulier H(ξ|η) ≤ 

H(ξ).) 

6) On a toujours H(ξ) ≤ log(#ξ). 

2 et plus généralement H(ξ ∨ η|A) = H(η|A) + H(ξ|ˆη ∨ A) = H(ξ|A) + H(η|ˆξ ∨ A) : 

c’est facile à démontrer si A a un nombre fini d’atomes, plus délicat sinon. 

3 i.e. tout atome de ξ 2 est inclus dans un atome de ξ 1 

4 H(ξ|B) = 0, H(ξ|{∅, X}) = H(ξ)


Démonstration.— Le point 1) a déjà été démontré. Le point 3) est évident. 

Le 2) est un cas particulier de 5) qui repose sur l’inégalité de Jensen 5 et le 

fait que la fonction t ↦→ −t log t est concave : puisque A 1 ⊂ A 2 l’opérateur 

E(·|A 1 ) restreint à L 1 (A 2 ) est l’identité si bien que d’après l’inégalité de 

Jensen ( ( 

) ( 

) 

E φ E(1 Ci |A 2 )(·) 

)|A 1 ≤ φ E(1 Ci |A 1 )(·) ; 

comme 

∫ 

X 

( 

) ∫ ( ( 

) 

φ E(1 Ci |A 2 )(·) dµ = E φ E(1 Ci |A 2 )(·) 

)|A 1 dµ 

X 

l’égalité (7.1) permet de conclure la preuve de 5). 

Le point 4) (et son analogue conditionnel) se démontre en remarquant 

que puisque ξ 1 < ξ 2 on a ξ 1 ∨ ξ 2 = ξ 2 et donc, 

H(ξ 2 ) = H(ξ 1 ) + H(ξ 2 |ξ 1 ) ≥ H(ξ 1 ). 

Le point 6) est facile (utiliser la concavité de φ). 

✷ 

Exercice Démontrer que 

I(T −1 ξ) = I(ξ) ◦ T et 

I(ξ ∨ η) = I(ξ|η) + I(η). 

7.1.2 Entropie d’une transformation 

Définition 

Nous sommes en mesure de définir l’entropie d’une transformation (T, µ). 

Théorème 7.1.1 Si (X, B, µ, T ) est un système dynamique et si ξ est une 

partition mesurable finie de X la suite H( ∨ n−1 

k=0 T −k ξ) est sous-additive et on 

note 

n−1 

1 

h µ (T, ξ) = lim 

n→∞ n H( ∨ 

T −k ξ). 

( 

5 c’est-à-dire ) pour φ fonction concave, f ∈ L 1 (X, B, µ) et A sous-tribu de B on a 

φ E(f|A) ≥ E(φ ◦ f|A) ; cela se démontre facilement d’abord dans le cas où f est 

étagée 

k=0


Démonstration.— Notons ξ n = ∨ n−1 

k=0 T −k ξ. Puisque ξ n+m = ξ n ∨ ξ m on a 

d’après le 2 de la proposition 7.1.1 

H(ξ n+m ) ≤ H(ξ n ) + H(ξ m ). 

Définition 7.1.1 On définit l’entropie de (T, µ) comme étant 

h µ (T ) = sup h(T, ξ) 

ξ 

le sup étant pris sur toutes les partitions mesurables finies d’entropie finie. 

✷ 

Exemples : Calculons l’entropie d’une translation rationnelle sur R/Z d’angle 

p/q. Pour toute partition mesurable finie ξ d’entropie finie, le nombre d’atomes 

de la partition ∨ n−1 

k=0 T −k ξ est inférieur à (#ξ) q et est donc borné. Par conséquent 

h(T, ξ) = 0 pour toute partition finie et donc h(T ) = 0. 

Notons le théorème suivant 

Théorème 7.1.2 Pour toute partition mesurable finie ξ 

ou encore 


n−1 

∨ 

h(T, ξ) = lim H(ξ| T −k ξ) 

n→∞ 

h(T, ξ) = H(ξ| 

k=1 

∞∨ 

T −k ξ). 

k=1 

Pour la première partie, il suffit d’écrire 

∨ 

T −k ξ) = H(ξ ∨ 

n−1 

H( 

k=0 

n−1 

∨ 

k=1 

T −k ξ) 

n−1 

∨ 

n−1 

∨ 

= H(ξ| T −k ξ) + H( T −k ξ) 

k=1 

k=1 

k=1 

n−1 

∨ 

n−2 

∨ 

= H(ξ| T −k ξ) + H(T −1 T −k ξ) 

k=0 

n−1 

∨ 

n−2 

∨ 

= H(ξ| T −k ξ) + H( T −k ξ) 

k=1 

k=0


où on a utilisé le 3) de la proposition 7.1.1. Si on itère la relation précédente 

on trouve que 

n−1 

∨ 

n−1 

∨ 

H(ξ| T −k ξ) = H(ξ|T −1 ξ)+· · ·+H(ξ|T −1 ξ ∨T −2 ξ)+· · ·+H(ξ| T −k ξ). 

k=0 

La suite H(ξ| ∨ n−1 

k=1 T −k ξ) est décroissante par rapport à k (cf. 5) de la proposition 

7.1.1 ) et par conséquent converge ; le théorème de Césaro 6 permet 

de conclure. 

La deuxième partie du théorème se démontre en utilisant le lemme suivant 

: 

k=1 

Lemme 7.1.1 Si les tribus A n v’érifient A n ↑ A, alors 

lim H(ξ|A n) = H(ξ|A). 

n→∞ 

Démonstration.— D’après le théorème de convergence ( des martingales ) 

7 E(1 Ci |A n )(·) converge µ-p.p vers E(1 Ci |A)(·) et donc φ E(1 Ci |A n )(·) 

( 

) 

converge µ-p.p vers φ E(1 Ci |A n )(·) . Comme la fonction φ = −t log t est 

continue (donc bornée) sur [0, 1] les hypothèses du théorème de convergence 

dominée sont vérifiées et on a 

∫ ( 

) ∫ ( ) 

lim φ E(1 Ci |A n )(·) dµ = φ E(1 Ci |A)(·) dµ. 

n→∞ 

X 

X 

Puisque ξ est finie et que 

∫ 

H(ξ|A)(·) = 

∑ 

X 

C i ∈ξ 

( ) 

φ E(1 Ci |A)(·) dµ 

on a convergence µ-p.p de H(ξ|A n )(·) vers H(ξ|A)(·). L 

✷ 

✷ 

6 si a n converge alors la moyenne (a 1 + · · · + a n )/n converge vers la même limite 

7 Si f est une fonction L 1 (B, µ) E(f|A n ) converge L 1 et µ-p.p vers E(f|A).


Distance de Rokhlin 

Théorème 7.1.3 Si ξ et η sont deux partitions mesurables finies on a toujours 

|h µ (T , ξ) − h µ (T , η)| ≤ H (ξ|η) + H (η|ξ). 


En effet 

∨ 

n−1 

H( 

k=0 

n−1 

∨ 

T −k ξ) ≤ H( 

k=0 

n−1 

∨ 

≤ H( 

k=0 

n−1 

∨ 

≤ H( 

k=0 

n−1 

∨ 

≤ H( 

k=0 

n−1 

∨ 

≤ H( 

k=0 

T −k ξ ∨ 

n−1 

∨ 

k=0 

T −k η) 

n−1 

∨ 

T −k η) + H( 

k=0 

n−1 

∑ 

T −k η) + 

l=0 

n−1 

n−1 

∨ 

T −k ξ| 

k=0 

n−1 

∨ 

H(T −l ξ| 

k=0 

∑ 

T −k η) + H(T −l ξ|T −l η) 

l=0 

n−1 

∑ 

T −k η) + H(ξ|η) 

l=0 

n−1 

∨ 

≤ H( T −k η) + nH(ξ|η). 

k=0 

Diviser par n and faire tendre n → ∞ donne 

h(T, ξ) − h(T, η) ≤ H(ξ|η). 

T −k η) 

T −k η) 

L’inégalité inverse est claire. 

✷ 

Définition 7.1.2 La quantité d(ξ, η) = H(ξ|η)+H(η|ξ) définit une distance 

appelée distance de Rokhlin. Ainsi ξ ↦→ h(T, ξ) est 1-lipschitzienne. 

Mentionnons un corollaire très utile du théorème précédent : 

Théorème 7.1.4 Si ξ n est une suite de partition mesurables finies croissante 

telle que ˆξ n ↑ B alors 

lim 

n→∞ h(T, ξ n) = h(T ).



Remarquons que pour n ≤ m 

h(T, ξ m ) ≤ h(T, ξ n ) + H(ξ m |ξ n ); 

mais comme ξ n < ξ m on a H(ξ m |ξ n ) = 0. Ainsi la suite h(T, ξ n ) est décroissante 

et admet donc une limite. En outre, on a vu que H(η|ξ n ) convergeait 

vers H(η|B) = 0. Comme 

on en déduit que pour tout η 

h(T, η) ≤ h(T, ξ n ) + H(η|ξ n ), 

h(T, η) ≤ lim 

n→∞ 

h(T, ξ n ), 

c’est-à-dire h(T ) ≤ lim n→∞ h(T, ξ n ). L’inégalité inverse est évidente. 

Générateur, générateur fort 

Définition 7.1.3 Si le système dynamique (T, µ) est inversible, on dit qu’une 

partition est un générateur pour T (resp. générateur fort) si B coïncide avec la 

tribu engendrée par ∨ ∞ 

k=−∞ T −k ξ (resp. ∨ ∞ 

k=0 T −k ξ). Si T n’est pas inversible 

seule la définition d’un générateur fort (au sens précédent) est pertinente. 

Le théorème suivant permet de calculer facilement des entropies : 

Théorème 7.1.5 Si ξ est un générateur (resp. générateur fort) pour T 


∨ 

n−1 

H( 

k=0 

Ecrivons, 

n−1 

∨ 

T −k η) ≤ H( 

k=0 

m+n−1 

∨ 

≤ H( 

h µ (T ) = h µ (T, ξ). 

k=0 

m+n−1 

∨ 

≤ H( 

k=0 

T −k η ∨ 

m+n−1 

∨ 

k=0 

T −k ξ) 

n−1 

∨ 

T −k ξ) + H( 

k=0 

n−1 

∑ 

T −k ξ) + 

m+n−1 

∨ 

≤ H( T −k ξ) + 

k=0 

m+n−1 

∨ 

≤ H( 

k=0 

l=0 

∑n−1 

l=0 

n−1 

l=0 

m+n−1 

∨ 

T −k η| 

k=0 

m+n−1 

∨ 

H(T −l η| 

k=0 

m+l 

∨ 

H(T −l η| 

k=l 

T −k ξ) 

T −k ξ) 

T −k ξ) 

∑ m∨ 

T −k ξ) + H(η| T −k ξ). 

k=0 

✷


Or, 

lim H(η| ∨ m 

m→∞ 

k=0 

T −k ξ) = 0 

puisque la tribu engendrée par ∨ m 

k=0 T −k ξ converge en croissant vers B. Par 

conséquent, si on choisit m assez grand pour que H(η| ∨ m 

k=0 T −k ξ) ≤ ɛ on a 

pour n assez grand 

n−1 

1 

n H( ∨ 

T −k η) ≤ n + m 

n 

k=0 

Si on fait tendre n vers l’infini on obtient 

m+n−1 

1 

n + m H( ∨ 

T −k ξ) + nɛ. 

h(T, η) ≤ h(T, ξ) + ɛ 

ceci pour tout ɛ et tout η. Par conséquent h(T ), qui est le sup des h(T, η), 

égale h(T, ξ). 

Remarque : 

1) Si T est inversible et admet un générateur fort alors h(T ) = 0. 

2) Toute transformation d’entropie finie admet une partition génératrice finie 

qui a au plus [e h(T ) ] + 1 éléments. (Krieger). 

7.1.3 Exemples 

Entropie d’une translation sur un tore 

Calculons l’entropie d’une translation x ↦→ x + α sur R/Z par rapport à 

la mesure de Haar (qui est clairement invariante). On a déjà vu que h(T ) = 0 

si α est rationnel. Supposons donc α irrationnel. 

Première méthode : Soit ξ une partition finie en intervalles du cercle et notons 

A l’ensemble des extrémités de ces intervalles. Un instant de réflexion 

montre que le joint ξ n := ∨ n−1 

k=0 T −k ξ est la partition en intervalles qui sont 

les composantes connexes du complémentaire de ⋃ n−1 

k=0 T k A dans le cercle. 

Ainsi, ξ n comporte au plus n#ξ atomes et donc 

h(T, ξ) = lim 

n→∞ 

log(n#ξ) 

n 

k=0 

= 0. 

A présent, si ξ (m) est la partition en intervalles m-adiques il est clair que 

ξ (m) ↑ Bor et le théorème 7.1.4 permet de dire que h(T ) = 0. 

✷


Deuxième méthode : On peut raisonner de la façon suivante ; la partition 

ξ = {[0, 1/2), [1/2, 1)} est génératrice quand α est irrationnel car pour tout 

m, la tribu engendrée par les intervalles m-adiques est incluse dans la tribu 

engendrée par les atomes du joint ∨ n−1 

k=0 T −k ξ pour n assez grand (le sup des 

diamètres des atomes tend vers 0). Il suffit donc de démontrer que h(T, ξ) = 0 

ce qui s’effectue comme précédemment. On peut aussi procéder de la façon 

suivante : h(T, ξ) = lim n→∞ H(ξ| ∨ ∞ 

k=1 T −k ξ) = 0 car le joint précédent engendre 

la tribu borélienne. 

On peut généraliser les résultats précédents aux cas des translations sur le 

tore T d . (Exercice). 

7.1.4 Théorème de Shannon 

Théorème 7.1.6 (Shannon-Mc-Millan-Breiman) Si T est µ ergodique 

et si ξ est une partition mesurable finie 

n−1 

1 

lim 

n→∞ n I( ∨ 

T −k ξ)(·) = h(ξ, T ) 

k=0 

la convergence précédente ayant lieu µ-p.s et L 1 (µ). 

Démonstration.— Notons B n = ∨ n−1 

k=1 T −k ξ pour n ∈ N ∪ {∞} et B 0 = 

{∅, X}. On a d’après l’exercice de l’exercice suivant la proposition 7.1.1 

∨ 

n−1 

I( 

et par conséquent 

Posons 

n−1 

I( 

k=0 

n−1 

∨ 

T −k ξ) = I(ξ| 

k=1 

n−1 

∨ 

T −k ξ) + I( 

k=1 

T −k ξ) 

n−1 

∨ 

n−2 

∨ 

= I(ξ| T −k ξ) + I( T −k ξ) ◦ T 

k=1 

k=0 

∨ 

T −k ξ) = I(ξ|B 0 ) ◦ T n + I(ξ|B 1 ) ◦ T n−1 + · · · + I(ξ|B n ). 

k=0 

g n (·) = |I(ξ|B n )(·) − I(ξ|B ∞ (·)|, 

G M (·) = sup g n (·). 

n≥M


On a vu que G M (·) → 0 µ-p.p et L 1 (µ) quand M → ∞. Pour M > 0 on a 

n∑ 

n∑ 

I n (x) = (I(ξ|B k ) − I(ξ|B ∞ )) ◦ T n−k (x) + I(ξ|B ∞ ) ◦ T n−k (x) 

k=0 

M−1 

∑ 

≤ g k ◦ T n−k (x) + 

k=0 

k=0 

n∑ 

G M ◦ T n−k (x) + 

k=M 

M−1 

∑ 

n−M 

∑ 

≤ g k ◦ T n−k (x) + G M ◦ T l (x) + 

k=0 

l=0 

n∑ 

I(ξ|B ∞ ) ◦ T n−k (x) 

k=0 

n∑ 

I(ξ|B ∞ ) ◦ T l (x) 

D’après le théorème de Birkhoff ( µ est ergodique) on a µ-p.s 

1 

n∑ 

∫ 

lim I(ξ|B ∞ ) ◦ T l (x) = I(ξ|B ∞ )dµ 

n→∞ n 

l=0 

X 

l=0 

= h(T, ξ) 

tandis que 

n−M 

1 ∑ 

∫ 

lim G M ◦ T l (x) = G M dµ ≤ ɛ M . 

n→∞ n 

l=0 

X 

Enfin on a µ-p.p 8 

M−1 

1 ∑ 

lim g k ◦ T n−k (x) = 0. 

n→∞ n 

Au total, pour µ-presque tout x et tout M 

lim sup | 1 ∫ 

n→∞ n I(ξ)(x) − h(T, ξ)| ≤ G M dµ ≤ ɛ M . 

X 

Comme ɛ M → 0 on a bien la conclusion. 

k=0 

Remarque : Le théorème précédent se reformule de la façon suivante ; si 

on note C ξ,n (x) l’atome de la partition ∨ n−1 

k=0 T −k ξ qui contient x, on a pour 

µ-p.t x 

1 

lim 

n→∞ n log µ(C ξ,n(x)) = −h(T, ξ). 

Il est facile de voir que pour tous α, β > 0 il existe un n 0 tel que pour tout 

n ≥ n 0 il existe C n ∈ X tel que : 1) µ(C n ) ≥ 1 α ; 2) C n admet une partition 

mesurable finie dont les atomes sont de µ-mesures comprises entre e −n(h+β) 

et e −n(h−β) et dont le nombre d’atome est dans [e n(h−β) , e n(h+β) ]. 

8 si h est une fonction L 1 (µ), alors h ◦ T n /n converge µ − pp vers 0 (appliquer p.ex le 

théorème de Birkhoff à h et h ◦ T et faire la différence des sommes ergodiques). 

✷


7.1.5 Entropie d’un facteur, d’un produit et d’une puissance 

Théorème 7.1.7 Si (Y, B Y , S, ν) est un facteur de (X, B X , T, ν) on a 

h ν (S) ≤ h µ (T ). 

Démonstration.— Soit η une partition finie de Y et posons ξ = f −1 η où 

f : X → Y est la projection définissant le facteur. Il est facile de vérifier que 

et donc 

1 

n H µ(ξ ∨ . . . ∨ T −(n−1) ξ) = 1 n H ν(η ∨ . . . ∨ S −(n−1) η), 

h ν (S, η) = h µ (T, ξ) ≤ h µ (T ). 

Cette identité étant vraie pour toute partition finie η on a la conclusion. 

Corollaire 7.1.1 Si (X, B X , T, µ) et (Y, B Y , S, ν) sont isomorphes h µ (T ) = 

h ν (S). 

Théorème 7.1.8 Si (X i , B i , µ i , T i ), i = 1, 2 sont deux systèmes dynamiques 

alors le système produit (X 1 × X 2 , B 1 ⊗ B 2 , µ 1 ⊗ µ 2 , T 1 × T 2 ) vérifie 

h µ1 ⊗µ 2 

(T 1 × T 2 ) = h µ1 (T 1 ) + h µ2 (T 2 ). 

Démonstration.— Soient ξ (i) = {C (i) 

k } une partition mesurable finie de X i, 

i = 1, 2. Il est facile de voir que la partition ξ := ξ (1) ⊗ ξ (2) = {C (1) 

k 

× C (2) 

l 

} 

vérifie 

∨ 

n−1 

∨ 

n−1 

∨ 

T −s ξ) = H( T −s ξ (1) ) + H( T −s ξ (2) ), 

n−1 

H( 

s=0 

et que par conséquent 

s=0 

s=0 

h(T 1 × T 2 , ξ (1) ⊗ ξ (2) ) = h(T 1 , ξ (1) ) + h(T 2 , ξ (2) ). 

Si à présent on choisit deux suites de partitions ξ n 

(i) ↑ B i (ce qui est possible 

car on suppose que les espaces sont de Lebesgue) on aura aussi ξ n (1) ⊗ ξ n 

(2) ↑ 

B 1 ⊗ B 2 . Le théorème 7.1.4 permet de conclure. 

Théorème 7.1.9 Pour m ∈ Z (m ∈ N si T n’est pas inversible) on a 

h µ (T m ) = |m|h µ (T ). 

✷ 

✷


Démonstration.— Supposons m > 0. Soit ξ une partition mesurable finie 

et posons η m = ξ ∨ T −1 ξ ∨ · · · ∨ T m−1 ξ. On a 

∨ 

nm−1 

H( 

k=0 

n−1 

∨ 

T −k ξ) = H( 

l=0 

et divisant par n|m| et faisant n → ∞ on obtient 

(T m ) −l η m ) 

h(T, ξ) = 1mh(T m , η m ). 

On a donc |m|h(T, ξ) ≤ h(T m ) et donc |m|h(T ) ≤ h(T m ). Démontrons l’inégalité 

inverse. Pour toute partition ξ 

h(T m , ξ) = lim 

n H(ξ ∨ T −m ξ ∨ · · · ∨ T −mn ξ) 

m 

≤ lim 

n→∞ mn H(ξ ∨ T −1 ∨ T −2 ξ · · · ∨ T −mn ξ) 

≤ mh(T, ξ), 

n→∞ 

1 

ce qui termine la preuve du théorème. 

✷

96 CHAPITRE 7. ENTROPIE

Annexe A 

Calcul différentiel 

A.1 Théorèmes du Point Fixe 

Nous faisons auparavant quelques rappels sur des théorèmes abstraits 

classiques. 

A.1.1 

Théorème du Point Fixe pour les applications 

contractantes 

Soit (A, d) un espace complet (c’est-à-dire un espace métrique dans lequel 

toute suite de Cauchy converge) . Nous disons que φ : A → A est 

ρ-contractante (0 ≤ ρ < 1) si pour tout x, y ∈ A, 

d(φ(x), φ(y)) ≤ ρ.d(x, y). 

Une application contractante est donc continue. Dans les applications que 

nous aurons à traiter A sera un ensemble fermé d’un espace de Banach E et 

on munira A de la distance, 

d(x, y) = ‖x − y‖ E ; 

une application ρ-contractante φ : A → A vérifie alors, 

‖φ(x) − φ(y)‖ E ≤ ρ.‖x − y‖ E , 

(mais φ n’est pas nécessairement linéaire). 

Le théorème du Point Fixe de Picard est alors le suivant : 

Théorème A.1.1 (du point fixe de Picard) Avec les notations précédentes, 

soit φ : A → A une application ρ-contractante (0 ≤ ρ < 1). Alors φ admet 

un unique point fixe x ∈ A (i.e. φ(x) = x). Pour tout x 0 ∈ A la suite φ i (x 0 ) 

converge vers x. 

97

98 ANNEXE A. CALCUL DIFFÉRENTIEL 

Démonstration.— Montrons déjà l’unicité par l’absurde : si φ(x 1 ) = x 1 , φ(x 2 ) = 

x 2 on a, 

d(x 1 , x 2 ) = d(φ(x 1 ), φ(x 2 )) ≤ ρd(x 1 , x 2 ), 

ce qui entraîne vu que 0 ≤ ρ < 1, d(x 1 , x 2 ) = 0. 

Montrons à présent l’existence. Choisissons x 0 ∈ A et posons x k = φ k (x) 

(où φ k désigne l’itéré k-ième de φ). Le fait que φ soit ρ-contractante montre 

que pour k ≥ 1, 

d(x k+1 , x k ) = d(φ(x k ), φ(x k−1 )) ≤ ρd(x k , x k−1 ), 

et par conséquent, en itérant cette inégalité, 

d(x k+1 , x k ) ≤ ρ k d(x 1 , x 0 ). 

L’inégalité triangulaire assure donc que pour tout p ≥ 1, 

d(x k+p , x k ) 

≤ 

≤ ( 

≤ 

p∑ 

d(x k+j , x k+j−1 ) 

j=1 

p∑ 

ρ k+j )d(x 1 , x 0 ) 

j=1 

ρ k . 1 − ρp 

1 − ρ d(x 1, x 0 ) 

≤ ρ k d(x 1, x 0 ) 

1 − ρ , 

ce qui montre que la suite (x k ) est de Cauchy et converge donc vers un 

point x ∈ A. En faisant k → ∞ dans l’identité φ(x k ) = x k+1 on obtient 

φ(x) = x, c’est-à-dire l’existence du point fixe et également la dernière partie 

du théorème. 

Mentionnons une version à paramètre : 

Théorème A.1.2 Soient A un espace complet, L un espace métrique (non 

nécessairement complet) et 0 ≤ ρ < 1. Supposons que φ : A × L → A soit 

une application continue et que pour tout λ ∈ L l’application φ(·, λ) : A → A 

soit ρ-contractante. Alors, pour tout λ ∈ L il existe un unique point fixe x(λ) 

de φ(·, λ) et l’application x(·) : L → A est continue. 

Démonstration.— Définissons E comme étant l’ensemble des fonctions continues 

de L dans A et munissons le de la norme de la convergence uniforme : 

✷

A.1. THÉORÈMES DU POINT FIXE 99 

c’est un espace complet. Définissons alors f : E → E, par f(x(·)) = φ(x(·), ·) : 

c’est une application ρ-contractante (c’est pratiquement immédiat, vue la définition 

de la convergence uniforme). Le théorème s’applique donc et fournit 

une unique application x(.) telle que f(x(·)) = x(·) c’est-à-dire, du fait de la 

définition de f la conclusion recherchée. 

Donnons enfin l’estimée suivante qui précise le théorème précédent : 

Proposition A.1.1 Si φ et ˜φ sont deux applications ρ contractante de (A, d) → 

(A, d) admettant respectivement comme uniques points fixes x et ˜x on a, 


d(x, ˜x) ≤ 1 d(φ(x), ˜φ(x)). 

1 − ρ 

Définissons ˜x n = ˜φ n (x) et majorons, 

d(x, ˜x n+1 ) = d(φ(x), ˜φ(˜x n )) 

≤ d(φ(x), ˜φ(x)) + d( ˜φ(x), ˜φ(˜x n )) 

≤ ɛ + ρd(x, ˜x n ), 

où on a noté ɛ = d(x, ˜φ(x)) = d(φ(x), ˜φ(x)). Si on note u n = d(x, ˜x n ), on a 

donc, 

ce qui est la conclusion. 

u n ≤ ɛ + ρɛ + ρ 2 ɛ + · · · + ρ n−1 ɛ 

ɛ 

≤ 

1 − ρ , 

Si l’on veut obtenir des résultats sur la dépendance C k par rapport au 

paramètre, il faut faire des hypothèses de différentiabilité sur φ. Cependant 

dans ce cadre il est souvent plus simple d’utiliser le théorème des fonctions 

implicites que nous présentons plus loin. 

Théorème A.1.3 Soient A ⊂ E et L ⊂ F des ouverts des espace de Banach 

E et F et 0 ≤ ρ < 1. Supposons que φ : A × L → A soit de classe C k et que 

pour tout λ ∈ L l’application φ(·, λ) : A → A soit ρ-contractante. Si en outre 

κ := 

sup ‖D 1 φ(x, λ)‖ < 1, 

(x,λ)∈A×L 

alors, pour tout λ ∈ L il existe un unique point fixe x(λ) de φ(·, λ) et l’application 

x(·) : L → A est C k . On a 

Dx(λ) = −(D 1 φ(x(λ), λ) − I) −1 D 2 φ(x(λ), λ). 

✷ 

✷


Démonstration.— Soit x 0 ∈ A et définissons par récurrence x 0 (λ) = x 0 et 

x n+1 (λ) = φ(x n (λ), λ). Les fonctions x n (λ) sont de classe C k et on a 

Dx n+1 (λ) = D 1 φ(x n (λ), λ)Dx n (λ) + D 2 φ(x n (λ), λ). 

Si on note u n = Dx n (λ), A n = D 1 φ(x n (λ), λ), b n = D 2 φ(x n (λ), λ), b = 

D 2 φ(x(λ), λ) On a u n+1 = A n u n + b n si bien que 

∑n−1 

u n = (A n−1 · · · A 1 )u 0 + (A n−1 · · · A k )b k + b n . 

k=1 

Comme ‖A n−1 · · · A k ‖ ≤ κ n , κ < 1, et puisque lim n→∞ ‖b n − b‖ = 0 (on a 

vu que x n (λ) converge vers x(λ)), la série précédente converge (Exercice : 

Pourquoi ). Ainsi Dx n (λ) converge au même titre que x n (λ). Par conséquent, 

λ ↦→ lim n→∞ x(λ) est dérivable. La convergence est en fait uniforme en λ 

d’après la proposition précédente et de ce fait x(·) est C 1 . Comme x(λ) = 

φ(x(λ), λ) on a Dx(λ) = −(D 1 φ(x(λ), λ) − I) −1 D 2 φ(x(λ), λ). Cette relation 

montre que x(·) est C k si φ l’est. 

A.2 Le théorème d’Inversion Locale et ses conséquences 

A.2.1 

Difféomorphismes 

Rappelons qu’un homéomorphisme f : U → V entre deux ouverts U ⊂ E 

et V ⊂ F est une application continue de U dans F qui établit une bijection 

entre U et V et telle que son inverse f −1 : V → U est continue. 

Définition A.2.1 Nous dirons qu’un homéomorphisme f : U → V entre 

deux ouverts U ⊂ E et V ⊂ F est un C k -difféomorphisme si f : U → V et 

f −1 : V → U sont de classe C k . 

Donnons le critère suivant pour déterminer si un homéomorphisme est un 

difféomorphisme : 

Proposition A.2.1 Avec les notations précédentes un homéomorphisme f : 

U → V est un C k -difféomorphisme si et seulement si f est de classe C k et 

si pour tout x ∈ U, Df(x) ∈ L c (E, F ) est une application linéaire continue 

inversible (dont l’inverse est continu). On a alors, 

∀y ∈ V, Df −1 (y) = [Df(f −1 (y))]. 

✷

A.2. LE THÉORÈME D’INVERSION LOCALE ET SES CONSÉQUENCES101 

Démonstration.— Posons pour y = f(x) ∈ V , et h ∈ F suffisamment petit, 

x h = f −1 (y + h). On a alors, 

h = f(x h ) − f(x) = Df(x).h.(x h − x) + ‖x h − x‖ E ɛ(x h − x), 

où lim 0 ɛ = 0 et donc, 

‖x h − x‖ = (Df(x)) −1 .h + ‖x h − x‖(Df(x)) −1 .ɛ(x h − x); 

(A.1) 

comme x h tend vers x quand h tend vers 0 (puisque f −1 est continue) on a 

pour h suffisamment petit 

et donc, 

Au total, 

‖ɛ(x h − x)‖ ≤ 1 2 ‖(Df(x))−1 ‖ −1 , 

‖x h − x‖ ≤ ‖(Df(x)) −1 ‖.‖h‖ + ‖x h − x‖‖(Df(x)) −1 ‖‖ɛ(x h − x)‖ 

et l’égalité (A.1) montre que, 

≤ ‖(Df(x)) −1 ‖.‖h‖ + 1 2 ‖x h − x‖. 

‖x h − x‖ ≤ 2‖(Df(x)) −1 ‖.‖h‖, 

f −1 (y + h) − f −1 (y) = x h − x = (Df(x)) −1 .h + o(h), 

ce qui montre que f −1 est dérivable en y et que, 

Df −1 (y) = (Df(x)) −1 = [Df ◦ f −1 (y))] −1 . 

Cette dernière égalité établit (en utilisant le théorème de composition et celui 

sur l’inversion) que f −1 est de classe C k . 

A.2.2 

Inversion locale 

Le théorème du point fixe précédent permet de démontrer le théorème 

fondamental suivant : 

Théorème A.2.1 (d’inversion locale) Soient E, F deux espaces de Banach, 

f : E → F une application de classe C k (k ≥ 1) définie sur un 

voisinage de x 0 ∈ E de l’espace de Banach E et telle que f(x 0 ) = y 0 ∈ F . 

Supposons que Df(x 0 ) ∈ L(E, F ) soit inversible (et son inverse est donc 

continu) ; alors f est un difféomorphisme local d’un voisinage de x 0 sur un 

voisinage de y 0 . 

✷


Démonstration.— Puisque [Df(x 0 )] −1 existe est continu, f réalisera un 

difféomorphisme d’un voisinage de x 0 sur un voisinage de y 0 si et seulement 

si, 

f 0 (·) = Df(0) −1 .(f(x 0 + ·) − y 0 ), 

réalise un difféomorphisme d’un voisinage de 0 ∈ E sur un voisinage de 

0 ∈ E. Remarquons que f 0 est de classe C 1 et que l’on a, 

f(0) = 0 

Df 0 (0) = Id 

Posons alors pour u, v dans un voisinage de 0 ∈ E, 

˜f v (u) = v + (u − f 0 (u)), 

et observons que, f 0 (u) = v si et seulement si ˜fv (u) = u, c’est-à-dire si et 

seulement si f v admet u pour point fixe. Vérifions donc si f v est contractante 

dans un voisinage de 0 pour v suffisamment petit. Soient δ > 0 suffisamment 

petit et u 1 , u 2 dans la boule fermée B f (0, δ) de centre 0 et de rayon δ : 

‖ ˜f(u 1 ) − ˜f(u 2 )‖ = ‖(Id − f 0 )(u 1 ) − (Id − f 0 )(u 1 )‖, 

et d’après le théorème des accroissements finis, 

‖(Id − f 0 )(u 1 ) − (Id − f 0 )(u 1 )‖ ≤ 

sup ‖D(Id − f 0 )‖.‖u 1 − u 2 ‖; 

w∈B(0,δ) 

mais comme Df 0 (·) est continue sur un voisinage de 0 et que Df 0 (0) = Id 

on a, pourvu que δ soit assez petit, 

sup ‖D(Id − f 0 )(w)‖ ≤ 1 

w∈B f (0,δ) 

2 , 

et l’application ˜f v est 1 2 -contractante sur B f(0, δ). On a en particulier (faire 

u 2 = 0), 

‖ ˜f(u 1 ) − v‖ ≤ 1 2 ‖u 1‖, 

et donc, 

‖ ˜f(u 1 )‖ ≤ ‖v‖ + 1 2 δ, 

ce qui prouve que si ‖v‖ ≤ δ/2, ˜f v envoit B f (0, δ) dans elle-même. Les conditions 

d’application du théorème du point fixe sont vérifiées et ˜f v admet donc 

un unique point fixe u v dans B f (0, δ).

A.2. LE THÉORÈME D’INVERSION LOCALE ET SES CONSÉQUENCES103 

En outre comme ˜f v (·) est continue en v, les hypothèses du théorème du 

point fixe à paramètre sont vérifiées et on en déduit que l’unique point fixe 

u v obtenu précédemment dépend continument de v. 

Tout ceci montre que f réalise un homéomorphisme d’un voisinage de 

x 0 sur un voisinage de y 0 et d’après la proposition A.2.1, f est donc un C k 

difféomorphisme d’un voisinage de x 0 sur un voisinage de y 0 . 

Nous illustrons la puissance du théorème d’inversion locale par la démonstration 

du théorème suivant : (Lemme de Morse) Si f : (R n , 0) → R est de 

classe C 3 et est telle que A = D 2 f(0) est non dégénérée (i.e la forme quadratique 

D 2 f(0)(·, ·) est non dégénérée) alors il existe un difféomorphisme 

h : (R n , 0) → (R n , 0) tel que f ◦ h(x) = t xAx. Nous proposons la démonstration 

en exercice. 

Exercice a) Démontrer qu’il existe une application S de classe C 1 définie sur 

un voisinage de 0 ∈ R n et à valeurs dans l’espace des matrices symétriques 

Sym n (R) telle que f(x) = t xAx + t xS(x)x avec S(0) = 0. (Utiliser Taylor 

intégral). 

b) Démontrer qu’il suffit de démontrer le résultat suivant : Soit A ∈ M n (R) 

une matrice symétrique non dégénérée et B ∈ R n la boule de centre 0 et 

de rayon 1. Il existe ε > 0 tel que si S ∈ C 1 (B, Sym n (R)) est de norme C 1 

plus petite que ε alors il existe ϕ ∈ C 1 (B, R n ) telle que t xAx + t xS(x)x = 

t (x + ϕ(x))A(x + ϕ(x)). 

c) On note E l’espace de Banach des ϕ ∈ C 1 (B, R n ) telles que ϕ(0) = 0 et F 

l’espace de Banach des S ∈ C 1 (B, Sym n (R)) telle que S(0) = 0. Introduisons 

Φ : E → F , Φ(h)(x) = 2 t h(x)Ax + t h(x)Ah(x). Démontrer que Φ est un 

difféomorphisme local de (E, 0) → (F, 0). 

d) Conclure. 

Le corollaire suivant est également très utile : 

A.2.3 

Fonctions Implicites 

Théorème A.2.2 (des fonctions implicites) Si f : E × F → E est C k , 

vérifie f(x 0 , λ 0 ) = 0 et si D x f(x 0 , λ 0 ) ∈ L c (E, E) est inversible, alors l’ensemble 

des solutions de f(x, λ) = 0 est dans un voisinage de (x 0 , λ 0 ) de la 

forme, (x(λ), λ) où λ → x(λ) est C k . On a alors ∂ λ x = −(D x f(x, λ)) −1 ◦D λ f. 

Démonstration.— On applique le théorème précédent à l’application définie 

sur un voisinage de (x 0 , λ 0 ) ∈ E × F à valeurs dans un voisinage de 

(0, λ 0 ) i nE × F par φ(x, λ) = (f(x, λ), λ) qui est de classe C k . Calculons son 

✷


application linéaire tangente Dφ(x 0 , λ 0 ) ∈ L c (E × F, E × F ) en (x 0 , λ 0 ). On 

a pour tout (∆x, ∆λ) ∈ E × F (nous utilisons une notation matricielle) : 

( ) ( ) 

Dx f(x 

Dφ(x 0 , λ 0 ).(∆x, ∆λ) = 

0 , λ 0 ) D λ f(x 0 , λ 0 ) ∆x 

, 

0 Id F ∆λ 

qui a une forme trigonale et qui est inversible puisque par hypothèse D x f(x 0 , λ 0 ) ∈ 

L c (E, E) l’est. On peut donc appliquer le théorème d’inversion locale : φ 

réalise un difféomorphisme de classe C k d’un voisinage de (x 0 , λ 0 ) dans un 

voisinage de (0, λ 0 ) et vue la forme de φ, le difféomorphisme inverse φ −1 est 

de la forme, 

φ −1 (y, λ) = (g(y, λ), λ), 

où g est de classe C k d’un voisinage de 0 à valeurs dans un voisinage de x 0 . 

On a donc, 

(x, λ) = (g(f(x, λ), λ), λ), 

pour tout (x, λ) dans un voisinage de (x 0 , λ 0 ) et par conséquent pour (x, λ) 

dans ce voisinage f(x, λ) = 0 si et seulement si, 

x = g(0, λ). 

Ceci termine la preuve du théorème des fonctions implicites. 

✷ 

A.2.4 

Théorème du rang constant 

Théorème A.2.3 Soient E un espace de Banach, F un espace de dimension 

finie m et x 0 ∈ E. Si f : (E, x 0 ) → (F, f(x 0 )) est une application de classe 

C k telle que pour tout x dans un voisinage de x 0 le rang de Df(x) (c’està-dire 

la dimension de ImDf(x)) est constant égal à p, alors, il existe des 

difféomorphismes g : (R p ⊕ E ′ , 0) → (E, x 0 ) (E ′ étant un espace de Banach) 

et h : (F, f(x 0 )) → (R m , 0) tels que pour (t, s) ∈ R p ⊕ E ′ 

h ◦ f ◦ g(t, s) = (t, 0 R m−p). 

Démonstration.— On peut supposer que F = R m et que x 0 = 0. Soit 

E ′ = ker Df(x 0 ). Puisque rgDf(x 0 ) est fini, il existe E ′′ ⊂ E de dimension 

finie égale à p tel que E = E ′ ⊕ E ′′ et tel que Df(x 0 ) restreinte à E ′′ soit 

un isomorphisme sur son image. Quitte à faire des changements linéaires 

de coordonnées à la source et au but, on peut supposer que E ′′ = R p et 

Df(x 0 )·E = R p . Si on note f 1 , f 2 les projections de f respectivement sur R p ⊂ 

F et sur son supplémentaire dans F on a que ∂ 1 f 1 (0, 0) est un isomorphisme

A.3. SOUS-VARIÉTÉS DE R M 105 

de E ′′ = R p sur R p ⊂ F . D’après le théorème d’inversion locale l’application 

ϕ : (u 1 , u 2 ) ↦→ (f 1 (u 1 , u 2 ), u 2 ) est donc un difféomorphisme local en (0, 0). Son 

inverse g est de la forme g : (t, u 2 ) ↦→ (u 1 (t, u 2 ), u 2 ) si bien que f 1 ◦g(t, u 2 ) = t. 

L’application f ◦ g est donc de la forme (t, u 2 ) ↦→ (t, f 2 ◦ g(t, u 2 )) et comme 

elle est de rang égal à p 1 pour tout (t, u 2 ) dans un voisinage de 0 on a 

nécessairement ∂ 2 (f 2 ◦ g)(t, u 2 ) = 0 2 pour tout (t, u 2 ) dans un voisinage de 0. 

Par conséquent f 2 ◦ g(t, u 2 ) ne dépend que de t. Si on pose ψ(t) = f 2 ◦ g(t, 0) 

alors l’application h : (t, u 2 ) ↦→ (t, u 2 − ψ(t)) est un difféomorphisme local et 

on a h ◦ f ◦ g(t, s) = (t, 0). 

✷ 

A.3 Sous-variétés de R m 

A.3.1 

Définition, exemples 

Définition A.3.1 Soit M ⊂ R m . On dit que M est une sous-variété de R m 

de classe C k si pour tout x ∈ M il existe un entier p ≤ m, un voisinage 

ouvert U x ⊂ R m contenant x et un difféomorphisme de classe C k ϕ : U x → 

ϕ(U x ) ⊂ R m tel que l’image de M ∩ U x soit R p ⊕ {0} m−p . On dira que (U x , ϕ) 

est une carte en x. 

Il n’est pas difficile de voir que si M est connexe, l’entier p de la définition 

précédente ne dépend pas du point x ; on l’appelle la dimension de M et on 

note p = dimM. 

Exemple Soient H : R m → R une application lisse (C ∞ ) et c ∈ H(R m ) ⊂ R. 

Si pour tout x ∈ H −1 (c) on a DH(x) (qui est une forme linéaire sur R m ) 

est non nulle, alors H −1 (c) est une sous-variété de dimension m − 1. C’est 

une conséquence du théorème d’inversion locale (par exemple). Exercice 

Démontrer le résultat précédent. 

La proposition suivante est un outil utile pour démontrer qu’un ensemble 

est une sous-variété. 

Proposition A.3.1 Les propositions suivantes sont équivalentes : 

(1) M est une sous-variété de R m de dimension p 

(2) M s’écrit localement comme un graphe : pour tout x ∈ M il existe un 

voisinage ouvert U x de x dans R m , une décomposition en sous-espaces 

1 D(f ◦ g) = Df ◦ g · Dg, Dg est un isomorphisme et Df ( de rang p ) 

2 Ip 0 

la matrice bloc représentant D(f ◦ g) est de la forme 

∗ ∂ 2 (f 2 ◦ g)


vectoriels R m = F 1 ⊕ F 2 , avec p := dim F 1 (dim F 2 = m − p) et une 

fonction S de classe C k S : F 1 ∩ U x → F 2 telle que M ∩ U x soit le 

graphe de S : S = {x 1 ⊕ x 2 ∈ U x , x 1 ∈ F 1 , x 2 ∈ F 2 : x 2 = S(x 1 )} 

(3) pour tout x ∈ M il existe un voisinage ouvert U x de x et des fonctions 

de classe C k ϕ 1 , . . . , ϕ m−p définies sur U x et à valeurs réelles telles 

que : (a) M ∩ U x coïncide avec l’ensemble des x ∈ U x tels que ϕ 1 (x) = 

· · · = ϕ m−p (x) = 0 et (b) les formes linéaires dϕ 1 (x), . . . , dϕ m−p (x) 

sont linéairement indépendantes. 

Exercice Soit E, F deux espaces vectoriels de dimensions finies et r ≤ 

(dim E, dim F ). Démontrer que l’ensemble L r (E, F ) des endomorphismes 

A ∈ L(E, F ) de rang r est une sous-variété de dimension (dim E −r)(dim F − 

r). [Indication : Soit Z 0 de rang r. On peut ( supposer, ) quitte à changer de 

Ir 0 

base que A 0 est représenté par la matrice . Notons U l’ensemble des 

0 0 

( ) A B 

Z ∈ L(E, F ) qui se représentent dans cette base sous la forme 

C D 

(A matrice r × r) avec det A ≠ 0. C’est un voisinage ouvert de Z 0 . On a 

L r (E, F ) ∩ U = {Z : D = CA −1 B}] 

A.3.2 

Espace tangent 

Définition A.3.2 (Proposition et définition) Soient M une sous-variété 

de R m et x ∈ M. L’espace tangent T x M en x à M est le sous-espace vectoriel 

de R m qui a la propriété suivante : pour toute carte (resp. une carte) (U x , ϕ) 

en x, T x M := ImD(ϕ −1 )(x) · (R p ⊕ {0} m−p ). 

Exercice : Décrire localement l’espace tangent de T x M dans chacune des 

représentations données par la proposition A.3.1. 

Exercice : Démontrer que l’espace tangent en v ∈ L r (E, F ) est l’espace 

vectoriel {w ∈ L(E, F ) : w(ker v) ⊂ Imv}. 

Définition A.3.3 (Proposition et définition) Soient M ⊂ R m et N ⊂ 

R n deux sous-variétés et f : M → N. On dit que f est de classe C k si pour 

tout x ∈ M et tout choix (resp. un choix) de cartes (U x , ϕ) et (V f(x) , ψ) en 

x ∈ M et f(x) ∈ N l’application f ϕ,ψ := ψ ◦ f ◦ ϕ −1 | R p ⊕{0} n−p est de classe 

C k . L’application linéaire, indépendante du choix des cartes, 

Dψ −1 (ψ(f(x))) ◦ Df ϕ,ψ (ϕ(x)) ◦ Dϕ : T x M → T f(x) N 

est appelée application linéaire tangente de f en x.


A.3.3 

Groupes et algèbres de Lie linéaires 

Définition A.3.4 Un groupe de Lie linéaire est un sous-groupe fermé de 

GL(n, R). 

Exemples : Il est facile de vérifier que les groupes suivants sont des groupes 

de Lie : 

SL(n, R) = {A ∈ GL(n, R) : det A = 1} 

SO(n, R) = {A ∈ GL(n, R) : t AA = I, det A = 1} 

( ) 0 

Sp(2n, R) = {A ∈ GL(n, R) : t In 

AJA = J}, J = 

−I n 0 

Remarquons que le SL(n, R) est l’ensemble des transformations linéaires qui 

préservent le volume de R n , SO(n, R) est l’ensemble des transformations 

linéaires qui préservent l’orientation et la norme euclidienne sur R n q(v) = t vv 

(v est un vecteur colonne) et Sp(2n, R) est l’ensemble des transformations 

linéaires de R 2n qui préservent la forme symplectique ω(v, w) = t vJw. 

On a alors le théorème non trivial suivant : 

Théorème A.3.1 Un groupe de Lie linéaire est une sous-variété de R n2 . 

Exercice Démontrer directement que les groupes SL(n, R), SO(n, R), Sp(2n, R) 

sont des sous-variétés, calculer leurs dimensions et démontrer que 

T I SL(n, R) = {a ∈ M n (R) : Tr(a) = 0} 

T I SO(n, R) = {a ∈ M n (R) : t a + a = 0} 

T I Sp(2n, R) = {a ∈ M 2n (R) : t aJ + Ja = 0}. 

A.3.4 

Variétés 

Soit M une espace topologique. Etant donnés U un ouvert de M et ϕ : 

U → ϕ(U) ⊂ R n un homéomorphisme, on dit que (U, ϕ) est une carte locale. 

Définition A.3.5 Une variété de classe C k est un espace topologique M 

muni d’une famille A de cartes telle que : (a) les U (pour lesquels (U, ϕ) ∈ A) 

forment un recouvrement de M ; (b) pour toutes cartes (U, ϕ) et (V, ψ) de A 

l’application ϕ ◦ ψ −1 : ϕ(U) ∩ ψ(V ) → R n est un difféomorphisme local.


Il est facile de voir que toute sous-variété de R m est une variété. En fait la 

réciproque est vraie : toute variété peut être vue (on dit plongée) comme une 

sous-variété d’un espace R p pourvu que p soit suffisamment grand (p ≥ 2n+1 

dans le cas des variétés C ∞ ) ; c’est un théorème de Whitney. 

Exemples Le groupe (Z n , +) est un sous-groupe de (R n , +). Le quotient 

R n /Z n est par définition l’ensemble des classes d’équivalence de la relation 

d’équivalence x ≡ y ssi x − y ∈ Z n , c’est-à-dire est l’ensemble R n /Z n = 

{x + Z n , x ∈ R n }. On note T n = R n /Z n , le tore de dimension n. C’est par 

construction un groupe abélien (x + Z n ) + (y + Z n ) = (x + y) + Z n . On peut 

canoniquement le munir d’une topologie de la façon suivante : un ouvert de 

T n est un ensemble de la forme U + Z n = {u + Z n , u ∈ U} = {U + k, k ∈ Z n } 

où U est un ouvert de R n . Munissons à présent T n d’une structure de variété : 

l’ensemble des V B = B +Z n ou B décrit l’ensemble des boules de R n de rayon 

strictement plus petit que 1/2 est un recouvrement ouvert de T n . Pour un tel 

V B on définit ϕ B : V B → R n qui à tout point de la forme x + k x ∈ B, k ∈ Z n 

associe x. C’est une application qui est bien définie puisqu’un point de V B 

s’écrit de façon unique sous cette forme (le rayon de la boule est strictement 

plus petit que 1/2). Il est facile de voir que ϕ B est un homéomorphisme local 

et que si B et B ′ sont deux boules de rayon strictement plus petits que 1/2 

l’application ϕ B ◦ ϕ −1 

B 

est de la forme x ↦→ x + k − k ′ . La famille (U ′ 

B , ϕ B ) B 

est donc un atlas. 

Cette construction se généralise à des situations plus générales (quotient d’un 

groupe de Lie par un sous-groupe fermé). 

Tout comme dans le cas des sous-variétés, on peut définir la notion d’application 

différentiable entre deux variétés M et N : il suffit d’adapter celle 

que l’on a donnée dans le cas des sous-variétés. On peut également définir 

la notion d’espace tangent en un point d’une variété. Une définition possible 

repose sur le lemme suivant 

Lemme A.3.1 Soient γ 1 , γ 2 deux applications de classe C 1 de ] − 1, 1[→ 

M telles que γ 1 (0) = γ 2 (0) = x. Si dans une carte (U, ϕ), x ∈ U on a 

(ϕ −1 ◦ γ 1 ) ′ (0) = (ϕ −1 ◦ γ 2 ) ′ (0) alors dans tout autre carte (V, ψ) x ∈ V , on 

a (ψ −1 ◦ γ 1 ) ′ (0) = (ψ −1 ◦ γ 2 ) ′ (0). On écrit γ 1 ∼ γ 2 ; cette relation est une 

relation d’équivalence. En outre si γ 3 :] − 1, 1[→ M, γ 3 (0) = x est C 1 et si 

dans une carte (ϕ −1 ◦ γ 3 ) ′ (0) = (ϕ −1 ◦ γ 1 ) ′ (0) + (ϕ −1 ◦ γ 2 ) ′ (0) alors dans toute 

autre carte (ψ −1 ◦ γ 3 ) ′ (0) = (ψ −1 ◦ γ 1 ) ′ (0) + (ψ −1 ◦ γ 2 ) ′ (0). 

D’après le lemme, l’espace des chemins γ :] − 1, 1[→ M tels que γ(0) = x 

quotienté par ∼ peut être muni d’une structure d’espace vectoriel. C’est ce 

que l’on appelle l’espace tangent en x à M que l’on note T x M.


Une autre façon de définir l’espace tangent T x M est la suivante : si A 

est l’atlas des cartes, α = (U α , ϕ α ) et A x la sous-collection des α tels que 

x ∈ U α , on considère dans l’espace vectoriel (R n ) Ax des suites (v α ) α∈Ax (muni 

de la structure d’espace vectoriel produit) le sous-espace vectoriel des suites 

(v α ) α∈Ax vérifiant la relation de compatibilité suivante : pour tous α, β, v β = 

D(ϕ β ◦ ϕ −1 

α )(ϕ a (x)) · v β . Il est facile de voir que c’est bien un sous-espace 

vectoriel. 

Définissons à présent l’espace tangent de la variété M comme l’union 

disjointe des T x M où x varie dans M : T M = {(x, v) : x ∈ M, v ∈ T x M} et 

notons π : T M → M l’application qui à (x, v) ∈ T M associe x. Il est alors 

possible de définir une structure de variété différentielle sur T M compatible 

avec celle de M dans le sens où l’application π : T M → M soit différentiable. 

Exercice : Le faire.

Systèmes Dynamiques Notes du cours de M2

Create successful ePaper yourself

Delete template?

Save as template?