06.01.2015 Views

Il teorema ergodico - Matematica e Applicazioni

Il teorema ergodico - Matematica e Applicazioni

Il teorema ergodico - Matematica e Applicazioni

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Facoltà di Scienze Matematiche, Fisiche, Naturali<br />

Corso di Laurea Triennale in <strong>Matematica</strong><br />

a. a. 2009/10<br />

Tesi di Laurea<br />

<strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong><br />

Candidato<br />

Mauro Timini<br />

Relatore<br />

Francesco Caravenna


Indice<br />

Introduzione 1<br />

1 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> 3<br />

1.1 Richiami di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

1.2 Impacchettamenti e ricoprimenti . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.3 Trasformazioni stazionarie ed ergodiche . . . . . . . . . . . . . . . . . . . 10<br />

1.4 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

1.4.1 Enunciato del <strong>teorema</strong> <strong>ergodico</strong> . . . . . . . . . . . . . . . . . . . . 16<br />

1.4.2 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> : caso binario . . . . . . . . . . . . . . . . . . . 17<br />

1.4.3 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong>: caso generale . . . . . . . . . . . . . . . . . . 20<br />

2 <strong>Applicazioni</strong> ed esempi 31<br />

2.1 Strumenti tecnici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

2.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

2.3 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

iii


Introduzione<br />

In questa tesi dimostriamo un risultato importante relativo al calcolo della probabilità:<br />

il <strong>teorema</strong> <strong>ergodico</strong>. La teoria ergodica ha le sue origini nella meccanica statistica: più<br />

precisamente, venne introdotta da Boltzmann (1844-1906) verso la fine dell’Ottocento,<br />

in riferimento ai sistemi meccanici complessi ai quali era attribuita la proprietà di assumere,<br />

nella loro evoluzione spontanea, tutti gli stati dinamici microscopici compatibili<br />

con il loro stato macroscopico. In base a tale teoria, la media “temporale” di ogni osservabile<br />

del sistema doveva coincidere con la media “spaziale” di tale osservabile rispetto<br />

a un’opportuna distribuzione di probabilità sullo spazio delle configurazioni del sistema.<br />

Una formulazione più tecnica di quest’idea venne fornita poco più tardi da Josiah Willard<br />

Gibbs (1839-1903) ed, in seguito, tale teoria venne sviluppata da un punto di vista<br />

matematico, considerandone gli aspetti probabilistici.<br />

La nostra trattazione riguarda proprio quest’ultimo approccio. <strong>Il</strong> risultato fondamentale<br />

di questa teoria è costituito dal <strong>teorema</strong> <strong>ergodico</strong>, dimostrato da George David<br />

Birkhoff (1884-1944). Tale <strong>teorema</strong> afferma che, data una trasformazione T definita su<br />

uno spazio di probabilità ed a valori nel medesimo, se tale applicazione soddisfa determinate<br />

proprietà, allora la media temporale di ogni osservabile calcolata lungo la traiettoria<br />

{x, T x, T 2 x, . . .} (dove x è un punto dello spazio) coincide, facendo tendere all’infinito<br />

il numero di iterazioni, con l’integrale dell’osservabile rispetto alla misura di probabilità<br />

fissata sullo spazio. In particolare, questo <strong>teorema</strong> fornisce una generalizzazione della<br />

legge dei grandi numeri per un’ampia classe di processi stocastici (ad esempio, per le<br />

catene di Markov), al di là del caso classico di variabili indipendenti ed identicamente<br />

distribuite.<br />

La dimostrazione del <strong>teorema</strong> <strong>ergodico</strong> che forniremo non è quella classica, ma si basa<br />

su alcuni argomenti di tipo combinatorio e discreto, sviluppati in [1, Sez.I.3]. La dimostrazione<br />

è strutturata in due parti: dapprima consideriamo il caso di processi discreti e<br />

poi estendiamo la trattazione a processi stocastici a valori in uno spazio generico.<br />

La tesi è organizzata nel modo seguente:<br />

- Nel Capitolo 1 richiamiamo alcuni concetti di base, sviluppiamo alcuni strumenti<br />

relativi ai ricoprimenti aleatori ed, infine, forniamo la dimostrazione del <strong>teorema</strong><br />

<strong>ergodico</strong>.<br />

- Nel Capitolo 2 presentiamo alcuni modi operativi di dimostrare l’ergodicità (in<br />

particolare definendo le proprietà di mescolanza e di mescolanza debole) ed applichiamo<br />

tali metodi a due casi importanti: i processi i.i.d. e la Catene di Markov.<br />

1


Capitolo 1<br />

<strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong><br />

1.1 Richiami di probabilità<br />

In questo paragrafo richiameremo alcuni concetti di base della teoria del calcolo delle<br />

probabilità che ci saranno utili in seguito. Sia X un insieme. Definiamo σ-algebra su X<br />

un sottoinsieme Σ di P(X) tale che :<br />

i) X ∈ Σ,<br />

ii) A ∈ Σ ⇒ X \ A ∈ Σ, ∀A ∈ Σ,<br />

iii) Se {A n } n∈N è una successione di elementi di Σ, allora ⋃ n∈N A n ∈ Σ.<br />

Si può verificare facilmente che, comunque si scelga X, esistono sempre almeno due<br />

σ-algebre su X : Σ 1 = {∅, X} (σ-algebra banale) e Σ 2 = P(X) (σ-algebra discreta). Dato<br />

un insieme X, pertanto, è sempre possibile associarvi una σ-algebra Σ : si definisce spazio<br />

misurabile la coppia (X, Σ). Sia, dunque, (X, Σ) uno spazio misurabile. Consideriamo<br />

ora un’applicazione<br />

µ : Σ → [0, +∞]<br />

tale che:<br />

i) µ(∅) = 0.<br />

ii) Se {A n } n∈N è una successione di elementi a due a due disgiunti di Σ (cioè tali che<br />

A n ∩ A m = ∅, ∀m, n ∈ N tali che m ≠ n), allora<br />

µ( ⋃ A n ) = ∑ µ(A n ).<br />

n∈N n∈N<br />

Tale funzione viene detta misura su (X, Σ). Uno spazio di misura è una terna (X, Σ, µ),<br />

dove X è un insieme, Σ è una σ-algebra su X e µ è una misura su Σ. Se, inoltre,<br />

supponiamo valga l’ipotesi aggiuntiva µ(X) = 1, allora si dice che µ è una probabilità su<br />

Σ ed (X, Σ, µ) è detto spazio di probabilità. Ora consideriamo due proprietà fondamentali<br />

della misura che risulteranno utili in seguito.<br />

3


4 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Lemma 1 (Continuità dal basso). Sia (X, Σ, µ) uno spazio di misura. Data una successione<br />

{A n } n∈N di elementi di Σ tale che A n ⊆ A n+1 , ∀n ≥ 0, si ha che:<br />

( ⋃<br />

)<br />

µ A n = lim µ(A n)<br />

n→∞<br />

n∈N<br />

Dimostrazione. Definiamo la successione {B m } m∈N in questo modo:<br />

B 0 := A 0 e B m := A m \ A m−1 , ∀m ≥ 1.<br />

Si può osservare facilmente che, dato n ∈ N, A n = ⋃ n<br />

m=0 B m e che, quindi, ⋃ ∞<br />

⋃ n=0 A n =<br />

∞ ⋃ n<br />

n=0 m=0 B m = ⋃ ∞<br />

m=0 B m. Pertanto, in virtù delle proprietà della misura µ si ha che<br />

(<br />

⋃ ∞<br />

µ<br />

n=0<br />

(<br />

⋃ ∞<br />

A n<br />

)= µ<br />

m=0<br />

B m<br />

)=<br />

∞∑<br />

µ(B m )<br />

m=0<br />

= lim<br />

n∑<br />

n→∞<br />

m=0<br />

(<br />

µ(B m ) = lim µ ⋃ n<br />

B m<br />

)= lim µ(A n).<br />

n→∞ n→∞<br />

m=0<br />

Lemma 2 (Continuità dall’alto). Sia (X, Σ, µ) uno spazio di misura. Data una successione<br />

{A n } n∈N di elementi di Σ tale che A n ⊇ A n+1 , ∀n ≥ 0, si ha che:<br />

( ⋂<br />

)<br />

µ A n = lim µ(A n)<br />

n→∞<br />

n∈N<br />

Dimostrazione. Innanzitutto osserviamo che, dato n ∈ N, se A n ⊇ A n+1 , allora A n c ⊆<br />

A n+1 c . Utilizzando la proprietà di continuità dal basso, quindi, possiamo concludere che<br />

( ⋂<br />

) (<br />

µ(X) − µ A n = µ X \ ⋂ (( ⋂<br />

) c ) ( ⋃<br />

)<br />

c<br />

A n<br />

)= µ A n = µ A n = lim µ(A n c )<br />

n→∞<br />

n∈N n∈N<br />

n∈N n∈N<br />

= lim<br />

n→∞ µ(X \ A n) = lim<br />

n→∞ (µ(X) − µ(A n)) = µ(X) − lim<br />

n→∞ µ(A n).<br />

Dunque<br />

( ⋂<br />

)<br />

µ A n = lim µ(A n).<br />

n→∞<br />

n∈N<br />

Un risultato fondamentale che si può derivare dalla proprietà di continuità dal basso<br />

di una misura e che ci sarà di estrema utilità in seguito è dato dal Lemma di Borel-<br />

Cantelli, che ora enunceremo.


1.1. RICHIAMI DI PROBABILITÀ 5<br />

Lemma 3 (Borel-Cantelli). Sia (X, Σ, P ) uno spazio di probabilità. Se {C n } n∈N è una<br />

successione di elementi di Σ tale che ∑ P (C n ) < ∞, allora<br />

( ⋂ ⋃<br />

)<br />

P C m = 0,<br />

n≥1 m≥n<br />

ossia per quasi tutti gli x ∈ X esiste un naturale N = N(x) tale che x /∈ C n , ∀n ≥ N.<br />

Dimostrazione. Sia G n := ⋃ m≥n C m. Osserviamo che G n ⊃ G n+1 , ∀n ∈ N. Per continuità<br />

dal basso, si ha che ( ⋂<br />

)<br />

P G n = lim P (G n).<br />

n→∞<br />

n≥1<br />

Notiamo che<br />

P (G n ) = P ( ⋃ m≥n<br />

C m ) ≤ ∑ m≥n<br />

P (C m ).<br />

Osserviamo che, poichè per ipotesi la serie ∑ P (C n ) converge, allora dev’essere<br />

∑<br />

lim P (C m ) = 0,<br />

( ) ⋂<br />

quindi P<br />

n≥1 G n = 0.<br />

n→∞<br />

m≥n<br />

Siano, ora, (X, Σ) ed (Y, F) due spazi misurabili : una funzione f : X → Y si<br />

dice misurabile se f −1 (A) ∈ Σ, ∀A ∈ F. Dato uno spazio di misura (X, Σ, µ), una<br />

funzione misurabile f a valori reali è detta semplice se esistono a 1 , a 2 , . . . , a n ∈ R ed<br />

A 1 , A 2 , . . . , A n ∈ Σ tali che f(x) = ∑ n<br />

i=1 a iχ Ai (x), ∀x ∈ X. Se una funzione misurabile<br />

è definita su uno spazio di probabilità (X, Σ, P ), allora tale funzione è detta variabile<br />

casuale. Un processo stocastico a tempo discreto è una sequenza X 1 , X 2 , . . . , X n , . . . di<br />

variabili casuali definite su uno spazio di probabilità (X, Σ, P ).<br />

Supponiamo ora che {X n } n∈N sia un processo stocastico definito su uno spazio di probabilità<br />

(X, Σ, P ) ed a valori in uno spazio misurabile (E, E). Si dimostra che, dato<br />

tale spazio misurabile, è ben definito lo spazio prodotto (E N , E N ), ove E N è la σ-algebra<br />

prodotto. L’applicazione<br />

X : (X, Σ, P ) → (E N , E N )<br />

ω ↦→ (X 1 (ω), X 2 (ω), ..., X n (ω), ..)<br />

è misurabile se e solo se X n è misurabile ∀n ∈ N.<br />

Alcuni dei risultati che ora ci apprestiamo a richiamare si basano principalmente sul concetto<br />

di integrale secondo Lebesgue di una funzione misurabile. Al fine di non discostarci<br />

troppo dal nostro lavoro, tuttavia, diamo per scontata la definizione di tale nozione,<br />

essendo particolarmente laboriosa ed essendo facilmente reperibile nella maggior parte<br />

dei testi di base riguardanti la teoria della probabilità (si consideri, a titolo di esempio,<br />

[2, pag. 49]).


6 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Lemma 4 (Diseguaglianza di Markov). Sia f una funzione nonnegativa ed integrabile<br />

su uno spazio di probabilità (X, Σ, µ) e siano δ, ɛ > 0. Se ∫ f dµ ≤ ɛδ, allora f(x) ≤ ɛ,<br />

eccetto che per un insieme di misura al più δ.<br />

Dimostrazione. Sia D := {x ∈ X tali che f(x) > ɛ}. Consideriamo la funzione caratteristica<br />

{ 1 se f(x) > ɛ<br />

χ D (x) =<br />

0 se f(x) ≤ ɛ<br />

ed osserviamo che chiaramente χ D (x) ≤ f(x)<br />

ɛ<br />

, ∀x ∈ X. Dunque<br />

∫<br />

µ(D) = χ D (x)dµ(x)<br />

X<br />

∫<br />

f(x)<br />

≤ dµ(x)(x) = 1 ∫<br />

f(x)dµ(x) ≤ 1 ɛδ = δ.<br />

ɛ<br />

ɛ X<br />

ɛ<br />

X<br />

Ricordiamo, ora, che, dato uno spazio di misura (X, Σ, µ), si definisce L 1 l’insieme<br />

di tutte le funzioni f misurabili su tale spazio e tali che ∫ |f|dµ < +∞. Si prova che tale<br />

insieme è uno spazio vettoriale normato completo.<br />

Ora enunciamo i teoremi di passaggio al limite sotto il segno di integrale: tali teoremi<br />

indicano alcune condizioni necessarie per cui, data una successione convergente di funzioni<br />

misurabili, sia possibile ottenere informazioni riguardo il limite degli integrali della<br />

successione stessa.<br />

Teorema 1 (Teorema di convergenza monotòna). Sia (X, Σ, µ) uno spazio di misura e<br />

sia {f n } n∈N una successione di funzioni misurabili tale che:<br />

i) f n (x) ≥ 0, ∀x ∈ X, ∀n ∈ N<br />

ii) f n (x) ≤ f n+1 (x), ∀x ∈ X, ∀n ∈ N<br />

iii) Esiste una funzione f misurabile nonnegativa tale che<br />

f(x) = lim<br />

n→∞ f n(x), ∀x ∈ X.<br />

Allora<br />

∫<br />

∫<br />

fdµ = lim<br />

n→∞<br />

f n dµ.<br />

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.3 (pag. 49)]<br />

Ora, data una generica successione {f n } n∈N di funzioni definite su uno spazio misurabile<br />

(X, Σ, µ), definiamo, per ogni elemento x ∈ X, il limite inferiore ed il limite<br />

superiore rispettivamente in questo modo:<br />

• lim inf n∈N f n (x) = sup m∈N inf n≥m f n (x)


1.1. RICHIAMI DI PROBABILITÀ 7<br />

• lim sup n∈N f n (x) = inf m∈N sup n≥m f n (x).<br />

Ora che abbiamo a disposizione questi concetti, possiamo procedere enunciando un lemma<br />

dimostrabile facilmente utilizzando il <strong>teorema</strong> precedente e la proprietà di monotonìa<br />

degli integrali.<br />

Lemma 5 (Lemma di Fatou). Sia (X, Σ, µ) uno spazio di misura e sia {f n } n∈N una<br />

successione di funzioni misurabili nonnegative. Allora<br />

∫<br />

∫<br />

lim inf f ndµ ≤ lim inf f n dµ.<br />

n∈N<br />

n∈N<br />

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.4 (pag. 52)]<br />

Un altro risultato importante e fondamentale per la nostra trattazione è dato dal<br />

seguente <strong>teorema</strong>.<br />

Teorema 2 (Teorema di convergenza dominata). Sia (X, Σ, µ) uno spazio di misura e<br />

sia {f n } n∈N una successione di funzioni misurabili tali che :<br />

i) f n ∈ L 1 ,∀n ∈ N<br />

ii) Esiste una funzione misurabile f tale che, dato x ∈ X,<br />

lim f n(x) = f(x)<br />

n→∞<br />

iii) Esiste una funzione nonnegativa g ∈ L 1 tale che |f n (x)| ≤ g(x), ∀x ∈ X, ∀n ∈ N<br />

Sotto queste ipotesi, si ha che allora f ∈ L 1 e che lim n→∞<br />

∫<br />

|fn − f|dµ = 0, dunque<br />

lim n→∞<br />

∫<br />

fn dµ = ∫ fdµ.<br />

Dimostrazione. Anche in questo caso, si consiglia di vedere [2, §5.9 (pag. 54)].<br />

Questo <strong>teorema</strong> ci permette di dimostrare un lemma importante che dovremo utilizzare<br />

in seguito e che ci apprestiamo ad enunciare.<br />

Lemma 6 (Integrabilità uniforme). Sia (X, Σ, µ) uno spazio di probabilità e sia f ∈<br />

L 1 (X, Σ, µ). Allora, per ogni η > 0, esiste δ > 0 tale che, comunque si scelga A ∈ Σ, si<br />

ha che, se µ(A) < δ, allora ∫ A<br />

|f(x)|dµ(x) ≤ η.<br />

Dimostrazione. Osserviamo innanzitutto che, per il <strong>teorema</strong> di convergenza dominata,<br />

si ha che<br />

∫<br />

lim<br />

|f(x)|dµ(x) =<br />

M→∞ {x∈X:|f(x)|>M}<br />

∫<br />

= lim |f(x)|χ {x∈X:|f(x)|>M} (x)dµ(x) = 0.<br />

M→∞ X


8 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Dunque questo significa che<br />

∀η > 0, ∃M 0 tale che<br />

∫<br />

{x∈X:|f(x)|>M 0 }<br />

|f(x)|dµ(x) ≤ η 2 .<br />

Sia ora A ∈ Σ, osserviamo che<br />

∫<br />

A<br />

|f(x)|dµ(x)<br />

∫<br />

=<br />

A∩{x∈X:|f(x)|>M 0 }<br />

∫<br />

|f(x)|dµ(x) +<br />

|f(x)|dµ(x)<br />

A∩{x∈X:|f(x)|≤M 0 }<br />

≤ η 2 + M 0P (A ∩ {x ∈ X : |f(x)| ≤ M 0 })<br />

≤ η 2 + M 0P (A). (1.1)<br />

Definiamo, quindi, δ :=<br />

che<br />

η<br />

2M 0<br />

: se A è tale che µ(A) < δ, dunque, dalla (1.1) otteniamo<br />

∫<br />

|f(x)|dµ(x) ≤ η.<br />

A<br />

1.2 Impacchettamenti e ricoprimenti<br />

In questa sottosezione lasciamo momentaneamente in disparte la probabilità per concentrarci<br />

su alcuni risultati di combinatoria necessari nella dimostrazione del <strong>teorema</strong><br />

<strong>ergodico</strong>.<br />

In particolare, consideriamo l’insieme N dei numeri naturali e tutti e soli gli intervalli<br />

del tipo [n, m] = {j ∈ N|n ≤ j ≤ m}.<br />

Definizione 1. Si dice ricoprimento forte di N un insieme C definito da una funzione<br />

a valori interi n ↦→ m(n) (ove m(n) ≥ n, ∀n ∈ N) e formato da tutti gli intervalli nella<br />

forma [n, m(n)], n ∈ N (il termine forte sta ad indicare il fatto che ogni numero naturale<br />

debba essere estremo sinistro di un intervallo appartenente a C).<br />

Osserviamo che ogni ricoprimento forte ammette un sottoricoprimento C ′ formato da<br />

elementi disgiunti di C : è sufficiente, ad esempio, definire tale sottoinsieme come C ′ :=<br />

{[n i , m(n i )], dove n 1 = 1 e n i+1 = 1+m(n i )}, i ≥ 1.<strong>Il</strong> problema che ci poniamo, dunque,<br />

è il seguente : dato un ricoprimento forte C, è possibile ottenere un sottoricoprimento<br />

C ′ di C, formato da intervalli disgiunti, appartenenti ad [1,K] e tali che la loro unione<br />

generi tutto l’intervallo In generale, la risposta è negativa: tuttavia è possibile ottenere<br />

un sottoricoprimento che ci permetta di ricostruire la maggior parte di tale intervallo.<br />

Iniziamo da un caso particolare che ci permetta di verificare immediatamente ed in<br />

maniera diretta l’affermazione appena fatta, così da fissare bene le idee: supponiamo


1.2. IMPACCHETTAMENTI E RICOPRIMENTI 9<br />

che gli intervalli in C abbiano tutti la stessa lunghezza, sia L. In tal caso, definiamo il<br />

sottoricoprimento C ′ in questo modo:<br />

{<br />

}<br />

C ′ (K − L)<br />

= [iL + 1, (i + 1)L] : 0 ≤ i ≤ .<br />

L<br />

Si può osservare facilmente che questo insieme, per come è definito ed essendo costituito<br />

da intervalli consecutivi e disgiunti di lunghezza L, ricopre tutto l’intervallo [1, K] fatta<br />

eccezione per, al massimo, gli ultimi L − 1 elementi.<br />

Inoltre, osserviamo che, dato δ > 0, se K ed L sono tali che K > L δ<br />

, allora la porzione<br />

di intervallo che non viene ricoperta ha cardinalità al massimo L−1 < L < Kδ e pertanto<br />

il rapporto tra la sua lunghezza e quella di [1, K] è strettamente minore di δ.<br />

Ora consideriamo un caso più generale: sia [1, K] un dato intervallo e sia C un<br />

ricoprimento forte i cui elementi abbiano lunghezza variabile.<br />

<strong>Il</strong> nostro obiettivo è far vedere che, se la maggior parte degli intervalli di C aventi<br />

estremo sinistro in [1, K] ha lunghezza non superiore ad L, allora è possibile estrarre un<br />

sottoricoprimento C ′ incluso interamente in [1, K] e tale che l’unione dei suoi elementi<br />

ricostruisca quasi completamente tale intervallo, a meno di una frazione di esso, la quale<br />

non supera comunque un certo valore stimabile. Innanzitutto, è opportuno introdurre<br />

alcune definizioni, al fine di tradurre in termini rigorosi ciò che intendiamo provare e,<br />

quindi, fornire una dimostrazione valida.<br />

Definizione 2. Sia C un ricoprimento forte di N. Un intervallo [1, K] è detto (L, δ)-<br />

fortemente ricoperto se, dati L > 0, δ > 0,<br />

|{n ∈ [1, K] : m(n) − n + 1 > L}|<br />

K<br />

Definizione 3. Una collezione C ′ di intervalli inclusi in un dato intervallo [1, K] è detta<br />

(1 − δ)-impacchettamento di [1,K] se gli intervalli di C ′ sono disgiunti e se la loro unione<br />

ha cardinalità maggiore od uguale a (1 − δ)K.<br />

Ora abbiamo a disposizione tutti gli elementi per dimostrare il lemma principale di<br />

questa sottosezione.<br />

Lemma 7 (Lemma di impacchettamento). Sia C un ricoprimento forte di N e sia<br />

δ > 0 dato. Se K > L δ<br />

e se [1, K] è (L, δ)-fortemente coperto da C, allora esiste un<br />

sottoricoprimento C ′ ⊂ C che è un (1 − 2δ)-impacchettamento di [1, K].<br />

≤ δ.<br />

Dimostrazione. Innanzitutto, per ipotesi sappiamo che K > L δ<br />

e che |{n ∈ [1, K] :<br />

m(n) − n + 1 > L}| ≤ δK. Ora cerchiamo di costruire un (1 − 2δ)-impacchettamento<br />

dell’intervallo [1, K]. L’idea è quella di procedere iterativamente da sinistra a destra,<br />

selezionando ad ogni passo il primo intervallo di lunghezza non superiore ad L e che<br />

sia disgiunto da quello selezionato in precedenza, fermandoci quando l’estremo destro<br />

dell’ultimo intervallo estratto dista da K per una quantità minore di L.Più precisamente,<br />

poniamo m(0) = n 0 = 0 e definiamo per induzione:<br />

n i = min{j ∈ [1 + m(n i−1 ), K − L] : m(j) − j + 1 ≤ L}, ∀i ≥ 1,


10 CAPITOLO 1. IL TEOREMA ERGODICO<br />

fermandoci quando la condizione non è più soddisfatta. Se I è l’insieme degli indici j<br />

che selezioniamo, osserviamo che chiaramente m(n j ) − n j + 1 ≤ L, ∀j ∈ I e che quindi<br />

m(n |I| ) ≤ K. <strong>Il</strong> procedimento si arresta quando si verifica uno dei seguenti casi:<br />

• I è tale che m(n |I| ) > K − L : osserviamo che 1 + m(n |I| ) > K − L, pertanto<br />

non possiamo selezionare ulteriori intervalli disgiunti dai precedenti e di lunghezza<br />

inferiore ad L poiché, anche qualora ve ne fossero, non siamo sicuri che questi siano<br />

inclusi completamente in [1, K], essendo la distanza del loro estremo sinistro da K<br />

inferiore di L<br />

• Non esiste j ∈ [1 + m(n |I| ), K − L], tale che m(j) − j + 1 ≤ L : anche se esistessero<br />

degli intervalli disgiunti dai precedenti ed aventi estremo sinistro a distanza<br />

maggiore di L da K, tuttavia, siccome tali intervalli hanno tutti lunghezza strettamente<br />

maggiore di L, in generale non è detto che siano completamente inclusi in<br />

[1, K].<br />

Ora vogliamo provare che l’insieme C ′ = {[n i , m(n i )] : 1 ≤ i ≤ |I|} sia effettivamente<br />

un (1 − 2δ)-impacchettamento di [1, K]. Innanzitutto, osserviamo che gli elementi di<br />

C ′ sono tra loro disgiunti per costruzione e, in virtù delle osservazioni fatte, sono tutti<br />

inclusi in [1, K]. Resta da provare, pertanto, che la loro unione U abbia lunghezza almeno<br />

(1 − 2δ)K.<br />

Osserviamo che l’intervallo (K − L, K] ha lunghezza massima L − 1 < L < δK. dunque<br />

sicuramente<br />

|(K − L, K] \ U| ≤ δK.<br />

Ora consideriamo l’intervallo [1, K − L]. Per come abbiamo definito C ′ (e per come<br />

abbiamo costruito U), si ha che:<br />

Se j ∈ [1, K − L] \ U, allora m(j) − j + 1 > L.<br />

Ma allora, se applichiamo l’ipotesi di (L, δ)-ricoprimento forte, posso concludere che<br />

Quindi si ha sicuramente che<br />

|[1, K − L] \ U| ≤ δK.<br />

|[1, K] \ U| = |([1, K − L] \ U) ∪ ((K − L, K] \ U)| =<br />

e così facendo abbiamo dimostrato la tesi.<br />

= |[1, K − L] \ U| + |(K − L, K] \ U| ≤ δK + δK = 2δK<br />

1.3 Trasformazioni stazionarie ed ergodiche<br />

In questa sezione consideriamo le funzioni definite su un generico spazio di probabilità<br />

(X, Σ, µ) ed a valori nel medesimo. In particolare, definiamo in maniera rigorosa i concetti<br />

di trasformazione stazionaria e di trasformazione ergodica, insieme ad alcune proprietà<br />

che saranno necessarie in seguito.


1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 11<br />

Definizione 4 (Trasformazione stazionaria). Sia (X, Σ, µ) uno spazio di probabilità.<br />

Un’applicazione T : X → X si dice trasformazione stazionaria se è misurabile e se<br />

µ(T −1 B) = µ(B), ∀B ∈ Σ.<br />

Definizione 5 (Trasformazione ergodica). Una trasformazione stazionaria T si dice<br />

ergodica se, dato B ∈ Σ,<br />

T −1 B = B ⇒ µ(B) = 0 o µ(B) = 1.<br />

Lemma 8 (Definizioni equivalenti di ergodicità). Sia (X, Σ, µ) uno spazio di probabilità.<br />

Data una trasformazione stazionaria T : X → X, sono equivalenti :<br />

a) T è ergodica.<br />

b) T −1 B ⊆ B ⇒ µ(B) = 0 o µ(B) = 1.<br />

c) T −1 B ⊇ B ⇒ µ(B) = 0 o µ(B) = 1.<br />

d) µ(T −1 B∆B) = 0 ⇒ µ(B) = 0 o µ(B) = 1,<br />

ove A∆B = (A ∪ B) \ (A ∩ B) è la differenza simmetrica tra A e B.<br />

e) Se f(T x) = f(x) quasi certamente, allora f è costante quasi certamente.<br />

f) Se f(T x) ≥ f(x) quasi certamente (oppure f(T x) ≤ f(x) quasi certamente), allora<br />

f è costante quasi certamente.<br />

Dimostrazione. Dimostriamo, inizialmente, l’equivalenza di a) e b). Osserviamo che b) ⇒<br />

a) è ovvia : basta notare che, se T : X → X è un’applicazione tale che, dato B ∈ Σ,<br />

T −1 B = B, allora in particolare T −1 B ⊆ B. In virtù delle ipotesi assunte, quindi, si ha<br />

che µ(B) = 0 o µ(B) = 1 e dunque abbiamo dimostrato l’ergodicità di T .<br />

Procediamo ora con la dimostrazione dell’implicazione inversa : sia T una trasformazione<br />

ergodica e sia B ∈ Σ tale che T −1 B ⊆ B. Siccome l’applicazione inversa T −1 preserva<br />

le relazioni insiemistiche, osserviamo che<br />

T −1 B ⊆ B ⇒ T −(n+1) B ⊆ T −n (B), ∀n ∈ N. (1.2)<br />

Prima di proseguire con la dimostrazione osserviamo che ⋂ n≥1 T −n B = ⋂ n≥0 T −n B. Si<br />

può verificare facilmente, infatti, che ⋂ n≥1 T −n B ⊇ ⋂ n≥0 T −n B.: tale disuguaglianza è<br />

banale poiché il secondo membro corrisponde al primo intersecato con un nuovo evento.<br />

La relazione ⋂ n≥1 T −n B ⊆ ⋂ n≥0 T −n B., invece, è facilmente ottenibile a partire da<br />

(1.2).<br />

In base a queste osservazioni, quindi, se definiamo l’insieme C := ⋂ n≥0 T −n B, si può<br />

notare che<br />

( ⋂<br />

)<br />

T −1 C = T −1 T −n B = ⋂ T −1 (T −n B) =<br />

n≥0 n≥0<br />

= ⋂ T −(n+1) B = ⋂ T −n B = ⋂ T −n B = C.<br />

n≥0<br />

n≥1<br />

n≥0


12 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Poichè T è per ipotesi ergodica, dev’essere per forza µ(C) = 0 oppure µ(C) = 1.<br />

Osserviamo che per la continuità dall’alto si ha che<br />

( ⋂<br />

)<br />

µ(C) = µ T −n B = lim µ(T −n B) = lim µ(B) = µ(B).<br />

n→∞ n→∞<br />

n≥0<br />

Dunque µ(B) = 0 oppure µ(B) = 1 ed abbiamo dimostrato anche questa implicazione.<br />

L’equivalenza di b) e c) è immediata. Basta considerare, infatti, che<br />

T −1 B ⊇ B ⇐⇒ (T −1 B) c = T −1 (B c ) ⊆ B c .<br />

Supponendo, pertanto, che valga b), se T −1 B ⊇ B, allora, in virtù dell’osservazione<br />

fatta sopra, µ(B c ) = 0 oppure µ(B c ) = 1, ossia µ(B) = 1 oppure µ(B) = 0 e quindi c)<br />

è verificata. Supponiamo, ora, che valga c) e che T −1 B ⊆ B: quest’ultimo fatto equivale<br />

ad affermare che T −1 B c ⊇ B c . Avendo supposto valida c), dunque, concludiamo che<br />

µ(B c ) = 0 oppure µ(B c ) = 1, ovvero µ(B) = 1 oppure µ(B) = 0 e dunque b) è verificata.<br />

Dimostriamo ora che b) è equivalente a d). Innanzitutto, dimostrare d)⇒b) è semplice:<br />

osserviamo che, se T −1 B ⊆ B, allora<br />

µ(T −1 B∆B) = µ(B \ T −1 B) = µ(B) − µ(T −1 B) = µ(B) − µ(B) = 0.<br />

Se supponiamo valga d), dunque, µ(B) = 0 oppure µ(B) = 1.<br />

Ora proviamo la validità dell’implicazione inversa: supponiamo, dunque, che valga b).<br />

Definiamo C := ⋃ n≥0 T −n B ed osserviamo che<br />

T −1 C = T −1 ( ⋃<br />

n≥0<br />

T −n B<br />

)<br />

= ⋃ T −n B ⊆ ⋃ T −n B = C,<br />

n≥1<br />

n≥0<br />

questo implica che µ(C) = 0 oppure µ(C) = 1. Ora notiamo che, per come abbiamo<br />

definito C e per la proprietà di continuità dall’alto, si ha che<br />

( N<br />

)<br />

µ(C) = lim µ ⋃<br />

(T −n B) . (1.3)<br />

N→∞<br />

Sia C N := ⋃ N<br />

n=0 (T −n B). Ora consideriamo i seguenti risultati che ci saranno utili nel<br />

proseguimento della dimostrazione:<br />

i) Dati due insiemi A e B,<br />

n=0<br />

µ(A) − µ(B)<br />

= µ(A ∩ B) + µ(A \ B) − (µ(B ∩ A) + µ(B \ A))<br />

= µ(A \ B) − µ(B \ A).<br />

Dunque |µ(A) − µ(B)| ≤ µ(A \ B) + µ(B \ A) = µ(A∆B).


1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 13<br />

ii) Dati n insiemi A 1 , A 2 , . . . , A n ed un insieme B, si può verificare che<br />

(<br />

⋃ N N⋃<br />

A n<br />

)∆B ⊆ (A n ∆B).<br />

n=1<br />

n=1<br />

iii) Dati due insiemi A e B, si verfica facilmente che<br />

A∆B ⊆ (A∆C) ∪ (C∆B).<br />

Ora osserviamo che, essendo T stazionaria e poichè l’inversa di un’applicazione preserva<br />

le relazioni insiemistiche, in base alle nostre ipotesi possiamo notare che<br />

0 = µ(T −1 B∆B) = µ(T −1 (T −1 B∆B)) = µ(T −2 B∆T −1 B)<br />

= µ(T −1 (T −2 B∆T −1 B)) = . . . = µ(T −(n−1) B∆T −n B), ∀n ∈ N<br />

In base ad i) e ii), dunque, possiamo notare che<br />

|µ(C N ) − µ(B)| ≤ µ(C N ∆B)<br />

( N<br />

)<br />

⋃<br />

N∑<br />

≤ µ (T −n B∆B) ≤ µ(T −n B∆B). (1.4)<br />

n=0<br />

n=0<br />

Ora osserviamo che, in base a iii), dato n ∈ N,<br />

T −n B∆B ⊆ (T −n B∆T −(n−1) B) ∪ (T −(n−1) B∆B).<br />

Otteniamo, dunque, la seguente diseguaglianza<br />

µ(T −n B∆B)<br />

≤ µ(T −n B∆T −(n−1) B) + µ(T −(n−1) B∆B)<br />

= µ(T −(n−1) B∆B).<br />

Osserviamo che tale maggiorazione può essere ripetuta per tutti gli n ∈ N, così da<br />

ottenere la catena di diseguaglianze:<br />

µ(T −n B∆B) ≤ = µ(T −(n−1) B∆B) ≤ µ(T −(n−2) B∆B)<br />

≤ . . . ≤ µ(T −1 B∆B).<br />

Siccome, per ipotesi, µ(T −1 B∆B) = 0, allora, in base all’osservazione precedente, dev’essere<br />

µ(T −n B∆B) = 0, ∀n ∈ N. Ma allora osserviamo che, per la (1.4), si ha che<br />

|µ(C N ) − µ(B)| = 0, ∀N ∈ N. Dunque µ(C N ) = µ(B), ∀N ∈ N e, tornando alla (1.3),<br />

otteniamo che<br />

µ(C) = lim µ(C N) = lim µ(B) = µ(B).<br />

N→∞ N→∞<br />

Dunque possiamo concludere, in quanto, se µ(C) = µ(B), segue che µ(B) = 1 oppure<br />

µ(B) = 0. La validità di d) a partire da b) è quindi dimostrata.


14 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Ora completiamo la dimostrazione provando che d) ed e) sono equivalenti. Innanzitutto<br />

supponiamo che valga d) e consideriamo una generica funzione semplice<br />

f(x) =<br />

n∑<br />

a i χ Bi (x), ove a i ≠ a j e B i ∩ B j = ∅, ∀i ≠ j, i, j ∈ {1, . . . , n}<br />

i=1<br />

(ricordiamo che ogni funzione semplice può essere espressa in questa forma). Supponiamo<br />

che f(x) = f(T x) quasi certamente. Osserviamo che<br />

f(T x) =<br />

n∑<br />

a i χ Bi (T x) =<br />

i=1<br />

n∑<br />

a i χ T −1 (B i )(x). (1.5)<br />

i=1<br />

Dato i ∈ {1, . . . , n}, se x ∈ (B i ∆T −1 (B i )), ciò significa che x non può appartenere<br />

sia a B i che a T −1 (B i ): in altre parole, non può verificarsi che x e T x appartengano<br />

entrambi all’insieme B i . Questo fatto implica, in base alla (1.5), che sicuramente f(x) ≠<br />

f(T x). Possiamo affermare, dunque, che B i ∆T −1 B i ⊆ {x : f(x) ≠ f(T x)} e che, avendo<br />

supposto f(x) = f(T x) quasi certamente, si ha dunque:<br />

µ(B i ∆T −1 (B i )) ≤ µ({x : f(x) ≠ f(T x)}) = 0 ∀i ∈ {1, . . . , n}<br />

⇒ µ(B i ∆T −1 (B i )) = 0 ∀i ∈ {1, . . . , n}.<br />

Siccome abbiamo supposto che d) sia vera, segue che µ(B i ) = 0 oppure µ(B i ) = 1,<br />

∀i ∈ {1, . . . , n}. Tuttavia, essendo gli insiemi B i a due a due disgiunti, questo significa che<br />

esiste al più un solo indice ¯j ∈ {1, . . . , n} tale che µ(B¯j) = 1 e µ(B i = 0), ∀i ≠ ¯j. Questo<br />

risultato implica che la funzione semplice f, per come è definita, è quasi certamente<br />

costante. Dunque il risultato vale per le funzioni semplici. Sia ora f una funzione generica<br />

per cui supponiamo che f(T x) = f(x) quasi certamente. Definiamo, per ogni numero<br />

naturale n, la funzione<br />

f n (x) :=<br />

+n2<br />

∑<br />

n<br />

k=−n2 n<br />

k<br />

2 n χ{ ( ]}<br />

x:f(x)∈ k−1 (x).<br />

2 n , k<br />

2 n<br />

Osserviamo che si tratta di una funzione semplice e che, per ogni n ∈ N, il valore che<br />

assume f n in ciascun x ∈ X dipende dal valore assunto da f in tale punto. In particolare,<br />

dato n ∈ N e dato x ∈ X, se f(T x) = f(x) allora<br />

f n (T x) =<br />

+n2<br />

∑<br />

n<br />

k=−n2 n<br />

k<br />

2 n χ{ ( ]}<br />

x:f(T x)∈ k−1 (x)<br />

2 n , k<br />

2 n<br />

=<br />

+n2<br />

∑<br />

n<br />

k=−n2 n<br />

k<br />

2 n χ{ [ ]}<br />

x:f(x)∈ k−1 (x) = fn (x).<br />

2 n , k<br />

2 n<br />

Dunque, se f(T x) = f(x) quasi certamente, allora f n (T x) = f n (x) quasi certamente,<br />

∀n ∈ N. Pertanto, in virtù del risultato ottenuto per le funzioni semplici, possiamo


1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 15<br />

affermare che, per ogni numero naturale n, f n (x) = c n ∈ R , ∀x ∈ A n , ove A n è un<br />

insieme tale che µ(A n ) = 1. Notiamo, inoltre, che, fissato x ∈ X, lim n→∞ f n (x) =<br />

f(x). Definiamo, quindi, l’insieme A := ⋂ n≥0 A n ed osserviamo che µ(A) = 1. Infatti<br />

osserviamo che A c = ⋃ n≥0 A n c , quindi µ(A c ) ≤ ∑ n≥0 µ(A n c ) = 0, pertanto µ(A c ) = 0,<br />

ovvero µ(A) = 1. Dunque, se x ∈ A, allora la successione {f n (x)} n∈N è una successione di<br />

numeri reali {c n } n∈N convergente ad f(x). Poichè questo fatto vale per ogni x ∈ A, allora<br />

per forza f(x) dev’essere costante su tutto A, altrimenti si avrebbe che la successione<br />

{c n } n∈N converge a più valori, il che è assurdo. Pertanto f è costante su A, dunque a<br />

meno di un insieme di misura nulla.<br />

Supponiamo ora che e) sia valida e sia B ∈ Σ tale che µ(T −1 B∆B) = 0. Osserviamo che<br />

∫<br />

0 = µ(T −1 B∆B) = |χ T −1 B(x) − χ B (x)|dµ(x),<br />

da cui segue facilmente che<br />

|χ T −1 B(x) − χ B (x)| = 0, q.c. ⇒ χ T −1 B(x) = χ B (x) q.c.<br />

⇐⇒ χ B (T x) = χ B (x) q.c. .<br />

Dunque, supponendo e) vera, segue che χ B (x) è quasi certamente costante. Siccome<br />

tale funzione può assumere i soli valori 0 ed 1, allora o χ B (x) = 1 q.c. (ed in tal caso<br />

µ(B) = 1), oppure χ B (x) = 0 q.c. (ed in tal caso µ(B) = 0). Dunque abbiamo provato<br />

la validità di d).<br />

Ora dimostriamo che e) ed f) sono equivalenti. L’implicazione f) ⇒ e) è ovvia poichè<br />

basta notare che f(T x) = f(x) quasi certamente ⇒ f(T x) ≥ f(x) (oppure f(T x) ≤<br />

f(x)) quasi certamente.<br />

Ora dimostriamo che e) implica f). Supponiamo, dunque, che valga e) che f(T x) ≥<br />

f(x) quasi certamente (nel caso in cui f(T x) ≤ f(x) quasi certamente, si procede in<br />

maniera analoga). Definiamo la funzione g(x) := f(T x) − f(x) : osserviamo che, in virtù<br />

dell’ipotesi, g(x) ≥ 0 quasi certamente. Notiamo che, in virtù della stazionarietà di T<br />

∫<br />

∫<br />

∫<br />

g(x)dµ(x) = f(T x)dµ(x) − f(x)dµ(x) = 0.<br />

In base a queste due proprietà, dunque, dev’essere g(x) = 0 quasi certamente, ma allora<br />

f(T x) = f(x) quasi certamente, dunque f è costante quasi certamente.<br />

Sia ora (E, E) uno spazio misurabile e sia (E N , E N ) lo spazio prodotto definito a<br />

partire da E (costituito dagli elementi (x 1 , x 2 , ..., x n , ...) tali che x n ∈ E, ∀n ∈ N) e<br />

munito della σ-algebra prodotto E N . Definiamo, quindi, l’operazione di shift<br />

T : E N → E N<br />

(x 1 , x 2 , . . . x n , . . .) ↦→ (x 2 , x 3 , . . . , x n , . . .).<br />

Consideriamo ora un processo stocastico {X n } n∈N a valori in E, cioè<br />

X n : (X, Σ, P ) → (E, E), ∀n ∈ N,


16 CAPITOLO 1. IL TEOREMA ERGODICO<br />

ove (X, Σ, P ) è uno spazio di probabilità. Definiamo, su (E N , E N ), la misura di Kolmogorov<br />

per il processo {X n } n∈N in questo modo:<br />

µ(A 1 × A 2 × . . . × A n × . . .) :=<br />

P (X 1 ∈ A 1 , X 2 ∈ A 2 , . . . , X n ∈ A n , . . .), ∀{A i } i∈N , A i ∈ E<br />

(µ è detta legge della successione {X n } n∈N ). Tale processo, dunque, si dice <strong>ergodico</strong> se<br />

l’operazione di shift è ergodica rispetto alla misura di Kolmogorov associata al processo<br />

{X n } n∈N .<br />

1.4 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong><br />

1.4.1 Enunciato del <strong>teorema</strong> <strong>ergodico</strong><br />

Teorema 3 (Teorema <strong>ergodico</strong>). Sia T una trasformazione stazionaria su uno spazio di<br />

probabilità (X, Σ, µ) e sia f una funzione integrabile, allora la media 1 n<br />

∑ n<br />

i=1 f(T i−1 x)<br />

converge quasi certamente ed in L 1 , per n −→ ∞, verso una funzione T -invariante<br />

f ∗ (x).<br />

Corollario 1. Se T è una trasformazione ergodica, allora f ∗ (x) = ∫ fdµ, ∀x ∈ X.<br />

Dimostrazione. Sia f n (x) := 1 n<br />

∑ n<br />

i=1 f(T i−1 x).<br />

Siccome f n converge in L 1 ad f ∗ , allora<br />

∫ ∫<br />

∣∫<br />

∫<br />

∣ f n dµ − f ∗ ∣∣∣<br />

dµ<br />

∣ = (f n − f ∗ )dµ<br />

∣ ≤<br />

|f n − f ∗ |dµ −→ 0, per n → ∞,<br />

dunque ∫ f n dµ −→ ∫ f ∗ dµ, per n → ∞.<br />

Inoltre, notiamo che, ∀n ∈ N,<br />

∫<br />

∫ 1<br />

n∑<br />

f n (x)dµ = f(T i−1 x)dµ = 1 n<br />

n<br />

i=1<br />

n∑<br />

∫<br />

∫<br />

f(T i−1 x)dµ =<br />

poiché, essendo T una trasformazione stazionaria,<br />

∫<br />

∫<br />

f(T n (x))dµ = f(x)dµ, ∀n ∈ N.<br />

i=1<br />

f(x)dµ,<br />

Dunque dev’essere ∫ fdµ = ∫ f ∗ dµ.<br />

Inoltre, se supponiamo che T sia una trasformazione ergodica, essendo f ∗ T −invariante,<br />

allora, in virtù del Lemma 4, f ∗ (x) è costante su tutto il dominio, pertanto f ∗ (x) = c ∈ R,<br />

∀x ∈ X, dunque :<br />

∫<br />

∫<br />

∫<br />

f(x)dµ = f ∗ (x)dµ = cdµ = µ(X)c = c,<br />

pertanto, nel caso in cui T sia anche ergodica la funzione f ∗ (x) (media temporale) è<br />

costante su tutto il dominio ed ha valore pari a ∫ fdµ (media spaziale).


1.4. IL TEOREMA ERGODICO 17<br />

1.4.2 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> : caso binario<br />

Teorema 4 (Teorema <strong>ergodico</strong>: caso binario). Se {X n } è un processo <strong>ergodico</strong> tale che<br />

{X n } ∈ {0, 1}, ∀n ∈ N, allora la media X 1+X 2 +...+X n<br />

n<br />

converge quasi certamente al valore<br />

costante E(X 1 ) = µ(1) = µ({x : x 1 = 1}).<br />

Dimostrazione. <strong>Il</strong> nostro obiettivo è provare che :<br />

1<br />

n∑<br />

lim x i = µ(1) quasi ovunque, (1.6)<br />

n→∞ n<br />

i=1<br />

ove, ricordiamo, µ(1) = µ{x : x 1 = 1} = E(X 1 ) e µ 1 è la legge di X su {0, 1} N .<br />

Supponiamo, per assurdo, che (1.6) sia falsa.<br />

Più precisamente, supponiamo che l’insieme<br />

B =<br />

{<br />

x : lim sup<br />

n→∞<br />

1<br />

n<br />

}<br />

n∑<br />

x i > µ(1) + ɛ<br />

sia tale che µ(B) > 0 (il caso complementare, in cui si considera l’insieme degli x ∈ X<br />

1<br />

∑<br />

tali che lim inf n<br />

n→∞ n i=1 x i < µ(1) − ɛ, si tratta in modo analogo). Osserviamo che<br />

lim sup<br />

n→∞<br />

Infatti, notiamo che<br />

x 1 + x 2 + ... + x n<br />

n<br />

x 2 + x 3 + ... + x n+1<br />

n<br />

i=1<br />

= lim sup<br />

n→∞<br />

= x 1 + x 2 + ... + x n<br />

n<br />

x 2 + x 3 + ... + x n+1<br />

.<br />

n<br />

x<br />

Inoltre, poichè x n ∈ {0, 1}, ∀n ∈ N, si ha che lim n+1<br />

n→∞ n<br />

− x 1<br />

n<br />

+ x n+1<br />

n − x 1<br />

n .<br />

= 0, dunque<br />

lim sup<br />

n→∞<br />

x 2 + x 3 + ... + x n+1<br />

=<br />

n<br />

lim sup<br />

n→∞<br />

x 1 + x 2 + ... + x n<br />

n<br />

x n+1<br />

+ lim<br />

n→∞ n − x 1<br />

n =<br />

= lim sup<br />

n→∞<br />

x 1 + x 2 + ... + x n<br />

n<br />

Pertanto, se la sequenza (x 1 , x 2 , ..., x n , ..) ∈ B, allora la sequenza, ottenuta tramite uno<br />

shift, (x 2 , x 3 , .., x n , ..) ∈ B e questo fatto vale anche per tutte le operazioni di shift<br />

successive : abbiamo provato, quindi, che l’insieme B è T -invariante e, poichè abbiamo<br />

assunto che µ sia ergodica rispetto a T e che µ(B) > 0, allora deve valere µ(B) = 1.<br />

Supponiamo ora che x = (x 1 , x 2 , .., x n , ..) ∈ B : essendo B un insieme T -invariante,<br />

allora<br />

(x n , x n+1 , .., x n+m , ..) ∈ B, ∀n ∈ N,<br />

⇐⇒ lim sup<br />

m→∞<br />

n+m−1<br />

1 ∑<br />

m<br />

k=n<br />

x k > µ(1) + ɛ, ∀n ∈ N,


18 CAPITOLO 1. IL TEOREMA ERGODICO<br />

dunque per ogni intero n esiste un intero m(n) ≥ n tale che<br />

x n + x n+1 + ... + x m(n)<br />

m(n) − n + 1<br />

> µ(1) + ɛ.<br />

Definiamo, pertanto, la collezione di intervalli<br />

C(x) := {[n, m(n)] : n ∈ N} : (1.7)<br />

tale insieme è un ricoprimento forte di N. Osserviamo, inoltre, che tale insieme è determinato<br />

in modo casuale, al variare dei valori assunti dalla sequenza (x 1 , x 2 , .., x n , ..), i<br />

quali, appunto, sono determinati da una sequenza di variabili casuali . Osserviamo che,<br />

poichè µ(B) = 1, allora<br />

lim sup<br />

n→∞<br />

1<br />

n<br />

n∑<br />

x i > µ(1) + ɛ, quasi certamente,<br />

i=1<br />

ovvero ad eccezione di un sottoinsieme di {0, 1} N avente misura nulla. Dunque possiamo<br />

affermare che quasi certamente esiste un m(1) ∈ N tale che<br />

x 1 + x 2 + ... + x m(1)<br />

m(1)<br />

> µ(1) + ɛ,<br />

questo significa che la variabile casuale m(1) (il cui valore varia al variare dei valori<br />

assunti dal processo <strong>ergodico</strong> {X n } n∈N ) assume quasi certamente un valore finito in N<br />

e, pertanto, è limitata a meno di un sottoinsieme di {0, 1} N avente probabilità piccola<br />

a piacere. Più precisamente, dato δ > 0, esiste un numero L tale che se D := {x =<br />

(x 1 , x 2 , .., x n , ..) : m(1) > L} allora µ(D) < δ 2 .<br />

Definiamo la funzione<br />

g K (x) := 1 K∑<br />

χ D (T i−1 (x)),<br />

K<br />

{ 1 se x ∈ D<br />

ove χ D (x) =<br />

0 se altrimenti.<br />

Ora vogliamo calcolare l’integrale di questa funzione.<br />

Innanzitutto osserviamo che, poichè T è una trasformazione stazionaria, µ = µ ◦ T .<br />

Dunque<br />

i=1<br />

∫<br />

g K (x)dµ = 1 K<br />

K∑<br />

∫<br />

i=1<br />

χ D (T i−1 x)dµ =<br />

= 1 K<br />

K∑<br />

∫<br />

i=1<br />

χ D (x)dµ = 1 Kµ(D) = µ(D).<br />

K<br />

Poichè, quindi, ∫ g K (x)dµ = µ(D) < δ 2 , per la Diseguaglianza di Markov si ha che l’insieme<br />

G K := {x : g K (x) ≤ δ} è tale che µ(G K ) ≥ (1 − δ).


1.4. IL TEOREMA ERGODICO 19<br />

Supponiamo x ∈ G K , allora:<br />

g K (x) = 1 K<br />

K∑<br />

χ D (T i−1 x) ≤ δ.<br />

i=1<br />

Ora osserviamo questo fatto importante: per definizione dell’insieme D, sia x = (x 1 , x 2 , ..., x n , ...),<br />

allora<br />

T n−1 (x) = (x n , x n+1 , .., ..) ∈ D ⇐⇒ m(n) − n + 1 > L<br />

⇐⇒ |[n, m(n)]| > L.<br />

Se x ∈ G K , dunque, possiamo scrivere<br />

g k (x) = 1 K<br />

=<br />

K∑<br />

χ D (T i−1 (x)) =<br />

i=1<br />

|{n ∈ [1, K] : m(n) − n + 1 > L}|<br />

K<br />

=<br />

|{n ∈ [1, K] : |[n, m(n)]| > L}|<br />

K<br />

≤ δ.<br />

Dunque abbiamo provato che, se x ∈ G K , allora l’insieme C(x), definito in (1.7), è un<br />

(L, δ)-ricoprimento forte dell’intervallo [1, K].<br />

In virtù del Lemma di impacchettamento, quindi, esiste un sottoinsieme<br />

C ′ (x) = {[n i , m(n i )] : i ≤ I(x)} ⊂ C(x),<br />

il quale è un (1 − 2δ)-impacchettamento di [1, K]. Poichè le x i sono nonnegative, gli<br />

intervalli di C ′ (x) sono disgiunti e sono tutti contenuti in [1, K], allora:<br />

I(x)<br />

K∑ ∑<br />

x j ≥<br />

j=1<br />

i=1<br />

m(n i )<br />

∑<br />

j=n i<br />

I(x)<br />

∑<br />

≥ (m(n i ) − n i + 1)[µ(1) + ɛ] =<br />

i=1<br />

I(x)<br />

∑<br />

[µ(1) + ɛ] |[n i , m(n i )]| ≥ [µ(1) + ɛ](1 − 2δ)K.<br />

Ora osserviamo che, poichè ovviamente ∑ K<br />

j=1 x j ≥ ( ∑ K<br />

j=1 x j)χ Gk (x), si ha:<br />

(<br />

∑ K ) ( ( K )<br />

∑ )<br />

E x j ≥ E x j χGk (x)<br />

j=1<br />

j=1<br />

≥<br />

≥ E([µ(1) + ɛ](1 − 2δ)Kχ Gk (x)) = [µ(1) + ɛ](1 − 2δ)KE(χ Gk (x)) =<br />

i=1<br />

= [µ(1) + ɛ](1 − 2δ)Kµ(G k ) ≥ [µ(1) + ɛ](1 − 2δ)K(1 − δ),


20 CAPITOLO 1. IL TEOREMA ERGODICO<br />

cosicchè:<br />

( 1<br />

µ(1) = E<br />

K<br />

K∑<br />

)<br />

x j ≥ [µ(1) + ɛ](1 − 2δ)(1 − δ), ∀δ > 0.<br />

j=1<br />

Questo fatto è chiaramente assurdo, poiché, per δ → 0, dovrebbe aversi, per la permanenza<br />

del segno,<br />

µ(1) ≥ µ(1) + ɛ > µ(1)<br />

In questo modo, quindi, abbiamo provato che la (1.6) è vera e, pertanto, abbiamo<br />

dimostarto il <strong>teorema</strong>.<br />

1.4.3 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong>: caso generale<br />

In questa sottosezione dimostriamo la validità del <strong>teorema</strong> <strong>ergodico</strong> nella sua forma più<br />

astratta. Prima di procedere con la dimostrazione vera e propria, tuttavia, è necessario<br />

provare alcuni lemmi.<br />

Lemma 9. Consideriamo uno spazio di probabilità (X, Σ, µ). Siano f ∈ L 1 (X, Σ, µ),<br />

T : X → X una trasformazione stazionaria ed α un numero reale arbitrario. Definiamo<br />

gli insiemi<br />

B =<br />

{<br />

x ∈ X : lim sup<br />

D =<br />

{<br />

n→∞<br />

1<br />

n<br />

x ∈ X : lim<br />

n→∞<br />

allora µ(D) = 1 e B ∩ D = T −n B ∩ D, ∀n ∈ N.<br />

}<br />

n∑<br />

f(T i−1 x) > α<br />

i=1<br />

f(T n x)<br />

n<br />

Dimostrazione. Osserviamo innanzitutto che, siccome f ∈ L 1 , si ha, ∀ɛ > 0 :<br />

= 0<br />

}<br />

,<br />

∫<br />

∞ ><br />

|f|dµ =<br />

∫ +∞<br />

0<br />

µ({x ∈ X : |f(x)| > t})dt =<br />

= ∑ n∈N<br />

∫ ɛn<br />

ɛ(n−1)<br />

µ({x ∈ X : |f(x)| > t})dt ≥ ∑ n∈N<br />

ɛµ({x ∈ X : |f(x)| > ɛn})<br />

(la prima uguaglianza segue da un’applicazione del Teorema di Fubini, mentre l’ultima<br />

diseguaglianza segue dal fatto che il valore µ({x ∈ X : |f(x)| > t}) decresce all’aumentare<br />

di t ∈ [ɛ(n − 1), ɛn]). Dunque si ha che<br />

∑<br />

µ({x ∈ X : |f(x)| > ɛn}) < +∞.<br />

n∈N


1.4. IL TEOREMA ERGODICO 21<br />

Osserviamo che, essendo T una trasformazione stazionaria, allora dev’essere<br />

µ({x ∈ X : |f(x)| > ɛn}) =<br />

Dunque<br />

∑<br />

= µ(T −n ({x ∈ X : |f(x)| > ɛn})) =<br />

n∈N<br />

µ({x ∈ X : |f(T n x)| > ɛn}) = ∑ n∈N<br />

Per il lemma di Borel-Cantelli, quindi, possiamo affermare che<br />

( ⋂<br />

µ<br />

n≥1<br />

Pertanto<br />

⋃<br />

m≥n<br />

)<br />

{x ∈ X : |f(T m x)| > ɛm} =<br />

µ({x ∈ X : |f(T n x)| > ɛn}).<br />

µ({x ∈ X : |f(x)| > ɛn}) < +∞.<br />

= µ({x ∈ X : ∀n ∈ N, ∃m ≥ n tale che |f(T m x)| > ɛm}) = 0<br />

1 = µ({x ∈ X : ∃N = N(x) tale che |f(T n x)| ≤ ɛn, ∀n ≥ N}) =<br />

= µ({x ∈ X : ∃N = N(x) tale che |f(T n x)|<br />

n<br />

≤ ɛ, ∀n ≥ N}).<br />

Ricordiamo che questo risultato vale per ɛ > 0 fissato. Definiamo, quindi, l’insieme<br />

G ɛ := {x ∈ X : ∃N = N(x) tale che |f(T n x)|<br />

n<br />

≤ ɛ, ∀n ≥ N}.<br />

Finora abbiamo provato che µ(G ɛ ) = 1, ∀ɛ > 0. Si può notare facilmente che, dati<br />

ɛ 1 , ɛ 2 > 0, se ɛ 1 < ɛ 2 , allora G ɛ1 ⊆ G ɛ2 . Osserviamo, inoltre, che<br />

⋂<br />

ɛ>0<br />

G ɛ = {x ∈ X : ∀ɛ > 0, ∃N ɛ = N ɛ (x) tale che |f(T n x)|<br />

n<br />

Osserviamo, dunque, che per continuità dall’alto si ha che<br />

( ) ⋂<br />

G ɛ<br />

ɛ>0<br />

µ(D) = µ<br />

≤ ɛ, ∀n ≥ N ɛ }<br />

f(T n x)<br />

= {x ∈ X : lim = 0} = D.<br />

n→∞ n<br />

= lim<br />

ɛ→0<br />

µ(G ɛ ) = 1.<br />

Sia ora x ∈ B ∩ D, ovvero, ricordiamo, sia x ∈ X tale che :<br />

lim sup<br />

n→∞<br />

1<br />

n<br />

n∑<br />

f(T i−1 x) > α e<br />

i=1<br />

f(T n x)<br />

lim = 0.<br />

n→∞ n


22 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Innanzitutto proviamo che T (x) ∈ B. Osserviamo che<br />

1<br />

n<br />

n∑<br />

f(T i−1 (T (x))) = 1 n+1<br />

∑<br />

f(T i−1 x) =<br />

n<br />

i=1<br />

= 1 n<br />

i=1<br />

i=2<br />

n∑<br />

f(T i−1 x) + 1 n+1<br />

∑<br />

f(T i−1 x) − 1 n∑<br />

f(T i−1 x) =<br />

n<br />

n<br />

i=2<br />

i=1<br />

= 1 n∑<br />

( f(T<br />

f(T i−1 n x)<br />

x) + − f(x) )<br />

. (1.8)<br />

n<br />

n n<br />

Notiamo che, per come abbiamo definito l’insieme D e poiché, per ogni x fissato, si ha<br />

f(x)<br />

chiaramente lim n→∞ n<br />

= 0, allora se x ∈ B ∩ D si ha che<br />

i=1<br />

f(T n x)<br />

lim<br />

n→∞ n<br />

−<br />

f(x)<br />

n<br />

f(T n x)<br />

= lim<br />

n→∞ n<br />

−<br />

f(x)<br />

lim<br />

n→∞ n<br />

Dunque, in virtù della (1.8) e del fatto che x ∈ B, abbiamo<br />

= 0 + 0 = 0.<br />

lim sup<br />

n→∞<br />

1<br />

n<br />

n∑<br />

f(T i−1 (T (x))) =<br />

i=1<br />

(<br />

1<br />

n∑<br />

= lim sup<br />

n→∞ n<br />

i=1<br />

n∑<br />

= lim sup<br />

n→∞<br />

i=1<br />

( f(T<br />

f(T i−1 n x)<br />

x) +<br />

n<br />

f(T i−1 x) + lim<br />

n→∞<br />

− f(x) ) ) =<br />

n<br />

( f(T n x)<br />

− f(x) )<br />

=<br />

n n<br />

n∑<br />

= lim sup<br />

n→∞<br />

f(T i−1 x) > α. (1.9)<br />

Dunque T (x) ∈ B. Osserviamo che, inoltre, T (x) ∈ D, poiché, siccome per ipotesi<br />

x ∈ B ∩ D, si ha<br />

f(T n (T (x))) f(T n+1 x) f(T n x)<br />

lim<br />

= lim<br />

= lim = 0 (1.10)<br />

n→∞ n<br />

n→∞ n n→∞ n<br />

Dunque x ∈ B ∩ D ⇒ T (x) ∈ B ∩ D. Osserviamo che, inoltre, per la (1.9) e la (1.10)<br />

vale anche l’implicazione inversa, dunque x ∈ B ∩ D ⇐⇒ T (x) ∈ B ∩ D. Dunque<br />

B ∩D = T −1 (B ∩D) = (T −1 B)∩(T −1 D) = T −1 B ∩D, poiché, per la (1.10), D = T −1 D.<br />

Osserviamo che, iterando questa proprietà, otteniamo che<br />

B ∩ D = T −1 (B ∩ D) = T −1 (T −1 (B ∩ D)) = T −2 (B ∩ D)<br />

dunque B ∩ D = T −n B ∩ D, ∀n ∈ N.<br />

i=1<br />

= T −2 B ∩ T −2 D =T −2 B ∩ D = . . . = T −n B ∩ D = . . .


1.4. IL TEOREMA ERGODICO 23<br />

Lemma 10. Sia T una trasformazione stazionaria su uno spazio di probabilità (X, Σ, µ),<br />

sia f ∈ L 1 (X, Σ, µ) e sia α un numero reale arbitrario. Se definiamo l’insieme<br />

{<br />

}<br />

1<br />

n∑<br />

B = x : lim sup f(T i−1 x) > α ,<br />

n→∞ n<br />

allora<br />

∫<br />

B<br />

i=1<br />

f(x)dµ(x) ≥ αµ(B). (1.11)<br />

Dimostrazione. Se µ(B) = 0, il lemma è banalmente verificato. Consideriamo, dunque,<br />

il caso in cui µ(B) > 0. Definiamo l’insieme<br />

{<br />

}<br />

f(T n x)<br />

D = x ∈ X : lim = 0 .<br />

n→∞ n<br />

Sappiamo, dal lemma precedente, che µ(D) = 1, dunque µ(B ∩ D) = µ(B). Inoltre,<br />

definiamo la misura condizionata<br />

µ B (A) :=<br />

µ(A ∩ B)<br />

, ∀A ∈ Σ<br />

µ(B)<br />

(ricordiamo che abbiamo supposto µ(B) > 0). Osserviamo che, in base a tale definizione<br />

ed alla definizione di integrale, si può concludere facilmente che<br />

∫<br />

f(x)dµ B (x) = 1 ∫<br />

f(x)dµ(x).<br />

µ(B)<br />

B<br />

Siccome nella (1.11) l’integrale è calcolato sull’insieme B, in virtù delle affermazioni<br />

precedenti osserviamo che<br />

∫<br />

∫<br />

∫<br />

f(x)dµ(x) = f(x)dµ(x) = µ(B) f(x)dµ B (x).<br />

B<br />

B∩D<br />

B∩D<br />

Al fine di dimostrare il lemma, dunque, sarà sufficiente far vedere che<br />

∫<br />

f(x)dµ B (x) ≥ α.<br />

B∩D<br />

Ricordiamo, in base al lemma precedente, che B ∩ D = T −n B ∩ D, ∀n ∈ N. Ciò equivale<br />

esattamente ad affermare che, dato x ∈ B ∩ D, per ogni numero naturale n esiste<br />

m(n) ∈ N tale che m(n) ≥ n e che<br />

∑ m(n)<br />

i=n f(T i−1 x)<br />

m(n) − n + 1 > α.<br />

Dunque, per x ∈ B∩D, è sempre definito il ricoprimento forte C(x) = {[n, m(n)] : n ∈ N}.<br />

Osserviamo che, dato x ∈ B, esiste sempre m(1) ∈ N tale che<br />

∑ m(1)<br />

i=1 f(T i−1 x)<br />

> α.<br />

m(1)<br />

B


24 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Questo significa che la variabile aleatoria m(1) è sempre finita, per x ∈ B, dunque è<br />

limitata, a meno di un insieme avente misura µ B piccola a piacere. Pertanto possiamo<br />

affermare che, dato δ > 0, esiste L > 0 tale che l’insieme E := {x ∈ B : m(1) > L} è<br />

tale che µ B (E) < δ 2 . Definiamo, per ogni K > 0, K ∈ N, l’insieme<br />

G K =<br />

{<br />

x ∈ B ∩ D :<br />

1<br />

K<br />

K∑<br />

i=1<br />

}<br />

χ E∩D (T i−1 x) ≤ δ .<br />

Osserviamo che, se definiamo g K (x) := 1 K<br />

∑ K<br />

i=1 χ E∩D(T i−1 x), allora, per la proprietà di<br />

linearità dell’integrale e poiché T è stazionaria e B ∩ D è T -invariante, abbiamo che<br />

∫<br />

g K (x)dµ B (x) = 1 K∑<br />

∫<br />

χ E∩D (T i−1 x)dµ B (x) =<br />

B∩D K<br />

i=1<br />

B∩D<br />

= 1 K∑<br />

∫<br />

χ E∩D (x)dµ B (x) = 1 ∫<br />

K<br />

K K χ E∩D (x)dµ B (x) =<br />

i=1<br />

B∩D<br />

B∩D<br />

= 1 K Kµ B(E ∩ D) = µ B (E).<br />

Per la diseguaglianza di Markov, dunque, si ha che µ B (G K ) ≥ 1 − δ.<br />

Supponiamo di scegliere K > 0 tale che K ≥ L δ<br />

: sotto queste ipotesi possiamo applicare<br />

il lemma di impacchettamento al ricoprimento forte C. Più precisamente, esiste<br />

un sottoricoprimento C ′ (x) = {[n i , m(n i )] : i ≤ I(x)} ⊂ C(x), il quale è un (1 − 2δ)-<br />

impacchettamento dell’intervallo [1, K], e pertanto ricordiamo che si ottiene la seguente<br />

diseguaglianza :<br />

Osserviamo che, per x ∈ G K<br />

K∑<br />

f(T j−1 (x)) ≥<br />

j=1<br />

≥<br />

∑<br />

I(x)<br />

∑<br />

|[n i , m(n i )]| ≥ (1 − 2δ)K.<br />

i=1<br />

j∈[1,K]\ ⋃ [n i ,m(n i )]<br />

∑<br />

j∈[1,K]\ ⋃ [n i ,m(n i )]<br />

=<br />

∑<br />

j∈[1,K]\ ⋃ [n i ,m(n i )]<br />

I(x)<br />

∑<br />

f(T j−1 (x)) +<br />

m(n i )<br />

∑<br />

i=1 j=n(i)<br />

f(T j−1 (x)) ≥<br />

I(x)<br />

∑<br />

f(T j−1 (x)) + (m(n i ) − n i + 1)α =<br />

i=1<br />

I(x)<br />

∑<br />

f(T j−1 (x)) + α |[n i , m(n i )]| ≥<br />

≥<br />

∑<br />

i=1<br />

j∈[1,K]\ ⋃ [n i ,m(n i )]<br />

f(T j−1 (x)) + αK(1 − 2δ).


1.4. IL TEOREMA ERGODICO 25<br />

Ora, nel caso in cui f sia limitata, supponiamo |f(x)| < M, M > 0, in base al risultato<br />

ottenuto dal lemma di impacchettamento posso affermare che<br />

∑<br />

j∈[1,K]\ ⋃ [n i ,m(n i )]<br />

f(T j−1 (x)) ≥<br />

∑<br />

j∈[1,K]\ ⋃ [n i ,m(n i )]<br />

Pertanto, in tale situazione si ha che, per x ∈ G K ,<br />

(−M) ≥<br />

K∑<br />

f(T j−1 (x)) ≥ −2MKδ + αK(1 − 2δ)<br />

j=1<br />

, mentre, per x /∈ G K , si ha che<br />

e quindi<br />

∫<br />

B∩D<br />

j=1<br />

K∑<br />

∫<br />

f(T j−1 (x))dµ B (x) =<br />

B∩D<br />

≥ −2MKδ.<br />

f(x)dµ B (x) ≥ 2MKδ + αK(1 − 2δ).<br />

Dunque, facendo tendere δ a 0, otteniamo il risultato desiderato.<br />

Se, invece, f non è limitata, allora osserviamo che<br />

∫<br />

B∩D<br />

∫<br />

f(x)dµ B (x) =<br />

B∩D<br />

1<br />

K<br />

K∑<br />

f(T j−1 (x))dµ B (x) =<br />

j=1<br />

∫ I(x) m(n<br />

1 ∑ i )<br />

∑<br />

∫<br />

=<br />

f(T j−1 1<br />

K∑<br />

(x))dµ B (x) +<br />

f(T j−1 (x))dµ B (x)+<br />

G K<br />

K<br />

i=1 j=n<br />

(B∩D)\G K<br />

K<br />

i j=1<br />

∫<br />

1 ∑<br />

+<br />

f(T j−1 (x))dµ B (x)+<br />

G K<br />

K<br />

j∈[1,K−L]\ ⋃ [n i ,m(n i )]<br />

∫<br />

1 ∑<br />

+<br />

f(T j−1 (x))dµ B (x).<br />

G K<br />

K<br />

j∈[K−L,K]\ ⋃ [n i ,m(n i )]<br />

Innanzitutto notiamo che, per il lemma di impacchettamento e poiché x ∈ B ∩ D, si ha<br />

∫<br />

G K<br />

1<br />

K<br />

I(x)<br />

∑<br />

m(n i )<br />

∑<br />

f(T j−1 (x))dµ B (x)<br />

i=1 j=n i<br />

∫ I(x)<br />

1 ∑<br />

≥<br />

(m(n i ) − n i + 1)αdµ B (x) ≥ 1 ∫<br />

(1 − 2δ)Kαdµ B (x)<br />

G K<br />

K<br />

K G K<br />

i=1<br />

= 1 K (1 − 2δ)Kαµ B(G K ) = (1 − 2δ)αµ B (G K ).


26 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Sia ora<br />

Osserviamo che<br />

|I 1 | ≤ 1 K<br />

= 1 K<br />

∫<br />

(B∩D)\G K j=1<br />

K∑<br />

∫<br />

j=1<br />

∫<br />

1<br />

K∑<br />

I 1 :=<br />

f(T j−1 (x))dµ B (x).<br />

(B∩D)\G K<br />

K<br />

K ∑<br />

j=1<br />

|f(T j−1 (x))|dµ B (x) =<br />

(B∩D)\G K<br />

|f(T j−1 (x))|dµ B (x) = 1 K<br />

K∑<br />

∫<br />

j=1<br />

T 1−j ((B∩D)\G K )<br />

|f(x)|dµ B (x).<br />

Osserviamo che, poiché f ∈ L 1 , allora |I 1 | < +∞. Inoltre notiamo che, poiché µ(G K ) ≥<br />

1 − δ, allora<br />

µ B ((B ∩ D) \ G K ) = µ B (B ∩ D) − µ B (G K ) ≤ 1 − (1 − δ) = δ.<br />

Essendo per ipotesi T stazionaria, dunque, si ha che<br />

µ(T 1−j ((B ∩ D) \ G K )) = µ((B ∩ D) \ G K ) ≤ δ.<br />

Dunque gli insiemi T 1−j ((B ∩ D) \ G K ), al variare di j ∈ {1, ..., K}, hanno la stessa<br />

misura, la quale è limitata superiormente da δ. Ricordiamo che la scelta di δ > 0, da cui<br />

dipende la definizione dell’insieme G K , è arbitraria. Dunque, per il Lemma 6, scegliamo<br />

δ > 0 tale che, se µ((B ∩ D) \ G k ) < δ, allora è possibile stimare |I 1 | con una quantità<br />

arbitrariamente piccola. Sia ora<br />

∫<br />

I 2 :=<br />

G K<br />

1<br />

K<br />

∑<br />

j∈[1,K−L]\ ⋃ [n i ,m(n i )]<br />

f(T j−1 (x))dµ B (x).<br />

Osserviamo che, per il lemma di impacchettamento, se j ∈ [1, K − L] \ ⋃ [n i ,m(n i )] , allora<br />

m(j) − j + 1 > L. Sotto queste ipotesi, dunque, se x ∈ G K ⊂ B ∩ D, allora T j−1 (x) ∈<br />

E ∩ D, per come abbiamo definito l’insieme E. Dunque, ricordando che T è stazionaria,<br />

si ha che<br />

|I 2 | ≤ 1 ∫<br />

∑<br />

|f(T j−1 (x))|dµ B (x) =<br />

K<br />

G K j∈[1,K−L]\ ⋃ [n i ,m(n i )]<br />

= 1 K<br />

= 1 K<br />

∫<br />

B∩D<br />

j=1<br />

K∑<br />

∫<br />

j=1<br />

K∑<br />

χ E∩D (T j−1 (x))|f(T j−1 (x))|dµ B (x) =<br />

B∩D<br />

= 1 K K ∫<br />

χ E∩D (T j−1 (x))|f(T j−1 (x))|dµ B (x) =<br />

B∩D<br />

∫<br />

χ E∩D (x)|f(x)|dµ B (x) =<br />

E∩D<br />

|f(x)|dµ B (x).


1.4. IL TEOREMA ERGODICO 27<br />

Osserviamo che, in questo caso, all’aumentare di L, µ B (E) = µ B (E ∩ D) è una quantità<br />

sempre minore, dunque per L grande, |I 2 | è arbitrariamente piccolo.<br />

Sia ora<br />

∫<br />

1 ∑<br />

I 3 :=<br />

f(T j−1 (x))dµ B (x).<br />

G K<br />

K<br />

j∈[K−L,K]\ ⋃ [n i ,m(n i )]<br />

Tale valore può essere facilmente maggiorato se osserviamo che, poichè G K ⊂ B ∩ D<br />

|I 3 | ≤ 1 ∑<br />

∫<br />

|f(T j−1 (x))|dµ B (x) ≤<br />

K<br />

j∈(K−L,K]<br />

G K<br />

≤ 1 ∑<br />

∫<br />

|f(T j−1 (x))|dµ B (x) =<br />

K<br />

j∈(K−L,K]<br />

= 1 K<br />

∑<br />

j∈(K−L,K]<br />

B∩D<br />

∫<br />

B∩D<br />

|f(x)|dµ B (x) ≤<br />

≤ 1 K L ∫<br />

B∩D<br />

|f(x)|dµ B (x).<br />

Dunque, per L fissato, se K è sufficientemente grande, I 3 è piccolo. Ora ricordiamo che<br />

vale la relazione<br />

∫<br />

f(x)dµ B (x) ≥ (1 − 2δ)αµ B (G K ) + I 1 + I 2 + I 3<br />

B∩D<br />

≥ (1 − 2δ)α(1 − δ) + I 1 + I 2 + I 3<br />

Ora fissiamo ɛ > 0. In base a tale valore ed alle stime ottenute, pertanto, siano :<br />

- δ 0 tale che, ∀δ ≤ δ 0 , (1 − 2δ)α(1 − δ) > α − ɛ 4 ;<br />

- δ 1 tale che δ 1 < δ 0 e che |I 1 | < ɛ 4 ;<br />

- L 0 sufficientemente grande e tale che |I 2 | < ɛ 4 ;<br />

- K 0 sufficientemente grande e tale che L 0<br />

K 0<br />

< δ 1 e |I 3 | < ɛ 4 .<br />

Per tali valori di δ 1 , L 0 , K 0 , dunque, otteniamo che<br />

∫<br />

f(x)dµ B (x) ≥ α − ɛ 4 − ɛ 4 − ɛ 4 − ɛ 4 = α − ɛ.<br />

B∩D<br />

Ma questo significa che<br />

∫<br />

B∩D f(x)dµ B(x) ≥ α − ɛ, ∀ɛ > 0.<br />

Per ɛ → 0, dunque, e per la permanenza del segno otteniamo che<br />

∫<br />

f(x)dµ B (x) ≥ α,<br />

quindi possiamo concludere.<br />

B∩D


28 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Ora disponiamo di tutti gli strumenti necessari per dimostrare il <strong>teorema</strong> <strong>ergodico</strong>,<br />

di cui riportiamo l’enunciato.<br />

Teorema 5 (Teorema <strong>ergodico</strong>). Sia T una trasformazione stazionaria su uno spazio di<br />

probabilità (X, Σ, µ) e sia f una funzione integrabile, allora la media 1 n<br />

∑ n<br />

i=1 f(T i−1 x)<br />

converge quasi certamente ed in L 1 , per n −→ ∞, verso una funzione T -invariante<br />

f ∗ (x).<br />

Dimostrazione. Ricordiamo che affermare che la successione 1 ∑ n<br />

n i=1 f(T i−1 x) sia convergente<br />

per n → ∞ equivale ad affermare che<br />

1<br />

n∑<br />

lim inf f(T i−1 1<br />

n∑<br />

x) = lim sup f(T i−1 x).<br />

n→∞ n<br />

n→∞ n<br />

i=1<br />

Osserviamo, innanzitutto, che il risultato del lemma precedente rimane vero per qualsiasi<br />

sottoinsieme C ∩ D ⊆ B ∩ D, purchè tale insieme sia T -invariante: si può notare, infatti,<br />

che tutti i passaggi utilizzati nel suddetto lemma rimangono validi qualora si restringa<br />

l’insieme B ∩ D all’insieme C ∩ D. Definiamo pertanto l’insieme<br />

C :=<br />

{<br />

1<br />

x : lim inf<br />

n→∞ n<br />

n∑<br />

i=1<br />

i=1<br />

f(T i−1 x) < α < β < lim sup<br />

n→∞<br />

1<br />

n<br />

n∑<br />

i=1<br />

}<br />

f(T i−1 x) .<br />

Si noti che C ∩ D è T-invariante. In base al lemma precedente, dunque, osserviamo<br />

innanzitutto che<br />

∫<br />

f(x)dµ(x) ≥ βµ(C)<br />

Notiamo inoltre che<br />

lim inf<br />

n→∞<br />

1<br />

n<br />

n∑<br />

i=1<br />

C∩D<br />

f(T i−1 x) < α ⇐⇒ − lim inf<br />

n→∞<br />

1<br />

n<br />

⇐⇒<br />

n∑<br />

f(T i−1 x) > −α<br />

i=1<br />

lim sup<br />

n→∞<br />

Sempre in virtù del lemma precedente, quindi, concludiamo che<br />

Dunque<br />

− ∫ C f(x)dµ(x) ≥ −αµ(C) ⇐⇒ ∫ C<br />

f(x)dµ(x) ≤ αµ(C).<br />

∫<br />

βµ(C) ≤<br />

C<br />

f(x)dµ(x) ≤ αµ(C).<br />

1<br />

n<br />

n∑<br />

(−f(T i−1 x)) > −α .<br />

Siccome α < β, pertanto, la diseguaglianza ottenuta può essere vera se e soltanto se<br />

µ(C)=0. Osserviamo che l’insieme C, per come è definito, dipende dai parametri α e<br />

β, dunque sia C = C α,β . Notiamo, sempre in virtù della definizione di C, che vale la<br />

seguente inclusione:<br />

{<br />

1<br />

n∑<br />

c ⋃<br />

x : ∃ lim f(T x)} i−1 ⊆ C α,β .<br />

n→∞ n<br />

i=1<br />

α,β∈Q,α


1.4. IL TEOREMA ERGODICO 29<br />

Dunque possiamo concludere che la successione 1 n<br />

∑ n<br />

i=1 f(T i−1 x) converge quasi certamente<br />

per n → ∞.<br />

Ora dobbiamo provare che la successione converge in L 1 . Definiamo, innanzitutto,<br />

l’operatore f ↦→ U T (f) in questo modo:<br />

U T (f)(x) := f(T x), ∀x ∈ X, f ∈ L 1 .<br />

Tale operatore è lineare, infatti, date f e g in L 1 , per ogni x ∈ X si ha che<br />

U T (f + g)(x) = (f + g)(T x) = f(T x) + g(T x) = U T (f)(x) + U T (g)(x).<br />

Inoltre osserviamo che, essendo T stazionaria,<br />

∫<br />

∫<br />

‖U T f‖ L 1 = |f(T x)|dµ(x) =<br />

|f(x)|dµ(x) = ‖f‖ L 1.<br />

Dunque, se definiamo, ∀x ∈ X, la media temporale<br />

A n f(x) := 1 n<br />

n∑<br />

i=1<br />

U i−1<br />

T<br />

f(x)<br />

osserviamo che la linearità di A n segue facilmente dalla linearità dell’operatore U T .<br />

Inoltre, notiamo che<br />

‖A n f‖ L 1 = 1 n<br />

∫<br />

|<br />

n∑<br />

i=1<br />

U i−1<br />

T<br />

f(x)|dµ(x) ≤ 1 n<br />

n∑<br />

∫<br />

i=1<br />

= 1 n<br />

|U i−1<br />

T<br />

f(x)|dµ(x)<br />

n∑<br />

∫<br />

i=1<br />

|f(x)|dµ(x) = ‖f‖ L 1. (1.12)<br />

Supponiamo f sia limitata, cioè esista M > 0 tale che |f(x)| ≤ M. Osserviamo che,<br />

allora,<br />

|A n f(x)| ≤ 1 n∑<br />

|U i−1<br />

T<br />

f(x)| = 1 n∑<br />

|f(T i−1 x)| ≤ 1 nM = M.<br />

n<br />

n<br />

n<br />

i=1<br />

Siccome abbiamo provato che A n f converge quasi certamente, dunque, poichè |A n f| è<br />

limitata, per il <strong>teorema</strong> di convergenza dominata si ha che A n f converge in L 1 . Dunque<br />

il <strong>teorema</strong> è provato se f è limitata.<br />

Consideriamo ora il caso generale: sia f ∈ L 1 , in generale non limitata. Dato ɛ > 0,<br />

dunque, sia g ɛ un’approssimazione limitata di f, tale che ‖f − g ɛ ‖ ≤ ɛ 3<br />

(si può scegliere,<br />

ad esempio, g ɛ (x) = f(x)χ {|f(x)|≤M} , prendendo M = M ɛ sufficientemente grande). Ora<br />

osserviamo che<br />

‖f − A n f‖ L 1 ≤ ‖f − g‖ L 1 + ‖g − A n g‖ L 1 + ‖A n g − A n f‖ L 1.<br />

Ora notiamo che, in virtù di quanto osservato nella (1.12),<br />

i=1<br />

‖A n g − A n f‖ L 1 = ‖A n (g − f)‖ L 1 ≤ ‖g − f‖ L 1.


30 CAPITOLO 1. IL TEOREMA ERGODICO<br />

Osserviamo inoltre che, poichè, essendo g limitata, A n g → g in L 1 , allora, per ɛ > 0,<br />

esiste n ɛ ∈ N tale che ‖g − A n g‖ L 1 ≤ ɛ 3 , ∀n ≥ n ɛ. Dunque possiamo concludere che,<br />

fissato ɛ > 0, per ogni n ≥ n ɛ si ha che<br />

‖f − A n f‖ ≤ 2‖g − f‖ L 1 + ‖A n g − g‖ L 1 ≤ 2 ɛ 3 + ɛ 3 = ɛ,<br />

ovvero A n f → f in L 1 .


Capitolo 2<br />

<strong>Applicazioni</strong> ed esempi<br />

In questo capitolo utilizzeremo la teoria sviluppata finora al fine di dimostrare l’ergodicità<br />

di alcuni prarticolari processi stocastici.<br />

2.1 Strumenti tecnici<br />

In questa sezione richiamiamo alcuni concetti di calcolo delle probabilità necessari al<br />

nostro scopo. Sia, innanzitutto, (X, Σ, µ) uno spazio di misura e consideriamo un’ applicazione<br />

T : X → X. Tale funzione è detta mescolante se<br />

lim µ(T −n C ∩ D) = µ(C)µ(D), ∀C, D ∈ Σ. (2.1)<br />

n→∞<br />

Un processo stocastico, dunque, si dice mescolante se l’operazione di shift è mescolante<br />

rispetto alla misura di Kolmogorov associata a tale processo.<br />

Lemma 11. Sia (X, Σ, µ) uno spazio di misura e sia T : X → X un’applicazione. Se T<br />

è mescolante, allora T è ergodica.<br />

Dimostrazione. Sia C ∈ Σ tale che T −1 C = C: osserviamo che, poiché C = T −1 C =<br />

. . . = T −n C = . . ., allora T −n C ∩ D = C ∩ D, ∀D ∈ Σ, ∀n ∈ N. Essendo T mescolante,<br />

quindi, in virtù della (2.9) otteniamo che µ(C ∩ D) = µ(C)µ(D), ∀D ∈ Σ. Se poniamo<br />

C = D, quindi, otteniamo che µ(C) = µ(C) 2 e questo è vero se e soltanto se µ(C) = 0<br />

oppure µ(C) = 1.<br />

Introduciamo ora il concetto di mescolanza debole. Un’applicazione T : X → X è<br />

detta debolmente mescolante se<br />

lim<br />

N→∞<br />

1<br />

N<br />

N∑<br />

µ(T −j C ∩ D) = µ(C)µ(D), ∀C, D ∈ Σ.<br />

j=1<br />

Vediamo che, in questo caso, la condizione di mescolanza debole non solo implica la<br />

condizione di ergodicità, ma è anche del tutto equivalente a quest’ultima.<br />

31


32 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />

Lemma 12. Sia (X, Σ, µ) uno spazio di misura. Allora T : X → X una trasformazione<br />

debolmente mescolante ⇐⇒ T è ergodica.<br />

Dimostrazione. Consideriamo separatamente le due implicazioni.<br />

[=⇒]Sia C ∈ Σ tale che T −1 C = C, osserviamo che allora C = T −1 C = . . . = T −n C, . . .,<br />

dunque la condizione di mescolanza debole implica che<br />

lim<br />

N→∞<br />

1<br />

N<br />

N∑<br />

j=1<br />

µ(T −j 1<br />

C ∩ D) = lim<br />

N→∞ N<br />

N∑<br />

µ(C ∩ D)<br />

j=1<br />

1<br />

= lim Nµ(C ∩ D) = µ(C ∩ D) = µ(C)µ(D) ∀D ∈ Σ.<br />

N→∞ N<br />

Se, quindi, poniamo D = C, otteniamo che µ(C) = µ(C) 2 , ovvero µ(C) = 0 oppure<br />

µ(C) = 1.<br />

[⇐=]Supponiamo che T sia una trasformazione ergodica. In virtù del <strong>teorema</strong> <strong>ergodico</strong>,<br />

quindi, si ha che per ogni funzione integrabile f deve vale<br />

1<br />

lim<br />

n→∞ n<br />

n∑<br />

∫<br />

f(T j x) =<br />

j=1<br />

fdµ,<br />

quasi certamente ed in L 1 . Ora siano C, D ∈ Σ e poniamo f(x) = χ C (x). In virtù<br />

dell’osservazione precedente si ha che<br />

1<br />

n∑<br />

lim χ C (T j 1<br />

n∑<br />

∫<br />

x) = lim χ<br />

n→∞ n<br />

n→∞ n T −j C(x) = χ C (x)dµ = µ(C), (2.2)<br />

j=1<br />

j=1<br />

quasi certamente ed in L 1 . Osserviamo ora che<br />

1<br />

N<br />

N∑<br />

µ(T −j C ∩ D) = 1 N<br />

j=1<br />

N∑<br />

∫<br />

j=1<br />

∫<br />

χ T −j C∩D(x)dµ(x) =<br />

∫<br />

=<br />

1<br />

N∑<br />

χ<br />

N T −j C∩D(x)dµ(x)<br />

j=1<br />

1<br />

N∑<br />

χ<br />

N T −j C(x)χ D (x)dµ(x).<br />

j=1<br />

Ora, in base alla (2.2) ed osservando che, ovviamente, |χ T −j C(x)| ≤ 1, ∀j, e che, quindi,<br />

1<br />

N<br />

∑ N<br />

j=1 χ T −j C(x)χ D (x) è limitata, in base al <strong>teorema</strong> di convergenza dominata si ha<br />

che<br />

lim<br />

N→∞<br />

1<br />

N<br />

N∑<br />

j=1<br />

∫<br />

µ(T −j 1<br />

C ∩ D)χ D (x) = lim<br />

N→∞ D N<br />

N∑<br />

χ T −j C(x)dµ(x)<br />

j=1<br />

∫<br />

=<br />

D<br />

µ(C)dµ(x)χ D (x) = µ(C)µ(D).<br />

Dunque abbiamo provato che, se T è una trasformazione ergodica, allora è debolmente<br />

mescolante.


2.1. STRUMENTI TECNICI 33<br />

A questo punto, disponiamo di ulteriori strumenti che possono essere utili nel determinare<br />

se una data applicazione sia ergodica (e, nel caso della mescolanza debole,<br />

possiamo anche verificare che non lo sia). Ai fini pratici, tuttavia, la verifica delle proprietà<br />

di mescolanza e di mescolanza debole può essere complicata, dato che deve valere<br />

per una coppia generica di elementi appartenenti alla σ-algebra che stiamo considerando.<br />

A tal proposito, un aiuto notevole per la verifica di tali proprietà è fornito da un risultato,<br />

la cui dimostrazione richiede la conoscenza di alcune definizioni di base e dell’enunciato<br />

del lemma di Dynkin.<br />

Definizione 6 (Base di una σ-algebra). Sia X un insieme e sia Σ una σ-algebra. Un<br />

sottoinsieme I ⊆ Σ è detto base di Σ se<br />

• Σ è generata da I<br />

• A ∩ B ∈ I, ∀A, B ∈ I<br />

Definizione 7. Sia X un insieme. Un sottoinsieme D ⊆ X è detto classe monotona su<br />

X se soddisfa le seguenti condizioni:<br />

• X ∈ D.<br />

• Se A, B ∈ D ed A ⊆ B, allora B \ A ∈ D.<br />

• Se {A n } n∈N è una successione di elementi di D tale che A n ⊆ A n+1 , ∀n ≥ 1, allora<br />

⋃<br />

n∈N A n ∈ D.<br />

Ora che disponiamo di queste definizioni, possiamo procedere enunciando il seguente<br />

lemma.<br />

Lemma 13 (Lemma di Dynkin). Sia X un insieme, sia Σ una σ-algebra su X e sia I<br />

una base di Σ. Ogni classe monotòna D su X contenente I contiene anche Σ.<br />

Dimostrazione. Si veda, ad esempio, [2, §A1.3 (pag. 193)].<br />

Ora, grazie a questi strumenti, possiamo enunciare e dimostrare un <strong>teorema</strong> che<br />

risulterà molto utile al fine di dimostrare l’ergodicità di alcuni tipi di processi stocastici.<br />

Teorema 6. Sia (X, Σ, µ) uno spazio di misura e sia T : X → X un’applicazione stazionaria.<br />

Se la condizone di mescolanza (rispettivamente di mescolanza debole) è soddisfatta<br />

per ogni C, D appartenenti ad una base di Σ, allora tale condizione (rispettivamente la<br />

condizione di mescolanza debole) è valida per ogni C, D ∈ Σ.<br />

Dimostrazione. Dimostriamo il <strong>teorema</strong> relativamente alla proprietà di mescolanza: la<br />

proprietà di mescolanza debole si tratta in modo analogo.<br />

Sia, dunque, I una base di Σ : dobbiamo provare che se, per ogni C, D ∈ I,<br />

lim µ(T −n C ∩ D) = µ(C)µ(D), (2.3)<br />

n→∞


34 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />

allora tale proprietà è valida per ogni C, D ∈ Σ.<br />

Innanzitutto dimostriamo che la (2.3) vale per ogni coppia C, D,con C ∈ I e D ∈ Σ.<br />

Sia, pertanto, C ∈ I fissato e definiamo l’insieme<br />

Γ C := { D ∈ Σ : lim<br />

n→∞ µ(T −n C ∩ D) = µ(C)µ(D) } .<br />

Dimostriamo che Γ C è una classe monotòna. Chiaramente X ∈ Γ C , poichè T è stazionaria,<br />

dunque<br />

lim µ(T −n C ∩ X) = lim µ(T −n C) = lim µ(C) = µ(C) = µ(C)µ(X).<br />

n→∞ n→∞ n→∞<br />

Innanzitutto, siano D 1 , D 2 ∈ Γ C tali che D 1 ⊆ D 2 , osserviamo che, dalla definizione di<br />

Γ C , segue che<br />

lim µ(T −n C ∩ (D 2 \ D 1 )) = lim µ((T −n C ∩ D 2 ) \ (T −n C ∩ D 1 ))<br />

n→∞ n→∞<br />

= lim µ(T −n C ∩ D 2 ) − lim (T −n C ∩ D 1 ) = µ(C)µ(D 2 ) − µ(C)µ(D 1 )<br />

n→∞ n→∞<br />

= µ(C)(µ(D 2 ) − µ(D 1 )) = µ(C)µ(D 2 \ D 1 )<br />

dunque D 2 \ D 1 ∈ Γ C .<br />

Sia, ora, {D m } m∈N una successione di elementi di Γ C tale che D m ⊆ D m+1 , ∀n ≥ 1<br />

e sia D := ⋃ m∈N D m: proviamo che D ∈ Γ C . Ricordiamo che, per la continuità dal<br />

basso, si ha che lim m→∞ µ(D m ) = µ(D). Sia, dunque, ɛ > 0 e sia m ɛ ∈ N tale che<br />

|µ(D) − µ(D mɛ )| < ɛ. Osserviamo che, per ogni n ∈ N,<br />

|µ(T −n C ∩ D) − µ(T −n C ∩ D mɛ )| = |µ(T −n C ∩ (D \ D mɛ )|<br />

dunque<br />

≤ µ(D \ D mɛ ) = µ(D) − µ(D mɛ ) < ɛ<br />

µ(T −n C ∩ D mɛ ) − ɛ ≤ µ(T −n C ∩ D) ≤ µ(T −n C ∩ D mɛ ) + ɛ.<br />

Osserviamo che, poichè D mɛ ∈ Γ C , per ipotesi<br />

dunque<br />

lim<br />

n→∞ µ(T −n C ∩ D mɛ ) = µ(C)µ(D mɛ ),<br />

lim sup µ(T −n C ∩ D) ≤ µ(C)µ(D mɛ ) + ɛ ≤ µ(C)µ(D) + 2ɛ<br />

n→∞<br />

lim inf<br />

n→∞ µ(T −n C ∩ D) ≥ µ(C)µ(D mɛ ) − ɛ ≥ µ(C)µ(D) − 2ɛ.<br />

Questo fatto vale per ogni ɛ > 0 (e per il corrispondente n ɛ ), dunque, facendo tendere ɛ<br />

a 0, otteniamo che<br />

µ(C)µ(D) ≤ lim inf µ(T −n C ∩ D) ≤ lim sup µ(T −n C ∩ D) ≤ µ(C)µ(D).<br />

n→∞<br />

n→∞


2.2. PROCESSI STAZIONARI 35<br />

Quindi esiste lim n→∞ µ(T −n C ∩ D) = µ(D)µ(C) e dunque D ∈ Γ C . Dunque abbiamo<br />

provato che Γ C è una classe monotòna: in virtù del lemma di Dynkin, dunque, Γ C ⊇ Σ,<br />

ovvero la relazione (2.3) è soddisfatta per ogni C ∈ I e per ogni D ∈ Σ. Viceversa, se,<br />

fissato D ∈ Σ, definiamo l’insieme<br />

˜Γ D := { C ∈ Σ : lim<br />

n→∞ µ(T −n C ∩ D) = µ(C)µ(D) } .<br />

Si noti che ˜Γ D ⊇ I. Si dimostra in maniera simile che ˜Γ D è una classe monotòna: basta<br />

osservare che, per ogni n ∈ N, l’applicazione T −n preserva le relazioni insiemistiche ed è<br />

chiusa rispetto all’unione ed all’intersezione, dunque si procede analogamente a quanto<br />

fatto prima. Quindi ˜Γ D ⊇ Σ e la relazione (2.3) è valida per ogni coppia C, D tale che<br />

C ∈ Σ e D ∈ Σ.<br />

Ora che disponiamo di tutti gli strumenti necessari, possiamo procedere con alcuni<br />

esempi concreti di processi ergodici.<br />

2.2 Processi stazionari<br />

Sia (X, Σ, P ) uno spazio di probabilità e sia {X n } n∈N un processo stocastico a valori in<br />

uno spazio di misurabile (E, E), ossia tale che<br />

X n : (X, Σ, P ) → (E, E), ∀n ∈ N.<br />

Supponiamo che tale sequenza sia costituita da variabili casuali indipendenti ed identicamente<br />

distribuite, ovvero:<br />

P (X n ∈ A n |X n−1 ∈ A n−1 , . . . , X 1 ∈ A 1 ) = P (X n ∈ A n ) · . . . P (X 1 ∈ A 1 ),<br />

∀n ≥ 1, ∀A 1 , . . . , A n ∈ E<br />

Notiamo che un processo stocastico i.i.d. è stazionario, infatti, dati A m , A m+1 , . . . , A n ∈<br />

E, ove m, n ∈ N, m < n, si ha che<br />

P (X m ∈ A m , X m+1 ∈ A m+1 , . . . , X n ∈ A n )<br />

= P (X m ∈ A m ) · P (X m+1 ∈ A m+1 ) · . . . · P (X 1 ∈ A 1 )<br />

= P (X m+1 ∈ A m ) · P (X m+2 ∈ A m+1 ) · . . . · P (X 2 ∈ A 1 )<br />

= P (X m+1 ∈ A m , X m+2 ∈ A m+1 , . . . , X 2 ∈ A 1 ).<br />

Consideriamo ora l’operazione di shift definita sullo spazio prodotto E n , munito della<br />

σ-algebra prodotto E n<br />

T : E N → E N<br />

(x 1 , x 2 , . . . x n , . . .) ↦→ (x 2 , x 3 , . . . , x n , . . .).<br />

<strong>Il</strong> nostro obiettivo è dimostrare che la trasformazione di shift è ergodica rispetto alla<br />

misura di Kolmogorov associata al processo {X n } n∈N . Innanzitutto, proviamo a vedere


36 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />

se tale operazione gode della proprietà di mescolanza. Si dimostra che una base della<br />

σ-algebra prodotto E n è data dall’insieme costituito dagli elementi del tipo<br />

A 1 × . . . × A n := {(x 1 , . . . , x n , . . .) : x m ∈ A m , . . . , x n ∈ A n },<br />

(a tal proposito, si legga [1, pag.2]. Siano, quindi<br />

C := A 1 × . . . × A n<br />

D = B 1 × . . . × B n .<br />

Osserviamo che, dato N ∈ N tale che N > n,<br />

Dunque<br />

ove m, n ∈ N, m ≤ n, A m , . . . , A n ∈ E<br />

T −N C = {(x 1 , . . . , x n , . . .) : x N+1 ∈ A 1 , . . . , x N+n ∈ A n }.<br />

T −N C ∩ D = {(x 1 , . . . , x n , . . .) : x 1 ∈ B 1 , . . . , x n ∈ B n , x N+1 ∈ A 1 , . . . , x N+n ∈ A n },<br />

pertanto, in virtù dell’indipendenza delle X n e dalla proprietà di stazionarietà del processo<br />

stocastico<br />

µ(T −N C ∩ D) = P (X 1 ∈ B 1 , . . . , X n ∈ B n , X N+1 ∈ A 1 , . . . , X N+n ∈ A n )<br />

= P (X 1 ∈ B 1 , . . . , X n ∈ B n ) · P (X N+1 ∈ A 1 , . . . , X N+n ∈ A n )<br />

= µ(D)µ(T −N C) = µ(D)µ(C)<br />

Dunque la proprietà di mescolanza è soddisfatta e, pertanto, le successioni di variabili<br />

casuali indipendenti ed identicamente distribuite sono processi ergodici.<br />

2.3 Catene di Markov<br />

Sia (X, Σ, P ) uno spazio di probabilità e sia A un insieme di cardinalità finita.<br />

Consideriamo un processo stocastico {X n } n∈N , definito su (X, Σ, P ) ed a valori in E e<br />

supponiamo che per ogni naturale n ≥ 2 e per ogni sequenza a n , a n−1 , a n−2 , ..., a 1 di<br />

elementi di E (per cui entrambi i membri siano ben definiti) si abbia che<br />

P (X n = a n |X n−1 = a n−1 )<br />

= P (X n = a n |X n−1 = a n−1 , X n−2 = a n−2 , ..., X 1 = a 1 ) :<br />

(2.4)<br />

tale processo si dice catena di Markov.<br />

Supponendo, inoltre, che il processo considerato sia tale che, comunque presi a, b ∈ E,<br />

P (X n = a|X n−1 = b) non dipenda dalla scelta di n ∈ N, diciamo che la catena di Markov<br />

considerata è omogenea.


2.3. CATENE DI MARKOV 37<br />

Sotto queste ipotesi, ricordiamo innanzitutto che E è un insieme finito, dunque possiamo<br />

supporre che, se |E| = n, E = {a 1 , a 2 , ..., a n }, n ∈ N.<br />

Definiamo, quindi, la matrice :<br />

⎡<br />

⎤<br />

M a1 a 1<br />

M a1 a 2<br />

. . . M a1 a n<br />

M a2 a 1<br />

M a2 a 2<br />

. . . M a2 a n<br />

A = ⎢<br />

⎥<br />

⎣ . . . . ⎦<br />

M ana1 . . . . . . M anan (2.5)<br />

tale che :<br />

M ai a j<br />

:= P (X n = a j |X n−1 = a i ),<br />

per ogni i, j ∈ {1, 2, .., m − 1, m}.<br />

Ricordiamo che, nelle ipotesi fatte, il valore di ciascun elemento della matrice è lo stesso<br />

al variare di n ∈ N.<br />

Osserviamo che la matrice, detta matrice di transizione, per come l’abbiamo definita,<br />

soddisfa le seguenti proprietà :<br />

• M ai a j<br />

∈ [0, 1], ∀a i , a j ∈ E;<br />

• ∑ a j ∈E M a i a j<br />

= ∑ a j ∈E P (X n = a j |X n−1 = a i ) = 1, ∀a i ∈ E.<br />

Definiamo, ora, per ogni a ∈ E, la funzione<br />

µ 1 (a) := P (X 1 = a) = P ({ω ∈ X : X 1 (ω) = a}).<br />

<strong>Il</strong> vettore così ottenuto<br />

µ 1 := ( µ 1 (a 1 ), µ 1 (a 2 ), . . . µ 1 (a n ) )<br />

è detto distribuzione iniziale del processo stocastico {X n } n∈N .<br />

La distribuzione iniziale si dice stazionaria se, per ogni a i ∈ E,<br />

µ 1 (a i ) = P (X 1 = a i ) = P (X j = a i ), ∀j. (2.6)<br />

Osserviamo che tale proprietà è soddisfatta se e solo se si ha che µ 1 M = µ 1 .<br />

Infatti, consideriamo a titolo d’esempio la prima entrata del vettore ottenuto moltiplicando<br />

µ 1 per M, il suo valore è dato da:


38 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />

(µ 1 M) a1 = µ 1 (a 1 )M a1 a 1<br />

+ µ 1 (a 2 )M a2 a 1<br />

+ µ 1 (a 3 )M a3 a 1<br />

+ ... + µ 1 (a n )M ana 1<br />

= P (X 1 = a 1 )P (X 2 = a 1 |X 1 = a 1 ) + P (X 1 = a 2 )P (X 2 = a 1 |X 1 = a 2 )<br />

+ P (X 1 = a 3 )P (X 2 = a 1 |X 1 = a 3 ) + ... + P (X 1 = a n )P (X 2 = a 1 |X 1 = a n )<br />

= P (X 1 = a 1 , X 2 = a 1 ) + P (X 1 = a 2 , X 2 = a 1 )<br />

+ P (X 1 = a 3 , X 2 = a 1 ) + ... + P (X 1 = a n , X 2 = a 1 ) = P (X 2 = a 1 ) (2.7)<br />

Dunque se µ 1 M = µ 1 si ha P (X 2 = a 1 ) = P (X 1 = a 1 ). Dunque, è sufficiente tenere<br />

conto di questo risultato e della proprietà di omogeneità della catena di Markov per<br />

sostituire le occorrenze della variabile X 1 con la variabile X 2 e quelle della variabile X 2<br />

con la variabile X 3 , ottenendo P (X 2 = a 1 ) = P (X 3 = a 1 ) ed iterare il procedimento fino<br />

ad ottenere P (X 1 = a 1 ) = P (X j = a 1 ), ∀j ∈ {1, ..., n}.<br />

Lo stesso discorso può essere fatto per tutti gli altri valori del vettore risultante, cosicchè<br />

si può verificare direttamente che la (2.6) è equivalente a µ 1 M = µ 1 .<br />

Ora che abbiamo definito le proprietà di una catena di Markov, individuiamo, nella<br />

proposizione seguente, le condizioni necessarie e sufficienti affinchè tale processo sia stazionario.<br />

Proposizione 1. Una catena di Markov {X n } n∈N , le cui variabili sono definite su uno<br />

spazio di probabilità (X, Σ, P ) ed assumono valori in un insieme finito E, è un processo<br />

stazionario se e solo se è omogenea e la sua distribuzione iniziale µ 1 è stazionaria.<br />

Dimostrazione. Dimostriamo separatamente le due implicazioni:<br />

⇒ Supponiamo che valga la condizione di stazionarietà, ossia, ricordiamo,<br />

P (X i = a i , m ≤ i ≤ n) = P (X i+1 = a i , m ≤ i ≤ n), ∀m, n ∈ N, ∀a m , ..., a n ∈ E.<br />

Osserviamo che la validità dell’affermazione precedente implica che<br />

µ 1 (a) = P (X 1 = a) = P (X 2 = a) = ... = P (X n = a), .., ∀a ∈ E<br />

e ciò, per quanto visto in precedenza, corrisponde esattamente ad affermare che la<br />

distribuzione iniziale è stazionaria.<br />

Per quanto riguarda, invece, l’omogeneità della catena di Markov considerata, basta<br />

osservare che, dati n ∈ N ed a, b ∈ E, la stazionarietà comporta che :<br />

P (X n = a|X n−1 = b) = P (X n = a, X n−1 = b)<br />

P (X n−1 = b)<br />

= P (X n+1 = a, X n = b)<br />

P (X n = b)<br />

= P (X n+1 = a|X n = b),


2.3. CATENE DI MARKOV 39<br />

dunque, in generale, P (X n = a|X n−1 = b) è indipendente da n.<br />

⇐ Supponiamo che valga la proprietà di omogeneità e che la distribuzione iniziale<br />

sia stazionaria. Sotto queste ipotesi, dunque, è possibile osservare che, dato n ∈<br />

N ed a 1 , ..., a n ∈ E :<br />

P (X i = a i , m ≤ i ≤ n)<br />

= µ 1 (a 1 )P (X 2 = a 2 |X 1 = a 1 ) · P (X 3 = a 3 |X 2 = a 2 )<br />

· ... · P (X n = a n |X n−1 = a n−1 )<br />

= P (X 2 = a 1 ) · P (X 3 = a 2 |X 2 = a 1 ) · P (X 4 = a 3 |X 3 = a 2 )<br />

· . . . · P (X n+1 = a n |X n = a n−1 )<br />

= P (X i+1 = a i , m ≤ i ≤ n)<br />

Sia ora {X n } n∈N una catena di Markov omogenea ed avente distribuzione iniziale<br />

stazionaria e sia A ∈ M n×n la corrispondente matrice di transizione, Tale matrice è<br />

detta irriducibile se, per ogni coppia di indici (i, j), ove i, j ∈ {1 . . . , n}, esiste una<br />

sequenza i 0 , i 1 , . . . , i l di elementi appartenenti ad {1 . . . , n} tale che i 0 = i, i l = j ed<br />

Ai m i m+1 > 0, per m = 0, 1, . . . , l − 1.<br />

Osserviamo che, in virtù delle ipotesi fatte e della definizione di Catena di Markov,<br />

supporre che valga tale condizione equivale ad affermare che, se ad un dato istante la<br />

catena di Markov assume il valore a i , allora la probabilità che, in un istante futuro, la<br />

catena possa assumere il valore a j è strettamente positiva. Infatti assumiamo che, dato<br />

k ∈ N, P (X k = a i ) > 0, allora<br />

P (X k+1 = a i1 , X k = a i ) = P (X k+1 = a i1 |X k = a i )P (X k = a i )<br />

Dunque<br />

P (X k+2 = a i2 , X k+1 = a i1 , X k = a i )<br />

= A i0 i 1<br />

P (X k = a i ) > 0.<br />

= P (X k+2 = a i2 |X k+1 = a i1 , X k = a i )P (X k+1 = a i1 , X k = a i )<br />

= P (X k+2 = a i2 |X k+1 = a i1 )P (X k+1 = a i1 , X k = a i )<br />

A i1 i 2<br />

P (X k+1 = a i1 , X k = a i ) > 0<br />

Iterando il procedimento e sfruttando la definizione di Catena di Markov, quindi, si<br />

ottiene che<br />

P (X k+l = a j , X k+l−1 = a il−1 , . . . , X k = a i ) > 0,<br />

dunque P (X k+l = a j ) > 0. Ora vogliamo dimostrare che la condizione di ergodicità di<br />

una catena di Markov omogenea ed avente distribuzione iniziale stazionaria equivale alla<br />

condizione di irriducibilità della corrispondente matrice di transizione.


40 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />

Teorema 7. Sia {X n } n∈N una catena di Markov definita su uno spazio di probabilità<br />

(X, Σ, P ) ed a valori in uno spazio finito E, omogenea ed avente distribuzione iniziale<br />

stazionaria e positiva in ogni punto di E. Allora tale catena è ergodica se e solo se la<br />

corrispondente matrice di transizione A è irriducibile.<br />

Dimostrazione. Dimostriamo entrambe le implicazioni separatamente.<br />

⇐ Supponiamo innanzitutto che A sia irriducibile. Osserviamo che dalla condizione<br />

di irriducibilità seguono due fatti fondamentali di algebra lineare, che ci limitiamo<br />

ad elencare:<br />

– Esiste, a meno di multipli, uno ed un solo vettore π tale che πA = π. Notiamo<br />

che, poichè abbiamo supposto che, se µ 1 è il vettore distribuzione iniziale,<br />

µ 1 A = µ 1 , allora per l’unicità di π dev’essere per forza π = µ 1 .<br />

– Vale la seguente uguaglianza:<br />

lim<br />

N→∞<br />

N−1<br />

1 ∑<br />

N<br />

k=0<br />

M k+1 = P, (2.8)<br />

ove P è la matrice avente tutte le colonne uguali al vettore π.<br />

Proviamo che la catena di Markov soddifa la condizione di debole mescolanza,<br />

ovvero, dati due insiemi misurabili<br />

C = [c m 1 ] = {(x 1, x 2 , . . . , x k , . . .) : x 1 = c 1 , . . . , x m = c m }<br />

D = [d n 1 ] = {(x 1, x 2 , . . . , x k , . . .) : x 1 = d 1 , . . . , x n = d n },<br />

(ove m, n ∈ N e c 1 , . . . , c m , d 1 , . . . , d n ∈ E), dimostriamo che<br />

lim<br />

N→∞<br />

1<br />

N<br />

N∑<br />

µ(T −j C ∩ D) = µ(C)µ(D). (2.9)<br />

j=1<br />

Osserviamo che questo fatto equivale a dimostrare che<br />

lim<br />

N→∞<br />

N+n−1<br />

1 ∑<br />

N<br />

j=n<br />

Osserviamo che, dato k > 0,<br />

Ora notiamo che<br />

µ(T −j C ∩ D) = lim<br />

N→∞<br />

N−1<br />

1 ∑<br />

N<br />

k=0<br />

µ(T −k−n C ∩ D) = µ(C)µ(D)<br />

T −k−n C = [b n+k+m<br />

n+k+1 ], ove b n+k+i = c i , 1 ≤ i ≤ m.<br />

µ([d n 1 ]∩[b n+k+m<br />

n+k+1 ]) = P (X 1 = d 1 , . . . , X n = d n , X n+k+1 = c 1 , . . . X n+k+m = c m ).


2.3. CATENE DI MARKOV 41<br />

Utilizzando, dunque, la definizione di catena di Markov e facendo dei semplici<br />

calcoli si può osservare che<br />

µ([d n 1 ] ∩ [b n+k+m<br />

n+k+1 ]) = P (X 1 = d 1 , . . . , X n = d n , X n+k+1 = c 1 , . . . X n+k+m = c m )<br />

∑<br />

=<br />

P (X 1 = d 1 , . . . , X n+1 = d n+1 , . . . , X n+k = d n+k , . . . , X n+k+m = c m )<br />

=<br />

(d n+1 ,...,d n+k )<br />

∑<br />

(d n+1 ,...,d n+k )<br />

(P (X 1 = d 1 , . . . , X n = d n )·P (X n+k+1 = c 1 , . . . , X n+1 = d n+1 |X n = d n )<br />

· P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 ))<br />

∑<br />

= P (X 1 = d 1 , . . . , X n = d n )·<br />

P (X n+k+1 = c 1 , . . . , X n+1 = d n+1 |X n = d n )<br />

(d n+1 ,...,d n+k )<br />

· P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 )<br />

ove d n+1 , . . . , d n+k ∈ E. Ora notiamo che, sempre utilizzando la definizione di<br />

catena di Markov, possiamo facilmente osservare che<br />

U := P (X 1 = d 1 , . . . , X n = d n ) = µ(D)<br />

V :=<br />

=<br />

= P (X 1 = d 1 ) · P (X 2 = d 2 |X 1 = d 1 ) · . . . · P (X n = d n |X n−1 = d n−1 )<br />

∑<br />

(d n+1 ,...,d n+k )<br />

∑<br />

(d n+1 ,...,d n+k )<br />

n−1<br />

∏<br />

= µ 1 (d 1 )A d1 d 2 · . . . · A dn−1 d n<br />

= µ 1 (d 1 ) A di d i+1<br />

.<br />

P (X n+k+1 = c 1 , X n+k = d n+k , . . . , X n+1 = d n+1 |X n = d n )<br />

P (X n+1 = d n+1 |X n = d n ) · . . . · P (X n+k+1 = c 1 |X n+k = d n+k )<br />

=<br />

∑<br />

(d n+1 ,...,d n+k )<br />

i=1<br />

( n+k−1 ∏<br />

A di d i+1<br />

)·A dn+k c 1<br />

.<br />

i=n<br />

Osserviamo che, tramite alcune operazioni di algebra lineare, si può verificare che<br />

tale valore coincide con il termine in posizione (d n , c 1 ) della matrice A k , sia [A k ] dnc 1<br />

.<br />

W := P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 )<br />

= P (X n+k+2 = c 2 |X n+k+1 = c 1 ) · . . . · P (X n+k+m = c m |X n+k+m−1 = c m−1 )<br />

m∏<br />

=<br />

Dunque<br />

µ([d n 1 ] ∩ [b n+k+m<br />

n+k+1 ]) = µ(D)[Ak+1 ] dnc 1<br />

∏<br />

m A ci c i+1<br />

i=1<br />

i=1<br />

A ci c i+1


42 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />

Osserviamo che, in base a alla (2.8), si ha che<br />

lim<br />

N→∞<br />

dunque, in virtù della (2.8)<br />

lim<br />

N→∞<br />

N−1<br />

1 ∑<br />

N<br />

k=0<br />

1<br />

N<br />

N∑<br />

[A k+1 ] dnc1 = π(c 1 ) = µ(c 1 ),<br />

k=1<br />

µ(T −k−n D ∩ C) = lim<br />

N→∞<br />

k=0<br />

i=1<br />

N−1<br />

1 ∑<br />

N<br />

k=0<br />

µ([d n 1 ] ∩ [b n+k+m<br />

n+k+1 ])<br />

N−1<br />

1<br />

= lim<br />

N→∞ N µ(D) ∑ ∏<br />

m m∏<br />

[A k+1 ] dnc1 A ci c i+1<br />

= µ(D)µ(c 1 ) A ci c i+1<br />

= µ(D)µ(C).<br />

Dunque, essendo la condizione espressa dalla (2.9) soddisfatta, T è una trasformazione<br />

ergodica.<br />

⇒ Supponiamo che la catena di Markov sia ergodica. Supponiamo che µ(a j ) > 0, ∀j<br />

e sia P i = {x : x 1 = a i }. Osserviamo che, se B = T −1 P j ∪ T −2 P j ∪ . . ., allora<br />

P (B) > 0 e T −1 B = T −2 P j ∪ T −3 P j ∪ . . . ⊆ B. In virtù dell’ipotesi di ergodicità,<br />

quindi, µ(B) = 1, dunque µ(B ∩ P j ) > 0, ∀j. Osserviamo che<br />

( ⋃<br />

)<br />

µ(B ∩ P i ) = µ (T −n P j ∩ P i ) > 0,<br />

n∈N<br />

i=1<br />

dunque ∃¯n ∈ N tale che µ(T −¯n P j ∩ P i ) > 0. Osserviamo che<br />

µ(T −¯n P j ∩ P i ) = µ({(x 1 , . . . , x k , . . .) : x¯n = a j , x 1 = a i })<br />

= P (X¯n = a j , X 1 = a i ) = P (X¯n = a j |X 1 = a i )P (X 1 = a i ) > 0<br />

Dunque P (X¯n = a j |X 1 = a i ) > 0, pertanto dev’esserci una sequenza i 0 , i 1 , . . . , i¯n<br />

tale che i 0 = i, i¯n = j ed Ai m i m+1 = P (X m+1 = a im+1 |X m = a im ) > 0, ∀m ∈<br />

0, . . . , ¯n − 1.


Bibliografia<br />

[1] P. C. Shields, The Ergodic Theory of Discrete Sample Paths, American Mathematical<br />

Society (1996).<br />

[2] D.Williams, Probability with Martingales, Cambridge University Press (1991).<br />

43

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!