13.07.2015 Views

parte I.pdf (relativa corso ingegneria)

parte I.pdf (relativa corso ingegneria)

parte I.pdf (relativa corso ingegneria)

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1. INTRODUZIONE 3molte possibili alternative e le informazioni in nostro possesso non cipermettono di prevedere quale di queste si verificherà.Non ci interessa discutere qui se questo sia solo un problema di mancanzadi informazioni (come ad esempio nei problemi che si riferisconoalla meccanica classica) o se l’indeterminatezza sia intimamente connessacon la natura dell’esperimento (come si assume, per esempio, inmeccanica quantistica o in una interpretazione soggettiva della materiaqui esposta). Ci interessa soltanto che tale indeterminatezza rendaper noi l’esperimento ad esito incerto. Chiameremo tali esperimenticasuali.Poiché però spesso a noi interessa tentare qualche previsione dell’esitodell’esperimento descriveremo qui un metodo che è stato sviluppatoa partire dal XVII secolo (e presumibilmente già nel mondo greco) persuggerirci gli esiti più frequenti. L’idea principale è quella di introdurreuna nuova quantità, a cui si dà comunemente il nome di probabilità,che appunto serva come misura di quanto spesso o quanto facilmentesi realizza un certo esito di un esperimento casuale.Naturalmente non importa che tale quantità esista realmente, cosìcome non è molto importante sapere se la lunghezza di un tavolo esistedavvero, quest’ultima cosa essendo difficilmente accertabile ancheper il fatto che alcuni atomi si attaccano e si staccano continuamentealle estremità e che queste non sono affatto liscie quando osservate almicroscopio. Quello che importa però, sia per le lunghezze che per leprobabilità, è che queste quantità siano misurabili con <strong>relativa</strong> facilitàin vari casi interessanti e che si sia poi in grado, sulla base di tali misurazioni,di dire qualcosa di utile per qualche problema di un certorilievo.In considerazione di queste finalità pratiche non deve sorprendereche, essendovi vari diversi ambiti di applicazione, vi siano definizioni diprobabilità non uguali tra loro e che vi siano discussioni anche accesesui meriti delle varie definizioni; queste però spesso finiscono per essereargomentazioni su quale sia quella più ‘vera’. La discussione filosoficaè poi ulteriormente complicata dall’ovvia presenza di avvenimenti conesito non determinato a cui non è semplice associare una valutazionedi probabilità, e dalla meno ovvia esistenza di altri il cui risultato èben determinato, ma di complessità tale che conviene inventarsi unaprobabilità.Noi presenteremo qui alcune di queste definizioni e poi discuteremolo sviluppo di una teoria elementare ed alcune applicazioni di rilievo.La caratteristica principale della probabilità è che, al contrario dellalunghezza che si misura attraverso la comparazione fisica con un oggettocampione, essa si misura attraverso la riflessione astratta, usando logicae calcolo matematico. Queste note espongono vari metodi di calcolo diprobabilità e varie applicazioni dei risultati.


1. INTRODUZIONE 4Essendo un prodotto di calcoli logici, la probabilità verrà misuratatramite numeri puri; spesso nel linguaggio comune essa viene riportatain frazione di 100, ossia in percentuale: così si parla di 30% o 2%. E’però più comodo matematicamente esprimere la probabilità in frazionedi 1, indicando quindi 0, 3 = 30% oppure 0, 02 = 2%, principalmenteperché la moltiplicazione di probabilità riesce così più comoda: il 2%del 30% è lo 0, 6%, direttamente ottenibile da 0, 02 · 0, 3 = 0, 006.Si noti che anche le frequenze sono espresse tramite percentuali(come fatto nell’esempio 3), ma che si tratta in <strong>parte</strong> di una coincidenzaessendo entrambi numeri puri.Avendo deciso di misurare le probabilità con valori in [0, 1] si vedeche per due casi estremi è possibile determinare subito il valore dellaprobabilità. Agli eventi logicamente impossibili da realizzare è naturaleassegnare probabilità 0, mentre a quelli certi va assegnata probabilità1. A tutte le altre situazioni andrà assegnata una probabilitànell’intervallo [0, 1] chiuso (ciò signfica che non escludiamo l’esistenzadi situazioni logicamente possibili ma di probabilità 0). Nei prossimicapitoli cominceremo a vedere vari metodi per tale assegnazione.Esercizio 1. Calcolare il 3% del 25%.Esercizio 2. Calcolare il 90% del 20% dell’80%.Esercizio 3. Calcolare l’80% del 120%.Esercizio 4. Calcolare, se possibile, la probabilità che una asserzionefalsa venga correttamente ritenuta vera.Esercizio 5. Calcolare, se possibile, la probabilità di un evento lacui probabilità sia uguale ad 1 meno la probabilità stessa.


SPAZI DI PROBABILITÀ E VARIABILIALEATORIE5


CAPITOLO 2PROBABILITÀ UNIFORMI2.1. Spazi di probabilità uniformiIniziamo ora a definire questa nuova quantità, la probabilità, inmodo che serva per alcune situazioni semplici, come ad esempio:Esempio 4. Nel lancio di una moneta calcolare la probabilità chevenga testa.Esempio 5. Nel lancio di un dado calcolare la probabilità che ildado mostri la faccia 3.In questi esempi dobbiamo naturalmente fare un piccolo sforzo diastrazione. Assumiamo che il risultato di un lancio sia necessariamenteuna faccia (non una moneta verticale o la sparizione del dado), e cheprima del lancio vi sia stato un adeguato mescolamento. Cosa questosia non è ben determinato, ma a noi interessa l’esito di tale mescolamento,e cioè che, per quanto ne sappiamo, ognuna delle facce si comportain modo equivalente a tutte le altre. Ossia, se dobbiamo assegnareuna probabilità ad una, dobbiamo assegnare la stessa probabilità allealtre. Avendo già deciso che la probabilità che qualcosa avvenga è 1 neconsegue che per queste situazioni è adeguata la prossima definizione.E’ chiaro che il dis<strong>corso</strong> esposto finora è euristico, ossia non rigorosoma fatto cercando di interpretare la realtà esterna, mentre da ora inpoi si inizia a fare matematica <strong>parte</strong>ndo da una definizione precisa esviluppandone le conseguenze. Per decidere a quali situazioni si potràapplicare si ritorna a fare discorsi euristici: a tutte quelle situazioniin cui vi siano un numero finito di alternative equivalenti dal puntodi vista probabilistico. In molti casi non si potrà utilizzare questadefinizione e ne svilupperemo altre nel seguito.Visto che si parla di un numero finito di alternative conviene considerareun insieme finito ed adottare quindi la terminologia delle teoriadegli insiemi.Definizione 1. (Spazi di probabilità uniformi). Sia S un insiemefinito. I suoi sottinsiemi A ⊆ S sono detti eventi, e la probabilitàuniforme su S è una funzione P definita su ogni evento A daP (A) = |A||S| ,avendo indicato con |A| il numero di elementi dell’insieme A.6


2.2. CALCOLO COMBINATORIO 7Si dice talvolta che queste probabilità sono definite come rapportotra il numero di casi favorevoli ed il numero di casi possibili.Gli elementi di S sono anche detti eventi elementari e per s ∈ Sutilizzeremo la notazione P (s) = P ({s}).Esempio 6. La probabilità di ottenere due teste lanciando una monetablu ed una rossa è 1/4.2.2. Calcolo combinatorioLa necessità di stabilire delle cardinalità di vari insiemi ha portatoallo sviluppo del calcolo combinatorio, le cui formule principali sono leseguenti:Il numero di campioni ordinati ossia delle k-ple ordinate con ripetizioneda n elementi, dette disposizioni con ripetizione, è dato daD (r)n,k = nk .Il numero dei campioni senza ripetizione ordinati ossia delle k-ple ordinate senza ripetizione da n elementi, dette disposizioni senzaripetizione, è dato daD n,k = n(n − 1) · · · · · (n − k + 1) = (n) k .Il numero delle sottopopolazioni, ossia delle k-ple non ordinate senzaripetizione da n elementi, dette combinazioni senza ripetizione, èdato dal coefficiente binomiale( nC n,k = =k)n!k!(n − k)! .Il numero delle sottopopolazioni con ripetizione, ossia delle k-plenon ordinate con ripetizione da n elementi, dette combinazioni conripetizione, è dato da( )C (r) n + k − 1n,k = .k − 1Il numero delle permutazioni di n elementi è dato daP n = D n,n = n!.Il numero di ripartizioni in sottopopolazioni di k 1 , k 2 , . . . , k r elementidi un insieme di n elementi, con k 1 + k 2 + · · · + k r = n, è dato dalcoefficiente multinomialeC n,(k1 ,k 2 ,...,k r) =n!k 1 !k 2 ! . . . k r ! .


2.2. CALCOLO COMBINATORIO 8Esempio 7. Calcoliamo la probabilità di uscita di un numero (diciamoil 23) su una certa ruota nel lotto (in cui si estraggono senzareinserimento 5 numeri da 90). Se A è l’evento che esce il 23 Si puòprendere come insieme S l’insieme delle disposizioni di 90 elementi a5 a 5, e poi contare i casi favorevoli all’evento. Si ha:P (A) = 5 D 89,4D 90,5=5 89! 85!85! 90!)= 5 ( 8990 = 4( 90).5Esempio 8. La probabilità di due volte la faccia 6 lanciando duedadi è 1/36.Osservazione 1. Ad un’osservazione più accurata, gli eventi descrittinei due esempi precedenti andrebbero meglio specificati; infattinon abbiamo chiarito se i numeri del lotto siano estratti insieme o unodopo l’altro, così come non abbiamo detto se i dadi siano distinguibili(ad esempio colorati) o totalmente indistinguibili. Questo ha ripercussionisulla scelta di S, per decidere se in esso occorra distinguerel’ordine o meno. Consideriamo ad esempio i due dadi: se li consideriamodistinguibili si avranno D (r)6,2 = 36 possibili disposizioni con ripetizionialtrimenti dovremmo considerare le C (r)6,2 = 21 combinazioni conripetizione. Non vi è nessun ragionamento elementare che permette discegliere logicamente tra queste due possibilità e quindi occorre scioglierel’ambiguità con qualche ragionamento aggiuntivo. In primo luogo, lameccanica suggerisce che la colorazione dei dadi non dovrebbe influenzarneil moto, quindi nulla dovrebbe cambiare tra dadi con colori diversio uguali; in secondo luogo, l’esperienza di molti esperimenti suggerisceche i due dadi vadano comunque considerati diversi, in modo che 36 èla cardinalità appropriata per S.Queste ed altre osservazioni ci portano a fare un’ipotesi che manterremoper tutto lo sviluppo successivo: nel mondo macroscopicotutti gli oggetti si comportano come se fossero distinguibili.La stessa ipotesi non viene mantenuta nel mondo microscopico, ad esempiodalla statistica di Bose-Einstein, ma di questo non ci occupiamoper ora.Una conseguenza di questa ipotesi è che nella teoria per il mondomacroscopico non utilizzeremo le dispozioni con ripetizione.Un’altra conseguenza è che anche i numeri della tombola o del lottovanno considerati distinguibili, sia che questi siano estratti insieme siache siano estratti uno dopo l’altro, e questo è il motivo per cui nonè necessario specificare questi dettagli. Tuttavia, quando l’estrazioneè senza reinserimento, ossia nel caso delle combinazioni, il numerodi configurazioni che viene a coincidere quando si ignora l’ordine èun fattor comune, quindi qui si possono usare indifferentemente combinazionio dispozioni, a patto di essere consistenti tra numeratore edenominatore (come visto nell’esempio 7).


2.3. PROPRIETà DELLE PROBABILITà UNIFORMI 9.Esempio 9. In estrazioni senza reinserimento da un’urna con npalline che ne contiene k di un certo tipo calcolare la probabilità chela prima estratta sia del tipo dato e la probabilità che lo sia la secondaestratta. Siano A 1 ed A 2 tali eventi e si noti che nel secondo non abbiamospeficicato quale fosse stata la prima estratta (che quindi possiamoassumere di non aver visto). Naturalmente, con S tale che |S| = n siha P (A 1 ) = k/n. Inoltre, assumendo che le palline siano numerate da1 ad n e che le prime k siano del tipo dato e considerandoS = {(a 1 , a 2 )|a i ∈ {1, . . . , n}, i = 1, . . . , 2, a 1 ≠ a 2 }si ha |S| = D n,2 = n(n−1). Infine, A i = {(a 1 , a 2 ) ∈ S|a i ∈ {1, . . . , k}}per cui |A i | = |A 2 | = k(n − 1) e P (A 1 ) = P (A 2 ) = k/n.E’ immediato estendere questo ragionamento per concludere chein estrazioni senza reinserimento (come ovviamente avviene anche inquelle con reinserimento) la probabilità di un evento alla i-sima estrazionese non sono note le precedenti è sempre la stessa.2.3. Proprietà delle probabilità uniformiDalla definizione di probabilità uniforme discendono alcune proprietàelementari, di verifica immediata dalle proprietà delle frazioni:Lemma 1. (i) P (∅) = 0, P (S) = 1(ii) per ogni A ⊆ S, 0 ≤ P (A) ≤ 1;(iii) per ogni s ∈ S, P (s) = 1 ; |S|(iv) per ogni A ⊆ B ⊆ S, P (A) ≤ P (B).In taluni casi è più semplice calcolare la probabilità della negazionedi un evento A, ossia del suo complemento insiemistico A c = S\A. SihaCorollario 1. (I) Per ogni evento A ⊆ S si ha P (A c ) = 1−P (A);(II) in generale, se A ⊆ B ⊆ S si ha che P (B\A) = P (B) − P (A).A volte è più agevole dedurre la probabilità di certi eventi da altriper i quali la probabilità si deriva più facilmente. Come si vede dalleproprietà della cardinalità:Lemma 2. Per ogni A, B ⊆ S si ha(1) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)(2) se A ∩ B = ∅ allora P (A ∪ B) = P (A) + P (B)(1) se A i ∩A j = ∅ per ogni i, j = 1, . . . , n, i ≠ j, allora P (∪ n i=1A i ) =∑ ni=1 P (A i)


2.3. PROPRIETà DELLE PROBABILITà UNIFORMI 10Esempio 10. Ricalcoliamo la probabilità di uscita del 23 su unacerta ruota nel lotto. Se A è l’evento che esce il 23 ed A i è l’evento cheil 23 esce all’i-sima estrazione, per i = 1, . . . , 5, si ha che gli A i sonodisgiunti e P (A i ) = 1/90, per cui5∑P (A) = P (∪ 5 i=1A i ) = P (A i ) = 5/90i=1Per la probabilità dell’unione di n eventi anche non disgiunti si ha:Lemma 3. (Formula di inclusione-esclusione) Per ogni A i ⊆ S,i = 1, . . . , nP (∪ n i=1A i ) =n∑k=1∑{i 1 ,...,i k }∈I n,k(−1) k+1 P (A i1 ∩ · · · ∩ A ik ), (2.1)≠ove I n,k = {{i 1 , . . . , i k }|i j ∈ {1, . . . , n} per ogni j, i j ≠ i j ′ per jj ′ }.Dimostrazione. Segue dalla <strong>parte</strong> (1) del Lemma 2 per induzione.Per n = 2 essa è equivalente infatti alla tesi. Supponiamo quindi validala conclusione per ogni famiglia di al più n − 1 eventi. Di nuovo dalla<strong>parte</strong> (1) del Lemma 2 e dall’ipotesi di induzione si haP (∪ n i=1A i ) = P (∪ n−1i=1 A i ∪ A n )= P (∪ n−1i=1 A i) + P (A n ) − P (∪ n−1i=1 A i ∩ A n )=∑n−1∑(−1) k+1 P (∩ k j=1A ij ) + P (A n )k=1 {i 1 ,...,i k }∈I n−1,k=∑n−1−n∑k=1∑k ′ =1 {i 1 ,...,i k ′}∈I n−1,k ′∑(−1) k′ +1 P (∩ k′j=1A ij ∩ A n ){i 1 ,...,i k }∈I n,k(−1) k+1 P (A i1 ∩ · · · ∩ A ik ).L’ultima uguaglianza vale avendo posto k ′ = k−1, da cui −(−1) k′ +1 =(−1) k+1 , in quanto i termini con n /∈ {i 1 , . . . , i k } vengono dalla primasommatoria, quelli con k > 1 ed n ∈ {i 1 , . . . , i k } vengono dalla secondaed il termine con k = 1 ed i 1 = n è P (A n ).□Si noti che la dimostrazione precedente è basata unicamente sulla<strong>parte</strong> (1) del Lemma 2.Esempio 11. In 3 lanci di una moneta, se A = {esce almeno una testa}e A i = {esce testa all’i-simo lancio}, si ha A = ∪ 3 i=1A i . Si può applicarela (2.1) e per questo basta osservare che per i, j ∈ {1, . . . , 3} diversi


tra loro2.4. INDIPENDENZA 11P (A i ) = 4/8, P (A i ∩ A j ) = 2/8 e P (A 1 ∩ A 2 ∩ A 3 ) = 1/8come si ottiene facilmente dalla scelta di un appropriato spazio diprobabilità finito per ogni evento. Si ottiene quindi P (A) = 7/8.Esempio 12. Collocando a caso n palline numerate da 1 ad n in nurne anch’esse numerate, una per urna, calcoliamo la probabilità chenessuna pallina sia al posto giusto. Indichiamo con B tale evento.Si può passare all’evento complementare ed usare la (2.1). Osservandopoi che se A i è l’evento che l’i-sima pallina è al suo posto alloraP (∩ k 1i=1A i ) = = (n−k)! allora per la probabilità dell’eventon(n−1)...(n−k+1) n!B è possibile dare una formula esplicita:n∑( ) n (n − k)!n∑P (B) = 1 − (−1) k+1 = 1 − (−1) k+1 1 k n!k! .k=1k=12.4. IndipendenzaLa teoria della probabilità esposta finora, basata sulla definizione diprobabilità uniformi, era costituita essenzialmente di conteggi di cardinalitàdi insiemi, e, a <strong>parte</strong> la terminologia, non si discostava molto dallateoria degli insiemi. C’è però un concetto intuitivo la cui traduzionenell’ambito della teoria le conferisce uno sviluppo automono. Si trattadell’indipendenza che noi percepiamo tra vari eventi, ad esempio tra irisultati di lanci successivi di una moneta o di un dado (a patto chesiano stati opportunamente mescolati tra un lancio e l’altro).Per capire come inserire tale concetto all’interno della teoria consideriamoun esempio semplice: in due lanci successivi di una moneta ilconteggio ci dice che la probabilità di due teste è 1/4, che risulta quindiuguale a 1/2 moltiplicato per 1/2. In altre situazioni che riteniamoindipendenti si verifica la stessa proprietà per cui è naturale porre ladefinizione seguente. Come al solito, queste erano riflessioni euristichee da qui comincia la teoria.Definizione 2. (i) due eventi A, B ⊆ S si dicono indipendenti seP (A ∩ B) = P (A)P (B); (2.2)(ii) n eventi A i ⊆ S, i = 1, . . . , n si dicono (collettivamente)indipendenti se per ogni sottofamiglia J ⊆ {1, . . . , n} di indici,P (∩ i∈J A i ) = ∏ i∈JP (A i ).Esempio 13. Nel lancio di un dado, se A è l’evento che esce unpari, B l’evento che esce un numero minore o uguale a 2 e C l’eventoche esce un numero minore o uguale a 3, allora P (A) = 1/2, P (B) =


2.4. INDIPENDENZA 121/3, P (C) = 1/2 e P (A ∩ B) = P (A ∩ C) = 1/6 per cui A e B sonoindipendenti e A e C non lo sono.Il concetto di indipendenza è però molto utile non quando si deveverificare l’indipendenza dalla definizione, come nell’ultimo esempio,ma quando l’indipendenza si deriva da qualche altra informazione e siutilizza la formula (2.2), ossia P (A ∩ B) = P (A)P (B), per calcolareP (A ∩ B) dagli altri due valori.In taluni casi l’indipendenza di certi eventi si può desumere da unrisultato teorico, come per l’indipendenza dei complementi nel prossimoteorema, ma più spesso è la situazione che si sta modellizzando che suggeriscel’indipendenza di certi eventi: così per esempio eventi relativi amazzi di carte mescolati diversi o a diverse estrazioni con reinserimentosono da ritenersi indipendenti e sarebbe utile poter sfruttare questainformazione senza dover verificare l’indipendenza all’interno del modello.In altre parole, sarebbe comodo sapere a priori che esiste unospazio di probabilità in cui ci sono eventi indipendenti con probabilitàqualsiasi, in modo che esso può fare da modello per la nostra situazione.Dimostreremo un teorema abbastanza generale quando avremo estesoil concetto di probabilità (vedi Teorema 4).Esempio 14. Due lanci ripetuti di dado sono indipendenti, quindise A indica l’uscita di due 3 e A i , i = 1, 2, indica l’uscita del 3 all’i-simodado, allora A = A 1 ∩ A 2 e P (A) = P (A 1 )P (A 2 ) = 136 .Esempio 15. Anche n lanci ripetuti di dado sono collettivamenteindipendenti, quindi se A indica l’uscita del 3 in tutti i dadi e A i , i =1, . . . , n, indica l’uscita del 3 all’i-simo dado, allora P (A) = ∏ ni=1 P (A i) =1.6 nVediamo ora che l’indipendenza collettiva di eventi implica l’indipendenzacollettiva di <strong>parte</strong> degli eventi con i complementari degli altri.Teorema 1. Dati eventi A 1 , . . . , A n ⊆ S collettivamente indipendentiin uno spazio di probabilità (S, P ), indicando con A 1 i = A i e conA 0 i = A c i, si ha che per ogni α = (α 1 , . . . , α n ) ∈ {0, 1} n , gli eventiA α 11 , . . . , A αnn sono collettivamente indipendenti.Dimostrazione. Una dimostrazione si può fare per induzione sun.Per n = 2 verifichiamo prima che l’affermazione è vera per α =(1, 0), ossia per A 1 = A 1 1 e A c 2 = A 0 2. Si ha che, essendo A 1 ∩ A 2 ⊆ A 1 ,valeP (A 1 ∩ A c 2) = P (A 1 \(A 1 ∩ A 2 ))= P (A 1 ) − P (A 1 ∩ A 2 )= P (A 1 ) − P (A 1 )P (A 2 )= P (A 1 )(1 − P (A 2 )) = P (A 1 )P (A c 2)


2.4. INDIPENDENZA 13ove si è usato che P (A 1 ∩ A 2 ) = P (A 1 )P (A 2 ) per la supposta indipendenza.Per il resto della dimostrazione basta utilizzare più volte quantoora verificato. Se scambiamo il ruolo di A 1 e A 2 otteniamo la tesi perα = (0, 1), e poi <strong>parte</strong>ndo dall’indipendenza di A 1 e A c 2 si ottiene quellaper α = (0, 0).Ora supponiamo che la tesi sia vera fino ad n − 1 e verifichiamolaper n. Nella definizione di indipendenza collettiva si considerano anchei sottinsiemi di indici e se k ≤ n − 1 e {i 1 , . . . , i k } = J ⊆ {1, . . . , n}dalla indipendenza collettiva di A i1 , . . . , A ikinduzione su n anche quella di A α i 1i 1, . . . , A α i ki kdiscende, per l’ipotesi diper ogni (α i1 , . . . , α ik ) ∈{0, 1} k . Quindi rimane solo da verificare la fattorizzazione per A α 11 , . . . , A αnSi può procedere con una seconda induzione sul numero m di zeri diα. Se m = 0 la fattorizzazione vale per ipotesi e supponiamo che valgaquando ci sono al più m − 1 zeri. Si consideri ora α = (α 1 , . . . , α n )con m zeri e supponiamo, per semplicità di notazione e senza perditadi generalità , che α n = 0; si ha che la famiglia A α 11 , . . . , A α n−1n−1 , A 1 n ètale che il suo vettore α ha solo m − 1 zeri e quindi per essa vale lafattorizzazione:P (∩ n−1i=1 Aα ii ∩ A 1 n) =n−1∏P (A α ii )P (A 1 n)i=1= P (∩ n−1i=1 Aα ii)P (A 1 n),ove la seconda uguaglianza è vera per l’ipotesi di induzione su n. Maallora ∩ n−1i=1 Aα ii e A 1 n sono indipendenti, per cui, per la verifica fatta pern = 2, anche ∩ n−1i=1 Aα ii e A 0 n sono indipendenti. Ne segue che anche perm zeri si ha:P (∩ n i=1A α ii ) = P (∩ n−1i=1 Aα ii ∩ A 1 n)= P (∩ n−1i=1 Aα ii )P (A 1 n)=n−1∏P (A α ii )P (A n n)=i=1n∏i=1P (A α ii ),n .ove la terza uguaglianza segue dall’ipotesi di induzione su n.□Esempio 16. Se A indica l’uscita di almeno una testa in 10 lanci diuna moneta ed A i l’uscita di testa all’i-simo lancio, allora gli A i sonocollettivamente indipendenti e A = ∪ 10i=1A i ; ma gli eventi non sonodisgiunti e quindi il calcolo con la formula di inclusione-esclusione è


2.4. INDIPENDENZA 14piuttosto laborioso. Tuttavia, A c = ∩ 10i=1A c i e dall’indipendenza collettivasi ha P (A c ) = ∏ 10i=1 P (Ac i) = ( 1 2 )10 , così che P (A) = 1 − 1/2 10 =1023/1024.Facciamo una pausa per riassumere le regole che abbiamo visto percalcolare probabilità. Per calcolare la probabilità di un evento A si puòprovare a:(1) contare gli elementi di A e di S;(2) provare a passare a A c ;(3) vedere A come unione, ossia A = ∪ n i=1B i per certi B i , e poi(3 1 ) se B i sono disgiunti si ha P (A) = ∑ ni=1 P (B i),(3 2 ) se B i non sono disgiunti si può provare ad usare la formuladi inclusione-esclusione, in particolare per n piccolo;(4) vedere A come intersezione, ossia A = ∩ n i=1B i per certi B i , e poi(4 1 ) se B i sono collettivamente indipendenti si ha P (A) = ∏ ni=1 P (B i),(4 2 ) se B i non sono collettivamente indipendenti non abbiamoancora una formula adeguata.Esercizio 6. In una vicenda che dette origine a molti di questicalcoli, un incallito giocatore, Chevalier De Méré, scrisse nel 1654 aPascal chiedendogli se l’uscita di almeno un 6 in 4 lanci di dado avessela stessa probabilità dell’uscita di almeno un doppio 6 in 24 lanci didue dadi. Si racconta che il De Méré avesse perso una grossa sommaassumendo che in entrambi i casi si trattasse di ‘due probabilità su tre’di vincere. Pascal rispose al De Méré, poi scrisse a sua volta a Fermate questo fu l’inizio della teoria che stiamo presentando. Calcolare leprobabilità di questi eventi.Con i metodi precedenti si può anche scrivere in forma esplicita laprobabilità che escano esattamente k teste in n lanci di una moneta.Scriviamo ora l’espressione in forma ancora più generale.Esempio 17. Supponiamo di effettuare n esperimenti indipendentitali che in ciascuno la probabilità di successo sia un certo valore p ∈[0, 1], ad esempio potrebbe essere p = 1/6 se per successo intendessimol’uscita del 3 in un dado e così via. Se P(k, n, p) indica la probabilità diesattamente k successi su n prove indipendenti ognuna con probabilitàdi successo p ed A i indica il successo alla i-sima prova si ha:P(k, n, p) = P (∪ J⊆{1,...,n},|J|=k (∩ j∈J A j ∩ ∩ j∈J cA c j))∑=P (∩ j∈J A j ∩ ∩ j∈J cA c j)==J⊆{1,...,n},|J|=k∑J⊆{1,dots,n},|J|=k j∈J( nk)p k (1 − p) n−k∏P (A j ) ∏j∈J c P (A c j)


2.5. UTILIZZO DELLA PROBABILITÀ 15Ci si riferisce a queste probabilità chiamandole distribuzione binomialeo di Bernoulli di parametri n e p od usando il simbolo B(n, p).Nel caso delle monete siamo interessati alla distribuzione di BernoulliB(n, 1/2). L’espressione ora ottenuta permette di fare un passoformale verso la soluzione del problema 1 posto all’inizio, ma ancoracalcolare queste probabilità nel caso di 1000 monete non sarebbeagevole e non sapremmo nemmeno bene con cosa confrontare i valoricosì ottenuti.2.5. Utilizzo della probabilitàCominciamo dalla seconda questione: abbiamo visto alcuni ragionamentiche conducono al calcolo di probabilità e forse è il momentodi tentare una prima connessione tra i valori di tali probabilità e larealtà. Non abbiamo ancora abbastanza strumenti per una discussioneapprofondita, ma possiamo fare alcune osservazioni.1) E’ ragionevole aspettarsi che un evento che ha probabilità 1%si verifichi circa 1 volta su 100 esperimenti indipendenti. Dopo tuttola probabilità che si realizzi esattamente una volta, data dalla distribuzionedi Bernoulli B(100,1100 ), èP(1, 100,1100 ) = 100 1100 ( 991 100 )99 ∼ 1 e ∼ 37%che quindi è abbastanza grande per poter procedere.Esercizio 7. Se non vi sembra abbastanza grande stimate la probabilitàche un evento di probabilità 1% si verifichi 0, 1 o 2 volte su 100prove indipendenti: interpretando la frase circa 1 volta come l’eventoche l’evento originale si realizzi 0, 1 o 2 volte vediamo che la probabilitàdi questo è ’vicina’ al 100%.Analogamente, eventi di probabilità 1/m si verificheranno circa 1volta ogni m prove indipendenti (con alta probabilità).Alla luce di questo è ragionevole affermare che se individuiamo unevento A a priori, ossia prima che sia effettuato l’esperimento che neverificherà il realizzarsi o meno, e se la probabilità di A è circa 1/mcon m grande (m = 50, 100, 1000), allora sarà sorprendente (tanto piùquanto minore è la probabilità) vedere A realizzato già alla prima diqueste prove.Si possono trarre due conclusioni. Innanzitutto, ci sono eventi diprobabilità piccola che noi tendiamo a considerare difficilmente realizzabili.In effetti, ci sono costantemente eventi di probabilità talmentebassa che vengono regolarmente ignorati (tipo l’arrivo di un grande meteorite).Poi si deve osservare che tale giudizio di irrilevanza va fattanon nel senso di irrealizzabilità o meno, ma nel senso di realizzabilitàanch’essa con probabilità alta o bassa.


per cuisi haDae2.6. STIME DI PROBABILITÀ E STATISTICA 17limn→∞Dimostrazione. Studiamosi ha chePer cui, ponendo n+1n!= 1.e c n n+1/2 e−n d n = log(n!) − [(n + 1/2) log(n) − n];d n − d n+1 = (n + 1/2) log( n + 1n ) − 1.log(1 + x) = x − x22 + x33 + . . .1log(1 − x ) = x + x22 + x33 + . . . ,log( 1 1 + x2 1 − x ) = x + x33 + x55 + . . .=1+ 12n+1n 1− 12n+1si had n − d n+1 =2(n + 1/2)(2n + 1 + 23(2n + 1) + . . . ) − 1 3 (2.3)=13(2n + 1) + 15(2n + 1) + · · · ≥ 0.4Dalla (2.3) si ha ched n − d n+1 ≤ ∑ 1k=1((2n + 1) 2 )k=1 1(2n + 1) 2 3(1 − 11=3(4n 2 + 4n)1=12n 2 + 12n= 112n − 112(n + 1) .(2n+1) 2 )(2.4)Pertanto la successione d n − 1 è crescente in n. poiché da (2.3) la12nsuccessione d n è decrescente in n, quindi limitata, si ha che d n − 112nè anch’essa limitata, ed essendo crescente, ha limite: esiste c ∈ R talechelim d n − 1n→∞ 12n = lim d nn→∞= sup d n − 1n 12n = c;


2.7. TEOREMA DI DE MOIVRE-LAPLACE 19Lemma 4. Per ogni n ∈ N e per ogni p ∈ [0, 1] P(k, n, p) è strettamentecrescente in k per k < p(n + 1) − 1, è strettamente decrescenteper k > p(n + 1) − 1, così chearg max P(k, n, p) = [p(n + 1) − 1, p(n + 1)] ∩ NkDimostrazione. Si haP(k + 1, n, p) =( ) np k+1 (1 − p) n−k−1k + 1= n − k pP(k, n, p)k + 1 1 − pquindi la monotonia di P(k, n, p) dipende da n−kp1−pp. Le monotoniek+1 1−p> 1, e questo a sua volta vale se e solodiscendono dal fatto che n−kk+1se p(n+1)− > k. In particolare, se p(n+1) ∈ N, P(p(n+1)−1, n, p) =P(p(n + 1), n, p) così che arg max k P(k, n, p) = {p(n + 1) − 1, p(n + 1)},come richiesto.□Esempio 19. Nel caso delle monete l’andamento di P(k, n, 1/2) ink dipende solo dai coefficienti binomiali; arg max k P(k, n, 1/2) dipendedalla parità di n = {(n + 1)/ − 1, (n + 1)/2}2.7. Teorema di De Moivre-LaplaceAbbiamo visto che il termine centrale, ossia più probabile, di unadistribuzione binomiale <strong>relativa</strong> ad n prove vale circa c/ √ n. poichéi termini vicini non saranno molto diversi con un numero di terminidell’ordine di √ n si otterrà una probabilità quasi piena. Questa osservazioneè specificata molto meglio e resa rigorosa nel seguente teorema,che enunciamo e dimostriamo solo nel caso particolare di p = 1/2. Siutlizzerà la funzione gaussiana e −x2 /2 definita per x ∈ mathbbR.Teorema 3 ( Teorema di De Moivre-Laplace per p = 1/2). . Perogni a 1 , a 2 ∈ R, 0 ≤ a 1 ≤ a 2 si ha che∑Q n (a 1 , a 2 ) =P(j, n, 1/2)n/2+ a √1 a2 n≤j≤n/2+ 22√ nsoddisfa∫ a2lim Q 1n(a 1 , a 2 ) = √ e −x2 /2 dx.n→∞a 1 2πDimostrazione. Per semplicità esponiamo la dimostrazione per npari; se n è dispari la dimostrazione richiede solo modifiche irrilevanti.


2.7. TEOREMA DI DE MOIVRE-LAPLACE 20Poniamo n = 2ν e, per ogni k = 0, 1, 2, . . .α k = P(ν + k, 2ν, 1/2) =( 2ν) 1ν + k 2 2ν=(2ν)! 1(ν + k)!(ν − k)! 2 2ν=(2ν)! 1 ν − k + 1(ν + k − 1)!(ν − k + 1)! 2 2ν ν + kν − k + 1= α k−1ν + k(ν − k + 1)(ν − k + 2) . . . ν= α 0(ν + k)(ν + k − 1) . . . (ν + 1)Ricordiamo checon(1 − k−1 k−2)(1 −ν= α ) . . . 1 ν0(1 + k k−1)(1 + ) . . . (1 + 1).ν ν νlog(1 + x) = x − x 2 /2 + x 3 /3 + · · · = x + R(x)|R(x)| ≤ x 2 /2 + x 3 /3 + · · · ≤ 1/2per 2(1 − x) > 1, ossia per x < 1/2.Quindi 1 + x = e x+R(x) , per cuik−1−(eα k = α 0∞∑x k =k=2ν +···+ 1 ν )e ¯R(k)e ( k ν +···+ 1 ν )= α 0 e − k2ν e¯R(k)x 22(1 − x) < x2= α 0 e − 2k2n e¯R(k), (2.5)con | ¯R(k)| ≤ 2kR( k) ≤ 2 k3 = 2 23 k 3. Dalla formula di Stirlingν ν 2 n 2α 0 = 2 √ nec eS(n)con |S(n)| ≤ 1 . 3(n+1)Risulta quindi che α k ≈ c 1 e −c2k , con c 1 e c 2 costanti, così che possiamostimarlo tramite l’integrale della funzione c 1 e −c2x . Per far ciò sinoti che la funzione e − x22 è decrescente per x ≥ 0. Dalla monotoniadiscende che per k ≥ 1:∫ kk−1e − x2ν dx ≥ e− k2ν≥∫ k+1ke − x2ν dx


2.7. TEOREMA DI DE MOIVRE-LAPLACE 21. Per cuiQ n (a 1 , a 2 ) ==∑P(j, n, 1/2)n/2+ a √1 a2 n≤j≤n/2+ 22√ n∑P(n/2 + k, n, 1/2)a 12√ a n≤k≤ 22√ n≥ √ 2 ∫ a ⌊ 22√ n⌋+1n⌈ a 12√ n⌉e −c e − 2x2n dxe S(n) − max | ¯R(k)|ein cui ⌊t⌋ indica la <strong>parte</strong> intera di t, ⌈t⌉ = ⌊t⌋ + 1, e il massimo èpreso in k con a √12n ≤ k ≤a 2√2n. poiché l’integrando è positivo sipuò√stimare√restringendo√ulteriormente√l’intervallo di integrazione a[a 1 n + 1, a2 n] se a1 n + 1 ≤ a2 n, oppure all’insieme vuoto. Perottenere la funzione e −y2 /2 poniamo y = √ 2xnottenendoQ n (a 1 , a 2 )essendo≥≥( ∫ a2a 1(∫ a2∫ a1 +2/ √ )ne −c e − y2 2 dy − e −c e − y2 2 dy− max | ¯R(k)|+S(n)ea 1)√ na 1e −c e − y2 2 dy − e−a 2 1 e−c 2max | ¯R(k)| ≤e −a3 2 √ n− 13(n+1)2 3 k 3maxa 12√ a n≤k≤ 22√ = −a3 2√ .n n 2 nNella corrispondente stima dall’alto occorre separare il termine centrale,che non è dominato dall’integrale se j = n/2:( ∫ √ )⌊a2 n⌋Q n (a 1 , a 2 ) ≤e −c e − x2ν√ e E([x]) dx + 1 e −c √ 2 e − 13(n+1)⌊a 1 n⌋−1 n≤(∫√e a3 a22n)e −c e − y2 2 dy + e−c√ 2a 1 − √ 2nnPrendendo il limite per n che diverge si ottiene chelim Q n(a 1 , a 2 ) =n→∞∫ a2e − 13(n+1) .a 1e −c e −x2 /2 dx. (2.6)Rimane da determinare il valore di e c . Si verificherà in modo probabilisticonel seguito, utilizzando il risultato (2.6) qui dimostrato, chee c = √ 2π, da cui la tesi.□Osservazione 3. Lo stesso risultato vale per a 1 < a 2 < 0 per lasimmetria della funzione gaussiana e della distribuzione di Bernoulliper p = 1/2. Per cui, per l’additività dell’integrale rispetto al dominiodi integrazione, il risultato di De Moivre Laplace vale per qualsiasi


2.7. TEOREMA DI DE MOIVRE-LAPLACE 22a 1 , a 2 ∈ R con a 1 ≤ a 2 . poiché ∫ ∞−∞√12πe − x22 dx = 1 segue per simmetriache ∫ +∞√10 2πe −c e −x2 /2 dx = 1 2qualche c ∈ R. Quindilim Q n(a, +∞) = limn→∞ n→∞∑n/2+a/2 √ n≤j= lim 1/2 − √ c −n→∞ n= 1/2 −=∫ +∞a∫ a0= ∑ n/2≤jP(j, n, 1/2)1√2πe −x2 /2 dx1√2πe −x2 /2 dxP(j, n, 1/2) +c √ n∑n/2≤j≤n/2+a/2 √ nP(j, n, 1/2)Essendo valido questo ragionamento anche per valori negativi, siconclude che il Teorema di De Moivre Laplace vale per qualsiasi a 1 , a 2in ¯R esteso.Osservazione 4. Si noti che nella dimostrazione del teorema si èottenuto non solo il limite richiesto, ma anche delle stime dall’alto edal basso di Q n (a 1 , a 2 ). Gli errori sono però solitamente piccoli, del-√l’ordine di e a3 2nmoltiplicativamente e √ 22πnadditivamente che in praticaè possibile trascurarli senza alterare sensibilmente l’approssimazione diQ. Pertanto abitualmente, occasionalmente senza prestare sufficientecura, si approssima Q n (a 1 , a 2 ) con ∫ a 2√1a 1 2πe −x2 /2 dx.Questa tecnica ci permette quindi di approssimare i valori relativialla probabilità che il numero di successi in prove indipendenti conprobabilità di successo 1/2 sia compresa in un certo intervallo di valori,che, come ora vedremo, può suggerire una risposta molto precisa alproblema iniziale sulle monete.Come si era visto, la probabilità di ogni singolo risultato è piccolase il numero di prove è grande, e quindi non permette di per sè divalutare la plausibilità di quel numero di teste. Invece la probabilitàdi un numero di teste minore o uguale ad un dato valore ¯k cambiadrasticamente, essendo attorno ad 1/2 per ¯k vicino ad n/2 e vicino a0 per ¯k molto piccolo. Quindi questa probabilità ci può permettere didistinguere tra i risultati plausibili e quelli che non lo sono.Esempio 20. Se si sono ottenute 460 teste su 1000 lanci di unamoneta, la probabilità di ottenere un numero di testi minore o ugualea quello ottenuto è stimabile come segue. Se S 1000 è il numero di testeottenute in 1000 monete, vogliamo stimareP (S1000 ≤ 460) = Q n (−∞, a)per


2.7. TEOREMA DI DE MOIVRE-LAPLACE 23per√un certo a. La determinazione di a va fatta imponendo 1000/2 +a2 1000 = 460, ossia a =460−1000/2√1000/2≈ −2, 53. Ora si puo’ otteneredalle tavole della funzione gaussiana l’approssimazioneP (S1000 ≤ 460) ≈∫ −2,53−∞1√2πe −x2 /2 dx ≈ 0, 006 = 0, 6%.Se ne conclude che 460 è un numero di teste assolutamente inaccettabilesu 1000 lanci di una moneta e che già per questo numero di testeavremmo dovuto considerare l’esperimento come truccato!Osservazione 5. E’ chiaro che per decidere delle nostre reazioniin base ai calcoli precedenti dovremmo fissare delle soglie sotto le qualiconsideriamo una probabilità troppo piccola e quindi il risultato anomalo.Storicamente, allo scopo di scrivere delle tavole utilizzabili in moltesituazioni, si sono considerate i valori del 5% come soglia per il dubbiosulla correttezza di un esperimento e dell’1% per la ragionevoleassunzione che l’esperimento non è correttoEsercizio 9. Verificare che su 1000 monete avremmo dovuto averedubbi (soglia 5%) con meno di 474 teste e ragionevole certezza dell’anomaliadel risultato (soglia 1%) con meno di 463 teste.


CAPITOLO 3PROBABILITÀ SU INSIEMI FINITI3.1. Spazi di probabilità su insiemi finitiNel caso delle probabilità uniformi ci trovavamo di fronte ad alternativetutte equivalenti. Tuttavia negli calcoli successivi abbiamo presoun valore p qualsiasi ed abbiamo ricavato formule (come la distribuzionedi Bernoulli) in dipendenza di questo p.Viene quindi naturale di considerare delle probabilità che non venganoda conteggi di insiemi, ma siano semplicemente dei valori in [0, 1] soddisfacentia certe regole, anche perché così si possono fare modelli persituazioni in cui non ci sono elementi da contare (tipo la probabilitàche un tiro faccia centro o che una misura ecceda di una certa frazioneil valore vero).Rimaniamo comunque per ora su un insieme finito e richiediamoper la probabilità che soddisfi alcune delle proprietà che abbiamo verificatoessere vere nel caso uniforme. In particolare, scorrendo quantoverificato nel caso uniforme, si vede che la proprietà principale da cuiderivano tutte le altre è la (2) del lemma 2, ossia quella secondo cui seA ∩ B = ∅ allora P (A ∪ B) = P (A) + P (B). Assumiamola quindi comeipotesi:Definizione 3. Dato un insieme finito S si dice probabilità (finita)su S ogni funzione P definita sui sottinsiemi di S tale che:(1) P (S) = 1(2) per ogni A ⊆ S, P (A) ∈ [0, 1];(3) se A ∩ B = ∅ allora P (A ∪ B) = P (A) + P (B).Si possono ricavare tutte le proprietà viste per le probabilità uniformivalgono anche per le probabilità finite. Così in particolare valela formula della distribuzione di Bernoulli, adesso definita per ogni panche non razionale.Anche se la definizione precedente sembra assai generale i modelliche determina sono facilmente identificabili:Esercizio 10. Verificare che P è una probabilità su un insiemefinito S se e solo se esiste una funzione∑non negativa f su S tale cheper ogni evento A ⊆ S, P (A) = ∑s∈S f(s)s∈S f(s).Osservazione 6. Finora abbiamo visto quindi due definizioni: primala probabilità come rapporto tra numero di casi favorevoli e24


3.2. INDIPENDENZA 25possibili, ed ora una definizione assiomatica di probabilità. Discuteremodi altre due definizioni nel proseguimento.3.2. IndipendenzaIl prossimo risultato garantisce l’esistenza di uno spazio in cui sipossono trovare eventi indipendenti di probabilitåassegnata. Questonon garantisce l’esistenza contemporanea di altri eventi di probabilitàdata, ma già è sufficiente per molte situazioni.Teorema 4. (Esistenza di eventi collettivamente indipendenti).Dati valori p 1 , . . . , p n ∈ [0, 1] esiste uno spazio di probabilità (S, P ) edeventi A 1 , . . . , A n ⊆ S collettivamente indipendenti e tali che P (A i ) =p i .Dimostrazione. Consideriamoe poniamoeChiaramente P ≥ 0 eS = {(α 1 , . . . , α n ) : α j ∈ {0, 1}, j = 1, . . . , n}∑(α 1 ,...,α n)∈SA i = {(α 1 , . . . , α n ) ∈ S : α i = 1}P ((α 1 , . . . , α n )) =n∏j=1P ((α 1 , . . . , α n )) =p α jj (1 − p j) 1−α j.∑(α 1 ,...,α n)∈S j=1n∏p j = 1per cui segue dall’esercizio 10 che (S, P ) è uno spazio di probabilità.Inoltre per ogni J ⊆ {1, . . . , n}P (∩ i∈J A i ) =∑(α 1 ,...,α n)∈∩ i∈J A in∏j=1p j = ∏ i∈Jper cui P (A i ) = p i e P (∩ i∈J A i ) = ∏ i∈J p i = ∏ i∈J P (A i) come richiesto.□Per ulteriori eventi oltre a quelli indipendenti la cui esistenza ègarantita dal teorema occorrono naturalmente ulteriori verifiche.Esempio 21. Un esempio di uno spazio di probabilità con tre eventiA i , i = 1, 2, 3 collettivamente indipendenti, tali che P (A i ) = p i ed unevento A 4 che sia incompatibile con ∩ 3 i=1A i ed indipendente da A 1 sipuò ottenere ponendo S come sopra con n = 4 e, per esempio,P ((α 1 , . . . , α 4 )) =4∏j=1p α jj (1 − p j) 1−α j.p i


3.3. PROBABILITÀ CONDIZIONATE 26per (α 1 , . . . , α 4 ) ≠ (1, 1, 1, 1), (1, 1, 0, 1) eP (1, 1, 1, 1) = 0 e P (1, 1, 0, 1) = p 1 p 2 (1 − p 3 )p 4 + p 1 p 2 p 3 (1 − p 4 ).Può essere P (A 4 ) = (1 − p 1 p 2 p 3 )/2?3.3. Probabilità condizionateIn alcune situazioni si vuol calcolare la probabilità di un eventoquando si sa che un altro si è già realizzato. Un buon sistema pertrattare questa situazione è restringere l’ambito dei possibili risultatiall’evento che si sa essere realizzato rendendone 1 la probabilità. Questorisulta naturale se l’evento già realizzato aveva probabilità positiva (chéaltrimenti ci si immette in una considerazione forse non priva di senso,ma che richiede certamente un dettagliato chiarimento):Definizione 4. Dato uno spazio di probabilità (S, P ) e due eventiA, B ⊆ S, con P (B) ≠ 0, si dice probablità condizionata di A dato Bil valoreP (A ∩ B)P (A|B) = . (3.7)P (B)Esempio 22. Nel lancio di un dado, se A = {3} e B = {dispari}(nello stesso lancio), P (A|B) = 1/6 = 1 è la probabilità che sia uscito1/2 3il 3 sapendo che è uscito un dispari.Come già accaduto per l’indipendenza, talvolta è conveniente ‘dedurre’il valore della probabilità condizionata dal problema ed usare(3.7) per ricavare uno degli altri termini. Questo pone gli stessi problemigià discussi trattando dell’indipendenza: il valore della probabilitàcondizionata dovrebbe essere verificata dalla (3.7) prima di usarla. Taleverifica andrebbe fatta per esempio in astratto prima di usare l’espresssionein un caso concreto, ma in molte occasioni la verifica viene omessae le probabilità condizionate vengono desunte direttamente dal problema.Il procedere senza una verifica teorica a volte crea difficoltà erischia di condurre ad interpretazioni errate, ma una certa pratica evitacomunque gli errori più grossolani.Esempio 23. Estraendo senza reinserimento da un’urna contenente3 palline bianche e 5 rosse, che indicheremo schematicamente come|3B 2R|, ed indicando con B i e R i gli eventi che escano una pallinabianca o rossa, rispettivamente, alla i-sima estrazione si ha cheP (B 1 ) = 3/8, P (R 2 |B 1 ) = 5/7 da cui P (B 1 ∩ R 2 ) = 18/56.Dalla conoscenza di tutte le probabilità condizionate a certi eventi èpoi possibile risalire alle probabilità non condizionate degli eventi stessi.A tale scopo diciamo che una famiglia di insiemi B 1 , . . . , B n ⊆ S è unapartizione di S se(a) B i ∩ B j = ∅ se i è diverso da j;


3.3. PROBABILITÀ CONDIZIONATE 27(b) ∪ n i=1B i = S.Vale ora il seguente risultato, talvolta detto teorema delle probabilitàtotali o delle probabilità composte.Teorema 5 (Teorema delle probabilità totali). Se B i , i = 1, . . . , n,costituiscono una partizione di S con P (B i ) diverso da 0 per ogni i,allora per ogni evento A si han∑P (A) = P (A|B i )P (B i ). (3.8)hai=1Dimostrazione. Dalla definizione di probabilità condizionata sin∑P (A|B i )P (B i ) =i=1=n∑ P (A ∩ B i )P (B i )P (B i )n∑P (A ∩ B i )i=1i=1= P (∪ n i=1A ∩ B i ) = P (A) (3.9)in cui le due ultime uguaglianze seguono, la prima dal fatto che i B isono disgiunti e quindi così sono gli A ∩ B i , e la seconda dal fatto che∪ n i=1B i = S.□Esempio 24. Nella situazione e con le notazioni dell’ultimo esempiorelativo alle estrazioni da |3B 2R| si ha:P (R 2 ) = P (R 2 |B 1 )P (B 1 ) + P (R 2 |R 1 )P (R 1 ) = 5 7 · 38 + 4 7 · 58 = 5 8 .Si noti che P (R 2 ) = P (R 1 ), come già in precedenza argomentato.Questo teorema è molto utile, ma a volte bisogna saper trovare lapartizione giusta a cui condizionare:Esempio 25. In un gioco ci sono tre porte e dietro ad una solavi è un premio. Un concorrente sceglie una porta senza aprirla, poidal conduttore gli viene aperta una porta senza premio ed offerta lapossibilità di cambiare la sua scelta (necessariamente nell’unica portafinora non menzionata). E’ conveniente cambiare o la cosa è irrilevantein quanto comunque aveva scelto una porta a caso?Diciamo di giudicare sulla base della probabilità di trovare il premio,che vogliamo massima, e fissiamo due strategie: cambiare o noncambiare (al momento della scelta). Trovandoci ad aver scelto la primaporta, per calcolare le probabilità di trovare il premio la cosa miglioresembra essere scegliere la seguente partizione: se a è la porta scelta,siano A a l’evento che il premio è in a ed A c a il suo complemento (che


3.4. FORMULA DI BAYES 28necessariamente formano una partizione dell’insieme dei possibili esiti,quali che essi siano). Ora, detto V l’evento che trovo il premio, siha: P (V ) = P (V |A a )P (A a )+P (V |A c a)P (A c a). Naturalmente, visto chela posizione del premio è casuale (o quantomeno ignota al concorrente)P (A a ) = 1/3. Nella strategia di cambiare, P (V |A a ) = 0 e P (V |A c a) = 1e viceversa nella strategia di non cambiare, per cui quando si cambiaP (V ) = 2/3 e non cambiando P (V ) = 1/3. Quindi conviene cambiare.Si può usare una combinazione del teorema delle probabilità totalicon la definizione di probabilità condizionata per calcolare probabilitàcondizionate non direttamente evidenti.Esercizio 11. Calcolare la probabilità che il secondo numero estrattonella tombola (quindi senza reinserimento) sia il 30 sapendo cheil primo estratto è pari.3.4. Formula di BayesLa formula presentata in questa sezione permette di tornare indietro,ossia calcolare la probabilità che avevano certi eventi già realizzati(ma del cui esito non abbiamo informazione).Esempio 26. Supponiamo di avere due urne, |3N 2R| e |2N 8R|,e di usare il seguente procedimento di estrazione: scelgo un’urna a casoe poi da questa estraggo una pallina a caso. Se la pallina è rossa, qualè la probabilità che l’urna estratta sia la prima?In questa situazione conosciamo le probabilità iniziali di scelta dell’urnae poi le probabilità condizionate di prendere una certa pallinascelta l’urna, ma appunto il problema chiede di tornare indietro.Teorema 6 (Formula di Bayes). Data una partizione Se B i , i =1, . . . , n, con P (B i ) > 0, ed un evento A sottinsieme di un insieme S,con P (A) ≠ 0, si haP (B 1 |A) = P (A|B 1)P (B 1 )∑ ni=1 P (A|B i)P (B i )(3.10)Dimostrazione. Dalla definizione di probabilità condizionata edalla formula delle probabilità totali si haP (A|B 1 )P (B 1 )∑ ni=1 P (A|B i)P (B i ) = P (A ∩ B 1)P (A)= P (B 1 |A).Esempio 27. Nell’esempio precedente siano A l’evento che vienescelta l’urna |3N 2R| e B l’evento che viene scelta l’altra urna; A eB formano una partizione. Se R è l’evento che è stata estratta una□


3.4. FORMULA DI BAYES 29pallina rossa si risponde al problema determinando P (A|R). E dallaformula di Bayes:P (A|R) =2 · 15 22 · 1 + 5 · 15 2 10 2= 4 9 .Statistica BayesianaE’ possibile utilizzare la formula di Bayes anche per un’analisi statisticadiversa da quelle a cui si è accennato finora. Per distinguerei due approcci quest’ultimo viene detto frequentista o classico (e loriprenderemo nella seconda <strong>parte</strong> di queste note) ed il primo, a cuiaccenneremo ora, Bayesiano.Supponiamo che si faccia il seguente esperimento: le due scatoledegli esempi precedenti sono scelte con probabilità a noi non note p Ae p B , p A + p B = 1, poi viene estratta una pallina dalla scatola sceltae ci viene mostrata. L’idea della statistica Bayesiana è quella di determinarein qualche modo delle probabilità iniziali, o a priori, per lascelta di A e B e poi aggiornarle con la formula di Bayes. Visto chenon sappiamo nulla del valore di p A un’ipotesi sensata è di considerareinizialmente le due scatole come equiprobabili, per cui si <strong>parte</strong> dallaprobabilità a priori P 0 tale che P 0 (A) = P 0 (B) = 1 . Poi avendo a disposizioneun dato (che la pallina estratta è rossa) si aggiorna la nostra2stima delle probabilità inP 1 (A) = P 0 (A|R) = 4 9e P 1 (B) = P 0 (B|R) = 5 . Naturalmente la procedura può essere iterata:9se viene ripetuto l’esperimento descritto sopra con le stesse probabilitàa noi non note, quindi dopo il reinserimento delle palline estratte, ela pallina mostrata è di nuovo rossa (indichiamo con R 2 l’evento corrispondente)ora si può aggiornare la stima delle probabilità <strong>parte</strong>ndoda P 1 :P 2 (A) = P 1 (A|R 2 )=P 1 (R 2 |A)P 1 (A)P 1 (R 2 |A)P 1 (A) + P 1 (R 2 |B)P 1 (B)=25 · 492 · 4 + 5 · 55 9 10 9= 1641Correttamente 16 < 4 perché l’uscita di un’altra pallina rossa rafforza41 9la convinzione che sia scelta più frequentemente la scatola B che contienepiù rosse e che quindi A abbia una probabilità minore di quantopensavamo prima.


3.5. ALCUNI CALCOLI DI PROBABILITA’ IN GENETICA 303.5. Alcuni calcoli di probabilita’ in geneticaEsempio 28. Qual è la probabilità che nasca un figlio biondo dadue genitori castani?Per poter procedere la questione deve essere formulata in terminiscientifici e saranno poi necessari alcuni dati, che immaginiamo piùfacilmente reperibili della frequenza di figli biondi da genitori castani.La teoria rivelatasi più adeguata è quella genetica (che qui esponiamoin forma molto semplificata) in cui si assume:1. ogni individuo ha, <strong>relativa</strong>mente al carattere in oggetto, duealleli;2. tali alleli possono essere o b per il carattere biondo o C per ilcarattere castano;3. b è un allele recessivo, C dominante per cui il fenotipo (ossia laforma espressa del carattere da <strong>parte</strong> dell’individuo portatore di duealleli è sempre castano salvo quando i due alleli sono entrambi b);4. (legge di Hardy-Weinberg) se p b è la frequenza di alleli b in unapopolazione (ossia il rapporto tra il numero di loci con allele b rispettoal numero totali di loci, quest’ultimo essendo due volte il numero diindividui della popolazione) allora la frequenza di alleli C sarà p C =1−p b e la frequenza di individui con alleli bb sarà p bb = p b ·p b e di quellicon alleli CC sarà p CC = p C · p C .Sulla base di questi elementi, ed osservando che se un individuo èscelto a caso allora la probabilità di un certo evento coincide con la suafrequenza nella popolazione, è possibile determinare molte probabilità<strong>relativa</strong>mente ai genotipi ed ai fenotipi di una popolazione in un datomomento.Esempio 29. La probabilità che un individuo sia eterozigote (ossiaabbia due alleli diversi) è p bC = 1 − p bb − p CC = 2p b p C .La probabilità che un individuo castano sia eterozigote è data dallaprobabilità condizionata che l’individuo sia eterozigote dato che ècastano: indicando con ¯C quest’ultimo evento, la probabilità è quindiP (bC| ¯C) =P (bC ∩ ¯C)P ( ¯C)= 2p bp C1 − p 2 b= 2p b(1 − p b )1 − p 2 b= 2p b1 + p b.Quest’ultima probabilità si può vedere come una applicazione, in un casomolto semplice, del teorema di Bayes in quanto è immediato desumerele probabilità di un certo fenotipo dato il genotipo (che sono peraltro 0o 1) e qui si richiede la probabilità condizionata inversa (esercizio).Tuttavia nel problema 2 dobbiamo anche prendere in considerazionela riproduzione in quanto siamo interessati a questioni di discendenza.Un’ipotesi ragionevole <strong>relativa</strong>mente alla riproduzione è che5. ogni figlio viene generato scegliendo due genitori scelti a caso(eventualmente lo stesso!) ed il suo genotipo è generato scegliendo acaso un allele da ogni genitore.


3.5. ALCUNI CALCOLI DI PROBABILITA’ IN GENETICA 31Questa ipotesi non è molto realistica per le popolazioni umane,ma sembra più ragionevole per animali inferiori e poi è molto semplice.Prima di procedere osserviamo che c’è però un problema di coerenza traquest’ultima ipotesi e le precedenti (questo problema fu portato verso il1920 al matematico Hardy dal biologo Punnet e dette in seguito luogoalla legge che porta il nome di Hardy): se ad una certa generazionevalgono le ipotesi 1-4 e la riproduzione segue l’ipotesi 5 si manterrannole condizioni 1-4 anche alla generazione successiva?Per questa verifica si usa il teorema delle probabilità totali. Seindichiamo con P αβ , M αβ e F αβ , gli eventi che il padre, la madre o ilfiglio rispettivamente, hanno genotipo αβ si ha:∑P (F bb ) =P (F bb |P α,β ∩ M α ′ ,β ′)P (P α,β ∩ M α ′ ,β ′)α,β,α ′ ,β ′ =b,C= P (P b,b ∩ M b,b ) + 1 2 P (P b,C ∩ M b,b )+ 1 2 P (P b,b ∩ M b,C ) + 1 4 P (P b,C ∩ M b,C )= p 4 b + 2 1 2 2p3 b(1 − p b ) + 1 4 4p2 b(1 − p b ) 2= p 2 b = P (P bb ). (3.11)La stessa cosa si può verificare per gli altri genotipi, per cui le condizioni1-4 risultano in effetti stabili rispetto alla riproduzione modellizzata da5.Siamo ora in grado di fornire una risposta al problema 2. Se indichiamocon F¯b (F ¯C) l’evento che il figlio è biondo (o castano) edanalogamente denotiamo gli eventi che il padre o la madre hanno uncerto fenotipo, una soluzione al problema viene data dal calcolo diP (F¯b|P ¯C ∩ M ¯C) = P (F bb |P ¯C ∩ M ¯C).Dalla definizione di probabilità condizionate si ha:P (F bb |P ¯C ∩ M ¯C) = P (F bb ∩ P ¯C ∩ M ¯C)P (P ¯C ∩ M ¯C)∑α,β,α=′ ,β ′ =b,C ma non uguali a bb P (F bb ∩ P α,β ∩ M α ′ ,β ′)∑α,β,α ′ ,β ′ =b,C ma non uguali a bb P (P α,β ∩ M α ′ ,β ′) .L’indipendenza nella scelta dei genitori implica che∑P (P α,β ∩ M α ′ ,β ′) = (1 − p2 b) 2 .α,β,α ′ ,β ′ =b,C ma non uguali a bbPer il calcolo del numeratore possiamo utilizzare di nuovo la definizionedi probabilità condizionata, osservando che solo una delle probabilità


3.5. ALCUNI CALCOLI DI PROBABILITA’ IN GENETICA 32condizionate è diversa da 0:∑=α,β,α ′ ,β ′ =b,C ma non uguali a bb∑α,β,α ′ ,β ′ =b,C ma non uguali a bb= 1 4 4(1 − p b) 2 p 2 b.Per cui si haP (F bb ∩ P α,β ∩ M α ′ ,β ′)P (F bb |P ¯C ∩ M ¯C) = (1 − p b) 2 p 2 b(1 − p 2 b )2 =P (F bb |P α,β ∩ M α ′ ,β ′)P (P α,β ∩ M α ′ ,β ′)p 2 b(1 + p b ) 2 .Ora rimane solo da determinare p b . In effetti, sappiamo che la frequanzadi (fenotipi) biondi è il 30% e che la probabilità di un genotipopuro bb è p 2 b . Assumendo che questi due valori siano uguali si hap b = √ 0.3.0,3Per cui P (F bb |P ¯C ∩ M ¯C) =(1+ √ ≃ 0, 125.0.3) 2Anche se era ovvio che la probabilità di un figlio biondo dovesseessere minore per due genitori castani rispetto a due qualunque genitori,quantificare tale riduzione è un risultato per nulla immediato.


CAPITOLO 4VARIABILI ALEATORIE FINITE4.1. Variabili aleatorieIn alcuni problemi si è portati a considerare funzioni definite su unospazio di probabilità .Esempio 30. Il numero di teste in 100 lanci di una moneta puòessere visto come una funzione T 100 : S → R con S = {0, 1} 100 che indical’insieme dei possibili risultati del lancio di 100 monete, indicandotesta con 1 e croce con 0, definita da∑100T 100 (a 1 , . . . , a 100 ) = a i ;i=1ove su S si considera la probabilità uniforme.Per distinguerla dalla teoria delle funzioni e per ricordare che stiamoparlando di fenomeni casuali, queste funzioni vengono chiamatein modo diverso:Definizione 5. Dato uno spazio di probabilità finito (S, P ) ognifunzione X : S → R è detta variabile aleatoria.Le variabili aleatorie costituiscono una generalizzazione del concettodi evento, infatti per ogni evento A in uno spazio di probabilità (S, P )la funzione indicatrice di I A di A definita da{1 se s ∈ AI A (s) =0 se s /∈ Aè una variabile aleatoria.Spesso delle variabili aleatorie ci interessano i valori che esse possonoassumere e le relative probabilità : denotiamo con S X = X(S) ⊆ R ilcodominio di una variabile aleatoria X e per ogni B ⊆ S X conP X (B) := P (s ∈ S : X(s) ∈ B)= P (X −1 (B))=: P (X ∈ B)la probabilità che X assuma valori in B. Conseguentemente, P X (x) =P X ({x}) indica la probabilità che X assuma il valore x ∈ S X .Lemma 5. Per ogni variabile aleatoria finita X, la coppia (S X , P X )è uno spazio di probabilità finito detto distribuzione di X.33


4.1. VARIABILI ALEATORIE 34Dimostrazione. Si ha:(i) P X (S X ) = P (X −1 S X ) = P (S) = 1(ii) Per ogni B ⊆ S X , 0 ≤ P X (B) ≤ P (S) = 1(iii) Per ogni B, C ⊆ S X , B ∩ C = ∅,P X (B ∪ C) = P (X −1 (B ∪ C))= P (X −1 (B) ∪ X −1 (C))= P (X −1 (B)) + P (X −1 (C))= P (B) + P (C)in cui la terza uguaglianza deriva, come sempre, dal fatto che gli eventisono disgiunti e che quindi sono disgiunte le immagini inverse.Infine, |S X | ≤ |S| < ∞.□Osservazione 7. Si noti che P X risulta essere una probabilità proprioperché utilizziamo X −1 per trasportare P in P X . Se Z : T → Sfosse una fuzione a valori in uno spazio di probabilità (S, P ) il trasportonella direzione opposta dato da P ◦ Z non dà in generale uno spaziodi probabilità perché le immagini di insiemi disgiunti non è detto chesiano disgiunte.Se D indica una certa distribuzione e X è una variabile aleatoriasi scrive X ∼ D (letto X ha distribuzione D) per indicare che Xha la distribuzione D. Ad esempio, se X è la la funzione identitàsu uno spazio di probabilità uniforme su {1, 2, . . . , n} indichiamo conX ∼ U({1, 2, . . . , n}) = U(n) il fatto la distribuzione di X è appuntolo spazio uniforme di <strong>parte</strong>nza.Poiché (S X , P X ) è uno spazio di probabilità gran <strong>parte</strong> delle informazionisu X possono essere dedotte direttamente dalla sua distribuzione,tant’è che se due variabili aleatorie hanno la stessa distribuzionecondividono gran <strong>parte</strong> delle proprietà . Per cui si pone:Definizione 6. Si dice che due variabili aleatorie X definita su(S 1 , P 1 ) ed Y definita su (S 2 , P 2 ) sono uguali in distribuzione, e sidenota con X = d Y , se (S X , P X ) = (S Y , P Y )Da questo punto di vista sembra perfino che non sia necessariointrodurre le variabili aleatorie, in quanto il loro studio si riconducea quello di spazi di probabilità . Tuttavia, solo ‘gran <strong>parte</strong>’ delleproprietà dipendono dalla distributione, non tutte. In particolare, inqualunque modello di fenomeni reali si è interessati al valore assuntoda una variabile aleatoria e non solo alla sua distribuzione; in questadirezione si osservi che variabili aleatorie uguali in distribuzione nonsono necessariamente uguali, anzi possono essere sempre diverse:Esempio 31. Nel lancio di una moneta, la funzione indicatrice ditesta I T e la funzione indicatrice di croce I C soddisfano I T = d I C maI T (s) ≠ I C (s) per ogni s ∈ S; in altre parole, i guadagni di chi puntasu testa sono opposti a quelli di chi punta su croce


4.2. VALORE ATTESO 35Come accaduto nell’ultimo esempio, capita di considerare due opiù variabili aleatorie X 1 , X 2 . . . . , X n definite su uno stesso spazio diprobabilità . Anche ogni combinazione φ(X 1 , X 2 , . . . , X n ) di questedeterminata da una funzione φ : B → R, con B ⊆ R n tale che S X1 ×S X2 × · · · × S Xn ⊆ B, è una variabile aleatoria definita daφ(X 1 , X 2 , . . . , X n )(s) = φ(X 1 (s), X 2 (s), . . . , X n (s)).Così X 1 + X 2 , 4X 1 e X 2 1 sono variabili aleatorie sullo stesso spazio diX 1 e X 2 .La determinazione della distribuzione diY = φ(X 1 (s), X 2 (s), . . . , X n (s))può essere laboriosa, come si intravede dall’esempio seguente:Esempio 32. Se X 1 e X 2 sono i risultati del lancio di due dadi eX 1 + X 2 è la loro somma, con una certa pazienza si puo’ ricavare ladistribuzione di X 1 + X 2 dalle probabilità dei risultati dei lanci dei duedadi. In particolare, S X1 +X 2= {2, 3, . . . , 12} eP X1 +X 2(s) ={ s−136se s ≤ 612−s+136se s ≥ 7Alcune variabili aleatorie notevoli sono elencate di seguito:Esempio 33. Su un insieme finito S ∈ R la variabile aleatoriaX che può assumere ognuno dei valori di S con la stessa probabilitàè detta uniforme e si indica X ∼ U({1, . . . , n}) se |S| = n, per cuiP (X = k) = 1/n per k = 1, . . . , n.Esempio 34. Il numero di successi T n in n prove indipendentiognuna con probabilità di successo p è una variabile aleatoria che sidice Binomiale o Bernoulli di parametri (n, p) e si indica generalmenteT n ∼ B(n, p), per cui P (T n = k) = p k (1 − p) n−k per k = 0, . . . , n.4.2. Valore attesoIntroduciamo ora una quantità , utilizzabile per l’analisi di variabilialatorie, che può essere giustificata in vari modi.Esempio 35. Storicamente fu descritta per la prima volta <strong>relativa</strong>menteal gioco dei punti, in cui due giocatori A e B si disputano 24gettoni a testa o croce: vince il primo che arriva a 2 vittorie. Naturalmenteesiste un modo equo di dividersi i gettoni senza giocare: 12ognuno. Se però A, che scommette su testa, ha vinto la prima partita,come ci si può dividere la posta senza giocare ulteriormente? Se sidecidesse di fermarsi dopo un’ulteriore partita allora se in questa esceancora testa A prende 24 gettoni, e se esce croce ci si puo’ dividere 12gettoni a testa; quindi dopo una vittoria di A è ragionevole dare i 12


4.2. VALORE ATTESO 36ad A e dividersi gli altri 6 ciascuno, per cui A ha 18 gettoni. Si notaperò che 18 = 124 + 1 12. Se invece si decidesse di finire il gioco la2 2probabilità di A di vincere tutta la posta dato che è uscita una testasarebbe P (T ∪ CT ) = 1 + 1 = 3 e si nota che di nuovo 18 = 3 × 24.2 4 4 4Esempio 36. Supponiamo di scommettere sul risultato di un dado,vincendo 3 se esce il 6 ed altrimenti perdendo 1. In ogni partita lanostra vincita sarà quindi una variabile aleatoria X tale che X(6) = 3e X(i) = −1 per ogni i = 1, . . . , 5. Dopo 60 partite ci aspettiamo diaver vinto circa 10 partite e perse 50, con una vincita totale di −20.Si noti che−20 = 30 − 50 = 3 × 10 − 1 × 50 = 3 606 − 160 × 5 = 60(3 1 6 6 − 15 6 ).In questi ed in molti altri esempi compare quindi la quantità sommadei valori vinti moltiplicati per la probabilità di vincerli e questaquantità può essere quindi un modo di valutare l’esito di una variabilealeatoria. Per cui si pone:Definizione 7. Data una variabile aleatoria X definita su unospazio di probabilità (S, P ) si dice valore atteso o speranza matematicao aspettazione o valor medio di X il valoreE(X) = M(X) = ∑ s∈SX(s)P (s). (4.12)Il valore atteso dipende solo dalla distribuzione di X:è :Lemma 6.E(X) = ∑xP X (x)x∈S XDimostrazione.E(X) = ∑ X(s)P (s)s∈S= ∑ ∑xP (s)x∈S X s∈S:X(s)=x= ∑xP X (x)x∈S X□Esempio 37. Il valore atteso del risultato X del lancio di un dadoE(X) =6∑i 1 = 3, 5.6i=1


4.2. VALORE ATTESO 37L’esempio mostra che non sempre il valore atteso è un valore chepuò essere assunto dalla variabile aleatoria e mostra quindi che l’ideache rappresenti il valore ‘che ci aspettiamo’ è soltanto approssimativae va specificata nei sensi che abbiamo indicato in precedenza.è :Esempio 38. Il valore atteso di una variabile aleatoria T n ∼ B(n, p)E(T n ) =n∑k=0( nk pk)k (1 − p) n−k = np.Alcune proprietà elementari del valore atteso sono:Lemma 7. Se X 1 , X 2 , . . . , X n sono variabili aleatorie su uno spaziodi probabilità (S, P ) e a 1 , a 2 , . . . , a n ∈ R sono costanti si ha che:(i) E(a) = a(ii) E(a 1 X 1 + a 2 X 2 ) = E(X 1 ) + E(X 2 ) e pertanto(iii) E( ∑ ni=1 a iX i ) = ∑ ni=1 a iE(X i )Dimostrazione. (i) E(a) = ∑ s∈SaP (s) = a.(ii)E(a 1 X 1 + a 2 X 2 ) = ∑ s∈S(a 1 X 1 + a 2 X 2 )(s)P (s)= ∑ (a 1 X 1 (s) + a 2 X 2 (s))P (s)s∈S= ∑ a 1 X 1 (s)P (s) + ∑ a 2 X 2 (s)P (s)s∈Ss∈S= E(X 1 ) + E(X 2 ).(iii) segue per induzione su n□Esprimere una variabile aleatoria come somma di altre variabili puòquindi condurre ad una drastica semplificazione del calcolo del valoreatteso, come si vede dall’esempio seguente.Esempio 39. Se T 1000 ∼ B(1000, 1/2) è il numero di teste in 1000lanci di una moneta allora T 1000 = ∑ 1000i=1 X i con X i la funzione indicatricedi testa all’i-simo lancio. Si ha che E(X i ) = 1/2 per ogni ie∑1000∑1000E(T n ) = E( X i ) = E(X i ) = 500.i=1Pertanto il valore atteso riproduce in questo caso correttamente l’ideadi quello che ‘ci aspettiamo’, così come era stato assunto nelle discussioniiniziali ed anche utilizzato nel teorema di De Moivre-Laplace.Generalizzando si ottiene che se T n ∼ B(n, p) allora T n = ∑ ni=1 X i conX i ∼ B(1, p). Per cui E(X i ) = 1p − 0(1 − p) = p e E(T n ) = np.i=1


4.2. VALORE ATTESO 38In questo calcolo la proprietà di indipendenza della distribuzione diBernoulli non è stata utilizzata ed infatti il Lemma vale in generale pertutte le variabili aleatorie.Esempio 40. Se T n è il totale di n estrazioni dalla tombola senzareinserimento allora T n = ∑ ni=1 X i, con X i i-simo numero estratto.poichéE(X i ) =∑90j=1j90 = 912per ogni i ≤ 90, e E(X i ) = 0 per ogni i > 90, si ha{n91se n ≤ 90E(T n ) = 290 91 se n ≥ 90.2Si noti il caso n = 90, in cui tutte le palline sono estratte e T 90 ≡ 90 91 2con probabilità uno.Ci sono altri modi per indicare un ‘valore medio’ di una variabilealeatoria, utili in particolari contesti. Tra questi vi è il centro o i centridelle probabilità :Definizione 8. Si dice mediana di una variabile aleatoria Xdefinita su (S, P ) ogni valore m(X) tale cheP (X ≤ m(X)) ≥ 1 2 e P (X ≥ m(X)) ≥ 1 2 .Esempio 41. Tutti i valori in [3, 4] sono mediane del risultato dellancio di un dado.Esempio 42. La mediana del numero T n di teste in 100 lanci diuna moneta è 50, come si vede per simmetria, mentre per 101 lanci èun qualunque numero in [50, 51]Come si è visto dagli esempi, la mediana non è necessariamenteunica e può coincidere o meno con il valore atteso.Definizione 9. Si dice moda di una variabile aleatoria X ognivalore mo(X) tale che per ogni x ∈ S XP (X = mo(X)) ≥ P (X = x).E’ moda di una variabile aleatoria T n ∼ B(n, p) ogni valore in[p(n + 1) − 1, p(n + 1)] ∩ N mentre tutti i valori possibili sono moda perle variabili aleatorie uniformi. La moda di una variabile aleatoria è utilesolo in alcune situazioni: ad esempio, se si è obbligati a scommetteresu uno solo dei risultati possibili di un esperimento casuale la modapermette di massimizzare le probabilità di vittoria.Quando si osservano dei dati {x 1 , . . . , x n } dopo aver condotto un esperimentocasuale è possibile definire lo spazio di probabilità (S O , P O ),


4.2. VALORE ATTESO 39che chiameremo empirico o campionario, in cui S O è costituito dai valoriosservati e P O è determinato dalla frequenze, ossiaP O (x) = 1 n∑I xi =x.nIn tale spazio il valore atteso della variabile aleatoria identità I è lamedia empirica dei dati:∑µ = E(I) =xP O (x)== 1 ni=1x∈{x 1 ,...,x n}∑x∈{x 1 ,...,x n}n∑x i .i=1x 1 nn∑i=1I xi =xLa mediana di I è la mediana empirica m = m(I) tale che |{i : x i ≤m}| ≥ n/2 e |{i : x i ≥ m}| ≥ n/2 . Si noti che le mediane empirichesi possono determinare ordinando (debolmente) le osservazioni x i , chevengono in questo caso denotate con {x (1) , . . . , x (n) } con x (1) ≤ · · · ≤x (n) , e scegliendo poi un valore nell’intervallo (banale se n è dispari)[x (⌊n+1⌋), x (⌈ n+1 ⌉)]. La moda di I è la moda dei dati, ossia ogni valore2 2mo(I) che massimizza la frequenza di osservazione.Esempio 43. Con dati 5.0, 3.5, 2.3, 5.0, 1.2, 1.6 risultano: µ = 3.1, m ∈[2.3, 3.5], mo = 5.0.Prima di condurre un esperimento è possibile valutare a priori lequantità empiriche appena descritte considerandole come funzioni divariabili aleatorie X 1 , . . . , X n . In particolare la media empirica dellevariabili aleatorie diviene¯X = 1 n∑X indi cui si discuteranno varie proprietà nel seguito.Per concludere la discussione sul valore atteso osserviamo che datauna variabile aleatoria X ed una funzione Φ : S X → R, il risultatoseguente sul cambiamento di variabili permette di semplificare il calcolodel valore atteso della variabile aleatoria Φ(X).Teorema 7. Data una variabile aleatoria X su (S, P ) e Φ : B → Rcon S X ⊆ B si haE(Φ(X)) = ∑φ∈S Φ(X)φP (Φ(X) = φ)= ∑i=1x∈S XΦ(x)P X (x)


4.3. INDIPENDENZA TRA VARIABILI ALEATORIE 40Dimostrazione. la prima uguaglianza discende dal Lemma 6. Perla seconda si haE(Φ(X)) = ∑ s∈SΦ(X(s))P (s)= ∑∑x∈S X s∈S:X(s)=x= ∑x∈S XΦ(x)P X (x)Φ(x)P (s)La prima espressione di E(Φ(X)) data nel teorema richiede la determinazionedi (S Φ(X) , P Φ(X) ), mentre per la seconda espressione bastala distribuzione di X che può essere utilizzata per tutte le Φ.Il valore atteso di una potenza di una variabile aleatoria X vienedefinito momento di ordine k di X ed in accordo con l’ultimo risultatovale ∑ x∈S Xx k P X (x).4.3. Indipendenza tra variabili aleatorieE’ stata sollevata nell’ultimo capitolo la questione della dipendenzatra variabili aleatorie. Per definire la mancanza di dipendenza estendiamoil concetto di indipendenza tra eventi. Per comprendere comerealizzare questa estensione partiamo dall’esempio seguente.Per semplificare la notazione, per variabili aleatorie X 1 , , . . . , X ndefinite su uno stesso spazio di probabilità (S, P ) indicheremo con{X 1 = x 1 , X 2 = x 2 , . . . , X n = x n }= {s ∈ S : X 1 (s) = x 1 e X 2 (s) = x 2 e . . . e X n (s) = x n }.Esempio 44. Se X i = I Ai , con A i eventi indipendenti in uno spaziodi probabilità (S, P ), alloraP (I A1 = 1)P (I A2 = 1) = P (A 1 )P (A 2 )ma abbiamo anche visto chee così via, di modo cheper ogni i, j = 0, 1.= P (A 1 ∩ A 2 )= P (I A1 I A2 = 1)P (I A1 = 1)P (I A2 = 0) = P (A 1 )P (A c 2)□= P (I A1 = 1, I A2 = 1) (4.13)= P (A 1 ∩ A c 2)= P (I A1 = 1, I A2 = 0) (4.14)P (I A1 = i)P (I A2 = j) = P (I A1 = i, I A2 = j)


4.3. INDIPENDENZA TRA VARIABILI ALEATORIE 41Per definire l’indipendenza si può quindi generalizzare questa proprietà:Definizione 10. n variabili aleatorie X 1 , , . . . , X n definite su unospazio di probabilità (S, P ) sono indipendenti seP (X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) =n∏P (X i = x i ) (4.15)i=1Per n = 2, quindi, X 1 , X 2 sono indipendenti se P (X 1 = x 1 , X 2 =x 2 ) = P (X 1 = x 1 )P (X 2 = x 2 ) per ogni possibile valore x 1 , x 2 . Si notiche nella definizione di indipendenza per variabili aleatorie non è statarichiesta la fattorizzazione delle probabilità per sottofamiglie: mostreremotra poco che questa proprietà è conseguenza della definizionedata.Esempio 45. Due estrazioni successive X 1 e X 2 dalla tombola sonoindipendenti se effettuate con reinserimento e dipendenti se non c’èreinserimento; infatti, nel primo caso P (X 1 = k, X 2 = m) = 1 =90 2P (X 1 = k)P (X 2 = m) per ogni k, m = 1, . . . , 90, mentre nel secondocaso P (X 1 = 1, X 2 = 1) = 0 ≠ 1 = P (X90 2 1 = 1)P (X 2 = 1).Lemma 8. Se X 1 , . . . , X n sono variabili aleatorie indipendenti allora(I) per ogni A 1 , . . . , A n , A i ⊆ S Xi si haP (X 1 ∈ A 1 , . . . , X n ∈ A n ) =n∏P (X i ∈ A i )i=1(II) per ogni J ⊆ {1, . . . , n} le variabili aleatorie X i , i ∈ J, sonoindipendenti,(III) per ogni A 1 , . . . , A n , A i ⊆ S Xi , gli eventi (X i ∈ A i ) = {s ∈ S :X i (s) ∈ A i } sono collettivamente indipendenti.Dimostrazione. Indichiamo con x = (x 1 , . . . , x n ) i vettori n dimensionali:(I) Fissati A 1 , . . . , A n come nell’ipotesi si haP (X 1 ∈ A 1 , . . . , X n ∈ A n ) = P (∪ x1 ∈A 1 ,...,x n∈A n{X = x}).


4.3. INDIPENDENZA TRA VARIABILI ALEATORIE 42Gli eventi {X = x} sono disgiunti per definizione di funzione, quindiper l’indipendenza degli X iP (X 1 ∈ A 1 , . . . , X n ∈ A n ) ====∑P (X = x)x 1 ∈A 1 ,...,x n∈A n∑n∏x 1 ∈A 1 ,...,x n∈A n i=1n∏i=1∑P (X i = x i )P (X i = x i )x 1 ∈A 1 ,...,x n∈A nn∏P (X i ∈ A i )i=1(II) segue da (I) con{xi se i ∈ JA i =se i /∈ JS XiessendoP (X i = x i se i ∈ J) = P (X i = x i se i ∈ J e X j ∈ S Xj se j /∈ J)= ∏ i∈JP (X i = x i ) ∏ j /∈JP (X j ∈ S Xj )= ∏ i∈JP (X i = x i )(III) segue da (II) prendendo X i = I Ai .□Quindi la richiesta di fattorizzazione delle probabilità per tutti i valoridel codominio delle variabili aleatorie include già la fattorizzazionedelle stesse espressioni per sottinsiemi di funzioni.Vediamo ora che funzioni di variabili aleatorie indipendenti sonoancora indipendenti, nel senso cheTeorema 8. Date variabili aleatorie indipendenti X 1 , . . . , X n definitesu uno spazio di probabilità (S, P ) e due funzioni φ : C → R eψ : D → R tali che S X1 ×S X2 ×· · ·×S Xk ⊆ C e S Xk+1 ×· · ·×S Xn ⊆ D siha che T = φ(X 1 , . . . , X k ) e Z = ψ(X k+1 , . . . , X n ) sono indipendenti.


4.3. INDIPENDENZA TRA VARIABILI ALEATORIE 43Dimostrazione. poiché gli eventi nell’unione che segue sono, comeal solito, disgiunti, ed essendo le variabili aleatorie indipendenti si ha:P (T = t, Z = z)= P (s : φ(X 1 (s), . . . , X k (s)) = t,ψ(X k+1 (s), . . . , X n (s)) = z)= P ( ∪ {s : (X 1 (s), . . . , X n (s)) = x}x=(x 1 ,...,x n):φ(x 1 ,...,x k )=t,ψ(x k+1 ,...,x n)=z∑=P ((X 1 , . . . , X n ) = x)=x=(x 1 ,...,x n):φ(x 1 ,...,x k )=t,ψ(x k+1 ,...,x n)=z∑x=(x 1 ,...,x n):φ(x 1 ,...,x k )=t,ψ(x k+1 ,...,x n)=z= ∑(x 1 ,...,x k ):φ(x 1 ,...,x k )=t= ∑x=(x 1 ,...,x k ):φ(x 1 ,...,x k )=t×n∏P (X i = x i )i=1k∏P (X i = x i )i=1P ((X 1 , . . . , X k ) = x)∑x ′ =(x k+1 ,...,x n):ψ(x k+1 ,...,x n)=z= P (T = t)P (Z = z).∑(x k+1 ,...,x n):ψ(x k+1 ,...,x n)=zn∏i=k+1P ((X k+1 , . . . , X n ) = x ′ )P (X i = x i )Questo risultato ha molte conseguenze interessanti, ad esempio laseguente:Esempio 46. Giocando k +1 partite alla roulette, se X i è il numeroche esce nell’i-sima partita si ha che le variabili X 1 , . . . , X k , X k+1 sonoindipendenti. Ogni strategia che, a k fissato, cerchi di determinare suquale numero scommettere alla k +1-sima partita osservando i risultatidelle partite precedenti è equivalente ad una funzione φ(X 1 , . . . , X k ) e,per il teorema appena provato, X k+1 ne risulta quindi indipendente.Per cui il teorema porta a concludere che non esiste nessuna strategiache dalle prime k partite dia suggerimenti sulla successiva partita.Si può ovviamente pensare una strategia che non fissi k a priori(tipo aspettare la prima uscita del 3), ma ne rimandiamo l’analisi inquanto richiede un modello con una infinità di possibili risultati, chetratteremo più avanti.□


4.3. INDIPENDENZA TRA VARIABILI ALEATORIE 44Una delle proprietà fondamentali delle variabili aleatorie indipendentisi riferisce al valore atteso del prodotto di variabili aleatorie.Teorema 9. Se X i , i = 1, . . . , n sono variabili aleatorie indipendentisu (S, P ) alloran∏n∏E( X i ) = E(X i ).i=1Dimostrazione. Cominciamo da n = 2:∑E(X 1 X 2 ) = tP (X 1 X 2 = t)t∈S X1 X 2∑ ∑=x 1 x 2 P (X 1 = x 1 , X 2 = x 2 )t∈S X1 X 2 x 1 ∈S X1 ,x 2 ∈X 2= ∑∑ ∑x 1 P (X 1 = x 1 )x 2 P (X 2 = x 2 )x 1 ∈S X1 t∈S X1 X 2 x 2 ∈S X2 :x 1 x 2 =t= ∑x 1 P (X 1 = x 1 ) ∑x 2 P (X 2 = x 2 )x 1 ∈S X1 x 2 ∈S X2= E(X 1 )E(X 2 )poiché la seconda uguaglianza discende dall’additività della probabilitàdell’unione disgiunta di insiemi.Il risultato per n generico discende per induzione su n essendo∏ n−1i=1 X i indipendente da X n . □Esercizio 12. Due variabili aleatorie dipendenti tali che E(X 1 X 2 ) =E(X 1 )E(X 2 ) si possono ottenere assegnando le probablità seguenti. SianoX 1 , X 2 a valori in {0, 1} e siano P (X 1 = 0, Y 1 = 0) = 2 , P (X 12 1 =, Y 1 =0) = 6 , P (X 12 1 = 0, Y 1 = 1) = 1 e di conseguenza P (X 12 1 = 1, Y 1 =1) = 3 . Verificare quanto affermato.12Definizione 11. Variabili aleatorie X 1 , . . . , X n su uno spazio diprobabilità che siano indipendenti e tali che X i = d X j per ogni i, j =1, . . . , n si dicono indipendenti ed identicamente distribuite oi.i.d..i=1


4.4. DEVIAZIONI DALLA MEDIA 454.4. Deviazioni dalla mediaIl valore atteso E(X) di una variabile aleatoria X dà un’idea diquanto ci possiamo aspettare, ma abbiamo già visto che non è esattamenteil valore E(X) che ci possiamo attendere come risultato diuna realizzazione di X. Il teorema di De Moivre-Laplace fornisce unastima molto precisa di quanto i valori che si realizzano più spesso differisconodal valore atteso di una distribuzione di Bernoulli, ma per ilcaso generale discutiamo ora una prima stima. Ricordiamo inoltre chenon abbiamo ancora chiarito il significato del termine √ p(1 − p).Lo scarto massimo max(X −E(X)) tende a sopravvalutare lo scartotipico di una realizzazione e chiaramente lo scarto medio E(X −E(X))non ha significato, essendo identicamente nullo per la linearità del valoreatteso. Lo scarto assoluto medio E(|X − E(X)|) è una soluzionemigliore.Esempio 47. Per X ∼ B(1, p) si ha E(X) = p e lo scarto assolutomedio risulta essere 2p(1 − p); per il risultato del lancio di un dado Ylo scarto assoluto medio è 1, 5.Si osservi però che il calcolo dello scarto assoluto medio per variabilicon distribuzione B(n, p) risulta laborioso e che comunque nonrisulta spiegato il termine √ p(1 − p). Pensandoci, non c’è una ragioneevidente per non considerare lo scarto quadratico medio di XSD(X) = √ E(X − E(X)) 2detta anche deviazione standard di X. O anche qualche altra potenza.Tuttavia risulta cheEsempio 48. Per X ∼ B(1, p) lo scarto quadratico medio risultaessere √ p(1 − p) e per il risultato del lancio di un dado lo scartoquadratico medio è circa 1, 70.Si vede da questi esempi che lo scarto quadratico medio non differiscesostanzialmente dallo scarto assoluto medio, ma soprattutto ‘spiega’il termine che appare nel teorema di De Moivre-Laplace. L’espressioneV ar(X) = E(X − E(X)) 2 è detta varianza di X. La varianzapuò essere anche calcolata come segue.Lemma 9. Per ogni variabile aleatoria X si haDimostrazione.V ar(X) = E(X 2 ) − (E(X)) 2 .V ar(X) = E(X − E(X)) 2= E(X 2 − 2XE(X) + (E(X)) 2 )= E(X 2 ) − (E(X)) 2 (4.16)□


4.4. DEVIAZIONI DALLA MEDIA 46Un importante risultato relativo alla varianza è che risulta additivaper somme di variabili aleatorie indipendenti.Teorema 10. Per ogni X 1 , . . . X n variabili aleatorie indipendentisu uno spazio di probabilità (S, P ) si han∑V ar( X i ) =i=1n∑V ar(X i )i=1en∑∑SD( X i ) = √ n V ar(X i ).i=1i=1Dimostrazione. Iniziamo da n = 2.V ar(X 1 + X 2 ) = E(X 1 + X 2 ) 2 − (E(X 1 + X 2 )) 2= E(X 1 ) 2 + E(X 2 ) 2 + 2E(X 1 X 2 )−(E(X 1 )) 2 − (E(X 2 )) 2 − 2E(X 1 )E(X 2 )= V ar(X 1 ) + V ar(X 2 ) + 2(E(X 1 X 2 ) − E(X 1 )E(X 2 ))= V ar(X 1 ) + V ar(X 2 )poiché per variabili indipendenti E(X 1 X 2 ) = E(X 1 )E(X 2 ) dal Teorema9.Il risultato per n generico si ottiene per induzione essendo ∑ n−1i=1 X iindipendente da X n .Il risultato per la deviazione standard segue dalla definizione.□Quindi per variabili i.i.d. X 1 , . . . , X n si ha che SD( ∑ ni=1 X i) =nSD(X 1 ). In particolare se X i ∼ B(1, p) allora SD( ∑ ni=1 X i) = √ np(1 − p).Quindi la deviazione standard è contemporaneamente facile da calcolareper somme di variabili indipendenti ed assegna un significato all’espressione√ np(1 − p) che appare nel teorema di De Moivre-Laplace.Questo ci permette di congetturare un’estensione di questo risultato atutte le variabili aleatorie finite. Rileggendo infatti il risultato per


4.4. DEVIAZIONI DALLA MEDIA 47T n ∼ B(n, p) ossia tale che T n = ∑ ni=1 X i, X i ∼ B(1, p), si ha∑j≥np+a √ np(1−p)P(j, n, p) =∑j≥np+a √ np(1−p)P (n∑X i = j)i=1( n∑= P X i ≥ np + a √ )np(1 − p)i=1( n∑= P X i ≥ nE(X 1 ) + a √ )nV ar(X 1 )i=1( ∑n)i=1= PX i − nE(X 1 )√ ≥ anV ar(X1 )(( ∑ ni=1= PX i) − E( ∑ )ni=1 X i)√ ∑ V ar( ni=1 X ≥ a .i)L’espressione (∑ ni=1 X i)−E( ∑ n√ i=1 X i)∑ V ar( ni=1 X i)può essere interpretata in un mododiretto: ∑ ni=1 X i è una variabile aleatoria che dà i possibili valori dellamedia empirica, a questa viene sottratto il suo valore atteso dividendopoi per la sua deviazione standard.Definizione 12. Data una variabile aleatoria X, si dice variabilestandardizzata o versione standardizzata di X l’espressione.X − E(X)SD(X)Il Teorema di De Moivre-Laplace ci dice quindi che la versione standardizzatadella somma di variabili aleatorie indipendenti (binomiali)ha probabilità descritte asintoticamente dalla gaussiana. La versionestandardizzata della somma è ben definita per ogni variabile aleatoriafinita, quindi è ragionevole congetturare cheTeorema 11 (Teorema Centrale del Limite). Per variabili aleatoriei.i.d. X 1 , . . . , X n su uno spazio di probabilità finito vale per ognia ∈ R( ∑nlim P i=1 X i − nE(X 1 )√n→∞ nV ar(X1 )≥ a)=∫ ∞a1√2πe −x2 /2 dxPer ora non dimostreremo questo teorema poiché ne vale in realtàuna versione ancora più generale.Ci si potrebbe porre il problema di stimare la deviazione della deviazionedal valor medio dalla sua media, per esempio con E(|X−E(X)−


4.5. DISEGUAGLIANZE E LEGGE DEBOLE DEI GRANDI NUMERI 48√E(X − E(X))2 |) oppure E(√(X − E(X) − √ E(X − E(X)) 2 ) 2 ). Tuttaviaquesto non viene generalmente sviluppato perché (1), come illustratodal Teorema centrale del limite, spesso è il secondo momento, equindi la deviazione standard, che descrive in dettaglio la distribuzionedella deviazione dalla media, (2) non introduce nessuna novità teoricaperché si tratta sempre di un valore atteso di una deviazione e (3) diventapiù chiaro porsi direttamente il problema della ricostruzione diuna variabile aleatoria dalla conoscenza dei suoi momenti, un problemache non trattiamo in queste note.4.5. Diseguaglianze e legge debole dei grandi numeriLa varianza dà un’idea della deviazione tipica dalla media, ma oravediamo qualche risultato che dia una stima di questa deviazione.Lemma 10 (Diseguaglianza di Markov). Per ogni variabile aleatoriaX ≥ 0 non negativa e per ogni a > 0 si haP (X ≥ a) ≤ E(X)a.Dimostrazione. Essendo X ≥ 0, per ogni a > 0 si ha:E(X) = ∑xP X (x)x∈S X∑≥ xP X (x) ≥ aP (X ≥ a)Da questo seguex∈S X ,x≥aCorollario 2 (Diseguaglianza di Chebyshev). Per ogni variabilealeatoria X finita e per ogni a > 0 si ha:P (|X − E(X)| ≥ a) ≤ V ar(X) ,a 2ossiaP (X − E(X)∣ SD(X) ∣ ≥ a) ≤ 1 a . 2Dimostrazione. Essendo (|X − E(X)|) 2 = (X − E(X)) 2 ≥ 0, dalLemma 10 segue che per ogni a > 0 si ha:P (|X − E(X)| ≥ a) = P ((X − E(X)) 2 ≥ a 2 ) ≤ V ar(X)a 2Queste diseguaglianze non sono troppo accurate, come si vede dall’esempioseguente, anzi talvolta sono banali in quanto il maggioranteè maggiore di 1.□□


4.5. DISEGUAGLIANZE E LEGGE DEBOLE DEI GRANDI NUMERI 49Esempio 49. Se X è il risultato del lancio di un dado allora13 = P (X ≥ 5) ≤ 1 3, 5 = 0, 75dal Lemma 10 e11= P (|X − 3, 5| ≥ 2, 5) ≤ V ar(X) ≈ 0.473 (2, 5)2dal Corollario 2.Si possono tuttavia dedurre due cose.Lemma 11. Se ∫ +∞√1−∞ 2πe −x2 /2 dx = 1 allora la costante nell’approssimazionedi Stirling soddisfa e c = √ 2π.Dimostrazione. Dalla <strong>parte</strong> dimostrata della legge di De Moivre-Laplace scritta in termini di variabili aleatorie sappiamo che per ognia 1 , a 2 ≥ 0Q n (a 1 , a 2 ) = P (∑ ni=1 X i − np√np(1 − p)∈ [a 1 , a 2 ]) → n→∞∫ a2a 11e c e−x2 /2 dxe per la simmetria della distribuzione di Bernoulli e della gaussiana,questo risultato vale anche quando a 1 , a 2 ≤ 0 e dall’additività per ognia 1 , a 2 ∈ R. A noi interessa qui per a 1 = −a = −a 2 < 0.1. Assumendo ∫ +∞√1−∞ 2πe −x2 /2 dx = 1 si ha che per ogni a > 0 vale1 ≥ Q n (−a, a) per ogni n; pertanto anche∫ +∞−∞1√ e −x2 /2 dx = 1 ≥ lim Q n (−a, a)2π n→∞=∫ a−a1e c e−x2 /2 dx (4.17)per ogni a > 0. Questo implica e c ≥ √ 2π.2. D’altra <strong>parte</strong>, dalla definizione di limite, per ogni ɛ > 0 esiste N > 0tale che per ogni n ≥ N vale la prima diseguaglianza in∫ +∞−∞1√2πe −x2 /2 dx = 1 = P (= P (n∑X i ∈ [0, n])i=1∑ ni=1 X i − np√ ∈ [−a, a])np(1 − p)∑ ni=1−P (|X i − np√ | ≥ a)np(1 − p)≤≤∫ a−a∫ ∞−∞∑1n /2 i=1e c e−x2 dx + ɛ + P (|X i − np√ | ≥ a)np(1 − p)1e c e−x2 /2 dx + ɛ + 1 a 2 ,


4.5. DISEGUAGLIANZE E LEGGE DEBOLE DEI GRANDI NUMERI 50in cui l’ultima diseguaglianza segue dalla diseguaglianza di Chebyshev.Quindi se a > ɛ −1/2 si ha∫ +∞−∞da cui e c ≤ √ 2π.1√2πe −x2 /2 dx ≤∫ ∞−∞1e c e−x2 /2 dx + 2ɛLa seconda conseguenza riguarda la probabilità di una deviazionedal valore atteso dell’ordine di n:Teorema 12 (Legge (debole) dei grandi numeri). Per variabilialeatorie finite i.i.d. X 1 , X 2 , . . . su si ha che per ogni α > 0∣ ∣∣∣∣ n∑lim P ( X i − E(X 1 )n→∞ ∣ > α) = 0i=1nel senso che fissata una distribuzione finita (S X , P X ) per ogni ɛ > 0esiste N tale che per ogni n ≥ N se si prendono n variabili aleatorie indipendentiognuna con distribuzione (S X , P X ) allora P ( ∣ ∑ 1 nn i=1 X i − E(X 1 ) ∣ >α) < ɛ.L’esistenza di variabili indipendenti con una distribuzione data verràverificata più avanti.Dimostrazione. Dalla diseguaglianza di Chebyshev si ha:∣ 1n∑∣∣∣∣ n∑P (X i − E(X 1 )∣n∣ > α) = P ( X i − nE(X 1 )∣ > nα)i=1≤i=11n∑n 2 α V ar( X 2 i )i=1= nV ar(X 1)n 2 α 2 → n→∞ 0Esempio 50. Se X i sono i risultati di lanci indipendenti di un dadoallora1n∑P (X∣i − E(X 1 )n∣ > 10−10 ) → n→∞ 0anzi1P (∣ni=1n∑X i − E(X 1 )∣ > 10−10 ) ≤i=12, 9 × 1020.nSi noti che quest’ultima stima ha senso solo per n ≥ 2, 9×10 20 ; tuttaviaha poco senso dare troppa importanza al valore quantitativo di questestime a causa della loro scarsa accuratezza.□□


4.6. APPROSSIMAZIONE DI POISSON 514.6. Approssimazione di PoissonVediamo ora un’approssimazione per la distribuzione binomiale quandola probabilità di successo p ed il numero di prove n sono tali che pnè dell’ordine di 1:Esempio 51. Sorteggiando con reinserimento dalla tombola 180volte la probabilità che l’1 esca esattamente 2 volte è :P(2, 180, 1 ( ) 180 190 ) = 2 90 (89 2 90 )178 .Teorema 13 (Approssimazione di Poisson). Se p = p n è tale chelim n→∞ np n = λ > 0 si halim P(k, n, p n) = λkn→∞ k! e−λ .Dimostrazione. poiché lim n→∞ (1 − p n ) n = e −λ si ha( nP(k, n, p n ) = (p n )k)k (1 − p n ) n−k=n(n − 1) . . . (n − k + 1)k!(p k n)(1 − p n ) n (1 − p n ) −k→ n→∞λ kk! e−λ □


CAPITOLO 5PROBABILITÀ SU INSIEMI DISCRETI5.1. Spazi di probabilità su insiemi discretiContemporaneamente allo sviluppo delle probabilità finite alcunistudiosi si resero conto che taluni problemi non si potevano formalizzarecon un numero finito di possibilità. I primi problemi di questo tipoappaiono in un libro di Huygens del 1657.Esempio 52. Se giocando a dadi A vince se esce prima il 6 di 1 e2, e viceversa per B, qual è la probabilità che A vinca? Chiaramente ènaturale considerare la probabilità che vinca A al lancio k, per k ∈ N.Ciò motiva l’introduzione di spazi di probabilità con S numerabile;ma questo introduce una nuova scelta: se {A i } i∈N è una famiglia numerabiledi eventi disgiunti, si dovrà richiedere la numerabile additivitàdella probabilità o solo quella finita? La questione non è risolta inmodo univoco: una condizione più stringente limita il campo di applicazionedella teoria ma ne semplifica gli sviluppi ed è quindi ragionevolerichiederla quando il campo di applicazione resti comunque sufficientementeampio. In generale, l’imposizione dell’additività numerabile nonpone restrizioni di rilievo alla applicazioni fisiche (trattandosi perlopiùdi esperimenti ripetibili a piacere) mentre ne pone in ambiti economici,trattandosi spesso in quel caso di situazioni solo occasionalmenteripetibili. Noi qui lo adotteremo sia per semplicità sia perché comunquela teoria qui esposta ha una sufficiente ampiezza di applicazioni anchein campo socio-economico-finanziario.Definizione 13. Uno spazio di probabilità discreto è una coppia(S, P ) in cui S è un insieme al più numerabile e P è una funzionedefinita sulle parti di S tale che:(1) P (S) = 1(2) per ogni A ⊆ S, P (A) ∈ [0, 1];(3) se A i , i = 1, 2, . . . , A i ⊆ S sono insiemi disgiunti allora∞∑P (∪ ∞ i=1A i ) = P (A i )in cui si intende che a destra c’è una serie a termini positivi convergente.La richiesta di additività numerabile rende in realtà il modello piùsemplice di quanto l’assiomatica appena descritta sembrasse prospettare.52i=1


5.1. SPAZI DI PROBABILITÀ SU INSIEMI DISCRETI 53Lemma 12. Tutti e soli gli spazi di probabilità discreti sono ottenutida un insieme al più numerabile S e da una funzione q : S → R + taleche ∑ s∈Sq(s) < ∞ ponendo per ogni A ⊆ S∑s∈Aq(s)P (A) = ∑s∈S q(s) .Dimostrazione. Ogni spazio di probabilità discreto (S, P ) si puòrappresentare come detto con q(s) = P (s). Viceversa, dato q comeq(s)nell’asserzione basta porre P (s) = ∑s∈S q(s);la verifica che P è unaprobabilità è lasciata per esercizio.□Osservazione 8. Per gli spazi di probabilità discreti vale l’additivitàfinita della probabilità e quindi valgono tutti i risultati dei capitoli2 e 3 nella forma in cui sono enunciati, ossia riferiti ad un numerofinito di eventi. E’ solo quando è coinvolta una famiglia numerabiledi eventi che dobbiamo dedurre i risultati dall’additività numerabile (edalle proprietà delle serie).Esempio 53. Nell’esempio 52 se A è l’evento che vince A; A i èl’evento che vince A alla i-sima prova; N j è l’evento che alla j-simaprova non escono nessuno di {1, 2, 6} e S j è l’evento che esce il 6 allaj-sima prova per l’indipendenza della prove si hae quindiP (A i ) = P (∩ i−1j=1 N j ∩ S i ) = ( 1 2 )i−1 1 6P (A) = P (∪ ∞ i=1A i )∞∑= P (A i )=i=1∞∑( 1 1 2 )i−1 6 = 1 3 .i=1La probabilità che il primo successo di prove indipendenti ognunacon probabilità di successo p avvenga alla n-sima prova si può calcolareconsiderando, come nell’esempio, l’evento A i che il primo successo siaalla i-sima prova e l’evento B j che indica successo alla j-sima prova;per l’indipendenza della prove si haP (A i ) = P (∩ i−1j=1 Bc j ∩ B i ) = (1 − p) i−1 p.Ora questo suggerisce di definire uno spazio di probabilità discrete(S, P ) con S = N e P data daP (i) = (1 − p) i−1 p.


Infatti correttamente si ha;∞∑P (i) =.5.2. VARIABILI ALEATORIE DISCRETE 54i=1∞∑(1 − p) i−1 p = 1i=1Definizione 14. Lo spazio di probabilità (S, P ) relativo al primosuccesso in prove indipendenti ognuna con probabilità di successo p èdetto distribuzione geometrica di parametro p.Si noti che anche l’approssimazione di Poisson generava una funzionedi k per k ∈ N; inoltre poiché∞∑ λ kk! e−λ = 1k=0si possono prendere questi valori come probabilità:Definizione 15. Per ogni λ ∈ R, uno spazio di probabilità (S, P )con S = N e P data daP (k) = λkk! e−λè detto distribuzione di Poisson di parametro λ.5.2. Variabili aleatorie discretePassiamo ora allo studio delle variabili aleatorie definite su unospazio di probabilità discreto. Non c’è nessuna difficoltà a porreDefinizione 16. Dato uno spazio di probabilità (S, P ), una variabilealeatoria discreta X è una funzione X : S → R.Anche per una variabile aleatoria discreta X è possibile definire ladistribuzione (S X , P X ) come in (4.12).Esercizio 13. Verificare che (S X , P X ) è uno spazio di probabilitàdiscreto.Si può poi ripetere la Definizione 6 di uguaglianza in distribuzione.Esempio 54. Se (S, P ), S = N è uno spazio di probabilità chedescrive la distribuzione del primo successo in prove indipendenti conprobabilità di successo p, la variabile aleatoria Y = tempo del primosuccesso è definita da X(k) = k ha distribuzione P (X = j) = (1 −p) j−1 p é detta variabile geometrica(p), mentre la variabile aleatoria Y =tempo di attesa del primo successo è definita da Y (k) = k − 1 hadistribuzione P (Y = j) = (1 − p) j p.Si noti che Y = d X − 1.Esempio 55. Se (S λ , P λ ) è uno spazio di probabilità di Poisson euna variabile aleatoria N ha distribuzione (S λ , P λ ) allora si dice che Nha distribuzione di Poisson(λ).


5.2. VARIABILI ALEATORIE DISCRETE 55C’è invece qualche problema nel definire il valore atteso:Esempio 56. In un gioco, se la prima uscita del 6 in un dado è allak-sima prova si vince (o si perde se negativo) l’importo x k . Giocherestese(a) x k = (−1) k k?(b) x k = (−1) k (6/5) k ?Si consideri uno spazio di probabilità geometrico(p) e la variabilealeatoria X(k) = (x k ). Per valutare il nostro vantaggio nel giocoverrebbe∑di calcolare E(X), ma una ragionevole espressione sarebbe∞k=1 x k(5/6) k che nel caso (a) dà 11/375 − 6/11 < 0, ma nel caso (b)dà 1/5 ∑ ∞k=1 (−1)k che è una serie indeterminata.Per non rischiare di incontrare situazioni come questa e per garantireche le principali proprietà del valore atteso siano conservate sipone:Definizione 17. Dato uno spazio di probabilità (S, P ), ed una variabilealeatoria discreta X si dice valore atteso, o speranza matematica,di X il valoreE(X) = ∑ s∈SX(s)P (s)seE(|X|) = ∑ s∈S|X(s)|P (s) < ∞;in altre parole si richiede la convergenza assoluta della serie chedefinisce il valore atteso.Esempio 57. Per il caso (b) dell’esempio precedente il valore attesonon esiste e si dovranno sviluppare altri metodi.Esempio 58. Se X ∼ geometrica(p) allora X ≥ 0 e quindi bastache sia finita E(X) stessa: derivando per serie, come lecito all’internodel raggio di convergenza di una serie di potenze, si ha:E(X) =∞∑kp(1 − p) k−1 (5.18)k=0= −∞∑k=1= − d dpp d (1 − p)kdp∞∑p(1 − p) kk=1= −p d 1dp p = 1 p .Intuitivamente, se la probabilità di successo è p = 1 m, allora il primosuccesso arriverà in media alla m-sima prova.


5.2. VARIABILI ALEATORIE DISCRETE 56Esempio 59. Se X ∼ Poisson(λ) allora X ≥ 0 eE(X) =∞∑k λkk! e−λ k=0(5.19)=∞∑λ kλk−1(k − 1)! e−λ = λ.k=1Avendo quindi assunto la convergenza assoluta della serie che definisceil valore atteso, valgono tutti i risultati relativi alle proprietà del valoreatteso. In particolare valgono i Lemmi 6 e 7. Il lettore è invitato a verificareche le dimostrazioni dei Lemmi suddetti possono essere adattateanche al caso presente.Come esempio mostriamo come si adatta la dimostrazione della<strong>parte</strong> (ii) del Lemma 7 nel caso a 1 = a 2 = 1, X 1 = X, X 2 = Y . Assumendoche E(X) ed E(Y ) esistano, prima si dimostra che E(X + Y )esiste e poi se ne calcola il valore. Per la diseguaglianza triangolare,poichè X ≤ Y implica E(X) ≤ E(Y ) e poiché si può cambiare a piacerel’ordine di sommazione di una serie a termini positivi convergente, siha:E(|X + Y |) ≤ E(|X| + |Y |)= ∑ s∈S(|X(s)| + |Y (s)|)P (s)= ∑ (|X(s)|P (s) + ∑ (|Y (s)|P (s)s∈Ss∈S= E(|X|) + E(|Y |) < ∞ (5.20)dall’ipotesi; la finitezza del risultato giustifica a posteriori la riorganizzazionedelle somme. OraE(X + Y ) = ∑ s∈S(X(s) + Y (s))P (s)= ∑ (X(s)P (s) + ∑ (Y (s)P (s)s∈Ss∈S= E(X) + E(Y ) < ∞ (5.21)in cui abbiamo riorganizzato nuovamente l’ordine di sommazione inquanto le serie coinvolte sono assolutamente convergenti.Esercizio 14. Verificare che le altre dimostrazioni citate si estendonoal caso delle variabili discrete.Aggiungiamo un’altra semplice conseguenza della diseguaglianzatriangolare:Esercizio 15. Mostrare che |E(X)| ≤ E(|X|).


5.2. VARIABILI ALEATORIE DISCRETE 57Considerando le difficoltà relative ai prodotti infiniti la definizionedi indipendenza di una famiglia di variabili aleatorie discrete può esseredata riferendosi a sottofamiglie finite:Definizione 18. Le variabili di una famiglia al più numerabiledi variabili aleatorie X 1 , . . . X n , . . . si dicono indipendenti se sono indipendentile variabili aleatorie in ogni sottofamiglia finita.Esercizio 16. Verificare che valgono il Lemma 8 ed il teorema 8nel caso delle variabili discrete.Anche per le variabili aleatorie discrete il valore atteso del prodottodi variabili indipendenti è uguale al prodotto dei valori attesi, questavolta però occorre introdurre una condizione sufficiente affinché il valoreatteso del prodotto esista. Per questo bisogna conviene premettere ladiscussione sul valore atteso di funzioni delle variabili aleatorie.Infatti, se φ è una funzione definita su S X allora φ(X) è una variabilealeatoria discreta, ma non è detto che anche se X ha valore atteso cisia il valore atteso di φ(X).Esercizio 17. Mostrare che esistono una variabile aleatoria X eduna funzione φ definita su S X tali che E(X) esiste ma E(φ(X)) nonesiste.Tuttavia, se il valore atteso di φ(X) esiste, allora si può calcolarecon il cambiamento di variabili:Esercizio 18. Verificare che se X è una variabile aleatoria discretae φ è una funzione definita su S X e se E(φ(X)) ammette valore atteso,allora vale il Teorema 7.Ora torniamo alla questione del valore atteso di variabili aleatorieindipendenti. Analogamente a prima, dalla sola esistenza del valoreatteso di X ed Y non si può dedurre l’esistenza del valore atteso diXY o viceversa.Esercizio 19. Mostrare che esistono variabili aleatorie X ed Ytali che E(X) ed E(Y ) esistono ma non esiste E(XY ). Viceversa,mostrare che esistono variabili aleatorie X ed Y tali che E(XY ) esistema E(X) non esiste.Occorre quindi condizioni per garantire l’esistenza di altri valoriattesi. Un primo risultato dice che i momenti successivi implicanol’esistenza dei momenti precedenti.Lemma 13. Se X è una variabile aleatoria discreta tale che E(X k )esiste, con questo intendendo che X ≥ 0 oppure k ∈ N, per qualche k,allora esiste E(X h ) per ogni h ≤ k, sempre intendendo X ≥ 0 oppureh intero.


5.3. VETTORI ALEATORI E VARIABILI ALEATORIE CONGIUNTE 58Dimostrazione.E(|X h |) = ∑ |X(s) h |P (s)s∈S∑=|X(s) h |P (s) +s∈S:|X(s) h |≤1≤ P (|X h | ≤ 1) +≤P (|X h | ≤ 1) + ∑ s∈S∑s∈S:|X(s) h |>1∑s∈S:|X(s) h |>1|X(s) k |P (s)|X(s) k |P (s) < ∞|X(s) h |P (s)Lemma 14. Se X ed Y sono variabili aleatorie discrete tali cheE(X 2 ) ed E(Y 2 ) esistono, allora esistono E(X), E(Y ) ed E(XY ).Dimostrazione. L’esistenza di E(X) ed E(Y ) segue dal lemmaprecedente. Da 0 ≤ (a − b) 2 = a 2 + b 2 − 2ab si ha che per qualsiasicoppia di numeri reali a e b vale che ab ≤ (a 2 + b 2 )/2, per cuiE(|XY |) = ∑ |X(s)||Y (s)|P (s)s∈S= 1 ∑(|X(s)| 2 + |Y (s)| 2 )P (s)2s∈S□≤1 2 (∑ s∈S|X(s)| 2 P (s) + ∑ s∈S|Y (s)| 2 P (s)) < ∞Ora abbiamo condizioni sufficienti per generalizzare i risultati suivalori attesi di variabili indipendenti.Esercizio 20. Verificare che se X i sono variabili aleatorie discretetali che E(X 2 i ) esiste per ogni i allora vale il Teorema 9.Con il secondo momento è quindi possibile definire la varianza e ladeviazione standard di X e vale anche in questo caso l’additività dellevarianze per variabili indipendenti.Esercizio 21. Verificare che se X è una variabile aleatoria discretatale che E(X 2 ) esiste allora la varianza e la deviazione standard di Xesistono e vale il Teorema 10.5.3. Vettori aleatori e variabili aleatorie congiunteIn molti problemi, come quando abbiamo parlato di indipendenza divariabili aleatorie o linearità del valore atteso, si considerano più variabilialeatorie contemporaneamente. In questo caso conviene pensarlecome un vettore aleatorio.□


5.3. VETTORI ALEATORI E VARIABILI ALEATORIE CONGIUNTE 59Definizione 19. Dato uno spazio di probabilità (discreta) (S, P ),un vettore aleatorio X= (X 1 , . . . , X n ) n-dimensionale è una funzioneX: S → R n tale che s → X(s) = ((X 1 (s), . . . , X n (s)).Si possono ripetere ora molte definizioni e proprietà delle variabilialeatorie, che si ottengono semplicemente sostituendo X ad X.Definizione 20. La distribuzione di un vettore aleatorio X=(X 1 , . . . , X n ), detta anche distribuzione congiunta delle X i , è lacoppia (S X , P X ) coneS X = {x ∈ R n | esiste s ∈ S : X(s) = x}P X (x) = P {s ∈ S : X(s) = x}Si noti che per l’usuale proprietà delle funzioni, per ogni B ⊆ S XP X (B) = ∑ x∈BP X (x).Esercizio 22. Se X è un vettore aleatorio discreto, verificare che(S X , P X ) è uno spazio di probabilità discreto.In un vettore aleatorio X= (X 1 , . . . , X n ) ciascuna delle componentiX i è una variabile aleatoria, con una sua distribuzione (S Xi , P Xi ),ed è interessante ed utile in vari problemi studiare la relazione traqueste e la distribuzione congiunta (S X , P X ). Le (S Xi , P Xi ) sono dettedistribuzioni marginali.Per semplificare la notazione assumeremo che S X = R n ponendoP X (x) = 0 se x non era originalmente ap<strong>parte</strong>nente al codominio diX.Lemma 15. Per ogni un vettore aleatorio X= (X 1 , . . . , X n ) vale∑P X1 (x 1 ) =P X (x 1 , . . . , x n ).(x 2 ,...,x n)∈R n−1Dimostrazione. Per ogni x 1 ∈ R, gli eventisono disgiunti, per cui∑A (x2 ,...,x n) = {s ∈ S : x(s) = (x 1 , . . . , x n )} ⊆ S(x 2 ,...,x n)∈R n−1 P X (x 1 , . . . , x n ) =∑(x 2 ,...,x n)∈R n−1 P (A (x2 ,...,x n))= P (∪ (x2 ,...,x n)∈R n−1A (x 2 ,...,x n))= P (s : X 1 (s) = x 1 ) = P X1 (x 1 )Naturalmente il Lemma precedente si applica ad ogni proiezione omarginale X i , per cui dalle congiunte si determinano le marginali.□


5.3. VETTORI ALEATORI E VARIABILI ALEATORIE CONGIUNTE 60Esercizio 23. Dimostrare tramite un esempio che l’opposto nonè vero e vi sono distribuzioni congiunte diverse che danno luogo allestesse marginali.L’indipendenza delle variabili aleatorie si può esprimere in terminidel rapporto tra le distribuzioni congiunta e marginali, nel sensoche le componenti di un vettore aleatorio X= (X 1 , . . . , X n ) sonoindipendenti se e solo sen∏P X (x) = P Xi (x i )i=1per tutti gli x= (x 1 , . . . , x n ) ∈ R n . Quindi nel caso indipendente lemarginali permettono la ricostruzione della distribuzione congiunta.Se di una o più variabili conosciamo il valore assunto abbiamo delledistribuzioni condizionali.Definizione 21. Dato un vettore aleatorio X= (X 1 , . . . , X n ), perk = 1, . . . , n, se (x 1 , . . . , x k ) è tale che P (X 1 = x 1 , . . . , X k = x k ) ≠ 0,si dice distribuzione condizionata o condizionale di X k+1 , . . . , X ndato che (X 1 , . . . , X k ) = (x 1 , . . . , x k ) lo spazio di probabilità costituitodaeS Xk+1 ,...,X n|(X 1 ,...,X k )=(x 1 ,...,x k )= {(x k+1 , . . . , x n ) : (x 1 , . . . , x k , x k+1 , . . . , x n ) ∈ S X }P Xk+1 ,...,X n|X 1 ,...,X k((x k+1 , . . . , x n )|(x 1 , . . . , x k ))=P X (x)P (X 1 = x 1 , . . . , X k = x k )Naturalmente si può prendere S Xk+1 ,...,X n|(X 1 ,...,X k )=(x 1 ,...,x k ) = R n−k .Esercizio 24. Verificare che la coppia definita nella definizioneprecedente è uno spazio di probabilità .Naturalmente la medesima definizione si poteva dare permutandogli indici. Dal teorema delle probabilità totali si vede cheP (X 1 = x 1 , . . . , X n = x n )∑=P Xk+1 ,...,X n|X 1 ,...,X k((x k+1 , . . . , x n )|(x 1 , . . . , x k ))(x 1 ,...,x k )∈S X1 ,dots,X k·P (X 1 = x 1 , . . . , X k = x k ).Per k = 1 questa osservazione indica come ricostruire la distribuzionecongiunta dalla conoscenza delle distribuzioni condizionate e della <strong>relativa</strong>marginale.


5.3. VETTORI ALEATORI E VARIABILI ALEATORIE CONGIUNTE 61Definizione 22. Il valore atteso calcolato rispetto alla probabilitàcondizionale di una variabile aleatoria date le altre si chiama valoreatteso condizionale e si denotaE(X n |(X 1 , . . . , X n−1 ) = (x 1 , . . . , x n−1 ).


CAPITOLO 6PROBABILITÀ NEL CONTINUO6.1. Variabili aleatorie continueIn molti problemi l’insieme dei valori che possono essere assunti dauna variabile aleatoria può avere la cardinalità del continuo. In questocaso la formalizzazione di spazi di probabilità adeguati non è elementaree qui ci limitiamo a trattare un caso particolare in cui l’insieme è R e laprobabilità è determinata da funzioni continue a tratti; questi spazi diprobabilità costituiscono la distribuzione di parecchie variabili aleatoriecontinue che permettono di studiare numerosi problemi. In un certosenso seguiamo la linea storica di studiare prima le variabili aleatoriecontinue definite dalla loro distribuzione e rimandare la chiarificazionedei fondamenti ad un’analisi successiva.Sarebbe possibile utilizzare funzioni anche con una infinità numerabiledi punti di discontinuità, ma per semplicità consideriamo il casoin cui questi sono al più un numero finito.Definizione 23. Uno spazio di probabilità sul continuo è unacoppia (R, f) con R insieme dei numeri reali ed f : R → R una funzionecontinua tranne al più un numero finito di punti di discontinuità taleche(i) f(x) ≥ 0 per ogni x ∈ R(ii) ∫ ∞−∞ f(x)dx = 1Si noti che l’integrale nella definizione è ben definito, come integraleimproprio. Infatti l’integrale esiste in ogni intervallo [a, b] in cui f ècontinua; inoltre, detto D(f) = {x 1 , . . . , x n }, x 1 < · · · < x n , l’insiemefinito dei punti di discontinuità di f e considerate successioni ¯x j (0) ↘ j−∞, x j (i) ↗ j x i , ¯x j (i) ↘ j x i e x j (n) ↗ j ∞ esistono gli integrali in[¯x j (i), x j (i+1)], i = 0, . . . , n−1. Per definizione di integrale improprio,(ii) dice che il limite seguente esiste, vale quanto indicato:∑n−1∫ xj (i+1)limj→∞i=0 ¯x j (i)f(x)dx = 1e non dipende dalle successioni scelte. Allo stesso modo sono definitigli integrali per ogni intervallo [a, b]. Conviene in realtà considerare gliintervalli semiaperti della forma ]a, b], a < b, a, b ∈ R = R ∪ {−∞, ∞}perchè si puo’ esprimere un ulteriore intervallo come unione di duedisgiunti.62


6.1. VARIABILI ALEATORIE CONTINUE 63Definizione 24. In uno spazio di probabilità continuo (R, f) sidefiniscono eventi le unioni finite di intervallini semiaperti, aperti ochiusi, e si indica con C la famiglia di tali insiemi. Per ogni A =∪ n i=1]a i , b i ] si ponen∑∫ biP f (A) = f(x)dx.i=1Proposizione 1. (i) Per ogni a ∈ R, P ({a}) = 0(ii) P ([a, b]) = P (]a, b[) = P (]a, b]).Dimostrazione. (i) si ottiene dalla monotonia della probabilitàche implica che per ogni nP ({a}) ≤ P (]a − 1/n, a]) = 1/n. La <strong>parte</strong> (ii) si dimostra dalla (i) poiché le differenze tra gli eventicoinvolti sono costituite da uno o due punti al più .□In accordo con questa Proposizione sarà necessario utilizzare nelledimostrazioni sui valori della probabilità solo intervallini semiapertiSi noti che (i) ed (ii) della definizione di spazio di probabilità continuosono l’analogo di (1) e (2) nella definizione 13. L’additività numerabileinvece è qui una conseguenza delle proprietà di additivitàdell’integrazione rispetto al dominio. Verificheremo per semplicità solol’additività finita.Lemma 16. In uno spazio di probabilità (R, f) se A, B ∈ C sonotali che ∪ I∈A I = ∪ J∈B J allora P f (A) = P f (B).Dimostrazione. Si noti che l’intersezione di due intervallini semiapertinon disgiunti è un intervallino semiaperto. Se A = {I 1 , . . . , I n }e B = {J 1 , . . . , J k } allora {L i,j = I i ∩ J j , i = 1, . . . , n, j = 1, . . . , k} ∈ Ce per l’additività dell’integrale rispetto al dominion∑∫n∑ k∑∫k∑∫P f (A) = f(x)dx =f(x)dx = f(x)dx = P f (B)I i L i,j J ji=1i=1j=1in cui la seconda e la terza uguaglianza dipendono dal fatto che seun intervallo ]a, b] è unione finita di intervallini ]a i , b i ] disgiunti alloraquesti si possono ordinare in modo che b i = a i+1 en∑∫ bi∫ ba if(x)dx = f(x)dx.i=1Uno spazio di probabilità (R, f) può essere utilizzato per definirela distribuzione di una variabile aleatoria continua.a iaj=1□


6.1. VARIABILI ALEATORIE CONTINUE 64Definizione 25. Si dice che una variabile aleatoria continua X hadistribuzione (R, f) se per ogni A ∈ C vale∫P (X ∈ A) = f(x)dx.In tal caso f è detta la densità di X.Si noti che l’espressione di sinistra è soltanto formale in quanto nonè stato definito lo spazio di probabilità su cui è definito X e su cuiagisce P . Diremo anche che P (X ∈ [a, b]) = P (X ∈]a, b]).Esempio 60. Una variabile aleatoria con densità f(x) = I [0,1] èdetta uniforme in [0, 1]. In generale, la variabile aleatoria con densitàf(x) = 1b−a I [a,b] è detta uniforme in [a, b] e si indica X ∼ U([a, b]).Esempio 61. Una variabile aleatoria con densità f(x) = √ 12πe −x2 /2è detta Gaussiana o normale standard. In generale, la variabilealeatoria con densità f(x) = √ 12πσe −(x−µ)22σ 2 è detta gaussiana o normaledi parametri m e σ 2 (vedremo nel prossimo capitolo il significato)e si usa la notazione X ∼ N(µ, σ 2 ) (e talvolta X ∼ N(µ, σ), quindibisogna sempre chiarire bene se il secondo termine in parentesi è lavarianza o la deviazione standard). Si noti che non esiste una formaelementare per la primitiva della Gaussiana e che solo l’integrale sututto R si può calcolare mediante il cambio di variabili in coordinatepolari: detto I = ∫ +∞ /2−∞ e−x2 dx si haI 2 =∫ +∞−∞e −x2 /2 dx∫ +∞−∞Ae −y2 /2 dx =∫ 2π ∫ +∞00re −r2 /2 drdθ = 2π.Definiamo ora il valore atteso di una variabile aleatoria continua.Definizione 26. Data una variabile aleatoria continua X con densitàf si dice valore atteso di f:se esisteE(X) =E(|X|) =∫ ∞−∞∫ ∞−∞xf(x)dx|x|f(x)dx < ∞;per ogni funzione reale di variabile reale g si hase esisteE(g(X)) =E(|g(X)|) =∫ ∞−∞∫ ∞−∞g(x)f(x)dx|g(x)|f(x)dx < ∞.Con questa definizione valgono tutte le proprietà viste per il valoreatteso, la varianza e la deviazione standard di variabili aleatorie.


6.2. FUNZIONE DI DISTRIBUZIONE 65Esempio 62. Calcolare valore atteso e SD della distribuzione uniformesu [a, b].Esempio 63. Se X ∼ N(µ, σ 2 ) allora E(X) = µ e SD(X) = σ.Infatti, se X ∼ N(µ, σ 2 ) alloraE(X) =∫ +∞−∞1√2πxe −x2 /2 dx = 0essendo la funzione dispari; inoltre integrando per parti questo integralenoto si ha:∫ +∞11 = √ e −x2 /2 dx = 1∫ +∞√ ([xe −x2 /2 ] +∞−∞ + x 2 e −x2 /2 dx)2π 2π=−∞∫1 +∞√ x 2 e −x2 /2 dx)2π−∞da cui, essendo E(X) = 0,V ar(X) = E(X 2 ) =∫ +∞−∞−∞1√2πx 2 e −x2 /2 dx = 1.Per il caso generale basta effettuare il cambio di variabili z = (x−µ)/σ.6.2. Funzione di distribuzioneUna descrizione delle variabili aleatorie che inizia ad unificare iltrattamento delle variabili discrete e continue è la funzione cumulativao funzione di distribuzione.Definizione 27. Si dice funzione funzione cumulativa o funzionedi distribuzione F X di una variabile aleatoria X la funzioneF X : R → R tale cheF X (t) = P (X ≤ t).Tale definizione è valida sia per le variabili aleatorie discrete checontinue.Esempio 64. La funzione di distribuzione di una variabile aleatoriaY ∼ U({1, . . . , 6}) vale⌊t⌋ ∧ 6F Y (t) = I t≥0 .6Esempio 65. Se Z ∼ U([a, b]) alloraF Z (t) = I t≥at ∧ b − ab − a .Esempio 66. In generale i valori∫della funzione di distribuzionedella normale standard Φ(t) = √ 1 t /22π −∞ e−x2 dx non si calcolano attraversoun integrale esplicito e sono approssimati numericamente: sipossono trovare in tutti i programmi statistici per computer o tabulatinei testi di probabilità e statistica.


6.2. FUNZIONE DI DISTRIBUZIONE 66Descriviamo ora alcune proprietà delle funzioni di distribuzione,una delle quali differenzia le variabili discrete da quelle continue.Teorema 14. Se X è una variabile aleatoria (discreta o continua)allora(1) F X è non decrescente in t.(2) lim t→−∞ F X (t) = 0(3) lim t→∞ F X (t) = 1(4) F X è continua da destra.Inoltre, se X è una variabile aleatoria discreta allora(5a) se (a, b] non contiene punti di discontinuità di F X allora F X ècostante in (a, b].Se invece X è una variabile aleatoria continua con densità f X allora(5b) F X è continua e F X ′ (t) esiste per tutti i punti t tranne al più unnumero finito ed è continua.In tutti i punti t di continuità di f X vale F X ′ (t) = f X(t)Dimostrazione.(1) Chiaramente {s : X(s) ≤ t} ⊆ {s : X(s) ≤ u} per tutti i t ≤ uda cui la diseguaglianza sulle probabilità .(2) Per le variabili discretelim F X(t) = lim P (X ≤ t)t→−∞ t→−∞∑= lim P X (x) = 0t→−∞x∈S X :x≤tin quanto la sommatoria nell’ultima espressione è il resto di una serieconvergente; mentre per le variabili continuelim F X(t) = limt→−∞ t→−∞per definizione di integrale improprio.(3) Si ha∫ t−∞f X (x)dx = 0lim F X(t) = 1 − lim P (X > t) = 1t→∞ t→−∞per gli stessi motivi del punto precedente.(4) Vale lim u↘t F X (u) − F X (t) = lim u↘t P (t < X ≤ u) = 0; pervariabili discrete in quanto anche in questo caso, dopo aver riordinatola serie, si tratta del resto di una serie convergente. Per le variabilicontinue, se f è continua in t alloraP (t < X ≤ u) =∫ utf X (x)dx = max{f(x) : x ∈ [t, u]}(t − u) → 0;altrimenti il risultato vale per definizione di integrale improprio in t.


6.2. FUNZIONE DI DISTRIBUZIONE 67(5) Poiché F X è non decrescente esiste lim u↗t F X (u) ≤ F X (t) eF X (t) − limu↗tF X (u) = limu↗tP (u < X ≤ t)= P (X = t) − limu↗tP (u < X < t) = P (X = t)per gli stessi motivi di (4).(5a) Quindi se X è discreta F X è discontinua in t se e solo se t ∈ S Xe se (a, b] non contiene punti di discontinuità di F X allora0 = P (X ∈ (a, b]) = F X (b) − F X (a).(5b) Se invece X è continua allora per il teorema fondamentale delcalcolo integrale F X (t) = ∫ tf −∞ X(x)dx è derivabile nei punti in cui f Xè continua e vale F X ′ (t) = f X(t).□Vediamo ora che queste proprietà caratterizzano le funzioni chepossono essere funzioni di distribuzione per qualche variabile aleatoria.Lemma 17. Se una funzione soddisfa (1)-(4) e (5a) allora è lafunzione di distribuzione di una variabile aleatoria discreta; se invecesoddisfa (1)-(4) e (5b) è la funzione di distribuzione di una variabilecontinua.Dimostrazione. Da (1) F è non decrescente quindi in ogni puntoesiste il limite sinistro F (t − ) e destro F (t + ) e da (2) e (3) è limitata. Perquesto l’insieme S dei punti di discontinuità di F è al più numerabile:infatti un punto di discontinuità è caratterizzato dal fatto che F (t − ) ≠F (t + ) e di punti tali che F (t + ) − F (t − ) ≥ 1/n ce ne sono al più n;l’unione su n di tali insiemi dà tutti i punti di discontinuità . Inoltresegue da (4) che F (t) = F (t + ).Se vale (5a) possiamo porre P (x) = F (t) − F (t − ) > 0 per ognix ∈ S. Se indichiamo con . . . , x −n , . . . , x 0 , . . . , x n , . . . i punti di Sordinati, allora dalla (5a) F (x n−1 ) = F (x + n−1) = F (x − n ) per cui da (2)e (3) segue che:∑F (x n ) − F (x − n )Risulta poix∈SP (x) = ∑ N∈Z∑x∈S,x≤t= ∑ N∈ZF (x n ) − F (x n−1 )= limn→∞(F (x n ) − F (x −n )) = 1. (6.22)P (x) = limn→∞(F (x) − F (x −n )) = F (x). (6.23)Se invece vale (5b) si può porre f(t) = F ′ (t) per tutti i t in cui F èderivabile ed un valore qualunque altrove. Dalla (1) f ≥ 0 e dalle (2)


e (3)Infine,6.3. VARIABILI ESPONENZIALI E GAMMA 68∫ x∫ ∞−∞−∞f(t)dt = limt→∞(F (t) − F (−t)) = 1.f(t)dt = F (x) − limt→∞−F (−t) = F (x)per cui F è la funzione di distribuzione di una variabile aleatoria didensità f.□Definizione 28. Si dice che due variabili aleatorie continue X edY sono uguali in distribuzione, e si indica X = d Y , se F X (t) = F Y (t)per ogni t.6.3. Variabili esponenziali e GammaOltre alle variabili uniformi e gaussiane, vi sono altre distribuzioniche sono risultate rilevanti in vari contesti applicativi.Distribuzione esponenziale. Un esempio importante di variabilealeatoria continua ha densitàf(t) = λe −λt I t≥0detta distribuzione esponenziale exp(λ). Si noti che se X ∼ exp(λ)alloraV ar(X) =e SD(X) = 1/λ. InoltreeE(X) =∫ ∞−∞∫ ∞−∞tλe −λt dt = 1/λ,t 2 λe −λt dt − E(X) 2 = 1/(λ) 2 ,F X (t) = 1 − e −λtP (X > t + T |X > t) = e −λTuna proprietà che si esprime come perdita di memoria. Per questacaratteristica la distribuzione esponenziale è usata come modello per iltempo di vita di componenti elettronici.In particolare questo modello potrebbe essere usato per analizzare itempi di funzionamento dei componenti elettronici di cui all’esempio 2.Per completare l’analisi di questo esempio si devono però considerare lesomme di tempi di vita indipendenti, ossia somme di variabili aleatoriecontinue indipendenti e questo verrà sviluppato nei prossimi capitoli.Vedremo in seguito che gli intertempi tra arrivi modellizzati da unadistribuzione di Poisson sono esponenziali.


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 69Distribuzione Gamma Una variabile aleatoria X con densitàf X (x) = λ(λx)k−1 e −λxΓ(k)per x ≥ 0, λ > 0 e k ≥ 1, è detta avere distribuzione Gamma e siindica X ∼ Γ(k, λ). Si è presoΓ(k) =∫ ∞0x k−1 e −x dxper cui la densità Gamma è ben definita. Si noti che nel caso k = 1 siottiene la distribuzione esponenziale e in generale si vedrà che nel casok intero ha distribuzione Γ(k, λ) la sommaT k = X 1 + . . . X kdi k variabili aleatorie esponenziali indipendenti di parametro λ, mentreΓ(k) = (k−1)!. Tale somma si può interpretare come il tempo di attesadi k eventi indipendenti in serie.6.4. Distribuzione congiunta di due variabili aleatorieFinora abbiamo considerato variabili aleatorie continue isolatamente,ora iniziamo a trattare il caso di due variabili considerate congiuntamente.Il caso di n variabili non conterrà differenze sostanziali trannela più complessa formalizzazione e la necessità di trattazione algebrica.Per semplicità limiteremo i possibili insiemi di discontinuità nellaprossima definizione a rette.Le variabili aleatorie discrete congiunte sono state già presentatenella sezione su vettori aleatori discreti, ma la presentazione che seguenon presupporrà la conoscenza di quanto trattato in quella sezione epresenterà insieme le coppie di variabili discrete e continue.Definizione 29. La densità congiunta di due variabili aleatorieX ed Y discrete su spazi di probabilità S X ed S Y è una funzione p X,Ydefinita su S X × S Y a valori in R tale che(i) p X,Y (x, y) ∈ [0, 1]e(ii) ∑ S X ×S Yp X,Y (x, y) = 1mentre per le variabili continue è una funzione f X,Y : R 2 → R,continua tranne al più un insieme costituito da un numero finito dirette, tale che(i) f X,Y (x, y) ≥ 0 per ogni (x, y) ∈ R 2e(ii) ∫ fR 2 X,Y (x, y)dxdy = 1.Per f = f X,Y (R 2 , f) è detto spazio di probabilità continua in R 2 eanche distribuzione congiunta di X ed Y ;


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 70per ogni evento A ammissibile si haP ((X, Y ) ∈ A) = ∑ Ap X,Y (x, y)per il caso discreto e∫P ((X, Y ) ∈ A) =Af X,Y (x, y)dxdyper il caso continuo. La funzione F X,Y (x, y) = P (X ≤ x, Y ≤ y) =P ((X, Y ) ∈ (−∞, x] × (−∞, y]) è detta funzione di distribuzionecongiunta.Si noti che gli integrali utilizzati in questa definizione sono integralidi Riemann (eventualmente impropri) in dimensione 2 e sono bendefiniti essendo le funzioni coinvolte continue su insiemi normali. Inoltre,nei punti in cui la funzione di distribuzione F X,Y è differenziabile,dal teorema fondamentale del calcolo integrale si haf X,Y (x, y) = ∂2 F X,Y (x, y).∂x∂yDefinizione 30. Data la distribuzione congiunta di due variabilialeatorie X ed Y , la distribuzione di X si ottiene considerando ladistribuzione marginale la cui densità f X soddisfap X (x) = P (X = x) = ∑ S Yp X,Y (x, y),infatti essendo gli eventi {Y = y} al variare di Y ∈ S Ysi hauna partizioneP (X = x) = P ((X = x) ∩ ∪ y∈SY (Y = y)) = ∑ y∈YP ((X = x) ∩ (Y = y).Per il caso continuo si pone quindi:∫f X (x) = f(X, Y )dy.RDa questo punto di vista p X = P X , f X e le analoghe p Y = P Y ed f Ysono dette densità marginalidi X ed Y rispettivamente.Per cui dalle congiunte si determinano le distribuzioni marginali.Esempio 67. Sia f = c · I T in cui T è il triangolo{x = (x 1 , x 2 ) ∈ R 2 : 0 ≤ x 1 ≤ 1, 0 ≤ x 2 ≤ 1 − x 1 }.


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 71Dalla (ii) della definizione di spazio continuo si ha∫1 = f(x, y)dxdyR∫2 ∫= c ( I T (x, y)dy)dx= c= cR∫ 10∫ 10(R∫ 1−x0dy)dx(1 − x)dx = c/2 (6.24)da cui c = 2, poichè essendo i domini di integrazione normali e l’integrandacontinua l’integrale si può calcolare tramite integrali ripetuti.La marginale di X si ottiene da∫f X (x) = f(x, y)dy = 2(1 − x 1 ).RData una funzione Φ : R 2 → R ed una coppia di variabili aleatorieX ed Y di cui sia nota la densità congiunta, la composizione Φ(X, Y )è una variabile aleatoria. Si vede, per il caso continuo dalle formule delcambiamento di variabili, che vale la seguente naturale espressione peril valore atteso:E(Φ(X, Y )) =∑Φ(x, y)p X,Y (x, y) (6.25)S X ×S Ye∫E(Φ(X, Y )) = Φ(x, y)f X,Y (x, y)dxdy. (6.26)R 2Anche qui vale l’additività del valore attesoLemma 18. Data una coppia di variabili aleatorie X ed Y si haE(X + Y ) = E(X) + E(Y ).Dimostrazione.∫E(X + Y ) = (x + y)f X,Y (x, y)dxdyR∫2 ∫∫ ∫= ( xf X,Y (x, y)dy)dx + ( yf X,Y (x, y)dx)dyR RR R∫∫= xf X (x)dx + xf Y (y)dy = E(X) + E(Y )RL’indipendenza delle variabili aleatorie continue si può esprimere intermini del rapporto tra densità congiunta e marginali, nel senso chedue variabili aleatorie X ed Y sono indipendenti se e solo sep X,Y (x, y) = P (X = x, Y = y) = P (X = x)P (Y = y) = p X (x)p Y (x)R□


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 72per il caso discreto ef X,Y (x, y) = f X (x)f Y (y)per tutti (x, y) ∈ R 2 , per il caso continuo. Quindi le marginali permettonola ricostruzione della distribuzione congiunta quando le variabilisiano indipendenti.Lemma 19. Se X ed Y sono variabili aleatorie indipendenti alloraE(XY ) = E(X)E(Y ).Dimostrazione.∫E(XY ) = xyf X,Y (x, y)dxdyR∫2= xf X (x)yf Y (y)dxdyR∫2 ∫= xf X (x)dx yf Y (y)dy = E(X)E(Y )RSi possono poi definire le distribuzioni condizionali.Definizione 31. Date variabili aleatorie X ed Y con densità congiuntasi definisce densità condizionata o condizionale di X dato Yla funzionep X|Y (x|y) = p X,Y (x, y)p Y (y)nel caso discreto ef X|Y (x|y) = f X,Y (x, y)f Y (y)nel caso continuo per tutti i valori x ∈ R e y ∈ R tali che p Y (y) ≠ 0of Y (y) ≠ 0.oPer un generico evento ammissibile AP (X ∈ A|Y = y) = ∑ p X|Y (x|y)A∫P (X ∈ A|Y = y) = f X|Y (x|y)dx.Definizione 32. Il valore atteso calcolato rispetto alla probabilitàcondizionale di una variabile aleatoria date le altre si chiama valoreatteso condizionale o condizionato e si denotaRE(X|Y = y) = ∑ S YAxp X|Y (x|y).□o∫E(X|Y = y) = xf X|Y (x|y)dy.R


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 73Vale poi la seguente versione del teorema delle probabilità totali:p X (x) = ∑ p X|Y (x|y)p Y (y)S Yee quindi∫P (X ∈ A) =R∫A∫f X (x) =Rf X|Y (x|y)f Y (y)dy∫f X|Y (x|y)f Y (y)dydx =RP (X ∈ A|Y = y)f Y (y)dy.Esempio 68. Verifichiamo che se X ed Y sono Exp(λ) e indipendentiallora X + Y ∼ Γ(2, λ). Infatti,f X+Y (t) =∫ +∞−∞λe −λx I x>0 λe −λ(t−x) I t−x>0 dx= λ 2 e −λt ∫ t0dx = tλ 2 e −λt .In generale, se X ∼ Γ(k, λ) ed Y ∼ Γ(h, λ) sono indipendenti alloraX + Y ∼ Γ(k + h, λ), integrando per parti si haf X+Y (t) =∫ +∞−∞λ k x k−1 λ h (t − x) h−1(k − 1)! e−λx I x>0 e −λ(t−x) I t−x>0 dx(h − 1)!∫ t= λ k+h e −λt x k−1 (t − x) h−10 (k − 1)!(h − 1)! dx= λ k+h e −λt ([ xk (t − x) h−1 ∫ t] t 0 +k!(h − 1)!x k−1+h−1∫ t= λ k+h e −λt 0 (k − 1 + h − 1)! dx= tk+h−1 λ k+h(k + h − 1)! e−λt .0x k (t − x) h−2(k)!(h − 2)! dx)Esempio 69. Verifichiamo che se X, Y ∼ N(0, 1) indipendenti alloraX + Y ∼ N(0, 2), indicando le varianze (oppure X + Y ∼ N(0, √ 2)indicando le deviazioni standard). Infatti, separando l’esponente inun √ quadrato √ con resto e cambiando poi la variabile d’integrazione in2x − t/ 2, si ha:f X+Y (t) =∫ +∞= 12π−∞∫ +∞1 /22π e−x2 e −(t−x)2 /2 dx−∞e −(√ 2x−t/ √ 2) 2 /2−t 2 /4 dx = 1 √2πe −t2 /2 .In generale, se X ∼ N(µ X , σX 2 ) e Y ∼ N(µ Y , σY 2 ) indipendenti, alloraX + Y ∼ N(µ X + µ Y , σ Y + σY 2 ) come si vede ora. Nel prossimo


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 74calcolo completeremo il quadrato all’esponente ottenendo delle costanti(ossia funzioni di σ X ecc. ma non della variabile di integrazione xe della variabile della funzione t), ma il loro valore sarà irrilevante,quindi non lo calcoliamo. Potremo calcolare quanto sarà il valore ditali∫costanti direttamente nell’ultima formula in quanto sappiamo che+∞f −∞ X+Y (t)dt = 1. Per calcolare l’integrale nella terza riga si effettuail cambiamento di variabili z = ax + bt ed il risultante integrale sicalcola essendo l’integranda una gaussiana.f X+Y (t) =∫ +∞= 12π= 12π−∞∫ +∞1√2πσX1√2πσYe −(x−µ X) 2 /(2σ X ) e −(t−x−µ Y ) 2 /(2σ Y ) dx−∞∫ +∞−∞= e −γ′ t 2 12πe −(αx2 +βxt+γt 2 )/2−γ ′ t 2 dxe −(ax+bt)2 /2−γ ′ t 2 dx∫ +∞−∞ce −z2 /2 dz = de −γ′ t 2 .Abbiamo quindi concluso che la densità di X + Y è gaussiana. Ora,poiché sappiamo che E(X +Y ) = E(X)+E(Y ) = µ X +µ Y e V ar(X +Y ) = V ar(X) + V ar(Y ) = σX 2 + σ2 Y , quest’ultima uguaglianza discendendodall’indipendenza, necessariamente X+Y ∼ N(µ X +µ Y , σ Y +σY 2 )e la forma delle costanti d e γ ′ è determinata.Relazioni con la distribuzione di Poisson. Date variabili aleatoriei.i.d. X i ∼ Exp(λ) ed un valore T > 0 consideriamo la probabilitàchek∑ ∑k+1{N T = k} = { X i < T < X i }i=1che si può interpretare dicendo che il k + 1-simo tempo di vita è quelloche permette al totale di superare T , ossia che il numero N T di interruzioniprima di T è esattamente k. Dalla formula delle probabilitàtotali per le densità condizionate continue si haP (N T = k) =∫ T0i=1λ(λx) k−1e −λx e −λ(T −x) dx =Γ(k)ossia N T ha distribuzione di Poisson(λT ).(λT )ke −λ(T )k!Vogliamo introdurre ora una misura della dipendenza di variabilialeatorie che vale sia per le variabili discrete che per quelle continue,limitandoci al caso appena trattato di due variabili. Abbiamo visto chenel caso di variabili aleatorie indipendenti il valore atteso del prodottosi fattorizza, per cui viene naturale di studiare la quantità seguente:Definizione 33. Dato un vettore aleatorio (X, Y ), ossia due variabilialeatorie e la loro distribuzione congiunta, tali che E(X 2 ), E(Y 2 )


6.4. DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI ALEATORIE 75∞, si dice covarianza di X ed Y il valoreCov(X, Y ) = E(XY ) − E(X)E(Y ).Si noti che per il Lemma 14 la definizione è ben posta e che valeCov(X, X) = V ar(X).Lemma 20.Cov(X, Y ) = E((X − E(X)(Y − E(Y )).Dimostrazione. Se Cov(X, Y ) esiste allora E(X 2 ), E(Y 2 ) < ∞ed anche E(|XY |), E(|X|), E(|Y |) < ∞, il che implica cheE(|X − E(X)||Y − E(Y )|) ≤ E(|XY | + |X||E(Y )| + |Y ||E(X)|per cui E((X − E(X))(Y − E(Y )) esiste. Ora≤+|E(X)||E(Y )|)E(|XY |) + 3E(|X|)E(|Y |) < ∞E((X − E(X))(Y − E(Y )) ≤ E(XY ) − XE(Y ) − Y E(X)≤+E(X)E(Y )E(XY ) + E(X)E(Y ) < ∞Dimensionalmente Cov(X, Y ) è il prodotto delle dimensioni di Xed Y . Per ottenere un numero puro dividiamo per il prodotto delledeviazioni standard, o equivalentemente, consideriamo la correlazionetra le variabili standardizzate.Definizione 34. Date variabili aleatorie X ed Y con distribuzionecongiunta tali che E(X 2 ), E(Y 2 ) < ∞, si dice correlazione di X edY il valorer = r(X, Y ) = Cov(X, Y )SD(X)SD(Y ) .Data una variabile aleatoria X con secondo momento finito, la variabilestandardizzata è definita da ¯X = X−E(X) e valgono E( ¯X) = 0SD(X)e V ar( ¯X) = E( ¯X) = 1 = SD( ¯X)Lemma 21. r = E( ¯XȲ ) = Cov( ¯XȲ )Dimostrazione. Dalle proprietà di ¯X e Ȳ si haCov( ¯XȲ ) = E( ¯XȲ )= E(( X − E(X) )( Y − E(Y )SD(X) SD(Y ) ))Cov(X, Y )=SD(X)SD(Y )Oltre ad essere un numero puro la correlazione è limitata:□□


6.5. VETTORI ALEATORI CONTINUI 76Teorema 15. Per ogni coppia di variabili aleatorie X ed Y consecondo momento finito si ha−1 ≤ r(X, Y ) ≤ 1;inoltre r = 1 se e solo se Y = cX + d con c > 0 ed r = −1 se e solo seY = −cX + d con c > 0.Dimostrazione. La dimostrazione che segue può essere letta indue modi, prima considerando solo i simboli in alto poi quelli in bassonelle coppie ± e ∓. Si ha che0 ≤ E( ¯X ± Ȳ )2 = E( ¯X 2 ) + E(Ȳ 2 ) ± 2E( ¯XȲ ) (6.27)= 2 ± 2r(X, Y ).Questo implica che−1 ≤ r(X, Y ) ≤ 1;inoltre, se r(X, Y ) = ∓1 vale il segno di uguaglianza in (6.27) per cuiE( ¯X ± Ȳ )2 = 0. Poiché ( ¯X ± Ȳ )2 ≥ 0 ne discende che ¯X = ∓Ȳ e diconseguenzaY = ∓ SD(Y )SD(X) X − SD(Y ) E(X) + E(Y ) = ∓cX + dSD(X)con c = SD(Y )SD(X) ≥ 0.6.5. Vettori aleatori continuiAnche per il caso continuo introduciamo i vettori aleatori, naturalmenteattraverso le loro densità congiunta. Per semplicità ammettiamoinsiemi di possibili discontinuità lineari.Definizione 35. Uno spazio di probabilità continua in R n è unacoppia (R n , f) in cui f : R n → R è una funzione continua tranne alpiù un insieme costituito da un numero finito di iperpiani tale che(i) f(x) ≥ 0 per ogni x∈ R n .(ii) ∫ f(x)dx = 1R nSi dice che un vettore aleatorio continuo X= (X 1 , . . . , X n ) n-dimensionale∏ha distribuzione (R n , f X ) se per ogni plurirettangolo A =ni=1 (a i, b i ] si ha∫P (X ∈ A) = f X (x)dx.La distribuzione di un vettore aleatorio X= (X 1 , . . . , X n ) è detta anchedistribuzione congiunta delle X i e la funzione f X (x) è dettadensità congiunta.Si noti che gli integrali utilizzati in questa definizione sono integralidi Riemann (eventualmente impropri) in dimensione n e sono bendefiniti essendo le funzioni coinvolte continue su insiemi normali. Sipossono ripetere ora molte definizioni e proprietà dei vettori aleatoridiscreti.A□


6.5. VETTORI ALEATORI CONTINUI 77Definizione 36. In un vettore aleatorio continuo X= (X 1 , . . . , X n ),ciascuna delle sue componenti X i è una variabile aleatoria continua,con una sua distribuzione (R, f Xi ) ottenuta come distribuzionemarginale da∫f X1 (x 1 ) = f(x)dx 2 · . . . · dx n−1 .R n−1Naturalmente la definizione precedente si applica ad ogni proiezioneo marginale X i , per cui anche nel caso continuo dalle congiunte sideterminano le distribuzioni marginali.Esempio 70. Sia f = c · I T in cui T è il triangolo{x = (x 1 , x 2 ) ∈ R 2 : 0 ≤ x 1 ≤ 1, 0 ≤ x 2 ≤ 1 − x 1 }.Dalla (ii) della definizione di spazio continuo si ha∫1 = f(x)dxR∫2 ∫= c ( I T (x)dx 2 )dx 1= c= cR∫ 10∫ 10(R∫ 1−x10dx 2 )dx 1(1 − x 1 )dx 1 = c/2 (6.28)da cui c = 2, poichè essendo i domini di integrazione normali e l’integrandacontinua l’integrale si può calcolare tramite integrali ripetuti.La marginale di X 1 si ottiene da∫f Xi (x 1 ) = f(x)dx 2 = 2(1 − x 1 ).R n−1Data una funzione Φ : R n → R ed un vettore aleatorio X, lacomposizione Φ(X) è una variabile aleatoria. Senza determinarne ladensità possiamo fin da ora calcolarne il valore atteso rispetto alladistribuzione di X come∫E(Φ(X)) = Φ(x)f(x)dx.R nLemma 22. Dato il vettore aleatorio X= (X 1 , . . . , X n ) si han∑E( X i ) =i=1n∑E(X i ).i=1


6.5. VETTORI ALEATORI CONTINUI 78Dimostrazione. Utilizzando l’induzione su n, è sufficiente dimostrarel’asserzione per n = 2:∫E(X 1 + X 2 ) = (x 1 + x 2 )f(x)dxR∫2 ∫∫ ∫= ( x 1 f(x)dx 2 )dx 1 + ( x 2 f(x)dx 1 )dx 2R RR R∫∫= x 1 f X1 (x 1 )dx 1 + x 2 f X2 (x 2 )dx 2 = E(X 1 ) + E(X 2 )RL’indipendenza delle variabili aleatorie continue si può esprimerein termini del rapporto tra densità congiunta e marginali, nel sensoche le componenti di un vettore aleatorio X= (X 1 , . . . , X n ) sonoindipendenti se e solo sen∏f X (x) = f Xi (x i )i=1per tutti x= (x 1 , . . . , x n ) ∈ R n . Anche per le variabili continuele marginali permettono la ricostruzione della distribuzione congiuntaquando le variabili siano indipendenti.Lemma 23. Se le variabili aleatorie continue X i , i = 1, . . . , n sonoindipendenti alloran∏n∏E( X i ) = E(X i ).Dimostrazione.n∏E( X i ) =i=1==i=1∫∫n∏R n i=1∏ nR n i=1n∏∫i=1Ri=1x i f(x)dx(x i f Xi (x i ))dxR n x i f Xi (x i )dx i =n∏E(X i )Anche per le variabili continue è possibile definire le distribuzionicondizionali.Definizione 37. Dato un vettore aleatorio X= (X 1 , . . . , X n ),per k = 1, . . . , n, se (x 1 , . . . , x k ) è tale che la densità marginale soddisfaf (X1 ,...,X k )(x 1 , . . . .x k ) ≠ 0, si dice distribuzione condizionatadi X k+1 , . . . , X n dato che (X 1 , . . . , X k ) = (x 1 , . . . , x k ) lo spazio dii=1□□


6.5. VETTORI ALEATORI CONTINUI 79probabilità costituito da R n−k con densitàf (Xk+1 ,...,X n)|(X 1 ,...,X k )((x k+1 , . . . , x n )|(x 1 , . . . , x k ))=f X (x)f (X1 ,...,X k )(x 1 , . . . .x k )Definizione 38. Il valore atteso calcolato rispetto alla probabilitàcondizionale di una variabile aleatoria date le altre si chiama valoreatteso condizionale e si denotaE(X n |(X 1 , . . . , X n−1 ) = (x 1 , . . . , x n−1 )).Le definizioni di Cov(X, Y ) e r(X, Y ) sono le stesse del caso discreto.Consideriamo ora variabili i.i.d. tali che esistono valore atteso evarianza: vale il seguente risultato.Teorema 16 (Teorema Centrale del Limite). Per variabili aleatoriei.i.d. X 1 , . . . , X n tali che E(Xi 2 ) < ∞ vale per ogni a ∈ R( ∑n)lim P i=1 X ∫i − nE(X 1 )a1√ ≤ a = √ e −x2 /2 dxn→∞ nV ar(X1 )2π−∞

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!