23.05.2014 Views

x - Fisica - Sapienza

x - Fisica - Sapienza

x - Fisica - Sapienza

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Laboratorio di Strumentazione e Misura<br />

Cesare Bini<br />

Corso di laurea in <strong>Fisica</strong><br />

Anno Accademico 2006-2007<br />

1


Questi appunti sono basati sulle lezioni del modulo di Laboratorio di Strumentazione e Misura del<br />

primo anno delle lauree triennale in <strong>Fisica</strong>, <strong>Fisica</strong> e Astrofisica e <strong>Fisica</strong> e Tecnologie Informatiche<br />

da me tenute negli anni accademici a partire dal 2002-2003 all’Università “La <strong>Sapienza</strong>” di Roma.<br />

Si tratta del primo modulo di laboratorio, al quale seguono nei trimestri successivi altri quattro<br />

moduli di laboratorio con contenuti più specifici (Meccanica, Termodinamica, Elettromagnetismo e<br />

Ottica). Il modulo si propone di fornire agli studenti gli strumenti di base per la comprensione del<br />

linguaggio della fisica sperimentale con particolare riferimento al problema dell’elaborazione e<br />

dell’analisi dei dati sperimentali.<br />

In questi appunti, dopo una breve introduzione sul significato del metodo sperimentale, ci si<br />

concentra nel primo capitolo sul concetto elementare di misura in fisica. In questo primo capitolo le<br />

idee e le nozioni sono fornite esclusivamente su base intuitiva, senza formalismi matematici e senza<br />

alcuna pretesa di completezza e di esaustività. Nel secondo capitolo si entra nella teoria della<br />

probabilità, o meglio, in quella parte della teoria della probabilità e delle variabili casuali che risulta<br />

fondamentale per la comprensione dei risultati degli esperimenti di fisica. Gli argomenti di questa<br />

parte sono trattati con maggior rigore, e vengono utilizzati alcuni formalismi matematici più evoluti<br />

che gli studenti stanno apprendendo nei corsi paralleli di matematica. In alcuni casi, dove é<br />

necessario, sono forniti dei semplici complementi di matematica, trattati però sempre con<br />

l’attitudine del fisico sperimentale che, come lo studente avrà modo di vedere é diversa da quella<br />

del matematico. Nel terzo capitolo infine con l’ausilio degli strumenti di teoria della probabilità e<br />

delle variabili casuali trattati in precedenza, vengono ripresi i problemi impostati all’inizio del corso<br />

per fornire dei metodi statistici di risoluzione di cui sarà ora chiaro il fondamento. L’obiettivo é<br />

acquisire il modo di analizzare i dati degli esperimenti per trarne delle conclusioni scientificamente<br />

ben fondate. Ciascuno dei tre capitoli é corredato da una serie di esercizi per i quali alla fine sono<br />

illustrate e discusse le soluzioni. Si tratta di esercizi in tutto analoghi a quelli che vengono dati sia<br />

nella prova scritta finale che nelle cosiddette “prove in itinere”, e costituiscono una parte<br />

fondamentale del corso.<br />

La conoscenza e la padronanza dei metodi di analisi dei dati sperimentali costituisce non solo un<br />

bagaglio fondamentale per quegli studenti che si avvieranno alla ricerca scientifica, ma é anche<br />

estremamente importante per tutti quei laureati che si avvieranno al lavoro nell’industria o in altri<br />

settori, per i quali comunque sarà cruciale la capacità di trarre delle conclusioni fondate a partire da<br />

un insieme di dati qualunque sia l’origine di questi.<br />

2


(0) Il metodo scientifico.....................................................................................................5<br />

(1) La misura di una grandezza fisica ..............................................................................9<br />

(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche.............................................................9<br />

(1.1.1) L’unità di tempo. ................................................................................................................10<br />

(1.1.2) L’unità di lunghezza...........................................................................................................10<br />

(1.1.3) L’unità di massa. ................................................................................................................11<br />

(1.1.4) Sistemi di unità di misura...................................................................................................11<br />

(1.2) Il concetto di incertezza di misura.............................................................................................13<br />

(1.3) Esempi di valutazioni “qualitative” di incertezza ....................................................................15<br />

(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento........................................15<br />

(1.3.2) Caso dei conteggi. ..............................................................................................................16<br />

(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. .........................17<br />

(1.3.4) Analisi grafica della sequenza di numeri. ..........................................................................17<br />

(1.3.5) Caratteristiche riassuntive di una sequenza di numeri .......................................................22<br />

(1.3.6) Stima di intervalli. ..............................................................................................................25<br />

(1.3.7) Errori sistematici ................................................................................................................26<br />

(1.4) Sequenze di “coppie” di misure ................................................................................................27<br />

(1.5) Terminologia .............................................................................................................................30<br />

(1.6) Cifre significative......................................................................................................................30<br />

(1.7) Caso di misure indirette: cenni alla propagazione.....................................................................33<br />

(1.8) Nozione di significatività ..........................................................................................................34<br />

(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. .......................................37<br />

(1.9.1) La scala quadratica. ............................................................................................................37<br />

(1.9.2) La scala logaritmica............................................................................................................38<br />

Esercizi relativi al Capitolo (1) ..........................................................................................................42<br />

(2) La probabilità e le variabili casuali ...........................................................................46<br />

(2.1) Concetto di probabilità ..............................................................................................................46<br />

(2.2) Alcuni metodi di calcolo ...........................................................................................................46<br />

(2.3) Regole della teoria delle probabilità.........................................................................................47<br />

(2.3.1) Spazio degli eventi .............................................................................................................47<br />

(2.3.2) Eventi composti..................................................................................................................48<br />

(2.3.3) Definizione assiomatica della probabilità ..........................................................................48<br />

(2.3.4) Probabilità condizionata.....................................................................................................48<br />

(2.3.5) Alcune proprietà delle probabilità......................................................................................49<br />

(2.3.6) Il teorema di Bayes.............................................................................................................50<br />

(2.4) Il Calcolo Combinatorio............................................................................................................51<br />

(2.5) Variabili casuali.........................................................................................................................53<br />

(2.5.1) Considerazioni generali......................................................................................................53<br />

(2.5.2) Distribuzioni di probabilità di variabili casuali..................................................................54<br />

(2.5.3) Variabili discrete. ...............................................................................................................55<br />

(2.5.4) Variabili continue...............................................................................................................55<br />

(2.5.5) Momenti di una distribuzione.............................................................................................58<br />

(2.5.6) Densità di probabilità di una funzione di variabile casuale................................................59<br />

(2.5.7) La media e la deviazione standard come variabili casuali .................................................60<br />

(2.6) Variabili casuali notevoli...........................................................................................................61<br />

(2.6.1) Distribuzione uniforme.......................................................................................................61<br />

(2.6.2) La distribuzione binomiale.................................................................................................63<br />

(2.6.3) Il processo di Poisson: limite del processo di Bernoulli. ...................................................66<br />

(2.6.4) Il processo di Poisson: definizione generale. .....................................................................69<br />

(2.6.5) La distribuzione di Gauss...................................................................................................71<br />

(2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss.............................74<br />

3


(2.7) Proprietà notevoli delle variabili casuali...................................................................................77<br />

(2.7.1) Contenuto di probabilità di intervalli di variabili casuali...................................................78<br />

(2.7.2) Il teorema del limite centrale..............................................................................................78<br />

(2.7.3) Limite gaussiano.................................................................................................................80<br />

(2.8) Variabili casuali multiple. .........................................................................................................81<br />

(2.8.1) Impostazione del problema ................................................................................................81<br />

(2.8.2.) Probabilità congiunta e covarianza....................................................................................82<br />

(2.8.3) Calcolo di E[y] e Var[y].....................................................................................................83<br />

(2.8.4) Propagazione delle incertezze ............................................................................................84<br />

Esercizi relativi al Capitolo (2) ..........................................................................................................88<br />

(3) Introduzione all’inferenza ..........................................................................................92<br />

(3.1) Introduzione “formale” all’inferenza ........................................................................................92<br />

(3.1.1) Considerazioni generali......................................................................................................92<br />

(3.1.2) L’inferenza bayesiana.........................................................................................................93<br />

(3.1.3) Il principio di massima verosimiglianza ............................................................................94<br />

(3.2) Inferenza sul valore vero ...........................................................................................................94<br />

(3.2.1) Caso di una singola misura.................................................................................................94<br />

(3.2.2) Caso di una misura ripetuta N volte. ..................................................................................95<br />

(3.2.3) Caso dei conteggi poissoniani. ...........................................................................................97<br />

(3.2.4) Caso dei conteggi binomiali...............................................................................................98<br />

(3.2.5) La “barra di incertezza”......................................................................................................99<br />

(3.3) Misure indirette: la propagazione delle incertezze....................................................................99<br />

(3.3.1) Riformulazione del problema.............................................................................................99<br />

(3.3.2) Propagazione delle incertezze ..........................................................................................100<br />

(3.4) Nozione di consistenza e significatività: test d’ipotesi ...........................................................100<br />

(3.4.1) Consistenza tra risultati di esperimenti ............................................................................101<br />

(3.4.2) Consistenza tra esperimento e modello............................................................................102<br />

(3.4.3) Combinazione di diverse misure: la media pesata. ..........................................................102<br />

(3.5) Analisi delle dipendenze funzionali: il fit ...............................................................................103<br />

(3.5.1) Il fit: formulazione del problema......................................................................................103<br />

(3.5.2) Ipotesi di lavoro................................................................................................................104<br />

(3.5.3) Il fit: derivazione delle formule per le stime dei parametri..............................................105<br />

(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza ..................................108<br />

(3.5.5) Valutazione della bontà del fit: test del χ 2 . ......................................................................111<br />

(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti..................................116<br />

(3.5.7) Il fit: come farlo operativamente......................................................................................116<br />

(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui ...............................117<br />

Esercizi relativi al Capitolo (3) ........................................................................................................120<br />

Soluzione degli esercizi proposti. ................................................................................124<br />

4


(0) Il metodo scientifico<br />

Qual é l’oggetto della scienza naturale ? La scienza si occupa dei fenomeni naturali vale a dire di<br />

tutte quelle cose che osserviamo accadere, di quelle manifestazioni della natura, che “entrano in<br />

relazione” con i nostri sensi, e che noi consideriamo rilevanti e degne di essere studiate. In<br />

particolare, anche la fisica studia tali “manifestazioni”. E’ difficile circoscrivere con chiarezza il<br />

campo di indagine della fisica rispetto ad altre discipline quali la chimica o la biologia (e in effetti<br />

esistono discipline di confine quali la chimica fisica e la biofisica). In modo generale e forse<br />

discutibile, si può dire che la fisica si distingue dagli altri settori di indagine, per il fatto di studiare i<br />

fenomeni nelle loro manifestazioni più “elementari” o “fondamentali”, ovvero per il fatto di<br />

occuparsi dei sistemi più semplici esistenti in natura.<br />

Il metodo con cui in fisica vengono studiati i fenomeni naturali si colloca entro il quadro più vasto<br />

del metodo scientifico, una grande costruzione di pensiero e di esperienza sviluppata nel corso degli<br />

ultimi secoli. La fisica fa proprio il metodo scientifico, con alcune specificità dovute al tipo di<br />

problemi che devono essere affrontati.<br />

A cosa serve dunque il corso di laurea in fisica ? La cosa principale che gli studenti di fisica<br />

imparano é proprio il metodo della fisica, l’apprendimento del quale é in un certo senso ancora più<br />

importante della conoscenza delle leggi fisiche stesse. Il metodo fornisce, infatti, l’atteggiamento<br />

con cui il fisico si pone nello studio dei fenomeni naturali, costituisce un modo di indagine della<br />

realtà, un approccio ai problemi.<br />

Vediamo quali sono gli aspetti caratteristici di questo metodo. Nella storia del pensiero ci sono stati<br />

due atteggiamenti di fronte alla complessità della realtà fisica: (a) L’Empirismo (il cui metodo<br />

d’indagine caratteristico é detto induzione) e (b) il Razionalismo (per il quale si ha il metodo detto<br />

della deduzione). Per esemplificare questi 2 approcci prendiamo un esempio preso a prestito dalla<br />

vita quotidiana. Tutti noi scegliamo di comportarci in un certo modo in base alle informazioni che<br />

abbiamo. A che ora usciamo di casa la mattina per arrivare all’università’ prima delle 9 ? Lo<br />

studente 1 affronta il problema con il seguente approccio. Fa diverse prove: un giorno esce alle 7<br />

un giorno alle 7:30 poi alle 8 ed infine alle 8:30. Ripete in giorni diversi queste prove e alla fine<br />

osserva che se esce alle 7:30 impiega 15 minuti, se esce alle 8 impiega di più e così via. Da tali<br />

osservazioni “conclude” che l’orario migliore per uscire é uno dei tanti provati. Da ciò trae in<br />

definitiva la sua regola di comportamento. Lo studente 2 invece sulla base del fatto che le scuole<br />

aprono alle 8, gli uffici alle 9 “deduce” che é meglio uscire alle 7:30 (senza impiegare diverse<br />

settimane a fare delle prove). E’ chiaro che si tratta di un esempio di empirista (lo studente 1) e di<br />

razionalista (lo studente 2).<br />

Quale dei due approcci é quello proprio del metodo scientifico ?<br />

In realtà non lo é nessuno dei due, o meglio, lo scienziato usa ambedue i metodi, li combina.<br />

In questo consiste la sintesi propria del metodo scientifico, che si suole anche indicare come sintesi<br />

galileiana ricordando il nome di Galileo che fu il primo a formularne gli aspetti salienti nei suoi<br />

scritti: osservazione e teoria sono intimamente legate tra loro, in un certo senso “si guidano a<br />

vicenda”. Il metodo scientifico moderno nasce da questa sintesi. L’osservazione della natura non é<br />

un puro e semplice catalogare fatti o fenomeni (che é viceversa proprio dell’empirismo puro).<br />

Attraverso l’osservazione lo scienziato vuole in realtà cogliere il “meccanismo” che regola i<br />

fenomeni e pertanto tende a “selezionare” le osservazioni da fare e, al tempo stesso, tende ad<br />

“inventare un linguaggio” con il quale riesce a parlare in modo chiaro dei fenomeni naturali che<br />

osserva. La comprensione dei “meccanismi” della natura é infatti molto più potente della pura e<br />

semplice osservazione di come si svolgono le cose. Non solo, tale comprensione “spinge” ad altre<br />

osservazioni e pertanto la conoscenza che si acquisisce diventa la base per acquisizioni di<br />

conoscenze successive.<br />

5


Gli ingredienti fondamentali del metodo scientifico sono dunque da un lato gli esperimenti e<br />

dall’altro i modelli teorici. Sono due elementi che si muovono di pari passo condizionandosi a<br />

vicenda. Vediamo di chiarirne il significato.<br />

- Fare un esperimento significa fare una domanda alla natura. Si noti la differenza che c’è tra<br />

esperimento (processo attivo) e semplice osservazione (processo passivo). La domanda che<br />

l’esperimento pone, deve essere ben posta. Quello dell’esperimento é un procedimento chiaramente<br />

induttivo. Sul piano logico il processo é il seguente: se osservo che una cosa si svolge in un certo<br />

modo in una data circostanza, passo dal particolare al generale: quella cosa in quelle condizioni si<br />

svolge sempre in quel modo. Per esempio se io osservo che un dato materiale ha una certa proprietà<br />

(esempio, il rame é conduttore), io “induco” che tutto il rame é conduttore. Per dire questo dovrei<br />

prendere tutto il rame del mondo anzi dell’universo e misurarlo. Ma non é necessario farlo.<br />

Facciamo un’osservazione: il fatto che la ripetizione di un dato esperimento fatto da persone<br />

diverse in tempi diversi con apparati diversi porti a risultati che sono tutti “generalmente<br />

compatibile”, é un fatto per nulla banale, ma é ciò che effettivamente accade. In altre parole la<br />

Natura risponde allo stesso modo ad osservatori diversi, quando la domanda é posta ugualmente<br />

bene. Quando ciò accade, si dice che siamo in condizioni di riproducibilità. Quando non accade<br />

normalmente vuol dire che la domanda é mal posta, l’esperimento é fatto male. In questo, troviamo<br />

un primo aspetto dell’oggettività che rende fattibile l’indagine scientifica.<br />

- Che cos’è invece un modello teorico? Il modello si sviluppa quando vengono individuati i<br />

termini che descrivono il fenomeno (gli elementi del “linguaggio”) e le relazioni che li collegano. A<br />

questo punto posso “dedurre” le caratteristiche di altri fenomeni. Posso cioè fare predizioni. Si<br />

tratta di un procedimento chiaramente deduttivo. Da assiomi generali deduco conseguenze<br />

osservabili. Un modello, potremmo dire, “inventa un linguaggio” con il quale é possibile parlare di<br />

quel fenomeno e predire le proprietà di altri fenomeni a questo collegati.<br />

Seconda osservazione: il fatto che i nostri modelli descrivono bene i risultati degli esperimenti é<br />

un secondo fatto per nulla ovvio, ma é anch’esso vero. Si tratta di un altro aspetto dell’oggettività di<br />

cui si diceva. Gli uomini riescono a creare un linguaggio comune per descrivere la natura. Una<br />

persona intelligente riesce a capire questo linguaggio, e si rende conto presto che funziona.<br />

Per poter apprezzare il modo con cui la scienza si sviluppa, é fondamentale vedere i tanti esempi<br />

che la storia della scienza ci fornisce. Tra i tanti che saranno discussi in tutti i corsi del seguito degli<br />

studi, accenniamo solo brevemente al caso della meccanica: dall’osservazione dei corpi in moto (di<br />

alcuni corpi in moto non di tutti i moti possibili) Newton “induce” la legge del moto che costituisce<br />

la regola fondamentale del “linguaggio” dei fenomeni di corpi in moto. Una volta stabilito il<br />

linguaggio della meccanica fu possibile dedurre predizioni di altri fenomeni che in seguito,<br />

esperimenti tecnologicamente sempre più evoluti hanno sottoposto a test sempre più accurati.<br />

Questo progresso nell’accuratezza degli esperimenti ha portato infine a mostrare che il linguaggio<br />

della meccanica doveva essere modificato per poter descrivere fenomeni in certe particolari<br />

condizioni.<br />

La forza del metodo scientifico sta essenzialmente nel suo successo. Il successo della meccanica,<br />

della termodinamica e dell’elettromagnetismo nell’arco di meno di 3 secoli sono una testimonianza<br />

straordinaria di ciò.<br />

Facciamo ora un passo avanti. Infatti finora abbiamo parlato in modo generico di osservazioni e<br />

modelli. In realtà sappiamo bene che sia gli esperimenti che i modelli hanno a che fare con i numeri<br />

e più in generale con le regole della matematica. D’altra parte gli studenti del primo anno sanno<br />

bene che sono invitati a studiare la matematica. Cerchiamo di capire il perché.<br />

Nell’esperimento le sensazioni umane sono “quantificate”. In altre parole sono sostituite da numeri<br />

che appunto rendono quantitativa una sensazione che altrimenti sarebbe solo qualitativa. Dire che<br />

un corpo é più caldo di un altro costituisce una affermazione ben definita e non ambigua. Tuttavia é<br />

6


un’affermazione povera di contenuto. Per rendere più efficace la sensazione si mette in atto un<br />

processo di quantificazione che chiamiamo processo di misura di una grandezza fisica.<br />

Al termine dell’esperimento ho dunque un insieme di numeri, che rappresentano i risultati delle<br />

misure della o delle grandezze fisiche rilevanti per la descrizione del fenomeno che sto studiando.<br />

Il modello esprime relazioni tra tali grandezze fisiche. Si tratta delle leggi fisiche. Il confronto tra i<br />

risultati delle misure e tali legge permette di stabilire se il modello descrive correttamente il<br />

fenomeno.<br />

Nel contesto del metodo scientifico il ruolo della matematica risulta decisivo sia negli esperimenti<br />

che nella teoria. Infatti:<br />

La usiamo per sviluppare i modelli e definire il linguaggio per la loro caratterizzazione. Il<br />

dedurre é matematico. Il settore principe della matematica applicata alla fisica é l’analisi (calcolo<br />

infinitesimale) che, infatti, nacque proprio dall’esigenza di fornire uno strumento di calcolo<br />

adeguato alla descrizione della fisica.<br />

Ma la dobbiamo usare per “trattare” in modo coerente i risultati delle misure che compongono<br />

qualsiasi esperimento. In questo caso il concetto di probabilità diventa molto importante perché si<br />

vede che gli esperimenti si lasciano descrivere da teorie probabilistiche. Accanto alla teoria della<br />

probabilità si colloca la statistica la disciplina che studia da un lato, le modalità con cui descrivere<br />

le proprietà di un insieme di dati (statistica descrittiva) e dall’altro come a partire dai dati si può<br />

trarre conclusioni sui valori delle grandezze fisiche (statistica inferenziale).<br />

Cosa facciamo noi in questo corso ?<br />

Nell’ambito dei corsi di laurea in fisica, il corso di laboratorio ha un ruolo estremamente rilevante.<br />

Si tratta infatti di imparare un “mestiere”: il mestiere dello sperimentatore. E’ un lavoro ben definito<br />

con le sue caratteristiche. Schematizzando potremmo dire che il lavoro dello sperimentatore si<br />

sviluppa nei seguenti passi, ciascuno del quali richiede una certa propensione:<br />

(1) pensare a quale é l’esperimento giusto da fare (domanda alla natura); conoscere la fisica<br />

(2) pensare a come farlo; conoscere la tecnologia<br />

(3) montarlo e mettere in funzione l’apparato di misura; abilità manuale e organizzativa<br />

(4) fare la misura con tutti i controlli essenziali; attenzione e cura<br />

(5) analizzare i risultati e trarne delle conclusioni; usare i metodi della statistica<br />

(6) comunicare queste conclusioni al mondo scientifico; chiarezza e sintesi comunicativa.<br />

È importante sottolineare la varietà e la complessità del lavoro dello sperimentatore, per il quale<br />

sono necessarie attitudine normalmente considerate molto diverse (per esempio la manualità e<br />

l’attitudine all’astrazione). Si tratta di un lavoro molto bello per il quale vale la pena impegnarsi<br />

(ma questa é una mia valutazione personale).<br />

In questo corso inizieremo un percorso articolato in più moduli per imparare a fare tutte queste cose<br />

(1)-(6). In questo modulo ci occuperemo prevalentemente dei punti (5)-(6) (discutendo i metodi di<br />

analisi dei dati) ma anche un po’ (3) e (4) (quando andremo in laboratorio). Nei moduli successivi<br />

vedremo meglio (2)-(3)-(4). (1) ha a che fare con la conoscenza della fisica e dunque ha a che fare<br />

con tutto ciò che sarà discusso nel corso di laurea in <strong>Fisica</strong>.<br />

Alcune considerazioni pratiche:<br />

Ruolo del Calcolatore: per un primo approccio efficace all’attività sperimentale é meglio usarlo il<br />

meno possibile. Il calcolatore é infatti uno strumento essenziale ma spesso finisce per impedire una<br />

comprensione profonda di quello che si sta facendo. Bisogna sempre evitare di fare le cose “ad<br />

occhi chiusi”, fidandosi ciecamente di un programma che qualcun altro ha fatto. Almeno una volta<br />

bisogna aver fatto un’analisi con “carta e penna” per poter usare in modo critico ed efficace un<br />

prodotto informatico.<br />

7


Ruolo della Calcolatrice: sapere usarla al meglio (una calcolatrice scientifica con le operazioni<br />

matematiche fondamentali come le funzioni trigonometriche, i logaritmi, la notazione<br />

esponenziale).<br />

Ruolo della matematica: ad un certo punto dovremo usare alcune nozioni elementari di analisi quali<br />

la derivata e l’integrale. Per il resto si cerchierà di rendere i vari concetti in modo semplice ed<br />

intuitivo.<br />

Ruolo del log-book (quaderno) e delle relazioni: é molto importante imparare a descrivere quello<br />

che si sta facendo e che si é fatto in modo utile e chiaro. Nel log-book é bene riportare sempre tutto<br />

quello che si fa. Il suo ruolo é quello di poter sempre ricostruire quello che si é fatto in quel dato<br />

giorno. Le relazioni devono invece essere sintetiche e devono dare al lettore le informazioni<br />

rilevanti e non dare quelle irrilevanti.<br />

Lavoro di gruppo: é importante imparare a lavorare in gruppo collaborando. Sono sempre più rari<br />

coloro che fanno ricerca scientifica da soli. Quasi sempre la ricerca, ed in particolare quella<br />

sperimentale é un lavoro di gruppo.<br />

8


(1) La misura di una grandezza fisica<br />

Abbiamo visto che un esperimento é riconducibile ad una o più misure.<br />

Vediamo ora di delineare la logica del processo di misura. Individuiamo i seguenti passi logici.<br />

(0) Associo ad ogni “elemento” (potremmo anche dire sensazione) che partecipa al fenomeno una<br />

grandezza fisica; (chiamo temperatura la sensazione di caldo/freddo, tempo la sensazione di eventi<br />

che si succedono, lunghezza la sensazione di spaziatura tra 2 posizioni, corrente la sensazione di<br />

“scossa elettrica”)<br />

(1) stabilisco come associare un numero a tale grandezza; questo processo costituisce la definizione<br />

operativa della grandezza, cioè lo stabilire il principio ed il metodo della misura;<br />

(2) infine effettuo la misura e dunque ottengo il numero.<br />

La definizione operativa presuppone un principio di misura cioè l’esistenza di un fenomeno fisico e<br />

di un modello teorico che usiamo per trattare questo fenomeno. Si tratta pertanto di misure che<br />

hanno significato solo nell’ambito di un modello. Anche la misura del peso con una bilancia,<br />

apparentemente elementare, si fonda sul fatto che si ha equilibrio statico tra la forza di richiamo di<br />

una molla e la forza peso; il funzionamento del termometro si fonda sulla nostra descrizione della<br />

dilatazione termica dei corpi e così via. In altri casi il principio di misura é più elementare. Per<br />

esempio se si tratta di contare il numero di oggetti o il numero di volte in cui é accaduta una certa<br />

cosa, la misura fa riferimento alla nozione di numerabilità degli oggetti, così come la misura di<br />

lunghezza effettuata con un metro si basa sul confronto tra 2 oggetti, il tavolo ed il metro. Si tratta<br />

di operazioni che fanno riferimento a procedimenti elementari (la numerabilità, il confronto) che<br />

sono insiti nella nostra intelligenza. Tutti gli esempi fatti appartengono alla classe delle misure<br />

dirette cioè di misure di una grandezza fisica che si fanno con un metodo di misura ben definito per<br />

quanto complicato. Esistono poi le misure indirette che si hanno quando combino, secondo una<br />

relazione che appartiene al mio modello, diverse misure dirette di grandezze diverse. Nel caso della<br />

velocità nella maggioranza dei casi faccio v = s / t non misuro direttamente v, anche se uso un<br />

tachimetro: vengono misurate separatamente s e t e poi viene fatto il rapporto. Oppure posso usare<br />

uno strumento per misurare una grandezza e poi ricavarne un’altra moltiplicandola per dei numeri<br />

noti da misure precedenti.<br />

In ogni caso le misure vengono effettuati con gli strumenti di misura, che possono essere<br />

“acquistati” ed utilizzati “chiavi in mano” previa lettura del libretto di istruzioni, oppure possono<br />

essere preparati dallo sperimentatore (ciò é quanto in genere fanno o preferirebbero fare la gran<br />

parte dei fisici). In ogni caso é molto importante conoscere le caratteristiche degli strumenti che si<br />

utilizzano.<br />

(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche.<br />

Consideriamo le misure dirette: si tratta di confrontare la cosa che misuriamo, che chiameremo in<br />

generale il misurando, con un “esemplare” della stessa grandezza di cui conosciamo il valore<br />

numerico. Esempio: quando misuro la temperatura con il termometro, la scala del termometro é<br />

graduata in gradi centigradi (detti Celsius o scala Celsius). Sappiamo che quando la colonnina del<br />

mercurio raggiunge una certa posizione, quella condizione corrisponde ad una data temperatura.<br />

Quella condizione é l’esemplare con cui mi confronto. Il grado centigrado é invece l’unità di<br />

misura della grandezza in esame (la temperatura in questo caso). Analogamente la posizione<br />

dell’ago della bilancia o il numero sul display di un cronometro digitale, costituiscono gli esemplari<br />

delle grandezze con cui confronto il misurando, mentre il kg e il secondo sono le unità di misura<br />

(che compaiono nelle scale degli strumenti).<br />

Specifichiamo ora che cos’è un’unità di misura. Cosa vuol dire esprimere un peso in kg ? Significa<br />

assumere che da qualche parte esiste un “misurando particolare” arbitrariamente detto kilogrammo,<br />

che tale misurando particolare é stabile e ben definito, e che quindi noi esprimiamo tutti i nostri pesi<br />

come multipli o sottomultipli di quel misurando particolare. Naturalmente per una data grandezza<br />

posso usare unità diverse. Per esempio le lunghezze sono in km in Europa e in miglia negli USA. Le<br />

9


temperature sono in gradi Celsius in Europa e in gradi Fahrenheit negli USA. E’ fondamentale<br />

“mettersi d’accordo” sulle unità di misura. Dall’’800 si procede verso la standardizzazione delle<br />

unità (si tratta di una delle poche eredità utili del positivismo ottocentesco). Vi é una branca molto<br />

importante della fisica che si chiama metrologia che fa questo lavoro.<br />

Per procedere alla standardizzazione di cui si é detto, é fondamentale disporre di campioni di<br />

riferimento (i misurandi particolari di cui si é detto sopra appunto) internazionalmente riconosciuti<br />

delle varie grandezze che siano sempre “meglio definiti”. Una volta creati questi campioni, l’uso di<br />

uno strumento sarà possibile solo dopo che lo strumento stesso sarà stato “applicato” al campione di<br />

riferimento. Quindi per esempio supponiamo che da qualche parte vi sia il campione di lunghezza<br />

(1 metro). Devo portare lì il mio regolo (o righello o metro da sarta o calibro o qualunque altro<br />

strumento per misure di lunghezza) e fare in modo che “applicato” al campione di riferimento<br />

indichi 1. Analogamente per i tempi , per le masse e per qualunque altra grandezza. Questa<br />

operazione che si chiama calibrazione o taratura dello strumento, é un operazione che facciamo<br />

spesso (per esempio con il nostro orologio quando lo rimettiamo sentendo il segnale alla radio o al<br />

telefono). Si tratta di una operazione che richiede (a) la fiducia che il riferimento sia “migliore”<br />

della nostra misura e (b) che su quel riferimento si sia d’accordo tra tutti. Naturalmente non é<br />

possibile che vi sia un unico campione di riferimento al mondo e che tutti debbano andare lì a fare<br />

la calibrazione. Questo campione deve essere distribuito, ma in ogni caso, in linea di principio deve<br />

essere possibile fare questa operazione di taratura.<br />

Vediamo ora quali sono i campioni di riferimento per le grandezze di uso più comune: il tempo, la<br />

lunghezza e la massa.<br />

(1.1.1) L’unità di tempo.<br />

È difficile dare una definizione della variabile tempo. Il punto di partenza é la percezione che in<br />

natura vi sono eventi che si ripetono in un modo che noi percepiamo come regolare. I primi esempi<br />

sono il giorno e le stagioni. E, in effetti, la prima definizione (prima in senso storico) di unità di<br />

tempo si basa su questo: il secondo (s) é 1/86400 del “giorno solare medio” . Si tratta di una misura<br />

basata sulla riproducibilità di fenomeni astronomici, in questo caso il moto di rotazione della terra<br />

su sé stessa.<br />

Ben presto ci si accorse che in realtà il giorno solare medio non é sempre uguale, o, detto in altre<br />

parole, che vi sono dei meccanismi astronomici che rendono “irregolari” i moti dei pianeti.<br />

Confrontato con altri fenomeni periodici differenti, si vide che c’erano variazioni “secolari” legati ai<br />

moti complessi della terra. Di qui l’esigenza di riferirsi non a fenomeni astronomici ma a qualcosa<br />

che fosse fisso e ben riproducibile: apparve allora naturale riferirsi a fenomeni che fossero<br />

caratteristici di un certo materiale e che pertanto fossero invariabili nel tempo. Fenomeni di questo<br />

tipo sono dati dalla vasta gamma di emissione di radiazione elettromagnetica da parte di certi<br />

materiali e dalle loro frequenze.<br />

L’attuale definizione di secondo é la seguente: é la durata di 9192631.770 periodi della radiazione<br />

corrispondente alla transizione tra i 2 livelli iperfini dello stato fondamentale dell’atomo di Cesio<br />

133 ( 133 Cs). Quindi occorre un campione di 133 Cs per produrre il campione di riferimento. La<br />

ragione di questo numero così bizzarro (9192631.770) risiede nell’esigenza di mantenere una unità<br />

sostanzialmente equivalente al “vecchio secondo” così radicato nella società. Si noti che in questo<br />

modo il valore del periodo di quella particolare radiazione del Cesio 133é una quantità nota<br />

esattamente, non affetta da incertezza (vedi prossimo paragrafo).<br />

(1.1.2) L’unità di lunghezza.<br />

Nel caso della lunghezza, la cosa più naturale da fare é prendere un’asta e vedere quante “aste” é<br />

lungo il mio misurando. Naturalmente devo scegliere un “asta” opportuna (usare il palmo della<br />

propria mano comporta evidenti problemi). Allora si disse: prendiamo una cosa fissa e tutti ci<br />

riferiamo a quella. Insorsero però dei problemi. Infatti si vide che la lunghezza di questo<br />

“campione” variava al variare della temperatura. Allora si disse: prendiamo un campione di un<br />

10


materiale opportuno (il platino-iridio é una lega di straordinarie proprietà meccaniche e chimiche)<br />

lo mettiamo in un posto fisso a riparo dalle intemperie e lo termostatiamo. La prima definizione di<br />

unità di lunghezza fu questa. Poi si vide che non si riesce a termostatarlo perfettamente e poi che ci<br />

sono dei fenomeni chimici di corrosione, insomma che la barretta di platino-iridio non é<br />

immutabile. Devo riferirmi ad un fenomeno fisico più “solido”. In analogia a quanto fatto per la<br />

variabile tempo si decise di usare il fenomeno dell’emissione di una specie atomica: il metro (m) é<br />

pertanto pari a 1650763.73 lunghezze d’onda nel vuoto della radiazione corrispondente alla<br />

transizione tra i livelli 2p 10 5 d 5 dell’atomo di Kripton 86 ( 86 Kr).<br />

Da alcuni anni tuttavia i metrologi si sono accorti di sapere misurare la velocità della luce nel vuoto<br />

(la quantità c che costituisce anche il limite superiore di ogni velocità) meglio di qualunque altra<br />

cosa. Di qui la definizione attuale del campione di riferimento della lunghezza: il metro é lo spazio<br />

percorso da un raggio di luce nel vuoto in un tempo di 1/299792458 s. Si noti che si tratta di una<br />

definizione che richiede la definizione del secondo. In definitiva significa che ora c (la velocità<br />

della luce nel vuoto) é fissa (nota esattamente). E dunque una distanza é “quanto impiega la luce a<br />

percorrerla”.<br />

L’esempio dell’unità della lunghezza é particolarmente istruttivo. Infatti, ci mostra quello che<br />

accade quando misurando la velocità della luce nel vuoto sempre meglio, si arriva al punto in cui a<br />

limitare la precisione della misura é proprio la definizione dell’unità di lunghezza. A questo punto é<br />

evidente che conviene prendere questa cosa che so misurare così bene come nuova unità.<br />

Si tratta di un procedimento generale. Se misurando sempre meglio un “misurando” mi accorgo che<br />

la precisione della misura é ormai limitata dalla “bontà” del campione di riferimento, allora questo<br />

“misurando” ha tutti i diritti di diventare il nuovo campione. Lo fisso ad un valore arbitrario e d’ora<br />

in avanti mi riferisco ad esso.<br />

(1.1.3) L’unità di massa.<br />

Il kilogrammo (kg) era e rimane il peso di un campione di platino-iridio conservato in un istituto<br />

metrologico nei pressi di Parigi. Non é cambiato, perché ancora non é stato trovato un campione<br />

migliore di questo (ci sono delle proposte di cambiamento, ma per ora il Sistema Internazionale<br />

(vedi seguito) mantiene questo campione di riferimento).<br />

(1.1.4) Sistemi di unità di misura.<br />

Tra le varie grandezze che si possono definire per descrivere i fenomeni fisici, possiamo<br />

individuarne alcune che chiameremo fondamentali ed altre che invece chiameremo grandezze<br />

derivate. Si tratta di una distinzione arbitraria. E’ inutile definire un campione per ogni grandezza:<br />

(esempio v = s /t, E = 1/2 mv 2 ). Per questo si definisce un insieme di grandezze fondamentali da cui<br />

le altre sono derivate secondo le loro definizioni. Come si scelgono le grandezze fondamentali ?<br />

Quelle per cui si trovano i campioni di riferimento “migliori”. Oggi si ha il sistema detto S.I.<br />

(sistema internazionale). Questo si definisce con l’insieme delle grandezze fondamentali. Si noti che<br />

la scelta del S.I. non é univoca. Si possono scegliere (e ci sono) altri sistemi anche con un diverso<br />

numero di unità fondamentali. Si può dimostrare che una sola grandezza fondamentale é sufficiente.<br />

Per fare un esempio, nella fisica delle particelle elementari si usa l’energia come grandezza<br />

fondamentale, e tutte le altre grandezze altro non sono che potenze (positive, negative o nulle)<br />

dell’energia.<br />

Nella tabella che segue sono riportate le unità fondamentali del sistema internazionale ciascuna con<br />

la definizione del campione che la definisce. Si può notare che alcune delle definizioni fanno<br />

riferimento ad altre unità che sono definite indipendentemente.<br />

Tempo secondo (s) Durata di 9192631.770<br />

periodi di una radiazione dal<br />

133 Cs<br />

Lunghezza metro (m) Spazio percorso da un raggio<br />

di luce nel vuoto in un tempo<br />

di 1/299792458 s<br />

11


Massa kilogrammo (kg) Massa del prototipo<br />

campione realizzato in lega<br />

90% platino e 10% iridio e<br />

conservato al BIPM (Parigi)<br />

Intensità di corrente ampere (A) Quella corrente tale che 2<br />

conduttori paralleli e<br />

rettilinei di sezione costante a<br />

1 m di distanza sono attratti<br />

da 2 10 -7 N/m<br />

Temperatura kelvin (K) 1/273.15 della temperatura<br />

del punto triplo dell’acqua<br />

Intensità luminosa candela (cd) Intensità emessa da un corpo<br />

nero di superficie 1/600000<br />

m 2 posto a pressione 101325<br />

Pa e alla temperatura di<br />

solidificazione del platino<br />

Quantità di materia mole (mol) Quantità di materia che<br />

contiene tanti elementi quanti<br />

ne contengono 0.012 kg di<br />

carbonio 12<br />

Associato alla nozione di grandezze fondamentali e derivate, vi é il concetto di dimensioni fisiche:<br />

ogni grandezza ha una dimensione fisica. Le grandezze fondamentali hanno come dimensioni la<br />

grandezza stessa. Quelle derivate, che sono definite da una formula, hanno come dimensione la<br />

combinazione delle grandezze fondamentali che si desume dalla formula stessa. Per indicare le<br />

dimensioni di una grandezza si usano in genere le notazioni [l], [m], [t] (rispettivamente una<br />

lunghezza, una massa, un tempo). Facciamo alcuni esempi di grandezze derivate. La formula per<br />

l’energia cinetica é E = ½ mv 2 , d’altro canto v = s / t, quindi mettendo insieme: [E] = [m] [l] 2 [t] -2 . Il<br />

momento angolare é dato da L = r × mv pertanto le sue dimensioni sono [L] = [m][l] 2 [t] -1 . Infine un<br />

angolo é il rapporto tra l’arco di cerchio [l] e il raggio [l]. In tal caso si dice che la grandezza é<br />

adimensionale.<br />

Le dimensioni non sono da confondere con le unità di misura. Le regole sulle dimensioni (che sono<br />

del tutto naturali) non sono altro che il prolungamento delle regole viste alle scuole elementari,<br />

quando ci dicevano che “non si possono sommare mele con arance”. Quindi in una formula se<br />

compare una somma o una differenza, gli addendi devono avere le stesse dimensioni, così come in<br />

un’equazione i due membri devono avere le stesse dimensioni. Inoltre in espressioni contenenti<br />

esponenziali o logaritmi, gli argomenti di tali funzioni devono essere adimensionali.<br />

Quanto alle unità delle grandezze non elementari, si usano le combinazioni delle unità delle<br />

grandezze elementari corrispondenti. Ad esempio per la velocità si userà m/s. In alcuni casi sì da<br />

anche un nome all’unità. Per esempio per la forza, le cui dimensioni sono massa x accelerazione e<br />

dunque [m] [l] [t] -2 viene introdotto il Newton (N) che é equivalente a dire kg m s -2 . Andando avanti<br />

nel corso introdurremo le varie unità.<br />

Vale la pena ricordare che per alcune grandezze restano in uso unità al di fuori del sistema<br />

internazionale, che sono di uso comune. E’ il caso dell’atmosfera per la pressione, della caloria per<br />

l’energia e cosi’ via.<br />

Infine é anche importante conoscere l’uso dei multipli e dei sottomultipli, per evitare di avere a che<br />

fare con numeri troppo grandi o troppo piccoli. In tabella di seguito é riportato l’elenco di multipli e<br />

sottomultipli con i loro simboli.<br />

12


10 12 Tera T<br />

10 9 Giga G<br />

10 6 Mega M<br />

10 3 Chilo k<br />

10 2 Etto h<br />

10 1 Deca da<br />

10 -1 Deci d<br />

10 -2 Centi c<br />

10 -3 Milli m<br />

10 -6 Micro μ<br />

10 -9 Nano n<br />

10 -12 Pico p<br />

10 -15 Femto f<br />

10 -18 Atto a<br />

(1.2) Il concetto di incertezza di misura<br />

Fin qui tutto semplice. Ma c’è un fatto in più che rende il mestiere dello sperimentatore più<br />

complesso ed interessante. C’è una caratteristica fondamentale: la misura fornisce una conoscenza<br />

intrinsecamente incerta. Ciò può apparire contraddittorio. Infatti riguardo alla Scienza si usano<br />

spesso espressioni del tipo “Scienza Esatta”, o frasi del tipo “è scientificamente provato” o simili.<br />

Qui occorre sgomberare il campo da equivoci. Scienza Esatta non significa fare affermazioni<br />

assolutamente precise e indiscutibili. Significa piuttosto fare affermazioni nelle quali é indicato in<br />

modo chiaro il limite di attendibilità dell’affermazione stessa. (Attenzione alle parole e ai luoghi<br />

comuni dunque.).<br />

In che senso la misura, come si é appena detto, fornisce una conoscenza intrinsecamente incerta ?<br />

Vediamo alcuni esempi di sorgenti di incertezza. Misuriamo la lunghezza del tavolo.<br />

(1) Con un regolo (un metro nel linguaggio comune) posso dire che il risultato é tra qui e qui,<br />

12.3 e 12.4 cm per esempio; basta che stabilisco tra quali divisioni (dette anche tacche) dello<br />

strumento si situa la mia misura.<br />

(2) Allora prendo uno strumento molto più “preciso” le cui divisioni sono di 10 micron (per<br />

esempio un calibro palmer di quelli che vedremo in laboratorio) e ottengo che la misura si situa tra<br />

12.324 12.325 cm; certo ho ristretto l’intervallo, ma sempre di un “intervallo” si tratta;<br />

Mi chiedo allora c’è modo di arrivare a dire: il tavolo é lungo 12.3246 cm ? Oppure intrinsecamente<br />

posso solo dare un intervallo ? Evidentemente si’. Qualsiasi strumento darà un intervallo. Ma c’è di<br />

più.<br />

(3) Se ripeto la misura un po’ più in là ottengo una cosa diversa. Quant’è lungo il tavolo ? Qui<br />

siamo di fronte ad una carenza nella definizione di quello che voglio misurare. Voglio misurare il<br />

tavolo si’, ma in che punto ?<br />

(4) Ripeto poi la misura facendola nello stesso punto, ma la sera. Trovo che l’intervallo ora é<br />

12.327 e 12.328. Che succede ? Evidentemente il tavolo sta soffrendo di effetti di dilatazione<br />

termica. Pertanto di nuovo la definzione é manchevole. La domanda giusta da porre é quant’è lungo<br />

il tavolo a quella temperatura ? Ma c’è di più ancora.<br />

(5) Prendo un altro strumento “uguale” (un altro esemplare dello stesso strumento) e misuro<br />

sullo stesso punto alla stessa ora: ottengo l’intervallo 12.319 e 12.320. Allora ? Probabilmente é<br />

accaduto che gli esemplari dei due strumenti sono scalibrati.<br />

Il valore vero di questa grandezza (lunghezza del tavolo) é dunque “elusivo” per tante ragioni. Che<br />

cos’è il valor vero ? La definizione metrologica é: valore vero = “un valore compatibile con la<br />

definizione della grandezza”. Come abbiamo visto, affinché sia univoco, deve essere ben definito.<br />

Ricapitoliamo le varie ragioni di incertezza che abbiamo incontrato nell’esempio visto.<br />

13


(a)<br />

Limitazione dello strumento (che rimane anche quando prendo uno strumento molto<br />

“migliore”) dovuta alla spaziatura tra le divisioni.<br />

(b)<br />

Problema della calibrazione (infatti devo aver confrontato il mio regolo con il<br />

campione di riferimento in qualche modo). Ma se non l’ho fatto ? O se nel frattempo qualcosa del<br />

mio strumento é cambiato ?<br />

(c) Cattiva definizione di quello che misuro (lunghezza del tavolo dove ?, a che ora ?)<br />

(d) Effetti non considerati che alterano la cosa che sto misurando (dilatazione termica del tavolo).<br />

(e)<br />

(f)<br />

Si noti che tra le ragioni di incertezza elencate, la (c) si applica non a tutte le grandezze fisiche.<br />

Alcune grandezze infatti hanno un carattere “universale” e sono perfettamente definite: la velocità<br />

della luce nel vuoto, la massa del protone, la costante di Planck etc.. La misura di queste grandezze<br />

é dunque affetta da errori di misura tutti inerenti il metodo di misura (inteso in senso lato) ma non é<br />

affetta da errori di misura relativi alla definizione della grandezza.<br />

Per ora concludiamo questa prima analisi delle incertezze accennando al fatto che ci possono essere<br />

altre cause. Tra queste:<br />

Limitazione nella conoscenza di altre cose che mi servono per arrivare al mio<br />

risultato (per esempio alcune costanti fondamentali, o il risultato di altre misure).<br />

Limitatezza del campione (qui la parole campione ha un significato diverso da quella<br />

di unità campione), cioè limitatezza delle informazioni disponibili (è il discorso dei conteggi cui<br />

abbiamo già accennato).<br />

In ogni caso l’esito del processo di misura é un numero: il valore misurato μ. Nel nostro caso sarà<br />

per esempio il centro dell’intervallo tra gli estremi del quale cade la misura. Ma per quanto detto<br />

finora il risultato non può limitarsi a quel numero proprio perché la mia conoscenza é comunque<br />

incerta. Sembra (dagli esempi visti) molto più sensato dare un intervallo di valori che in sostanza<br />

mi dice entro quali valori io penso sia il valore vero.<br />

Diamo allora le seguenti definizioni:<br />

L’Incertezza, é la stima data dallo sperimentatore della larghezza dell’intervallo” nel quale lui<br />

“crede” debba essere il valor vero. Qui il termine “crede” é ambiguo ma verrà precisato in seguito.<br />

In genere viene data come metà dell’intervallo.<br />

La Stima del valor vero (miglior valore, valore centrale) é il valore centrale, quello che mi<br />

convince di più. In genere é il centro dell’intervallo per cui il modo più tipico di dare il risultato<br />

sarà:<br />

valore centrale ± incertezza.<br />

L’Errore di Misura é invece la differenza tra valor vero e valore misurato: non accessibile<br />

sperimentalmente (se lo sapessi saprei il valor vero)<br />

Si noti la differenza tra i termini errore ed incertezza che spesso nell’uso comune sono ugualmente<br />

usati. Usando correttamente i termini diciamo: in virtù dell’esistenza di errori di misura, lo<br />

sperimentatore deve valutare l’incertezza di misura e dare il risultato della sua misura come<br />

intervallo tra due valori della grandezza.<br />

L’errore di misura in generale ha tanti contributi con caratteristiche diverse (alcuni che posso far<br />

diminuire quando aumento le informazioni a mia disposizione, altri no). L’incertezza deve stimare<br />

tutti i contributi possibili. Nel caso della misura della lunghezza del tavolo fatta con il calibro<br />

avente una divisione minima di 10 μm, vi sono 4 contributi: (1) l’incertezza dovuta alla limitazione<br />

della lettura (~ 10 μm), (2) quella dovuta alla calibrazione assoluta dello strumento (una stima é la<br />

differenza tra la misura fatta da 2 esemplari dello stesso strumento ~ 40 μm), (3) quella dovuta<br />

all’effetto della temperatura (~ 30 μm) ed infine (4) quella dovuta alla definizione del misurando (in<br />

che punto misuro ~ 30 μm). Si tratta come si vede di un caso complesso in cui “convivono” diverse<br />

sorgenti di incertezza dello stesso “ordine di grandezza”, nessuna veramente “trascurabile”.<br />

14


Ricapitolando: poiché le misure sono affette da errori di misura occorre stimarne le incertezze. Non<br />

si può mai dare un solo numero come risultato, occorre dare un intervallo nel quale io dico debba<br />

cadere il valore vero. E la determinazione di tale intervallo deve contenere una stima di tutte le<br />

possibili sorgenti di errore che posso pensare. Fare un esperimento significa essenzialmente fare<br />

questo.<br />

La bravura dello sperimentatore consiste nel progettare l’esperimento e nel realizzarlo in modo che<br />

le incertezze siano “piccole” rispetto alla precedente conoscenza della grandezza in misura.<br />

Accenniamo qui al fatto che in molti casi é opportuno utilizzare l’incertezza relativa, cioè il<br />

rapporto tra la larghezza dell’intervallo, ovvero l’incertezza ed il valore centrale dell’intervallo.<br />

L’incertezza relativa ha il pregio di permettere un confronto tra le incertezze di misure diverse. Per<br />

esempio se io misuro una con una incertezza di un micron una lunghezza di 100 micron ho una<br />

misura al “percento”, perché il rapporto 1 μm / 100 μm = 0.01 = 1%. Se invece misuro sempre con<br />

una incertezza di un micron una lunghezza di 1 m, ho una incertezza relativa di 10 -6 m / 1 m =10 -6 ,<br />

cioè sto misurando una lunghezza con una incertezza di una parte su un milione. Nei due casi<br />

illustrati le incertezze assolute sono le stesse (1 μm) ma le incertezze relative sono molto diverse (di<br />

ben 4 ordini di grandezza). Nel gergo dei fisici si usano spesso espressioni del tipo, “misura al<br />

percento” oppure “al permille”. Con tali espressioni si indica l’incertezza relativa della misura.<br />

(1.3) Esempi di valutazioni “qualitative” di incertezza<br />

Vediamo ora alcuni semplici esempi di stima dell’incertezza nel caso di misure dirette. Non si tratta<br />

di apprendere regole da applicare ma di imparare il metodo con cui i fisici generalmente discutono i<br />

vari casi che si presentano.<br />

(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento<br />

In molti casi fare una misura si riconduce alla lettura o di un display (lettura digitale) o della<br />

posizione di un ago su una scala graduata (lettura analogica). In cosa si distinguono il digitale e<br />

l’analogico (parole, la prima in particolare, usate anzi abusate oggi). In generale uno strumento che<br />

dà una risposta digitale é uno strumento che fornisce solo un insieme “discreto” di possibili<br />

risposte; lo strumento analogico dà un insieme “continuo” di possibili risposte.<br />

Consideriamo separatamente i due casi:<br />

(1) Lettura di un display. Se leggo un numero 5407.1 e questo numero é stabile (le cifre non<br />

cambiano nel tempo) l’unica conclusione che posso trarre é che il valore della misura sarà compreso<br />

tra 5407.05 e 5407.15. Infatti se fosse stato 5407.16 sarebbe stato approssimato a 5407.2 e cosi’ via.<br />

Posso dire niente di più ? Direi di no. Non so per esempio se é più ragionevole 5407.08 o 5407.09<br />

per me sono tutti ugualmente plausibili e ragionevoli. Dunque posso dare un intervallo 5407.10 ±<br />

0.05. Si noti che taluni strumenti possono usare diversi tipi di approssimazioni. Per esempio<br />

possono approssimare all’intero inferiore. In tal caso il nostro 5407.1 sarebbe equivalente ad un<br />

intervallo compreso tra 5407.1 e 5407.2 e il risultato potrebbe scriversi come 5407.15 ± 0.05.<br />

(2) Lettura di un ago fisso su una scala graduata. Ci sono intanto alcune cose da definire. La<br />

divisione é la distanza tra 2 tacche contigue; il fondo scala é il valore in corrispondenza del quale<br />

l’ago si porta all’estremo della scala. Più in là non si può andare. Proviamo a leggere la misura in<br />

questo caso. Devo dare una interpolazione tra divisioni; fino a che punto ci si può spingere ? Se do<br />

come intervallo le 2 tacche intorno all’ago certamente do un intervallo corretto. Sono certo che la<br />

misura sta li’. Tuttavia in questo caso posso fare meglio. Posso stabilire a quale delle 2 divisioni<br />

l’ago si é avvicinato di più, ci sono delle zone in cui é più plausibile situare il valore vero. Posso<br />

provare a stimare il più piccolo intervallo nel quale si situa con certezza il valore della misura. Nel<br />

corso della Esercitazione 1 cercheremo di stimare la capacità di interpolare tra le divisioni. Per ora<br />

ci limitiamo a stimare la capacità di interpolazione guardando i 5 esempi di Fig.1.1.<br />

15


Fig.1.1 Esempi di aghi analogici su scale graduate. Lo studente può tentare una prima interpolazione “a occhio” e<br />

poi controllare con i valori veri dati qui di seguito (sarebbe bene coprire questi numeri mentre si interpola con lo<br />

stesso metodo della prima esercitazione di laboratorio). [valori veri: 12.2210 / 12.7087 / 12.3500 / 12.5840 /<br />

12.8630 ]<br />

In generale fin qui ho stimato un intervallo massimo ovvero il più piccolo intervallo tale che sono<br />

“sicuro” che il valor vero della misura sia là dentro. Non ho specificato se alcune parti<br />

dell’intervallo sono più plausibili di altre. Nel caso del display digitale come abbiamo visto non c’è<br />

modo di fare di più. Nel caso della scala analogica invece posso fare qualcosa di più. Infatti ad<br />

alcune zone dell’intervallo credo di più che ad altre. Posso per esempio dire che la misura “non é”<br />

sulla divisione, oppure che é nella prima o nella seconda metà dello spazio tra le due divisioni.<br />

(1.3.2) Caso dei conteggi.<br />

Vi é un tipo di misura di grandissimo interesse ma che sfugge ai 2 schemi presentati nel precedente<br />

paragrafo. E’ il caso del conteggio cioè di una misura che si riconduce alla conta di un numero di<br />

volte in cui vi é una certa cosa. Appartengono alla classe dei conteggi i seguenti fenomeni: misure<br />

di radioattività (conto il numero di eventi radioattivi in un dato tempo), misure di concentrazione di<br />

una data specie, incidenza di una malattia in una popolazione, sondaggi e tutto il resto delle<br />

“misurazioni sociologiche”. Si tratta di tutti quei fenomeni in cui sono interessato al numero di<br />

occorrenze indipendentemente dall’ordine con cui queste si presentano. Possono essere nel dominio<br />

del tempo o dello spazio o di qualsiasi altra variabile. In ogni caso il risultato del conteggio é un<br />

numero intero (la variabile é dunque discreta non continua).<br />

Supponiamo di voler sapere quanti studenti si iscrivono al corso di laurea in fisica nella nostra<br />

Università. Li contiamo e troviamo 206. Cosa posso dire di questo numero ? Uno potrebbe dire che<br />

essendo un numero intero vale la regola del digit e dire 206.0 ± 0.5 ma evidentemente direbbe una<br />

sciocchezza. In realtà se la domanda che ci poniamo é quanti studenti si sono iscritti a fisica la<br />

risposta é 206 con incertezza nulla (a meno di non aver banalmente sbagliato il conteggio). Il<br />

problema sorge se vogliamo usare questo numero per stabilire quanti studenti in media si iscrivono<br />

a fisica in questi anni, oppure quanti possiamo prevedere se ne iscriveranno l’anno prossimo. Anche<br />

supponendo che le condizioni sociali non cambino e che gli orientamenti studenteschi rimangano<br />

immutati, nessuno direbbe mai che se ne iscriveranno di nuovo esattamente 206, ma tutti sappiamo<br />

che questo numero é destinato a fluttuare. Ma a fluttuare quanto ?é ragionevole supporre che se ne<br />

16


iscriveranno 50 o 2000 ? Intuitivamente direi di no. La teoria della probabilità e la statistica<br />

permettono in effetti di trattare le modalità di fluttuazione dei conteggi quando certe condizioni<br />

molto generali sono verificate. Le vedremo con un certo dettaglio nei prossimi capitoli.<br />

(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri.<br />

Supponiamo ora che il display o l’ago non sono fissi ma si muovono, magari vibrano come spesso<br />

accade. Siamo in presenza di fluttuazioni, cioè del fatto che per certe ragioni, il risultato della<br />

misura presenta una variazione casuale e non predicibile nel tempo<br />

(1) Lettura display con una o più cifre che cambiano (le cifre di destra evidentemente cambiano più<br />

rapidamente di quelle di sinistra, la cifra che si trova all’estrema destra é anche detta “digit meno<br />

significativo”). In tal caso si cerca di capire quant’è il massimo e quant’è il minimo assunti dal<br />

display al passare del tempo. Tali due valori cosi’ ottenuti forniscono un “rudimentale” intervallo<br />

massimo. Si noti però che se io aspetto un po’ per trovare massimo e minimo nessuno mi garantisce<br />

che aspettando un po’ di più io non trovi un numero fuori dall’intervallo. Cioè non sono<br />

completamente certo in questo caso che la misura sia là dentro. Anzi, l’estensione dell’intervallo é<br />

qualcosa che in generale cresce al passare del tempo (sicuramente non decresce), e dipende anche<br />

da fluttuazioni anomale (per esempio uno sbalzo della rete può dare un valore completamente<br />

sbagliato che non ha molto significato includere nella mia valutazione). Fatte salve queste<br />

considerazioni, il centro dell’intervallo ± la sua semiampiezza é comunque una stima ragionevole.<br />

(2) Lettura di un ago che vibra su una scala graduata. Si può applicare lo stesso metodo discusso<br />

sopra per il display digitale con le stesse “critiche” fatte.<br />

(3) Nel caso in cui sono in condizioni di ripetere la misura (naturalmente devono essere immutate le<br />

condizioni) e se ogni volta ottengo un numero diverso (per esempio fotografo ad intervalli regolari<br />

il mio ago che vibra, oppure leggo il display ad intervalli regolari o acquisisco i suoi valori tramite<br />

calcolatore) posso usare tutto il complesso di numeri ottenuto per tentare una stima un po’ più<br />

approfondita di come vanno le cose.<br />

I dati che ho ottenuto costituiscono una sequenza di numeri (registrati su computer o scritti su logbook),<br />

cioè una tabella tempo-valore, in cui il valore si può riferire a qualunque grandezza fisica<br />

(una massa, un numero di persone..). Approfondiamo con il prossimo paragrafo cosa si può fare in<br />

questo caso.<br />

(1.3.4) Analisi grafica della sequenza di numeri.<br />

Intanto chiamiamo campione l’insieme dei dati ottenuto. Questo termine ha qui un significato<br />

diverso da quello che abbiamo usato in metrologia. Sta ad indicare semplicemente un insieme di<br />

dati sperimentali.<br />

Vediamo come rappresentare e descrivere il campione, utilizzando dei metodi grafici. Si tratta di<br />

“ridurre” una sequenza di tanti numeri a quelle informazioni che sono rilevanti ai fini della<br />

comprensione del problema. Ci accorgiamo subito che a tale scopo la rappresentazione grafica é<br />

estremamente efficace.<br />

Una prima cosa da fare é un grafico del risultato in funzione del tempo (o di altre variabili<br />

rilevanti). Questo grafico infatti permette di fare una analisi delle fluttuazioni e di chiedersi in<br />

particolare se queste sono “casuali” o se c’è piuttosto una “tendenza”. Qui si può fare una prima<br />

analisi “a occhio” per capire. In generale l’occhio tende a confrontare la variazione della grandezza<br />

con le dimensioni delle fluttuazioni e tende a giudicare se una tendenza in un grafico é o no<br />

“significativa”. In altre parole il nostro occhio tende a distinguere tra un andamento (che é la cosa<br />

significativa che vogliamo studiare) e una serie di fluttuazioni casuali che semplicemente rendono i<br />

valori misurati più dispersi. Per questo confrontiamo le Fig.1.2 e Fig.1.3. In entrambe le figure sono<br />

riportate sequenze di 20 misure. Nel primo caso non si osserva alcun andamento ma solo delle<br />

17


fluttuazioni. Nel secondo caso invece, si ha una chiara tendenza all’aumento, sebbene sovrapposta<br />

ad una “banda” di fluttuazioni. In entrambe le figure sono disegnate due tipi di curve: delle spezzate<br />

cioè dei segmenti che uniscono i vari punti, ed un unica curva continua che dà l’idea<br />

dell’”andamento medio”. Si noti che mentre le spezzate non hanno molto significato (infatti non<br />

fanno altro che seguire delle fluttuazioni irrilevanti), le curve continue danno una idea chiara<br />

dell’andamento dei dati che in un caso (Fig.1.2) é piatto, nell’altro (Fig.1.3) é invece a crescere.<br />

Un secondo tipo di grafico é l’istogramma delle misure. Vediamo come si costruisce l’istogramma<br />

dei valori. Si divide l’intervallo di valori possibili in sottointervalli (vengono detti bin). Poi si conta<br />

il numero di valori che cadono in ciascun sottointervallo (contenuto del bin) e si fa una barra per<br />

ciascun intervallo di altezza proporzionale al contenuto del bin. La scelta del binning cioè delle<br />

dimensioni del bin deve essere ben calibrata. Ci sono infatti 2 estremi da evitare, ambedue sbagliati:<br />

bin troppo piccolo e bin troppo grande. Ciò é esemplificato dalle Fig.1.4 e 1.5 dove uno stesso<br />

campione di dati é rappresentato con binnaggi molto diversi. La scelta del binnaggio dipende<br />

essenzialmente dalle seguenti 3 considerazioni: (1) dalla “dispersione” delle misure cioè da quanto<br />

é largo l’intervallo nel quale sono distribuite; (2) dal numero di valori che si ha nella sequenza: se i<br />

valori sono tanti uno tende a restringere il bin, in caso contrario bin troppo stretti alzano le<br />

fluttuazioni tra i contenuti dei sottointervalli; (3) dalla scala delle variazioni della grandezza a cui<br />

sono interessato. La Fig.1.5 illustra un caso in cui la considerazione (3) gioca un ruolo molto<br />

rilevante. E’ utile discutere quale binnaggio sia il migliore tra quelli provati alla luce delle<br />

considerazioni svolte sopra.<br />

In generale nel passare dal grafico dell’andamento all’istogramma ho perso informazioni. Infatti<br />

una volta messi i valori nei bin non so più con che sequenza sono arrivati. Inoltre tutti i valori che<br />

cadono in un bin a questo punto sono uguali (associabili al centro del bin).<br />

Fig.1.2: Grafico della variabile in funzione del tempo per una sequenza di 20 misure. (a) grafico semplice, (b)<br />

grafico con una spezzata cioè con una linea che unisce i punti e (c) grafico con sovrapposta una retta che esprime<br />

un andamento “piatto” medio dei punti.<br />

18


Fig.1.3: Come per la figura 1.2 solo che stavolta si ha un andamento molto chiaro e in (c) tale andamento é indicato<br />

con una retta di coefficiente angolare positivo.<br />

Fig.1.4 Campione di 2000 valori istogrammato in 3 modi diversi con diversa scelta del binning. Si noti come sono<br />

diverse le informazioni che si hanno a occhio. Il caso intermedio sembra comunque costituire la scelta più sensata.<br />

19


4000<br />

3500<br />

3000<br />

2500<br />

2000<br />

1500<br />

1000<br />

500<br />

0<br />

600 650 700 750 800 850 900 950 1000<br />

M(ππ) (MeV)<br />

40000<br />

35000<br />

30000<br />

25000<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

600 650 700 750 800 850 900 950 1000<br />

M(ππ) (MeV)<br />

Fig.1.5. Esempio di uno stesso istogramma in due diversi binnaggi. Nella figura in alto l’istogramma ha un<br />

binnaggio di 1.2 MeV, nel secondo di 12 MeV. Si tratta di un caso in cui l’istogramma con binnaggio più<br />

largo non permette di evidenziare delle “strutture fini” come i 2 picchi alla destra della distribuzione, che<br />

invece sono evidenziati dal primo binnaggio.<br />

L’istogramma si chiama anche distribuzione delle misure. Se anziché riportare il numero di eventi<br />

per bin riporto il numero di eventi nel bin diviso per il numero totale di eventi, sto facendo una<br />

distribuzione di frequenze. Si definisce frequenza infatti la frazione di volte in cui un evento cade in<br />

un dato sottointervallo. E’ un numero che mi dice quanto spesso, se ripeto la misura, questa cadrà<br />

all’interno di quel bin. E’ qualcosa che può fornire indicazioni per eventualmente scommettere su<br />

dove finirà la misura.<br />

Si noti che nei casi discussi sopra (digit o ago fermi) i grafici non “aiutavano” molto: avremmo<br />

avuto un unico bin e una sequenza di numeri tutti uguali.<br />

Facciamo ora alcune considerazioni sui grafici.<br />

A cosa serve un grafico ? In generale serve per “far capire bene una certa cosa”. Quindi la sua<br />

principale proprietà deve inevitabilmente essere la chiarezza. Originariamente i grafici venivano<br />

fatti a mano utilizzando la carta millimetrata . Oggi l’uso dei computer rende la carta millimetrata<br />

“obsoleta”. Tuttavia fidarsi solo dei computer é per molti versi pericoloso come abbiamo già visto.<br />

Per questo é opportuno usare come primo approccio ai grafici proprio la carta millimetrata.<br />

Di cosa dobbiamo preoccuparci quando facciamo un grafico:<br />

- sapere quali sono la/le grandezze nei 2 assi e quali sono le (eventuali) unità di misura;<br />

- riuscire a capire quali sono le scale; la scala definisce il massimo ed il minimo di ciascun asse<br />

coordinato e le loro “divisioni”. Deve essere indicata in modo che sia comprensibile. A tale scopo é<br />

opportuno mettere “numeri semplici” sugli assi, non “numeri strani” (vedremo meglio questo nelle<br />

esercitazioni);<br />

- i “punti sperimentali” devono essere chiaramente visibili e deve essere facile individuarne i valori<br />

numerici usando la scala.<br />

20


Fig.1.6 Tre esempi di istogrammi. Per ciascuno sono indicati i valori dei 3 descrittori globali che abbiamo<br />

introdotto nel testo: media, moda e mediana. Le 3 linee sono disegnate in corrispondenza delle mediane.<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1<br />

cos(θ)<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

0<br />

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1<br />

cos(θ)<br />

Fig.1.7. Due esempi di distribuzioni angolari molto diverse definite però nello stesso intervallo (-0.7:0.7). Sono<br />

indicati gli intervalli x ± s e x ± 2s. In entrambi i casi l’intervallo x ± 2sé sufficiente per includere tutta la<br />

distribuzione e costituisce pertanto un intervallo di certezza. L’intervallo x ± sé invece parziale e racchiude il<br />

61% degli eventi nel grafico in alto ed il 58% in quello in basso.<br />

21


(1.3.5) Caratteristiche riassuntive di una sequenza di numeri<br />

Oltre ai grafici voglio però dare dei numeri riassuntivi al fine di stimare appunto il miglior valore e<br />

l’incertezza. Voglio definire dei “descrittori globali” del mio campione.<br />

Media aritmetica: si tratta di una nozione intuitiva che indica il valore che meglio rappresenta il<br />

campione. L’operazione di media aritmetica é “elementare” e “naturale” nel senso che anche senza<br />

se non ce ne accorgiamo la facciamo spesso.<br />

Come si fa la media ? Se ho fatto N misure e ho ottenuto i valori x , x ,..., x definisco media<br />

1 2<br />

N<br />

aritmetica la quantità:<br />

x<br />

= 1<br />

N<br />

∑ xi<br />

i=<br />

N<br />

Tuttavia la quantità cosi’ definita non sempre corrisponde al “valore centrale” o a quello “più<br />

probabile” della distribuzione. Ci sono esempi di distribuzioni in cui la media aritmetica non é né<br />

l’una ne l’altra delle due cose. In Fig.1.6 sono riportati degli esempi di istogrammi di misure con i<br />

valori corrispondenti della media. Si vede immediatamente che solo in caso di istogrammi<br />

simmetrici la media ha il significato intuitivo di valore centrale e più probabile.<br />

Si possono definire altre misure: la Moda é il valore più probabile della grandezza ovvero il picco<br />

più alto dell’istogramma; la Mediana é quel valore della grandezza tale che la frequenza che venga<br />

di meno é uguale alla frequenza che venga di più. Quando l’istogramma é simmetrico come nel<br />

caso del primo dei 3 riportati in Fig.1.6 le tre misure dette sostanzialmente coincidono. Negli altri 2<br />

casi invece la media aritmetica non corrisponde al centro dell’istogramma.<br />

Se ho dei valori istogrammati posso raggruppare i valori e allora posso definire<br />

x<br />

b<br />

Nb<br />

∑ n x<br />

k<br />

k=<br />

1<br />

∑ n<br />

= Nb<br />

k=<br />

1<br />

k<br />

b<br />

k<br />

b<br />

in cui Nb é il numero di bin, n è il contenuto del k-esimo bin ed x è il centro del k-esimo bin. Si<br />

k<br />

k<br />

noti che Nb é diverso da N. Le due definizioni di media aritmetica sono leggermente differenti.<br />

Infatti nel secondo caso in realtà finisco per attribuire a ciascuna misura il centro del bin cui<br />

appartiene. Quindi si “perde” informazione. La seconda definizione può dunque portare a<br />

distorsioni del valore della media, distorsioni tanto più grandi quanto maggiore é la dimensione del<br />

bin scelta.<br />

Notiamo inoltre che, da quanto detto, occorre fare attenzione al fatto che la media ha un significato<br />

chiaro solo se non ci sono andamenti sovrapposti alle fluttuazioni. In generale infatti la dispersione<br />

dell’istogramma totale ha una componente dovuta alle fluttuazioni ed una componente che dipende<br />

dal tempo dovuta proprio all’andamento (questo si applica in particolare ai dati di Fig.1.3). La<br />

media quindi in questo caso dipende da dove e quanto campioniamo.<br />

Oltre alla posizione voglio stimare la dispersione (che é legata all’incertezza sulla misura) cioè la<br />

larghezza dell’istogramma o della banda di fluttuazione nel grafico.<br />

Posso fare ( massimo – minimo ) / 2 ottenendo cosi’ un intervallo massimo. Ciò corrisponde a<br />

quanto detto sopra per il caso di misure digitali con cifre fluttuanti o nel caso di un ago in moto. Si<br />

presta alla critica fatta allora. Abbiamo bisogno di un metodo più “stabile”.<br />

Deviazione Standard Campionaria. Allo stesso modo con cui ho definito la media aritmetica<br />

come stima del valore centrale, posso definire come stima della dispersione, la “media degli scarti<br />

dalla media”. Tuttavia mi accorgo immediatamente che se definisco<br />

22


N<br />

∑(<br />

x − x)<br />

i<br />

i<br />

s = = 1 N<br />

cioè la media degli scarti, ho una variabile identicamente nulla. Infatti si ha:<br />

1<br />

= ∑ N<br />

xi<br />

Nx<br />

i= s − = x − x = 0<br />

N N<br />

per definizione. In effetti ciò significa che la media aritmetica é proprio quel valore di x rispetto al<br />

quale é nulla la media degli scarti. Una definizione più appropriata di dispersione si ottiene<br />

considerando la media degli scarti al quadrato<br />

s<br />

N<br />

∑(<br />

x<br />

− x)<br />

2<br />

2<br />

i<br />

i=<br />

= 1<br />

N<br />

e poi prendendone la radice quadrata (per avere anche una grandezza omogenea dimensionalmente<br />

a x):<br />

s<br />

i=<br />

1<br />

=<br />

N<br />

∑(<br />

x<br />

i<br />

− x)<br />

N<br />

2<br />

Si tratta di una grandezza sempre positiva che prende il nome di deviazione standard campionaria o<br />

anche semplicemente deviazione standard. Il suo quadrato é detto varianza campionaria o<br />

semplicemente varianza. Il suo significato é chiaramente intuitivo (quanto scarto in media dalla<br />

media). Rispetto alla stima dell’intervallo massimo, ha il vantaggio di usare tutti i dati e di essere<br />

meno sensibile ad eventuali fluttuazioni anomale. Nel seguito del corso vedremo più<br />

approfonditamente il suo significato. Per ora essa é una stima della “dispersione delle misure”.<br />

Si noti che in base alla definizione appena fatta, c’è un secondo modo di calcolare la deviazione<br />

standard campionaria. Infatti essa può essere espressa come (consideriamo prima la varianza<br />

campionaria):<br />

s<br />

2<br />

N<br />

∑(<br />

xi<br />

i=<br />

1<br />

=<br />

2<br />

− 2x<br />

x + x<br />

N<br />

i<br />

2<br />

)<br />

N<br />

∑ xi<br />

i=<br />

1<br />

=<br />

N<br />

2<br />

N<br />

x∑<br />

xi<br />

i=<br />

1<br />

− 2<br />

N<br />

+ x<br />

2<br />

=<br />

x<br />

2<br />

− x<br />

cioè come la differenza tra la media dei quadrati e il quadrato della media. Si noti che tale<br />

differenza non é 0 in generale ma é per definizione una quantità positiva. Cosi’ definita, la<br />

deviazione standard può essere valutata senza aver prima valutato la media aritmetica. Dal punto di<br />

visto del calcolo, significa che anziché fare 2 “loops” sulle misure, é sufficiente farne 1.<br />

Se definisco un intervallo centrato nella media e di semilarghezza pari alla deviazione standard,<br />

questo intervallo non é un intervallo massimo. Rappresenta solo una parte della larghezza. Non<br />

sono certo che la misura cada là dentro. Tuttavia é una misura proporzionale alla larghezza. Fig.1.7<br />

mostra per alcuni istogrammi, l’intervallo centrato sulla media delle misure e avente la deviazione<br />

standard come semilarghezza. Si può osservare (si tratta di una osservazione su base puramente<br />

empirica per la quale troveremo una giustificazione nel seguito del corso) che costruendo intervalli<br />

di semilarghezza pari a 3 volte la deviazione standard, si ottengono intervalli all’interno dei quali<br />

praticamente tutti i valori sono contenuti. Nel seguito chiameremo tali intervalli, intervalli di quasicertezza.<br />

Nel seguito vedremo anche che la deviazione standard come l’abbiamo definita deve essere corretta<br />

per tenere conto del fatto che nel considerare gli scarti tra ciascuna misura e la media aritmetica, in<br />

realtà sto usando 2 volte ciascuna misura: infatti ciascuna misura compare sia nella media, che<br />

come singola misura. Questo fatto si traduce nella seguente definizione:<br />

2<br />

23


(<br />

1<br />

= ∑ N<br />

xi<br />

i=<br />

s<br />

N<br />

− x)<br />

−1<br />

2<br />

in cui viene sottratta una unità al denominatore. Nel seguito chiameremo deviazione standard<br />

campionaria la quantità s appena definita e chiameremo s quella con N al posto di N-1.<br />

Anche per s vale una forma analoga a quella vista per<br />

s<br />

2<br />

N<br />

=<br />

N −1<br />

2<br />

2<br />

( x − x )<br />

Infine per la deviazione standard campionaria si può dare una definizione sull’istogramma come per<br />

la media, nella forma:<br />

s =<br />

Nb<br />

∑<br />

k = 1<br />

n ( x<br />

k<br />

Nb<br />

∑<br />

k=<br />

1<br />

n<br />

b<br />

k<br />

k<br />

− x)<br />

−1<br />

2<br />

per la quale valgono le stesse considerazioni fatte per la media.<br />

Ricapitolando: sono andato riducendo i dati cercando di mantenere le informazioni rilevanti: dalla<br />

sequenza di numeri ho ricavato il grafico in funzione del tempo, quindi l’istogramma dei valori<br />

(prima perdita di informazioni), infine ho imparato a valutare la “posizione” e la “dispersione” del<br />

campione (seconda perdita di informazioni).<br />

s<br />

N<br />

N<br />

Fig.1.8: Sequenza di 1000 misure ripetute ogni 10 secondi. Nella figura di sotto sono riportate le medie fatte ogni<br />

20 misure. Si noti il restringimento della banda di fluttuazioni.<br />

24


Fig.1.9: Per la sequenza illustrata in Fig.1.3 facciamo l’istogramma delle prime 100 misure, quello di tutte le 1000<br />

misure ed infine l’istogramma delle medie fatte ogni 20 misure. Si noti<br />

aggiungendo statistica la distribuzione mantiene sostanzialmente la stessa larghezza;<br />

l’istogramma delle medie é “molto più stretto”.<br />

(1.3.6) Stima di intervalli.<br />

Consideriamo ancora il caso in cui ho N misure ripetute di una grandezza fisica secondo le modalità<br />

viste nel precedente paragrafo. Dopo averle studiate graficamente e averne calcolato le<br />

“caratteristiche riassuntive” media e deviazione standard campionaria, voglio concludere dando in<br />

forma compatta il risultato della misura sotto forma di un valore centrale e di un’incertezza. Che<br />

informazione voglio dare con questo intervallo di incertezza ? Il mio obiettivo rimane quello di dire<br />

qualcosa riguardo il valor vero, cioè di dare un intervallo in cui deve trovarsi il valor vero. Ma al<br />

tempo stesso la mia affermazione deve anche essere predittiva. Cioè devo predire la cosa seguente:<br />

se io o un’altra persona ripetiamo la misura in quale intervallo cadrà tale misura ? In questa<br />

prospettiva devo subito distinguere tra 2 possibilità:<br />

(a) Stimo un intervallo tale che la prossima misura cada là dentro.<br />

(b) Stimo un intervallo tale che se rifaccio N misure la loro media cada là dentro.<br />

Occorre distinguere bene i 2 casi, cioè il caso in cui sono interessato alla incertezza sulla singola<br />

misura (caso (a)) e il caso in cui sono interessato all’incertezza sulla media (caso (b)).<br />

A questo proposito é interessante fare l’esercizio illustrato dalla Fig.1.8. E’ illustrato il grafico<br />

dell’andamento di 1000 misure ripetute ad intervalli regolari di 10 secondi di una certa grandezza<br />

fisica. Ogni punto nel grafico in alto é dato da una singola lettura dello strumento. Se raggruppo i<br />

dati M a M (con M evidentemente < N e L=N/M numero dei gruppi) e grafico l’andamento delle L<br />

medie di ciascun gruppo, osservo che le medie fluttuano meno rispetto alle singole misure. In altre<br />

parole l’operazione di media ha il potere di “smorzare” le fluttuazioni. Questo fatto é di estrema<br />

importanza. Si trova che (lo dimostreremo più avanti nel corso) vale la regola:<br />

s(<br />

x)<br />

s( x)<br />

=<br />

M<br />

25


Cioè le medie fluttuano M volte meno di quanto fluttuano le singole misure. Mi aspetto quindi che<br />

facendo la media di tutte le N misure, questa fluttui N volte meno della singola misura.<br />

Si noti tuttavia che la deviazione standard della singola misura (s per intenderci) non diminuisce al<br />

crescere delle misure ma semplicemente si stabilizza, cioè l’istogramma presenta sempre la stessa<br />

forma, ma le fluttuazioni tendono a diminuire come é ben illustrato dal confronto tra i 2 istogrammi<br />

in alto della Fig.1.9. Viceversa la deviazione standard della media diminuisce come appunto<br />

mostrato nel terzo istogramma di Fig.1.9. La deviazione standard di quest’ultimo istogramma é<br />

proprio<br />

≈<br />

M<br />

volte più piccola di quella fatta usando la singola misura.<br />

Tornando dunque al nostro problema di definire un intervallo per la singola misura (caso (a)) e per<br />

la media delle N misure, potrò procedere nel modo seguente:<br />

caso (a) x ± s<br />

caso (b) x ± s / N<br />

che esprime il fatto che mentre mi aspetto che una successiva N+1-esima misura sia distribuita<br />

secondo la Fig.1.9(2), la media di un altro set di M misure sarà distribuita secondo la Fig.1.9(3).<br />

In definitiva se voglio dare la migliore stima di un intervallo per il valor vero é corretto utilizzare il<br />

caso (b) con il quale uso tutte le informazioni in mio possesso nel modo più efficace.<br />

Concludiamo il paragrafo con un paio di osservazioni.<br />

Osservazione 1: confrontiamo il caso che abbiamo appena visto, con quello di una misura che<br />

non cambia (digitale o analogica che sia). La situazione in cui le misure cambiano sembra<br />

paradossalmente migliore. In effetti é proprio cosi’. Il fatto é che se le misure fluttuano, aumentarle<br />

di numero aiuta perché permette di conoscere sempre meglio la media e di veder diminuire la<br />

deviazione standard come 1 / N . Se invece ottengo sempre lo stesso valore evidentemente non<br />

posso andare aldisotto della mia capacità di interpolare tra le divisioni o al digit più significativo.<br />

Questo apparente paradosso ci insegna che occorre scegliere opportunamente il passo minimo (la<br />

risoluzione) del nostro strumento di misura sulla base delle fluttuazioni della misura stessa.<br />

Osservazione 2: l’uso della deviazione standard della media mi permette di dare un intervallo<br />

per il valor vero. Quale é il significato “probabilistico” di questo intervallo ? Come abbiamo già<br />

visto, la risposta a questa domanda verrà dalla seconda parte del corso. Per ora possiamo dire solo 2<br />

cose: (1) in generale non si tratta di un intervallo “massimo”; (2) il contenuto probabilistico<br />

dell’intervallo dipende da come sono distribuite le misure, cioè dalla forma dell’istogramma e dal<br />

numero di misure effettuate; (3) un intervallo di semilarghezza pari a 3 deviazioni standard<br />

(intervallo di quasi-certezza definito in precedenza) ha un significato probabilistico che in ogni caso<br />

é di quasi certezza.<br />

È interessante stimare il contenuto probabilistico di una deviazione standard direttamente dai dati<br />

(quanti degli N valori sono fuori dall’intervallo x ± s ) per gli istogrammi delle varie figure<br />

mostrate (in particolare Fig.1.7).<br />

(1.3.7) Errori sistematici<br />

Dalle considerazioni fatte in precedenza sorge una domanda: ma allora se aumento N a piacere<br />

mando la larghezza del mio intervallo a 0. E’ vero ?<br />

In linea di principio si. In realtà accade che oltre un certo valore di N aumentare il numero di misure<br />

non serve più. Infatti a un dato punto entrano in gioco altri errori dovuti ad una delle cause che<br />

abbiamo indicato all’inizio della nostra discussione sulle incertezze, e che in generale possono non<br />

dipendere da quante misure facciamo.<br />

Possono dipendere da:<br />

Calibrazione degli strumenti.<br />

Condizioni non sotto controllo.<br />

26


Rientrano in questa categoria gli errori sistematici. Il termine errore sistematico é un termine forse<br />

non del tutto appropriato. Nasce dal fatto che tendenzialmente si tratta di errori che hanno una<br />

“direzione fissa”. Per esempio nel caso della taratura, uno strumento starato lo é in una direzione. In<br />

molti casi il costruttore dello strumento che stiamo usando fornisce nel libretto di istruzioni,<br />

l’indicazione dell’errore sistematico dovuto ai vari possibili effetti. In tal caso é possibile trovarsi in<br />

una situazione in cui anche se lo strumento sembra molto buono (per esempio é possibile<br />

apprezzare molti digits che non cambiano quando ripeto la misura), in realtà la sua accuratezza può<br />

essere molto cattiva fino a dominare l’incertezza complessiva della misura.<br />

In generale dunque é opportuno riferirsi alla seguente distinzione tra due categorie di errori:<br />

Errori sistematici (se aumento il campione questi non diminuiscono). Se li conosco posso<br />

correggere il mio risultato, se non li conosco devo stimare un intervallo nel quale sono contenuti.<br />

Errori casuali (posso mandarli a 0 nel limite di campione infinito). Si trattano con i metodi<br />

propri della statistica di cui abbiamo visto alcuni esempi.<br />

In definitiva l’errore sistematico é quello che rimane nel limite di campione di dimensione infinita.<br />

(1.4) Sequenze di “coppie” di misure<br />

Passiamo ora ad un diverso problema. Immaginiamo di avere una sequenza di coppie di valori di 2<br />

grandezze fisiche, cioè una tabella con 2 colonne e N righe, e ciascuna riga rappresenta il risultato<br />

della misura simultanea delle 2 grandezze che stiamo studiando.<br />

In taluni problemi infatti, i fenomeni devono essere descritti non solo da una variabile casuale, ma<br />

da più variabili casuali. Non sempre ci si trova in condizioni di poter trattare in modo separato<br />

ciascuna variabile casuale. Nell’esperienza della molla vediamo che T ed M ma anche δx ed M<br />

sono tali che al variare dell’una varia l’altra. Un esempio diverso dal precedente si ha quando<br />

consideriamo una misura di superficie, fatta misurando i due lati con lo stesso strumento<br />

caratterizzato da una dipendenza dalla temperatura o da altri parametri che spostano la sua<br />

calibrazione. E’ chiaro che in tal caso gli errori di misura di un lato e dell’altro lato non sono<br />

indipendenti, ma hanno un andamento “analogo”. In entrambi gli esempi fatti siamo in presenza di<br />

grandezze fisiche correlate cioè tali che i valori assunti dall’una e dall’altra non sono indipendenti<br />

ma sono legati da una qualche forma di dipendenza.<br />

Si deve tuttavia distinguere tra due casi (per evitare confusioni):<br />

(a) il caso in cui sono correlate le grandezze;<br />

(b) il caso in cui sono gli errori di tali grandezze ad essere correlati.<br />

Il caso della molla é del primo tipo. Infatti T é correlato ad M ma non sono correlate la misura di T<br />

con quella di M. Nel secondo caso invece i valori dei 2 lati non sono correlati, ma gli errori di<br />

misura che faccio nel misurare le 2 cose sono invece chiaramente correlati.<br />

La correlazione tipo (a) rientra nell’ambito delle dipendenze funzionali tra grandezze fisiche,<br />

dovute proprio alla “fisica del fenomeno”, ed é quindi oggetto di studio (come vedremo nel terzo<br />

capitolo). La correlazione del tipo (b) é invece una caratteristica dell’”apparato di misura”, ed in<br />

generale é non voluta. Bisogna tuttavia tenerne conto nell’interpretare i risultati delle misure.<br />

Ci occupiamo a questo punto del caso (b), cioè del caso in cui due o più grandezze fisiche<br />

presentano una correlazione dovuta al modo con cui le misuro.<br />

Il modo più semplice per mettere in evidenza il fenomeno della correlazione tra 2 grandezze A e B é<br />

quella di ripetere N volte la misura simultanea delle 2 grandezze nelle stesse condizioni e di<br />

27


iportare su un grafico N punti ciascuno avente per ascissa la grandezza A e per ordinata la<br />

Fig.1.10 Esempio di grafico di correlazione tra 2 variabili fortemente correlate (qui ρ=0.9). Sotto sono poi mostrati<br />

gli istogrammi delle proiezioni sui due assi.<br />

Fig.1.11 Altro esempio di grafico di correlazione nel caso in cui ρ=0. Si noti che gli istogrammi delle 2 proiezioni<br />

sono simili a quelli di Fig.1.10. Ciò indica che la correlazione non può essere desunta da semplici istogrammi di<br />

correlazione ma necessita di grafici di correlazione.<br />

grandezza B. Si tratta di un grafico bi-dimensionale o grafico di correlazione. Le proiezioni sui 2<br />

assi A e B di questo grafico, altro non sono che i 2 istogrammi mono-dimensionali delle 2<br />

28


grandezze dai quali possiamo ricavare media e deviazione standard secondo i ben noti metodi. Due<br />

esempi sono illustrati nelle Fig.1.10 e 1.11. Le figure mostrano un caso chiaro di correlazione e un<br />

caso chiaro di non correlazione. Nel primo caso i punti tendono a disporsi sul grafico lungo la<br />

bisettrice del primo e terzo quadrante, nel secondo caso invece il grafico si presenta come una<br />

”palla”. Nel primo caso si ha dunque una correlazione, cioè le fluttuazioni di una grandezza sono<br />

“correlate” alle fluttuazioni dell’altra. Quando A fluttua positivamente anche B lo fa. Nel secondo<br />

caso invece questo chiaramente non succede. La distribuzione di B é indipendente da A. Si noti che<br />

nei 2 casi, gli istogrammi delle proiezioni sono equivalenti. Questo ci dice che il grafico bidimensionale<br />

porta informazioni in più che l’analisi delle singole proiezioni tende a mascherare.<br />

In analogia a quanto fatto per la sequenza di numeri, definiamo una nuova grandezza che<br />

caratterizza lo stato di correlazione tra le 2 grandezze che stiamo considerando. La covarianza<br />

campionaria tra due grandezze x 1 ed x 2 definita come:<br />

(<br />

1<br />

cov( , ) = ∑ N<br />

x<br />

i=<br />

x x<br />

1<br />

2<br />

i<br />

1<br />

−<br />

i<br />

x )( x<br />

1<br />

2<br />

N −1<br />

−<br />

x<br />

2<br />

)<br />

Per determinare questa grandezza sperimentalmente occorre misurare una sequenza di N coppie di<br />

valori di x 1 e di x 2 in condizioni di ripetibilità della misura, e da questi applicare la definizione. Un<br />

modo equivalente per esprimere la covarianza campionaria é dato da:<br />

cov( x , x<br />

1<br />

2<br />

N<br />

) = ∑ =<br />

i 1<br />

i<br />

( x x<br />

1<br />

i<br />

2<br />

− x x<br />

1<br />

i<br />

2<br />

− x<br />

N −1<br />

i<br />

1<br />

x<br />

2<br />

+ x x )<br />

1 2 N<br />

=<br />

N −1<br />

( x x − x x )<br />

da cui si vede come la covarianza campionaria costituisce una generalizzazione della varianza<br />

campionaria (che chiamiamo Var(x) intendendo con ciò s 2 ). Infatti<br />

Var ( x)<br />

= cov( x,<br />

x)<br />

cioè la varianza campionaria altri non é che la covarianza calcolata tra una grandezza e se stessa.<br />

Per la covarianza delle medie tra 2 campioni vale che:<br />

cov( x , x )<br />

1 2<br />

cov( x , x ) =<br />

1 2<br />

N<br />

cioè, come per la varianza campionaria, la covarianza tra medie diventa sempre più piccola al<br />

crescere della dimensione del campione.<br />

Si definisce infine anche il coefficiente campionario di correlazione:<br />

r ( x<br />

1<br />

, x<br />

2<br />

)<br />

∑<br />

N<br />

∑<br />

i = 1<br />

=<br />

N<br />

( x<br />

( x<br />

i<br />

i<br />

1<br />

−<br />

−<br />

x<br />

x<br />

)( x<br />

∑<br />

1<br />

1<br />

i = 1 i = 1<br />

1<br />

)<br />

2<br />

N<br />

i<br />

2<br />

( x<br />

−<br />

i<br />

2<br />

che é sempre definito tra –1 ed 1 ed esprime in forma adimensionale il grado di correlazione tra 2<br />

grandezze. Si noti come queste definizioni campionarie, costituiscono una espressione in forma<br />

“quantitativa” di quanto graficamente é espresso dai grafici visti. Per comprendere il significato del<br />

coefficiente di correlazione r é utile riferirsi al grafico di Fig.1.12. Dividiamo il grafico di<br />

correlazione in 4 quadranti intorno ad un punto di coordinate date dai 2 valori medi come in figura.<br />

I punti appartenenti a ciascun quadrante sono caratterizzati da diversi segni delle fluttuazioni<br />

rispetto al valore medio e sono indicati come ++, --, +-, -+. Riferendosi all’espressione di r appena<br />

data, vediamo che i 4 quadranti danno i seguenti segni ad r: +, +, -, -. Quindi il prevalere dei punti<br />

su un dato quadrante fa prevalere un segno in r. Nel caso della figura il prevalere dei punti nei<br />

quadranti (++) e (--) fornisce un valore positivo di 0.9. Quando i 4 quadranti hanno mediamente lo<br />

stesso numero di punti (è il caso della “palla” di non correlazione), r sarà mediamente 0.<br />

Si noti che nel caso di mancanza di correlazione non dobbiamo aspettarci 0 esattamente, ma un<br />

numero abbastanza prossimo a 0. Quanto prossimo deve essere dipende dal numero N di misure.<br />

x<br />

−<br />

2<br />

)<br />

x<br />

x<br />

)<br />

2<br />

1<br />

2<br />

1<br />

2<br />

29


Esiste un metodo detto test di correlazione per stabilire su basi quantitative la correlazione tra<br />

grandezze (tale test sarà trattato nei corsi successivi di laboratorio).<br />

Fig.1.12 Stesso grafico di correlazione con r=0.9 mostrato nella Fig.1.10 suddiviso nei 4 quadranti.<br />

(1.5) Terminologia<br />

È bene fare chiarezza sul significato di alcuni termini che si usano quando si parla di strumenti e di<br />

misure. Facciamone un elenco (alcune cose le abbiamo già definite):<br />

sensibilità : quanto la variazione del misurando, fa cambiare l’uscita dello strumento<br />

risoluzione : minima differenza tra le possibili uscite di uno strumento che sia “apprezzabile”. E’<br />

la sensibilità in forma “quantizzata”. E’ il digit nel caso digitale.<br />

precisione : quanto sono vicini i risultati di una misura quando la ripeto.<br />

accuratezza : vicinanza tra valore vero e valore misurato, nel limite in cui ho un campione di<br />

dimensione infinita; é collegata chiaramente a quello che abbiamo chiamato errore sistematico.<br />

tolleranza : entro quale intervallo i valori di una tale grandezza sono accettabili. E’ una<br />

“specifica” del costruttore di uno strumento o di un qualche componente.<br />

ripetibilità : sono in condizioni di ripetibilità quando posso ripetere la misura senza che cambino<br />

quelle condizioni che possono alterarne l’esito.<br />

riproducibilità : sono invece in condizioni di riproducibilità quando un dato risultato viene<br />

ottenuto da esperimenti diversi. In genere, l’accettazione di un dato risultato passa attraverso la<br />

verifica di tale proprietà. Un risultato che non viene riprodotto o che non può essere riprodotto é<br />

infatti “sospetto” e generalmente non accettato dalla comunità scientifica.<br />

È da notare che questo “glossario” non é univoco (dipende dai testi). Quello che usiamo noi<br />

risponde alle più recenti norme metrologiche.<br />

(1.6) Cifre significative<br />

30


Come si scrivono i numeri in fisica ? I numeri in fisica sono i risultati di una misura oppure sono il<br />

risultato di una predizione teorica. In generale i numeri in fisica hanno un significato diverso da<br />

quello che hanno i numeri in matematica. Di questo occorre tener conto. Vediamo come.<br />

Capita a volte di trovarsi di fronte a numeri del tipo 1.342607 (per esempio possiamo leggere un<br />

numero del genere sul display della nostra calcolatrice). Impariamo a contare le cifre di questo<br />

numero. Quante cifre ha ? Un numero cosi’ fatto ha 7 cifre significative ed é scritto con una<br />

notazione per la quale ha 6 decimali cioè 6 cifre dopo la virgola. Prendiamo invece 0.022. In questo<br />

caso sono 2 le cifre significative perché gli zeri a sinistra non contano. Che gli zeri a sinistra non<br />

contano, lo vediamo per il semplice fatto che questo stesso numero io posso scriverlo come 22x10 -3<br />

o 2.2x10 -2 cioè con 2 cifre. Viceversa il numero di decimali dipende da come lo scrivo. 0.022 ha 3<br />

decimali, 22x10 -3 o 2.2x10 -2 ne hanno rispettivamente 0 e 1. Quindi : il numero di cifre significative<br />

é una caratteristica intrinseca del numero, il numero di decimali dipende da come lo scrivo cioè da<br />

dove metto la virgola.<br />

La notazione esponenziale serve essenzialmente ad evitare le cose tipo 0.0000000011 o 132000000.<br />

Quando gli 0 sono inutili, quando sono a sinistra o a destra, conviene toglierli dopo averli contati e<br />

messo l’esponente di 10.<br />

Torniamo al nostro problema del significato dei numeri. Poiché, come abbiamo detto, il significato<br />

dei numeri in fisica é diverso da quello che si ha in matematica, occorre fare attenzione. Scrivere 1<br />

o 1.0 o 1.00 dal punto di vista del matematico significa scrivere lo stesso numero. Dal punto di vista<br />

del fisico no. I numeri in fisica, essendo risultati di misure, portano informazioni. Pertanto occorre<br />

limitarsi a quelle cifre che rispecchiano informazioni reali alle quali “credo”. Dunque quando scrivo<br />

un numero devo tener conto di quanto sono incerto su quel numero.<br />

Esempio. Leggo una sequenza di 6 misure consecutive da un display digitale a 8 cifre. I numeri<br />

sono (prima colonna della tabella):<br />

21.045277 21.045<br />

21.047410 21.047<br />

21.046389 21.046<br />

21.043976 21.044<br />

21.045608 21.046<br />

21.043578 21.044<br />

Che significato hanno le settime e ottave cifre di ciascun numero ? Evidentemente la grandezza sta<br />

variando sulla cifra 5. Le prime 4 sono significative, la 5 anche perché pur fluttuando, alcuni valori<br />

sono più frequenti di altri. Dalla numero 6 in poi non significano più nulla. Quindi sarà bene<br />

riportare la sequenza nella forma indicata nella colonna di destra. Si noti che nel passare dalla<br />

colonna di sinistra a quella di destra ho dovuto troncare i numeri, e nel farlo ho approssimato<br />

l’ultima cifra al valore inferiore nelle prime tre righe e a quello superiore nelle ultime tre. Il motivo<br />

é evidente. Infatti se la cifra successiva (la prima che tolgo) é 0,1,2,3 o 4 allora approssimo al valore<br />

inferiore. Nel caso in cui tale cifra sia 6,7,8 o 9 approssimo al superiore. E se é 5 ? 5é proprio lo<br />

spartiacque tra i due casi, ma evidentemente se il valore é un po’ più di 5 (vedi ultima riga della<br />

tabella) allora siamo aldisopra dello spartiacque. L’unico caso in cui non so che fare é quando la<br />

cifra successiva é 5 con tanti 0 alla sua destra oppure é 5 e non so cosa c’è dopo. In tal caso la cosa<br />

migliore é forse lasciare il 5.<br />

Torniamo al nostro problema delle cifre. Generalizzando quanto visto diciamo che:<br />

non hanno “significato”, non aggiungono “informazioni” quelle cifre che stanno più a destra della<br />

prima cifra sulla quale sono incerto. Quindi il fatto che non aggiungono informazioni implica che<br />

devo ometterle nella presentazione del risultato.<br />

Cosa succede quando moltiplico o divido ?<br />

Analizziamo questa circostanza con un semplice esempio. Supponiamo di voler determinare la<br />

velocità della nostra auto misurando con un cronometro il tempo impiegato a percorrere una<br />

31


distanza di 36 km (distanza tra due uscite dell’autostrada secondo la segnaletica). Con il cronometro<br />

manuale fermo lo stop al valore 1894.3 s. Faccio il calcolo con la calcolatrice: 19.004382 m/s.<br />

Come do il risultato ? Devo considerare quanto bene conosco i 36 km della distanza e quanto bene<br />

conosco il tempo impiegato a percorrerla. Supponiamo che i 36 km siano approssimati a 100 m<br />

(cosa ragionevole), allora posso dire che la distanza é 36.0 ± 0.1, cioè é un numero che conosco al<br />

più fino alla terza cifra. Viceversa conosco il tempo di percorrenza fino alla quinta cifra. D’altra<br />

parte la calcolatrice mi fornisce un risultato fino a 8 cifre. Quante di queste 8 cifre sono significative<br />

? Facciamo la seguente considerazione: se uso 36.1 km o 35.9 km e lascio inalterato il tempo,<br />

ottengo i numeri indicati nelle prime due righe della tabella dove osservo variazioni sulla terza cifra.<br />

35.9 18.951592<br />

36.1 19.057172<br />

36 19.0(0)<br />

1894.2 19.005385<br />

1894.4 19.003378<br />

1894.3 19.004(4)<br />

Allo stesso modo se fisso 36 km e uso 1894.2 o 1894.4 ottengo variazioni sulla quinta cifra.<br />

Dunque il risultato varia a partire dalla terza cifra per via della variazione della distanza e a partire<br />

dalla quinta per via della variazione del tempo. In conclusione oltre la terza cifra (facciamo la<br />

quarta per tenerci larghi) il risultato perde di informazione. Pertanto scriverò il risultato come nella<br />

terza riga della tabella.<br />

Nel prodotto (o nel rapporto) vale dunque la regola:<br />

il risultato di un prodotto o di un rapporto va dato con il numero di cifre del fattore dato con il<br />

minor numero di cifre.<br />

Cosa succede invece nel caso della somma (o della differenza) ?<br />

Altro esempio. Considero la distanza tra 2 punti nella stanza. Con il metro misuro la distanza tra<br />

una parete e la superficie della lavagna: 5.620 m. Poi con il calibro misuro lo spessore della<br />

lavagna: 32.480 mm. La somma é indicato in tabella.<br />

Misura 1 5.620000 m<br />

Misura 2 0.032480 m<br />

Somma 5.652480 m<br />

Somma troncata 5.652(5)<br />

Mi accorgo subito che le ultime 3 cifre non hanno molto significato. Infatti se il 5.620 diventa<br />

5.621 ottengo una variazione sulla quartultima cifra della somma. Quindi qui conta non il numero di<br />

cifre significative ma il numero di decimali, cioè la posizione “assoluta” della prima cifra che varia.<br />

La regola può essere pertanto espressa come:<br />

il risultato di una somma o di una sottrazione va troncato alla posizione della prima cifra variante<br />

che si incontra nei due addendi partendo da sinistra.<br />

Facciamo ora alcune osservazioni.<br />

Osservazione 0: se ho la stima dell’incertezza su un dato numero, si usa dare l’incertezza con 1<br />

o 2 cifre significative (non di più, oltre 2 cifre non ha molto significato dare il numero) e si tronca il<br />

valore centrale alla cifra corrispondente all’ultima cifra dell’incertezza. Esempio. Trovo un valore<br />

centrale pari a 1.5467 con una incertezza di 0.3456. Il risultato si può scrivere come 1.55±0.34<br />

(incertezza a 2 cifre) oppure 1.5±0.3 (ad 1 cifra). Certamente scrivere 1.5467±0.3456é sbagliato.<br />

Osservazione 1: i numeri interi hanno un numero di cifre infinito. Quando in una formula divido<br />

per N o per 2 queste hanno infinite cifre. Lo stesso vale per numeri come π o e (purché riportati con<br />

un numero di cifre appropriato).<br />

32


Osservazione 2: caso della media aritmetica. E’ lecito darla con più cifre delle singole misure ?<br />

Si. Supponiamo di mediare una sequenza di 10 misure ciascuna data con 3 cifre:<br />

1.10<br />

1.07<br />

1.24<br />

1.31<br />

1.09<br />

1.21<br />

1.15<br />

1.34<br />

1.02<br />

1.18<br />

Media 1.171<br />

La somma di questi 10 numeri é 11.71 che scrivo con 4 cifre data la regola delle cifre nella somma.<br />

Quando divido per 10 (infinite cifre) ottengo 1.171 che mantengo a 4 cifre. Quindi nel gioco ho<br />

“guadagnato” una cifra. Se avessi mediato 100 numeri ne avrei guadagnate 2 e cosi’ via. Questo<br />

non ci sorprende. L’operazione di media ha il potere di aumentare la conoscenza sul valore.<br />

Osservazione 3: si noti che il numero di cifre significative di un dato numero é strettamente<br />

legato alla sua incertezza relativa. Un numero dato a 3 cifre é un numero incerto tra il permille ed il<br />

percento.<br />

Osservazione 4: le regole date si riferiscono a come riportare i risultati. Nei calcoli naturalmente<br />

si possono utilizzare tutte le cifre che si vogliono.<br />

(1.7) Caso di misure indirette: cenni alla propagazione<br />

Collegata al problema del numero delle cifre significative é la questione della misura indiretta.<br />

Supponiamo che per misurare una grandezza y, io debba ricorrere alla misura di x per poi ricavare y<br />

con l’operazione y = a x 2 in cui a é una costante oppure y = b √x. Ora, x sarà misurato con una<br />

certa incertezza e allora mi chiedo quale sarà l’incertezza su y ? Se supponiamo che a e b siano<br />

costanti note con un numero infinito di cifre (per esempio π o un numero intero) il problema é “unidimensionale”<br />

(cioè stiamo parlando di una funzione di una singola variabile) e può essere illustrato<br />

per via grafica (vedi Fig.1.13).<br />

Fig.1.13 Due esempi di misure indirette:<br />

(sinistra) Misura della profondità raggiunta da un sasso in un pozzo dalla misura del tempo impiegato a scendere.<br />

Se misuro 5.5 ± 0.5 s quanto bene conosco la profondità ?<br />

(destra) Misura del periodo di oscillazione di un pendolo dalla misura della lunghezza dello stesso. Qui misuro 0.75<br />

± 0.05 m. Quant’è il periodo ?<br />

33


Nei due casi riportati in figura si ha nel primo una dipendenza tipo a x 2 nel secondo b√ x. Si può<br />

notare che l’incertezza sulla x si “traduce” in una incertezza sulle y in modo diverso nei 2 casi. Si<br />

dice che l’incertezza si propaga. Nel caso di sinistra sembra aumentare nel caso di destra sembra<br />

diminuire. Da cosa dipende ? Certamente dalla “pendenza” della curva nell’intorno del mio x.<br />

Poiché x e y sono in generale variabili di diverse dimensioni fisiche per confrontarne le incertezze<br />

dovrò ricorrere all’incertezza relativa che, come sappiamo é:<br />

s x<br />

x<br />

Nel nostro caso (quello in figura) si vede, confrontando le variazioni sugli assi delle ordinate, che in<br />

un caso l’incertezza relativa raddoppia, nell’altra si dimezza. Come é possibile ciò ? Vale in effetti<br />

in generale la seguente regola che dimostreremo in seguito: se la dipendenza é di tipo x α , si avrà per<br />

l’incertezza relativa:<br />

sy<br />

sx<br />

= α<br />

y x<br />

Si tratta di una proprietà che ha una chiara interpretazione. Più alto l’esponente, più “rapidamente<br />

cambia la curva”.<br />

Un secondo problema simile a questo é quello cui abbiamo già accennato nella nostra discussione<br />

delle cifre significative. Supponiamo ad esempio di voler misurare la densità di un oggetto<br />

misurandone volume e peso e poi facendo il rapporto. Abbiamo visto che sul risultato, a dominare<br />

sarà l’incertezza dovuta a quello tra massa e volume la cui misura é caratterizzata da una incertezza<br />

su una cifra che sta più a sinistra, ovvero, detto con il linguaggio dell’incertezza relativa, a quello<br />

con l’incertezza relativa più grande.<br />

Sempre riferendoci ai casi discussi nel precedente paragrafo, se devo invece sommare o sottrarre, a<br />

dominare sarà quello la cui incertezza assoluta é più grande, cioè in somme e differenze non<br />

contano le incertezze relative ma quelle assolute.<br />

Da tutto questo emerge una considerazione generale. Quando si progetta una misura di questo tipo e<br />

si sceglie una strumentazione é fondamentale “dosare” bene gli strumenti. E’ chiaro ad esempio che<br />

se misuro i volumi con un calibro supersensibile e poi li peso con una vecchia bilancia da<br />

salumiere, la scarsa sensibilità di quest’ultima vanificherà la straordinaria sensibilità del calibro. Lo<br />

stesso se uso un calibro per lo spessore della lavagna, e poi misuro il resto con strumenti poco<br />

sensibili.<br />

Resta da vedere tuttavia come andranno combinate le incertezze quando nessuna delle due é<br />

trascurabile, quando cioè sono dello stesso ordine di grandezza. Lo vedremo nel seguito quando<br />

avremo a disposizione mezzi di statistica più adeguati.<br />

(1.8) Nozione di significatività<br />

Accenniamo brevemente a questo punto del corso alla nozione di significatività. Si tratta di uno dei<br />

concetti più importanti del metodo scientifico ed é bene che gli studenti imparino a saper discutere<br />

problemi di questo tipo già dall’inizio del corso di laurea.<br />

Molte questioni in fisica si riconducono ad affermazioni del tipo: abbiamo osservato che A>B<br />

oppure che A>0. In tutti questi casi, dire > (o equivalentemente c ma prima di dire che é “significativamente” >c devo sapere quanto bene ho misurato<br />

v(part), altrimenti nessuno ci crederà (data anche la rilevanza straordinaria dell’eventuale scoperta).<br />

Allo stesso modo se io trovo un bilancio energetico >0 di un processo in un sistema isolato (violante<br />

pertanto la conservazione dell’energia), per dire che ho scoperto la violazione della legge di<br />

34


conservazione dell’energia devo dimostrare che tale valore é “significativamente” >0. Allo stesso<br />

modo infine prima di dire che se il 52% degli intervistati in un sondaggio si pronuncia per una certa<br />

cosa, allora la maggioranza degli italiani é favorevole a quella cosa, devo sapere se quel 52%é<br />

significativamente maggiore del 50%.<br />

Un’altra classe di problemi riguarda il caso in cui affermo che A=B oppure che A=0. Qui le cose<br />

sono leggermente diverse. Infatti io non troverò mai (misurando per esempio il bilancio energetico<br />

della reazione di cui sopra) esattamente A=0, oppure non troverò mai o quasi mai v(part)=c, ma<br />

troverò un valore che sarà “compatibile” con 0. O allo stesso modo troverò che A é compatibile con<br />

B.<br />

È evidente che in entrambi i casi “significatività” e “compatibilità” sono nozioni che hanno a che<br />

fare con i valori trovati ma anche con le incertezze con cui questi valori sono conosciuti. Quindi<br />

diremo che A é “significativamente” >0 se lo é “oltre l’incertezza” su A o, più esplicitamente se il<br />

valore 0 della grandezza A é “fuori” dall’intervallo nel quale ritengo debba trovarsi il valore vero<br />

sulla base del mio esperimento. Oppure diremo che A é “compatibile” con 0 se lo é “entro<br />

l’incertezza” su A cioè se il valore 0é interno allo stesso intervallo. Pertanto se la mia misura della<br />

velocità della particella é 30.010 ± 0.032 cm/ns allora mi tranquillizzo perché evidentemente il<br />

valore c=29.979.. cm/ns é contenuto nell’intervallo della mia misura. Viceversa se il mio bilancio<br />

energetico mi fornisce il valore –0.54 ± 0.09 J comincio a preoccuparmi, perché la quantità di<br />

energia che ho perduto é “significativa”. Allora dovrò pormi il problema di capire cosa é successo,<br />

se nell’analisi del mio esperimento non ho tenuto conto di qualche effetto oppure se effettivamente<br />

in quel processo l’energia non si conserva.<br />

Naturalmente la conclusione dipende dal significato probabilistico dell’intervallo. Cioè posso<br />

concludere che A é significativamente > B se B é fuori un intervallo di “quasi certezza” di A.<br />

Vedremo nel seguito come si possono definire tali intervalli.<br />

A proposito delle nozioni esposte si può proporre una digressione filosofica. E’ la stessa cosa<br />

chiedersi se 2 cose sono uguali o ha invece più senso chiedersi se sono diverse ? Detto in altri<br />

termini: le due affermazioni (a) A>B o (b) A=B hanno lo stesso significato logico ? La risposta é<br />

no. Sul piano logico, il metodo scientifico permette di stabilire la diversità ma non l’uguaglianza.<br />

Si può solo dire che entro le incertezze A=B (affermazione di tipo (b)), ma si tratta comunque di<br />

una affermazione che potrebbe cambiare il giorno in cui le incertezze su A e su B diminuissero. Nel<br />

caso dell’esempio precedente, se migliorassi il mio sistema di misura delle velocità fino a ridurre di<br />

un ordine di grandezza l’incertezza complessiva, potrei ottenere 30.010±0.002 che é<br />

significativamente >c. D’altra parte l’affermazione (a) é in un certo senso “definitiva”. Se<br />

l’esperimento non é sbagliato una riduzione dell’incertezza non può che confermare il precedente<br />

risultato, rafforzandolo.<br />

Il progresso della Scienza procede dunque attraverso lo stabilire la diversità tra le cose, non la loro<br />

uguaglianza. Si tratta del celebre tema della “falsificazione” e della “corroborazione” dovuto a<br />

K.Popper. A titolo di esempio in Fig.1.14 e Fig.1.15 sono mostrate le evoluzioni temporali dei<br />

valori di due grandezze fisiche di grande importanza (si tratta delle due grandezze che<br />

caratterizzano la violazione di una simmetria fondamentale nelle interazioni tra particelle<br />

elementari). Ogni punto corrisponde al risultato di un esperimento e per ognuno é indicata una barra<br />

che rappresenta l’incertezza stimata dallo sperimentatore come deviazione standard ed avente<br />

pertanto il significato di intervallo che contiene il valore vero con una probabilità del 68.3%<br />

(secondo quanto vedremo nel seguito). Si noti che solo ad un certo punto (il 1999 in un caso ed il<br />

2001 nell’altro) é stata stabilita la diversità da 0 del valore della grandezza. Prima di allora lo stato<br />

di conoscenza su ciascuna delle due grandezze era tale da far concludere che entro le incertezze non<br />

si osservava alcuna differenza da 0, cioè che ambedue le grandezze erano compatibili con 0. Il<br />

progresso degli esperimenti progettati per la misura di queste grandezze ha portato ad una<br />

progressiva riduzione dell’incertezza e quindi ad una sempre maggiore possibilità di scoprire una<br />

significativa differenza da 0 che, una volta trovata, é stata poi ampiamente riprodotta e confermata.<br />

35


Fig.1.14 Valori pubblicati della variabile Re(ε’/ε) in funzione dell’anno di pubblicazione. Si noti come gli<br />

esperimenti intorno al 1990 davano un risultato “compatibile” con 0 e come quelli intorno al 2000 danno risultati<br />

“compatibili” con i risultati del 1990 ma significativamente diversi da 0. Le barre di incertezza sono barre di<br />

incertezza standard.<br />

Fig.1.15 Valori pubblicati della variabile sin2β in funzione dell’anno di pubblicazione. Valgono considerazioni<br />

analoghe a quelle fatte per la Fig.1.14.<br />

36


(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari.<br />

In alcune delle precedenti discussioni abbiamo visto come l’espressione grafica del risultato di un<br />

esperimento sia in certi casi di importanza cruciale. In tutti gli esempi visti finora, i dati sono<br />

sempre riportati in grafici caratterizzati da scale lineari. Con ciò si intende che in ambedue gli assi<br />

del grafico, spazi uguali tra le divisioni corrispondono a intervalli uguali della grandezza fisica che<br />

viene rappresentata in quell’asse. Per intenderci, in un grafico che usa una scala temporale lineare,<br />

se un segmento di asse lungo 1 cm corrisponde a un intervallo di 6.2 s, un segmento lungo 2 cm<br />

corrisponde ad un intervallo di 12.4 s, un secondo segmento lungo 6 cm a un intervallo di 37.2 s e<br />

cosi’ via dicendo. Ci occupiamo ora di quei casi (alcuni dei quali incontreremo da vicino in<br />

laboratorio) in cui é conveniente utilizzare scale con diverse proprietà.<br />

(1.9.1) La scala quadratica.<br />

Riprendiamo in considerazione la misura della profondità del pozzo di cui abbiamo parlato nel<br />

paragrafo (1.7) (illustrato dalla Fig.1.13). Supponiamo ora di disporre un certo numero di pozzi di<br />

profondità diverse e note (cioè misurate in modo indipendente), e di misurare per ciascuno, il tempo<br />

di caduta del sasso. A questo punto i miei dati sono costituiti da una sequenza di N (N=numero di<br />

pozzi) coppie di valori (p i , t i ) dove i va da 1 a N, con p i le profondità e t i i tempi. Posso mettere<br />

questi dati in un grafico con le profondità in ordinata e i tempi in ascissa. Il grafico é riportato in<br />

Fig.1.16a dove per semplicità non sono riportate le incertezze di misura. La cinematica ci dice che<br />

la relazione tra profondità e tempo deve essere del tipo p = ½ g t 2 , dove g=9.81 m/s 2 é la<br />

accelerazione di gravità alla superficie terrestre. Tuttavia dal grafico é difficile capire se<br />

effettivamente l’andamento é rispettato. Allora uso il seguente artificio: anziché graficare le p i in<br />

funzione dei t i , riporto le p i in funzione dei t i 2 (Fig.1.16b). In questo secondo caso, se la cinematica<br />

é rispettata, devo aspettarmi un andamento rettilineo che é certamente più<br />

p (m)<br />

500<br />

400<br />

300<br />

200<br />

100<br />

0<br />

2 4 6 8 10<br />

t (s)<br />

p (m)<br />

500<br />

400<br />

300<br />

200<br />

100<br />

0<br />

0 20 40 60 80 100<br />

t 2 (s)<br />

Fig.1.16 (a) Misure di profondità dei pozzi in funzione dei tempi di caduta dei sassi e (b) misure di profondità in<br />

funzione dei tempi di caduta al quadrato. La (b) permette di verificare la linearità della relazione cinematica.<br />

facilmente controllabile a occhio. Non solo, la “pendenza” della retta (il suo coefficiente angolari)<br />

dovranno essere proprio uguali a 1/2g, e quindi semplicemente prendendo un righello, tracciando<br />

37


una retta e misurandone la pendenza, posso desumere il valore di g e vedere se é “più o meno” il<br />

valore che mi aspetto.<br />

(1.9.2) La scala logaritmica.<br />

Il tipo di scala non lineare più frequentemente utilizzata é la scala logaritmica. Si tratta di riportare<br />

sull’asse di una variabile x, non già direttamente x, ma il logaritmo del suo valore numerico:<br />

log(x/u) dove u é l’unità di misura di x. In altre parole, con riferimento alla scala temporale presa<br />

sopra ad esempio, il valore t = 6.2 s si trova, in scala logaritmica, nella posizione 1.82, il valore t =<br />

12.4 nella posizione 2.52 ed infine il valore t = 37.2 nella posizione 3.62. Come si vede, la<br />

spaziatura delle 3 posizioni non rispetta più la partizione 1 / 2 / 6 della scala originaria. Ciò é un<br />

modo per dire che la scala risultante é non lineare (si noti che ho usato qui il logaritmo a base<br />

naturale, ma come vedremo nel seguito e come si può provare facilmente, la conclusione cui si<br />

giunge é la stessa qualunque sia la base che voglio utilizzare).<br />

La scala logaritmica viene utilizzata per 2 motivazioni principali.<br />

La prima motivazioni segue la stessa linea di pensiero della discussione fatta nel precedente<br />

paragrafo a proposito della carta quadratica. Infatti sono molti i fenomeni fisici che si lasciano<br />

descrivere da andamenti esponenziali, cioè del tipo:<br />

y<br />

=<br />

Ae<br />

− x / λ<br />

in cui x ed y sono 2 grandezze fisiche tra le quali ci si aspetta una relazione funzionale esponenziale<br />

con A e λ parametri (troveremo numerosi esempi di fenomeni di questo genere nel seguito).<br />

Prendendo il logaritmo di ambo i membri si ottiene:<br />

log<br />

[ y] = log A − x<br />

λ<br />

dunque la relazione funzionale esponenziale tra y e x, si traduce in una relazione lineare tra log[y]e<br />

x in cui logA svolge il ruolo di intercetta all’origine e soprattutto -1/λ svolge il ruolo di pendenza.<br />

Graficando log[y] in funzione di x anziché y in funzione di x, potrò meglio verificare che<br />

l’andamento é esponenziale. In più anche in questo caso, una rapida misura della pendenza della<br />

retta risultante mi permette di ricavare λ.<br />

La seconda motivazione per usare scale logaritmiche entra in gioco quando si vuole rappresentare<br />

una grandezza fisica che assume valori diversi per svariati ordini di grandezza. In tal caso una scala<br />

lineare tende a compattare tutti i valori e finisce per rendere illeggibile il grafico. Il fenomeno é<br />

illustrato in Fig.1.17. In che modo lo stesso grafico in scala logaritmica diventa decisamente più<br />

leggibile ? Il motivo sta in definitiva nella seguente, ben nota, proprietà dei logaritmi:<br />

[ ab] = log[ a] log[ b]<br />

log +<br />

Ogni volta che moltiplico a per un numero b, al log[a] devo aggiungere log[b], cioè nel mondo dei<br />

logaritmi, il moltiplicare per qualcosa diventa un sommare qualcos’altro, il prodotto si traduce in<br />

somma. Sull’asse logaritmico dunque, 2 intervalli di uguale lunghezza non corrispondono<br />

all’aggiunta di 2 intervalli di uguali entità in x, ma a 2 moltiplicazioni per lo stesso fattore. Per<br />

esempio i valori x = 2 cm, x = 20 cm e x = 200 cm vanno in scala logaritmica nelle posizioni 0.693,<br />

2.995 e 5.298 cioè danno luogo a 2 uguali intervalli [5.298 – 2.995 = 2.995 – 0.693 = 2.302]. La<br />

spaziatura é chiaramente pari a log[10] cioè al logaritmo del fattore che c’è tra i 3 valori di x.<br />

Come abbiamo accennato sopra la base del logaritmo é irrilevante. Infatti un’altra proprietà dei<br />

logaritmi ci dice che i logaritmi di x calcolati in 2 basi diverse (diciamo a e b) sono uguali a meno<br />

di un fattore indipendente da x:<br />

log<br />

a<br />

[ x]<br />

= log<br />

b<br />

[ x]log<br />

a<br />

[ b]<br />

e dunque il cambio di base non fa altro che spostare tutta la scala di un fattore arbitrario.<br />

In Fig.1.18 mostriamo un esempio di carta semi-logaritmica, nella quale l’asse orizzontale é in<br />

scala lineare, quello verticale in scala logaritmica. Alcune considerazioni pratiche.<br />

38


4000<br />

3500<br />

3000<br />

2500<br />

2000<br />

1500<br />

1000<br />

500<br />

0<br />

300 400 500 600 700 800 900 1000<br />

10 3 300 400 500 600 700 800 900 1000<br />

10 2<br />

10<br />

1<br />

Fig.1.17. Lo stesso istogramma in carta lineare (sopra) e semi-logaritmica (sotto). Si noti come la carta semilogaritmica<br />

consente di apprezzare la zona al di sotto di 600, cosa impossibile nel grafico in carta lineare.<br />

10 2 0 10 20 30 40 50 60 70 80 90 100<br />

10<br />

1<br />

10 -1<br />

Fig.1.18 “Foglio” di carta semi-logaritmica. Le decadi sono state identificate con i valori 0.1, 1 10 e 100.<br />

39


10 2<br />

10<br />

1<br />

10 -1<br />

10 -1 1 10 10 2<br />

Fig.1.19 “Foglio” di carta doppio-logaritmica con la stessa suddivisione in decadi dell’asse verticale della Fig.1.18.<br />

La scala verticale é divisa in decadi: ogni intervallo rappresenta un ordine di grandezza. E’ possibile<br />

dunque per ogni separazione di decade mettere i numeri 1, 10, 100, oppure 0.001 o 10 -24 o cosi’ via<br />

(nell’esempio in figura le decadi sono 0.1, 1 e 10).<br />

Nella scala logaritmica non esiste lo 0. Sotto ad ogni decade ce ne é un’altra, e cosi’ via fino<br />

all’infinito (del resto il log tende a 0 quando il suo argomento va a -∞).<br />

Una volta stabilita la scala (cioè individuate le decadi) per disporre i punti correttamente sull’asse<br />

non occorre prendere la calcolatrice e calcolare il logaritmo. La scala é fatta anche per evitare<br />

questo.<br />

Esistono infine le carte doppio-logaritmiche in cui ambedue gli assi sono in scala logaritmica (vedi<br />

Fig.1.19). L’uso di questi tipi di grafici é legato all’esistenza di fenomeni che si lasciano descrivere<br />

da una relazione tra le 2 grandezze x ed y di tipo “potenza”:<br />

y =<br />

Ax<br />

b<br />

In tal caso prendendo i logaritmi di ambedue i membri si ha:<br />

[ y] = log[ A] blog[ x]<br />

log +<br />

Come si vede si ha una relazione lineare tra log[y] e log[x]. E’ b (l’esponente che regola la legge di<br />

potenza) in questo caso a rappresentare la “pendenza” dell’andamento in questione. Un esempio<br />

particolarmente interessante di fenomeno fisico messo in risalto da un grafico in carta doppiologaritmica<br />

é dato in Fig.1.20.<br />

40


Fig.1.20 Questo grafico mostra il complesso delle misure disponibili nel settembre 2005 del flusso di raggi cosmici in<br />

funzione dell’energia. Il grafico é in carta doppio-logaritmica. Ciò permette di vedere insieme misure riferite ad ordini<br />

di grandezza molto diverse. Inoltre il cambio di pendenza intorno ai 10 16 eV (il cosiddetto knee cioè ginocchio dello<br />

spettro) che costituisce uno dei fenomeni più studiati della fisica dei raggi cosmici é ben messo in evidenza da questa<br />

modalità grafica.<br />

41


Esercizi relativi al Capitolo (1)<br />

1.1) Dai dati della Fig.1.1: determinare per ognuno dei 5 grafici il miglior valore. Usando i valori<br />

veri determinare i 5 scarti.<br />

1.2) Ancora dai dati di Fig.1.1: valutare scarto medio e deviazione standard degli scarti. A che<br />

frazione di una divisione corrisponde ?<br />

1.3) Un elettrone viene accelerato attraverso una differenza di potenziale di V=1.2kV. Sapendo che<br />

la carica elettrica di un elettrone é q =1.6 x 10 -7 pC e sapendo che l’energia acquistata da una carica<br />

elettrica q accelerata attraverso una differenza di potenziale Vé E = q V, calcolare quanti J di<br />

energia acquista l’elettrone. (1J = 1 Joule = 1 V x 1 C = 1 Volt x 1 Coulomb).<br />

1.4) Voglio misurare la densità di un fluido tramite misure di massa e di volume. Lo dispongo in un<br />

contenitore e ottengo una massa M = 13.5 g tramite una bilancia digitale. La massa del contenitore<br />

é M 0 = 0.322 g (misurata usando una seconda bilancia di inferiore portata ma di maggiore<br />

sensibilità). Per il volume ottengo V = 62 ml.<br />

Esprimere il valore della densità in g/cm 3 dando solo le cifre significative.<br />

1.5) Si vuole stabilire se diversi gruppi di campioni di utensili preistorici scoperti in due diverse<br />

zone (zona A e zona B), appartengono alla stessa epoca. A tale scopo si procede alla misura della<br />

vita media di ciascun campione con il metodo del 14 C. Si ottengono i seguenti risultati.<br />

Reperti zona A: 10 campioni (5300, 5650, 5820, 5460, 4920, 5110, 5400, 5710, 4770, 5320) anni<br />

Reperti zona B: 15 campioni (6050, 5820, 6110, 5760, 5890, 6220, 5840, 5920, 6000, 5610, 6010,<br />

6220, 6140, 5950, 5740) anni<br />

a) Fare gli istogrammi dei reperti delle 2 zone<br />

b) Calcolare medie e deviazioni standard per ambedue i gruppi di reperti<br />

Un anziano archeologo dando una rapida occhiata ai dati afferma: i 2 gruppi di reperti sono<br />

contemporanei. Ha ragione ?<br />

1.6) Ad una molla é appesa una massa M nota con incertezza trascurabile; la costante di elasticità k<br />

della molla é nota solo al 5%. Quanto bene conosco il periodo delle piccole oscillazioni T ? Si<br />

ricordi che il periodo delle piccole oscillazioni di una molla di costante k é T = 2 π √M/k .<br />

1.7) Si ha una bilancia a lettura digitale in cui l’ultimo digit corrisponde a 1 g. Applico questa<br />

bilancia ad un kg campione e leggo sul display 1022. Ripeto la misura e mi accorgo che leggo<br />

sempre 1022. Cosa posso concludere su: risoluzione, precisione e accuratezza della bilancia ?<br />

1.8) Uno strumento per la misura di spessori ha una risoluzione di 1 μm ed una precisione di 52 μm.<br />

Per misurare uno spessore raccolgo 100 valori successivi. Non osservo andamenti nel tempo.<br />

Determinare la larghezza di un intervallo di quasi certezza per la misura.<br />

1.9) Uno strumento per misure di velocità ha una precisione relativa dello 0.2 %. Viene applicato ad<br />

un campione di 9150 raggi γ emessi da una sorgente radioattiva. La media delle misure é 2.99814 x<br />

10 8 m/s. Cosa possiamo dire della accuratezza dello strumento ? [Si ricordi che c=2.99792458 x 10 8<br />

m/s]<br />

1.10) Una commissione é incaricata di stabilire se in un certo paese vi é una incidenza “anomala”<br />

della malattia X. Quali sono i numeri di cui la commissione ha bisogno per trarre una conclusione<br />

“scientificamente fondata” ?<br />

42


1.11) Calcolare il lavoro fatto per spingere di 24.2 cm un pistone attraverso un cilindro di area 152.4<br />

cm2. La pressione esercitata dal pistone é di circa 12 atm. Dare il risultato in unità del S.I. con le<br />

corrette cifre significative. [si ricordi che L = pΔV e che 1 atm = 101325 Pa ]<br />

1.12) Con lo stesso strumento dell’esercizio 1.8) voglio vedere se effettivamente la posizione della<br />

trave che regge il mio palazzo si sta spostando nel tempo. Ripeto a distanza di un anno la misura<br />

della posizione, in entrambi i casi (la prima misura e quella effettuata ad un anno di distanza)<br />

prendendo 1000 valori e facendone la media. Trovo uno spostamento di 48 μm. E’ significativo ?<br />

1.13) Uno strumento per misure di lunghezze con risoluzione di 1/10 di mm, viene calibrato rispetto<br />

ad un metro campione. Il risultato é: 1002.6 mm con incertezza trascurabile.<br />

Successivamente uso questo strumento per la misura di una lunghezza e, fatte 100 misure, ottengo<br />

un valor medio di 914.1 mm con una deviazione standard campionaria di 3.2 mm.<br />

Dare al meglio il risultato della misura. Indicare le ipotesi utilizzate.<br />

1.14) Munendosi di atlante, calcolare l’ordine di grandezza della densità di popolazione delle città<br />

di Roma e di Londra. Sono significativamente diverse ?<br />

1.15) Un chimico annuncia di aver scoperto che il soluto X nel solvente Y ha una concentrazione<br />

anomala rispetto al 20% in volume atteso. Lui ha misurato 5 campioni di solvente da 3 l ciascuno ed<br />

ha ottenuto i seguenti valori per il soluto X: 607, 641, 638, 702, 619 cm 3 . E’ fondata la sua<br />

conclusione ?<br />

1.16) Voglio vedere se la variabile X é significativamente > 0. Riesco a misurarla con una<br />

precisione di 67x10 -4 . Faccio 2000 misure, e ottengo una media di 0.1x10 -4 . Cosa posso concludere<br />

?<br />

1.17) Due diversi modelli prevedono per la variabile X rispettivamente i valori 0 e 10 -5 . Sapendo<br />

che la precisione della mia misura di X é 67 x 10 -4 , quante misure devo fare per discriminare tra i 2<br />

modelli ?<br />

1.18) Misura di velocità: in 1032.8 s ho percorso lo spazio tra la indicazione di 32.4 e 36.8 km della<br />

strada statale. Quanto sono andato veloce in media ?<br />

1.19) Un razzo che si muovo alla velocità di 15.6 km/sé partito 10 giorni fa da terra. Dove é arrivato<br />

?<br />

1.20) Un navigatore ha valutato che il 10% circa del volume di un iceberg emerge dal pelo<br />

dell’acqua. Quant’è la densità di quell’iceberg ? [ ρ (iceberg) = ρ (acqua) f in cui fé la frazione di<br />

volume sommerso e ρ (acqua) = 1.00 g/cm 3 ]<br />

1.21) Viene presentata un auto nuova che in 10.00 s passa da 0 a 154 km/h. Calcolare<br />

l’accelerazione media in numero di g. [g = 9.81 m/s 2 , a = Δv/Δt ]<br />

1.22) Nella finale dei 100 m delle olimpiadi di Seoul del 1988, Ben Johnson vince con il tempo di<br />

9.79 s, Carl Lewis é secondo con il tempo di 9.92 s. Quanto distava Lewis dall’arrivo al momento<br />

dell’arrivo di Johnson ? [specificare le ipotesi]<br />

43


1.23) Nella misura della profondità del pozzo dal tempo di caduta del sasso leggo sul display del<br />

cronometro per i 20 diversi sassi che lancio, i seguenti valori:<br />

6.2 6.6 6.4 6.7 6.2 6.3 5.9 6.4 6.5 6.2 6.3 6.4 6.0 6.3 6.2 6.6 6.1 6.3 6.5 7.0 (tutti in s).<br />

Fare l’istogramma delle misure, calcolare media e deviazione standard campionaria.<br />

Dare la migliore stima di un intervallo di quasi certezza per la profondità del pozzo. [ h = ½ g t 2 ]<br />

1.24) Una ripetizione dell’esperienza di Millikan vuole vedere se esistono cariche elettriche pari a ½<br />

e ( e é la carica dell’elettrone ) . Lo strumento utilizzato ha una precisione sulla misura della carica<br />

di 0.7 x 10 -7 pC. Quante cariche ½ e devo osservare per poter dire che si tratta effettivamente di<br />

cariche ½ e e non di elettroni ? [la carica dell’elettrone é e = 1.60217733 x10 -7 pC]<br />

1.25) Sono prese misure di radioattività ad intervalli regolari di 1/2 ora. Nell’arco di 8 ore (dalle 12<br />

alle 20) vengono registrati i seguenti valori (in conteggi al secondo):<br />

16.24 / 16.38 / 16.31 / 16.42 / 16.30 / 16.29 / 16.36 / 16.94 / 17.21 / 17.26 / 17.14 / 17.31 / 17.24 /<br />

17.32 / 17.16 / 17.25.<br />

a) Discutere qualitativamente i dati a disposizione eventualmente utilizzando grafici<br />

b) Stabilire quantitativamente se si é osservata una variazione significativa della radioattività<br />

1.26) Per un campione di 100 distributori di benzina sparsi sul territorio nazionale sono stati<br />

registrati i prezzi del Gasolio in due momenti: il 1/6/2003 ed il 1/10/2004. Facendo gli istogrammi<br />

dei 2 insieme di dati si ha (prezzi in euro/litro):<br />

1/6/2003 1/10/2004<br />

0.800-0.820 1 0.960-0.980 1<br />

0.820-0.840 12 0.980-1.000 25<br />

0.840-0.860 27 1.000-1.020 48<br />

0.860-0.880 31 1.020-1.040 26<br />

0.880-0.900 19 1.040-1.060 0<br />

0.900-0.920 9<br />

0.920-0.940 1<br />

a) Disegnare gli istogrammi e determinare media e deviazione standard di ogni campione.<br />

b) I dati sono compatibili con un aumento tendenziale del 10.2% su base annuale ?<br />

1.27) Misuro il raggio di un cuscinetto a sfera di acciaio con un calibro a lettura digitale. Ottengo il<br />

valore 30.335 mm. Ruotando la sfera il valore del raggio non cambia. Dare la migliore stima della<br />

massa del cuscinetto con la sua incertezza (la densità del tipo di acciaio utilizzato per i cuscinetti<br />

viene data come intervallo standard 7.85±0.05 g/cm 3 ).<br />

1.28) Si é misurata la carica elettrica di una nuova particella. Su di un campione di 218 esemplari di<br />

tale particella, la distribuzione della carica é ben descritta da una distribuzione di Gauss con valore<br />

centrale 1.48 x 10 -19 C con deviazione standard 0.28 x 10 -19 C. Si può concludere che questa nuova<br />

particella ha una carica significativamente minore di quella elementare ? (la carica elettrica<br />

elementare é q = 1.6021773 x 10 -19 C.)<br />

44


(2) La probabilità e le variabili casuali<br />

(2.1) Concetto di probabilità<br />

Abbiamo visto nel capitolo precedente che la nozione di probabilità entra in gioco in modo del tutto<br />

naturale nella discussione dei problemi relativi alla interpretazione del significato delle misure.<br />

Finora tuttavia la nostra nozione di probabilità é stata solo intuitiva. Abbiamo in particolare<br />

introdotto la nozione di intervallo di probabilità (quanto crediamo all’intervallo che abbiamo fornito<br />

per il valor vero della misura). Abbiamo inoltre visto che nella costruzione di un istogramma, il<br />

numero di volte con cui viene ottenuto un dato valore (che abbiamo chiamato frequenza) é in<br />

qualche modo legato alla probabilità che quel dato valore sia ottenuto. La nozione di probabilità fa<br />

parte del modo con cui l’uomo analizza l’ambiente in cui vive. E’ una delle categorie che più o<br />

meno consciamente utilizziamo nella nostra vita quotidiana.<br />

Ci inoltriamo ora in una teoria matematica (la teoria della probabilità) all’interno della quale la<br />

nozione di probabilità é definita, e che ci permette anche di fare operazioni e di mettere in relazioni<br />

probabilità associate a diversi fatti o eventi. Cominciamo a discutere la “definizione” di probabilità.<br />

Il problema della definizione della probabilità é estremamente dibattuto ed aperto. In generale<br />

possiamo dire che ci sono 2 approcci di diverso tipo. Vediamo di descriverli entrambi senza<br />

partecipare alle accese polemiche tra i sostenitori di ciascuna delle due.<br />

(a) Probabilità “ontologica”: la probabilità é una proprietà del fenomeno, il quale può presentarsi<br />

sotto diverse modalità in determinate frazioni di casi. La probabilità é dunque una proprietà della<br />

realtà, del mondo, di come si svolgono le cose. E’ una visione che qualcuno (in modo non<br />

completamente appropriato) chiama oggettiva.<br />

(b) Probabilità “epistemica”: la probabilità é una proprietà che noi associamo ad un fenomeno sulla<br />

base delle nostre conoscenze di come il fenomeno si manifesta. E’ una proprietà che appartiene al<br />

modo con cui noi conosciamo il fenomeno, che dunque può non appartenere al fenomeno stesso. E’<br />

naturalmente detta, in contrapposizione alla precedente definizione, soggettiva.<br />

Senza accettarne una come nostra, tentiamo di definire in modo intuitivo cosa facciamo noi quando<br />

usiamo la probabilità. Il nostro pensiero seleziona cose vere, cose false, e cose sul cui contenuto di<br />

verità siamo incerti. Ma le cose incerte non sono completamente ignote, diciamo che c’è una<br />

“scala” naturale che ha per estremi proprio il vero da una parte ed il falso dall’altra. Probabilità é la<br />

quantificazione di questa scala: quantifica dunque lo stato di incertezza rispetto al contenuto di<br />

verità di una affermazione. In inglese si dice “degree of belief” ovvero grado di credito. La mente<br />

umana sviluppa in modo naturale questo concetto. E’ naturale introdurre una scala tra 0 e 1 spesso<br />

espressa in percentuali.<br />

Quanto detto si avvicina maggiormente alla definizione (b) che molti fisici non accettano perché<br />

apparentemente va contro il paradigma dell’oggettività. In realtà come abbiamo visto, l’oggettività<br />

dell’indagine scientifica resta garantita dal fatto (non logico ma sperimentale) che osservatori<br />

diversi alla fine “si mettono d’accordo” sempre sui risultati ottenuti, quando questi sono<br />

sufficientemente “solidi”. E’ come se la pretesa oggettività sia in definitiva una forma di “intersoggettività”.<br />

(2.2) Alcuni metodi di calcolo<br />

Abbandoniamo la discussione filosofica ed intraprendiamo lo studio dei metodi di calcolo delle<br />

probabilità (sui quali non ci sono grossi dibattiti).<br />

Storicamente la probabilità ha assunto interesse in 2 aree: l’area delle scommesse e l’area delle<br />

assicurazioni. Si tratta evidentemente di 2 esigenze diverse. Nel primo caso voglio sapere dove é<br />

conveniente puntare, nel secondo caso per stabilire le modalità di una polizza assicurativa occorre<br />

conoscere quanto é probabile che accada una certa cosa. A partire da tali due esigenze si sono<br />

sviluppati empiricamente 2 metodi di calcolo della probabilità. Tali metodi sono a volte<br />

46


erroneamente chiamate definizioni. In realtà, come vedremo, nessuno dei due costituisce da solo<br />

una definizione esauriente:<br />

Metodi di calcolo:<br />

- Combinatorio (derivazione da scommesse): supponiamo di trovarci di fronte ad un<br />

problema che si può decomporre in varie possibilità che potremmo chiamare “casi possibili”. Un<br />

dato evento sarà definito dall’occorrenza di certi “casi favorevoli” tra tutti quelli possibili. Allora<br />

diciamo che la probabilità del nostro evento é:<br />

Num ( casi − favorevoli )<br />

prob =<br />

Num ( casi − possibili )<br />

si noti che perché questa definizione abbia significato, occorre che i casi possibili siano tutti<br />

“equiprobabili”. Il che mette in luce il problema di principio insito nell’uso della definizione<br />

combinatoria come definizione di probabilità (uso nella definizione del concetto che si vuol<br />

definire). Oltre a ciò si noti che non tutte le applicazioni della probabilità sono riconducibili ad un<br />

problema di casi favorevoli rispetto a casi possibili.<br />

- Frequentista (derivazione da assicurazioni): supponiamo invece di trovarci nella<br />

possibilità di misurare la frequenza con cui un dato evento ha luogo. Allora definisco probabilità il<br />

limite della frequenza per un gran numero di prove:<br />

prob = lim<br />

f<br />

n→∞<br />

n<br />

dove con f indichiamo la frequenza dell’evento in questione ottenuta dopo n prove. Tale<br />

n<br />

definizione si fonda sul fatto sperimentalmente osservato che al crescere del numero di prove le<br />

frequenze tendono a “stabilizzarsi”. Per esempio se lancio tante volte una monetina regolare, la<br />

frequenza con cui ottengo testa si avvicina al 50% sempre di più al crescere del numero di prove.<br />

Tale fatto empirico é quello che costituisce il cosiddetto Principio di Stabilità della Frequenza.<br />

Non si tratta comunque di definizioni logicamente soddisfacenti. Inoltre ci sono casi che sfuggono<br />

ad entrambi questi metodi di calcolo.<br />

Esempi di applicazione semplice del metodo di calcolo combinatorio sono forniti dal lancio della<br />

monetina o del dado, dall’estrazione di una carta da un mazzo di carte. Si tratta di esempi in cui é<br />

agevole individuare quali sono i casi possibili e quali i casi favorevoli, e di conseguenza si tratta di<br />

contare quanti sono. Nell’applicare questa definizione occorre tuttavia fare attenzione alla richiesta<br />

di equiprobabilità dei casi possibili. Non tenerne conto significa sbagliare la determinazione. Si<br />

provi a calcolare la probabilità di avere 2 volte testa lanciando due volte la monetina. Si potrebbe<br />

pensare di dire che ci sono 3 casi possibili: 2 volte testa, 2 volte croce, 1 testa e 1 croce da cui<br />

prob=1/3. In realtà non sfugge ad un esame attento del problema che i casi possibili sono 4, poiché<br />

1 testa e 1 croce vale doppio comprendendo anche il caso 1 croce 1 testa. E dunque prob=1/4.<br />

Esempi di applicazioni del metodo frequentista sono altrettanto comuni. La probabilità che un nato<br />

sia maschio o femmina, viene valutata contando la frazione dei casi in cui si manifestano le due<br />

modalità, e in generale tutte le “statistiche” che quotidianamente ci vengono illustrate su giornali e<br />

televisioni si fondano sull’idea che misurando una frequenza di occorrenza di una certa cosa si<br />

possa dire quant’è la probabilità che quella cosa accada.<br />

Si é sviluppata una branca della matematica, il calcolo delle probabilità appunto, che si occupa di<br />

definire le operazioni e i metodi di calcolo.<br />

(2.3) Regole della teoria delle probabilità.<br />

Passiamo ora a descrivere la teoria della probabilità. Utilizziamo le cose viste cercando di<br />

formalizzarle. Cominciamo con i termini del linguaggio.<br />

(2.3.1) Spazio degli eventi<br />

47


Che cosa é un Evento. E’ una modalità possibile con cui un dato fenomeno si manifesta. L’insieme<br />

degli eventi costituisce quello che chiameremo spazio degli eventi e che può essere rappresentato<br />

come una parte di un piano. Nell’usare questa rappresentazione, facciamo riferimento alla ben nota<br />

teoria degli insiemi che ha il pregio di essere intuitiva. Chiamiamo Ω l’intero spazio degli eventi,<br />

cioè l’insieme di tutti gli eventi, ovvero l’insieme di tutte le modalità con cui un dato fenomeno si<br />

può svolgere, e 0l’evento nullo, cioè il non verificarsi di alcuna modalità.<br />

(2.3.2) Eventi composti<br />

Come nel caso della teoria degli insiemi, definiamo un certo numero di importanti operazioni tra<br />

eventi. Dati due eventi A e B definiamo<br />

- somma logica (OR) A ∪ B quell’evento che può manifestarsi o secondo la modalità A o<br />

secondo la modalità B;<br />

- prodotto logico (AND) A ∩ B quell’evento che si manifesta quando si manifestano sia A<br />

che B<br />

- eventi incompatibili quei due eventi A e B tale che il manifestarsi dell’uno implica il non<br />

manifestarsi dell’altro e viceversa, cioè le modalità dei due eventi sono tali da farli escludere<br />

reciprocamente. Evidentemente la condizione di incompatibilità si può esprimere come<br />

A ∩ B = 0<br />

- eventi opposti quei 2 eventi A e B incompatibili tali che la loro somma logica sia uguale a<br />

Ω. L’evento opposto di A si indica anche come A; vale dunque: A ∪ A = Ω<br />

- un evento A é incluso in B, quando tutte le modalità di A sono anche modalità di B: A ⊂ B<br />

Tutte le definizioni date hanno un corrispettivo grafico che é facilmente caratterizzabile utilizzando<br />

i ben noti diagrammi della teoria degli insiemi.<br />

(2.3.3) Definizione assiomatica della probabilità<br />

Definiamo il simbolo P(E) (probabilità dell’evento E) in modo del tutto formale, come una<br />

caratteristica di E avente le seguenti proprietà(definizioni assiomatiche di Kolmogorov):<br />

positività: 0 ≤ P ( E)<br />

≤ 1 la probabilità associata ad un evento é un numero reale e positivo non<br />

superiore a 1;<br />

certezza: P ( Ω)<br />

= 1 e P ( 0) = 0 la probabilità dell’intero spazio degli eventi é pari a 1 e<br />

quella dell’evento nullo é 0;<br />

unione: se A e B sono incompatibili P ( A ∪ B)<br />

= P(<br />

A)<br />

+ P(<br />

B)<br />

Si noti che si tratta di una definizione “formale” che non dice nulla riguardo il significato di questa<br />

operazione P(E) che associa un numero reale ad un evento. Si chiama appunto definizione<br />

assiomatica perché stabilisce delle regole a partire dalle quali possono essere dedotte tutte le altre<br />

proprietà.<br />

(2.3.4) Probabilità condizionata<br />

Nello scrivere il simbolo P(E) intendiamo dire la probabilità dell’evento E. Si noti tuttavia anche<br />

per le considerazioni fatte sulle misure nella prima parte del corso, che ha senso chiedersi della<br />

probabilità di un evento solo quando sono specificate le condizioni all’interno delle quali l’evento é<br />

definito. Dunque é più generale esprimere la probabilità di E come la probabilità di E date le<br />

condizioni H. Scriveremo pertanto P(E/H). Il simbolo P(E/H) esprime quella che si chiama<br />

probabilità condizionata. Per quanto detto dunque la probabilità é sempre condizionata. Si noti che<br />

il simbolo P(E/H) non é la stessa cosa di P( E ∩ H ) come si potrebbe pensare a prima vista.<br />

Tutto va come se la condizione H definisse il nuovo spazio degli eventi su cui calcolare la<br />

probabilità di E. Si tratterà dunque di calcolare<br />

48


P(<br />

E / H ) =<br />

P(<br />

E ∩ H )<br />

P(<br />

H )<br />

cioè calcolare il prodotto logico tra E ed H e poi “normalizzarlo” alla probabilità di H stesso. Si può<br />

dire che la probabilità condizionata restringe lo spazio degli eventi a cui far riferimento dallo spazio<br />

completo Ω al suo sottospazio H. Un esempio del significato di questi due simboli ci é fornito dal<br />

caso in cui mi chiedo quale sia la probabilità che esca testa al secondo lancio quando nel primo é<br />

già uscita testa. In tal caso P( E ∩ H ) e P(E/H) sono differenti. Infatti nel secondo caso non<br />

devo contare la probabilità che sia uscito testa la prima volta, essendo questo dato per “certo”,<br />

mentre nel primo devo calcolarlo.<br />

L’espressione data sopra é evidentemente simmetrica rispetto ad E ed H , quindi E ed H possono<br />

essere invertiti e la formula può essere rigirata. Avremo dunque:<br />

P(<br />

E ∩ H ) = P(<br />

E / H ) P(<br />

H )<br />

P(<br />

E ∩ H ) = P(<br />

H / E)<br />

P(<br />

E)<br />

Le due espressioni date costituiscono il teorema delle probabilità composte che serve per calcolare<br />

la probabilità di eventi composti, cioè di eventi che avvengono in coincidenza.<br />

Si noti che P(E/H) può essere > < o = a P(E). Ciò dipende infatti dal tipo di relazione esistente tra<br />

la condizione H e l’evento E. Nel caso dei 2 lanci della monetina che abbiamo citato poco sopra,<br />

entrambi le probabilità sono uguali e pari a ½. Ciò riflette il fatto che l’esito del primo lancio non<br />

ha alcun effetto sull’esito del secondo (a differenza di quello che credono coloro che puntano sui<br />

numeri del lotto sulla base del loro ritardo nell’uscita). Ma si possono costruire anche esempi in cui<br />

l’esito del primo evento condiziona l’esito del secondo. Se ho un urna con 5 palline bianche e 5 nere<br />

e ad ogni estrazione non reintroduco la pallina estratta, evidentemente la probabilità di estrarre<br />

bianco al secondo lancio cambia se specifico la condizione “al primo lancio ho estratto una bianca”.<br />

Il caso particolare che si ha quando P(E/H) = P(E) (come nell’esempio della monetina), cioè il caso<br />

in cui la condizione data dall’evento H non ha alcuna rilevanza circa la probabilità di E corrisponde<br />

al fatto che i 2 eventi sono indipendenti o scorrelati. Il verificarsi dell’uno non ha alcun effetto<br />

sulla probabilità di verificarsi dell’altro. Quando invece P(E/H) é diversa da P(E) allora si dice che<br />

i 2 eventi sono dipendenti o correlati.<br />

Nel caso di eventi indipendenti si ha:<br />

P ( A ∩ B)<br />

= P(<br />

A)<br />

P(<br />

B)<br />

regola della moltiplicazione delle probabilità di eventi indipendenti.<br />

Dunque come regola generale, quando devo considerare l’OR tra eventi incompatibili sommo le<br />

probabilità quando devo fare l’AND tra eventi indipendenti devo moltiplicarle.<br />

Si noti che la nozione di indipendenza non va confusa con quella di incompatibilità sopra definita.<br />

Si vede immediatamente che se 2 eventi sono incompatibili cioè se il verificarsi dell’uno implica il<br />

non verificarsi dell’altro, allora i 2 eventi sono massimamente dipendenti.<br />

(2.3.5) Alcune proprietà delle probabilità<br />

Deriviamo alcune importanti proprietà della probabilità che useremo in seguito. Si tratta di<br />

conseguenze degli assiomi nel senso che possono essere derivate formalmente usando solo gli<br />

assiomi dati. Le vediamo facendo per ognuna riferimento al suo significato grafico nell’ambito del<br />

modello insiemistico.<br />

Dato un evento A ed il suo opposto A si ha<br />

A ∪ A = Ω<br />

e dunque essendo A ed A incompatibili ed usando gli assiomi di unione e certezza:<br />

P ( A ∪ A)<br />

= P(<br />

A)<br />

+ P(<br />

A)<br />

= P(<br />

Ω)<br />

= 1<br />

si ha la regola (peraltro intuitiva):<br />

49


P( A)<br />

= 1−<br />

P(<br />

A)<br />

.<br />

A ed il suo opposto A costituiscono una “partizione completa” di Ω e pertanto qualsiasi evento<br />

B può essere scritto nella forma:<br />

B = ( B ∩ A)<br />

∪ ( B ∩ A)<br />

come OR di 2 eventi incompatibili per cui la probabilità di B sarà:<br />

P( B)<br />

= P(<br />

B ∩ A)<br />

+ P(<br />

B ∩ A)<br />

Si tratta di una decomposizione che viene utilizzata in molte delle dimostrazioni formali dei teoremi<br />

che vedremo nel seguito.<br />

Proprietà di inclusione. Vale la proprietà anch’essa intuitiva che se<br />

A ⊆ B<br />

allora<br />

P( A)<br />

≤ P(<br />

B)<br />

Tale proprietà é facilmente dimostrabile decomponendo l’evento B nell’OR tra l’evento A (che é<br />

per ipotesi incluso in B) e il resto di B che é esprimibile come AND tra B e l’opposto di A<br />

B = A ∪ ( B ∩ A)<br />

Applicando al solito l’assioma dell’unione si ottiene:<br />

P( B)<br />

= P(<br />

A)<br />

+ P(<br />

B ∩ A)<br />

≥ P(<br />

A)<br />

essendo comunque per l’assioma della positività<br />

P ( B ∩ A)<br />

≥ 0<br />

Da ultimo vediamo come si generalizza l’assioma dell’unione al caso in cui i 2 eventi non siano<br />

incompatibili. Se considero 2 eventi A e B decompongo il loro OR nell’OR tra A senza B, B senza<br />

A e A e B insieme (3 eventi chiaramente incompatibili). Esplicitamente,<br />

A ∪ B = ( A ∩ B)<br />

∪ ( A ∩ B)<br />

∪ ( A ∩ B)<br />

da cui usando l’assioma dell’unione<br />

P( A ∪ B)<br />

= P(<br />

A ∩ B)<br />

+ P(<br />

A ∩ B)<br />

+ P(<br />

A ∩ B)<br />

Analogamente posso decomporre sia A che B in eventi incompatibili per modo che valgono le:<br />

P(<br />

A)<br />

= P(<br />

A ∩ B)<br />

+ P(<br />

A ∩ B)<br />

P(<br />

B)<br />

= P(<br />

A ∩ B)<br />

+ P(<br />

A ∩ B)<br />

Sottraendo membro a membro ed eliminando i termini uguali otteniamo l’importante teorema:<br />

P( A ∪ B)<br />

= P(<br />

A)<br />

+ P(<br />

B)<br />

− P(<br />

A ∩ B)<br />

all’interno del quale l’assioma dell’unione é compreso come caso particolare di eventi<br />

incompatibili. Si noti che tale teorema ha un chiarissimo significato grafico.<br />

(2.3.6) Il teorema di Bayes<br />

Dimostriamo ora un ulteriore teorema che deriva dalla definizione assiomatica e che riveste un<br />

ruolo particolarmente rilevante nei problemi di “inferenza”. Vediamo prima il teorema e poi<br />

vedremo la sua interpretazione.<br />

Consideriamo lo spazio degli eventi Ω suddiviso in N eventi tutti tra loro incompatibili e tali da<br />

costituire una “partizione completa” di Ω. Chiamiamo A i l’i-esimo evento. Si ha per definizione:<br />

Ω = ∪ A<br />

i i<br />

∀i, j(<br />

A ∩ A ) = 0<br />

i<br />

j<br />

Con tale decomposizione la probabilità dell’evento B può essere scritta nella forma:<br />

50


P(<br />

B)<br />

= N<br />

i= 1<br />

i<br />

i=<br />

1<br />

N<br />

∑P(<br />

B ∩ A ) = ∑P(<br />

B / A ) P(<br />

A )<br />

i<br />

i<br />

dove abbiamo anche usato il teorema delle probabilità composte. D’altra parte, sempre sulla base<br />

del teorema delle probabilità composte scritto usando simmetricamente A e B posso derivare la<br />

relazione:<br />

P(<br />

A)<br />

P ( A/<br />

B)<br />

= P(<br />

B / A)<br />

P(<br />

B)<br />

Applicando questa relazione all’evento B ed al generico A k ed usando per P(B) la decomposizione<br />

sopra descritta, otteniamo:<br />

P(<br />

B / A ) P(<br />

A )<br />

k<br />

k<br />

P(<br />

A / B)<br />

=<br />

k<br />

N<br />

∑ P(<br />

B / A ) P(<br />

A )<br />

i=<br />

1<br />

i<br />

i<br />

Tale espressione esprime il Teorema di Bayes. Si tratta evidentemente di una conseguenza degli<br />

assiomi della probabilità. Proviamo a “leggere” questo teorema. Supponiamo che il fenomeno che<br />

sto studiando può aver luogo secondo N modalità diverse (gli N eventi Ai). Supponiamo inoltre di<br />

aver osservato l’evento B e di essere interessati a sapere quale o quali tra le N modalità Ai siano<br />

plausibilmente le “cause” di B. O, detto in termini più espliciti, se osservo l’effetto B e questo può<br />

essere dovuto a N cause diverse Ai, voglio, dall’osservazione dell’effetto stabilire la probabilità di<br />

ciascuna causa. Cosi’ formulato si tratta di un problema di straordinaria generalità. Infatti il<br />

procedimento dello sperimentatore consiste proprio nel registrare un effetto (il valore misurato) e<br />

nello stabilire un intervallo di probabilità per il valore vero che significa trovare quale tra le<br />

possibili cause é più plausibile.<br />

Il teorema di Bayes consente dunque di calcolare la probabilità delle cause, dato l’effetto osservato.<br />

Per fare ciò ho bisogno di 2 ingredienti:<br />

conoscenza di tutte le P ( A k ) cioè delle cosiddette “probabilità a priori” delle cause. Si tratta di<br />

una informazione che racchiude tutta la conoscenza a priori sul fenomeno che sto studiando. Se non<br />

ho nessuna conoscenza queste P ( A k ) immagino che siano uniformi cioè che tutte le cause possibili<br />

siano equiprobabili.<br />

conoscenza di tutte le P ( B / A k ). Si tratta per ogni Ak della probabilità di osservare l’effetto B<br />

se la causa che lo origina é Ak. Si chiama anche funzione di verosimiglianza (likelihood in<br />

inglese). E’ una funzione che racchiude tutte le conoscenze che ho sulla relazione tra causa ed<br />

effetto. Nel caso di un esperimento é la mia conoscenza dell’apparato di misura (precisione, errori<br />

sistematici, accuratezza, ripetibilità...)<br />

Il teorema di Bayes permette dunque di passare dalle probabilità per gli effetti alle probabilità per le<br />

cause. Può essere usato come base per il processo dell’inferenza che consiste proprio nel fare<br />

affermazioni sulle cause (i valori veri) dati gli effetti.<br />

(2.4) Il Calcolo Combinatorio.<br />

Vediamo ora alcune interessanti regole di calcolo che sono molto utilizzate nel calcolo delle<br />

probabilità, in particolare nella determinazione del numero dei casi favorevoli e di quello dei casi<br />

possibili che entrano nel metodo combinatorio di valutazione della probabilità. Parliamo del calcolo<br />

combinatorio. E’ importante sottolineare l’importanza del calcolo combinatorio in <strong>Fisica</strong>. Esso<br />

infatti entra in gioco non solo come vedremo nel calcolo delle probabilità, ma svolge un ruolo<br />

essenziale anche nella Meccanica Statistica, cioè in quel settore della <strong>Fisica</strong> Teorica nel quale<br />

vengono studiate le proprietà dei sistemi costituiti da molti elementi.<br />

I problemi di calcolo combinatorio di cui ci occuperemo qui, possono in generali essere tutti posti<br />

nel modo seguente. Supponiamo di avere un certo numero (diciamo n) di elementi, e supponiamo di<br />

avere la possibilità di disporre questi elementi in un certo numero (diciamo k) di caselle, un<br />

elemento a casella, secondo certe modalità date per costituire degli oggetti. Allora mi chiedo:<br />

quant’e il numero di oggetti che posso costituire o, detto in altri termini, il numero di modi in cui<br />

posso disporre gli n elementi nelle k caselle ?<br />

51


In generale la regola é: se nella i-esima casella posso scegliere 1 tra n i degli n elementi, il numero<br />

totale di oggetti che posso costruire é pari a n 1 *...*n i *...*n k cioè devo moltiplicare tra loro tutti i<br />

numeri di scelte possibili.<br />

Distinguiamo ora i vari casi che si incontrano e facciamo dunque una classificazione dei problemi<br />

di calcolo combinatorio, sulla base delle modalità di disposizione.<br />

(1) Disposizioni di n elementi in k caselle. Se gli n elementi che ho a disposizione sono tutti<br />

disponibili e possono essere usati ciascuno più di una volta, allora in ciascuna casella posso disporre<br />

effettivamente n elementi. Il prodotto n 1 *n 2 *...*n k tra il numero di elementi che posso mettere in<br />

ogni casella sarà dato dal prodotto k volte degli n elementi, ovvero da :<br />

k<br />

n<br />

È il caso che si pone quando posso usare più volte lo stesso elemento e allo stesso tempo, la<br />

sequenza nelle k caselle é importante. L’esempio più classico é quello della schedina di totocalcio.<br />

Ho 13 caselle da riempire con 3 elementi. Il numero di modi con cui posso farlo é evidentemente<br />

3 13 .<br />

(2) Disposizioni semplici (cioè senza ripetizioni) di n elementi in k caselle. Questo caso differisce<br />

dal precedente nel fatto che ora una volta che ho messo un elemento in una casella, non posso più<br />

riutilizzarlo. Cioè viene mantenuta l’individualità di ciascun singolo elemento. E’ evidente che in<br />

tal caso deve essere n > k, perché in caso contrario non potrei riempire le k caselle. Contiamo in<br />

questo caso il numero di modi in cui posso disporre gli elementi.<br />

Evidentemente posso mettere n elementi nella prima casella. Quando sono alla seconda ne potrò<br />

mettere solo n-1 perché uno me lo sono già “giocato” alla casella precedente. Alla terza potrò<br />

metterne n-2, e cosi’ via, fino alla k-esima, quando ne potrò mettere n-k+1. Il numero di oggetti<br />

sarà dunque:<br />

n!<br />

n(<br />

n −1)....(<br />

n − k + 1) =<br />

( n − k)!<br />

si noti che anche in questo caso come nel precedente, la sequenza con la quale gli elementi sono<br />

disposti nelle caselle, é rilevante. Cioè se prendo gli stessi elementi e li dispongo in un ordine<br />

diverso, questo costituisce un altro modo che é contato.<br />

Come esempio consideriamo un concorso a cui partecipano 100 persone per 10 posti, e calcoliamo<br />

il numero di graduatorie dei primi 10 classificati che si possono ottenere. In questo caso, n=100,<br />

k=10, ed evidentemente non posso mettere un candidato in 2 diverse posizioni.<br />

Si noti a questo punto la differenza tra i casi (1) e (2). Nel caso (2) gli elementi sono distinguibili,<br />

cioè hanno ciascuno una identità ben definita nel caso (1) no. La distinzione distinguibile –<br />

indistinguibile svolge un ruolo determinante nel passaggio tra <strong>Fisica</strong> Classica e <strong>Fisica</strong> Quantistica.<br />

Anzi fu proprio attraverso la comprensione di questo passaggio che furono mossi i primi passi ai<br />

primi del ‘900 nel passaggio alla nuova <strong>Fisica</strong>.<br />

(3) Permutazioni di n elementi. Si tratta delle disposizioni semplici quando n=k. Si ha un numero<br />

di oggetti pari a<br />

n !<br />

Siamo cioè nel caso in cui il numero di elementi uguaglia il numero di caselle. Ho evidentemente un<br />

solo modo di scegliere quali elementi mettere perché devo prenderli tutti. Tuttavia mi resta la libertà<br />

di definire in quale sequenza metterli nelle caselle. Le permutazioni sono dunque i modi con cui<br />

posso scambiare gli elementi per creare diverse sequenze.<br />

52


(4) Combinazioni di n elementi presi k a k. Qui il problema é un po’ diverso. Come nel caso (2) n<br />

> k. Solo che stavolta, tra n elementi devo sceglierne k e disporli nelle k caselle, ma non sono<br />

interessato a sapere come li dispongo, sono solo interessato a sapere quali ho scelto. In altre parole<br />

devo ancora contare le disposizioni semplici, ma devo contare solo una volta, quelle disposizioni<br />

che sono fatte dagli stessi elementi ma sono solo ordinate in modo diverso. Devo quindi dividere il<br />

numero di disposizioni semplici per il numero di permutazioni dei k elementi scelti.<br />

n!<br />

1 n!<br />

⎛n⎞<br />

= = ⎜ ⎟<br />

( n − k)!<br />

k!<br />

( n − k)!<br />

k!<br />

⎝k<br />

⎠<br />

Il risultato ottenuto é detto coefficiente binomiale per ragioni che saranno chiare nel seguito.<br />

Rappresenta il numero di combinazioni di n elementi presi k a k, cioè il numero di modi in cui<br />

posso scegliere k tra n elementi, indipendentemente dall’ordine con cui li dispongo.<br />

(2.5) Variabili casuali<br />

(2.5.1) Considerazioni generali<br />

La nozione di evento finora utilizzata risulta piuttosto astratta e difficilmente applicabile alle<br />

misure, alle quali siamo interessati. Apparentemente quindi le cose viste nella prima parte del corso<br />

non trovano una connessione diretta con quanto stiamo vedendo riguardo le probabilità degli eventi.<br />

L’applicazione della teoria della probabilità ai risultati di misure, diventa evidente quando<br />

introduciamo le variabili casuali. Quando l’evento può essere schematizzato come l’occorrenza di<br />

un numero, rispetto ad una molteplicità di numeri possibili, si dice che quel numero costituisce una<br />

variabile casuale: intendendo con ciò “un modo dell’evento”. E’ l’evento in forma quantitativonumerica.<br />

L’insieme di tutti i valori che tale variabile può assumere costituisce lo spazio degli<br />

eventi Ω . Si può trattare dell’insieme di tutti i numeri reali, oppure di tutti gli interi positivi, oppure<br />

degli interi tra 0 e 100 o quello che si vuole.<br />

Perché le variabili casuali sono importante in fisica ? Essenzialmente perché le grandezze fisiche<br />

che costituiscono l’oggetto delle misure, si presentano in generale come variabili casuali. Negli<br />

esempi che abbiamo visto nella prima parte del corso e nella prima esercitazione, abbiamo notato<br />

che il risultato di ogni misura può essere un numero diverso e dunque il risultato di una misura può<br />

considerarsi a tutti gli effetti come un evento all’interno dello spazio dei possibili risultati. Le<br />

sequenze di numeri che abbiamo visto sono perciò insiemi di eventi, cioè di occorrenze di una<br />

variabile casuale.<br />

Si noti che in questo contesto, l’aggettivo “casuale” non vuol dire completamente a caso, ma vuol<br />

dire che si tratta di una variabile che può assumere valori con certe caratteristiche.<br />

Vediamo alcuni esempi.<br />

a) Testa-Croce. Qui la variabile può assumere 2 valori (lo spazio Ω è uno spazio con 2 eventi<br />

soltanto) che possiamo chiamare 0 e 1. I 2 eventi sono evidentemente equiprobabili di probabilità<br />

1/2<br />

b) 1 Dado. Qui lo spazio é costituito dai numeri interi da 1 a 6, tutti equiprobabili (p=1/6)<br />

c) 2 Dadi. Qui lo spazio é costituito dagli interi da 2 a 12 ma questi non sono equiprobabili. Il<br />

contenuto di probabilità di ciascun evento é facilmente calcolabile con il metodo combinatorio. Si<br />

ottiene una probabilità massima per n=7 e minima per n=2 o 12 (vedi costruzione in Fig.2.1).<br />

53


Fig.2.1 Funzione di distribuzione della variabile discreta somma dei 2 dadi, ottenuta applicando il metodo<br />

combinatorio.<br />

frequenza<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10 12 14<br />

Somma dei 2 dadi<br />

frequenza<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10 12 14<br />

Somma dei 2 dadi<br />

frequenza<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10 12 14<br />

Somma dei 2 dadi<br />

Fig.2.2 Esempi di distribuzioni “campionarie” della variabile (somma dei 2 dadi) per diversi numeri di lanci<br />

(2.5.2) Distribuzioni di probabilità di variabili casuali<br />

54


Emerge da questi esempi in modo naturale la nozione di distribuzione di probabilità: ogni evento,<br />

ovvero ogni occorrenza di un possibile elemento dello spazio Ω é caratterizzato da una certa<br />

probabilità (che posso stimare a priori sulla base delle mie conoscenze del fenomeno). La<br />

distribuzione ci dice quanto vale p(E) cioè quant’è la probabilità che associamo a ciascuno degli<br />

eventi possibili. Questa distribuzione ha evidentemente una sua caratterizzazione grafica, nella<br />

quale la variabile casuale viene posta sull’asse delle ascisse, e la probabilità viene posta sull’asse<br />

delle ordinate.<br />

La forma ottenuta, esprime in definitiva tutte le proprietà note del fenomeno in esame. Tale forma é<br />

detta anche popolazione. Nel caso della Fig.2.1 abbiamo dunque la popolazione della variabile<br />

“somma di 2 dadi”. Se prendo 2 dadi e faccio un numero finito di lanci, e disegno l’istogramma dei<br />

valori ottenuti (vedi Fig.2.2 dove sono riportati 3 istogrammi per 3 diversi numeri di lanci)<br />

riportando sull’asse delle ordinate le frequenze con cui ciascun valore si é manifestato, ho ottenuto<br />

la descrizione di un campione preso dalla popolazione in esame. Nel limite in cui il numero di<br />

misure é elevato, sappiamo che la frequenza tende alla probabilità di occorrenza di quel risultato,<br />

ovvero, usando un linguaggio più appropriato, il campione tende ad approssimare la popolazione.<br />

Vediamo dunque che tra frequenza e probabilità vi é una “relazione” molto importante, che é la<br />

relazione che c’è tra l’istogramma e la distribuzione ovvero quella che c’è tra campione e<br />

popolazione.<br />

Distinguiamo subito tra 2 tipi di variabili casuali:<br />

(a) variabili discrete: i valori assunti possono essere solo interi compresi tra n 1 ed n 2 .<br />

(b) variabili continue: i valori assunti possono essere numeri reali compresi tra a e b<br />

(2.5.3) Variabili discrete.<br />

Il caso delle variabili discrete é sostanzialmente semplice. Per ogni n ho p ( n ) ovvero la probabilità<br />

che “esca” il numero n. Nel caso del dado, p(1)=p(2)=...=p(6)=1/6. Se voglio sapere la probabilità<br />

che esca un numero compreso tra n1 ed n2 farò:<br />

p ( n ≤ n ≤ n ) =<br />

1<br />

2<br />

n 2<br />

∑<br />

i=<br />

n1<br />

p(<br />

i)<br />

infatti ogni uscita é incompatibile con l’uscita simultanea di un altro numero.<br />

Naturalmente per soddisfare l’assioma della certezza dovrà essere:<br />

N<br />

∑ p(<br />

i)<br />

= 1<br />

1=<br />

0<br />

se [0,N]é l’intervallo di definizione della variabile.<br />

(2.5.4) Variabili continue<br />

Nel caso di variabile continua, notiamo subito che esiste una novità fondamentale. Infatti noi<br />

sappiamo che i numeri reali costituiscono un insieme “comunque denso”. Un numero reale é a<br />

rigore, un numero che ha infinite cifre significative. Noi sappiamo bene in effetti che quando si<br />

fanno delle misure non ha molto significato chiedersi quant’è la probabilità che esca il numero reale<br />

45.72. E’ più sensato chiedersi, quant’è la probabilità che esca un numero reale compreso tra 45.715<br />

e 45.725. Si noti che nel caso delle variabili discrete questo problema non si pone. La probabilità<br />

che esca 10, é perfettamente definita. Nel caso dei numeri reali invece la probabilità che esca<br />

proprio x é a rigore “nulla”, non nulla é invece la probabilità che esca un numero compreso tra x e<br />

x+Δx.<br />

Per trattare il caso delle variabili casuali rappresentate da numeri reali, si ricorre ai metodi<br />

dell’analisi matematica, in particolare quelli del calcolo differenziale ed integrale. Vediamo di<br />

illustrare il procedimento logico di tali metodi senza pretendere di essere rigorosi.<br />

A questo scopo immaginiamo di dividere l’insieme di definizione della variabile reale x in intervalli<br />

(bins) larghi Δx, ciascuno centrato in un dato valore di x, diciamo x k , e di mettere in<br />

corrispondenza di ciascun bin una barra di altezza pari alla probabilità che x cada nell’intervallo<br />

55


compreso tra x k -Δx/2 e x k +Δx/2. Sostanzialmente abbiamo costruito un istogramma, abbiamo cioè<br />

“discretizzato” una variabile continua rendendola simile ad una discreta. Chiamiamo P k l’altezza di<br />

ciascuna barra e f(x k ) il rapporto<br />

f ( x ) = P / Δx<br />

k<br />

k<br />

La probabilità associata al generico intervallo [a,b] sarà data dalla somma sugli N bin contenuti<br />

nell’intervallo [a,b]:<br />

N<br />

N<br />

N<br />

p(<br />

a < x < b)<br />

= ∑ p(<br />

x − Δx<br />

/ 2 < x < x + Δx<br />

/ 2) = ∑ P = ∑<br />

k = 1<br />

k<br />

k<br />

k = 1<br />

k<br />

k = 1<br />

f ( x ) Δx<br />

Tale espressione costituisce una approssimazione alla probabilità che stiamo cercando di calcolare.<br />

Se ora diminuisco sempre di più le dimensioni del mio bin, aumentando proporzionalmente il<br />

numero di bins, cioè se faccio il limite per Δx -> 0 l’approssimazione diventa sempre più buona.<br />

L’analisi mi insegna che sotto certe ipotesi sulla funzione, il limite della sommatoria esiste, e si<br />

chiama integrale della funzione. Scriveremo perciò:<br />

p ( a < x < b)<br />

= ∫ f ( x)<br />

dx<br />

b<br />

a<br />

La funzione f ( x ) é detta densità di probabilità. Si tratta di una funzione che non ha né il<br />

significato né le dimensioni di una probabilità, ma il cui valore in una certa zona di x ci dice quanta<br />

é la “probabilità per unità di x” che x esca in quella zona. Per fissare le idee disegniamo una f( x )<br />

qualsiasi (vedi Fig.2.3). Dal punto di vista grafico, la probabilità in questo caso é dunque l’area<br />

sottesa alla curva tra a e b come illustrato in Fig.2.3. Il simbolo dx indica l’intervallo infinitesimo<br />

della variabile x, cioè il limite per N grande di Δx. Quindi il segno di integrale appena definito ha il<br />

significato di una somma di prodotti dei valori della funzione per la dimensione dell’intervallino,<br />

quando ho implicitamente pensato di mandare all’infinito il numero di intervallini.<br />

k<br />

Fig.2.3 Esempio di densità di probabilità f(x) della variabile casuale continua x definita nell’intervallo (0,10).<br />

L’area complessiva sottesa alla curva é pari a 1. Per determinare la probabilità che x sia compresa tra i 2 valori a e<br />

b, (pari rispettivamente a 3 e 5 in questo caso) si deve valutare l’area indicata.<br />

Con questo linguaggio l’assioma della certezza si tramuta nella:<br />

x max<br />

∫ f ( x)<br />

dx = 1<br />

x min<br />

56


dove [xmin,xmax] costituiscono l’insieme di definizione della variabile casuale x.<br />

Per quanto detto, le densità di probabilità ha le dimensioni di un inverso di x essendo il prodotto<br />

f(x)dx uguale ad una probabilità che é adimensionale.<br />

Le funzioni di distribuzione sia di n che di x possono dipendere da uno o più parametri, i cui valori<br />

determinano le caratteristiche della funzione. La notazione che si usa é p ( n/θ ) o f ( x/θ)<br />

intendendo con θ un insieme di parametri. La notazione adottata fa capire che la dipendenza dal<br />

parametro é una forma di condizionamento della probabilità. Si tratta cioè di dire la funzione di<br />

distribuzione di x quando θ vale un certo valore.<br />

Accanto alla funzione di distribuzione si definisce la funzione cumulativa (o di ripartizione) cosi’<br />

definita:<br />

P ( n / θ ) = ∑<br />

n p(<br />

i / θ )<br />

i=<br />

n1<br />

ovvero<br />

F( x / θ ) = x<br />

∫ f ( x'<br />

/ θ ) dx'<br />

x min<br />

Dalla definizione risulta chiaro il significato delle funzioni cumulative. E’ una funzione<br />

monotonamente crescente che parte da 0 e arriva a 1. La funzione di distribuzione cumulativa<br />

corrispondente alla funzione di distribuzione di Fig.2.3é data in Fig.2.4. Nel caso di variabile<br />

continua, dai teoremi del calcolo differenziale e integrale otteniamo che<br />

dF(<br />

x / θ )<br />

f ( x / θ ) =<br />

dx<br />

cioè la densità di probabilità é la derivata della funzione cumulativa. Come illustrato graficamente<br />

nella Fig.2.4, il calcolo della probabilità che x sia compreso tra a e b, può essere effettuato a mezzo<br />

della distribuzione cumulativa secondo la formula:<br />

P( a < x < b)<br />

= F(<br />

b)<br />

− F(<br />

a)<br />

Fig.2.4 Distribuzione cumulativa della densità di probabilità mostrata in Fig.2.3. Il calcolo della probabilità che x<br />

assuma un valore compreso tra a e b (3 e 5 in questo caso specifico), può essere ottenuta calcolando F(a) ed F(b) e<br />

facendone la differenza. Si noti che la cumulativa tende ad 1 all’estremo dell’intervallo di definizione della<br />

variabile x (0,10 in questo caso).<br />

57


(2.5.5) Momenti di una distribuzione<br />

Le caratteristiche di una funzione di distribuzione sono determinate dalla forma della distribuzione<br />

e dai parametri che la determinano. E’ molto interessante ed utile introdurre anche dei numeri che<br />

caratterizzano la distribuzione, cioè delle misure complessive della distribuzione. Si tratta<br />

dell’analogo di quanto visto per le frequenze nella prima parte del corso: dall’istogramma alle<br />

caratteristiche numeriche quali la media e la deviazione standard.<br />

Si definisce in generale Momento di ordine k intorno al valore n ~ (o x ~ nel caso di variabile<br />

continua) della distribuzione, la quantità:<br />

Μ<br />

( k )<br />

( n ~ ) =<br />

n2<br />

∑<br />

n=<br />

n1<br />

( n − n~ )<br />

k<br />

p(<br />

n)<br />

nel caso di distribuzione di variabile discreta e<br />

max<br />

( )<br />

Μ ( ~ x<br />

k<br />

= ∫ ( − ~ )<br />

k<br />

x ) x x f ( x)<br />

dx<br />

x min<br />

nel caso di distribuzione di variabile continua. Ogni momento é evidentemente un numero.<br />

Di particolare interesse sono i seguenti momenti:<br />

Valore atteso: si tratta del momento primo (k=1) intorno allo 0 ( ~ x = 0 ):<br />

n 2<br />

(1)<br />

Μ (0) = E [ n]<br />

= ∑ np(<br />

n)<br />

n=<br />

n1<br />

x max<br />

(1)<br />

Μ (0) = E[<br />

x]<br />

= ∫ xf ( x)<br />

dx<br />

x min<br />

il suo significato é quello di “valore centrale” o “valore medio” della distribuzione. In effetti nella<br />

corrispondenza istogramma-distribuzione che più volte abbiamo considerato, é strettamente legato<br />

alla media di un istogramma. Si noti che la definizione di valore atteso per una variabile discreta é<br />

esattamente la media fatta sull’istogramma (definita nel Cap.(1)).<br />

~ x = x ):<br />

Varianza: é il momento secondo (k=2) intorno al valore atteso ( E[<br />

]<br />

Μ<br />

Μ<br />

( 2 )<br />

( 2 )<br />

n 2<br />

2<br />

( E [ n])<br />

= Var[<br />

n]<br />

= ∑ ( n − E[<br />

n])<br />

p(<br />

n)<br />

( E[<br />

x])<br />

= Var[<br />

x]<br />

=<br />

n=<br />

n1<br />

x max<br />

∫ ( x − E[<br />

x])<br />

x min<br />

2<br />

f ( x)<br />

dx<br />

qui evidentemente l’analogia é con la nozione di deviazione standard campionaria, o meglio, con il<br />

suo quadrato. E’ utile anche scrivere la varianza usando il simbolo dell’operatore valore atteso:<br />

2<br />

2<br />

2<br />

Var[<br />

x]<br />

= E[(<br />

x − E[<br />

x])<br />

] = E[<br />

x − 2xE[<br />

x]<br />

+ ( E[<br />

x])<br />

] =<br />

2<br />

2<br />

2<br />

2<br />

2<br />

= E[<br />

x ] − 2( E[<br />

x])<br />

+ ( E[<br />

x])<br />

= E[<br />

x ] − ( E[<br />

x])<br />

Si definisce anche deviazione standard della popolazione (con che a questo punto chiameremo<br />

l’altra deviazione standard campionaria) la sua radice quadrata:<br />

σ [ x ] = Var[<br />

x]<br />

che si indica con la lettera sigma.<br />

Tra i momenti successivi di particolare interesse sono il momento terzo intorno al valore atteso<br />

detto skewness ed il momento quarto sempre intorno alla media, dal quale si ricava il cosiddetto<br />

kurtosys. In particolare, a partire da skewness e kurtosys si definiscono i 2 coefficienti<br />

rispettivamente di simmetria e di appiattimento :<br />

58


A<br />

A<br />

s<br />

a<br />

=<br />

(<br />

Μ<br />

Μ<br />

Μ<br />

=<br />

( Μ<br />

( 4 )<br />

( 2 )<br />

( 3)<br />

( 2 )<br />

( E[<br />

x])<br />

( E[<br />

x]))<br />

( E[<br />

x])<br />

( E[<br />

x]))<br />

2<br />

3<br />

− 3<br />

Si noti che si tratta di coefficienti resi adimensionali nella definizione. In generale infatti il<br />

momento n-esimo ha dimensioni [x] n e pertanto la media ha dimensioni [x] e la varianza ha<br />

dimensioni [x] 2 .<br />

Naturalmente le definizioni date, in particolare quelle di valore atteso e di varianza, si estendono a<br />

combinazioni e funzioni di una o più variabili casuali. Vedremo nel seguito come si trattano questi<br />

casi.<br />

(2.5.6) Densità di probabilità di una funzione di variabile casuale<br />

Se x é una variabile casuale (l’argomento vale anche per il caso discreto), una qualsiasi funzione di<br />

x, y=y(x) risulta anch’essa una variabile casuale, nel senso che l’occorrenza di diversi valori di x<br />

secondo le modalità della sua funzione di distribuzione, determina anche l’occorrenza dei valori di<br />

y secondo le modalità di una funzione di distribuzione che dipenderà dalla distribuzione di x e dalla<br />

funzione y(x). Senza entrare nei dettagli matematici vediamo come si ricava la densità di probabilità<br />

di y, data quella di x e data la funzione y=y(x). Chiamiamo f(x) la densità di probabilità di x e g(y)<br />

quella di y.<br />

Supponiamo per semplicità che la funzione y(x) sia monotona nell’intervallo di definizione della<br />

variabile x. In tal caso l’inversione della funzione, cioè il passaggio dalla y(x) alla x(y), avviene<br />

senza difficoltà e la funzione x(y) é una funzione “monodroma” ovvero per ogni y vi é un solo x.<br />

Data la relazione tra x ed y dovrà essere per ogni valore di x (che chiamiamo x ):<br />

p ( x < x < x + dx)<br />

= p(<br />

y(<br />

x)<br />

< y < y(<br />

x + dx))<br />

= p(<br />

y(<br />

x)<br />

< y < y(<br />

x)<br />

+ dy)<br />

e dunque<br />

f ( x)<br />

dx = g(<br />

y)<br />

dy<br />

da cui la relazione cercata:<br />

dx(<br />

y)<br />

g ( y)<br />

= f ( x(<br />

y))<br />

dy<br />

dove il modulo é stato inserito per assicurare la positività della nuova densità di probabilità cosi’<br />

ottenuta. Si tratta pertanto di invertire la funzione y(x), di calcolare la derivata della x(y) e di<br />

moltiplicarne il modulo per la funzione f(x) in cui al posto della x mettiamo esplicitamente la x(y).<br />

La g(y) cosi’ ottenuta é anche automaticamente normalizzata<br />

b<br />

y ( b )<br />

1 = ∫ f ( x)<br />

dx = ∫ g(<br />

y)<br />

dy = 1<br />

a<br />

y ( a )<br />

se risulta normalizzata la f(x) di partenza.<br />

In Fig.2.5é illustrato graficamente il caso in cui da una variabile x uniforme tra 0 e 1, si passa ad<br />

una y=αx 2 . Il fatto che la y in questo caso non mantenga la stessa distribuzione della x uniforme é<br />

comprensibile osservando che se considero i 2 intervalli [0,1/2] e [1/2,1] equiprobabili in x, questi<br />

danno luogo a due intervalli di diversa grandezza in y ma che devono restare equiprobabili. Dunque<br />

la y non può essere uniforme.<br />

Le definizioni di valore atteso e varianza si estendono banalmente. Il valore atteso può essere<br />

espresso nella forma:<br />

y b<br />

= )<br />

b<br />

E [ y]<br />

∫ yg(<br />

y)<br />

dy = ∫ y(<br />

x)<br />

f ( x)<br />

dx<br />

(<br />

y ( a )<br />

a<br />

59


cioè può essere valutato sia integrando in y che in x.<br />

y(x)<br />

1<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

f(x)<br />

1.8 2 1.6<br />

1.4<br />

1.2<br />

0.8 1<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

0 0.25 0.5 0.75 1<br />

x<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

x<br />

g(y)<br />

4.5 5<br />

3.5 4<br />

2.5 3<br />

1.5 2<br />

0.5 1<br />

0<br />

0 0.25 0.5 0.75 1<br />

y<br />

Fig.2.5 Passaggio da una variabile casuale x distribuita uniformemente (in alto a destra) ad una y ottenuta da questa<br />

come y = x 2 (vedi grafico a sinistra in cui sono mostrati intervalli di equiprobabilità in x che si trasformano in<br />

intervalli di equiprobabilità in y). In basso a destra é mostrata la densità di probabilità della y g(y).<br />

(2.5.7) La media e la deviazione standard come variabili casuali<br />

Un caso molto particolare di funzione di variabile casuale che vogliamo introdurre a questo punto é<br />

quello della media aritmetica x e del quadrato s 2 della deviazione standard campionaria che<br />

abbiamo già introdotto nel Cap.(1) e che ora vogliamo analizzare come “funzioni di variabili<br />

casuali”.<br />

Infatti se x é una variabile casuale di valore atteso E[x] e varianza Var[x]é interessante chiedersi<br />

quali siano le proprietà di xe di s 2<br />

ottenuti a partire da un campione di dimensione N della<br />

variabile x. Per fare ciò premettiamo una proprietà fondamentale (di cui omettiamo la<br />

dimostrazione). Data una combinazione lineare di variabili casuali<br />

y = ∑<br />

N<br />

a x i i<br />

i=<br />

1<br />

si hanno le seguenti proprietà di linearità per valore atteso e varianza:<br />

N<br />

E[<br />

y]<br />

= ∑ a E[<br />

x ]<br />

i=<br />

1<br />

i<br />

i<br />

N<br />

2<br />

Var[<br />

y]<br />

= ∑ a Var[<br />

x ]<br />

i<br />

i<br />

i=<br />

1<br />

che discendono dal fatto che i momenti sono operatori lineari.<br />

Utilizzando queste espressioni calcoliamo ora il valore atteso e la varianza della media aritmetica.<br />

N<br />

∑ xi<br />

1 N<br />

i=<br />

1<br />

E[<br />

x]<br />

= E[<br />

] = ∑ E[<br />

x ] = E[<br />

x]<br />

i<br />

i=<br />

1<br />

N N<br />

N<br />

∑ xi<br />

1 N 1<br />

i=<br />

1<br />

Var[<br />

x]<br />

= Var[<br />

] = ∑Var[<br />

x ] = Var[<br />

x]<br />

2<br />

i<br />

i=<br />

1<br />

N N<br />

N<br />

Il risultato ci dice che:<br />

il valore atteso della media é lo stesso della variabile: l’operazione di media non cambia valore<br />

atteso, ovvero la media é un buon estimatore del valore atteso di x;<br />

60


la varianza della media é (1/N) volte la varianza della variabile: la media ha dunque una varianza<br />

minore della variabile. Questo fatto giustifica l’uso di<br />

s<br />

N<br />

per la deviazione standard della media, che abbiamo usato tante volte. Quindi la media aritmetica<br />

risulta essere un estimatore “potente” perché al crescere del numero di misure diminuisce la sua<br />

varianza. Si noti come questo risultato sia indipendente dalla densità di probabilità della x. Esso<br />

costituisce pertanto un risultato di grande generalità.<br />

2<br />

Quanto ad s , calcoliamo ora il suo valore atteso. Qui il calcolo é leggermente più complesso. Lo<br />

svolgiamo esplicitando tutti i passaggi rilevanti.<br />

1 N<br />

1<br />

N<br />

2<br />

2<br />

2<br />

E[<br />

s ] = E[<br />

∑ ( x − x)<br />

] = E[<br />

∑ ( x − E[<br />

x]<br />

+ E[<br />

x]<br />

− x)<br />

] =<br />

i<br />

i<br />

i=<br />

1<br />

i=<br />

1<br />

N −1<br />

N −1<br />

1<br />

N<br />

N<br />

N<br />

2<br />

2<br />

= E[<br />

∑(<br />

x − E[<br />

x])<br />

+ ∑(<br />

E[<br />

x]<br />

− x)<br />

+ 2∑(<br />

x − E[<br />

x])(<br />

E[<br />

x]<br />

− x)]<br />

=<br />

i<br />

i<br />

i= 1 i= 1 i=<br />

1<br />

N −1<br />

1<br />

N<br />

N<br />

2<br />

2<br />

= E[<br />

∑(<br />

x − E[<br />

x])<br />

+ N(<br />

E[<br />

x]<br />

− x)<br />

+ 2( E[<br />

x]<br />

− x)<br />

∑(<br />

x − E[<br />

x])]<br />

=<br />

i<br />

i<br />

i= 1 i=<br />

1<br />

N −1<br />

1<br />

N<br />

2<br />

2<br />

= E[<br />

∑ ( x − E[<br />

x])<br />

+ N(<br />

E[<br />

x]<br />

− x)<br />

+ 2( E[<br />

x]<br />

− x)<br />

N(<br />

x − E[<br />

x])]<br />

=<br />

i<br />

i=<br />

1<br />

N −1<br />

1<br />

N<br />

2<br />

2<br />

= E[<br />

∑ ( x − E[<br />

x])<br />

− N(<br />

E[<br />

x]<br />

− x)<br />

] =<br />

i<br />

i=<br />

1<br />

N −1<br />

1 N<br />

2<br />

2<br />

= ( ∑ E[(<br />

x − E[<br />

x])<br />

] − NE[(<br />

E[<br />

x]<br />

− x)<br />

])<br />

i<br />

i=<br />

1<br />

N −1<br />

1<br />

NVar[<br />

x]<br />

1<br />

= ( NVar[<br />

x]<br />

− ) = ( N −1)<br />

Var[<br />

x]<br />

= Var[<br />

x]<br />

N −1<br />

N N −1<br />

Dunque il valore atteso di s 2<br />

é pari a Var[x] come deve essere. Dunque il quadrato della nostra<br />

deviazione standard campionaria é un buon estimatore della varianza della popolazione.<br />

2<br />

Si noti che se avessimo adottato s avremmo avuto un 1/N in luogo di un 1/(N-1) davanti a tutto e<br />

N<br />

dunque alla fine avremmo avuto<br />

N −1<br />

E[ s<br />

2 N<br />

] = Var[<br />

x]<br />

N<br />

cioè una stima “distorta” della varianza. Questo giustifica l’uso dell’N-1 a denominatore che<br />

avevamo a suo tempo dato senza spiegazione chiara.<br />

Infine é interessante vedere quanto vale la “varianza della varianza”. Il calcolo risulta complesso,<br />

tuttavia il risultato é interessante:<br />

Var [ s<br />

2<br />

2( Var[<br />

x])<br />

] =<br />

N −1<br />

2<br />

(2.6) Variabili casuali notevoli.<br />

Passiamo a considerare alcuni casi notevoli di variabili casuali, che si prestano alla descrizione di<br />

vaste classi di fenomeni.<br />

(2.6.1) Distribuzione uniforme<br />

61


Si ha quando tutti i valori possibili della variabile hanno la stessa probabilità di essere ottenuti,<br />

ovvero quando la probabilità di un intervallo é pari al rapporto tra la larghezza dell’intervallo e la<br />

larghezza totale dell’intervallo di definizione della variabile. Detti rispettivamente N il numero di<br />

valori possibili nel caso di variabile discreta ed [a,b] l’insieme di definizione della variabile<br />

continua, si ha:<br />

1<br />

p(<br />

n)<br />

=<br />

N<br />

1<br />

f ( x)<br />

=<br />

b − a<br />

Si noti che non si possono avere variabili con distribuzioni uniformi tra -∞ e+∞ né discrete né<br />

continue. La definizione di p(n) e di f(x) per variabili discrete e continue uniformi sono fatte in<br />

modo tale che le variabili in questioni siano normalizzate. N oltreché b ed a sono i parametri.<br />

Esempi di distribuzioni uniformi si hanno sia per le variabili discrete (tombola, lancio di 1 dado)<br />

che per variabili continue (è il caso del display digitale dove immaginiamo una distribuzione<br />

uniforme tra i 2 estremi dell’intervallo). E’ interessante calcolare valore atteso e varianza. Lo<br />

facciamo per il caso di variabile continua. Per il calcolo della varianza é conveniente fare la<br />

sostituzione t = x – E[x]<br />

b<br />

1 1<br />

b<br />

1<br />

E[<br />

x]<br />

= ∫x<br />

dx = ∫xdx<br />

=<br />

a<br />

a<br />

b − a b − a b − a<br />

b<br />

Var[<br />

x]<br />

= ∫(<br />

x − E[<br />

x])<br />

a<br />

3<br />

( b − a)<br />

( b − a)<br />

= =<br />

12( b − a)<br />

12<br />

2<br />

2<br />

1 1<br />

dx =<br />

b − a b − a<br />

2<br />

x<br />

2<br />

b−E<br />

[ x ]<br />

∫<br />

a−E<br />

[ x ]<br />

b<br />

a<br />

2 2<br />

b − a b + a<br />

= =<br />

2( b − a)<br />

2<br />

3<br />

2<br />

1 t<br />

t dt =<br />

b − a 3<br />

da cui si deducono i 2 importanti risultati:<br />

il valore atteso di variabile casuale avente una densità di probabilità uniforme é il centro<br />

dell’intervallo;<br />

la varianza é invece pari all’ampiezza dell’intervallo al quadrato diviso 12 e la deviazione<br />

standard della popolazione é ampiezza dell’intervallo / √12.<br />

Quindi nel caso in cui la mia variabile abbia una distribuzione uniforme tra a e b posso stimare<br />

valore medio e deviazione standard dando centro dell’intervallo ± ampiezza / √12.<br />

Quale é il significato probabilistico di un intervallo dato in questo modo ? Possiamo calcolarlo nel<br />

modo seguente:<br />

p(<br />

E[<br />

x]<br />

−σ[<br />

x]<br />

< x < E[<br />

x]<br />

+ σ[<br />

x])<br />

=<br />

2σ<br />

[ x]<br />

= =<br />

b − a<br />

2( b − a)<br />

=<br />

12( b − a)<br />

2<br />

12<br />

= 0.577<br />

E [ x ] + σ [ x ]<br />

∫<br />

E [ x ] −σ<br />

[ x ]<br />

dx<br />

b − a<br />

cioè si tratta del 57.7%. Tale valore può essere confrontato con il ~ 70% che avevamo trovato dai<br />

dati della prima esercitazione. Tra poche lezioni capiremo il significato di quel valore. Per ora é<br />

interessante notare che il contenuto di probabilità di un intervallo standard, dipende dalla forma<br />

della distribuzione. Nel caso dell’esercitazione avevamo visto che moltiplicando per 3 l’intervallo<br />

standard ottenevamo un intervallo di “quasi-certezza” (entro il quale stava il ~ 99% dei dati). In<br />

questo caso per avere un intervallo di quasi-certezza basta ricorrere a ± semiampiezza che fornisce<br />

un intervallo di “certezza”.<br />

=<br />

b−a<br />

2<br />

a−b<br />

2<br />

=<br />

62


(2.6.2) La distribuzione binomiale<br />

La distribuzione binomiale si applica ai cosiddetti processi di Bernoulli. Si tratta di quei processi<br />

in cui 2 sono i possibili risultati incompatibili (0 o 1), che chiamiamo successo ed insuccesso<br />

caratterizzati da probabilità diverse p(0)=p (1)=1-p (questo esprime l’incompatibilità dei 2 eventi).<br />

Molti processi sono schematizzabili in questo modo. Dal punto di vista delle applicazioni alla fisica<br />

(tralasciando dunque dadi e monetine) il caso più interessante é quello della misura dell’efficienza<br />

di un rivelatore.<br />

Consideriamo infatti un rivelatore di radiazione posto in prossimità di una sorgente di radiazioni.<br />

Ad ogni passaggio della radiazione proveniente dalla sorgente, il rivelatore può dire Ok (se é<br />

efficiente) o non dire nulla (se inefficiente). Il fenomeno é schematizzabile come un processo di<br />

Bernoulli nel quale il successo si ha con l’Ok e l’insuccesso con il nulla.<br />

Ora, supponiamo che il rivelatore sia stato attraversato da N radiazioni, e di volere sapere quanto é<br />

la probabilità di avere avuto n volte Ok e N-n volte nulla. n costituisce dunque la variabile casuale<br />

(discreta) di questo problema definita nell’intervallo 0


p<br />

p<br />

1<br />

2<br />

=<br />

=<br />

10<br />

( )<br />

10<br />

⎛ 1 ⎞<br />

⎜ ⎟<br />

⎝ 2 ⎠<br />

⎛ 1<br />

⎜ ⎞ ⎟ ⎝ 2⎠<br />

10<br />

= 1×<br />

9.8⋅10<br />

≈ 0.1%<br />

10<br />

−4<br />

( ) = 210×<br />

9.8⋅10<br />

≈ 21%<br />

6<br />

10<br />

−4<br />

Sono illustrati in Fig.2.6 e Fig.2.7 esempi di distribuzioni binomiali per diversi p a due fissati valori<br />

di N ed in Fig.2.8 per diversi N ad un dato p. Si nota chiaramente lo spostamento del “picco” al<br />

variare di p e il restringimento e la simmetrizzazione della distribuzione al crescere di N. La<br />

distribuzione binomiale non é in generale simmetrica (lo é solo se N e p hanno valori particolari e in<br />

condizioni limiti che vedremo) e dunque moda, media e mediana non sono coincidenti.<br />

Fig.2.6. Esempi di distribuzione binomiale per N=10 e 5 diversi valori di p. Si noti come solo nel caso p=0.5 la<br />

distribuzione sia simmetrica. Si noti inoltre che i casi 0.25 e 0.75 e i casi 0.1 e 0.9 presentano forme uguali ma<br />

semplicemente “ribaltate”.<br />

64


Fig.2.7 Come per la Fig.2.6 nel caso N=30<br />

Fig.2.8 Esempi di distribuzioni binomiali a p fissato (p=0.2) e diversi N. Si noti al crescere di N la<br />

simmetrizzazione e il restringimento della distribuzione.<br />

È interessante il caso in cui p sia o molto prossimo a 0 o molto prossimo a 1 (è chiaro che le due<br />

situazioni sono “simmetriche” dato che successo ed insuccesso sono evidentemente<br />

intercambiabili). Infatti come si vede dalle Fig.2.6 e 2.7 le due distribuzioni sono “addossate” in un<br />

65


caso a n=0 e nell’altro ad n=N. Nel limite p0 o p1 si ottengono evidentemente due distribuzioni<br />

“banali” in cui p(n=0)=1 e p(n>0)=0 (ovvero p(n=N)=1 e p(n


le volte che conto degli eventi che si presentano in modo “casuale” cioè senza una struttura<br />

temporale determinata, la distribuzione di Poisson permette di caratterizzarne le proprietà più<br />

rilevanti.<br />

Introduciamo il processo di Poisson in due modi diversi. Dapprima lo consideriamo come caso<br />

limite del processo di Bernoulli, poi lo introdurremo in modo autonomo sulla base delle<br />

caratteristiche del processo stesso.<br />

Consideriamo dunque un processo di Bernoulli in cui facciamo crescere il numero di prove N e<br />

facciamo diminuire la probabilità del singolo successo p. Facciamo ciò mantenendo però fisso il<br />

prodotto Np che come sappiamo é il valore atteso della distribuzione binomiale. Cosa significa fare<br />

questo limite ? In sostanza il limite corrisponde a considerare il caso in cui sono tantissimi gli<br />

“oggetti” ai quali può accadere qualcosa (sono N) ma questa cosa che può accadere accade poco<br />

probabilmente. Immaginiamo una situazione di questo genere. Abbiamo un campione di N atomi<br />

ciascuno dei quali ha una probabilità p di dare luogo ad un decadimento radioattivo nell’intervallo<br />

di tempo Δt. E’ chiaro che se si tratta di un campione macroscopico (~10 20 atomi per fissare le idee)<br />

e se il nuclide radioattivo ha una “vita media” di milioni di anni saremo in una situazione in cui Né<br />

molto grande e p é molto piccola. Ma non solo, infatti N oltre ad essere molto grande é anche di<br />

difficile determinazione ed in fondo quanto sia non interessa nemmeno tanto. Tuttavia in una<br />

situazione del genere se io ho un contatore di radioattività, io conto un certo numero di decadimenti<br />

nell’unità di tempo Δt e il valore medio di tale conteggio é qualcosa che posso misurare ed é dunque<br />

quella la variabile che mi interessa. Passiamo ora esplicitamente al limite binomiale per N<br />

infinito p 0. Chiamo λ=Np.<br />

lim<br />

N →∞ , p→0<br />

lim<br />

N →∞ , p→0<br />

lim<br />

N →∞ , p→0<br />

n<br />

N!<br />

n<br />

N −n<br />

N!<br />

⎛ λ ⎞ ⎛ λ ⎞<br />

p (1 − p)<br />

= lim ⎜ ⎟ ⎜1<br />

⎟<br />

N →∞ , p→0<br />

−<br />

n!(<br />

N − n)!<br />

n!(<br />

N − n)!<br />

⎝ N ⎠ ⎝ N ⎠<br />

λ<br />

N<br />

n (1 − )<br />

N(<br />

N −1)(<br />

N − 2)...( N − n + 1) λ N =<br />

n<br />

n!<br />

N λ<br />

n<br />

(1 − )<br />

N<br />

λ<br />

N<br />

n (1 − )<br />

N(<br />

N −1)(<br />

N − 2)...( N − n + 1) λ N<br />

n<br />

N<br />

n!<br />

λ<br />

n<br />

(1 − )<br />

N<br />

Dopo aver riscritto la binomiale in questo modo e avendo introdotto λ, passo ad effettuare i limiti.<br />

Intanto osservo che il fattore<br />

n<br />

λ<br />

n!<br />

non dipende da N e da p e dunque esce fuori dal limite e va messo a fattore comune. Il rapporto<br />

N ( N − 1)( N − 2)...( N − n + 1)<br />

n<br />

N<br />

non dipende da p ma da N. Per N infinito va come N n /N n e pertanto tende a 1. Il fattore<br />

( 1 λ<br />

−<br />

N )<br />

n<br />

dipende solo da N e tende anch’esso a 1 avendo l’unica dipendenza da N a denominatore. Resta<br />

l’ultimo fattore per risolvere il quale facciamo ricorso al limite fondamentale (noto dall’analisi)<br />

N −n<br />

=<br />

67


1<br />

lim (1 +<br />

∞<br />

x<br />

x<br />

) =<br />

x →<br />

e<br />

in cui e é il numero di Nepero (e=2.718...). Il limite a cui siamo interessati é riconducibile al limite<br />

fondamentale di cui sopra, facendo la sostituzione 1/x=-λ/N :<br />

⎛ λ ⎞<br />

lim⎜1<br />

⎟<br />

N ∞<br />

−<br />

⎝ N ⎠<br />

1<br />

x ⎠<br />

N<br />

−λx<br />

x − λ<br />

⎛ ⎞ ⎛ ⎞<br />

⎜ ⎟ ⎜ ⎟ ⎟ =<br />

→<br />

= lim 1<br />

x→∞<br />

+ = lim 1<br />

x→∞<br />

+<br />

⎝<br />

⎜<br />

⎝<br />

⎛<br />

⎝<br />

1<br />

x ⎠<br />

In conclusione abbiamo ottenuto la funzione di distribuzione di Poisson:<br />

p(<br />

n)<br />

=<br />

λ<br />

λ −<br />

n<br />

e<br />

n!<br />

Si tratta della funzione di distribuzione della variabile casuale discreta n definita per valori tra 0 e ∞<br />

ed avente come unico parametro λ. Si può dimostrare che la funzione cosi’ definita é normalizzata.<br />

In Fig.2.9é mostrato il grafico della poissoniana per diversi valori di λ. Si noti che si tratta di una<br />

funzione in generale non simmetrica, ma che tende a simmetrizzarsi nel limite di grandi λ.<br />

⎞<br />

⎠<br />

e<br />

−λ<br />

Fig.2.9. Esempi di distribuzioni di Poisson per diversi valori di λ.<br />

Il significato di λ risulta evidente quando calcoliamo il valore atteso e la varianza di n. Calcoliamo<br />

E[n] ed E[n 2 ]:<br />

n − λ<br />

n−1<br />

− λ<br />

∞ λ e<br />

∞ λ e<br />

E[<br />

n]<br />

= ∑n<br />

= λ∑<br />

= λ<br />

n=<br />

0 n=<br />

1<br />

n!<br />

( n −1)!<br />

E[<br />

n<br />

2<br />

∞<br />

] = ∑ n<br />

n=<br />

0<br />

2<br />

n<br />

λ e<br />

n!<br />

−λ<br />

n−1<br />

−λ<br />

k<br />

∞ λ e<br />

∞ λ e<br />

= λ∑n<br />

= λ∑(<br />

k + 1)<br />

n=<br />

1 k=<br />

0<br />

( n −1)!<br />

k!<br />

−λ<br />

= λ(<br />

λ + 1)<br />

68


in cui come in altre circostanze abbiamo spostato la somma da n=0 a n=1 e abbiamo osservato che<br />

la sommatoria rimasta fattorizzata é uguale a 1 in virtù della proprietà di normalizzazione.<br />

Otteniamo dunque per la varianza:<br />

2<br />

Var [ n]<br />

= E[<br />

n ] − ( E[<br />

n])<br />

2<br />

2<br />

= λ ( λ + 1) − λ = λ<br />

Pertanto la distribuzione di Poisson ha λ sia come valore atteso che come varianza. Si tratta di un<br />

fatto di estrema importanza. Una popolazione poissoniana é dunque caratterizzata da una<br />

deviazione standard pari a<br />

σ [n]<br />

=<br />

λ<br />

In altre parole se effettuo un conteggio schematizzabile come poissoniano e trovo in media un certo<br />

valore λ il risultato del conteggio é caratterizzato da una fluttuazione pari a √λ.<br />

Si noti che il parametro λ non é necessariamente un numero intero. Infatti il numero medio di<br />

conteggi nel tempo può anche essere un numero frazionario. E’ invece un numero intero la variabile<br />

casuale n che può assumere tutti gli interi da 0 a ∞.<br />

(2.6.4) Il processo di Poisson: definizione generale.<br />

Non sempre il processo di Poisson si può schematizzare a partire da una binomiale. Se per esempio<br />

conto quante macchine passano sotto casa mia tutti i giorni feriali tra le 8 e le 9, non so bene come<br />

schematizzare questo processo in termini di N e di p. O anche se contiamo il numero di studenti che<br />

ogni anno si immatricolano al corso di laurea in fisica all’Università “La <strong>Sapienza</strong>”, é altrettanto<br />

difficile stabilire chi é p e chi é N. Ma nonostante ciò conto in media un certo valore che sarà<br />

caratterizzato da certe fluttuazioni. Allora possiamo definire in modo più generale come processo di<br />

Poisson un processo di conteggio che abbia alcune proprietà ben definite che ora vediamo di<br />

specificare.<br />

Si immagini a questo scopo di contare il numero di volte in cui si verifica un certo evento (di<br />

qualsiasi tipo purché ben definito) in un intervallo di tempo finito Δt; e si immagini di suddividere<br />

tale intervallo in intervallini di tempo δt “sufficientemente piccoli”. Il processo é poissoniano se<br />

posso trovare una dimensione di intervallino δt per cui valgono le seguenti proprietà:<br />

(a) la probabilità di avere un unico conteggio in un tempo δt é proporzionale a δt;<br />

(b) la probabilità di avere più di un conteggio in un tempo δt é


Per tali processi dunque la funzione di distribuzione del numero di conteggi sarà data dalla p(n)<br />

sopra vista ed un solo parametro λ basta a descrivere il processo. λ determina in sostanza quanto<br />

frequentemente gli eventi si presentano in media e la sua radice quadrata indica quanto quel<br />

conteggio medio fluttua. Il valore di λ dipende tuttavia dall’intervallo di tempo Δt nel quale conto.<br />

Se in un certo intervallo Δt = 1 s conto in media λ = r, in un intervallo generico Δt conterò λ = r Δt.<br />

La quantità r ( conteggi al s ) é dunque indipendente dall’intervallo scelto e costituisce la misura<br />

della velocità di conteggio ( rate in inglese ) del fenomeno. Noto r, il λ di qualsiasi intervallo si<br />

ricava da λ = r Δt.<br />

È interessante vedere cosa ci aspettiamo per la distribuzione dei tempi di attesa tra un conteggio ed<br />

il successivo nel caso di un processo di Poisson.<br />

Calcoliamo la probabilità che, a partire da un certo tempo iniziale arbitrario, dopo un tempo T non<br />

sia ancora avvenuto alcun conteggio. A tale scopo immaginiamo di dividere il tempo T in N<br />

intervallini δT = T / N, ciascuno caratterizzato da una probabilità di successo (ovvero di conteggio)<br />

p. Dalla definizione del processo di Poisson so che se δT é sufficientemente piccolo p é<br />

proporzionale a δT , p = α δT . Ci siamo ricondotti in questo modo ad un processo di Bernoulli di N<br />

prove indipendenti ciascuna con probabilità di successo data da α δT. La probabilità di dover<br />

attendere un tempo t >T per avere un conteggio sarà (applico la distribuzione binomiale per il caso<br />

n=0):<br />

p ( t > T)<br />

= (1 − p)<br />

Se facciamo il limite N ∞ otteniamo:<br />

lim ( 1 lim<br />

N→∞<br />

N<br />

N<br />

− αδT<br />

) = (1 − )<br />

N→∞<br />

N<br />

αT<br />

N<br />

= e<br />

−αT<br />

in cui di nuovo abbiamo usato il limite fondamentale cui abbiamo già fatto ricorso sopra.<br />

Da ciò ricavo la probabilità che il conteggio sia avvenuto per un tempo di attesa t compreso tra 0 e<br />

T<br />

F(<br />

T ) = p(0<br />

< t < T ) = 1 − p(<br />

t > T ) = 1 − e<br />

che costituisce la cumulativa della densità di probabilità della variabile casuale t = tempo di attesa<br />

per avere un conteggio. Pertanto la densità di probabilità cercata é:<br />

−αT<br />

dF(<br />

t)<br />

t<br />

f ( t)<br />

= = αe<br />

−α<br />

dt<br />

che costituisce la densità cercata, correttamente normalizzata. L’unico parametro da cui tale densità<br />

di probabilità dipende é α. Si tratta di una probabilità di conteggio per unità di tempo, e ha le<br />

dimensioni dell’inverso di un tempo. Per comprenderne il significato, torniamo allo schema<br />

binomiale delle N prove nel tempo T. Sappiamo che:<br />

lim<br />

λ = Np = Nαδt<br />

= NαT<br />

/ N = αT<br />

N →∞<br />

lim<br />

N →∞<br />

lim<br />

N →∞<br />

da cui deduciamo che α si identifica con la velocità di conteggio r che abbiamo sopra definito. Tale<br />

identificazione discende dal fatto che quando λ


f(t) (1/s)<br />

5<br />

4.5<br />

4<br />

3.5<br />

f(t) (1/s)<br />

1<br />

3<br />

2.5<br />

2<br />

10 -1<br />

1.5<br />

1<br />

0.5<br />

10 -2<br />

0<br />

0 0.5 1 1.5 2 2.5<br />

t (s)<br />

0 0.5 1 1.5 2 2.5<br />

t (s)<br />

Fig.2.10 Esempi di densità di probabilità esponenziali negative di tempi d’attesa di Poissoniane in scala lineare (a<br />

sinistra) e semilogaritmica (a destra). Le 3 curve si riferiscono a valori di τ pari a 1 s , 0.5 s e 0.2 s. Individuare le 3<br />

curve.<br />

(2.6.5) La distribuzione di Gauss<br />

Possiamo costruire ed inventare tutte le variabili casuali che vogliamo ciascuna con la sua funzione<br />

di distribuzione per descrivere un certo fenomeno. Esiste tuttavia una distribuzione che assume un<br />

ruolo particolare nelle applicazioni scientifiche in genere tanto da essere chiamata la distribuzione<br />

normale. Essa fu introdotta per primo da Karl Frederich Gauss ed é pertanto nota come<br />

distribuzione di Gauss e una qualsiasi variabile che segue una tale distribuzione é detta variabile<br />

gaussiana.<br />

Tale distribuzione fu introdotta da Gauss quando questi, a partire da osservazioni astronomiche,<br />

vide che le modalità con cui le misure “fluttuavano”, erano ben descritte da un andamento del tipo:<br />

~ e<br />

−(<br />

x−μ ) 2<br />

in cui x é appunto il valore della misura che fluttua rispetto al “valore medio” μ.Tale funzione<br />

presenta il ben noto andamento a “campana” illustrato in figura Fig.2.11. Si tratta cioè di una<br />

funzione simmetrica intorno a μ e caratterizzata da un picco ben definito che si trova in<br />

corrispondenza del valore di μ e da delle code che si estendono fino a – e a + ∞. La coincidenza di<br />

picco e media indica che moda mediana e media sono coincidenti per questo tipo di distribuzione e<br />

pari a μ.<br />

71


Fig.2.11 Esempi di funzioni di distribuzione di Gauss per 3 scelte dei parametri μ e σ.<br />

Per dare alla funzione di Gauss il significato di densità di probabilità di una variabile casuale x<br />

qualsiasi occorre:<br />

rendere adimensionale l’esponente;<br />

rendere la funzione normalizzata (cioè ad integrale 1 tra – e + ∞).<br />

A tale scopo introduciamo un secondo parametro che chiamiamo σ avente le stesse dimensioni di x<br />

e scriviamo la funzione nella forma più generale:<br />

f<br />

1<br />

e<br />

2πσ<br />

( x−μ<br />

−<br />

2σ<br />

( )<br />

x<br />

=<br />

)<br />

2<br />

2<br />

che risulta correttamente normalizzata ad 1 (omettiamo la dimostrazione). Si tratta dunque di una<br />

variabile casuale continua definita tra – e + ∞ caratterizzata dai 2 parametri μ e σ . I due parametri<br />

cosi’ definiti risultano essere (anche in questo caso omettiamo la dimostrazione) rispettivamente il<br />

valore atteso e la deviazione standard della variabile x<br />

E [ x]<br />

= μ<br />

2<br />

Var[<br />

x]<br />

= σ<br />

Come già detto il massimo della funzione coincide con μ come si vede ponendo a 0 la derivata<br />

prima. Ponendo a zero la derivata seconda si ottengono invece i due flessi in corrispondenza di<br />

μ ± σ . Ciò fa vedere che il significato della deviazione standard é la distanza tra il massimo e i 2<br />

flessi. Per avere una idea “grafica” della σ di una gaussiana basta osservare che la “larghezza a<br />

metà altezza” (FWHM = full width at half maximum) é pari a 2.36 σ . Ciò fornisce un metodo<br />

rapido per la valutazione della larghezza di una gaussiana.<br />

La distribuzione di Gauss non ha una primitiva esprimibile analiticamente, pertanto i valori della<br />

funzione cumulativa (che sono poi quelli che servono ai fini della valutazione delle probabilità)<br />

sono in genere forniti sotto forma di tabelle. Naturalmente non é opportuno avere una diversa<br />

tabella per ogni coppia di valori μ e σ. A tale scopo si introduce la variabile gaussiana<br />

standardizzata o semplicemente normale cosi’ definita:<br />

72


m = x − μ<br />

σ<br />

Si tratta di una variabile adimensionale che ha una funzione di distribuzione data da:<br />

m2<br />

1 −<br />

2<br />

f ( m)<br />

= e<br />

2π<br />

e che corrisponde ad una variabile gaussiana con valore atteso 0 e varianza 1. La forma della densità<br />

di probabilità per la variabile gaussiana standardizzata, si ottiene semplicemente applicando le<br />

considerazioni di (2.6.4) dove m é la y e dunque |dx/dm|=σ che cancella la σ a denominatore nella<br />

f(x). Le tabelle forniscono in genere i valori relativamente alla variabile m della seguente quantità:<br />

P ( a)<br />

= a ∫ f ( m)<br />

dm<br />

−∞<br />

che risulta essere una funzione di a. Dati i valori in tabella possono poi essere valutati tutti i<br />

possibili intervalli di probabilità. Se infatti si vuole determinare la probabilità che il valore cada tra<br />

a e b, si avrà:<br />

P( a < m < b)<br />

= P(<br />

b)<br />

− P(<br />

a)<br />

Per passare da un intervallo relativo alla variabile standardizzata m all’intervallo corrispondente per<br />

la variabile x, basterà usare la trasformazione inversa. Quindi se per esempio data una distribuzione<br />

di Gauss di valore atteso μ e varianza σ 2 voglio conoscere il contenuto di probabilità dell’intervallo<br />

compreso tra i due valori di x x 1 ed x 2 dovrò procedere nel modo seguente: calcolare gli estremi<br />

nella variabile m corrispondenti a x 1 e x 2 (diciamo m 1 ed m 2 ) quindi calcolare F(m 2 )-F(m 1 ) usando<br />

le tavole della variabile standardizzata. Si noti che usualmente le tabelle contengono solo i valori di<br />

F(a) per a positivi. Tuttavia, data la simmetria della distribuzione di Gauss si avrà:<br />

P( − a)<br />

= 1−<br />

P(<br />

a)<br />

Di particolare interesse sono i contenuti di probabilità dei 3 intervalli μ±σ , μ± 2σ e μ± 3σ. Si<br />

ottengono i valori:<br />

P(<br />

μ −σ<br />

< x < μ + σ ) = P(<br />

−1<<br />

m < 1) = 68.3%<br />

P(<br />

μ − 2σ<br />

< x < μ + 2σ<br />

) = P(<br />

−2<br />

< m < 2) = 95.5%<br />

P(<br />

μ − 3σ<br />

< x < μ + 3σ<br />

) = P(<br />

−3<br />

< m < 3) = 99.7%<br />

si tratta dei valori che abbiamo trovato per via “empirica” a partire dai dati “simulati” della prima<br />

esercitazione. In effetti in quel caso le sequenze di 51 valori erano state ottenute estraendo da<br />

distribuzioni gaussiane con μ e σ diverse. Troviamo dunque che i contenuti di probabilità di<br />

intervalli di ampiezza proporzionale a σ rispetto a μ non dipendono dai parametri ma sono<br />

“universali”. Dato lo straordinario valore della distribuzione di Gauss nell’ambito della descrizione<br />

degli errori di misura, questi numeri devono essere tenuti in considerazione.<br />

73


Tabella della gaussiana standardizzata. Per valori positivi di z, sono tabulate le<br />

P(z)=P(-∞


La funzione di distribuzione di una variabile χ 2 é caratterizzata da un unico parametro dato dal<br />

numero N di variabili gaussiane standardizzate incluse nella somma. Tale valore é detto numero di<br />

gradi di libertà e si indica in genere con il simbolo ν. La funzione di distribuzione é la seguente:<br />

2<br />

f ( χ )<br />

χ<br />

ν<br />

2 −1<br />

−<br />

2 2<br />

= ν ( χ ) e<br />

( )<br />

2<br />

2<br />

1<br />

Γ(<br />

ν / 2)<br />

2<br />

Nella formula abbiamo introdotto la funzione Γ detta di Eulero definita come:<br />

∞<br />

−x<br />

t−1<br />

Γ( t)<br />

= ∫ e x dx<br />

0<br />

che costituisce una generalizzazione del fattoriale al campo reale.<br />

Il valore atteso e la varianza della variabile χ 2 dipendono dal numero di gradi di libertà secondo le:<br />

2<br />

E [ χ ] = ν<br />

2<br />

Var[<br />

χ ] = 2ν<br />

La funzione di distribuzione della variabile χ 2 é mostrata in Fig.2.12 per alcuni valori del parametro<br />

ν.<br />

Fig.2.12 Funzione di distribuzione della variabile χ 2 per 3 diversi valori dell’unico parametro ν.<br />

L’importanza della variabile χ 2 deriva dal fatto che la variabile<br />

2<br />

N ( x −<br />

∑<br />

i<br />

x)<br />

i=<br />

1<br />

2<br />

σ<br />

è anch’essa una variabile χ 2 con parametro ν=N-1 gradi di libertà. Si noti che a differenza della<br />

definizione della variabile χ 2 data sopra, in questo caso non siamo di fronte ad una somma di<br />

variabili normali standardizzate, ma ad una somma di scarti quadratici dalla media campionaria,<br />

divisa per la varianza. Il fatto che il numero di gradi di libertà sia ridotto di una unità corrisponde al<br />

75


fatto intuitivo, che la media é una funzione delle N variabili in gioco e dunque l’uso della media<br />

riduce di una unità il grado di libertà complessivo della variabile.<br />

In ogni caso l’osservazione fatta permette di caratterizzare la funzione di distribuzione della<br />

varianza campionaria della quale abbiamo già stabilito valore atteso e varianza. Infatti se considero<br />

la variabile<br />

2<br />

s<br />

( N − 1)<br />

2<br />

σ<br />

questa é evidentemente una variabile χ 2 con N-1 gradi di libertà , e dunque la variabile s 2 é a meno di<br />

una costante (N-1)/σ 2 descritta da una variabile χ 2 . Ritroviamo allora i risultati già visti per valore<br />

atteso e varianza:<br />

2<br />

2<br />

2<br />

σ<br />

2<br />

σ<br />

2<br />

E[<br />

s ] = E[<br />

χ ] = ( N −1)<br />

= σ<br />

N −1<br />

N −1<br />

N −1<br />

4<br />

4<br />

2<br />

σ<br />

2<br />

σ<br />

Var[<br />

s ] = Var[<br />

χ ] = 2( N<br />

2<br />

N −1<br />

2<br />

( N −1)<br />

( N −1)<br />

4<br />

2σ<br />

−1)<br />

=<br />

( N −1)<br />

Variabile t-Student<br />

Un’altra variabile derivata dalla gaussiana e di particolare interesse perché di funzione di<br />

distribuzione nota é la cosiddetta variabile t di Student. Supponiamo di nuovo di avere una variabile<br />

normale standardizzata m e di avere costruito una variabile χ 2 a partire da un insieme di variabili<br />

normali standardizzate con ν gradi di libertà. Se consideriamo la variabile<br />

t =<br />

m<br />

χ 2<br />

ν<br />

questa é caratterizzata dalla seguente funzione di distribuzione (anche in questo caso νé l’unico<br />

parametro con lo stesso significato per il caso della variabile χ 2 ):<br />

f ( t)<br />

=<br />

ν + 1<br />

Γ(<br />

)<br />

2<br />

2 ⎛ t ⎞<br />

⎜1<br />

+ ⎟<br />

πνΓ(<br />

ν ) ⎝ ν ⎠<br />

2<br />

−<br />

( ν + 1)<br />

2<br />

in cui di nuovo si fa uso della funzione Γ di Eulero. La variabile t é definita in tutto l’asse reale tra –<br />

e +∞ e la sua funzione di distribuzione é simmetrica intorno all’origine come mostrato in Fig.2.13.<br />

Si tratta di una funzione di distribuzione in molto assomigliante alla distribuzione di Gauss. La<br />

differenza sta nel fatto che le code risultano più estese. Valore atteso e varianza della variabile t di<br />

Student sono:<br />

E[<br />

t]<br />

= 0<br />

ν<br />

Var[<br />

t]<br />

=<br />

ν − 2<br />

definita quest’ultima evidentemente solo per ν >2 (al di sotto di 2 l’integrale della varianza<br />

diverge).<br />

76


Fig.2.13 Distribuzione della variabile t di Student per 4 diversi valori dell’unico parametro ν. Al crescere di ν la<br />

distribuzione si restringe e si alza.<br />

La variabile t rappresenta lo scarto di una misura da un valore atteso, relativamente “ad uno scarto<br />

medio” dato dal χ 2 a denominatore. La rilevanza di questa variabile nasce dal fatto che può essere<br />

applicata alle proprietà della media aritmetica. Infatti la variabile<br />

( x − μ)<br />

s<br />

N<br />

è una variabile t in base alle considerazioni fatte sopra a proposito della variabile χ 2 . Infatti la posso<br />

scrivere come:<br />

( x − μ )<br />

σ<br />

N<br />

2<br />

σ<br />

2<br />

s<br />

( x − μ)<br />

σ<br />

= N<br />

2<br />

= t<br />

χ<br />

N −1<br />

N −1<br />

N −1<br />

Dunque gli scarti della media aritmetica dal valore atteso gaussiano corrispondente sono descritti da<br />

una variabile t con N-1 gradi di libertà. Questo ci fa capire che l’uso di un intervallo di ampiezza 3s<br />

/ √N per l’incertezza sulla stima del valore vero basato sulla media aritmetica, ha un significato<br />

gaussiano solo quando Né sufficientemente grande. Torneremo su questo punto nel terzo capitolo.<br />

(2.7) Proprietà notevoli delle variabili casuali<br />

77


(2.7.1) Contenuto di probabilità di intervalli di variabili casuali.<br />

Dall’analisi degli esempi di variabili casuali visti finora, desumiamo che i contenuti di probabilità<br />

che associamo ad un intervallo costruito come “valore atteso±deviazione standard” non é uguale per<br />

tutte le distribuzioni, ma dipende dalla forma della distribuzione. Abbiamo visto per esempio che<br />

nel caso della distribuzione di Gauss tale valore é prossimo al 68% mentre nel caso della<br />

distribuzione uniforme é di circa il 58%. Valori ancora diversi si ottengono per la distribuzione<br />

triangolare (il 65%) e per altre distribuzioni ancora. Per quanto riguarda le distribuzioni binomiali e<br />

poissoniane tale numero non é ben definito, perché dipende dai valori dei parametri. Oltre a ciò<br />

anche la moltiplicazione per 2 o per 3 della dimensione dell’intervallo dà luogo a risultati aventi<br />

contenuti probabilistici diversi. Tuttavia in tale apparentemente confusa situazione si possono<br />

riscontrare alcune regolarità. Enunciamo a tale scopo la disuguaglianza di Chebychev (di cui<br />

omettiamo la dimostrazione):<br />

1<br />

P ( x − E[<br />

x]<br />

> kσ<br />

[ x])<br />

<<br />

2<br />

k<br />

La probabilità che la variabile scarti dal valore atteso per più di k deviazioni standard limitata<br />

superiormente da 1/k 2 .<br />

Questa disuguaglianza non é di grande interesse pratico. Ci dice infatti per k=1 che la probabilità<br />

che la variabile scarti più di una deviazione standard é


L’importanza di tale teorema é evidente. In tutti quei casi infatti in cui una misura é caratterizzata<br />

da un certo numero di cause di fluttuazione indipendenti, il valore della misura può essere pensato<br />

come la somma di tali fluttuazioni. Il teorema del limite centrale ci dice che in tal caso il risultato<br />

della misura costituisce una variabile con fluttuazioni di tipo gaussiano, cioè una variabile<br />

gaussiana. La generalità di questo teorema é dovuta al fatto che nel caso degli errori di misura ci si<br />

trova quasi sempre in condizioni di questo tipo, cioè nella situazione in cui cause diverse di errore si<br />

sommano per dare la fluttuazione complessiva. Si noti l’importanza della condizione “varianze tutte<br />

finite e dello stesso ordine di grandezza”. Se infatti tra le cause di fluttuazione ce ne fosse una<br />

preponderante di tipo non gaussiano, allora questa dominerebbe le fluttuazioni della misura che<br />

dunque avrebbe quella forma.<br />

La Fig.2.14 illustra con un esempio simulato il teorema del limite centrale. Inoltre la Fig.2.15<br />

mostra un caso in cui pur sommando tante variabili, se ce n’è una con varianza molto più grande<br />

delle altre, la forma di questa continua a determinare la forma della distribuzione complessiva che<br />

dunque non diventa gaussiana.<br />

Il teorema del limite centrale sancisce l’importanza della distribuzione di Gauss come migliore<br />

approssimazione degli istogrammi dei dati in condizioni di errori casuali.<br />

Fig.2.14 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte estratte da distribuzioni uniformi tra<br />

0 e 1 (di valore atteso 0.5 e varianza 1/12). A partire dal caso n=4 ad ogni distribuzione é sovrapposta una<br />

distribuzione di Gauss per mostrare il buon accordo. Nel caso n=10 la distribuzione di Gauss “corrispondente” ha<br />

valore atteso 5.0 e deviazione standard 0.91 in accordo con il teorema del limite centrale.<br />

79


Fig.2.15 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte con distribuzione uniforme tra 0 e 1<br />

eccetto la prima che ha una distribuzione sempre uniforme ma tra 0 e 10. Si noti come non venga raggiunto in<br />

questo caso il limite gaussiano con la somma di n=10 variabili. Resta il “ricordo” della variabile con varianza di un<br />

ordine di grandezza più grande delle altre.<br />

Una importante conseguenza del teorema del limite centrale riguarda la media aritmetica di un<br />

campione di N misure. Questa é infatti una combinazione lineare di N variabili casuali tutte aventi<br />

la stessa distribuzione e dunque stesso valore atteso e stessa varianza. Qualunque sia la<br />

distribuzione di x, la distribuzione di xé dunque normale, e lo é tanto più quanto più grande é N.<br />

(2.7.3) Limite gaussiano<br />

Da ultimo osserviamo che tra tutte le distribuzioni viste, molte dipendono da uno o più parametri<br />

aventi il significato di numero di misure. E’ il caso della binomiale (il numero di prove N) e della<br />

poissoniana (il parametro λ) ma anche delle 2 variabili derivate dalla gaussiana χ 2 e t che dipendono<br />

dall’unico parametro ν . Tutte queste variabili godono della seguente importantissima proprietà<br />

limite: esse tendono ad una distribuzione di Gauss quando il numero di misure (nel senso appena<br />

detto) diventa sufficientemente grande. Non procediamo alla dimostrazione di questo teorema ma ci<br />

limitiamo ad illustrarlo graficamente confrontando per le citate distribuzioni, la distribuzione stesso<br />

con la gaussiana corrispondente al crescere del numero di misure. Occorre fare attenzione al caso<br />

della binomiale in cui oltre ad N compare il parametro p. Affinché il limite gaussiano sia raggiunto<br />

occorre in quel caso non solo un alto valore di N ma anche un valore di p “sufficientemente<br />

lontano” dagli estremi 0 e 1.<br />

Le fig. 2.16 e 2.17 illustrano il limite gaussiano per il caso della distribuzione poissoniana e per il<br />

caso di quella di t di Student rispettivamente. In tutti i grafici mostrati, la distribuzione viene<br />

confrontata con una gaussiana corrispondente, cioè con una gaussiana avente stesso valore atteso e<br />

stessa varianza.<br />

Tale proprietà limite risulta di straordinaria importanza. Per esempio nel caso di conteggi<br />

“poissoniani” questo implica che posso dare intervalli di probabilità al 68% al 95% e al 99.7%<br />

esattamente come per il caso gaussiano se il numero medio di conteggi é di almeno 20-30. Nel caso<br />

della t di Student significa che le fluttuazioni della media dal valore atteso in unità di deviazioni<br />

standard campionarie della media, sono gaussiane nel limite di elevato numero di misure.<br />

80


Fig.2.16 Stessi esempi di distribuzioni di Poisson della Fig.2.9 per valori del parametro λ da 0.2 a 50.0. Ad ogni<br />

distribuzione é sovrapposta una gaussiana di parametri μ=λ e σ=√λ.<br />

Fig.2.17 Stessi esempi di variabili t di Student vista in Fig.2.13 per valori del parametro ν tra 3 e 50. Ogni<br />

distribuzione é confrontata con una gaussiana di parametri μ=0 e σ=√ν/(ν−2).<br />

(2.8) Variabili casuali multiple.<br />

(2.8.1) Impostazione del problema<br />

81


In (1.6) abbiamo accennato al fatto che in molte circostanze un fenomeno deve essere trattato<br />

considerando più di una variabile casuale. A tal fine occorre utilizzare un formalismo che consenta<br />

di caratterizzare la densità di probabilità di più variabili casuali.<br />

(2.8.2.) Probabilità congiunta e covarianza<br />

Per trattare correttamente i casi in cui siano in gioco più grandezze misurate simultaneamente ed<br />

eventualmente caratterizzate da errori correlati é utile utilizzare il formalismo delle funzioni di più<br />

variabili casuali. Formalizziamo il problema limitandoci per semplicità al caso in cui si abbiano 2<br />

variabili casuali x 1 ed x 2 ed una terza, y, legata a queste tramite la relazione y=y(x 1 ,x 2 ).<br />

Nel caso di una singola variabile casuale, abbiamo definito la densità di probabilità f(x). Nel caso in<br />

cui sono in gioco 2 variabili casuali, possiamo ancora definire una densità di probabilità per le due<br />

variabili f(x 1 ,x 2 ) detta probabilità congiunta o densità di probabilità congiunta. Si tratta di una<br />

funzione di due variabili casuali che contiene sia le informazioni sulla densità di probabilità<br />

dell’una e dell’altra, che le informazioni sul grado di correlazione tra le due. E’ la funzione che<br />

descrive la popolazione delle due grandezze.<br />

La condizione di normalizzazione é espressa nel modo seguente:<br />

b1<br />

b 2<br />

∫∫f<br />

( x , x ) dx dx = 1<br />

1 2 1 2<br />

a1<br />

a 2<br />

in cui ho chiamato rispettivamente a1 e b1 gli estremi della variabile 1 e a2 e b2 quelli della<br />

variabile 2. Per imporre la condizione di normalizzazione sono dovuto evidentemente ricorrere ad<br />

un integrale doppio sulle due variabili. La doppia integrazione corrisponde alla successione di due<br />

integrazioni semplici. Immaginando la funzione f(x 1 ,x 2 ) come l’equazione di una superficie nello<br />

spazio, l’integrale doppio é il calcolo del volume sottostante la superficie.<br />

Se invece integriamo solo in una delle due variabili (lasciando cioè l’altra come parametro da cui<br />

dipende il risultato):<br />

b<br />

f ( x ) = 2 1 1 ∫ f ( x , x ) dx<br />

1 2 2<br />

a 2<br />

otteniamo una funzione solo dell’altra variabile, corrispondente alla densità di probabilità di x 1 . Si<br />

noti che quest’ultima operazione corrisponde al passare dal grafico bidimensionale a quello<br />

monodimensionale (all’istogramma vedi Fig.1.10 e 1.11 nel primo capitolo), cioè si tratta di fare<br />

una proiezione sull’asse x 1.<br />

Si estendono in modo naturale le definizioni dei momenti ed in particolare di valore atteso e<br />

varianza:<br />

E[<br />

x ] =<br />

1<br />

E[<br />

x<br />

2<br />

] =<br />

∫<br />

∫<br />

Var[<br />

x ] =<br />

1<br />

Var[<br />

x<br />

2<br />

b1<br />

1 1<br />

a1<br />

b2<br />

2<br />

a2<br />

b1<br />

] =<br />

x f ( x ) dx =<br />

∫<br />

a1<br />

b2<br />

∫<br />

a2<br />

2<br />

( x<br />

1<br />

( x<br />

2<br />

1<br />

2<br />

1<br />

x f ( x ) dx<br />

− E[<br />

x ])<br />

1<br />

2<br />

2<br />

b2b1<br />

∫∫<br />

1<br />

a2a1<br />

b1<br />

b2<br />

=<br />

2<br />

− E[<br />

x ])<br />

2<br />

∫∫<br />

a1a2<br />

1<br />

x f ( x , x<br />

2<br />

1<br />

2<br />

f ( x ) dx<br />

f ( x<br />

2<br />

1<br />

1<br />

=<br />

) dx<br />

2<br />

1<br />

2<br />

x f ( x , x<br />

b2b1<br />

∫∫<br />

a2a1<br />

b1b2<br />

=<br />

) dx dx<br />

2<br />

1<br />

∫∫<br />

a1a2<br />

( x<br />

1<br />

2<br />

) dxdx<br />

( x<br />

1<br />

2<br />

− E[<br />

x ])<br />

2<br />

1<br />

2<br />

2<br />

− E[<br />

x ])<br />

f ( x , x<br />

2<br />

1<br />

1<br />

2<br />

f ( x , x<br />

) dx dx<br />

2<br />

2<br />

1<br />

1<br />

) dx dx<br />

in cui compaiono integrali doppi sulle due variabili, semplici estensioni degli integrali singoli.<br />

Risulta altrettanto naturale estendere la definizione di varianza introducendo una misura di quanto<br />

le due variabili risultano “legate”. Si fa ciò definendo la covarianza tra le due variabili:<br />

b<br />

= 1 b 2<br />

a1<br />

a 2<br />

cov[ x , x ] ∫∫(<br />

x − E[<br />

x ])( x − E[<br />

x ]) f ( x , x ) dx dx<br />

1 2<br />

1<br />

1 2<br />

2<br />

1 2 1<br />

2<br />

2<br />

82


Si tratta di un numero avente le dimensioni [x 1 ][x 2 ]. Se la densità di probabilità congiunta é pari al<br />

prodotto delle probabilità di ciascuna variabile, cioè se, come si dice, la densità di probabilità<br />

congiunta si fattorizza:<br />

f ( x , x ) = f ( x ) f ( x )<br />

1 2<br />

1 1 2 2<br />

la covarianza sopra definita si annulla. Infatti,<br />

cov[ x , x<br />

b1<br />

∫ ( x<br />

a1<br />

1<br />

1<br />

2<br />

] =<br />

− E[<br />

x ]) f<br />

1<br />

b1<br />

b 2<br />

∫∫(<br />

x<br />

a1<br />

a 2<br />

1<br />

( x ) dx<br />

1<br />

1<br />

− E[<br />

x ])( x<br />

b 2<br />

∫ ( x<br />

1<br />

a 2<br />

1<br />

2<br />

2<br />

− E[<br />

x<br />

− E[<br />

x<br />

2<br />

]) f<br />

2<br />

2<br />

]) f<br />

( x<br />

2<br />

1<br />

( x ) f<br />

1<br />

) dx<br />

2<br />

2<br />

( x<br />

= 0<br />

2<br />

) dx dx<br />

essendo i 2 ultimi integrali ambedue nulli per la definizione di valore atteso.<br />

Quando la probabilità congiunta si esprime come prodotto delle probabilità singole, si dice che le 2<br />

variabili sono indipendenti. In caso contrario si dice che sono correlate. La covarianza é dunque una<br />

misura della correlazione tra le variabili, cioè di quanto la variazione dell’una incide sulla<br />

variazione dell’altra. Per tornare all’analogia con le probabilità viste sopra, il caso di indipendenza<br />

corrisponde all’essere<br />

P ( A ∩ B)<br />

= P(<br />

A/<br />

B)<br />

P(<br />

B)<br />

= P(<br />

A)<br />

P(<br />

B)<br />

.<br />

A partire dalla covarianza si introduce una quantità adimensionale detta coefficiente di correlazione:<br />

ρ[<br />

x , x ] =<br />

1<br />

2<br />

cov[ x , x ]<br />

1 2<br />

Var[<br />

x ] Var[<br />

x<br />

1<br />

2<br />

]<br />

che é come dire la covarianza normalizzata alle varianze. Si dimostra che il coefficiente di<br />

correlazione può assumere solo valori compresi tra –1 ed 1:<br />

−<br />

< ρ [ x , x ] < 1<br />

1<br />

1<br />

2<br />

quando vale 1 si dice che le due grandezze sono completamente correlate, quando vale –1 si dice<br />

che sono completamente anticorrelate. Il caso 0é il caso di non correlazione ovvero di indipendenza.<br />

Le definizione date per una generica popolazione delle 2 variabili x 1 ed x 2 , hanno evidentemente il<br />

corrispettivo campionario nelle variabili introdotte nel capitolo (1.6).<br />

(2.8.3) Calcolo di E[y] e Var[y]<br />

L’importanza di quanto visto nel paragrafo precedente risulta particolarmente evidente quando ci<br />

poniamo il problema della propagazione delle incertezze, cioè del problema cui abbiamo già<br />

accennato nel cap(1.9) di come l’incertezza su una variabile si propaga quando si calcola una<br />

funzione di questa variabile. Tale problema, nel linguaggio delle variabili casuali si traduce nel<br />

chiedersi: data le distribuzioni di x 1 e di x 2 , e dati in particolare i loro valori attesi E[x 1 ] ed E[x 2 ] e le<br />

loro varianze Var[x 1 ] e Var[x 2 ], quale é la distribuzione di y=y(x 1 ,x 2 ) ed in particolare quanto<br />

valgono E[y] e Var[y] ?<br />

Diamo qui i risultati senza dimostrazione. La dimostrazione fa uso dello sviluppo in serie di Taylor<br />

della funzione y intorno ai valori E[x 1 ] ed E[x 2 ] troncata al primo ordine. Pertanto risulta a rigore<br />

valida solo nel limite in cui i termini del secondo ordine sono trascurabili, ovvero nel limite in cui la<br />

funzione é approssimativamente lineare in un intervallo delle 2 variabili pari alle 2 deviazioni<br />

standard. Si ottiene (qualunque sia la forma delle funzione di distribuzione di x 1 e di x 2 ):<br />

E[<br />

y]<br />

= y(<br />

E[<br />

x ], E[<br />

x<br />

⎛ ∂y<br />

Var[<br />

y]<br />

= ⎜<br />

⎝ ∂x1<br />

E [ x1],<br />

E [ x<br />

⎛ ∂y<br />

⎞⎛<br />

∂y<br />

+ 2⎜<br />

⎟⎜<br />

x<br />

⎝ ∂ x<br />

1 E [ x1],<br />

E [ x 2 ] ⎠⎝<br />

∂<br />

2<br />

1<br />

2 ]<br />

2<br />

])<br />

2<br />

⎞ ⎛ ∂y<br />

⎟ Var[<br />

x ] ⎜<br />

1<br />

+<br />

⎠ ⎝ ∂x2<br />

⎞<br />

⎟ cov[ x , x<br />

1<br />

E [ x1],<br />

E [ x 2 ] ⎠<br />

2<br />

E [ x1],<br />

E [ x 2 ]<br />

]<br />

2<br />

⎞<br />

⎟ Var[<br />

x2<br />

⎠<br />

1<br />

] +<br />

2<br />

=<br />

83


dove sono stati introdotti i simboli di derivata parziale che sono propri del calcolo differenziale per<br />

le funzioni di più variabili. Le derivate parziali, come espresso esplicitamente nella formula, sono<br />

calcolate in corrispondenza di E[x 1 ] e di E[x 2 ].<br />

Vediamo il significato delle due relazioni date che valgono, giova ripeterlo, solo nel limite in cui<br />

posso trascurare gli infinitesimi del secondo ordine, ovvero nel limite in cui nella regione della<br />

funzione y in questione, questa presenta variazioni “piccole”.<br />

Il valore atteso di y é la stessa funzione y calcolata per i 2 valori attesi delle 2 variabili. Si tratta<br />

effettivamente di quanto ci si aspetta.<br />

La varianza di y si ottiene sommando le varianze delle 2 variabili, ciascuna “pesata” per il<br />

quadrato della derivata parziale della y rispetto a quella variabile. A ciò si aggiunge un termine di<br />

covarianza data dal prodotto della covarianza delle 2 variabili per il prodotto delle derivate. Si noti<br />

che nel caso di 2 variabili indipendenti (secondo quanto detto sopra) il terzo termine si annulla e<br />

rimane la somma in quadratura pesata delle due varianze.<br />

Il caso di una sola variabile ci restituisce il risultato già visto per via intuitiva.<br />

Estendiamo questa definizione al caso di una funzione di N variabili casuali:<br />

E[<br />

y]<br />

= y(<br />

E[<br />

x ],...., E[<br />

x ])<br />

1<br />

N<br />

N ∂y<br />

∂y<br />

Var[<br />

y]<br />

= ∑ cov[ x , x ]<br />

i j<br />

i , j=<br />

1∂x<br />

∂x<br />

i<br />

j<br />

in cui abbiamo adottato una forma compatta per le varianze secondo cui per qualunque i,<br />

cov[x i ,x i ]=Var[x i ].<br />

(2.8.4) Propagazione delle incertezze<br />

Come si propagano dunque le incertezze ? Intanto la prima osservazione é che la propagazione<br />

avviene a livello di varianze non di deviazioni standard. Dunque la propagazione é “quadratica” non<br />

“lineare”. In secondo luogo le varianze sono “pesate” con i quadrati delle derivate, cioè con quanto<br />

é ripida la dipendenza da quella variabile in quell’intorno.<br />

Se ho 2 variabili le cui popolazioni hanno varianze Var[x 1 ] e Var[x 2 ] e considero la funzione più<br />

semplice che posso costruire, cioè la somma<br />

y = x 1<br />

+ x 2<br />

(naturalmente in questo caso le due variabili devono avere le stesse dimensioni fisiche), avrò che,<br />

essendo =1 ambedue le derivate,<br />

Var [ y]<br />

= Var[<br />

x1 ] + Var[<br />

x2]<br />

+ 2cov[ x1,<br />

x2]<br />

Distinguiamo 3 casi:<br />

(a)<br />

x 1 ed x 2 sono indipendenti:<br />

(b)<br />

x 1 ed x 2 sono completamente correlate<br />

(c)<br />

x 1 ed x 2 sono completamente anti-correlate<br />

Nel caso (a) cov[x 1 ,x 2 ]=0 e dunque<br />

Var [ y]<br />

= Var[<br />

x ] + Var[<br />

x ]<br />

1 2<br />

cioè si ha una semplice somma in quadratura. Si noti che nella somma in quadratura domina il più<br />

“forte” più che nella somma lineare.<br />

I casi (b) e (c), abbiamo visto, significano che<br />

ρ[<br />

x , x<br />

1<br />

cov[ x , x<br />

1<br />

2<br />

] = ± 1<br />

e si traducono in<br />

2<br />

] = ±<br />

Var[<br />

x ] Var[<br />

x<br />

1<br />

2<br />

]<br />

84


Var [ y]<br />

= Var[<br />

x1]<br />

+ Var[<br />

x2]<br />

± 2 Var[<br />

x1<br />

] Var[<br />

x2]<br />

ovvero in termini di deviazioni standard<br />

( σ[<br />

x ] σ[<br />

]) 2<br />

σ ±<br />

2 2<br />

2<br />

[ y]<br />

= σ [ x1<br />

] + σ [ x2]<br />

± 2σ<br />

[ x1<br />

] σ[<br />

x2]<br />

=<br />

1<br />

x2<br />

Cioè: nel caso in cui le due variabili siano completamente correlate la deviazione standard della<br />

somma é pari alla somma delle deviazioni standard, si ritrova cioè il risultato della propagazione<br />

lineare (quella cosiddetta dell’errore massimo che qualcuno ha visto alle scuole superiori)<br />

σ [ y]<br />

= σ[<br />

x 1<br />

] + σ[<br />

x ]<br />

2<br />

Nel caso (c) completamente anticorrelato si ha invece<br />

σ[ y]<br />

= | σ[<br />

x 1<br />

] −σ[<br />

x ]|<br />

2<br />

risultato questo che dice che se le due sigma sono uguale la y é priva di varianza.<br />

I tre casi sono schematizzati nelle Fig. 2.18 2.19 e 2.20 che illustrano i tre casi (a) (b) e (c).<br />

Fig.2.18 Stesso grafico di correlazione tra 2 variabili non correlate (ρ=0.) aventi entrambi varianza unitaria, di Fig.1.11.<br />

Sotto é mostrato l’istogramma della somma delle 2 variabili. Si noti come la deviazione standard campionaria (RMS nel<br />

riquadro) sia prossima al valore √2 come atteso dalle considerazioni fatte.<br />

85


Fig.2.19 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente correlate (qui ρ=1.).<br />

L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria prossima a 2 come atteso.<br />

Fig.2.20 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente anticorrelate (qui ρ=-1.).<br />

L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria “nulla”, dal momento che la<br />

somma dei 2 valori é sempre pari allo stesso valore (=0 nel nostro caso).<br />

Altrettanto interessante é il caso della funzione<br />

86


y = x 1<br />

− x 2<br />

per il quale valgono “quasi” esattamente gli stessi risultati visti sopra. Infatti si ha:<br />

ρ[<br />

x , x<br />

1<br />

ρ[<br />

x , x<br />

1<br />

2<br />

2<br />

] = 0 ⇒ Var[<br />

y]<br />

= Var[<br />

x ] + Var[<br />

x<br />

] = ± 1⇒<br />

σ[<br />

y]<br />

= | σ[<br />

x ] m σ[<br />

x<br />

1<br />

1<br />

2<br />

]|<br />

cioè nel caso della differenza tra 2 variabili correlate, il segno della correlazione gioca in senso<br />

opposto rispetto a come gioca per il caso della somma.<br />

2<br />

]<br />

87


Esercizi relativi al Capitolo (2)<br />

2.1) Un’urna contiene 5 palline numerate da 1 a 5. Estraendole una ad una senza reintrodurle ogni<br />

volta, quant’è la probabilità di ottenere la sequenza 1-2-3-4-5 ? E se ogni volta reintroduco la<br />

pallina estratta quanto vale la probabilità di ottenere la stessa sequenza ? Infine quanto cambiano le<br />

2 probabilità se anziché cercare la sequenza 1-2-3-4-5 cerco la sequenza 2-5-4-1-3 ?<br />

2.2) Disegnare la distribuzione di probabilità della variabile casuale data dalla differenza tra il<br />

valore di 2 dadi lanciati simultaneamente. Quanto vale la probabilità che lanciando per tre volte<br />

consecutive una coppia di dadi io abbia tutte e tre le volte una differenza pari a 0 ?<br />

2.3) Il 10% degli abitanti dell’isola di Pasqua soffre di daltonismo. Un test del daltonismo funziona<br />

in modo tale che su 100 pazienti daltonici, 98 sono individuati, mentre su 100 pazienti non daltonici<br />

16 sono individuati erroneamente come daltonici.<br />

Se faccio il test su un individuo qualsiasi della popolazione dell’isola e ho responso positivo,<br />

quant’è la probabilità che sia effettivamente daltonico<br />

2.4) Un bimbo maschio di 4 anni ha un peso di 22.5 kg. Dalla tabella dei “percentili” i suoi genitori<br />

desumono che si trova al 90-esimo percentile. Il cugino avente la stessa età ma avente un peso di<br />

18.2 kg si trova al 40-esimo percentile. Determinare μ e σ della popolazione gaussiana descrivente i<br />

pesi dei bambini di 4 anni (si definisce percentile la probabilità che un valore sia minore del valore<br />

dato secondo la popolazione in questione).<br />

2.5) La radioattività ambientale standard, misurata con un certo contatore é caratterizzata da un<br />

valor medio r=1.8x10 -3 conteggi al secondo. Metto quel contatore a casa mia e lo lascio contare per<br />

un giorno intero. Se ottengo N=404, devo preoccuparmi ?<br />

2.6) L’incidenza alla nascita della sindrome genetica X é dell’ 0.12% per età della madre inferiore<br />

ai 30 anni e del 0.28% per età superiore a 30 anni. La signora Y ha 10 figli di cui 3 avuti prima dei<br />

30 anni e 7 dopo i 30 anni. Quant’è la probabilità che nessuno sia affetto da sindrome X ?<br />

2.7) Il nucleo di valutazione di rischio delle centrali nucleari ha stabilito il tempo medio di attesa<br />

per avere un incidente in una centrale nucleare di un certo tipo é di 20000 anni. Il governo di un<br />

certo paese nel quale stanno per entrare in funzione 98 centrali di quel tipo é chiamato a rispondere<br />

in parlamento circa la probabilità di non avere alcun incidente nei prossimi 100 anni. Quanto vale<br />

tale probabilità ?<br />

2.8) Un certo rivelatore che si propone di distinguere una radiazione di tipo A da una radiazione di<br />

tipo B, ha due possibili risultati che chiamiamo α e β. Viene portato in prossimità di una sorgente di<br />

tipo A, e si trova che, nel 98% dei casi dà il risultato α e nel 2% dà il risultato β. In prossimità della<br />

sorgente di tipo B dà nel 10% risultato α e nel 90% il risultato β. Viene in seguito portato<br />

nell’ambiente entro il quale si vuole distinguere i 2 tipi di radiazione. A priori non si sa nulla circa<br />

la quantità relativa delle 2 radiazioni. Quant’è la probabilità che ottenuto il risultato α questo<br />

corrisponda alla radiazione A ? Come cambia il risultato se da misure precedenti si sa che B é il<br />

doppio più frequente di A ?<br />

2.9) Dopo anni di esperienza é nota che la distribuzione della concentrazione di rame nel sangue<br />

umano é ben descritta da una distribuzione di Gauss di parametri μ = 3.2 x 10 -5 cm -3 e σ = 2.2 x 10 -6<br />

cm -3 . All’ultimo esame del sangue trovo 9.2 x 10 -5 cm -3 . Devo preoccuparmi ?<br />

88


2.10) Un medico mi spiega che l’intervallo di accettabilità del valore del colesterolo tra 150 e 220<br />

mg/dl , corrisponde ad un intervallo di probabilità del 90% calcolato su una popolazione gaussiana.<br />

Determinare μ e σ di tale distribuzione.<br />

2.11) In un referendum svolto su tutto il territorio nazionale, i SI hanno vinto con una percentuale<br />

finale del 52.67%. Sapendo che nel paese X vi sono 1654 aventi diritto al voto, quant’è la<br />

probabilità che in quel paese i SI siano minoritari ? Specificare le ipotesi essenziale per arrivare al<br />

risultato.<br />

2.12) Un dispositivo elettronico conta i segnali che provengono da un rivelatore. Tuttavia tale<br />

dispositivo ha il problema di bloccarsi allorché rimane fermo (cioè non riceve segnali) per un tempo<br />

superiore a 10 s. Sapendo da misure indipendenti che la poissoniana del fenomeno in questione<br />

costruita su un intervallo di 100 s ha λ=38.4, dire quante volte in un ora il dispositivo si blocca.<br />

2.13) Il test dell’epatite C ha una probabilità di successo del 90% (cioè la probabilità che un<br />

paziente effettivamente affetto dal virus ottenga P al testé del 90% e che uno non affetto dal virus<br />

ottenga Né pure del 90%). Un individuo si sottopone a 3 test indipendenti, e ottiene la sequenza<br />

PNP. Quant’è la probabilità che sia positivo ? Se invece avessi ottenuto la sequenza PPP ?<br />

2.14) Un allenatore per i mondiali ha a disposizione una rosa fatta da 3 portieri, 6 difensori, 7<br />

centrocampisti e 6 attaccanti. Considerando che in una squadra di calcio trovano posto 1 portiere, 4<br />

difensori, 4 centrocampisti e 2 attaccanti, quante formazioni diverse può preparare ?<br />

2.15) Disegnare la distribuzione di probabilità della variabile “valore più grande dei 2 dadi tirati<br />

simultaneamente”.<br />

2.16) Quant’è la probabilità che su una famiglia di 5 figli, 2 siano maschi ? Quale tra le 3 sequenze<br />

é meno probabile (FFMFM, FFFFM, FFFFF) ?<br />

2.17) Nei risultati degli esami del sangue vengono indicati “intervalli normali” dei valori misurati<br />

ottenuti dalla popolazione sana, imponendo che il 95% dei sani siano inclusi nell’intervallo.<br />

Quant’è la probabilità che una persona sana sia fuori intervallo per l’esame X e per almeno uno dei<br />

2 esami Y 1 e Y 2 ?<br />

2.18) Quante sono le possibili cartelle della tombola ? (90 numeri in totale, 15 numeri a cartella)<br />

2.19) Il reparto ostetrico di un piccolo paese ha un solo posto e dunque può gestire non più di un<br />

parto al giorno. Negli ultimi anni é stato visto che si ha un parto nel paese circa una volta la<br />

settimana. Quant’è la probabilità che domani arrivino 2 o più donne per partorire e quindi una o più<br />

di una debba essere mandata altrove ?<br />

2.20) Misuro l’efficienza di un rivelatore basandomi su 1250 particelle incidenti. Sapendo che la<br />

distribuzione del numero di successi ha una deviazione standard relativa del 2 %, quant’è<br />

l’efficienza ?<br />

2.21) Discutere se le seguenti variabili casuale discrete sono caratterizzabili da una distribuzione<br />

Poissoniana ed eventualmente in quali ipotesi. (a) Il numero di stelle in volumi dell’universo di 1<br />

parsec 3 ,(b) il numero di battiti cardiaci in 15 s, (c) il numero di studenti che si iscrive ogni anno al<br />

corso di laurea in <strong>Fisica</strong> dell’Università “La <strong>Sapienza</strong>”, (d) il numero di persone che trovo in fila<br />

nell’ufficio X il martedì’ mattina alle 10.<br />

89


2.22) Un test del virus HIV é caratterizzato dalle seguenti prestazioni: p(+/infetto)=99.0% , p(-/non<br />

infetto)=99.3% . Calcolare quant’è la probabilità che facendo un test e risultando positivo una<br />

persona sia effettivamente infetta in 2 casi: (1) il testé fatto su tutta la popolazione nazionale italiana<br />

(per la quale il ministero della salute stima una frazione di infetti dello 0.2% circa); (2) il testé fatto<br />

solo su un campione “a rischio” in cui ci si aspetta che circa la metà delle persone testate sia infetta.<br />

2.23) Dai dati dell’esercizio precedente (caso(1)): Quanto cambia la probabilità di essere infetto se<br />

ripeto 3 volte il test e per tre volte la persona risulta positiva ?<br />

2.24) Quante auto possono essere immatricolate in Italia dato il tipo di targa che abbiamo adottato<br />

dal 1994 (2 lettere, 3 numeri 2 lettere) ? Quant’è la probabilità che in una targa le ultime 2 lettere<br />

siano una copia delle prime due (ad esempio CH 017 CH) ?<br />

2.25) La password di una banca data é una parola di 6 lettere, dove per lettera si deve intendere o<br />

una lettera dell’alfabeto inglese o un numero. Quanti anni impiega a trovarla un calcolatore che<br />

impiega 1 ms per tentare ogni singola combinazione ? Quanto impiega invece se sa che sono una<br />

sequenza i cui primi 3 posti sono occupati da numeri e gli altri 3 da lettere ?<br />

2.26) Una variabile casuale é caratterizzata da una distribuzione uniforme tra 0 e 10. Quant’è la<br />

probabilità di ottenere un numero maggiore di 8.2 ? Quant’è la probabilità che estraendo 3 volte, io<br />

ottenga sempre un numero maggiore di 8.2 ?<br />

2.27) La distribuzione della variabile M (massa invariante di un sistema di particelle che escono da<br />

un esperimento di collisioni) é gaussiana con parametri μ = 138.2 MeV e σ = 4.58 MeV. Accetto<br />

solo gli eventi per i quali 129 < M < 149 MeV. Che frazione di eventi buoni rigetto (sinonimo di<br />

non accetto) ? Una simulazione dello stesso processo mi fornisce una variabile sempre gaussiana<br />

con lo stesso μ ma con σ = 3.96 MeV. Quanto é diversa la mia frazione di reiezione tra dati e<br />

simulazione ?<br />

2.28) L’Alitalia dichiara che la probabilità di un ritardo maggiore di 1 ora sul volo Roma-Parigi<br />

delle 10:00é del 2.34%. Nei prossimi 2 anni dovrò andare una volta al mese ad una riunione a Parigi<br />

che inizia appena 1 ora dopo l’arrivo di quel volo. Quant’è la probabilità che io arrivi almeno una<br />

volta in ritardo (si trascuri il tempo di trasporto dall’aereo alla sede della riunione)?<br />

2.29) Nel paese X si ha un decesso in media ogni 62 giorni. L’unica agenzia di pompe funebri<br />

decide di chiudere (per lutto) per un intero mese. Quant’è la probabilità che ci sia almeno un<br />

decesso durante questo periodo di chiusura ?<br />

2.30) La distribuzione dell’età del corpo docente dell’Università “La <strong>Sapienza</strong>” di Roma é<br />

approssimabile con una distribuzione “triangolare” simmetrica tra 30 e 70 anni. Fare il grafico della<br />

distribuzione. Quant’è la probabilità che nei primi corsi del primo trimestre uno studente si trovi di<br />

fronte 3 persone tutte di età superiore ai 60 anni ?<br />

2.31) Per un errore di produzione, su una partita di 2000 uova di Pasqua solo 1250 contengono la<br />

sorpresa. Per Pasqua abbiamo comprato 5 uova appartenenti a questa produzione. Quant’è la<br />

probabilità che almeno 3 di queste contengano una sorpresa ?<br />

2.32) Tre contatori per raggi cosmici contano in media 256 eventi in un minuto. Quant’è la<br />

probabilità che almeno 2 contatori osservino un conteggio inferiore a 240 ?<br />

2.33) La variabile casuale continua x ha una funzione di distribuzione uniforme tra –1.5 e 1.5.<br />

Viene estratto un campione di dimensione 5290 e viene fatto un istogramma di frequenza con passo<br />

90


0.3 dei valori ottenuti. Quale é la probabilità di osservare in due intervalli un numero di valori<br />

superiore a 575 ?<br />

2.34) Ad un torneo partecipano 10 squadre. Quante partite complessivamente saranno giocate se<br />

ogni squadra deve incontrare per 2 volte tutte le altre (gironi di andata e di ritorno) ?<br />

2.35) Nello stato del Texas, i Repubblicani hanno avuto una maggioranza schiacciante alle ultime<br />

elezioni presidenziali: il 76.4% contro il 23.6% dei Democratici. Un sondaggio rivela che il 16.2%<br />

dell’elettorato Democratico é costituito da persone di colore, mentre solo il 2.5% di quello<br />

Repubblicano é costituito da persone di colore.<br />

a) Se incontro un elettore di colore, quant’è la probabilità che abbia votato Democratico ?<br />

b) Nella mia azienda ho 7 dipendenti tutti di colore: quant’è la probabilità che tra i miei<br />

dipendenti vi sia almeno un Repubblicano ?<br />

2.36) Nella regione X si hanno in media 3.24 incidenti ogni notte tra il sabato e la domenica.<br />

a) Quant’è la probabilità che il prossimo sabato sera non si abbiano incidenti ?<br />

b) Qual è la distribuzione di probabilità del numero di incidenti in un anno ?<br />

c) Quanto vale la probabilità di avere in un anno meno di 150 incidenti ?<br />

[si ricorda che in un anno vi sono complessivamente 52 notti tra sabato e domenica.]<br />

2.37) Si deve organizzare una riunione in un nuovo Centro Congressi la cui sala più grande contiene<br />

fino a 90 persone sedute. Analizzando i dati relativi alle stesse riunioni effettuate negli ultimi<br />

anni, si é trovato che il numero di presenze ha una distribuzione descritta da una poissoniana con<br />

valore centrale 78. Quant'è la probabilità che, quest'anno, qualcuno resti in piedi?<br />

2.38) Cinque anni fa ho versato un bicchiere pieno d’acqua nel mare. Oggi mi trovo dall’altra parte<br />

del mondo e con un altro bicchiere prendo dell’acqua dal mare. Quant’e’ il numero medio di<br />

molecole nel nuovo bicchiere che erano anche nel bicchiere di cinque anni fa ?<br />

91


(3) Introduzione all’inferenza<br />

Gli argomenti e gli esempi trattati nel capitolo precedente sono certamente interessanti. Tuttavia<br />

risulta evidente che essi da soli non giustificano il fatto che un fisico sperimentale debba studiarli<br />

cosi’ intensamente proprio all’inizio del suo corso di studi. In realtà il motivo per cui sono stati<br />

trattati é che si rivelano estremamente utili per risolvere i problemi di inferenza che abbiamo già in<br />

parte affrontato e per ora solo approssimativamente incontrato nel primo capitolo.<br />

Riformuliamo alcuni dei problemi che abbiamo incontrato nella prima parte del corso:<br />

(a) come dare il risultato di una misura, come dare la stima dell’intervallo e che significato ha<br />

questo intervallo nei seguenti casi:<br />

risultato di una singola misura (analogica, digitale o numero senza altre informazioni);<br />

risultato di una sequenza di numeri (qui abbiamo già alcune idee che vanno chiarite);<br />

risultato di un conteggio (poissoniano): come dare la migliore stima di r ;<br />

risultato di una misura di efficienza (binomiale);<br />

combinazione di diverse misure indipendenti di una stessa grandezza;<br />

(b) come stimare l’incertezza di una misura indiretta: si tratta di applicare la propagazione delle<br />

incertezze cui abbiamo già accennato;<br />

(c) come stabilire la compatibilità tra diverse misure in modo più quantitativo, ovvero come<br />

stabilire che due misure sono “significativamente” diverse;<br />

(d) come determinare con la loro incertezza il coefficiente angolare e l’intercetta della retta che<br />

meglio approssima una dipendenza lineare tra due grandezze.<br />

Ciascuna delle questioni qui poste sono state incontrate in vario modo nelle esperienze di<br />

laboratorio. Per esempio nella prima esperienza abbiamo incontrato problemi del tipo (a) per<br />

ciascuna misura di massa e di volume e per la distribuzione delle densità, dei riflessi e della capacità<br />

di interpolazione, di tipo (b) per stimare l’incertezza della densità a partire da quelle su massa e<br />

volume e di tipo (c) per vedere se si hanno differenze tra i riflessi degli studenti, o tra la densità<br />

media e quella nota dell’alluminio.<br />

Nell’ esperienza della molla sono entrati in gioco anche i problemi di tipo (d) nei 2 tipi di fit che<br />

abbiamo fatto, per ora solo “a mano” e che intendiamo fare secondo una modalità meglio definita.<br />

Nell’ esperienza del contatore, oltre alle altre cose pure presenti, si é posto il problema di stimare la<br />

radioattività a partire da varie misure di conteggio. E cosi’ via.<br />

In questo capitolo dopo una breve introduzione di considerazioni generali sull’inferenza, vedremo<br />

alcune soluzioni per le 4 classi di problemi posti, soluzioni che evidentemente non esauriscono tutti<br />

i problemi immaginabili, ma che risultano utili in molte circostanze.<br />

Lasciamo dunque da parte urne con palline, o probabilità di malattie, e torniamo a parlare di misure.<br />

(3.1) Introduzione “formale” all’inferenza<br />

(3.1.1) Considerazioni generali<br />

L’inferenza é il processo attraverso il quale a partire da un insieme di dati “inferisco” sul valor vero<br />

di una o più grandezze. E’ dunque la procedura con cui in un modo o nell’altro facciamo<br />

l’induzione. Con il termine inferenza indichiamo dunque il metodo quantitativo dell’induzione e<br />

quindi del metodo sperimentale. Il risultato del procedimento consiste in generale nello stabilire le<br />

caratteristiche della funzione di distribuzione del valor vero della grandezza in esame o dei valori<br />

veri delle grandezze in esame, ed in particolare nella definizione di un intervallo, caratterizzato da<br />

un certo contenuto di probabilità, all’interno del quale si ritiene il valor vero debba stare. Si noti che<br />

intrinsecamente l’inferenza fa passare da una osservazione particolare ad una affermazione generale<br />

sulla o sulle grandezze.<br />

92


Formalizziamo ora l’inferenza. Per fare ciò riprendiamo lo schema della prima parte del corso:<br />

valor vero, misurando e risultato della misura.<br />

Il misurando é caratterizzato da una popolazione (la sua funzione di distribuzione) che dipende sia<br />

dal processo che si sta studiando, che dalle caratteristiche dell’apparato di misura. La misura si<br />

riferisce invece ad un campione, che costituisce una realizzazione finita della popolazione. Dunque<br />

tra popolazione e campione vi é un rapporto di natura statistica. Il valore vero invece non dipende<br />

dall’apparato di misura, ma solo dal fenomeno. La differenza tra valore vero e valore misurato<br />

(l’errore dunque) può sempre essere espresso come somma di 2 contributi:<br />

differenza tra valore osservato e valore atteso del misurando (errore casuale)<br />

differenza tra valore atteso del misurando e valore vero (errore sistematico)<br />

Decomponiamo dunque l’errore complessivo δ nella forma:<br />

δ = x − x = ( x − μ)<br />

+ ( μ − x ) = δ + δ<br />

v<br />

m<br />

v<br />

m<br />

sist<br />

in cui, con ovvio significato di simboli, x v é il valor vero, x m quello misurato, e μ il valore atteso del<br />

misurando.<br />

Nel limite in cui il campione approssima bene la popolazione (per esempio altissimo numero di<br />

osservazioni), l’errore casuale tende ad annullarsi in base alla legge della stabilità della frequenza.<br />

In tale caso rimane la seconda sorgente di errore soltanto. L’errore sistematico é dunque quello che<br />

rimane dell’errore, nel limite di statistica infinita.<br />

Si noti che stiamo parlando di errori, non di incertezze. Lo sperimentatore non “vede” il misurando,<br />

né “vede” il valore vero. Tuttavia deve stimare quanto sono questi errori dando degli intervalli di<br />

probabilità per la grandezza.<br />

(3.1.2) L’inferenza bayesiana<br />

Ci sono vari metodi generali per l’inferenza cioè per fare il passaggio da x m a μ e da questo a x v .<br />

Uno di questi é il metodo dell’inferenza bayesiana al quale accenniamo ora brevemente.<br />

Utilizzando le definizioni appena date, possiamo chiamare f(μ/x m ) la funzione di distribuzione di μ<br />

dato x m , che descrive la popolazione del misurando μ , condizionata all’essere stato ottenuto x m<br />

come risultato della misura. Allo stesso modo chiameremo g(x m /μ) la funzione di distribuzione di<br />

x m dato il parametro μ. Il problema é posto in modo tale che si può interpretare μ come la “causa”,<br />

cioè la popolazione, e x m come l’effetto, ovvero il campione. La forma della popolazione del<br />

misurando determina cioè il risultato della misura, con un meccanismo tipo causa-effetto. La<br />

situazione é simile a quella che abbiamo visto in occasione del teorema di Bayes. Li’ avevamo una<br />

formula che ci permetteva di passare dalle probabilità degli effetti date le cause, alle probabilità<br />

delle cause dati gli effetti. Adattiamo la formula di Bayes al sistema popolazione - campione,<br />

passando dalle probabilità di eventi alle densità di probabilità di variabili casuali continue, secondo<br />

quanto visto nel precedente capitolo:<br />

f ( μ / x )<br />

m<br />

= b<br />

∫<br />

a<br />

g(<br />

x / μ)<br />

f ( μ)<br />

m<br />

0<br />

dμg(<br />

x / μ)<br />

f ( μ)<br />

m<br />

0<br />

A numeratore vi é il prodotto della funzione g detta verosimiglianza per la funzione f 0 che<br />

costituisce la probabilità a priori del valore del misurando. A denominatore lo stesso prodotto é<br />

integrato in dμ tra a e b che sono gli estremi dell’intervallo in cui μ è definito. L’integrale a<br />

denominatore svolge il ruolo della sommatoria nella formula di Bayes per le probabilità.<br />

Se conosco la verosimiglianza, cioè se conosco come é fatta la distribuzione del campione data la<br />

popolazione (che dipende da come é fatto l’apparato di misura), e se ho una probabilità a priori<br />

(eventualmente uniforme se non ho alcun “pregiudizio”) posso ricavare la funzione di distribuzione<br />

del misurando. Il valore atteso di tale distribuzione, o il valore più probabile qualora la distribuzione<br />

fosse in buona misura simmetrica, costituiscono la migliore stima del misurando.<br />

Il passaggio poi al valore vero viene fatto usando tutte le conoscenze a disposizione relativamente<br />

agli eventuali errori sistematici, e applicandoli come correzioni alla stima fatta del misurando.<br />

cas<br />

93


(3.1.3) Il principio di massima verosimiglianza<br />

La formula di Bayes permette di giustificare il cosiddetto principio di massima verosimiglianza.<br />

Infatti se la probabilità a priori di μ è uniforme tra a e b e pari a k=1/(b-a), si ha:<br />

g(<br />

x / μ)<br />

k<br />

m<br />

f ( μ / x ) =<br />

m<br />

b<br />

=<br />

k ∫ dμg(<br />

x / μ)<br />

a<br />

m<br />

g(<br />

x / μ)<br />

m<br />

I<br />

dove con I abbiamo indicato l’integrale che compare a denominatore, che é comunque un numero<br />

indipendente da μ avendo noi integrato in μ. Quindi si ha che la funzione di distribuzione di μ dato<br />

x m é proporzionale alla verosimiglianza.<br />

f ( μ / x ) ∝ g(<br />

x / μ)<br />

m<br />

m<br />

In particolare se la f é una distribuzione simmetrica, cioè tale che la moda e la media coincidono, il<br />

massimo della g rispetto a μ corrisponde al valore più probabile di μ.<br />

Di qui il principio della massima verosimiglianza: la migliore stima di μ è quella per cui é massimo<br />

il valore della funzione di verosimiglianza. La funzione di verosimiglianza (likelihood in inglese) é<br />

data in generale dalla densità di probabilità congiunta dei dati sperimentali, data la popolazione del<br />

misurando. Questo principio (che applicheremo in seguito) fornisce un utile metodo per stabilire<br />

quale é il valore più probabile del misurando μ secondo il nostro campione x m . Il valore più<br />

probabile di μ è dunque quello per cui é massima la verosimiglianza.<br />

(3.2) Inferenza sul valore vero<br />

Passiamo ora ad affrontare i casi che si incontrano nel processo di misura, per arrivare a dare metodi<br />

operativi. In questo paragrafo affrontiamo i casi che abbiamo elencato sotto (a) nel paragrafo<br />

introduttivo di questo capitolo.<br />

Consideriamo dunque i vari casi presentati sopra. Nel seguito usiamo la seguente notazione: xˆ ed<br />

in generale ogni simbolo con il cappuccio indica la stima del valor vero, ovvero la stima dei<br />

parametri della densità di probabilità del misurando. Per il momento assumiamo l’assenza di errori<br />

sistematici che richiedono una trattazione a parte, e dunque nella trattazione che segue,<br />

identificheremo il valor vero x v con μ, valore atteso del misurando. La trattazione é svolta ad un<br />

livello elementare ed intuitivo, ed ha come obiettivo quello di fornire metodi di analisi e non di dare<br />

una trattazione esauriente e generale dell’inferenza. Per una discussione generale della teoria degli<br />

stimatori e dell’inferenza si rimanda ai corsi successivi.<br />

(3.2.1) Caso di una singola misura<br />

Se la mia misura si traduce in un unico numero x M , (il che accade per esempio quando non sono in<br />

condizioni di ripetibilità e non ho alcuna informazione sull’incertezza da attribuire ad x M ), devo<br />

avere informazioni indipendenti. Con un solo numero non si riesce a dare una misura sensata. O<br />

devo poter ripetere la misura o devo sapere qualcosa su come funziona il mio esperimento.<br />

Se invece sappiamo che la distribuzione del misurando μ (la popolazione da cui x M proviene) é<br />

gaussiana con varianza σ 2 , allora l’intervallo cosi’ costruito:<br />

x − σ < ˆ μ < x + σ<br />

M<br />

M<br />

costituisce un intervallo al 68.3% di probabilità per il valore atteso μ del misurando. Infatti in<br />

questo caso la verosimiglianza é:<br />

g<br />

1<br />

2πσ<br />

xM −μ<br />

)<br />

2<br />

2<br />

(<br />

−<br />

2σ<br />

( x M<br />

/ ) = e<br />

μ<br />

e, se la probabilità a priori é uniforme, la densità di probabilità di μ è data da<br />

f ( μ / x ) = g(<br />

x / μ)<br />

M<br />

M<br />

(in cui il fattore di proporzionalità é 1 essendo la gaussiana già normalizzata) e dunque si ha che:<br />

94


P ( x M<br />

−σ<br />

< μ < x + σ ) = 68.3%<br />

M<br />

Si noti il procedimento seguito, che é consistito nell’individuare la densità di probabilità di μ a<br />

partire dalla verosimiglianza.<br />

Nel caso in cui il valore x M proviene da una misura diretta letta su una scala “analogica” sappiamo<br />

che si tratta di stimare al meglio la precisione di interpolazione. Si potrebbe pensare di usare una<br />

misura come quella fatta in laboratorio per il nonio (aumentando magari il numero di osservazioni)<br />

come misura della popolazione della variabile δx scarto del valore misurato dal valore vero. Se tale<br />

popolazione si rivela essere gaussiana caratterizzata da valore atteso nullo e varianza σ 2 si può<br />

procedere come nel caso appena trattato dando un intervallo gaussiano di semilarghezza σ.<br />

In questi casi é evidente che per avere un intervallo del tipo di quelli chiamati di “quasi certezza” nel<br />

capitolo 1, occorrerà moltiplicare per 3 la larghezza dell’intervallo portando cosi’ il contenuto<br />

probabilistico dell’intervallo al 99.7%.<br />

Se invece la misura in questione proviene da un display digitale fisso e Δx é l’ampiezza<br />

dell’intervallo corrispondente all’ultimo digit centrato in x M , posso affermare che, per quel che posso<br />

sapere, la densità di probabilità di μ è uniforme tra x M - Δx/2 e x M + Δx/2. Non ho nessun elemento<br />

infatti per privilegiare una parte dell’intervallo rispetto ad un’altra. In tal caso la migliore stima del<br />

valore vero e della sua incertezza, avente il significato di deviazione standard della distribuzione di x<br />

(vedi cap.(2.4)) é<br />

ˆ μ =<br />

Δx<br />

x M<br />

±<br />

12<br />

corrispondente ad un intervallo di probabilità del 57.7%. In questo caso un intervallo di certezza é<br />

ovviamente ± Δx / 2.<br />

Bisogna comunque sempre tenere presente che non esiste un metodo generale. Si tratta di usare tutte<br />

le informazioni a disposizione e, se non si hanno informazioni sufficienti, in generale non si potrà<br />

dare una stima sensata di un intervallo.<br />

(3.2.2) Caso di una misura ripetuta N volte.<br />

Se invece ho un campione di dimensione N (sequenza di numeri) posso calcolare x ed s . Di<br />

nuovo però é interessante distinguere tra due casi, cioè tra il caso in cui ho informazioni aggiuntive<br />

al mio campione e il caso in cui tutte le mie informazioni sono date dal campione.<br />

Supponiamo allora di conoscere a priori che x ha una distribuzione gaussiana con valore atteso μ e<br />

varianza σ 2 : la variabile<br />

x − μ<br />

σ<br />

N<br />

è una gaussiana standardizzata, e dunque, applicando le stesse considerazioni fatte per il caso della<br />

singola misura, un intervallo<br />

x −<br />

σ<br />

< ˆ μ < x +<br />

N<br />

σ<br />

N<br />

è caratterizzato da un intervallo di probabilità del 68.3%. Infatti se il misurando è caratterizzato da<br />

una popolazione gaussiana, la media di N misure estratte da questa popolazione é (a maggior<br />

ragione) gaussiana e d’altra parte sappiamo che la sua varianza é la varianza di x diviso N. Allora<br />

posso ripetere il ragionamento fatto per la singola misura e scrivere come risultato:<br />

95


ˆ μ = x ±<br />

σ<br />

N<br />

che ha il significato di un intervallo di probabilità del 68.3% per il valor vero<br />

C’è poi il secondo caso. Supponiamo di sapere che x ha una distribuzione gaussiana ma di non<br />

conoscere σ 2 : allora devo ricorrere a:<br />

μˆ<br />

=<br />

x ±<br />

s<br />

N<br />

Tuttavia sappiamo già che un tale intervallo (che peraltro abbiamo già ampiamente usato nella<br />

prima parte del corso) non caratterizza un intervallo al 68.3%. Infatti sappiamo che, detto μ il<br />

valore atteso gaussiano della popolazione, la variabile<br />

x − μ<br />

s<br />

N<br />

in tutto analoga a quella che abbiamo costruito nel caso precedente con l’unica differenza che ora<br />

compare s al posto di σ, non é una variabile gaussiana standardizzata, ma é piuttosto una t di<br />

Student con N-1 gradi di libertà che tende ad una gaussiana solo nel limite di grande N.<br />

Per cui se vogliamo un intervallo di probabilità confrontabile con quello gaussiano, per esempio al<br />

68.3%, dobbiamo trovare quel valore della variabile t con N-1 gradi di libertà, diciamo t Ν−1 (68.3%)<br />

tale che:<br />

P<br />

x − μ<br />

(68.3%) < < t (68.3%)) = 68.3%<br />

1 N −<br />

s<br />

N<br />

( −t<br />

N −<br />

1<br />

I valori di questi t N-1 per diverse probabilità (tra cui il 68.3%) sono dati nella tabella data qui di<br />

seguito. Dalla tabella si nota che al crescere di N i valori di t tendono a quelli “gaussiani” come<br />

deve essere per le proprietà limite della variabile t di Student. Quindi l’uso della variabile t é<br />

importante solo quando si stanno considerando medie di campioni di bassa statistica estratti da<br />

popolazioni gaussiane di σ non nota.<br />

Si scrive dunque il risultato per un intervallo di probabilità α qualsiasi:<br />

ˆ μ = x ± t ( α)<br />

N 1<br />

−<br />

s<br />

N<br />

96


Tabella con i valori di t(N-1) introdotti nel testo, per dare intervalli di probabilità corretti nel caso di un numero<br />

limitato di misure. Si noti che gli 1-α della tabella corrispondono agli α del testo. La tabella deve essere usata<br />

anche per fissare gli estremi degli intervalli di accettabilità nel contesto dei test di ipotesi (vedi seguito).<br />

Si noti che il valore di t fa aumentare le dimensioni dell’intervallo rispetto al caso gaussiano. In un<br />

certo senso si sta pagando la non conoscenza della σ e il fatto che si sta introducendo anche<br />

l’incertezza su s, stima di σ.<br />

(3.2.3) Caso dei conteggi poissoniani.<br />

Supponiamo di volere stimare il “rate” di conteggio di un certo tipo di eventi. Devo stimare il<br />

parametro λ di un fenomeno poissoniano relativo ad un intervallo di tempo Δt, dato una certa<br />

misura di conteggio N nel tempo Δt.<br />

La trattazione esatta del problema, richiede l’uso del teorema di Bayes in caso di verosimiglianza<br />

poissoniana. Qui consideriamo solo il caso in cui il numero di conteggi osservato é<br />

sufficientemente grande. In tal caso infatti, ma solo in tal caso, il numero di conteggi diventa una<br />

variabile gaussiana, e pertanto si possono costruire intervalli di probabilità gaussiani. Supponiamo<br />

allora di avere contato N conteggi nel tempo Δt e di volere stimare la “radioattività ambientale” r.<br />

Nel limite in cui N é “grande” (per N maggiore di 10-20 tale limite é già in pratica raggiunto) si<br />

trova che la migliore stima di λ è fornita dall’unico valore trovato N.<br />

λˆ = N<br />

e pertanto<br />

N<br />

rˆ<br />

=<br />

Δt<br />

Se ho validi motivi per ritenere che la popolazione sia poissoniana, posso ragionevolmente<br />

assumere che la radice quadrata di N sia una buona stima della deviazione standard, e pertanto<br />

avrò:<br />

N<br />

N<br />

t<br />

rˆ<br />

= ±<br />

Δt<br />

Δ<br />

in cui evidentemente ho assunto trascurabile l’incertezza su Δt. Si noti che (caratteristica distintiva<br />

dei processi poissoniani) al crescere di N l’incertezza cresce, ma più lentamente di N e dunque<br />

l’incertezza relativa su r decresce<br />

97


(a)<br />

s( rˆ)<br />

1<br />

=<br />

rˆ<br />

N<br />

qui abbiamo indicato con s(r) l’incertezza sulla stima di r. Dunque la stima del “rate” di un evento<br />

é tanto migliore quanto più alto é il numero di conteggi ovvero, a parita’ di rate, quanto maggiore é<br />

il mio tempo di osservazione Δt.<br />

Consideriamo ora l’esperienza del contatore. Sono stati fatti diversi conteggi a tempo fissato (per<br />

esempio N=50 conteggi da δt=100 s l’uno) e i miei dati sono una sequenza di conteggi: n(i),i=1,N.<br />

In tal caso la migliore stima della radioattività può essere ottenuta in due modi tra loro equivalenti.<br />

Calcolo la media n e la deviazione standard campionaria s(n) dei 50 conteggi<br />

(n(i),i=1,N). Uso la proprietà della media e scrivo:<br />

n<br />

rˆ = ±<br />

δt<br />

s(<br />

n)<br />

Nδt<br />

che, assumendo di essere nel limite gaussiano, corrisponde ad un intervallo di probabilità del<br />

68.3%.<br />

(b) Sommo tutti i conteggi fatti e li divido per la somma di tutti gli intervalli pari<br />

evidentemente a Nδt, cioé agendo come se avessi fatto un unico conteggio per un tempo Nδt.<br />

∑<br />

N<br />

N<br />

=<br />

∑<br />

n(<br />

i)<br />

n(<br />

i)<br />

i= 1<br />

i 1<br />

rˆ<br />

= ±<br />

Nδt<br />

Nδt<br />

e assumo la radice del totale dei conteggi come stima della deviazione standard.<br />

I 2 approcci sono esattamente uguali per quel che riguarda il valore centrale, essendo infatti<br />

N<br />

n = ∑ n(<br />

i) / N , mentre per quel che riguarda l’incertezza sono uguali solo se la deviazione<br />

i=<br />

1<br />

standard campionaria é pari<br />

poissoniana.<br />

n . Ciò é verificato solo se la distribuzione é effettivamente<br />

Quindi ricapitolando quanto detto per il caso dei conteggi poissoniani nel limite gaussiano: se la<br />

distribuzione é poissoniana é opportuno sommare tutti i conteggi fatti ed assumere come incertezza<br />

la radice di tale numero; se invece si hanno dubbi sulla poissonianità, é opportuno suddividere il<br />

tempo di misura in sottocampioni e controllare che la deviazione standard campionaria sia in<br />

accordo con la radice della media aritmetica. Se ciò é ragionevolmente verificato si può procedere<br />

come nel caso poissoniano. Altrimenti si deve concludere che il fenomeno non é poissoniano<br />

(perché ad esempio alcune delle ipotesi non sono verificate) e assumere la deviazione standard<br />

della media come incertezza.<br />

Il caso di pochi conteggi (in cui il limite gaussiano non é verificato) é estremamente importante ma<br />

richiede una trattazione che esula dagli obiettivi di questo corso.<br />

(3.2.4) Caso dei conteggi binomiali.<br />

Supponiamo di aver contato n successi su N prove e di volere stimare p. Si tratta di un tipico caso<br />

di inferenza, nel quale voglio passare da un valore misurato n caratteristico di un campione<br />

“estratto” dalla popolazione, al parametro che descrive la popolazione. L’esempio più tipico é<br />

quello della misura di efficienza di un rivelatore.<br />

Anche in questo caso ci limitiamo al limite gaussiano. La migliore stima di p sarà data dalla<br />

frequenza con cui ho ottenuto il successo<br />

p ˆ =<br />

n<br />

N<br />

98


che corrisponde al fatto che in una binomiale E[n]=Np. La deviazione standard é ottenuta<br />

prendendo la deviazione standard della popolazione e sostituendo a p il suo valore stimato:<br />

1<br />

1<br />

pˆ(1<br />

− pˆ)<br />

s(<br />

pˆ)<br />

= Var[<br />

n]<br />

= Np(1<br />

− p)<br />

=<br />

N N<br />

N<br />

Anche in questo caso giova ricordare che al di fuori del limite gaussiano la trattazione data non é<br />

adeguata. Ricordiamo che nel caso della distribuzione binomiale il limite gaussiano é raggiunto<br />

quando N é sufficientemente elevato e quando p é sufficientemente lontano da 0 e da 1.<br />

(3.2.5) La “barra di incertezza”<br />

Fig.3.1 Alcuni esempi di dati sperimentali espressi su di un grafico con la (o le) barre di incertezza. Si noti<br />

che la barra esprime sempre una stima dello sperimentatore di un intervallo di probabilità del quale deve<br />

essere specificato il contenuto. In caso non si abbia una tale stima, é bene presentare il dato senza barra.<br />

In tutti i casi visti, il risultato della misura può essere espresso come un valore ± una incertezza<br />

stimata. Se la misura di cui stiamo parlando viene messa in un grafico in cui é espressa in funzione<br />

di un altra grandezza per evidenziare un eventuale andamento (è il caso di molte delle misure viste<br />

in laboratorio), allora sarà opportuno riportare sul grafico non solo un punto, ma un punto con due<br />

barre di incertezza: una per la misura della grandezza in ascisse, e l’altra per la misura della<br />

grandezza nelle ordinate, secondo quanto mostrato nella figura illustrativa (Fig.3.1). Si tratta di<br />

una espressione grafica molto utilizzata perché estremamente utile alla comprensione del grafico.<br />

Di norma le barre di incertezza rappresentano incertezze standard e quindi il loro significato é che<br />

il valore vero cade là dentro con una probabilità che nel caso gaussiano é del 68.3%. Come<br />

vedremo, nella valutazione degli andamenti, l’uso delle barre di incertezza si rivela di cruciale<br />

importanza.<br />

(3.3) Misure indirette: la propagazione delle incertezze<br />

(3.3.1) Riformulazione del problema<br />

Dopo aver fatto una lista di casi di misure dirette, torniamo al caso delle misure indirette.<br />

Possiamo ora applicare la formula che abbiamo ricavato nel capitolo precedente.<br />

99


Riformuliamo il problema. Supponiamo di aver misurato le 2 grandezze x 1 ed x 2 e di avere ottenuto<br />

ˆx e<br />

1<br />

ˆx con le loro incertezze standard<br />

2<br />

s ( xˆ<br />

1<br />

) e s ( xˆ<br />

2<br />

) e di avere anche stimato una covarianza tra le<br />

2 grandezze. Vogliamo trovare una stima di y che é una funzione di x 1 ed x 2 , y(x 1 , x 2 ) e una stima<br />

della sua incertezza s (yˆ<br />

) . Nel capitolo precedente abbiamo imparato a calcolare il valore atteso e la<br />

varianza della popolazione della variabile causale y. Ora però per utilizzare quella formula,<br />

dobbiamo applicarla a campioni di x 1 e di x 2 non alle popolazioni. Per fare ciò identifichiamo i<br />

valori attesi di y di x 1 e di x 2 con le rispettive stime di y, x 1 ed x 2 , e le varianze con i quadrati delle<br />

incertezze standard, secondo il procedimento che abbiamo già usato nel precedente paragrafo.<br />

Identifichiamo infine la covarianza della popolazione delle 2 variabili con la covarianza<br />

campionaria. Naturalmente questo passaggio richiede una identificazione campione-popolazione<br />

che é lecita solo nella misura in cui i campioni “rappresentano” ragionevolmente bene le<br />

popolazioni, cioé nel limite di errori casuali piccoli.<br />

(3.3.2) Propagazione delle incertezze<br />

Utilizzando le formule viste nel capitolo precedente, ed applicandola ai valori campionari, abbiamo<br />

allora per la stima di y e per la stima della sua varianza:<br />

yˆ<br />

=<br />

s(<br />

yˆ)<br />

y( xˆ<br />

, xˆ<br />

2<br />

1<br />

2<br />

)<br />

⎛ ∂y<br />

⎞<br />

= ⎜ ⎟<br />

⎝ ∂x1<br />

⎠<br />

2<br />

xˆ1 , xˆ2<br />

s(<br />

xˆ<br />

)<br />

1<br />

2<br />

⎛ ∂y<br />

⎞<br />

+ ⎜ ⎟<br />

⎝ ∂x2<br />

⎠<br />

2<br />

xˆ1 , xˆ2<br />

s( xˆ<br />

2<br />

)<br />

2<br />

⎛ ∂y<br />

⎞<br />

+ 2⎜<br />

⎟<br />

⎝ ∂x1<br />

⎠<br />

xˆ1 , xˆ2<br />

⎛ ∂y<br />

⎞<br />

⎜ ⎟<br />

⎝ ∂x2<br />

⎠<br />

xˆ1 , xˆ2<br />

cov( xˆ<br />

, xˆ<br />

Soffermiamoci su questa formula. Vi compaiono 2 categorie di elementi: da un lato le derivate della<br />

funzione y calcolate in corrispondenza dei valori stimati di x 1 e di x 2 , che non hanno nulla a che<br />

vedere con le incertezze delle variabili x; dall’altra appunto le incertezze standard delle variabili x e<br />

la covarianza tra queste, che sono invece grandezze indipendenti dalla forma di y, ma legati alla<br />

nostra conoscenza sulle due variabili x ed anche al loro grado di correlazione. Sono questi 2<br />

elementi a determinare l’incertezza propagata.<br />

È utile a questo punto applicare la formula trovata al caso della misura indiretta delle densità dei<br />

pesetti, per verificare se la deviazione standard delle misure di densità del campione di pesetti é in<br />

accordo con il valore stimato in base alla propagazione.<br />

In primo luogo calcoliamo le derivate della funzione y, poi prendiamo dai dati i valori stimati delle<br />

deviazioni standard delle misure di massa e volume. Osserviamo dunque che le 2 misure non sono<br />

correlate (nel senso che non sono correlati gli errori di bilancia e calibro).<br />

Concludiamo dando una formula di propagazione molto utile nelle applicazioni, valida nel caso in<br />

cui la funzione y sia una funzione ‘monomia’, cioè del tipo<br />

y = kx<br />

α<br />

1<br />

x<br />

β<br />

2<br />

...<br />

esprimibile come prodotto delle variabili x elevate a esponenti (anche negativi). In caso di non<br />

correlazione si ha:<br />

⎛ s(<br />

yˆ)<br />

⎞<br />

⎜ ⎟<br />

⎝ yˆ<br />

⎠<br />

2<br />

⎛<br />

2<br />

s( xˆ<br />

) ⎞<br />

1<br />

= α ⎜ ⎟<br />

⎝ xˆ<br />

1 ⎠<br />

2<br />

⎛<br />

2<br />

s( xˆ<br />

) ⎞<br />

2<br />

+ β ⎜ ⎟<br />

⎝ xˆ<br />

⎠<br />

2<br />

2<br />

+ ...<br />

Si noti il ruolo determinante degli esponenti α e β con cui x 1 e x 2 compaiono nella formula. Essi<br />

determinano in effetti quanto “fortemente” y dipende da x 1 e da x 2 .<br />

(3.4) Nozione di consistenza e significatività: test d’ipotesi<br />

1<br />

2<br />

)<br />

100


(3.4.1) Consistenza tra risultati di esperimenti<br />

Abbiamo dunque visto come in casi semplici si possono attribuire degli intervalli al valor vero sia<br />

che si tratti di una misura diretta sia che si tratti di una misura indiretta. Supponiamo ora di aver<br />

misurato una certa grandezza in laboratori diversi e con apparati diversi. Può essere, per esempio,<br />

che diversi gruppi sperimentali siano impegnati in diversi esperimenti che intendono tuttavia<br />

misurare una stessa grandezza per fare luce su un certo problema di fisica. Al termine di questi<br />

esperimenti la comunità scientifica ha a disposizione N risultati diversi uno per ciascun<br />

esperimento. Prima di qualunque altra cosa ci si chiede se i risultati ottenuti dai diversi esperimenti<br />

siano tra di essi consistenti. La domanda é evidentemente di straordinaria rilevanza. Infatti la<br />

consistenza tra diversi esperimenti, “rafforza” la conoscenza complessiva del fenomeno, mentre una<br />

eventuale inconsistenza può significare che qualcuno degli esperimenti stia stimando male la<br />

propria incertezza oppure che gli esperimenti stiano misurando grandezze diverse. Quest’ultimo é il<br />

caso in cui uno o più degli esperimenti sono caratterizzati da errori sistematici fuori controllo che<br />

fanno si’ che il misurando non rappresenti correttamente il valore vero.<br />

Nel primo capitolo abbiamo accennato ad un confronto tra risultati basato sulla distanza in “numero<br />

di deviazioni standard”. Quanto abbiamo detto allora é sostanzialmente corretto. Ora vogliamo<br />

soltanto rendere più quantitativa la discussione fatta.<br />

Supponiamo che i 2 esperimenti che vogliamo confrontare (A e B) danno il loro risultato sotto<br />

forma di intervallo standard gaussiano del tipo x ± σ. Posso considerare la variabile casuale Δ=x A -<br />

x B . Faccio allora la seguente ipotesi: i 2 campioni A e B provengono da due popolazioni gaussiane<br />

caratterizzate da uno stesso μ e da varianze pari a quelle date da ciascun esperimento σ A e σ B . In<br />

tale ipotesi la variabile Δ è anch’essa gaussiana. Il suo valore atteso sarà 0 e la sua varianza si<br />

otterrà dalla formula della propagazione. Assumendo assenza di correlazione tra i 2 esperimenti<br />

(circostanza ragionevole) avremo<br />

2<br />

2 2<br />

σ = σ A<br />

+ σ<br />

Δ<br />

B<br />

e dunque la variabile<br />

Δ<br />

Z = σ<br />

Δ<br />

deve essere una variabile gaussiana standardizzata. A questo punto testare l’ipotesi di partenza<br />

corrisponde a testare quanto é verosimile che la variabile Z cosi’ definita sia gaussiana<br />

standardizzata (l’uso del termine verosimile in questo contesto non ha esattamente lo stesso<br />

significato della definizione di verosimiglianza data sopra, ma ha un significato analogo). Per fare<br />

ciò calcolo Z e vado a vedere nelle tabelle della distribuzione di Gauss normalizzata quant’è<br />

P<br />

( Z ) = P(( m > Z ) ∪(<br />

m < − Z ))<br />

cioè quanto é probabile che io ottenga un valore oltre Z in entrambi le code della gaussiana.<br />

Evidentemente, più piccolo é il valore di questa probabilità più inverosimile é il fatto che Z<br />

provenga da una popolazione gaussiana standardizzata.<br />

Quanto detto corrisponde ad un esempio particolarmente semplice di test di ipotesi. Il procedimento<br />

logico fatto può essere cosi’ ricapitolato:<br />

si definisce una variabile casuale, detta statistica campionaria, funzione dei dati (la variabile Z<br />

nell’esempio dato sopra) tale che se l’ipotesi é verificata la sua funzione di distribuzione é nota<br />

(una gaussiana standardizzata nell’esempio dato sopra);<br />

si calcola il valore di questa variabile;<br />

si stima quant’è “verosimile” che il valore misurato provenga dalla distribuzione aspettata<br />

(nell’esempio dato sopra calcolare P (Z)<br />

sulla base delle tabelle).<br />

101


In alcuni casi si può procedere nel modo seguente: viene fissato un certo valore di probabilità di<br />

soglia. Se P(Z)<br />

é inferiore a questo valore, l’ipotesi viene rigettata: in caso contrario viene<br />

accettata. La scelta della probabilità di soglia é in qualche misura arbitraria. Scelta tipiche possono<br />

essere il 10% o il 5% o anche l’1%. Si noti che la scelta di questa soglia dipende da quanto<br />

vogliamo essere ‘severi’. Certamente assumere il 10% come soglia significa essere piuttosto severi,<br />

ma comporta il rigettare il 10% dei casi buoni come se fossero cattivi. Viceversa, scegliere l’1%<br />

significa ridurre questa eventualità all’1% ma significa anche aumentare la possibilità di prendere<br />

come buoni casi cattivi. Si tratta dunque di trovare un compromesso che dipende dalla natura del<br />

problema in questione.<br />

(3.4.2) Consistenza tra esperimento e modello<br />

Un caso simile al precedente che pure abbiamo incontrato nelle nostre esperienze di laboratorio é<br />

quello in cui vi é un valore atteso per il risultato di una certa misura, valutato sulla base di un<br />

modello o sulla base di una ipotesi che si fa sulla grandezza che stiamo misurando. Nel caso delle<br />

misure di densità l’ipotesi é che i cilindretti siano tutti fatti di alluminio puro e dunque la densità<br />

attesa é la densità dell’alluminio, assunta nota con incertezza trascurabile. Muovendoci secondo<br />

quanto detto nel paragrafo precedente, e facendo di nuovo l’ipotesi che la nostra misura provenga<br />

da una popolazione gaussiana, costruiamo la seguente statistica campionaria:<br />

= x ˆ<br />

Z<br />

− μ<br />

σ<br />

in cui x é il risultato della misura, σ la stima della sua deviazione standard gaussiana ed infine μ è il<br />

valore atteso. Da questo punto in poi si segue il ragionamento fatto sopra. Essenzialmente, dato il<br />

valore di Z si tratterà di calcolare sulla base delle tabelle quanto vale P (Z)<br />

e sulla base di tale<br />

valore prendere una decisione.<br />

Nel seguito vedremo un altro esempio di test di ipotesi quando discuteremo i fit. E’ opportuno<br />

sottolineare che in ogni caso l’accettazione o il rigetto di una ipotesi non costituisce mai una<br />

conclusione certa, ma sempre una conclusione di natura probabilistica. Giova ribadire qui quanto<br />

già detto sopra, vale a dire che la scelta della probabilità di soglia determina la “severità” del test.<br />

Maggiore é tale probabilità di soglia, maggiore é la nostra tendenza a rigettare i casi, nel senso che<br />

l’accettazione dell’ipotesi si ha solo se l’accordo é molto buono. Ma proprio in questo caso diventa<br />

più alta la probabilità di rigettare come falsa un ipotesi vera.<br />

(3.4.3) Combinazione di diverse misure: la media pesata.<br />

Supponiamo ora di avere verificato che i risultati di due esperimenti relativi alla grandezza x siano<br />

consistenti, cioè che il test dell’ipotesi di consistenza abbia dato esito positivo. A questo punto ci<br />

poniamo il problema di combinare i due risultati utilizzando tutte le informazioni a nostra<br />

disposizione. Fare la media aritmetica tra i due risultati costituisce un approccio che ha un evidente<br />

problema. Infatti il risultato della media sta appunto a metà tra i due. Supponiamo che uno dei due<br />

risultati sia caratterizzato da una incertezza molto minore dell’altra. E’ naturale dare più credito a<br />

quel risultato e fare le cose in modo tale che il risultato finale sia più vicino a quello tra i due che ha<br />

incertezza minore. Si tratta cioè di fare una media pesata:<br />

x p + xˆ<br />

p ˆ1 1 2<br />

x p<br />

=<br />

p + p<br />

1<br />

2<br />

2<br />

in cui p 1 e p 2 sono appunto due pesi. In base a quanto detto i 2 pesi devono essere legati alla<br />

incertezza di ciascuna misura o meglio al suo inverso. Si dimostra che con la scelta<br />

1<br />

p =<br />

2<br />

s ( xˆ)<br />

102


la media pesata ottenuta é la “migliore stima” di x sulla base delle informazioni a disposizione.<br />

Pertanto, generalizzando alla combinazione di N risultati diversi, diamo la definizione di media<br />

pesata:<br />

N xˆ<br />

i<br />

∑<br />

i=<br />

1<br />

2<br />

s ( xˆ<br />

)<br />

i<br />

x =<br />

p<br />

N 1<br />

∑<br />

i=<br />

1<br />

2<br />

s ( xˆ<br />

)<br />

i<br />

Si dimostra inoltre che la deviazione standard della media pesata é data da:<br />

2 1<br />

s ( xp<br />

) = N<br />

1<br />

∑ 2<br />

s ( xˆ<br />

)<br />

i=<br />

1<br />

i<br />

Si noti che nel caso di incertezze tutte uguali si ritorna alla media aritmetica e alla deviazione<br />

standard della media.<br />

Giova ricordare che questo procedimento é applicabile solo al caso in cui si é preventivamente<br />

verificato che le misure in questione sono campioni provenienti dalla stessa popolazione. Nel caso<br />

questa ipotesi fosse rigettata questa combinazione non avrebbe significato, e allora occorre<br />

procedere in modo diverso. Nel corso della discussione del fit (prossimo paragrafo) otterremo una<br />

dimostrazione della formula della media pesata per il caso generale di N misure indipendenti.<br />

(3.5) Analisi delle dipendenze funzionali: il fit<br />

L’ultimo argomento che trattiamo in questo corso affronta uno degli aspetti più importanti<br />

dell’indagine scientifica, in un certo senso il punto d’arrivo di ogni indagine sperimentale. Come<br />

abbiamo detto nell’introduzione al metodo scientifico, il progresso conoscitivo si sviluppa<br />

attraverso il confronto tra i risultati degli esperimenti e le predizioni dei modelli. In fisica i risultati<br />

degli esperimenti sono espressi come misure, cioè come valori numerici di grandezze fisiche<br />

opportunamente definite, mentre le predizioni dei modelli sono espresse o come valori numerici di<br />

grandezze o come relazioni matematiche tra grandezze. Concentriamoci su questo secondo caso.<br />

Formuliamo ora il problema in modo generale. Nel seguito risolveremo il problema solo in un caso<br />

particolare, che tuttavia risulta essere di notevole rilevanza e generalità.<br />

(3.5.1) Il fit: formulazione del problema<br />

Supponiamo che il nostro esperimento consista nel misurare, al variare di una certa grandezza x,<br />

una seconda grandezza, diciamo y. Effettuiamo N misure in corrispondenza di N diversi valori di x.<br />

Avremo pertanto gli N valori di x x 1 ,x 2 ,...,x N e, in corrispondenza di questi gli N valori di y<br />

y 1 ,y 2 ,...,y N . Naturalmente sia per quel che riguarda le x che le y, si tratta di misure e dunque ciascun<br />

valore é affetto di una incertezza o, più in generale, costituisce un campione da una popolazione<br />

caratterizzata da una certa funzione di distribuzione.<br />

Supponiamo poi che le due grandezze x ed y siano legate, secondo un certo modello, da una<br />

relazione funzionale del tipo<br />

y = y( x,<br />

θ )<br />

cioè da una formula che esprime la dipendenza funzionale tra le due grandezze e che a sua volta<br />

dipende da un certo numero, diciamo M, di parametri θ . Questo simbolo indica un insieme di<br />

parametri. Per fissare le idee, il caso in cui l’andamento atteso dal modello sia di tipo rettilineo, la<br />

funzione y sarà data da:<br />

y = mx + c<br />

103


in cui evidentemente il coefficiente angolare m e l’intercetta all’origine c sono i parametri. I<br />

parametri possono assumere valori che hanno significato nell’ambito del modello in questione. Ad<br />

esempio nel caso della dipendenza allungamento molla – massa del pesetto, sappiamo bene che la<br />

dipendenza rettilinea prevista da una semplice applicazione delle leggi della statica, comporta che il<br />

coefficiente angolare sia il rapporto g/k tra l’accelerazione di gravità g e la costante elastica della<br />

molla k, e dunque si tratta di un numero rilevante nell’ambito del modello che stiamo applicando.<br />

Lo sperimentatore che ha effettuato queste misure si pone allora i due seguenti problemi:<br />

(a) la dipendenza funzionale attesa dal modello descrive bene i dati ?<br />

(b) quali sono i valori degli M parametri θ per i quali si ha il miglior accordo possibile tra<br />

modello ed esperimento ?<br />

Si tratta di due diverse questioni. La questione (a) é del tipo di quelle di cui abbiamo parlato a<br />

proposito dei test di ipotesi. La questione (b) é invece una questione “nuova” che in realtà abbiamo<br />

affrontato in laboratorio in modo grafico: tracciando cioè la migliore curva (una retta nei casi da noi<br />

visti) e poi valutando graficamente coefficiente angolare ed intercetta.<br />

Nella pratica sperimentale normalmente le due questioni si pongono contestualmente. Cioè lo<br />

sperimentatore si pone entrambi le questioni. Vuole capire se la descrizione del modello é<br />

soddisfacente o se é necessario introdurre altri termini (correzioni) al modello per avere una<br />

descrizione più adeguata. Allo stesso tempo lo sperimentatore vuole ricavare i migliori parametri<br />

dato che spesso questi hanno significati fisici rilevanti.<br />

Nel seguito descriviamo un metodo che permette di affrontare e risolvere entrambi i problemi.<br />

Chiamiamo questo procedimento fit, parola inglese che traduciamo con “adattamento”, intendendo<br />

il fatto che vogliamo adattare al meglio il modello ai nostri dati.<br />

(3.5.2) Ipotesi di lavoro<br />

Descriviamo questo metodo restringendoci al caso in cui sono verificate alcune ipotesi che ora<br />

elenchiamo e che vedremo entrare in gioco nei vari passaggi della descrizione del metodo. Le<br />

ipotesi che facciamo in realtà non sono molto restrittive, nel senso che si applicano ad una vasta<br />

categoria di situazioni. Vediamole:<br />

2<br />

le misure della variabili y provengono da popolazioni tutte gaussiane di varianze σ ;<br />

i<br />

le misure della variabile x provengono da popolazioni qualsiasi, ma le loro deviazioni standard<br />

sono “trascurabili” rispetto alle corrispondenti per le y; qui occorre fare attenzione circa il senso di<br />

questa affermazione. Infatti per trascurabile intendiamo che l’incertezza di x “propagata” su y sia<br />

molto minore dell’incertezza di y. Se y(x) é la funzione questo vuol dire<br />

dy<br />

σ ( x)<br />


Fig.3.2 Lo stesso punto sperimentale con σ y =0.5 e σ x =0.1 in 2 situazioni diverse: in un caso la dipendenza tra<br />

le 2 variabili nell’intorno del punto é espressa come y=x (dy/dx=1) nell’altro caso come y=7x (dy/dx=7). Le<br />

frecce tratteggiate indicano il contributo dell’incertezza sulle x all’incertezza sulle y. Nel primo caso dunque<br />

l’ipotesi descritta nel testo é verificata nel secondo chiaramente no.<br />

Come si vede, le ipotesi sono abbastanza generali. Si noti che l’ultima ipotesi, quella<br />

dell’andamento rettilineo, vale anche quando l’andamento non é direttamente rettilineo, ma può<br />

essere “linearizzato”, cioè reso rettilineo con un semplice cambio di variabili. E’ il caso del grafico<br />

T -√m nella molla, il grafico t 2 – s nel caso del volano scarico ed infine tutti i casi in cui<br />

l’andamento atteso é esponenziale si prende in considerazione la carta semilogaritmica.<br />

(3.5.3) Il fit: derivazione delle formule per le stime dei parametri<br />

Utilizziamo il principio di massima verosimiglianza che abbiamo formulato nel par.(3.1.3). A tale<br />

scopo dobbiamo costruire la funzione di verosimiglianza, cioè la densità di probabilità congiunta<br />

delle y, dato il modello e i parametri m e c della retta. Osserviamo a questo scopo che essendo le N<br />

misure di y indipendenti, la densità di probabilità congiunta delle y può essere espressa come il<br />

prodotto delle densità di probabilità di ciascuna misura. Utilizzando le ipotesi fatte di gaussianità<br />

delle y si ha:<br />

2<br />

N<br />

N 1 ⎛ ( y − mx − c)<br />

⎞<br />

i<br />

i<br />

L(<br />

y / m,<br />

c)<br />

= ∏ f ( y / m,<br />

c)<br />

= ∏ exp⎜<br />

−<br />

⎟<br />

i<br />

i= 1 i=<br />

1<br />

2<br />

2πσ<br />

i ⎝ 2σ<br />

i ⎠<br />

cioè la densità di probabilità congiunta (che abbiamo indicato con L da likelihood) é il prodotto di<br />

2<br />

densità di probabilità gaussiane, ciascuna con valore atteso dato dal modello (mx i +c) e varianze σ .<br />

i<br />

Trattiamo le x i come fossero delle costanti, in base alle ipotesi fatte.<br />

Il principio di massima verosimiglianza ci dice che le migliori stime di m e di c sono quelle per cui<br />

L é massima. Per affrontare in modo più semplice la matematica del problema procediamo con un<br />

semplice artificio. Prendendo il logaritmo naturale di L otteniamo una nuova funzione<br />

l = ln(L)<br />

che tuttavia, date le proprietà di monotonia della funzione logaritmo assumerà il massimo in<br />

corrispondenza degli stessi valori di m e di c che massimizzano L. Calcoliamo dunque l<br />

105


1 N<br />

N<br />

2<br />

( yi<br />

l = − ∑ln(2πσ<br />

) − ∑<br />

i<br />

i= 1 i=<br />

1<br />

2<br />

−mx<br />

−c)<br />

i<br />

2<br />

2σ<br />

i<br />

Dal momento che sono interessato a calcolare il massimo rispetto ad m e a c, osservo subito che il<br />

primo termine é costante rispetto ad m e a c, e dunque posso non considerarlo. Rimane da<br />

massimizzare<br />

2<br />

1 N ( y − mx − c)<br />

i<br />

i<br />

l = − ∑<br />

i=<br />

1<br />

2<br />

2 σ<br />

i<br />

ovvero da minimizzare (cambio segno e tolgo l’1/2 che di nuovo non cambia il massimo della<br />

funzione) la quantità<br />

2<br />

( y − mx − c)<br />

= ∑<br />

N<br />

i<br />

i<br />

χ<br />

i=<br />

1<br />

2<br />

σ<br />

i<br />

2<br />

2<br />

Ho chiamato χ la quantità da minimizzare non per caso. Infatti, nel caso in cui le ipotesi fatte<br />

2<br />

sono tutte verificate, essa risponde proprio alla definizione di variabile χ data a suo tempo, come<br />

somma di variabili gaussiane standardizzate.<br />

Per minimizzare, procediamo nel modo standard: poniamo uguale a 0 le derivate prime della<br />

2<br />

2<br />

funzione χ rispetto ad m e a c. Si noti come la funzione χ è una funzione di m e di c a questo<br />

punto mentre i valori sperimentali y i e x i sono diventati delle costanti fissate. Dovrò quindi cercare<br />

quei valori di m e di c che risolvono il sistema lineare dato da:<br />

2<br />

∂χ<br />

∂m<br />

2<br />

∂χ<br />

∂c<br />

= 0<br />

= 0<br />

Svolgiamo le derivate. Cominciamo dalla derivata parziale rispetto ad m. Ricordiamo che nel fare la<br />

derivata parziale rispetto a m si deve pensare c come una costante.<br />

2<br />

2<br />

∂χ<br />

∂ ⎛ N ( y − mx − c)<br />

⎞ N − x 2( y − mx − c)<br />

i<br />

i<br />

i i<br />

i<br />

= ⎜ ∑<br />

⎟ = ∑<br />

=<br />

i=<br />

1<br />

2<br />

i=<br />

1<br />

2<br />

∂m<br />

∂m<br />

⎝ σ ⎠ σ<br />

i<br />

i<br />

2<br />

⎛ N x y<br />

N x<br />

N x ⎞<br />

N<br />

i i<br />

i<br />

i<br />

2<br />

1<br />

− 2⎜<br />

∑ − m∑<br />

− c∑<br />

⎟ = −2( xy − mx − cx)∑<br />

i=<br />

1<br />

2<br />

i= 1<br />

2<br />

i=<br />

1<br />

2<br />

i=<br />

1<br />

2<br />

⎝ σ σ σ<br />

i<br />

i<br />

i ⎠<br />

σ<br />

i<br />

nell’ultimo passaggio ho definito le medie “pesate” sia del prodotto xy che di x ed ho messo in<br />

evidenza la somma dei pesi (che come sappiamo dal precedente paragrafo ha il significato di<br />

inverso della varianza della media pesata. Poiché il risultato della derivata va uguagliato a 0 posso<br />

togliere il –2 e la sommatoria dei pesi che sono indipendenti da m e da c. Pertanto la prima<br />

equazione cui siamo pervenuti é del tipo:<br />

2<br />

m x + cx = xy<br />

Procediamo ora con la seconda derivata, rispetto a c con m costante:<br />

2<br />

106


2<br />

∂χ<br />

∂ ⎛ N ( y − mx<br />

i<br />

i<br />

= ⎜ ∑<br />

i=<br />

1<br />

2<br />

∂c<br />

∂c<br />

⎝ σ<br />

i<br />

⎛ N y<br />

N x<br />

N<br />

i<br />

i<br />

− 2⎜ ∑ − m∑ − c∑<br />

⎝<br />

σ<br />

σ<br />

i= 1<br />

2<br />

i= 1<br />

2<br />

i=<br />

1<br />

i<br />

i<br />

− c)<br />

i<br />

2<br />

⎞ N − 2( y − mx<br />

i<br />

i<br />

⎟ = ∑<br />

i=<br />

1<br />

2<br />

⎠ σ<br />

i<br />

− c)<br />

=<br />

1 ⎞<br />

N 1<br />

⎟ = −2( y − mx − c)∑<br />

2<br />

i=<br />

1<br />

2<br />

σ ⎠ σ<br />

da cui ricaviamo, sempre uguagliando a 0 la derivata ed eliminando anche in questo caso i fattori<br />

comuni:<br />

m x + c =<br />

y<br />

Siamo dunque pervenuti ad un sistema lineare di 2 equazioni in 2 incognite, che riscriviamo:<br />

mx<br />

2<br />

+ cx = xy<br />

mx + c =<br />

y<br />

Risolviamo questo sistema con il metodo di Cramer. A questo scopo calcoliamo prima il<br />

determinante d della matrice dei coefficienti:<br />

2<br />

2<br />

d = x<br />

− x<br />

che ha l’ovvio significato di “varianza campionaria della variabile x”, e quindi rappresenta quanto<br />

sono “sparse” le misure di x. Nel seguito lo chiameremo “braccio di leva” e capiremo il significato<br />

molto intuitivo di questa espressione.<br />

Quindi per ricavare m e c abbiamo bisogno degli altri 2 determinanti che chiamiamo dm e dc<br />

rispettivamente:<br />

dm = xy − x y<br />

dc = x<br />

2<br />

y − xxy<br />

e procediamo a scrivere le formule risolutive (secondo il metodo di Cramer):<br />

mˆ<br />

cˆ<br />

Con queste formule abbiamo risolto il problema (b) posto all’inizio del capitolo: dato un insieme di<br />

N “punti sperimentali”, ciascuno dato dalla misura di una grandezza y in corrispondenza di un<br />

valore della grandezza x, nelle ipotesi fatte, le migliori stime dei parametri m e di c che descrivono<br />

il supposto andamento rettilineo di y in funzione di x, sono date dalle formule sopra ricavate.<br />

Operativamente si tratterà quindi di calcolare le medie (pesate con gli inversi delle varianze delle<br />

singole misure) delle x delle y dei prodotti xy e dei quadrati delle x. Dalla combinazione di tale<br />

medie otteniamo le stime di m e di c.<br />

Prima di procedere al calcolo delle varianze di queste stime, facciamo alcune considerazioni sulle<br />

formule ricavate.<br />

Ricordando la definizione di varianza e covarianza campionaria, osserviamo che la stima di m si<br />

puo’ scrivere nella forma:<br />

m ˆ =<br />

xy − x y<br />

=<br />

2<br />

2<br />

x − x<br />

2<br />

x y − x xy<br />

=<br />

2<br />

2<br />

x − x<br />

cov( x,<br />

y)<br />

Var(<br />

x)<br />

dunque m é strettamente legato alla correlazione tra le 2 grandezze. Il caso di non correlazione<br />

corrisponde all’essere m=0 (è il caso visualizzabile come la “palla” secondo la discussione della<br />

correlazione che abbiamo fatto). Inoltre il segno di m é legato al segno della covarianza tra y e x<br />

(essendo la varianza di x definita positiva). Come abbiamo visto negli esempi dati per la<br />

i<br />

107


correlazione, covarianze positive e negative identificano pendenze positive e negative. Si noti<br />

tuttavia che cov( x , y)<br />

e Var (x)<br />

in questo caso indicano rispettivamente covarianza tra le variabili e<br />

varianza delle x (il “braccio di leva”) e non covarianza delle incertezze o incertezza sulla x.<br />

La formula di c é meno intuitiva di quella di m. Diventa intuitiva nel caso in cui x = 0. Infatti<br />

in tal caso c = y. Si tratta del caso in cui i punti sono distribuiti sull’asse x in modo che tanti sono<br />

a destra quanti sono a sinistra (il baricentro dei punti é a 0). In tal caso evidentemente l’intercetta<br />

all’origine c diventa la media pesata delle y.<br />

Notiamo che in tutte le formule compaiono medie pesate. Questo vuol dire che gli N punti non<br />

sono tutti uguali. Il fit “pesa di più” quelli che hanno incertezza minore. Nel caso in cui tutte le<br />

incertezze sulle y fossero uguali, allora le medie diventano automaticamente medie aritmetiche.<br />

Ultima osservazione. Non é necessario verificare il segno delle derivate seconde per stabilire se<br />

il risultato trovato corrisponde ad un massimo o ad un minimo (infatti per ora abbiamo solo<br />

richiesto derivate prime nulle). Infatti si dimostra (ma é ampiamente intuitivo) che il problema<br />

posto non ammette massimi. Ciò in virtù del fatto che la possibilità di allontanarsi dai punti é<br />

“illimitata”.<br />

(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza<br />

Affrontiamo ora il secondo problema altrettanto importante del primo: trovare una stima delle<br />

incertezze da attribuire alle stime trovate di m e di c.<br />

Osservando le formule trovate, notiamo che le stime di m e c, possono essere pensate come variabili<br />

casuali, funzioni a loro volta di variabili casuali. Infatti sono funzioni dei valori delle x e delle y che<br />

altro non sono che realizzazioni di grandezze che dobbiamo trattare come variabili casuali appunto.<br />

Dunque applichiamo alle 2 stime trovate il metodo della propagazione delle incertezza. Dal<br />

momento che, per le ipotesi fatte, le x hanno incertezze trascurabili, allora dovremo propagare solo<br />

le incertezze sulle y, che peraltro conosciamo. Per procedere con la formula di propagazione delle<br />

incertezze, mi manca di calcolare le derivate parziali di m e di c rispetto a ciascuna y i .<br />

∂mˆ<br />

∂y<br />

i<br />

∂cˆ<br />

∂y<br />

i<br />

∂ ⎛ xy − x y ⎞ 1 ⎛ x x<br />

i<br />

= ⎜<br />

2 ⎟ = ⎜ −<br />

2<br />

2<br />

2<br />

∂yi<br />

⎝ x − x ⎠ Var(<br />

x)<br />

⎝σ<br />

σ<br />

i<br />

i<br />

∂<br />

=<br />

∂y<br />

i<br />

⎛<br />

⎜<br />

⎝<br />

x<br />

2<br />

y − xxy<br />

x<br />

2<br />

− x<br />

2<br />

⎞<br />

⎟<br />

⎠<br />

⎞<br />

⎟<br />

⎠<br />

∑<br />

i=<br />

1<br />

2<br />

1 ⎛ x x x<br />

i<br />

= ⎜ −<br />

2<br />

2<br />

Var(<br />

x)<br />

⎝σ<br />

σ<br />

i<br />

i<br />

N<br />

⎞<br />

⎟<br />

⎠<br />

1<br />

1<br />

2<br />

σ<br />

N<br />

∑<br />

i=<br />

1<br />

i<br />

1<br />

1<br />

2<br />

σ<br />

Applico ora la formula di propagazione usando l’ipotesi di non correlazione tra le varie y. Per la m<br />

2<br />

2<br />

N ⎛ ∂mˆ<br />

⎞<br />

N ( x − x)<br />

i<br />

Var(<br />

mˆ ) = ∑ ⎜ ⎟ Var(<br />

y ) = ∑<br />

i<br />

N<br />

i=<br />

1<br />

⎝ ∂yi<br />

⎠<br />

σ ( Var(<br />

x))<br />

( ∑ 1<br />

( Var(<br />

x))<br />

1<br />

2<br />

N<br />

( ∑<br />

i=<br />

1<br />

1<br />

2 )<br />

σ<br />

in cui ho osservato che<br />

N ( x − x)<br />

i<br />

∑<br />

i=<br />

1<br />

2<br />

σ<br />

i<br />

N<br />

∑ 1<br />

2<br />

i=<br />

1 σ<br />

i<br />

2<br />

= Var(<br />

x)<br />

i<br />

2<br />

N ( x − x)<br />

i<br />

∑<br />

i=<br />

1<br />

2<br />

σ<br />

i<br />

i=<br />

1 4<br />

2<br />

2<br />

2<br />

i<br />

i=<br />

1 σ<br />

i<br />

2<br />

=<br />

( Var(<br />

x))<br />

1<br />

2<br />

N<br />

( ∑<br />

i=<br />

1<br />

i<br />

i<br />

2<br />

σ<br />

i<br />

)<br />

=<br />

Var(<br />

x)<br />

1<br />

2 )<br />

σ<br />

108


Ottengo dunque per la varianza di m<br />

Var(<br />

mˆ )<br />

1<br />

=<br />

N<br />

Var(<br />

x)<br />

∑<br />

i=<br />

1<br />

1<br />

2<br />

σ<br />

i<br />

Si noti che nel caso in cui tutte le varianze degli N valori di y siano uguali, la formula si semplifica<br />

ed assume una forma più “familiare”:<br />

Var(<br />

mˆ ) =<br />

2<br />

σ<br />

NVar(<br />

x)<br />

cioè la varianza di m va come 1/N e quindi l’incertezza su m va pure come l’inverso della radice di<br />

N.<br />

Passo ora alla varianza della stima di c.<br />

2<br />

2<br />

2<br />

N ⎛ ∂cˆ<br />

⎞<br />

N ( x − x x)<br />

i<br />

Var( cˆ)<br />

= ∑ ⎜ ⎟ Var(<br />

y ) = ∑<br />

i<br />

N<br />

i=<br />

1<br />

i=<br />

4<br />

2<br />

⎝ ∂yi<br />

⎠<br />

σ ( Var(<br />

x))<br />

( ∑ 1<br />

2 2<br />

2<br />

2<br />

N ( x − x + x − x x)<br />

i<br />

∑<br />

N<br />

i=<br />

2<br />

2<br />

σ ( Var(<br />

x))<br />

( ∑ 1<br />

2 )<br />

i<br />

i=<br />

1 σ<br />

1 2<br />

N 1<br />

∑ N<br />

σ ( ∑ 1<br />

i=<br />

1 2<br />

2<br />

2<br />

i<br />

i=<br />

1 σ<br />

i<br />

N 1<br />

∑ N<br />

i=<br />

1 2<br />

σ ( ∑ 1<br />

2 )<br />

i<br />

i=<br />

1 σ<br />

i<br />

)<br />

2<br />

⎛<br />

⎜1+<br />

⎝<br />

i<br />

( x − x )<br />

x<br />

i<br />

Var(<br />

x)<br />

N 1<br />

= ∑ N<br />

i=<br />

1 2<br />

σ ( ∑ 1<br />

2 )<br />

i<br />

i=<br />

1 σ<br />

⎞<br />

⎟<br />

⎠<br />

=<br />

( x − x ) 2 ( x − x )<br />

⎛<br />

i<br />

⎜<br />

1+<br />

2x<br />

+ x<br />

⎝ Var(<br />

x)<br />

1 2<br />

2<br />

i<br />

i=<br />

1 σ<br />

i<br />

2<br />

Var(<br />

x)<br />

i<br />

i<br />

2<br />

⎛ x<br />

⎜<br />

⎝<br />

2<br />

2<br />

2<br />

⎞<br />

⎟<br />

=<br />

⎠<br />

2<br />

σ<br />

i<br />

)<br />

=<br />

2 2<br />

− x + x − xi<br />

Var(<br />

x)<br />

x ⎞<br />

⎟<br />

⎠<br />

2<br />

=<br />

Arrivati a questo punto spezzo in tre termini l’espressione in parentesi e opero la sommatoria,<br />

osservando che il secondo termine dà un contributo nullo:<br />

2<br />

1<br />

x<br />

Var( cˆ)<br />

=<br />

N +<br />

N =<br />

N<br />

( ∑ 1 ) Var(<br />

x)(<br />

∑ 1<br />

2 ) ( ∑<br />

i=<br />

1 σ<br />

i=<br />

1 σ<br />

i=<br />

1<br />

da cui<br />

Var( cˆ)<br />

=<br />

N<br />

i<br />

2<br />

1 ⎛ x<br />

⎜1<br />

+<br />

1 ) ⎝ Var(<br />

2<br />

σ<br />

2<br />

x<br />

x<br />

Var(<br />

x)(<br />

∑<br />

2<br />

i=<br />

1<br />

1<br />

2 )<br />

σ<br />

i<br />

i<br />

che costituisce la formula cercata. Si noti nel caso di varianze tutte uguali, l’espressione diventa:<br />

2<br />

2<br />

⎛ x ⎞σ<br />

Var( cˆ)<br />

= ⎜ ⎟<br />

⎝Var(<br />

x)<br />

⎠ N<br />

in cui, come nel caso della varianza di m, compare il termine σ 2 /N che caratterizza la “scala”<br />

dell’incertezza sui parametri.<br />

Facciamo alcune osservazioni sulle formule trovate per Var(m) e Var(c).<br />

i<br />

⎞<br />

⎟<br />

) ⎠<br />

109


Abbiamo già visto come in ambedue le formule compare il termine σ 2 /N. Questo implica che<br />

aumentare il numero di punti e diminuire l’incertezza sui punti, migliora la nostra conoscenza di m<br />

e di c (sarebbe strano se fosse vero il contrario).<br />

In entrambi i casi la varianza va come l’inverso di Var(x). Quindi aumentare il “braccio di leva”<br />

cioé lo sparpagliamento delle misure in x é un altro fattore di miglioramento del fit.<br />

Nel caso di Var(c) compare anche la media dei quadrati delle x, che é una misura di “dove” si<br />

trovano i punti, rispetto all’origine dell’asse X (notiamo che x 2<br />

è il momento secondo intorno<br />

all’origine), mentre in Var(m) questo termine non compare. Ciò significa che mentre l’incertezza su<br />

m non dipende dalla scelta dell’origine dell’asse X (è, potremmo dire, invariante per traslazioni),<br />

l’incertezza su c vi dipende fortemente e diventa minima quando l’origine dell’asse X corrisponde<br />

al baricentro dei punti. Ciò ha un significato intuitivo illustrato in Fig.3.3. Più lontano é l’asse Y dai<br />

punti, più grande é l’estrapolazione che devo fare per determinare c.<br />

Da quanto detto si può dire che in un fit, mentre m ha un significato assoluto, c dipende dalla<br />

scelta degli assi.<br />

Fig.3.3 Esempio di fit rettilineo su punti molto “lontani” dall’origine dell’asse x. Si noti come<br />

l’indeterminazione sul coefficiente angolare m si ripercuota direttamente sull’indeterminazione<br />

dell’intercetta c.<br />

Da ultimo osserviamo che m e c sono ricavati a partire dagli stessi dati, e sono pertanto delle<br />

funzioni delle stesse grandezze misurate. Quindi anche se, come nelle ipotesi fatte, le y sono tutte<br />

indipendenti, in generale m e c sono correlate. Per calcolare la covarianza tra m e c, occorre<br />

utilizzare la formula della propagazione per più funzioni che non abbiamo trattato. Dunque diamo<br />

direttamente la formula.<br />

110


cov( mˆ , cˆ)<br />

x<br />

−<br />

Var(<br />

x)(<br />

∑<br />

=<br />

N<br />

i=<br />

1<br />

1<br />

2 )<br />

σ<br />

che diventa, nel caso di varianze sulle y tutte uguali:<br />

2<br />

x σ<br />

cov( mˆ , cˆ)<br />

= −<br />

Var(<br />

x)<br />

N<br />

i<br />

in cui di nuovo compare il termine σ 2 /N e si ha la dipendenza inversa dal “braccio di leva”. Si noti<br />

come tale covarianza sia nulla solo nel caso in cui la media pesata delle x dei punti sia 0. Ovvero<br />

quando l’origine dell’asse X é scelta in modo da farla coincidere con il baricentro dei punti. Nel<br />

caso illustrato in Fig.3.3 tale covarianza é evidentemente diversa da 0, infatti un cambiamento di m<br />

si riflette chiaramente in un cambiamento di c. Ma se in quell’esempio traslassimo l’asse y di circa<br />

16 unità di X facendo combaciare l’origine con il baricentro, la covarianza sarebbe nulla.<br />

(3.5.5) Valutazione della bontà del fit: test del χ 2 .<br />

Finora abbiamo utilizzato il metodo della massima verosimiglianza per rispondere solo alla<br />

domanda (b), cioè abbiamo calcolato le migliori stime dei parametri della retta, ed abbiamo stimato<br />

le varianze di tali stime. Ora vogliamo porci il problema (a). Quanto bene l’andamento rettilineo<br />

“descrive” i dati ?<br />

In Fig.3.4 sono riportati alcuni esempi di confronto tra i dati e la migliore retta ottenuta con il<br />

metodo appena descritto. Possiamo individuare 4 casi differenti tutti illustrati nella figura. I dati<br />

sono rappresentati come punti nel piano y-x corredati da barra di incertezza esclusivamente sulla y<br />

dato che abbiamo supposto trascurabili le incertezze sulle x.<br />

Caso (1): i punti mostrano un andamento rettilineo ma le incertezze sono molto piccole per cui i<br />

punti scartano dalla retta per “molte deviazioni standard”; il numero di deviazioni standard é<br />

calcolato come il rapporto tra lo scarto tra punto e retta e la deviazione standard della misura;<br />

Caso (2): i punti mostrano un andamento rettilineo ma le incertezze sono molto grandi, per cui i<br />

punti scartano dalla retta solo per “frazioni di deviazione standard”;<br />

Caso (3): i punti mostrano un andamento diverso da quello lineare. Gli scarti dei punti dalla retta<br />

hanno a loro volta un andamento;<br />

Caso (4): i punti mostrano un andamento rettilineo con le incertezze tali per cui i punti scartano per<br />

“frazioni di deviazione standard” o al piu’ per “qualche deviazione standard”;.<br />

Per rendere quantitativa questa discussione chiamiamo residuo lo scarto punto retta:<br />

res<br />

i<br />

=<br />

y<br />

i<br />

− mx ˆ<br />

i<br />

− cˆ<br />

In Fig.3.5 sono mostrati per gli stessi 4 esempi della precedente figura gli andamenti dei residui in<br />

funzione di x corredati con la stessa incertezza della y. Si osserva in modo più chiaro quanto detto<br />

sopra.<br />

Concludiamo che: nei casi (1) e (2) l’andamento rettilineo é ragionevole, ma sono mal stimate le<br />

incertezze dei punti. In verità nel caso (1) potrebbero anche esserci effetti tali da dare un andamento<br />

molto irregolare ma ciò é molto inverosimile. Nel primo caso la media del modulo dei residui é<br />

molto maggiore e nel secondo molto minore delle singole σ stimate dai dati. Nel caso (3) occorre<br />

prendere in considerazione un andamento diverso da quello lineare. L’andamento dei residui può<br />

essere sintomo di “nuova fisica” cioè di effetti nuovi che il modello non spiega, oppure di effetti<br />

strumentali non capiti. Infine il caso (4) é quello “buono”, cioè l’andamento é rettilineo e le<br />

incertezze sono ben stimate.<br />

111


Fig.3.4. Sono i 4 casi di fit rettilineo descritti nel testo. Nei riquadri sono riportati per ogni fit il valore<br />

del χ 2 , di N-2 e dei 2 parametri della retta, rispettivamente c ed m ottenuti dal fit.<br />

Per rendere quantitativo il giudizio per ora solo visivo (che peraltro é molto più potente di qualsiasi<br />

test di ipotesi immaginabile), dobbiamo procedere come per i test di ipotesi che abbiamo visto:<br />

dobbiamo costruire una statistica campionaria funzione dei dati, tale che se il modello é valido e se<br />

le incertezze sono correttamente stimate, questa sia caratterizzata da una certa funzione di<br />

distribuzione nota. Sulla base delle ipotesi fatte (popolazioni gaussiane per le y e y indipendenti),<br />

la variabile<br />

N ( yi<br />

∑<br />

i=<br />

1<br />

− mx ˆ<br />

i<br />

2<br />

σ<br />

i<br />

− cˆ)<br />

2<br />

112


Fig.3.5. Andamento dei residui per i 4 casi di fit rappresentati in Fig.3.4. Le barre di incertezza riportate<br />

sono quelle della variabile in ordinata.<br />

è una variabile χ 2 . Si tratta della variabile che abbiamo minimizzato. Essa é la somma dei quadrati<br />

dei residui normalizzati alla varianza, in altri termini la somma dei quadrati del “numero di<br />

deviazioni standard” di ciascun punto. E’ qualcosa quindi che ci dice proprio quanto i punti<br />

scartano dalla retta in termini delle loro deviazioni standard.<br />

Il numero di gradi di libertà di questa variabile non é N ma é N-2. Infatti m e c sono stati stimati<br />

dai dati e pertanto in questo abbiamo perso 2 gradi di libertà. E’ come se 2 dei dati siano utilizzati<br />

due volte e dunque non contano nella somma.<br />

Pertanto il test consiste nel calcolare il valore di questa variabile e poi confrontarlo con le tabelle<br />

del χ 2 . Ricordiamo che il valore atteso della variabile χ 2 é pari al numero di gradi di libertà, cioè N-<br />

2 in questo caso. Dunque valori molto diversi da questo indicano già un problema.<br />

Consideriamo i 4 casi enunciati, per ciascuno dei quali i valori del χ 2 corrispondenti sono indicati<br />

nei riquadri di Fig.3.4 e in ogni caso é N-2=10-2=8.<br />

113


Fig.3.6 Fit parabolico a 3 parametri liberi per gli stessi dati del caso (3) rappresentato nelle Fig. 3.4 e 3.5. Il<br />

riquadro mostra oltre a χ 2 e N-3=7, i valori ottenuti dal fit per i 3 parametri della parabola a, b e c<br />

(y=a+b*x+c*x**2). Nel grafico di sotto é mostrato l’andamento dei residui per questo nuovo fit.<br />

Caso (1). Qui ci aspettiamo di trovare un valore molto grande del χ 2 . Infatti i residui valgono molte<br />

deviazioni standard, e dunque la funzione sopra scritta assumerà valori molto maggiori di N-2,<br />

essendo ciascun termine della somma >> 1. In effetti il valore ottenuto é quasi 90 (>> 8)<br />

Caso (2). Qui l’opposto. χ 2


fare il test del χ 2 , e, in caso di disaccordo, tentare strade alternative. Ad esempio un polinomio di<br />

grado superiore al primo. La Fig.3.6 mostra il caso (3) con un fit parabolico. Si nota che il fit va<br />

molto meglio, il χ 2 si é ridotto da 100 a 19 (contro N-3=10-3=7 perché ora il fit ha 3 parametri e<br />

non più 2). Il grafico dei residui mostra un andamento migliore del precedente. Tuttavia ancora<br />

forse si può vedere una dipendenza residua che potrebbe essere dovuta ad altri effetti ancora non<br />

presi in considerazione con il fit parabolico.<br />

Fig.3.7 Esempio di fit in cui un andamento chiaramente non rettilineo viene mascherato da un buon χ 2 in<br />

virtù del fatto che le incertezze sono sovrastimate. Questo esempio mostra chiaramente che il test del χ 2 non<br />

va mai fatto senza ispezionare visivamente il grafico.<br />

Resta da chiarire con che criterio decidiamo che un χ 2 é buono o cattivo. Il procedimento é quello<br />

dei test di ipotesi. Detto χ 2 m il valore misurato, prendo le tabelle e calcolo<br />

2<br />

2<br />

P(<br />

χ > χ m<br />

)<br />

In questo caso essendo la statistica campionaria definita positiva, occorre considerare una sola<br />

coda. A questo punto possiamo mettere una soglia al valore di accettazione: per esempio, se questa<br />

probabilità é maggiore del 5% accetto l’ipotesi, in caso contrario la rigetto. In questo modo rigetto<br />

senz’altro il caso (1) ed il caso (3) nel caso di fit rettilineo. Invece accetto con altissima probabilità<br />

(il 98-99% o oltre) il caso (2). Questo però é un problema. Infatti come abbiamo visto il caso (2)<br />

115


significa che abbiamo sovrastimato le incertezze. Dunque quando la probabilità del χ 2 é molto alta<br />

é un campanello d’allarme per le incertezze. Quindi prima di concludere qualcosa riguardo<br />

l’andamento occorrerà tentare di stimare meglio le incertezze.<br />

Infine nel caso (4) il valore della probabilità del χ 2 é intorno al 50% ed infatti l’andamento é<br />

giusto.<br />

Concludiamo questa discussione insistendo sul fatto che in ogni caso il valore del χ 2 da solo non é<br />

in generale sufficiente per capire effettivamente se l’andamento proposto é corretto o no, ma<br />

occorre sempre ispezionare il grafico ed in particolare l’andamento dei residui. La fig.3.7 mostra<br />

un caso in cui pur avendosi un χ 2 buono un andamento rettilineo in realtà non descrive bene i dati.<br />

E’ un caso in cui una sovrastima delle incertezze “maschera” un andamento diverso da quello<br />

lineare “inventando” un buon χ 2 .<br />

(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti<br />

Un caso particolare si ha quando l’ipotesi che deve essere testata é quella dell’assenza di un<br />

qualsiasi andamento. Questo corrisponde, secondo quanto abbiamo detto, ad effettuare un fit con<br />

una funzione del tipo<br />

y = c<br />

in cui c é evidentemente l’unico parametro da determinare. Si noti come nel caso in questione la<br />

variabile indipendente x cessa di avere un qualunque ruolo. Infatti a questo punto il χ 2 sarà dato<br />

da:<br />

χ<br />

−<br />

= ∑<br />

N<br />

2<br />

2<br />

( y i<br />

c)<br />

i=<br />

1<br />

2<br />

σ<br />

i<br />

derivando rispetto a c e uguagliando a 0 si ottiene:<br />

2<br />

∂χ<br />

∂<br />

= −2<br />

N<br />

( y − c)<br />

i<br />

i<br />

∑ = −2∑ + 2c<br />

2<br />

2 ∑<br />

c i= 1 σ<br />

i<br />

i= 1 σ<br />

i i=<br />

1<br />

da cui:<br />

cˆ<br />

N<br />

∑<br />

i=<br />

1<br />

= N<br />

∑<br />

i=<br />

1<br />

y i<br />

2<br />

σ<br />

i<br />

1<br />

2<br />

σ<br />

i<br />

N<br />

y<br />

N<br />

1<br />

σ<br />

2<br />

i<br />

che costituisce l’estensione della formula della media pesata al caso di N misure. Quanto visto<br />

costituisce dunque una dimostrazione della formula della media pesata data nel paragrafo<br />

precedente.<br />

Il valore del χ 2 in questo caso ci permette di valutare la consistenza tra N misure della stessa<br />

grandezza fisica, per esempio effettuata da diversi esperimenti. Dopo aver calcolato la media<br />

pesata tra le misure, sulla base del valore del χ 2 ottenuto posso testare l’ipotesi di consistenza tra le<br />

misure. Si tratta evidentemente di un χ 2 con N-1 gradi di libertà (perché in questo caso ho stimato<br />

solo c) per il quale valgono le considerazioni viste nel paragrafo precedente.<br />

Infine se l’ipotesi é accettata, posso usare la media pesata come migliore stima della grandezza. La<br />

varianza di tale stima sarà evidentemente:<br />

Var( cˆ)<br />

= N<br />

∑<br />

i=<br />

1<br />

1<br />

1<br />

2<br />

σ<br />

i<br />

= 0<br />

come si ottiene applicando la propagazione alla formula per c.<br />

(3.5.7) Il fit: come farlo operativamente<br />

Ricapitoliamo dunque brevemente quanto visto, per avere un quadro delle operazioni da fare.<br />

116


Lo schema é quello visto. I dati sono costituiti da una tabella di N misure di y in corrispondenza di<br />

N valori di x. Schematizziamo la procedura da seguire.<br />

(a) Effettuiamo il grafico y-x su carta millimetrata. Tracciando a matita una retta, valutiamo “a<br />

occhio” se la dipendenza rettilinea é corretta e possiamo dare una prima stima di m.<br />

(b) Date le incertezze sulle x e sulle y (determinate “al meglio”) ed il valore di m stimato,<br />

valutiamo se si é nella condizione di “trascurabilità” delle incertezze sulle x secondo quanto detto.<br />

(c) Calcoliamo m,c utilizzando le formule che qui riassumiamo:<br />

(d)<br />

(e)<br />

xy − x y<br />

mˆ<br />

=<br />

2<br />

2<br />

x − x<br />

2<br />

x y − xxy<br />

cˆ<br />

=<br />

2<br />

2<br />

x − x<br />

e tracciamo la retta corrispondente. Si deve osservare che la retta “fitta” bene i punti. Occorre<br />

ricordare sempre che le formule non “inventano” nulla, si limitano a tradurre ciò che noi faremmo<br />

a occhio. Può essere utile a questo punto fare il grafico dei residui in funzione di x.<br />

s(<br />

mˆ ) =<br />

s( cˆ)<br />

=<br />

Calcoliamo le incertezze su m e su c secondo le formule che riassumiamo:<br />

1<br />

Var(<br />

x)<br />

∑ ⎜<br />

⎛<br />

⎝<br />

2<br />

x<br />

Var(<br />

x)<br />

∑ ⎜<br />

⎛<br />

⎝<br />

1<br />

2<br />

σ<br />

i<br />

⎟<br />

⎞<br />

⎠<br />

→<br />

→<br />

1<br />

2<br />

σ ⎟<br />

⎞<br />

i ⎠<br />

1<br />

Var(<br />

x)<br />

2<br />

x<br />

Var(<br />

x)<br />

σ<br />

N<br />

σ<br />

N<br />

in cui la freccia si riferisce al caso in cui le incertezze sulle y sono tutte uguali. Se necessario si<br />

può calcolare la covarianza tra m e c secondo la formula:<br />

x<br />

cov( mˆ , cˆ)<br />

= −<br />

N<br />

Var(<br />

x)(<br />

∑<br />

i=<br />

1<br />

2<br />

x σ<br />

→ −<br />

1 Var(<br />

x)<br />

N<br />

2 )<br />

σ<br />

i<br />

Calcoliamo il χ 2 del fit e, da questo con l’ausilio delle tabelle il valore della probabilità del<br />

χ 2 . Sulla base del valore trovato, e in considerazione dell’andamento visto, traiamo una<br />

conclusione riguardo al problema di partenza e cioè se l’andamento rettilineo riproduce bene i dati.<br />

Sono riportate di seguito le tabelle della distribuzione del χ 2<br />

(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui<br />

Da ultimo esaminiamo il caso in cui non dispongo delle incertezze sulle y, cioè il caso in cui ho<br />

solo una serie di N coppie x-y. Ad un caso del genere ci si riconduce quando la stima delle<br />

incertezze sulle y si rivela poco credibile, per esempio i casi (1) e (2) sopra discussi, nei quali<br />

avevamo forti indicazioni di una sottostima (caso(1)) e di una sovrastima (caso (2)). L’andamento<br />

atteso offre comunque un metodo per stimare le incertezze sulle y. L’idea è di assumere lo scarto<br />

medio tra i punti e la retta, come misura dell’incertezza sulle mie misure di y. Posso dunque<br />

stimare la quantità:<br />

2<br />

1<br />

= ∑ N<br />

resi<br />

i=<br />

s<br />

N − 2<br />

117


Tabella della cumulativa della distribuzione del χ 2 . Ogni riga corrisponde ad un diverso numero di gradi di<br />

libertà (ngl) e le diverse colonne corrispondono a diversi valori α dell’integrale da χ 2 0 a infinito. I<br />

numeri riportati sono i valori di χ 2 0.<br />

e assumerla come stima della σ da usare nelle formule del fit (caso tutte le incertezze uguali).<br />

Tuttavia questo metodo può essere usato solo quando sono verificate alcune circostanze:<br />

é ragionevole assumere che tutte le incertezze siano uguali;<br />

non si devono osservare andamenti “sovrapposti” a quello rettilineo (quindi lo si può applicare<br />

al caso (1) ma non al caso (3));<br />

non si può poi fare il test del χ 2 , infatti la definizione di s appena data, corrisponde a trovare<br />

quel valore di σ per cui il fit ha un χ 2 =N-2.<br />

Si tratta in definitiva di un metodo per trovare i parametri del fit, con incertezze ragionevoli,<br />

quando sono certo che l’andamento rettilineo sia giusto. In sostanza uso l’andamento come<br />

riferimento , come insiemi di valori veri.<br />

118


119


Esercizi relativi al Capitolo (3)<br />

3.1) Un brillante sperimentatore giapponese sostiene di aver scoperto che alla latitudine di Tokyo<br />

l’accelerazione di gravità g dipende dalla temperatura dell’atmosfera. I suoi dati sono:<br />

g (m/s 2 ) T ( o C)<br />

9.8081 0<br />

9.8116 3<br />

9.8095 6<br />

9.8130 9<br />

9.8183 12<br />

9.8117 15<br />

9.8171 18<br />

9.8241 21<br />

9.8184 24<br />

9.8205 27<br />

9.8263 30<br />

L’incertezza che lui fornisce per g é di 0.0025 m/s 2 mentre la temperatura é per ogni misura fissata<br />

con una precisione di 10 -4 o C.<br />

1) È corretta la conclusione dello sperimentatore giapponese ?<br />

2) Il metodo dello sperimentatore giapponese consiste nel misurare l’allungamento di una molla di<br />

costante di elasticità K nota, quando ad essa é stato appeso un peso noto e ripetendo la misura a<br />

diverse temperature. Quale effetto strumentale potrebbe simulare il fenomeno osservato ?<br />

3.2) Con un rivelatore di raggi cosmici di superficie sensibile 10 m x 10 m conto 121 eventi in 1<br />

ora. Il flusso medio di raggi cosmici a quella latitudine atteso su quel rivelatore é φ(R.C.) = (2.01 ±<br />

0.01) x 10 -4 / m 2 s<br />

Da informazioni indipendenti so che in quell’ora c’è stata l’esplosione di una supernova. Posso dire<br />

che l’ho osservata anch’io ?<br />

3.3) Considero uno strumento che fa misure di lunghezza. Per tararlo uso delle lunghezze campione<br />

tra 0.5 e 3.0 mm date dal costruttore con una precisione di 1 μm. Ottengo la seguente tabella:<br />

Valore costruttore Valore misurato<br />

500 512.<br />

1000 1022.<br />

1500 1535.<br />

2000 2061.<br />

2500 2579.<br />

3000 3107.<br />

Quali sono le caratteristiche dello strumento (precisione, accuratezza, errore sistematico) ?<br />

Leggo 2284 sullo strumento. Qual è la migliore stima del valore vero ?<br />

3.4) Nel 2000 i dati sulla variabile R erano:<br />

Esperimento Valore pubblicato<br />

KteV 2.80±0.30<br />

NA48 1.85± 0.45<br />

NA31 2.30± 0.65<br />

120


E731 0.74± 0.52<br />

In cui ciascun esperimento ha fornito l’incertezza assumendo per R una distribuzione gaussiana.<br />

Posso dire che gli esperimenti sono complessivamente in accordo ?<br />

3.5) In una ripetizione dell'esperimento di Joule uso un motorino dalla potenza di 10.0 ±0.1 W che<br />

aziona un mulinello inserito in un recipiente contenente un fluido di capacità termica C=3.41 ± 0.01<br />

cal/K. Tenendo il motorino in funzione per un tempo Δ t registro la variazione di temperatura<br />

all'interno del fluido. Ripeto la misura per diversi valori di Δ t e ogni volta riporto la temperatura al<br />

valore ambiente T=21 o . In tabella sono dati i risultati.<br />

Δt<br />

T-21 o<br />

10 7.1<br />

20 13.9<br />

30 21.3<br />

40 28.3<br />

50 34.9<br />

60 41.6<br />

Il sensore di temperatura fornisce un valore con una incertezza di 0.5 o , l'incertezza sull'intervallo<br />

dei tempi é trascurabile.<br />

Determinare l'equivalente meccanico della caloria. Discutere il risultato<br />

ottenuto.<br />

3.6) Un ricercatore sostiene che nel suo laboratorio la radioattività ambientale dipende linearmente<br />

dalla umidità relativa h. A sostegno di tale tesi porta i seguenti dati:<br />

N(conteggi) h(%)<br />

118 42<br />

134 48<br />

121 51<br />

181 58<br />

156 63<br />

Tutte le misure sono state fatte contando con lo stesso rivelatore in 1 ora di tempo (usando un<br />

cronometro manuale aventi 1 s come ultimo digit), con l’eccezione della quarta misura che, per<br />

distrazione, lo sperimentatore ha fatto andare avanti fino a 1h 18min e 24 s.<br />

Dire se i dati suffragano la tesi del ricercatore (si assuma trascurabile l’incertezza su h).<br />

3.7) Uno strumento per misure di lunghezza ha una precisione nota, gaussiana di deviazione<br />

standard σ = 24.2 μm. Lo uso per misurare la posizione assoluta di una trave portante di un<br />

grattacielo. Il giorno X ho preso un campione di 128 misure e ho trovato un valor medio di L =<br />

438.2 μm. Dopo una settimana trovo L = 426.8 μm da un campione di sole 8 misure. Ho stabilito a<br />

priori di far scattare l’allarme solo se le variazioni di tale posizione é significativa oltre il 90% di<br />

livello di probabilità. Faccio scattare l’allarme ? (assumere le 2 incertezze delle 2 misure non<br />

correlate).<br />

3.8) Per la calibrazione assoluta di una sonda di temperatura ad alta precisione, uso una cella a<br />

punto triplo (0 o C). Faccio 5 letture a tempi diversi ed ottengo i seguenti valori: 0.012, 0.015, 0.019,<br />

0.013, 0.022. Stabilire (1) se la sonda é scalibrate e (2) quale é la migliore stima della correzione da<br />

apportare.<br />

121


3.9) Ho una sorgente luminosa isotropa. Ad una distanza r dalla sorgente l’intensità é I = α / r 2 .<br />

Sapendo che ad una distanza r = (1.000 ± 0.001) m misuro I = 3.12 ± 0.13 W/m 2 s, stimare α con la<br />

sua incertezza.<br />

3.10) Un fit lineare di un grafico che riporta le velocità di allontanamento delle galassie in funzione<br />

della loro distanza dalla terra, fornisce un χ 2 di 56.2. Il grafico é fatto raggruppando le 1624 galassie<br />

note in 30 gruppi di galassie ciascun gruppo caratterizzato da distanze circa uguali, e mettendo nel<br />

grafico le velocità medie di ciascun gruppo. Discutere la bontà del fit.<br />

3.11) Per misurare l’efficienza di un rivelatore di raggi gamma invio 10000 raggi gamma sul<br />

rivelatore e vedo quante volte il rivelatore “li vede” . Ottengo 9438 ok. Stimare l’efficienza con la<br />

sua incertezza.<br />

Successivamente uso lo stesso rivelatore per misurare il flusso di raggi gamma di uguale energia ma<br />

provenienti da un’altra sorgente. In 1 h di tempo conto 318 conteggi. Quant’è il flusso in conteggi al<br />

secondo da quella sorgente ?<br />

3.12) (preso da D’Agostini) Un politico, a cui piacciono molto i sondaggi di opinione, prima e dopo<br />

un’apparizione televisiva fa effettuare delle rapide interviste telefoniche per stimare la frazione<br />

della popolazione che é in accordo con la sua linea politica. Nel primo sondaggio erano state sentite<br />

215 persone, delle quali 86 si erano dette dalla sua parte; nel secondo ottiene il consenso di 91<br />

persone su 189.<br />

La sua apparizione televisiva é servita ad aumentare la sua popolarità ?<br />

3.13) Per misurare l'indice di rifrazione di un blocco di materiale trasparente, sono stati misurati<br />

l'angolo di Brewster θ B e l'angolo limite per riflessione totale θ lim rispetto all'aria.<br />

Sono stati ottenuti i valori:<br />

θ B =55.6 o<br />

θ lim =43.1 o<br />

entrambi con una incertezza di σ(θ)=0.2 o .<br />

Sulle tavole trovo per l'indice di rifrazione del quarzo il valore n qu =1.458 mentre per quello del<br />

plexiglass il valore n pl = 1.49. Cosa si può concludere sulla natura del blocco ?<br />

3.14) Due diversi gruppi effettuano un esperimento con l’obiettivo di misurare la concentrazione di<br />

una certa sostanza nociva nella crosta terrestre. I due esperimenti (esp1 ed esp2) usano diverse<br />

tecnologie. Il primo analizza N 1 =950 campioni di roccia e rileva una deviazione standard<br />

campionaria tra le misure di s 1 =0.128 ppm. Il secondo analizza N 2 =100 campioni di roccia ma la<br />

deviazione standard campionaria che osserva tra le N 2 misure é s 2 =0.051 ppm. I due esperimenti<br />

trovano come valori medi i valori:<br />

x 1 =1.03567 ppm<br />

x 2 =1.04598 ppm<br />

Nessuno dei 2 esperimenti fornisce una stima dell’incertezza sistematica.<br />

Si chiede:<br />

(1) Quale dei 2 apparati di misura é più preciso ?<br />

(2) Quali sono gli intervalli standard e di quasi-certezza per i 2 risultati ?<br />

(3) Il modello X prevede una concentrazione di 1 ppm (perfettamente nota nell’ambito del<br />

modello). E’ ciascun risultato compatibile con questo modello ?<br />

(4) I due risultati sono tra loro compatibili ?<br />

(5) Se volessi raggiungere una incertezza standard relativa sotto l’1 permille quanto devo<br />

aumentare il numero di campioni analizzati nei 2 esperimenti ?<br />

3.15) Nel suo lavoro del 1909 sulla carica elettrica elementare, Millikan diede una prima misura<br />

della carica elettrica elementare mediando i seguenti 4 valori (in unità di 10 -19 C): 1.648 , 1.674 ,<br />

122


1.618 ,1.638. Egli tuttavia si limitò a fornire la media dei 4 valori, e non diede alcuna indicazione<br />

sulla incertezza.<br />

(a) A distanza di 94 anni, esprimiamo allora il suo risultato come intervallo di probabilità del<br />

68.3%.<br />

(b) L’attuale valore della carica dell’elettrone é : (1.602176462 ± 0.000000063)x 10 -19 C. Possiamo<br />

dire che il valore originario di Millikan sia in accordo con tale valore attuale ?<br />

3.16) In un esperimento di diffusione alla Rutherford, dopo 2 ore e 32 minuti di presa dati vengono<br />

contate 52 particelle α deflesse ad un angolo maggiore di 25 gradi dalla lamina sottile di oro.<br />

Sapendo che il “rate” di particelle α spedite sul bersaglio é di 12.4 s -1 , stimare la probabilità di<br />

avere una deflessione a più di 25 gradi per una particella α da nuclei di oro. La teoria dell’atomo di<br />

Thomson prevede che tale probabilità sia < 10 -4 . Il risultato ottenuto é compatibile con il modello di<br />

Thomson ?<br />

3.17) Diversi satelliti in orbita a diverse quote misurano l’accelerazione di gravità con una<br />

incertezza di 7 parti su 1000. Vengono raccolti i risultati nella tabella:<br />

g (m s -2 )<br />

h (km)<br />

9.806 0<br />

7.087 1124<br />

5.776 1902<br />

3.960 3597<br />

3.699 3851<br />

in cui il valore misurato a 0, si intende misurato sulla superficie terrestre.<br />

(0) Fare il grafico dell’andamento di g in funzione di h.<br />

Sapendo che:<br />

il raggio della terra é pari a R T =6360 km<br />

l’accelerazione di gravità dipende dalla distanza R dal centro della terra secondo la relazione:<br />

Gm<br />

g(<br />

R)<br />

=<br />

R<br />

T<br />

2<br />

La costante di gravitazione universale é pari a G=(6.673 ± 0.010) x 10 -11 m 3 kg -1 s -2<br />

(1) Linearizzare la relazione g=g(R) graficando g in funzione di 1 / R 2 .<br />

(2) Dal fit lineare dell’andamento ottenuto, determinare la massa della terra con la sua incertezza.<br />

(3) Valutare se la legge di gravitazione universale é in accordo con i dati.<br />

(4) Stimare la densità media della terra con la sua incertezza.<br />

123


Soluzione degli esercizi proposti.<br />

Capitolo (1)<br />

Gli esercizi della prima parte del corso richiedono essenzialmente la capacità di saper trattare i<br />

risultati delle misure. Si richiede in modo particolare la scrittura corretta dei risultati per quel che<br />

riguarda le unità di misura, le cifre significative, la notazione esponenziale. Si richiede inoltre di<br />

saper costruire semplici grafici (di andamenti o istogrammi), di saper calcolare medie e deviazioni<br />

standard da campioni e di saper fornire intervalli standard o di quasi-certezza per i risultati di<br />

misure ripetute. In parecchi esercizi si richiede infine di giudicare la bontà di certe ipotesi<br />

(consistenza tra misure o tra misure e previsioni teoriche). A questo livello del corso queste ultime<br />

questioni sono affrontate ancora in modo semi-quantitativo. Gli stessi esercizi possono essere rivisti<br />

a fine corso alla luce dei metodi di test di ipotesi che saranno trattati nel terzo capitolo.<br />

(1.1) Qui la soluzione dipende da chi fa l’esercizio. In genere si rimane sorpresi dal fatto che la<br />

propria capacità di interpolazione é migliore di quanto ci si attenda (1/4 o 1/5 di divisione<br />

sono risultati tipici).<br />

(1.2) C’è solo da applicare la definizione di deviazione standard campionaria e di riportarla alla<br />

dimensione della divisione minima (che é pari a 0.025 come si evince dalla figura).<br />

(1.3) Occorre fare attenzione alle unità di misura, agli esponenziali ed alle cifre significative.<br />

Mantenendo 2 cifre (tenerne 3 non sarebbe comunque sbagliato) si ha E=1.9x10 -16 CV =<br />

1.9x10 -16 J<br />

(1.4) La densità del fluido é pari al rapporto tra la massa del fluido (M-M 0 ) e il suo volume.<br />

Quest’ultimo é espresso in ml cioè in cm 3 e le masse sono in grammi. Quindi si tratta di fare<br />

il rapporto. Si noti solo che M-M 0 = 13.2 g (troncato al primo decimale) e dunque densità =<br />

0.213 g/cm 3 (a 3 cifre o anche a 2).<br />

(1.5) In questo esercizio l’ipotesi da fare é che ciascun gruppo di campioni sia costituito da reperti<br />

contemporanei, e che la fluttuazioni dei valori misurati sia l’effetto della precisione (meglio<br />

della imprecisione) dell’apparato di misura. I valori che si ottengono sono: media reperti A<br />

= 5346 anni e media reperti B = 5952 anni. Il confronto tra questi 2 numeri da solo<br />

evidentemente non permette di trarre alcuna conclusione. Le deviazioni standard sono 340<br />

anni per i reperti A e 180 anni per i reperti B (abbiamo usato la formula con N non con N-1<br />

ma il risultato finale non é significativamente alterato da ciò) L’anziano archeologo<br />

dovrebbe prendere le 2 medie e vedere se entro le rispettive incertezze (sulle medie che<br />

dunque sono le deviazioni standard divise per √N dove N vale 10 per i reperti A e 15 per i<br />

reperti B) sono in accordo tra di loro. Se facesse cosi’ vedrebbe la cosa seguente: età reperti<br />

A = (5.35 ±0.11)x10 3 anni e età reperti B = (5.95 ±0.05) x10 3 anni. Senza fare alcun test di<br />

ipotesi (vedi Capitolo 3) si vede che sono incompatibili. Infatti la differenza tra i 2 risultati é<br />

di 600 anni mentre le incertezze sono di 110 e 50 anni rispettivamente. L’anziano<br />

archeologo ha torto.<br />

(1.6) L’incertezza su T é del 2.5%, la metà di quella su M in virtù del fatto che T “va come la<br />

radice di M”.<br />

(1.7) Usando le definizioni date dei termini metrologici si ha: risoluzione 1 g, precisione < 1 g e<br />

accuratezza caratterizzata da un errore sistematico di 22 g. Si tratta di uno strumento preciso<br />

ma poco accurato. Sarà bene controllarne periodicamente la calibrazione.<br />

(1.8) L’intervallo di quasi-certezza é pari a 3x52μm /√100 = 16 μm (dato a 2 cifre).<br />

(1.9) Calcoliamo in primo luogo l’incertezza di misura. Si ottiene: 0.002x2.99814x10 8 /√9150 =<br />

6.3x10 3 m/s. Quindi la media delle misure per il campione di γé: (2.98814 ± 0.00006)x10 8<br />

m/s. Si tratta ora di vedere se tale valore é “significativamente diverso” dal valore noto della<br />

velocità della luce nel vuoto. La differenza é pari a 22 x10 3 m/s, che é oltre 3 volte<br />

l’incertezza sulla misura. Dunque la differenza é significativa (anche se al limite). La misura<br />

é caratterizzata dunque da un errore sistematico di (22 ± 6) x 10 3 m/s.<br />

124


(1.10) Si tratta di confrontare la frazione di persone affette da X con la sua incertezza (dovuta alla<br />

limitatezza statistica del campione) con la stessa frazione per un campione di popolazione<br />

normale anch’esso con la sua incertezza. E’ cruciale in questo genere di cose la scelta dei<br />

campioni che devono essere “omogenei” perché siano assenti altri motivi di differenza.<br />

(1.11) ΔV = 3.69x10 3 cm 3 =3.69x10 -3 m 3 ; p = 1.2x10 6 Pa. Il lavoro é dunque L = 4.4 x 10 3 J.<br />

(1.12) L’intervallo di quasi certezza su ambedue le misure ripetute a distanza di un anno é 3x52μm<br />

/√1000 = 4.9 μm cioè é 10 volte più piccolo dello spostamento osservato. Dunque lo<br />

spostamento é decisamente significativo.<br />

(1.13) Dare al meglio il risultato della misura significa indicare la media come valore centrale e la<br />

deviazione standard campionaria della media come incertezza (eventualmente moltiplicando<br />

per 3 per dare un intervallo di quasi-certezza per la media). Per la misura in questione si<br />

ottiene: (914.1 ± 0.3) mm (lo 0.3 proviene dall’aver fatto 0.32/√100=0.32). In questo caso si<br />

ha una informazione in più sull’apparato di misura. Per utilizzarla occorre però fare delle<br />

ipotesi. C’è una scalibrazione di 2.6 mm oppure di un fattore 1.0026 (scalibrazione del 2.6<br />

permille). Dobbiamo quindi scegliere se applicare la correzione “additiva” (sottraendo 2.6<br />

mm) o “moltiplicativa” (dividendo per 1.0026). In entrambi i casi stiamo ipotizzando che a<br />

914 mm la scalibrazione sia la stessa che a 1000 ( a volte alcuni strumenti possono anche<br />

avere curve di calibrazioni “bizzarre”). Facendo questa ragionevole ipotesi si ha: (911.5±<br />

0.3) mm nel primo caso e (911.7± 0.3) mm nel secondo caso. I due risultati sono<br />

praticamente indistringuibili poiché 914é vicino a 1000. Tuttavia la correzione (una delle<br />

due) é significativa (maggiore dell’incertezza) e quindi va applicata.<br />

(1.14) Sul mio atlante (del 1992) trovo: abitanti Londra = 6.378x10 6 , abitanti Roma = 2.693x10 6 .<br />

Passo alle cartine dove stimo le superfici delle 2 città approssimandole a cerchi. Diametro<br />

cerchio Londra = 60 km, diametro cerchio Roma (GRA) = 20 km. Densità Londra = 2.3x10 3<br />

abitanti / km 2 , densità Roma = 8.6x10 3 abitanti / km 2 . La differenza é significativa dal<br />

momento che l’approssimazione del calcolo (dominata dalla stima del diametro) anche fosse<br />

del 10-20% darebbe una incertezza del 20-40% circa sulla densità che rende comunque<br />

incompatibili i due risultati. Del resto per chiunque conosca le 2 città il risultato é tutt’altro<br />

che sorprendente.<br />

(1.15) Si tratta ancora di un problema di significatività che a questo punto del corso affrontiamo<br />

ancora con strumenti non rigorosi. Assumiamo che i 3 l dei recipienti siano privi di<br />

incertezza. In tal caso facendo media e deviazione standard campionaria della media delle 5<br />

misure, otteniamo una concentrazione di (21.4 ± 0.5)%. Volendo dare un intervallo di quasi<br />

certezza avremmo (21.4 ± 1.5)% che include, sebbene al bordo dell’intervallo, il valore di<br />

20% previsto. Dunque il chimico é quanto meno incauto nell’annuncio. Un fisico avrebbe<br />

ripetuto la misura un numero più consistente di volte (se ciò fosse stato possibile) altrimenti<br />

avrebbe detto che non c’era ancora una evidenza chiara dell’anomalia. E’ istruttivo vedere<br />

che la nostra analisi é come detto grossolana in un aspetto che sarà chiarito nella parte<br />

conclusiva del corso. Infatti un intervallo di questi certezza per un campione di poche<br />

misure (come le 5 in questo caso) é significativamente più largo di quello che si ottiene con<br />

il metodo qui utilizzato.<br />

(1.16) 67/√2000 = 1.5. Quindi il mio risultato é (0.1 ± 1.5)x10 -4 . Anche troppo compatibile con 0.<br />

(1.17) Qui il problema é inverso. Discriminare tra i 2 modelli significa poter misurare X con una<br />

incertezza molto minore della differenza tra i 2 valori prevista (10 -5 nel nostro caso). D’altro<br />

canto l’unico modo per diminuire la nostra incertezza é quello di mediare su un numero N<br />

sempre maggiore di misure ripetute. Dovrà essere dunque : 67x10 -4 /√N > 670 2 = 4.5x10 5 .Con<br />

il simbolo >> si intende molto maggiore. Per i nostri scopi può significare un fattore 10 (nel<br />

qual caso l’incertezza é 10 -6 e quindi non si hanno dubbi sul risultato).<br />

(1.18) Assumiamo che il cronometro apprezzi 1/10 di secondo (assunzione ragionevole dato il<br />

modo con cui é dato il valore) e che le indicazioni autostradali sono date con incertezza di<br />

125


100 m (assunzione meno ragionevole probabilmente sono date al metro). In tal caso v = 4.4<br />

km /1032.8 s = 15 km/h. Sono andato molto lento. Risultato a 2 cifre perché dominato<br />

dall’incertezza sullo spazio percorso.<br />

(1.19) 15.6x10x86400 = 13.5x10 6 km (ammesso che non si sia schiantato sulla luna che si trova a<br />

distanze tra i 0.3 e i 0.4 x10 6 km (all’incirca).<br />

(1.20) ρ(iceberg) = 1.00 x 0.9 = 0.9 g/cm 3 . Non più di una cifra.<br />

(1.21) Attenzione alle unità di misura e alle cifre significative con cui dare i risultati. a = 4.28 m/s 2<br />

= 0.436 g.<br />

(1.22) Grande gara. L’ipotesi da fare é che i 2 atleti abbiano viaggiato a velocità costante: vel(Carl<br />

Lewis) = 100/9.92 = 10.08 m/s. All’istante di tempo in cui Ben Johnson tagliava il traguardo<br />

(t = 9.79) Lewis si trovava alla posizione 10.08 x 9.79 m = 98.7 m, cioè 1.3 m dietro a Ben<br />

Johnson. Si noti che quando si hanno numeri a 3 cifre come 9.92 o 9.79 (molto prossimi a<br />

far scattare la quarta cifra) é come se avessero quattro cifre. Inoltre 100 m ha molte più cifre<br />

delle tre apparenti, essendo i 100 m della pista misurati con estrema precisione.<br />

(1.23) Media e deviazione standard campionaria sono: 6.36 s e 0.25 s rispettivamente. Per dare la<br />

migliore stima dell’intervallo di quasi-certezza su h, si può ragionare nel modo seguente:<br />

calcolo prima l’intervallo di quasi certezza per t (tempo di caduta) misurato direttamente e<br />

poi “propago” questo risultato ad h. Si ottiene: t = (6.36 ± 0.17) s. Per passare ad h si deve<br />

calcolare h e propagare l’incertezza osservando che l’incertezza su g é trascurabile e che<br />

quella relativa su t (che é l’unica a determinare l’incertezza su h) va moltiplicata per 2 dal<br />

momento che t compare al quadrato nella formula. h = (198 ± 11) m.<br />

(1.24) Per poter affermare di avere osservato un tale effetto (che avrebbe un impatto sconvolgente<br />

sulla fisica), uno dovrebbe far vedere che la carica media delle presunte cariche ½ osservate<br />

sia significativamente diversa dalla carica dell’elettrone. Poiché la carica dell’elettrone é<br />

1.602 (in unità di 10 -7 pC), l’incertezza con cui misuro questo campione deve essere molto<br />

minore della differenza tra la carica dell’elettrone e metà di questa cioè 0.8x10 -7 pC. Deve<br />

essere allora: 0.7x10 -7 /√N >1. Quindi per<br />

esempio con N=10 cariche osservate si può trarre una conclusione convincente. Giova qui<br />

ricordare che naturalmente una osservazione del genere dovrebbe essere accompagnata da<br />

molte altre misure di controllo per esempio far vedere che la misura della carica é accurata,<br />

che non ci sono errori sistematici, che non ci sono effetti che possono simulare il fenomeno.<br />

Quando il risultato é particolarmente importante, la scienza é particolarmente esigente.<br />

(1.25) Graficando i valori della radioattività in funzione del tempo si osserva facilmente che a<br />

cavallo dell’ottavo punto vi é un “gradino”. Calcolando la media e la deviazione standard<br />

dei primi 7 punti e degli ultimi 8 punti si ottengono i valori: r(8) =<br />

17.24 ±0.02 decisamente incompatibili. Dunque si ha un effetto, si tratta di capire cosa é<br />

successo in quell’ora.<br />

(1.26) Si tratta di calcolare media e deviazione standard della media dei 2 istogrammi, fare il<br />

rapporto tra le medie, valutarne l’incertezza e poi confrontare il rapporto con il valore atteso<br />

di 1.102.<br />

(1.27) Si ottiene M = ( 918 ± 6 ) g<br />

(1.28) La migliore stima della carica della particella misteriosa é ( 1.48 ± 0.02 )x10 -19 C,<br />

incompatibile con il valore noto della carica dell’elettrone.<br />

Capitolo (2)<br />

Sono esercizi di calcolo combinatorio e di calcolo delle probabilità. In generale si tratta di<br />

ricondurre il problema in esame ad un caso noto. Per fare ciò é sempre importante indicare le ipotesi<br />

che vengono fatte (se ce ne sono). Nelle soluzioni numeriche le probabilità sono date<br />

126


indifferentemente come % o come numero tra 0 e 1, e i coefficienti binomiali sono indicati come (N<br />

n) per non appesantire la notazione.<br />

(2.1) I 2 casi (con o senza reintroduzione della pallina nell’urna) sono evidentemente diversi. Nel<br />

caso con reintroduzione si hanno 5 estrazioni indipendenti, ciascuna delle quali ha una<br />

probabilità pari a 1/5. La probabilità di una data sequenza é dunque (1/5) 5 . Nel caso in cui<br />

non si reintroduce invece si ha una probabilità pari a 1/5 alla prima estrazione, poi ¼ alla<br />

seconda (si tratta della probabilità condizionata di estrarre il 2 quando alla prima estrazione<br />

é stato estratto 1), 1/3 alla terza (di nuovo probabilità condizionata di estrarre 3 quando alle<br />

prime due estrazioni sono state estratti 1 e 2) e cosi’ via. Complessivamente 1/5!.<br />

Naturalmente l’argomento vale per qualunque sequenza immaginabile.<br />

(2.2) Applichiamo il metodo combinatorio di calcolo delle probabilità. Si hanno 36 casi possibili<br />

tutti equiprobabili (se vogliamo si tratta delle disposizioni di 6 elementi in 2 caselle, 6 2 =36).<br />

Le possibili differenze hanno un intervallo di definizione tra –5 e 5. Contando per ciascuna<br />

possibile differenza il numero di casi possibili e dividendo per 36 si ha la seguente<br />

distribuzione: P(-5)=P(5)=1/36, P(-4)=P(4)=2/36, P(-3)=P(3)=3/36, P(-2)=P(2)=4/36, P(-<br />

1)=P(1)=5/36, P(0)=6/36=1/6. La probabilità di avere una differenza pari a 0 in 3 estrazioni<br />

consecutive é (1/6) 3 (i 3 lanci sono indipendenti) cioè il 0.46%.<br />

(2.3) Si tratta di una tipica applicazione del teorema di Bayes. A priori sappiamo infatti che<br />

p(D)=0.1. La prendiamo come “probabilità a priori”. Gli altri dati sono: p(+/D)=0.98 e<br />

p(+/N)=0.16. Abbiamo indicato con + la positività al test e con D e N l’essere o no affetti<br />

dalla malattia. Applichiamo il teorema di Bayes per calcolare p(D/+) dai dati che abbiamo.<br />

Naturalmente p(N)=1-p(D)=0.9. Si ottiene P(D/+)=40.5%. Come si vede la bassa incidenza<br />

della malattia sulla popolazione fa si’ che applicando a tutti il test solo il 40% dei positivi<br />

sono realmente affetti dalla malattia.<br />

(2.4) Cominciamo con lo stabilire a partire dalla tabella della gaussiana standardizzata a quanto<br />

corrispondono il 90-esimo de il 40-esimo percentile. Prendendo la tabella di pag.69 vedo<br />

che lo 0.90 si trova in corrispondenza di 1.28 mentre il 60% di 0.26 (dunque il 40%<br />

simmetrico rispetto al 60% corrisponderà a –0.26). Dunque avremo: (22.5-μ)/σ = 1.28 e<br />

(18.2-μ)/σ = -0.26. Siamo di fronte ad un sistema lineare di 2 equazioni in 2 incognite (μ e<br />

σ). Risolvendo si ottiene: μ = 18.9 kg e σ = 2.8 kg.<br />

(2.5) In un giorno mi aspetto 1.8x10 -3 x 86400 = 155 conteggi. Trattandosi di conteggi é<br />

ragionevole assumere una distribuzione poissoniana con λ = 155 per il numero di conteggi<br />

in un giorno che, dato il valore elevato di λ, posso approssimare ad una gaussiana con m =<br />

155 e s = √155 = 12. Il valore osservato é assolutamente incompatibile con la distribuzione<br />

attesa essendo (N-μ)/σ = 20. Devo preoccuparmi.<br />

(2.6) Trattiamo separatamente e indipendentemente i figli avuti prima dei 30 e dopo i 30 anni. Per<br />

i figli avuti prima dei 30, la probabilità di non essere affetto dalla sindrome X é (1-0.0012) 3<br />

= 0.996, per quelli dopo i 30 anni é (1-0.0028) 7 = 0.980. Moltiplico le 2 probabilità ed ho<br />

p(0 figli con sindrome X) = 0.977.<br />

(2.7) Occorre in primo luogo stimare la probabilità che una centrale abbia un incidente nei<br />

prossimi 100 anni. Se gli incidenti avvengono casualmente (cioè poissonianamente), con<br />

vita media 20000 anni, p(


(2.10) Problema inverso del precedente in un certo senso. Dobbiamo fare una assunzione sulle<br />

caratteristiche dell’intervallo. La cosa più naturale é assumere che sia simmetrico. Sarà<br />

ovviamente m = (150+220)/2 = 185 mg/dl. Quanto a σ, dobbiamo ricorrere alle tabelle<br />

(pag.69) dove però occorre fare attenzione al fatto che un intervallo simmetrico al 90%<br />

corrisponde ad un estremo al 95% a destra e al 5% a sinistra. Il valore in corrispondenza a<br />

95%é 1.65 e quello al 5% sarà –1.65. Pertanto s = (220-185)/1.65 = 21 mg/dl.<br />

(2.11) Si tratta di calcolare la probabilità che su 1654 voti il numero di SI sia inferiore a 1654/2 =<br />

827, sapendo che la probabilità di votare SI é del 52.67%. Nel trattare il problema in questo<br />

modo stiamo assumendo che il nostro paese sia “elettoralmente omogeneo” alla popolazione<br />

nazionale, che tutti i 1654 aventi diritto votino, che non ci siano schede bianche, e cosi’ via.<br />

Il problema é binomiale, ampiamente in limite gaussiano. Pertanto μ = Np = 1654 x 0.5267<br />

= 871.2 e σ = √Np(1-p) = 20.3. p(x < 827) = p( m < -2.17) = 1.5% (guardando la tabella di<br />

pag.69).<br />

(2.12) Il fenomeno é caratterizzato da un rate di 38.4/100 = 0.384 s -1 e da una costante di tempo τ =<br />

1/rate = 2.60 s. Usando la distribuzione dei tempi d’attesa si ha che P(t > t*) = exp(-t*/τ)<br />

cioè (t* = 10 s, τ = 2.60 s) P(t>10s) = 0.021. In un’ora il dispositivo si blocca un numero di<br />

volte dato da: rate x 3600 s x P(t > 10s) = 29.<br />

(2.13) I dati sono: P(P/C) = 90% e P(N/NC) = 90% in cui C e NC vuol dire affetto o non affetto da<br />

epatite C. Da questi deduciamo che P(N/C)=10% e P(P/NC)=10% per motivi di<br />

“normalizzazione”. Io sono interessato a sapere P(C/PNP) e P(C/PPP). Qui l’applicazione<br />

del teorema di Bayes é più complessa. Mi servono infatti in primo luogo P(PNP/C) e<br />

P(PPP/C), ma anche P(PNP/NC) e P(PPP/NC). Assumendo che i 3 test siano indipendenti,<br />

avrò: P(PNP/C) = P(P/C) 2 x P(N/C) = 0.081 e P(PPP/C) = P(P/C) 3 = 0.729, P(PNP/NC) =<br />

P(P/NC)2 x P(N/NC) = 0.009 e infine P(PPP/NC) = P(P/NC) 3 = 0.001. Applichiamo Bayes<br />

ai 2 casi e otteniamo: P(C/PNP) = 90% e P(C/PPP) = 99.86%.<br />

(2.14) Problema di calcolo combinatorio. Per ciascun ruolo si tratta di calcolare il numero di<br />

combinazioni, dal momento che non posso avere ripetizioni (far comparire più volte nella<br />

squadra lo stesso giocatore), né mi interessa in che ordine i giocatori compaiono (avere<br />

come attaccanti Totti e Vieri o Vieri e Totti é la stessa cosa). Quindi (3 1) = 3 combinazioni<br />

di portieri, (6 4) = 15 di difensori, (7 4) = 35 di centrocampisti e, infine (6 2) = 15 di<br />

attaccanti. Infine moltiplico i 4 numeri = 23625 squadre.<br />

(2.15) Lasciamo il grafico al lettore. Si ha P(1) = 1/36, P(2) = 3/36, P(3) = 5/36, P(4) = 7/36, P(5) =<br />

9/36 e P(6) = 11/36.<br />

(2.16) Problema binomiale. P(2 / N=5, p=0.5) = (5 2) (1/2) 5 = 31/2%. Le 3 sequenze sono<br />

naturalmente equiprobabili p=(1/2) 5 = 3.1%.<br />

(2.17) Per definizione di intervallo p(fuori / sano) = 0.05. Se i 3 test sono indipendenti posso<br />

calcolare P(fuori X) x P(fuori Y1 OR fuori Y2) = P(fuori X) x (P(fuori Y 1 )+P(fuori Y 2 ) –<br />

P(fuori Y 1 )xP(fuori Y 2 ))= 0.49%.<br />

(2.18) (90 15) = 4.6 x 10 16 cartelle diverse.<br />

(2.19) Trattiamo questa situazione assumendo che i parti nel paese avvengano nel tempo in modo<br />

del tutto casuale, cosi’ da poter schematizzare come poissoniano il fenomeno. Il rate di<br />

questo fenomeno é 1/7 g -1 (secondo l’esperienza pluriennale) e dunque il λ associata ad un<br />

giorno é λ = 1/7 = 0.14. Si tratta di calcolare ora P(>1, λ = 0.14) = 1 – P(0) – P(1) = 1 –<br />

exp(-λ) – λexp(-λ) = 0.0089. Dunque la probabilità é al di sotto dell’1%. L’eventualità si<br />

verificherà 3-4 volte l’anno.<br />

(2.20) Problema inverso. Essendo N = 1250 e σ(n) / n = √Nε(1-ε) / Nε = 0.02 (qui εé l’efficienza),<br />

ricavo ε girando la formula: ε = 1 / (1 + (0.02) 2 x 1250) = 0.67.<br />

(2.21) (a) NO le stelle si ammassano in galassie, le galassie in ammassi di galassie e cosi’ via. (b)<br />

NO come tutti i fenomeni periodici o quasi-periodici. (c) forse SI se si ammette che le<br />

condizioni “demografiche” e “sociali” che determinano le attitudini dei giovini siano<br />

128


costanti nel tempo. (d) forse SI a meno che non vi siano periodi di maggiore frequenza per<br />

fatti specifici.<br />

(2.22) Applichiamo il teorema di Bayes in un caso con probabilità a priori molto “disuniforme”<br />

(P(infetto) = 0.2% P(non infetto) = 99.8%) e nell’altro con probabilità a priori “uniforme”<br />

(P(infetto) = P(non infetto) = 50%). Si ottiene: (1) P(infetto / +) = 22% e (2) P(infetto / +) =<br />

99.3%.<br />

(2.23) In questo caso devo calcolare P(+++/infetto) = (P(+/infetto)) 3 = 97% assumendo i test<br />

indipendenti e P(+++/non infetto) = (P(+/non infetto) 3 = 3 x 10 -7 . Le probabilità a priori<br />

sono evidentemente le stesse e dunque si ottiene: P(infetto/+++) = 99.98%. Come si vede le<br />

cose cambiano.<br />

(2.24) Semplice problema di calcolo combinatorio. Si hanno 21 lettere (mancano I O e Q ma ci<br />

sono X Y e W) e 10 cifre. Quindi 21 2 x 10 3 x 21 2 = 2 x 10 8 targhe (200 milioni). Di queste,<br />

quelle in cui le ultime 2 lettere sono la copia delle prime 2 sono 21 2 x 10 3 . La probabilità é 1<br />

/ 21 2 = 0.22%.<br />

(2.25) Devo disporre 36 oggetti in 6 caselle ed ho la possibilità di ripetere le cifre e di mettere la<br />

stessa cifre in più caselle. Si ha: 36 6 = 2.2 x 10 9 combinazioni. Al massimo impiego per<br />

trovarla un tempo pari a 2.2 x 10 9 x 10 -3 s / 3.15 x 10 7 s = 0.070 anni, poco meno di un<br />

mese. Nel secondo caso invece il numero di combinazioni é 26 3 x 10 3 = 1.7 x 10 7 da cui il<br />

tempo massimo é meno di 5 ore.<br />

(2.26) P(>8.2) = 18%; p(3 volte > 8.2) = 0.58%.<br />

(2.27) Mi riconduco alla gaussiana standardizzata. Per i dati: m 1 = (129 – 138.2 ) / 4.58 = -2.01 e<br />

m 2 = (149 – 138.2 ) / 4.58 = 2.35 mentre per la simulazione m 1 = -2.32 e m 2 = 2.72. Dalle<br />

tabelle si ottiene nei 2 casi P(m 1 < m < m 2 ) = 0.9684 per i dati e 0.9865 per la simulazione.<br />

Si passa da una reiezione del 3.2% nei dati ad una del 1.4% nella simulazione.<br />

(2.28) Sono 24 prove e la probabilità del successo é 2.34% (se vogliamo chiamare successo il fatto<br />

di arrivare in ritardo). Uso la binomiale: P(0 successi) = (1-0.0234) 24 = 57%. Ho una<br />

probabilità del 43% di arrivare almeno una volta in ritardo.<br />

(2.29) Rate di decessi poissoniano = 1 / 62 g -1 da cui il λ per un mese (assunto medio di 30 giorni)<br />

é λ = 0.48. P(>0) = 1 – P(0) = 1 – exp(-λ) = 38%.<br />

(2.30) L’altezza H della distribuzione triangolare deve soddisfare il criterio di normalizzazione: 40<br />

x H / 2 = 1. Da ciò H = 0.05 anni -1 . La funzione a 60é per ragioni geometriche (basta<br />

disegnare la distribuzione per rendersene conto) H/2. Calcolo P(>60) = 10 x H/2 /2 = 12.5%.<br />

La probabilità che i primi 3 siano > 60é (assumendo che ogni docente sia preso a caso dal<br />

corpo docente) 0.125 3 = 0.2% molto bassa.<br />

(2.31) Classico problema binomiale. N = 5, p = 1250/2000 = 0.625. P(>2) = P(3) + P(4) + P(5) =<br />

72.4%.<br />

(2.32) Tre poissoniane indipendenti nel limite gaussiano. Per ciascuna P( 2) = 0.025. Che su 10 bin 2 e solo 2 di questi dia<br />

più di 575 costituisce di nuovo un problema binomiale con N = 10 e p = 0.025. P(2) = 2.3%.<br />

Si noti che l’assunzione iniziale di poissonianità é in realtà una approssimazione. Infatti i<br />

contenuti di ciascun bin sono distribuiti a rigore secondo una distribuzione multinomiale che<br />

può essere descritta dal prodotto di poissoniane indipendenti quando il numero di bin é<br />

abbastanza elevato.<br />

(2.34) N(N-1) = 90.<br />

(2.35) Esempio tipico in cui si applica il teorema di Bayes. Con ovvio significato dei simboli:<br />

P(D/colore) = P(colore/D) P 0 (D) / [ P(colore/D) P 0 (D) + P(colore/R) P 0 (R) ] in cui<br />

evidentemente P 0 (D) e P 0 (R) sono le probabilità a priori che incontrando una persona questa<br />

sia democratica (il 23.6%) o repubblicana (il 76.4%), P(colore/D) e P(colore/R) sono i<br />

129


isultati dei sondaggi (il 16.2% e il 2.5% rispettivamente). Mettendo i numeri si ottiene:<br />

P(D/colore) = 66.7%<br />

La probabilità che i miei sette dipendenti di colore siano tutti democratici é: [P(D/colore)] 7 =<br />

5.9%, dunque la probabilità che ce ne sia almeno uno repubblicano é 1-5.9% = 94.1%.<br />

(2.36) Trattiamo il fenomeno come poissoniano con μ = 3.24.<br />

(a) P(0) = exp(-3.24) = 3.9%<br />

(b) Il numero medio di incidenti in un anno é 3.24 x 52 = 168.5. La distribuzione é<br />

una poissoniana nel limite gaussiano con μ = 168 e σ = 13.<br />

(c) Ricorro alle tabelle della gaussiana standardizzata P(


(3.2) In quell’ora misuro un flusso di 3.36 x 10 -4 conteggi / m 2 s, con una incertezza percentuale<br />

di 1 / √121 ~9%. Dunque φ(misurato) =(3.36 ± 0.30) x 10 -4 cont / m 2 s. Testo l’ipotesi di<br />

consistenza con il valore atteso φ(R.C.) = (2.01 ± 0.01) x 10 -4 cont / m 2 s costruendo una<br />

variabile Z. Ottengo Z = 4.5: ho osservato la supernova.<br />

(3.3) Lo strumento é evidentemente caratterizzato da un errore sistematico che cresce con il<br />

valore in misura. Per mettere in evidenza questa caratteristica dello strumento é utile<br />

graficare l’andamento di x(misurato) – x(“vero”) in funzione di x(“vero”). Si osserverà una<br />

crescita dell’errore sistematico. Se questo grafico mostra un andamento, si può fare un fit di<br />

questo andamento, ottenendo cosi’ una “curva di calibrazione” che può essere usata per<br />

correggere i valori letti. Quindi, letto 2284 devo sottrarre un numero che starà tra 61 e 79.<br />

Nel grafico sono riportati sia x(misurato) - x(vero) che la stessa cosa divisa per x(vero). Il<br />

secondo grafico ci mostra che l’errore sistematico é in prima approssimazione tra il 2% ed il<br />

3% per tutti i valori. Quindi una correzione ragionevole potrebbe essere quella di<br />

moltiplicare ogni misura per 0.975.<br />

131


(3.4) La media pesata dei quattro valori é 2.19; il χ 2 rispetto all’ipotesi che siano in accordo<br />

fornisce il valore 12.5 per 3 gradi di libertà. Dalle tabelle si vede che tale valore si trova<br />

essenzialmente tra 0.005 e 0.01 quindi é arduo accettare l’ipotesi che i valori siano in<br />

accordo. Anche in questo caso é utile fare un semplice grafico dei 4 valori. Si vede<br />

chiaramente che il quarto valore é incompatibile con il primo e questo rende il χ 2<br />

inaccettabile.<br />

(3.5) L’equivalenza calore-lavoro ci suggerisce che il lavoro fatto (potenza x tempo) sia<br />

proporzionale al calore dissipato (capacità termica x variazione di temperatura). I valori<br />

misurati devono pertanto disporsi su di una retta il cui coefficiente angolare costituisce<br />

l’equivalente meccanico della caloria. Pertanto dal fit lineare di temperatura-tempo si ricava<br />

il coefficiente angolare che, moltiplicato per la capacità termica e diviso per la potenza<br />

fornisce l’inverso dell’equivalente meccanico cercato. Per determinare l’incertezza sulla<br />

quantità trovata occorrerà utilizzare la propagazione delle incertezze relative.<br />

Risultati numerici.<br />

Fit lineare: m = 0.69 ± 0.01 K/s; χ 2 = 1.2 / 4 gdl.<br />

132


Equivalente meccanico: (4.25 ± 0.07) J / cal<br />

Questo risultato é da confrontare con il valore 4.1855 J / cal che si trova nei libri di testo. Il<br />

nostro risultato é “fuori di una deviazione standard” dunque é sostanzialmente in accordo.<br />

(3.6) Qui lo sperimentatore ci dice di fare attenzione nell’usare il quarto punto sperimentale.<br />

Basterà dividere per 1h 18 min e 24 s cioè per 4704 s anziché per un ora cioè per 3600 s.<br />

Inoltre a ciascun punto attribuiamo un’incertezza data da √N / tempo assumendo che si tratti<br />

di conteggi poissoniani. Quindi si tratta di testare l’ipotesi che non vi sia andamento.<br />

Facendo un fit con una costante si ottiene: χ 2 = 6.8 / 4 gdl corrispondente ad una probabilità<br />

tra il 10 ed il 20% pertanto accettabile. Tuttavia rimane una certa indicazione di crescita<br />

(come si vede dal grafico riportato qui di seguito) e quindi vale la pena ripetere<br />

l’esperimento aumentando il tempo di osservazione per ridurre le incertezze statistiche<br />

relative.<br />

(3.7) Costruisco per ciascuna delle 2 misure un intervallo di probabilità del 90%: prima misura:<br />

L 1 = 438.2 ± 3.5 μm; valore seconda misura: L 2 = 427 ± 16 μm (in questo secondo caso ho<br />

moltiplicato per 1.90 anziché per 1.65 per tenere conto che non sono ancora nel limite<br />

gaussiano). L’intervallo al 90% per la differenza é: L 1 - L 2 = 11 ± 16 μm. Dunque la<br />

variazione non é significativa oltre il 90% dunque l’allarme non dovrebbe scattare.<br />

(3.8) Tutte le 5 misure effettuate sono positive, quindi ciò fa pensare che effettivamente possiamo<br />

essere scalibrati. Tuttavia dobbiamo mediare queste misure e ricavarne un intervallo di<br />

probabilità (per esempio del 95%) per stabilirlo quantitativamente.<br />

Risultato: T = 0.0162 ± 0.0052 o C (qui ho usato la tabella della t-Student essendo il numero<br />

di misure molto piccolo). Quindi lo strumento é scalibrato. Il valore trovato é anche la<br />

migliore stima della correzione. In tal caso é meglio usare una incertezza al 68% cioè: T corr =<br />

0.0162 ± 0.0016 o C.<br />

(3.9) α = I r 2 = 3.12 ± 0.13 W / s<br />

(3.10) Si tratta di vedere la probabilità associata ad un χ 2 di 56.2 per 28 gradi di libertà. Dalle<br />

tabelle tale probabilità é pari a circa 0.001 cioè l’1 per mille. Il fit non é molto buono.<br />

(3.11) L’efficienza é: ε = ( 94.4 ± 0.2 ) % (usando la formula per la binomiale). Per ottenere il<br />

flusso effettivo devo “correggere” per l’efficienza. φ = N / ( ε Δt ) = ( 94 ± 5) x10 -3 s -1 .<br />

(3.12) La preferenza é passata da 86 / 215 = ( 40 ± 3 ) % a 91 / 189 = ( 48 ± 4 ) %. L’aumento di<br />

preferenze é pertanto ( 8 ± 5 )%. Quindi prima di rallegrarmi il politico farebbe bene a<br />

rendere statisticamente più consistente il suo campione.<br />

(3.13) Ricordiamo le 2 relazioni: n = tanθ B e n = 1 /sen θ lim . Dalle 2 misure ricaviamo 2 diversi<br />

valori di n indipendenti ( che chiamiamo rispettivamente n B e n lim ). Utilizzando la<br />

133


propagazione delle incertezze troviamo: n B = 1.460 ± 0.011 e n lim = 1.463 ± 0.005. Si noti<br />

che nell’utilizzare la propagazione abbiamo riportato il valore dell’incertezza sugli angoli da<br />

gradi a radianti ( × π / 180 ). I 2 valori sono chiaramente compatibili. La media pesata<br />

fornisce: n = 1.462 ± 0.004 che é distante una deviazione standard da n qu e 7 deviazioni<br />

standard da n pl . Si tratta di quarzo dunque.<br />

(3.14) Rispondiamo con ordine alle singole domande. (1) Il secondo esperimento é più preciso. (2)<br />

Gli intervalli standard e di quasi-certezza (cioè a 3 deviazioni standard) per i 2 esperimento<br />

sono: x 1 = 1.036 ± 0.004 (0.012) e x 2 = 1.046 ± 0.005 (0.015). (3) Sono chiaramente<br />

ambedue i risultati incompatibili con x = 1. (4) Sono compatibili tra di loro. (5) Poiché<br />

l’incertezza statistica diminuisce “come 1 / √N” dove Né il numero di campioni, per passare<br />

da una incertezza standard di 0.004 ( da 0.005) ad una di 0.001 dovrò aumentare il numero<br />

di campioni di un fattore 4 2 = 16 per l’esperimento 1 e 5 2 = 25 per l’esperimento 2.<br />

(3.15) (a) q = ( 1.644 ± 0.014 ) × 10 -19 C. (b) q Millikan – q oggi = ( 0.042 ± 0.014 ) × 10 -19 C. Il<br />

risultato di Millikan dista 3 deviazioni standard dal valore che abbiamo oggi. Ai limiti<br />

dell’accettabilità.<br />

(3.16) Rate( θ > 25° ) = ( 5.7 ± 0.8 ) × 10 -3 s -1 , da cui P( θ > 25° ) = ( 4.6 ± 0.6 ) × 10 -4 . Il<br />

risultato é incompatibile con il modello di Thomson.<br />

(3.17) È un esempio di come a volte graficando non direttamente l’andamento delle grandezze<br />

misurate, ma l’andamento di funzioni semplici di tali grandezze, si riesca ad avere una<br />

migliore comprensione del problema. In questo caso, guidati dalla legge di gravitazione<br />

universale, é conveniente graficare g in funzione di 1/R 2 , grafico che deve dare una retta.<br />

Tuttavia occorre definire per bene R come distanza dal centro della terra, non dalla<br />

superficie terrestre, R = h + R T . Dal fit lineare si ottiene il prodotto Gm T e, da questo, dato<br />

G, la massa della terra m T . Infine m T / R T 3 fornisce la densità media della terra.<br />

Risultati numerici: dal fit m = ( 404 ± 4 ) × 10 6 m s -2 km 2 = ( 404 ± 4 ) × 10 12 m 3 s -2 con un<br />

χ 2 pari a 3.01 / 3 gradi di libertà dunque molto buono. Da qui: m T = ( 6.05 ± 0.06 ) × 10 24<br />

kg e dunque ρ T = m T / ( 4 / 3 π R T 3 ) = 5.56 g / cm 3 . Abbiamo riportato le unità della densità<br />

a g / cm 3 perché sono più facilmente comprensibili (in queste unità l’acqua ha densità 1, il<br />

piombo 11 e cosi’ via).<br />

134

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!