You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Laboratorio di Strumentazione e Misura<br />
Cesare Bini<br />
Corso di laurea in <strong>Fisica</strong><br />
Anno Accademico 2006-2007<br />
1
Questi appunti sono basati sulle lezioni del modulo di Laboratorio di Strumentazione e Misura del<br />
primo anno delle lauree triennale in <strong>Fisica</strong>, <strong>Fisica</strong> e Astrofisica e <strong>Fisica</strong> e Tecnologie Informatiche<br />
da me tenute negli anni accademici a partire dal 2002-2003 all’Università “La <strong>Sapienza</strong>” di Roma.<br />
Si tratta del primo modulo di laboratorio, al quale seguono nei trimestri successivi altri quattro<br />
moduli di laboratorio con contenuti più specifici (Meccanica, Termodinamica, Elettromagnetismo e<br />
Ottica). Il modulo si propone di fornire agli studenti gli strumenti di base per la comprensione del<br />
linguaggio della fisica sperimentale con particolare riferimento al problema dell’elaborazione e<br />
dell’analisi dei dati sperimentali.<br />
In questi appunti, dopo una breve introduzione sul significato del metodo sperimentale, ci si<br />
concentra nel primo capitolo sul concetto elementare di misura in fisica. In questo primo capitolo le<br />
idee e le nozioni sono fornite esclusivamente su base intuitiva, senza formalismi matematici e senza<br />
alcuna pretesa di completezza e di esaustività. Nel secondo capitolo si entra nella teoria della<br />
probabilità, o meglio, in quella parte della teoria della probabilità e delle variabili casuali che risulta<br />
fondamentale per la comprensione dei risultati degli esperimenti di fisica. Gli argomenti di questa<br />
parte sono trattati con maggior rigore, e vengono utilizzati alcuni formalismi matematici più evoluti<br />
che gli studenti stanno apprendendo nei corsi paralleli di matematica. In alcuni casi, dove é<br />
necessario, sono forniti dei semplici complementi di matematica, trattati però sempre con<br />
l’attitudine del fisico sperimentale che, come lo studente avrà modo di vedere é diversa da quella<br />
del matematico. Nel terzo capitolo infine con l’ausilio degli strumenti di teoria della probabilità e<br />
delle variabili casuali trattati in precedenza, vengono ripresi i problemi impostati all’inizio del corso<br />
per fornire dei metodi statistici di risoluzione di cui sarà ora chiaro il fondamento. L’obiettivo é<br />
acquisire il modo di analizzare i dati degli esperimenti per trarne delle conclusioni scientificamente<br />
ben fondate. Ciascuno dei tre capitoli é corredato da una serie di esercizi per i quali alla fine sono<br />
illustrate e discusse le soluzioni. Si tratta di esercizi in tutto analoghi a quelli che vengono dati sia<br />
nella prova scritta finale che nelle cosiddette “prove in itinere”, e costituiscono una parte<br />
fondamentale del corso.<br />
La conoscenza e la padronanza dei metodi di analisi dei dati sperimentali costituisce non solo un<br />
bagaglio fondamentale per quegli studenti che si avvieranno alla ricerca scientifica, ma é anche<br />
estremamente importante per tutti quei laureati che si avvieranno al lavoro nell’industria o in altri<br />
settori, per i quali comunque sarà cruciale la capacità di trarre delle conclusioni fondate a partire da<br />
un insieme di dati qualunque sia l’origine di questi.<br />
2
(0) Il metodo scientifico.....................................................................................................5<br />
(1) La misura di una grandezza fisica ..............................................................................9<br />
(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche.............................................................9<br />
(1.1.1) L’unità di tempo. ................................................................................................................10<br />
(1.1.2) L’unità di lunghezza...........................................................................................................10<br />
(1.1.3) L’unità di massa. ................................................................................................................11<br />
(1.1.4) Sistemi di unità di misura...................................................................................................11<br />
(1.2) Il concetto di incertezza di misura.............................................................................................13<br />
(1.3) Esempi di valutazioni “qualitative” di incertezza ....................................................................15<br />
(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento........................................15<br />
(1.3.2) Caso dei conteggi. ..............................................................................................................16<br />
(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. .........................17<br />
(1.3.4) Analisi grafica della sequenza di numeri. ..........................................................................17<br />
(1.3.5) Caratteristiche riassuntive di una sequenza di numeri .......................................................22<br />
(1.3.6) Stima di intervalli. ..............................................................................................................25<br />
(1.3.7) Errori sistematici ................................................................................................................26<br />
(1.4) Sequenze di “coppie” di misure ................................................................................................27<br />
(1.5) Terminologia .............................................................................................................................30<br />
(1.6) Cifre significative......................................................................................................................30<br />
(1.7) Caso di misure indirette: cenni alla propagazione.....................................................................33<br />
(1.8) Nozione di significatività ..........................................................................................................34<br />
(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. .......................................37<br />
(1.9.1) La scala quadratica. ............................................................................................................37<br />
(1.9.2) La scala logaritmica............................................................................................................38<br />
Esercizi relativi al Capitolo (1) ..........................................................................................................42<br />
(2) La probabilità e le variabili casuali ...........................................................................46<br />
(2.1) Concetto di probabilità ..............................................................................................................46<br />
(2.2) Alcuni metodi di calcolo ...........................................................................................................46<br />
(2.3) Regole della teoria delle probabilità.........................................................................................47<br />
(2.3.1) Spazio degli eventi .............................................................................................................47<br />
(2.3.2) Eventi composti..................................................................................................................48<br />
(2.3.3) Definizione assiomatica della probabilità ..........................................................................48<br />
(2.3.4) Probabilità condizionata.....................................................................................................48<br />
(2.3.5) Alcune proprietà delle probabilità......................................................................................49<br />
(2.3.6) Il teorema di Bayes.............................................................................................................50<br />
(2.4) Il Calcolo Combinatorio............................................................................................................51<br />
(2.5) Variabili casuali.........................................................................................................................53<br />
(2.5.1) Considerazioni generali......................................................................................................53<br />
(2.5.2) Distribuzioni di probabilità di variabili casuali..................................................................54<br />
(2.5.3) Variabili discrete. ...............................................................................................................55<br />
(2.5.4) Variabili continue...............................................................................................................55<br />
(2.5.5) Momenti di una distribuzione.............................................................................................58<br />
(2.5.6) Densità di probabilità di una funzione di variabile casuale................................................59<br />
(2.5.7) La media e la deviazione standard come variabili casuali .................................................60<br />
(2.6) Variabili casuali notevoli...........................................................................................................61<br />
(2.6.1) Distribuzione uniforme.......................................................................................................61<br />
(2.6.2) La distribuzione binomiale.................................................................................................63<br />
(2.6.3) Il processo di Poisson: limite del processo di Bernoulli. ...................................................66<br />
(2.6.4) Il processo di Poisson: definizione generale. .....................................................................69<br />
(2.6.5) La distribuzione di Gauss...................................................................................................71<br />
(2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss.............................74<br />
3
(2.7) Proprietà notevoli delle variabili casuali...................................................................................77<br />
(2.7.1) Contenuto di probabilità di intervalli di variabili casuali...................................................78<br />
(2.7.2) Il teorema del limite centrale..............................................................................................78<br />
(2.7.3) Limite gaussiano.................................................................................................................80<br />
(2.8) Variabili casuali multiple. .........................................................................................................81<br />
(2.8.1) Impostazione del problema ................................................................................................81<br />
(2.8.2.) Probabilità congiunta e covarianza....................................................................................82<br />
(2.8.3) Calcolo di E[y] e Var[y].....................................................................................................83<br />
(2.8.4) Propagazione delle incertezze ............................................................................................84<br />
Esercizi relativi al Capitolo (2) ..........................................................................................................88<br />
(3) Introduzione all’inferenza ..........................................................................................92<br />
(3.1) Introduzione “formale” all’inferenza ........................................................................................92<br />
(3.1.1) Considerazioni generali......................................................................................................92<br />
(3.1.2) L’inferenza bayesiana.........................................................................................................93<br />
(3.1.3) Il principio di massima verosimiglianza ............................................................................94<br />
(3.2) Inferenza sul valore vero ...........................................................................................................94<br />
(3.2.1) Caso di una singola misura.................................................................................................94<br />
(3.2.2) Caso di una misura ripetuta N volte. ..................................................................................95<br />
(3.2.3) Caso dei conteggi poissoniani. ...........................................................................................97<br />
(3.2.4) Caso dei conteggi binomiali...............................................................................................98<br />
(3.2.5) La “barra di incertezza”......................................................................................................99<br />
(3.3) Misure indirette: la propagazione delle incertezze....................................................................99<br />
(3.3.1) Riformulazione del problema.............................................................................................99<br />
(3.3.2) Propagazione delle incertezze ..........................................................................................100<br />
(3.4) Nozione di consistenza e significatività: test d’ipotesi ...........................................................100<br />
(3.4.1) Consistenza tra risultati di esperimenti ............................................................................101<br />
(3.4.2) Consistenza tra esperimento e modello............................................................................102<br />
(3.4.3) Combinazione di diverse misure: la media pesata. ..........................................................102<br />
(3.5) Analisi delle dipendenze funzionali: il fit ...............................................................................103<br />
(3.5.1) Il fit: formulazione del problema......................................................................................103<br />
(3.5.2) Ipotesi di lavoro................................................................................................................104<br />
(3.5.3) Il fit: derivazione delle formule per le stime dei parametri..............................................105<br />
(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza ..................................108<br />
(3.5.5) Valutazione della bontà del fit: test del χ 2 . ......................................................................111<br />
(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti..................................116<br />
(3.5.7) Il fit: come farlo operativamente......................................................................................116<br />
(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui ...............................117<br />
Esercizi relativi al Capitolo (3) ........................................................................................................120<br />
Soluzione degli esercizi proposti. ................................................................................124<br />
4
(0) Il metodo scientifico<br />
Qual é l’oggetto della scienza naturale ? La scienza si occupa dei fenomeni naturali vale a dire di<br />
tutte quelle cose che osserviamo accadere, di quelle manifestazioni della natura, che “entrano in<br />
relazione” con i nostri sensi, e che noi consideriamo rilevanti e degne di essere studiate. In<br />
particolare, anche la fisica studia tali “manifestazioni”. E’ difficile circoscrivere con chiarezza il<br />
campo di indagine della fisica rispetto ad altre discipline quali la chimica o la biologia (e in effetti<br />
esistono discipline di confine quali la chimica fisica e la biofisica). In modo generale e forse<br />
discutibile, si può dire che la fisica si distingue dagli altri settori di indagine, per il fatto di studiare i<br />
fenomeni nelle loro manifestazioni più “elementari” o “fondamentali”, ovvero per il fatto di<br />
occuparsi dei sistemi più semplici esistenti in natura.<br />
Il metodo con cui in fisica vengono studiati i fenomeni naturali si colloca entro il quadro più vasto<br />
del metodo scientifico, una grande costruzione di pensiero e di esperienza sviluppata nel corso degli<br />
ultimi secoli. La fisica fa proprio il metodo scientifico, con alcune specificità dovute al tipo di<br />
problemi che devono essere affrontati.<br />
A cosa serve dunque il corso di laurea in fisica ? La cosa principale che gli studenti di fisica<br />
imparano é proprio il metodo della fisica, l’apprendimento del quale é in un certo senso ancora più<br />
importante della conoscenza delle leggi fisiche stesse. Il metodo fornisce, infatti, l’atteggiamento<br />
con cui il fisico si pone nello studio dei fenomeni naturali, costituisce un modo di indagine della<br />
realtà, un approccio ai problemi.<br />
Vediamo quali sono gli aspetti caratteristici di questo metodo. Nella storia del pensiero ci sono stati<br />
due atteggiamenti di fronte alla complessità della realtà fisica: (a) L’Empirismo (il cui metodo<br />
d’indagine caratteristico é detto induzione) e (b) il Razionalismo (per il quale si ha il metodo detto<br />
della deduzione). Per esemplificare questi 2 approcci prendiamo un esempio preso a prestito dalla<br />
vita quotidiana. Tutti noi scegliamo di comportarci in un certo modo in base alle informazioni che<br />
abbiamo. A che ora usciamo di casa la mattina per arrivare all’università’ prima delle 9 ? Lo<br />
studente 1 affronta il problema con il seguente approccio. Fa diverse prove: un giorno esce alle 7<br />
un giorno alle 7:30 poi alle 8 ed infine alle 8:30. Ripete in giorni diversi queste prove e alla fine<br />
osserva che se esce alle 7:30 impiega 15 minuti, se esce alle 8 impiega di più e così via. Da tali<br />
osservazioni “conclude” che l’orario migliore per uscire é uno dei tanti provati. Da ciò trae in<br />
definitiva la sua regola di comportamento. Lo studente 2 invece sulla base del fatto che le scuole<br />
aprono alle 8, gli uffici alle 9 “deduce” che é meglio uscire alle 7:30 (senza impiegare diverse<br />
settimane a fare delle prove). E’ chiaro che si tratta di un esempio di empirista (lo studente 1) e di<br />
razionalista (lo studente 2).<br />
Quale dei due approcci é quello proprio del metodo scientifico ?<br />
In realtà non lo é nessuno dei due, o meglio, lo scienziato usa ambedue i metodi, li combina.<br />
In questo consiste la sintesi propria del metodo scientifico, che si suole anche indicare come sintesi<br />
galileiana ricordando il nome di Galileo che fu il primo a formularne gli aspetti salienti nei suoi<br />
scritti: osservazione e teoria sono intimamente legate tra loro, in un certo senso “si guidano a<br />
vicenda”. Il metodo scientifico moderno nasce da questa sintesi. L’osservazione della natura non é<br />
un puro e semplice catalogare fatti o fenomeni (che é viceversa proprio dell’empirismo puro).<br />
Attraverso l’osservazione lo scienziato vuole in realtà cogliere il “meccanismo” che regola i<br />
fenomeni e pertanto tende a “selezionare” le osservazioni da fare e, al tempo stesso, tende ad<br />
“inventare un linguaggio” con il quale riesce a parlare in modo chiaro dei fenomeni naturali che<br />
osserva. La comprensione dei “meccanismi” della natura é infatti molto più potente della pura e<br />
semplice osservazione di come si svolgono le cose. Non solo, tale comprensione “spinge” ad altre<br />
osservazioni e pertanto la conoscenza che si acquisisce diventa la base per acquisizioni di<br />
conoscenze successive.<br />
5
Gli ingredienti fondamentali del metodo scientifico sono dunque da un lato gli esperimenti e<br />
dall’altro i modelli teorici. Sono due elementi che si muovono di pari passo condizionandosi a<br />
vicenda. Vediamo di chiarirne il significato.<br />
- Fare un esperimento significa fare una domanda alla natura. Si noti la differenza che c’è tra<br />
esperimento (processo attivo) e semplice osservazione (processo passivo). La domanda che<br />
l’esperimento pone, deve essere ben posta. Quello dell’esperimento é un procedimento chiaramente<br />
induttivo. Sul piano logico il processo é il seguente: se osservo che una cosa si svolge in un certo<br />
modo in una data circostanza, passo dal particolare al generale: quella cosa in quelle condizioni si<br />
svolge sempre in quel modo. Per esempio se io osservo che un dato materiale ha una certa proprietà<br />
(esempio, il rame é conduttore), io “induco” che tutto il rame é conduttore. Per dire questo dovrei<br />
prendere tutto il rame del mondo anzi dell’universo e misurarlo. Ma non é necessario farlo.<br />
Facciamo un’osservazione: il fatto che la ripetizione di un dato esperimento fatto da persone<br />
diverse in tempi diversi con apparati diversi porti a risultati che sono tutti “generalmente<br />
compatibile”, é un fatto per nulla banale, ma é ciò che effettivamente accade. In altre parole la<br />
Natura risponde allo stesso modo ad osservatori diversi, quando la domanda é posta ugualmente<br />
bene. Quando ciò accade, si dice che siamo in condizioni di riproducibilità. Quando non accade<br />
normalmente vuol dire che la domanda é mal posta, l’esperimento é fatto male. In questo, troviamo<br />
un primo aspetto dell’oggettività che rende fattibile l’indagine scientifica.<br />
- Che cos’è invece un modello teorico? Il modello si sviluppa quando vengono individuati i<br />
termini che descrivono il fenomeno (gli elementi del “linguaggio”) e le relazioni che li collegano. A<br />
questo punto posso “dedurre” le caratteristiche di altri fenomeni. Posso cioè fare predizioni. Si<br />
tratta di un procedimento chiaramente deduttivo. Da assiomi generali deduco conseguenze<br />
osservabili. Un modello, potremmo dire, “inventa un linguaggio” con il quale é possibile parlare di<br />
quel fenomeno e predire le proprietà di altri fenomeni a questo collegati.<br />
Seconda osservazione: il fatto che i nostri modelli descrivono bene i risultati degli esperimenti é<br />
un secondo fatto per nulla ovvio, ma é anch’esso vero. Si tratta di un altro aspetto dell’oggettività di<br />
cui si diceva. Gli uomini riescono a creare un linguaggio comune per descrivere la natura. Una<br />
persona intelligente riesce a capire questo linguaggio, e si rende conto presto che funziona.<br />
Per poter apprezzare il modo con cui la scienza si sviluppa, é fondamentale vedere i tanti esempi<br />
che la storia della scienza ci fornisce. Tra i tanti che saranno discussi in tutti i corsi del seguito degli<br />
studi, accenniamo solo brevemente al caso della meccanica: dall’osservazione dei corpi in moto (di<br />
alcuni corpi in moto non di tutti i moti possibili) Newton “induce” la legge del moto che costituisce<br />
la regola fondamentale del “linguaggio” dei fenomeni di corpi in moto. Una volta stabilito il<br />
linguaggio della meccanica fu possibile dedurre predizioni di altri fenomeni che in seguito,<br />
esperimenti tecnologicamente sempre più evoluti hanno sottoposto a test sempre più accurati.<br />
Questo progresso nell’accuratezza degli esperimenti ha portato infine a mostrare che il linguaggio<br />
della meccanica doveva essere modificato per poter descrivere fenomeni in certe particolari<br />
condizioni.<br />
La forza del metodo scientifico sta essenzialmente nel suo successo. Il successo della meccanica,<br />
della termodinamica e dell’elettromagnetismo nell’arco di meno di 3 secoli sono una testimonianza<br />
straordinaria di ciò.<br />
Facciamo ora un passo avanti. Infatti finora abbiamo parlato in modo generico di osservazioni e<br />
modelli. In realtà sappiamo bene che sia gli esperimenti che i modelli hanno a che fare con i numeri<br />
e più in generale con le regole della matematica. D’altra parte gli studenti del primo anno sanno<br />
bene che sono invitati a studiare la matematica. Cerchiamo di capire il perché.<br />
Nell’esperimento le sensazioni umane sono “quantificate”. In altre parole sono sostituite da numeri<br />
che appunto rendono quantitativa una sensazione che altrimenti sarebbe solo qualitativa. Dire che<br />
un corpo é più caldo di un altro costituisce una affermazione ben definita e non ambigua. Tuttavia é<br />
6
un’affermazione povera di contenuto. Per rendere più efficace la sensazione si mette in atto un<br />
processo di quantificazione che chiamiamo processo di misura di una grandezza fisica.<br />
Al termine dell’esperimento ho dunque un insieme di numeri, che rappresentano i risultati delle<br />
misure della o delle grandezze fisiche rilevanti per la descrizione del fenomeno che sto studiando.<br />
Il modello esprime relazioni tra tali grandezze fisiche. Si tratta delle leggi fisiche. Il confronto tra i<br />
risultati delle misure e tali legge permette di stabilire se il modello descrive correttamente il<br />
fenomeno.<br />
Nel contesto del metodo scientifico il ruolo della matematica risulta decisivo sia negli esperimenti<br />
che nella teoria. Infatti:<br />
La usiamo per sviluppare i modelli e definire il linguaggio per la loro caratterizzazione. Il<br />
dedurre é matematico. Il settore principe della matematica applicata alla fisica é l’analisi (calcolo<br />
infinitesimale) che, infatti, nacque proprio dall’esigenza di fornire uno strumento di calcolo<br />
adeguato alla descrizione della fisica.<br />
Ma la dobbiamo usare per “trattare” in modo coerente i risultati delle misure che compongono<br />
qualsiasi esperimento. In questo caso il concetto di probabilità diventa molto importante perché si<br />
vede che gli esperimenti si lasciano descrivere da teorie probabilistiche. Accanto alla teoria della<br />
probabilità si colloca la statistica la disciplina che studia da un lato, le modalità con cui descrivere<br />
le proprietà di un insieme di dati (statistica descrittiva) e dall’altro come a partire dai dati si può<br />
trarre conclusioni sui valori delle grandezze fisiche (statistica inferenziale).<br />
Cosa facciamo noi in questo corso ?<br />
Nell’ambito dei corsi di laurea in fisica, il corso di laboratorio ha un ruolo estremamente rilevante.<br />
Si tratta infatti di imparare un “mestiere”: il mestiere dello sperimentatore. E’ un lavoro ben definito<br />
con le sue caratteristiche. Schematizzando potremmo dire che il lavoro dello sperimentatore si<br />
sviluppa nei seguenti passi, ciascuno del quali richiede una certa propensione:<br />
(1) pensare a quale é l’esperimento giusto da fare (domanda alla natura); conoscere la fisica<br />
(2) pensare a come farlo; conoscere la tecnologia<br />
(3) montarlo e mettere in funzione l’apparato di misura; abilità manuale e organizzativa<br />
(4) fare la misura con tutti i controlli essenziali; attenzione e cura<br />
(5) analizzare i risultati e trarne delle conclusioni; usare i metodi della statistica<br />
(6) comunicare queste conclusioni al mondo scientifico; chiarezza e sintesi comunicativa.<br />
È importante sottolineare la varietà e la complessità del lavoro dello sperimentatore, per il quale<br />
sono necessarie attitudine normalmente considerate molto diverse (per esempio la manualità e<br />
l’attitudine all’astrazione). Si tratta di un lavoro molto bello per il quale vale la pena impegnarsi<br />
(ma questa é una mia valutazione personale).<br />
In questo corso inizieremo un percorso articolato in più moduli per imparare a fare tutte queste cose<br />
(1)-(6). In questo modulo ci occuperemo prevalentemente dei punti (5)-(6) (discutendo i metodi di<br />
analisi dei dati) ma anche un po’ (3) e (4) (quando andremo in laboratorio). Nei moduli successivi<br />
vedremo meglio (2)-(3)-(4). (1) ha a che fare con la conoscenza della fisica e dunque ha a che fare<br />
con tutto ciò che sarà discusso nel corso di laurea in <strong>Fisica</strong>.<br />
Alcune considerazioni pratiche:<br />
Ruolo del Calcolatore: per un primo approccio efficace all’attività sperimentale é meglio usarlo il<br />
meno possibile. Il calcolatore é infatti uno strumento essenziale ma spesso finisce per impedire una<br />
comprensione profonda di quello che si sta facendo. Bisogna sempre evitare di fare le cose “ad<br />
occhi chiusi”, fidandosi ciecamente di un programma che qualcun altro ha fatto. Almeno una volta<br />
bisogna aver fatto un’analisi con “carta e penna” per poter usare in modo critico ed efficace un<br />
prodotto informatico.<br />
7
Ruolo della Calcolatrice: sapere usarla al meglio (una calcolatrice scientifica con le operazioni<br />
matematiche fondamentali come le funzioni trigonometriche, i logaritmi, la notazione<br />
esponenziale).<br />
Ruolo della matematica: ad un certo punto dovremo usare alcune nozioni elementari di analisi quali<br />
la derivata e l’integrale. Per il resto si cerchierà di rendere i vari concetti in modo semplice ed<br />
intuitivo.<br />
Ruolo del log-book (quaderno) e delle relazioni: é molto importante imparare a descrivere quello<br />
che si sta facendo e che si é fatto in modo utile e chiaro. Nel log-book é bene riportare sempre tutto<br />
quello che si fa. Il suo ruolo é quello di poter sempre ricostruire quello che si é fatto in quel dato<br />
giorno. Le relazioni devono invece essere sintetiche e devono dare al lettore le informazioni<br />
rilevanti e non dare quelle irrilevanti.<br />
Lavoro di gruppo: é importante imparare a lavorare in gruppo collaborando. Sono sempre più rari<br />
coloro che fanno ricerca scientifica da soli. Quasi sempre la ricerca, ed in particolare quella<br />
sperimentale é un lavoro di gruppo.<br />
8
(1) La misura di una grandezza fisica<br />
Abbiamo visto che un esperimento é riconducibile ad una o più misure.<br />
Vediamo ora di delineare la logica del processo di misura. Individuiamo i seguenti passi logici.<br />
(0) Associo ad ogni “elemento” (potremmo anche dire sensazione) che partecipa al fenomeno una<br />
grandezza fisica; (chiamo temperatura la sensazione di caldo/freddo, tempo la sensazione di eventi<br />
che si succedono, lunghezza la sensazione di spaziatura tra 2 posizioni, corrente la sensazione di<br />
“scossa elettrica”)<br />
(1) stabilisco come associare un numero a tale grandezza; questo processo costituisce la definizione<br />
operativa della grandezza, cioè lo stabilire il principio ed il metodo della misura;<br />
(2) infine effettuo la misura e dunque ottengo il numero.<br />
La definizione operativa presuppone un principio di misura cioè l’esistenza di un fenomeno fisico e<br />
di un modello teorico che usiamo per trattare questo fenomeno. Si tratta pertanto di misure che<br />
hanno significato solo nell’ambito di un modello. Anche la misura del peso con una bilancia,<br />
apparentemente elementare, si fonda sul fatto che si ha equilibrio statico tra la forza di richiamo di<br />
una molla e la forza peso; il funzionamento del termometro si fonda sulla nostra descrizione della<br />
dilatazione termica dei corpi e così via. In altri casi il principio di misura é più elementare. Per<br />
esempio se si tratta di contare il numero di oggetti o il numero di volte in cui é accaduta una certa<br />
cosa, la misura fa riferimento alla nozione di numerabilità degli oggetti, così come la misura di<br />
lunghezza effettuata con un metro si basa sul confronto tra 2 oggetti, il tavolo ed il metro. Si tratta<br />
di operazioni che fanno riferimento a procedimenti elementari (la numerabilità, il confronto) che<br />
sono insiti nella nostra intelligenza. Tutti gli esempi fatti appartengono alla classe delle misure<br />
dirette cioè di misure di una grandezza fisica che si fanno con un metodo di misura ben definito per<br />
quanto complicato. Esistono poi le misure indirette che si hanno quando combino, secondo una<br />
relazione che appartiene al mio modello, diverse misure dirette di grandezze diverse. Nel caso della<br />
velocità nella maggioranza dei casi faccio v = s / t non misuro direttamente v, anche se uso un<br />
tachimetro: vengono misurate separatamente s e t e poi viene fatto il rapporto. Oppure posso usare<br />
uno strumento per misurare una grandezza e poi ricavarne un’altra moltiplicandola per dei numeri<br />
noti da misure precedenti.<br />
In ogni caso le misure vengono effettuati con gli strumenti di misura, che possono essere<br />
“acquistati” ed utilizzati “chiavi in mano” previa lettura del libretto di istruzioni, oppure possono<br />
essere preparati dallo sperimentatore (ciò é quanto in genere fanno o preferirebbero fare la gran<br />
parte dei fisici). In ogni caso é molto importante conoscere le caratteristiche degli strumenti che si<br />
utilizzano.<br />
(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche.<br />
Consideriamo le misure dirette: si tratta di confrontare la cosa che misuriamo, che chiameremo in<br />
generale il misurando, con un “esemplare” della stessa grandezza di cui conosciamo il valore<br />
numerico. Esempio: quando misuro la temperatura con il termometro, la scala del termometro é<br />
graduata in gradi centigradi (detti Celsius o scala Celsius). Sappiamo che quando la colonnina del<br />
mercurio raggiunge una certa posizione, quella condizione corrisponde ad una data temperatura.<br />
Quella condizione é l’esemplare con cui mi confronto. Il grado centigrado é invece l’unità di<br />
misura della grandezza in esame (la temperatura in questo caso). Analogamente la posizione<br />
dell’ago della bilancia o il numero sul display di un cronometro digitale, costituiscono gli esemplari<br />
delle grandezze con cui confronto il misurando, mentre il kg e il secondo sono le unità di misura<br />
(che compaiono nelle scale degli strumenti).<br />
Specifichiamo ora che cos’è un’unità di misura. Cosa vuol dire esprimere un peso in kg ? Significa<br />
assumere che da qualche parte esiste un “misurando particolare” arbitrariamente detto kilogrammo,<br />
che tale misurando particolare é stabile e ben definito, e che quindi noi esprimiamo tutti i nostri pesi<br />
come multipli o sottomultipli di quel misurando particolare. Naturalmente per una data grandezza<br />
posso usare unità diverse. Per esempio le lunghezze sono in km in Europa e in miglia negli USA. Le<br />
9
temperature sono in gradi Celsius in Europa e in gradi Fahrenheit negli USA. E’ fondamentale<br />
“mettersi d’accordo” sulle unità di misura. Dall’’800 si procede verso la standardizzazione delle<br />
unità (si tratta di una delle poche eredità utili del positivismo ottocentesco). Vi é una branca molto<br />
importante della fisica che si chiama metrologia che fa questo lavoro.<br />
Per procedere alla standardizzazione di cui si é detto, é fondamentale disporre di campioni di<br />
riferimento (i misurandi particolari di cui si é detto sopra appunto) internazionalmente riconosciuti<br />
delle varie grandezze che siano sempre “meglio definiti”. Una volta creati questi campioni, l’uso di<br />
uno strumento sarà possibile solo dopo che lo strumento stesso sarà stato “applicato” al campione di<br />
riferimento. Quindi per esempio supponiamo che da qualche parte vi sia il campione di lunghezza<br />
(1 metro). Devo portare lì il mio regolo (o righello o metro da sarta o calibro o qualunque altro<br />
strumento per misure di lunghezza) e fare in modo che “applicato” al campione di riferimento<br />
indichi 1. Analogamente per i tempi , per le masse e per qualunque altra grandezza. Questa<br />
operazione che si chiama calibrazione o taratura dello strumento, é un operazione che facciamo<br />
spesso (per esempio con il nostro orologio quando lo rimettiamo sentendo il segnale alla radio o al<br />
telefono). Si tratta di una operazione che richiede (a) la fiducia che il riferimento sia “migliore”<br />
della nostra misura e (b) che su quel riferimento si sia d’accordo tra tutti. Naturalmente non é<br />
possibile che vi sia un unico campione di riferimento al mondo e che tutti debbano andare lì a fare<br />
la calibrazione. Questo campione deve essere distribuito, ma in ogni caso, in linea di principio deve<br />
essere possibile fare questa operazione di taratura.<br />
Vediamo ora quali sono i campioni di riferimento per le grandezze di uso più comune: il tempo, la<br />
lunghezza e la massa.<br />
(1.1.1) L’unità di tempo.<br />
È difficile dare una definizione della variabile tempo. Il punto di partenza é la percezione che in<br />
natura vi sono eventi che si ripetono in un modo che noi percepiamo come regolare. I primi esempi<br />
sono il giorno e le stagioni. E, in effetti, la prima definizione (prima in senso storico) di unità di<br />
tempo si basa su questo: il secondo (s) é 1/86400 del “giorno solare medio” . Si tratta di una misura<br />
basata sulla riproducibilità di fenomeni astronomici, in questo caso il moto di rotazione della terra<br />
su sé stessa.<br />
Ben presto ci si accorse che in realtà il giorno solare medio non é sempre uguale, o, detto in altre<br />
parole, che vi sono dei meccanismi astronomici che rendono “irregolari” i moti dei pianeti.<br />
Confrontato con altri fenomeni periodici differenti, si vide che c’erano variazioni “secolari” legati ai<br />
moti complessi della terra. Di qui l’esigenza di riferirsi non a fenomeni astronomici ma a qualcosa<br />
che fosse fisso e ben riproducibile: apparve allora naturale riferirsi a fenomeni che fossero<br />
caratteristici di un certo materiale e che pertanto fossero invariabili nel tempo. Fenomeni di questo<br />
tipo sono dati dalla vasta gamma di emissione di radiazione elettromagnetica da parte di certi<br />
materiali e dalle loro frequenze.<br />
L’attuale definizione di secondo é la seguente: é la durata di 9192631.770 periodi della radiazione<br />
corrispondente alla transizione tra i 2 livelli iperfini dello stato fondamentale dell’atomo di Cesio<br />
133 ( 133 Cs). Quindi occorre un campione di 133 Cs per produrre il campione di riferimento. La<br />
ragione di questo numero così bizzarro (9192631.770) risiede nell’esigenza di mantenere una unità<br />
sostanzialmente equivalente al “vecchio secondo” così radicato nella società. Si noti che in questo<br />
modo il valore del periodo di quella particolare radiazione del Cesio 133é una quantità nota<br />
esattamente, non affetta da incertezza (vedi prossimo paragrafo).<br />
(1.1.2) L’unità di lunghezza.<br />
Nel caso della lunghezza, la cosa più naturale da fare é prendere un’asta e vedere quante “aste” é<br />
lungo il mio misurando. Naturalmente devo scegliere un “asta” opportuna (usare il palmo della<br />
propria mano comporta evidenti problemi). Allora si disse: prendiamo una cosa fissa e tutti ci<br />
riferiamo a quella. Insorsero però dei problemi. Infatti si vide che la lunghezza di questo<br />
“campione” variava al variare della temperatura. Allora si disse: prendiamo un campione di un<br />
10
materiale opportuno (il platino-iridio é una lega di straordinarie proprietà meccaniche e chimiche)<br />
lo mettiamo in un posto fisso a riparo dalle intemperie e lo termostatiamo. La prima definizione di<br />
unità di lunghezza fu questa. Poi si vide che non si riesce a termostatarlo perfettamente e poi che ci<br />
sono dei fenomeni chimici di corrosione, insomma che la barretta di platino-iridio non é<br />
immutabile. Devo riferirmi ad un fenomeno fisico più “solido”. In analogia a quanto fatto per la<br />
variabile tempo si decise di usare il fenomeno dell’emissione di una specie atomica: il metro (m) é<br />
pertanto pari a 1650763.73 lunghezze d’onda nel vuoto della radiazione corrispondente alla<br />
transizione tra i livelli 2p 10 5 d 5 dell’atomo di Kripton 86 ( 86 Kr).<br />
Da alcuni anni tuttavia i metrologi si sono accorti di sapere misurare la velocità della luce nel vuoto<br />
(la quantità c che costituisce anche il limite superiore di ogni velocità) meglio di qualunque altra<br />
cosa. Di qui la definizione attuale del campione di riferimento della lunghezza: il metro é lo spazio<br />
percorso da un raggio di luce nel vuoto in un tempo di 1/299792458 s. Si noti che si tratta di una<br />
definizione che richiede la definizione del secondo. In definitiva significa che ora c (la velocità<br />
della luce nel vuoto) é fissa (nota esattamente). E dunque una distanza é “quanto impiega la luce a<br />
percorrerla”.<br />
L’esempio dell’unità della lunghezza é particolarmente istruttivo. Infatti, ci mostra quello che<br />
accade quando misurando la velocità della luce nel vuoto sempre meglio, si arriva al punto in cui a<br />
limitare la precisione della misura é proprio la definizione dell’unità di lunghezza. A questo punto é<br />
evidente che conviene prendere questa cosa che so misurare così bene come nuova unità.<br />
Si tratta di un procedimento generale. Se misurando sempre meglio un “misurando” mi accorgo che<br />
la precisione della misura é ormai limitata dalla “bontà” del campione di riferimento, allora questo<br />
“misurando” ha tutti i diritti di diventare il nuovo campione. Lo fisso ad un valore arbitrario e d’ora<br />
in avanti mi riferisco ad esso.<br />
(1.1.3) L’unità di massa.<br />
Il kilogrammo (kg) era e rimane il peso di un campione di platino-iridio conservato in un istituto<br />
metrologico nei pressi di Parigi. Non é cambiato, perché ancora non é stato trovato un campione<br />
migliore di questo (ci sono delle proposte di cambiamento, ma per ora il Sistema Internazionale<br />
(vedi seguito) mantiene questo campione di riferimento).<br />
(1.1.4) Sistemi di unità di misura.<br />
Tra le varie grandezze che si possono definire per descrivere i fenomeni fisici, possiamo<br />
individuarne alcune che chiameremo fondamentali ed altre che invece chiameremo grandezze<br />
derivate. Si tratta di una distinzione arbitraria. E’ inutile definire un campione per ogni grandezza:<br />
(esempio v = s /t, E = 1/2 mv 2 ). Per questo si definisce un insieme di grandezze fondamentali da cui<br />
le altre sono derivate secondo le loro definizioni. Come si scelgono le grandezze fondamentali ?<br />
Quelle per cui si trovano i campioni di riferimento “migliori”. Oggi si ha il sistema detto S.I.<br />
(sistema internazionale). Questo si definisce con l’insieme delle grandezze fondamentali. Si noti che<br />
la scelta del S.I. non é univoca. Si possono scegliere (e ci sono) altri sistemi anche con un diverso<br />
numero di unità fondamentali. Si può dimostrare che una sola grandezza fondamentale é sufficiente.<br />
Per fare un esempio, nella fisica delle particelle elementari si usa l’energia come grandezza<br />
fondamentale, e tutte le altre grandezze altro non sono che potenze (positive, negative o nulle)<br />
dell’energia.<br />
Nella tabella che segue sono riportate le unità fondamentali del sistema internazionale ciascuna con<br />
la definizione del campione che la definisce. Si può notare che alcune delle definizioni fanno<br />
riferimento ad altre unità che sono definite indipendentemente.<br />
Tempo secondo (s) Durata di 9192631.770<br />
periodi di una radiazione dal<br />
133 Cs<br />
Lunghezza metro (m) Spazio percorso da un raggio<br />
di luce nel vuoto in un tempo<br />
di 1/299792458 s<br />
11
Massa kilogrammo (kg) Massa del prototipo<br />
campione realizzato in lega<br />
90% platino e 10% iridio e<br />
conservato al BIPM (Parigi)<br />
Intensità di corrente ampere (A) Quella corrente tale che 2<br />
conduttori paralleli e<br />
rettilinei di sezione costante a<br />
1 m di distanza sono attratti<br />
da 2 10 -7 N/m<br />
Temperatura kelvin (K) 1/273.15 della temperatura<br />
del punto triplo dell’acqua<br />
Intensità luminosa candela (cd) Intensità emessa da un corpo<br />
nero di superficie 1/600000<br />
m 2 posto a pressione 101325<br />
Pa e alla temperatura di<br />
solidificazione del platino<br />
Quantità di materia mole (mol) Quantità di materia che<br />
contiene tanti elementi quanti<br />
ne contengono 0.012 kg di<br />
carbonio 12<br />
Associato alla nozione di grandezze fondamentali e derivate, vi é il concetto di dimensioni fisiche:<br />
ogni grandezza ha una dimensione fisica. Le grandezze fondamentali hanno come dimensioni la<br />
grandezza stessa. Quelle derivate, che sono definite da una formula, hanno come dimensione la<br />
combinazione delle grandezze fondamentali che si desume dalla formula stessa. Per indicare le<br />
dimensioni di una grandezza si usano in genere le notazioni [l], [m], [t] (rispettivamente una<br />
lunghezza, una massa, un tempo). Facciamo alcuni esempi di grandezze derivate. La formula per<br />
l’energia cinetica é E = ½ mv 2 , d’altro canto v = s / t, quindi mettendo insieme: [E] = [m] [l] 2 [t] -2 . Il<br />
momento angolare é dato da L = r × mv pertanto le sue dimensioni sono [L] = [m][l] 2 [t] -1 . Infine un<br />
angolo é il rapporto tra l’arco di cerchio [l] e il raggio [l]. In tal caso si dice che la grandezza é<br />
adimensionale.<br />
Le dimensioni non sono da confondere con le unità di misura. Le regole sulle dimensioni (che sono<br />
del tutto naturali) non sono altro che il prolungamento delle regole viste alle scuole elementari,<br />
quando ci dicevano che “non si possono sommare mele con arance”. Quindi in una formula se<br />
compare una somma o una differenza, gli addendi devono avere le stesse dimensioni, così come in<br />
un’equazione i due membri devono avere le stesse dimensioni. Inoltre in espressioni contenenti<br />
esponenziali o logaritmi, gli argomenti di tali funzioni devono essere adimensionali.<br />
Quanto alle unità delle grandezze non elementari, si usano le combinazioni delle unità delle<br />
grandezze elementari corrispondenti. Ad esempio per la velocità si userà m/s. In alcuni casi sì da<br />
anche un nome all’unità. Per esempio per la forza, le cui dimensioni sono massa x accelerazione e<br />
dunque [m] [l] [t] -2 viene introdotto il Newton (N) che é equivalente a dire kg m s -2 . Andando avanti<br />
nel corso introdurremo le varie unità.<br />
Vale la pena ricordare che per alcune grandezze restano in uso unità al di fuori del sistema<br />
internazionale, che sono di uso comune. E’ il caso dell’atmosfera per la pressione, della caloria per<br />
l’energia e cosi’ via.<br />
Infine é anche importante conoscere l’uso dei multipli e dei sottomultipli, per evitare di avere a che<br />
fare con numeri troppo grandi o troppo piccoli. In tabella di seguito é riportato l’elenco di multipli e<br />
sottomultipli con i loro simboli.<br />
12
10 12 Tera T<br />
10 9 Giga G<br />
10 6 Mega M<br />
10 3 Chilo k<br />
10 2 Etto h<br />
10 1 Deca da<br />
10 -1 Deci d<br />
10 -2 Centi c<br />
10 -3 Milli m<br />
10 -6 Micro μ<br />
10 -9 Nano n<br />
10 -12 Pico p<br />
10 -15 Femto f<br />
10 -18 Atto a<br />
(1.2) Il concetto di incertezza di misura<br />
Fin qui tutto semplice. Ma c’è un fatto in più che rende il mestiere dello sperimentatore più<br />
complesso ed interessante. C’è una caratteristica fondamentale: la misura fornisce una conoscenza<br />
intrinsecamente incerta. Ciò può apparire contraddittorio. Infatti riguardo alla Scienza si usano<br />
spesso espressioni del tipo “Scienza Esatta”, o frasi del tipo “è scientificamente provato” o simili.<br />
Qui occorre sgomberare il campo da equivoci. Scienza Esatta non significa fare affermazioni<br />
assolutamente precise e indiscutibili. Significa piuttosto fare affermazioni nelle quali é indicato in<br />
modo chiaro il limite di attendibilità dell’affermazione stessa. (Attenzione alle parole e ai luoghi<br />
comuni dunque.).<br />
In che senso la misura, come si é appena detto, fornisce una conoscenza intrinsecamente incerta ?<br />
Vediamo alcuni esempi di sorgenti di incertezza. Misuriamo la lunghezza del tavolo.<br />
(1) Con un regolo (un metro nel linguaggio comune) posso dire che il risultato é tra qui e qui,<br />
12.3 e 12.4 cm per esempio; basta che stabilisco tra quali divisioni (dette anche tacche) dello<br />
strumento si situa la mia misura.<br />
(2) Allora prendo uno strumento molto più “preciso” le cui divisioni sono di 10 micron (per<br />
esempio un calibro palmer di quelli che vedremo in laboratorio) e ottengo che la misura si situa tra<br />
12.324 12.325 cm; certo ho ristretto l’intervallo, ma sempre di un “intervallo” si tratta;<br />
Mi chiedo allora c’è modo di arrivare a dire: il tavolo é lungo 12.3246 cm ? Oppure intrinsecamente<br />
posso solo dare un intervallo ? Evidentemente si’. Qualsiasi strumento darà un intervallo. Ma c’è di<br />
più.<br />
(3) Se ripeto la misura un po’ più in là ottengo una cosa diversa. Quant’è lungo il tavolo ? Qui<br />
siamo di fronte ad una carenza nella definizione di quello che voglio misurare. Voglio misurare il<br />
tavolo si’, ma in che punto ?<br />
(4) Ripeto poi la misura facendola nello stesso punto, ma la sera. Trovo che l’intervallo ora é<br />
12.327 e 12.328. Che succede ? Evidentemente il tavolo sta soffrendo di effetti di dilatazione<br />
termica. Pertanto di nuovo la definzione é manchevole. La domanda giusta da porre é quant’è lungo<br />
il tavolo a quella temperatura ? Ma c’è di più ancora.<br />
(5) Prendo un altro strumento “uguale” (un altro esemplare dello stesso strumento) e misuro<br />
sullo stesso punto alla stessa ora: ottengo l’intervallo 12.319 e 12.320. Allora ? Probabilmente é<br />
accaduto che gli esemplari dei due strumenti sono scalibrati.<br />
Il valore vero di questa grandezza (lunghezza del tavolo) é dunque “elusivo” per tante ragioni. Che<br />
cos’è il valor vero ? La definizione metrologica é: valore vero = “un valore compatibile con la<br />
definizione della grandezza”. Come abbiamo visto, affinché sia univoco, deve essere ben definito.<br />
Ricapitoliamo le varie ragioni di incertezza che abbiamo incontrato nell’esempio visto.<br />
13
(a)<br />
Limitazione dello strumento (che rimane anche quando prendo uno strumento molto<br />
“migliore”) dovuta alla spaziatura tra le divisioni.<br />
(b)<br />
Problema della calibrazione (infatti devo aver confrontato il mio regolo con il<br />
campione di riferimento in qualche modo). Ma se non l’ho fatto ? O se nel frattempo qualcosa del<br />
mio strumento é cambiato ?<br />
(c) Cattiva definizione di quello che misuro (lunghezza del tavolo dove ?, a che ora ?)<br />
(d) Effetti non considerati che alterano la cosa che sto misurando (dilatazione termica del tavolo).<br />
(e)<br />
(f)<br />
Si noti che tra le ragioni di incertezza elencate, la (c) si applica non a tutte le grandezze fisiche.<br />
Alcune grandezze infatti hanno un carattere “universale” e sono perfettamente definite: la velocità<br />
della luce nel vuoto, la massa del protone, la costante di Planck etc.. La misura di queste grandezze<br />
é dunque affetta da errori di misura tutti inerenti il metodo di misura (inteso in senso lato) ma non é<br />
affetta da errori di misura relativi alla definizione della grandezza.<br />
Per ora concludiamo questa prima analisi delle incertezze accennando al fatto che ci possono essere<br />
altre cause. Tra queste:<br />
Limitazione nella conoscenza di altre cose che mi servono per arrivare al mio<br />
risultato (per esempio alcune costanti fondamentali, o il risultato di altre misure).<br />
Limitatezza del campione (qui la parole campione ha un significato diverso da quella<br />
di unità campione), cioè limitatezza delle informazioni disponibili (è il discorso dei conteggi cui<br />
abbiamo già accennato).<br />
In ogni caso l’esito del processo di misura é un numero: il valore misurato μ. Nel nostro caso sarà<br />
per esempio il centro dell’intervallo tra gli estremi del quale cade la misura. Ma per quanto detto<br />
finora il risultato non può limitarsi a quel numero proprio perché la mia conoscenza é comunque<br />
incerta. Sembra (dagli esempi visti) molto più sensato dare un intervallo di valori che in sostanza<br />
mi dice entro quali valori io penso sia il valore vero.<br />
Diamo allora le seguenti definizioni:<br />
L’Incertezza, é la stima data dallo sperimentatore della larghezza dell’intervallo” nel quale lui<br />
“crede” debba essere il valor vero. Qui il termine “crede” é ambiguo ma verrà precisato in seguito.<br />
In genere viene data come metà dell’intervallo.<br />
La Stima del valor vero (miglior valore, valore centrale) é il valore centrale, quello che mi<br />
convince di più. In genere é il centro dell’intervallo per cui il modo più tipico di dare il risultato<br />
sarà:<br />
valore centrale ± incertezza.<br />
L’Errore di Misura é invece la differenza tra valor vero e valore misurato: non accessibile<br />
sperimentalmente (se lo sapessi saprei il valor vero)<br />
Si noti la differenza tra i termini errore ed incertezza che spesso nell’uso comune sono ugualmente<br />
usati. Usando correttamente i termini diciamo: in virtù dell’esistenza di errori di misura, lo<br />
sperimentatore deve valutare l’incertezza di misura e dare il risultato della sua misura come<br />
intervallo tra due valori della grandezza.<br />
L’errore di misura in generale ha tanti contributi con caratteristiche diverse (alcuni che posso far<br />
diminuire quando aumento le informazioni a mia disposizione, altri no). L’incertezza deve stimare<br />
tutti i contributi possibili. Nel caso della misura della lunghezza del tavolo fatta con il calibro<br />
avente una divisione minima di 10 μm, vi sono 4 contributi: (1) l’incertezza dovuta alla limitazione<br />
della lettura (~ 10 μm), (2) quella dovuta alla calibrazione assoluta dello strumento (una stima é la<br />
differenza tra la misura fatta da 2 esemplari dello stesso strumento ~ 40 μm), (3) quella dovuta<br />
all’effetto della temperatura (~ 30 μm) ed infine (4) quella dovuta alla definizione del misurando (in<br />
che punto misuro ~ 30 μm). Si tratta come si vede di un caso complesso in cui “convivono” diverse<br />
sorgenti di incertezza dello stesso “ordine di grandezza”, nessuna veramente “trascurabile”.<br />
14
Ricapitolando: poiché le misure sono affette da errori di misura occorre stimarne le incertezze. Non<br />
si può mai dare un solo numero come risultato, occorre dare un intervallo nel quale io dico debba<br />
cadere il valore vero. E la determinazione di tale intervallo deve contenere una stima di tutte le<br />
possibili sorgenti di errore che posso pensare. Fare un esperimento significa essenzialmente fare<br />
questo.<br />
La bravura dello sperimentatore consiste nel progettare l’esperimento e nel realizzarlo in modo che<br />
le incertezze siano “piccole” rispetto alla precedente conoscenza della grandezza in misura.<br />
Accenniamo qui al fatto che in molti casi é opportuno utilizzare l’incertezza relativa, cioè il<br />
rapporto tra la larghezza dell’intervallo, ovvero l’incertezza ed il valore centrale dell’intervallo.<br />
L’incertezza relativa ha il pregio di permettere un confronto tra le incertezze di misure diverse. Per<br />
esempio se io misuro una con una incertezza di un micron una lunghezza di 100 micron ho una<br />
misura al “percento”, perché il rapporto 1 μm / 100 μm = 0.01 = 1%. Se invece misuro sempre con<br />
una incertezza di un micron una lunghezza di 1 m, ho una incertezza relativa di 10 -6 m / 1 m =10 -6 ,<br />
cioè sto misurando una lunghezza con una incertezza di una parte su un milione. Nei due casi<br />
illustrati le incertezze assolute sono le stesse (1 μm) ma le incertezze relative sono molto diverse (di<br />
ben 4 ordini di grandezza). Nel gergo dei fisici si usano spesso espressioni del tipo, “misura al<br />
percento” oppure “al permille”. Con tali espressioni si indica l’incertezza relativa della misura.<br />
(1.3) Esempi di valutazioni “qualitative” di incertezza<br />
Vediamo ora alcuni semplici esempi di stima dell’incertezza nel caso di misure dirette. Non si tratta<br />
di apprendere regole da applicare ma di imparare il metodo con cui i fisici generalmente discutono i<br />
vari casi che si presentano.<br />
(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento<br />
In molti casi fare una misura si riconduce alla lettura o di un display (lettura digitale) o della<br />
posizione di un ago su una scala graduata (lettura analogica). In cosa si distinguono il digitale e<br />
l’analogico (parole, la prima in particolare, usate anzi abusate oggi). In generale uno strumento che<br />
dà una risposta digitale é uno strumento che fornisce solo un insieme “discreto” di possibili<br />
risposte; lo strumento analogico dà un insieme “continuo” di possibili risposte.<br />
Consideriamo separatamente i due casi:<br />
(1) Lettura di un display. Se leggo un numero 5407.1 e questo numero é stabile (le cifre non<br />
cambiano nel tempo) l’unica conclusione che posso trarre é che il valore della misura sarà compreso<br />
tra 5407.05 e 5407.15. Infatti se fosse stato 5407.16 sarebbe stato approssimato a 5407.2 e cosi’ via.<br />
Posso dire niente di più ? Direi di no. Non so per esempio se é più ragionevole 5407.08 o 5407.09<br />
per me sono tutti ugualmente plausibili e ragionevoli. Dunque posso dare un intervallo 5407.10 ±<br />
0.05. Si noti che taluni strumenti possono usare diversi tipi di approssimazioni. Per esempio<br />
possono approssimare all’intero inferiore. In tal caso il nostro 5407.1 sarebbe equivalente ad un<br />
intervallo compreso tra 5407.1 e 5407.2 e il risultato potrebbe scriversi come 5407.15 ± 0.05.<br />
(2) Lettura di un ago fisso su una scala graduata. Ci sono intanto alcune cose da definire. La<br />
divisione é la distanza tra 2 tacche contigue; il fondo scala é il valore in corrispondenza del quale<br />
l’ago si porta all’estremo della scala. Più in là non si può andare. Proviamo a leggere la misura in<br />
questo caso. Devo dare una interpolazione tra divisioni; fino a che punto ci si può spingere ? Se do<br />
come intervallo le 2 tacche intorno all’ago certamente do un intervallo corretto. Sono certo che la<br />
misura sta li’. Tuttavia in questo caso posso fare meglio. Posso stabilire a quale delle 2 divisioni<br />
l’ago si é avvicinato di più, ci sono delle zone in cui é più plausibile situare il valore vero. Posso<br />
provare a stimare il più piccolo intervallo nel quale si situa con certezza il valore della misura. Nel<br />
corso della Esercitazione 1 cercheremo di stimare la capacità di interpolare tra le divisioni. Per ora<br />
ci limitiamo a stimare la capacità di interpolazione guardando i 5 esempi di Fig.1.1.<br />
15
Fig.1.1 Esempi di aghi analogici su scale graduate. Lo studente può tentare una prima interpolazione “a occhio” e<br />
poi controllare con i valori veri dati qui di seguito (sarebbe bene coprire questi numeri mentre si interpola con lo<br />
stesso metodo della prima esercitazione di laboratorio). [valori veri: 12.2210 / 12.7087 / 12.3500 / 12.5840 /<br />
12.8630 ]<br />
In generale fin qui ho stimato un intervallo massimo ovvero il più piccolo intervallo tale che sono<br />
“sicuro” che il valor vero della misura sia là dentro. Non ho specificato se alcune parti<br />
dell’intervallo sono più plausibili di altre. Nel caso del display digitale come abbiamo visto non c’è<br />
modo di fare di più. Nel caso della scala analogica invece posso fare qualcosa di più. Infatti ad<br />
alcune zone dell’intervallo credo di più che ad altre. Posso per esempio dire che la misura “non é”<br />
sulla divisione, oppure che é nella prima o nella seconda metà dello spazio tra le due divisioni.<br />
(1.3.2) Caso dei conteggi.<br />
Vi é un tipo di misura di grandissimo interesse ma che sfugge ai 2 schemi presentati nel precedente<br />
paragrafo. E’ il caso del conteggio cioè di una misura che si riconduce alla conta di un numero di<br />
volte in cui vi é una certa cosa. Appartengono alla classe dei conteggi i seguenti fenomeni: misure<br />
di radioattività (conto il numero di eventi radioattivi in un dato tempo), misure di concentrazione di<br />
una data specie, incidenza di una malattia in una popolazione, sondaggi e tutto il resto delle<br />
“misurazioni sociologiche”. Si tratta di tutti quei fenomeni in cui sono interessato al numero di<br />
occorrenze indipendentemente dall’ordine con cui queste si presentano. Possono essere nel dominio<br />
del tempo o dello spazio o di qualsiasi altra variabile. In ogni caso il risultato del conteggio é un<br />
numero intero (la variabile é dunque discreta non continua).<br />
Supponiamo di voler sapere quanti studenti si iscrivono al corso di laurea in fisica nella nostra<br />
Università. Li contiamo e troviamo 206. Cosa posso dire di questo numero ? Uno potrebbe dire che<br />
essendo un numero intero vale la regola del digit e dire 206.0 ± 0.5 ma evidentemente direbbe una<br />
sciocchezza. In realtà se la domanda che ci poniamo é quanti studenti si sono iscritti a fisica la<br />
risposta é 206 con incertezza nulla (a meno di non aver banalmente sbagliato il conteggio). Il<br />
problema sorge se vogliamo usare questo numero per stabilire quanti studenti in media si iscrivono<br />
a fisica in questi anni, oppure quanti possiamo prevedere se ne iscriveranno l’anno prossimo. Anche<br />
supponendo che le condizioni sociali non cambino e che gli orientamenti studenteschi rimangano<br />
immutati, nessuno direbbe mai che se ne iscriveranno di nuovo esattamente 206, ma tutti sappiamo<br />
che questo numero é destinato a fluttuare. Ma a fluttuare quanto ?é ragionevole supporre che se ne<br />
16
iscriveranno 50 o 2000 ? Intuitivamente direi di no. La teoria della probabilità e la statistica<br />
permettono in effetti di trattare le modalità di fluttuazione dei conteggi quando certe condizioni<br />
molto generali sono verificate. Le vedremo con un certo dettaglio nei prossimi capitoli.<br />
(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri.<br />
Supponiamo ora che il display o l’ago non sono fissi ma si muovono, magari vibrano come spesso<br />
accade. Siamo in presenza di fluttuazioni, cioè del fatto che per certe ragioni, il risultato della<br />
misura presenta una variazione casuale e non predicibile nel tempo<br />
(1) Lettura display con una o più cifre che cambiano (le cifre di destra evidentemente cambiano più<br />
rapidamente di quelle di sinistra, la cifra che si trova all’estrema destra é anche detta “digit meno<br />
significativo”). In tal caso si cerca di capire quant’è il massimo e quant’è il minimo assunti dal<br />
display al passare del tempo. Tali due valori cosi’ ottenuti forniscono un “rudimentale” intervallo<br />
massimo. Si noti però che se io aspetto un po’ per trovare massimo e minimo nessuno mi garantisce<br />
che aspettando un po’ di più io non trovi un numero fuori dall’intervallo. Cioè non sono<br />
completamente certo in questo caso che la misura sia là dentro. Anzi, l’estensione dell’intervallo é<br />
qualcosa che in generale cresce al passare del tempo (sicuramente non decresce), e dipende anche<br />
da fluttuazioni anomale (per esempio uno sbalzo della rete può dare un valore completamente<br />
sbagliato che non ha molto significato includere nella mia valutazione). Fatte salve queste<br />
considerazioni, il centro dell’intervallo ± la sua semiampiezza é comunque una stima ragionevole.<br />
(2) Lettura di un ago che vibra su una scala graduata. Si può applicare lo stesso metodo discusso<br />
sopra per il display digitale con le stesse “critiche” fatte.<br />
(3) Nel caso in cui sono in condizioni di ripetere la misura (naturalmente devono essere immutate le<br />
condizioni) e se ogni volta ottengo un numero diverso (per esempio fotografo ad intervalli regolari<br />
il mio ago che vibra, oppure leggo il display ad intervalli regolari o acquisisco i suoi valori tramite<br />
calcolatore) posso usare tutto il complesso di numeri ottenuto per tentare una stima un po’ più<br />
approfondita di come vanno le cose.<br />
I dati che ho ottenuto costituiscono una sequenza di numeri (registrati su computer o scritti su logbook),<br />
cioè una tabella tempo-valore, in cui il valore si può riferire a qualunque grandezza fisica<br />
(una massa, un numero di persone..). Approfondiamo con il prossimo paragrafo cosa si può fare in<br />
questo caso.<br />
(1.3.4) Analisi grafica della sequenza di numeri.<br />
Intanto chiamiamo campione l’insieme dei dati ottenuto. Questo termine ha qui un significato<br />
diverso da quello che abbiamo usato in metrologia. Sta ad indicare semplicemente un insieme di<br />
dati sperimentali.<br />
Vediamo come rappresentare e descrivere il campione, utilizzando dei metodi grafici. Si tratta di<br />
“ridurre” una sequenza di tanti numeri a quelle informazioni che sono rilevanti ai fini della<br />
comprensione del problema. Ci accorgiamo subito che a tale scopo la rappresentazione grafica é<br />
estremamente efficace.<br />
Una prima cosa da fare é un grafico del risultato in funzione del tempo (o di altre variabili<br />
rilevanti). Questo grafico infatti permette di fare una analisi delle fluttuazioni e di chiedersi in<br />
particolare se queste sono “casuali” o se c’è piuttosto una “tendenza”. Qui si può fare una prima<br />
analisi “a occhio” per capire. In generale l’occhio tende a confrontare la variazione della grandezza<br />
con le dimensioni delle fluttuazioni e tende a giudicare se una tendenza in un grafico é o no<br />
“significativa”. In altre parole il nostro occhio tende a distinguere tra un andamento (che é la cosa<br />
significativa che vogliamo studiare) e una serie di fluttuazioni casuali che semplicemente rendono i<br />
valori misurati più dispersi. Per questo confrontiamo le Fig.1.2 e Fig.1.3. In entrambe le figure sono<br />
riportate sequenze di 20 misure. Nel primo caso non si osserva alcun andamento ma solo delle<br />
17
fluttuazioni. Nel secondo caso invece, si ha una chiara tendenza all’aumento, sebbene sovrapposta<br />
ad una “banda” di fluttuazioni. In entrambe le figure sono disegnate due tipi di curve: delle spezzate<br />
cioè dei segmenti che uniscono i vari punti, ed un unica curva continua che dà l’idea<br />
dell’”andamento medio”. Si noti che mentre le spezzate non hanno molto significato (infatti non<br />
fanno altro che seguire delle fluttuazioni irrilevanti), le curve continue danno una idea chiara<br />
dell’andamento dei dati che in un caso (Fig.1.2) é piatto, nell’altro (Fig.1.3) é invece a crescere.<br />
Un secondo tipo di grafico é l’istogramma delle misure. Vediamo come si costruisce l’istogramma<br />
dei valori. Si divide l’intervallo di valori possibili in sottointervalli (vengono detti bin). Poi si conta<br />
il numero di valori che cadono in ciascun sottointervallo (contenuto del bin) e si fa una barra per<br />
ciascun intervallo di altezza proporzionale al contenuto del bin. La scelta del binning cioè delle<br />
dimensioni del bin deve essere ben calibrata. Ci sono infatti 2 estremi da evitare, ambedue sbagliati:<br />
bin troppo piccolo e bin troppo grande. Ciò é esemplificato dalle Fig.1.4 e 1.5 dove uno stesso<br />
campione di dati é rappresentato con binnaggi molto diversi. La scelta del binnaggio dipende<br />
essenzialmente dalle seguenti 3 considerazioni: (1) dalla “dispersione” delle misure cioè da quanto<br />
é largo l’intervallo nel quale sono distribuite; (2) dal numero di valori che si ha nella sequenza: se i<br />
valori sono tanti uno tende a restringere il bin, in caso contrario bin troppo stretti alzano le<br />
fluttuazioni tra i contenuti dei sottointervalli; (3) dalla scala delle variazioni della grandezza a cui<br />
sono interessato. La Fig.1.5 illustra un caso in cui la considerazione (3) gioca un ruolo molto<br />
rilevante. E’ utile discutere quale binnaggio sia il migliore tra quelli provati alla luce delle<br />
considerazioni svolte sopra.<br />
In generale nel passare dal grafico dell’andamento all’istogramma ho perso informazioni. Infatti<br />
una volta messi i valori nei bin non so più con che sequenza sono arrivati. Inoltre tutti i valori che<br />
cadono in un bin a questo punto sono uguali (associabili al centro del bin).<br />
Fig.1.2: Grafico della variabile in funzione del tempo per una sequenza di 20 misure. (a) grafico semplice, (b)<br />
grafico con una spezzata cioè con una linea che unisce i punti e (c) grafico con sovrapposta una retta che esprime<br />
un andamento “piatto” medio dei punti.<br />
18
Fig.1.3: Come per la figura 1.2 solo che stavolta si ha un andamento molto chiaro e in (c) tale andamento é indicato<br />
con una retta di coefficiente angolare positivo.<br />
Fig.1.4 Campione di 2000 valori istogrammato in 3 modi diversi con diversa scelta del binning. Si noti come sono<br />
diverse le informazioni che si hanno a occhio. Il caso intermedio sembra comunque costituire la scelta più sensata.<br />
19
4000<br />
3500<br />
3000<br />
2500<br />
2000<br />
1500<br />
1000<br />
500<br />
0<br />
600 650 700 750 800 850 900 950 1000<br />
M(ππ) (MeV)<br />
40000<br />
35000<br />
30000<br />
25000<br />
20000<br />
15000<br />
10000<br />
5000<br />
0<br />
600 650 700 750 800 850 900 950 1000<br />
M(ππ) (MeV)<br />
Fig.1.5. Esempio di uno stesso istogramma in due diversi binnaggi. Nella figura in alto l’istogramma ha un<br />
binnaggio di 1.2 MeV, nel secondo di 12 MeV. Si tratta di un caso in cui l’istogramma con binnaggio più<br />
largo non permette di evidenziare delle “strutture fini” come i 2 picchi alla destra della distribuzione, che<br />
invece sono evidenziati dal primo binnaggio.<br />
L’istogramma si chiama anche distribuzione delle misure. Se anziché riportare il numero di eventi<br />
per bin riporto il numero di eventi nel bin diviso per il numero totale di eventi, sto facendo una<br />
distribuzione di frequenze. Si definisce frequenza infatti la frazione di volte in cui un evento cade in<br />
un dato sottointervallo. E’ un numero che mi dice quanto spesso, se ripeto la misura, questa cadrà<br />
all’interno di quel bin. E’ qualcosa che può fornire indicazioni per eventualmente scommettere su<br />
dove finirà la misura.<br />
Si noti che nei casi discussi sopra (digit o ago fermi) i grafici non “aiutavano” molto: avremmo<br />
avuto un unico bin e una sequenza di numeri tutti uguali.<br />
Facciamo ora alcune considerazioni sui grafici.<br />
A cosa serve un grafico ? In generale serve per “far capire bene una certa cosa”. Quindi la sua<br />
principale proprietà deve inevitabilmente essere la chiarezza. Originariamente i grafici venivano<br />
fatti a mano utilizzando la carta millimetrata . Oggi l’uso dei computer rende la carta millimetrata<br />
“obsoleta”. Tuttavia fidarsi solo dei computer é per molti versi pericoloso come abbiamo già visto.<br />
Per questo é opportuno usare come primo approccio ai grafici proprio la carta millimetrata.<br />
Di cosa dobbiamo preoccuparci quando facciamo un grafico:<br />
- sapere quali sono la/le grandezze nei 2 assi e quali sono le (eventuali) unità di misura;<br />
- riuscire a capire quali sono le scale; la scala definisce il massimo ed il minimo di ciascun asse<br />
coordinato e le loro “divisioni”. Deve essere indicata in modo che sia comprensibile. A tale scopo é<br />
opportuno mettere “numeri semplici” sugli assi, non “numeri strani” (vedremo meglio questo nelle<br />
esercitazioni);<br />
- i “punti sperimentali” devono essere chiaramente visibili e deve essere facile individuarne i valori<br />
numerici usando la scala.<br />
20
Fig.1.6 Tre esempi di istogrammi. Per ciascuno sono indicati i valori dei 3 descrittori globali che abbiamo<br />
introdotto nel testo: media, moda e mediana. Le 3 linee sono disegnate in corrispondenza delle mediane.<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1<br />
cos(θ)<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
0<br />
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1<br />
cos(θ)<br />
Fig.1.7. Due esempi di distribuzioni angolari molto diverse definite però nello stesso intervallo (-0.7:0.7). Sono<br />
indicati gli intervalli x ± s e x ± 2s. In entrambi i casi l’intervallo x ± 2sé sufficiente per includere tutta la<br />
distribuzione e costituisce pertanto un intervallo di certezza. L’intervallo x ± sé invece parziale e racchiude il<br />
61% degli eventi nel grafico in alto ed il 58% in quello in basso.<br />
21
(1.3.5) Caratteristiche riassuntive di una sequenza di numeri<br />
Oltre ai grafici voglio però dare dei numeri riassuntivi al fine di stimare appunto il miglior valore e<br />
l’incertezza. Voglio definire dei “descrittori globali” del mio campione.<br />
Media aritmetica: si tratta di una nozione intuitiva che indica il valore che meglio rappresenta il<br />
campione. L’operazione di media aritmetica é “elementare” e “naturale” nel senso che anche senza<br />
se non ce ne accorgiamo la facciamo spesso.<br />
Come si fa la media ? Se ho fatto N misure e ho ottenuto i valori x , x ,..., x definisco media<br />
1 2<br />
N<br />
aritmetica la quantità:<br />
x<br />
= 1<br />
N<br />
∑ xi<br />
i=<br />
N<br />
Tuttavia la quantità cosi’ definita non sempre corrisponde al “valore centrale” o a quello “più<br />
probabile” della distribuzione. Ci sono esempi di distribuzioni in cui la media aritmetica non é né<br />
l’una ne l’altra delle due cose. In Fig.1.6 sono riportati degli esempi di istogrammi di misure con i<br />
valori corrispondenti della media. Si vede immediatamente che solo in caso di istogrammi<br />
simmetrici la media ha il significato intuitivo di valore centrale e più probabile.<br />
Si possono definire altre misure: la Moda é il valore più probabile della grandezza ovvero il picco<br />
più alto dell’istogramma; la Mediana é quel valore della grandezza tale che la frequenza che venga<br />
di meno é uguale alla frequenza che venga di più. Quando l’istogramma é simmetrico come nel<br />
caso del primo dei 3 riportati in Fig.1.6 le tre misure dette sostanzialmente coincidono. Negli altri 2<br />
casi invece la media aritmetica non corrisponde al centro dell’istogramma.<br />
Se ho dei valori istogrammati posso raggruppare i valori e allora posso definire<br />
x<br />
b<br />
Nb<br />
∑ n x<br />
k<br />
k=<br />
1<br />
∑ n<br />
= Nb<br />
k=<br />
1<br />
k<br />
b<br />
k<br />
b<br />
in cui Nb é il numero di bin, n è il contenuto del k-esimo bin ed x è il centro del k-esimo bin. Si<br />
k<br />
k<br />
noti che Nb é diverso da N. Le due definizioni di media aritmetica sono leggermente differenti.<br />
Infatti nel secondo caso in realtà finisco per attribuire a ciascuna misura il centro del bin cui<br />
appartiene. Quindi si “perde” informazione. La seconda definizione può dunque portare a<br />
distorsioni del valore della media, distorsioni tanto più grandi quanto maggiore é la dimensione del<br />
bin scelta.<br />
Notiamo inoltre che, da quanto detto, occorre fare attenzione al fatto che la media ha un significato<br />
chiaro solo se non ci sono andamenti sovrapposti alle fluttuazioni. In generale infatti la dispersione<br />
dell’istogramma totale ha una componente dovuta alle fluttuazioni ed una componente che dipende<br />
dal tempo dovuta proprio all’andamento (questo si applica in particolare ai dati di Fig.1.3). La<br />
media quindi in questo caso dipende da dove e quanto campioniamo.<br />
Oltre alla posizione voglio stimare la dispersione (che é legata all’incertezza sulla misura) cioè la<br />
larghezza dell’istogramma o della banda di fluttuazione nel grafico.<br />
Posso fare ( massimo – minimo ) / 2 ottenendo cosi’ un intervallo massimo. Ciò corrisponde a<br />
quanto detto sopra per il caso di misure digitali con cifre fluttuanti o nel caso di un ago in moto. Si<br />
presta alla critica fatta allora. Abbiamo bisogno di un metodo più “stabile”.<br />
Deviazione Standard Campionaria. Allo stesso modo con cui ho definito la media aritmetica<br />
come stima del valore centrale, posso definire come stima della dispersione, la “media degli scarti<br />
dalla media”. Tuttavia mi accorgo immediatamente che se definisco<br />
22
N<br />
∑(<br />
x − x)<br />
i<br />
i<br />
s = = 1 N<br />
cioè la media degli scarti, ho una variabile identicamente nulla. Infatti si ha:<br />
1<br />
= ∑ N<br />
xi<br />
Nx<br />
i= s − = x − x = 0<br />
N N<br />
per definizione. In effetti ciò significa che la media aritmetica é proprio quel valore di x rispetto al<br />
quale é nulla la media degli scarti. Una definizione più appropriata di dispersione si ottiene<br />
considerando la media degli scarti al quadrato<br />
s<br />
N<br />
∑(<br />
x<br />
− x)<br />
2<br />
2<br />
i<br />
i=<br />
= 1<br />
N<br />
e poi prendendone la radice quadrata (per avere anche una grandezza omogenea dimensionalmente<br />
a x):<br />
s<br />
i=<br />
1<br />
=<br />
N<br />
∑(<br />
x<br />
i<br />
− x)<br />
N<br />
2<br />
Si tratta di una grandezza sempre positiva che prende il nome di deviazione standard campionaria o<br />
anche semplicemente deviazione standard. Il suo quadrato é detto varianza campionaria o<br />
semplicemente varianza. Il suo significato é chiaramente intuitivo (quanto scarto in media dalla<br />
media). Rispetto alla stima dell’intervallo massimo, ha il vantaggio di usare tutti i dati e di essere<br />
meno sensibile ad eventuali fluttuazioni anomale. Nel seguito del corso vedremo più<br />
approfonditamente il suo significato. Per ora essa é una stima della “dispersione delle misure”.<br />
Si noti che in base alla definizione appena fatta, c’è un secondo modo di calcolare la deviazione<br />
standard campionaria. Infatti essa può essere espressa come (consideriamo prima la varianza<br />
campionaria):<br />
s<br />
2<br />
N<br />
∑(<br />
xi<br />
i=<br />
1<br />
=<br />
2<br />
− 2x<br />
x + x<br />
N<br />
i<br />
2<br />
)<br />
N<br />
∑ xi<br />
i=<br />
1<br />
=<br />
N<br />
2<br />
N<br />
x∑<br />
xi<br />
i=<br />
1<br />
− 2<br />
N<br />
+ x<br />
2<br />
=<br />
x<br />
2<br />
− x<br />
cioè come la differenza tra la media dei quadrati e il quadrato della media. Si noti che tale<br />
differenza non é 0 in generale ma é per definizione una quantità positiva. Cosi’ definita, la<br />
deviazione standard può essere valutata senza aver prima valutato la media aritmetica. Dal punto di<br />
visto del calcolo, significa che anziché fare 2 “loops” sulle misure, é sufficiente farne 1.<br />
Se definisco un intervallo centrato nella media e di semilarghezza pari alla deviazione standard,<br />
questo intervallo non é un intervallo massimo. Rappresenta solo una parte della larghezza. Non<br />
sono certo che la misura cada là dentro. Tuttavia é una misura proporzionale alla larghezza. Fig.1.7<br />
mostra per alcuni istogrammi, l’intervallo centrato sulla media delle misure e avente la deviazione<br />
standard come semilarghezza. Si può osservare (si tratta di una osservazione su base puramente<br />
empirica per la quale troveremo una giustificazione nel seguito del corso) che costruendo intervalli<br />
di semilarghezza pari a 3 volte la deviazione standard, si ottengono intervalli all’interno dei quali<br />
praticamente tutti i valori sono contenuti. Nel seguito chiameremo tali intervalli, intervalli di quasicertezza.<br />
Nel seguito vedremo anche che la deviazione standard come l’abbiamo definita deve essere corretta<br />
per tenere conto del fatto che nel considerare gli scarti tra ciascuna misura e la media aritmetica, in<br />
realtà sto usando 2 volte ciascuna misura: infatti ciascuna misura compare sia nella media, che<br />
come singola misura. Questo fatto si traduce nella seguente definizione:<br />
2<br />
23
(<br />
1<br />
= ∑ N<br />
xi<br />
i=<br />
s<br />
N<br />
− x)<br />
−1<br />
2<br />
in cui viene sottratta una unità al denominatore. Nel seguito chiameremo deviazione standard<br />
campionaria la quantità s appena definita e chiameremo s quella con N al posto di N-1.<br />
Anche per s vale una forma analoga a quella vista per<br />
s<br />
2<br />
N<br />
=<br />
N −1<br />
2<br />
2<br />
( x − x )<br />
Infine per la deviazione standard campionaria si può dare una definizione sull’istogramma come per<br />
la media, nella forma:<br />
s =<br />
Nb<br />
∑<br />
k = 1<br />
n ( x<br />
k<br />
Nb<br />
∑<br />
k=<br />
1<br />
n<br />
b<br />
k<br />
k<br />
− x)<br />
−1<br />
2<br />
per la quale valgono le stesse considerazioni fatte per la media.<br />
Ricapitolando: sono andato riducendo i dati cercando di mantenere le informazioni rilevanti: dalla<br />
sequenza di numeri ho ricavato il grafico in funzione del tempo, quindi l’istogramma dei valori<br />
(prima perdita di informazioni), infine ho imparato a valutare la “posizione” e la “dispersione” del<br />
campione (seconda perdita di informazioni).<br />
s<br />
N<br />
N<br />
Fig.1.8: Sequenza di 1000 misure ripetute ogni 10 secondi. Nella figura di sotto sono riportate le medie fatte ogni<br />
20 misure. Si noti il restringimento della banda di fluttuazioni.<br />
24
Fig.1.9: Per la sequenza illustrata in Fig.1.3 facciamo l’istogramma delle prime 100 misure, quello di tutte le 1000<br />
misure ed infine l’istogramma delle medie fatte ogni 20 misure. Si noti<br />
aggiungendo statistica la distribuzione mantiene sostanzialmente la stessa larghezza;<br />
l’istogramma delle medie é “molto più stretto”.<br />
(1.3.6) Stima di intervalli.<br />
Consideriamo ancora il caso in cui ho N misure ripetute di una grandezza fisica secondo le modalità<br />
viste nel precedente paragrafo. Dopo averle studiate graficamente e averne calcolato le<br />
“caratteristiche riassuntive” media e deviazione standard campionaria, voglio concludere dando in<br />
forma compatta il risultato della misura sotto forma di un valore centrale e di un’incertezza. Che<br />
informazione voglio dare con questo intervallo di incertezza ? Il mio obiettivo rimane quello di dire<br />
qualcosa riguardo il valor vero, cioè di dare un intervallo in cui deve trovarsi il valor vero. Ma al<br />
tempo stesso la mia affermazione deve anche essere predittiva. Cioè devo predire la cosa seguente:<br />
se io o un’altra persona ripetiamo la misura in quale intervallo cadrà tale misura ? In questa<br />
prospettiva devo subito distinguere tra 2 possibilità:<br />
(a) Stimo un intervallo tale che la prossima misura cada là dentro.<br />
(b) Stimo un intervallo tale che se rifaccio N misure la loro media cada là dentro.<br />
Occorre distinguere bene i 2 casi, cioè il caso in cui sono interessato alla incertezza sulla singola<br />
misura (caso (a)) e il caso in cui sono interessato all’incertezza sulla media (caso (b)).<br />
A questo proposito é interessante fare l’esercizio illustrato dalla Fig.1.8. E’ illustrato il grafico<br />
dell’andamento di 1000 misure ripetute ad intervalli regolari di 10 secondi di una certa grandezza<br />
fisica. Ogni punto nel grafico in alto é dato da una singola lettura dello strumento. Se raggruppo i<br />
dati M a M (con M evidentemente < N e L=N/M numero dei gruppi) e grafico l’andamento delle L<br />
medie di ciascun gruppo, osservo che le medie fluttuano meno rispetto alle singole misure. In altre<br />
parole l’operazione di media ha il potere di “smorzare” le fluttuazioni. Questo fatto é di estrema<br />
importanza. Si trova che (lo dimostreremo più avanti nel corso) vale la regola:<br />
s(<br />
x)<br />
s( x)<br />
=<br />
M<br />
25
Cioè le medie fluttuano M volte meno di quanto fluttuano le singole misure. Mi aspetto quindi che<br />
facendo la media di tutte le N misure, questa fluttui N volte meno della singola misura.<br />
Si noti tuttavia che la deviazione standard della singola misura (s per intenderci) non diminuisce al<br />
crescere delle misure ma semplicemente si stabilizza, cioè l’istogramma presenta sempre la stessa<br />
forma, ma le fluttuazioni tendono a diminuire come é ben illustrato dal confronto tra i 2 istogrammi<br />
in alto della Fig.1.9. Viceversa la deviazione standard della media diminuisce come appunto<br />
mostrato nel terzo istogramma di Fig.1.9. La deviazione standard di quest’ultimo istogramma é<br />
proprio<br />
≈<br />
M<br />
volte più piccola di quella fatta usando la singola misura.<br />
Tornando dunque al nostro problema di definire un intervallo per la singola misura (caso (a)) e per<br />
la media delle N misure, potrò procedere nel modo seguente:<br />
caso (a) x ± s<br />
caso (b) x ± s / N<br />
che esprime il fatto che mentre mi aspetto che una successiva N+1-esima misura sia distribuita<br />
secondo la Fig.1.9(2), la media di un altro set di M misure sarà distribuita secondo la Fig.1.9(3).<br />
In definitiva se voglio dare la migliore stima di un intervallo per il valor vero é corretto utilizzare il<br />
caso (b) con il quale uso tutte le informazioni in mio possesso nel modo più efficace.<br />
Concludiamo il paragrafo con un paio di osservazioni.<br />
Osservazione 1: confrontiamo il caso che abbiamo appena visto, con quello di una misura che<br />
non cambia (digitale o analogica che sia). La situazione in cui le misure cambiano sembra<br />
paradossalmente migliore. In effetti é proprio cosi’. Il fatto é che se le misure fluttuano, aumentarle<br />
di numero aiuta perché permette di conoscere sempre meglio la media e di veder diminuire la<br />
deviazione standard come 1 / N . Se invece ottengo sempre lo stesso valore evidentemente non<br />
posso andare aldisotto della mia capacità di interpolare tra le divisioni o al digit più significativo.<br />
Questo apparente paradosso ci insegna che occorre scegliere opportunamente il passo minimo (la<br />
risoluzione) del nostro strumento di misura sulla base delle fluttuazioni della misura stessa.<br />
Osservazione 2: l’uso della deviazione standard della media mi permette di dare un intervallo<br />
per il valor vero. Quale é il significato “probabilistico” di questo intervallo ? Come abbiamo già<br />
visto, la risposta a questa domanda verrà dalla seconda parte del corso. Per ora possiamo dire solo 2<br />
cose: (1) in generale non si tratta di un intervallo “massimo”; (2) il contenuto probabilistico<br />
dell’intervallo dipende da come sono distribuite le misure, cioè dalla forma dell’istogramma e dal<br />
numero di misure effettuate; (3) un intervallo di semilarghezza pari a 3 deviazioni standard<br />
(intervallo di quasi-certezza definito in precedenza) ha un significato probabilistico che in ogni caso<br />
é di quasi certezza.<br />
È interessante stimare il contenuto probabilistico di una deviazione standard direttamente dai dati<br />
(quanti degli N valori sono fuori dall’intervallo x ± s ) per gli istogrammi delle varie figure<br />
mostrate (in particolare Fig.1.7).<br />
(1.3.7) Errori sistematici<br />
Dalle considerazioni fatte in precedenza sorge una domanda: ma allora se aumento N a piacere<br />
mando la larghezza del mio intervallo a 0. E’ vero ?<br />
In linea di principio si. In realtà accade che oltre un certo valore di N aumentare il numero di misure<br />
non serve più. Infatti a un dato punto entrano in gioco altri errori dovuti ad una delle cause che<br />
abbiamo indicato all’inizio della nostra discussione sulle incertezze, e che in generale possono non<br />
dipendere da quante misure facciamo.<br />
Possono dipendere da:<br />
Calibrazione degli strumenti.<br />
Condizioni non sotto controllo.<br />
26
Rientrano in questa categoria gli errori sistematici. Il termine errore sistematico é un termine forse<br />
non del tutto appropriato. Nasce dal fatto che tendenzialmente si tratta di errori che hanno una<br />
“direzione fissa”. Per esempio nel caso della taratura, uno strumento starato lo é in una direzione. In<br />
molti casi il costruttore dello strumento che stiamo usando fornisce nel libretto di istruzioni,<br />
l’indicazione dell’errore sistematico dovuto ai vari possibili effetti. In tal caso é possibile trovarsi in<br />
una situazione in cui anche se lo strumento sembra molto buono (per esempio é possibile<br />
apprezzare molti digits che non cambiano quando ripeto la misura), in realtà la sua accuratezza può<br />
essere molto cattiva fino a dominare l’incertezza complessiva della misura.<br />
In generale dunque é opportuno riferirsi alla seguente distinzione tra due categorie di errori:<br />
Errori sistematici (se aumento il campione questi non diminuiscono). Se li conosco posso<br />
correggere il mio risultato, se non li conosco devo stimare un intervallo nel quale sono contenuti.<br />
Errori casuali (posso mandarli a 0 nel limite di campione infinito). Si trattano con i metodi<br />
propri della statistica di cui abbiamo visto alcuni esempi.<br />
In definitiva l’errore sistematico é quello che rimane nel limite di campione di dimensione infinita.<br />
(1.4) Sequenze di “coppie” di misure<br />
Passiamo ora ad un diverso problema. Immaginiamo di avere una sequenza di coppie di valori di 2<br />
grandezze fisiche, cioè una tabella con 2 colonne e N righe, e ciascuna riga rappresenta il risultato<br />
della misura simultanea delle 2 grandezze che stiamo studiando.<br />
In taluni problemi infatti, i fenomeni devono essere descritti non solo da una variabile casuale, ma<br />
da più variabili casuali. Non sempre ci si trova in condizioni di poter trattare in modo separato<br />
ciascuna variabile casuale. Nell’esperienza della molla vediamo che T ed M ma anche δx ed M<br />
sono tali che al variare dell’una varia l’altra. Un esempio diverso dal precedente si ha quando<br />
consideriamo una misura di superficie, fatta misurando i due lati con lo stesso strumento<br />
caratterizzato da una dipendenza dalla temperatura o da altri parametri che spostano la sua<br />
calibrazione. E’ chiaro che in tal caso gli errori di misura di un lato e dell’altro lato non sono<br />
indipendenti, ma hanno un andamento “analogo”. In entrambi gli esempi fatti siamo in presenza di<br />
grandezze fisiche correlate cioè tali che i valori assunti dall’una e dall’altra non sono indipendenti<br />
ma sono legati da una qualche forma di dipendenza.<br />
Si deve tuttavia distinguere tra due casi (per evitare confusioni):<br />
(a) il caso in cui sono correlate le grandezze;<br />
(b) il caso in cui sono gli errori di tali grandezze ad essere correlati.<br />
Il caso della molla é del primo tipo. Infatti T é correlato ad M ma non sono correlate la misura di T<br />
con quella di M. Nel secondo caso invece i valori dei 2 lati non sono correlati, ma gli errori di<br />
misura che faccio nel misurare le 2 cose sono invece chiaramente correlati.<br />
La correlazione tipo (a) rientra nell’ambito delle dipendenze funzionali tra grandezze fisiche,<br />
dovute proprio alla “fisica del fenomeno”, ed é quindi oggetto di studio (come vedremo nel terzo<br />
capitolo). La correlazione del tipo (b) é invece una caratteristica dell’”apparato di misura”, ed in<br />
generale é non voluta. Bisogna tuttavia tenerne conto nell’interpretare i risultati delle misure.<br />
Ci occupiamo a questo punto del caso (b), cioè del caso in cui due o più grandezze fisiche<br />
presentano una correlazione dovuta al modo con cui le misuro.<br />
Il modo più semplice per mettere in evidenza il fenomeno della correlazione tra 2 grandezze A e B é<br />
quella di ripetere N volte la misura simultanea delle 2 grandezze nelle stesse condizioni e di<br />
27
iportare su un grafico N punti ciascuno avente per ascissa la grandezza A e per ordinata la<br />
Fig.1.10 Esempio di grafico di correlazione tra 2 variabili fortemente correlate (qui ρ=0.9). Sotto sono poi mostrati<br />
gli istogrammi delle proiezioni sui due assi.<br />
Fig.1.11 Altro esempio di grafico di correlazione nel caso in cui ρ=0. Si noti che gli istogrammi delle 2 proiezioni<br />
sono simili a quelli di Fig.1.10. Ciò indica che la correlazione non può essere desunta da semplici istogrammi di<br />
correlazione ma necessita di grafici di correlazione.<br />
grandezza B. Si tratta di un grafico bi-dimensionale o grafico di correlazione. Le proiezioni sui 2<br />
assi A e B di questo grafico, altro non sono che i 2 istogrammi mono-dimensionali delle 2<br />
28
grandezze dai quali possiamo ricavare media e deviazione standard secondo i ben noti metodi. Due<br />
esempi sono illustrati nelle Fig.1.10 e 1.11. Le figure mostrano un caso chiaro di correlazione e un<br />
caso chiaro di non correlazione. Nel primo caso i punti tendono a disporsi sul grafico lungo la<br />
bisettrice del primo e terzo quadrante, nel secondo caso invece il grafico si presenta come una<br />
”palla”. Nel primo caso si ha dunque una correlazione, cioè le fluttuazioni di una grandezza sono<br />
“correlate” alle fluttuazioni dell’altra. Quando A fluttua positivamente anche B lo fa. Nel secondo<br />
caso invece questo chiaramente non succede. La distribuzione di B é indipendente da A. Si noti che<br />
nei 2 casi, gli istogrammi delle proiezioni sono equivalenti. Questo ci dice che il grafico bidimensionale<br />
porta informazioni in più che l’analisi delle singole proiezioni tende a mascherare.<br />
In analogia a quanto fatto per la sequenza di numeri, definiamo una nuova grandezza che<br />
caratterizza lo stato di correlazione tra le 2 grandezze che stiamo considerando. La covarianza<br />
campionaria tra due grandezze x 1 ed x 2 definita come:<br />
(<br />
1<br />
cov( , ) = ∑ N<br />
x<br />
i=<br />
x x<br />
1<br />
2<br />
i<br />
1<br />
−<br />
i<br />
x )( x<br />
1<br />
2<br />
N −1<br />
−<br />
x<br />
2<br />
)<br />
Per determinare questa grandezza sperimentalmente occorre misurare una sequenza di N coppie di<br />
valori di x 1 e di x 2 in condizioni di ripetibilità della misura, e da questi applicare la definizione. Un<br />
modo equivalente per esprimere la covarianza campionaria é dato da:<br />
cov( x , x<br />
1<br />
2<br />
N<br />
) = ∑ =<br />
i 1<br />
i<br />
( x x<br />
1<br />
i<br />
2<br />
− x x<br />
1<br />
i<br />
2<br />
− x<br />
N −1<br />
i<br />
1<br />
x<br />
2<br />
+ x x )<br />
1 2 N<br />
=<br />
N −1<br />
( x x − x x )<br />
da cui si vede come la covarianza campionaria costituisce una generalizzazione della varianza<br />
campionaria (che chiamiamo Var(x) intendendo con ciò s 2 ). Infatti<br />
Var ( x)<br />
= cov( x,<br />
x)<br />
cioè la varianza campionaria altri non é che la covarianza calcolata tra una grandezza e se stessa.<br />
Per la covarianza delle medie tra 2 campioni vale che:<br />
cov( x , x )<br />
1 2<br />
cov( x , x ) =<br />
1 2<br />
N<br />
cioè, come per la varianza campionaria, la covarianza tra medie diventa sempre più piccola al<br />
crescere della dimensione del campione.<br />
Si definisce infine anche il coefficiente campionario di correlazione:<br />
r ( x<br />
1<br />
, x<br />
2<br />
)<br />
∑<br />
N<br />
∑<br />
i = 1<br />
=<br />
N<br />
( x<br />
( x<br />
i<br />
i<br />
1<br />
−<br />
−<br />
x<br />
x<br />
)( x<br />
∑<br />
1<br />
1<br />
i = 1 i = 1<br />
1<br />
)<br />
2<br />
N<br />
i<br />
2<br />
( x<br />
−<br />
i<br />
2<br />
che é sempre definito tra –1 ed 1 ed esprime in forma adimensionale il grado di correlazione tra 2<br />
grandezze. Si noti come queste definizioni campionarie, costituiscono una espressione in forma<br />
“quantitativa” di quanto graficamente é espresso dai grafici visti. Per comprendere il significato del<br />
coefficiente di correlazione r é utile riferirsi al grafico di Fig.1.12. Dividiamo il grafico di<br />
correlazione in 4 quadranti intorno ad un punto di coordinate date dai 2 valori medi come in figura.<br />
I punti appartenenti a ciascun quadrante sono caratterizzati da diversi segni delle fluttuazioni<br />
rispetto al valore medio e sono indicati come ++, --, +-, -+. Riferendosi all’espressione di r appena<br />
data, vediamo che i 4 quadranti danno i seguenti segni ad r: +, +, -, -. Quindi il prevalere dei punti<br />
su un dato quadrante fa prevalere un segno in r. Nel caso della figura il prevalere dei punti nei<br />
quadranti (++) e (--) fornisce un valore positivo di 0.9. Quando i 4 quadranti hanno mediamente lo<br />
stesso numero di punti (è il caso della “palla” di non correlazione), r sarà mediamente 0.<br />
Si noti che nel caso di mancanza di correlazione non dobbiamo aspettarci 0 esattamente, ma un<br />
numero abbastanza prossimo a 0. Quanto prossimo deve essere dipende dal numero N di misure.<br />
x<br />
−<br />
2<br />
)<br />
x<br />
x<br />
)<br />
2<br />
1<br />
2<br />
1<br />
2<br />
29
Esiste un metodo detto test di correlazione per stabilire su basi quantitative la correlazione tra<br />
grandezze (tale test sarà trattato nei corsi successivi di laboratorio).<br />
Fig.1.12 Stesso grafico di correlazione con r=0.9 mostrato nella Fig.1.10 suddiviso nei 4 quadranti.<br />
(1.5) Terminologia<br />
È bene fare chiarezza sul significato di alcuni termini che si usano quando si parla di strumenti e di<br />
misure. Facciamone un elenco (alcune cose le abbiamo già definite):<br />
sensibilità : quanto la variazione del misurando, fa cambiare l’uscita dello strumento<br />
risoluzione : minima differenza tra le possibili uscite di uno strumento che sia “apprezzabile”. E’<br />
la sensibilità in forma “quantizzata”. E’ il digit nel caso digitale.<br />
precisione : quanto sono vicini i risultati di una misura quando la ripeto.<br />
accuratezza : vicinanza tra valore vero e valore misurato, nel limite in cui ho un campione di<br />
dimensione infinita; é collegata chiaramente a quello che abbiamo chiamato errore sistematico.<br />
tolleranza : entro quale intervallo i valori di una tale grandezza sono accettabili. E’ una<br />
“specifica” del costruttore di uno strumento o di un qualche componente.<br />
ripetibilità : sono in condizioni di ripetibilità quando posso ripetere la misura senza che cambino<br />
quelle condizioni che possono alterarne l’esito.<br />
riproducibilità : sono invece in condizioni di riproducibilità quando un dato risultato viene<br />
ottenuto da esperimenti diversi. In genere, l’accettazione di un dato risultato passa attraverso la<br />
verifica di tale proprietà. Un risultato che non viene riprodotto o che non può essere riprodotto é<br />
infatti “sospetto” e generalmente non accettato dalla comunità scientifica.<br />
È da notare che questo “glossario” non é univoco (dipende dai testi). Quello che usiamo noi<br />
risponde alle più recenti norme metrologiche.<br />
(1.6) Cifre significative<br />
30
Come si scrivono i numeri in fisica ? I numeri in fisica sono i risultati di una misura oppure sono il<br />
risultato di una predizione teorica. In generale i numeri in fisica hanno un significato diverso da<br />
quello che hanno i numeri in matematica. Di questo occorre tener conto. Vediamo come.<br />
Capita a volte di trovarsi di fronte a numeri del tipo 1.342607 (per esempio possiamo leggere un<br />
numero del genere sul display della nostra calcolatrice). Impariamo a contare le cifre di questo<br />
numero. Quante cifre ha ? Un numero cosi’ fatto ha 7 cifre significative ed é scritto con una<br />
notazione per la quale ha 6 decimali cioè 6 cifre dopo la virgola. Prendiamo invece 0.022. In questo<br />
caso sono 2 le cifre significative perché gli zeri a sinistra non contano. Che gli zeri a sinistra non<br />
contano, lo vediamo per il semplice fatto che questo stesso numero io posso scriverlo come 22x10 -3<br />
o 2.2x10 -2 cioè con 2 cifre. Viceversa il numero di decimali dipende da come lo scrivo. 0.022 ha 3<br />
decimali, 22x10 -3 o 2.2x10 -2 ne hanno rispettivamente 0 e 1. Quindi : il numero di cifre significative<br />
é una caratteristica intrinseca del numero, il numero di decimali dipende da come lo scrivo cioè da<br />
dove metto la virgola.<br />
La notazione esponenziale serve essenzialmente ad evitare le cose tipo 0.0000000011 o 132000000.<br />
Quando gli 0 sono inutili, quando sono a sinistra o a destra, conviene toglierli dopo averli contati e<br />
messo l’esponente di 10.<br />
Torniamo al nostro problema del significato dei numeri. Poiché, come abbiamo detto, il significato<br />
dei numeri in fisica é diverso da quello che si ha in matematica, occorre fare attenzione. Scrivere 1<br />
o 1.0 o 1.00 dal punto di vista del matematico significa scrivere lo stesso numero. Dal punto di vista<br />
del fisico no. I numeri in fisica, essendo risultati di misure, portano informazioni. Pertanto occorre<br />
limitarsi a quelle cifre che rispecchiano informazioni reali alle quali “credo”. Dunque quando scrivo<br />
un numero devo tener conto di quanto sono incerto su quel numero.<br />
Esempio. Leggo una sequenza di 6 misure consecutive da un display digitale a 8 cifre. I numeri<br />
sono (prima colonna della tabella):<br />
21.045277 21.045<br />
21.047410 21.047<br />
21.046389 21.046<br />
21.043976 21.044<br />
21.045608 21.046<br />
21.043578 21.044<br />
Che significato hanno le settime e ottave cifre di ciascun numero ? Evidentemente la grandezza sta<br />
variando sulla cifra 5. Le prime 4 sono significative, la 5 anche perché pur fluttuando, alcuni valori<br />
sono più frequenti di altri. Dalla numero 6 in poi non significano più nulla. Quindi sarà bene<br />
riportare la sequenza nella forma indicata nella colonna di destra. Si noti che nel passare dalla<br />
colonna di sinistra a quella di destra ho dovuto troncare i numeri, e nel farlo ho approssimato<br />
l’ultima cifra al valore inferiore nelle prime tre righe e a quello superiore nelle ultime tre. Il motivo<br />
é evidente. Infatti se la cifra successiva (la prima che tolgo) é 0,1,2,3 o 4 allora approssimo al valore<br />
inferiore. Nel caso in cui tale cifra sia 6,7,8 o 9 approssimo al superiore. E se é 5 ? 5é proprio lo<br />
spartiacque tra i due casi, ma evidentemente se il valore é un po’ più di 5 (vedi ultima riga della<br />
tabella) allora siamo aldisopra dello spartiacque. L’unico caso in cui non so che fare é quando la<br />
cifra successiva é 5 con tanti 0 alla sua destra oppure é 5 e non so cosa c’è dopo. In tal caso la cosa<br />
migliore é forse lasciare il 5.<br />
Torniamo al nostro problema delle cifre. Generalizzando quanto visto diciamo che:<br />
non hanno “significato”, non aggiungono “informazioni” quelle cifre che stanno più a destra della<br />
prima cifra sulla quale sono incerto. Quindi il fatto che non aggiungono informazioni implica che<br />
devo ometterle nella presentazione del risultato.<br />
Cosa succede quando moltiplico o divido ?<br />
Analizziamo questa circostanza con un semplice esempio. Supponiamo di voler determinare la<br />
velocità della nostra auto misurando con un cronometro il tempo impiegato a percorrere una<br />
31
distanza di 36 km (distanza tra due uscite dell’autostrada secondo la segnaletica). Con il cronometro<br />
manuale fermo lo stop al valore 1894.3 s. Faccio il calcolo con la calcolatrice: 19.004382 m/s.<br />
Come do il risultato ? Devo considerare quanto bene conosco i 36 km della distanza e quanto bene<br />
conosco il tempo impiegato a percorrerla. Supponiamo che i 36 km siano approssimati a 100 m<br />
(cosa ragionevole), allora posso dire che la distanza é 36.0 ± 0.1, cioè é un numero che conosco al<br />
più fino alla terza cifra. Viceversa conosco il tempo di percorrenza fino alla quinta cifra. D’altra<br />
parte la calcolatrice mi fornisce un risultato fino a 8 cifre. Quante di queste 8 cifre sono significative<br />
? Facciamo la seguente considerazione: se uso 36.1 km o 35.9 km e lascio inalterato il tempo,<br />
ottengo i numeri indicati nelle prime due righe della tabella dove osservo variazioni sulla terza cifra.<br />
35.9 18.951592<br />
36.1 19.057172<br />
36 19.0(0)<br />
1894.2 19.005385<br />
1894.4 19.003378<br />
1894.3 19.004(4)<br />
Allo stesso modo se fisso 36 km e uso 1894.2 o 1894.4 ottengo variazioni sulla quinta cifra.<br />
Dunque il risultato varia a partire dalla terza cifra per via della variazione della distanza e a partire<br />
dalla quinta per via della variazione del tempo. In conclusione oltre la terza cifra (facciamo la<br />
quarta per tenerci larghi) il risultato perde di informazione. Pertanto scriverò il risultato come nella<br />
terza riga della tabella.<br />
Nel prodotto (o nel rapporto) vale dunque la regola:<br />
il risultato di un prodotto o di un rapporto va dato con il numero di cifre del fattore dato con il<br />
minor numero di cifre.<br />
Cosa succede invece nel caso della somma (o della differenza) ?<br />
Altro esempio. Considero la distanza tra 2 punti nella stanza. Con il metro misuro la distanza tra<br />
una parete e la superficie della lavagna: 5.620 m. Poi con il calibro misuro lo spessore della<br />
lavagna: 32.480 mm. La somma é indicato in tabella.<br />
Misura 1 5.620000 m<br />
Misura 2 0.032480 m<br />
Somma 5.652480 m<br />
Somma troncata 5.652(5)<br />
Mi accorgo subito che le ultime 3 cifre non hanno molto significato. Infatti se il 5.620 diventa<br />
5.621 ottengo una variazione sulla quartultima cifra della somma. Quindi qui conta non il numero di<br />
cifre significative ma il numero di decimali, cioè la posizione “assoluta” della prima cifra che varia.<br />
La regola può essere pertanto espressa come:<br />
il risultato di una somma o di una sottrazione va troncato alla posizione della prima cifra variante<br />
che si incontra nei due addendi partendo da sinistra.<br />
Facciamo ora alcune osservazioni.<br />
Osservazione 0: se ho la stima dell’incertezza su un dato numero, si usa dare l’incertezza con 1<br />
o 2 cifre significative (non di più, oltre 2 cifre non ha molto significato dare il numero) e si tronca il<br />
valore centrale alla cifra corrispondente all’ultima cifra dell’incertezza. Esempio. Trovo un valore<br />
centrale pari a 1.5467 con una incertezza di 0.3456. Il risultato si può scrivere come 1.55±0.34<br />
(incertezza a 2 cifre) oppure 1.5±0.3 (ad 1 cifra). Certamente scrivere 1.5467±0.3456é sbagliato.<br />
Osservazione 1: i numeri interi hanno un numero di cifre infinito. Quando in una formula divido<br />
per N o per 2 queste hanno infinite cifre. Lo stesso vale per numeri come π o e (purché riportati con<br />
un numero di cifre appropriato).<br />
32
Osservazione 2: caso della media aritmetica. E’ lecito darla con più cifre delle singole misure ?<br />
Si. Supponiamo di mediare una sequenza di 10 misure ciascuna data con 3 cifre:<br />
1.10<br />
1.07<br />
1.24<br />
1.31<br />
1.09<br />
1.21<br />
1.15<br />
1.34<br />
1.02<br />
1.18<br />
Media 1.171<br />
La somma di questi 10 numeri é 11.71 che scrivo con 4 cifre data la regola delle cifre nella somma.<br />
Quando divido per 10 (infinite cifre) ottengo 1.171 che mantengo a 4 cifre. Quindi nel gioco ho<br />
“guadagnato” una cifra. Se avessi mediato 100 numeri ne avrei guadagnate 2 e cosi’ via. Questo<br />
non ci sorprende. L’operazione di media ha il potere di aumentare la conoscenza sul valore.<br />
Osservazione 3: si noti che il numero di cifre significative di un dato numero é strettamente<br />
legato alla sua incertezza relativa. Un numero dato a 3 cifre é un numero incerto tra il permille ed il<br />
percento.<br />
Osservazione 4: le regole date si riferiscono a come riportare i risultati. Nei calcoli naturalmente<br />
si possono utilizzare tutte le cifre che si vogliono.<br />
(1.7) Caso di misure indirette: cenni alla propagazione<br />
Collegata al problema del numero delle cifre significative é la questione della misura indiretta.<br />
Supponiamo che per misurare una grandezza y, io debba ricorrere alla misura di x per poi ricavare y<br />
con l’operazione y = a x 2 in cui a é una costante oppure y = b √x. Ora, x sarà misurato con una<br />
certa incertezza e allora mi chiedo quale sarà l’incertezza su y ? Se supponiamo che a e b siano<br />
costanti note con un numero infinito di cifre (per esempio π o un numero intero) il problema é “unidimensionale”<br />
(cioè stiamo parlando di una funzione di una singola variabile) e può essere illustrato<br />
per via grafica (vedi Fig.1.13).<br />
Fig.1.13 Due esempi di misure indirette:<br />
(sinistra) Misura della profondità raggiunta da un sasso in un pozzo dalla misura del tempo impiegato a scendere.<br />
Se misuro 5.5 ± 0.5 s quanto bene conosco la profondità ?<br />
(destra) Misura del periodo di oscillazione di un pendolo dalla misura della lunghezza dello stesso. Qui misuro 0.75<br />
± 0.05 m. Quant’è il periodo ?<br />
33
Nei due casi riportati in figura si ha nel primo una dipendenza tipo a x 2 nel secondo b√ x. Si può<br />
notare che l’incertezza sulla x si “traduce” in una incertezza sulle y in modo diverso nei 2 casi. Si<br />
dice che l’incertezza si propaga. Nel caso di sinistra sembra aumentare nel caso di destra sembra<br />
diminuire. Da cosa dipende ? Certamente dalla “pendenza” della curva nell’intorno del mio x.<br />
Poiché x e y sono in generale variabili di diverse dimensioni fisiche per confrontarne le incertezze<br />
dovrò ricorrere all’incertezza relativa che, come sappiamo é:<br />
s x<br />
x<br />
Nel nostro caso (quello in figura) si vede, confrontando le variazioni sugli assi delle ordinate, che in<br />
un caso l’incertezza relativa raddoppia, nell’altra si dimezza. Come é possibile ciò ? Vale in effetti<br />
in generale la seguente regola che dimostreremo in seguito: se la dipendenza é di tipo x α , si avrà per<br />
l’incertezza relativa:<br />
sy<br />
sx<br />
= α<br />
y x<br />
Si tratta di una proprietà che ha una chiara interpretazione. Più alto l’esponente, più “rapidamente<br />
cambia la curva”.<br />
Un secondo problema simile a questo é quello cui abbiamo già accennato nella nostra discussione<br />
delle cifre significative. Supponiamo ad esempio di voler misurare la densità di un oggetto<br />
misurandone volume e peso e poi facendo il rapporto. Abbiamo visto che sul risultato, a dominare<br />
sarà l’incertezza dovuta a quello tra massa e volume la cui misura é caratterizzata da una incertezza<br />
su una cifra che sta più a sinistra, ovvero, detto con il linguaggio dell’incertezza relativa, a quello<br />
con l’incertezza relativa più grande.<br />
Sempre riferendoci ai casi discussi nel precedente paragrafo, se devo invece sommare o sottrarre, a<br />
dominare sarà quello la cui incertezza assoluta é più grande, cioè in somme e differenze non<br />
contano le incertezze relative ma quelle assolute.<br />
Da tutto questo emerge una considerazione generale. Quando si progetta una misura di questo tipo e<br />
si sceglie una strumentazione é fondamentale “dosare” bene gli strumenti. E’ chiaro ad esempio che<br />
se misuro i volumi con un calibro supersensibile e poi li peso con una vecchia bilancia da<br />
salumiere, la scarsa sensibilità di quest’ultima vanificherà la straordinaria sensibilità del calibro. Lo<br />
stesso se uso un calibro per lo spessore della lavagna, e poi misuro il resto con strumenti poco<br />
sensibili.<br />
Resta da vedere tuttavia come andranno combinate le incertezze quando nessuna delle due é<br />
trascurabile, quando cioè sono dello stesso ordine di grandezza. Lo vedremo nel seguito quando<br />
avremo a disposizione mezzi di statistica più adeguati.<br />
(1.8) Nozione di significatività<br />
Accenniamo brevemente a questo punto del corso alla nozione di significatività. Si tratta di uno dei<br />
concetti più importanti del metodo scientifico ed é bene che gli studenti imparino a saper discutere<br />
problemi di questo tipo già dall’inizio del corso di laurea.<br />
Molte questioni in fisica si riconducono ad affermazioni del tipo: abbiamo osservato che A>B<br />
oppure che A>0. In tutti questi casi, dire > (o equivalentemente c ma prima di dire che é “significativamente” >c devo sapere quanto bene ho misurato<br />
v(part), altrimenti nessuno ci crederà (data anche la rilevanza straordinaria dell’eventuale scoperta).<br />
Allo stesso modo se io trovo un bilancio energetico >0 di un processo in un sistema isolato (violante<br />
pertanto la conservazione dell’energia), per dire che ho scoperto la violazione della legge di<br />
34
conservazione dell’energia devo dimostrare che tale valore é “significativamente” >0. Allo stesso<br />
modo infine prima di dire che se il 52% degli intervistati in un sondaggio si pronuncia per una certa<br />
cosa, allora la maggioranza degli italiani é favorevole a quella cosa, devo sapere se quel 52%é<br />
significativamente maggiore del 50%.<br />
Un’altra classe di problemi riguarda il caso in cui affermo che A=B oppure che A=0. Qui le cose<br />
sono leggermente diverse. Infatti io non troverò mai (misurando per esempio il bilancio energetico<br />
della reazione di cui sopra) esattamente A=0, oppure non troverò mai o quasi mai v(part)=c, ma<br />
troverò un valore che sarà “compatibile” con 0. O allo stesso modo troverò che A é compatibile con<br />
B.<br />
È evidente che in entrambi i casi “significatività” e “compatibilità” sono nozioni che hanno a che<br />
fare con i valori trovati ma anche con le incertezze con cui questi valori sono conosciuti. Quindi<br />
diremo che A é “significativamente” >0 se lo é “oltre l’incertezza” su A o, più esplicitamente se il<br />
valore 0 della grandezza A é “fuori” dall’intervallo nel quale ritengo debba trovarsi il valore vero<br />
sulla base del mio esperimento. Oppure diremo che A é “compatibile” con 0 se lo é “entro<br />
l’incertezza” su A cioè se il valore 0é interno allo stesso intervallo. Pertanto se la mia misura della<br />
velocità della particella é 30.010 ± 0.032 cm/ns allora mi tranquillizzo perché evidentemente il<br />
valore c=29.979.. cm/ns é contenuto nell’intervallo della mia misura. Viceversa se il mio bilancio<br />
energetico mi fornisce il valore –0.54 ± 0.09 J comincio a preoccuparmi, perché la quantità di<br />
energia che ho perduto é “significativa”. Allora dovrò pormi il problema di capire cosa é successo,<br />
se nell’analisi del mio esperimento non ho tenuto conto di qualche effetto oppure se effettivamente<br />
in quel processo l’energia non si conserva.<br />
Naturalmente la conclusione dipende dal significato probabilistico dell’intervallo. Cioè posso<br />
concludere che A é significativamente > B se B é fuori un intervallo di “quasi certezza” di A.<br />
Vedremo nel seguito come si possono definire tali intervalli.<br />
A proposito delle nozioni esposte si può proporre una digressione filosofica. E’ la stessa cosa<br />
chiedersi se 2 cose sono uguali o ha invece più senso chiedersi se sono diverse ? Detto in altri<br />
termini: le due affermazioni (a) A>B o (b) A=B hanno lo stesso significato logico ? La risposta é<br />
no. Sul piano logico, il metodo scientifico permette di stabilire la diversità ma non l’uguaglianza.<br />
Si può solo dire che entro le incertezze A=B (affermazione di tipo (b)), ma si tratta comunque di<br />
una affermazione che potrebbe cambiare il giorno in cui le incertezze su A e su B diminuissero. Nel<br />
caso dell’esempio precedente, se migliorassi il mio sistema di misura delle velocità fino a ridurre di<br />
un ordine di grandezza l’incertezza complessiva, potrei ottenere 30.010±0.002 che é<br />
significativamente >c. D’altra parte l’affermazione (a) é in un certo senso “definitiva”. Se<br />
l’esperimento non é sbagliato una riduzione dell’incertezza non può che confermare il precedente<br />
risultato, rafforzandolo.<br />
Il progresso della Scienza procede dunque attraverso lo stabilire la diversità tra le cose, non la loro<br />
uguaglianza. Si tratta del celebre tema della “falsificazione” e della “corroborazione” dovuto a<br />
K.Popper. A titolo di esempio in Fig.1.14 e Fig.1.15 sono mostrate le evoluzioni temporali dei<br />
valori di due grandezze fisiche di grande importanza (si tratta delle due grandezze che<br />
caratterizzano la violazione di una simmetria fondamentale nelle interazioni tra particelle<br />
elementari). Ogni punto corrisponde al risultato di un esperimento e per ognuno é indicata una barra<br />
che rappresenta l’incertezza stimata dallo sperimentatore come deviazione standard ed avente<br />
pertanto il significato di intervallo che contiene il valore vero con una probabilità del 68.3%<br />
(secondo quanto vedremo nel seguito). Si noti che solo ad un certo punto (il 1999 in un caso ed il<br />
2001 nell’altro) é stata stabilita la diversità da 0 del valore della grandezza. Prima di allora lo stato<br />
di conoscenza su ciascuna delle due grandezze era tale da far concludere che entro le incertezze non<br />
si osservava alcuna differenza da 0, cioè che ambedue le grandezze erano compatibili con 0. Il<br />
progresso degli esperimenti progettati per la misura di queste grandezze ha portato ad una<br />
progressiva riduzione dell’incertezza e quindi ad una sempre maggiore possibilità di scoprire una<br />
significativa differenza da 0 che, una volta trovata, é stata poi ampiamente riprodotta e confermata.<br />
35
Fig.1.14 Valori pubblicati della variabile Re(ε’/ε) in funzione dell’anno di pubblicazione. Si noti come gli<br />
esperimenti intorno al 1990 davano un risultato “compatibile” con 0 e come quelli intorno al 2000 danno risultati<br />
“compatibili” con i risultati del 1990 ma significativamente diversi da 0. Le barre di incertezza sono barre di<br />
incertezza standard.<br />
Fig.1.15 Valori pubblicati della variabile sin2β in funzione dell’anno di pubblicazione. Valgono considerazioni<br />
analoghe a quelle fatte per la Fig.1.14.<br />
36
(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari.<br />
In alcune delle precedenti discussioni abbiamo visto come l’espressione grafica del risultato di un<br />
esperimento sia in certi casi di importanza cruciale. In tutti gli esempi visti finora, i dati sono<br />
sempre riportati in grafici caratterizzati da scale lineari. Con ciò si intende che in ambedue gli assi<br />
del grafico, spazi uguali tra le divisioni corrispondono a intervalli uguali della grandezza fisica che<br />
viene rappresentata in quell’asse. Per intenderci, in un grafico che usa una scala temporale lineare,<br />
se un segmento di asse lungo 1 cm corrisponde a un intervallo di 6.2 s, un segmento lungo 2 cm<br />
corrisponde ad un intervallo di 12.4 s, un secondo segmento lungo 6 cm a un intervallo di 37.2 s e<br />
cosi’ via dicendo. Ci occupiamo ora di quei casi (alcuni dei quali incontreremo da vicino in<br />
laboratorio) in cui é conveniente utilizzare scale con diverse proprietà.<br />
(1.9.1) La scala quadratica.<br />
Riprendiamo in considerazione la misura della profondità del pozzo di cui abbiamo parlato nel<br />
paragrafo (1.7) (illustrato dalla Fig.1.13). Supponiamo ora di disporre un certo numero di pozzi di<br />
profondità diverse e note (cioè misurate in modo indipendente), e di misurare per ciascuno, il tempo<br />
di caduta del sasso. A questo punto i miei dati sono costituiti da una sequenza di N (N=numero di<br />
pozzi) coppie di valori (p i , t i ) dove i va da 1 a N, con p i le profondità e t i i tempi. Posso mettere<br />
questi dati in un grafico con le profondità in ordinata e i tempi in ascissa. Il grafico é riportato in<br />
Fig.1.16a dove per semplicità non sono riportate le incertezze di misura. La cinematica ci dice che<br />
la relazione tra profondità e tempo deve essere del tipo p = ½ g t 2 , dove g=9.81 m/s 2 é la<br />
accelerazione di gravità alla superficie terrestre. Tuttavia dal grafico é difficile capire se<br />
effettivamente l’andamento é rispettato. Allora uso il seguente artificio: anziché graficare le p i in<br />
funzione dei t i , riporto le p i in funzione dei t i 2 (Fig.1.16b). In questo secondo caso, se la cinematica<br />
é rispettata, devo aspettarmi un andamento rettilineo che é certamente più<br />
p (m)<br />
500<br />
400<br />
300<br />
200<br />
100<br />
0<br />
2 4 6 8 10<br />
t (s)<br />
p (m)<br />
500<br />
400<br />
300<br />
200<br />
100<br />
0<br />
0 20 40 60 80 100<br />
t 2 (s)<br />
Fig.1.16 (a) Misure di profondità dei pozzi in funzione dei tempi di caduta dei sassi e (b) misure di profondità in<br />
funzione dei tempi di caduta al quadrato. La (b) permette di verificare la linearità della relazione cinematica.<br />
facilmente controllabile a occhio. Non solo, la “pendenza” della retta (il suo coefficiente angolari)<br />
dovranno essere proprio uguali a 1/2g, e quindi semplicemente prendendo un righello, tracciando<br />
37
una retta e misurandone la pendenza, posso desumere il valore di g e vedere se é “più o meno” il<br />
valore che mi aspetto.<br />
(1.9.2) La scala logaritmica.<br />
Il tipo di scala non lineare più frequentemente utilizzata é la scala logaritmica. Si tratta di riportare<br />
sull’asse di una variabile x, non già direttamente x, ma il logaritmo del suo valore numerico:<br />
log(x/u) dove u é l’unità di misura di x. In altre parole, con riferimento alla scala temporale presa<br />
sopra ad esempio, il valore t = 6.2 s si trova, in scala logaritmica, nella posizione 1.82, il valore t =<br />
12.4 nella posizione 2.52 ed infine il valore t = 37.2 nella posizione 3.62. Come si vede, la<br />
spaziatura delle 3 posizioni non rispetta più la partizione 1 / 2 / 6 della scala originaria. Ciò é un<br />
modo per dire che la scala risultante é non lineare (si noti che ho usato qui il logaritmo a base<br />
naturale, ma come vedremo nel seguito e come si può provare facilmente, la conclusione cui si<br />
giunge é la stessa qualunque sia la base che voglio utilizzare).<br />
La scala logaritmica viene utilizzata per 2 motivazioni principali.<br />
La prima motivazioni segue la stessa linea di pensiero della discussione fatta nel precedente<br />
paragrafo a proposito della carta quadratica. Infatti sono molti i fenomeni fisici che si lasciano<br />
descrivere da andamenti esponenziali, cioè del tipo:<br />
y<br />
=<br />
Ae<br />
− x / λ<br />
in cui x ed y sono 2 grandezze fisiche tra le quali ci si aspetta una relazione funzionale esponenziale<br />
con A e λ parametri (troveremo numerosi esempi di fenomeni di questo genere nel seguito).<br />
Prendendo il logaritmo di ambo i membri si ottiene:<br />
log<br />
[ y] = log A − x<br />
λ<br />
dunque la relazione funzionale esponenziale tra y e x, si traduce in una relazione lineare tra log[y]e<br />
x in cui logA svolge il ruolo di intercetta all’origine e soprattutto -1/λ svolge il ruolo di pendenza.<br />
Graficando log[y] in funzione di x anziché y in funzione di x, potrò meglio verificare che<br />
l’andamento é esponenziale. In più anche in questo caso, una rapida misura della pendenza della<br />
retta risultante mi permette di ricavare λ.<br />
La seconda motivazione per usare scale logaritmiche entra in gioco quando si vuole rappresentare<br />
una grandezza fisica che assume valori diversi per svariati ordini di grandezza. In tal caso una scala<br />
lineare tende a compattare tutti i valori e finisce per rendere illeggibile il grafico. Il fenomeno é<br />
illustrato in Fig.1.17. In che modo lo stesso grafico in scala logaritmica diventa decisamente più<br />
leggibile ? Il motivo sta in definitiva nella seguente, ben nota, proprietà dei logaritmi:<br />
[ ab] = log[ a] log[ b]<br />
log +<br />
Ogni volta che moltiplico a per un numero b, al log[a] devo aggiungere log[b], cioè nel mondo dei<br />
logaritmi, il moltiplicare per qualcosa diventa un sommare qualcos’altro, il prodotto si traduce in<br />
somma. Sull’asse logaritmico dunque, 2 intervalli di uguale lunghezza non corrispondono<br />
all’aggiunta di 2 intervalli di uguali entità in x, ma a 2 moltiplicazioni per lo stesso fattore. Per<br />
esempio i valori x = 2 cm, x = 20 cm e x = 200 cm vanno in scala logaritmica nelle posizioni 0.693,<br />
2.995 e 5.298 cioè danno luogo a 2 uguali intervalli [5.298 – 2.995 = 2.995 – 0.693 = 2.302]. La<br />
spaziatura é chiaramente pari a log[10] cioè al logaritmo del fattore che c’è tra i 3 valori di x.<br />
Come abbiamo accennato sopra la base del logaritmo é irrilevante. Infatti un’altra proprietà dei<br />
logaritmi ci dice che i logaritmi di x calcolati in 2 basi diverse (diciamo a e b) sono uguali a meno<br />
di un fattore indipendente da x:<br />
log<br />
a<br />
[ x]<br />
= log<br />
b<br />
[ x]log<br />
a<br />
[ b]<br />
e dunque il cambio di base non fa altro che spostare tutta la scala di un fattore arbitrario.<br />
In Fig.1.18 mostriamo un esempio di carta semi-logaritmica, nella quale l’asse orizzontale é in<br />
scala lineare, quello verticale in scala logaritmica. Alcune considerazioni pratiche.<br />
38
4000<br />
3500<br />
3000<br />
2500<br />
2000<br />
1500<br />
1000<br />
500<br />
0<br />
300 400 500 600 700 800 900 1000<br />
10 3 300 400 500 600 700 800 900 1000<br />
10 2<br />
10<br />
1<br />
Fig.1.17. Lo stesso istogramma in carta lineare (sopra) e semi-logaritmica (sotto). Si noti come la carta semilogaritmica<br />
consente di apprezzare la zona al di sotto di 600, cosa impossibile nel grafico in carta lineare.<br />
10 2 0 10 20 30 40 50 60 70 80 90 100<br />
10<br />
1<br />
10 -1<br />
Fig.1.18 “Foglio” di carta semi-logaritmica. Le decadi sono state identificate con i valori 0.1, 1 10 e 100.<br />
39
10 2<br />
10<br />
1<br />
10 -1<br />
10 -1 1 10 10 2<br />
Fig.1.19 “Foglio” di carta doppio-logaritmica con la stessa suddivisione in decadi dell’asse verticale della Fig.1.18.<br />
La scala verticale é divisa in decadi: ogni intervallo rappresenta un ordine di grandezza. E’ possibile<br />
dunque per ogni separazione di decade mettere i numeri 1, 10, 100, oppure 0.001 o 10 -24 o cosi’ via<br />
(nell’esempio in figura le decadi sono 0.1, 1 e 10).<br />
Nella scala logaritmica non esiste lo 0. Sotto ad ogni decade ce ne é un’altra, e cosi’ via fino<br />
all’infinito (del resto il log tende a 0 quando il suo argomento va a -∞).<br />
Una volta stabilita la scala (cioè individuate le decadi) per disporre i punti correttamente sull’asse<br />
non occorre prendere la calcolatrice e calcolare il logaritmo. La scala é fatta anche per evitare<br />
questo.<br />
Esistono infine le carte doppio-logaritmiche in cui ambedue gli assi sono in scala logaritmica (vedi<br />
Fig.1.19). L’uso di questi tipi di grafici é legato all’esistenza di fenomeni che si lasciano descrivere<br />
da una relazione tra le 2 grandezze x ed y di tipo “potenza”:<br />
y =<br />
Ax<br />
b<br />
In tal caso prendendo i logaritmi di ambedue i membri si ha:<br />
[ y] = log[ A] blog[ x]<br />
log +<br />
Come si vede si ha una relazione lineare tra log[y] e log[x]. E’ b (l’esponente che regola la legge di<br />
potenza) in questo caso a rappresentare la “pendenza” dell’andamento in questione. Un esempio<br />
particolarmente interessante di fenomeno fisico messo in risalto da un grafico in carta doppiologaritmica<br />
é dato in Fig.1.20.<br />
40
Fig.1.20 Questo grafico mostra il complesso delle misure disponibili nel settembre 2005 del flusso di raggi cosmici in<br />
funzione dell’energia. Il grafico é in carta doppio-logaritmica. Ciò permette di vedere insieme misure riferite ad ordini<br />
di grandezza molto diverse. Inoltre il cambio di pendenza intorno ai 10 16 eV (il cosiddetto knee cioè ginocchio dello<br />
spettro) che costituisce uno dei fenomeni più studiati della fisica dei raggi cosmici é ben messo in evidenza da questa<br />
modalità grafica.<br />
41
Esercizi relativi al Capitolo (1)<br />
1.1) Dai dati della Fig.1.1: determinare per ognuno dei 5 grafici il miglior valore. Usando i valori<br />
veri determinare i 5 scarti.<br />
1.2) Ancora dai dati di Fig.1.1: valutare scarto medio e deviazione standard degli scarti. A che<br />
frazione di una divisione corrisponde ?<br />
1.3) Un elettrone viene accelerato attraverso una differenza di potenziale di V=1.2kV. Sapendo che<br />
la carica elettrica di un elettrone é q =1.6 x 10 -7 pC e sapendo che l’energia acquistata da una carica<br />
elettrica q accelerata attraverso una differenza di potenziale Vé E = q V, calcolare quanti J di<br />
energia acquista l’elettrone. (1J = 1 Joule = 1 V x 1 C = 1 Volt x 1 Coulomb).<br />
1.4) Voglio misurare la densità di un fluido tramite misure di massa e di volume. Lo dispongo in un<br />
contenitore e ottengo una massa M = 13.5 g tramite una bilancia digitale. La massa del contenitore<br />
é M 0 = 0.322 g (misurata usando una seconda bilancia di inferiore portata ma di maggiore<br />
sensibilità). Per il volume ottengo V = 62 ml.<br />
Esprimere il valore della densità in g/cm 3 dando solo le cifre significative.<br />
1.5) Si vuole stabilire se diversi gruppi di campioni di utensili preistorici scoperti in due diverse<br />
zone (zona A e zona B), appartengono alla stessa epoca. A tale scopo si procede alla misura della<br />
vita media di ciascun campione con il metodo del 14 C. Si ottengono i seguenti risultati.<br />
Reperti zona A: 10 campioni (5300, 5650, 5820, 5460, 4920, 5110, 5400, 5710, 4770, 5320) anni<br />
Reperti zona B: 15 campioni (6050, 5820, 6110, 5760, 5890, 6220, 5840, 5920, 6000, 5610, 6010,<br />
6220, 6140, 5950, 5740) anni<br />
a) Fare gli istogrammi dei reperti delle 2 zone<br />
b) Calcolare medie e deviazioni standard per ambedue i gruppi di reperti<br />
Un anziano archeologo dando una rapida occhiata ai dati afferma: i 2 gruppi di reperti sono<br />
contemporanei. Ha ragione ?<br />
1.6) Ad una molla é appesa una massa M nota con incertezza trascurabile; la costante di elasticità k<br />
della molla é nota solo al 5%. Quanto bene conosco il periodo delle piccole oscillazioni T ? Si<br />
ricordi che il periodo delle piccole oscillazioni di una molla di costante k é T = 2 π √M/k .<br />
1.7) Si ha una bilancia a lettura digitale in cui l’ultimo digit corrisponde a 1 g. Applico questa<br />
bilancia ad un kg campione e leggo sul display 1022. Ripeto la misura e mi accorgo che leggo<br />
sempre 1022. Cosa posso concludere su: risoluzione, precisione e accuratezza della bilancia ?<br />
1.8) Uno strumento per la misura di spessori ha una risoluzione di 1 μm ed una precisione di 52 μm.<br />
Per misurare uno spessore raccolgo 100 valori successivi. Non osservo andamenti nel tempo.<br />
Determinare la larghezza di un intervallo di quasi certezza per la misura.<br />
1.9) Uno strumento per misure di velocità ha una precisione relativa dello 0.2 %. Viene applicato ad<br />
un campione di 9150 raggi γ emessi da una sorgente radioattiva. La media delle misure é 2.99814 x<br />
10 8 m/s. Cosa possiamo dire della accuratezza dello strumento ? [Si ricordi che c=2.99792458 x 10 8<br />
m/s]<br />
1.10) Una commissione é incaricata di stabilire se in un certo paese vi é una incidenza “anomala”<br />
della malattia X. Quali sono i numeri di cui la commissione ha bisogno per trarre una conclusione<br />
“scientificamente fondata” ?<br />
42
1.11) Calcolare il lavoro fatto per spingere di 24.2 cm un pistone attraverso un cilindro di area 152.4<br />
cm2. La pressione esercitata dal pistone é di circa 12 atm. Dare il risultato in unità del S.I. con le<br />
corrette cifre significative. [si ricordi che L = pΔV e che 1 atm = 101325 Pa ]<br />
1.12) Con lo stesso strumento dell’esercizio 1.8) voglio vedere se effettivamente la posizione della<br />
trave che regge il mio palazzo si sta spostando nel tempo. Ripeto a distanza di un anno la misura<br />
della posizione, in entrambi i casi (la prima misura e quella effettuata ad un anno di distanza)<br />
prendendo 1000 valori e facendone la media. Trovo uno spostamento di 48 μm. E’ significativo ?<br />
1.13) Uno strumento per misure di lunghezze con risoluzione di 1/10 di mm, viene calibrato rispetto<br />
ad un metro campione. Il risultato é: 1002.6 mm con incertezza trascurabile.<br />
Successivamente uso questo strumento per la misura di una lunghezza e, fatte 100 misure, ottengo<br />
un valor medio di 914.1 mm con una deviazione standard campionaria di 3.2 mm.<br />
Dare al meglio il risultato della misura. Indicare le ipotesi utilizzate.<br />
1.14) Munendosi di atlante, calcolare l’ordine di grandezza della densità di popolazione delle città<br />
di Roma e di Londra. Sono significativamente diverse ?<br />
1.15) Un chimico annuncia di aver scoperto che il soluto X nel solvente Y ha una concentrazione<br />
anomala rispetto al 20% in volume atteso. Lui ha misurato 5 campioni di solvente da 3 l ciascuno ed<br />
ha ottenuto i seguenti valori per il soluto X: 607, 641, 638, 702, 619 cm 3 . E’ fondata la sua<br />
conclusione ?<br />
1.16) Voglio vedere se la variabile X é significativamente > 0. Riesco a misurarla con una<br />
precisione di 67x10 -4 . Faccio 2000 misure, e ottengo una media di 0.1x10 -4 . Cosa posso concludere<br />
?<br />
1.17) Due diversi modelli prevedono per la variabile X rispettivamente i valori 0 e 10 -5 . Sapendo<br />
che la precisione della mia misura di X é 67 x 10 -4 , quante misure devo fare per discriminare tra i 2<br />
modelli ?<br />
1.18) Misura di velocità: in 1032.8 s ho percorso lo spazio tra la indicazione di 32.4 e 36.8 km della<br />
strada statale. Quanto sono andato veloce in media ?<br />
1.19) Un razzo che si muovo alla velocità di 15.6 km/sé partito 10 giorni fa da terra. Dove é arrivato<br />
?<br />
1.20) Un navigatore ha valutato che il 10% circa del volume di un iceberg emerge dal pelo<br />
dell’acqua. Quant’è la densità di quell’iceberg ? [ ρ (iceberg) = ρ (acqua) f in cui fé la frazione di<br />
volume sommerso e ρ (acqua) = 1.00 g/cm 3 ]<br />
1.21) Viene presentata un auto nuova che in 10.00 s passa da 0 a 154 km/h. Calcolare<br />
l’accelerazione media in numero di g. [g = 9.81 m/s 2 , a = Δv/Δt ]<br />
1.22) Nella finale dei 100 m delle olimpiadi di Seoul del 1988, Ben Johnson vince con il tempo di<br />
9.79 s, Carl Lewis é secondo con il tempo di 9.92 s. Quanto distava Lewis dall’arrivo al momento<br />
dell’arrivo di Johnson ? [specificare le ipotesi]<br />
43
1.23) Nella misura della profondità del pozzo dal tempo di caduta del sasso leggo sul display del<br />
cronometro per i 20 diversi sassi che lancio, i seguenti valori:<br />
6.2 6.6 6.4 6.7 6.2 6.3 5.9 6.4 6.5 6.2 6.3 6.4 6.0 6.3 6.2 6.6 6.1 6.3 6.5 7.0 (tutti in s).<br />
Fare l’istogramma delle misure, calcolare media e deviazione standard campionaria.<br />
Dare la migliore stima di un intervallo di quasi certezza per la profondità del pozzo. [ h = ½ g t 2 ]<br />
1.24) Una ripetizione dell’esperienza di Millikan vuole vedere se esistono cariche elettriche pari a ½<br />
e ( e é la carica dell’elettrone ) . Lo strumento utilizzato ha una precisione sulla misura della carica<br />
di 0.7 x 10 -7 pC. Quante cariche ½ e devo osservare per poter dire che si tratta effettivamente di<br />
cariche ½ e e non di elettroni ? [la carica dell’elettrone é e = 1.60217733 x10 -7 pC]<br />
1.25) Sono prese misure di radioattività ad intervalli regolari di 1/2 ora. Nell’arco di 8 ore (dalle 12<br />
alle 20) vengono registrati i seguenti valori (in conteggi al secondo):<br />
16.24 / 16.38 / 16.31 / 16.42 / 16.30 / 16.29 / 16.36 / 16.94 / 17.21 / 17.26 / 17.14 / 17.31 / 17.24 /<br />
17.32 / 17.16 / 17.25.<br />
a) Discutere qualitativamente i dati a disposizione eventualmente utilizzando grafici<br />
b) Stabilire quantitativamente se si é osservata una variazione significativa della radioattività<br />
1.26) Per un campione di 100 distributori di benzina sparsi sul territorio nazionale sono stati<br />
registrati i prezzi del Gasolio in due momenti: il 1/6/2003 ed il 1/10/2004. Facendo gli istogrammi<br />
dei 2 insieme di dati si ha (prezzi in euro/litro):<br />
1/6/2003 1/10/2004<br />
0.800-0.820 1 0.960-0.980 1<br />
0.820-0.840 12 0.980-1.000 25<br />
0.840-0.860 27 1.000-1.020 48<br />
0.860-0.880 31 1.020-1.040 26<br />
0.880-0.900 19 1.040-1.060 0<br />
0.900-0.920 9<br />
0.920-0.940 1<br />
a) Disegnare gli istogrammi e determinare media e deviazione standard di ogni campione.<br />
b) I dati sono compatibili con un aumento tendenziale del 10.2% su base annuale ?<br />
1.27) Misuro il raggio di un cuscinetto a sfera di acciaio con un calibro a lettura digitale. Ottengo il<br />
valore 30.335 mm. Ruotando la sfera il valore del raggio non cambia. Dare la migliore stima della<br />
massa del cuscinetto con la sua incertezza (la densità del tipo di acciaio utilizzato per i cuscinetti<br />
viene data come intervallo standard 7.85±0.05 g/cm 3 ).<br />
1.28) Si é misurata la carica elettrica di una nuova particella. Su di un campione di 218 esemplari di<br />
tale particella, la distribuzione della carica é ben descritta da una distribuzione di Gauss con valore<br />
centrale 1.48 x 10 -19 C con deviazione standard 0.28 x 10 -19 C. Si può concludere che questa nuova<br />
particella ha una carica significativamente minore di quella elementare ? (la carica elettrica<br />
elementare é q = 1.6021773 x 10 -19 C.)<br />
44
(2) La probabilità e le variabili casuali<br />
(2.1) Concetto di probabilità<br />
Abbiamo visto nel capitolo precedente che la nozione di probabilità entra in gioco in modo del tutto<br />
naturale nella discussione dei problemi relativi alla interpretazione del significato delle misure.<br />
Finora tuttavia la nostra nozione di probabilità é stata solo intuitiva. Abbiamo in particolare<br />
introdotto la nozione di intervallo di probabilità (quanto crediamo all’intervallo che abbiamo fornito<br />
per il valor vero della misura). Abbiamo inoltre visto che nella costruzione di un istogramma, il<br />
numero di volte con cui viene ottenuto un dato valore (che abbiamo chiamato frequenza) é in<br />
qualche modo legato alla probabilità che quel dato valore sia ottenuto. La nozione di probabilità fa<br />
parte del modo con cui l’uomo analizza l’ambiente in cui vive. E’ una delle categorie che più o<br />
meno consciamente utilizziamo nella nostra vita quotidiana.<br />
Ci inoltriamo ora in una teoria matematica (la teoria della probabilità) all’interno della quale la<br />
nozione di probabilità é definita, e che ci permette anche di fare operazioni e di mettere in relazioni<br />
probabilità associate a diversi fatti o eventi. Cominciamo a discutere la “definizione” di probabilità.<br />
Il problema della definizione della probabilità é estremamente dibattuto ed aperto. In generale<br />
possiamo dire che ci sono 2 approcci di diverso tipo. Vediamo di descriverli entrambi senza<br />
partecipare alle accese polemiche tra i sostenitori di ciascuna delle due.<br />
(a) Probabilità “ontologica”: la probabilità é una proprietà del fenomeno, il quale può presentarsi<br />
sotto diverse modalità in determinate frazioni di casi. La probabilità é dunque una proprietà della<br />
realtà, del mondo, di come si svolgono le cose. E’ una visione che qualcuno (in modo non<br />
completamente appropriato) chiama oggettiva.<br />
(b) Probabilità “epistemica”: la probabilità é una proprietà che noi associamo ad un fenomeno sulla<br />
base delle nostre conoscenze di come il fenomeno si manifesta. E’ una proprietà che appartiene al<br />
modo con cui noi conosciamo il fenomeno, che dunque può non appartenere al fenomeno stesso. E’<br />
naturalmente detta, in contrapposizione alla precedente definizione, soggettiva.<br />
Senza accettarne una come nostra, tentiamo di definire in modo intuitivo cosa facciamo noi quando<br />
usiamo la probabilità. Il nostro pensiero seleziona cose vere, cose false, e cose sul cui contenuto di<br />
verità siamo incerti. Ma le cose incerte non sono completamente ignote, diciamo che c’è una<br />
“scala” naturale che ha per estremi proprio il vero da una parte ed il falso dall’altra. Probabilità é la<br />
quantificazione di questa scala: quantifica dunque lo stato di incertezza rispetto al contenuto di<br />
verità di una affermazione. In inglese si dice “degree of belief” ovvero grado di credito. La mente<br />
umana sviluppa in modo naturale questo concetto. E’ naturale introdurre una scala tra 0 e 1 spesso<br />
espressa in percentuali.<br />
Quanto detto si avvicina maggiormente alla definizione (b) che molti fisici non accettano perché<br />
apparentemente va contro il paradigma dell’oggettività. In realtà come abbiamo visto, l’oggettività<br />
dell’indagine scientifica resta garantita dal fatto (non logico ma sperimentale) che osservatori<br />
diversi alla fine “si mettono d’accordo” sempre sui risultati ottenuti, quando questi sono<br />
sufficientemente “solidi”. E’ come se la pretesa oggettività sia in definitiva una forma di “intersoggettività”.<br />
(2.2) Alcuni metodi di calcolo<br />
Abbandoniamo la discussione filosofica ed intraprendiamo lo studio dei metodi di calcolo delle<br />
probabilità (sui quali non ci sono grossi dibattiti).<br />
Storicamente la probabilità ha assunto interesse in 2 aree: l’area delle scommesse e l’area delle<br />
assicurazioni. Si tratta evidentemente di 2 esigenze diverse. Nel primo caso voglio sapere dove é<br />
conveniente puntare, nel secondo caso per stabilire le modalità di una polizza assicurativa occorre<br />
conoscere quanto é probabile che accada una certa cosa. A partire da tali due esigenze si sono<br />
sviluppati empiricamente 2 metodi di calcolo della probabilità. Tali metodi sono a volte<br />
46
erroneamente chiamate definizioni. In realtà, come vedremo, nessuno dei due costituisce da solo<br />
una definizione esauriente:<br />
Metodi di calcolo:<br />
- Combinatorio (derivazione da scommesse): supponiamo di trovarci di fronte ad un<br />
problema che si può decomporre in varie possibilità che potremmo chiamare “casi possibili”. Un<br />
dato evento sarà definito dall’occorrenza di certi “casi favorevoli” tra tutti quelli possibili. Allora<br />
diciamo che la probabilità del nostro evento é:<br />
Num ( casi − favorevoli )<br />
prob =<br />
Num ( casi − possibili )<br />
si noti che perché questa definizione abbia significato, occorre che i casi possibili siano tutti<br />
“equiprobabili”. Il che mette in luce il problema di principio insito nell’uso della definizione<br />
combinatoria come definizione di probabilità (uso nella definizione del concetto che si vuol<br />
definire). Oltre a ciò si noti che non tutte le applicazioni della probabilità sono riconducibili ad un<br />
problema di casi favorevoli rispetto a casi possibili.<br />
- Frequentista (derivazione da assicurazioni): supponiamo invece di trovarci nella<br />
possibilità di misurare la frequenza con cui un dato evento ha luogo. Allora definisco probabilità il<br />
limite della frequenza per un gran numero di prove:<br />
prob = lim<br />
f<br />
n→∞<br />
n<br />
dove con f indichiamo la frequenza dell’evento in questione ottenuta dopo n prove. Tale<br />
n<br />
definizione si fonda sul fatto sperimentalmente osservato che al crescere del numero di prove le<br />
frequenze tendono a “stabilizzarsi”. Per esempio se lancio tante volte una monetina regolare, la<br />
frequenza con cui ottengo testa si avvicina al 50% sempre di più al crescere del numero di prove.<br />
Tale fatto empirico é quello che costituisce il cosiddetto Principio di Stabilità della Frequenza.<br />
Non si tratta comunque di definizioni logicamente soddisfacenti. Inoltre ci sono casi che sfuggono<br />
ad entrambi questi metodi di calcolo.<br />
Esempi di applicazione semplice del metodo di calcolo combinatorio sono forniti dal lancio della<br />
monetina o del dado, dall’estrazione di una carta da un mazzo di carte. Si tratta di esempi in cui é<br />
agevole individuare quali sono i casi possibili e quali i casi favorevoli, e di conseguenza si tratta di<br />
contare quanti sono. Nell’applicare questa definizione occorre tuttavia fare attenzione alla richiesta<br />
di equiprobabilità dei casi possibili. Non tenerne conto significa sbagliare la determinazione. Si<br />
provi a calcolare la probabilità di avere 2 volte testa lanciando due volte la monetina. Si potrebbe<br />
pensare di dire che ci sono 3 casi possibili: 2 volte testa, 2 volte croce, 1 testa e 1 croce da cui<br />
prob=1/3. In realtà non sfugge ad un esame attento del problema che i casi possibili sono 4, poiché<br />
1 testa e 1 croce vale doppio comprendendo anche il caso 1 croce 1 testa. E dunque prob=1/4.<br />
Esempi di applicazioni del metodo frequentista sono altrettanto comuni. La probabilità che un nato<br />
sia maschio o femmina, viene valutata contando la frazione dei casi in cui si manifestano le due<br />
modalità, e in generale tutte le “statistiche” che quotidianamente ci vengono illustrate su giornali e<br />
televisioni si fondano sull’idea che misurando una frequenza di occorrenza di una certa cosa si<br />
possa dire quant’è la probabilità che quella cosa accada.<br />
Si é sviluppata una branca della matematica, il calcolo delle probabilità appunto, che si occupa di<br />
definire le operazioni e i metodi di calcolo.<br />
(2.3) Regole della teoria delle probabilità.<br />
Passiamo ora a descrivere la teoria della probabilità. Utilizziamo le cose viste cercando di<br />
formalizzarle. Cominciamo con i termini del linguaggio.<br />
(2.3.1) Spazio degli eventi<br />
47
Che cosa é un Evento. E’ una modalità possibile con cui un dato fenomeno si manifesta. L’insieme<br />
degli eventi costituisce quello che chiameremo spazio degli eventi e che può essere rappresentato<br />
come una parte di un piano. Nell’usare questa rappresentazione, facciamo riferimento alla ben nota<br />
teoria degli insiemi che ha il pregio di essere intuitiva. Chiamiamo Ω l’intero spazio degli eventi,<br />
cioè l’insieme di tutti gli eventi, ovvero l’insieme di tutte le modalità con cui un dato fenomeno si<br />
può svolgere, e 0l’evento nullo, cioè il non verificarsi di alcuna modalità.<br />
(2.3.2) Eventi composti<br />
Come nel caso della teoria degli insiemi, definiamo un certo numero di importanti operazioni tra<br />
eventi. Dati due eventi A e B definiamo<br />
- somma logica (OR) A ∪ B quell’evento che può manifestarsi o secondo la modalità A o<br />
secondo la modalità B;<br />
- prodotto logico (AND) A ∩ B quell’evento che si manifesta quando si manifestano sia A<br />
che B<br />
- eventi incompatibili quei due eventi A e B tale che il manifestarsi dell’uno implica il non<br />
manifestarsi dell’altro e viceversa, cioè le modalità dei due eventi sono tali da farli escludere<br />
reciprocamente. Evidentemente la condizione di incompatibilità si può esprimere come<br />
A ∩ B = 0<br />
- eventi opposti quei 2 eventi A e B incompatibili tali che la loro somma logica sia uguale a<br />
Ω. L’evento opposto di A si indica anche come A; vale dunque: A ∪ A = Ω<br />
- un evento A é incluso in B, quando tutte le modalità di A sono anche modalità di B: A ⊂ B<br />
Tutte le definizioni date hanno un corrispettivo grafico che é facilmente caratterizzabile utilizzando<br />
i ben noti diagrammi della teoria degli insiemi.<br />
(2.3.3) Definizione assiomatica della probabilità<br />
Definiamo il simbolo P(E) (probabilità dell’evento E) in modo del tutto formale, come una<br />
caratteristica di E avente le seguenti proprietà(definizioni assiomatiche di Kolmogorov):<br />
positività: 0 ≤ P ( E)<br />
≤ 1 la probabilità associata ad un evento é un numero reale e positivo non<br />
superiore a 1;<br />
certezza: P ( Ω)<br />
= 1 e P ( 0) = 0 la probabilità dell’intero spazio degli eventi é pari a 1 e<br />
quella dell’evento nullo é 0;<br />
unione: se A e B sono incompatibili P ( A ∪ B)<br />
= P(<br />
A)<br />
+ P(<br />
B)<br />
Si noti che si tratta di una definizione “formale” che non dice nulla riguardo il significato di questa<br />
operazione P(E) che associa un numero reale ad un evento. Si chiama appunto definizione<br />
assiomatica perché stabilisce delle regole a partire dalle quali possono essere dedotte tutte le altre<br />
proprietà.<br />
(2.3.4) Probabilità condizionata<br />
Nello scrivere il simbolo P(E) intendiamo dire la probabilità dell’evento E. Si noti tuttavia anche<br />
per le considerazioni fatte sulle misure nella prima parte del corso, che ha senso chiedersi della<br />
probabilità di un evento solo quando sono specificate le condizioni all’interno delle quali l’evento é<br />
definito. Dunque é più generale esprimere la probabilità di E come la probabilità di E date le<br />
condizioni H. Scriveremo pertanto P(E/H). Il simbolo P(E/H) esprime quella che si chiama<br />
probabilità condizionata. Per quanto detto dunque la probabilità é sempre condizionata. Si noti che<br />
il simbolo P(E/H) non é la stessa cosa di P( E ∩ H ) come si potrebbe pensare a prima vista.<br />
Tutto va come se la condizione H definisse il nuovo spazio degli eventi su cui calcolare la<br />
probabilità di E. Si tratterà dunque di calcolare<br />
48
P(<br />
E / H ) =<br />
P(<br />
E ∩ H )<br />
P(<br />
H )<br />
cioè calcolare il prodotto logico tra E ed H e poi “normalizzarlo” alla probabilità di H stesso. Si può<br />
dire che la probabilità condizionata restringe lo spazio degli eventi a cui far riferimento dallo spazio<br />
completo Ω al suo sottospazio H. Un esempio del significato di questi due simboli ci é fornito dal<br />
caso in cui mi chiedo quale sia la probabilità che esca testa al secondo lancio quando nel primo é<br />
già uscita testa. In tal caso P( E ∩ H ) e P(E/H) sono differenti. Infatti nel secondo caso non<br />
devo contare la probabilità che sia uscito testa la prima volta, essendo questo dato per “certo”,<br />
mentre nel primo devo calcolarlo.<br />
L’espressione data sopra é evidentemente simmetrica rispetto ad E ed H , quindi E ed H possono<br />
essere invertiti e la formula può essere rigirata. Avremo dunque:<br />
P(<br />
E ∩ H ) = P(<br />
E / H ) P(<br />
H )<br />
P(<br />
E ∩ H ) = P(<br />
H / E)<br />
P(<br />
E)<br />
Le due espressioni date costituiscono il teorema delle probabilità composte che serve per calcolare<br />
la probabilità di eventi composti, cioè di eventi che avvengono in coincidenza.<br />
Si noti che P(E/H) può essere > < o = a P(E). Ciò dipende infatti dal tipo di relazione esistente tra<br />
la condizione H e l’evento E. Nel caso dei 2 lanci della monetina che abbiamo citato poco sopra,<br />
entrambi le probabilità sono uguali e pari a ½. Ciò riflette il fatto che l’esito del primo lancio non<br />
ha alcun effetto sull’esito del secondo (a differenza di quello che credono coloro che puntano sui<br />
numeri del lotto sulla base del loro ritardo nell’uscita). Ma si possono costruire anche esempi in cui<br />
l’esito del primo evento condiziona l’esito del secondo. Se ho un urna con 5 palline bianche e 5 nere<br />
e ad ogni estrazione non reintroduco la pallina estratta, evidentemente la probabilità di estrarre<br />
bianco al secondo lancio cambia se specifico la condizione “al primo lancio ho estratto una bianca”.<br />
Il caso particolare che si ha quando P(E/H) = P(E) (come nell’esempio della monetina), cioè il caso<br />
in cui la condizione data dall’evento H non ha alcuna rilevanza circa la probabilità di E corrisponde<br />
al fatto che i 2 eventi sono indipendenti o scorrelati. Il verificarsi dell’uno non ha alcun effetto<br />
sulla probabilità di verificarsi dell’altro. Quando invece P(E/H) é diversa da P(E) allora si dice che<br />
i 2 eventi sono dipendenti o correlati.<br />
Nel caso di eventi indipendenti si ha:<br />
P ( A ∩ B)<br />
= P(<br />
A)<br />
P(<br />
B)<br />
regola della moltiplicazione delle probabilità di eventi indipendenti.<br />
Dunque come regola generale, quando devo considerare l’OR tra eventi incompatibili sommo le<br />
probabilità quando devo fare l’AND tra eventi indipendenti devo moltiplicarle.<br />
Si noti che la nozione di indipendenza non va confusa con quella di incompatibilità sopra definita.<br />
Si vede immediatamente che se 2 eventi sono incompatibili cioè se il verificarsi dell’uno implica il<br />
non verificarsi dell’altro, allora i 2 eventi sono massimamente dipendenti.<br />
(2.3.5) Alcune proprietà delle probabilità<br />
Deriviamo alcune importanti proprietà della probabilità che useremo in seguito. Si tratta di<br />
conseguenze degli assiomi nel senso che possono essere derivate formalmente usando solo gli<br />
assiomi dati. Le vediamo facendo per ognuna riferimento al suo significato grafico nell’ambito del<br />
modello insiemistico.<br />
Dato un evento A ed il suo opposto A si ha<br />
A ∪ A = Ω<br />
e dunque essendo A ed A incompatibili ed usando gli assiomi di unione e certezza:<br />
P ( A ∪ A)<br />
= P(<br />
A)<br />
+ P(<br />
A)<br />
= P(<br />
Ω)<br />
= 1<br />
si ha la regola (peraltro intuitiva):<br />
49
P( A)<br />
= 1−<br />
P(<br />
A)<br />
.<br />
A ed il suo opposto A costituiscono una “partizione completa” di Ω e pertanto qualsiasi evento<br />
B può essere scritto nella forma:<br />
B = ( B ∩ A)<br />
∪ ( B ∩ A)<br />
come OR di 2 eventi incompatibili per cui la probabilità di B sarà:<br />
P( B)<br />
= P(<br />
B ∩ A)<br />
+ P(<br />
B ∩ A)<br />
Si tratta di una decomposizione che viene utilizzata in molte delle dimostrazioni formali dei teoremi<br />
che vedremo nel seguito.<br />
Proprietà di inclusione. Vale la proprietà anch’essa intuitiva che se<br />
A ⊆ B<br />
allora<br />
P( A)<br />
≤ P(<br />
B)<br />
Tale proprietà é facilmente dimostrabile decomponendo l’evento B nell’OR tra l’evento A (che é<br />
per ipotesi incluso in B) e il resto di B che é esprimibile come AND tra B e l’opposto di A<br />
B = A ∪ ( B ∩ A)<br />
Applicando al solito l’assioma dell’unione si ottiene:<br />
P( B)<br />
= P(<br />
A)<br />
+ P(<br />
B ∩ A)<br />
≥ P(<br />
A)<br />
essendo comunque per l’assioma della positività<br />
P ( B ∩ A)<br />
≥ 0<br />
Da ultimo vediamo come si generalizza l’assioma dell’unione al caso in cui i 2 eventi non siano<br />
incompatibili. Se considero 2 eventi A e B decompongo il loro OR nell’OR tra A senza B, B senza<br />
A e A e B insieme (3 eventi chiaramente incompatibili). Esplicitamente,<br />
A ∪ B = ( A ∩ B)<br />
∪ ( A ∩ B)<br />
∪ ( A ∩ B)<br />
da cui usando l’assioma dell’unione<br />
P( A ∪ B)<br />
= P(<br />
A ∩ B)<br />
+ P(<br />
A ∩ B)<br />
+ P(<br />
A ∩ B)<br />
Analogamente posso decomporre sia A che B in eventi incompatibili per modo che valgono le:<br />
P(<br />
A)<br />
= P(<br />
A ∩ B)<br />
+ P(<br />
A ∩ B)<br />
P(<br />
B)<br />
= P(<br />
A ∩ B)<br />
+ P(<br />
A ∩ B)<br />
Sottraendo membro a membro ed eliminando i termini uguali otteniamo l’importante teorema:<br />
P( A ∪ B)<br />
= P(<br />
A)<br />
+ P(<br />
B)<br />
− P(<br />
A ∩ B)<br />
all’interno del quale l’assioma dell’unione é compreso come caso particolare di eventi<br />
incompatibili. Si noti che tale teorema ha un chiarissimo significato grafico.<br />
(2.3.6) Il teorema di Bayes<br />
Dimostriamo ora un ulteriore teorema che deriva dalla definizione assiomatica e che riveste un<br />
ruolo particolarmente rilevante nei problemi di “inferenza”. Vediamo prima il teorema e poi<br />
vedremo la sua interpretazione.<br />
Consideriamo lo spazio degli eventi Ω suddiviso in N eventi tutti tra loro incompatibili e tali da<br />
costituire una “partizione completa” di Ω. Chiamiamo A i l’i-esimo evento. Si ha per definizione:<br />
Ω = ∪ A<br />
i i<br />
∀i, j(<br />
A ∩ A ) = 0<br />
i<br />
j<br />
Con tale decomposizione la probabilità dell’evento B può essere scritta nella forma:<br />
50
P(<br />
B)<br />
= N<br />
i= 1<br />
i<br />
i=<br />
1<br />
N<br />
∑P(<br />
B ∩ A ) = ∑P(<br />
B / A ) P(<br />
A )<br />
i<br />
i<br />
dove abbiamo anche usato il teorema delle probabilità composte. D’altra parte, sempre sulla base<br />
del teorema delle probabilità composte scritto usando simmetricamente A e B posso derivare la<br />
relazione:<br />
P(<br />
A)<br />
P ( A/<br />
B)<br />
= P(<br />
B / A)<br />
P(<br />
B)<br />
Applicando questa relazione all’evento B ed al generico A k ed usando per P(B) la decomposizione<br />
sopra descritta, otteniamo:<br />
P(<br />
B / A ) P(<br />
A )<br />
k<br />
k<br />
P(<br />
A / B)<br />
=<br />
k<br />
N<br />
∑ P(<br />
B / A ) P(<br />
A )<br />
i=<br />
1<br />
i<br />
i<br />
Tale espressione esprime il Teorema di Bayes. Si tratta evidentemente di una conseguenza degli<br />
assiomi della probabilità. Proviamo a “leggere” questo teorema. Supponiamo che il fenomeno che<br />
sto studiando può aver luogo secondo N modalità diverse (gli N eventi Ai). Supponiamo inoltre di<br />
aver osservato l’evento B e di essere interessati a sapere quale o quali tra le N modalità Ai siano<br />
plausibilmente le “cause” di B. O, detto in termini più espliciti, se osservo l’effetto B e questo può<br />
essere dovuto a N cause diverse Ai, voglio, dall’osservazione dell’effetto stabilire la probabilità di<br />
ciascuna causa. Cosi’ formulato si tratta di un problema di straordinaria generalità. Infatti il<br />
procedimento dello sperimentatore consiste proprio nel registrare un effetto (il valore misurato) e<br />
nello stabilire un intervallo di probabilità per il valore vero che significa trovare quale tra le<br />
possibili cause é più plausibile.<br />
Il teorema di Bayes consente dunque di calcolare la probabilità delle cause, dato l’effetto osservato.<br />
Per fare ciò ho bisogno di 2 ingredienti:<br />
conoscenza di tutte le P ( A k ) cioè delle cosiddette “probabilità a priori” delle cause. Si tratta di<br />
una informazione che racchiude tutta la conoscenza a priori sul fenomeno che sto studiando. Se non<br />
ho nessuna conoscenza queste P ( A k ) immagino che siano uniformi cioè che tutte le cause possibili<br />
siano equiprobabili.<br />
conoscenza di tutte le P ( B / A k ). Si tratta per ogni Ak della probabilità di osservare l’effetto B<br />
se la causa che lo origina é Ak. Si chiama anche funzione di verosimiglianza (likelihood in<br />
inglese). E’ una funzione che racchiude tutte le conoscenze che ho sulla relazione tra causa ed<br />
effetto. Nel caso di un esperimento é la mia conoscenza dell’apparato di misura (precisione, errori<br />
sistematici, accuratezza, ripetibilità...)<br />
Il teorema di Bayes permette dunque di passare dalle probabilità per gli effetti alle probabilità per le<br />
cause. Può essere usato come base per il processo dell’inferenza che consiste proprio nel fare<br />
affermazioni sulle cause (i valori veri) dati gli effetti.<br />
(2.4) Il Calcolo Combinatorio.<br />
Vediamo ora alcune interessanti regole di calcolo che sono molto utilizzate nel calcolo delle<br />
probabilità, in particolare nella determinazione del numero dei casi favorevoli e di quello dei casi<br />
possibili che entrano nel metodo combinatorio di valutazione della probabilità. Parliamo del calcolo<br />
combinatorio. E’ importante sottolineare l’importanza del calcolo combinatorio in <strong>Fisica</strong>. Esso<br />
infatti entra in gioco non solo come vedremo nel calcolo delle probabilità, ma svolge un ruolo<br />
essenziale anche nella Meccanica Statistica, cioè in quel settore della <strong>Fisica</strong> Teorica nel quale<br />
vengono studiate le proprietà dei sistemi costituiti da molti elementi.<br />
I problemi di calcolo combinatorio di cui ci occuperemo qui, possono in generali essere tutti posti<br />
nel modo seguente. Supponiamo di avere un certo numero (diciamo n) di elementi, e supponiamo di<br />
avere la possibilità di disporre questi elementi in un certo numero (diciamo k) di caselle, un<br />
elemento a casella, secondo certe modalità date per costituire degli oggetti. Allora mi chiedo:<br />
quant’e il numero di oggetti che posso costituire o, detto in altri termini, il numero di modi in cui<br />
posso disporre gli n elementi nelle k caselle ?<br />
51
In generale la regola é: se nella i-esima casella posso scegliere 1 tra n i degli n elementi, il numero<br />
totale di oggetti che posso costruire é pari a n 1 *...*n i *...*n k cioè devo moltiplicare tra loro tutti i<br />
numeri di scelte possibili.<br />
Distinguiamo ora i vari casi che si incontrano e facciamo dunque una classificazione dei problemi<br />
di calcolo combinatorio, sulla base delle modalità di disposizione.<br />
(1) Disposizioni di n elementi in k caselle. Se gli n elementi che ho a disposizione sono tutti<br />
disponibili e possono essere usati ciascuno più di una volta, allora in ciascuna casella posso disporre<br />
effettivamente n elementi. Il prodotto n 1 *n 2 *...*n k tra il numero di elementi che posso mettere in<br />
ogni casella sarà dato dal prodotto k volte degli n elementi, ovvero da :<br />
k<br />
n<br />
È il caso che si pone quando posso usare più volte lo stesso elemento e allo stesso tempo, la<br />
sequenza nelle k caselle é importante. L’esempio più classico é quello della schedina di totocalcio.<br />
Ho 13 caselle da riempire con 3 elementi. Il numero di modi con cui posso farlo é evidentemente<br />
3 13 .<br />
(2) Disposizioni semplici (cioè senza ripetizioni) di n elementi in k caselle. Questo caso differisce<br />
dal precedente nel fatto che ora una volta che ho messo un elemento in una casella, non posso più<br />
riutilizzarlo. Cioè viene mantenuta l’individualità di ciascun singolo elemento. E’ evidente che in<br />
tal caso deve essere n > k, perché in caso contrario non potrei riempire le k caselle. Contiamo in<br />
questo caso il numero di modi in cui posso disporre gli elementi.<br />
Evidentemente posso mettere n elementi nella prima casella. Quando sono alla seconda ne potrò<br />
mettere solo n-1 perché uno me lo sono già “giocato” alla casella precedente. Alla terza potrò<br />
metterne n-2, e cosi’ via, fino alla k-esima, quando ne potrò mettere n-k+1. Il numero di oggetti<br />
sarà dunque:<br />
n!<br />
n(<br />
n −1)....(<br />
n − k + 1) =<br />
( n − k)!<br />
si noti che anche in questo caso come nel precedente, la sequenza con la quale gli elementi sono<br />
disposti nelle caselle, é rilevante. Cioè se prendo gli stessi elementi e li dispongo in un ordine<br />
diverso, questo costituisce un altro modo che é contato.<br />
Come esempio consideriamo un concorso a cui partecipano 100 persone per 10 posti, e calcoliamo<br />
il numero di graduatorie dei primi 10 classificati che si possono ottenere. In questo caso, n=100,<br />
k=10, ed evidentemente non posso mettere un candidato in 2 diverse posizioni.<br />
Si noti a questo punto la differenza tra i casi (1) e (2). Nel caso (2) gli elementi sono distinguibili,<br />
cioè hanno ciascuno una identità ben definita nel caso (1) no. La distinzione distinguibile –<br />
indistinguibile svolge un ruolo determinante nel passaggio tra <strong>Fisica</strong> Classica e <strong>Fisica</strong> Quantistica.<br />
Anzi fu proprio attraverso la comprensione di questo passaggio che furono mossi i primi passi ai<br />
primi del ‘900 nel passaggio alla nuova <strong>Fisica</strong>.<br />
(3) Permutazioni di n elementi. Si tratta delle disposizioni semplici quando n=k. Si ha un numero<br />
di oggetti pari a<br />
n !<br />
Siamo cioè nel caso in cui il numero di elementi uguaglia il numero di caselle. Ho evidentemente un<br />
solo modo di scegliere quali elementi mettere perché devo prenderli tutti. Tuttavia mi resta la libertà<br />
di definire in quale sequenza metterli nelle caselle. Le permutazioni sono dunque i modi con cui<br />
posso scambiare gli elementi per creare diverse sequenze.<br />
52
(4) Combinazioni di n elementi presi k a k. Qui il problema é un po’ diverso. Come nel caso (2) n<br />
> k. Solo che stavolta, tra n elementi devo sceglierne k e disporli nelle k caselle, ma non sono<br />
interessato a sapere come li dispongo, sono solo interessato a sapere quali ho scelto. In altre parole<br />
devo ancora contare le disposizioni semplici, ma devo contare solo una volta, quelle disposizioni<br />
che sono fatte dagli stessi elementi ma sono solo ordinate in modo diverso. Devo quindi dividere il<br />
numero di disposizioni semplici per il numero di permutazioni dei k elementi scelti.<br />
n!<br />
1 n!<br />
⎛n⎞<br />
= = ⎜ ⎟<br />
( n − k)!<br />
k!<br />
( n − k)!<br />
k!<br />
⎝k<br />
⎠<br />
Il risultato ottenuto é detto coefficiente binomiale per ragioni che saranno chiare nel seguito.<br />
Rappresenta il numero di combinazioni di n elementi presi k a k, cioè il numero di modi in cui<br />
posso scegliere k tra n elementi, indipendentemente dall’ordine con cui li dispongo.<br />
(2.5) Variabili casuali<br />
(2.5.1) Considerazioni generali<br />
La nozione di evento finora utilizzata risulta piuttosto astratta e difficilmente applicabile alle<br />
misure, alle quali siamo interessati. Apparentemente quindi le cose viste nella prima parte del corso<br />
non trovano una connessione diretta con quanto stiamo vedendo riguardo le probabilità degli eventi.<br />
L’applicazione della teoria della probabilità ai risultati di misure, diventa evidente quando<br />
introduciamo le variabili casuali. Quando l’evento può essere schematizzato come l’occorrenza di<br />
un numero, rispetto ad una molteplicità di numeri possibili, si dice che quel numero costituisce una<br />
variabile casuale: intendendo con ciò “un modo dell’evento”. E’ l’evento in forma quantitativonumerica.<br />
L’insieme di tutti i valori che tale variabile può assumere costituisce lo spazio degli<br />
eventi Ω . Si può trattare dell’insieme di tutti i numeri reali, oppure di tutti gli interi positivi, oppure<br />
degli interi tra 0 e 100 o quello che si vuole.<br />
Perché le variabili casuali sono importante in fisica ? Essenzialmente perché le grandezze fisiche<br />
che costituiscono l’oggetto delle misure, si presentano in generale come variabili casuali. Negli<br />
esempi che abbiamo visto nella prima parte del corso e nella prima esercitazione, abbiamo notato<br />
che il risultato di ogni misura può essere un numero diverso e dunque il risultato di una misura può<br />
considerarsi a tutti gli effetti come un evento all’interno dello spazio dei possibili risultati. Le<br />
sequenze di numeri che abbiamo visto sono perciò insiemi di eventi, cioè di occorrenze di una<br />
variabile casuale.<br />
Si noti che in questo contesto, l’aggettivo “casuale” non vuol dire completamente a caso, ma vuol<br />
dire che si tratta di una variabile che può assumere valori con certe caratteristiche.<br />
Vediamo alcuni esempi.<br />
a) Testa-Croce. Qui la variabile può assumere 2 valori (lo spazio Ω è uno spazio con 2 eventi<br />
soltanto) che possiamo chiamare 0 e 1. I 2 eventi sono evidentemente equiprobabili di probabilità<br />
1/2<br />
b) 1 Dado. Qui lo spazio é costituito dai numeri interi da 1 a 6, tutti equiprobabili (p=1/6)<br />
c) 2 Dadi. Qui lo spazio é costituito dagli interi da 2 a 12 ma questi non sono equiprobabili. Il<br />
contenuto di probabilità di ciascun evento é facilmente calcolabile con il metodo combinatorio. Si<br />
ottiene una probabilità massima per n=7 e minima per n=2 o 12 (vedi costruzione in Fig.2.1).<br />
53
Fig.2.1 Funzione di distribuzione della variabile discreta somma dei 2 dadi, ottenuta applicando il metodo<br />
combinatorio.<br />
frequenza<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0 2 4 6 8 10 12 14<br />
Somma dei 2 dadi<br />
frequenza<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0 2 4 6 8 10 12 14<br />
Somma dei 2 dadi<br />
frequenza<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
0 2 4 6 8 10 12 14<br />
Somma dei 2 dadi<br />
Fig.2.2 Esempi di distribuzioni “campionarie” della variabile (somma dei 2 dadi) per diversi numeri di lanci<br />
(2.5.2) Distribuzioni di probabilità di variabili casuali<br />
54
Emerge da questi esempi in modo naturale la nozione di distribuzione di probabilità: ogni evento,<br />
ovvero ogni occorrenza di un possibile elemento dello spazio Ω é caratterizzato da una certa<br />
probabilità (che posso stimare a priori sulla base delle mie conoscenze del fenomeno). La<br />
distribuzione ci dice quanto vale p(E) cioè quant’è la probabilità che associamo a ciascuno degli<br />
eventi possibili. Questa distribuzione ha evidentemente una sua caratterizzazione grafica, nella<br />
quale la variabile casuale viene posta sull’asse delle ascisse, e la probabilità viene posta sull’asse<br />
delle ordinate.<br />
La forma ottenuta, esprime in definitiva tutte le proprietà note del fenomeno in esame. Tale forma é<br />
detta anche popolazione. Nel caso della Fig.2.1 abbiamo dunque la popolazione della variabile<br />
“somma di 2 dadi”. Se prendo 2 dadi e faccio un numero finito di lanci, e disegno l’istogramma dei<br />
valori ottenuti (vedi Fig.2.2 dove sono riportati 3 istogrammi per 3 diversi numeri di lanci)<br />
riportando sull’asse delle ordinate le frequenze con cui ciascun valore si é manifestato, ho ottenuto<br />
la descrizione di un campione preso dalla popolazione in esame. Nel limite in cui il numero di<br />
misure é elevato, sappiamo che la frequenza tende alla probabilità di occorrenza di quel risultato,<br />
ovvero, usando un linguaggio più appropriato, il campione tende ad approssimare la popolazione.<br />
Vediamo dunque che tra frequenza e probabilità vi é una “relazione” molto importante, che é la<br />
relazione che c’è tra l’istogramma e la distribuzione ovvero quella che c’è tra campione e<br />
popolazione.<br />
Distinguiamo subito tra 2 tipi di variabili casuali:<br />
(a) variabili discrete: i valori assunti possono essere solo interi compresi tra n 1 ed n 2 .<br />
(b) variabili continue: i valori assunti possono essere numeri reali compresi tra a e b<br />
(2.5.3) Variabili discrete.<br />
Il caso delle variabili discrete é sostanzialmente semplice. Per ogni n ho p ( n ) ovvero la probabilità<br />
che “esca” il numero n. Nel caso del dado, p(1)=p(2)=...=p(6)=1/6. Se voglio sapere la probabilità<br />
che esca un numero compreso tra n1 ed n2 farò:<br />
p ( n ≤ n ≤ n ) =<br />
1<br />
2<br />
n 2<br />
∑<br />
i=<br />
n1<br />
p(<br />
i)<br />
infatti ogni uscita é incompatibile con l’uscita simultanea di un altro numero.<br />
Naturalmente per soddisfare l’assioma della certezza dovrà essere:<br />
N<br />
∑ p(<br />
i)<br />
= 1<br />
1=<br />
0<br />
se [0,N]é l’intervallo di definizione della variabile.<br />
(2.5.4) Variabili continue<br />
Nel caso di variabile continua, notiamo subito che esiste una novità fondamentale. Infatti noi<br />
sappiamo che i numeri reali costituiscono un insieme “comunque denso”. Un numero reale é a<br />
rigore, un numero che ha infinite cifre significative. Noi sappiamo bene in effetti che quando si<br />
fanno delle misure non ha molto significato chiedersi quant’è la probabilità che esca il numero reale<br />
45.72. E’ più sensato chiedersi, quant’è la probabilità che esca un numero reale compreso tra 45.715<br />
e 45.725. Si noti che nel caso delle variabili discrete questo problema non si pone. La probabilità<br />
che esca 10, é perfettamente definita. Nel caso dei numeri reali invece la probabilità che esca<br />
proprio x é a rigore “nulla”, non nulla é invece la probabilità che esca un numero compreso tra x e<br />
x+Δx.<br />
Per trattare il caso delle variabili casuali rappresentate da numeri reali, si ricorre ai metodi<br />
dell’analisi matematica, in particolare quelli del calcolo differenziale ed integrale. Vediamo di<br />
illustrare il procedimento logico di tali metodi senza pretendere di essere rigorosi.<br />
A questo scopo immaginiamo di dividere l’insieme di definizione della variabile reale x in intervalli<br />
(bins) larghi Δx, ciascuno centrato in un dato valore di x, diciamo x k , e di mettere in<br />
corrispondenza di ciascun bin una barra di altezza pari alla probabilità che x cada nell’intervallo<br />
55
compreso tra x k -Δx/2 e x k +Δx/2. Sostanzialmente abbiamo costruito un istogramma, abbiamo cioè<br />
“discretizzato” una variabile continua rendendola simile ad una discreta. Chiamiamo P k l’altezza di<br />
ciascuna barra e f(x k ) il rapporto<br />
f ( x ) = P / Δx<br />
k<br />
k<br />
La probabilità associata al generico intervallo [a,b] sarà data dalla somma sugli N bin contenuti<br />
nell’intervallo [a,b]:<br />
N<br />
N<br />
N<br />
p(<br />
a < x < b)<br />
= ∑ p(<br />
x − Δx<br />
/ 2 < x < x + Δx<br />
/ 2) = ∑ P = ∑<br />
k = 1<br />
k<br />
k<br />
k = 1<br />
k<br />
k = 1<br />
f ( x ) Δx<br />
Tale espressione costituisce una approssimazione alla probabilità che stiamo cercando di calcolare.<br />
Se ora diminuisco sempre di più le dimensioni del mio bin, aumentando proporzionalmente il<br />
numero di bins, cioè se faccio il limite per Δx -> 0 l’approssimazione diventa sempre più buona.<br />
L’analisi mi insegna che sotto certe ipotesi sulla funzione, il limite della sommatoria esiste, e si<br />
chiama integrale della funzione. Scriveremo perciò:<br />
p ( a < x < b)<br />
= ∫ f ( x)<br />
dx<br />
b<br />
a<br />
La funzione f ( x ) é detta densità di probabilità. Si tratta di una funzione che non ha né il<br />
significato né le dimensioni di una probabilità, ma il cui valore in una certa zona di x ci dice quanta<br />
é la “probabilità per unità di x” che x esca in quella zona. Per fissare le idee disegniamo una f( x )<br />
qualsiasi (vedi Fig.2.3). Dal punto di vista grafico, la probabilità in questo caso é dunque l’area<br />
sottesa alla curva tra a e b come illustrato in Fig.2.3. Il simbolo dx indica l’intervallo infinitesimo<br />
della variabile x, cioè il limite per N grande di Δx. Quindi il segno di integrale appena definito ha il<br />
significato di una somma di prodotti dei valori della funzione per la dimensione dell’intervallino,<br />
quando ho implicitamente pensato di mandare all’infinito il numero di intervallini.<br />
k<br />
Fig.2.3 Esempio di densità di probabilità f(x) della variabile casuale continua x definita nell’intervallo (0,10).<br />
L’area complessiva sottesa alla curva é pari a 1. Per determinare la probabilità che x sia compresa tra i 2 valori a e<br />
b, (pari rispettivamente a 3 e 5 in questo caso) si deve valutare l’area indicata.<br />
Con questo linguaggio l’assioma della certezza si tramuta nella:<br />
x max<br />
∫ f ( x)<br />
dx = 1<br />
x min<br />
56
dove [xmin,xmax] costituiscono l’insieme di definizione della variabile casuale x.<br />
Per quanto detto, le densità di probabilità ha le dimensioni di un inverso di x essendo il prodotto<br />
f(x)dx uguale ad una probabilità che é adimensionale.<br />
Le funzioni di distribuzione sia di n che di x possono dipendere da uno o più parametri, i cui valori<br />
determinano le caratteristiche della funzione. La notazione che si usa é p ( n/θ ) o f ( x/θ)<br />
intendendo con θ un insieme di parametri. La notazione adottata fa capire che la dipendenza dal<br />
parametro é una forma di condizionamento della probabilità. Si tratta cioè di dire la funzione di<br />
distribuzione di x quando θ vale un certo valore.<br />
Accanto alla funzione di distribuzione si definisce la funzione cumulativa (o di ripartizione) cosi’<br />
definita:<br />
P ( n / θ ) = ∑<br />
n p(<br />
i / θ )<br />
i=<br />
n1<br />
ovvero<br />
F( x / θ ) = x<br />
∫ f ( x'<br />
/ θ ) dx'<br />
x min<br />
Dalla definizione risulta chiaro il significato delle funzioni cumulative. E’ una funzione<br />
monotonamente crescente che parte da 0 e arriva a 1. La funzione di distribuzione cumulativa<br />
corrispondente alla funzione di distribuzione di Fig.2.3é data in Fig.2.4. Nel caso di variabile<br />
continua, dai teoremi del calcolo differenziale e integrale otteniamo che<br />
dF(<br />
x / θ )<br />
f ( x / θ ) =<br />
dx<br />
cioè la densità di probabilità é la derivata della funzione cumulativa. Come illustrato graficamente<br />
nella Fig.2.4, il calcolo della probabilità che x sia compreso tra a e b, può essere effettuato a mezzo<br />
della distribuzione cumulativa secondo la formula:<br />
P( a < x < b)<br />
= F(<br />
b)<br />
− F(<br />
a)<br />
Fig.2.4 Distribuzione cumulativa della densità di probabilità mostrata in Fig.2.3. Il calcolo della probabilità che x<br />
assuma un valore compreso tra a e b (3 e 5 in questo caso specifico), può essere ottenuta calcolando F(a) ed F(b) e<br />
facendone la differenza. Si noti che la cumulativa tende ad 1 all’estremo dell’intervallo di definizione della<br />
variabile x (0,10 in questo caso).<br />
57
(2.5.5) Momenti di una distribuzione<br />
Le caratteristiche di una funzione di distribuzione sono determinate dalla forma della distribuzione<br />
e dai parametri che la determinano. E’ molto interessante ed utile introdurre anche dei numeri che<br />
caratterizzano la distribuzione, cioè delle misure complessive della distribuzione. Si tratta<br />
dell’analogo di quanto visto per le frequenze nella prima parte del corso: dall’istogramma alle<br />
caratteristiche numeriche quali la media e la deviazione standard.<br />
Si definisce in generale Momento di ordine k intorno al valore n ~ (o x ~ nel caso di variabile<br />
continua) della distribuzione, la quantità:<br />
Μ<br />
( k )<br />
( n ~ ) =<br />
n2<br />
∑<br />
n=<br />
n1<br />
( n − n~ )<br />
k<br />
p(<br />
n)<br />
nel caso di distribuzione di variabile discreta e<br />
max<br />
( )<br />
Μ ( ~ x<br />
k<br />
= ∫ ( − ~ )<br />
k<br />
x ) x x f ( x)<br />
dx<br />
x min<br />
nel caso di distribuzione di variabile continua. Ogni momento é evidentemente un numero.<br />
Di particolare interesse sono i seguenti momenti:<br />
Valore atteso: si tratta del momento primo (k=1) intorno allo 0 ( ~ x = 0 ):<br />
n 2<br />
(1)<br />
Μ (0) = E [ n]<br />
= ∑ np(<br />
n)<br />
n=<br />
n1<br />
x max<br />
(1)<br />
Μ (0) = E[<br />
x]<br />
= ∫ xf ( x)<br />
dx<br />
x min<br />
il suo significato é quello di “valore centrale” o “valore medio” della distribuzione. In effetti nella<br />
corrispondenza istogramma-distribuzione che più volte abbiamo considerato, é strettamente legato<br />
alla media di un istogramma. Si noti che la definizione di valore atteso per una variabile discreta é<br />
esattamente la media fatta sull’istogramma (definita nel Cap.(1)).<br />
~ x = x ):<br />
Varianza: é il momento secondo (k=2) intorno al valore atteso ( E[<br />
]<br />
Μ<br />
Μ<br />
( 2 )<br />
( 2 )<br />
n 2<br />
2<br />
( E [ n])<br />
= Var[<br />
n]<br />
= ∑ ( n − E[<br />
n])<br />
p(<br />
n)<br />
( E[<br />
x])<br />
= Var[<br />
x]<br />
=<br />
n=<br />
n1<br />
x max<br />
∫ ( x − E[<br />
x])<br />
x min<br />
2<br />
f ( x)<br />
dx<br />
qui evidentemente l’analogia é con la nozione di deviazione standard campionaria, o meglio, con il<br />
suo quadrato. E’ utile anche scrivere la varianza usando il simbolo dell’operatore valore atteso:<br />
2<br />
2<br />
2<br />
Var[<br />
x]<br />
= E[(<br />
x − E[<br />
x])<br />
] = E[<br />
x − 2xE[<br />
x]<br />
+ ( E[<br />
x])<br />
] =<br />
2<br />
2<br />
2<br />
2<br />
2<br />
= E[<br />
x ] − 2( E[<br />
x])<br />
+ ( E[<br />
x])<br />
= E[<br />
x ] − ( E[<br />
x])<br />
Si definisce anche deviazione standard della popolazione (con che a questo punto chiameremo<br />
l’altra deviazione standard campionaria) la sua radice quadrata:<br />
σ [ x ] = Var[<br />
x]<br />
che si indica con la lettera sigma.<br />
Tra i momenti successivi di particolare interesse sono il momento terzo intorno al valore atteso<br />
detto skewness ed il momento quarto sempre intorno alla media, dal quale si ricava il cosiddetto<br />
kurtosys. In particolare, a partire da skewness e kurtosys si definiscono i 2 coefficienti<br />
rispettivamente di simmetria e di appiattimento :<br />
58
A<br />
A<br />
s<br />
a<br />
=<br />
(<br />
Μ<br />
Μ<br />
Μ<br />
=<br />
( Μ<br />
( 4 )<br />
( 2 )<br />
( 3)<br />
( 2 )<br />
( E[<br />
x])<br />
( E[<br />
x]))<br />
( E[<br />
x])<br />
( E[<br />
x]))<br />
2<br />
3<br />
− 3<br />
Si noti che si tratta di coefficienti resi adimensionali nella definizione. In generale infatti il<br />
momento n-esimo ha dimensioni [x] n e pertanto la media ha dimensioni [x] e la varianza ha<br />
dimensioni [x] 2 .<br />
Naturalmente le definizioni date, in particolare quelle di valore atteso e di varianza, si estendono a<br />
combinazioni e funzioni di una o più variabili casuali. Vedremo nel seguito come si trattano questi<br />
casi.<br />
(2.5.6) Densità di probabilità di una funzione di variabile casuale<br />
Se x é una variabile casuale (l’argomento vale anche per il caso discreto), una qualsiasi funzione di<br />
x, y=y(x) risulta anch’essa una variabile casuale, nel senso che l’occorrenza di diversi valori di x<br />
secondo le modalità della sua funzione di distribuzione, determina anche l’occorrenza dei valori di<br />
y secondo le modalità di una funzione di distribuzione che dipenderà dalla distribuzione di x e dalla<br />
funzione y(x). Senza entrare nei dettagli matematici vediamo come si ricava la densità di probabilità<br />
di y, data quella di x e data la funzione y=y(x). Chiamiamo f(x) la densità di probabilità di x e g(y)<br />
quella di y.<br />
Supponiamo per semplicità che la funzione y(x) sia monotona nell’intervallo di definizione della<br />
variabile x. In tal caso l’inversione della funzione, cioè il passaggio dalla y(x) alla x(y), avviene<br />
senza difficoltà e la funzione x(y) é una funzione “monodroma” ovvero per ogni y vi é un solo x.<br />
Data la relazione tra x ed y dovrà essere per ogni valore di x (che chiamiamo x ):<br />
p ( x < x < x + dx)<br />
= p(<br />
y(<br />
x)<br />
< y < y(<br />
x + dx))<br />
= p(<br />
y(<br />
x)<br />
< y < y(<br />
x)<br />
+ dy)<br />
e dunque<br />
f ( x)<br />
dx = g(<br />
y)<br />
dy<br />
da cui la relazione cercata:<br />
dx(<br />
y)<br />
g ( y)<br />
= f ( x(<br />
y))<br />
dy<br />
dove il modulo é stato inserito per assicurare la positività della nuova densità di probabilità cosi’<br />
ottenuta. Si tratta pertanto di invertire la funzione y(x), di calcolare la derivata della x(y) e di<br />
moltiplicarne il modulo per la funzione f(x) in cui al posto della x mettiamo esplicitamente la x(y).<br />
La g(y) cosi’ ottenuta é anche automaticamente normalizzata<br />
b<br />
y ( b )<br />
1 = ∫ f ( x)<br />
dx = ∫ g(<br />
y)<br />
dy = 1<br />
a<br />
y ( a )<br />
se risulta normalizzata la f(x) di partenza.<br />
In Fig.2.5é illustrato graficamente il caso in cui da una variabile x uniforme tra 0 e 1, si passa ad<br />
una y=αx 2 . Il fatto che la y in questo caso non mantenga la stessa distribuzione della x uniforme é<br />
comprensibile osservando che se considero i 2 intervalli [0,1/2] e [1/2,1] equiprobabili in x, questi<br />
danno luogo a due intervalli di diversa grandezza in y ma che devono restare equiprobabili. Dunque<br />
la y non può essere uniforme.<br />
Le definizioni di valore atteso e varianza si estendono banalmente. Il valore atteso può essere<br />
espresso nella forma:<br />
y b<br />
= )<br />
b<br />
E [ y]<br />
∫ yg(<br />
y)<br />
dy = ∫ y(<br />
x)<br />
f ( x)<br />
dx<br />
(<br />
y ( a )<br />
a<br />
59
cioè può essere valutato sia integrando in y che in x.<br />
y(x)<br />
1<br />
0.9<br />
0.8<br />
0.7<br />
0.6<br />
0.5<br />
f(x)<br />
1.8 2 1.6<br />
1.4<br />
1.2<br />
0.8 1<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
0 0.25 0.5 0.75 1<br />
x<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
0 0.2 0.4 0.6 0.8 1<br />
x<br />
g(y)<br />
4.5 5<br />
3.5 4<br />
2.5 3<br />
1.5 2<br />
0.5 1<br />
0<br />
0 0.25 0.5 0.75 1<br />
y<br />
Fig.2.5 Passaggio da una variabile casuale x distribuita uniformemente (in alto a destra) ad una y ottenuta da questa<br />
come y = x 2 (vedi grafico a sinistra in cui sono mostrati intervalli di equiprobabilità in x che si trasformano in<br />
intervalli di equiprobabilità in y). In basso a destra é mostrata la densità di probabilità della y g(y).<br />
(2.5.7) La media e la deviazione standard come variabili casuali<br />
Un caso molto particolare di funzione di variabile casuale che vogliamo introdurre a questo punto é<br />
quello della media aritmetica x e del quadrato s 2 della deviazione standard campionaria che<br />
abbiamo già introdotto nel Cap.(1) e che ora vogliamo analizzare come “funzioni di variabili<br />
casuali”.<br />
Infatti se x é una variabile casuale di valore atteso E[x] e varianza Var[x]é interessante chiedersi<br />
quali siano le proprietà di xe di s 2<br />
ottenuti a partire da un campione di dimensione N della<br />
variabile x. Per fare ciò premettiamo una proprietà fondamentale (di cui omettiamo la<br />
dimostrazione). Data una combinazione lineare di variabili casuali<br />
y = ∑<br />
N<br />
a x i i<br />
i=<br />
1<br />
si hanno le seguenti proprietà di linearità per valore atteso e varianza:<br />
N<br />
E[<br />
y]<br />
= ∑ a E[<br />
x ]<br />
i=<br />
1<br />
i<br />
i<br />
N<br />
2<br />
Var[<br />
y]<br />
= ∑ a Var[<br />
x ]<br />
i<br />
i<br />
i=<br />
1<br />
che discendono dal fatto che i momenti sono operatori lineari.<br />
Utilizzando queste espressioni calcoliamo ora il valore atteso e la varianza della media aritmetica.<br />
N<br />
∑ xi<br />
1 N<br />
i=<br />
1<br />
E[<br />
x]<br />
= E[<br />
] = ∑ E[<br />
x ] = E[<br />
x]<br />
i<br />
i=<br />
1<br />
N N<br />
N<br />
∑ xi<br />
1 N 1<br />
i=<br />
1<br />
Var[<br />
x]<br />
= Var[<br />
] = ∑Var[<br />
x ] = Var[<br />
x]<br />
2<br />
i<br />
i=<br />
1<br />
N N<br />
N<br />
Il risultato ci dice che:<br />
il valore atteso della media é lo stesso della variabile: l’operazione di media non cambia valore<br />
atteso, ovvero la media é un buon estimatore del valore atteso di x;<br />
60
la varianza della media é (1/N) volte la varianza della variabile: la media ha dunque una varianza<br />
minore della variabile. Questo fatto giustifica l’uso di<br />
s<br />
N<br />
per la deviazione standard della media, che abbiamo usato tante volte. Quindi la media aritmetica<br />
risulta essere un estimatore “potente” perché al crescere del numero di misure diminuisce la sua<br />
varianza. Si noti come questo risultato sia indipendente dalla densità di probabilità della x. Esso<br />
costituisce pertanto un risultato di grande generalità.<br />
2<br />
Quanto ad s , calcoliamo ora il suo valore atteso. Qui il calcolo é leggermente più complesso. Lo<br />
svolgiamo esplicitando tutti i passaggi rilevanti.<br />
1 N<br />
1<br />
N<br />
2<br />
2<br />
2<br />
E[<br />
s ] = E[<br />
∑ ( x − x)<br />
] = E[<br />
∑ ( x − E[<br />
x]<br />
+ E[<br />
x]<br />
− x)<br />
] =<br />
i<br />
i<br />
i=<br />
1<br />
i=<br />
1<br />
N −1<br />
N −1<br />
1<br />
N<br />
N<br />
N<br />
2<br />
2<br />
= E[<br />
∑(<br />
x − E[<br />
x])<br />
+ ∑(<br />
E[<br />
x]<br />
− x)<br />
+ 2∑(<br />
x − E[<br />
x])(<br />
E[<br />
x]<br />
− x)]<br />
=<br />
i<br />
i<br />
i= 1 i= 1 i=<br />
1<br />
N −1<br />
1<br />
N<br />
N<br />
2<br />
2<br />
= E[<br />
∑(<br />
x − E[<br />
x])<br />
+ N(<br />
E[<br />
x]<br />
− x)<br />
+ 2( E[<br />
x]<br />
− x)<br />
∑(<br />
x − E[<br />
x])]<br />
=<br />
i<br />
i<br />
i= 1 i=<br />
1<br />
N −1<br />
1<br />
N<br />
2<br />
2<br />
= E[<br />
∑ ( x − E[<br />
x])<br />
+ N(<br />
E[<br />
x]<br />
− x)<br />
+ 2( E[<br />
x]<br />
− x)<br />
N(<br />
x − E[<br />
x])]<br />
=<br />
i<br />
i=<br />
1<br />
N −1<br />
1<br />
N<br />
2<br />
2<br />
= E[<br />
∑ ( x − E[<br />
x])<br />
− N(<br />
E[<br />
x]<br />
− x)<br />
] =<br />
i<br />
i=<br />
1<br />
N −1<br />
1 N<br />
2<br />
2<br />
= ( ∑ E[(<br />
x − E[<br />
x])<br />
] − NE[(<br />
E[<br />
x]<br />
− x)<br />
])<br />
i<br />
i=<br />
1<br />
N −1<br />
1<br />
NVar[<br />
x]<br />
1<br />
= ( NVar[<br />
x]<br />
− ) = ( N −1)<br />
Var[<br />
x]<br />
= Var[<br />
x]<br />
N −1<br />
N N −1<br />
Dunque il valore atteso di s 2<br />
é pari a Var[x] come deve essere. Dunque il quadrato della nostra<br />
deviazione standard campionaria é un buon estimatore della varianza della popolazione.<br />
2<br />
Si noti che se avessimo adottato s avremmo avuto un 1/N in luogo di un 1/(N-1) davanti a tutto e<br />
N<br />
dunque alla fine avremmo avuto<br />
N −1<br />
E[ s<br />
2 N<br />
] = Var[<br />
x]<br />
N<br />
cioè una stima “distorta” della varianza. Questo giustifica l’uso dell’N-1 a denominatore che<br />
avevamo a suo tempo dato senza spiegazione chiara.<br />
Infine é interessante vedere quanto vale la “varianza della varianza”. Il calcolo risulta complesso,<br />
tuttavia il risultato é interessante:<br />
Var [ s<br />
2<br />
2( Var[<br />
x])<br />
] =<br />
N −1<br />
2<br />
(2.6) Variabili casuali notevoli.<br />
Passiamo a considerare alcuni casi notevoli di variabili casuali, che si prestano alla descrizione di<br />
vaste classi di fenomeni.<br />
(2.6.1) Distribuzione uniforme<br />
61
Si ha quando tutti i valori possibili della variabile hanno la stessa probabilità di essere ottenuti,<br />
ovvero quando la probabilità di un intervallo é pari al rapporto tra la larghezza dell’intervallo e la<br />
larghezza totale dell’intervallo di definizione della variabile. Detti rispettivamente N il numero di<br />
valori possibili nel caso di variabile discreta ed [a,b] l’insieme di definizione della variabile<br />
continua, si ha:<br />
1<br />
p(<br />
n)<br />
=<br />
N<br />
1<br />
f ( x)<br />
=<br />
b − a<br />
Si noti che non si possono avere variabili con distribuzioni uniformi tra -∞ e+∞ né discrete né<br />
continue. La definizione di p(n) e di f(x) per variabili discrete e continue uniformi sono fatte in<br />
modo tale che le variabili in questioni siano normalizzate. N oltreché b ed a sono i parametri.<br />
Esempi di distribuzioni uniformi si hanno sia per le variabili discrete (tombola, lancio di 1 dado)<br />
che per variabili continue (è il caso del display digitale dove immaginiamo una distribuzione<br />
uniforme tra i 2 estremi dell’intervallo). E’ interessante calcolare valore atteso e varianza. Lo<br />
facciamo per il caso di variabile continua. Per il calcolo della varianza é conveniente fare la<br />
sostituzione t = x – E[x]<br />
b<br />
1 1<br />
b<br />
1<br />
E[<br />
x]<br />
= ∫x<br />
dx = ∫xdx<br />
=<br />
a<br />
a<br />
b − a b − a b − a<br />
b<br />
Var[<br />
x]<br />
= ∫(<br />
x − E[<br />
x])<br />
a<br />
3<br />
( b − a)<br />
( b − a)<br />
= =<br />
12( b − a)<br />
12<br />
2<br />
2<br />
1 1<br />
dx =<br />
b − a b − a<br />
2<br />
x<br />
2<br />
b−E<br />
[ x ]<br />
∫<br />
a−E<br />
[ x ]<br />
b<br />
a<br />
2 2<br />
b − a b + a<br />
= =<br />
2( b − a)<br />
2<br />
3<br />
2<br />
1 t<br />
t dt =<br />
b − a 3<br />
da cui si deducono i 2 importanti risultati:<br />
il valore atteso di variabile casuale avente una densità di probabilità uniforme é il centro<br />
dell’intervallo;<br />
la varianza é invece pari all’ampiezza dell’intervallo al quadrato diviso 12 e la deviazione<br />
standard della popolazione é ampiezza dell’intervallo / √12.<br />
Quindi nel caso in cui la mia variabile abbia una distribuzione uniforme tra a e b posso stimare<br />
valore medio e deviazione standard dando centro dell’intervallo ± ampiezza / √12.<br />
Quale é il significato probabilistico di un intervallo dato in questo modo ? Possiamo calcolarlo nel<br />
modo seguente:<br />
p(<br />
E[<br />
x]<br />
−σ[<br />
x]<br />
< x < E[<br />
x]<br />
+ σ[<br />
x])<br />
=<br />
2σ<br />
[ x]<br />
= =<br />
b − a<br />
2( b − a)<br />
=<br />
12( b − a)<br />
2<br />
12<br />
= 0.577<br />
E [ x ] + σ [ x ]<br />
∫<br />
E [ x ] −σ<br />
[ x ]<br />
dx<br />
b − a<br />
cioè si tratta del 57.7%. Tale valore può essere confrontato con il ~ 70% che avevamo trovato dai<br />
dati della prima esercitazione. Tra poche lezioni capiremo il significato di quel valore. Per ora é<br />
interessante notare che il contenuto di probabilità di un intervallo standard, dipende dalla forma<br />
della distribuzione. Nel caso dell’esercitazione avevamo visto che moltiplicando per 3 l’intervallo<br />
standard ottenevamo un intervallo di “quasi-certezza” (entro il quale stava il ~ 99% dei dati). In<br />
questo caso per avere un intervallo di quasi-certezza basta ricorrere a ± semiampiezza che fornisce<br />
un intervallo di “certezza”.<br />
=<br />
b−a<br />
2<br />
a−b<br />
2<br />
=<br />
62
(2.6.2) La distribuzione binomiale<br />
La distribuzione binomiale si applica ai cosiddetti processi di Bernoulli. Si tratta di quei processi<br />
in cui 2 sono i possibili risultati incompatibili (0 o 1), che chiamiamo successo ed insuccesso<br />
caratterizzati da probabilità diverse p(0)=p (1)=1-p (questo esprime l’incompatibilità dei 2 eventi).<br />
Molti processi sono schematizzabili in questo modo. Dal punto di vista delle applicazioni alla fisica<br />
(tralasciando dunque dadi e monetine) il caso più interessante é quello della misura dell’efficienza<br />
di un rivelatore.<br />
Consideriamo infatti un rivelatore di radiazione posto in prossimità di una sorgente di radiazioni.<br />
Ad ogni passaggio della radiazione proveniente dalla sorgente, il rivelatore può dire Ok (se é<br />
efficiente) o non dire nulla (se inefficiente). Il fenomeno é schematizzabile come un processo di<br />
Bernoulli nel quale il successo si ha con l’Ok e l’insuccesso con il nulla.<br />
Ora, supponiamo che il rivelatore sia stato attraversato da N radiazioni, e di volere sapere quanto é<br />
la probabilità di avere avuto n volte Ok e N-n volte nulla. n costituisce dunque la variabile casuale<br />
(discreta) di questo problema definita nell’intervallo 0
p<br />
p<br />
1<br />
2<br />
=<br />
=<br />
10<br />
( )<br />
10<br />
⎛ 1 ⎞<br />
⎜ ⎟<br />
⎝ 2 ⎠<br />
⎛ 1<br />
⎜ ⎞ ⎟ ⎝ 2⎠<br />
10<br />
= 1×<br />
9.8⋅10<br />
≈ 0.1%<br />
10<br />
−4<br />
( ) = 210×<br />
9.8⋅10<br />
≈ 21%<br />
6<br />
10<br />
−4<br />
Sono illustrati in Fig.2.6 e Fig.2.7 esempi di distribuzioni binomiali per diversi p a due fissati valori<br />
di N ed in Fig.2.8 per diversi N ad un dato p. Si nota chiaramente lo spostamento del “picco” al<br />
variare di p e il restringimento e la simmetrizzazione della distribuzione al crescere di N. La<br />
distribuzione binomiale non é in generale simmetrica (lo é solo se N e p hanno valori particolari e in<br />
condizioni limiti che vedremo) e dunque moda, media e mediana non sono coincidenti.<br />
Fig.2.6. Esempi di distribuzione binomiale per N=10 e 5 diversi valori di p. Si noti come solo nel caso p=0.5 la<br />
distribuzione sia simmetrica. Si noti inoltre che i casi 0.25 e 0.75 e i casi 0.1 e 0.9 presentano forme uguali ma<br />
semplicemente “ribaltate”.<br />
64
Fig.2.7 Come per la Fig.2.6 nel caso N=30<br />
Fig.2.8 Esempi di distribuzioni binomiali a p fissato (p=0.2) e diversi N. Si noti al crescere di N la<br />
simmetrizzazione e il restringimento della distribuzione.<br />
È interessante il caso in cui p sia o molto prossimo a 0 o molto prossimo a 1 (è chiaro che le due<br />
situazioni sono “simmetriche” dato che successo ed insuccesso sono evidentemente<br />
intercambiabili). Infatti come si vede dalle Fig.2.6 e 2.7 le due distribuzioni sono “addossate” in un<br />
65
caso a n=0 e nell’altro ad n=N. Nel limite p0 o p1 si ottengono evidentemente due distribuzioni<br />
“banali” in cui p(n=0)=1 e p(n>0)=0 (ovvero p(n=N)=1 e p(n
le volte che conto degli eventi che si presentano in modo “casuale” cioè senza una struttura<br />
temporale determinata, la distribuzione di Poisson permette di caratterizzarne le proprietà più<br />
rilevanti.<br />
Introduciamo il processo di Poisson in due modi diversi. Dapprima lo consideriamo come caso<br />
limite del processo di Bernoulli, poi lo introdurremo in modo autonomo sulla base delle<br />
caratteristiche del processo stesso.<br />
Consideriamo dunque un processo di Bernoulli in cui facciamo crescere il numero di prove N e<br />
facciamo diminuire la probabilità del singolo successo p. Facciamo ciò mantenendo però fisso il<br />
prodotto Np che come sappiamo é il valore atteso della distribuzione binomiale. Cosa significa fare<br />
questo limite ? In sostanza il limite corrisponde a considerare il caso in cui sono tantissimi gli<br />
“oggetti” ai quali può accadere qualcosa (sono N) ma questa cosa che può accadere accade poco<br />
probabilmente. Immaginiamo una situazione di questo genere. Abbiamo un campione di N atomi<br />
ciascuno dei quali ha una probabilità p di dare luogo ad un decadimento radioattivo nell’intervallo<br />
di tempo Δt. E’ chiaro che se si tratta di un campione macroscopico (~10 20 atomi per fissare le idee)<br />
e se il nuclide radioattivo ha una “vita media” di milioni di anni saremo in una situazione in cui Né<br />
molto grande e p é molto piccola. Ma non solo, infatti N oltre ad essere molto grande é anche di<br />
difficile determinazione ed in fondo quanto sia non interessa nemmeno tanto. Tuttavia in una<br />
situazione del genere se io ho un contatore di radioattività, io conto un certo numero di decadimenti<br />
nell’unità di tempo Δt e il valore medio di tale conteggio é qualcosa che posso misurare ed é dunque<br />
quella la variabile che mi interessa. Passiamo ora esplicitamente al limite binomiale per N<br />
infinito p 0. Chiamo λ=Np.<br />
lim<br />
N →∞ , p→0<br />
lim<br />
N →∞ , p→0<br />
lim<br />
N →∞ , p→0<br />
n<br />
N!<br />
n<br />
N −n<br />
N!<br />
⎛ λ ⎞ ⎛ λ ⎞<br />
p (1 − p)<br />
= lim ⎜ ⎟ ⎜1<br />
⎟<br />
N →∞ , p→0<br />
−<br />
n!(<br />
N − n)!<br />
n!(<br />
N − n)!<br />
⎝ N ⎠ ⎝ N ⎠<br />
λ<br />
N<br />
n (1 − )<br />
N(<br />
N −1)(<br />
N − 2)...( N − n + 1) λ N =<br />
n<br />
n!<br />
N λ<br />
n<br />
(1 − )<br />
N<br />
λ<br />
N<br />
n (1 − )<br />
N(<br />
N −1)(<br />
N − 2)...( N − n + 1) λ N<br />
n<br />
N<br />
n!<br />
λ<br />
n<br />
(1 − )<br />
N<br />
Dopo aver riscritto la binomiale in questo modo e avendo introdotto λ, passo ad effettuare i limiti.<br />
Intanto osservo che il fattore<br />
n<br />
λ<br />
n!<br />
non dipende da N e da p e dunque esce fuori dal limite e va messo a fattore comune. Il rapporto<br />
N ( N − 1)( N − 2)...( N − n + 1)<br />
n<br />
N<br />
non dipende da p ma da N. Per N infinito va come N n /N n e pertanto tende a 1. Il fattore<br />
( 1 λ<br />
−<br />
N )<br />
n<br />
dipende solo da N e tende anch’esso a 1 avendo l’unica dipendenza da N a denominatore. Resta<br />
l’ultimo fattore per risolvere il quale facciamo ricorso al limite fondamentale (noto dall’analisi)<br />
N −n<br />
=<br />
67
1<br />
lim (1 +<br />
∞<br />
x<br />
x<br />
) =<br />
x →<br />
e<br />
in cui e é il numero di Nepero (e=2.718...). Il limite a cui siamo interessati é riconducibile al limite<br />
fondamentale di cui sopra, facendo la sostituzione 1/x=-λ/N :<br />
⎛ λ ⎞<br />
lim⎜1<br />
⎟<br />
N ∞<br />
−<br />
⎝ N ⎠<br />
1<br />
x ⎠<br />
N<br />
−λx<br />
x − λ<br />
⎛ ⎞ ⎛ ⎞<br />
⎜ ⎟ ⎜ ⎟ ⎟ =<br />
→<br />
= lim 1<br />
x→∞<br />
+ = lim 1<br />
x→∞<br />
+<br />
⎝<br />
⎜<br />
⎝<br />
⎛<br />
⎝<br />
1<br />
x ⎠<br />
In conclusione abbiamo ottenuto la funzione di distribuzione di Poisson:<br />
p(<br />
n)<br />
=<br />
λ<br />
λ −<br />
n<br />
e<br />
n!<br />
Si tratta della funzione di distribuzione della variabile casuale discreta n definita per valori tra 0 e ∞<br />
ed avente come unico parametro λ. Si può dimostrare che la funzione cosi’ definita é normalizzata.<br />
In Fig.2.9é mostrato il grafico della poissoniana per diversi valori di λ. Si noti che si tratta di una<br />
funzione in generale non simmetrica, ma che tende a simmetrizzarsi nel limite di grandi λ.<br />
⎞<br />
⎠<br />
e<br />
−λ<br />
Fig.2.9. Esempi di distribuzioni di Poisson per diversi valori di λ.<br />
Il significato di λ risulta evidente quando calcoliamo il valore atteso e la varianza di n. Calcoliamo<br />
E[n] ed E[n 2 ]:<br />
n − λ<br />
n−1<br />
− λ<br />
∞ λ e<br />
∞ λ e<br />
E[<br />
n]<br />
= ∑n<br />
= λ∑<br />
= λ<br />
n=<br />
0 n=<br />
1<br />
n!<br />
( n −1)!<br />
E[<br />
n<br />
2<br />
∞<br />
] = ∑ n<br />
n=<br />
0<br />
2<br />
n<br />
λ e<br />
n!<br />
−λ<br />
n−1<br />
−λ<br />
k<br />
∞ λ e<br />
∞ λ e<br />
= λ∑n<br />
= λ∑(<br />
k + 1)<br />
n=<br />
1 k=<br />
0<br />
( n −1)!<br />
k!<br />
−λ<br />
= λ(<br />
λ + 1)<br />
68
in cui come in altre circostanze abbiamo spostato la somma da n=0 a n=1 e abbiamo osservato che<br />
la sommatoria rimasta fattorizzata é uguale a 1 in virtù della proprietà di normalizzazione.<br />
Otteniamo dunque per la varianza:<br />
2<br />
Var [ n]<br />
= E[<br />
n ] − ( E[<br />
n])<br />
2<br />
2<br />
= λ ( λ + 1) − λ = λ<br />
Pertanto la distribuzione di Poisson ha λ sia come valore atteso che come varianza. Si tratta di un<br />
fatto di estrema importanza. Una popolazione poissoniana é dunque caratterizzata da una<br />
deviazione standard pari a<br />
σ [n]<br />
=<br />
λ<br />
In altre parole se effettuo un conteggio schematizzabile come poissoniano e trovo in media un certo<br />
valore λ il risultato del conteggio é caratterizzato da una fluttuazione pari a √λ.<br />
Si noti che il parametro λ non é necessariamente un numero intero. Infatti il numero medio di<br />
conteggi nel tempo può anche essere un numero frazionario. E’ invece un numero intero la variabile<br />
casuale n che può assumere tutti gli interi da 0 a ∞.<br />
(2.6.4) Il processo di Poisson: definizione generale.<br />
Non sempre il processo di Poisson si può schematizzare a partire da una binomiale. Se per esempio<br />
conto quante macchine passano sotto casa mia tutti i giorni feriali tra le 8 e le 9, non so bene come<br />
schematizzare questo processo in termini di N e di p. O anche se contiamo il numero di studenti che<br />
ogni anno si immatricolano al corso di laurea in fisica all’Università “La <strong>Sapienza</strong>”, é altrettanto<br />
difficile stabilire chi é p e chi é N. Ma nonostante ciò conto in media un certo valore che sarà<br />
caratterizzato da certe fluttuazioni. Allora possiamo definire in modo più generale come processo di<br />
Poisson un processo di conteggio che abbia alcune proprietà ben definite che ora vediamo di<br />
specificare.<br />
Si immagini a questo scopo di contare il numero di volte in cui si verifica un certo evento (di<br />
qualsiasi tipo purché ben definito) in un intervallo di tempo finito Δt; e si immagini di suddividere<br />
tale intervallo in intervallini di tempo δt “sufficientemente piccoli”. Il processo é poissoniano se<br />
posso trovare una dimensione di intervallino δt per cui valgono le seguenti proprietà:<br />
(a) la probabilità di avere un unico conteggio in un tempo δt é proporzionale a δt;<br />
(b) la probabilità di avere più di un conteggio in un tempo δt é
Per tali processi dunque la funzione di distribuzione del numero di conteggi sarà data dalla p(n)<br />
sopra vista ed un solo parametro λ basta a descrivere il processo. λ determina in sostanza quanto<br />
frequentemente gli eventi si presentano in media e la sua radice quadrata indica quanto quel<br />
conteggio medio fluttua. Il valore di λ dipende tuttavia dall’intervallo di tempo Δt nel quale conto.<br />
Se in un certo intervallo Δt = 1 s conto in media λ = r, in un intervallo generico Δt conterò λ = r Δt.<br />
La quantità r ( conteggi al s ) é dunque indipendente dall’intervallo scelto e costituisce la misura<br />
della velocità di conteggio ( rate in inglese ) del fenomeno. Noto r, il λ di qualsiasi intervallo si<br />
ricava da λ = r Δt.<br />
È interessante vedere cosa ci aspettiamo per la distribuzione dei tempi di attesa tra un conteggio ed<br />
il successivo nel caso di un processo di Poisson.<br />
Calcoliamo la probabilità che, a partire da un certo tempo iniziale arbitrario, dopo un tempo T non<br />
sia ancora avvenuto alcun conteggio. A tale scopo immaginiamo di dividere il tempo T in N<br />
intervallini δT = T / N, ciascuno caratterizzato da una probabilità di successo (ovvero di conteggio)<br />
p. Dalla definizione del processo di Poisson so che se δT é sufficientemente piccolo p é<br />
proporzionale a δT , p = α δT . Ci siamo ricondotti in questo modo ad un processo di Bernoulli di N<br />
prove indipendenti ciascuna con probabilità di successo data da α δT. La probabilità di dover<br />
attendere un tempo t >T per avere un conteggio sarà (applico la distribuzione binomiale per il caso<br />
n=0):<br />
p ( t > T)<br />
= (1 − p)<br />
Se facciamo il limite N ∞ otteniamo:<br />
lim ( 1 lim<br />
N→∞<br />
N<br />
N<br />
− αδT<br />
) = (1 − )<br />
N→∞<br />
N<br />
αT<br />
N<br />
= e<br />
−αT<br />
in cui di nuovo abbiamo usato il limite fondamentale cui abbiamo già fatto ricorso sopra.<br />
Da ciò ricavo la probabilità che il conteggio sia avvenuto per un tempo di attesa t compreso tra 0 e<br />
T<br />
F(<br />
T ) = p(0<br />
< t < T ) = 1 − p(<br />
t > T ) = 1 − e<br />
che costituisce la cumulativa della densità di probabilità della variabile casuale t = tempo di attesa<br />
per avere un conteggio. Pertanto la densità di probabilità cercata é:<br />
−αT<br />
dF(<br />
t)<br />
t<br />
f ( t)<br />
= = αe<br />
−α<br />
dt<br />
che costituisce la densità cercata, correttamente normalizzata. L’unico parametro da cui tale densità<br />
di probabilità dipende é α. Si tratta di una probabilità di conteggio per unità di tempo, e ha le<br />
dimensioni dell’inverso di un tempo. Per comprenderne il significato, torniamo allo schema<br />
binomiale delle N prove nel tempo T. Sappiamo che:<br />
lim<br />
λ = Np = Nαδt<br />
= NαT<br />
/ N = αT<br />
N →∞<br />
lim<br />
N →∞<br />
lim<br />
N →∞<br />
da cui deduciamo che α si identifica con la velocità di conteggio r che abbiamo sopra definito. Tale<br />
identificazione discende dal fatto che quando λ
f(t) (1/s)<br />
5<br />
4.5<br />
4<br />
3.5<br />
f(t) (1/s)<br />
1<br />
3<br />
2.5<br />
2<br />
10 -1<br />
1.5<br />
1<br />
0.5<br />
10 -2<br />
0<br />
0 0.5 1 1.5 2 2.5<br />
t (s)<br />
0 0.5 1 1.5 2 2.5<br />
t (s)<br />
Fig.2.10 Esempi di densità di probabilità esponenziali negative di tempi d’attesa di Poissoniane in scala lineare (a<br />
sinistra) e semilogaritmica (a destra). Le 3 curve si riferiscono a valori di τ pari a 1 s , 0.5 s e 0.2 s. Individuare le 3<br />
curve.<br />
(2.6.5) La distribuzione di Gauss<br />
Possiamo costruire ed inventare tutte le variabili casuali che vogliamo ciascuna con la sua funzione<br />
di distribuzione per descrivere un certo fenomeno. Esiste tuttavia una distribuzione che assume un<br />
ruolo particolare nelle applicazioni scientifiche in genere tanto da essere chiamata la distribuzione<br />
normale. Essa fu introdotta per primo da Karl Frederich Gauss ed é pertanto nota come<br />
distribuzione di Gauss e una qualsiasi variabile che segue una tale distribuzione é detta variabile<br />
gaussiana.<br />
Tale distribuzione fu introdotta da Gauss quando questi, a partire da osservazioni astronomiche,<br />
vide che le modalità con cui le misure “fluttuavano”, erano ben descritte da un andamento del tipo:<br />
~ e<br />
−(<br />
x−μ ) 2<br />
in cui x é appunto il valore della misura che fluttua rispetto al “valore medio” μ.Tale funzione<br />
presenta il ben noto andamento a “campana” illustrato in figura Fig.2.11. Si tratta cioè di una<br />
funzione simmetrica intorno a μ e caratterizzata da un picco ben definito che si trova in<br />
corrispondenza del valore di μ e da delle code che si estendono fino a – e a + ∞. La coincidenza di<br />
picco e media indica che moda mediana e media sono coincidenti per questo tipo di distribuzione e<br />
pari a μ.<br />
71
Fig.2.11 Esempi di funzioni di distribuzione di Gauss per 3 scelte dei parametri μ e σ.<br />
Per dare alla funzione di Gauss il significato di densità di probabilità di una variabile casuale x<br />
qualsiasi occorre:<br />
rendere adimensionale l’esponente;<br />
rendere la funzione normalizzata (cioè ad integrale 1 tra – e + ∞).<br />
A tale scopo introduciamo un secondo parametro che chiamiamo σ avente le stesse dimensioni di x<br />
e scriviamo la funzione nella forma più generale:<br />
f<br />
1<br />
e<br />
2πσ<br />
( x−μ<br />
−<br />
2σ<br />
( )<br />
x<br />
=<br />
)<br />
2<br />
2<br />
che risulta correttamente normalizzata ad 1 (omettiamo la dimostrazione). Si tratta dunque di una<br />
variabile casuale continua definita tra – e + ∞ caratterizzata dai 2 parametri μ e σ . I due parametri<br />
cosi’ definiti risultano essere (anche in questo caso omettiamo la dimostrazione) rispettivamente il<br />
valore atteso e la deviazione standard della variabile x<br />
E [ x]<br />
= μ<br />
2<br />
Var[<br />
x]<br />
= σ<br />
Come già detto il massimo della funzione coincide con μ come si vede ponendo a 0 la derivata<br />
prima. Ponendo a zero la derivata seconda si ottengono invece i due flessi in corrispondenza di<br />
μ ± σ . Ciò fa vedere che il significato della deviazione standard é la distanza tra il massimo e i 2<br />
flessi. Per avere una idea “grafica” della σ di una gaussiana basta osservare che la “larghezza a<br />
metà altezza” (FWHM = full width at half maximum) é pari a 2.36 σ . Ciò fornisce un metodo<br />
rapido per la valutazione della larghezza di una gaussiana.<br />
La distribuzione di Gauss non ha una primitiva esprimibile analiticamente, pertanto i valori della<br />
funzione cumulativa (che sono poi quelli che servono ai fini della valutazione delle probabilità)<br />
sono in genere forniti sotto forma di tabelle. Naturalmente non é opportuno avere una diversa<br />
tabella per ogni coppia di valori μ e σ. A tale scopo si introduce la variabile gaussiana<br />
standardizzata o semplicemente normale cosi’ definita:<br />
72
m = x − μ<br />
σ<br />
Si tratta di una variabile adimensionale che ha una funzione di distribuzione data da:<br />
m2<br />
1 −<br />
2<br />
f ( m)<br />
= e<br />
2π<br />
e che corrisponde ad una variabile gaussiana con valore atteso 0 e varianza 1. La forma della densità<br />
di probabilità per la variabile gaussiana standardizzata, si ottiene semplicemente applicando le<br />
considerazioni di (2.6.4) dove m é la y e dunque |dx/dm|=σ che cancella la σ a denominatore nella<br />
f(x). Le tabelle forniscono in genere i valori relativamente alla variabile m della seguente quantità:<br />
P ( a)<br />
= a ∫ f ( m)<br />
dm<br />
−∞<br />
che risulta essere una funzione di a. Dati i valori in tabella possono poi essere valutati tutti i<br />
possibili intervalli di probabilità. Se infatti si vuole determinare la probabilità che il valore cada tra<br />
a e b, si avrà:<br />
P( a < m < b)<br />
= P(<br />
b)<br />
− P(<br />
a)<br />
Per passare da un intervallo relativo alla variabile standardizzata m all’intervallo corrispondente per<br />
la variabile x, basterà usare la trasformazione inversa. Quindi se per esempio data una distribuzione<br />
di Gauss di valore atteso μ e varianza σ 2 voglio conoscere il contenuto di probabilità dell’intervallo<br />
compreso tra i due valori di x x 1 ed x 2 dovrò procedere nel modo seguente: calcolare gli estremi<br />
nella variabile m corrispondenti a x 1 e x 2 (diciamo m 1 ed m 2 ) quindi calcolare F(m 2 )-F(m 1 ) usando<br />
le tavole della variabile standardizzata. Si noti che usualmente le tabelle contengono solo i valori di<br />
F(a) per a positivi. Tuttavia, data la simmetria della distribuzione di Gauss si avrà:<br />
P( − a)<br />
= 1−<br />
P(<br />
a)<br />
Di particolare interesse sono i contenuti di probabilità dei 3 intervalli μ±σ , μ± 2σ e μ± 3σ. Si<br />
ottengono i valori:<br />
P(<br />
μ −σ<br />
< x < μ + σ ) = P(<br />
−1<<br />
m < 1) = 68.3%<br />
P(<br />
μ − 2σ<br />
< x < μ + 2σ<br />
) = P(<br />
−2<br />
< m < 2) = 95.5%<br />
P(<br />
μ − 3σ<br />
< x < μ + 3σ<br />
) = P(<br />
−3<br />
< m < 3) = 99.7%<br />
si tratta dei valori che abbiamo trovato per via “empirica” a partire dai dati “simulati” della prima<br />
esercitazione. In effetti in quel caso le sequenze di 51 valori erano state ottenute estraendo da<br />
distribuzioni gaussiane con μ e σ diverse. Troviamo dunque che i contenuti di probabilità di<br />
intervalli di ampiezza proporzionale a σ rispetto a μ non dipendono dai parametri ma sono<br />
“universali”. Dato lo straordinario valore della distribuzione di Gauss nell’ambito della descrizione<br />
degli errori di misura, questi numeri devono essere tenuti in considerazione.<br />
73
Tabella della gaussiana standardizzata. Per valori positivi di z, sono tabulate le<br />
P(z)=P(-∞
La funzione di distribuzione di una variabile χ 2 é caratterizzata da un unico parametro dato dal<br />
numero N di variabili gaussiane standardizzate incluse nella somma. Tale valore é detto numero di<br />
gradi di libertà e si indica in genere con il simbolo ν. La funzione di distribuzione é la seguente:<br />
2<br />
f ( χ )<br />
χ<br />
ν<br />
2 −1<br />
−<br />
2 2<br />
= ν ( χ ) e<br />
( )<br />
2<br />
2<br />
1<br />
Γ(<br />
ν / 2)<br />
2<br />
Nella formula abbiamo introdotto la funzione Γ detta di Eulero definita come:<br />
∞<br />
−x<br />
t−1<br />
Γ( t)<br />
= ∫ e x dx<br />
0<br />
che costituisce una generalizzazione del fattoriale al campo reale.<br />
Il valore atteso e la varianza della variabile χ 2 dipendono dal numero di gradi di libertà secondo le:<br />
2<br />
E [ χ ] = ν<br />
2<br />
Var[<br />
χ ] = 2ν<br />
La funzione di distribuzione della variabile χ 2 é mostrata in Fig.2.12 per alcuni valori del parametro<br />
ν.<br />
Fig.2.12 Funzione di distribuzione della variabile χ 2 per 3 diversi valori dell’unico parametro ν.<br />
L’importanza della variabile χ 2 deriva dal fatto che la variabile<br />
2<br />
N ( x −<br />
∑<br />
i<br />
x)<br />
i=<br />
1<br />
2<br />
σ<br />
è anch’essa una variabile χ 2 con parametro ν=N-1 gradi di libertà. Si noti che a differenza della<br />
definizione della variabile χ 2 data sopra, in questo caso non siamo di fronte ad una somma di<br />
variabili normali standardizzate, ma ad una somma di scarti quadratici dalla media campionaria,<br />
divisa per la varianza. Il fatto che il numero di gradi di libertà sia ridotto di una unità corrisponde al<br />
75
fatto intuitivo, che la media é una funzione delle N variabili in gioco e dunque l’uso della media<br />
riduce di una unità il grado di libertà complessivo della variabile.<br />
In ogni caso l’osservazione fatta permette di caratterizzare la funzione di distribuzione della<br />
varianza campionaria della quale abbiamo già stabilito valore atteso e varianza. Infatti se considero<br />
la variabile<br />
2<br />
s<br />
( N − 1)<br />
2<br />
σ<br />
questa é evidentemente una variabile χ 2 con N-1 gradi di libertà , e dunque la variabile s 2 é a meno di<br />
una costante (N-1)/σ 2 descritta da una variabile χ 2 . Ritroviamo allora i risultati già visti per valore<br />
atteso e varianza:<br />
2<br />
2<br />
2<br />
σ<br />
2<br />
σ<br />
2<br />
E[<br />
s ] = E[<br />
χ ] = ( N −1)<br />
= σ<br />
N −1<br />
N −1<br />
N −1<br />
4<br />
4<br />
2<br />
σ<br />
2<br />
σ<br />
Var[<br />
s ] = Var[<br />
χ ] = 2( N<br />
2<br />
N −1<br />
2<br />
( N −1)<br />
( N −1)<br />
4<br />
2σ<br />
−1)<br />
=<br />
( N −1)<br />
Variabile t-Student<br />
Un’altra variabile derivata dalla gaussiana e di particolare interesse perché di funzione di<br />
distribuzione nota é la cosiddetta variabile t di Student. Supponiamo di nuovo di avere una variabile<br />
normale standardizzata m e di avere costruito una variabile χ 2 a partire da un insieme di variabili<br />
normali standardizzate con ν gradi di libertà. Se consideriamo la variabile<br />
t =<br />
m<br />
χ 2<br />
ν<br />
questa é caratterizzata dalla seguente funzione di distribuzione (anche in questo caso νé l’unico<br />
parametro con lo stesso significato per il caso della variabile χ 2 ):<br />
f ( t)<br />
=<br />
ν + 1<br />
Γ(<br />
)<br />
2<br />
2 ⎛ t ⎞<br />
⎜1<br />
+ ⎟<br />
πνΓ(<br />
ν ) ⎝ ν ⎠<br />
2<br />
−<br />
( ν + 1)<br />
2<br />
in cui di nuovo si fa uso della funzione Γ di Eulero. La variabile t é definita in tutto l’asse reale tra –<br />
e +∞ e la sua funzione di distribuzione é simmetrica intorno all’origine come mostrato in Fig.2.13.<br />
Si tratta di una funzione di distribuzione in molto assomigliante alla distribuzione di Gauss. La<br />
differenza sta nel fatto che le code risultano più estese. Valore atteso e varianza della variabile t di<br />
Student sono:<br />
E[<br />
t]<br />
= 0<br />
ν<br />
Var[<br />
t]<br />
=<br />
ν − 2<br />
definita quest’ultima evidentemente solo per ν >2 (al di sotto di 2 l’integrale della varianza<br />
diverge).<br />
76
Fig.2.13 Distribuzione della variabile t di Student per 4 diversi valori dell’unico parametro ν. Al crescere di ν la<br />
distribuzione si restringe e si alza.<br />
La variabile t rappresenta lo scarto di una misura da un valore atteso, relativamente “ad uno scarto<br />
medio” dato dal χ 2 a denominatore. La rilevanza di questa variabile nasce dal fatto che può essere<br />
applicata alle proprietà della media aritmetica. Infatti la variabile<br />
( x − μ)<br />
s<br />
N<br />
è una variabile t in base alle considerazioni fatte sopra a proposito della variabile χ 2 . Infatti la posso<br />
scrivere come:<br />
( x − μ )<br />
σ<br />
N<br />
2<br />
σ<br />
2<br />
s<br />
( x − μ)<br />
σ<br />
= N<br />
2<br />
= t<br />
χ<br />
N −1<br />
N −1<br />
N −1<br />
Dunque gli scarti della media aritmetica dal valore atteso gaussiano corrispondente sono descritti da<br />
una variabile t con N-1 gradi di libertà. Questo ci fa capire che l’uso di un intervallo di ampiezza 3s<br />
/ √N per l’incertezza sulla stima del valore vero basato sulla media aritmetica, ha un significato<br />
gaussiano solo quando Né sufficientemente grande. Torneremo su questo punto nel terzo capitolo.<br />
(2.7) Proprietà notevoli delle variabili casuali<br />
77
(2.7.1) Contenuto di probabilità di intervalli di variabili casuali.<br />
Dall’analisi degli esempi di variabili casuali visti finora, desumiamo che i contenuti di probabilità<br />
che associamo ad un intervallo costruito come “valore atteso±deviazione standard” non é uguale per<br />
tutte le distribuzioni, ma dipende dalla forma della distribuzione. Abbiamo visto per esempio che<br />
nel caso della distribuzione di Gauss tale valore é prossimo al 68% mentre nel caso della<br />
distribuzione uniforme é di circa il 58%. Valori ancora diversi si ottengono per la distribuzione<br />
triangolare (il 65%) e per altre distribuzioni ancora. Per quanto riguarda le distribuzioni binomiali e<br />
poissoniane tale numero non é ben definito, perché dipende dai valori dei parametri. Oltre a ciò<br />
anche la moltiplicazione per 2 o per 3 della dimensione dell’intervallo dà luogo a risultati aventi<br />
contenuti probabilistici diversi. Tuttavia in tale apparentemente confusa situazione si possono<br />
riscontrare alcune regolarità. Enunciamo a tale scopo la disuguaglianza di Chebychev (di cui<br />
omettiamo la dimostrazione):<br />
1<br />
P ( x − E[<br />
x]<br />
> kσ<br />
[ x])<br />
<<br />
2<br />
k<br />
La probabilità che la variabile scarti dal valore atteso per più di k deviazioni standard limitata<br />
superiormente da 1/k 2 .<br />
Questa disuguaglianza non é di grande interesse pratico. Ci dice infatti per k=1 che la probabilità<br />
che la variabile scarti più di una deviazione standard é
L’importanza di tale teorema é evidente. In tutti quei casi infatti in cui una misura é caratterizzata<br />
da un certo numero di cause di fluttuazione indipendenti, il valore della misura può essere pensato<br />
come la somma di tali fluttuazioni. Il teorema del limite centrale ci dice che in tal caso il risultato<br />
della misura costituisce una variabile con fluttuazioni di tipo gaussiano, cioè una variabile<br />
gaussiana. La generalità di questo teorema é dovuta al fatto che nel caso degli errori di misura ci si<br />
trova quasi sempre in condizioni di questo tipo, cioè nella situazione in cui cause diverse di errore si<br />
sommano per dare la fluttuazione complessiva. Si noti l’importanza della condizione “varianze tutte<br />
finite e dello stesso ordine di grandezza”. Se infatti tra le cause di fluttuazione ce ne fosse una<br />
preponderante di tipo non gaussiano, allora questa dominerebbe le fluttuazioni della misura che<br />
dunque avrebbe quella forma.<br />
La Fig.2.14 illustra con un esempio simulato il teorema del limite centrale. Inoltre la Fig.2.15<br />
mostra un caso in cui pur sommando tante variabili, se ce n’è una con varianza molto più grande<br />
delle altre, la forma di questa continua a determinare la forma della distribuzione complessiva che<br />
dunque non diventa gaussiana.<br />
Il teorema del limite centrale sancisce l’importanza della distribuzione di Gauss come migliore<br />
approssimazione degli istogrammi dei dati in condizioni di errori casuali.<br />
Fig.2.14 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte estratte da distribuzioni uniformi tra<br />
0 e 1 (di valore atteso 0.5 e varianza 1/12). A partire dal caso n=4 ad ogni distribuzione é sovrapposta una<br />
distribuzione di Gauss per mostrare il buon accordo. Nel caso n=10 la distribuzione di Gauss “corrispondente” ha<br />
valore atteso 5.0 e deviazione standard 0.91 in accordo con il teorema del limite centrale.<br />
79
Fig.2.15 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte con distribuzione uniforme tra 0 e 1<br />
eccetto la prima che ha una distribuzione sempre uniforme ma tra 0 e 10. Si noti come non venga raggiunto in<br />
questo caso il limite gaussiano con la somma di n=10 variabili. Resta il “ricordo” della variabile con varianza di un<br />
ordine di grandezza più grande delle altre.<br />
Una importante conseguenza del teorema del limite centrale riguarda la media aritmetica di un<br />
campione di N misure. Questa é infatti una combinazione lineare di N variabili casuali tutte aventi<br />
la stessa distribuzione e dunque stesso valore atteso e stessa varianza. Qualunque sia la<br />
distribuzione di x, la distribuzione di xé dunque normale, e lo é tanto più quanto più grande é N.<br />
(2.7.3) Limite gaussiano<br />
Da ultimo osserviamo che tra tutte le distribuzioni viste, molte dipendono da uno o più parametri<br />
aventi il significato di numero di misure. E’ il caso della binomiale (il numero di prove N) e della<br />
poissoniana (il parametro λ) ma anche delle 2 variabili derivate dalla gaussiana χ 2 e t che dipendono<br />
dall’unico parametro ν . Tutte queste variabili godono della seguente importantissima proprietà<br />
limite: esse tendono ad una distribuzione di Gauss quando il numero di misure (nel senso appena<br />
detto) diventa sufficientemente grande. Non procediamo alla dimostrazione di questo teorema ma ci<br />
limitiamo ad illustrarlo graficamente confrontando per le citate distribuzioni, la distribuzione stesso<br />
con la gaussiana corrispondente al crescere del numero di misure. Occorre fare attenzione al caso<br />
della binomiale in cui oltre ad N compare il parametro p. Affinché il limite gaussiano sia raggiunto<br />
occorre in quel caso non solo un alto valore di N ma anche un valore di p “sufficientemente<br />
lontano” dagli estremi 0 e 1.<br />
Le fig. 2.16 e 2.17 illustrano il limite gaussiano per il caso della distribuzione poissoniana e per il<br />
caso di quella di t di Student rispettivamente. In tutti i grafici mostrati, la distribuzione viene<br />
confrontata con una gaussiana corrispondente, cioè con una gaussiana avente stesso valore atteso e<br />
stessa varianza.<br />
Tale proprietà limite risulta di straordinaria importanza. Per esempio nel caso di conteggi<br />
“poissoniani” questo implica che posso dare intervalli di probabilità al 68% al 95% e al 99.7%<br />
esattamente come per il caso gaussiano se il numero medio di conteggi é di almeno 20-30. Nel caso<br />
della t di Student significa che le fluttuazioni della media dal valore atteso in unità di deviazioni<br />
standard campionarie della media, sono gaussiane nel limite di elevato numero di misure.<br />
80
Fig.2.16 Stessi esempi di distribuzioni di Poisson della Fig.2.9 per valori del parametro λ da 0.2 a 50.0. Ad ogni<br />
distribuzione é sovrapposta una gaussiana di parametri μ=λ e σ=√λ.<br />
Fig.2.17 Stessi esempi di variabili t di Student vista in Fig.2.13 per valori del parametro ν tra 3 e 50. Ogni<br />
distribuzione é confrontata con una gaussiana di parametri μ=0 e σ=√ν/(ν−2).<br />
(2.8) Variabili casuali multiple.<br />
(2.8.1) Impostazione del problema<br />
81
In (1.6) abbiamo accennato al fatto che in molte circostanze un fenomeno deve essere trattato<br />
considerando più di una variabile casuale. A tal fine occorre utilizzare un formalismo che consenta<br />
di caratterizzare la densità di probabilità di più variabili casuali.<br />
(2.8.2.) Probabilità congiunta e covarianza<br />
Per trattare correttamente i casi in cui siano in gioco più grandezze misurate simultaneamente ed<br />
eventualmente caratterizzate da errori correlati é utile utilizzare il formalismo delle funzioni di più<br />
variabili casuali. Formalizziamo il problema limitandoci per semplicità al caso in cui si abbiano 2<br />
variabili casuali x 1 ed x 2 ed una terza, y, legata a queste tramite la relazione y=y(x 1 ,x 2 ).<br />
Nel caso di una singola variabile casuale, abbiamo definito la densità di probabilità f(x). Nel caso in<br />
cui sono in gioco 2 variabili casuali, possiamo ancora definire una densità di probabilità per le due<br />
variabili f(x 1 ,x 2 ) detta probabilità congiunta o densità di probabilità congiunta. Si tratta di una<br />
funzione di due variabili casuali che contiene sia le informazioni sulla densità di probabilità<br />
dell’una e dell’altra, che le informazioni sul grado di correlazione tra le due. E’ la funzione che<br />
descrive la popolazione delle due grandezze.<br />
La condizione di normalizzazione é espressa nel modo seguente:<br />
b1<br />
b 2<br />
∫∫f<br />
( x , x ) dx dx = 1<br />
1 2 1 2<br />
a1<br />
a 2<br />
in cui ho chiamato rispettivamente a1 e b1 gli estremi della variabile 1 e a2 e b2 quelli della<br />
variabile 2. Per imporre la condizione di normalizzazione sono dovuto evidentemente ricorrere ad<br />
un integrale doppio sulle due variabili. La doppia integrazione corrisponde alla successione di due<br />
integrazioni semplici. Immaginando la funzione f(x 1 ,x 2 ) come l’equazione di una superficie nello<br />
spazio, l’integrale doppio é il calcolo del volume sottostante la superficie.<br />
Se invece integriamo solo in una delle due variabili (lasciando cioè l’altra come parametro da cui<br />
dipende il risultato):<br />
b<br />
f ( x ) = 2 1 1 ∫ f ( x , x ) dx<br />
1 2 2<br />
a 2<br />
otteniamo una funzione solo dell’altra variabile, corrispondente alla densità di probabilità di x 1 . Si<br />
noti che quest’ultima operazione corrisponde al passare dal grafico bidimensionale a quello<br />
monodimensionale (all’istogramma vedi Fig.1.10 e 1.11 nel primo capitolo), cioè si tratta di fare<br />
una proiezione sull’asse x 1.<br />
Si estendono in modo naturale le definizioni dei momenti ed in particolare di valore atteso e<br />
varianza:<br />
E[<br />
x ] =<br />
1<br />
E[<br />
x<br />
2<br />
] =<br />
∫<br />
∫<br />
Var[<br />
x ] =<br />
1<br />
Var[<br />
x<br />
2<br />
b1<br />
1 1<br />
a1<br />
b2<br />
2<br />
a2<br />
b1<br />
] =<br />
x f ( x ) dx =<br />
∫<br />
a1<br />
b2<br />
∫<br />
a2<br />
2<br />
( x<br />
1<br />
( x<br />
2<br />
1<br />
2<br />
1<br />
x f ( x ) dx<br />
− E[<br />
x ])<br />
1<br />
2<br />
2<br />
b2b1<br />
∫∫<br />
1<br />
a2a1<br />
b1<br />
b2<br />
=<br />
2<br />
− E[<br />
x ])<br />
2<br />
∫∫<br />
a1a2<br />
1<br />
x f ( x , x<br />
2<br />
1<br />
2<br />
f ( x ) dx<br />
f ( x<br />
2<br />
1<br />
1<br />
=<br />
) dx<br />
2<br />
1<br />
2<br />
x f ( x , x<br />
b2b1<br />
∫∫<br />
a2a1<br />
b1b2<br />
=<br />
) dx dx<br />
2<br />
1<br />
∫∫<br />
a1a2<br />
( x<br />
1<br />
2<br />
) dxdx<br />
( x<br />
1<br />
2<br />
− E[<br />
x ])<br />
2<br />
1<br />
2<br />
2<br />
− E[<br />
x ])<br />
f ( x , x<br />
2<br />
1<br />
1<br />
2<br />
f ( x , x<br />
) dx dx<br />
2<br />
2<br />
1<br />
1<br />
) dx dx<br />
in cui compaiono integrali doppi sulle due variabili, semplici estensioni degli integrali singoli.<br />
Risulta altrettanto naturale estendere la definizione di varianza introducendo una misura di quanto<br />
le due variabili risultano “legate”. Si fa ciò definendo la covarianza tra le due variabili:<br />
b<br />
= 1 b 2<br />
a1<br />
a 2<br />
cov[ x , x ] ∫∫(<br />
x − E[<br />
x ])( x − E[<br />
x ]) f ( x , x ) dx dx<br />
1 2<br />
1<br />
1 2<br />
2<br />
1 2 1<br />
2<br />
2<br />
82
Si tratta di un numero avente le dimensioni [x 1 ][x 2 ]. Se la densità di probabilità congiunta é pari al<br />
prodotto delle probabilità di ciascuna variabile, cioè se, come si dice, la densità di probabilità<br />
congiunta si fattorizza:<br />
f ( x , x ) = f ( x ) f ( x )<br />
1 2<br />
1 1 2 2<br />
la covarianza sopra definita si annulla. Infatti,<br />
cov[ x , x<br />
b1<br />
∫ ( x<br />
a1<br />
1<br />
1<br />
2<br />
] =<br />
− E[<br />
x ]) f<br />
1<br />
b1<br />
b 2<br />
∫∫(<br />
x<br />
a1<br />
a 2<br />
1<br />
( x ) dx<br />
1<br />
1<br />
− E[<br />
x ])( x<br />
b 2<br />
∫ ( x<br />
1<br />
a 2<br />
1<br />
2<br />
2<br />
− E[<br />
x<br />
− E[<br />
x<br />
2<br />
]) f<br />
2<br />
2<br />
]) f<br />
( x<br />
2<br />
1<br />
( x ) f<br />
1<br />
) dx<br />
2<br />
2<br />
( x<br />
= 0<br />
2<br />
) dx dx<br />
essendo i 2 ultimi integrali ambedue nulli per la definizione di valore atteso.<br />
Quando la probabilità congiunta si esprime come prodotto delle probabilità singole, si dice che le 2<br />
variabili sono indipendenti. In caso contrario si dice che sono correlate. La covarianza é dunque una<br />
misura della correlazione tra le variabili, cioè di quanto la variazione dell’una incide sulla<br />
variazione dell’altra. Per tornare all’analogia con le probabilità viste sopra, il caso di indipendenza<br />
corrisponde all’essere<br />
P ( A ∩ B)<br />
= P(<br />
A/<br />
B)<br />
P(<br />
B)<br />
= P(<br />
A)<br />
P(<br />
B)<br />
.<br />
A partire dalla covarianza si introduce una quantità adimensionale detta coefficiente di correlazione:<br />
ρ[<br />
x , x ] =<br />
1<br />
2<br />
cov[ x , x ]<br />
1 2<br />
Var[<br />
x ] Var[<br />
x<br />
1<br />
2<br />
]<br />
che é come dire la covarianza normalizzata alle varianze. Si dimostra che il coefficiente di<br />
correlazione può assumere solo valori compresi tra –1 ed 1:<br />
−<br />
< ρ [ x , x ] < 1<br />
1<br />
1<br />
2<br />
quando vale 1 si dice che le due grandezze sono completamente correlate, quando vale –1 si dice<br />
che sono completamente anticorrelate. Il caso 0é il caso di non correlazione ovvero di indipendenza.<br />
Le definizione date per una generica popolazione delle 2 variabili x 1 ed x 2 , hanno evidentemente il<br />
corrispettivo campionario nelle variabili introdotte nel capitolo (1.6).<br />
(2.8.3) Calcolo di E[y] e Var[y]<br />
L’importanza di quanto visto nel paragrafo precedente risulta particolarmente evidente quando ci<br />
poniamo il problema della propagazione delle incertezze, cioè del problema cui abbiamo già<br />
accennato nel cap(1.9) di come l’incertezza su una variabile si propaga quando si calcola una<br />
funzione di questa variabile. Tale problema, nel linguaggio delle variabili casuali si traduce nel<br />
chiedersi: data le distribuzioni di x 1 e di x 2 , e dati in particolare i loro valori attesi E[x 1 ] ed E[x 2 ] e le<br />
loro varianze Var[x 1 ] e Var[x 2 ], quale é la distribuzione di y=y(x 1 ,x 2 ) ed in particolare quanto<br />
valgono E[y] e Var[y] ?<br />
Diamo qui i risultati senza dimostrazione. La dimostrazione fa uso dello sviluppo in serie di Taylor<br />
della funzione y intorno ai valori E[x 1 ] ed E[x 2 ] troncata al primo ordine. Pertanto risulta a rigore<br />
valida solo nel limite in cui i termini del secondo ordine sono trascurabili, ovvero nel limite in cui la<br />
funzione é approssimativamente lineare in un intervallo delle 2 variabili pari alle 2 deviazioni<br />
standard. Si ottiene (qualunque sia la forma delle funzione di distribuzione di x 1 e di x 2 ):<br />
E[<br />
y]<br />
= y(<br />
E[<br />
x ], E[<br />
x<br />
⎛ ∂y<br />
Var[<br />
y]<br />
= ⎜<br />
⎝ ∂x1<br />
E [ x1],<br />
E [ x<br />
⎛ ∂y<br />
⎞⎛<br />
∂y<br />
+ 2⎜<br />
⎟⎜<br />
x<br />
⎝ ∂ x<br />
1 E [ x1],<br />
E [ x 2 ] ⎠⎝<br />
∂<br />
2<br />
1<br />
2 ]<br />
2<br />
])<br />
2<br />
⎞ ⎛ ∂y<br />
⎟ Var[<br />
x ] ⎜<br />
1<br />
+<br />
⎠ ⎝ ∂x2<br />
⎞<br />
⎟ cov[ x , x<br />
1<br />
E [ x1],<br />
E [ x 2 ] ⎠<br />
2<br />
E [ x1],<br />
E [ x 2 ]<br />
]<br />
2<br />
⎞<br />
⎟ Var[<br />
x2<br />
⎠<br />
1<br />
] +<br />
2<br />
=<br />
83
dove sono stati introdotti i simboli di derivata parziale che sono propri del calcolo differenziale per<br />
le funzioni di più variabili. Le derivate parziali, come espresso esplicitamente nella formula, sono<br />
calcolate in corrispondenza di E[x 1 ] e di E[x 2 ].<br />
Vediamo il significato delle due relazioni date che valgono, giova ripeterlo, solo nel limite in cui<br />
posso trascurare gli infinitesimi del secondo ordine, ovvero nel limite in cui nella regione della<br />
funzione y in questione, questa presenta variazioni “piccole”.<br />
Il valore atteso di y é la stessa funzione y calcolata per i 2 valori attesi delle 2 variabili. Si tratta<br />
effettivamente di quanto ci si aspetta.<br />
La varianza di y si ottiene sommando le varianze delle 2 variabili, ciascuna “pesata” per il<br />
quadrato della derivata parziale della y rispetto a quella variabile. A ciò si aggiunge un termine di<br />
covarianza data dal prodotto della covarianza delle 2 variabili per il prodotto delle derivate. Si noti<br />
che nel caso di 2 variabili indipendenti (secondo quanto detto sopra) il terzo termine si annulla e<br />
rimane la somma in quadratura pesata delle due varianze.<br />
Il caso di una sola variabile ci restituisce il risultato già visto per via intuitiva.<br />
Estendiamo questa definizione al caso di una funzione di N variabili casuali:<br />
E[<br />
y]<br />
= y(<br />
E[<br />
x ],...., E[<br />
x ])<br />
1<br />
N<br />
N ∂y<br />
∂y<br />
Var[<br />
y]<br />
= ∑ cov[ x , x ]<br />
i j<br />
i , j=<br />
1∂x<br />
∂x<br />
i<br />
j<br />
in cui abbiamo adottato una forma compatta per le varianze secondo cui per qualunque i,<br />
cov[x i ,x i ]=Var[x i ].<br />
(2.8.4) Propagazione delle incertezze<br />
Come si propagano dunque le incertezze ? Intanto la prima osservazione é che la propagazione<br />
avviene a livello di varianze non di deviazioni standard. Dunque la propagazione é “quadratica” non<br />
“lineare”. In secondo luogo le varianze sono “pesate” con i quadrati delle derivate, cioè con quanto<br />
é ripida la dipendenza da quella variabile in quell’intorno.<br />
Se ho 2 variabili le cui popolazioni hanno varianze Var[x 1 ] e Var[x 2 ] e considero la funzione più<br />
semplice che posso costruire, cioè la somma<br />
y = x 1<br />
+ x 2<br />
(naturalmente in questo caso le due variabili devono avere le stesse dimensioni fisiche), avrò che,<br />
essendo =1 ambedue le derivate,<br />
Var [ y]<br />
= Var[<br />
x1 ] + Var[<br />
x2]<br />
+ 2cov[ x1,<br />
x2]<br />
Distinguiamo 3 casi:<br />
(a)<br />
x 1 ed x 2 sono indipendenti:<br />
(b)<br />
x 1 ed x 2 sono completamente correlate<br />
(c)<br />
x 1 ed x 2 sono completamente anti-correlate<br />
Nel caso (a) cov[x 1 ,x 2 ]=0 e dunque<br />
Var [ y]<br />
= Var[<br />
x ] + Var[<br />
x ]<br />
1 2<br />
cioè si ha una semplice somma in quadratura. Si noti che nella somma in quadratura domina il più<br />
“forte” più che nella somma lineare.<br />
I casi (b) e (c), abbiamo visto, significano che<br />
ρ[<br />
x , x<br />
1<br />
cov[ x , x<br />
1<br />
2<br />
] = ± 1<br />
e si traducono in<br />
2<br />
] = ±<br />
Var[<br />
x ] Var[<br />
x<br />
1<br />
2<br />
]<br />
84
Var [ y]<br />
= Var[<br />
x1]<br />
+ Var[<br />
x2]<br />
± 2 Var[<br />
x1<br />
] Var[<br />
x2]<br />
ovvero in termini di deviazioni standard<br />
( σ[<br />
x ] σ[<br />
]) 2<br />
σ ±<br />
2 2<br />
2<br />
[ y]<br />
= σ [ x1<br />
] + σ [ x2]<br />
± 2σ<br />
[ x1<br />
] σ[<br />
x2]<br />
=<br />
1<br />
x2<br />
Cioè: nel caso in cui le due variabili siano completamente correlate la deviazione standard della<br />
somma é pari alla somma delle deviazioni standard, si ritrova cioè il risultato della propagazione<br />
lineare (quella cosiddetta dell’errore massimo che qualcuno ha visto alle scuole superiori)<br />
σ [ y]<br />
= σ[<br />
x 1<br />
] + σ[<br />
x ]<br />
2<br />
Nel caso (c) completamente anticorrelato si ha invece<br />
σ[ y]<br />
= | σ[<br />
x 1<br />
] −σ[<br />
x ]|<br />
2<br />
risultato questo che dice che se le due sigma sono uguale la y é priva di varianza.<br />
I tre casi sono schematizzati nelle Fig. 2.18 2.19 e 2.20 che illustrano i tre casi (a) (b) e (c).<br />
Fig.2.18 Stesso grafico di correlazione tra 2 variabili non correlate (ρ=0.) aventi entrambi varianza unitaria, di Fig.1.11.<br />
Sotto é mostrato l’istogramma della somma delle 2 variabili. Si noti come la deviazione standard campionaria (RMS nel<br />
riquadro) sia prossima al valore √2 come atteso dalle considerazioni fatte.<br />
85
Fig.2.19 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente correlate (qui ρ=1.).<br />
L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria prossima a 2 come atteso.<br />
Fig.2.20 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente anticorrelate (qui ρ=-1.).<br />
L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria “nulla”, dal momento che la<br />
somma dei 2 valori é sempre pari allo stesso valore (=0 nel nostro caso).<br />
Altrettanto interessante é il caso della funzione<br />
86
y = x 1<br />
− x 2<br />
per il quale valgono “quasi” esattamente gli stessi risultati visti sopra. Infatti si ha:<br />
ρ[<br />
x , x<br />
1<br />
ρ[<br />
x , x<br />
1<br />
2<br />
2<br />
] = 0 ⇒ Var[<br />
y]<br />
= Var[<br />
x ] + Var[<br />
x<br />
] = ± 1⇒<br />
σ[<br />
y]<br />
= | σ[<br />
x ] m σ[<br />
x<br />
1<br />
1<br />
2<br />
]|<br />
cioè nel caso della differenza tra 2 variabili correlate, il segno della correlazione gioca in senso<br />
opposto rispetto a come gioca per il caso della somma.<br />
2<br />
]<br />
87
Esercizi relativi al Capitolo (2)<br />
2.1) Un’urna contiene 5 palline numerate da 1 a 5. Estraendole una ad una senza reintrodurle ogni<br />
volta, quant’è la probabilità di ottenere la sequenza 1-2-3-4-5 ? E se ogni volta reintroduco la<br />
pallina estratta quanto vale la probabilità di ottenere la stessa sequenza ? Infine quanto cambiano le<br />
2 probabilità se anziché cercare la sequenza 1-2-3-4-5 cerco la sequenza 2-5-4-1-3 ?<br />
2.2) Disegnare la distribuzione di probabilità della variabile casuale data dalla differenza tra il<br />
valore di 2 dadi lanciati simultaneamente. Quanto vale la probabilità che lanciando per tre volte<br />
consecutive una coppia di dadi io abbia tutte e tre le volte una differenza pari a 0 ?<br />
2.3) Il 10% degli abitanti dell’isola di Pasqua soffre di daltonismo. Un test del daltonismo funziona<br />
in modo tale che su 100 pazienti daltonici, 98 sono individuati, mentre su 100 pazienti non daltonici<br />
16 sono individuati erroneamente come daltonici.<br />
Se faccio il test su un individuo qualsiasi della popolazione dell’isola e ho responso positivo,<br />
quant’è la probabilità che sia effettivamente daltonico<br />
2.4) Un bimbo maschio di 4 anni ha un peso di 22.5 kg. Dalla tabella dei “percentili” i suoi genitori<br />
desumono che si trova al 90-esimo percentile. Il cugino avente la stessa età ma avente un peso di<br />
18.2 kg si trova al 40-esimo percentile. Determinare μ e σ della popolazione gaussiana descrivente i<br />
pesi dei bambini di 4 anni (si definisce percentile la probabilità che un valore sia minore del valore<br />
dato secondo la popolazione in questione).<br />
2.5) La radioattività ambientale standard, misurata con un certo contatore é caratterizzata da un<br />
valor medio r=1.8x10 -3 conteggi al secondo. Metto quel contatore a casa mia e lo lascio contare per<br />
un giorno intero. Se ottengo N=404, devo preoccuparmi ?<br />
2.6) L’incidenza alla nascita della sindrome genetica X é dell’ 0.12% per età della madre inferiore<br />
ai 30 anni e del 0.28% per età superiore a 30 anni. La signora Y ha 10 figli di cui 3 avuti prima dei<br />
30 anni e 7 dopo i 30 anni. Quant’è la probabilità che nessuno sia affetto da sindrome X ?<br />
2.7) Il nucleo di valutazione di rischio delle centrali nucleari ha stabilito il tempo medio di attesa<br />
per avere un incidente in una centrale nucleare di un certo tipo é di 20000 anni. Il governo di un<br />
certo paese nel quale stanno per entrare in funzione 98 centrali di quel tipo é chiamato a rispondere<br />
in parlamento circa la probabilità di non avere alcun incidente nei prossimi 100 anni. Quanto vale<br />
tale probabilità ?<br />
2.8) Un certo rivelatore che si propone di distinguere una radiazione di tipo A da una radiazione di<br />
tipo B, ha due possibili risultati che chiamiamo α e β. Viene portato in prossimità di una sorgente di<br />
tipo A, e si trova che, nel 98% dei casi dà il risultato α e nel 2% dà il risultato β. In prossimità della<br />
sorgente di tipo B dà nel 10% risultato α e nel 90% il risultato β. Viene in seguito portato<br />
nell’ambiente entro il quale si vuole distinguere i 2 tipi di radiazione. A priori non si sa nulla circa<br />
la quantità relativa delle 2 radiazioni. Quant’è la probabilità che ottenuto il risultato α questo<br />
corrisponda alla radiazione A ? Come cambia il risultato se da misure precedenti si sa che B é il<br />
doppio più frequente di A ?<br />
2.9) Dopo anni di esperienza é nota che la distribuzione della concentrazione di rame nel sangue<br />
umano é ben descritta da una distribuzione di Gauss di parametri μ = 3.2 x 10 -5 cm -3 e σ = 2.2 x 10 -6<br />
cm -3 . All’ultimo esame del sangue trovo 9.2 x 10 -5 cm -3 . Devo preoccuparmi ?<br />
88
2.10) Un medico mi spiega che l’intervallo di accettabilità del valore del colesterolo tra 150 e 220<br />
mg/dl , corrisponde ad un intervallo di probabilità del 90% calcolato su una popolazione gaussiana.<br />
Determinare μ e σ di tale distribuzione.<br />
2.11) In un referendum svolto su tutto il territorio nazionale, i SI hanno vinto con una percentuale<br />
finale del 52.67%. Sapendo che nel paese X vi sono 1654 aventi diritto al voto, quant’è la<br />
probabilità che in quel paese i SI siano minoritari ? Specificare le ipotesi essenziale per arrivare al<br />
risultato.<br />
2.12) Un dispositivo elettronico conta i segnali che provengono da un rivelatore. Tuttavia tale<br />
dispositivo ha il problema di bloccarsi allorché rimane fermo (cioè non riceve segnali) per un tempo<br />
superiore a 10 s. Sapendo da misure indipendenti che la poissoniana del fenomeno in questione<br />
costruita su un intervallo di 100 s ha λ=38.4, dire quante volte in un ora il dispositivo si blocca.<br />
2.13) Il test dell’epatite C ha una probabilità di successo del 90% (cioè la probabilità che un<br />
paziente effettivamente affetto dal virus ottenga P al testé del 90% e che uno non affetto dal virus<br />
ottenga Né pure del 90%). Un individuo si sottopone a 3 test indipendenti, e ottiene la sequenza<br />
PNP. Quant’è la probabilità che sia positivo ? Se invece avessi ottenuto la sequenza PPP ?<br />
2.14) Un allenatore per i mondiali ha a disposizione una rosa fatta da 3 portieri, 6 difensori, 7<br />
centrocampisti e 6 attaccanti. Considerando che in una squadra di calcio trovano posto 1 portiere, 4<br />
difensori, 4 centrocampisti e 2 attaccanti, quante formazioni diverse può preparare ?<br />
2.15) Disegnare la distribuzione di probabilità della variabile “valore più grande dei 2 dadi tirati<br />
simultaneamente”.<br />
2.16) Quant’è la probabilità che su una famiglia di 5 figli, 2 siano maschi ? Quale tra le 3 sequenze<br />
é meno probabile (FFMFM, FFFFM, FFFFF) ?<br />
2.17) Nei risultati degli esami del sangue vengono indicati “intervalli normali” dei valori misurati<br />
ottenuti dalla popolazione sana, imponendo che il 95% dei sani siano inclusi nell’intervallo.<br />
Quant’è la probabilità che una persona sana sia fuori intervallo per l’esame X e per almeno uno dei<br />
2 esami Y 1 e Y 2 ?<br />
2.18) Quante sono le possibili cartelle della tombola ? (90 numeri in totale, 15 numeri a cartella)<br />
2.19) Il reparto ostetrico di un piccolo paese ha un solo posto e dunque può gestire non più di un<br />
parto al giorno. Negli ultimi anni é stato visto che si ha un parto nel paese circa una volta la<br />
settimana. Quant’è la probabilità che domani arrivino 2 o più donne per partorire e quindi una o più<br />
di una debba essere mandata altrove ?<br />
2.20) Misuro l’efficienza di un rivelatore basandomi su 1250 particelle incidenti. Sapendo che la<br />
distribuzione del numero di successi ha una deviazione standard relativa del 2 %, quant’è<br />
l’efficienza ?<br />
2.21) Discutere se le seguenti variabili casuale discrete sono caratterizzabili da una distribuzione<br />
Poissoniana ed eventualmente in quali ipotesi. (a) Il numero di stelle in volumi dell’universo di 1<br />
parsec 3 ,(b) il numero di battiti cardiaci in 15 s, (c) il numero di studenti che si iscrive ogni anno al<br />
corso di laurea in <strong>Fisica</strong> dell’Università “La <strong>Sapienza</strong>”, (d) il numero di persone che trovo in fila<br />
nell’ufficio X il martedì’ mattina alle 10.<br />
89
2.22) Un test del virus HIV é caratterizzato dalle seguenti prestazioni: p(+/infetto)=99.0% , p(-/non<br />
infetto)=99.3% . Calcolare quant’è la probabilità che facendo un test e risultando positivo una<br />
persona sia effettivamente infetta in 2 casi: (1) il testé fatto su tutta la popolazione nazionale italiana<br />
(per la quale il ministero della salute stima una frazione di infetti dello 0.2% circa); (2) il testé fatto<br />
solo su un campione “a rischio” in cui ci si aspetta che circa la metà delle persone testate sia infetta.<br />
2.23) Dai dati dell’esercizio precedente (caso(1)): Quanto cambia la probabilità di essere infetto se<br />
ripeto 3 volte il test e per tre volte la persona risulta positiva ?<br />
2.24) Quante auto possono essere immatricolate in Italia dato il tipo di targa che abbiamo adottato<br />
dal 1994 (2 lettere, 3 numeri 2 lettere) ? Quant’è la probabilità che in una targa le ultime 2 lettere<br />
siano una copia delle prime due (ad esempio CH 017 CH) ?<br />
2.25) La password di una banca data é una parola di 6 lettere, dove per lettera si deve intendere o<br />
una lettera dell’alfabeto inglese o un numero. Quanti anni impiega a trovarla un calcolatore che<br />
impiega 1 ms per tentare ogni singola combinazione ? Quanto impiega invece se sa che sono una<br />
sequenza i cui primi 3 posti sono occupati da numeri e gli altri 3 da lettere ?<br />
2.26) Una variabile casuale é caratterizzata da una distribuzione uniforme tra 0 e 10. Quant’è la<br />
probabilità di ottenere un numero maggiore di 8.2 ? Quant’è la probabilità che estraendo 3 volte, io<br />
ottenga sempre un numero maggiore di 8.2 ?<br />
2.27) La distribuzione della variabile M (massa invariante di un sistema di particelle che escono da<br />
un esperimento di collisioni) é gaussiana con parametri μ = 138.2 MeV e σ = 4.58 MeV. Accetto<br />
solo gli eventi per i quali 129 < M < 149 MeV. Che frazione di eventi buoni rigetto (sinonimo di<br />
non accetto) ? Una simulazione dello stesso processo mi fornisce una variabile sempre gaussiana<br />
con lo stesso μ ma con σ = 3.96 MeV. Quanto é diversa la mia frazione di reiezione tra dati e<br />
simulazione ?<br />
2.28) L’Alitalia dichiara che la probabilità di un ritardo maggiore di 1 ora sul volo Roma-Parigi<br />
delle 10:00é del 2.34%. Nei prossimi 2 anni dovrò andare una volta al mese ad una riunione a Parigi<br />
che inizia appena 1 ora dopo l’arrivo di quel volo. Quant’è la probabilità che io arrivi almeno una<br />
volta in ritardo (si trascuri il tempo di trasporto dall’aereo alla sede della riunione)?<br />
2.29) Nel paese X si ha un decesso in media ogni 62 giorni. L’unica agenzia di pompe funebri<br />
decide di chiudere (per lutto) per un intero mese. Quant’è la probabilità che ci sia almeno un<br />
decesso durante questo periodo di chiusura ?<br />
2.30) La distribuzione dell’età del corpo docente dell’Università “La <strong>Sapienza</strong>” di Roma é<br />
approssimabile con una distribuzione “triangolare” simmetrica tra 30 e 70 anni. Fare il grafico della<br />
distribuzione. Quant’è la probabilità che nei primi corsi del primo trimestre uno studente si trovi di<br />
fronte 3 persone tutte di età superiore ai 60 anni ?<br />
2.31) Per un errore di produzione, su una partita di 2000 uova di Pasqua solo 1250 contengono la<br />
sorpresa. Per Pasqua abbiamo comprato 5 uova appartenenti a questa produzione. Quant’è la<br />
probabilità che almeno 3 di queste contengano una sorpresa ?<br />
2.32) Tre contatori per raggi cosmici contano in media 256 eventi in un minuto. Quant’è la<br />
probabilità che almeno 2 contatori osservino un conteggio inferiore a 240 ?<br />
2.33) La variabile casuale continua x ha una funzione di distribuzione uniforme tra –1.5 e 1.5.<br />
Viene estratto un campione di dimensione 5290 e viene fatto un istogramma di frequenza con passo<br />
90
0.3 dei valori ottenuti. Quale é la probabilità di osservare in due intervalli un numero di valori<br />
superiore a 575 ?<br />
2.34) Ad un torneo partecipano 10 squadre. Quante partite complessivamente saranno giocate se<br />
ogni squadra deve incontrare per 2 volte tutte le altre (gironi di andata e di ritorno) ?<br />
2.35) Nello stato del Texas, i Repubblicani hanno avuto una maggioranza schiacciante alle ultime<br />
elezioni presidenziali: il 76.4% contro il 23.6% dei Democratici. Un sondaggio rivela che il 16.2%<br />
dell’elettorato Democratico é costituito da persone di colore, mentre solo il 2.5% di quello<br />
Repubblicano é costituito da persone di colore.<br />
a) Se incontro un elettore di colore, quant’è la probabilità che abbia votato Democratico ?<br />
b) Nella mia azienda ho 7 dipendenti tutti di colore: quant’è la probabilità che tra i miei<br />
dipendenti vi sia almeno un Repubblicano ?<br />
2.36) Nella regione X si hanno in media 3.24 incidenti ogni notte tra il sabato e la domenica.<br />
a) Quant’è la probabilità che il prossimo sabato sera non si abbiano incidenti ?<br />
b) Qual è la distribuzione di probabilità del numero di incidenti in un anno ?<br />
c) Quanto vale la probabilità di avere in un anno meno di 150 incidenti ?<br />
[si ricorda che in un anno vi sono complessivamente 52 notti tra sabato e domenica.]<br />
2.37) Si deve organizzare una riunione in un nuovo Centro Congressi la cui sala più grande contiene<br />
fino a 90 persone sedute. Analizzando i dati relativi alle stesse riunioni effettuate negli ultimi<br />
anni, si é trovato che il numero di presenze ha una distribuzione descritta da una poissoniana con<br />
valore centrale 78. Quant'è la probabilità che, quest'anno, qualcuno resti in piedi?<br />
2.38) Cinque anni fa ho versato un bicchiere pieno d’acqua nel mare. Oggi mi trovo dall’altra parte<br />
del mondo e con un altro bicchiere prendo dell’acqua dal mare. Quant’e’ il numero medio di<br />
molecole nel nuovo bicchiere che erano anche nel bicchiere di cinque anni fa ?<br />
91
(3) Introduzione all’inferenza<br />
Gli argomenti e gli esempi trattati nel capitolo precedente sono certamente interessanti. Tuttavia<br />
risulta evidente che essi da soli non giustificano il fatto che un fisico sperimentale debba studiarli<br />
cosi’ intensamente proprio all’inizio del suo corso di studi. In realtà il motivo per cui sono stati<br />
trattati é che si rivelano estremamente utili per risolvere i problemi di inferenza che abbiamo già in<br />
parte affrontato e per ora solo approssimativamente incontrato nel primo capitolo.<br />
Riformuliamo alcuni dei problemi che abbiamo incontrato nella prima parte del corso:<br />
(a) come dare il risultato di una misura, come dare la stima dell’intervallo e che significato ha<br />
questo intervallo nei seguenti casi:<br />
risultato di una singola misura (analogica, digitale o numero senza altre informazioni);<br />
risultato di una sequenza di numeri (qui abbiamo già alcune idee che vanno chiarite);<br />
risultato di un conteggio (poissoniano): come dare la migliore stima di r ;<br />
risultato di una misura di efficienza (binomiale);<br />
combinazione di diverse misure indipendenti di una stessa grandezza;<br />
(b) come stimare l’incertezza di una misura indiretta: si tratta di applicare la propagazione delle<br />
incertezze cui abbiamo già accennato;<br />
(c) come stabilire la compatibilità tra diverse misure in modo più quantitativo, ovvero come<br />
stabilire che due misure sono “significativamente” diverse;<br />
(d) come determinare con la loro incertezza il coefficiente angolare e l’intercetta della retta che<br />
meglio approssima una dipendenza lineare tra due grandezze.<br />
Ciascuna delle questioni qui poste sono state incontrate in vario modo nelle esperienze di<br />
laboratorio. Per esempio nella prima esperienza abbiamo incontrato problemi del tipo (a) per<br />
ciascuna misura di massa e di volume e per la distribuzione delle densità, dei riflessi e della capacità<br />
di interpolazione, di tipo (b) per stimare l’incertezza della densità a partire da quelle su massa e<br />
volume e di tipo (c) per vedere se si hanno differenze tra i riflessi degli studenti, o tra la densità<br />
media e quella nota dell’alluminio.<br />
Nell’ esperienza della molla sono entrati in gioco anche i problemi di tipo (d) nei 2 tipi di fit che<br />
abbiamo fatto, per ora solo “a mano” e che intendiamo fare secondo una modalità meglio definita.<br />
Nell’ esperienza del contatore, oltre alle altre cose pure presenti, si é posto il problema di stimare la<br />
radioattività a partire da varie misure di conteggio. E cosi’ via.<br />
In questo capitolo dopo una breve introduzione di considerazioni generali sull’inferenza, vedremo<br />
alcune soluzioni per le 4 classi di problemi posti, soluzioni che evidentemente non esauriscono tutti<br />
i problemi immaginabili, ma che risultano utili in molte circostanze.<br />
Lasciamo dunque da parte urne con palline, o probabilità di malattie, e torniamo a parlare di misure.<br />
(3.1) Introduzione “formale” all’inferenza<br />
(3.1.1) Considerazioni generali<br />
L’inferenza é il processo attraverso il quale a partire da un insieme di dati “inferisco” sul valor vero<br />
di una o più grandezze. E’ dunque la procedura con cui in un modo o nell’altro facciamo<br />
l’induzione. Con il termine inferenza indichiamo dunque il metodo quantitativo dell’induzione e<br />
quindi del metodo sperimentale. Il risultato del procedimento consiste in generale nello stabilire le<br />
caratteristiche della funzione di distribuzione del valor vero della grandezza in esame o dei valori<br />
veri delle grandezze in esame, ed in particolare nella definizione di un intervallo, caratterizzato da<br />
un certo contenuto di probabilità, all’interno del quale si ritiene il valor vero debba stare. Si noti che<br />
intrinsecamente l’inferenza fa passare da una osservazione particolare ad una affermazione generale<br />
sulla o sulle grandezze.<br />
92
Formalizziamo ora l’inferenza. Per fare ciò riprendiamo lo schema della prima parte del corso:<br />
valor vero, misurando e risultato della misura.<br />
Il misurando é caratterizzato da una popolazione (la sua funzione di distribuzione) che dipende sia<br />
dal processo che si sta studiando, che dalle caratteristiche dell’apparato di misura. La misura si<br />
riferisce invece ad un campione, che costituisce una realizzazione finita della popolazione. Dunque<br />
tra popolazione e campione vi é un rapporto di natura statistica. Il valore vero invece non dipende<br />
dall’apparato di misura, ma solo dal fenomeno. La differenza tra valore vero e valore misurato<br />
(l’errore dunque) può sempre essere espresso come somma di 2 contributi:<br />
differenza tra valore osservato e valore atteso del misurando (errore casuale)<br />
differenza tra valore atteso del misurando e valore vero (errore sistematico)<br />
Decomponiamo dunque l’errore complessivo δ nella forma:<br />
δ = x − x = ( x − μ)<br />
+ ( μ − x ) = δ + δ<br />
v<br />
m<br />
v<br />
m<br />
sist<br />
in cui, con ovvio significato di simboli, x v é il valor vero, x m quello misurato, e μ il valore atteso del<br />
misurando.<br />
Nel limite in cui il campione approssima bene la popolazione (per esempio altissimo numero di<br />
osservazioni), l’errore casuale tende ad annullarsi in base alla legge della stabilità della frequenza.<br />
In tale caso rimane la seconda sorgente di errore soltanto. L’errore sistematico é dunque quello che<br />
rimane dell’errore, nel limite di statistica infinita.<br />
Si noti che stiamo parlando di errori, non di incertezze. Lo sperimentatore non “vede” il misurando,<br />
né “vede” il valore vero. Tuttavia deve stimare quanto sono questi errori dando degli intervalli di<br />
probabilità per la grandezza.<br />
(3.1.2) L’inferenza bayesiana<br />
Ci sono vari metodi generali per l’inferenza cioè per fare il passaggio da x m a μ e da questo a x v .<br />
Uno di questi é il metodo dell’inferenza bayesiana al quale accenniamo ora brevemente.<br />
Utilizzando le definizioni appena date, possiamo chiamare f(μ/x m ) la funzione di distribuzione di μ<br />
dato x m , che descrive la popolazione del misurando μ , condizionata all’essere stato ottenuto x m<br />
come risultato della misura. Allo stesso modo chiameremo g(x m /μ) la funzione di distribuzione di<br />
x m dato il parametro μ. Il problema é posto in modo tale che si può interpretare μ come la “causa”,<br />
cioè la popolazione, e x m come l’effetto, ovvero il campione. La forma della popolazione del<br />
misurando determina cioè il risultato della misura, con un meccanismo tipo causa-effetto. La<br />
situazione é simile a quella che abbiamo visto in occasione del teorema di Bayes. Li’ avevamo una<br />
formula che ci permetteva di passare dalle probabilità degli effetti date le cause, alle probabilità<br />
delle cause dati gli effetti. Adattiamo la formula di Bayes al sistema popolazione - campione,<br />
passando dalle probabilità di eventi alle densità di probabilità di variabili casuali continue, secondo<br />
quanto visto nel precedente capitolo:<br />
f ( μ / x )<br />
m<br />
= b<br />
∫<br />
a<br />
g(<br />
x / μ)<br />
f ( μ)<br />
m<br />
0<br />
dμg(<br />
x / μ)<br />
f ( μ)<br />
m<br />
0<br />
A numeratore vi é il prodotto della funzione g detta verosimiglianza per la funzione f 0 che<br />
costituisce la probabilità a priori del valore del misurando. A denominatore lo stesso prodotto é<br />
integrato in dμ tra a e b che sono gli estremi dell’intervallo in cui μ è definito. L’integrale a<br />
denominatore svolge il ruolo della sommatoria nella formula di Bayes per le probabilità.<br />
Se conosco la verosimiglianza, cioè se conosco come é fatta la distribuzione del campione data la<br />
popolazione (che dipende da come é fatto l’apparato di misura), e se ho una probabilità a priori<br />
(eventualmente uniforme se non ho alcun “pregiudizio”) posso ricavare la funzione di distribuzione<br />
del misurando. Il valore atteso di tale distribuzione, o il valore più probabile qualora la distribuzione<br />
fosse in buona misura simmetrica, costituiscono la migliore stima del misurando.<br />
Il passaggio poi al valore vero viene fatto usando tutte le conoscenze a disposizione relativamente<br />
agli eventuali errori sistematici, e applicandoli come correzioni alla stima fatta del misurando.<br />
cas<br />
93
(3.1.3) Il principio di massima verosimiglianza<br />
La formula di Bayes permette di giustificare il cosiddetto principio di massima verosimiglianza.<br />
Infatti se la probabilità a priori di μ è uniforme tra a e b e pari a k=1/(b-a), si ha:<br />
g(<br />
x / μ)<br />
k<br />
m<br />
f ( μ / x ) =<br />
m<br />
b<br />
=<br />
k ∫ dμg(<br />
x / μ)<br />
a<br />
m<br />
g(<br />
x / μ)<br />
m<br />
I<br />
dove con I abbiamo indicato l’integrale che compare a denominatore, che é comunque un numero<br />
indipendente da μ avendo noi integrato in μ. Quindi si ha che la funzione di distribuzione di μ dato<br />
x m é proporzionale alla verosimiglianza.<br />
f ( μ / x ) ∝ g(<br />
x / μ)<br />
m<br />
m<br />
In particolare se la f é una distribuzione simmetrica, cioè tale che la moda e la media coincidono, il<br />
massimo della g rispetto a μ corrisponde al valore più probabile di μ.<br />
Di qui il principio della massima verosimiglianza: la migliore stima di μ è quella per cui é massimo<br />
il valore della funzione di verosimiglianza. La funzione di verosimiglianza (likelihood in inglese) é<br />
data in generale dalla densità di probabilità congiunta dei dati sperimentali, data la popolazione del<br />
misurando. Questo principio (che applicheremo in seguito) fornisce un utile metodo per stabilire<br />
quale é il valore più probabile del misurando μ secondo il nostro campione x m . Il valore più<br />
probabile di μ è dunque quello per cui é massima la verosimiglianza.<br />
(3.2) Inferenza sul valore vero<br />
Passiamo ora ad affrontare i casi che si incontrano nel processo di misura, per arrivare a dare metodi<br />
operativi. In questo paragrafo affrontiamo i casi che abbiamo elencato sotto (a) nel paragrafo<br />
introduttivo di questo capitolo.<br />
Consideriamo dunque i vari casi presentati sopra. Nel seguito usiamo la seguente notazione: xˆ ed<br />
in generale ogni simbolo con il cappuccio indica la stima del valor vero, ovvero la stima dei<br />
parametri della densità di probabilità del misurando. Per il momento assumiamo l’assenza di errori<br />
sistematici che richiedono una trattazione a parte, e dunque nella trattazione che segue,<br />
identificheremo il valor vero x v con μ, valore atteso del misurando. La trattazione é svolta ad un<br />
livello elementare ed intuitivo, ed ha come obiettivo quello di fornire metodi di analisi e non di dare<br />
una trattazione esauriente e generale dell’inferenza. Per una discussione generale della teoria degli<br />
stimatori e dell’inferenza si rimanda ai corsi successivi.<br />
(3.2.1) Caso di una singola misura<br />
Se la mia misura si traduce in un unico numero x M , (il che accade per esempio quando non sono in<br />
condizioni di ripetibilità e non ho alcuna informazione sull’incertezza da attribuire ad x M ), devo<br />
avere informazioni indipendenti. Con un solo numero non si riesce a dare una misura sensata. O<br />
devo poter ripetere la misura o devo sapere qualcosa su come funziona il mio esperimento.<br />
Se invece sappiamo che la distribuzione del misurando μ (la popolazione da cui x M proviene) é<br />
gaussiana con varianza σ 2 , allora l’intervallo cosi’ costruito:<br />
x − σ < ˆ μ < x + σ<br />
M<br />
M<br />
costituisce un intervallo al 68.3% di probabilità per il valore atteso μ del misurando. Infatti in<br />
questo caso la verosimiglianza é:<br />
g<br />
1<br />
2πσ<br />
xM −μ<br />
)<br />
2<br />
2<br />
(<br />
−<br />
2σ<br />
( x M<br />
/ ) = e<br />
μ<br />
e, se la probabilità a priori é uniforme, la densità di probabilità di μ è data da<br />
f ( μ / x ) = g(<br />
x / μ)<br />
M<br />
M<br />
(in cui il fattore di proporzionalità é 1 essendo la gaussiana già normalizzata) e dunque si ha che:<br />
94
P ( x M<br />
−σ<br />
< μ < x + σ ) = 68.3%<br />
M<br />
Si noti il procedimento seguito, che é consistito nell’individuare la densità di probabilità di μ a<br />
partire dalla verosimiglianza.<br />
Nel caso in cui il valore x M proviene da una misura diretta letta su una scala “analogica” sappiamo<br />
che si tratta di stimare al meglio la precisione di interpolazione. Si potrebbe pensare di usare una<br />
misura come quella fatta in laboratorio per il nonio (aumentando magari il numero di osservazioni)<br />
come misura della popolazione della variabile δx scarto del valore misurato dal valore vero. Se tale<br />
popolazione si rivela essere gaussiana caratterizzata da valore atteso nullo e varianza σ 2 si può<br />
procedere come nel caso appena trattato dando un intervallo gaussiano di semilarghezza σ.<br />
In questi casi é evidente che per avere un intervallo del tipo di quelli chiamati di “quasi certezza” nel<br />
capitolo 1, occorrerà moltiplicare per 3 la larghezza dell’intervallo portando cosi’ il contenuto<br />
probabilistico dell’intervallo al 99.7%.<br />
Se invece la misura in questione proviene da un display digitale fisso e Δx é l’ampiezza<br />
dell’intervallo corrispondente all’ultimo digit centrato in x M , posso affermare che, per quel che posso<br />
sapere, la densità di probabilità di μ è uniforme tra x M - Δx/2 e x M + Δx/2. Non ho nessun elemento<br />
infatti per privilegiare una parte dell’intervallo rispetto ad un’altra. In tal caso la migliore stima del<br />
valore vero e della sua incertezza, avente il significato di deviazione standard della distribuzione di x<br />
(vedi cap.(2.4)) é<br />
ˆ μ =<br />
Δx<br />
x M<br />
±<br />
12<br />
corrispondente ad un intervallo di probabilità del 57.7%. In questo caso un intervallo di certezza é<br />
ovviamente ± Δx / 2.<br />
Bisogna comunque sempre tenere presente che non esiste un metodo generale. Si tratta di usare tutte<br />
le informazioni a disposizione e, se non si hanno informazioni sufficienti, in generale non si potrà<br />
dare una stima sensata di un intervallo.<br />
(3.2.2) Caso di una misura ripetuta N volte.<br />
Se invece ho un campione di dimensione N (sequenza di numeri) posso calcolare x ed s . Di<br />
nuovo però é interessante distinguere tra due casi, cioè tra il caso in cui ho informazioni aggiuntive<br />
al mio campione e il caso in cui tutte le mie informazioni sono date dal campione.<br />
Supponiamo allora di conoscere a priori che x ha una distribuzione gaussiana con valore atteso μ e<br />
varianza σ 2 : la variabile<br />
x − μ<br />
σ<br />
N<br />
è una gaussiana standardizzata, e dunque, applicando le stesse considerazioni fatte per il caso della<br />
singola misura, un intervallo<br />
x −<br />
σ<br />
< ˆ μ < x +<br />
N<br />
σ<br />
N<br />
è caratterizzato da un intervallo di probabilità del 68.3%. Infatti se il misurando è caratterizzato da<br />
una popolazione gaussiana, la media di N misure estratte da questa popolazione é (a maggior<br />
ragione) gaussiana e d’altra parte sappiamo che la sua varianza é la varianza di x diviso N. Allora<br />
posso ripetere il ragionamento fatto per la singola misura e scrivere come risultato:<br />
95
ˆ μ = x ±<br />
σ<br />
N<br />
che ha il significato di un intervallo di probabilità del 68.3% per il valor vero<br />
C’è poi il secondo caso. Supponiamo di sapere che x ha una distribuzione gaussiana ma di non<br />
conoscere σ 2 : allora devo ricorrere a:<br />
μˆ<br />
=<br />
x ±<br />
s<br />
N<br />
Tuttavia sappiamo già che un tale intervallo (che peraltro abbiamo già ampiamente usato nella<br />
prima parte del corso) non caratterizza un intervallo al 68.3%. Infatti sappiamo che, detto μ il<br />
valore atteso gaussiano della popolazione, la variabile<br />
x − μ<br />
s<br />
N<br />
in tutto analoga a quella che abbiamo costruito nel caso precedente con l’unica differenza che ora<br />
compare s al posto di σ, non é una variabile gaussiana standardizzata, ma é piuttosto una t di<br />
Student con N-1 gradi di libertà che tende ad una gaussiana solo nel limite di grande N.<br />
Per cui se vogliamo un intervallo di probabilità confrontabile con quello gaussiano, per esempio al<br />
68.3%, dobbiamo trovare quel valore della variabile t con N-1 gradi di libertà, diciamo t Ν−1 (68.3%)<br />
tale che:<br />
P<br />
x − μ<br />
(68.3%) < < t (68.3%)) = 68.3%<br />
1 N −<br />
s<br />
N<br />
( −t<br />
N −<br />
1<br />
I valori di questi t N-1 per diverse probabilità (tra cui il 68.3%) sono dati nella tabella data qui di<br />
seguito. Dalla tabella si nota che al crescere di N i valori di t tendono a quelli “gaussiani” come<br />
deve essere per le proprietà limite della variabile t di Student. Quindi l’uso della variabile t é<br />
importante solo quando si stanno considerando medie di campioni di bassa statistica estratti da<br />
popolazioni gaussiane di σ non nota.<br />
Si scrive dunque il risultato per un intervallo di probabilità α qualsiasi:<br />
ˆ μ = x ± t ( α)<br />
N 1<br />
−<br />
s<br />
N<br />
96
Tabella con i valori di t(N-1) introdotti nel testo, per dare intervalli di probabilità corretti nel caso di un numero<br />
limitato di misure. Si noti che gli 1-α della tabella corrispondono agli α del testo. La tabella deve essere usata<br />
anche per fissare gli estremi degli intervalli di accettabilità nel contesto dei test di ipotesi (vedi seguito).<br />
Si noti che il valore di t fa aumentare le dimensioni dell’intervallo rispetto al caso gaussiano. In un<br />
certo senso si sta pagando la non conoscenza della σ e il fatto che si sta introducendo anche<br />
l’incertezza su s, stima di σ.<br />
(3.2.3) Caso dei conteggi poissoniani.<br />
Supponiamo di volere stimare il “rate” di conteggio di un certo tipo di eventi. Devo stimare il<br />
parametro λ di un fenomeno poissoniano relativo ad un intervallo di tempo Δt, dato una certa<br />
misura di conteggio N nel tempo Δt.<br />
La trattazione esatta del problema, richiede l’uso del teorema di Bayes in caso di verosimiglianza<br />
poissoniana. Qui consideriamo solo il caso in cui il numero di conteggi osservato é<br />
sufficientemente grande. In tal caso infatti, ma solo in tal caso, il numero di conteggi diventa una<br />
variabile gaussiana, e pertanto si possono costruire intervalli di probabilità gaussiani. Supponiamo<br />
allora di avere contato N conteggi nel tempo Δt e di volere stimare la “radioattività ambientale” r.<br />
Nel limite in cui N é “grande” (per N maggiore di 10-20 tale limite é già in pratica raggiunto) si<br />
trova che la migliore stima di λ è fornita dall’unico valore trovato N.<br />
λˆ = N<br />
e pertanto<br />
N<br />
rˆ<br />
=<br />
Δt<br />
Se ho validi motivi per ritenere che la popolazione sia poissoniana, posso ragionevolmente<br />
assumere che la radice quadrata di N sia una buona stima della deviazione standard, e pertanto<br />
avrò:<br />
N<br />
N<br />
t<br />
rˆ<br />
= ±<br />
Δt<br />
Δ<br />
in cui evidentemente ho assunto trascurabile l’incertezza su Δt. Si noti che (caratteristica distintiva<br />
dei processi poissoniani) al crescere di N l’incertezza cresce, ma più lentamente di N e dunque<br />
l’incertezza relativa su r decresce<br />
97
(a)<br />
s( rˆ)<br />
1<br />
=<br />
rˆ<br />
N<br />
qui abbiamo indicato con s(r) l’incertezza sulla stima di r. Dunque la stima del “rate” di un evento<br />
é tanto migliore quanto più alto é il numero di conteggi ovvero, a parita’ di rate, quanto maggiore é<br />
il mio tempo di osservazione Δt.<br />
Consideriamo ora l’esperienza del contatore. Sono stati fatti diversi conteggi a tempo fissato (per<br />
esempio N=50 conteggi da δt=100 s l’uno) e i miei dati sono una sequenza di conteggi: n(i),i=1,N.<br />
In tal caso la migliore stima della radioattività può essere ottenuta in due modi tra loro equivalenti.<br />
Calcolo la media n e la deviazione standard campionaria s(n) dei 50 conteggi<br />
(n(i),i=1,N). Uso la proprietà della media e scrivo:<br />
n<br />
rˆ = ±<br />
δt<br />
s(<br />
n)<br />
Nδt<br />
che, assumendo di essere nel limite gaussiano, corrisponde ad un intervallo di probabilità del<br />
68.3%.<br />
(b) Sommo tutti i conteggi fatti e li divido per la somma di tutti gli intervalli pari<br />
evidentemente a Nδt, cioé agendo come se avessi fatto un unico conteggio per un tempo Nδt.<br />
∑<br />
N<br />
N<br />
=<br />
∑<br />
n(<br />
i)<br />
n(<br />
i)<br />
i= 1<br />
i 1<br />
rˆ<br />
= ±<br />
Nδt<br />
Nδt<br />
e assumo la radice del totale dei conteggi come stima della deviazione standard.<br />
I 2 approcci sono esattamente uguali per quel che riguarda il valore centrale, essendo infatti<br />
N<br />
n = ∑ n(<br />
i) / N , mentre per quel che riguarda l’incertezza sono uguali solo se la deviazione<br />
i=<br />
1<br />
standard campionaria é pari<br />
poissoniana.<br />
n . Ciò é verificato solo se la distribuzione é effettivamente<br />
Quindi ricapitolando quanto detto per il caso dei conteggi poissoniani nel limite gaussiano: se la<br />
distribuzione é poissoniana é opportuno sommare tutti i conteggi fatti ed assumere come incertezza<br />
la radice di tale numero; se invece si hanno dubbi sulla poissonianità, é opportuno suddividere il<br />
tempo di misura in sottocampioni e controllare che la deviazione standard campionaria sia in<br />
accordo con la radice della media aritmetica. Se ciò é ragionevolmente verificato si può procedere<br />
come nel caso poissoniano. Altrimenti si deve concludere che il fenomeno non é poissoniano<br />
(perché ad esempio alcune delle ipotesi non sono verificate) e assumere la deviazione standard<br />
della media come incertezza.<br />
Il caso di pochi conteggi (in cui il limite gaussiano non é verificato) é estremamente importante ma<br />
richiede una trattazione che esula dagli obiettivi di questo corso.<br />
(3.2.4) Caso dei conteggi binomiali.<br />
Supponiamo di aver contato n successi su N prove e di volere stimare p. Si tratta di un tipico caso<br />
di inferenza, nel quale voglio passare da un valore misurato n caratteristico di un campione<br />
“estratto” dalla popolazione, al parametro che descrive la popolazione. L’esempio più tipico é<br />
quello della misura di efficienza di un rivelatore.<br />
Anche in questo caso ci limitiamo al limite gaussiano. La migliore stima di p sarà data dalla<br />
frequenza con cui ho ottenuto il successo<br />
p ˆ =<br />
n<br />
N<br />
98
che corrisponde al fatto che in una binomiale E[n]=Np. La deviazione standard é ottenuta<br />
prendendo la deviazione standard della popolazione e sostituendo a p il suo valore stimato:<br />
1<br />
1<br />
pˆ(1<br />
− pˆ)<br />
s(<br />
pˆ)<br />
= Var[<br />
n]<br />
= Np(1<br />
− p)<br />
=<br />
N N<br />
N<br />
Anche in questo caso giova ricordare che al di fuori del limite gaussiano la trattazione data non é<br />
adeguata. Ricordiamo che nel caso della distribuzione binomiale il limite gaussiano é raggiunto<br />
quando N é sufficientemente elevato e quando p é sufficientemente lontano da 0 e da 1.<br />
(3.2.5) La “barra di incertezza”<br />
Fig.3.1 Alcuni esempi di dati sperimentali espressi su di un grafico con la (o le) barre di incertezza. Si noti<br />
che la barra esprime sempre una stima dello sperimentatore di un intervallo di probabilità del quale deve<br />
essere specificato il contenuto. In caso non si abbia una tale stima, é bene presentare il dato senza barra.<br />
In tutti i casi visti, il risultato della misura può essere espresso come un valore ± una incertezza<br />
stimata. Se la misura di cui stiamo parlando viene messa in un grafico in cui é espressa in funzione<br />
di un altra grandezza per evidenziare un eventuale andamento (è il caso di molte delle misure viste<br />
in laboratorio), allora sarà opportuno riportare sul grafico non solo un punto, ma un punto con due<br />
barre di incertezza: una per la misura della grandezza in ascisse, e l’altra per la misura della<br />
grandezza nelle ordinate, secondo quanto mostrato nella figura illustrativa (Fig.3.1). Si tratta di<br />
una espressione grafica molto utilizzata perché estremamente utile alla comprensione del grafico.<br />
Di norma le barre di incertezza rappresentano incertezze standard e quindi il loro significato é che<br />
il valore vero cade là dentro con una probabilità che nel caso gaussiano é del 68.3%. Come<br />
vedremo, nella valutazione degli andamenti, l’uso delle barre di incertezza si rivela di cruciale<br />
importanza.<br />
(3.3) Misure indirette: la propagazione delle incertezze<br />
(3.3.1) Riformulazione del problema<br />
Dopo aver fatto una lista di casi di misure dirette, torniamo al caso delle misure indirette.<br />
Possiamo ora applicare la formula che abbiamo ricavato nel capitolo precedente.<br />
99
Riformuliamo il problema. Supponiamo di aver misurato le 2 grandezze x 1 ed x 2 e di avere ottenuto<br />
ˆx e<br />
1<br />
ˆx con le loro incertezze standard<br />
2<br />
s ( xˆ<br />
1<br />
) e s ( xˆ<br />
2<br />
) e di avere anche stimato una covarianza tra le<br />
2 grandezze. Vogliamo trovare una stima di y che é una funzione di x 1 ed x 2 , y(x 1 , x 2 ) e una stima<br />
della sua incertezza s (yˆ<br />
) . Nel capitolo precedente abbiamo imparato a calcolare il valore atteso e la<br />
varianza della popolazione della variabile causale y. Ora però per utilizzare quella formula,<br />
dobbiamo applicarla a campioni di x 1 e di x 2 non alle popolazioni. Per fare ciò identifichiamo i<br />
valori attesi di y di x 1 e di x 2 con le rispettive stime di y, x 1 ed x 2 , e le varianze con i quadrati delle<br />
incertezze standard, secondo il procedimento che abbiamo già usato nel precedente paragrafo.<br />
Identifichiamo infine la covarianza della popolazione delle 2 variabili con la covarianza<br />
campionaria. Naturalmente questo passaggio richiede una identificazione campione-popolazione<br />
che é lecita solo nella misura in cui i campioni “rappresentano” ragionevolmente bene le<br />
popolazioni, cioé nel limite di errori casuali piccoli.<br />
(3.3.2) Propagazione delle incertezze<br />
Utilizzando le formule viste nel capitolo precedente, ed applicandola ai valori campionari, abbiamo<br />
allora per la stima di y e per la stima della sua varianza:<br />
yˆ<br />
=<br />
s(<br />
yˆ)<br />
y( xˆ<br />
, xˆ<br />
2<br />
1<br />
2<br />
)<br />
⎛ ∂y<br />
⎞<br />
= ⎜ ⎟<br />
⎝ ∂x1<br />
⎠<br />
2<br />
xˆ1 , xˆ2<br />
s(<br />
xˆ<br />
)<br />
1<br />
2<br />
⎛ ∂y<br />
⎞<br />
+ ⎜ ⎟<br />
⎝ ∂x2<br />
⎠<br />
2<br />
xˆ1 , xˆ2<br />
s( xˆ<br />
2<br />
)<br />
2<br />
⎛ ∂y<br />
⎞<br />
+ 2⎜<br />
⎟<br />
⎝ ∂x1<br />
⎠<br />
xˆ1 , xˆ2<br />
⎛ ∂y<br />
⎞<br />
⎜ ⎟<br />
⎝ ∂x2<br />
⎠<br />
xˆ1 , xˆ2<br />
cov( xˆ<br />
, xˆ<br />
Soffermiamoci su questa formula. Vi compaiono 2 categorie di elementi: da un lato le derivate della<br />
funzione y calcolate in corrispondenza dei valori stimati di x 1 e di x 2 , che non hanno nulla a che<br />
vedere con le incertezze delle variabili x; dall’altra appunto le incertezze standard delle variabili x e<br />
la covarianza tra queste, che sono invece grandezze indipendenti dalla forma di y, ma legati alla<br />
nostra conoscenza sulle due variabili x ed anche al loro grado di correlazione. Sono questi 2<br />
elementi a determinare l’incertezza propagata.<br />
È utile a questo punto applicare la formula trovata al caso della misura indiretta delle densità dei<br />
pesetti, per verificare se la deviazione standard delle misure di densità del campione di pesetti é in<br />
accordo con il valore stimato in base alla propagazione.<br />
In primo luogo calcoliamo le derivate della funzione y, poi prendiamo dai dati i valori stimati delle<br />
deviazioni standard delle misure di massa e volume. Osserviamo dunque che le 2 misure non sono<br />
correlate (nel senso che non sono correlati gli errori di bilancia e calibro).<br />
Concludiamo dando una formula di propagazione molto utile nelle applicazioni, valida nel caso in<br />
cui la funzione y sia una funzione ‘monomia’, cioè del tipo<br />
y = kx<br />
α<br />
1<br />
x<br />
β<br />
2<br />
...<br />
esprimibile come prodotto delle variabili x elevate a esponenti (anche negativi). In caso di non<br />
correlazione si ha:<br />
⎛ s(<br />
yˆ)<br />
⎞<br />
⎜ ⎟<br />
⎝ yˆ<br />
⎠<br />
2<br />
⎛<br />
2<br />
s( xˆ<br />
) ⎞<br />
1<br />
= α ⎜ ⎟<br />
⎝ xˆ<br />
1 ⎠<br />
2<br />
⎛<br />
2<br />
s( xˆ<br />
) ⎞<br />
2<br />
+ β ⎜ ⎟<br />
⎝ xˆ<br />
⎠<br />
2<br />
2<br />
+ ...<br />
Si noti il ruolo determinante degli esponenti α e β con cui x 1 e x 2 compaiono nella formula. Essi<br />
determinano in effetti quanto “fortemente” y dipende da x 1 e da x 2 .<br />
(3.4) Nozione di consistenza e significatività: test d’ipotesi<br />
1<br />
2<br />
)<br />
100
(3.4.1) Consistenza tra risultati di esperimenti<br />
Abbiamo dunque visto come in casi semplici si possono attribuire degli intervalli al valor vero sia<br />
che si tratti di una misura diretta sia che si tratti di una misura indiretta. Supponiamo ora di aver<br />
misurato una certa grandezza in laboratori diversi e con apparati diversi. Può essere, per esempio,<br />
che diversi gruppi sperimentali siano impegnati in diversi esperimenti che intendono tuttavia<br />
misurare una stessa grandezza per fare luce su un certo problema di fisica. Al termine di questi<br />
esperimenti la comunità scientifica ha a disposizione N risultati diversi uno per ciascun<br />
esperimento. Prima di qualunque altra cosa ci si chiede se i risultati ottenuti dai diversi esperimenti<br />
siano tra di essi consistenti. La domanda é evidentemente di straordinaria rilevanza. Infatti la<br />
consistenza tra diversi esperimenti, “rafforza” la conoscenza complessiva del fenomeno, mentre una<br />
eventuale inconsistenza può significare che qualcuno degli esperimenti stia stimando male la<br />
propria incertezza oppure che gli esperimenti stiano misurando grandezze diverse. Quest’ultimo é il<br />
caso in cui uno o più degli esperimenti sono caratterizzati da errori sistematici fuori controllo che<br />
fanno si’ che il misurando non rappresenti correttamente il valore vero.<br />
Nel primo capitolo abbiamo accennato ad un confronto tra risultati basato sulla distanza in “numero<br />
di deviazioni standard”. Quanto abbiamo detto allora é sostanzialmente corretto. Ora vogliamo<br />
soltanto rendere più quantitativa la discussione fatta.<br />
Supponiamo che i 2 esperimenti che vogliamo confrontare (A e B) danno il loro risultato sotto<br />
forma di intervallo standard gaussiano del tipo x ± σ. Posso considerare la variabile casuale Δ=x A -<br />
x B . Faccio allora la seguente ipotesi: i 2 campioni A e B provengono da due popolazioni gaussiane<br />
caratterizzate da uno stesso μ e da varianze pari a quelle date da ciascun esperimento σ A e σ B . In<br />
tale ipotesi la variabile Δ è anch’essa gaussiana. Il suo valore atteso sarà 0 e la sua varianza si<br />
otterrà dalla formula della propagazione. Assumendo assenza di correlazione tra i 2 esperimenti<br />
(circostanza ragionevole) avremo<br />
2<br />
2 2<br />
σ = σ A<br />
+ σ<br />
Δ<br />
B<br />
e dunque la variabile<br />
Δ<br />
Z = σ<br />
Δ<br />
deve essere una variabile gaussiana standardizzata. A questo punto testare l’ipotesi di partenza<br />
corrisponde a testare quanto é verosimile che la variabile Z cosi’ definita sia gaussiana<br />
standardizzata (l’uso del termine verosimile in questo contesto non ha esattamente lo stesso<br />
significato della definizione di verosimiglianza data sopra, ma ha un significato analogo). Per fare<br />
ciò calcolo Z e vado a vedere nelle tabelle della distribuzione di Gauss normalizzata quant’è<br />
P<br />
( Z ) = P(( m > Z ) ∪(<br />
m < − Z ))<br />
cioè quanto é probabile che io ottenga un valore oltre Z in entrambi le code della gaussiana.<br />
Evidentemente, più piccolo é il valore di questa probabilità più inverosimile é il fatto che Z<br />
provenga da una popolazione gaussiana standardizzata.<br />
Quanto detto corrisponde ad un esempio particolarmente semplice di test di ipotesi. Il procedimento<br />
logico fatto può essere cosi’ ricapitolato:<br />
si definisce una variabile casuale, detta statistica campionaria, funzione dei dati (la variabile Z<br />
nell’esempio dato sopra) tale che se l’ipotesi é verificata la sua funzione di distribuzione é nota<br />
(una gaussiana standardizzata nell’esempio dato sopra);<br />
si calcola il valore di questa variabile;<br />
si stima quant’è “verosimile” che il valore misurato provenga dalla distribuzione aspettata<br />
(nell’esempio dato sopra calcolare P (Z)<br />
sulla base delle tabelle).<br />
101
In alcuni casi si può procedere nel modo seguente: viene fissato un certo valore di probabilità di<br />
soglia. Se P(Z)<br />
é inferiore a questo valore, l’ipotesi viene rigettata: in caso contrario viene<br />
accettata. La scelta della probabilità di soglia é in qualche misura arbitraria. Scelta tipiche possono<br />
essere il 10% o il 5% o anche l’1%. Si noti che la scelta di questa soglia dipende da quanto<br />
vogliamo essere ‘severi’. Certamente assumere il 10% come soglia significa essere piuttosto severi,<br />
ma comporta il rigettare il 10% dei casi buoni come se fossero cattivi. Viceversa, scegliere l’1%<br />
significa ridurre questa eventualità all’1% ma significa anche aumentare la possibilità di prendere<br />
come buoni casi cattivi. Si tratta dunque di trovare un compromesso che dipende dalla natura del<br />
problema in questione.<br />
(3.4.2) Consistenza tra esperimento e modello<br />
Un caso simile al precedente che pure abbiamo incontrato nelle nostre esperienze di laboratorio é<br />
quello in cui vi é un valore atteso per il risultato di una certa misura, valutato sulla base di un<br />
modello o sulla base di una ipotesi che si fa sulla grandezza che stiamo misurando. Nel caso delle<br />
misure di densità l’ipotesi é che i cilindretti siano tutti fatti di alluminio puro e dunque la densità<br />
attesa é la densità dell’alluminio, assunta nota con incertezza trascurabile. Muovendoci secondo<br />
quanto detto nel paragrafo precedente, e facendo di nuovo l’ipotesi che la nostra misura provenga<br />
da una popolazione gaussiana, costruiamo la seguente statistica campionaria:<br />
= x ˆ<br />
Z<br />
− μ<br />
σ<br />
in cui x é il risultato della misura, σ la stima della sua deviazione standard gaussiana ed infine μ è il<br />
valore atteso. Da questo punto in poi si segue il ragionamento fatto sopra. Essenzialmente, dato il<br />
valore di Z si tratterà di calcolare sulla base delle tabelle quanto vale P (Z)<br />
e sulla base di tale<br />
valore prendere una decisione.<br />
Nel seguito vedremo un altro esempio di test di ipotesi quando discuteremo i fit. E’ opportuno<br />
sottolineare che in ogni caso l’accettazione o il rigetto di una ipotesi non costituisce mai una<br />
conclusione certa, ma sempre una conclusione di natura probabilistica. Giova ribadire qui quanto<br />
già detto sopra, vale a dire che la scelta della probabilità di soglia determina la “severità” del test.<br />
Maggiore é tale probabilità di soglia, maggiore é la nostra tendenza a rigettare i casi, nel senso che<br />
l’accettazione dell’ipotesi si ha solo se l’accordo é molto buono. Ma proprio in questo caso diventa<br />
più alta la probabilità di rigettare come falsa un ipotesi vera.<br />
(3.4.3) Combinazione di diverse misure: la media pesata.<br />
Supponiamo ora di avere verificato che i risultati di due esperimenti relativi alla grandezza x siano<br />
consistenti, cioè che il test dell’ipotesi di consistenza abbia dato esito positivo. A questo punto ci<br />
poniamo il problema di combinare i due risultati utilizzando tutte le informazioni a nostra<br />
disposizione. Fare la media aritmetica tra i due risultati costituisce un approccio che ha un evidente<br />
problema. Infatti il risultato della media sta appunto a metà tra i due. Supponiamo che uno dei due<br />
risultati sia caratterizzato da una incertezza molto minore dell’altra. E’ naturale dare più credito a<br />
quel risultato e fare le cose in modo tale che il risultato finale sia più vicino a quello tra i due che ha<br />
incertezza minore. Si tratta cioè di fare una media pesata:<br />
x p + xˆ<br />
p ˆ1 1 2<br />
x p<br />
=<br />
p + p<br />
1<br />
2<br />
2<br />
in cui p 1 e p 2 sono appunto due pesi. In base a quanto detto i 2 pesi devono essere legati alla<br />
incertezza di ciascuna misura o meglio al suo inverso. Si dimostra che con la scelta<br />
1<br />
p =<br />
2<br />
s ( xˆ)<br />
102
la media pesata ottenuta é la “migliore stima” di x sulla base delle informazioni a disposizione.<br />
Pertanto, generalizzando alla combinazione di N risultati diversi, diamo la definizione di media<br />
pesata:<br />
N xˆ<br />
i<br />
∑<br />
i=<br />
1<br />
2<br />
s ( xˆ<br />
)<br />
i<br />
x =<br />
p<br />
N 1<br />
∑<br />
i=<br />
1<br />
2<br />
s ( xˆ<br />
)<br />
i<br />
Si dimostra inoltre che la deviazione standard della media pesata é data da:<br />
2 1<br />
s ( xp<br />
) = N<br />
1<br />
∑ 2<br />
s ( xˆ<br />
)<br />
i=<br />
1<br />
i<br />
Si noti che nel caso di incertezze tutte uguali si ritorna alla media aritmetica e alla deviazione<br />
standard della media.<br />
Giova ricordare che questo procedimento é applicabile solo al caso in cui si é preventivamente<br />
verificato che le misure in questione sono campioni provenienti dalla stessa popolazione. Nel caso<br />
questa ipotesi fosse rigettata questa combinazione non avrebbe significato, e allora occorre<br />
procedere in modo diverso. Nel corso della discussione del fit (prossimo paragrafo) otterremo una<br />
dimostrazione della formula della media pesata per il caso generale di N misure indipendenti.<br />
(3.5) Analisi delle dipendenze funzionali: il fit<br />
L’ultimo argomento che trattiamo in questo corso affronta uno degli aspetti più importanti<br />
dell’indagine scientifica, in un certo senso il punto d’arrivo di ogni indagine sperimentale. Come<br />
abbiamo detto nell’introduzione al metodo scientifico, il progresso conoscitivo si sviluppa<br />
attraverso il confronto tra i risultati degli esperimenti e le predizioni dei modelli. In fisica i risultati<br />
degli esperimenti sono espressi come misure, cioè come valori numerici di grandezze fisiche<br />
opportunamente definite, mentre le predizioni dei modelli sono espresse o come valori numerici di<br />
grandezze o come relazioni matematiche tra grandezze. Concentriamoci su questo secondo caso.<br />
Formuliamo ora il problema in modo generale. Nel seguito risolveremo il problema solo in un caso<br />
particolare, che tuttavia risulta essere di notevole rilevanza e generalità.<br />
(3.5.1) Il fit: formulazione del problema<br />
Supponiamo che il nostro esperimento consista nel misurare, al variare di una certa grandezza x,<br />
una seconda grandezza, diciamo y. Effettuiamo N misure in corrispondenza di N diversi valori di x.<br />
Avremo pertanto gli N valori di x x 1 ,x 2 ,...,x N e, in corrispondenza di questi gli N valori di y<br />
y 1 ,y 2 ,...,y N . Naturalmente sia per quel che riguarda le x che le y, si tratta di misure e dunque ciascun<br />
valore é affetto di una incertezza o, più in generale, costituisce un campione da una popolazione<br />
caratterizzata da una certa funzione di distribuzione.<br />
Supponiamo poi che le due grandezze x ed y siano legate, secondo un certo modello, da una<br />
relazione funzionale del tipo<br />
y = y( x,<br />
θ )<br />
cioè da una formula che esprime la dipendenza funzionale tra le due grandezze e che a sua volta<br />
dipende da un certo numero, diciamo M, di parametri θ . Questo simbolo indica un insieme di<br />
parametri. Per fissare le idee, il caso in cui l’andamento atteso dal modello sia di tipo rettilineo, la<br />
funzione y sarà data da:<br />
y = mx + c<br />
103
in cui evidentemente il coefficiente angolare m e l’intercetta all’origine c sono i parametri. I<br />
parametri possono assumere valori che hanno significato nell’ambito del modello in questione. Ad<br />
esempio nel caso della dipendenza allungamento molla – massa del pesetto, sappiamo bene che la<br />
dipendenza rettilinea prevista da una semplice applicazione delle leggi della statica, comporta che il<br />
coefficiente angolare sia il rapporto g/k tra l’accelerazione di gravità g e la costante elastica della<br />
molla k, e dunque si tratta di un numero rilevante nell’ambito del modello che stiamo applicando.<br />
Lo sperimentatore che ha effettuato queste misure si pone allora i due seguenti problemi:<br />
(a) la dipendenza funzionale attesa dal modello descrive bene i dati ?<br />
(b) quali sono i valori degli M parametri θ per i quali si ha il miglior accordo possibile tra<br />
modello ed esperimento ?<br />
Si tratta di due diverse questioni. La questione (a) é del tipo di quelle di cui abbiamo parlato a<br />
proposito dei test di ipotesi. La questione (b) é invece una questione “nuova” che in realtà abbiamo<br />
affrontato in laboratorio in modo grafico: tracciando cioè la migliore curva (una retta nei casi da noi<br />
visti) e poi valutando graficamente coefficiente angolare ed intercetta.<br />
Nella pratica sperimentale normalmente le due questioni si pongono contestualmente. Cioè lo<br />
sperimentatore si pone entrambi le questioni. Vuole capire se la descrizione del modello é<br />
soddisfacente o se é necessario introdurre altri termini (correzioni) al modello per avere una<br />
descrizione più adeguata. Allo stesso tempo lo sperimentatore vuole ricavare i migliori parametri<br />
dato che spesso questi hanno significati fisici rilevanti.<br />
Nel seguito descriviamo un metodo che permette di affrontare e risolvere entrambi i problemi.<br />
Chiamiamo questo procedimento fit, parola inglese che traduciamo con “adattamento”, intendendo<br />
il fatto che vogliamo adattare al meglio il modello ai nostri dati.<br />
(3.5.2) Ipotesi di lavoro<br />
Descriviamo questo metodo restringendoci al caso in cui sono verificate alcune ipotesi che ora<br />
elenchiamo e che vedremo entrare in gioco nei vari passaggi della descrizione del metodo. Le<br />
ipotesi che facciamo in realtà non sono molto restrittive, nel senso che si applicano ad una vasta<br />
categoria di situazioni. Vediamole:<br />
2<br />
le misure della variabili y provengono da popolazioni tutte gaussiane di varianze σ ;<br />
i<br />
le misure della variabile x provengono da popolazioni qualsiasi, ma le loro deviazioni standard<br />
sono “trascurabili” rispetto alle corrispondenti per le y; qui occorre fare attenzione circa il senso di<br />
questa affermazione. Infatti per trascurabile intendiamo che l’incertezza di x “propagata” su y sia<br />
molto minore dell’incertezza di y. Se y(x) é la funzione questo vuol dire<br />
dy<br />
σ ( x)<br />
Fig.3.2 Lo stesso punto sperimentale con σ y =0.5 e σ x =0.1 in 2 situazioni diverse: in un caso la dipendenza tra<br />
le 2 variabili nell’intorno del punto é espressa come y=x (dy/dx=1) nell’altro caso come y=7x (dy/dx=7). Le<br />
frecce tratteggiate indicano il contributo dell’incertezza sulle x all’incertezza sulle y. Nel primo caso dunque<br />
l’ipotesi descritta nel testo é verificata nel secondo chiaramente no.<br />
Come si vede, le ipotesi sono abbastanza generali. Si noti che l’ultima ipotesi, quella<br />
dell’andamento rettilineo, vale anche quando l’andamento non é direttamente rettilineo, ma può<br />
essere “linearizzato”, cioè reso rettilineo con un semplice cambio di variabili. E’ il caso del grafico<br />
T -√m nella molla, il grafico t 2 – s nel caso del volano scarico ed infine tutti i casi in cui<br />
l’andamento atteso é esponenziale si prende in considerazione la carta semilogaritmica.<br />
(3.5.3) Il fit: derivazione delle formule per le stime dei parametri<br />
Utilizziamo il principio di massima verosimiglianza che abbiamo formulato nel par.(3.1.3). A tale<br />
scopo dobbiamo costruire la funzione di verosimiglianza, cioè la densità di probabilità congiunta<br />
delle y, dato il modello e i parametri m e c della retta. Osserviamo a questo scopo che essendo le N<br />
misure di y indipendenti, la densità di probabilità congiunta delle y può essere espressa come il<br />
prodotto delle densità di probabilità di ciascuna misura. Utilizzando le ipotesi fatte di gaussianità<br />
delle y si ha:<br />
2<br />
N<br />
N 1 ⎛ ( y − mx − c)<br />
⎞<br />
i<br />
i<br />
L(<br />
y / m,<br />
c)<br />
= ∏ f ( y / m,<br />
c)<br />
= ∏ exp⎜<br />
−<br />
⎟<br />
i<br />
i= 1 i=<br />
1<br />
2<br />
2πσ<br />
i ⎝ 2σ<br />
i ⎠<br />
cioè la densità di probabilità congiunta (che abbiamo indicato con L da likelihood) é il prodotto di<br />
2<br />
densità di probabilità gaussiane, ciascuna con valore atteso dato dal modello (mx i +c) e varianze σ .<br />
i<br />
Trattiamo le x i come fossero delle costanti, in base alle ipotesi fatte.<br />
Il principio di massima verosimiglianza ci dice che le migliori stime di m e di c sono quelle per cui<br />
L é massima. Per affrontare in modo più semplice la matematica del problema procediamo con un<br />
semplice artificio. Prendendo il logaritmo naturale di L otteniamo una nuova funzione<br />
l = ln(L)<br />
che tuttavia, date le proprietà di monotonia della funzione logaritmo assumerà il massimo in<br />
corrispondenza degli stessi valori di m e di c che massimizzano L. Calcoliamo dunque l<br />
105
1 N<br />
N<br />
2<br />
( yi<br />
l = − ∑ln(2πσ<br />
) − ∑<br />
i<br />
i= 1 i=<br />
1<br />
2<br />
−mx<br />
−c)<br />
i<br />
2<br />
2σ<br />
i<br />
Dal momento che sono interessato a calcolare il massimo rispetto ad m e a c, osservo subito che il<br />
primo termine é costante rispetto ad m e a c, e dunque posso non considerarlo. Rimane da<br />
massimizzare<br />
2<br />
1 N ( y − mx − c)<br />
i<br />
i<br />
l = − ∑<br />
i=<br />
1<br />
2<br />
2 σ<br />
i<br />
ovvero da minimizzare (cambio segno e tolgo l’1/2 che di nuovo non cambia il massimo della<br />
funzione) la quantità<br />
2<br />
( y − mx − c)<br />
= ∑<br />
N<br />
i<br />
i<br />
χ<br />
i=<br />
1<br />
2<br />
σ<br />
i<br />
2<br />
2<br />
Ho chiamato χ la quantità da minimizzare non per caso. Infatti, nel caso in cui le ipotesi fatte<br />
2<br />
sono tutte verificate, essa risponde proprio alla definizione di variabile χ data a suo tempo, come<br />
somma di variabili gaussiane standardizzate.<br />
Per minimizzare, procediamo nel modo standard: poniamo uguale a 0 le derivate prime della<br />
2<br />
2<br />
funzione χ rispetto ad m e a c. Si noti come la funzione χ è una funzione di m e di c a questo<br />
punto mentre i valori sperimentali y i e x i sono diventati delle costanti fissate. Dovrò quindi cercare<br />
quei valori di m e di c che risolvono il sistema lineare dato da:<br />
2<br />
∂χ<br />
∂m<br />
2<br />
∂χ<br />
∂c<br />
= 0<br />
= 0<br />
Svolgiamo le derivate. Cominciamo dalla derivata parziale rispetto ad m. Ricordiamo che nel fare la<br />
derivata parziale rispetto a m si deve pensare c come una costante.<br />
2<br />
2<br />
∂χ<br />
∂ ⎛ N ( y − mx − c)<br />
⎞ N − x 2( y − mx − c)<br />
i<br />
i<br />
i i<br />
i<br />
= ⎜ ∑<br />
⎟ = ∑<br />
=<br />
i=<br />
1<br />
2<br />
i=<br />
1<br />
2<br />
∂m<br />
∂m<br />
⎝ σ ⎠ σ<br />
i<br />
i<br />
2<br />
⎛ N x y<br />
N x<br />
N x ⎞<br />
N<br />
i i<br />
i<br />
i<br />
2<br />
1<br />
− 2⎜<br />
∑ − m∑<br />
− c∑<br />
⎟ = −2( xy − mx − cx)∑<br />
i=<br />
1<br />
2<br />
i= 1<br />
2<br />
i=<br />
1<br />
2<br />
i=<br />
1<br />
2<br />
⎝ σ σ σ<br />
i<br />
i<br />
i ⎠<br />
σ<br />
i<br />
nell’ultimo passaggio ho definito le medie “pesate” sia del prodotto xy che di x ed ho messo in<br />
evidenza la somma dei pesi (che come sappiamo dal precedente paragrafo ha il significato di<br />
inverso della varianza della media pesata. Poiché il risultato della derivata va uguagliato a 0 posso<br />
togliere il –2 e la sommatoria dei pesi che sono indipendenti da m e da c. Pertanto la prima<br />
equazione cui siamo pervenuti é del tipo:<br />
2<br />
m x + cx = xy<br />
Procediamo ora con la seconda derivata, rispetto a c con m costante:<br />
2<br />
106
2<br />
∂χ<br />
∂ ⎛ N ( y − mx<br />
i<br />
i<br />
= ⎜ ∑<br />
i=<br />
1<br />
2<br />
∂c<br />
∂c<br />
⎝ σ<br />
i<br />
⎛ N y<br />
N x<br />
N<br />
i<br />
i<br />
− 2⎜ ∑ − m∑ − c∑<br />
⎝<br />
σ<br />
σ<br />
i= 1<br />
2<br />
i= 1<br />
2<br />
i=<br />
1<br />
i<br />
i<br />
− c)<br />
i<br />
2<br />
⎞ N − 2( y − mx<br />
i<br />
i<br />
⎟ = ∑<br />
i=<br />
1<br />
2<br />
⎠ σ<br />
i<br />
− c)<br />
=<br />
1 ⎞<br />
N 1<br />
⎟ = −2( y − mx − c)∑<br />
2<br />
i=<br />
1<br />
2<br />
σ ⎠ σ<br />
da cui ricaviamo, sempre uguagliando a 0 la derivata ed eliminando anche in questo caso i fattori<br />
comuni:<br />
m x + c =<br />
y<br />
Siamo dunque pervenuti ad un sistema lineare di 2 equazioni in 2 incognite, che riscriviamo:<br />
mx<br />
2<br />
+ cx = xy<br />
mx + c =<br />
y<br />
Risolviamo questo sistema con il metodo di Cramer. A questo scopo calcoliamo prima il<br />
determinante d della matrice dei coefficienti:<br />
2<br />
2<br />
d = x<br />
− x<br />
che ha l’ovvio significato di “varianza campionaria della variabile x”, e quindi rappresenta quanto<br />
sono “sparse” le misure di x. Nel seguito lo chiameremo “braccio di leva” e capiremo il significato<br />
molto intuitivo di questa espressione.<br />
Quindi per ricavare m e c abbiamo bisogno degli altri 2 determinanti che chiamiamo dm e dc<br />
rispettivamente:<br />
dm = xy − x y<br />
dc = x<br />
2<br />
y − xxy<br />
e procediamo a scrivere le formule risolutive (secondo il metodo di Cramer):<br />
mˆ<br />
cˆ<br />
Con queste formule abbiamo risolto il problema (b) posto all’inizio del capitolo: dato un insieme di<br />
N “punti sperimentali”, ciascuno dato dalla misura di una grandezza y in corrispondenza di un<br />
valore della grandezza x, nelle ipotesi fatte, le migliori stime dei parametri m e di c che descrivono<br />
il supposto andamento rettilineo di y in funzione di x, sono date dalle formule sopra ricavate.<br />
Operativamente si tratterà quindi di calcolare le medie (pesate con gli inversi delle varianze delle<br />
singole misure) delle x delle y dei prodotti xy e dei quadrati delle x. Dalla combinazione di tale<br />
medie otteniamo le stime di m e di c.<br />
Prima di procedere al calcolo delle varianze di queste stime, facciamo alcune considerazioni sulle<br />
formule ricavate.<br />
Ricordando la definizione di varianza e covarianza campionaria, osserviamo che la stima di m si<br />
puo’ scrivere nella forma:<br />
m ˆ =<br />
xy − x y<br />
=<br />
2<br />
2<br />
x − x<br />
2<br />
x y − x xy<br />
=<br />
2<br />
2<br />
x − x<br />
cov( x,<br />
y)<br />
Var(<br />
x)<br />
dunque m é strettamente legato alla correlazione tra le 2 grandezze. Il caso di non correlazione<br />
corrisponde all’essere m=0 (è il caso visualizzabile come la “palla” secondo la discussione della<br />
correlazione che abbiamo fatto). Inoltre il segno di m é legato al segno della covarianza tra y e x<br />
(essendo la varianza di x definita positiva). Come abbiamo visto negli esempi dati per la<br />
i<br />
107
correlazione, covarianze positive e negative identificano pendenze positive e negative. Si noti<br />
tuttavia che cov( x , y)<br />
e Var (x)<br />
in questo caso indicano rispettivamente covarianza tra le variabili e<br />
varianza delle x (il “braccio di leva”) e non covarianza delle incertezze o incertezza sulla x.<br />
La formula di c é meno intuitiva di quella di m. Diventa intuitiva nel caso in cui x = 0. Infatti<br />
in tal caso c = y. Si tratta del caso in cui i punti sono distribuiti sull’asse x in modo che tanti sono<br />
a destra quanti sono a sinistra (il baricentro dei punti é a 0). In tal caso evidentemente l’intercetta<br />
all’origine c diventa la media pesata delle y.<br />
Notiamo che in tutte le formule compaiono medie pesate. Questo vuol dire che gli N punti non<br />
sono tutti uguali. Il fit “pesa di più” quelli che hanno incertezza minore. Nel caso in cui tutte le<br />
incertezze sulle y fossero uguali, allora le medie diventano automaticamente medie aritmetiche.<br />
Ultima osservazione. Non é necessario verificare il segno delle derivate seconde per stabilire se<br />
il risultato trovato corrisponde ad un massimo o ad un minimo (infatti per ora abbiamo solo<br />
richiesto derivate prime nulle). Infatti si dimostra (ma é ampiamente intuitivo) che il problema<br />
posto non ammette massimi. Ciò in virtù del fatto che la possibilità di allontanarsi dai punti é<br />
“illimitata”.<br />
(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza<br />
Affrontiamo ora il secondo problema altrettanto importante del primo: trovare una stima delle<br />
incertezze da attribuire alle stime trovate di m e di c.<br />
Osservando le formule trovate, notiamo che le stime di m e c, possono essere pensate come variabili<br />
casuali, funzioni a loro volta di variabili casuali. Infatti sono funzioni dei valori delle x e delle y che<br />
altro non sono che realizzazioni di grandezze che dobbiamo trattare come variabili casuali appunto.<br />
Dunque applichiamo alle 2 stime trovate il metodo della propagazione delle incertezza. Dal<br />
momento che, per le ipotesi fatte, le x hanno incertezze trascurabili, allora dovremo propagare solo<br />
le incertezze sulle y, che peraltro conosciamo. Per procedere con la formula di propagazione delle<br />
incertezze, mi manca di calcolare le derivate parziali di m e di c rispetto a ciascuna y i .<br />
∂mˆ<br />
∂y<br />
i<br />
∂cˆ<br />
∂y<br />
i<br />
∂ ⎛ xy − x y ⎞ 1 ⎛ x x<br />
i<br />
= ⎜<br />
2 ⎟ = ⎜ −<br />
2<br />
2<br />
2<br />
∂yi<br />
⎝ x − x ⎠ Var(<br />
x)<br />
⎝σ<br />
σ<br />
i<br />
i<br />
∂<br />
=<br />
∂y<br />
i<br />
⎛<br />
⎜<br />
⎝<br />
x<br />
2<br />
y − xxy<br />
x<br />
2<br />
− x<br />
2<br />
⎞<br />
⎟<br />
⎠<br />
⎞<br />
⎟<br />
⎠<br />
∑<br />
i=<br />
1<br />
2<br />
1 ⎛ x x x<br />
i<br />
= ⎜ −<br />
2<br />
2<br />
Var(<br />
x)<br />
⎝σ<br />
σ<br />
i<br />
i<br />
N<br />
⎞<br />
⎟<br />
⎠<br />
1<br />
1<br />
2<br />
σ<br />
N<br />
∑<br />
i=<br />
1<br />
i<br />
1<br />
1<br />
2<br />
σ<br />
Applico ora la formula di propagazione usando l’ipotesi di non correlazione tra le varie y. Per la m<br />
2<br />
2<br />
N ⎛ ∂mˆ<br />
⎞<br />
N ( x − x)<br />
i<br />
Var(<br />
mˆ ) = ∑ ⎜ ⎟ Var(<br />
y ) = ∑<br />
i<br />
N<br />
i=<br />
1<br />
⎝ ∂yi<br />
⎠<br />
σ ( Var(<br />
x))<br />
( ∑ 1<br />
( Var(<br />
x))<br />
1<br />
2<br />
N<br />
( ∑<br />
i=<br />
1<br />
1<br />
2 )<br />
σ<br />
in cui ho osservato che<br />
N ( x − x)<br />
i<br />
∑<br />
i=<br />
1<br />
2<br />
σ<br />
i<br />
N<br />
∑ 1<br />
2<br />
i=<br />
1 σ<br />
i<br />
2<br />
= Var(<br />
x)<br />
i<br />
2<br />
N ( x − x)<br />
i<br />
∑<br />
i=<br />
1<br />
2<br />
σ<br />
i<br />
i=<br />
1 4<br />
2<br />
2<br />
2<br />
i<br />
i=<br />
1 σ<br />
i<br />
2<br />
=<br />
( Var(<br />
x))<br />
1<br />
2<br />
N<br />
( ∑<br />
i=<br />
1<br />
i<br />
i<br />
2<br />
σ<br />
i<br />
)<br />
=<br />
Var(<br />
x)<br />
1<br />
2 )<br />
σ<br />
108
Ottengo dunque per la varianza di m<br />
Var(<br />
mˆ )<br />
1<br />
=<br />
N<br />
Var(<br />
x)<br />
∑<br />
i=<br />
1<br />
1<br />
2<br />
σ<br />
i<br />
Si noti che nel caso in cui tutte le varianze degli N valori di y siano uguali, la formula si semplifica<br />
ed assume una forma più “familiare”:<br />
Var(<br />
mˆ ) =<br />
2<br />
σ<br />
NVar(<br />
x)<br />
cioè la varianza di m va come 1/N e quindi l’incertezza su m va pure come l’inverso della radice di<br />
N.<br />
Passo ora alla varianza della stima di c.<br />
2<br />
2<br />
2<br />
N ⎛ ∂cˆ<br />
⎞<br />
N ( x − x x)<br />
i<br />
Var( cˆ)<br />
= ∑ ⎜ ⎟ Var(<br />
y ) = ∑<br />
i<br />
N<br />
i=<br />
1<br />
i=<br />
4<br />
2<br />
⎝ ∂yi<br />
⎠<br />
σ ( Var(<br />
x))<br />
( ∑ 1<br />
2 2<br />
2<br />
2<br />
N ( x − x + x − x x)<br />
i<br />
∑<br />
N<br />
i=<br />
2<br />
2<br />
σ ( Var(<br />
x))<br />
( ∑ 1<br />
2 )<br />
i<br />
i=<br />
1 σ<br />
1 2<br />
N 1<br />
∑ N<br />
σ ( ∑ 1<br />
i=<br />
1 2<br />
2<br />
2<br />
i<br />
i=<br />
1 σ<br />
i<br />
N 1<br />
∑ N<br />
i=<br />
1 2<br />
σ ( ∑ 1<br />
2 )<br />
i<br />
i=<br />
1 σ<br />
i<br />
)<br />
2<br />
⎛<br />
⎜1+<br />
⎝<br />
i<br />
( x − x )<br />
x<br />
i<br />
Var(<br />
x)<br />
N 1<br />
= ∑ N<br />
i=<br />
1 2<br />
σ ( ∑ 1<br />
2 )<br />
i<br />
i=<br />
1 σ<br />
⎞<br />
⎟<br />
⎠<br />
=<br />
( x − x ) 2 ( x − x )<br />
⎛<br />
i<br />
⎜<br />
1+<br />
2x<br />
+ x<br />
⎝ Var(<br />
x)<br />
1 2<br />
2<br />
i<br />
i=<br />
1 σ<br />
i<br />
2<br />
Var(<br />
x)<br />
i<br />
i<br />
2<br />
⎛ x<br />
⎜<br />
⎝<br />
2<br />
2<br />
2<br />
⎞<br />
⎟<br />
=<br />
⎠<br />
2<br />
σ<br />
i<br />
)<br />
=<br />
2 2<br />
− x + x − xi<br />
Var(<br />
x)<br />
x ⎞<br />
⎟<br />
⎠<br />
2<br />
=<br />
Arrivati a questo punto spezzo in tre termini l’espressione in parentesi e opero la sommatoria,<br />
osservando che il secondo termine dà un contributo nullo:<br />
2<br />
1<br />
x<br />
Var( cˆ)<br />
=<br />
N +<br />
N =<br />
N<br />
( ∑ 1 ) Var(<br />
x)(<br />
∑ 1<br />
2 ) ( ∑<br />
i=<br />
1 σ<br />
i=<br />
1 σ<br />
i=<br />
1<br />
da cui<br />
Var( cˆ)<br />
=<br />
N<br />
i<br />
2<br />
1 ⎛ x<br />
⎜1<br />
+<br />
1 ) ⎝ Var(<br />
2<br />
σ<br />
2<br />
x<br />
x<br />
Var(<br />
x)(<br />
∑<br />
2<br />
i=<br />
1<br />
1<br />
2 )<br />
σ<br />
i<br />
i<br />
che costituisce la formula cercata. Si noti nel caso di varianze tutte uguali, l’espressione diventa:<br />
2<br />
2<br />
⎛ x ⎞σ<br />
Var( cˆ)<br />
= ⎜ ⎟<br />
⎝Var(<br />
x)<br />
⎠ N<br />
in cui, come nel caso della varianza di m, compare il termine σ 2 /N che caratterizza la “scala”<br />
dell’incertezza sui parametri.<br />
Facciamo alcune osservazioni sulle formule trovate per Var(m) e Var(c).<br />
i<br />
⎞<br />
⎟<br />
) ⎠<br />
109
Abbiamo già visto come in ambedue le formule compare il termine σ 2 /N. Questo implica che<br />
aumentare il numero di punti e diminuire l’incertezza sui punti, migliora la nostra conoscenza di m<br />
e di c (sarebbe strano se fosse vero il contrario).<br />
In entrambi i casi la varianza va come l’inverso di Var(x). Quindi aumentare il “braccio di leva”<br />
cioé lo sparpagliamento delle misure in x é un altro fattore di miglioramento del fit.<br />
Nel caso di Var(c) compare anche la media dei quadrati delle x, che é una misura di “dove” si<br />
trovano i punti, rispetto all’origine dell’asse X (notiamo che x 2<br />
è il momento secondo intorno<br />
all’origine), mentre in Var(m) questo termine non compare. Ciò significa che mentre l’incertezza su<br />
m non dipende dalla scelta dell’origine dell’asse X (è, potremmo dire, invariante per traslazioni),<br />
l’incertezza su c vi dipende fortemente e diventa minima quando l’origine dell’asse X corrisponde<br />
al baricentro dei punti. Ciò ha un significato intuitivo illustrato in Fig.3.3. Più lontano é l’asse Y dai<br />
punti, più grande é l’estrapolazione che devo fare per determinare c.<br />
Da quanto detto si può dire che in un fit, mentre m ha un significato assoluto, c dipende dalla<br />
scelta degli assi.<br />
Fig.3.3 Esempio di fit rettilineo su punti molto “lontani” dall’origine dell’asse x. Si noti come<br />
l’indeterminazione sul coefficiente angolare m si ripercuota direttamente sull’indeterminazione<br />
dell’intercetta c.<br />
Da ultimo osserviamo che m e c sono ricavati a partire dagli stessi dati, e sono pertanto delle<br />
funzioni delle stesse grandezze misurate. Quindi anche se, come nelle ipotesi fatte, le y sono tutte<br />
indipendenti, in generale m e c sono correlate. Per calcolare la covarianza tra m e c, occorre<br />
utilizzare la formula della propagazione per più funzioni che non abbiamo trattato. Dunque diamo<br />
direttamente la formula.<br />
110
cov( mˆ , cˆ)<br />
x<br />
−<br />
Var(<br />
x)(<br />
∑<br />
=<br />
N<br />
i=<br />
1<br />
1<br />
2 )<br />
σ<br />
che diventa, nel caso di varianze sulle y tutte uguali:<br />
2<br />
x σ<br />
cov( mˆ , cˆ)<br />
= −<br />
Var(<br />
x)<br />
N<br />
i<br />
in cui di nuovo compare il termine σ 2 /N e si ha la dipendenza inversa dal “braccio di leva”. Si noti<br />
come tale covarianza sia nulla solo nel caso in cui la media pesata delle x dei punti sia 0. Ovvero<br />
quando l’origine dell’asse X é scelta in modo da farla coincidere con il baricentro dei punti. Nel<br />
caso illustrato in Fig.3.3 tale covarianza é evidentemente diversa da 0, infatti un cambiamento di m<br />
si riflette chiaramente in un cambiamento di c. Ma se in quell’esempio traslassimo l’asse y di circa<br />
16 unità di X facendo combaciare l’origine con il baricentro, la covarianza sarebbe nulla.<br />
(3.5.5) Valutazione della bontà del fit: test del χ 2 .<br />
Finora abbiamo utilizzato il metodo della massima verosimiglianza per rispondere solo alla<br />
domanda (b), cioè abbiamo calcolato le migliori stime dei parametri della retta, ed abbiamo stimato<br />
le varianze di tali stime. Ora vogliamo porci il problema (a). Quanto bene l’andamento rettilineo<br />
“descrive” i dati ?<br />
In Fig.3.4 sono riportati alcuni esempi di confronto tra i dati e la migliore retta ottenuta con il<br />
metodo appena descritto. Possiamo individuare 4 casi differenti tutti illustrati nella figura. I dati<br />
sono rappresentati come punti nel piano y-x corredati da barra di incertezza esclusivamente sulla y<br />
dato che abbiamo supposto trascurabili le incertezze sulle x.<br />
Caso (1): i punti mostrano un andamento rettilineo ma le incertezze sono molto piccole per cui i<br />
punti scartano dalla retta per “molte deviazioni standard”; il numero di deviazioni standard é<br />
calcolato come il rapporto tra lo scarto tra punto e retta e la deviazione standard della misura;<br />
Caso (2): i punti mostrano un andamento rettilineo ma le incertezze sono molto grandi, per cui i<br />
punti scartano dalla retta solo per “frazioni di deviazione standard”;<br />
Caso (3): i punti mostrano un andamento diverso da quello lineare. Gli scarti dei punti dalla retta<br />
hanno a loro volta un andamento;<br />
Caso (4): i punti mostrano un andamento rettilineo con le incertezze tali per cui i punti scartano per<br />
“frazioni di deviazione standard” o al piu’ per “qualche deviazione standard”;.<br />
Per rendere quantitativa questa discussione chiamiamo residuo lo scarto punto retta:<br />
res<br />
i<br />
=<br />
y<br />
i<br />
− mx ˆ<br />
i<br />
− cˆ<br />
In Fig.3.5 sono mostrati per gli stessi 4 esempi della precedente figura gli andamenti dei residui in<br />
funzione di x corredati con la stessa incertezza della y. Si osserva in modo più chiaro quanto detto<br />
sopra.<br />
Concludiamo che: nei casi (1) e (2) l’andamento rettilineo é ragionevole, ma sono mal stimate le<br />
incertezze dei punti. In verità nel caso (1) potrebbero anche esserci effetti tali da dare un andamento<br />
molto irregolare ma ciò é molto inverosimile. Nel primo caso la media del modulo dei residui é<br />
molto maggiore e nel secondo molto minore delle singole σ stimate dai dati. Nel caso (3) occorre<br />
prendere in considerazione un andamento diverso da quello lineare. L’andamento dei residui può<br />
essere sintomo di “nuova fisica” cioè di effetti nuovi che il modello non spiega, oppure di effetti<br />
strumentali non capiti. Infine il caso (4) é quello “buono”, cioè l’andamento é rettilineo e le<br />
incertezze sono ben stimate.<br />
111
Fig.3.4. Sono i 4 casi di fit rettilineo descritti nel testo. Nei riquadri sono riportati per ogni fit il valore<br />
del χ 2 , di N-2 e dei 2 parametri della retta, rispettivamente c ed m ottenuti dal fit.<br />
Per rendere quantitativo il giudizio per ora solo visivo (che peraltro é molto più potente di qualsiasi<br />
test di ipotesi immaginabile), dobbiamo procedere come per i test di ipotesi che abbiamo visto:<br />
dobbiamo costruire una statistica campionaria funzione dei dati, tale che se il modello é valido e se<br />
le incertezze sono correttamente stimate, questa sia caratterizzata da una certa funzione di<br />
distribuzione nota. Sulla base delle ipotesi fatte (popolazioni gaussiane per le y e y indipendenti),<br />
la variabile<br />
N ( yi<br />
∑<br />
i=<br />
1<br />
− mx ˆ<br />
i<br />
2<br />
σ<br />
i<br />
− cˆ)<br />
2<br />
112
Fig.3.5. Andamento dei residui per i 4 casi di fit rappresentati in Fig.3.4. Le barre di incertezza riportate<br />
sono quelle della variabile in ordinata.<br />
è una variabile χ 2 . Si tratta della variabile che abbiamo minimizzato. Essa é la somma dei quadrati<br />
dei residui normalizzati alla varianza, in altri termini la somma dei quadrati del “numero di<br />
deviazioni standard” di ciascun punto. E’ qualcosa quindi che ci dice proprio quanto i punti<br />
scartano dalla retta in termini delle loro deviazioni standard.<br />
Il numero di gradi di libertà di questa variabile non é N ma é N-2. Infatti m e c sono stati stimati<br />
dai dati e pertanto in questo abbiamo perso 2 gradi di libertà. E’ come se 2 dei dati siano utilizzati<br />
due volte e dunque non contano nella somma.<br />
Pertanto il test consiste nel calcolare il valore di questa variabile e poi confrontarlo con le tabelle<br />
del χ 2 . Ricordiamo che il valore atteso della variabile χ 2 é pari al numero di gradi di libertà, cioè N-<br />
2 in questo caso. Dunque valori molto diversi da questo indicano già un problema.<br />
Consideriamo i 4 casi enunciati, per ciascuno dei quali i valori del χ 2 corrispondenti sono indicati<br />
nei riquadri di Fig.3.4 e in ogni caso é N-2=10-2=8.<br />
113
Fig.3.6 Fit parabolico a 3 parametri liberi per gli stessi dati del caso (3) rappresentato nelle Fig. 3.4 e 3.5. Il<br />
riquadro mostra oltre a χ 2 e N-3=7, i valori ottenuti dal fit per i 3 parametri della parabola a, b e c<br />
(y=a+b*x+c*x**2). Nel grafico di sotto é mostrato l’andamento dei residui per questo nuovo fit.<br />
Caso (1). Qui ci aspettiamo di trovare un valore molto grande del χ 2 . Infatti i residui valgono molte<br />
deviazioni standard, e dunque la funzione sopra scritta assumerà valori molto maggiori di N-2,<br />
essendo ciascun termine della somma >> 1. In effetti il valore ottenuto é quasi 90 (>> 8)<br />
Caso (2). Qui l’opposto. χ 2
fare il test del χ 2 , e, in caso di disaccordo, tentare strade alternative. Ad esempio un polinomio di<br />
grado superiore al primo. La Fig.3.6 mostra il caso (3) con un fit parabolico. Si nota che il fit va<br />
molto meglio, il χ 2 si é ridotto da 100 a 19 (contro N-3=10-3=7 perché ora il fit ha 3 parametri e<br />
non più 2). Il grafico dei residui mostra un andamento migliore del precedente. Tuttavia ancora<br />
forse si può vedere una dipendenza residua che potrebbe essere dovuta ad altri effetti ancora non<br />
presi in considerazione con il fit parabolico.<br />
Fig.3.7 Esempio di fit in cui un andamento chiaramente non rettilineo viene mascherato da un buon χ 2 in<br />
virtù del fatto che le incertezze sono sovrastimate. Questo esempio mostra chiaramente che il test del χ 2 non<br />
va mai fatto senza ispezionare visivamente il grafico.<br />
Resta da chiarire con che criterio decidiamo che un χ 2 é buono o cattivo. Il procedimento é quello<br />
dei test di ipotesi. Detto χ 2 m il valore misurato, prendo le tabelle e calcolo<br />
2<br />
2<br />
P(<br />
χ > χ m<br />
)<br />
In questo caso essendo la statistica campionaria definita positiva, occorre considerare una sola<br />
coda. A questo punto possiamo mettere una soglia al valore di accettazione: per esempio, se questa<br />
probabilità é maggiore del 5% accetto l’ipotesi, in caso contrario la rigetto. In questo modo rigetto<br />
senz’altro il caso (1) ed il caso (3) nel caso di fit rettilineo. Invece accetto con altissima probabilità<br />
(il 98-99% o oltre) il caso (2). Questo però é un problema. Infatti come abbiamo visto il caso (2)<br />
115
significa che abbiamo sovrastimato le incertezze. Dunque quando la probabilità del χ 2 é molto alta<br />
é un campanello d’allarme per le incertezze. Quindi prima di concludere qualcosa riguardo<br />
l’andamento occorrerà tentare di stimare meglio le incertezze.<br />
Infine nel caso (4) il valore della probabilità del χ 2 é intorno al 50% ed infatti l’andamento é<br />
giusto.<br />
Concludiamo questa discussione insistendo sul fatto che in ogni caso il valore del χ 2 da solo non é<br />
in generale sufficiente per capire effettivamente se l’andamento proposto é corretto o no, ma<br />
occorre sempre ispezionare il grafico ed in particolare l’andamento dei residui. La fig.3.7 mostra<br />
un caso in cui pur avendosi un χ 2 buono un andamento rettilineo in realtà non descrive bene i dati.<br />
E’ un caso in cui una sovrastima delle incertezze “maschera” un andamento diverso da quello<br />
lineare “inventando” un buon χ 2 .<br />
(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti<br />
Un caso particolare si ha quando l’ipotesi che deve essere testata é quella dell’assenza di un<br />
qualsiasi andamento. Questo corrisponde, secondo quanto abbiamo detto, ad effettuare un fit con<br />
una funzione del tipo<br />
y = c<br />
in cui c é evidentemente l’unico parametro da determinare. Si noti come nel caso in questione la<br />
variabile indipendente x cessa di avere un qualunque ruolo. Infatti a questo punto il χ 2 sarà dato<br />
da:<br />
χ<br />
−<br />
= ∑<br />
N<br />
2<br />
2<br />
( y i<br />
c)<br />
i=<br />
1<br />
2<br />
σ<br />
i<br />
derivando rispetto a c e uguagliando a 0 si ottiene:<br />
2<br />
∂χ<br />
∂<br />
= −2<br />
N<br />
( y − c)<br />
i<br />
i<br />
∑ = −2∑ + 2c<br />
2<br />
2 ∑<br />
c i= 1 σ<br />
i<br />
i= 1 σ<br />
i i=<br />
1<br />
da cui:<br />
cˆ<br />
N<br />
∑<br />
i=<br />
1<br />
= N<br />
∑<br />
i=<br />
1<br />
y i<br />
2<br />
σ<br />
i<br />
1<br />
2<br />
σ<br />
i<br />
N<br />
y<br />
N<br />
1<br />
σ<br />
2<br />
i<br />
che costituisce l’estensione della formula della media pesata al caso di N misure. Quanto visto<br />
costituisce dunque una dimostrazione della formula della media pesata data nel paragrafo<br />
precedente.<br />
Il valore del χ 2 in questo caso ci permette di valutare la consistenza tra N misure della stessa<br />
grandezza fisica, per esempio effettuata da diversi esperimenti. Dopo aver calcolato la media<br />
pesata tra le misure, sulla base del valore del χ 2 ottenuto posso testare l’ipotesi di consistenza tra le<br />
misure. Si tratta evidentemente di un χ 2 con N-1 gradi di libertà (perché in questo caso ho stimato<br />
solo c) per il quale valgono le considerazioni viste nel paragrafo precedente.<br />
Infine se l’ipotesi é accettata, posso usare la media pesata come migliore stima della grandezza. La<br />
varianza di tale stima sarà evidentemente:<br />
Var( cˆ)<br />
= N<br />
∑<br />
i=<br />
1<br />
1<br />
1<br />
2<br />
σ<br />
i<br />
= 0<br />
come si ottiene applicando la propagazione alla formula per c.<br />
(3.5.7) Il fit: come farlo operativamente<br />
Ricapitoliamo dunque brevemente quanto visto, per avere un quadro delle operazioni da fare.<br />
116
Lo schema é quello visto. I dati sono costituiti da una tabella di N misure di y in corrispondenza di<br />
N valori di x. Schematizziamo la procedura da seguire.<br />
(a) Effettuiamo il grafico y-x su carta millimetrata. Tracciando a matita una retta, valutiamo “a<br />
occhio” se la dipendenza rettilinea é corretta e possiamo dare una prima stima di m.<br />
(b) Date le incertezze sulle x e sulle y (determinate “al meglio”) ed il valore di m stimato,<br />
valutiamo se si é nella condizione di “trascurabilità” delle incertezze sulle x secondo quanto detto.<br />
(c) Calcoliamo m,c utilizzando le formule che qui riassumiamo:<br />
(d)<br />
(e)<br />
xy − x y<br />
mˆ<br />
=<br />
2<br />
2<br />
x − x<br />
2<br />
x y − xxy<br />
cˆ<br />
=<br />
2<br />
2<br />
x − x<br />
e tracciamo la retta corrispondente. Si deve osservare che la retta “fitta” bene i punti. Occorre<br />
ricordare sempre che le formule non “inventano” nulla, si limitano a tradurre ciò che noi faremmo<br />
a occhio. Può essere utile a questo punto fare il grafico dei residui in funzione di x.<br />
s(<br />
mˆ ) =<br />
s( cˆ)<br />
=<br />
Calcoliamo le incertezze su m e su c secondo le formule che riassumiamo:<br />
1<br />
Var(<br />
x)<br />
∑ ⎜<br />
⎛<br />
⎝<br />
2<br />
x<br />
Var(<br />
x)<br />
∑ ⎜<br />
⎛<br />
⎝<br />
1<br />
2<br />
σ<br />
i<br />
⎟<br />
⎞<br />
⎠<br />
→<br />
→<br />
1<br />
2<br />
σ ⎟<br />
⎞<br />
i ⎠<br />
1<br />
Var(<br />
x)<br />
2<br />
x<br />
Var(<br />
x)<br />
σ<br />
N<br />
σ<br />
N<br />
in cui la freccia si riferisce al caso in cui le incertezze sulle y sono tutte uguali. Se necessario si<br />
può calcolare la covarianza tra m e c secondo la formula:<br />
x<br />
cov( mˆ , cˆ)<br />
= −<br />
N<br />
Var(<br />
x)(<br />
∑<br />
i=<br />
1<br />
2<br />
x σ<br />
→ −<br />
1 Var(<br />
x)<br />
N<br />
2 )<br />
σ<br />
i<br />
Calcoliamo il χ 2 del fit e, da questo con l’ausilio delle tabelle il valore della probabilità del<br />
χ 2 . Sulla base del valore trovato, e in considerazione dell’andamento visto, traiamo una<br />
conclusione riguardo al problema di partenza e cioè se l’andamento rettilineo riproduce bene i dati.<br />
Sono riportate di seguito le tabelle della distribuzione del χ 2<br />
(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui<br />
Da ultimo esaminiamo il caso in cui non dispongo delle incertezze sulle y, cioè il caso in cui ho<br />
solo una serie di N coppie x-y. Ad un caso del genere ci si riconduce quando la stima delle<br />
incertezze sulle y si rivela poco credibile, per esempio i casi (1) e (2) sopra discussi, nei quali<br />
avevamo forti indicazioni di una sottostima (caso(1)) e di una sovrastima (caso (2)). L’andamento<br />
atteso offre comunque un metodo per stimare le incertezze sulle y. L’idea è di assumere lo scarto<br />
medio tra i punti e la retta, come misura dell’incertezza sulle mie misure di y. Posso dunque<br />
stimare la quantità:<br />
2<br />
1<br />
= ∑ N<br />
resi<br />
i=<br />
s<br />
N − 2<br />
117
Tabella della cumulativa della distribuzione del χ 2 . Ogni riga corrisponde ad un diverso numero di gradi di<br />
libertà (ngl) e le diverse colonne corrispondono a diversi valori α dell’integrale da χ 2 0 a infinito. I<br />
numeri riportati sono i valori di χ 2 0.<br />
e assumerla come stima della σ da usare nelle formule del fit (caso tutte le incertezze uguali).<br />
Tuttavia questo metodo può essere usato solo quando sono verificate alcune circostanze:<br />
é ragionevole assumere che tutte le incertezze siano uguali;<br />
non si devono osservare andamenti “sovrapposti” a quello rettilineo (quindi lo si può applicare<br />
al caso (1) ma non al caso (3));<br />
non si può poi fare il test del χ 2 , infatti la definizione di s appena data, corrisponde a trovare<br />
quel valore di σ per cui il fit ha un χ 2 =N-2.<br />
Si tratta in definitiva di un metodo per trovare i parametri del fit, con incertezze ragionevoli,<br />
quando sono certo che l’andamento rettilineo sia giusto. In sostanza uso l’andamento come<br />
riferimento , come insiemi di valori veri.<br />
118
119
Esercizi relativi al Capitolo (3)<br />
3.1) Un brillante sperimentatore giapponese sostiene di aver scoperto che alla latitudine di Tokyo<br />
l’accelerazione di gravità g dipende dalla temperatura dell’atmosfera. I suoi dati sono:<br />
g (m/s 2 ) T ( o C)<br />
9.8081 0<br />
9.8116 3<br />
9.8095 6<br />
9.8130 9<br />
9.8183 12<br />
9.8117 15<br />
9.8171 18<br />
9.8241 21<br />
9.8184 24<br />
9.8205 27<br />
9.8263 30<br />
L’incertezza che lui fornisce per g é di 0.0025 m/s 2 mentre la temperatura é per ogni misura fissata<br />
con una precisione di 10 -4 o C.<br />
1) È corretta la conclusione dello sperimentatore giapponese ?<br />
2) Il metodo dello sperimentatore giapponese consiste nel misurare l’allungamento di una molla di<br />
costante di elasticità K nota, quando ad essa é stato appeso un peso noto e ripetendo la misura a<br />
diverse temperature. Quale effetto strumentale potrebbe simulare il fenomeno osservato ?<br />
3.2) Con un rivelatore di raggi cosmici di superficie sensibile 10 m x 10 m conto 121 eventi in 1<br />
ora. Il flusso medio di raggi cosmici a quella latitudine atteso su quel rivelatore é φ(R.C.) = (2.01 ±<br />
0.01) x 10 -4 / m 2 s<br />
Da informazioni indipendenti so che in quell’ora c’è stata l’esplosione di una supernova. Posso dire<br />
che l’ho osservata anch’io ?<br />
3.3) Considero uno strumento che fa misure di lunghezza. Per tararlo uso delle lunghezze campione<br />
tra 0.5 e 3.0 mm date dal costruttore con una precisione di 1 μm. Ottengo la seguente tabella:<br />
Valore costruttore Valore misurato<br />
500 512.<br />
1000 1022.<br />
1500 1535.<br />
2000 2061.<br />
2500 2579.<br />
3000 3107.<br />
Quali sono le caratteristiche dello strumento (precisione, accuratezza, errore sistematico) ?<br />
Leggo 2284 sullo strumento. Qual è la migliore stima del valore vero ?<br />
3.4) Nel 2000 i dati sulla variabile R erano:<br />
Esperimento Valore pubblicato<br />
KteV 2.80±0.30<br />
NA48 1.85± 0.45<br />
NA31 2.30± 0.65<br />
120
E731 0.74± 0.52<br />
In cui ciascun esperimento ha fornito l’incertezza assumendo per R una distribuzione gaussiana.<br />
Posso dire che gli esperimenti sono complessivamente in accordo ?<br />
3.5) In una ripetizione dell'esperimento di Joule uso un motorino dalla potenza di 10.0 ±0.1 W che<br />
aziona un mulinello inserito in un recipiente contenente un fluido di capacità termica C=3.41 ± 0.01<br />
cal/K. Tenendo il motorino in funzione per un tempo Δ t registro la variazione di temperatura<br />
all'interno del fluido. Ripeto la misura per diversi valori di Δ t e ogni volta riporto la temperatura al<br />
valore ambiente T=21 o . In tabella sono dati i risultati.<br />
Δt<br />
T-21 o<br />
10 7.1<br />
20 13.9<br />
30 21.3<br />
40 28.3<br />
50 34.9<br />
60 41.6<br />
Il sensore di temperatura fornisce un valore con una incertezza di 0.5 o , l'incertezza sull'intervallo<br />
dei tempi é trascurabile.<br />
Determinare l'equivalente meccanico della caloria. Discutere il risultato<br />
ottenuto.<br />
3.6) Un ricercatore sostiene che nel suo laboratorio la radioattività ambientale dipende linearmente<br />
dalla umidità relativa h. A sostegno di tale tesi porta i seguenti dati:<br />
N(conteggi) h(%)<br />
118 42<br />
134 48<br />
121 51<br />
181 58<br />
156 63<br />
Tutte le misure sono state fatte contando con lo stesso rivelatore in 1 ora di tempo (usando un<br />
cronometro manuale aventi 1 s come ultimo digit), con l’eccezione della quarta misura che, per<br />
distrazione, lo sperimentatore ha fatto andare avanti fino a 1h 18min e 24 s.<br />
Dire se i dati suffragano la tesi del ricercatore (si assuma trascurabile l’incertezza su h).<br />
3.7) Uno strumento per misure di lunghezza ha una precisione nota, gaussiana di deviazione<br />
standard σ = 24.2 μm. Lo uso per misurare la posizione assoluta di una trave portante di un<br />
grattacielo. Il giorno X ho preso un campione di 128 misure e ho trovato un valor medio di L =<br />
438.2 μm. Dopo una settimana trovo L = 426.8 μm da un campione di sole 8 misure. Ho stabilito a<br />
priori di far scattare l’allarme solo se le variazioni di tale posizione é significativa oltre il 90% di<br />
livello di probabilità. Faccio scattare l’allarme ? (assumere le 2 incertezze delle 2 misure non<br />
correlate).<br />
3.8) Per la calibrazione assoluta di una sonda di temperatura ad alta precisione, uso una cella a<br />
punto triplo (0 o C). Faccio 5 letture a tempi diversi ed ottengo i seguenti valori: 0.012, 0.015, 0.019,<br />
0.013, 0.022. Stabilire (1) se la sonda é scalibrate e (2) quale é la migliore stima della correzione da<br />
apportare.<br />
121
3.9) Ho una sorgente luminosa isotropa. Ad una distanza r dalla sorgente l’intensità é I = α / r 2 .<br />
Sapendo che ad una distanza r = (1.000 ± 0.001) m misuro I = 3.12 ± 0.13 W/m 2 s, stimare α con la<br />
sua incertezza.<br />
3.10) Un fit lineare di un grafico che riporta le velocità di allontanamento delle galassie in funzione<br />
della loro distanza dalla terra, fornisce un χ 2 di 56.2. Il grafico é fatto raggruppando le 1624 galassie<br />
note in 30 gruppi di galassie ciascun gruppo caratterizzato da distanze circa uguali, e mettendo nel<br />
grafico le velocità medie di ciascun gruppo. Discutere la bontà del fit.<br />
3.11) Per misurare l’efficienza di un rivelatore di raggi gamma invio 10000 raggi gamma sul<br />
rivelatore e vedo quante volte il rivelatore “li vede” . Ottengo 9438 ok. Stimare l’efficienza con la<br />
sua incertezza.<br />
Successivamente uso lo stesso rivelatore per misurare il flusso di raggi gamma di uguale energia ma<br />
provenienti da un’altra sorgente. In 1 h di tempo conto 318 conteggi. Quant’è il flusso in conteggi al<br />
secondo da quella sorgente ?<br />
3.12) (preso da D’Agostini) Un politico, a cui piacciono molto i sondaggi di opinione, prima e dopo<br />
un’apparizione televisiva fa effettuare delle rapide interviste telefoniche per stimare la frazione<br />
della popolazione che é in accordo con la sua linea politica. Nel primo sondaggio erano state sentite<br />
215 persone, delle quali 86 si erano dette dalla sua parte; nel secondo ottiene il consenso di 91<br />
persone su 189.<br />
La sua apparizione televisiva é servita ad aumentare la sua popolarità ?<br />
3.13) Per misurare l'indice di rifrazione di un blocco di materiale trasparente, sono stati misurati<br />
l'angolo di Brewster θ B e l'angolo limite per riflessione totale θ lim rispetto all'aria.<br />
Sono stati ottenuti i valori:<br />
θ B =55.6 o<br />
θ lim =43.1 o<br />
entrambi con una incertezza di σ(θ)=0.2 o .<br />
Sulle tavole trovo per l'indice di rifrazione del quarzo il valore n qu =1.458 mentre per quello del<br />
plexiglass il valore n pl = 1.49. Cosa si può concludere sulla natura del blocco ?<br />
3.14) Due diversi gruppi effettuano un esperimento con l’obiettivo di misurare la concentrazione di<br />
una certa sostanza nociva nella crosta terrestre. I due esperimenti (esp1 ed esp2) usano diverse<br />
tecnologie. Il primo analizza N 1 =950 campioni di roccia e rileva una deviazione standard<br />
campionaria tra le misure di s 1 =0.128 ppm. Il secondo analizza N 2 =100 campioni di roccia ma la<br />
deviazione standard campionaria che osserva tra le N 2 misure é s 2 =0.051 ppm. I due esperimenti<br />
trovano come valori medi i valori:<br />
x 1 =1.03567 ppm<br />
x 2 =1.04598 ppm<br />
Nessuno dei 2 esperimenti fornisce una stima dell’incertezza sistematica.<br />
Si chiede:<br />
(1) Quale dei 2 apparati di misura é più preciso ?<br />
(2) Quali sono gli intervalli standard e di quasi-certezza per i 2 risultati ?<br />
(3) Il modello X prevede una concentrazione di 1 ppm (perfettamente nota nell’ambito del<br />
modello). E’ ciascun risultato compatibile con questo modello ?<br />
(4) I due risultati sono tra loro compatibili ?<br />
(5) Se volessi raggiungere una incertezza standard relativa sotto l’1 permille quanto devo<br />
aumentare il numero di campioni analizzati nei 2 esperimenti ?<br />
3.15) Nel suo lavoro del 1909 sulla carica elettrica elementare, Millikan diede una prima misura<br />
della carica elettrica elementare mediando i seguenti 4 valori (in unità di 10 -19 C): 1.648 , 1.674 ,<br />
122
1.618 ,1.638. Egli tuttavia si limitò a fornire la media dei 4 valori, e non diede alcuna indicazione<br />
sulla incertezza.<br />
(a) A distanza di 94 anni, esprimiamo allora il suo risultato come intervallo di probabilità del<br />
68.3%.<br />
(b) L’attuale valore della carica dell’elettrone é : (1.602176462 ± 0.000000063)x 10 -19 C. Possiamo<br />
dire che il valore originario di Millikan sia in accordo con tale valore attuale ?<br />
3.16) In un esperimento di diffusione alla Rutherford, dopo 2 ore e 32 minuti di presa dati vengono<br />
contate 52 particelle α deflesse ad un angolo maggiore di 25 gradi dalla lamina sottile di oro.<br />
Sapendo che il “rate” di particelle α spedite sul bersaglio é di 12.4 s -1 , stimare la probabilità di<br />
avere una deflessione a più di 25 gradi per una particella α da nuclei di oro. La teoria dell’atomo di<br />
Thomson prevede che tale probabilità sia < 10 -4 . Il risultato ottenuto é compatibile con il modello di<br />
Thomson ?<br />
3.17) Diversi satelliti in orbita a diverse quote misurano l’accelerazione di gravità con una<br />
incertezza di 7 parti su 1000. Vengono raccolti i risultati nella tabella:<br />
g (m s -2 )<br />
h (km)<br />
9.806 0<br />
7.087 1124<br />
5.776 1902<br />
3.960 3597<br />
3.699 3851<br />
in cui il valore misurato a 0, si intende misurato sulla superficie terrestre.<br />
(0) Fare il grafico dell’andamento di g in funzione di h.<br />
Sapendo che:<br />
il raggio della terra é pari a R T =6360 km<br />
l’accelerazione di gravità dipende dalla distanza R dal centro della terra secondo la relazione:<br />
Gm<br />
g(<br />
R)<br />
=<br />
R<br />
T<br />
2<br />
La costante di gravitazione universale é pari a G=(6.673 ± 0.010) x 10 -11 m 3 kg -1 s -2<br />
(1) Linearizzare la relazione g=g(R) graficando g in funzione di 1 / R 2 .<br />
(2) Dal fit lineare dell’andamento ottenuto, determinare la massa della terra con la sua incertezza.<br />
(3) Valutare se la legge di gravitazione universale é in accordo con i dati.<br />
(4) Stimare la densità media della terra con la sua incertezza.<br />
123
Soluzione degli esercizi proposti.<br />
Capitolo (1)<br />
Gli esercizi della prima parte del corso richiedono essenzialmente la capacità di saper trattare i<br />
risultati delle misure. Si richiede in modo particolare la scrittura corretta dei risultati per quel che<br />
riguarda le unità di misura, le cifre significative, la notazione esponenziale. Si richiede inoltre di<br />
saper costruire semplici grafici (di andamenti o istogrammi), di saper calcolare medie e deviazioni<br />
standard da campioni e di saper fornire intervalli standard o di quasi-certezza per i risultati di<br />
misure ripetute. In parecchi esercizi si richiede infine di giudicare la bontà di certe ipotesi<br />
(consistenza tra misure o tra misure e previsioni teoriche). A questo livello del corso queste ultime<br />
questioni sono affrontate ancora in modo semi-quantitativo. Gli stessi esercizi possono essere rivisti<br />
a fine corso alla luce dei metodi di test di ipotesi che saranno trattati nel terzo capitolo.<br />
(1.1) Qui la soluzione dipende da chi fa l’esercizio. In genere si rimane sorpresi dal fatto che la<br />
propria capacità di interpolazione é migliore di quanto ci si attenda (1/4 o 1/5 di divisione<br />
sono risultati tipici).<br />
(1.2) C’è solo da applicare la definizione di deviazione standard campionaria e di riportarla alla<br />
dimensione della divisione minima (che é pari a 0.025 come si evince dalla figura).<br />
(1.3) Occorre fare attenzione alle unità di misura, agli esponenziali ed alle cifre significative.<br />
Mantenendo 2 cifre (tenerne 3 non sarebbe comunque sbagliato) si ha E=1.9x10 -16 CV =<br />
1.9x10 -16 J<br />
(1.4) La densità del fluido é pari al rapporto tra la massa del fluido (M-M 0 ) e il suo volume.<br />
Quest’ultimo é espresso in ml cioè in cm 3 e le masse sono in grammi. Quindi si tratta di fare<br />
il rapporto. Si noti solo che M-M 0 = 13.2 g (troncato al primo decimale) e dunque densità =<br />
0.213 g/cm 3 (a 3 cifre o anche a 2).<br />
(1.5) In questo esercizio l’ipotesi da fare é che ciascun gruppo di campioni sia costituito da reperti<br />
contemporanei, e che la fluttuazioni dei valori misurati sia l’effetto della precisione (meglio<br />
della imprecisione) dell’apparato di misura. I valori che si ottengono sono: media reperti A<br />
= 5346 anni e media reperti B = 5952 anni. Il confronto tra questi 2 numeri da solo<br />
evidentemente non permette di trarre alcuna conclusione. Le deviazioni standard sono 340<br />
anni per i reperti A e 180 anni per i reperti B (abbiamo usato la formula con N non con N-1<br />
ma il risultato finale non é significativamente alterato da ciò) L’anziano archeologo<br />
dovrebbe prendere le 2 medie e vedere se entro le rispettive incertezze (sulle medie che<br />
dunque sono le deviazioni standard divise per √N dove N vale 10 per i reperti A e 15 per i<br />
reperti B) sono in accordo tra di loro. Se facesse cosi’ vedrebbe la cosa seguente: età reperti<br />
A = (5.35 ±0.11)x10 3 anni e età reperti B = (5.95 ±0.05) x10 3 anni. Senza fare alcun test di<br />
ipotesi (vedi Capitolo 3) si vede che sono incompatibili. Infatti la differenza tra i 2 risultati é<br />
di 600 anni mentre le incertezze sono di 110 e 50 anni rispettivamente. L’anziano<br />
archeologo ha torto.<br />
(1.6) L’incertezza su T é del 2.5%, la metà di quella su M in virtù del fatto che T “va come la<br />
radice di M”.<br />
(1.7) Usando le definizioni date dei termini metrologici si ha: risoluzione 1 g, precisione < 1 g e<br />
accuratezza caratterizzata da un errore sistematico di 22 g. Si tratta di uno strumento preciso<br />
ma poco accurato. Sarà bene controllarne periodicamente la calibrazione.<br />
(1.8) L’intervallo di quasi-certezza é pari a 3x52μm /√100 = 16 μm (dato a 2 cifre).<br />
(1.9) Calcoliamo in primo luogo l’incertezza di misura. Si ottiene: 0.002x2.99814x10 8 /√9150 =<br />
6.3x10 3 m/s. Quindi la media delle misure per il campione di γé: (2.98814 ± 0.00006)x10 8<br />
m/s. Si tratta ora di vedere se tale valore é “significativamente diverso” dal valore noto della<br />
velocità della luce nel vuoto. La differenza é pari a 22 x10 3 m/s, che é oltre 3 volte<br />
l’incertezza sulla misura. Dunque la differenza é significativa (anche se al limite). La misura<br />
é caratterizzata dunque da un errore sistematico di (22 ± 6) x 10 3 m/s.<br />
124
(1.10) Si tratta di confrontare la frazione di persone affette da X con la sua incertezza (dovuta alla<br />
limitatezza statistica del campione) con la stessa frazione per un campione di popolazione<br />
normale anch’esso con la sua incertezza. E’ cruciale in questo genere di cose la scelta dei<br />
campioni che devono essere “omogenei” perché siano assenti altri motivi di differenza.<br />
(1.11) ΔV = 3.69x10 3 cm 3 =3.69x10 -3 m 3 ; p = 1.2x10 6 Pa. Il lavoro é dunque L = 4.4 x 10 3 J.<br />
(1.12) L’intervallo di quasi certezza su ambedue le misure ripetute a distanza di un anno é 3x52μm<br />
/√1000 = 4.9 μm cioè é 10 volte più piccolo dello spostamento osservato. Dunque lo<br />
spostamento é decisamente significativo.<br />
(1.13) Dare al meglio il risultato della misura significa indicare la media come valore centrale e la<br />
deviazione standard campionaria della media come incertezza (eventualmente moltiplicando<br />
per 3 per dare un intervallo di quasi-certezza per la media). Per la misura in questione si<br />
ottiene: (914.1 ± 0.3) mm (lo 0.3 proviene dall’aver fatto 0.32/√100=0.32). In questo caso si<br />
ha una informazione in più sull’apparato di misura. Per utilizzarla occorre però fare delle<br />
ipotesi. C’è una scalibrazione di 2.6 mm oppure di un fattore 1.0026 (scalibrazione del 2.6<br />
permille). Dobbiamo quindi scegliere se applicare la correzione “additiva” (sottraendo 2.6<br />
mm) o “moltiplicativa” (dividendo per 1.0026). In entrambi i casi stiamo ipotizzando che a<br />
914 mm la scalibrazione sia la stessa che a 1000 ( a volte alcuni strumenti possono anche<br />
avere curve di calibrazioni “bizzarre”). Facendo questa ragionevole ipotesi si ha: (911.5±<br />
0.3) mm nel primo caso e (911.7± 0.3) mm nel secondo caso. I due risultati sono<br />
praticamente indistringuibili poiché 914é vicino a 1000. Tuttavia la correzione (una delle<br />
due) é significativa (maggiore dell’incertezza) e quindi va applicata.<br />
(1.14) Sul mio atlante (del 1992) trovo: abitanti Londra = 6.378x10 6 , abitanti Roma = 2.693x10 6 .<br />
Passo alle cartine dove stimo le superfici delle 2 città approssimandole a cerchi. Diametro<br />
cerchio Londra = 60 km, diametro cerchio Roma (GRA) = 20 km. Densità Londra = 2.3x10 3<br />
abitanti / km 2 , densità Roma = 8.6x10 3 abitanti / km 2 . La differenza é significativa dal<br />
momento che l’approssimazione del calcolo (dominata dalla stima del diametro) anche fosse<br />
del 10-20% darebbe una incertezza del 20-40% circa sulla densità che rende comunque<br />
incompatibili i due risultati. Del resto per chiunque conosca le 2 città il risultato é tutt’altro<br />
che sorprendente.<br />
(1.15) Si tratta ancora di un problema di significatività che a questo punto del corso affrontiamo<br />
ancora con strumenti non rigorosi. Assumiamo che i 3 l dei recipienti siano privi di<br />
incertezza. In tal caso facendo media e deviazione standard campionaria della media delle 5<br />
misure, otteniamo una concentrazione di (21.4 ± 0.5)%. Volendo dare un intervallo di quasi<br />
certezza avremmo (21.4 ± 1.5)% che include, sebbene al bordo dell’intervallo, il valore di<br />
20% previsto. Dunque il chimico é quanto meno incauto nell’annuncio. Un fisico avrebbe<br />
ripetuto la misura un numero più consistente di volte (se ciò fosse stato possibile) altrimenti<br />
avrebbe detto che non c’era ancora una evidenza chiara dell’anomalia. E’ istruttivo vedere<br />
che la nostra analisi é come detto grossolana in un aspetto che sarà chiarito nella parte<br />
conclusiva del corso. Infatti un intervallo di questi certezza per un campione di poche<br />
misure (come le 5 in questo caso) é significativamente più largo di quello che si ottiene con<br />
il metodo qui utilizzato.<br />
(1.16) 67/√2000 = 1.5. Quindi il mio risultato é (0.1 ± 1.5)x10 -4 . Anche troppo compatibile con 0.<br />
(1.17) Qui il problema é inverso. Discriminare tra i 2 modelli significa poter misurare X con una<br />
incertezza molto minore della differenza tra i 2 valori prevista (10 -5 nel nostro caso). D’altro<br />
canto l’unico modo per diminuire la nostra incertezza é quello di mediare su un numero N<br />
sempre maggiore di misure ripetute. Dovrà essere dunque : 67x10 -4 /√N > 670 2 = 4.5x10 5 .Con<br />
il simbolo >> si intende molto maggiore. Per i nostri scopi può significare un fattore 10 (nel<br />
qual caso l’incertezza é 10 -6 e quindi non si hanno dubbi sul risultato).<br />
(1.18) Assumiamo che il cronometro apprezzi 1/10 di secondo (assunzione ragionevole dato il<br />
modo con cui é dato il valore) e che le indicazioni autostradali sono date con incertezza di<br />
125
100 m (assunzione meno ragionevole probabilmente sono date al metro). In tal caso v = 4.4<br />
km /1032.8 s = 15 km/h. Sono andato molto lento. Risultato a 2 cifre perché dominato<br />
dall’incertezza sullo spazio percorso.<br />
(1.19) 15.6x10x86400 = 13.5x10 6 km (ammesso che non si sia schiantato sulla luna che si trova a<br />
distanze tra i 0.3 e i 0.4 x10 6 km (all’incirca).<br />
(1.20) ρ(iceberg) = 1.00 x 0.9 = 0.9 g/cm 3 . Non più di una cifra.<br />
(1.21) Attenzione alle unità di misura e alle cifre significative con cui dare i risultati. a = 4.28 m/s 2<br />
= 0.436 g.<br />
(1.22) Grande gara. L’ipotesi da fare é che i 2 atleti abbiano viaggiato a velocità costante: vel(Carl<br />
Lewis) = 100/9.92 = 10.08 m/s. All’istante di tempo in cui Ben Johnson tagliava il traguardo<br />
(t = 9.79) Lewis si trovava alla posizione 10.08 x 9.79 m = 98.7 m, cioè 1.3 m dietro a Ben<br />
Johnson. Si noti che quando si hanno numeri a 3 cifre come 9.92 o 9.79 (molto prossimi a<br />
far scattare la quarta cifra) é come se avessero quattro cifre. Inoltre 100 m ha molte più cifre<br />
delle tre apparenti, essendo i 100 m della pista misurati con estrema precisione.<br />
(1.23) Media e deviazione standard campionaria sono: 6.36 s e 0.25 s rispettivamente. Per dare la<br />
migliore stima dell’intervallo di quasi-certezza su h, si può ragionare nel modo seguente:<br />
calcolo prima l’intervallo di quasi certezza per t (tempo di caduta) misurato direttamente e<br />
poi “propago” questo risultato ad h. Si ottiene: t = (6.36 ± 0.17) s. Per passare ad h si deve<br />
calcolare h e propagare l’incertezza osservando che l’incertezza su g é trascurabile e che<br />
quella relativa su t (che é l’unica a determinare l’incertezza su h) va moltiplicata per 2 dal<br />
momento che t compare al quadrato nella formula. h = (198 ± 11) m.<br />
(1.24) Per poter affermare di avere osservato un tale effetto (che avrebbe un impatto sconvolgente<br />
sulla fisica), uno dovrebbe far vedere che la carica media delle presunte cariche ½ osservate<br />
sia significativamente diversa dalla carica dell’elettrone. Poiché la carica dell’elettrone é<br />
1.602 (in unità di 10 -7 pC), l’incertezza con cui misuro questo campione deve essere molto<br />
minore della differenza tra la carica dell’elettrone e metà di questa cioè 0.8x10 -7 pC. Deve<br />
essere allora: 0.7x10 -7 /√N >1. Quindi per<br />
esempio con N=10 cariche osservate si può trarre una conclusione convincente. Giova qui<br />
ricordare che naturalmente una osservazione del genere dovrebbe essere accompagnata da<br />
molte altre misure di controllo per esempio far vedere che la misura della carica é accurata,<br />
che non ci sono errori sistematici, che non ci sono effetti che possono simulare il fenomeno.<br />
Quando il risultato é particolarmente importante, la scienza é particolarmente esigente.<br />
(1.25) Graficando i valori della radioattività in funzione del tempo si osserva facilmente che a<br />
cavallo dell’ottavo punto vi é un “gradino”. Calcolando la media e la deviazione standard<br />
dei primi 7 punti e degli ultimi 8 punti si ottengono i valori: r(8) =<br />
17.24 ±0.02 decisamente incompatibili. Dunque si ha un effetto, si tratta di capire cosa é<br />
successo in quell’ora.<br />
(1.26) Si tratta di calcolare media e deviazione standard della media dei 2 istogrammi, fare il<br />
rapporto tra le medie, valutarne l’incertezza e poi confrontare il rapporto con il valore atteso<br />
di 1.102.<br />
(1.27) Si ottiene M = ( 918 ± 6 ) g<br />
(1.28) La migliore stima della carica della particella misteriosa é ( 1.48 ± 0.02 )x10 -19 C,<br />
incompatibile con il valore noto della carica dell’elettrone.<br />
Capitolo (2)<br />
Sono esercizi di calcolo combinatorio e di calcolo delle probabilità. In generale si tratta di<br />
ricondurre il problema in esame ad un caso noto. Per fare ciò é sempre importante indicare le ipotesi<br />
che vengono fatte (se ce ne sono). Nelle soluzioni numeriche le probabilità sono date<br />
126
indifferentemente come % o come numero tra 0 e 1, e i coefficienti binomiali sono indicati come (N<br />
n) per non appesantire la notazione.<br />
(2.1) I 2 casi (con o senza reintroduzione della pallina nell’urna) sono evidentemente diversi. Nel<br />
caso con reintroduzione si hanno 5 estrazioni indipendenti, ciascuna delle quali ha una<br />
probabilità pari a 1/5. La probabilità di una data sequenza é dunque (1/5) 5 . Nel caso in cui<br />
non si reintroduce invece si ha una probabilità pari a 1/5 alla prima estrazione, poi ¼ alla<br />
seconda (si tratta della probabilità condizionata di estrarre il 2 quando alla prima estrazione<br />
é stato estratto 1), 1/3 alla terza (di nuovo probabilità condizionata di estrarre 3 quando alle<br />
prime due estrazioni sono state estratti 1 e 2) e cosi’ via. Complessivamente 1/5!.<br />
Naturalmente l’argomento vale per qualunque sequenza immaginabile.<br />
(2.2) Applichiamo il metodo combinatorio di calcolo delle probabilità. Si hanno 36 casi possibili<br />
tutti equiprobabili (se vogliamo si tratta delle disposizioni di 6 elementi in 2 caselle, 6 2 =36).<br />
Le possibili differenze hanno un intervallo di definizione tra –5 e 5. Contando per ciascuna<br />
possibile differenza il numero di casi possibili e dividendo per 36 si ha la seguente<br />
distribuzione: P(-5)=P(5)=1/36, P(-4)=P(4)=2/36, P(-3)=P(3)=3/36, P(-2)=P(2)=4/36, P(-<br />
1)=P(1)=5/36, P(0)=6/36=1/6. La probabilità di avere una differenza pari a 0 in 3 estrazioni<br />
consecutive é (1/6) 3 (i 3 lanci sono indipendenti) cioè il 0.46%.<br />
(2.3) Si tratta di una tipica applicazione del teorema di Bayes. A priori sappiamo infatti che<br />
p(D)=0.1. La prendiamo come “probabilità a priori”. Gli altri dati sono: p(+/D)=0.98 e<br />
p(+/N)=0.16. Abbiamo indicato con + la positività al test e con D e N l’essere o no affetti<br />
dalla malattia. Applichiamo il teorema di Bayes per calcolare p(D/+) dai dati che abbiamo.<br />
Naturalmente p(N)=1-p(D)=0.9. Si ottiene P(D/+)=40.5%. Come si vede la bassa incidenza<br />
della malattia sulla popolazione fa si’ che applicando a tutti il test solo il 40% dei positivi<br />
sono realmente affetti dalla malattia.<br />
(2.4) Cominciamo con lo stabilire a partire dalla tabella della gaussiana standardizzata a quanto<br />
corrispondono il 90-esimo de il 40-esimo percentile. Prendendo la tabella di pag.69 vedo<br />
che lo 0.90 si trova in corrispondenza di 1.28 mentre il 60% di 0.26 (dunque il 40%<br />
simmetrico rispetto al 60% corrisponderà a –0.26). Dunque avremo: (22.5-μ)/σ = 1.28 e<br />
(18.2-μ)/σ = -0.26. Siamo di fronte ad un sistema lineare di 2 equazioni in 2 incognite (μ e<br />
σ). Risolvendo si ottiene: μ = 18.9 kg e σ = 2.8 kg.<br />
(2.5) In un giorno mi aspetto 1.8x10 -3 x 86400 = 155 conteggi. Trattandosi di conteggi é<br />
ragionevole assumere una distribuzione poissoniana con λ = 155 per il numero di conteggi<br />
in un giorno che, dato il valore elevato di λ, posso approssimare ad una gaussiana con m =<br />
155 e s = √155 = 12. Il valore osservato é assolutamente incompatibile con la distribuzione<br />
attesa essendo (N-μ)/σ = 20. Devo preoccuparmi.<br />
(2.6) Trattiamo separatamente e indipendentemente i figli avuti prima dei 30 e dopo i 30 anni. Per<br />
i figli avuti prima dei 30, la probabilità di non essere affetto dalla sindrome X é (1-0.0012) 3<br />
= 0.996, per quelli dopo i 30 anni é (1-0.0028) 7 = 0.980. Moltiplico le 2 probabilità ed ho<br />
p(0 figli con sindrome X) = 0.977.<br />
(2.7) Occorre in primo luogo stimare la probabilità che una centrale abbia un incidente nei<br />
prossimi 100 anni. Se gli incidenti avvengono casualmente (cioè poissonianamente), con<br />
vita media 20000 anni, p(
(2.10) Problema inverso del precedente in un certo senso. Dobbiamo fare una assunzione sulle<br />
caratteristiche dell’intervallo. La cosa più naturale é assumere che sia simmetrico. Sarà<br />
ovviamente m = (150+220)/2 = 185 mg/dl. Quanto a σ, dobbiamo ricorrere alle tabelle<br />
(pag.69) dove però occorre fare attenzione al fatto che un intervallo simmetrico al 90%<br />
corrisponde ad un estremo al 95% a destra e al 5% a sinistra. Il valore in corrispondenza a<br />
95%é 1.65 e quello al 5% sarà –1.65. Pertanto s = (220-185)/1.65 = 21 mg/dl.<br />
(2.11) Si tratta di calcolare la probabilità che su 1654 voti il numero di SI sia inferiore a 1654/2 =<br />
827, sapendo che la probabilità di votare SI é del 52.67%. Nel trattare il problema in questo<br />
modo stiamo assumendo che il nostro paese sia “elettoralmente omogeneo” alla popolazione<br />
nazionale, che tutti i 1654 aventi diritto votino, che non ci siano schede bianche, e cosi’ via.<br />
Il problema é binomiale, ampiamente in limite gaussiano. Pertanto μ = Np = 1654 x 0.5267<br />
= 871.2 e σ = √Np(1-p) = 20.3. p(x < 827) = p( m < -2.17) = 1.5% (guardando la tabella di<br />
pag.69).<br />
(2.12) Il fenomeno é caratterizzato da un rate di 38.4/100 = 0.384 s -1 e da una costante di tempo τ =<br />
1/rate = 2.60 s. Usando la distribuzione dei tempi d’attesa si ha che P(t > t*) = exp(-t*/τ)<br />
cioè (t* = 10 s, τ = 2.60 s) P(t>10s) = 0.021. In un’ora il dispositivo si blocca un numero di<br />
volte dato da: rate x 3600 s x P(t > 10s) = 29.<br />
(2.13) I dati sono: P(P/C) = 90% e P(N/NC) = 90% in cui C e NC vuol dire affetto o non affetto da<br />
epatite C. Da questi deduciamo che P(N/C)=10% e P(P/NC)=10% per motivi di<br />
“normalizzazione”. Io sono interessato a sapere P(C/PNP) e P(C/PPP). Qui l’applicazione<br />
del teorema di Bayes é più complessa. Mi servono infatti in primo luogo P(PNP/C) e<br />
P(PPP/C), ma anche P(PNP/NC) e P(PPP/NC). Assumendo che i 3 test siano indipendenti,<br />
avrò: P(PNP/C) = P(P/C) 2 x P(N/C) = 0.081 e P(PPP/C) = P(P/C) 3 = 0.729, P(PNP/NC) =<br />
P(P/NC)2 x P(N/NC) = 0.009 e infine P(PPP/NC) = P(P/NC) 3 = 0.001. Applichiamo Bayes<br />
ai 2 casi e otteniamo: P(C/PNP) = 90% e P(C/PPP) = 99.86%.<br />
(2.14) Problema di calcolo combinatorio. Per ciascun ruolo si tratta di calcolare il numero di<br />
combinazioni, dal momento che non posso avere ripetizioni (far comparire più volte nella<br />
squadra lo stesso giocatore), né mi interessa in che ordine i giocatori compaiono (avere<br />
come attaccanti Totti e Vieri o Vieri e Totti é la stessa cosa). Quindi (3 1) = 3 combinazioni<br />
di portieri, (6 4) = 15 di difensori, (7 4) = 35 di centrocampisti e, infine (6 2) = 15 di<br />
attaccanti. Infine moltiplico i 4 numeri = 23625 squadre.<br />
(2.15) Lasciamo il grafico al lettore. Si ha P(1) = 1/36, P(2) = 3/36, P(3) = 5/36, P(4) = 7/36, P(5) =<br />
9/36 e P(6) = 11/36.<br />
(2.16) Problema binomiale. P(2 / N=5, p=0.5) = (5 2) (1/2) 5 = 31/2%. Le 3 sequenze sono<br />
naturalmente equiprobabili p=(1/2) 5 = 3.1%.<br />
(2.17) Per definizione di intervallo p(fuori / sano) = 0.05. Se i 3 test sono indipendenti posso<br />
calcolare P(fuori X) x P(fuori Y1 OR fuori Y2) = P(fuori X) x (P(fuori Y 1 )+P(fuori Y 2 ) –<br />
P(fuori Y 1 )xP(fuori Y 2 ))= 0.49%.<br />
(2.18) (90 15) = 4.6 x 10 16 cartelle diverse.<br />
(2.19) Trattiamo questa situazione assumendo che i parti nel paese avvengano nel tempo in modo<br />
del tutto casuale, cosi’ da poter schematizzare come poissoniano il fenomeno. Il rate di<br />
questo fenomeno é 1/7 g -1 (secondo l’esperienza pluriennale) e dunque il λ associata ad un<br />
giorno é λ = 1/7 = 0.14. Si tratta di calcolare ora P(>1, λ = 0.14) = 1 – P(0) – P(1) = 1 –<br />
exp(-λ) – λexp(-λ) = 0.0089. Dunque la probabilità é al di sotto dell’1%. L’eventualità si<br />
verificherà 3-4 volte l’anno.<br />
(2.20) Problema inverso. Essendo N = 1250 e σ(n) / n = √Nε(1-ε) / Nε = 0.02 (qui εé l’efficienza),<br />
ricavo ε girando la formula: ε = 1 / (1 + (0.02) 2 x 1250) = 0.67.<br />
(2.21) (a) NO le stelle si ammassano in galassie, le galassie in ammassi di galassie e cosi’ via. (b)<br />
NO come tutti i fenomeni periodici o quasi-periodici. (c) forse SI se si ammette che le<br />
condizioni “demografiche” e “sociali” che determinano le attitudini dei giovini siano<br />
128
costanti nel tempo. (d) forse SI a meno che non vi siano periodi di maggiore frequenza per<br />
fatti specifici.<br />
(2.22) Applichiamo il teorema di Bayes in un caso con probabilità a priori molto “disuniforme”<br />
(P(infetto) = 0.2% P(non infetto) = 99.8%) e nell’altro con probabilità a priori “uniforme”<br />
(P(infetto) = P(non infetto) = 50%). Si ottiene: (1) P(infetto / +) = 22% e (2) P(infetto / +) =<br />
99.3%.<br />
(2.23) In questo caso devo calcolare P(+++/infetto) = (P(+/infetto)) 3 = 97% assumendo i test<br />
indipendenti e P(+++/non infetto) = (P(+/non infetto) 3 = 3 x 10 -7 . Le probabilità a priori<br />
sono evidentemente le stesse e dunque si ottiene: P(infetto/+++) = 99.98%. Come si vede le<br />
cose cambiano.<br />
(2.24) Semplice problema di calcolo combinatorio. Si hanno 21 lettere (mancano I O e Q ma ci<br />
sono X Y e W) e 10 cifre. Quindi 21 2 x 10 3 x 21 2 = 2 x 10 8 targhe (200 milioni). Di queste,<br />
quelle in cui le ultime 2 lettere sono la copia delle prime 2 sono 21 2 x 10 3 . La probabilità é 1<br />
/ 21 2 = 0.22%.<br />
(2.25) Devo disporre 36 oggetti in 6 caselle ed ho la possibilità di ripetere le cifre e di mettere la<br />
stessa cifre in più caselle. Si ha: 36 6 = 2.2 x 10 9 combinazioni. Al massimo impiego per<br />
trovarla un tempo pari a 2.2 x 10 9 x 10 -3 s / 3.15 x 10 7 s = 0.070 anni, poco meno di un<br />
mese. Nel secondo caso invece il numero di combinazioni é 26 3 x 10 3 = 1.7 x 10 7 da cui il<br />
tempo massimo é meno di 5 ore.<br />
(2.26) P(>8.2) = 18%; p(3 volte > 8.2) = 0.58%.<br />
(2.27) Mi riconduco alla gaussiana standardizzata. Per i dati: m 1 = (129 – 138.2 ) / 4.58 = -2.01 e<br />
m 2 = (149 – 138.2 ) / 4.58 = 2.35 mentre per la simulazione m 1 = -2.32 e m 2 = 2.72. Dalle<br />
tabelle si ottiene nei 2 casi P(m 1 < m < m 2 ) = 0.9684 per i dati e 0.9865 per la simulazione.<br />
Si passa da una reiezione del 3.2% nei dati ad una del 1.4% nella simulazione.<br />
(2.28) Sono 24 prove e la probabilità del successo é 2.34% (se vogliamo chiamare successo il fatto<br />
di arrivare in ritardo). Uso la binomiale: P(0 successi) = (1-0.0234) 24 = 57%. Ho una<br />
probabilità del 43% di arrivare almeno una volta in ritardo.<br />
(2.29) Rate di decessi poissoniano = 1 / 62 g -1 da cui il λ per un mese (assunto medio di 30 giorni)<br />
é λ = 0.48. P(>0) = 1 – P(0) = 1 – exp(-λ) = 38%.<br />
(2.30) L’altezza H della distribuzione triangolare deve soddisfare il criterio di normalizzazione: 40<br />
x H / 2 = 1. Da ciò H = 0.05 anni -1 . La funzione a 60é per ragioni geometriche (basta<br />
disegnare la distribuzione per rendersene conto) H/2. Calcolo P(>60) = 10 x H/2 /2 = 12.5%.<br />
La probabilità che i primi 3 siano > 60é (assumendo che ogni docente sia preso a caso dal<br />
corpo docente) 0.125 3 = 0.2% molto bassa.<br />
(2.31) Classico problema binomiale. N = 5, p = 1250/2000 = 0.625. P(>2) = P(3) + P(4) + P(5) =<br />
72.4%.<br />
(2.32) Tre poissoniane indipendenti nel limite gaussiano. Per ciascuna P( 2) = 0.025. Che su 10 bin 2 e solo 2 di questi dia<br />
più di 575 costituisce di nuovo un problema binomiale con N = 10 e p = 0.025. P(2) = 2.3%.<br />
Si noti che l’assunzione iniziale di poissonianità é in realtà una approssimazione. Infatti i<br />
contenuti di ciascun bin sono distribuiti a rigore secondo una distribuzione multinomiale che<br />
può essere descritta dal prodotto di poissoniane indipendenti quando il numero di bin é<br />
abbastanza elevato.<br />
(2.34) N(N-1) = 90.<br />
(2.35) Esempio tipico in cui si applica il teorema di Bayes. Con ovvio significato dei simboli:<br />
P(D/colore) = P(colore/D) P 0 (D) / [ P(colore/D) P 0 (D) + P(colore/R) P 0 (R) ] in cui<br />
evidentemente P 0 (D) e P 0 (R) sono le probabilità a priori che incontrando una persona questa<br />
sia democratica (il 23.6%) o repubblicana (il 76.4%), P(colore/D) e P(colore/R) sono i<br />
129
isultati dei sondaggi (il 16.2% e il 2.5% rispettivamente). Mettendo i numeri si ottiene:<br />
P(D/colore) = 66.7%<br />
La probabilità che i miei sette dipendenti di colore siano tutti democratici é: [P(D/colore)] 7 =<br />
5.9%, dunque la probabilità che ce ne sia almeno uno repubblicano é 1-5.9% = 94.1%.<br />
(2.36) Trattiamo il fenomeno come poissoniano con μ = 3.24.<br />
(a) P(0) = exp(-3.24) = 3.9%<br />
(b) Il numero medio di incidenti in un anno é 3.24 x 52 = 168.5. La distribuzione é<br />
una poissoniana nel limite gaussiano con μ = 168 e σ = 13.<br />
(c) Ricorro alle tabelle della gaussiana standardizzata P(
(3.2) In quell’ora misuro un flusso di 3.36 x 10 -4 conteggi / m 2 s, con una incertezza percentuale<br />
di 1 / √121 ~9%. Dunque φ(misurato) =(3.36 ± 0.30) x 10 -4 cont / m 2 s. Testo l’ipotesi di<br />
consistenza con il valore atteso φ(R.C.) = (2.01 ± 0.01) x 10 -4 cont / m 2 s costruendo una<br />
variabile Z. Ottengo Z = 4.5: ho osservato la supernova.<br />
(3.3) Lo strumento é evidentemente caratterizzato da un errore sistematico che cresce con il<br />
valore in misura. Per mettere in evidenza questa caratteristica dello strumento é utile<br />
graficare l’andamento di x(misurato) – x(“vero”) in funzione di x(“vero”). Si osserverà una<br />
crescita dell’errore sistematico. Se questo grafico mostra un andamento, si può fare un fit di<br />
questo andamento, ottenendo cosi’ una “curva di calibrazione” che può essere usata per<br />
correggere i valori letti. Quindi, letto 2284 devo sottrarre un numero che starà tra 61 e 79.<br />
Nel grafico sono riportati sia x(misurato) - x(vero) che la stessa cosa divisa per x(vero). Il<br />
secondo grafico ci mostra che l’errore sistematico é in prima approssimazione tra il 2% ed il<br />
3% per tutti i valori. Quindi una correzione ragionevole potrebbe essere quella di<br />
moltiplicare ogni misura per 0.975.<br />
131
(3.4) La media pesata dei quattro valori é 2.19; il χ 2 rispetto all’ipotesi che siano in accordo<br />
fornisce il valore 12.5 per 3 gradi di libertà. Dalle tabelle si vede che tale valore si trova<br />
essenzialmente tra 0.005 e 0.01 quindi é arduo accettare l’ipotesi che i valori siano in<br />
accordo. Anche in questo caso é utile fare un semplice grafico dei 4 valori. Si vede<br />
chiaramente che il quarto valore é incompatibile con il primo e questo rende il χ 2<br />
inaccettabile.<br />
(3.5) L’equivalenza calore-lavoro ci suggerisce che il lavoro fatto (potenza x tempo) sia<br />
proporzionale al calore dissipato (capacità termica x variazione di temperatura). I valori<br />
misurati devono pertanto disporsi su di una retta il cui coefficiente angolare costituisce<br />
l’equivalente meccanico della caloria. Pertanto dal fit lineare di temperatura-tempo si ricava<br />
il coefficiente angolare che, moltiplicato per la capacità termica e diviso per la potenza<br />
fornisce l’inverso dell’equivalente meccanico cercato. Per determinare l’incertezza sulla<br />
quantità trovata occorrerà utilizzare la propagazione delle incertezze relative.<br />
Risultati numerici.<br />
Fit lineare: m = 0.69 ± 0.01 K/s; χ 2 = 1.2 / 4 gdl.<br />
132
Equivalente meccanico: (4.25 ± 0.07) J / cal<br />
Questo risultato é da confrontare con il valore 4.1855 J / cal che si trova nei libri di testo. Il<br />
nostro risultato é “fuori di una deviazione standard” dunque é sostanzialmente in accordo.<br />
(3.6) Qui lo sperimentatore ci dice di fare attenzione nell’usare il quarto punto sperimentale.<br />
Basterà dividere per 1h 18 min e 24 s cioè per 4704 s anziché per un ora cioè per 3600 s.<br />
Inoltre a ciascun punto attribuiamo un’incertezza data da √N / tempo assumendo che si tratti<br />
di conteggi poissoniani. Quindi si tratta di testare l’ipotesi che non vi sia andamento.<br />
Facendo un fit con una costante si ottiene: χ 2 = 6.8 / 4 gdl corrispondente ad una probabilità<br />
tra il 10 ed il 20% pertanto accettabile. Tuttavia rimane una certa indicazione di crescita<br />
(come si vede dal grafico riportato qui di seguito) e quindi vale la pena ripetere<br />
l’esperimento aumentando il tempo di osservazione per ridurre le incertezze statistiche<br />
relative.<br />
(3.7) Costruisco per ciascuna delle 2 misure un intervallo di probabilità del 90%: prima misura:<br />
L 1 = 438.2 ± 3.5 μm; valore seconda misura: L 2 = 427 ± 16 μm (in questo secondo caso ho<br />
moltiplicato per 1.90 anziché per 1.65 per tenere conto che non sono ancora nel limite<br />
gaussiano). L’intervallo al 90% per la differenza é: L 1 - L 2 = 11 ± 16 μm. Dunque la<br />
variazione non é significativa oltre il 90% dunque l’allarme non dovrebbe scattare.<br />
(3.8) Tutte le 5 misure effettuate sono positive, quindi ciò fa pensare che effettivamente possiamo<br />
essere scalibrati. Tuttavia dobbiamo mediare queste misure e ricavarne un intervallo di<br />
probabilità (per esempio del 95%) per stabilirlo quantitativamente.<br />
Risultato: T = 0.0162 ± 0.0052 o C (qui ho usato la tabella della t-Student essendo il numero<br />
di misure molto piccolo). Quindi lo strumento é scalibrato. Il valore trovato é anche la<br />
migliore stima della correzione. In tal caso é meglio usare una incertezza al 68% cioè: T corr =<br />
0.0162 ± 0.0016 o C.<br />
(3.9) α = I r 2 = 3.12 ± 0.13 W / s<br />
(3.10) Si tratta di vedere la probabilità associata ad un χ 2 di 56.2 per 28 gradi di libertà. Dalle<br />
tabelle tale probabilità é pari a circa 0.001 cioè l’1 per mille. Il fit non é molto buono.<br />
(3.11) L’efficienza é: ε = ( 94.4 ± 0.2 ) % (usando la formula per la binomiale). Per ottenere il<br />
flusso effettivo devo “correggere” per l’efficienza. φ = N / ( ε Δt ) = ( 94 ± 5) x10 -3 s -1 .<br />
(3.12) La preferenza é passata da 86 / 215 = ( 40 ± 3 ) % a 91 / 189 = ( 48 ± 4 ) %. L’aumento di<br />
preferenze é pertanto ( 8 ± 5 )%. Quindi prima di rallegrarmi il politico farebbe bene a<br />
rendere statisticamente più consistente il suo campione.<br />
(3.13) Ricordiamo le 2 relazioni: n = tanθ B e n = 1 /sen θ lim . Dalle 2 misure ricaviamo 2 diversi<br />
valori di n indipendenti ( che chiamiamo rispettivamente n B e n lim ). Utilizzando la<br />
133
propagazione delle incertezze troviamo: n B = 1.460 ± 0.011 e n lim = 1.463 ± 0.005. Si noti<br />
che nell’utilizzare la propagazione abbiamo riportato il valore dell’incertezza sugli angoli da<br />
gradi a radianti ( × π / 180 ). I 2 valori sono chiaramente compatibili. La media pesata<br />
fornisce: n = 1.462 ± 0.004 che é distante una deviazione standard da n qu e 7 deviazioni<br />
standard da n pl . Si tratta di quarzo dunque.<br />
(3.14) Rispondiamo con ordine alle singole domande. (1) Il secondo esperimento é più preciso. (2)<br />
Gli intervalli standard e di quasi-certezza (cioè a 3 deviazioni standard) per i 2 esperimento<br />
sono: x 1 = 1.036 ± 0.004 (0.012) e x 2 = 1.046 ± 0.005 (0.015). (3) Sono chiaramente<br />
ambedue i risultati incompatibili con x = 1. (4) Sono compatibili tra di loro. (5) Poiché<br />
l’incertezza statistica diminuisce “come 1 / √N” dove Né il numero di campioni, per passare<br />
da una incertezza standard di 0.004 ( da 0.005) ad una di 0.001 dovrò aumentare il numero<br />
di campioni di un fattore 4 2 = 16 per l’esperimento 1 e 5 2 = 25 per l’esperimento 2.<br />
(3.15) (a) q = ( 1.644 ± 0.014 ) × 10 -19 C. (b) q Millikan – q oggi = ( 0.042 ± 0.014 ) × 10 -19 C. Il<br />
risultato di Millikan dista 3 deviazioni standard dal valore che abbiamo oggi. Ai limiti<br />
dell’accettabilità.<br />
(3.16) Rate( θ > 25° ) = ( 5.7 ± 0.8 ) × 10 -3 s -1 , da cui P( θ > 25° ) = ( 4.6 ± 0.6 ) × 10 -4 . Il<br />
risultato é incompatibile con il modello di Thomson.<br />
(3.17) È un esempio di come a volte graficando non direttamente l’andamento delle grandezze<br />
misurate, ma l’andamento di funzioni semplici di tali grandezze, si riesca ad avere una<br />
migliore comprensione del problema. In questo caso, guidati dalla legge di gravitazione<br />
universale, é conveniente graficare g in funzione di 1/R 2 , grafico che deve dare una retta.<br />
Tuttavia occorre definire per bene R come distanza dal centro della terra, non dalla<br />
superficie terrestre, R = h + R T . Dal fit lineare si ottiene il prodotto Gm T e, da questo, dato<br />
G, la massa della terra m T . Infine m T / R T 3 fornisce la densità media della terra.<br />
Risultati numerici: dal fit m = ( 404 ± 4 ) × 10 6 m s -2 km 2 = ( 404 ± 4 ) × 10 12 m 3 s -2 con un<br />
χ 2 pari a 3.01 / 3 gradi di libertà dunque molto buono. Da qui: m T = ( 6.05 ± 0.06 ) × 10 24<br />
kg e dunque ρ T = m T / ( 4 / 3 π R T 3 ) = 5.56 g / cm 3 . Abbiamo riportato le unità della densità<br />
a g / cm 3 perché sono più facilmente comprensibili (in queste unità l’acqua ha densità 1, il<br />
piombo 11 e cosi’ via).<br />
134