x - Fisica - Sapienza

Laboratorio di Strumentazione e Misura 

Cesare Bini 

Corso di laurea in Fisica 

Anno Accademico 2006-2007 

1

Questi appunti sono basati sulle lezioni del modulo di Laboratorio di Strumentazione e Misura del 

primo anno delle lauree triennale in Fisica, Fisica e Astrofisica e Fisica e Tecnologie Informatiche 

da me tenute negli anni accademici a partire dal 2002-2003 all’Università “La Sapienza” di Roma. 

Si tratta del primo modulo di laboratorio, al quale seguono nei trimestri successivi altri quattro 

moduli di laboratorio con contenuti più specifici (Meccanica, Termodinamica, Elettromagnetismo e 

Ottica). Il modulo si propone di fornire agli studenti gli strumenti di base per la comprensione del 

linguaggio della fisica sperimentale con particolare riferimento al problema dell’elaborazione e 

dell’analisi dei dati sperimentali. 

In questi appunti, dopo una breve introduzione sul significato del metodo sperimentale, ci si 

concentra nel primo capitolo sul concetto elementare di misura in fisica. In questo primo capitolo le 

idee e le nozioni sono fornite esclusivamente su base intuitiva, senza formalismi matematici e senza 

alcuna pretesa di completezza e di esaustività. Nel secondo capitolo si entra nella teoria della 

probabilità, o meglio, in quella parte della teoria della probabilità e delle variabili casuali che risulta 

fondamentale per la comprensione dei risultati degli esperimenti di fisica. Gli argomenti di questa 

parte sono trattati con maggior rigore, e vengono utilizzati alcuni formalismi matematici più evoluti 

che gli studenti stanno apprendendo nei corsi paralleli di matematica. In alcuni casi, dove é 

necessario, sono forniti dei semplici complementi di matematica, trattati però sempre con 

l’attitudine del fisico sperimentale che, come lo studente avrà modo di vedere é diversa da quella 

del matematico. Nel terzo capitolo infine con l’ausilio degli strumenti di teoria della probabilità e 

delle variabili casuali trattati in precedenza, vengono ripresi i problemi impostati all’inizio del corso 

per fornire dei metodi statistici di risoluzione di cui sarà ora chiaro il fondamento. L’obiettivo é 

acquisire il modo di analizzare i dati degli esperimenti per trarne delle conclusioni scientificamente 

ben fondate. Ciascuno dei tre capitoli é corredato da una serie di esercizi per i quali alla fine sono 

illustrate e discusse le soluzioni. Si tratta di esercizi in tutto analoghi a quelli che vengono dati sia 

nella prova scritta finale che nelle cosiddette “prove in itinere”, e costituiscono una parte 

fondamentale del corso. 

La conoscenza e la padronanza dei metodi di analisi dei dati sperimentali costituisce non solo un 

bagaglio fondamentale per quegli studenti che si avvieranno alla ricerca scientifica, ma é anche 

estremamente importante per tutti quei laureati che si avvieranno al lavoro nell’industria o in altri 

settori, per i quali comunque sarà cruciale la capacità di trarre delle conclusioni fondate a partire da 

un insieme di dati qualunque sia l’origine di questi. 

2

(0) Il metodo scientifico.....................................................................................................5 

(1) La misura di una grandezza fisica ..............................................................................9 

(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche.............................................................9 

(1.1.1) L’unità di tempo. ................................................................................................................10 

(1.1.2) L’unità di lunghezza...........................................................................................................10 

(1.1.3) L’unità di massa. ................................................................................................................11 

(1.1.4) Sistemi di unità di misura...................................................................................................11 

(1.2) Il concetto di incertezza di misura.............................................................................................13 

(1.3) Esempi di valutazioni “qualitative” di incertezza ....................................................................15 

(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento........................................15 

(1.3.2) Caso dei conteggi. ..............................................................................................................16 

(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. .........................17 

(1.3.4) Analisi grafica della sequenza di numeri. ..........................................................................17 

(1.3.5) Caratteristiche riassuntive di una sequenza di numeri .......................................................22 

(1.3.6) Stima di intervalli. ..............................................................................................................25 

(1.3.7) Errori sistematici ................................................................................................................26 

(1.4) Sequenze di “coppie” di misure ................................................................................................27 

(1.5) Terminologia .............................................................................................................................30 

(1.6) Cifre significative......................................................................................................................30 

(1.7) Caso di misure indirette: cenni alla propagazione.....................................................................33 

(1.8) Nozione di significatività ..........................................................................................................34 

(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. .......................................37 

(1.9.1) La scala quadratica. ............................................................................................................37 

(1.9.2) La scala logaritmica............................................................................................................38 

Esercizi relativi al Capitolo (1) ..........................................................................................................42 

(2) La probabilità e le variabili casuali ...........................................................................46 

(2.1) Concetto di probabilità ..............................................................................................................46 

(2.2) Alcuni metodi di calcolo ...........................................................................................................46 

(2.3) Regole della teoria delle probabilità.........................................................................................47 

(2.3.1) Spazio degli eventi .............................................................................................................47 

(2.3.2) Eventi composti..................................................................................................................48 

(2.3.3) Definizione assiomatica della probabilità ..........................................................................48 

(2.3.4) Probabilità condizionata.....................................................................................................48 

(2.3.5) Alcune proprietà delle probabilità......................................................................................49 

(2.3.6) Il teorema di Bayes.............................................................................................................50 

(2.4) Il Calcolo Combinatorio............................................................................................................51 

(2.5) Variabili casuali.........................................................................................................................53 

(2.5.1) Considerazioni generali......................................................................................................53 

(2.5.2) Distribuzioni di probabilità di variabili casuali..................................................................54 

(2.5.3) Variabili discrete. ...............................................................................................................55 

(2.5.4) Variabili continue...............................................................................................................55 

(2.5.5) Momenti di una distribuzione.............................................................................................58 

(2.5.6) Densità di probabilità di una funzione di variabile casuale................................................59 

(2.5.7) La media e la deviazione standard come variabili casuali .................................................60 

(2.6) Variabili casuali notevoli...........................................................................................................61 

(2.6.1) Distribuzione uniforme.......................................................................................................61 

(2.6.2) La distribuzione binomiale.................................................................................................63 

(2.6.3) Il processo di Poisson: limite del processo di Bernoulli. ...................................................66 

(2.6.4) Il processo di Poisson: definizione generale. .....................................................................69 

(2.6.5) La distribuzione di Gauss...................................................................................................71 

(2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss.............................74 

3

(2.7) Proprietà notevoli delle variabili casuali...................................................................................77 

(2.7.1) Contenuto di probabilità di intervalli di variabili casuali...................................................78 

(2.7.2) Il teorema del limite centrale..............................................................................................78 

(2.7.3) Limite gaussiano.................................................................................................................80 

(2.8) Variabili casuali multiple. .........................................................................................................81 

(2.8.1) Impostazione del problema ................................................................................................81 

(2.8.2.) Probabilità congiunta e covarianza....................................................................................82 

(2.8.3) Calcolo di E[y] e Var[y].....................................................................................................83 

(2.8.4) Propagazione delle incertezze ............................................................................................84 

Esercizi relativi al Capitolo (2) ..........................................................................................................88 

(3) Introduzione all’inferenza ..........................................................................................92 

(3.1) Introduzione “formale” all’inferenza ........................................................................................92 

(3.1.1) Considerazioni generali......................................................................................................92 

(3.1.2) L’inferenza bayesiana.........................................................................................................93 

(3.1.3) Il principio di massima verosimiglianza ............................................................................94 

(3.2) Inferenza sul valore vero ...........................................................................................................94 

(3.2.1) Caso di una singola misura.................................................................................................94 

(3.2.2) Caso di una misura ripetuta N volte. ..................................................................................95 

(3.2.3) Caso dei conteggi poissoniani. ...........................................................................................97 

(3.2.4) Caso dei conteggi binomiali...............................................................................................98 

(3.2.5) La “barra di incertezza”......................................................................................................99 

(3.3) Misure indirette: la propagazione delle incertezze....................................................................99 

(3.3.1) Riformulazione del problema.............................................................................................99 

(3.3.2) Propagazione delle incertezze ..........................................................................................100 

(3.4) Nozione di consistenza e significatività: test d’ipotesi ...........................................................100 

(3.4.1) Consistenza tra risultati di esperimenti ............................................................................101 

(3.4.2) Consistenza tra esperimento e modello............................................................................102 

(3.4.3) Combinazione di diverse misure: la media pesata. ..........................................................102 

(3.5) Analisi delle dipendenze funzionali: il fit ...............................................................................103 

(3.5.1) Il fit: formulazione del problema......................................................................................103 

(3.5.2) Ipotesi di lavoro................................................................................................................104 

(3.5.3) Il fit: derivazione delle formule per le stime dei parametri..............................................105 

(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza ..................................108 

(3.5.5) Valutazione della bontà del fit: test del χ 2 . ......................................................................111 

(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti..................................116 

(3.5.7) Il fit: come farlo operativamente......................................................................................116 

(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui ...............................117 

Esercizi relativi al Capitolo (3) ........................................................................................................120 

Soluzione degli esercizi proposti. ................................................................................124 

4

(0) Il metodo scientifico 

Qual é l’oggetto della scienza naturale ? La scienza si occupa dei fenomeni naturali vale a dire di 

tutte quelle cose che osserviamo accadere, di quelle manifestazioni della natura, che “entrano in 

relazione” con i nostri sensi, e che noi consideriamo rilevanti e degne di essere studiate. In 

particolare, anche la fisica studia tali “manifestazioni”. E’ difficile circoscrivere con chiarezza il 

campo di indagine della fisica rispetto ad altre discipline quali la chimica o la biologia (e in effetti 

esistono discipline di confine quali la chimica fisica e la biofisica). In modo generale e forse 

discutibile, si può dire che la fisica si distingue dagli altri settori di indagine, per il fatto di studiare i 

fenomeni nelle loro manifestazioni più “elementari” o “fondamentali”, ovvero per il fatto di 

occuparsi dei sistemi più semplici esistenti in natura. 

Il metodo con cui in fisica vengono studiati i fenomeni naturali si colloca entro il quadro più vasto 

del metodo scientifico, una grande costruzione di pensiero e di esperienza sviluppata nel corso degli 

ultimi secoli. La fisica fa proprio il metodo scientifico, con alcune specificità dovute al tipo di 

problemi che devono essere affrontati. 

A cosa serve dunque il corso di laurea in fisica ? La cosa principale che gli studenti di fisica 

imparano é proprio il metodo della fisica, l’apprendimento del quale é in un certo senso ancora più 

importante della conoscenza delle leggi fisiche stesse. Il metodo fornisce, infatti, l’atteggiamento 

con cui il fisico si pone nello studio dei fenomeni naturali, costituisce un modo di indagine della 

realtà, un approccio ai problemi. 

Vediamo quali sono gli aspetti caratteristici di questo metodo. Nella storia del pensiero ci sono stati 

due atteggiamenti di fronte alla complessità della realtà fisica: (a) L’Empirismo (il cui metodo 

d’indagine caratteristico é detto induzione) e (b) il Razionalismo (per il quale si ha il metodo detto 

della deduzione). Per esemplificare questi 2 approcci prendiamo un esempio preso a prestito dalla 

vita quotidiana. Tutti noi scegliamo di comportarci in un certo modo in base alle informazioni che 

abbiamo. A che ora usciamo di casa la mattina per arrivare all’università’ prima delle 9 ? Lo 

studente 1 affronta il problema con il seguente approccio. Fa diverse prove: un giorno esce alle 7 

un giorno alle 7:30 poi alle 8 ed infine alle 8:30. Ripete in giorni diversi queste prove e alla fine 

osserva che se esce alle 7:30 impiega 15 minuti, se esce alle 8 impiega di più e così via. Da tali 

osservazioni “conclude” che l’orario migliore per uscire é uno dei tanti provati. Da ciò trae in 

definitiva la sua regola di comportamento. Lo studente 2 invece sulla base del fatto che le scuole 

aprono alle 8, gli uffici alle 9 “deduce” che é meglio uscire alle 7:30 (senza impiegare diverse 

settimane a fare delle prove). E’ chiaro che si tratta di un esempio di empirista (lo studente 1) e di 

razionalista (lo studente 2). 

Quale dei due approcci é quello proprio del metodo scientifico ? 

In realtà non lo é nessuno dei due, o meglio, lo scienziato usa ambedue i metodi, li combina. 

In questo consiste la sintesi propria del metodo scientifico, che si suole anche indicare come sintesi 

galileiana ricordando il nome di Galileo che fu il primo a formularne gli aspetti salienti nei suoi 

scritti: osservazione e teoria sono intimamente legate tra loro, in un certo senso “si guidano a 

vicenda”. Il metodo scientifico moderno nasce da questa sintesi. L’osservazione della natura non é 

un puro e semplice catalogare fatti o fenomeni (che é viceversa proprio dell’empirismo puro). 

Attraverso l’osservazione lo scienziato vuole in realtà cogliere il “meccanismo” che regola i 

fenomeni e pertanto tende a “selezionare” le osservazioni da fare e, al tempo stesso, tende ad 

“inventare un linguaggio” con il quale riesce a parlare in modo chiaro dei fenomeni naturali che 

osserva. La comprensione dei “meccanismi” della natura é infatti molto più potente della pura e 

semplice osservazione di come si svolgono le cose. Non solo, tale comprensione “spinge” ad altre 

osservazioni e pertanto la conoscenza che si acquisisce diventa la base per acquisizioni di 

conoscenze successive. 

5

Gli ingredienti fondamentali del metodo scientifico sono dunque da un lato gli esperimenti e 

dall’altro i modelli teorici. Sono due elementi che si muovono di pari passo condizionandosi a 

vicenda. Vediamo di chiarirne il significato. 

- Fare un esperimento significa fare una domanda alla natura. Si noti la differenza che c’è tra 

esperimento (processo attivo) e semplice osservazione (processo passivo). La domanda che 

l’esperimento pone, deve essere ben posta. Quello dell’esperimento é un procedimento chiaramente 

induttivo. Sul piano logico il processo é il seguente: se osservo che una cosa si svolge in un certo 

modo in una data circostanza, passo dal particolare al generale: quella cosa in quelle condizioni si 

svolge sempre in quel modo. Per esempio se io osservo che un dato materiale ha una certa proprietà 

(esempio, il rame é conduttore), io “induco” che tutto il rame é conduttore. Per dire questo dovrei 

prendere tutto il rame del mondo anzi dell’universo e misurarlo. Ma non é necessario farlo. 

Facciamo un’osservazione: il fatto che la ripetizione di un dato esperimento fatto da persone 

diverse in tempi diversi con apparati diversi porti a risultati che sono tutti “generalmente 

compatibile”, é un fatto per nulla banale, ma é ciò che effettivamente accade. In altre parole la 

Natura risponde allo stesso modo ad osservatori diversi, quando la domanda é posta ugualmente 

bene. Quando ciò accade, si dice che siamo in condizioni di riproducibilità. Quando non accade 

normalmente vuol dire che la domanda é mal posta, l’esperimento é fatto male. In questo, troviamo 

un primo aspetto dell’oggettività che rende fattibile l’indagine scientifica. 

- Che cos’è invece un modello teorico? Il modello si sviluppa quando vengono individuati i 

termini che descrivono il fenomeno (gli elementi del “linguaggio”) e le relazioni che li collegano. A 

questo punto posso “dedurre” le caratteristiche di altri fenomeni. Posso cioè fare predizioni. Si 

tratta di un procedimento chiaramente deduttivo. Da assiomi generali deduco conseguenze 

osservabili. Un modello, potremmo dire, “inventa un linguaggio” con il quale é possibile parlare di 

quel fenomeno e predire le proprietà di altri fenomeni a questo collegati. 

Seconda osservazione: il fatto che i nostri modelli descrivono bene i risultati degli esperimenti é 

un secondo fatto per nulla ovvio, ma é anch’esso vero. Si tratta di un altro aspetto dell’oggettività di 

cui si diceva. Gli uomini riescono a creare un linguaggio comune per descrivere la natura. Una 

persona intelligente riesce a capire questo linguaggio, e si rende conto presto che funziona. 

Per poter apprezzare il modo con cui la scienza si sviluppa, é fondamentale vedere i tanti esempi 

che la storia della scienza ci fornisce. Tra i tanti che saranno discussi in tutti i corsi del seguito degli 

studi, accenniamo solo brevemente al caso della meccanica: dall’osservazione dei corpi in moto (di 

alcuni corpi in moto non di tutti i moti possibili) Newton “induce” la legge del moto che costituisce 

la regola fondamentale del “linguaggio” dei fenomeni di corpi in moto. Una volta stabilito il 

linguaggio della meccanica fu possibile dedurre predizioni di altri fenomeni che in seguito, 

esperimenti tecnologicamente sempre più evoluti hanno sottoposto a test sempre più accurati. 

Questo progresso nell’accuratezza degli esperimenti ha portato infine a mostrare che il linguaggio 

della meccanica doveva essere modificato per poter descrivere fenomeni in certe particolari 

condizioni. 

La forza del metodo scientifico sta essenzialmente nel suo successo. Il successo della meccanica, 

della termodinamica e dell’elettromagnetismo nell’arco di meno di 3 secoli sono una testimonianza 

straordinaria di ciò. 

Facciamo ora un passo avanti. Infatti finora abbiamo parlato in modo generico di osservazioni e 

modelli. In realtà sappiamo bene che sia gli esperimenti che i modelli hanno a che fare con i numeri 

e più in generale con le regole della matematica. D’altra parte gli studenti del primo anno sanno 

bene che sono invitati a studiare la matematica. Cerchiamo di capire il perché. 

Nell’esperimento le sensazioni umane sono “quantificate”. In altre parole sono sostituite da numeri 

che appunto rendono quantitativa una sensazione che altrimenti sarebbe solo qualitativa. Dire che 

un corpo é più caldo di un altro costituisce una affermazione ben definita e non ambigua. Tuttavia é 

6

un’affermazione povera di contenuto. Per rendere più efficace la sensazione si mette in atto un 

processo di quantificazione che chiamiamo processo di misura di una grandezza fisica. 

Al termine dell’esperimento ho dunque un insieme di numeri, che rappresentano i risultati delle 

misure della o delle grandezze fisiche rilevanti per la descrizione del fenomeno che sto studiando. 

Il modello esprime relazioni tra tali grandezze fisiche. Si tratta delle leggi fisiche. Il confronto tra i 

risultati delle misure e tali legge permette di stabilire se il modello descrive correttamente il 

fenomeno. 

Nel contesto del metodo scientifico il ruolo della matematica risulta decisivo sia negli esperimenti 

che nella teoria. Infatti: 

La usiamo per sviluppare i modelli e definire il linguaggio per la loro caratterizzazione. Il 

dedurre é matematico. Il settore principe della matematica applicata alla fisica é l’analisi (calcolo 

infinitesimale) che, infatti, nacque proprio dall’esigenza di fornire uno strumento di calcolo 

adeguato alla descrizione della fisica. 

Ma la dobbiamo usare per “trattare” in modo coerente i risultati delle misure che compongono 

qualsiasi esperimento. In questo caso il concetto di probabilità diventa molto importante perché si 

vede che gli esperimenti si lasciano descrivere da teorie probabilistiche. Accanto alla teoria della 

probabilità si colloca la statistica la disciplina che studia da un lato, le modalità con cui descrivere 

le proprietà di un insieme di dati (statistica descrittiva) e dall’altro come a partire dai dati si può 

trarre conclusioni sui valori delle grandezze fisiche (statistica inferenziale). 

Cosa facciamo noi in questo corso ? 

Nell’ambito dei corsi di laurea in fisica, il corso di laboratorio ha un ruolo estremamente rilevante. 

Si tratta infatti di imparare un “mestiere”: il mestiere dello sperimentatore. E’ un lavoro ben definito 

con le sue caratteristiche. Schematizzando potremmo dire che il lavoro dello sperimentatore si 

sviluppa nei seguenti passi, ciascuno del quali richiede una certa propensione: 

(1) pensare a quale é l’esperimento giusto da fare (domanda alla natura); conoscere la fisica 

(2) pensare a come farlo; conoscere la tecnologia 

(3) montarlo e mettere in funzione l’apparato di misura; abilità manuale e organizzativa 

(4) fare la misura con tutti i controlli essenziali; attenzione e cura 

(5) analizzare i risultati e trarne delle conclusioni; usare i metodi della statistica 

(6) comunicare queste conclusioni al mondo scientifico; chiarezza e sintesi comunicativa. 

È importante sottolineare la varietà e la complessità del lavoro dello sperimentatore, per il quale 

sono necessarie attitudine normalmente considerate molto diverse (per esempio la manualità e 

l’attitudine all’astrazione). Si tratta di un lavoro molto bello per il quale vale la pena impegnarsi 

(ma questa é una mia valutazione personale). 

In questo corso inizieremo un percorso articolato in più moduli per imparare a fare tutte queste cose 

(1)-(6). In questo modulo ci occuperemo prevalentemente dei punti (5)-(6) (discutendo i metodi di 

analisi dei dati) ma anche un po’ (3) e (4) (quando andremo in laboratorio). Nei moduli successivi 

vedremo meglio (2)-(3)-(4). (1) ha a che fare con la conoscenza della fisica e dunque ha a che fare 

con tutto ciò che sarà discusso nel corso di laurea in Fisica. 

Alcune considerazioni pratiche: 

Ruolo del Calcolatore: per un primo approccio efficace all’attività sperimentale é meglio usarlo il 

meno possibile. Il calcolatore é infatti uno strumento essenziale ma spesso finisce per impedire una 

comprensione profonda di quello che si sta facendo. Bisogna sempre evitare di fare le cose “ad 

occhi chiusi”, fidandosi ciecamente di un programma che qualcun altro ha fatto. Almeno una volta 

bisogna aver fatto un’analisi con “carta e penna” per poter usare in modo critico ed efficace un 

prodotto informatico. 

7

Ruolo della Calcolatrice: sapere usarla al meglio (una calcolatrice scientifica con le operazioni 

matematiche fondamentali come le funzioni trigonometriche, i logaritmi, la notazione 

esponenziale). 

Ruolo della matematica: ad un certo punto dovremo usare alcune nozioni elementari di analisi quali 

la derivata e l’integrale. Per il resto si cerchierà di rendere i vari concetti in modo semplice ed 

intuitivo. 

Ruolo del log-book (quaderno) e delle relazioni: é molto importante imparare a descrivere quello 

che si sta facendo e che si é fatto in modo utile e chiaro. Nel log-book é bene riportare sempre tutto 

quello che si fa. Il suo ruolo é quello di poter sempre ricostruire quello che si é fatto in quel dato 

giorno. Le relazioni devono invece essere sintetiche e devono dare al lettore le informazioni 

rilevanti e non dare quelle irrilevanti. 

Lavoro di gruppo: é importante imparare a lavorare in gruppo collaborando. Sono sempre più rari 

coloro che fanno ricerca scientifica da soli. Quasi sempre la ricerca, ed in particolare quella 

sperimentale é un lavoro di gruppo. 

8

(1) La misura di una grandezza fisica 

Abbiamo visto che un esperimento é riconducibile ad una o più misure. 

Vediamo ora di delineare la logica del processo di misura. Individuiamo i seguenti passi logici. 

(0) Associo ad ogni “elemento” (potremmo anche dire sensazione) che partecipa al fenomeno una 

grandezza fisica; (chiamo temperatura la sensazione di caldo/freddo, tempo la sensazione di eventi 

che si succedono, lunghezza la sensazione di spaziatura tra 2 posizioni, corrente la sensazione di 

“scossa elettrica”) 

(1) stabilisco come associare un numero a tale grandezza; questo processo costituisce la definizione 

operativa della grandezza, cioè lo stabilire il principio ed il metodo della misura; 

(2) infine effettuo la misura e dunque ottengo il numero. 

La definizione operativa presuppone un principio di misura cioè l’esistenza di un fenomeno fisico e 

di un modello teorico che usiamo per trattare questo fenomeno. Si tratta pertanto di misure che 

hanno significato solo nell’ambito di un modello. Anche la misura del peso con una bilancia, 

apparentemente elementare, si fonda sul fatto che si ha equilibrio statico tra la forza di richiamo di 

una molla e la forza peso; il funzionamento del termometro si fonda sulla nostra descrizione della 

dilatazione termica dei corpi e così via. In altri casi il principio di misura é più elementare. Per 

esempio se si tratta di contare il numero di oggetti o il numero di volte in cui é accaduta una certa 

cosa, la misura fa riferimento alla nozione di numerabilità degli oggetti, così come la misura di 

lunghezza effettuata con un metro si basa sul confronto tra 2 oggetti, il tavolo ed il metro. Si tratta 

di operazioni che fanno riferimento a procedimenti elementari (la numerabilità, il confronto) che 

sono insiti nella nostra intelligenza. Tutti gli esempi fatti appartengono alla classe delle misure 

dirette cioè di misure di una grandezza fisica che si fanno con un metodo di misura ben definito per 

quanto complicato. Esistono poi le misure indirette che si hanno quando combino, secondo una 

relazione che appartiene al mio modello, diverse misure dirette di grandezze diverse. Nel caso della 

velocità nella maggioranza dei casi faccio v = s / t non misuro direttamente v, anche se uso un 

tachimetro: vengono misurate separatamente s e t e poi viene fatto il rapporto. Oppure posso usare 

uno strumento per misurare una grandezza e poi ricavarne un’altra moltiplicandola per dei numeri 

noti da misure precedenti. 

In ogni caso le misure vengono effettuati con gli strumenti di misura, che possono essere 

“acquistati” ed utilizzati “chiavi in mano” previa lettura del libretto di istruzioni, oppure possono 

essere preparati dallo sperimentatore (ciò é quanto in genere fanno o preferirebbero fare la gran 

parte dei fisici). In ogni caso é molto importante conoscere le caratteristiche degli strumenti che si 

utilizzano. 

(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche. 

Consideriamo le misure dirette: si tratta di confrontare la cosa che misuriamo, che chiameremo in 

generale il misurando, con un “esemplare” della stessa grandezza di cui conosciamo il valore 

numerico. Esempio: quando misuro la temperatura con il termometro, la scala del termometro é 

graduata in gradi centigradi (detti Celsius o scala Celsius). Sappiamo che quando la colonnina del 

mercurio raggiunge una certa posizione, quella condizione corrisponde ad una data temperatura. 

Quella condizione é l’esemplare con cui mi confronto. Il grado centigrado é invece l’unità di 

misura della grandezza in esame (la temperatura in questo caso). Analogamente la posizione 

dell’ago della bilancia o il numero sul display di un cronometro digitale, costituiscono gli esemplari 

delle grandezze con cui confronto il misurando, mentre il kg e il secondo sono le unità di misura 

(che compaiono nelle scale degli strumenti). 

Specifichiamo ora che cos’è un’unità di misura. Cosa vuol dire esprimere un peso in kg ? Significa 

assumere che da qualche parte esiste un “misurando particolare” arbitrariamente detto kilogrammo, 

che tale misurando particolare é stabile e ben definito, e che quindi noi esprimiamo tutti i nostri pesi 

come multipli o sottomultipli di quel misurando particolare. Naturalmente per una data grandezza 

posso usare unità diverse. Per esempio le lunghezze sono in km in Europa e in miglia negli USA. Le 

9

temperature sono in gradi Celsius in Europa e in gradi Fahrenheit negli USA. E’ fondamentale 

“mettersi d’accordo” sulle unità di misura. Dall’’800 si procede verso la standardizzazione delle 

unità (si tratta di una delle poche eredità utili del positivismo ottocentesco). Vi é una branca molto 

importante della fisica che si chiama metrologia che fa questo lavoro. 

Per procedere alla standardizzazione di cui si é detto, é fondamentale disporre di campioni di 

riferimento (i misurandi particolari di cui si é detto sopra appunto) internazionalmente riconosciuti 

delle varie grandezze che siano sempre “meglio definiti”. Una volta creati questi campioni, l’uso di 

uno strumento sarà possibile solo dopo che lo strumento stesso sarà stato “applicato” al campione di 

riferimento. Quindi per esempio supponiamo che da qualche parte vi sia il campione di lunghezza 

(1 metro). Devo portare lì il mio regolo (o righello o metro da sarta o calibro o qualunque altro 

strumento per misure di lunghezza) e fare in modo che “applicato” al campione di riferimento 

indichi 1. Analogamente per i tempi , per le masse e per qualunque altra grandezza. Questa 

operazione che si chiama calibrazione o taratura dello strumento, é un operazione che facciamo 

spesso (per esempio con il nostro orologio quando lo rimettiamo sentendo il segnale alla radio o al 

telefono). Si tratta di una operazione che richiede (a) la fiducia che il riferimento sia “migliore” 

della nostra misura e (b) che su quel riferimento si sia d’accordo tra tutti. Naturalmente non é 

possibile che vi sia un unico campione di riferimento al mondo e che tutti debbano andare lì a fare 

la calibrazione. Questo campione deve essere distribuito, ma in ogni caso, in linea di principio deve 

essere possibile fare questa operazione di taratura. 

Vediamo ora quali sono i campioni di riferimento per le grandezze di uso più comune: il tempo, la 

lunghezza e la massa. 

(1.1.1) L’unità di tempo. 

È difficile dare una definizione della variabile tempo. Il punto di partenza é la percezione che in 

natura vi sono eventi che si ripetono in un modo che noi percepiamo come regolare. I primi esempi 

sono il giorno e le stagioni. E, in effetti, la prima definizione (prima in senso storico) di unità di 

tempo si basa su questo: il secondo (s) é 1/86400 del “giorno solare medio” . Si tratta di una misura 

basata sulla riproducibilità di fenomeni astronomici, in questo caso il moto di rotazione della terra 

su sé stessa. 

Ben presto ci si accorse che in realtà il giorno solare medio non é sempre uguale, o, detto in altre 

parole, che vi sono dei meccanismi astronomici che rendono “irregolari” i moti dei pianeti. 

Confrontato con altri fenomeni periodici differenti, si vide che c’erano variazioni “secolari” legati ai 

moti complessi della terra. Di qui l’esigenza di riferirsi non a fenomeni astronomici ma a qualcosa 

che fosse fisso e ben riproducibile: apparve allora naturale riferirsi a fenomeni che fossero 

caratteristici di un certo materiale e che pertanto fossero invariabili nel tempo. Fenomeni di questo 

tipo sono dati dalla vasta gamma di emissione di radiazione elettromagnetica da parte di certi 

materiali e dalle loro frequenze. 

L’attuale definizione di secondo é la seguente: é la durata di 9192631.770 periodi della radiazione 

corrispondente alla transizione tra i 2 livelli iperfini dello stato fondamentale dell’atomo di Cesio 

133 ( 133 Cs). Quindi occorre un campione di 133 Cs per produrre il campione di riferimento. La 

ragione di questo numero così bizzarro (9192631.770) risiede nell’esigenza di mantenere una unità 

sostanzialmente equivalente al “vecchio secondo” così radicato nella società. Si noti che in questo 

modo il valore del periodo di quella particolare radiazione del Cesio 133é una quantità nota 

esattamente, non affetta da incertezza (vedi prossimo paragrafo). 

(1.1.2) L’unità di lunghezza. 

Nel caso della lunghezza, la cosa più naturale da fare é prendere un’asta e vedere quante “aste” é 

lungo il mio misurando. Naturalmente devo scegliere un “asta” opportuna (usare il palmo della 

propria mano comporta evidenti problemi). Allora si disse: prendiamo una cosa fissa e tutti ci 

riferiamo a quella. Insorsero però dei problemi. Infatti si vide che la lunghezza di questo 

“campione” variava al variare della temperatura. Allora si disse: prendiamo un campione di un 

10

materiale opportuno (il platino-iridio é una lega di straordinarie proprietà meccaniche e chimiche) 

lo mettiamo in un posto fisso a riparo dalle intemperie e lo termostatiamo. La prima definizione di 

unità di lunghezza fu questa. Poi si vide che non si riesce a termostatarlo perfettamente e poi che ci 

sono dei fenomeni chimici di corrosione, insomma che la barretta di platino-iridio non é 

immutabile. Devo riferirmi ad un fenomeno fisico più “solido”. In analogia a quanto fatto per la 

variabile tempo si decise di usare il fenomeno dell’emissione di una specie atomica: il metro (m) é 

pertanto pari a 1650763.73 lunghezze d’onda nel vuoto della radiazione corrispondente alla 

transizione tra i livelli 2p 10 5 d 5 dell’atomo di Kripton 86 ( 86 Kr). 

Da alcuni anni tuttavia i metrologi si sono accorti di sapere misurare la velocità della luce nel vuoto 

(la quantità c che costituisce anche il limite superiore di ogni velocità) meglio di qualunque altra 

cosa. Di qui la definizione attuale del campione di riferimento della lunghezza: il metro é lo spazio 

percorso da un raggio di luce nel vuoto in un tempo di 1/299792458 s. Si noti che si tratta di una 

definizione che richiede la definizione del secondo. In definitiva significa che ora c (la velocità 

della luce nel vuoto) é fissa (nota esattamente). E dunque una distanza é “quanto impiega la luce a 

percorrerla”. 

L’esempio dell’unità della lunghezza é particolarmente istruttivo. Infatti, ci mostra quello che 

accade quando misurando la velocità della luce nel vuoto sempre meglio, si arriva al punto in cui a 

limitare la precisione della misura é proprio la definizione dell’unità di lunghezza. A questo punto é 

evidente che conviene prendere questa cosa che so misurare così bene come nuova unità. 

Si tratta di un procedimento generale. Se misurando sempre meglio un “misurando” mi accorgo che 

la precisione della misura é ormai limitata dalla “bontà” del campione di riferimento, allora questo 

“misurando” ha tutti i diritti di diventare il nuovo campione. Lo fisso ad un valore arbitrario e d’ora 

in avanti mi riferisco ad esso. 

(1.1.3) L’unità di massa. 

Il kilogrammo (kg) era e rimane il peso di un campione di platino-iridio conservato in un istituto 

metrologico nei pressi di Parigi. Non é cambiato, perché ancora non é stato trovato un campione 

migliore di questo (ci sono delle proposte di cambiamento, ma per ora il Sistema Internazionale 

(vedi seguito) mantiene questo campione di riferimento). 

(1.1.4) Sistemi di unità di misura. 

Tra le varie grandezze che si possono definire per descrivere i fenomeni fisici, possiamo 

individuarne alcune che chiameremo fondamentali ed altre che invece chiameremo grandezze 

derivate. Si tratta di una distinzione arbitraria. E’ inutile definire un campione per ogni grandezza: 

(esempio v = s /t, E = 1/2 mv 2 ). Per questo si definisce un insieme di grandezze fondamentali da cui 

le altre sono derivate secondo le loro definizioni. Come si scelgono le grandezze fondamentali ? 

Quelle per cui si trovano i campioni di riferimento “migliori”. Oggi si ha il sistema detto S.I. 

(sistema internazionale). Questo si definisce con l’insieme delle grandezze fondamentali. Si noti che 

la scelta del S.I. non é univoca. Si possono scegliere (e ci sono) altri sistemi anche con un diverso 

numero di unità fondamentali. Si può dimostrare che una sola grandezza fondamentale é sufficiente. 

Per fare un esempio, nella fisica delle particelle elementari si usa l’energia come grandezza 

fondamentale, e tutte le altre grandezze altro non sono che potenze (positive, negative o nulle) 

dell’energia. 

Nella tabella che segue sono riportate le unità fondamentali del sistema internazionale ciascuna con 

la definizione del campione che la definisce. Si può notare che alcune delle definizioni fanno 

riferimento ad altre unità che sono definite indipendentemente. 

Tempo secondo (s) Durata di 9192631.770 

periodi di una radiazione dal 

133 Cs 

Lunghezza metro (m) Spazio percorso da un raggio 

di luce nel vuoto in un tempo 

di 1/299792458 s 

11

Massa kilogrammo (kg) Massa del prototipo 

campione realizzato in lega 

90% platino e 10% iridio e 

conservato al BIPM (Parigi) 

Intensità di corrente ampere (A) Quella corrente tale che 2 

conduttori paralleli e 

rettilinei di sezione costante a 

1 m di distanza sono attratti 

da 2 10 -7 N/m 

Temperatura kelvin (K) 1/273.15 della temperatura 

del punto triplo dell’acqua 

Intensità luminosa candela (cd) Intensità emessa da un corpo 

nero di superficie 1/600000 

m 2 posto a pressione 101325 

Pa e alla temperatura di 

solidificazione del platino 

Quantità di materia mole (mol) Quantità di materia che 

contiene tanti elementi quanti 

ne contengono 0.012 kg di 

carbonio 12 

Associato alla nozione di grandezze fondamentali e derivate, vi é il concetto di dimensioni fisiche: 

ogni grandezza ha una dimensione fisica. Le grandezze fondamentali hanno come dimensioni la 

grandezza stessa. Quelle derivate, che sono definite da una formula, hanno come dimensione la 

combinazione delle grandezze fondamentali che si desume dalla formula stessa. Per indicare le 

dimensioni di una grandezza si usano in genere le notazioni [l], [m], [t] (rispettivamente una 

lunghezza, una massa, un tempo). Facciamo alcuni esempi di grandezze derivate. La formula per 

l’energia cinetica é E = ½ mv 2 , d’altro canto v = s / t, quindi mettendo insieme: [E] = [m] [l] 2 [t] -2 . Il 

momento angolare é dato da L = r × mv pertanto le sue dimensioni sono [L] = [m][l] 2 [t] -1 . Infine un 

angolo é il rapporto tra l’arco di cerchio [l] e il raggio [l]. In tal caso si dice che la grandezza é 

adimensionale. 

Le dimensioni non sono da confondere con le unità di misura. Le regole sulle dimensioni (che sono 

del tutto naturali) non sono altro che il prolungamento delle regole viste alle scuole elementari, 

quando ci dicevano che “non si possono sommare mele con arance”. Quindi in una formula se 

compare una somma o una differenza, gli addendi devono avere le stesse dimensioni, così come in 

un’equazione i due membri devono avere le stesse dimensioni. Inoltre in espressioni contenenti 

esponenziali o logaritmi, gli argomenti di tali funzioni devono essere adimensionali. 

Quanto alle unità delle grandezze non elementari, si usano le combinazioni delle unità delle 

grandezze elementari corrispondenti. Ad esempio per la velocità si userà m/s. In alcuni casi sì da 

anche un nome all’unità. Per esempio per la forza, le cui dimensioni sono massa x accelerazione e 

dunque [m] [l] [t] -2 viene introdotto il Newton (N) che é equivalente a dire kg m s -2 . Andando avanti 

nel corso introdurremo le varie unità. 

Vale la pena ricordare che per alcune grandezze restano in uso unità al di fuori del sistema 

internazionale, che sono di uso comune. E’ il caso dell’atmosfera per la pressione, della caloria per 

l’energia e cosi’ via. 

Infine é anche importante conoscere l’uso dei multipli e dei sottomultipli, per evitare di avere a che 

fare con numeri troppo grandi o troppo piccoli. In tabella di seguito é riportato l’elenco di multipli e 

sottomultipli con i loro simboli. 

12

10 12 Tera T 

10 9 Giga G 

10 6 Mega M 

10 3 Chilo k 

10 2 Etto h 

10 1 Deca da 

10 -1 Deci d 

10 -2 Centi c 

10 -3 Milli m 

10 -6 Micro μ 

10 -9 Nano n 

10 -12 Pico p 

10 -15 Femto f 

10 -18 Atto a 

(1.2) Il concetto di incertezza di misura 

Fin qui tutto semplice. Ma c’è un fatto in più che rende il mestiere dello sperimentatore più 

complesso ed interessante. C’è una caratteristica fondamentale: la misura fornisce una conoscenza 

intrinsecamente incerta. Ciò può apparire contraddittorio. Infatti riguardo alla Scienza si usano 

spesso espressioni del tipo “Scienza Esatta”, o frasi del tipo “è scientificamente provato” o simili. 

Qui occorre sgomberare il campo da equivoci. Scienza Esatta non significa fare affermazioni 

assolutamente precise e indiscutibili. Significa piuttosto fare affermazioni nelle quali é indicato in 

modo chiaro il limite di attendibilità dell’affermazione stessa. (Attenzione alle parole e ai luoghi 

comuni dunque.). 

In che senso la misura, come si é appena detto, fornisce una conoscenza intrinsecamente incerta ? 

Vediamo alcuni esempi di sorgenti di incertezza. Misuriamo la lunghezza del tavolo. 

(1) Con un regolo (un metro nel linguaggio comune) posso dire che il risultato é tra qui e qui, 

12.3 e 12.4 cm per esempio; basta che stabilisco tra quali divisioni (dette anche tacche) dello 

strumento si situa la mia misura. 

(2) Allora prendo uno strumento molto più “preciso” le cui divisioni sono di 10 micron (per 

esempio un calibro palmer di quelli che vedremo in laboratorio) e ottengo che la misura si situa tra 

12.324 12.325 cm; certo ho ristretto l’intervallo, ma sempre di un “intervallo” si tratta; 

Mi chiedo allora c’è modo di arrivare a dire: il tavolo é lungo 12.3246 cm ? Oppure intrinsecamente 

posso solo dare un intervallo ? Evidentemente si’. Qualsiasi strumento darà un intervallo. Ma c’è di 

più. 

(3) Se ripeto la misura un po’ più in là ottengo una cosa diversa. Quant’è lungo il tavolo ? Qui 

siamo di fronte ad una carenza nella definizione di quello che voglio misurare. Voglio misurare il 

tavolo si’, ma in che punto ? 

(4) Ripeto poi la misura facendola nello stesso punto, ma la sera. Trovo che l’intervallo ora é 

12.327 e 12.328. Che succede ? Evidentemente il tavolo sta soffrendo di effetti di dilatazione 

termica. Pertanto di nuovo la definzione é manchevole. La domanda giusta da porre é quant’è lungo 

il tavolo a quella temperatura ? Ma c’è di più ancora. 

(5) Prendo un altro strumento “uguale” (un altro esemplare dello stesso strumento) e misuro 

sullo stesso punto alla stessa ora: ottengo l’intervallo 12.319 e 12.320. Allora ? Probabilmente é 

accaduto che gli esemplari dei due strumenti sono scalibrati. 

Il valore vero di questa grandezza (lunghezza del tavolo) é dunque “elusivo” per tante ragioni. Che 

cos’è il valor vero ? La definizione metrologica é: valore vero = “un valore compatibile con la 

definizione della grandezza”. Come abbiamo visto, affinché sia univoco, deve essere ben definito. 

Ricapitoliamo le varie ragioni di incertezza che abbiamo incontrato nell’esempio visto. 

13

(a) 

Limitazione dello strumento (che rimane anche quando prendo uno strumento molto 

“migliore”) dovuta alla spaziatura tra le divisioni. 

(b) 

Problema della calibrazione (infatti devo aver confrontato il mio regolo con il 

campione di riferimento in qualche modo). Ma se non l’ho fatto ? O se nel frattempo qualcosa del 

mio strumento é cambiato ? 

(c) Cattiva definizione di quello che misuro (lunghezza del tavolo dove ?, a che ora ?) 

(d) Effetti non considerati che alterano la cosa che sto misurando (dilatazione termica del tavolo). 

(e) 

(f) 

Si noti che tra le ragioni di incertezza elencate, la (c) si applica non a tutte le grandezze fisiche. 

Alcune grandezze infatti hanno un carattere “universale” e sono perfettamente definite: la velocità 

della luce nel vuoto, la massa del protone, la costante di Planck etc.. La misura di queste grandezze 

é dunque affetta da errori di misura tutti inerenti il metodo di misura (inteso in senso lato) ma non é 

affetta da errori di misura relativi alla definizione della grandezza. 

Per ora concludiamo questa prima analisi delle incertezze accennando al fatto che ci possono essere 

altre cause. Tra queste: 

Limitazione nella conoscenza di altre cose che mi servono per arrivare al mio 

risultato (per esempio alcune costanti fondamentali, o il risultato di altre misure). 

Limitatezza del campione (qui la parole campione ha un significato diverso da quella 

di unità campione), cioè limitatezza delle informazioni disponibili (è il discorso dei conteggi cui 

abbiamo già accennato). 

In ogni caso l’esito del processo di misura é un numero: il valore misurato μ. Nel nostro caso sarà 

per esempio il centro dell’intervallo tra gli estremi del quale cade la misura. Ma per quanto detto 

finora il risultato non può limitarsi a quel numero proprio perché la mia conoscenza é comunque 

incerta. Sembra (dagli esempi visti) molto più sensato dare un intervallo di valori che in sostanza 

mi dice entro quali valori io penso sia il valore vero. 

Diamo allora le seguenti definizioni: 

L’Incertezza, é la stima data dallo sperimentatore della larghezza dell’intervallo” nel quale lui 

“crede” debba essere il valor vero. Qui il termine “crede” é ambiguo ma verrà precisato in seguito. 

In genere viene data come metà dell’intervallo. 

La Stima del valor vero (miglior valore, valore centrale) é il valore centrale, quello che mi 

convince di più. In genere é il centro dell’intervallo per cui il modo più tipico di dare il risultato 

sarà: 

valore centrale ± incertezza. 

L’Errore di Misura é invece la differenza tra valor vero e valore misurato: non accessibile 

sperimentalmente (se lo sapessi saprei il valor vero) 

Si noti la differenza tra i termini errore ed incertezza che spesso nell’uso comune sono ugualmente 

usati. Usando correttamente i termini diciamo: in virtù dell’esistenza di errori di misura, lo 

sperimentatore deve valutare l’incertezza di misura e dare il risultato della sua misura come 

intervallo tra due valori della grandezza. 

L’errore di misura in generale ha tanti contributi con caratteristiche diverse (alcuni che posso far 

diminuire quando aumento le informazioni a mia disposizione, altri no). L’incertezza deve stimare 

tutti i contributi possibili. Nel caso della misura della lunghezza del tavolo fatta con il calibro 

avente una divisione minima di 10 μm, vi sono 4 contributi: (1) l’incertezza dovuta alla limitazione 

della lettura (~ 10 μm), (2) quella dovuta alla calibrazione assoluta dello strumento (una stima é la 

differenza tra la misura fatta da 2 esemplari dello stesso strumento ~ 40 μm), (3) quella dovuta 

all’effetto della temperatura (~ 30 μm) ed infine (4) quella dovuta alla definizione del misurando (in 

che punto misuro ~ 30 μm). Si tratta come si vede di un caso complesso in cui “convivono” diverse 

sorgenti di incertezza dello stesso “ordine di grandezza”, nessuna veramente “trascurabile”. 

14

Ricapitolando: poiché le misure sono affette da errori di misura occorre stimarne le incertezze. Non 

si può mai dare un solo numero come risultato, occorre dare un intervallo nel quale io dico debba 

cadere il valore vero. E la determinazione di tale intervallo deve contenere una stima di tutte le 

possibili sorgenti di errore che posso pensare. Fare un esperimento significa essenzialmente fare 

questo. 

La bravura dello sperimentatore consiste nel progettare l’esperimento e nel realizzarlo in modo che 

le incertezze siano “piccole” rispetto alla precedente conoscenza della grandezza in misura. 

Accenniamo qui al fatto che in molti casi é opportuno utilizzare l’incertezza relativa, cioè il 

rapporto tra la larghezza dell’intervallo, ovvero l’incertezza ed il valore centrale dell’intervallo. 

L’incertezza relativa ha il pregio di permettere un confronto tra le incertezze di misure diverse. Per 

esempio se io misuro una con una incertezza di un micron una lunghezza di 100 micron ho una 

misura al “percento”, perché il rapporto 1 μm / 100 μm = 0.01 = 1%. Se invece misuro sempre con 

una incertezza di un micron una lunghezza di 1 m, ho una incertezza relativa di 10 -6 m / 1 m =10 -6 , 

cioè sto misurando una lunghezza con una incertezza di una parte su un milione. Nei due casi 

illustrati le incertezze assolute sono le stesse (1 μm) ma le incertezze relative sono molto diverse (di 

ben 4 ordini di grandezza). Nel gergo dei fisici si usano spesso espressioni del tipo, “misura al 

percento” oppure “al permille”. Con tali espressioni si indica l’incertezza relativa della misura. 

(1.3) Esempi di valutazioni “qualitative” di incertezza 

Vediamo ora alcuni semplici esempi di stima dell’incertezza nel caso di misure dirette. Non si tratta 

di apprendere regole da applicare ma di imparare il metodo con cui i fisici generalmente discutono i 

vari casi che si presentano. 

(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento 

In molti casi fare una misura si riconduce alla lettura o di un display (lettura digitale) o della 

posizione di un ago su una scala graduata (lettura analogica). In cosa si distinguono il digitale e 

l’analogico (parole, la prima in particolare, usate anzi abusate oggi). In generale uno strumento che 

dà una risposta digitale é uno strumento che fornisce solo un insieme “discreto” di possibili 

risposte; lo strumento analogico dà un insieme “continuo” di possibili risposte. 

Consideriamo separatamente i due casi: 

(1) Lettura di un display. Se leggo un numero 5407.1 e questo numero é stabile (le cifre non 

cambiano nel tempo) l’unica conclusione che posso trarre é che il valore della misura sarà compreso 

tra 5407.05 e 5407.15. Infatti se fosse stato 5407.16 sarebbe stato approssimato a 5407.2 e cosi’ via. 

Posso dire niente di più ? Direi di no. Non so per esempio se é più ragionevole 5407.08 o 5407.09 

per me sono tutti ugualmente plausibili e ragionevoli. Dunque posso dare un intervallo 5407.10 ± 

0.05. Si noti che taluni strumenti possono usare diversi tipi di approssimazioni. Per esempio 

possono approssimare all’intero inferiore. In tal caso il nostro 5407.1 sarebbe equivalente ad un 

intervallo compreso tra 5407.1 e 5407.2 e il risultato potrebbe scriversi come 5407.15 ± 0.05. 

(2) Lettura di un ago fisso su una scala graduata. Ci sono intanto alcune cose da definire. La 

divisione é la distanza tra 2 tacche contigue; il fondo scala é il valore in corrispondenza del quale 

l’ago si porta all’estremo della scala. Più in là non si può andare. Proviamo a leggere la misura in 

questo caso. Devo dare una interpolazione tra divisioni; fino a che punto ci si può spingere ? Se do 

come intervallo le 2 tacche intorno all’ago certamente do un intervallo corretto. Sono certo che la 

misura sta li’. Tuttavia in questo caso posso fare meglio. Posso stabilire a quale delle 2 divisioni 

l’ago si é avvicinato di più, ci sono delle zone in cui é più plausibile situare il valore vero. Posso 

provare a stimare il più piccolo intervallo nel quale si situa con certezza il valore della misura. Nel 

corso della Esercitazione 1 cercheremo di stimare la capacità di interpolare tra le divisioni. Per ora 

ci limitiamo a stimare la capacità di interpolazione guardando i 5 esempi di Fig.1.1. 

15

Fig.1.1 Esempi di aghi analogici su scale graduate. Lo studente può tentare una prima interpolazione “a occhio” e 

poi controllare con i valori veri dati qui di seguito (sarebbe bene coprire questi numeri mentre si interpola con lo 

stesso metodo della prima esercitazione di laboratorio). [valori veri: 12.2210 / 12.7087 / 12.3500 / 12.5840 / 

12.8630 ] 

In generale fin qui ho stimato un intervallo massimo ovvero il più piccolo intervallo tale che sono 

“sicuro” che il valor vero della misura sia là dentro. Non ho specificato se alcune parti 

dell’intervallo sono più plausibili di altre. Nel caso del display digitale come abbiamo visto non c’è 

modo di fare di più. Nel caso della scala analogica invece posso fare qualcosa di più. Infatti ad 

alcune zone dell’intervallo credo di più che ad altre. Posso per esempio dire che la misura “non é” 

sulla divisione, oppure che é nella prima o nella seconda metà dello spazio tra le due divisioni. 

(1.3.2) Caso dei conteggi. 

Vi é un tipo di misura di grandissimo interesse ma che sfugge ai 2 schemi presentati nel precedente 

paragrafo. E’ il caso del conteggio cioè di una misura che si riconduce alla conta di un numero di 

volte in cui vi é una certa cosa. Appartengono alla classe dei conteggi i seguenti fenomeni: misure 

di radioattività (conto il numero di eventi radioattivi in un dato tempo), misure di concentrazione di 

una data specie, incidenza di una malattia in una popolazione, sondaggi e tutto il resto delle 

“misurazioni sociologiche”. Si tratta di tutti quei fenomeni in cui sono interessato al numero di 

occorrenze indipendentemente dall’ordine con cui queste si presentano. Possono essere nel dominio 

del tempo o dello spazio o di qualsiasi altra variabile. In ogni caso il risultato del conteggio é un 

numero intero (la variabile é dunque discreta non continua). 

Supponiamo di voler sapere quanti studenti si iscrivono al corso di laurea in fisica nella nostra 

Università. Li contiamo e troviamo 206. Cosa posso dire di questo numero ? Uno potrebbe dire che 

essendo un numero intero vale la regola del digit e dire 206.0 ± 0.5 ma evidentemente direbbe una 

sciocchezza. In realtà se la domanda che ci poniamo é quanti studenti si sono iscritti a fisica la 

risposta é 206 con incertezza nulla (a meno di non aver banalmente sbagliato il conteggio). Il 

problema sorge se vogliamo usare questo numero per stabilire quanti studenti in media si iscrivono 

a fisica in questi anni, oppure quanti possiamo prevedere se ne iscriveranno l’anno prossimo. Anche 

supponendo che le condizioni sociali non cambino e che gli orientamenti studenteschi rimangano 

immutati, nessuno direbbe mai che se ne iscriveranno di nuovo esattamente 206, ma tutti sappiamo 

che questo numero é destinato a fluttuare. Ma a fluttuare quanto ?é ragionevole supporre che se ne 

16

iscriveranno 50 o 2000 ? Intuitivamente direi di no. La teoria della probabilità e la statistica 

permettono in effetti di trattare le modalità di fluttuazione dei conteggi quando certe condizioni 

molto generali sono verificate. Le vedremo con un certo dettaglio nei prossimi capitoli. 

(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. 

Supponiamo ora che il display o l’ago non sono fissi ma si muovono, magari vibrano come spesso 

accade. Siamo in presenza di fluttuazioni, cioè del fatto che per certe ragioni, il risultato della 

misura presenta una variazione casuale e non predicibile nel tempo 

(1) Lettura display con una o più cifre che cambiano (le cifre di destra evidentemente cambiano più 

rapidamente di quelle di sinistra, la cifra che si trova all’estrema destra é anche detta “digit meno 

significativo”). In tal caso si cerca di capire quant’è il massimo e quant’è il minimo assunti dal 

display al passare del tempo. Tali due valori cosi’ ottenuti forniscono un “rudimentale” intervallo 

massimo. Si noti però che se io aspetto un po’ per trovare massimo e minimo nessuno mi garantisce 

che aspettando un po’ di più io non trovi un numero fuori dall’intervallo. Cioè non sono 

completamente certo in questo caso che la misura sia là dentro. Anzi, l’estensione dell’intervallo é 

qualcosa che in generale cresce al passare del tempo (sicuramente non decresce), e dipende anche 

da fluttuazioni anomale (per esempio uno sbalzo della rete può dare un valore completamente 

sbagliato che non ha molto significato includere nella mia valutazione). Fatte salve queste 

considerazioni, il centro dell’intervallo ± la sua semiampiezza é comunque una stima ragionevole. 

(2) Lettura di un ago che vibra su una scala graduata. Si può applicare lo stesso metodo discusso 

sopra per il display digitale con le stesse “critiche” fatte. 

(3) Nel caso in cui sono in condizioni di ripetere la misura (naturalmente devono essere immutate le 

condizioni) e se ogni volta ottengo un numero diverso (per esempio fotografo ad intervalli regolari 

il mio ago che vibra, oppure leggo il display ad intervalli regolari o acquisisco i suoi valori tramite 

calcolatore) posso usare tutto il complesso di numeri ottenuto per tentare una stima un po’ più 

approfondita di come vanno le cose. 

I dati che ho ottenuto costituiscono una sequenza di numeri (registrati su computer o scritti su logbook), 

cioè una tabella tempo-valore, in cui il valore si può riferire a qualunque grandezza fisica 

(una massa, un numero di persone..). Approfondiamo con il prossimo paragrafo cosa si può fare in 

questo caso. 

(1.3.4) Analisi grafica della sequenza di numeri. 

Intanto chiamiamo campione l’insieme dei dati ottenuto. Questo termine ha qui un significato 

diverso da quello che abbiamo usato in metrologia. Sta ad indicare semplicemente un insieme di 

dati sperimentali. 

Vediamo come rappresentare e descrivere il campione, utilizzando dei metodi grafici. Si tratta di 

“ridurre” una sequenza di tanti numeri a quelle informazioni che sono rilevanti ai fini della 

comprensione del problema. Ci accorgiamo subito che a tale scopo la rappresentazione grafica é 

estremamente efficace. 

Una prima cosa da fare é un grafico del risultato in funzione del tempo (o di altre variabili 

rilevanti). Questo grafico infatti permette di fare una analisi delle fluttuazioni e di chiedersi in 

particolare se queste sono “casuali” o se c’è piuttosto una “tendenza”. Qui si può fare una prima 

analisi “a occhio” per capire. In generale l’occhio tende a confrontare la variazione della grandezza 

con le dimensioni delle fluttuazioni e tende a giudicare se una tendenza in un grafico é o no 

“significativa”. In altre parole il nostro occhio tende a distinguere tra un andamento (che é la cosa 

significativa che vogliamo studiare) e una serie di fluttuazioni casuali che semplicemente rendono i 

valori misurati più dispersi. Per questo confrontiamo le Fig.1.2 e Fig.1.3. In entrambe le figure sono 

riportate sequenze di 20 misure. Nel primo caso non si osserva alcun andamento ma solo delle 

17

fluttuazioni. Nel secondo caso invece, si ha una chiara tendenza all’aumento, sebbene sovrapposta 

ad una “banda” di fluttuazioni. In entrambe le figure sono disegnate due tipi di curve: delle spezzate 

cioè dei segmenti che uniscono i vari punti, ed un unica curva continua che dà l’idea 

dell’”andamento medio”. Si noti che mentre le spezzate non hanno molto significato (infatti non 

fanno altro che seguire delle fluttuazioni irrilevanti), le curve continue danno una idea chiara 

dell’andamento dei dati che in un caso (Fig.1.2) é piatto, nell’altro (Fig.1.3) é invece a crescere. 

Un secondo tipo di grafico é l’istogramma delle misure. Vediamo come si costruisce l’istogramma 

dei valori. Si divide l’intervallo di valori possibili in sottointervalli (vengono detti bin). Poi si conta 

il numero di valori che cadono in ciascun sottointervallo (contenuto del bin) e si fa una barra per 

ciascun intervallo di altezza proporzionale al contenuto del bin. La scelta del binning cioè delle 

dimensioni del bin deve essere ben calibrata. Ci sono infatti 2 estremi da evitare, ambedue sbagliati: 

bin troppo piccolo e bin troppo grande. Ciò é esemplificato dalle Fig.1.4 e 1.5 dove uno stesso 

campione di dati é rappresentato con binnaggi molto diversi. La scelta del binnaggio dipende 

essenzialmente dalle seguenti 3 considerazioni: (1) dalla “dispersione” delle misure cioè da quanto 

é largo l’intervallo nel quale sono distribuite; (2) dal numero di valori che si ha nella sequenza: se i 

valori sono tanti uno tende a restringere il bin, in caso contrario bin troppo stretti alzano le 

fluttuazioni tra i contenuti dei sottointervalli; (3) dalla scala delle variazioni della grandezza a cui 

sono interessato. La Fig.1.5 illustra un caso in cui la considerazione (3) gioca un ruolo molto 

rilevante. E’ utile discutere quale binnaggio sia il migliore tra quelli provati alla luce delle 

considerazioni svolte sopra. 

In generale nel passare dal grafico dell’andamento all’istogramma ho perso informazioni. Infatti 

una volta messi i valori nei bin non so più con che sequenza sono arrivati. Inoltre tutti i valori che 

cadono in un bin a questo punto sono uguali (associabili al centro del bin). 

Fig.1.2: Grafico della variabile in funzione del tempo per una sequenza di 20 misure. (a) grafico semplice, (b) 

grafico con una spezzata cioè con una linea che unisce i punti e (c) grafico con sovrapposta una retta che esprime 

un andamento “piatto” medio dei punti. 

18

Fig.1.3: Come per la figura 1.2 solo che stavolta si ha un andamento molto chiaro e in (c) tale andamento é indicato 

con una retta di coefficiente angolare positivo. 

Fig.1.4 Campione di 2000 valori istogrammato in 3 modi diversi con diversa scelta del binning. Si noti come sono 

diverse le informazioni che si hanno a occhio. Il caso intermedio sembra comunque costituire la scelta più sensata. 

19

4000 

3500 

3000 

2500 

2000 

1500 

1000 

500 

0 

600 650 700 750 800 850 900 950 1000 

M(ππ) (MeV) 

40000 

35000 

30000 

25000 

20000 

15000 

10000 

5000 

0 

600 650 700 750 800 850 900 950 1000 

M(ππ) (MeV) 

Fig.1.5. Esempio di uno stesso istogramma in due diversi binnaggi. Nella figura in alto l’istogramma ha un 

binnaggio di 1.2 MeV, nel secondo di 12 MeV. Si tratta di un caso in cui l’istogramma con binnaggio più 

largo non permette di evidenziare delle “strutture fini” come i 2 picchi alla destra della distribuzione, che 

invece sono evidenziati dal primo binnaggio. 

L’istogramma si chiama anche distribuzione delle misure. Se anziché riportare il numero di eventi 

per bin riporto il numero di eventi nel bin diviso per il numero totale di eventi, sto facendo una 

distribuzione di frequenze. Si definisce frequenza infatti la frazione di volte in cui un evento cade in 

un dato sottointervallo. E’ un numero che mi dice quanto spesso, se ripeto la misura, questa cadrà 

all’interno di quel bin. E’ qualcosa che può fornire indicazioni per eventualmente scommettere su 

dove finirà la misura. 

Si noti che nei casi discussi sopra (digit o ago fermi) i grafici non “aiutavano” molto: avremmo 

avuto un unico bin e una sequenza di numeri tutti uguali. 

Facciamo ora alcune considerazioni sui grafici. 

A cosa serve un grafico ? In generale serve per “far capire bene una certa cosa”. Quindi la sua 

principale proprietà deve inevitabilmente essere la chiarezza. Originariamente i grafici venivano 

fatti a mano utilizzando la carta millimetrata . Oggi l’uso dei computer rende la carta millimetrata 

“obsoleta”. Tuttavia fidarsi solo dei computer é per molti versi pericoloso come abbiamo già visto. 

Per questo é opportuno usare come primo approccio ai grafici proprio la carta millimetrata. 

Di cosa dobbiamo preoccuparci quando facciamo un grafico: 

- sapere quali sono la/le grandezze nei 2 assi e quali sono le (eventuali) unità di misura; 

- riuscire a capire quali sono le scale; la scala definisce il massimo ed il minimo di ciascun asse 

coordinato e le loro “divisioni”. Deve essere indicata in modo che sia comprensibile. A tale scopo é 

opportuno mettere “numeri semplici” sugli assi, non “numeri strani” (vedremo meglio questo nelle 

esercitazioni); 

- i “punti sperimentali” devono essere chiaramente visibili e deve essere facile individuarne i valori 

numerici usando la scala. 

20

Fig.1.6 Tre esempi di istogrammi. Per ciascuno sono indicati i valori dei 3 descrittori globali che abbiamo 

introdotto nel testo: media, moda e mediana. Le 3 linee sono disegnate in corrispondenza delle mediane. 

140 

120 

100 

80 

60 

40 

20 

0 

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 

cos(θ) 

5000 

4000 

3000 

2000 

1000 

0 

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 

cos(θ) 

Fig.1.7. Due esempi di distribuzioni angolari molto diverse definite però nello stesso intervallo (-0.7:0.7). Sono 

indicati gli intervalli x ± s e x ± 2s. In entrambi i casi l’intervallo x ± 2sé sufficiente per includere tutta la 

distribuzione e costituisce pertanto un intervallo di certezza. L’intervallo x ± sé invece parziale e racchiude il 

61% degli eventi nel grafico in alto ed il 58% in quello in basso. 

21

(1.3.5) Caratteristiche riassuntive di una sequenza di numeri 

Oltre ai grafici voglio però dare dei numeri riassuntivi al fine di stimare appunto il miglior valore e 

l’incertezza. Voglio definire dei “descrittori globali” del mio campione. 

Media aritmetica: si tratta di una nozione intuitiva che indica il valore che meglio rappresenta il 

campione. L’operazione di media aritmetica é “elementare” e “naturale” nel senso che anche senza 

se non ce ne accorgiamo la facciamo spesso. 

Come si fa la media ? Se ho fatto N misure e ho ottenuto i valori x , x ,..., x definisco media 

1 2 

N 

aritmetica la quantità: 

x 

= 1 

N 

∑ xi 

i= 

N 

Tuttavia la quantità cosi’ definita non sempre corrisponde al “valore centrale” o a quello “più 

probabile” della distribuzione. Ci sono esempi di distribuzioni in cui la media aritmetica non é né 

l’una ne l’altra delle due cose. In Fig.1.6 sono riportati degli esempi di istogrammi di misure con i 

valori corrispondenti della media. Si vede immediatamente che solo in caso di istogrammi 

simmetrici la media ha il significato intuitivo di valore centrale e più probabile. 

Si possono definire altre misure: la Moda é il valore più probabile della grandezza ovvero il picco 

più alto dell’istogramma; la Mediana é quel valore della grandezza tale che la frequenza che venga 

di meno é uguale alla frequenza che venga di più. Quando l’istogramma é simmetrico come nel 

caso del primo dei 3 riportati in Fig.1.6 le tre misure dette sostanzialmente coincidono. Negli altri 2 

casi invece la media aritmetica non corrisponde al centro dell’istogramma. 

Se ho dei valori istogrammati posso raggruppare i valori e allora posso definire 

x 

b 

Nb 

∑ n x 

k 

k= 

1 

∑ n 

= Nb 

k= 

1 

k 

b 

k 

b 

in cui Nb é il numero di bin, n è il contenuto del k-esimo bin ed x è il centro del k-esimo bin. Si 

k 

k 

noti che Nb é diverso da N. Le due definizioni di media aritmetica sono leggermente differenti. 

Infatti nel secondo caso in realtà finisco per attribuire a ciascuna misura il centro del bin cui 

appartiene. Quindi si “perde” informazione. La seconda definizione può dunque portare a 

distorsioni del valore della media, distorsioni tanto più grandi quanto maggiore é la dimensione del 

bin scelta. 

Notiamo inoltre che, da quanto detto, occorre fare attenzione al fatto che la media ha un significato 

chiaro solo se non ci sono andamenti sovrapposti alle fluttuazioni. In generale infatti la dispersione 

dell’istogramma totale ha una componente dovuta alle fluttuazioni ed una componente che dipende 

dal tempo dovuta proprio all’andamento (questo si applica in particolare ai dati di Fig.1.3). La 

media quindi in questo caso dipende da dove e quanto campioniamo. 

Oltre alla posizione voglio stimare la dispersione (che é legata all’incertezza sulla misura) cioè la 

larghezza dell’istogramma o della banda di fluttuazione nel grafico. 

Posso fare ( massimo – minimo ) / 2 ottenendo cosi’ un intervallo massimo. Ciò corrisponde a 

quanto detto sopra per il caso di misure digitali con cifre fluttuanti o nel caso di un ago in moto. Si 

presta alla critica fatta allora. Abbiamo bisogno di un metodo più “stabile”. 

Deviazione Standard Campionaria. Allo stesso modo con cui ho definito la media aritmetica 

come stima del valore centrale, posso definire come stima della dispersione, la “media degli scarti 

dalla media”. Tuttavia mi accorgo immediatamente che se definisco 

22

N 

∑( 

x − x) 

i 

i 

s = = 1 N 

cioè la media degli scarti, ho una variabile identicamente nulla. Infatti si ha: 

1 

= ∑ N 

xi 

Nx 

i= s − = x − x = 0 

N N 

per definizione. In effetti ciò significa che la media aritmetica é proprio quel valore di x rispetto al 

quale é nulla la media degli scarti. Una definizione più appropriata di dispersione si ottiene 

considerando la media degli scarti al quadrato 

s 

N 

∑( 

x 

− x) 

2 

2 

i 

i= 

= 1 

N 

e poi prendendone la radice quadrata (per avere anche una grandezza omogenea dimensionalmente 

a x): 

s 

i= 

1 

= 

N 

∑( 

x 

i 

− x) 

N 

2 

Si tratta di una grandezza sempre positiva che prende il nome di deviazione standard campionaria o 

anche semplicemente deviazione standard. Il suo quadrato é detto varianza campionaria o 

semplicemente varianza. Il suo significato é chiaramente intuitivo (quanto scarto in media dalla 

media). Rispetto alla stima dell’intervallo massimo, ha il vantaggio di usare tutti i dati e di essere 

meno sensibile ad eventuali fluttuazioni anomale. Nel seguito del corso vedremo più 

approfonditamente il suo significato. Per ora essa é una stima della “dispersione delle misure”. 

Si noti che in base alla definizione appena fatta, c’è un secondo modo di calcolare la deviazione 

standard campionaria. Infatti essa può essere espressa come (consideriamo prima la varianza 

campionaria): 

s 

2 

N 

∑( 

xi 

i= 

1 

= 

2 

− 2x 

x + x 

N 

i 

2 

) 

N 

∑ xi 

i= 

1 

= 

N 

2 

N 

x∑ 

xi 

i= 

1 

− 2 

N 

+ x 

2 

= 

x 

2 

− x 

cioè come la differenza tra la media dei quadrati e il quadrato della media. Si noti che tale 

differenza non é 0 in generale ma é per definizione una quantità positiva. Cosi’ definita, la 

deviazione standard può essere valutata senza aver prima valutato la media aritmetica. Dal punto di 

visto del calcolo, significa che anziché fare 2 “loops” sulle misure, é sufficiente farne 1. 

Se definisco un intervallo centrato nella media e di semilarghezza pari alla deviazione standard, 

questo intervallo non é un intervallo massimo. Rappresenta solo una parte della larghezza. Non 

sono certo che la misura cada là dentro. Tuttavia é una misura proporzionale alla larghezza. Fig.1.7 

mostra per alcuni istogrammi, l’intervallo centrato sulla media delle misure e avente la deviazione 

standard come semilarghezza. Si può osservare (si tratta di una osservazione su base puramente 

empirica per la quale troveremo una giustificazione nel seguito del corso) che costruendo intervalli 

di semilarghezza pari a 3 volte la deviazione standard, si ottengono intervalli all’interno dei quali 

praticamente tutti i valori sono contenuti. Nel seguito chiameremo tali intervalli, intervalli di quasicertezza. 

Nel seguito vedremo anche che la deviazione standard come l’abbiamo definita deve essere corretta 

per tenere conto del fatto che nel considerare gli scarti tra ciascuna misura e la media aritmetica, in 

realtà sto usando 2 volte ciascuna misura: infatti ciascuna misura compare sia nella media, che 

come singola misura. Questo fatto si traduce nella seguente definizione: 

2 

23

( 

1 

= ∑ N 

xi 

i= 

s 

N 

− x) 

−1 

2 

in cui viene sottratta una unità al denominatore. Nel seguito chiameremo deviazione standard 

campionaria la quantità s appena definita e chiameremo s quella con N al posto di N-1. 

Anche per s vale una forma analoga a quella vista per 

s 

2 

N 

= 

N −1 

2 

2 

( x − x ) 

Infine per la deviazione standard campionaria si può dare una definizione sull’istogramma come per 

la media, nella forma: 

s = 

Nb 

∑ 

k = 1 

n ( x 

k 

Nb 

∑ 

k= 

1 

n 

b 

k 

k 

− x) 

−1 

2 

per la quale valgono le stesse considerazioni fatte per la media. 

Ricapitolando: sono andato riducendo i dati cercando di mantenere le informazioni rilevanti: dalla 

sequenza di numeri ho ricavato il grafico in funzione del tempo, quindi l’istogramma dei valori 

(prima perdita di informazioni), infine ho imparato a valutare la “posizione” e la “dispersione” del 

campione (seconda perdita di informazioni). 

s 

N 

N 

Fig.1.8: Sequenza di 1000 misure ripetute ogni 10 secondi. Nella figura di sotto sono riportate le medie fatte ogni 

20 misure. Si noti il restringimento della banda di fluttuazioni. 

24

Fig.1.9: Per la sequenza illustrata in Fig.1.3 facciamo l’istogramma delle prime 100 misure, quello di tutte le 1000 

misure ed infine l’istogramma delle medie fatte ogni 20 misure. Si noti 

aggiungendo statistica la distribuzione mantiene sostanzialmente la stessa larghezza; 

l’istogramma delle medie é “molto più stretto”. 

(1.3.6) Stima di intervalli. 

Consideriamo ancora il caso in cui ho N misure ripetute di una grandezza fisica secondo le modalità 

viste nel precedente paragrafo. Dopo averle studiate graficamente e averne calcolato le 

“caratteristiche riassuntive” media e deviazione standard campionaria, voglio concludere dando in 

forma compatta il risultato della misura sotto forma di un valore centrale e di un’incertezza. Che 

informazione voglio dare con questo intervallo di incertezza ? Il mio obiettivo rimane quello di dire 

qualcosa riguardo il valor vero, cioè di dare un intervallo in cui deve trovarsi il valor vero. Ma al 

tempo stesso la mia affermazione deve anche essere predittiva. Cioè devo predire la cosa seguente: 

se io o un’altra persona ripetiamo la misura in quale intervallo cadrà tale misura ? In questa 

prospettiva devo subito distinguere tra 2 possibilità: 

(a) Stimo un intervallo tale che la prossima misura cada là dentro. 

(b) Stimo un intervallo tale che se rifaccio N misure la loro media cada là dentro. 

Occorre distinguere bene i 2 casi, cioè il caso in cui sono interessato alla incertezza sulla singola 

misura (caso (a)) e il caso in cui sono interessato all’incertezza sulla media (caso (b)). 

A questo proposito é interessante fare l’esercizio illustrato dalla Fig.1.8. E’ illustrato il grafico 

dell’andamento di 1000 misure ripetute ad intervalli regolari di 10 secondi di una certa grandezza 

fisica. Ogni punto nel grafico in alto é dato da una singola lettura dello strumento. Se raggruppo i 

dati M a M (con M evidentemente < N e L=N/M numero dei gruppi) e grafico l’andamento delle L 

medie di ciascun gruppo, osservo che le medie fluttuano meno rispetto alle singole misure. In altre 

parole l’operazione di media ha il potere di “smorzare” le fluttuazioni. Questo fatto é di estrema 

importanza. Si trova che (lo dimostreremo più avanti nel corso) vale la regola: 

s( 

x) 

s( x) 

= 

M 

25

Cioè le medie fluttuano M volte meno di quanto fluttuano le singole misure. Mi aspetto quindi che 

facendo la media di tutte le N misure, questa fluttui N volte meno della singola misura. 

Si noti tuttavia che la deviazione standard della singola misura (s per intenderci) non diminuisce al 

crescere delle misure ma semplicemente si stabilizza, cioè l’istogramma presenta sempre la stessa 

forma, ma le fluttuazioni tendono a diminuire come é ben illustrato dal confronto tra i 2 istogrammi 

in alto della Fig.1.9. Viceversa la deviazione standard della media diminuisce come appunto 

mostrato nel terzo istogramma di Fig.1.9. La deviazione standard di quest’ultimo istogramma é 

proprio 

≈ 

M 

volte più piccola di quella fatta usando la singola misura. 

Tornando dunque al nostro problema di definire un intervallo per la singola misura (caso (a)) e per 

la media delle N misure, potrò procedere nel modo seguente: 

caso (a) x ± s 

caso (b) x ± s / N 

che esprime il fatto che mentre mi aspetto che una successiva N+1-esima misura sia distribuita 

secondo la Fig.1.9(2), la media di un altro set di M misure sarà distribuita secondo la Fig.1.9(3). 

In definitiva se voglio dare la migliore stima di un intervallo per il valor vero é corretto utilizzare il 

caso (b) con il quale uso tutte le informazioni in mio possesso nel modo più efficace. 

Concludiamo il paragrafo con un paio di osservazioni. 

Osservazione 1: confrontiamo il caso che abbiamo appena visto, con quello di una misura che 

non cambia (digitale o analogica che sia). La situazione in cui le misure cambiano sembra 

paradossalmente migliore. In effetti é proprio cosi’. Il fatto é che se le misure fluttuano, aumentarle 

di numero aiuta perché permette di conoscere sempre meglio la media e di veder diminuire la 

deviazione standard come 1 / N . Se invece ottengo sempre lo stesso valore evidentemente non 

posso andare aldisotto della mia capacità di interpolare tra le divisioni o al digit più significativo. 

Questo apparente paradosso ci insegna che occorre scegliere opportunamente il passo minimo (la 

risoluzione) del nostro strumento di misura sulla base delle fluttuazioni della misura stessa. 

Osservazione 2: l’uso della deviazione standard della media mi permette di dare un intervallo 

per il valor vero. Quale é il significato “probabilistico” di questo intervallo ? Come abbiamo già 

visto, la risposta a questa domanda verrà dalla seconda parte del corso. Per ora possiamo dire solo 2 

cose: (1) in generale non si tratta di un intervallo “massimo”; (2) il contenuto probabilistico 

dell’intervallo dipende da come sono distribuite le misure, cioè dalla forma dell’istogramma e dal 

numero di misure effettuate; (3) un intervallo di semilarghezza pari a 3 deviazioni standard 

(intervallo di quasi-certezza definito in precedenza) ha un significato probabilistico che in ogni caso 

é di quasi certezza. 

È interessante stimare il contenuto probabilistico di una deviazione standard direttamente dai dati 

(quanti degli N valori sono fuori dall’intervallo x ± s ) per gli istogrammi delle varie figure 

mostrate (in particolare Fig.1.7). 

(1.3.7) Errori sistematici 

Dalle considerazioni fatte in precedenza sorge una domanda: ma allora se aumento N a piacere 

mando la larghezza del mio intervallo a 0. E’ vero ? 

In linea di principio si. In realtà accade che oltre un certo valore di N aumentare il numero di misure 

non serve più. Infatti a un dato punto entrano in gioco altri errori dovuti ad una delle cause che 

abbiamo indicato all’inizio della nostra discussione sulle incertezze, e che in generale possono non 

dipendere da quante misure facciamo. 

Possono dipendere da: 

Calibrazione degli strumenti. 

Condizioni non sotto controllo. 

26

Rientrano in questa categoria gli errori sistematici. Il termine errore sistematico é un termine forse 

non del tutto appropriato. Nasce dal fatto che tendenzialmente si tratta di errori che hanno una 

“direzione fissa”. Per esempio nel caso della taratura, uno strumento starato lo é in una direzione. In 

molti casi il costruttore dello strumento che stiamo usando fornisce nel libretto di istruzioni, 

l’indicazione dell’errore sistematico dovuto ai vari possibili effetti. In tal caso é possibile trovarsi in 

una situazione in cui anche se lo strumento sembra molto buono (per esempio é possibile 

apprezzare molti digits che non cambiano quando ripeto la misura), in realtà la sua accuratezza può 

essere molto cattiva fino a dominare l’incertezza complessiva della misura. 

In generale dunque é opportuno riferirsi alla seguente distinzione tra due categorie di errori: 

Errori sistematici (se aumento il campione questi non diminuiscono). Se li conosco posso 

correggere il mio risultato, se non li conosco devo stimare un intervallo nel quale sono contenuti. 

Errori casuali (posso mandarli a 0 nel limite di campione infinito). Si trattano con i metodi 

propri della statistica di cui abbiamo visto alcuni esempi. 

In definitiva l’errore sistematico é quello che rimane nel limite di campione di dimensione infinita. 

(1.4) Sequenze di “coppie” di misure 

Passiamo ora ad un diverso problema. Immaginiamo di avere una sequenza di coppie di valori di 2 

grandezze fisiche, cioè una tabella con 2 colonne e N righe, e ciascuna riga rappresenta il risultato 

della misura simultanea delle 2 grandezze che stiamo studiando. 

In taluni problemi infatti, i fenomeni devono essere descritti non solo da una variabile casuale, ma 

da più variabili casuali. Non sempre ci si trova in condizioni di poter trattare in modo separato 

ciascuna variabile casuale. Nell’esperienza della molla vediamo che T ed M ma anche δx ed M 

sono tali che al variare dell’una varia l’altra. Un esempio diverso dal precedente si ha quando 

consideriamo una misura di superficie, fatta misurando i due lati con lo stesso strumento 

caratterizzato da una dipendenza dalla temperatura o da altri parametri che spostano la sua 

calibrazione. E’ chiaro che in tal caso gli errori di misura di un lato e dell’altro lato non sono 

indipendenti, ma hanno un andamento “analogo”. In entrambi gli esempi fatti siamo in presenza di 

grandezze fisiche correlate cioè tali che i valori assunti dall’una e dall’altra non sono indipendenti 

ma sono legati da una qualche forma di dipendenza. 

Si deve tuttavia distinguere tra due casi (per evitare confusioni): 

(a) il caso in cui sono correlate le grandezze; 

(b) il caso in cui sono gli errori di tali grandezze ad essere correlati. 

Il caso della molla é del primo tipo. Infatti T é correlato ad M ma non sono correlate la misura di T 

con quella di M. Nel secondo caso invece i valori dei 2 lati non sono correlati, ma gli errori di 

misura che faccio nel misurare le 2 cose sono invece chiaramente correlati. 

La correlazione tipo (a) rientra nell’ambito delle dipendenze funzionali tra grandezze fisiche, 

dovute proprio alla “fisica del fenomeno”, ed é quindi oggetto di studio (come vedremo nel terzo 

capitolo). La correlazione del tipo (b) é invece una caratteristica dell’”apparato di misura”, ed in 

generale é non voluta. Bisogna tuttavia tenerne conto nell’interpretare i risultati delle misure. 

Ci occupiamo a questo punto del caso (b), cioè del caso in cui due o più grandezze fisiche 

presentano una correlazione dovuta al modo con cui le misuro. 

Il modo più semplice per mettere in evidenza il fenomeno della correlazione tra 2 grandezze A e B é 

quella di ripetere N volte la misura simultanea delle 2 grandezze nelle stesse condizioni e di 

27

iportare su un grafico N punti ciascuno avente per ascissa la grandezza A e per ordinata la 

Fig.1.10 Esempio di grafico di correlazione tra 2 variabili fortemente correlate (qui ρ=0.9). Sotto sono poi mostrati 

gli istogrammi delle proiezioni sui due assi. 

Fig.1.11 Altro esempio di grafico di correlazione nel caso in cui ρ=0. Si noti che gli istogrammi delle 2 proiezioni 

sono simili a quelli di Fig.1.10. Ciò indica che la correlazione non può essere desunta da semplici istogrammi di 

correlazione ma necessita di grafici di correlazione. 

grandezza B. Si tratta di un grafico bi-dimensionale o grafico di correlazione. Le proiezioni sui 2 

assi A e B di questo grafico, altro non sono che i 2 istogrammi mono-dimensionali delle 2 

28

grandezze dai quali possiamo ricavare media e deviazione standard secondo i ben noti metodi. Due 

esempi sono illustrati nelle Fig.1.10 e 1.11. Le figure mostrano un caso chiaro di correlazione e un 

caso chiaro di non correlazione. Nel primo caso i punti tendono a disporsi sul grafico lungo la 

bisettrice del primo e terzo quadrante, nel secondo caso invece il grafico si presenta come una 

”palla”. Nel primo caso si ha dunque una correlazione, cioè le fluttuazioni di una grandezza sono 

“correlate” alle fluttuazioni dell’altra. Quando A fluttua positivamente anche B lo fa. Nel secondo 

caso invece questo chiaramente non succede. La distribuzione di B é indipendente da A. Si noti che 

nei 2 casi, gli istogrammi delle proiezioni sono equivalenti. Questo ci dice che il grafico bidimensionale 

porta informazioni in più che l’analisi delle singole proiezioni tende a mascherare. 

In analogia a quanto fatto per la sequenza di numeri, definiamo una nuova grandezza che 

caratterizza lo stato di correlazione tra le 2 grandezze che stiamo considerando. La covarianza 

campionaria tra due grandezze x 1 ed x 2 definita come: 

( 

1 

cov( , ) = ∑ N 

x 

i= 

x x 

1 

2 

i 

1 

− 

i 

x )( x 

1 

2 

N −1 

− 

x 

2 

) 

Per determinare questa grandezza sperimentalmente occorre misurare una sequenza di N coppie di 

valori di x 1 e di x 2 in condizioni di ripetibilità della misura, e da questi applicare la definizione. Un 

modo equivalente per esprimere la covarianza campionaria é dato da: 

cov( x , x 

1 

2 

N 

) = ∑ = 

i 1 

i 

( x x 

1 

i 

2 

− x x 

1 

i 

2 

− x 

N −1 

i 

1 

x 

2 

+ x x ) 

1 2 N 

= 

N −1 

( x x − x x ) 

da cui si vede come la covarianza campionaria costituisce una generalizzazione della varianza 

campionaria (che chiamiamo Var(x) intendendo con ciò s 2 ). Infatti 

Var ( x) 

= cov( x, 

x) 

cioè la varianza campionaria altri non é che la covarianza calcolata tra una grandezza e se stessa. 

Per la covarianza delle medie tra 2 campioni vale che: 

cov( x , x ) 

1 2 

cov( x , x ) = 

1 2 

N 

cioè, come per la varianza campionaria, la covarianza tra medie diventa sempre più piccola al 

crescere della dimensione del campione. 

Si definisce infine anche il coefficiente campionario di correlazione: 

r ( x 

1 

, x 

2 

) 

∑ 

N 

∑ 

i = 1 

= 

N 

( x 

( x 

i 

i 

1 

− 

− 

x 

x 

)( x 

∑ 

1 

1 

i = 1 i = 1 

1 

) 

2 

N 

i 

2 

( x 

− 

i 

2 

che é sempre definito tra –1 ed 1 ed esprime in forma adimensionale il grado di correlazione tra 2 

grandezze. Si noti come queste definizioni campionarie, costituiscono una espressione in forma 

“quantitativa” di quanto graficamente é espresso dai grafici visti. Per comprendere il significato del 

coefficiente di correlazione r é utile riferirsi al grafico di Fig.1.12. Dividiamo il grafico di 

correlazione in 4 quadranti intorno ad un punto di coordinate date dai 2 valori medi come in figura. 

I punti appartenenti a ciascun quadrante sono caratterizzati da diversi segni delle fluttuazioni 

rispetto al valore medio e sono indicati come ++, --, +-, -+. Riferendosi all’espressione di r appena 

data, vediamo che i 4 quadranti danno i seguenti segni ad r: +, +, -, -. Quindi il prevalere dei punti 

su un dato quadrante fa prevalere un segno in r. Nel caso della figura il prevalere dei punti nei 

quadranti (++) e (--) fornisce un valore positivo di 0.9. Quando i 4 quadranti hanno mediamente lo 

stesso numero di punti (è il caso della “palla” di non correlazione), r sarà mediamente 0. 

Si noti che nel caso di mancanza di correlazione non dobbiamo aspettarci 0 esattamente, ma un 

numero abbastanza prossimo a 0. Quanto prossimo deve essere dipende dal numero N di misure. 

x 

− 

2 

) 

x 

x 

) 

2 

1 

2 

1 

2 

29

Esiste un metodo detto test di correlazione per stabilire su basi quantitative la correlazione tra 

grandezze (tale test sarà trattato nei corsi successivi di laboratorio). 

Fig.1.12 Stesso grafico di correlazione con r=0.9 mostrato nella Fig.1.10 suddiviso nei 4 quadranti. 

(1.5) Terminologia 

È bene fare chiarezza sul significato di alcuni termini che si usano quando si parla di strumenti e di 

misure. Facciamone un elenco (alcune cose le abbiamo già definite): 

sensibilità : quanto la variazione del misurando, fa cambiare l’uscita dello strumento 

risoluzione : minima differenza tra le possibili uscite di uno strumento che sia “apprezzabile”. E’ 

la sensibilità in forma “quantizzata”. E’ il digit nel caso digitale. 

precisione : quanto sono vicini i risultati di una misura quando la ripeto. 

accuratezza : vicinanza tra valore vero e valore misurato, nel limite in cui ho un campione di 

dimensione infinita; é collegata chiaramente a quello che abbiamo chiamato errore sistematico. 

tolleranza : entro quale intervallo i valori di una tale grandezza sono accettabili. E’ una 

“specifica” del costruttore di uno strumento o di un qualche componente. 

ripetibilità : sono in condizioni di ripetibilità quando posso ripetere la misura senza che cambino 

quelle condizioni che possono alterarne l’esito. 

riproducibilità : sono invece in condizioni di riproducibilità quando un dato risultato viene 

ottenuto da esperimenti diversi. In genere, l’accettazione di un dato risultato passa attraverso la 

verifica di tale proprietà. Un risultato che non viene riprodotto o che non può essere riprodotto é 

infatti “sospetto” e generalmente non accettato dalla comunità scientifica. 

È da notare che questo “glossario” non é univoco (dipende dai testi). Quello che usiamo noi 

risponde alle più recenti norme metrologiche. 

(1.6) Cifre significative 

30

Come si scrivono i numeri in fisica ? I numeri in fisica sono i risultati di una misura oppure sono il 

risultato di una predizione teorica. In generale i numeri in fisica hanno un significato diverso da 

quello che hanno i numeri in matematica. Di questo occorre tener conto. Vediamo come. 

Capita a volte di trovarsi di fronte a numeri del tipo 1.342607 (per esempio possiamo leggere un 

numero del genere sul display della nostra calcolatrice). Impariamo a contare le cifre di questo 

numero. Quante cifre ha ? Un numero cosi’ fatto ha 7 cifre significative ed é scritto con una 

notazione per la quale ha 6 decimali cioè 6 cifre dopo la virgola. Prendiamo invece 0.022. In questo 

caso sono 2 le cifre significative perché gli zeri a sinistra non contano. Che gli zeri a sinistra non 

contano, lo vediamo per il semplice fatto che questo stesso numero io posso scriverlo come 22x10 -3 

o 2.2x10 -2 cioè con 2 cifre. Viceversa il numero di decimali dipende da come lo scrivo. 0.022 ha 3 

decimali, 22x10 -3 o 2.2x10 -2 ne hanno rispettivamente 0 e 1. Quindi : il numero di cifre significative 

é una caratteristica intrinseca del numero, il numero di decimali dipende da come lo scrivo cioè da 

dove metto la virgola. 

La notazione esponenziale serve essenzialmente ad evitare le cose tipo 0.0000000011 o 132000000. 

Quando gli 0 sono inutili, quando sono a sinistra o a destra, conviene toglierli dopo averli contati e 

messo l’esponente di 10. 

Torniamo al nostro problema del significato dei numeri. Poiché, come abbiamo detto, il significato 

dei numeri in fisica é diverso da quello che si ha in matematica, occorre fare attenzione. Scrivere 1 

o 1.0 o 1.00 dal punto di vista del matematico significa scrivere lo stesso numero. Dal punto di vista 

del fisico no. I numeri in fisica, essendo risultati di misure, portano informazioni. Pertanto occorre 

limitarsi a quelle cifre che rispecchiano informazioni reali alle quali “credo”. Dunque quando scrivo 

un numero devo tener conto di quanto sono incerto su quel numero. 

Esempio. Leggo una sequenza di 6 misure consecutive da un display digitale a 8 cifre. I numeri 

sono (prima colonna della tabella): 

21.045277 21.045 

21.047410 21.047 

21.046389 21.046 

21.043976 21.044 

21.045608 21.046 

21.043578 21.044 

Che significato hanno le settime e ottave cifre di ciascun numero ? Evidentemente la grandezza sta 

variando sulla cifra 5. Le prime 4 sono significative, la 5 anche perché pur fluttuando, alcuni valori 

sono più frequenti di altri. Dalla numero 6 in poi non significano più nulla. Quindi sarà bene 

riportare la sequenza nella forma indicata nella colonna di destra. Si noti che nel passare dalla 

colonna di sinistra a quella di destra ho dovuto troncare i numeri, e nel farlo ho approssimato 

l’ultima cifra al valore inferiore nelle prime tre righe e a quello superiore nelle ultime tre. Il motivo 

é evidente. Infatti se la cifra successiva (la prima che tolgo) é 0,1,2,3 o 4 allora approssimo al valore 

inferiore. Nel caso in cui tale cifra sia 6,7,8 o 9 approssimo al superiore. E se é 5 ? 5é proprio lo 

spartiacque tra i due casi, ma evidentemente se il valore é un po’ più di 5 (vedi ultima riga della 

tabella) allora siamo aldisopra dello spartiacque. L’unico caso in cui non so che fare é quando la 

cifra successiva é 5 con tanti 0 alla sua destra oppure é 5 e non so cosa c’è dopo. In tal caso la cosa 

migliore é forse lasciare il 5. 

Torniamo al nostro problema delle cifre. Generalizzando quanto visto diciamo che: 

non hanno “significato”, non aggiungono “informazioni” quelle cifre che stanno più a destra della 

prima cifra sulla quale sono incerto. Quindi il fatto che non aggiungono informazioni implica che 

devo ometterle nella presentazione del risultato. 

Cosa succede quando moltiplico o divido ? 

Analizziamo questa circostanza con un semplice esempio. Supponiamo di voler determinare la 

velocità della nostra auto misurando con un cronometro il tempo impiegato a percorrere una 

31

distanza di 36 km (distanza tra due uscite dell’autostrada secondo la segnaletica). Con il cronometro 

manuale fermo lo stop al valore 1894.3 s. Faccio il calcolo con la calcolatrice: 19.004382 m/s. 

Come do il risultato ? Devo considerare quanto bene conosco i 36 km della distanza e quanto bene 

conosco il tempo impiegato a percorrerla. Supponiamo che i 36 km siano approssimati a 100 m 

(cosa ragionevole), allora posso dire che la distanza é 36.0 ± 0.1, cioè é un numero che conosco al 

più fino alla terza cifra. Viceversa conosco il tempo di percorrenza fino alla quinta cifra. D’altra 

parte la calcolatrice mi fornisce un risultato fino a 8 cifre. Quante di queste 8 cifre sono significative 

? Facciamo la seguente considerazione: se uso 36.1 km o 35.9 km e lascio inalterato il tempo, 

ottengo i numeri indicati nelle prime due righe della tabella dove osservo variazioni sulla terza cifra. 

35.9 18.951592 

36.1 19.057172 

36 19.0(0) 

1894.2 19.005385 

1894.4 19.003378 

1894.3 19.004(4) 

Allo stesso modo se fisso 36 km e uso 1894.2 o 1894.4 ottengo variazioni sulla quinta cifra. 

Dunque il risultato varia a partire dalla terza cifra per via della variazione della distanza e a partire 

dalla quinta per via della variazione del tempo. In conclusione oltre la terza cifra (facciamo la 

quarta per tenerci larghi) il risultato perde di informazione. Pertanto scriverò il risultato come nella 

terza riga della tabella. 

Nel prodotto (o nel rapporto) vale dunque la regola: 

il risultato di un prodotto o di un rapporto va dato con il numero di cifre del fattore dato con il 

minor numero di cifre. 

Cosa succede invece nel caso della somma (o della differenza) ? 

Altro esempio. Considero la distanza tra 2 punti nella stanza. Con il metro misuro la distanza tra 

una parete e la superficie della lavagna: 5.620 m. Poi con il calibro misuro lo spessore della 

lavagna: 32.480 mm. La somma é indicato in tabella. 

Misura 1 5.620000 m 

Misura 2 0.032480 m 

Somma 5.652480 m 

Somma troncata 5.652(5) 

Mi accorgo subito che le ultime 3 cifre non hanno molto significato. Infatti se il 5.620 diventa 

5.621 ottengo una variazione sulla quartultima cifra della somma. Quindi qui conta non il numero di 

cifre significative ma il numero di decimali, cioè la posizione “assoluta” della prima cifra che varia. 

La regola può essere pertanto espressa come: 

il risultato di una somma o di una sottrazione va troncato alla posizione della prima cifra variante 

che si incontra nei due addendi partendo da sinistra. 

Facciamo ora alcune osservazioni. 

Osservazione 0: se ho la stima dell’incertezza su un dato numero, si usa dare l’incertezza con 1 

o 2 cifre significative (non di più, oltre 2 cifre non ha molto significato dare il numero) e si tronca il 

valore centrale alla cifra corrispondente all’ultima cifra dell’incertezza. Esempio. Trovo un valore 

centrale pari a 1.5467 con una incertezza di 0.3456. Il risultato si può scrivere come 1.55±0.34 

(incertezza a 2 cifre) oppure 1.5±0.3 (ad 1 cifra). Certamente scrivere 1.5467±0.3456é sbagliato. 

Osservazione 1: i numeri interi hanno un numero di cifre infinito. Quando in una formula divido 

per N o per 2 queste hanno infinite cifre. Lo stesso vale per numeri come π o e (purché riportati con 

un numero di cifre appropriato). 

32

Osservazione 2: caso della media aritmetica. E’ lecito darla con più cifre delle singole misure ? 

Si. Supponiamo di mediare una sequenza di 10 misure ciascuna data con 3 cifre: 

1.10 

1.07 

1.24 

1.31 

1.09 

1.21 

1.15 

1.34 

1.02 

1.18 

Media 1.171 

La somma di questi 10 numeri é 11.71 che scrivo con 4 cifre data la regola delle cifre nella somma. 

Quando divido per 10 (infinite cifre) ottengo 1.171 che mantengo a 4 cifre. Quindi nel gioco ho 

“guadagnato” una cifra. Se avessi mediato 100 numeri ne avrei guadagnate 2 e cosi’ via. Questo 

non ci sorprende. L’operazione di media ha il potere di aumentare la conoscenza sul valore. 

Osservazione 3: si noti che il numero di cifre significative di un dato numero é strettamente 

legato alla sua incertezza relativa. Un numero dato a 3 cifre é un numero incerto tra il permille ed il 

percento. 

Osservazione 4: le regole date si riferiscono a come riportare i risultati. Nei calcoli naturalmente 

si possono utilizzare tutte le cifre che si vogliono. 

(1.7) Caso di misure indirette: cenni alla propagazione 

Collegata al problema del numero delle cifre significative é la questione della misura indiretta. 

Supponiamo che per misurare una grandezza y, io debba ricorrere alla misura di x per poi ricavare y 

con l’operazione y = a x 2 in cui a é una costante oppure y = b √x. Ora, x sarà misurato con una 

certa incertezza e allora mi chiedo quale sarà l’incertezza su y ? Se supponiamo che a e b siano 

costanti note con un numero infinito di cifre (per esempio π o un numero intero) il problema é “unidimensionale” 

(cioè stiamo parlando di una funzione di una singola variabile) e può essere illustrato 

per via grafica (vedi Fig.1.13). 

Fig.1.13 Due esempi di misure indirette: 

(sinistra) Misura della profondità raggiunta da un sasso in un pozzo dalla misura del tempo impiegato a scendere. 

Se misuro 5.5 ± 0.5 s quanto bene conosco la profondità ? 

(destra) Misura del periodo di oscillazione di un pendolo dalla misura della lunghezza dello stesso. Qui misuro 0.75 

± 0.05 m. Quant’è il periodo ? 

33

Nei due casi riportati in figura si ha nel primo una dipendenza tipo a x 2 nel secondo b√ x. Si può 

notare che l’incertezza sulla x si “traduce” in una incertezza sulle y in modo diverso nei 2 casi. Si 

dice che l’incertezza si propaga. Nel caso di sinistra sembra aumentare nel caso di destra sembra 

diminuire. Da cosa dipende ? Certamente dalla “pendenza” della curva nell’intorno del mio x. 

Poiché x e y sono in generale variabili di diverse dimensioni fisiche per confrontarne le incertezze 

dovrò ricorrere all’incertezza relativa che, come sappiamo é: 

s x 

x 

Nel nostro caso (quello in figura) si vede, confrontando le variazioni sugli assi delle ordinate, che in 

un caso l’incertezza relativa raddoppia, nell’altra si dimezza. Come é possibile ciò ? Vale in effetti 

in generale la seguente regola che dimostreremo in seguito: se la dipendenza é di tipo x α , si avrà per 

l’incertezza relativa: 

sy 

sx 

= α 

y x 

Si tratta di una proprietà che ha una chiara interpretazione. Più alto l’esponente, più “rapidamente 

cambia la curva”. 

Un secondo problema simile a questo é quello cui abbiamo già accennato nella nostra discussione 

delle cifre significative. Supponiamo ad esempio di voler misurare la densità di un oggetto 

misurandone volume e peso e poi facendo il rapporto. Abbiamo visto che sul risultato, a dominare 

sarà l’incertezza dovuta a quello tra massa e volume la cui misura é caratterizzata da una incertezza 

su una cifra che sta più a sinistra, ovvero, detto con il linguaggio dell’incertezza relativa, a quello 

con l’incertezza relativa più grande. 

Sempre riferendoci ai casi discussi nel precedente paragrafo, se devo invece sommare o sottrarre, a 

dominare sarà quello la cui incertezza assoluta é più grande, cioè in somme e differenze non 

contano le incertezze relative ma quelle assolute. 

Da tutto questo emerge una considerazione generale. Quando si progetta una misura di questo tipo e 

si sceglie una strumentazione é fondamentale “dosare” bene gli strumenti. E’ chiaro ad esempio che 

se misuro i volumi con un calibro supersensibile e poi li peso con una vecchia bilancia da 

salumiere, la scarsa sensibilità di quest’ultima vanificherà la straordinaria sensibilità del calibro. Lo 

stesso se uso un calibro per lo spessore della lavagna, e poi misuro il resto con strumenti poco 

sensibili. 

Resta da vedere tuttavia come andranno combinate le incertezze quando nessuna delle due é 

trascurabile, quando cioè sono dello stesso ordine di grandezza. Lo vedremo nel seguito quando 

avremo a disposizione mezzi di statistica più adeguati. 

(1.8) Nozione di significatività 

Accenniamo brevemente a questo punto del corso alla nozione di significatività. Si tratta di uno dei 

concetti più importanti del metodo scientifico ed é bene che gli studenti imparino a saper discutere 

problemi di questo tipo già dall’inizio del corso di laurea. 

Molte questioni in fisica si riconducono ad affermazioni del tipo: abbiamo osservato che A>B 

oppure che A>0. In tutti questi casi, dire > (o equivalentemente c ma prima di dire che é “significativamente” >c devo sapere quanto bene ho misurato 

v(part), altrimenti nessuno ci crederà (data anche la rilevanza straordinaria dell’eventuale scoperta). 

Allo stesso modo se io trovo un bilancio energetico >0 di un processo in un sistema isolato (violante 

pertanto la conservazione dell’energia), per dire che ho scoperto la violazione della legge di 

34

conservazione dell’energia devo dimostrare che tale valore é “significativamente” >0. Allo stesso 

modo infine prima di dire che se il 52% degli intervistati in un sondaggio si pronuncia per una certa 

cosa, allora la maggioranza degli italiani é favorevole a quella cosa, devo sapere se quel 52%é 

significativamente maggiore del 50%. 

Un’altra classe di problemi riguarda il caso in cui affermo che A=B oppure che A=0. Qui le cose 

sono leggermente diverse. Infatti io non troverò mai (misurando per esempio il bilancio energetico 

della reazione di cui sopra) esattamente A=0, oppure non troverò mai o quasi mai v(part)=c, ma 

troverò un valore che sarà “compatibile” con 0. O allo stesso modo troverò che A é compatibile con 

B. 

È evidente che in entrambi i casi “significatività” e “compatibilità” sono nozioni che hanno a che 

fare con i valori trovati ma anche con le incertezze con cui questi valori sono conosciuti. Quindi 

diremo che A é “significativamente” >0 se lo é “oltre l’incertezza” su A o, più esplicitamente se il 

valore 0 della grandezza A é “fuori” dall’intervallo nel quale ritengo debba trovarsi il valore vero 

sulla base del mio esperimento. Oppure diremo che A é “compatibile” con 0 se lo é “entro 

l’incertezza” su A cioè se il valore 0é interno allo stesso intervallo. Pertanto se la mia misura della 

velocità della particella é 30.010 ± 0.032 cm/ns allora mi tranquillizzo perché evidentemente il 

valore c=29.979.. cm/ns é contenuto nell’intervallo della mia misura. Viceversa se il mio bilancio 

energetico mi fornisce il valore –0.54 ± 0.09 J comincio a preoccuparmi, perché la quantità di 

energia che ho perduto é “significativa”. Allora dovrò pormi il problema di capire cosa é successo, 

se nell’analisi del mio esperimento non ho tenuto conto di qualche effetto oppure se effettivamente 

in quel processo l’energia non si conserva. 

Naturalmente la conclusione dipende dal significato probabilistico dell’intervallo. Cioè posso 

concludere che A é significativamente > B se B é fuori un intervallo di “quasi certezza” di A. 

Vedremo nel seguito come si possono definire tali intervalli. 

A proposito delle nozioni esposte si può proporre una digressione filosofica. E’ la stessa cosa 

chiedersi se 2 cose sono uguali o ha invece più senso chiedersi se sono diverse ? Detto in altri 

termini: le due affermazioni (a) A>B o (b) A=B hanno lo stesso significato logico ? La risposta é 

no. Sul piano logico, il metodo scientifico permette di stabilire la diversità ma non l’uguaglianza. 

Si può solo dire che entro le incertezze A=B (affermazione di tipo (b)), ma si tratta comunque di 

una affermazione che potrebbe cambiare il giorno in cui le incertezze su A e su B diminuissero. Nel 

caso dell’esempio precedente, se migliorassi il mio sistema di misura delle velocità fino a ridurre di 

un ordine di grandezza l’incertezza complessiva, potrei ottenere 30.010±0.002 che é 

significativamente >c. D’altra parte l’affermazione (a) é in un certo senso “definitiva”. Se 

l’esperimento non é sbagliato una riduzione dell’incertezza non può che confermare il precedente 

risultato, rafforzandolo. 

Il progresso della Scienza procede dunque attraverso lo stabilire la diversità tra le cose, non la loro 

uguaglianza. Si tratta del celebre tema della “falsificazione” e della “corroborazione” dovuto a 

K.Popper. A titolo di esempio in Fig.1.14 e Fig.1.15 sono mostrate le evoluzioni temporali dei 

valori di due grandezze fisiche di grande importanza (si tratta delle due grandezze che 

caratterizzano la violazione di una simmetria fondamentale nelle interazioni tra particelle 

elementari). Ogni punto corrisponde al risultato di un esperimento e per ognuno é indicata una barra 

che rappresenta l’incertezza stimata dallo sperimentatore come deviazione standard ed avente 

pertanto il significato di intervallo che contiene il valore vero con una probabilità del 68.3% 

(secondo quanto vedremo nel seguito). Si noti che solo ad un certo punto (il 1999 in un caso ed il 

2001 nell’altro) é stata stabilita la diversità da 0 del valore della grandezza. Prima di allora lo stato 

di conoscenza su ciascuna delle due grandezze era tale da far concludere che entro le incertezze non 

si osservava alcuna differenza da 0, cioè che ambedue le grandezze erano compatibili con 0. Il 

progresso degli esperimenti progettati per la misura di queste grandezze ha portato ad una 

progressiva riduzione dell’incertezza e quindi ad una sempre maggiore possibilità di scoprire una 

significativa differenza da 0 che, una volta trovata, é stata poi ampiamente riprodotta e confermata. 

35

Fig.1.14 Valori pubblicati della variabile Re(ε’/ε) in funzione dell’anno di pubblicazione. Si noti come gli 

esperimenti intorno al 1990 davano un risultato “compatibile” con 0 e come quelli intorno al 2000 danno risultati 

“compatibili” con i risultati del 1990 ma significativamente diversi da 0. Le barre di incertezza sono barre di 

incertezza standard. 

Fig.1.15 Valori pubblicati della variabile sin2β in funzione dell’anno di pubblicazione. Valgono considerazioni 

analoghe a quelle fatte per la Fig.1.14. 

36

(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. 

In alcune delle precedenti discussioni abbiamo visto come l’espressione grafica del risultato di un 

esperimento sia in certi casi di importanza cruciale. In tutti gli esempi visti finora, i dati sono 

sempre riportati in grafici caratterizzati da scale lineari. Con ciò si intende che in ambedue gli assi 

del grafico, spazi uguali tra le divisioni corrispondono a intervalli uguali della grandezza fisica che 

viene rappresentata in quell’asse. Per intenderci, in un grafico che usa una scala temporale lineare, 

se un segmento di asse lungo 1 cm corrisponde a un intervallo di 6.2 s, un segmento lungo 2 cm 

corrisponde ad un intervallo di 12.4 s, un secondo segmento lungo 6 cm a un intervallo di 37.2 s e 

cosi’ via dicendo. Ci occupiamo ora di quei casi (alcuni dei quali incontreremo da vicino in 

laboratorio) in cui é conveniente utilizzare scale con diverse proprietà. 

(1.9.1) La scala quadratica. 

Riprendiamo in considerazione la misura della profondità del pozzo di cui abbiamo parlato nel 

paragrafo (1.7) (illustrato dalla Fig.1.13). Supponiamo ora di disporre un certo numero di pozzi di 

profondità diverse e note (cioè misurate in modo indipendente), e di misurare per ciascuno, il tempo 

di caduta del sasso. A questo punto i miei dati sono costituiti da una sequenza di N (N=numero di 

pozzi) coppie di valori (p i , t i ) dove i va da 1 a N, con p i le profondità e t i i tempi. Posso mettere 

questi dati in un grafico con le profondità in ordinata e i tempi in ascissa. Il grafico é riportato in 

Fig.1.16a dove per semplicità non sono riportate le incertezze di misura. La cinematica ci dice che 

la relazione tra profondità e tempo deve essere del tipo p = ½ g t 2 , dove g=9.81 m/s 2 é la 

accelerazione di gravità alla superficie terrestre. Tuttavia dal grafico é difficile capire se 

effettivamente l’andamento é rispettato. Allora uso il seguente artificio: anziché graficare le p i in 

funzione dei t i , riporto le p i in funzione dei t i 2 (Fig.1.16b). In questo secondo caso, se la cinematica 

é rispettata, devo aspettarmi un andamento rettilineo che é certamente più 

p (m) 

500 

400 

300 

200 

100 

0 

2 4 6 8 10 

t (s) 

p (m) 

500 

400 

300 

200 

100 

0 

0 20 40 60 80 100 

t 2 (s) 

Fig.1.16 (a) Misure di profondità dei pozzi in funzione dei tempi di caduta dei sassi e (b) misure di profondità in 

funzione dei tempi di caduta al quadrato. La (b) permette di verificare la linearità della relazione cinematica. 

facilmente controllabile a occhio. Non solo, la “pendenza” della retta (il suo coefficiente angolari) 

dovranno essere proprio uguali a 1/2g, e quindi semplicemente prendendo un righello, tracciando 

37

una retta e misurandone la pendenza, posso desumere il valore di g e vedere se é “più o meno” il 

valore che mi aspetto. 

(1.9.2) La scala logaritmica. 

Il tipo di scala non lineare più frequentemente utilizzata é la scala logaritmica. Si tratta di riportare 

sull’asse di una variabile x, non già direttamente x, ma il logaritmo del suo valore numerico: 

log(x/u) dove u é l’unità di misura di x. In altre parole, con riferimento alla scala temporale presa 

sopra ad esempio, il valore t = 6.2 s si trova, in scala logaritmica, nella posizione 1.82, il valore t = 

12.4 nella posizione 2.52 ed infine il valore t = 37.2 nella posizione 3.62. Come si vede, la 

spaziatura delle 3 posizioni non rispetta più la partizione 1 / 2 / 6 della scala originaria. Ciò é un 

modo per dire che la scala risultante é non lineare (si noti che ho usato qui il logaritmo a base 

naturale, ma come vedremo nel seguito e come si può provare facilmente, la conclusione cui si 

giunge é la stessa qualunque sia la base che voglio utilizzare). 

La scala logaritmica viene utilizzata per 2 motivazioni principali. 

La prima motivazioni segue la stessa linea di pensiero della discussione fatta nel precedente 

paragrafo a proposito della carta quadratica. Infatti sono molti i fenomeni fisici che si lasciano 

descrivere da andamenti esponenziali, cioè del tipo: 

y 

= 

Ae 

− x / λ 

in cui x ed y sono 2 grandezze fisiche tra le quali ci si aspetta una relazione funzionale esponenziale 

con A e λ parametri (troveremo numerosi esempi di fenomeni di questo genere nel seguito). 

Prendendo il logaritmo di ambo i membri si ottiene: 

log 

[ y] = log A − x 

λ 

dunque la relazione funzionale esponenziale tra y e x, si traduce in una relazione lineare tra log[y]e 

x in cui logA svolge il ruolo di intercetta all’origine e soprattutto -1/λ svolge il ruolo di pendenza. 

Graficando log[y] in funzione di x anziché y in funzione di x, potrò meglio verificare che 

l’andamento é esponenziale. In più anche in questo caso, una rapida misura della pendenza della 

retta risultante mi permette di ricavare λ. 

La seconda motivazione per usare scale logaritmiche entra in gioco quando si vuole rappresentare 

una grandezza fisica che assume valori diversi per svariati ordini di grandezza. In tal caso una scala 

lineare tende a compattare tutti i valori e finisce per rendere illeggibile il grafico. Il fenomeno é 

illustrato in Fig.1.17. In che modo lo stesso grafico in scala logaritmica diventa decisamente più 

leggibile ? Il motivo sta in definitiva nella seguente, ben nota, proprietà dei logaritmi: 

[ ab] = log[ a] log[ b] 

log + 

Ogni volta che moltiplico a per un numero b, al log[a] devo aggiungere log[b], cioè nel mondo dei 

logaritmi, il moltiplicare per qualcosa diventa un sommare qualcos’altro, il prodotto si traduce in 

somma. Sull’asse logaritmico dunque, 2 intervalli di uguale lunghezza non corrispondono 

all’aggiunta di 2 intervalli di uguali entità in x, ma a 2 moltiplicazioni per lo stesso fattore. Per 

esempio i valori x = 2 cm, x = 20 cm e x = 200 cm vanno in scala logaritmica nelle posizioni 0.693, 

2.995 e 5.298 cioè danno luogo a 2 uguali intervalli [5.298 – 2.995 = 2.995 – 0.693 = 2.302]. La 

spaziatura é chiaramente pari a log[10] cioè al logaritmo del fattore che c’è tra i 3 valori di x. 

Come abbiamo accennato sopra la base del logaritmo é irrilevante. Infatti un’altra proprietà dei 

logaritmi ci dice che i logaritmi di x calcolati in 2 basi diverse (diciamo a e b) sono uguali a meno 

di un fattore indipendente da x: 

log 

a 

[ x] 

= log 

b 

[ x]log 

a 

[ b] 

e dunque il cambio di base non fa altro che spostare tutta la scala di un fattore arbitrario. 

In Fig.1.18 mostriamo un esempio di carta semi-logaritmica, nella quale l’asse orizzontale é in 

scala lineare, quello verticale in scala logaritmica. Alcune considerazioni pratiche. 

38

4000 

3500 

3000 

2500 

2000 

1500 

1000 

500 

0 

300 400 500 600 700 800 900 1000 

10 3 300 400 500 600 700 800 900 1000 

10 2 

10 

1 

Fig.1.17. Lo stesso istogramma in carta lineare (sopra) e semi-logaritmica (sotto). Si noti come la carta semilogaritmica 

consente di apprezzare la zona al di sotto di 600, cosa impossibile nel grafico in carta lineare. 

10 2 0 10 20 30 40 50 60 70 80 90 100 

10 

1 

10 -1 

Fig.1.18 “Foglio” di carta semi-logaritmica. Le decadi sono state identificate con i valori 0.1, 1 10 e 100. 

39

10 2 

10 

1 

10 -1 

10 -1 1 10 10 2 

Fig.1.19 “Foglio” di carta doppio-logaritmica con la stessa suddivisione in decadi dell’asse verticale della Fig.1.18. 

La scala verticale é divisa in decadi: ogni intervallo rappresenta un ordine di grandezza. E’ possibile 

dunque per ogni separazione di decade mettere i numeri 1, 10, 100, oppure 0.001 o 10 -24 o cosi’ via 

(nell’esempio in figura le decadi sono 0.1, 1 e 10). 

Nella scala logaritmica non esiste lo 0. Sotto ad ogni decade ce ne é un’altra, e cosi’ via fino 

all’infinito (del resto il log tende a 0 quando il suo argomento va a -∞). 

Una volta stabilita la scala (cioè individuate le decadi) per disporre i punti correttamente sull’asse 

non occorre prendere la calcolatrice e calcolare il logaritmo. La scala é fatta anche per evitare 

questo. 

Esistono infine le carte doppio-logaritmiche in cui ambedue gli assi sono in scala logaritmica (vedi 

Fig.1.19). L’uso di questi tipi di grafici é legato all’esistenza di fenomeni che si lasciano descrivere 

da una relazione tra le 2 grandezze x ed y di tipo “potenza”: 

y = 

Ax 

b 

In tal caso prendendo i logaritmi di ambedue i membri si ha: 

[ y] = log[ A] blog[ x] 

log + 

Come si vede si ha una relazione lineare tra log[y] e log[x]. E’ b (l’esponente che regola la legge di 

potenza) in questo caso a rappresentare la “pendenza” dell’andamento in questione. Un esempio 

particolarmente interessante di fenomeno fisico messo in risalto da un grafico in carta doppiologaritmica 

é dato in Fig.1.20. 

40

Fig.1.20 Questo grafico mostra il complesso delle misure disponibili nel settembre 2005 del flusso di raggi cosmici in 

funzione dell’energia. Il grafico é in carta doppio-logaritmica. Ciò permette di vedere insieme misure riferite ad ordini 

di grandezza molto diverse. Inoltre il cambio di pendenza intorno ai 10 16 eV (il cosiddetto knee cioè ginocchio dello 

spettro) che costituisce uno dei fenomeni più studiati della fisica dei raggi cosmici é ben messo in evidenza da questa 

modalità grafica. 

41

Esercizi relativi al Capitolo (1) 

1.1) Dai dati della Fig.1.1: determinare per ognuno dei 5 grafici il miglior valore. Usando i valori 

veri determinare i 5 scarti. 

1.2) Ancora dai dati di Fig.1.1: valutare scarto medio e deviazione standard degli scarti. A che 

frazione di una divisione corrisponde ? 

1.3) Un elettrone viene accelerato attraverso una differenza di potenziale di V=1.2kV. Sapendo che 

la carica elettrica di un elettrone é q =1.6 x 10 -7 pC e sapendo che l’energia acquistata da una carica 

elettrica q accelerata attraverso una differenza di potenziale Vé E = q V, calcolare quanti J di 

energia acquista l’elettrone. (1J = 1 Joule = 1 V x 1 C = 1 Volt x 1 Coulomb). 

1.4) Voglio misurare la densità di un fluido tramite misure di massa e di volume. Lo dispongo in un 

contenitore e ottengo una massa M = 13.5 g tramite una bilancia digitale. La massa del contenitore 

é M 0 = 0.322 g (misurata usando una seconda bilancia di inferiore portata ma di maggiore 

sensibilità). Per il volume ottengo V = 62 ml. 

Esprimere il valore della densità in g/cm 3 dando solo le cifre significative. 

1.5) Si vuole stabilire se diversi gruppi di campioni di utensili preistorici scoperti in due diverse 

zone (zona A e zona B), appartengono alla stessa epoca. A tale scopo si procede alla misura della 

vita media di ciascun campione con il metodo del 14 C. Si ottengono i seguenti risultati. 

Reperti zona A: 10 campioni (5300, 5650, 5820, 5460, 4920, 5110, 5400, 5710, 4770, 5320) anni 

Reperti zona B: 15 campioni (6050, 5820, 6110, 5760, 5890, 6220, 5840, 5920, 6000, 5610, 6010, 

6220, 6140, 5950, 5740) anni 

a) Fare gli istogrammi dei reperti delle 2 zone 

b) Calcolare medie e deviazioni standard per ambedue i gruppi di reperti 

Un anziano archeologo dando una rapida occhiata ai dati afferma: i 2 gruppi di reperti sono 

contemporanei. Ha ragione ? 

1.6) Ad una molla é appesa una massa M nota con incertezza trascurabile; la costante di elasticità k 

della molla é nota solo al 5%. Quanto bene conosco il periodo delle piccole oscillazioni T ? Si 

ricordi che il periodo delle piccole oscillazioni di una molla di costante k é T = 2 π √M/k . 

1.7) Si ha una bilancia a lettura digitale in cui l’ultimo digit corrisponde a 1 g. Applico questa 

bilancia ad un kg campione e leggo sul display 1022. Ripeto la misura e mi accorgo che leggo 

sempre 1022. Cosa posso concludere su: risoluzione, precisione e accuratezza della bilancia ? 

1.8) Uno strumento per la misura di spessori ha una risoluzione di 1 μm ed una precisione di 52 μm. 

Per misurare uno spessore raccolgo 100 valori successivi. Non osservo andamenti nel tempo. 

Determinare la larghezza di un intervallo di quasi certezza per la misura. 

1.9) Uno strumento per misure di velocità ha una precisione relativa dello 0.2 %. Viene applicato ad 

un campione di 9150 raggi γ emessi da una sorgente radioattiva. La media delle misure é 2.99814 x 

10 8 m/s. Cosa possiamo dire della accuratezza dello strumento ? [Si ricordi che c=2.99792458 x 10 8 

m/s] 

1.10) Una commissione é incaricata di stabilire se in un certo paese vi é una incidenza “anomala” 

della malattia X. Quali sono i numeri di cui la commissione ha bisogno per trarre una conclusione 

“scientificamente fondata” ? 

42

1.11) Calcolare il lavoro fatto per spingere di 24.2 cm un pistone attraverso un cilindro di area 152.4 

cm2. La pressione esercitata dal pistone é di circa 12 atm. Dare il risultato in unità del S.I. con le 

corrette cifre significative. [si ricordi che L = pΔV e che 1 atm = 101325 Pa ] 

1.12) Con lo stesso strumento dell’esercizio 1.8) voglio vedere se effettivamente la posizione della 

trave che regge il mio palazzo si sta spostando nel tempo. Ripeto a distanza di un anno la misura 

della posizione, in entrambi i casi (la prima misura e quella effettuata ad un anno di distanza) 

prendendo 1000 valori e facendone la media. Trovo uno spostamento di 48 μm. E’ significativo ? 

1.13) Uno strumento per misure di lunghezze con risoluzione di 1/10 di mm, viene calibrato rispetto 

ad un metro campione. Il risultato é: 1002.6 mm con incertezza trascurabile. 

Successivamente uso questo strumento per la misura di una lunghezza e, fatte 100 misure, ottengo 

un valor medio di 914.1 mm con una deviazione standard campionaria di 3.2 mm. 

Dare al meglio il risultato della misura. Indicare le ipotesi utilizzate. 

1.14) Munendosi di atlante, calcolare l’ordine di grandezza della densità di popolazione delle città 

di Roma e di Londra. Sono significativamente diverse ? 

1.15) Un chimico annuncia di aver scoperto che il soluto X nel solvente Y ha una concentrazione 

anomala rispetto al 20% in volume atteso. Lui ha misurato 5 campioni di solvente da 3 l ciascuno ed 

ha ottenuto i seguenti valori per il soluto X: 607, 641, 638, 702, 619 cm 3 . E’ fondata la sua 

conclusione ? 

1.16) Voglio vedere se la variabile X é significativamente > 0. Riesco a misurarla con una 

precisione di 67x10 -4 . Faccio 2000 misure, e ottengo una media di 0.1x10 -4 . Cosa posso concludere 

? 

1.17) Due diversi modelli prevedono per la variabile X rispettivamente i valori 0 e 10 -5 . Sapendo 

che la precisione della mia misura di X é 67 x 10 -4 , quante misure devo fare per discriminare tra i 2 

modelli ? 

1.18) Misura di velocità: in 1032.8 s ho percorso lo spazio tra la indicazione di 32.4 e 36.8 km della 

strada statale. Quanto sono andato veloce in media ? 

1.19) Un razzo che si muovo alla velocità di 15.6 km/sé partito 10 giorni fa da terra. Dove é arrivato 

? 

1.20) Un navigatore ha valutato che il 10% circa del volume di un iceberg emerge dal pelo 

dell’acqua. Quant’è la densità di quell’iceberg ? [ ρ (iceberg) = ρ (acqua) f in cui fé la frazione di 

volume sommerso e ρ (acqua) = 1.00 g/cm 3 ] 

1.21) Viene presentata un auto nuova che in 10.00 s passa da 0 a 154 km/h. Calcolare 

l’accelerazione media in numero di g. [g = 9.81 m/s 2 , a = Δv/Δt ] 

1.22) Nella finale dei 100 m delle olimpiadi di Seoul del 1988, Ben Johnson vince con il tempo di 

9.79 s, Carl Lewis é secondo con il tempo di 9.92 s. Quanto distava Lewis dall’arrivo al momento 

dell’arrivo di Johnson ? [specificare le ipotesi] 

43

1.23) Nella misura della profondità del pozzo dal tempo di caduta del sasso leggo sul display del 

cronometro per i 20 diversi sassi che lancio, i seguenti valori: 

6.2 6.6 6.4 6.7 6.2 6.3 5.9 6.4 6.5 6.2 6.3 6.4 6.0 6.3 6.2 6.6 6.1 6.3 6.5 7.0 (tutti in s). 

Fare l’istogramma delle misure, calcolare media e deviazione standard campionaria. 

Dare la migliore stima di un intervallo di quasi certezza per la profondità del pozzo. [ h = ½ g t 2 ] 

1.24) Una ripetizione dell’esperienza di Millikan vuole vedere se esistono cariche elettriche pari a ½ 

e ( e é la carica dell’elettrone ) . Lo strumento utilizzato ha una precisione sulla misura della carica 

di 0.7 x 10 -7 pC. Quante cariche ½ e devo osservare per poter dire che si tratta effettivamente di 

cariche ½ e e non di elettroni ? [la carica dell’elettrone é e = 1.60217733 x10 -7 pC] 

1.25) Sono prese misure di radioattività ad intervalli regolari di 1/2 ora. Nell’arco di 8 ore (dalle 12 

alle 20) vengono registrati i seguenti valori (in conteggi al secondo): 

16.24 / 16.38 / 16.31 / 16.42 / 16.30 / 16.29 / 16.36 / 16.94 / 17.21 / 17.26 / 17.14 / 17.31 / 17.24 / 

17.32 / 17.16 / 17.25. 

a) Discutere qualitativamente i dati a disposizione eventualmente utilizzando grafici 

b) Stabilire quantitativamente se si é osservata una variazione significativa della radioattività 

1.26) Per un campione di 100 distributori di benzina sparsi sul territorio nazionale sono stati 

registrati i prezzi del Gasolio in due momenti: il 1/6/2003 ed il 1/10/2004. Facendo gli istogrammi 

dei 2 insieme di dati si ha (prezzi in euro/litro): 

1/6/2003 1/10/2004 

0.800-0.820 1 0.960-0.980 1 

0.820-0.840 12 0.980-1.000 25 

0.840-0.860 27 1.000-1.020 48 

0.860-0.880 31 1.020-1.040 26 

0.880-0.900 19 1.040-1.060 0 

0.900-0.920 9 

0.920-0.940 1 

a) Disegnare gli istogrammi e determinare media e deviazione standard di ogni campione. 

b) I dati sono compatibili con un aumento tendenziale del 10.2% su base annuale ? 

1.27) Misuro il raggio di un cuscinetto a sfera di acciaio con un calibro a lettura digitale. Ottengo il 

valore 30.335 mm. Ruotando la sfera il valore del raggio non cambia. Dare la migliore stima della 

massa del cuscinetto con la sua incertezza (la densità del tipo di acciaio utilizzato per i cuscinetti 

viene data come intervallo standard 7.85±0.05 g/cm 3 ). 

1.28) Si é misurata la carica elettrica di una nuova particella. Su di un campione di 218 esemplari di 

tale particella, la distribuzione della carica é ben descritta da una distribuzione di Gauss con valore 

centrale 1.48 x 10 -19 C con deviazione standard 0.28 x 10 -19 C. Si può concludere che questa nuova 

particella ha una carica significativamente minore di quella elementare ? (la carica elettrica 

elementare é q = 1.6021773 x 10 -19 C.) 

44

(2) La probabilità e le variabili casuali 

(2.1) Concetto di probabilità 

Abbiamo visto nel capitolo precedente che la nozione di probabilità entra in gioco in modo del tutto 

naturale nella discussione dei problemi relativi alla interpretazione del significato delle misure. 

Finora tuttavia la nostra nozione di probabilità é stata solo intuitiva. Abbiamo in particolare 

introdotto la nozione di intervallo di probabilità (quanto crediamo all’intervallo che abbiamo fornito 

per il valor vero della misura). Abbiamo inoltre visto che nella costruzione di un istogramma, il 

numero di volte con cui viene ottenuto un dato valore (che abbiamo chiamato frequenza) é in 

qualche modo legato alla probabilità che quel dato valore sia ottenuto. La nozione di probabilità fa 

parte del modo con cui l’uomo analizza l’ambiente in cui vive. E’ una delle categorie che più o 

meno consciamente utilizziamo nella nostra vita quotidiana. 

Ci inoltriamo ora in una teoria matematica (la teoria della probabilità) all’interno della quale la 

nozione di probabilità é definita, e che ci permette anche di fare operazioni e di mettere in relazioni 

probabilità associate a diversi fatti o eventi. Cominciamo a discutere la “definizione” di probabilità. 

Il problema della definizione della probabilità é estremamente dibattuto ed aperto. In generale 

possiamo dire che ci sono 2 approcci di diverso tipo. Vediamo di descriverli entrambi senza 

partecipare alle accese polemiche tra i sostenitori di ciascuna delle due. 

(a) Probabilità “ontologica”: la probabilità é una proprietà del fenomeno, il quale può presentarsi 

sotto diverse modalità in determinate frazioni di casi. La probabilità é dunque una proprietà della 

realtà, del mondo, di come si svolgono le cose. E’ una visione che qualcuno (in modo non 

completamente appropriato) chiama oggettiva. 

(b) Probabilità “epistemica”: la probabilità é una proprietà che noi associamo ad un fenomeno sulla 

base delle nostre conoscenze di come il fenomeno si manifesta. E’ una proprietà che appartiene al 

modo con cui noi conosciamo il fenomeno, che dunque può non appartenere al fenomeno stesso. E’ 

naturalmente detta, in contrapposizione alla precedente definizione, soggettiva. 

Senza accettarne una come nostra, tentiamo di definire in modo intuitivo cosa facciamo noi quando 

usiamo la probabilità. Il nostro pensiero seleziona cose vere, cose false, e cose sul cui contenuto di 

verità siamo incerti. Ma le cose incerte non sono completamente ignote, diciamo che c’è una 

“scala” naturale che ha per estremi proprio il vero da una parte ed il falso dall’altra. Probabilità é la 

quantificazione di questa scala: quantifica dunque lo stato di incertezza rispetto al contenuto di 

verità di una affermazione. In inglese si dice “degree of belief” ovvero grado di credito. La mente 

umana sviluppa in modo naturale questo concetto. E’ naturale introdurre una scala tra 0 e 1 spesso 

espressa in percentuali. 

Quanto detto si avvicina maggiormente alla definizione (b) che molti fisici non accettano perché 

apparentemente va contro il paradigma dell’oggettività. In realtà come abbiamo visto, l’oggettività 

dell’indagine scientifica resta garantita dal fatto (non logico ma sperimentale) che osservatori 

diversi alla fine “si mettono d’accordo” sempre sui risultati ottenuti, quando questi sono 

sufficientemente “solidi”. E’ come se la pretesa oggettività sia in definitiva una forma di “intersoggettività”. 

(2.2) Alcuni metodi di calcolo 

Abbandoniamo la discussione filosofica ed intraprendiamo lo studio dei metodi di calcolo delle 

probabilità (sui quali non ci sono grossi dibattiti). 

Storicamente la probabilità ha assunto interesse in 2 aree: l’area delle scommesse e l’area delle 

assicurazioni. Si tratta evidentemente di 2 esigenze diverse. Nel primo caso voglio sapere dove é 

conveniente puntare, nel secondo caso per stabilire le modalità di una polizza assicurativa occorre 

conoscere quanto é probabile che accada una certa cosa. A partire da tali due esigenze si sono 

sviluppati empiricamente 2 metodi di calcolo della probabilità. Tali metodi sono a volte 

46

erroneamente chiamate definizioni. In realtà, come vedremo, nessuno dei due costituisce da solo 

una definizione esauriente: 

Metodi di calcolo: 

- Combinatorio (derivazione da scommesse): supponiamo di trovarci di fronte ad un 

problema che si può decomporre in varie possibilità che potremmo chiamare “casi possibili”. Un 

dato evento sarà definito dall’occorrenza di certi “casi favorevoli” tra tutti quelli possibili. Allora 

diciamo che la probabilità del nostro evento é: 

Num ( casi − favorevoli ) 

prob = 

Num ( casi − possibili ) 

si noti che perché questa definizione abbia significato, occorre che i casi possibili siano tutti 

“equiprobabili”. Il che mette in luce il problema di principio insito nell’uso della definizione 

combinatoria come definizione di probabilità (uso nella definizione del concetto che si vuol 

definire). Oltre a ciò si noti che non tutte le applicazioni della probabilità sono riconducibili ad un 

problema di casi favorevoli rispetto a casi possibili. 

- Frequentista (derivazione da assicurazioni): supponiamo invece di trovarci nella 

possibilità di misurare la frequenza con cui un dato evento ha luogo. Allora definisco probabilità il 

limite della frequenza per un gran numero di prove: 

prob = lim 

f 

n→∞ 

n 

dove con f indichiamo la frequenza dell’evento in questione ottenuta dopo n prove. Tale 

n 

definizione si fonda sul fatto sperimentalmente osservato che al crescere del numero di prove le 

frequenze tendono a “stabilizzarsi”. Per esempio se lancio tante volte una monetina regolare, la 

frequenza con cui ottengo testa si avvicina al 50% sempre di più al crescere del numero di prove. 

Tale fatto empirico é quello che costituisce il cosiddetto Principio di Stabilità della Frequenza. 

Non si tratta comunque di definizioni logicamente soddisfacenti. Inoltre ci sono casi che sfuggono 

ad entrambi questi metodi di calcolo. 

Esempi di applicazione semplice del metodo di calcolo combinatorio sono forniti dal lancio della 

monetina o del dado, dall’estrazione di una carta da un mazzo di carte. Si tratta di esempi in cui é 

agevole individuare quali sono i casi possibili e quali i casi favorevoli, e di conseguenza si tratta di 

contare quanti sono. Nell’applicare questa definizione occorre tuttavia fare attenzione alla richiesta 

di equiprobabilità dei casi possibili. Non tenerne conto significa sbagliare la determinazione. Si 

provi a calcolare la probabilità di avere 2 volte testa lanciando due volte la monetina. Si potrebbe 

pensare di dire che ci sono 3 casi possibili: 2 volte testa, 2 volte croce, 1 testa e 1 croce da cui 

prob=1/3. In realtà non sfugge ad un esame attento del problema che i casi possibili sono 4, poiché 

1 testa e 1 croce vale doppio comprendendo anche il caso 1 croce 1 testa. E dunque prob=1/4. 

Esempi di applicazioni del metodo frequentista sono altrettanto comuni. La probabilità che un nato 

sia maschio o femmina, viene valutata contando la frazione dei casi in cui si manifestano le due 

modalità, e in generale tutte le “statistiche” che quotidianamente ci vengono illustrate su giornali e 

televisioni si fondano sull’idea che misurando una frequenza di occorrenza di una certa cosa si 

possa dire quant’è la probabilità che quella cosa accada. 

Si é sviluppata una branca della matematica, il calcolo delle probabilità appunto, che si occupa di 

definire le operazioni e i metodi di calcolo. 

(2.3) Regole della teoria delle probabilità. 

Passiamo ora a descrivere la teoria della probabilità. Utilizziamo le cose viste cercando di 

formalizzarle. Cominciamo con i termini del linguaggio. 

(2.3.1) Spazio degli eventi 

47

Che cosa é un Evento. E’ una modalità possibile con cui un dato fenomeno si manifesta. L’insieme 

degli eventi costituisce quello che chiameremo spazio degli eventi e che può essere rappresentato 

come una parte di un piano. Nell’usare questa rappresentazione, facciamo riferimento alla ben nota 

teoria degli insiemi che ha il pregio di essere intuitiva. Chiamiamo Ω l’intero spazio degli eventi, 

cioè l’insieme di tutti gli eventi, ovvero l’insieme di tutte le modalità con cui un dato fenomeno si 

può svolgere, e 0l’evento nullo, cioè il non verificarsi di alcuna modalità. 

(2.3.2) Eventi composti 

Come nel caso della teoria degli insiemi, definiamo un certo numero di importanti operazioni tra 

eventi. Dati due eventi A e B definiamo 

- somma logica (OR) A ∪ B quell’evento che può manifestarsi o secondo la modalità A o 

secondo la modalità B; 

- prodotto logico (AND) A ∩ B quell’evento che si manifesta quando si manifestano sia A 

che B 

- eventi incompatibili quei due eventi A e B tale che il manifestarsi dell’uno implica il non 

manifestarsi dell’altro e viceversa, cioè le modalità dei due eventi sono tali da farli escludere 

reciprocamente. Evidentemente la condizione di incompatibilità si può esprimere come 

A ∩ B = 0 

- eventi opposti quei 2 eventi A e B incompatibili tali che la loro somma logica sia uguale a 

Ω. L’evento opposto di A si indica anche come A; vale dunque: A ∪ A = Ω 

- un evento A é incluso in B, quando tutte le modalità di A sono anche modalità di B: A ⊂ B 

Tutte le definizioni date hanno un corrispettivo grafico che é facilmente caratterizzabile utilizzando 

i ben noti diagrammi della teoria degli insiemi. 

(2.3.3) Definizione assiomatica della probabilità 

Definiamo il simbolo P(E) (probabilità dell’evento E) in modo del tutto formale, come una 

caratteristica di E avente le seguenti proprietà(definizioni assiomatiche di Kolmogorov): 

positività: 0 ≤ P ( E) 

≤ 1 la probabilità associata ad un evento é un numero reale e positivo non 

superiore a 1; 

certezza: P ( Ω) 

= 1 e P ( 0) = 0 la probabilità dell’intero spazio degli eventi é pari a 1 e 

quella dell’evento nullo é 0; 

unione: se A e B sono incompatibili P ( A ∪ B) 

= P( 

A) 

+ P( 

B) 

Si noti che si tratta di una definizione “formale” che non dice nulla riguardo il significato di questa 

operazione P(E) che associa un numero reale ad un evento. Si chiama appunto definizione 

assiomatica perché stabilisce delle regole a partire dalle quali possono essere dedotte tutte le altre 

proprietà. 

(2.3.4) Probabilità condizionata 

Nello scrivere il simbolo P(E) intendiamo dire la probabilità dell’evento E. Si noti tuttavia anche 

per le considerazioni fatte sulle misure nella prima parte del corso, che ha senso chiedersi della 

probabilità di un evento solo quando sono specificate le condizioni all’interno delle quali l’evento é 

definito. Dunque é più generale esprimere la probabilità di E come la probabilità di E date le 

condizioni H. Scriveremo pertanto P(E/H). Il simbolo P(E/H) esprime quella che si chiama 

probabilità condizionata. Per quanto detto dunque la probabilità é sempre condizionata. Si noti che 

il simbolo P(E/H) non é la stessa cosa di P( E ∩ H ) come si potrebbe pensare a prima vista. 

Tutto va come se la condizione H definisse il nuovo spazio degli eventi su cui calcolare la 

probabilità di E. Si tratterà dunque di calcolare 

48

P( 

E / H ) = 

P( 

E ∩ H ) 

P( 

H ) 

cioè calcolare il prodotto logico tra E ed H e poi “normalizzarlo” alla probabilità di H stesso. Si può 

dire che la probabilità condizionata restringe lo spazio degli eventi a cui far riferimento dallo spazio 

completo Ω al suo sottospazio H. Un esempio del significato di questi due simboli ci é fornito dal 

caso in cui mi chiedo quale sia la probabilità che esca testa al secondo lancio quando nel primo é 

già uscita testa. In tal caso P( E ∩ H ) e P(E/H) sono differenti. Infatti nel secondo caso non 

devo contare la probabilità che sia uscito testa la prima volta, essendo questo dato per “certo”, 

mentre nel primo devo calcolarlo. 

L’espressione data sopra é evidentemente simmetrica rispetto ad E ed H , quindi E ed H possono 

essere invertiti e la formula può essere rigirata. Avremo dunque: 

P( 

E ∩ H ) = P( 

E / H ) P( 

H ) 

P( 

E ∩ H ) = P( 

H / E) 

P( 

E) 

Le due espressioni date costituiscono il teorema delle probabilità composte che serve per calcolare 

la probabilità di eventi composti, cioè di eventi che avvengono in coincidenza. 

Si noti che P(E/H) può essere > < o = a P(E). Ciò dipende infatti dal tipo di relazione esistente tra 

la condizione H e l’evento E. Nel caso dei 2 lanci della monetina che abbiamo citato poco sopra, 

entrambi le probabilità sono uguali e pari a ½. Ciò riflette il fatto che l’esito del primo lancio non 

ha alcun effetto sull’esito del secondo (a differenza di quello che credono coloro che puntano sui 

numeri del lotto sulla base del loro ritardo nell’uscita). Ma si possono costruire anche esempi in cui 

l’esito del primo evento condiziona l’esito del secondo. Se ho un urna con 5 palline bianche e 5 nere 

e ad ogni estrazione non reintroduco la pallina estratta, evidentemente la probabilità di estrarre 

bianco al secondo lancio cambia se specifico la condizione “al primo lancio ho estratto una bianca”. 

Il caso particolare che si ha quando P(E/H) = P(E) (come nell’esempio della monetina), cioè il caso 

in cui la condizione data dall’evento H non ha alcuna rilevanza circa la probabilità di E corrisponde 

al fatto che i 2 eventi sono indipendenti o scorrelati. Il verificarsi dell’uno non ha alcun effetto 

sulla probabilità di verificarsi dell’altro. Quando invece P(E/H) é diversa da P(E) allora si dice che 

i 2 eventi sono dipendenti o correlati. 

Nel caso di eventi indipendenti si ha: 

P ( A ∩ B) 

= P( 

A) 

P( 

B) 

regola della moltiplicazione delle probabilità di eventi indipendenti. 

Dunque come regola generale, quando devo considerare l’OR tra eventi incompatibili sommo le 

probabilità quando devo fare l’AND tra eventi indipendenti devo moltiplicarle. 

Si noti che la nozione di indipendenza non va confusa con quella di incompatibilità sopra definita. 

Si vede immediatamente che se 2 eventi sono incompatibili cioè se il verificarsi dell’uno implica il 

non verificarsi dell’altro, allora i 2 eventi sono massimamente dipendenti. 

(2.3.5) Alcune proprietà delle probabilità 

Deriviamo alcune importanti proprietà della probabilità che useremo in seguito. Si tratta di 

conseguenze degli assiomi nel senso che possono essere derivate formalmente usando solo gli 

assiomi dati. Le vediamo facendo per ognuna riferimento al suo significato grafico nell’ambito del 

modello insiemistico. 

Dato un evento A ed il suo opposto A si ha 

A ∪ A = Ω 

e dunque essendo A ed A incompatibili ed usando gli assiomi di unione e certezza: 

P ( A ∪ A) 

= P( 

A) 

+ P( 

A) 

= P( 

Ω) 

= 1 

si ha la regola (peraltro intuitiva): 

49

P( A) 

= 1− 

P( 

A) 

. 

A ed il suo opposto A costituiscono una “partizione completa” di Ω e pertanto qualsiasi evento 

B può essere scritto nella forma: 

B = ( B ∩ A) 

∪ ( B ∩ A) 

come OR di 2 eventi incompatibili per cui la probabilità di B sarà: 

P( B) 

= P( 

B ∩ A) 

+ P( 

B ∩ A) 

Si tratta di una decomposizione che viene utilizzata in molte delle dimostrazioni formali dei teoremi 

che vedremo nel seguito. 

Proprietà di inclusione. Vale la proprietà anch’essa intuitiva che se 

A ⊆ B 

allora 

P( A) 

≤ P( 

B) 

Tale proprietà é facilmente dimostrabile decomponendo l’evento B nell’OR tra l’evento A (che é 

per ipotesi incluso in B) e il resto di B che é esprimibile come AND tra B e l’opposto di A 

B = A ∪ ( B ∩ A) 

Applicando al solito l’assioma dell’unione si ottiene: 

P( B) 

= P( 

A) 

+ P( 

B ∩ A) 

≥ P( 

A) 

essendo comunque per l’assioma della positività 

P ( B ∩ A) 

≥ 0 

Da ultimo vediamo come si generalizza l’assioma dell’unione al caso in cui i 2 eventi non siano 

incompatibili. Se considero 2 eventi A e B decompongo il loro OR nell’OR tra A senza B, B senza 

A e A e B insieme (3 eventi chiaramente incompatibili). Esplicitamente, 

A ∪ B = ( A ∩ B) 

∪ ( A ∩ B) 

∪ ( A ∩ B) 

da cui usando l’assioma dell’unione 

P( A ∪ B) 

= P( 

A ∩ B) 

+ P( 

A ∩ B) 

+ P( 

A ∩ B) 

Analogamente posso decomporre sia A che B in eventi incompatibili per modo che valgono le: 

P( 

A) 

= P( 

A ∩ B) 

+ P( 

A ∩ B) 

P( 

B) 

= P( 

A ∩ B) 

+ P( 

A ∩ B) 

Sottraendo membro a membro ed eliminando i termini uguali otteniamo l’importante teorema: 

P( A ∪ B) 

= P( 

A) 

+ P( 

B) 

− P( 

A ∩ B) 

all’interno del quale l’assioma dell’unione é compreso come caso particolare di eventi 

incompatibili. Si noti che tale teorema ha un chiarissimo significato grafico. 

(2.3.6) Il teorema di Bayes 

Dimostriamo ora un ulteriore teorema che deriva dalla definizione assiomatica e che riveste un 

ruolo particolarmente rilevante nei problemi di “inferenza”. Vediamo prima il teorema e poi 

vedremo la sua interpretazione. 

Consideriamo lo spazio degli eventi Ω suddiviso in N eventi tutti tra loro incompatibili e tali da 

costituire una “partizione completa” di Ω. Chiamiamo A i l’i-esimo evento. Si ha per definizione: 

Ω = ∪ A 

i i 

∀i, j( 

A ∩ A ) = 0 

i 

j 

Con tale decomposizione la probabilità dell’evento B può essere scritta nella forma: 

50

P( 

B) 

= N 

i= 1 

i 

i= 

1 

N 

∑P( 

B ∩ A ) = ∑P( 

B / A ) P( 

A ) 

i 

i 

dove abbiamo anche usato il teorema delle probabilità composte. D’altra parte, sempre sulla base 

del teorema delle probabilità composte scritto usando simmetricamente A e B posso derivare la 

relazione: 

P( 

A) 

P ( A/ 

B) 

= P( 

B / A) 

P( 

B) 

Applicando questa relazione all’evento B ed al generico A k ed usando per P(B) la decomposizione 

sopra descritta, otteniamo: 

P( 

B / A ) P( 

A ) 

k 

k 

P( 

A / B) 

= 

k 

N 

∑ P( 

B / A ) P( 

A ) 

i= 

1 

i 

i 

Tale espressione esprime il Teorema di Bayes. Si tratta evidentemente di una conseguenza degli 

assiomi della probabilità. Proviamo a “leggere” questo teorema. Supponiamo che il fenomeno che 

sto studiando può aver luogo secondo N modalità diverse (gli N eventi Ai). Supponiamo inoltre di 

aver osservato l’evento B e di essere interessati a sapere quale o quali tra le N modalità Ai siano 

plausibilmente le “cause” di B. O, detto in termini più espliciti, se osservo l’effetto B e questo può 

essere dovuto a N cause diverse Ai, voglio, dall’osservazione dell’effetto stabilire la probabilità di 

ciascuna causa. Cosi’ formulato si tratta di un problema di straordinaria generalità. Infatti il 

procedimento dello sperimentatore consiste proprio nel registrare un effetto (il valore misurato) e 

nello stabilire un intervallo di probabilità per il valore vero che significa trovare quale tra le 

possibili cause é più plausibile. 

Il teorema di Bayes consente dunque di calcolare la probabilità delle cause, dato l’effetto osservato. 

Per fare ciò ho bisogno di 2 ingredienti: 

conoscenza di tutte le P ( A k ) cioè delle cosiddette “probabilità a priori” delle cause. Si tratta di 

una informazione che racchiude tutta la conoscenza a priori sul fenomeno che sto studiando. Se non 

ho nessuna conoscenza queste P ( A k ) immagino che siano uniformi cioè che tutte le cause possibili 

siano equiprobabili. 

conoscenza di tutte le P ( B / A k ). Si tratta per ogni Ak della probabilità di osservare l’effetto B 

se la causa che lo origina é Ak. Si chiama anche funzione di verosimiglianza (likelihood in 

inglese). E’ una funzione che racchiude tutte le conoscenze che ho sulla relazione tra causa ed 

effetto. Nel caso di un esperimento é la mia conoscenza dell’apparato di misura (precisione, errori 

sistematici, accuratezza, ripetibilità...) 

Il teorema di Bayes permette dunque di passare dalle probabilità per gli effetti alle probabilità per le 

cause. Può essere usato come base per il processo dell’inferenza che consiste proprio nel fare 

affermazioni sulle cause (i valori veri) dati gli effetti. 

(2.4) Il Calcolo Combinatorio. 

Vediamo ora alcune interessanti regole di calcolo che sono molto utilizzate nel calcolo delle 

probabilità, in particolare nella determinazione del numero dei casi favorevoli e di quello dei casi 

possibili che entrano nel metodo combinatorio di valutazione della probabilità. Parliamo del calcolo 

combinatorio. E’ importante sottolineare l’importanza del calcolo combinatorio in Fisica. Esso 

infatti entra in gioco non solo come vedremo nel calcolo delle probabilità, ma svolge un ruolo 

essenziale anche nella Meccanica Statistica, cioè in quel settore della Fisica Teorica nel quale 

vengono studiate le proprietà dei sistemi costituiti da molti elementi. 

I problemi di calcolo combinatorio di cui ci occuperemo qui, possono in generali essere tutti posti 

nel modo seguente. Supponiamo di avere un certo numero (diciamo n) di elementi, e supponiamo di 

avere la possibilità di disporre questi elementi in un certo numero (diciamo k) di caselle, un 

elemento a casella, secondo certe modalità date per costituire degli oggetti. Allora mi chiedo: 

quant’e il numero di oggetti che posso costituire o, detto in altri termini, il numero di modi in cui 

posso disporre gli n elementi nelle k caselle ? 

51

In generale la regola é: se nella i-esima casella posso scegliere 1 tra n i degli n elementi, il numero 

totale di oggetti che posso costruire é pari a n 1 *...*n i *...*n k cioè devo moltiplicare tra loro tutti i 

numeri di scelte possibili. 

Distinguiamo ora i vari casi che si incontrano e facciamo dunque una classificazione dei problemi 

di calcolo combinatorio, sulla base delle modalità di disposizione. 

(1) Disposizioni di n elementi in k caselle. Se gli n elementi che ho a disposizione sono tutti 

disponibili e possono essere usati ciascuno più di una volta, allora in ciascuna casella posso disporre 

effettivamente n elementi. Il prodotto n 1 *n 2 *...*n k tra il numero di elementi che posso mettere in 

ogni casella sarà dato dal prodotto k volte degli n elementi, ovvero da : 

k 

n 

È il caso che si pone quando posso usare più volte lo stesso elemento e allo stesso tempo, la 

sequenza nelle k caselle é importante. L’esempio più classico é quello della schedina di totocalcio. 

Ho 13 caselle da riempire con 3 elementi. Il numero di modi con cui posso farlo é evidentemente 

3 13 . 

(2) Disposizioni semplici (cioè senza ripetizioni) di n elementi in k caselle. Questo caso differisce 

dal precedente nel fatto che ora una volta che ho messo un elemento in una casella, non posso più 

riutilizzarlo. Cioè viene mantenuta l’individualità di ciascun singolo elemento. E’ evidente che in 

tal caso deve essere n > k, perché in caso contrario non potrei riempire le k caselle. Contiamo in 

questo caso il numero di modi in cui posso disporre gli elementi. 

Evidentemente posso mettere n elementi nella prima casella. Quando sono alla seconda ne potrò 

mettere solo n-1 perché uno me lo sono già “giocato” alla casella precedente. Alla terza potrò 

metterne n-2, e cosi’ via, fino alla k-esima, quando ne potrò mettere n-k+1. Il numero di oggetti 

sarà dunque: 

n! 

n( 

n −1)....( 

n − k + 1) = 

( n − k)! 

si noti che anche in questo caso come nel precedente, la sequenza con la quale gli elementi sono 

disposti nelle caselle, é rilevante. Cioè se prendo gli stessi elementi e li dispongo in un ordine 

diverso, questo costituisce un altro modo che é contato. 

Come esempio consideriamo un concorso a cui partecipano 100 persone per 10 posti, e calcoliamo 

il numero di graduatorie dei primi 10 classificati che si possono ottenere. In questo caso, n=100, 

k=10, ed evidentemente non posso mettere un candidato in 2 diverse posizioni. 

Si noti a questo punto la differenza tra i casi (1) e (2). Nel caso (2) gli elementi sono distinguibili, 

cioè hanno ciascuno una identità ben definita nel caso (1) no. La distinzione distinguibile – 

indistinguibile svolge un ruolo determinante nel passaggio tra Fisica Classica e Fisica Quantistica. 

Anzi fu proprio attraverso la comprensione di questo passaggio che furono mossi i primi passi ai 

primi del ‘900 nel passaggio alla nuova Fisica. 

(3) Permutazioni di n elementi. Si tratta delle disposizioni semplici quando n=k. Si ha un numero 

di oggetti pari a 

n ! 

Siamo cioè nel caso in cui il numero di elementi uguaglia il numero di caselle. Ho evidentemente un 

solo modo di scegliere quali elementi mettere perché devo prenderli tutti. Tuttavia mi resta la libertà 

di definire in quale sequenza metterli nelle caselle. Le permutazioni sono dunque i modi con cui 

posso scambiare gli elementi per creare diverse sequenze. 

52

(4) Combinazioni di n elementi presi k a k. Qui il problema é un po’ diverso. Come nel caso (2) n 

> k. Solo che stavolta, tra n elementi devo sceglierne k e disporli nelle k caselle, ma non sono 

interessato a sapere come li dispongo, sono solo interessato a sapere quali ho scelto. In altre parole 

devo ancora contare le disposizioni semplici, ma devo contare solo una volta, quelle disposizioni 

che sono fatte dagli stessi elementi ma sono solo ordinate in modo diverso. Devo quindi dividere il 

numero di disposizioni semplici per il numero di permutazioni dei k elementi scelti. 

n! 

1 n! 

⎛n⎞ 

= = ⎜ ⎟ 

( n − k)! 

k! 

( n − k)! 

k! 

⎝k 

⎠ 

Il risultato ottenuto é detto coefficiente binomiale per ragioni che saranno chiare nel seguito. 

Rappresenta il numero di combinazioni di n elementi presi k a k, cioè il numero di modi in cui 

posso scegliere k tra n elementi, indipendentemente dall’ordine con cui li dispongo. 

(2.5) Variabili casuali 

(2.5.1) Considerazioni generali 

La nozione di evento finora utilizzata risulta piuttosto astratta e difficilmente applicabile alle 

misure, alle quali siamo interessati. Apparentemente quindi le cose viste nella prima parte del corso 

non trovano una connessione diretta con quanto stiamo vedendo riguardo le probabilità degli eventi. 

L’applicazione della teoria della probabilità ai risultati di misure, diventa evidente quando 

introduciamo le variabili casuali. Quando l’evento può essere schematizzato come l’occorrenza di 

un numero, rispetto ad una molteplicità di numeri possibili, si dice che quel numero costituisce una 

variabile casuale: intendendo con ciò “un modo dell’evento”. E’ l’evento in forma quantitativonumerica. 

L’insieme di tutti i valori che tale variabile può assumere costituisce lo spazio degli 

eventi Ω . Si può trattare dell’insieme di tutti i numeri reali, oppure di tutti gli interi positivi, oppure 

degli interi tra 0 e 100 o quello che si vuole. 

Perché le variabili casuali sono importante in fisica ? Essenzialmente perché le grandezze fisiche 

che costituiscono l’oggetto delle misure, si presentano in generale come variabili casuali. Negli 

esempi che abbiamo visto nella prima parte del corso e nella prima esercitazione, abbiamo notato 

che il risultato di ogni misura può essere un numero diverso e dunque il risultato di una misura può 

considerarsi a tutti gli effetti come un evento all’interno dello spazio dei possibili risultati. Le 

sequenze di numeri che abbiamo visto sono perciò insiemi di eventi, cioè di occorrenze di una 

variabile casuale. 

Si noti che in questo contesto, l’aggettivo “casuale” non vuol dire completamente a caso, ma vuol 

dire che si tratta di una variabile che può assumere valori con certe caratteristiche. 

Vediamo alcuni esempi. 

a) Testa-Croce. Qui la variabile può assumere 2 valori (lo spazio Ω è uno spazio con 2 eventi 

soltanto) che possiamo chiamare 0 e 1. I 2 eventi sono evidentemente equiprobabili di probabilità 

1/2 

b) 1 Dado. Qui lo spazio é costituito dai numeri interi da 1 a 6, tutti equiprobabili (p=1/6) 

c) 2 Dadi. Qui lo spazio é costituito dagli interi da 2 a 12 ma questi non sono equiprobabili. Il 

contenuto di probabilità di ciascun evento é facilmente calcolabile con il metodo combinatorio. Si 

ottiene una probabilità massima per n=7 e minima per n=2 o 12 (vedi costruzione in Fig.2.1). 

53

Fig.2.1 Funzione di distribuzione della variabile discreta somma dei 2 dadi, ottenuta applicando il metodo 

combinatorio. 

frequenza 

0.2 

0.15 

0.1 

0.05 

0 

0 2 4 6 8 10 12 14 

Somma dei 2 dadi 

frequenza 

0.2 

0.15 

0.1 

0.05 

0 

0 2 4 6 8 10 12 14 


frequenza 

0.2 

0.15 

0.1 

0.05 

0 

0 2 4 6 8 10 12 14 


Fig.2.2 Esempi di distribuzioni “campionarie” della variabile (somma dei 2 dadi) per diversi numeri di lanci 

(2.5.2) Distribuzioni di probabilità di variabili casuali 

54

Emerge da questi esempi in modo naturale la nozione di distribuzione di probabilità: ogni evento, 

ovvero ogni occorrenza di un possibile elemento dello spazio Ω é caratterizzato da una certa 

probabilità (che posso stimare a priori sulla base delle mie conoscenze del fenomeno). La 

distribuzione ci dice quanto vale p(E) cioè quant’è la probabilità che associamo a ciascuno degli 

eventi possibili. Questa distribuzione ha evidentemente una sua caratterizzazione grafica, nella 

quale la variabile casuale viene posta sull’asse delle ascisse, e la probabilità viene posta sull’asse 

delle ordinate. 

La forma ottenuta, esprime in definitiva tutte le proprietà note del fenomeno in esame. Tale forma é 

detta anche popolazione. Nel caso della Fig.2.1 abbiamo dunque la popolazione della variabile 

“somma di 2 dadi”. Se prendo 2 dadi e faccio un numero finito di lanci, e disegno l’istogramma dei 

valori ottenuti (vedi Fig.2.2 dove sono riportati 3 istogrammi per 3 diversi numeri di lanci) 

riportando sull’asse delle ordinate le frequenze con cui ciascun valore si é manifestato, ho ottenuto 

la descrizione di un campione preso dalla popolazione in esame. Nel limite in cui il numero di 

misure é elevato, sappiamo che la frequenza tende alla probabilità di occorrenza di quel risultato, 

ovvero, usando un linguaggio più appropriato, il campione tende ad approssimare la popolazione. 

Vediamo dunque che tra frequenza e probabilità vi é una “relazione” molto importante, che é la 

relazione che c’è tra l’istogramma e la distribuzione ovvero quella che c’è tra campione e 

popolazione. 

Distinguiamo subito tra 2 tipi di variabili casuali: 

(a) variabili discrete: i valori assunti possono essere solo interi compresi tra n 1 ed n 2 . 

(b) variabili continue: i valori assunti possono essere numeri reali compresi tra a e b 

(2.5.3) Variabili discrete. 

Il caso delle variabili discrete é sostanzialmente semplice. Per ogni n ho p ( n ) ovvero la probabilità 

che “esca” il numero n. Nel caso del dado, p(1)=p(2)=...=p(6)=1/6. Se voglio sapere la probabilità 

che esca un numero compreso tra n1 ed n2 farò: 

p ( n ≤ n ≤ n ) = 

1 

2 

n 2 

∑ 

i= 

n1 

p( 

i) 

infatti ogni uscita é incompatibile con l’uscita simultanea di un altro numero. 

Naturalmente per soddisfare l’assioma della certezza dovrà essere: 

N 

∑ p( 

i) 

= 1 

1= 

0 

se [0,N]é l’intervallo di definizione della variabile. 

(2.5.4) Variabili continue 

Nel caso di variabile continua, notiamo subito che esiste una novità fondamentale. Infatti noi 

sappiamo che i numeri reali costituiscono un insieme “comunque denso”. Un numero reale é a 

rigore, un numero che ha infinite cifre significative. Noi sappiamo bene in effetti che quando si 

fanno delle misure non ha molto significato chiedersi quant’è la probabilità che esca il numero reale 

45.72. E’ più sensato chiedersi, quant’è la probabilità che esca un numero reale compreso tra 45.715 

e 45.725. Si noti che nel caso delle variabili discrete questo problema non si pone. La probabilità 

che esca 10, é perfettamente definita. Nel caso dei numeri reali invece la probabilità che esca 

proprio x é a rigore “nulla”, non nulla é invece la probabilità che esca un numero compreso tra x e 

x+Δx. 

Per trattare il caso delle variabili casuali rappresentate da numeri reali, si ricorre ai metodi 

dell’analisi matematica, in particolare quelli del calcolo differenziale ed integrale. Vediamo di 

illustrare il procedimento logico di tali metodi senza pretendere di essere rigorosi. 

A questo scopo immaginiamo di dividere l’insieme di definizione della variabile reale x in intervalli 

(bins) larghi Δx, ciascuno centrato in un dato valore di x, diciamo x k , e di mettere in 

corrispondenza di ciascun bin una barra di altezza pari alla probabilità che x cada nell’intervallo 

55

compreso tra x k -Δx/2 e x k +Δx/2. Sostanzialmente abbiamo costruito un istogramma, abbiamo cioè 

“discretizzato” una variabile continua rendendola simile ad una discreta. Chiamiamo P k l’altezza di 

ciascuna barra e f(x k ) il rapporto 

f ( x ) = P / Δx 

k 

k 

La probabilità associata al generico intervallo [a,b] sarà data dalla somma sugli N bin contenuti 

nell’intervallo [a,b]: 

N 

N 

N 

p( 

a < x < b) 

= ∑ p( 

x − Δx 

/ 2 < x < x + Δx 

/ 2) = ∑ P = ∑ 

k = 1 

k 

k 

k = 1 

k 

k = 1 

f ( x ) Δx 

Tale espressione costituisce una approssimazione alla probabilità che stiamo cercando di calcolare. 

Se ora diminuisco sempre di più le dimensioni del mio bin, aumentando proporzionalmente il 

numero di bins, cioè se faccio il limite per Δx -> 0 l’approssimazione diventa sempre più buona. 

L’analisi mi insegna che sotto certe ipotesi sulla funzione, il limite della sommatoria esiste, e si 

chiama integrale della funzione. Scriveremo perciò: 

p ( a < x < b) 

= ∫ f ( x) 

dx 

b 

a 

La funzione f ( x ) é detta densità di probabilità. Si tratta di una funzione che non ha né il 

significato né le dimensioni di una probabilità, ma il cui valore in una certa zona di x ci dice quanta 

é la “probabilità per unità di x” che x esca in quella zona. Per fissare le idee disegniamo una f( x ) 

qualsiasi (vedi Fig.2.3). Dal punto di vista grafico, la probabilità in questo caso é dunque l’area 

sottesa alla curva tra a e b come illustrato in Fig.2.3. Il simbolo dx indica l’intervallo infinitesimo 

della variabile x, cioè il limite per N grande di Δx. Quindi il segno di integrale appena definito ha il 

significato di una somma di prodotti dei valori della funzione per la dimensione dell’intervallino, 

quando ho implicitamente pensato di mandare all’infinito il numero di intervallini. 

k 

Fig.2.3 Esempio di densità di probabilità f(x) della variabile casuale continua x definita nell’intervallo (0,10). 

L’area complessiva sottesa alla curva é pari a 1. Per determinare la probabilità che x sia compresa tra i 2 valori a e 

b, (pari rispettivamente a 3 e 5 in questo caso) si deve valutare l’area indicata. 

Con questo linguaggio l’assioma della certezza si tramuta nella: 

x max 

∫ f ( x) 

dx = 1 

x min 

56

dove [xmin,xmax] costituiscono l’insieme di definizione della variabile casuale x. 

Per quanto detto, le densità di probabilità ha le dimensioni di un inverso di x essendo il prodotto 

f(x)dx uguale ad una probabilità che é adimensionale. 

Le funzioni di distribuzione sia di n che di x possono dipendere da uno o più parametri, i cui valori 

determinano le caratteristiche della funzione. La notazione che si usa é p ( n/θ ) o f ( x/θ) 

intendendo con θ un insieme di parametri. La notazione adottata fa capire che la dipendenza dal 

parametro é una forma di condizionamento della probabilità. Si tratta cioè di dire la funzione di 

distribuzione di x quando θ vale un certo valore. 

Accanto alla funzione di distribuzione si definisce la funzione cumulativa (o di ripartizione) cosi’ 

definita: 

P ( n / θ ) = ∑ 

n p( 

i / θ ) 

i= 

n1 

ovvero 

F( x / θ ) = x 

∫ f ( x' 

/ θ ) dx' 

x min 

Dalla definizione risulta chiaro il significato delle funzioni cumulative. E’ una funzione 

monotonamente crescente che parte da 0 e arriva a 1. La funzione di distribuzione cumulativa 

corrispondente alla funzione di distribuzione di Fig.2.3é data in Fig.2.4. Nel caso di variabile 

continua, dai teoremi del calcolo differenziale e integrale otteniamo che 

dF( 

x / θ ) 

f ( x / θ ) = 

dx 

cioè la densità di probabilità é la derivata della funzione cumulativa. Come illustrato graficamente 

nella Fig.2.4, il calcolo della probabilità che x sia compreso tra a e b, può essere effettuato a mezzo 

della distribuzione cumulativa secondo la formula: 

P( a < x < b) 

= F( 

b) 

− F( 

a) 

Fig.2.4 Distribuzione cumulativa della densità di probabilità mostrata in Fig.2.3. Il calcolo della probabilità che x 

assuma un valore compreso tra a e b (3 e 5 in questo caso specifico), può essere ottenuta calcolando F(a) ed F(b) e 

facendone la differenza. Si noti che la cumulativa tende ad 1 all’estremo dell’intervallo di definizione della 

variabile x (0,10 in questo caso). 

57

(2.5.5) Momenti di una distribuzione 

Le caratteristiche di una funzione di distribuzione sono determinate dalla forma della distribuzione 

e dai parametri che la determinano. E’ molto interessante ed utile introdurre anche dei numeri che 

caratterizzano la distribuzione, cioè delle misure complessive della distribuzione. Si tratta 

dell’analogo di quanto visto per le frequenze nella prima parte del corso: dall’istogramma alle 

caratteristiche numeriche quali la media e la deviazione standard. 

Si definisce in generale Momento di ordine k intorno al valore n ~ (o x ~ nel caso di variabile 

continua) della distribuzione, la quantità: 

Μ 

( k ) 

( n ~ ) = 

n2 

∑ 

n= 

n1 

( n − n~ ) 

k 

p( 

n) 

nel caso di distribuzione di variabile discreta e 

max 

( ) 

Μ ( ~ x 

k 

= ∫ ( − ~ ) 

k 

x ) x x f ( x) 

dx 

x min 

nel caso di distribuzione di variabile continua. Ogni momento é evidentemente un numero. 

Di particolare interesse sono i seguenti momenti: 

Valore atteso: si tratta del momento primo (k=1) intorno allo 0 ( ~ x = 0 ): 

n 2 

(1) 

Μ (0) = E [ n] 

= ∑ np( 

n) 

n= 

n1 

x max 

(1) 

Μ (0) = E[ 

x] 

= ∫ xf ( x) 

dx 

x min 

il suo significato é quello di “valore centrale” o “valore medio” della distribuzione. In effetti nella 

corrispondenza istogramma-distribuzione che più volte abbiamo considerato, é strettamente legato 

alla media di un istogramma. Si noti che la definizione di valore atteso per una variabile discreta é 

esattamente la media fatta sull’istogramma (definita nel Cap.(1)). 

~ x = x ): 

Varianza: é il momento secondo (k=2) intorno al valore atteso ( E[ 

] 

Μ 

Μ 

( 2 ) 

( 2 ) 

n 2 

2 

( E [ n]) 

= Var[ 

n] 

= ∑ ( n − E[ 

n]) 

p( 

n) 

( E[ 

x]) 

= Var[ 

x] 

= 

n= 

n1 

x max 

∫ ( x − E[ 

x]) 

x min 

2 

f ( x) 

dx 

qui evidentemente l’analogia é con la nozione di deviazione standard campionaria, o meglio, con il 

suo quadrato. E’ utile anche scrivere la varianza usando il simbolo dell’operatore valore atteso: 

2 

2 

2 

Var[ 

x] 

= E[( 

x − E[ 

x]) 

] = E[ 

x − 2xE[ 

x] 

+ ( E[ 

x]) 

] = 

2 

2 

2 

2 

2 

= E[ 

x ] − 2( E[ 

x]) 

+ ( E[ 

x]) 

= E[ 

x ] − ( E[ 

x]) 

Si definisce anche deviazione standard della popolazione (con che a questo punto chiameremo 

l’altra deviazione standard campionaria) la sua radice quadrata: 

σ [ x ] = Var[ 

x] 

che si indica con la lettera sigma. 

Tra i momenti successivi di particolare interesse sono il momento terzo intorno al valore atteso 

detto skewness ed il momento quarto sempre intorno alla media, dal quale si ricava il cosiddetto 

kurtosys. In particolare, a partire da skewness e kurtosys si definiscono i 2 coefficienti 

rispettivamente di simmetria e di appiattimento : 

58

A 

A 

s 

a 

= 

( 

Μ 

Μ 

Μ 

= 

( Μ 

( 4 ) 

( 2 ) 

( 3) 

( 2 ) 

( E[ 

x]) 

( E[ 

x])) 

( E[ 

x]) 

( E[ 

x])) 

2 

3 

− 3 

Si noti che si tratta di coefficienti resi adimensionali nella definizione. In generale infatti il 

momento n-esimo ha dimensioni [x] n e pertanto la media ha dimensioni [x] e la varianza ha 

dimensioni [x] 2 . 

Naturalmente le definizioni date, in particolare quelle di valore atteso e di varianza, si estendono a 

combinazioni e funzioni di una o più variabili casuali. Vedremo nel seguito come si trattano questi 

casi. 

(2.5.6) Densità di probabilità di una funzione di variabile casuale 

Se x é una variabile casuale (l’argomento vale anche per il caso discreto), una qualsiasi funzione di 

x, y=y(x) risulta anch’essa una variabile casuale, nel senso che l’occorrenza di diversi valori di x 

secondo le modalità della sua funzione di distribuzione, determina anche l’occorrenza dei valori di 

y secondo le modalità di una funzione di distribuzione che dipenderà dalla distribuzione di x e dalla 

funzione y(x). Senza entrare nei dettagli matematici vediamo come si ricava la densità di probabilità 

di y, data quella di x e data la funzione y=y(x). Chiamiamo f(x) la densità di probabilità di x e g(y) 

quella di y. 

Supponiamo per semplicità che la funzione y(x) sia monotona nell’intervallo di definizione della 

variabile x. In tal caso l’inversione della funzione, cioè il passaggio dalla y(x) alla x(y), avviene 

senza difficoltà e la funzione x(y) é una funzione “monodroma” ovvero per ogni y vi é un solo x. 

Data la relazione tra x ed y dovrà essere per ogni valore di x (che chiamiamo x ): 

p ( x < x < x + dx) 

= p( 

y( 

x) 

< y < y( 

x + dx)) 

= p( 

y( 

x) 

< y < y( 

x) 

+ dy) 

e dunque 

f ( x) 

dx = g( 

y) 

dy 

da cui la relazione cercata: 

dx( 

y) 

g ( y) 

= f ( x( 

y)) 

dy 

dove il modulo é stato inserito per assicurare la positività della nuova densità di probabilità cosi’ 

ottenuta. Si tratta pertanto di invertire la funzione y(x), di calcolare la derivata della x(y) e di 

moltiplicarne il modulo per la funzione f(x) in cui al posto della x mettiamo esplicitamente la x(y). 

La g(y) cosi’ ottenuta é anche automaticamente normalizzata 

b 

y ( b ) 

1 = ∫ f ( x) 

dx = ∫ g( 

y) 

dy = 1 

a 

y ( a ) 

se risulta normalizzata la f(x) di partenza. 

In Fig.2.5é illustrato graficamente il caso in cui da una variabile x uniforme tra 0 e 1, si passa ad 

una y=αx 2 . Il fatto che la y in questo caso non mantenga la stessa distribuzione della x uniforme é 

comprensibile osservando che se considero i 2 intervalli [0,1/2] e [1/2,1] equiprobabili in x, questi 

danno luogo a due intervalli di diversa grandezza in y ma che devono restare equiprobabili. Dunque 

la y non può essere uniforme. 

Le definizioni di valore atteso e varianza si estendono banalmente. Il valore atteso può essere 

espresso nella forma: 

y b 

= ) 

b 

E [ y] 

∫ yg( 

y) 

dy = ∫ y( 

x) 

f ( x) 

dx 

( 

y ( a ) 

a 

59

cioè può essere valutato sia integrando in y che in x. 

y(x) 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

f(x) 

1.8 2 1.6 

1.4 

1.2 

0.8 1 

0.6 

0.4 

0.2 

0 

0 0.25 0.5 0.75 1 

x 

0.4 

0.3 

0.2 

0.1 

0 

0 0.2 0.4 0.6 0.8 1 

x 

g(y) 

4.5 5 

3.5 4 

2.5 3 

1.5 2 

0.5 1 

0 

0 0.25 0.5 0.75 1 

y 

Fig.2.5 Passaggio da una variabile casuale x distribuita uniformemente (in alto a destra) ad una y ottenuta da questa 

come y = x 2 (vedi grafico a sinistra in cui sono mostrati intervalli di equiprobabilità in x che si trasformano in 

intervalli di equiprobabilità in y). In basso a destra é mostrata la densità di probabilità della y g(y). 

(2.5.7) La media e la deviazione standard come variabili casuali 

Un caso molto particolare di funzione di variabile casuale che vogliamo introdurre a questo punto é 

quello della media aritmetica x e del quadrato s 2 della deviazione standard campionaria che 

abbiamo già introdotto nel Cap.(1) e che ora vogliamo analizzare come “funzioni di variabili 

casuali”. 

Infatti se x é una variabile casuale di valore atteso E[x] e varianza Var[x]é interessante chiedersi 

quali siano le proprietà di xe di s 2 

ottenuti a partire da un campione di dimensione N della 

variabile x. Per fare ciò premettiamo una proprietà fondamentale (di cui omettiamo la 

dimostrazione). Data una combinazione lineare di variabili casuali 

y = ∑ 

N 

a x i i 

i= 

1 

si hanno le seguenti proprietà di linearità per valore atteso e varianza: 

N 

E[ 

y] 

= ∑ a E[ 

x ] 

i= 

1 

i 

i 

N 

2 

Var[ 

y] 

= ∑ a Var[ 

x ] 

i 

i 

i= 

1 

che discendono dal fatto che i momenti sono operatori lineari. 

Utilizzando queste espressioni calcoliamo ora il valore atteso e la varianza della media aritmetica. 

N 

∑ xi 

1 N 

i= 

1 

E[ 

x] 

= E[ 

] = ∑ E[ 

x ] = E[ 

x] 

i 

i= 

1 

N N 

N 

∑ xi 

1 N 1 

i= 

1 

Var[ 

x] 

= Var[ 

] = ∑Var[ 

x ] = Var[ 

x] 

2 

i 

i= 

1 

N N 

N 

Il risultato ci dice che: 

il valore atteso della media é lo stesso della variabile: l’operazione di media non cambia valore 

atteso, ovvero la media é un buon estimatore del valore atteso di x; 

60

la varianza della media é (1/N) volte la varianza della variabile: la media ha dunque una varianza 

minore della variabile. Questo fatto giustifica l’uso di 

s 

N 

per la deviazione standard della media, che abbiamo usato tante volte. Quindi la media aritmetica 

risulta essere un estimatore “potente” perché al crescere del numero di misure diminuisce la sua 

varianza. Si noti come questo risultato sia indipendente dalla densità di probabilità della x. Esso 

costituisce pertanto un risultato di grande generalità. 

2 

Quanto ad s , calcoliamo ora il suo valore atteso. Qui il calcolo é leggermente più complesso. Lo 

svolgiamo esplicitando tutti i passaggi rilevanti. 

1 N 

1 

N 

2 

2 

2 

E[ 

s ] = E[ 

∑ ( x − x) 

] = E[ 

∑ ( x − E[ 

x] 

+ E[ 

x] 

− x) 

] = 

i 

i 

i= 

1 

i= 

1 

N −1 

N −1 

1 

N 

N 

N 

2 

2 

= E[ 

∑( 

x − E[ 

x]) 

+ ∑( 

E[ 

x] 

− x) 

+ 2∑( 

x − E[ 

x])( 

E[ 

x] 

− x)] 

= 

i 

i 

i= 1 i= 1 i= 

1 

N −1 

1 

N 

N 

2 

2 

= E[ 

∑( 

x − E[ 

x]) 

+ N( 

E[ 

x] 

− x) 

+ 2( E[ 

x] 

− x) 

∑( 

x − E[ 

x])] 

= 

i 

i 

i= 1 i= 

1 

N −1 

1 

N 

2 

2 

= E[ 

∑ ( x − E[ 

x]) 

+ N( 

E[ 

x] 

− x) 

+ 2( E[ 

x] 

− x) 

N( 

x − E[ 

x])] 

= 

i 

i= 

1 

N −1 

1 

N 

2 

2 

= E[ 

∑ ( x − E[ 

x]) 

− N( 

E[ 

x] 

− x) 

] = 

i 

i= 

1 

N −1 

1 N 

2 

2 

= ( ∑ E[( 

x − E[ 

x]) 

] − NE[( 

E[ 

x] 

− x) 

]) 

i 

i= 

1 

N −1 

1 

NVar[ 

x] 

1 

= ( NVar[ 

x] 

− ) = ( N −1) 

Var[ 

x] 

= Var[ 

x] 

N −1 

N N −1 

Dunque il valore atteso di s 2 

é pari a Var[x] come deve essere. Dunque il quadrato della nostra 

deviazione standard campionaria é un buon estimatore della varianza della popolazione. 

2 

Si noti che se avessimo adottato s avremmo avuto un 1/N in luogo di un 1/(N-1) davanti a tutto e 

N 

dunque alla fine avremmo avuto 

N −1 

E[ s 

2 N 

] = Var[ 

x] 

N 

cioè una stima “distorta” della varianza. Questo giustifica l’uso dell’N-1 a denominatore che 

avevamo a suo tempo dato senza spiegazione chiara. 

Infine é interessante vedere quanto vale la “varianza della varianza”. Il calcolo risulta complesso, 

tuttavia il risultato é interessante: 

Var [ s 

2 

2( Var[ 

x]) 

] = 

N −1 

2 

(2.6) Variabili casuali notevoli. 

Passiamo a considerare alcuni casi notevoli di variabili casuali, che si prestano alla descrizione di 

vaste classi di fenomeni. 

(2.6.1) Distribuzione uniforme 

61

Si ha quando tutti i valori possibili della variabile hanno la stessa probabilità di essere ottenuti, 

ovvero quando la probabilità di un intervallo é pari al rapporto tra la larghezza dell’intervallo e la 

larghezza totale dell’intervallo di definizione della variabile. Detti rispettivamente N il numero di 

valori possibili nel caso di variabile discreta ed [a,b] l’insieme di definizione della variabile 

continua, si ha: 

1 

p( 

n) 

= 

N 

1 

f ( x) 

= 

b − a 

Si noti che non si possono avere variabili con distribuzioni uniformi tra -∞ e+∞ né discrete né 

continue. La definizione di p(n) e di f(x) per variabili discrete e continue uniformi sono fatte in 

modo tale che le variabili in questioni siano normalizzate. N oltreché b ed a sono i parametri. 

Esempi di distribuzioni uniformi si hanno sia per le variabili discrete (tombola, lancio di 1 dado) 

che per variabili continue (è il caso del display digitale dove immaginiamo una distribuzione 

uniforme tra i 2 estremi dell’intervallo). E’ interessante calcolare valore atteso e varianza. Lo 

facciamo per il caso di variabile continua. Per il calcolo della varianza é conveniente fare la 

sostituzione t = x – E[x] 

b 

1 1 

b 

1 

E[ 

x] 

= ∫x 

dx = ∫xdx 

= 

a 

a 

b − a b − a b − a 

b 

Var[ 

x] 

= ∫( 

x − E[ 

x]) 

a 

3 

( b − a) 

( b − a) 

= = 

12( b − a) 

12 

2 

2 

1 1 

dx = 

b − a b − a 

2 

x 

2 

b−E 

[ x ] 

∫ 

a−E 

[ x ] 

b 

a 

2 2 

b − a b + a 

= = 

2( b − a) 

2 

3 

2 

1 t 

t dt = 

b − a 3 

da cui si deducono i 2 importanti risultati: 

il valore atteso di variabile casuale avente una densità di probabilità uniforme é il centro 

dell’intervallo; 

la varianza é invece pari all’ampiezza dell’intervallo al quadrato diviso 12 e la deviazione 

standard della popolazione é ampiezza dell’intervallo / √12. 

Quindi nel caso in cui la mia variabile abbia una distribuzione uniforme tra a e b posso stimare 

valore medio e deviazione standard dando centro dell’intervallo ± ampiezza / √12. 

Quale é il significato probabilistico di un intervallo dato in questo modo ? Possiamo calcolarlo nel 

modo seguente: 

p( 

E[ 

x] 

−σ[ 

x] 

< x < E[ 

x] 

+ σ[ 

x]) 

= 

2σ 

[ x] 

= = 

b − a 

2( b − a) 

= 

12( b − a) 

2 

12 

= 0.577 

E [ x ] + σ [ x ] 

∫ 

E [ x ] −σ 

[ x ] 

dx 

b − a 

cioè si tratta del 57.7%. Tale valore può essere confrontato con il ~ 70% che avevamo trovato dai 

dati della prima esercitazione. Tra poche lezioni capiremo il significato di quel valore. Per ora é 

interessante notare che il contenuto di probabilità di un intervallo standard, dipende dalla forma 

della distribuzione. Nel caso dell’esercitazione avevamo visto che moltiplicando per 3 l’intervallo 

standard ottenevamo un intervallo di “quasi-certezza” (entro il quale stava il ~ 99% dei dati). In 

questo caso per avere un intervallo di quasi-certezza basta ricorrere a ± semiampiezza che fornisce 

un intervallo di “certezza”. 

= 

b−a 

2 

a−b 

2 

= 

62

(2.6.2) La distribuzione binomiale 

La distribuzione binomiale si applica ai cosiddetti processi di Bernoulli. Si tratta di quei processi 

in cui 2 sono i possibili risultati incompatibili (0 o 1), che chiamiamo successo ed insuccesso 

caratterizzati da probabilità diverse p(0)=p (1)=1-p (questo esprime l’incompatibilità dei 2 eventi). 

Molti processi sono schematizzabili in questo modo. Dal punto di vista delle applicazioni alla fisica 

(tralasciando dunque dadi e monetine) il caso più interessante é quello della misura dell’efficienza 

di un rivelatore. 

Consideriamo infatti un rivelatore di radiazione posto in prossimità di una sorgente di radiazioni. 

Ad ogni passaggio della radiazione proveniente dalla sorgente, il rivelatore può dire Ok (se é 

efficiente) o non dire nulla (se inefficiente). Il fenomeno é schematizzabile come un processo di 

Bernoulli nel quale il successo si ha con l’Ok e l’insuccesso con il nulla. 

Ora, supponiamo che il rivelatore sia stato attraversato da N radiazioni, e di volere sapere quanto é 

la probabilità di avere avuto n volte Ok e N-n volte nulla. n costituisce dunque la variabile casuale 

(discreta) di questo problema definita nell’intervallo 0

p 

p 

1 

2 

= 

= 

10 

( ) 

10 

⎛ 1 ⎞ 

⎜ ⎟ 

⎝ 2 ⎠ 

⎛ 1 

⎜ ⎞ ⎟ ⎝ 2⎠ 

10 

= 1× 

9.8⋅10 

≈ 0.1% 

10 

−4 

( ) = 210× 

9.8⋅10 

≈ 21% 

6 

10 

−4 

Sono illustrati in Fig.2.6 e Fig.2.7 esempi di distribuzioni binomiali per diversi p a due fissati valori 

di N ed in Fig.2.8 per diversi N ad un dato p. Si nota chiaramente lo spostamento del “picco” al 

variare di p e il restringimento e la simmetrizzazione della distribuzione al crescere di N. La 

distribuzione binomiale non é in generale simmetrica (lo é solo se N e p hanno valori particolari e in 

condizioni limiti che vedremo) e dunque moda, media e mediana non sono coincidenti. 

Fig.2.6. Esempi di distribuzione binomiale per N=10 e 5 diversi valori di p. Si noti come solo nel caso p=0.5 la 

distribuzione sia simmetrica. Si noti inoltre che i casi 0.25 e 0.75 e i casi 0.1 e 0.9 presentano forme uguali ma 

semplicemente “ribaltate”. 

64

Fig.2.7 Come per la Fig.2.6 nel caso N=30 

Fig.2.8 Esempi di distribuzioni binomiali a p fissato (p=0.2) e diversi N. Si noti al crescere di N la 

simmetrizzazione e il restringimento della distribuzione. 

È interessante il caso in cui p sia o molto prossimo a 0 o molto prossimo a 1 (è chiaro che le due 

situazioni sono “simmetriche” dato che successo ed insuccesso sono evidentemente 

intercambiabili). Infatti come si vede dalle Fig.2.6 e 2.7 le due distribuzioni sono “addossate” in un 

65

caso a n=0 e nell’altro ad n=N. Nel limite p0 o p1 si ottengono evidentemente due distribuzioni 

“banali” in cui p(n=0)=1 e p(n>0)=0 (ovvero p(n=N)=1 e p(n

le volte che conto degli eventi che si presentano in modo “casuale” cioè senza una struttura 

temporale determinata, la distribuzione di Poisson permette di caratterizzarne le proprietà più 

rilevanti. 

Introduciamo il processo di Poisson in due modi diversi. Dapprima lo consideriamo come caso 

limite del processo di Bernoulli, poi lo introdurremo in modo autonomo sulla base delle 

caratteristiche del processo stesso. 

Consideriamo dunque un processo di Bernoulli in cui facciamo crescere il numero di prove N e 

facciamo diminuire la probabilità del singolo successo p. Facciamo ciò mantenendo però fisso il 

prodotto Np che come sappiamo é il valore atteso della distribuzione binomiale. Cosa significa fare 

questo limite ? In sostanza il limite corrisponde a considerare il caso in cui sono tantissimi gli 

“oggetti” ai quali può accadere qualcosa (sono N) ma questa cosa che può accadere accade poco 

probabilmente. Immaginiamo una situazione di questo genere. Abbiamo un campione di N atomi 

ciascuno dei quali ha una probabilità p di dare luogo ad un decadimento radioattivo nell’intervallo 

di tempo Δt. E’ chiaro che se si tratta di un campione macroscopico (~10 20 atomi per fissare le idee) 

e se il nuclide radioattivo ha una “vita media” di milioni di anni saremo in una situazione in cui Né 

molto grande e p é molto piccola. Ma non solo, infatti N oltre ad essere molto grande é anche di 

difficile determinazione ed in fondo quanto sia non interessa nemmeno tanto. Tuttavia in una 

situazione del genere se io ho un contatore di radioattività, io conto un certo numero di decadimenti 

nell’unità di tempo Δt e il valore medio di tale conteggio é qualcosa che posso misurare ed é dunque 

quella la variabile che mi interessa. Passiamo ora esplicitamente al limite binomiale per N 

infinito p 0. Chiamo λ=Np. 

lim 

N →∞ , p→0 

lim 

N →∞ , p→0 

lim 

N →∞ , p→0 

n 

N! 

n 

N −n 

N! 

⎛ λ ⎞ ⎛ λ ⎞ 

p (1 − p) 

= lim ⎜ ⎟ ⎜1 

⎟ 

N →∞ , p→0 

− 

n!( 

N − n)! 

n!( 

N − n)! 

⎝ N ⎠ ⎝ N ⎠ 

λ 

N 

n (1 − ) 

N( 

N −1)( 

N − 2)...( N − n + 1) λ N = 

n 

n! 

N λ 

n 

(1 − ) 

N 

λ 

N 

n (1 − ) 

N( 

N −1)( 

N − 2)...( N − n + 1) λ N 

n 

N 

n! 

λ 

n 

(1 − ) 

N 

Dopo aver riscritto la binomiale in questo modo e avendo introdotto λ, passo ad effettuare i limiti. 

Intanto osservo che il fattore 

n 

λ 

n! 

non dipende da N e da p e dunque esce fuori dal limite e va messo a fattore comune. Il rapporto 

N ( N − 1)( N − 2)...( N − n + 1) 

n 

N 

non dipende da p ma da N. Per N infinito va come N n /N n e pertanto tende a 1. Il fattore 

( 1 λ 

− 

N ) 

n 

dipende solo da N e tende anch’esso a 1 avendo l’unica dipendenza da N a denominatore. Resta 

l’ultimo fattore per risolvere il quale facciamo ricorso al limite fondamentale (noto dall’analisi) 

N −n 

= 

67

1 

lim (1 + 

∞ 

x 

x 

) = 

x → 

e 

in cui e é il numero di Nepero (e=2.718...). Il limite a cui siamo interessati é riconducibile al limite 

fondamentale di cui sopra, facendo la sostituzione 1/x=-λ/N : 

⎛ λ ⎞ 

lim⎜1 

⎟ 

N ∞ 

− 

⎝ N ⎠ 

1 

x ⎠ 

N 

−λx 

x − λ 

⎛ ⎞ ⎛ ⎞ 

⎜ ⎟ ⎜ ⎟ ⎟ = 

→ 

= lim 1 

x→∞ 

+ = lim 1 

x→∞ 

+ 

⎝ 

⎜ 

⎝ 

⎛ 

⎝ 

1 

x ⎠ 

In conclusione abbiamo ottenuto la funzione di distribuzione di Poisson: 

p( 

n) 

= 

λ 

λ − 

n 

e 

n! 

Si tratta della funzione di distribuzione della variabile casuale discreta n definita per valori tra 0 e ∞ 

ed avente come unico parametro λ. Si può dimostrare che la funzione cosi’ definita é normalizzata. 

In Fig.2.9é mostrato il grafico della poissoniana per diversi valori di λ. Si noti che si tratta di una 

funzione in generale non simmetrica, ma che tende a simmetrizzarsi nel limite di grandi λ. 

⎞ 

⎠ 

e 

−λ 

Fig.2.9. Esempi di distribuzioni di Poisson per diversi valori di λ. 

Il significato di λ risulta evidente quando calcoliamo il valore atteso e la varianza di n. Calcoliamo 

E[n] ed E[n 2 ]: 

n − λ 

n−1 

− λ 

∞ λ e 

∞ λ e 

E[ 

n] 

= ∑n 

= λ∑ 

= λ 

n= 

0 n= 

1 

n! 

( n −1)! 

E[ 

n 

2 

∞ 

] = ∑ n 

n= 

0 

2 

n 

λ e 

n! 

−λ 

n−1 

−λ 

k 

∞ λ e 

∞ λ e 

= λ∑n 

= λ∑( 

k + 1) 

n= 

1 k= 

0 

( n −1)! 

k! 

−λ 

= λ( 

λ + 1) 

68

in cui come in altre circostanze abbiamo spostato la somma da n=0 a n=1 e abbiamo osservato che 

la sommatoria rimasta fattorizzata é uguale a 1 in virtù della proprietà di normalizzazione. 

Otteniamo dunque per la varianza: 

2 

Var [ n] 

= E[ 

n ] − ( E[ 

n]) 

2 

2 

= λ ( λ + 1) − λ = λ 

Pertanto la distribuzione di Poisson ha λ sia come valore atteso che come varianza. Si tratta di un 

fatto di estrema importanza. Una popolazione poissoniana é dunque caratterizzata da una 

deviazione standard pari a 

σ [n] 

= 

λ 

In altre parole se effettuo un conteggio schematizzabile come poissoniano e trovo in media un certo 

valore λ il risultato del conteggio é caratterizzato da una fluttuazione pari a √λ. 

Si noti che il parametro λ non é necessariamente un numero intero. Infatti il numero medio di 

conteggi nel tempo può anche essere un numero frazionario. E’ invece un numero intero la variabile 

casuale n che può assumere tutti gli interi da 0 a ∞. 

(2.6.4) Il processo di Poisson: definizione generale. 

Non sempre il processo di Poisson si può schematizzare a partire da una binomiale. Se per esempio 

conto quante macchine passano sotto casa mia tutti i giorni feriali tra le 8 e le 9, non so bene come 

schematizzare questo processo in termini di N e di p. O anche se contiamo il numero di studenti che 

ogni anno si immatricolano al corso di laurea in fisica all’Università “La Sapienza”, é altrettanto 

difficile stabilire chi é p e chi é N. Ma nonostante ciò conto in media un certo valore che sarà 

caratterizzato da certe fluttuazioni. Allora possiamo definire in modo più generale come processo di 

Poisson un processo di conteggio che abbia alcune proprietà ben definite che ora vediamo di 

specificare. 

Si immagini a questo scopo di contare il numero di volte in cui si verifica un certo evento (di 

qualsiasi tipo purché ben definito) in un intervallo di tempo finito Δt; e si immagini di suddividere 

tale intervallo in intervallini di tempo δt “sufficientemente piccoli”. Il processo é poissoniano se 

posso trovare una dimensione di intervallino δt per cui valgono le seguenti proprietà: 

(a) la probabilità di avere un unico conteggio in un tempo δt é proporzionale a δt; 

(b) la probabilità di avere più di un conteggio in un tempo δt é

Per tali processi dunque la funzione di distribuzione del numero di conteggi sarà data dalla p(n) 

sopra vista ed un solo parametro λ basta a descrivere il processo. λ determina in sostanza quanto 

frequentemente gli eventi si presentano in media e la sua radice quadrata indica quanto quel 

conteggio medio fluttua. Il valore di λ dipende tuttavia dall’intervallo di tempo Δt nel quale conto. 

Se in un certo intervallo Δt = 1 s conto in media λ = r, in un intervallo generico Δt conterò λ = r Δt. 

La quantità r ( conteggi al s ) é dunque indipendente dall’intervallo scelto e costituisce la misura 

della velocità di conteggio ( rate in inglese ) del fenomeno. Noto r, il λ di qualsiasi intervallo si 

ricava da λ = r Δt. 

È interessante vedere cosa ci aspettiamo per la distribuzione dei tempi di attesa tra un conteggio ed 

il successivo nel caso di un processo di Poisson. 

Calcoliamo la probabilità che, a partire da un certo tempo iniziale arbitrario, dopo un tempo T non 

sia ancora avvenuto alcun conteggio. A tale scopo immaginiamo di dividere il tempo T in N 

intervallini δT = T / N, ciascuno caratterizzato da una probabilità di successo (ovvero di conteggio) 

p. Dalla definizione del processo di Poisson so che se δT é sufficientemente piccolo p é 

proporzionale a δT , p = α δT . Ci siamo ricondotti in questo modo ad un processo di Bernoulli di N 

prove indipendenti ciascuna con probabilità di successo data da α δT. La probabilità di dover 

attendere un tempo t >T per avere un conteggio sarà (applico la distribuzione binomiale per il caso 

n=0): 

p ( t > T) 

= (1 − p) 

Se facciamo il limite N ∞ otteniamo: 

lim ( 1 lim 

N→∞ 

N 

N 

− αδT 

) = (1 − ) 

N→∞ 

N 

αT 

N 

= e 

−αT 

in cui di nuovo abbiamo usato il limite fondamentale cui abbiamo già fatto ricorso sopra. 

Da ciò ricavo la probabilità che il conteggio sia avvenuto per un tempo di attesa t compreso tra 0 e 

T 

F( 

T ) = p(0 

< t < T ) = 1 − p( 

t > T ) = 1 − e 

che costituisce la cumulativa della densità di probabilità della variabile casuale t = tempo di attesa 

per avere un conteggio. Pertanto la densità di probabilità cercata é: 

−αT 

dF( 

t) 

t 

f ( t) 

= = αe 

−α 

dt 

che costituisce la densità cercata, correttamente normalizzata. L’unico parametro da cui tale densità 

di probabilità dipende é α. Si tratta di una probabilità di conteggio per unità di tempo, e ha le 

dimensioni dell’inverso di un tempo. Per comprenderne il significato, torniamo allo schema 

binomiale delle N prove nel tempo T. Sappiamo che: 

lim 

λ = Np = Nαδt 

= NαT 

/ N = αT 

N →∞ 

lim 

N →∞ 

lim 

N →∞ 

da cui deduciamo che α si identifica con la velocità di conteggio r che abbiamo sopra definito. Tale 

identificazione discende dal fatto che quando λ

f(t) (1/s) 

5 

4.5 

4 

3.5 

f(t) (1/s) 

1 

3 

2.5 

2 

10 -1 

1.5 

1 

0.5 

10 -2 

0 

0 0.5 1 1.5 2 2.5 

t (s) 

0 0.5 1 1.5 2 2.5 

t (s) 

Fig.2.10 Esempi di densità di probabilità esponenziali negative di tempi d’attesa di Poissoniane in scala lineare (a 

sinistra) e semilogaritmica (a destra). Le 3 curve si riferiscono a valori di τ pari a 1 s , 0.5 s e 0.2 s. Individuare le 3 

curve. 

(2.6.5) La distribuzione di Gauss 

Possiamo costruire ed inventare tutte le variabili casuali che vogliamo ciascuna con la sua funzione 

di distribuzione per descrivere un certo fenomeno. Esiste tuttavia una distribuzione che assume un 

ruolo particolare nelle applicazioni scientifiche in genere tanto da essere chiamata la distribuzione 

normale. Essa fu introdotta per primo da Karl Frederich Gauss ed é pertanto nota come 

distribuzione di Gauss e una qualsiasi variabile che segue una tale distribuzione é detta variabile 

gaussiana. 

Tale distribuzione fu introdotta da Gauss quando questi, a partire da osservazioni astronomiche, 

vide che le modalità con cui le misure “fluttuavano”, erano ben descritte da un andamento del tipo: 

~ e 

−( 

x−μ ) 2 

in cui x é appunto il valore della misura che fluttua rispetto al “valore medio” μ.Tale funzione 

presenta il ben noto andamento a “campana” illustrato in figura Fig.2.11. Si tratta cioè di una 

funzione simmetrica intorno a μ e caratterizzata da un picco ben definito che si trova in 

corrispondenza del valore di μ e da delle code che si estendono fino a – e a + ∞. La coincidenza di 

picco e media indica che moda mediana e media sono coincidenti per questo tipo di distribuzione e 

pari a μ. 

71

Fig.2.11 Esempi di funzioni di distribuzione di Gauss per 3 scelte dei parametri μ e σ. 

Per dare alla funzione di Gauss il significato di densità di probabilità di una variabile casuale x 

qualsiasi occorre: 

rendere adimensionale l’esponente; 

rendere la funzione normalizzata (cioè ad integrale 1 tra – e + ∞). 

A tale scopo introduciamo un secondo parametro che chiamiamo σ avente le stesse dimensioni di x 

e scriviamo la funzione nella forma più generale: 

f 

1 

e 

2πσ 

( x−μ 

− 

2σ 

( ) 

x 

= 

) 

2 

2 

che risulta correttamente normalizzata ad 1 (omettiamo la dimostrazione). Si tratta dunque di una 

variabile casuale continua definita tra – e + ∞ caratterizzata dai 2 parametri μ e σ . I due parametri 

cosi’ definiti risultano essere (anche in questo caso omettiamo la dimostrazione) rispettivamente il 

valore atteso e la deviazione standard della variabile x 

E [ x] 

= μ 

2 

Var[ 

x] 

= σ 

Come già detto il massimo della funzione coincide con μ come si vede ponendo a 0 la derivata 

prima. Ponendo a zero la derivata seconda si ottengono invece i due flessi in corrispondenza di 

μ ± σ . Ciò fa vedere che il significato della deviazione standard é la distanza tra il massimo e i 2 

flessi. Per avere una idea “grafica” della σ di una gaussiana basta osservare che la “larghezza a 

metà altezza” (FWHM = full width at half maximum) é pari a 2.36 σ . Ciò fornisce un metodo 

rapido per la valutazione della larghezza di una gaussiana. 

La distribuzione di Gauss non ha una primitiva esprimibile analiticamente, pertanto i valori della 

funzione cumulativa (che sono poi quelli che servono ai fini della valutazione delle probabilità) 

sono in genere forniti sotto forma di tabelle. Naturalmente non é opportuno avere una diversa 

tabella per ogni coppia di valori μ e σ. A tale scopo si introduce la variabile gaussiana 

standardizzata o semplicemente normale cosi’ definita: 

72

m = x − μ 

σ 

Si tratta di una variabile adimensionale che ha una funzione di distribuzione data da: 

m2 

1 − 

2 

f ( m) 

= e 

2π 

e che corrisponde ad una variabile gaussiana con valore atteso 0 e varianza 1. La forma della densità 

di probabilità per la variabile gaussiana standardizzata, si ottiene semplicemente applicando le 

considerazioni di (2.6.4) dove m é la y e dunque |dx/dm|=σ che cancella la σ a denominatore nella 

f(x). Le tabelle forniscono in genere i valori relativamente alla variabile m della seguente quantità: 

P ( a) 

= a ∫ f ( m) 

dm 

−∞ 

che risulta essere una funzione di a. Dati i valori in tabella possono poi essere valutati tutti i 

possibili intervalli di probabilità. Se infatti si vuole determinare la probabilità che il valore cada tra 

a e b, si avrà: 

P( a < m < b) 

= P( 

b) 

− P( 

a) 

Per passare da un intervallo relativo alla variabile standardizzata m all’intervallo corrispondente per 

la variabile x, basterà usare la trasformazione inversa. Quindi se per esempio data una distribuzione 

di Gauss di valore atteso μ e varianza σ 2 voglio conoscere il contenuto di probabilità dell’intervallo 

compreso tra i due valori di x x 1 ed x 2 dovrò procedere nel modo seguente: calcolare gli estremi 

nella variabile m corrispondenti a x 1 e x 2 (diciamo m 1 ed m 2 ) quindi calcolare F(m 2 )-F(m 1 ) usando 

le tavole della variabile standardizzata. Si noti che usualmente le tabelle contengono solo i valori di 

F(a) per a positivi. Tuttavia, data la simmetria della distribuzione di Gauss si avrà: 

P( − a) 

= 1− 

P( 

a) 

Di particolare interesse sono i contenuti di probabilità dei 3 intervalli μ±σ , μ± 2σ e μ± 3σ. Si 

ottengono i valori: 

P( 

μ −σ 

< x < μ + σ ) = P( 

−1< 

m < 1) = 68.3% 

P( 

μ − 2σ 

< x < μ + 2σ 

) = P( 

−2 

< m < 2) = 95.5% 

P( 

μ − 3σ 

< x < μ + 3σ 

) = P( 

−3 

< m < 3) = 99.7% 

si tratta dei valori che abbiamo trovato per via “empirica” a partire dai dati “simulati” della prima 

esercitazione. In effetti in quel caso le sequenze di 51 valori erano state ottenute estraendo da 

distribuzioni gaussiane con μ e σ diverse. Troviamo dunque che i contenuti di probabilità di 

intervalli di ampiezza proporzionale a σ rispetto a μ non dipendono dai parametri ma sono 

“universali”. Dato lo straordinario valore della distribuzione di Gauss nell’ambito della descrizione 

degli errori di misura, questi numeri devono essere tenuti in considerazione. 

73

Tabella della gaussiana standardizzata. Per valori positivi di z, sono tabulate le 

P(z)=P(-∞

La funzione di distribuzione di una variabile χ 2 é caratterizzata da un unico parametro dato dal 

numero N di variabili gaussiane standardizzate incluse nella somma. Tale valore é detto numero di 

gradi di libertà e si indica in genere con il simbolo ν. La funzione di distribuzione é la seguente: 

2 

f ( χ ) 

χ 

ν 

2 −1 

− 

2 2 

= ν ( χ ) e 

( ) 

2 

2 

1 

Γ( 

ν / 2) 

2 

Nella formula abbiamo introdotto la funzione Γ detta di Eulero definita come: 

∞ 

−x 

t−1 

Γ( t) 

= ∫ e x dx 

0 

che costituisce una generalizzazione del fattoriale al campo reale. 

Il valore atteso e la varianza della variabile χ 2 dipendono dal numero di gradi di libertà secondo le: 

2 

E [ χ ] = ν 

2 

Var[ 

χ ] = 2ν 

La funzione di distribuzione della variabile χ 2 é mostrata in Fig.2.12 per alcuni valori del parametro 

ν. 

Fig.2.12 Funzione di distribuzione della variabile χ 2 per 3 diversi valori dell’unico parametro ν. 

L’importanza della variabile χ 2 deriva dal fatto che la variabile 

2 

N ( x − 

∑ 

i 

x) 

i= 

1 

2 

σ 

è anch’essa una variabile χ 2 con parametro ν=N-1 gradi di libertà. Si noti che a differenza della 

definizione della variabile χ 2 data sopra, in questo caso non siamo di fronte ad una somma di 

variabili normali standardizzate, ma ad una somma di scarti quadratici dalla media campionaria, 

divisa per la varianza. Il fatto che il numero di gradi di libertà sia ridotto di una unità corrisponde al 

75

fatto intuitivo, che la media é una funzione delle N variabili in gioco e dunque l’uso della media 

riduce di una unità il grado di libertà complessivo della variabile. 

In ogni caso l’osservazione fatta permette di caratterizzare la funzione di distribuzione della 

varianza campionaria della quale abbiamo già stabilito valore atteso e varianza. Infatti se considero 

la variabile 

2 

s 

( N − 1) 

2 

σ 

questa é evidentemente una variabile χ 2 con N-1 gradi di libertà , e dunque la variabile s 2 é a meno di 

una costante (N-1)/σ 2 descritta da una variabile χ 2 . Ritroviamo allora i risultati già visti per valore 

atteso e varianza: 

2 

2 

2 

σ 

2 

σ 

2 

E[ 

s ] = E[ 

χ ] = ( N −1) 

= σ 

N −1 

N −1 

N −1 

4 

4 

2 

σ 

2 

σ 

Var[ 

s ] = Var[ 

χ ] = 2( N 

2 

N −1 

2 

( N −1) 

( N −1) 

4 

2σ 

−1) 

= 

( N −1) 

Variabile t-Student 

Un’altra variabile derivata dalla gaussiana e di particolare interesse perché di funzione di 

distribuzione nota é la cosiddetta variabile t di Student. Supponiamo di nuovo di avere una variabile 

normale standardizzata m e di avere costruito una variabile χ 2 a partire da un insieme di variabili 

normali standardizzate con ν gradi di libertà. Se consideriamo la variabile 

t = 

m 

χ 2 

ν 

questa é caratterizzata dalla seguente funzione di distribuzione (anche in questo caso νé l’unico 

parametro con lo stesso significato per il caso della variabile χ 2 ): 

f ( t) 

= 

ν + 1 

Γ( 

) 

2 

2 ⎛ t ⎞ 

⎜1 

+ ⎟ 

πνΓ( 

ν ) ⎝ ν ⎠ 

2 

− 

( ν + 1) 

2 

in cui di nuovo si fa uso della funzione Γ di Eulero. La variabile t é definita in tutto l’asse reale tra – 

e +∞ e la sua funzione di distribuzione é simmetrica intorno all’origine come mostrato in Fig.2.13. 

Si tratta di una funzione di distribuzione in molto assomigliante alla distribuzione di Gauss. La 

differenza sta nel fatto che le code risultano più estese. Valore atteso e varianza della variabile t di 

Student sono: 

E[ 

t] 

= 0 

ν 

Var[ 

t] 

= 

ν − 2 

definita quest’ultima evidentemente solo per ν >2 (al di sotto di 2 l’integrale della varianza 

diverge). 

76

Fig.2.13 Distribuzione della variabile t di Student per 4 diversi valori dell’unico parametro ν. Al crescere di ν la 

distribuzione si restringe e si alza. 

La variabile t rappresenta lo scarto di una misura da un valore atteso, relativamente “ad uno scarto 

medio” dato dal χ 2 a denominatore. La rilevanza di questa variabile nasce dal fatto che può essere 

applicata alle proprietà della media aritmetica. Infatti la variabile 

( x − μ) 

s 

N 

è una variabile t in base alle considerazioni fatte sopra a proposito della variabile χ 2 . Infatti la posso 

scrivere come: 

( x − μ ) 

σ 

N 

2 

σ 

2 

s 

( x − μ) 

σ 

= N 

2 

= t 

χ 

N −1 

N −1 

N −1 

Dunque gli scarti della media aritmetica dal valore atteso gaussiano corrispondente sono descritti da 

una variabile t con N-1 gradi di libertà. Questo ci fa capire che l’uso di un intervallo di ampiezza 3s 

/ √N per l’incertezza sulla stima del valore vero basato sulla media aritmetica, ha un significato 

gaussiano solo quando Né sufficientemente grande. Torneremo su questo punto nel terzo capitolo. 

(2.7) Proprietà notevoli delle variabili casuali 

77

(2.7.1) Contenuto di probabilità di intervalli di variabili casuali. 

Dall’analisi degli esempi di variabili casuali visti finora, desumiamo che i contenuti di probabilità 

che associamo ad un intervallo costruito come “valore atteso±deviazione standard” non é uguale per 

tutte le distribuzioni, ma dipende dalla forma della distribuzione. Abbiamo visto per esempio che 

nel caso della distribuzione di Gauss tale valore é prossimo al 68% mentre nel caso della 

distribuzione uniforme é di circa il 58%. Valori ancora diversi si ottengono per la distribuzione 

triangolare (il 65%) e per altre distribuzioni ancora. Per quanto riguarda le distribuzioni binomiali e 

poissoniane tale numero non é ben definito, perché dipende dai valori dei parametri. Oltre a ciò 

anche la moltiplicazione per 2 o per 3 della dimensione dell’intervallo dà luogo a risultati aventi 

contenuti probabilistici diversi. Tuttavia in tale apparentemente confusa situazione si possono 

riscontrare alcune regolarità. Enunciamo a tale scopo la disuguaglianza di Chebychev (di cui 

omettiamo la dimostrazione): 

1 

P ( x − E[ 

x] 

> kσ 

[ x]) 

< 

2 

k 

La probabilità che la variabile scarti dal valore atteso per più di k deviazioni standard limitata 

superiormente da 1/k 2 . 

Questa disuguaglianza non é di grande interesse pratico. Ci dice infatti per k=1 che la probabilità 

che la variabile scarti più di una deviazione standard é

L’importanza di tale teorema é evidente. In tutti quei casi infatti in cui una misura é caratterizzata 

da un certo numero di cause di fluttuazione indipendenti, il valore della misura può essere pensato 

come la somma di tali fluttuazioni. Il teorema del limite centrale ci dice che in tal caso il risultato 

della misura costituisce una variabile con fluttuazioni di tipo gaussiano, cioè una variabile 

gaussiana. La generalità di questo teorema é dovuta al fatto che nel caso degli errori di misura ci si 

trova quasi sempre in condizioni di questo tipo, cioè nella situazione in cui cause diverse di errore si 

sommano per dare la fluttuazione complessiva. Si noti l’importanza della condizione “varianze tutte 

finite e dello stesso ordine di grandezza”. Se infatti tra le cause di fluttuazione ce ne fosse una 

preponderante di tipo non gaussiano, allora questa dominerebbe le fluttuazioni della misura che 

dunque avrebbe quella forma. 

La Fig.2.14 illustra con un esempio simulato il teorema del limite centrale. Inoltre la Fig.2.15 

mostra un caso in cui pur sommando tante variabili, se ce n’è una con varianza molto più grande 

delle altre, la forma di questa continua a determinare la forma della distribuzione complessiva che 

dunque non diventa gaussiana. 

Il teorema del limite centrale sancisce l’importanza della distribuzione di Gauss come migliore 

approssimazione degli istogrammi dei dati in condizioni di errori casuali. 

Fig.2.14 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte estratte da distribuzioni uniformi tra 

0 e 1 (di valore atteso 0.5 e varianza 1/12). A partire dal caso n=4 ad ogni distribuzione é sovrapposta una 

distribuzione di Gauss per mostrare il buon accordo. Nel caso n=10 la distribuzione di Gauss “corrispondente” ha 

valore atteso 5.0 e deviazione standard 0.91 in accordo con il teorema del limite centrale. 

79

Fig.2.15 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte con distribuzione uniforme tra 0 e 1 

eccetto la prima che ha una distribuzione sempre uniforme ma tra 0 e 10. Si noti come non venga raggiunto in 

questo caso il limite gaussiano con la somma di n=10 variabili. Resta il “ricordo” della variabile con varianza di un 

ordine di grandezza più grande delle altre. 

Una importante conseguenza del teorema del limite centrale riguarda la media aritmetica di un 

campione di N misure. Questa é infatti una combinazione lineare di N variabili casuali tutte aventi 

la stessa distribuzione e dunque stesso valore atteso e stessa varianza. Qualunque sia la 

distribuzione di x, la distribuzione di xé dunque normale, e lo é tanto più quanto più grande é N. 

(2.7.3) Limite gaussiano 

Da ultimo osserviamo che tra tutte le distribuzioni viste, molte dipendono da uno o più parametri 

aventi il significato di numero di misure. E’ il caso della binomiale (il numero di prove N) e della 

poissoniana (il parametro λ) ma anche delle 2 variabili derivate dalla gaussiana χ 2 e t che dipendono 

dall’unico parametro ν . Tutte queste variabili godono della seguente importantissima proprietà 

limite: esse tendono ad una distribuzione di Gauss quando il numero di misure (nel senso appena 

detto) diventa sufficientemente grande. Non procediamo alla dimostrazione di questo teorema ma ci 

limitiamo ad illustrarlo graficamente confrontando per le citate distribuzioni, la distribuzione stesso 

con la gaussiana corrispondente al crescere del numero di misure. Occorre fare attenzione al caso 

della binomiale in cui oltre ad N compare il parametro p. Affinché il limite gaussiano sia raggiunto 

occorre in quel caso non solo un alto valore di N ma anche un valore di p “sufficientemente 

lontano” dagli estremi 0 e 1. 

Le fig. 2.16 e 2.17 illustrano il limite gaussiano per il caso della distribuzione poissoniana e per il 

caso di quella di t di Student rispettivamente. In tutti i grafici mostrati, la distribuzione viene 

confrontata con una gaussiana corrispondente, cioè con una gaussiana avente stesso valore atteso e 

stessa varianza. 

Tale proprietà limite risulta di straordinaria importanza. Per esempio nel caso di conteggi 

“poissoniani” questo implica che posso dare intervalli di probabilità al 68% al 95% e al 99.7% 

esattamente come per il caso gaussiano se il numero medio di conteggi é di almeno 20-30. Nel caso 

della t di Student significa che le fluttuazioni della media dal valore atteso in unità di deviazioni 

standard campionarie della media, sono gaussiane nel limite di elevato numero di misure. 

80

Fig.2.16 Stessi esempi di distribuzioni di Poisson della Fig.2.9 per valori del parametro λ da 0.2 a 50.0. Ad ogni 

distribuzione é sovrapposta una gaussiana di parametri μ=λ e σ=√λ. 

Fig.2.17 Stessi esempi di variabili t di Student vista in Fig.2.13 per valori del parametro ν tra 3 e 50. Ogni 

distribuzione é confrontata con una gaussiana di parametri μ=0 e σ=√ν/(ν−2). 

(2.8) Variabili casuali multiple. 

(2.8.1) Impostazione del problema 

81

In (1.6) abbiamo accennato al fatto che in molte circostanze un fenomeno deve essere trattato 

considerando più di una variabile casuale. A tal fine occorre utilizzare un formalismo che consenta 

di caratterizzare la densità di probabilità di più variabili casuali. 

(2.8.2.) Probabilità congiunta e covarianza 

Per trattare correttamente i casi in cui siano in gioco più grandezze misurate simultaneamente ed 

eventualmente caratterizzate da errori correlati é utile utilizzare il formalismo delle funzioni di più 

variabili casuali. Formalizziamo il problema limitandoci per semplicità al caso in cui si abbiano 2 

variabili casuali x 1 ed x 2 ed una terza, y, legata a queste tramite la relazione y=y(x 1 ,x 2 ). 

Nel caso di una singola variabile casuale, abbiamo definito la densità di probabilità f(x). Nel caso in 

cui sono in gioco 2 variabili casuali, possiamo ancora definire una densità di probabilità per le due 

variabili f(x 1 ,x 2 ) detta probabilità congiunta o densità di probabilità congiunta. Si tratta di una 

funzione di due variabili casuali che contiene sia le informazioni sulla densità di probabilità 

dell’una e dell’altra, che le informazioni sul grado di correlazione tra le due. E’ la funzione che 

descrive la popolazione delle due grandezze. 

La condizione di normalizzazione é espressa nel modo seguente: 

b1 

b 2 

∫∫f 

( x , x ) dx dx = 1 

1 2 1 2 

a1 

a 2 

in cui ho chiamato rispettivamente a1 e b1 gli estremi della variabile 1 e a2 e b2 quelli della 

variabile 2. Per imporre la condizione di normalizzazione sono dovuto evidentemente ricorrere ad 

un integrale doppio sulle due variabili. La doppia integrazione corrisponde alla successione di due 

integrazioni semplici. Immaginando la funzione f(x 1 ,x 2 ) come l’equazione di una superficie nello 

spazio, l’integrale doppio é il calcolo del volume sottostante la superficie. 

Se invece integriamo solo in una delle due variabili (lasciando cioè l’altra come parametro da cui 

dipende il risultato): 

b 

f ( x ) = 2 1 1 ∫ f ( x , x ) dx 

1 2 2 

a 2 

otteniamo una funzione solo dell’altra variabile, corrispondente alla densità di probabilità di x 1 . Si 

noti che quest’ultima operazione corrisponde al passare dal grafico bidimensionale a quello 

monodimensionale (all’istogramma vedi Fig.1.10 e 1.11 nel primo capitolo), cioè si tratta di fare 

una proiezione sull’asse x 1. 

Si estendono in modo naturale le definizioni dei momenti ed in particolare di valore atteso e 

varianza: 

E[ 

x ] = 

1 

E[ 

x 

2 

] = 

∫ 

∫ 

Var[ 

x ] = 

1 

Var[ 

x 

2 

b1 

1 1 

a1 

b2 

2 

a2 

b1 

] = 

x f ( x ) dx = 

∫ 

a1 

b2 

∫ 

a2 

2 

( x 

1 

( x 

2 

1 

2 

1 

x f ( x ) dx 

− E[ 

x ]) 

1 

2 

2 

b2b1 

∫∫ 

1 

a2a1 

b1 

b2 

= 

2 

− E[ 

x ]) 

2 

∫∫ 

a1a2 

1 

x f ( x , x 

2 

1 

2 

f ( x ) dx 

f ( x 

2 

1 

1 

= 

) dx 

2 

1 

2 

x f ( x , x 

b2b1 

∫∫ 

a2a1 

b1b2 

= 

) dx dx 

2 

1 

∫∫ 

a1a2 

( x 

1 

2 

) dxdx 

( x 

1 

2 

− E[ 

x ]) 

2 

1 

2 

2 

− E[ 

x ]) 

f ( x , x 

2 

1 

1 

2 

f ( x , x 

) dx dx 

2 

2 

1 

1 

) dx dx 

in cui compaiono integrali doppi sulle due variabili, semplici estensioni degli integrali singoli. 

Risulta altrettanto naturale estendere la definizione di varianza introducendo una misura di quanto 

le due variabili risultano “legate”. Si fa ciò definendo la covarianza tra le due variabili: 

b 

= 1 b 2 

a1 

a 2 

cov[ x , x ] ∫∫( 

x − E[ 

x ])( x − E[ 

x ]) f ( x , x ) dx dx 

1 2 

1 

1 2 

2 

1 2 1 

2 

2 

82

Si tratta di un numero avente le dimensioni [x 1 ][x 2 ]. Se la densità di probabilità congiunta é pari al 

prodotto delle probabilità di ciascuna variabile, cioè se, come si dice, la densità di probabilità 

congiunta si fattorizza: 

f ( x , x ) = f ( x ) f ( x ) 

1 2 

1 1 2 2 

la covarianza sopra definita si annulla. Infatti, 

cov[ x , x 

b1 

∫ ( x 

a1 

1 

1 

2 

] = 

− E[ 

x ]) f 

1 

b1 

b 2 

∫∫( 

x 

a1 

a 2 

1 

( x ) dx 

1 

1 

− E[ 

x ])( x 

b 2 

∫ ( x 

1 

a 2 

1 

2 

2 

− E[ 

x 

− E[ 

x 

2 

]) f 

2 

2 

]) f 

( x 

2 

1 

( x ) f 

1 

) dx 

2 

2 

( x 

= 0 

2 

) dx dx 

essendo i 2 ultimi integrali ambedue nulli per la definizione di valore atteso. 

Quando la probabilità congiunta si esprime come prodotto delle probabilità singole, si dice che le 2 

variabili sono indipendenti. In caso contrario si dice che sono correlate. La covarianza é dunque una 

misura della correlazione tra le variabili, cioè di quanto la variazione dell’una incide sulla 

variazione dell’altra. Per tornare all’analogia con le probabilità viste sopra, il caso di indipendenza 

corrisponde all’essere 

P ( A ∩ B) 

= P( 

A/ 

B) 

P( 

B) 

= P( 

A) 

P( 

B) 

. 

A partire dalla covarianza si introduce una quantità adimensionale detta coefficiente di correlazione: 

ρ[ 

x , x ] = 

1 

2 

cov[ x , x ] 

1 2 

Var[ 

x ] Var[ 

x 

1 

2 

] 

che é come dire la covarianza normalizzata alle varianze. Si dimostra che il coefficiente di 

correlazione può assumere solo valori compresi tra –1 ed 1: 

− 

< ρ [ x , x ] < 1 

1 

1 

2 

quando vale 1 si dice che le due grandezze sono completamente correlate, quando vale –1 si dice 

che sono completamente anticorrelate. Il caso 0é il caso di non correlazione ovvero di indipendenza. 

Le definizione date per una generica popolazione delle 2 variabili x 1 ed x 2 , hanno evidentemente il 

corrispettivo campionario nelle variabili introdotte nel capitolo (1.6). 

(2.8.3) Calcolo di E[y] e Var[y] 

L’importanza di quanto visto nel paragrafo precedente risulta particolarmente evidente quando ci 

poniamo il problema della propagazione delle incertezze, cioè del problema cui abbiamo già 

accennato nel cap(1.9) di come l’incertezza su una variabile si propaga quando si calcola una 

funzione di questa variabile. Tale problema, nel linguaggio delle variabili casuali si traduce nel 

chiedersi: data le distribuzioni di x 1 e di x 2 , e dati in particolare i loro valori attesi E[x 1 ] ed E[x 2 ] e le 

loro varianze Var[x 1 ] e Var[x 2 ], quale é la distribuzione di y=y(x 1 ,x 2 ) ed in particolare quanto 

valgono E[y] e Var[y] ? 

Diamo qui i risultati senza dimostrazione. La dimostrazione fa uso dello sviluppo in serie di Taylor 

della funzione y intorno ai valori E[x 1 ] ed E[x 2 ] troncata al primo ordine. Pertanto risulta a rigore 

valida solo nel limite in cui i termini del secondo ordine sono trascurabili, ovvero nel limite in cui la 

funzione é approssimativamente lineare in un intervallo delle 2 variabili pari alle 2 deviazioni 

standard. Si ottiene (qualunque sia la forma delle funzione di distribuzione di x 1 e di x 2 ): 

E[ 

y] 

= y( 

E[ 

x ], E[ 

x 

⎛ ∂y 

Var[ 

y] 

= ⎜ 

⎝ ∂x1 

E [ x1], 

E [ x 

⎛ ∂y 

⎞⎛ 

∂y 

+ 2⎜ 

⎟⎜ 

x 

⎝ ∂ x 

1 E [ x1], 

E [ x 2 ] ⎠⎝ 

∂ 

2 

1 

2 ] 

2 

]) 

2 

⎞ ⎛ ∂y 

⎟ Var[ 

x ] ⎜ 

1 

+ 

⎠ ⎝ ∂x2 

⎞ 

⎟ cov[ x , x 

1 

E [ x1], 

E [ x 2 ] ⎠ 

2 

E [ x1], 

E [ x 2 ] 

] 

2 

⎞ 

⎟ Var[ 

x2 

⎠ 

1 

] + 

2 

= 

83

dove sono stati introdotti i simboli di derivata parziale che sono propri del calcolo differenziale per 

le funzioni di più variabili. Le derivate parziali, come espresso esplicitamente nella formula, sono 

calcolate in corrispondenza di E[x 1 ] e di E[x 2 ]. 

Vediamo il significato delle due relazioni date che valgono, giova ripeterlo, solo nel limite in cui 

posso trascurare gli infinitesimi del secondo ordine, ovvero nel limite in cui nella regione della 

funzione y in questione, questa presenta variazioni “piccole”. 

Il valore atteso di y é la stessa funzione y calcolata per i 2 valori attesi delle 2 variabili. Si tratta 

effettivamente di quanto ci si aspetta. 

La varianza di y si ottiene sommando le varianze delle 2 variabili, ciascuna “pesata” per il 

quadrato della derivata parziale della y rispetto a quella variabile. A ciò si aggiunge un termine di 

covarianza data dal prodotto della covarianza delle 2 variabili per il prodotto delle derivate. Si noti 

che nel caso di 2 variabili indipendenti (secondo quanto detto sopra) il terzo termine si annulla e 

rimane la somma in quadratura pesata delle due varianze. 

Il caso di una sola variabile ci restituisce il risultato già visto per via intuitiva. 

Estendiamo questa definizione al caso di una funzione di N variabili casuali: 

E[ 

y] 

= y( 

E[ 

x ],...., E[ 

x ]) 

1 

N 

N ∂y 

∂y 

Var[ 

y] 

= ∑ cov[ x , x ] 

i j 

i , j= 

1∂x 

∂x 

i 

j 

in cui abbiamo adottato una forma compatta per le varianze secondo cui per qualunque i, 

cov[x i ,x i ]=Var[x i ]. 

(2.8.4) Propagazione delle incertezze 

Come si propagano dunque le incertezze ? Intanto la prima osservazione é che la propagazione 

avviene a livello di varianze non di deviazioni standard. Dunque la propagazione é “quadratica” non 

“lineare”. In secondo luogo le varianze sono “pesate” con i quadrati delle derivate, cioè con quanto 

é ripida la dipendenza da quella variabile in quell’intorno. 

Se ho 2 variabili le cui popolazioni hanno varianze Var[x 1 ] e Var[x 2 ] e considero la funzione più 

semplice che posso costruire, cioè la somma 

y = x 1 

+ x 2 

(naturalmente in questo caso le due variabili devono avere le stesse dimensioni fisiche), avrò che, 

essendo =1 ambedue le derivate, 

Var [ y] 

= Var[ 

x1 ] + Var[ 

x2] 

+ 2cov[ x1, 

x2] 

Distinguiamo 3 casi: 

(a) 

x 1 ed x 2 sono indipendenti: 

(b) 

x 1 ed x 2 sono completamente correlate 

(c) 

x 1 ed x 2 sono completamente anti-correlate 

Nel caso (a) cov[x 1 ,x 2 ]=0 e dunque 

Var [ y] 

= Var[ 

x ] + Var[ 

x ] 

1 2 

cioè si ha una semplice somma in quadratura. Si noti che nella somma in quadratura domina il più 

“forte” più che nella somma lineare. 

I casi (b) e (c), abbiamo visto, significano che 

ρ[ 

x , x 

1 

cov[ x , x 

1 

2 

] = ± 1 

e si traducono in 

2 

] = ± 

Var[ 

x ] Var[ 

x 

1 

2 

] 

84

Var [ y] 

= Var[ 

x1] 

+ Var[ 

x2] 

± 2 Var[ 

x1 

] Var[ 

x2] 

ovvero in termini di deviazioni standard 

( σ[ 

x ] σ[ 

]) 2 

σ ± 

2 2 

2 

[ y] 

= σ [ x1 

] + σ [ x2] 

± 2σ 

[ x1 

] σ[ 

x2] 

= 

1 

x2 

Cioè: nel caso in cui le due variabili siano completamente correlate la deviazione standard della 

somma é pari alla somma delle deviazioni standard, si ritrova cioè il risultato della propagazione 

lineare (quella cosiddetta dell’errore massimo che qualcuno ha visto alle scuole superiori) 

σ [ y] 

= σ[ 

x 1 

] + σ[ 

x ] 

2 

Nel caso (c) completamente anticorrelato si ha invece 

σ[ y] 

= | σ[ 

x 1 

] −σ[ 

x ]| 

2 

risultato questo che dice che se le due sigma sono uguale la y é priva di varianza. 

I tre casi sono schematizzati nelle Fig. 2.18 2.19 e 2.20 che illustrano i tre casi (a) (b) e (c). 

Fig.2.18 Stesso grafico di correlazione tra 2 variabili non correlate (ρ=0.) aventi entrambi varianza unitaria, di Fig.1.11. 

Sotto é mostrato l’istogramma della somma delle 2 variabili. Si noti come la deviazione standard campionaria (RMS nel 

riquadro) sia prossima al valore √2 come atteso dalle considerazioni fatte. 

85

Fig.2.19 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente correlate (qui ρ=1.). 

L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria prossima a 2 come atteso. 

Fig.2.20 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente anticorrelate (qui ρ=-1.). 

L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria “nulla”, dal momento che la 

somma dei 2 valori é sempre pari allo stesso valore (=0 nel nostro caso). 

Altrettanto interessante é il caso della funzione 

86

y = x 1 

− x 2 

per il quale valgono “quasi” esattamente gli stessi risultati visti sopra. Infatti si ha: 

ρ[ 

x , x 

1 

ρ[ 

x , x 

1 

2 

2 

] = 0 ⇒ Var[ 

y] 

= Var[ 

x ] + Var[ 

x 

] = ± 1⇒ 

σ[ 

y] 

= | σ[ 

x ] m σ[ 

x 

1 

1 

2 

]| 

cioè nel caso della differenza tra 2 variabili correlate, il segno della correlazione gioca in senso 

opposto rispetto a come gioca per il caso della somma. 

2 

] 

87


2.1) Un’urna contiene 5 palline numerate da 1 a 5. Estraendole una ad una senza reintrodurle ogni 

volta, quant’è la probabilità di ottenere la sequenza 1-2-3-4-5 ? E se ogni volta reintroduco la 

pallina estratta quanto vale la probabilità di ottenere la stessa sequenza ? Infine quanto cambiano le 

2 probabilità se anziché cercare la sequenza 1-2-3-4-5 cerco la sequenza 2-5-4-1-3 ? 

2.2) Disegnare la distribuzione di probabilità della variabile casuale data dalla differenza tra il 

valore di 2 dadi lanciati simultaneamente. Quanto vale la probabilità che lanciando per tre volte 

consecutive una coppia di dadi io abbia tutte e tre le volte una differenza pari a 0 ? 

2.3) Il 10% degli abitanti dell’isola di Pasqua soffre di daltonismo. Un test del daltonismo funziona 

in modo tale che su 100 pazienti daltonici, 98 sono individuati, mentre su 100 pazienti non daltonici 

16 sono individuati erroneamente come daltonici. 

Se faccio il test su un individuo qualsiasi della popolazione dell’isola e ho responso positivo, 

quant’è la probabilità che sia effettivamente daltonico 

2.4) Un bimbo maschio di 4 anni ha un peso di 22.5 kg. Dalla tabella dei “percentili” i suoi genitori 

desumono che si trova al 90-esimo percentile. Il cugino avente la stessa età ma avente un peso di 

18.2 kg si trova al 40-esimo percentile. Determinare μ e σ della popolazione gaussiana descrivente i 

pesi dei bambini di 4 anni (si definisce percentile la probabilità che un valore sia minore del valore 

dato secondo la popolazione in questione). 

2.5) La radioattività ambientale standard, misurata con un certo contatore é caratterizzata da un 

valor medio r=1.8x10 -3 conteggi al secondo. Metto quel contatore a casa mia e lo lascio contare per 

un giorno intero. Se ottengo N=404, devo preoccuparmi ? 

2.6) L’incidenza alla nascita della sindrome genetica X é dell’ 0.12% per età della madre inferiore 

ai 30 anni e del 0.28% per età superiore a 30 anni. La signora Y ha 10 figli di cui 3 avuti prima dei 

30 anni e 7 dopo i 30 anni. Quant’è la probabilità che nessuno sia affetto da sindrome X ? 

2.7) Il nucleo di valutazione di rischio delle centrali nucleari ha stabilito il tempo medio di attesa 

per avere un incidente in una centrale nucleare di un certo tipo é di 20000 anni. Il governo di un 

certo paese nel quale stanno per entrare in funzione 98 centrali di quel tipo é chiamato a rispondere 

in parlamento circa la probabilità di non avere alcun incidente nei prossimi 100 anni. Quanto vale 

tale probabilità ? 

2.8) Un certo rivelatore che si propone di distinguere una radiazione di tipo A da una radiazione di 

tipo B, ha due possibili risultati che chiamiamo α e β. Viene portato in prossimità di una sorgente di 

tipo A, e si trova che, nel 98% dei casi dà il risultato α e nel 2% dà il risultato β. In prossimità della 

sorgente di tipo B dà nel 10% risultato α e nel 90% il risultato β. Viene in seguito portato 

nell’ambiente entro il quale si vuole distinguere i 2 tipi di radiazione. A priori non si sa nulla circa 

la quantità relativa delle 2 radiazioni. Quant’è la probabilità che ottenuto il risultato α questo 

corrisponda alla radiazione A ? Come cambia il risultato se da misure precedenti si sa che B é il 

doppio più frequente di A ? 

2.9) Dopo anni di esperienza é nota che la distribuzione della concentrazione di rame nel sangue 

umano é ben descritta da una distribuzione di Gauss di parametri μ = 3.2 x 10 -5 cm -3 e σ = 2.2 x 10 -6 

cm -3 . All’ultimo esame del sangue trovo 9.2 x 10 -5 cm -3 . Devo preoccuparmi ? 

88

2.10) Un medico mi spiega che l’intervallo di accettabilità del valore del colesterolo tra 150 e 220 

mg/dl , corrisponde ad un intervallo di probabilità del 90% calcolato su una popolazione gaussiana. 

Determinare μ e σ di tale distribuzione. 

2.11) In un referendum svolto su tutto il territorio nazionale, i SI hanno vinto con una percentuale 

finale del 52.67%. Sapendo che nel paese X vi sono 1654 aventi diritto al voto, quant’è la 

probabilità che in quel paese i SI siano minoritari ? Specificare le ipotesi essenziale per arrivare al 

risultato. 

2.12) Un dispositivo elettronico conta i segnali che provengono da un rivelatore. Tuttavia tale 

dispositivo ha il problema di bloccarsi allorché rimane fermo (cioè non riceve segnali) per un tempo 

superiore a 10 s. Sapendo da misure indipendenti che la poissoniana del fenomeno in questione 

costruita su un intervallo di 100 s ha λ=38.4, dire quante volte in un ora il dispositivo si blocca. 

2.13) Il test dell’epatite C ha una probabilità di successo del 90% (cioè la probabilità che un 

paziente effettivamente affetto dal virus ottenga P al testé del 90% e che uno non affetto dal virus 

ottenga Né pure del 90%). Un individuo si sottopone a 3 test indipendenti, e ottiene la sequenza 

PNP. Quant’è la probabilità che sia positivo ? Se invece avessi ottenuto la sequenza PPP ? 

2.14) Un allenatore per i mondiali ha a disposizione una rosa fatta da 3 portieri, 6 difensori, 7 

centrocampisti e 6 attaccanti. Considerando che in una squadra di calcio trovano posto 1 portiere, 4 

difensori, 4 centrocampisti e 2 attaccanti, quante formazioni diverse può preparare ? 

2.15) Disegnare la distribuzione di probabilità della variabile “valore più grande dei 2 dadi tirati 

simultaneamente”. 

2.16) Quant’è la probabilità che su una famiglia di 5 figli, 2 siano maschi ? Quale tra le 3 sequenze 

é meno probabile (FFMFM, FFFFM, FFFFF) ? 

2.17) Nei risultati degli esami del sangue vengono indicati “intervalli normali” dei valori misurati 

ottenuti dalla popolazione sana, imponendo che il 95% dei sani siano inclusi nell’intervallo. 

Quant’è la probabilità che una persona sana sia fuori intervallo per l’esame X e per almeno uno dei 

2 esami Y 1 e Y 2 ? 

2.18) Quante sono le possibili cartelle della tombola ? (90 numeri in totale, 15 numeri a cartella) 

2.19) Il reparto ostetrico di un piccolo paese ha un solo posto e dunque può gestire non più di un 

parto al giorno. Negli ultimi anni é stato visto che si ha un parto nel paese circa una volta la 

settimana. Quant’è la probabilità che domani arrivino 2 o più donne per partorire e quindi una o più 

di una debba essere mandata altrove ? 

2.20) Misuro l’efficienza di un rivelatore basandomi su 1250 particelle incidenti. Sapendo che la 

distribuzione del numero di successi ha una deviazione standard relativa del 2 %, quant’è 

l’efficienza ? 

2.21) Discutere se le seguenti variabili casuale discrete sono caratterizzabili da una distribuzione 

Poissoniana ed eventualmente in quali ipotesi. (a) Il numero di stelle in volumi dell’universo di 1 

parsec 3 ,(b) il numero di battiti cardiaci in 15 s, (c) il numero di studenti che si iscrive ogni anno al 

corso di laurea in Fisica dell’Università “La Sapienza”, (d) il numero di persone che trovo in fila 

nell’ufficio X il martedì’ mattina alle 10. 

89

2.22) Un test del virus HIV é caratterizzato dalle seguenti prestazioni: p(+/infetto)=99.0% , p(-/non 

infetto)=99.3% . Calcolare quant’è la probabilità che facendo un test e risultando positivo una 

persona sia effettivamente infetta in 2 casi: (1) il testé fatto su tutta la popolazione nazionale italiana 

(per la quale il ministero della salute stima una frazione di infetti dello 0.2% circa); (2) il testé fatto 

solo su un campione “a rischio” in cui ci si aspetta che circa la metà delle persone testate sia infetta. 

2.23) Dai dati dell’esercizio precedente (caso(1)): Quanto cambia la probabilità di essere infetto se 

ripeto 3 volte il test e per tre volte la persona risulta positiva ? 

2.24) Quante auto possono essere immatricolate in Italia dato il tipo di targa che abbiamo adottato 

dal 1994 (2 lettere, 3 numeri 2 lettere) ? Quant’è la probabilità che in una targa le ultime 2 lettere 

siano una copia delle prime due (ad esempio CH 017 CH) ? 

2.25) La password di una banca data é una parola di 6 lettere, dove per lettera si deve intendere o 

una lettera dell’alfabeto inglese o un numero. Quanti anni impiega a trovarla un calcolatore che 

impiega 1 ms per tentare ogni singola combinazione ? Quanto impiega invece se sa che sono una 

sequenza i cui primi 3 posti sono occupati da numeri e gli altri 3 da lettere ? 

2.26) Una variabile casuale é caratterizzata da una distribuzione uniforme tra 0 e 10. Quant’è la 

probabilità di ottenere un numero maggiore di 8.2 ? Quant’è la probabilità che estraendo 3 volte, io 

ottenga sempre un numero maggiore di 8.2 ? 

2.27) La distribuzione della variabile M (massa invariante di un sistema di particelle che escono da 

un esperimento di collisioni) é gaussiana con parametri μ = 138.2 MeV e σ = 4.58 MeV. Accetto 

solo gli eventi per i quali 129 < M < 149 MeV. Che frazione di eventi buoni rigetto (sinonimo di 

non accetto) ? Una simulazione dello stesso processo mi fornisce una variabile sempre gaussiana 

con lo stesso μ ma con σ = 3.96 MeV. Quanto é diversa la mia frazione di reiezione tra dati e 

simulazione ? 

2.28) L’Alitalia dichiara che la probabilità di un ritardo maggiore di 1 ora sul volo Roma-Parigi 

delle 10:00é del 2.34%. Nei prossimi 2 anni dovrò andare una volta al mese ad una riunione a Parigi 

che inizia appena 1 ora dopo l’arrivo di quel volo. Quant’è la probabilità che io arrivi almeno una 

volta in ritardo (si trascuri il tempo di trasporto dall’aereo alla sede della riunione)? 

2.29) Nel paese X si ha un decesso in media ogni 62 giorni. L’unica agenzia di pompe funebri 

decide di chiudere (per lutto) per un intero mese. Quant’è la probabilità che ci sia almeno un 

decesso durante questo periodo di chiusura ? 

2.30) La distribuzione dell’età del corpo docente dell’Università “La Sapienza” di Roma é 

approssimabile con una distribuzione “triangolare” simmetrica tra 30 e 70 anni. Fare il grafico della 

distribuzione. Quant’è la probabilità che nei primi corsi del primo trimestre uno studente si trovi di 

fronte 3 persone tutte di età superiore ai 60 anni ? 

2.31) Per un errore di produzione, su una partita di 2000 uova di Pasqua solo 1250 contengono la 

sorpresa. Per Pasqua abbiamo comprato 5 uova appartenenti a questa produzione. Quant’è la 

probabilità che almeno 3 di queste contengano una sorpresa ? 

2.32) Tre contatori per raggi cosmici contano in media 256 eventi in un minuto. Quant’è la 

probabilità che almeno 2 contatori osservino un conteggio inferiore a 240 ? 

2.33) La variabile casuale continua x ha una funzione di distribuzione uniforme tra –1.5 e 1.5. 

Viene estratto un campione di dimensione 5290 e viene fatto un istogramma di frequenza con passo 

90

0.3 dei valori ottenuti. Quale é la probabilità di osservare in due intervalli un numero di valori 

superiore a 575 ? 

2.34) Ad un torneo partecipano 10 squadre. Quante partite complessivamente saranno giocate se 

ogni squadra deve incontrare per 2 volte tutte le altre (gironi di andata e di ritorno) ? 

2.35) Nello stato del Texas, i Repubblicani hanno avuto una maggioranza schiacciante alle ultime 

elezioni presidenziali: il 76.4% contro il 23.6% dei Democratici. Un sondaggio rivela che il 16.2% 

dell’elettorato Democratico é costituito da persone di colore, mentre solo il 2.5% di quello 

Repubblicano é costituito da persone di colore. 

a) Se incontro un elettore di colore, quant’è la probabilità che abbia votato Democratico ? 

b) Nella mia azienda ho 7 dipendenti tutti di colore: quant’è la probabilità che tra i miei 

dipendenti vi sia almeno un Repubblicano ? 

2.36) Nella regione X si hanno in media 3.24 incidenti ogni notte tra il sabato e la domenica. 

a) Quant’è la probabilità che il prossimo sabato sera non si abbiano incidenti ? 

b) Qual è la distribuzione di probabilità del numero di incidenti in un anno ? 

c) Quanto vale la probabilità di avere in un anno meno di 150 incidenti ? 

[si ricorda che in un anno vi sono complessivamente 52 notti tra sabato e domenica.] 

2.37) Si deve organizzare una riunione in un nuovo Centro Congressi la cui sala più grande contiene 

fino a 90 persone sedute. Analizzando i dati relativi alle stesse riunioni effettuate negli ultimi 

anni, si é trovato che il numero di presenze ha una distribuzione descritta da una poissoniana con 

valore centrale 78. Quant'è la probabilità che, quest'anno, qualcuno resti in piedi? 

2.38) Cinque anni fa ho versato un bicchiere pieno d’acqua nel mare. Oggi mi trovo dall’altra parte 

del mondo e con un altro bicchiere prendo dell’acqua dal mare. Quant’e’ il numero medio di 

molecole nel nuovo bicchiere che erano anche nel bicchiere di cinque anni fa ? 

91

(3) Introduzione all’inferenza 

Gli argomenti e gli esempi trattati nel capitolo precedente sono certamente interessanti. Tuttavia 

risulta evidente che essi da soli non giustificano il fatto che un fisico sperimentale debba studiarli 

cosi’ intensamente proprio all’inizio del suo corso di studi. In realtà il motivo per cui sono stati 

trattati é che si rivelano estremamente utili per risolvere i problemi di inferenza che abbiamo già in 

parte affrontato e per ora solo approssimativamente incontrato nel primo capitolo. 

Riformuliamo alcuni dei problemi che abbiamo incontrato nella prima parte del corso: 

(a) come dare il risultato di una misura, come dare la stima dell’intervallo e che significato ha 

questo intervallo nei seguenti casi: 

risultato di una singola misura (analogica, digitale o numero senza altre informazioni); 

risultato di una sequenza di numeri (qui abbiamo già alcune idee che vanno chiarite); 

risultato di un conteggio (poissoniano): come dare la migliore stima di r ; 

risultato di una misura di efficienza (binomiale); 

combinazione di diverse misure indipendenti di una stessa grandezza; 

(b) come stimare l’incertezza di una misura indiretta: si tratta di applicare la propagazione delle 

incertezze cui abbiamo già accennato; 

(c) come stabilire la compatibilità tra diverse misure in modo più quantitativo, ovvero come 

stabilire che due misure sono “significativamente” diverse; 

(d) come determinare con la loro incertezza il coefficiente angolare e l’intercetta della retta che 

meglio approssima una dipendenza lineare tra due grandezze. 

Ciascuna delle questioni qui poste sono state incontrate in vario modo nelle esperienze di 

laboratorio. Per esempio nella prima esperienza abbiamo incontrato problemi del tipo (a) per 

ciascuna misura di massa e di volume e per la distribuzione delle densità, dei riflessi e della capacità 

di interpolazione, di tipo (b) per stimare l’incertezza della densità a partire da quelle su massa e 

volume e di tipo (c) per vedere se si hanno differenze tra i riflessi degli studenti, o tra la densità 

media e quella nota dell’alluminio. 

Nell’ esperienza della molla sono entrati in gioco anche i problemi di tipo (d) nei 2 tipi di fit che 

abbiamo fatto, per ora solo “a mano” e che intendiamo fare secondo una modalità meglio definita. 

Nell’ esperienza del contatore, oltre alle altre cose pure presenti, si é posto il problema di stimare la 

radioattività a partire da varie misure di conteggio. E cosi’ via. 

In questo capitolo dopo una breve introduzione di considerazioni generali sull’inferenza, vedremo 

alcune soluzioni per le 4 classi di problemi posti, soluzioni che evidentemente non esauriscono tutti 

i problemi immaginabili, ma che risultano utili in molte circostanze. 

Lasciamo dunque da parte urne con palline, o probabilità di malattie, e torniamo a parlare di misure. 

(3.1) Introduzione “formale” all’inferenza 

(3.1.1) Considerazioni generali 

L’inferenza é il processo attraverso il quale a partire da un insieme di dati “inferisco” sul valor vero 

di una o più grandezze. E’ dunque la procedura con cui in un modo o nell’altro facciamo 

l’induzione. Con il termine inferenza indichiamo dunque il metodo quantitativo dell’induzione e 

quindi del metodo sperimentale. Il risultato del procedimento consiste in generale nello stabilire le 

caratteristiche della funzione di distribuzione del valor vero della grandezza in esame o dei valori 

veri delle grandezze in esame, ed in particolare nella definizione di un intervallo, caratterizzato da 

un certo contenuto di probabilità, all’interno del quale si ritiene il valor vero debba stare. Si noti che 

intrinsecamente l’inferenza fa passare da una osservazione particolare ad una affermazione generale 

sulla o sulle grandezze. 

92

Formalizziamo ora l’inferenza. Per fare ciò riprendiamo lo schema della prima parte del corso: 

valor vero, misurando e risultato della misura. 

Il misurando é caratterizzato da una popolazione (la sua funzione di distribuzione) che dipende sia 

dal processo che si sta studiando, che dalle caratteristiche dell’apparato di misura. La misura si 

riferisce invece ad un campione, che costituisce una realizzazione finita della popolazione. Dunque 

tra popolazione e campione vi é un rapporto di natura statistica. Il valore vero invece non dipende 

dall’apparato di misura, ma solo dal fenomeno. La differenza tra valore vero e valore misurato 

(l’errore dunque) può sempre essere espresso come somma di 2 contributi: 

differenza tra valore osservato e valore atteso del misurando (errore casuale) 

differenza tra valore atteso del misurando e valore vero (errore sistematico) 

Decomponiamo dunque l’errore complessivo δ nella forma: 

δ = x − x = ( x − μ) 

+ ( μ − x ) = δ + δ 

v 

m 

v 

m 

sist 

in cui, con ovvio significato di simboli, x v é il valor vero, x m quello misurato, e μ il valore atteso del 

misurando. 

Nel limite in cui il campione approssima bene la popolazione (per esempio altissimo numero di 

osservazioni), l’errore casuale tende ad annullarsi in base alla legge della stabilità della frequenza. 

In tale caso rimane la seconda sorgente di errore soltanto. L’errore sistematico é dunque quello che 

rimane dell’errore, nel limite di statistica infinita. 

Si noti che stiamo parlando di errori, non di incertezze. Lo sperimentatore non “vede” il misurando, 

né “vede” il valore vero. Tuttavia deve stimare quanto sono questi errori dando degli intervalli di 

probabilità per la grandezza. 

(3.1.2) L’inferenza bayesiana 

Ci sono vari metodi generali per l’inferenza cioè per fare il passaggio da x m a μ e da questo a x v . 

Uno di questi é il metodo dell’inferenza bayesiana al quale accenniamo ora brevemente. 

Utilizzando le definizioni appena date, possiamo chiamare f(μ/x m ) la funzione di distribuzione di μ 

dato x m , che descrive la popolazione del misurando μ , condizionata all’essere stato ottenuto x m 

come risultato della misura. Allo stesso modo chiameremo g(x m /μ) la funzione di distribuzione di 

x m dato il parametro μ. Il problema é posto in modo tale che si può interpretare μ come la “causa”, 

cioè la popolazione, e x m come l’effetto, ovvero il campione. La forma della popolazione del 

misurando determina cioè il risultato della misura, con un meccanismo tipo causa-effetto. La 

situazione é simile a quella che abbiamo visto in occasione del teorema di Bayes. Li’ avevamo una 

formula che ci permetteva di passare dalle probabilità degli effetti date le cause, alle probabilità 

delle cause dati gli effetti. Adattiamo la formula di Bayes al sistema popolazione - campione, 

passando dalle probabilità di eventi alle densità di probabilità di variabili casuali continue, secondo 

quanto visto nel precedente capitolo: 

f ( μ / x ) 

m 

= b 

∫ 

a 

g( 

x / μ) 

f ( μ) 

m 

0 

dμg( 

x / μ) 

f ( μ) 

m 

0 

A numeratore vi é il prodotto della funzione g detta verosimiglianza per la funzione f 0 che 

costituisce la probabilità a priori del valore del misurando. A denominatore lo stesso prodotto é 

integrato in dμ tra a e b che sono gli estremi dell’intervallo in cui μ è definito. L’integrale a 

denominatore svolge il ruolo della sommatoria nella formula di Bayes per le probabilità. 

Se conosco la verosimiglianza, cioè se conosco come é fatta la distribuzione del campione data la 

popolazione (che dipende da come é fatto l’apparato di misura), e se ho una probabilità a priori 

(eventualmente uniforme se non ho alcun “pregiudizio”) posso ricavare la funzione di distribuzione 

del misurando. Il valore atteso di tale distribuzione, o il valore più probabile qualora la distribuzione 

fosse in buona misura simmetrica, costituiscono la migliore stima del misurando. 

Il passaggio poi al valore vero viene fatto usando tutte le conoscenze a disposizione relativamente 

agli eventuali errori sistematici, e applicandoli come correzioni alla stima fatta del misurando. 

cas 

93

(3.1.3) Il principio di massima verosimiglianza 

La formula di Bayes permette di giustificare il cosiddetto principio di massima verosimiglianza. 

Infatti se la probabilità a priori di μ è uniforme tra a e b e pari a k=1/(b-a), si ha: 

g( 

x / μ) 

k 

m 

f ( μ / x ) = 

m 

b 

= 

k ∫ dμg( 

x / μ) 

a 

m 

g( 

x / μ) 

m 

I 

dove con I abbiamo indicato l’integrale che compare a denominatore, che é comunque un numero 

indipendente da μ avendo noi integrato in μ. Quindi si ha che la funzione di distribuzione di μ dato 

x m é proporzionale alla verosimiglianza. 

f ( μ / x ) ∝ g( 

x / μ) 

m 

m 

In particolare se la f é una distribuzione simmetrica, cioè tale che la moda e la media coincidono, il 

massimo della g rispetto a μ corrisponde al valore più probabile di μ. 

Di qui il principio della massima verosimiglianza: la migliore stima di μ è quella per cui é massimo 

il valore della funzione di verosimiglianza. La funzione di verosimiglianza (likelihood in inglese) é 

data in generale dalla densità di probabilità congiunta dei dati sperimentali, data la popolazione del 

misurando. Questo principio (che applicheremo in seguito) fornisce un utile metodo per stabilire 

quale é il valore più probabile del misurando μ secondo il nostro campione x m . Il valore più 

probabile di μ è dunque quello per cui é massima la verosimiglianza. 

(3.2) Inferenza sul valore vero 

Passiamo ora ad affrontare i casi che si incontrano nel processo di misura, per arrivare a dare metodi 

operativi. In questo paragrafo affrontiamo i casi che abbiamo elencato sotto (a) nel paragrafo 

introduttivo di questo capitolo. 

Consideriamo dunque i vari casi presentati sopra. Nel seguito usiamo la seguente notazione: xˆ ed 

in generale ogni simbolo con il cappuccio indica la stima del valor vero, ovvero la stima dei 

parametri della densità di probabilità del misurando. Per il momento assumiamo l’assenza di errori 

sistematici che richiedono una trattazione a parte, e dunque nella trattazione che segue, 

identificheremo il valor vero x v con μ, valore atteso del misurando. La trattazione é svolta ad un 

livello elementare ed intuitivo, ed ha come obiettivo quello di fornire metodi di analisi e non di dare 

una trattazione esauriente e generale dell’inferenza. Per una discussione generale della teoria degli 

stimatori e dell’inferenza si rimanda ai corsi successivi. 

(3.2.1) Caso di una singola misura 

Se la mia misura si traduce in un unico numero x M , (il che accade per esempio quando non sono in 

condizioni di ripetibilità e non ho alcuna informazione sull’incertezza da attribuire ad x M ), devo 

avere informazioni indipendenti. Con un solo numero non si riesce a dare una misura sensata. O 

devo poter ripetere la misura o devo sapere qualcosa su come funziona il mio esperimento. 

Se invece sappiamo che la distribuzione del misurando μ (la popolazione da cui x M proviene) é 

gaussiana con varianza σ 2 , allora l’intervallo cosi’ costruito: 

x − σ < ˆ μ < x + σ 

M 

M 

costituisce un intervallo al 68.3% di probabilità per il valore atteso μ del misurando. Infatti in 

questo caso la verosimiglianza é: 

g 

1 

2πσ 

xM −μ 

) 

2 

2 

( 

− 

2σ 

( x M 

/ ) = e 

μ 

e, se la probabilità a priori é uniforme, la densità di probabilità di μ è data da 

f ( μ / x ) = g( 

x / μ) 

M 

M 

(in cui il fattore di proporzionalità é 1 essendo la gaussiana già normalizzata) e dunque si ha che: 

94

P ( x M 

−σ 

< μ < x + σ ) = 68.3% 

M 

Si noti il procedimento seguito, che é consistito nell’individuare la densità di probabilità di μ a 

partire dalla verosimiglianza. 

Nel caso in cui il valore x M proviene da una misura diretta letta su una scala “analogica” sappiamo 

che si tratta di stimare al meglio la precisione di interpolazione. Si potrebbe pensare di usare una 

misura come quella fatta in laboratorio per il nonio (aumentando magari il numero di osservazioni) 

come misura della popolazione della variabile δx scarto del valore misurato dal valore vero. Se tale 

popolazione si rivela essere gaussiana caratterizzata da valore atteso nullo e varianza σ 2 si può 

procedere come nel caso appena trattato dando un intervallo gaussiano di semilarghezza σ. 

In questi casi é evidente che per avere un intervallo del tipo di quelli chiamati di “quasi certezza” nel 

capitolo 1, occorrerà moltiplicare per 3 la larghezza dell’intervallo portando cosi’ il contenuto 

probabilistico dell’intervallo al 99.7%. 

Se invece la misura in questione proviene da un display digitale fisso e Δx é l’ampiezza 

dell’intervallo corrispondente all’ultimo digit centrato in x M , posso affermare che, per quel che posso 

sapere, la densità di probabilità di μ è uniforme tra x M - Δx/2 e x M + Δx/2. Non ho nessun elemento 

infatti per privilegiare una parte dell’intervallo rispetto ad un’altra. In tal caso la migliore stima del 

valore vero e della sua incertezza, avente il significato di deviazione standard della distribuzione di x 

(vedi cap.(2.4)) é 

ˆ μ = 

Δx 

x M 

± 

12 

corrispondente ad un intervallo di probabilità del 57.7%. In questo caso un intervallo di certezza é 

ovviamente ± Δx / 2. 

Bisogna comunque sempre tenere presente che non esiste un metodo generale. Si tratta di usare tutte 

le informazioni a disposizione e, se non si hanno informazioni sufficienti, in generale non si potrà 

dare una stima sensata di un intervallo. 

(3.2.2) Caso di una misura ripetuta N volte. 

Se invece ho un campione di dimensione N (sequenza di numeri) posso calcolare x ed s . Di 

nuovo però é interessante distinguere tra due casi, cioè tra il caso in cui ho informazioni aggiuntive 

al mio campione e il caso in cui tutte le mie informazioni sono date dal campione. 

Supponiamo allora di conoscere a priori che x ha una distribuzione gaussiana con valore atteso μ e 

varianza σ 2 : la variabile 

x − μ 

σ 

N 

è una gaussiana standardizzata, e dunque, applicando le stesse considerazioni fatte per il caso della 

singola misura, un intervallo 

x − 

σ 

< ˆ μ < x + 

N 

σ 

N 

è caratterizzato da un intervallo di probabilità del 68.3%. Infatti se il misurando è caratterizzato da 

una popolazione gaussiana, la media di N misure estratte da questa popolazione é (a maggior 

ragione) gaussiana e d’altra parte sappiamo che la sua varianza é la varianza di x diviso N. Allora 

posso ripetere il ragionamento fatto per la singola misura e scrivere come risultato: 

95

ˆ μ = x ± 

σ 

N 

che ha il significato di un intervallo di probabilità del 68.3% per il valor vero 

C’è poi il secondo caso. Supponiamo di sapere che x ha una distribuzione gaussiana ma di non 

conoscere σ 2 : allora devo ricorrere a: 

μˆ 

= 

x ± 

s 

N 

Tuttavia sappiamo già che un tale intervallo (che peraltro abbiamo già ampiamente usato nella 

prima parte del corso) non caratterizza un intervallo al 68.3%. Infatti sappiamo che, detto μ il 

valore atteso gaussiano della popolazione, la variabile 

x − μ 

s 

N 

in tutto analoga a quella che abbiamo costruito nel caso precedente con l’unica differenza che ora 

compare s al posto di σ, non é una variabile gaussiana standardizzata, ma é piuttosto una t di 

Student con N-1 gradi di libertà che tende ad una gaussiana solo nel limite di grande N. 

Per cui se vogliamo un intervallo di probabilità confrontabile con quello gaussiano, per esempio al 

68.3%, dobbiamo trovare quel valore della variabile t con N-1 gradi di libertà, diciamo t Ν−1 (68.3%) 

tale che: 

P 

x − μ 

(68.3%) < < t (68.3%)) = 68.3% 

1 N − 

s 

N 

( −t 

N − 

1 

I valori di questi t N-1 per diverse probabilità (tra cui il 68.3%) sono dati nella tabella data qui di 

seguito. Dalla tabella si nota che al crescere di N i valori di t tendono a quelli “gaussiani” come 

deve essere per le proprietà limite della variabile t di Student. Quindi l’uso della variabile t é 

importante solo quando si stanno considerando medie di campioni di bassa statistica estratti da 

popolazioni gaussiane di σ non nota. 

Si scrive dunque il risultato per un intervallo di probabilità α qualsiasi: 

ˆ μ = x ± t ( α) 

N 1 

− 

s 

N 

96

Tabella con i valori di t(N-1) introdotti nel testo, per dare intervalli di probabilità corretti nel caso di un numero 

limitato di misure. Si noti che gli 1-α della tabella corrispondono agli α del testo. La tabella deve essere usata 

anche per fissare gli estremi degli intervalli di accettabilità nel contesto dei test di ipotesi (vedi seguito). 

Si noti che il valore di t fa aumentare le dimensioni dell’intervallo rispetto al caso gaussiano. In un 

certo senso si sta pagando la non conoscenza della σ e il fatto che si sta introducendo anche 

l’incertezza su s, stima di σ. 

(3.2.3) Caso dei conteggi poissoniani. 

Supponiamo di volere stimare il “rate” di conteggio di un certo tipo di eventi. Devo stimare il 

parametro λ di un fenomeno poissoniano relativo ad un intervallo di tempo Δt, dato una certa 

misura di conteggio N nel tempo Δt. 

La trattazione esatta del problema, richiede l’uso del teorema di Bayes in caso di verosimiglianza 

poissoniana. Qui consideriamo solo il caso in cui il numero di conteggi osservato é 

sufficientemente grande. In tal caso infatti, ma solo in tal caso, il numero di conteggi diventa una 

variabile gaussiana, e pertanto si possono costruire intervalli di probabilità gaussiani. Supponiamo 

allora di avere contato N conteggi nel tempo Δt e di volere stimare la “radioattività ambientale” r. 

Nel limite in cui N é “grande” (per N maggiore di 10-20 tale limite é già in pratica raggiunto) si 

trova che la migliore stima di λ è fornita dall’unico valore trovato N. 

λˆ = N 

e pertanto 

N 

rˆ 

= 

Δt 

Se ho validi motivi per ritenere che la popolazione sia poissoniana, posso ragionevolmente 

assumere che la radice quadrata di N sia una buona stima della deviazione standard, e pertanto 

avrò: 

N 

N 

t 

rˆ 

= ± 

Δt 

Δ 

in cui evidentemente ho assunto trascurabile l’incertezza su Δt. Si noti che (caratteristica distintiva 

dei processi poissoniani) al crescere di N l’incertezza cresce, ma più lentamente di N e dunque 

l’incertezza relativa su r decresce 

97

(a) 

s( rˆ) 

1 

= 

rˆ 

N 

qui abbiamo indicato con s(r) l’incertezza sulla stima di r. Dunque la stima del “rate” di un evento 

é tanto migliore quanto più alto é il numero di conteggi ovvero, a parita’ di rate, quanto maggiore é 

il mio tempo di osservazione Δt. 

Consideriamo ora l’esperienza del contatore. Sono stati fatti diversi conteggi a tempo fissato (per 

esempio N=50 conteggi da δt=100 s l’uno) e i miei dati sono una sequenza di conteggi: n(i),i=1,N. 

In tal caso la migliore stima della radioattività può essere ottenuta in due modi tra loro equivalenti. 

Calcolo la media n e la deviazione standard campionaria s(n) dei 50 conteggi 

(n(i),i=1,N). Uso la proprietà della media e scrivo: 

n 

rˆ = ± 

δt 

s( 

n) 

Nδt 

che, assumendo di essere nel limite gaussiano, corrisponde ad un intervallo di probabilità del 

68.3%. 

(b) Sommo tutti i conteggi fatti e li divido per la somma di tutti gli intervalli pari 

evidentemente a Nδt, cioé agendo come se avessi fatto un unico conteggio per un tempo Nδt. 

∑ 

N 

N 

= 

∑ 

n( 

i) 

n( 

i) 

i= 1 

i 1 

rˆ 

= ± 

Nδt 

Nδt 

e assumo la radice del totale dei conteggi come stima della deviazione standard. 

I 2 approcci sono esattamente uguali per quel che riguarda il valore centrale, essendo infatti 

N 

n = ∑ n( 

i) / N , mentre per quel che riguarda l’incertezza sono uguali solo se la deviazione 

i= 

1 

standard campionaria é pari 

poissoniana. 

n . Ciò é verificato solo se la distribuzione é effettivamente 

Quindi ricapitolando quanto detto per il caso dei conteggi poissoniani nel limite gaussiano: se la 

distribuzione é poissoniana é opportuno sommare tutti i conteggi fatti ed assumere come incertezza 

la radice di tale numero; se invece si hanno dubbi sulla poissonianità, é opportuno suddividere il 

tempo di misura in sottocampioni e controllare che la deviazione standard campionaria sia in 

accordo con la radice della media aritmetica. Se ciò é ragionevolmente verificato si può procedere 

come nel caso poissoniano. Altrimenti si deve concludere che il fenomeno non é poissoniano 

(perché ad esempio alcune delle ipotesi non sono verificate) e assumere la deviazione standard 

della media come incertezza. 

Il caso di pochi conteggi (in cui il limite gaussiano non é verificato) é estremamente importante ma 

richiede una trattazione che esula dagli obiettivi di questo corso. 

(3.2.4) Caso dei conteggi binomiali. 

Supponiamo di aver contato n successi su N prove e di volere stimare p. Si tratta di un tipico caso 

di inferenza, nel quale voglio passare da un valore misurato n caratteristico di un campione 

“estratto” dalla popolazione, al parametro che descrive la popolazione. L’esempio più tipico é 

quello della misura di efficienza di un rivelatore. 

Anche in questo caso ci limitiamo al limite gaussiano. La migliore stima di p sarà data dalla 

frequenza con cui ho ottenuto il successo 

p ˆ = 

n 

N 

98

che corrisponde al fatto che in una binomiale E[n]=Np. La deviazione standard é ottenuta 

prendendo la deviazione standard della popolazione e sostituendo a p il suo valore stimato: 

1 

1 

pˆ(1 

− pˆ) 

s( 

pˆ) 

= Var[ 

n] 

= Np(1 

− p) 

= 

N N 

N 

Anche in questo caso giova ricordare che al di fuori del limite gaussiano la trattazione data non é 

adeguata. Ricordiamo che nel caso della distribuzione binomiale il limite gaussiano é raggiunto 

quando N é sufficientemente elevato e quando p é sufficientemente lontano da 0 e da 1. 

(3.2.5) La “barra di incertezza” 

Fig.3.1 Alcuni esempi di dati sperimentali espressi su di un grafico con la (o le) barre di incertezza. Si noti 

che la barra esprime sempre una stima dello sperimentatore di un intervallo di probabilità del quale deve 

essere specificato il contenuto. In caso non si abbia una tale stima, é bene presentare il dato senza barra. 

In tutti i casi visti, il risultato della misura può essere espresso come un valore ± una incertezza 

stimata. Se la misura di cui stiamo parlando viene messa in un grafico in cui é espressa in funzione 

di un altra grandezza per evidenziare un eventuale andamento (è il caso di molte delle misure viste 

in laboratorio), allora sarà opportuno riportare sul grafico non solo un punto, ma un punto con due 

barre di incertezza: una per la misura della grandezza in ascisse, e l’altra per la misura della 

grandezza nelle ordinate, secondo quanto mostrato nella figura illustrativa (Fig.3.1). Si tratta di 

una espressione grafica molto utilizzata perché estremamente utile alla comprensione del grafico. 

Di norma le barre di incertezza rappresentano incertezze standard e quindi il loro significato é che 

il valore vero cade là dentro con una probabilità che nel caso gaussiano é del 68.3%. Come 

vedremo, nella valutazione degli andamenti, l’uso delle barre di incertezza si rivela di cruciale 

importanza. 

(3.3) Misure indirette: la propagazione delle incertezze 

(3.3.1) Riformulazione del problema 

Dopo aver fatto una lista di casi di misure dirette, torniamo al caso delle misure indirette. 

Possiamo ora applicare la formula che abbiamo ricavato nel capitolo precedente. 

99

Riformuliamo il problema. Supponiamo di aver misurato le 2 grandezze x 1 ed x 2 e di avere ottenuto 

ˆx e 

1 

ˆx con le loro incertezze standard 

2 

s ( xˆ 

1 

) e s ( xˆ 

2 

) e di avere anche stimato una covarianza tra le 

2 grandezze. Vogliamo trovare una stima di y che é una funzione di x 1 ed x 2 , y(x 1 , x 2 ) e una stima 

della sua incertezza s (yˆ 

) . Nel capitolo precedente abbiamo imparato a calcolare il valore atteso e la 

varianza della popolazione della variabile causale y. Ora però per utilizzare quella formula, 

dobbiamo applicarla a campioni di x 1 e di x 2 non alle popolazioni. Per fare ciò identifichiamo i 

valori attesi di y di x 1 e di x 2 con le rispettive stime di y, x 1 ed x 2 , e le varianze con i quadrati delle 

incertezze standard, secondo il procedimento che abbiamo già usato nel precedente paragrafo. 

Identifichiamo infine la covarianza della popolazione delle 2 variabili con la covarianza 

campionaria. Naturalmente questo passaggio richiede una identificazione campione-popolazione 

che é lecita solo nella misura in cui i campioni “rappresentano” ragionevolmente bene le 

popolazioni, cioé nel limite di errori casuali piccoli. 

(3.3.2) Propagazione delle incertezze 

Utilizzando le formule viste nel capitolo precedente, ed applicandola ai valori campionari, abbiamo 

allora per la stima di y e per la stima della sua varianza: 

yˆ 

= 

s( 

yˆ) 

y( xˆ 

, xˆ 

2 

1 

2 

) 

⎛ ∂y 

⎞ 

= ⎜ ⎟ 

⎝ ∂x1 

⎠ 

2 

xˆ1 , xˆ2 

s( 

xˆ 

) 

1 

2 

⎛ ∂y 

⎞ 

+ ⎜ ⎟ 

⎝ ∂x2 

⎠ 

2 

xˆ1 , xˆ2 

s( xˆ 

2 

) 

2 

⎛ ∂y 

⎞ 

+ 2⎜ 

⎟ 

⎝ ∂x1 

⎠ 

xˆ1 , xˆ2 

⎛ ∂y 

⎞ 

⎜ ⎟ 

⎝ ∂x2 

⎠ 

xˆ1 , xˆ2 

cov( xˆ 

, xˆ 

Soffermiamoci su questa formula. Vi compaiono 2 categorie di elementi: da un lato le derivate della 

funzione y calcolate in corrispondenza dei valori stimati di x 1 e di x 2 , che non hanno nulla a che 

vedere con le incertezze delle variabili x; dall’altra appunto le incertezze standard delle variabili x e 

la covarianza tra queste, che sono invece grandezze indipendenti dalla forma di y, ma legati alla 

nostra conoscenza sulle due variabili x ed anche al loro grado di correlazione. Sono questi 2 

elementi a determinare l’incertezza propagata. 

È utile a questo punto applicare la formula trovata al caso della misura indiretta delle densità dei 

pesetti, per verificare se la deviazione standard delle misure di densità del campione di pesetti é in 

accordo con il valore stimato in base alla propagazione. 

In primo luogo calcoliamo le derivate della funzione y, poi prendiamo dai dati i valori stimati delle 

deviazioni standard delle misure di massa e volume. Osserviamo dunque che le 2 misure non sono 

correlate (nel senso che non sono correlati gli errori di bilancia e calibro). 

Concludiamo dando una formula di propagazione molto utile nelle applicazioni, valida nel caso in 

cui la funzione y sia una funzione ‘monomia’, cioè del tipo 

y = kx 

α 

1 

x 

β 

2 

... 

esprimibile come prodotto delle variabili x elevate a esponenti (anche negativi). In caso di non 

correlazione si ha: 

⎛ s( 

yˆ) 

⎞ 

⎜ ⎟ 

⎝ yˆ 

⎠ 

2 

⎛ 

2 

s( xˆ 

) ⎞ 

1 

= α ⎜ ⎟ 

⎝ xˆ 

1 ⎠ 

2 

⎛ 

2 

s( xˆ 

) ⎞ 

2 

+ β ⎜ ⎟ 

⎝ xˆ 

⎠ 

2 

2 

+ ... 

Si noti il ruolo determinante degli esponenti α e β con cui x 1 e x 2 compaiono nella formula. Essi 

determinano in effetti quanto “fortemente” y dipende da x 1 e da x 2 . 

(3.4) Nozione di consistenza e significatività: test d’ipotesi 

1 

2 

) 

100

(3.4.1) Consistenza tra risultati di esperimenti 

Abbiamo dunque visto come in casi semplici si possono attribuire degli intervalli al valor vero sia 

che si tratti di una misura diretta sia che si tratti di una misura indiretta. Supponiamo ora di aver 

misurato una certa grandezza in laboratori diversi e con apparati diversi. Può essere, per esempio, 

che diversi gruppi sperimentali siano impegnati in diversi esperimenti che intendono tuttavia 

misurare una stessa grandezza per fare luce su un certo problema di fisica. Al termine di questi 

esperimenti la comunità scientifica ha a disposizione N risultati diversi uno per ciascun 

esperimento. Prima di qualunque altra cosa ci si chiede se i risultati ottenuti dai diversi esperimenti 

siano tra di essi consistenti. La domanda é evidentemente di straordinaria rilevanza. Infatti la 

consistenza tra diversi esperimenti, “rafforza” la conoscenza complessiva del fenomeno, mentre una 

eventuale inconsistenza può significare che qualcuno degli esperimenti stia stimando male la 

propria incertezza oppure che gli esperimenti stiano misurando grandezze diverse. Quest’ultimo é il 

caso in cui uno o più degli esperimenti sono caratterizzati da errori sistematici fuori controllo che 

fanno si’ che il misurando non rappresenti correttamente il valore vero. 

Nel primo capitolo abbiamo accennato ad un confronto tra risultati basato sulla distanza in “numero 

di deviazioni standard”. Quanto abbiamo detto allora é sostanzialmente corretto. Ora vogliamo 

soltanto rendere più quantitativa la discussione fatta. 

Supponiamo che i 2 esperimenti che vogliamo confrontare (A e B) danno il loro risultato sotto 

forma di intervallo standard gaussiano del tipo x ± σ. Posso considerare la variabile casuale Δ=x A - 

x B . Faccio allora la seguente ipotesi: i 2 campioni A e B provengono da due popolazioni gaussiane 

caratterizzate da uno stesso μ e da varianze pari a quelle date da ciascun esperimento σ A e σ B . In 

tale ipotesi la variabile Δ è anch’essa gaussiana. Il suo valore atteso sarà 0 e la sua varianza si 

otterrà dalla formula della propagazione. Assumendo assenza di correlazione tra i 2 esperimenti 

(circostanza ragionevole) avremo 

2 

2 2 

σ = σ A 

+ σ 

Δ 

B 

e dunque la variabile 

Δ 

Z = σ 

Δ 

deve essere una variabile gaussiana standardizzata. A questo punto testare l’ipotesi di partenza 

corrisponde a testare quanto é verosimile che la variabile Z cosi’ definita sia gaussiana 

standardizzata (l’uso del termine verosimile in questo contesto non ha esattamente lo stesso 

significato della definizione di verosimiglianza data sopra, ma ha un significato analogo). Per fare 

ciò calcolo Z e vado a vedere nelle tabelle della distribuzione di Gauss normalizzata quant’è 

P 

( Z ) = P(( m > Z ) ∪( 

m < − Z )) 

cioè quanto é probabile che io ottenga un valore oltre Z in entrambi le code della gaussiana. 

Evidentemente, più piccolo é il valore di questa probabilità più inverosimile é il fatto che Z 

provenga da una popolazione gaussiana standardizzata. 

Quanto detto corrisponde ad un esempio particolarmente semplice di test di ipotesi. Il procedimento 

logico fatto può essere cosi’ ricapitolato: 

si definisce una variabile casuale, detta statistica campionaria, funzione dei dati (la variabile Z 

nell’esempio dato sopra) tale che se l’ipotesi é verificata la sua funzione di distribuzione é nota 

(una gaussiana standardizzata nell’esempio dato sopra); 

si calcola il valore di questa variabile; 

si stima quant’è “verosimile” che il valore misurato provenga dalla distribuzione aspettata 

(nell’esempio dato sopra calcolare P (Z) 

sulla base delle tabelle). 

101

In alcuni casi si può procedere nel modo seguente: viene fissato un certo valore di probabilità di 

soglia. Se P(Z) 

é inferiore a questo valore, l’ipotesi viene rigettata: in caso contrario viene 

accettata. La scelta della probabilità di soglia é in qualche misura arbitraria. Scelta tipiche possono 

essere il 10% o il 5% o anche l’1%. Si noti che la scelta di questa soglia dipende da quanto 

vogliamo essere ‘severi’. Certamente assumere il 10% come soglia significa essere piuttosto severi, 

ma comporta il rigettare il 10% dei casi buoni come se fossero cattivi. Viceversa, scegliere l’1% 

significa ridurre questa eventualità all’1% ma significa anche aumentare la possibilità di prendere 

come buoni casi cattivi. Si tratta dunque di trovare un compromesso che dipende dalla natura del 

problema in questione. 

(3.4.2) Consistenza tra esperimento e modello 

Un caso simile al precedente che pure abbiamo incontrato nelle nostre esperienze di laboratorio é 

quello in cui vi é un valore atteso per il risultato di una certa misura, valutato sulla base di un 

modello o sulla base di una ipotesi che si fa sulla grandezza che stiamo misurando. Nel caso delle 

misure di densità l’ipotesi é che i cilindretti siano tutti fatti di alluminio puro e dunque la densità 

attesa é la densità dell’alluminio, assunta nota con incertezza trascurabile. Muovendoci secondo 

quanto detto nel paragrafo precedente, e facendo di nuovo l’ipotesi che la nostra misura provenga 

da una popolazione gaussiana, costruiamo la seguente statistica campionaria: 

= x ˆ 

Z 

− μ 

σ 

in cui x é il risultato della misura, σ la stima della sua deviazione standard gaussiana ed infine μ è il 

valore atteso. Da questo punto in poi si segue il ragionamento fatto sopra. Essenzialmente, dato il 

valore di Z si tratterà di calcolare sulla base delle tabelle quanto vale P (Z) 

e sulla base di tale 

valore prendere una decisione. 

Nel seguito vedremo un altro esempio di test di ipotesi quando discuteremo i fit. E’ opportuno 

sottolineare che in ogni caso l’accettazione o il rigetto di una ipotesi non costituisce mai una 

conclusione certa, ma sempre una conclusione di natura probabilistica. Giova ribadire qui quanto 

già detto sopra, vale a dire che la scelta della probabilità di soglia determina la “severità” del test. 

Maggiore é tale probabilità di soglia, maggiore é la nostra tendenza a rigettare i casi, nel senso che 

l’accettazione dell’ipotesi si ha solo se l’accordo é molto buono. Ma proprio in questo caso diventa 

più alta la probabilità di rigettare come falsa un ipotesi vera. 

(3.4.3) Combinazione di diverse misure: la media pesata. 

Supponiamo ora di avere verificato che i risultati di due esperimenti relativi alla grandezza x siano 

consistenti, cioè che il test dell’ipotesi di consistenza abbia dato esito positivo. A questo punto ci 

poniamo il problema di combinare i due risultati utilizzando tutte le informazioni a nostra 

disposizione. Fare la media aritmetica tra i due risultati costituisce un approccio che ha un evidente 

problema. Infatti il risultato della media sta appunto a metà tra i due. Supponiamo che uno dei due 

risultati sia caratterizzato da una incertezza molto minore dell’altra. E’ naturale dare più credito a 

quel risultato e fare le cose in modo tale che il risultato finale sia più vicino a quello tra i due che ha 

incertezza minore. Si tratta cioè di fare una media pesata: 

x p + xˆ 

p ˆ1 1 2 

x p 

= 

p + p 

1 

2 

2 

in cui p 1 e p 2 sono appunto due pesi. In base a quanto detto i 2 pesi devono essere legati alla 

incertezza di ciascuna misura o meglio al suo inverso. Si dimostra che con la scelta 

1 

p = 

2 

s ( xˆ) 

102

la media pesata ottenuta é la “migliore stima” di x sulla base delle informazioni a disposizione. 

Pertanto, generalizzando alla combinazione di N risultati diversi, diamo la definizione di media 

pesata: 

N xˆ 

i 

∑ 

i= 

1 

2 

s ( xˆ 

) 

i 

x = 

p 

N 1 

∑ 

i= 

1 

2 

s ( xˆ 

) 

i 

Si dimostra inoltre che la deviazione standard della media pesata é data da: 

2 1 

s ( xp 

) = N 

1 

∑ 2 

s ( xˆ 

) 

i= 

1 

i 

Si noti che nel caso di incertezze tutte uguali si ritorna alla media aritmetica e alla deviazione 

standard della media. 

Giova ricordare che questo procedimento é applicabile solo al caso in cui si é preventivamente 

verificato che le misure in questione sono campioni provenienti dalla stessa popolazione. Nel caso 

questa ipotesi fosse rigettata questa combinazione non avrebbe significato, e allora occorre 

procedere in modo diverso. Nel corso della discussione del fit (prossimo paragrafo) otterremo una 

dimostrazione della formula della media pesata per il caso generale di N misure indipendenti. 

(3.5) Analisi delle dipendenze funzionali: il fit 

L’ultimo argomento che trattiamo in questo corso affronta uno degli aspetti più importanti 

dell’indagine scientifica, in un certo senso il punto d’arrivo di ogni indagine sperimentale. Come 

abbiamo detto nell’introduzione al metodo scientifico, il progresso conoscitivo si sviluppa 

attraverso il confronto tra i risultati degli esperimenti e le predizioni dei modelli. In fisica i risultati 

degli esperimenti sono espressi come misure, cioè come valori numerici di grandezze fisiche 

opportunamente definite, mentre le predizioni dei modelli sono espresse o come valori numerici di 

grandezze o come relazioni matematiche tra grandezze. Concentriamoci su questo secondo caso. 

Formuliamo ora il problema in modo generale. Nel seguito risolveremo il problema solo in un caso 

particolare, che tuttavia risulta essere di notevole rilevanza e generalità. 

(3.5.1) Il fit: formulazione del problema 

Supponiamo che il nostro esperimento consista nel misurare, al variare di una certa grandezza x, 

una seconda grandezza, diciamo y. Effettuiamo N misure in corrispondenza di N diversi valori di x. 

Avremo pertanto gli N valori di x x 1 ,x 2 ,...,x N e, in corrispondenza di questi gli N valori di y 

y 1 ,y 2 ,...,y N . Naturalmente sia per quel che riguarda le x che le y, si tratta di misure e dunque ciascun 

valore é affetto di una incertezza o, più in generale, costituisce un campione da una popolazione 

caratterizzata da una certa funzione di distribuzione. 

Supponiamo poi che le due grandezze x ed y siano legate, secondo un certo modello, da una 

relazione funzionale del tipo 

y = y( x, 

θ ) 

cioè da una formula che esprime la dipendenza funzionale tra le due grandezze e che a sua volta 

dipende da un certo numero, diciamo M, di parametri θ . Questo simbolo indica un insieme di 

parametri. Per fissare le idee, il caso in cui l’andamento atteso dal modello sia di tipo rettilineo, la 

funzione y sarà data da: 

y = mx + c 

103

in cui evidentemente il coefficiente angolare m e l’intercetta all’origine c sono i parametri. I 

parametri possono assumere valori che hanno significato nell’ambito del modello in questione. Ad 

esempio nel caso della dipendenza allungamento molla – massa del pesetto, sappiamo bene che la 

dipendenza rettilinea prevista da una semplice applicazione delle leggi della statica, comporta che il 

coefficiente angolare sia il rapporto g/k tra l’accelerazione di gravità g e la costante elastica della 

molla k, e dunque si tratta di un numero rilevante nell’ambito del modello che stiamo applicando. 

Lo sperimentatore che ha effettuato queste misure si pone allora i due seguenti problemi: 

(a) la dipendenza funzionale attesa dal modello descrive bene i dati ? 

(b) quali sono i valori degli M parametri θ per i quali si ha il miglior accordo possibile tra 

modello ed esperimento ? 

Si tratta di due diverse questioni. La questione (a) é del tipo di quelle di cui abbiamo parlato a 

proposito dei test di ipotesi. La questione (b) é invece una questione “nuova” che in realtà abbiamo 

affrontato in laboratorio in modo grafico: tracciando cioè la migliore curva (una retta nei casi da noi 

visti) e poi valutando graficamente coefficiente angolare ed intercetta. 

Nella pratica sperimentale normalmente le due questioni si pongono contestualmente. Cioè lo 

sperimentatore si pone entrambi le questioni. Vuole capire se la descrizione del modello é 

soddisfacente o se é necessario introdurre altri termini (correzioni) al modello per avere una 

descrizione più adeguata. Allo stesso tempo lo sperimentatore vuole ricavare i migliori parametri 

dato che spesso questi hanno significati fisici rilevanti. 

Nel seguito descriviamo un metodo che permette di affrontare e risolvere entrambi i problemi. 

Chiamiamo questo procedimento fit, parola inglese che traduciamo con “adattamento”, intendendo 

il fatto che vogliamo adattare al meglio il modello ai nostri dati. 

(3.5.2) Ipotesi di lavoro 

Descriviamo questo metodo restringendoci al caso in cui sono verificate alcune ipotesi che ora 

elenchiamo e che vedremo entrare in gioco nei vari passaggi della descrizione del metodo. Le 

ipotesi che facciamo in realtà non sono molto restrittive, nel senso che si applicano ad una vasta 

categoria di situazioni. Vediamole: 

2 

le misure della variabili y provengono da popolazioni tutte gaussiane di varianze σ ; 

i 

le misure della variabile x provengono da popolazioni qualsiasi, ma le loro deviazioni standard 

sono “trascurabili” rispetto alle corrispondenti per le y; qui occorre fare attenzione circa il senso di 

questa affermazione. Infatti per trascurabile intendiamo che l’incertezza di x “propagata” su y sia 

molto minore dell’incertezza di y. Se y(x) é la funzione questo vuol dire 

dy 

σ ( x) 

Fig.3.2 Lo stesso punto sperimentale con σ y =0.5 e σ x =0.1 in 2 situazioni diverse: in un caso la dipendenza tra 

le 2 variabili nell’intorno del punto é espressa come y=x (dy/dx=1) nell’altro caso come y=7x (dy/dx=7). Le 

frecce tratteggiate indicano il contributo dell’incertezza sulle x all’incertezza sulle y. Nel primo caso dunque 

l’ipotesi descritta nel testo é verificata nel secondo chiaramente no. 

Come si vede, le ipotesi sono abbastanza generali. Si noti che l’ultima ipotesi, quella 

dell’andamento rettilineo, vale anche quando l’andamento non é direttamente rettilineo, ma può 

essere “linearizzato”, cioè reso rettilineo con un semplice cambio di variabili. E’ il caso del grafico 

T -√m nella molla, il grafico t 2 – s nel caso del volano scarico ed infine tutti i casi in cui 

l’andamento atteso é esponenziale si prende in considerazione la carta semilogaritmica. 

(3.5.3) Il fit: derivazione delle formule per le stime dei parametri 

Utilizziamo il principio di massima verosimiglianza che abbiamo formulato nel par.(3.1.3). A tale 

scopo dobbiamo costruire la funzione di verosimiglianza, cioè la densità di probabilità congiunta 

delle y, dato il modello e i parametri m e c della retta. Osserviamo a questo scopo che essendo le N 

misure di y indipendenti, la densità di probabilità congiunta delle y può essere espressa come il 

prodotto delle densità di probabilità di ciascuna misura. Utilizzando le ipotesi fatte di gaussianità 

delle y si ha: 

2 

N 

N 1 ⎛ ( y − mx − c) 

⎞ 

i 

i 

L( 

y / m, 

c) 

= ∏ f ( y / m, 

c) 

= ∏ exp⎜ 

− 

⎟ 

i 

i= 1 i= 

1 

2 

2πσ 

i ⎝ 2σ 

i ⎠ 

cioè la densità di probabilità congiunta (che abbiamo indicato con L da likelihood) é il prodotto di 

2 

densità di probabilità gaussiane, ciascuna con valore atteso dato dal modello (mx i +c) e varianze σ . 

i 

Trattiamo le x i come fossero delle costanti, in base alle ipotesi fatte. 

Il principio di massima verosimiglianza ci dice che le migliori stime di m e di c sono quelle per cui 

L é massima. Per affrontare in modo più semplice la matematica del problema procediamo con un 

semplice artificio. Prendendo il logaritmo naturale di L otteniamo una nuova funzione 

l = ln(L) 

che tuttavia, date le proprietà di monotonia della funzione logaritmo assumerà il massimo in 

corrispondenza degli stessi valori di m e di c che massimizzano L. Calcoliamo dunque l 

105

1 N 

N 

2 

( yi 

l = − ∑ln(2πσ 

) − ∑ 

i 

i= 1 i= 

1 

2 

−mx 

−c) 

i 

2 

2σ 

i 

Dal momento che sono interessato a calcolare il massimo rispetto ad m e a c, osservo subito che il 

primo termine é costante rispetto ad m e a c, e dunque posso non considerarlo. Rimane da 

massimizzare 

2 

1 N ( y − mx − c) 

i 

i 

l = − ∑ 

i= 

1 

2 

2 σ 

i 

ovvero da minimizzare (cambio segno e tolgo l’1/2 che di nuovo non cambia il massimo della 

funzione) la quantità 

2 

( y − mx − c) 

= ∑ 

N 

i 

i 

χ 

i= 

1 

2 

σ 

i 

2 

2 

Ho chiamato χ la quantità da minimizzare non per caso. Infatti, nel caso in cui le ipotesi fatte 

2 

sono tutte verificate, essa risponde proprio alla definizione di variabile χ data a suo tempo, come 

somma di variabili gaussiane standardizzate. 

Per minimizzare, procediamo nel modo standard: poniamo uguale a 0 le derivate prime della 

2 

2 

funzione χ rispetto ad m e a c. Si noti come la funzione χ è una funzione di m e di c a questo 

punto mentre i valori sperimentali y i e x i sono diventati delle costanti fissate. Dovrò quindi cercare 

quei valori di m e di c che risolvono il sistema lineare dato da: 

2 

∂χ 

∂m 

2 

∂χ 

∂c 

= 0 

= 0 

Svolgiamo le derivate. Cominciamo dalla derivata parziale rispetto ad m. Ricordiamo che nel fare la 

derivata parziale rispetto a m si deve pensare c come una costante. 

2 

2 

∂χ 

∂ ⎛ N ( y − mx − c) 

⎞ N − x 2( y − mx − c) 

i 

i 

i i 

i 

= ⎜ ∑ 

⎟ = ∑ 

= 

i= 

1 

2 

i= 

1 

2 

∂m 

∂m 

⎝ σ ⎠ σ 

i 

i 

2 

⎛ N x y 

N x 

N x ⎞ 

N 

i i 

i 

i 

2 

1 

− 2⎜ 

∑ − m∑ 

− c∑ 

⎟ = −2( xy − mx − cx)∑ 

i= 

1 

2 

i= 1 

2 

i= 

1 

2 

i= 

1 

2 

⎝ σ σ σ 

i 

i 

i ⎠ 

σ 

i 

nell’ultimo passaggio ho definito le medie “pesate” sia del prodotto xy che di x ed ho messo in 

evidenza la somma dei pesi (che come sappiamo dal precedente paragrafo ha il significato di 

inverso della varianza della media pesata. Poiché il risultato della derivata va uguagliato a 0 posso 

togliere il –2 e la sommatoria dei pesi che sono indipendenti da m e da c. Pertanto la prima 

equazione cui siamo pervenuti é del tipo: 

2 

m x + cx = xy 

Procediamo ora con la seconda derivata, rispetto a c con m costante: 

2 

106

2 

∂χ 

∂ ⎛ N ( y − mx 

i 

i 

= ⎜ ∑ 

i= 

1 

2 

∂c 

∂c 

⎝ σ 

i 

⎛ N y 

N x 

N 

i 

i 

− 2⎜ ∑ − m∑ − c∑ 

⎝ 

σ 

σ 

i= 1 

2 

i= 1 

2 

i= 

1 

i 

i 

− c) 

i 

2 

⎞ N − 2( y − mx 

i 

i 

⎟ = ∑ 

i= 

1 

2 

⎠ σ 

i 

− c) 

= 

1 ⎞ 

N 1 

⎟ = −2( y − mx − c)∑ 

2 

i= 

1 

2 

σ ⎠ σ 

da cui ricaviamo, sempre uguagliando a 0 la derivata ed eliminando anche in questo caso i fattori 

comuni: 

m x + c = 

y 

Siamo dunque pervenuti ad un sistema lineare di 2 equazioni in 2 incognite, che riscriviamo: 

mx 

2 

+ cx = xy 

mx + c = 

y 

Risolviamo questo sistema con il metodo di Cramer. A questo scopo calcoliamo prima il 

determinante d della matrice dei coefficienti: 

2 

2 

d = x 

− x 

che ha l’ovvio significato di “varianza campionaria della variabile x”, e quindi rappresenta quanto 

sono “sparse” le misure di x. Nel seguito lo chiameremo “braccio di leva” e capiremo il significato 

molto intuitivo di questa espressione. 

Quindi per ricavare m e c abbiamo bisogno degli altri 2 determinanti che chiamiamo dm e dc 

rispettivamente: 

dm = xy − x y 

dc = x 

2 

y − xxy 

e procediamo a scrivere le formule risolutive (secondo il metodo di Cramer): 

mˆ 

cˆ 

Con queste formule abbiamo risolto il problema (b) posto all’inizio del capitolo: dato un insieme di 

N “punti sperimentali”, ciascuno dato dalla misura di una grandezza y in corrispondenza di un 

valore della grandezza x, nelle ipotesi fatte, le migliori stime dei parametri m e di c che descrivono 

il supposto andamento rettilineo di y in funzione di x, sono date dalle formule sopra ricavate. 

Operativamente si tratterà quindi di calcolare le medie (pesate con gli inversi delle varianze delle 

singole misure) delle x delle y dei prodotti xy e dei quadrati delle x. Dalla combinazione di tale 

medie otteniamo le stime di m e di c. 

Prima di procedere al calcolo delle varianze di queste stime, facciamo alcune considerazioni sulle 

formule ricavate. 

Ricordando la definizione di varianza e covarianza campionaria, osserviamo che la stima di m si 

puo’ scrivere nella forma: 

m ˆ = 

xy − x y 

= 

2 

2 

x − x 

2 

x y − x xy 

= 

2 

2 

x − x 

cov( x, 

y) 

Var( 

x) 

dunque m é strettamente legato alla correlazione tra le 2 grandezze. Il caso di non correlazione 

corrisponde all’essere m=0 (è il caso visualizzabile come la “palla” secondo la discussione della 

correlazione che abbiamo fatto). Inoltre il segno di m é legato al segno della covarianza tra y e x 

(essendo la varianza di x definita positiva). Come abbiamo visto negli esempi dati per la 

i 

107

correlazione, covarianze positive e negative identificano pendenze positive e negative. Si noti 

tuttavia che cov( x , y) 

e Var (x) 

in questo caso indicano rispettivamente covarianza tra le variabili e 

varianza delle x (il “braccio di leva”) e non covarianza delle incertezze o incertezza sulla x. 

La formula di c é meno intuitiva di quella di m. Diventa intuitiva nel caso in cui x = 0. Infatti 

in tal caso c = y. Si tratta del caso in cui i punti sono distribuiti sull’asse x in modo che tanti sono 

a destra quanti sono a sinistra (il baricentro dei punti é a 0). In tal caso evidentemente l’intercetta 

all’origine c diventa la media pesata delle y. 

Notiamo che in tutte le formule compaiono medie pesate. Questo vuol dire che gli N punti non 

sono tutti uguali. Il fit “pesa di più” quelli che hanno incertezza minore. Nel caso in cui tutte le 

incertezze sulle y fossero uguali, allora le medie diventano automaticamente medie aritmetiche. 

Ultima osservazione. Non é necessario verificare il segno delle derivate seconde per stabilire se 

il risultato trovato corrisponde ad un massimo o ad un minimo (infatti per ora abbiamo solo 

richiesto derivate prime nulle). Infatti si dimostra (ma é ampiamente intuitivo) che il problema 

posto non ammette massimi. Ciò in virtù del fatto che la possibilità di allontanarsi dai punti é 

“illimitata”. 

(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza 

Affrontiamo ora il secondo problema altrettanto importante del primo: trovare una stima delle 

incertezze da attribuire alle stime trovate di m e di c. 

Osservando le formule trovate, notiamo che le stime di m e c, possono essere pensate come variabili 

casuali, funzioni a loro volta di variabili casuali. Infatti sono funzioni dei valori delle x e delle y che 

altro non sono che realizzazioni di grandezze che dobbiamo trattare come variabili casuali appunto. 

Dunque applichiamo alle 2 stime trovate il metodo della propagazione delle incertezza. Dal 

momento che, per le ipotesi fatte, le x hanno incertezze trascurabili, allora dovremo propagare solo 

le incertezze sulle y, che peraltro conosciamo. Per procedere con la formula di propagazione delle 

incertezze, mi manca di calcolare le derivate parziali di m e di c rispetto a ciascuna y i . 

∂mˆ 

∂y 

i 

∂cˆ 

∂y 

i 

∂ ⎛ xy − x y ⎞ 1 ⎛ x x 

i 

= ⎜ 

2 ⎟ = ⎜ − 

2 

2 

2 

∂yi 

⎝ x − x ⎠ Var( 

x) 

⎝σ 

σ 

i 

i 

∂ 

= 

∂y 

i 

⎛ 

⎜ 

⎝ 

x 

2 

y − xxy 

x 

2 

− x 

2 

⎞ 

⎟ 

⎠ 

⎞ 

⎟ 

⎠ 

∑ 

i= 

1 

2 

1 ⎛ x x x 

i 

= ⎜ − 

2 

2 

Var( 

x) 

⎝σ 

σ 

i 

i 

N 

⎞ 

⎟ 

⎠ 

1 

1 

2 

σ 

N 

∑ 

i= 

1 

i 

1 

1 

2 

σ 

Applico ora la formula di propagazione usando l’ipotesi di non correlazione tra le varie y. Per la m 

2 

2 

N ⎛ ∂mˆ 

⎞ 

N ( x − x) 

i 

Var( 

mˆ ) = ∑ ⎜ ⎟ Var( 

y ) = ∑ 

i 

N 

i= 

1 

⎝ ∂yi 

⎠ 

σ ( Var( 

x)) 

( ∑ 1 

( Var( 

x)) 

1 

2 

N 

( ∑ 

i= 

1 

1 

2 ) 

σ 

in cui ho osservato che 

N ( x − x) 

i 

∑ 

i= 

1 

2 

σ 

i 

N 

∑ 1 

2 

i= 

1 σ 

i 

2 

= Var( 

x) 

i 

2 

N ( x − x) 

i 

∑ 

i= 

1 

2 

σ 

i 

i= 

1 4 

2 

2 

2 

i 

i= 

1 σ 

i 

2 

= 

( Var( 

x)) 

1 

2 

N 

( ∑ 

i= 

1 

i 

i 

2 

σ 

i 

) 

= 

Var( 

x) 

1 

2 ) 

σ 

108

Ottengo dunque per la varianza di m 

Var( 

mˆ ) 

1 

= 

N 

Var( 

x) 

∑ 

i= 

1 

1 

2 

σ 

i 

Si noti che nel caso in cui tutte le varianze degli N valori di y siano uguali, la formula si semplifica 

ed assume una forma più “familiare”: 

Var( 

mˆ ) = 

2 

σ 

NVar( 

x) 

cioè la varianza di m va come 1/N e quindi l’incertezza su m va pure come l’inverso della radice di 

N. 

Passo ora alla varianza della stima di c. 

2 

2 

2 

N ⎛ ∂cˆ 

⎞ 

N ( x − x x) 

i 

Var( cˆ) 

= ∑ ⎜ ⎟ Var( 

y ) = ∑ 

i 

N 

i= 

1 

i= 

4 

2 

⎝ ∂yi 

⎠ 

σ ( Var( 

x)) 

( ∑ 1 

2 2 

2 

2 

N ( x − x + x − x x) 

i 

∑ 

N 

i= 

2 

2 

σ ( Var( 

x)) 

( ∑ 1 

2 ) 

i 

i= 

1 σ 

1 2 

N 1 

∑ N 

σ ( ∑ 1 

i= 

1 2 

2 

2 

i 

i= 

1 σ 

i 

N 1 

∑ N 

i= 

1 2 

σ ( ∑ 1 

2 ) 

i 

i= 

1 σ 

i 

) 

2 

⎛ 

⎜1+ 

⎝ 

i 

( x − x ) 

x 

i 

Var( 

x) 

N 1 

= ∑ N 

i= 

1 2 

σ ( ∑ 1 

2 ) 

i 

i= 

1 σ 

⎞ 

⎟ 

⎠ 

= 

( x − x ) 2 ( x − x ) 

⎛ 

i 

⎜ 

1+ 

2x 

+ x 

⎝ Var( 

x) 

1 2 

2 

i 

i= 

1 σ 

i 

2 

Var( 

x) 

i 

i 

2 

⎛ x 

⎜ 

⎝ 

2 

2 

2 

⎞ 

⎟ 

= 

⎠ 

2 

σ 

i 

) 

= 

2 2 

− x + x − xi 

Var( 

x) 

x ⎞ 

⎟ 

⎠ 

2 

= 

Arrivati a questo punto spezzo in tre termini l’espressione in parentesi e opero la sommatoria, 

osservando che il secondo termine dà un contributo nullo: 

2 

1 

x 

Var( cˆ) 

= 

N + 

N = 

N 

( ∑ 1 ) Var( 

x)( 

∑ 1 

2 ) ( ∑ 

i= 

1 σ 

i= 

1 σ 

i= 

1 

da cui 

Var( cˆ) 

= 

N 

i 

2 

1 ⎛ x 

⎜1 

+ 

1 ) ⎝ Var( 

2 

σ 

2 

x 

x 

Var( 

x)( 

∑ 

2 

i= 

1 

1 

2 ) 

σ 

i 

i 

che costituisce la formula cercata. Si noti nel caso di varianze tutte uguali, l’espressione diventa: 

2 

2 

⎛ x ⎞σ 

Var( cˆ) 

= ⎜ ⎟ 

⎝Var( 

x) 

⎠ N 

in cui, come nel caso della varianza di m, compare il termine σ 2 /N che caratterizza la “scala” 

dell’incertezza sui parametri. 

Facciamo alcune osservazioni sulle formule trovate per Var(m) e Var(c). 

i 

⎞ 

⎟ 

) ⎠ 

109

Abbiamo già visto come in ambedue le formule compare il termine σ 2 /N. Questo implica che 

aumentare il numero di punti e diminuire l’incertezza sui punti, migliora la nostra conoscenza di m 

e di c (sarebbe strano se fosse vero il contrario). 

In entrambi i casi la varianza va come l’inverso di Var(x). Quindi aumentare il “braccio di leva” 

cioé lo sparpagliamento delle misure in x é un altro fattore di miglioramento del fit. 

Nel caso di Var(c) compare anche la media dei quadrati delle x, che é una misura di “dove” si 

trovano i punti, rispetto all’origine dell’asse X (notiamo che x 2 

è il momento secondo intorno 

all’origine), mentre in Var(m) questo termine non compare. Ciò significa che mentre l’incertezza su 

m non dipende dalla scelta dell’origine dell’asse X (è, potremmo dire, invariante per traslazioni), 

l’incertezza su c vi dipende fortemente e diventa minima quando l’origine dell’asse X corrisponde 

al baricentro dei punti. Ciò ha un significato intuitivo illustrato in Fig.3.3. Più lontano é l’asse Y dai 

punti, più grande é l’estrapolazione che devo fare per determinare c. 

Da quanto detto si può dire che in un fit, mentre m ha un significato assoluto, c dipende dalla 

scelta degli assi. 

Fig.3.3 Esempio di fit rettilineo su punti molto “lontani” dall’origine dell’asse x. Si noti come 

l’indeterminazione sul coefficiente angolare m si ripercuota direttamente sull’indeterminazione 

dell’intercetta c. 

Da ultimo osserviamo che m e c sono ricavati a partire dagli stessi dati, e sono pertanto delle 

funzioni delle stesse grandezze misurate. Quindi anche se, come nelle ipotesi fatte, le y sono tutte 

indipendenti, in generale m e c sono correlate. Per calcolare la covarianza tra m e c, occorre 

utilizzare la formula della propagazione per più funzioni che non abbiamo trattato. Dunque diamo 

direttamente la formula. 

110

cov( mˆ , cˆ) 

x 

− 

Var( 

x)( 

∑ 

= 

N 

i= 

1 

1 

2 ) 

σ 

che diventa, nel caso di varianze sulle y tutte uguali: 

2 

x σ 


= − 

Var( 

x) 

N 

i 

in cui di nuovo compare il termine σ 2 /N e si ha la dipendenza inversa dal “braccio di leva”. Si noti 

come tale covarianza sia nulla solo nel caso in cui la media pesata delle x dei punti sia 0. Ovvero 

quando l’origine dell’asse X é scelta in modo da farla coincidere con il baricentro dei punti. Nel 

caso illustrato in Fig.3.3 tale covarianza é evidentemente diversa da 0, infatti un cambiamento di m 

si riflette chiaramente in un cambiamento di c. Ma se in quell’esempio traslassimo l’asse y di circa 

16 unità di X facendo combaciare l’origine con il baricentro, la covarianza sarebbe nulla. 

(3.5.5) Valutazione della bontà del fit: test del χ 2 . 

Finora abbiamo utilizzato il metodo della massima verosimiglianza per rispondere solo alla 

domanda (b), cioè abbiamo calcolato le migliori stime dei parametri della retta, ed abbiamo stimato 

le varianze di tali stime. Ora vogliamo porci il problema (a). Quanto bene l’andamento rettilineo 

“descrive” i dati ? 

In Fig.3.4 sono riportati alcuni esempi di confronto tra i dati e la migliore retta ottenuta con il 

metodo appena descritto. Possiamo individuare 4 casi differenti tutti illustrati nella figura. I dati 

sono rappresentati come punti nel piano y-x corredati da barra di incertezza esclusivamente sulla y 

dato che abbiamo supposto trascurabili le incertezze sulle x. 

Caso (1): i punti mostrano un andamento rettilineo ma le incertezze sono molto piccole per cui i 

punti scartano dalla retta per “molte deviazioni standard”; il numero di deviazioni standard é 

calcolato come il rapporto tra lo scarto tra punto e retta e la deviazione standard della misura; 

Caso (2): i punti mostrano un andamento rettilineo ma le incertezze sono molto grandi, per cui i 

punti scartano dalla retta solo per “frazioni di deviazione standard”; 

Caso (3): i punti mostrano un andamento diverso da quello lineare. Gli scarti dei punti dalla retta 

hanno a loro volta un andamento; 

Caso (4): i punti mostrano un andamento rettilineo con le incertezze tali per cui i punti scartano per 

“frazioni di deviazione standard” o al piu’ per “qualche deviazione standard”;. 

Per rendere quantitativa questa discussione chiamiamo residuo lo scarto punto retta: 

res 

i 

= 

y 

i 

− mx ˆ 

i 

− cˆ 

In Fig.3.5 sono mostrati per gli stessi 4 esempi della precedente figura gli andamenti dei residui in 

funzione di x corredati con la stessa incertezza della y. Si osserva in modo più chiaro quanto detto 

sopra. 

Concludiamo che: nei casi (1) e (2) l’andamento rettilineo é ragionevole, ma sono mal stimate le 

incertezze dei punti. In verità nel caso (1) potrebbero anche esserci effetti tali da dare un andamento 

molto irregolare ma ciò é molto inverosimile. Nel primo caso la media del modulo dei residui é 

molto maggiore e nel secondo molto minore delle singole σ stimate dai dati. Nel caso (3) occorre 

prendere in considerazione un andamento diverso da quello lineare. L’andamento dei residui può 

essere sintomo di “nuova fisica” cioè di effetti nuovi che il modello non spiega, oppure di effetti 

strumentali non capiti. Infine il caso (4) é quello “buono”, cioè l’andamento é rettilineo e le 

incertezze sono ben stimate. 

111

Fig.3.4. Sono i 4 casi di fit rettilineo descritti nel testo. Nei riquadri sono riportati per ogni fit il valore 

del χ 2 , di N-2 e dei 2 parametri della retta, rispettivamente c ed m ottenuti dal fit. 

Per rendere quantitativo il giudizio per ora solo visivo (che peraltro é molto più potente di qualsiasi 

test di ipotesi immaginabile), dobbiamo procedere come per i test di ipotesi che abbiamo visto: 

dobbiamo costruire una statistica campionaria funzione dei dati, tale che se il modello é valido e se 

le incertezze sono correttamente stimate, questa sia caratterizzata da una certa funzione di 

distribuzione nota. Sulla base delle ipotesi fatte (popolazioni gaussiane per le y e y indipendenti), 

la variabile 

N ( yi 

∑ 

i= 

1 

− mx ˆ 

i 

2 

σ 

i 

− cˆ) 

2 

112

Fig.3.5. Andamento dei residui per i 4 casi di fit rappresentati in Fig.3.4. Le barre di incertezza riportate 

sono quelle della variabile in ordinata. 

è una variabile χ 2 . Si tratta della variabile che abbiamo minimizzato. Essa é la somma dei quadrati 

dei residui normalizzati alla varianza, in altri termini la somma dei quadrati del “numero di 

deviazioni standard” di ciascun punto. E’ qualcosa quindi che ci dice proprio quanto i punti 

scartano dalla retta in termini delle loro deviazioni standard. 

Il numero di gradi di libertà di questa variabile non é N ma é N-2. Infatti m e c sono stati stimati 

dai dati e pertanto in questo abbiamo perso 2 gradi di libertà. E’ come se 2 dei dati siano utilizzati 

due volte e dunque non contano nella somma. 

Pertanto il test consiste nel calcolare il valore di questa variabile e poi confrontarlo con le tabelle 

del χ 2 . Ricordiamo che il valore atteso della variabile χ 2 é pari al numero di gradi di libertà, cioè N- 

2 in questo caso. Dunque valori molto diversi da questo indicano già un problema. 

Consideriamo i 4 casi enunciati, per ciascuno dei quali i valori del χ 2 corrispondenti sono indicati 

nei riquadri di Fig.3.4 e in ogni caso é N-2=10-2=8. 

113

Fig.3.6 Fit parabolico a 3 parametri liberi per gli stessi dati del caso (3) rappresentato nelle Fig. 3.4 e 3.5. Il 

riquadro mostra oltre a χ 2 e N-3=7, i valori ottenuti dal fit per i 3 parametri della parabola a, b e c 

(y=a+b*x+c*x**2). Nel grafico di sotto é mostrato l’andamento dei residui per questo nuovo fit. 

Caso (1). Qui ci aspettiamo di trovare un valore molto grande del χ 2 . Infatti i residui valgono molte 

deviazioni standard, e dunque la funzione sopra scritta assumerà valori molto maggiori di N-2, 

essendo ciascun termine della somma >> 1. In effetti il valore ottenuto é quasi 90 (>> 8) 

Caso (2). Qui l’opposto. χ 2

fare il test del χ 2 , e, in caso di disaccordo, tentare strade alternative. Ad esempio un polinomio di 

grado superiore al primo. La Fig.3.6 mostra il caso (3) con un fit parabolico. Si nota che il fit va 

molto meglio, il χ 2 si é ridotto da 100 a 19 (contro N-3=10-3=7 perché ora il fit ha 3 parametri e 

non più 2). Il grafico dei residui mostra un andamento migliore del precedente. Tuttavia ancora 

forse si può vedere una dipendenza residua che potrebbe essere dovuta ad altri effetti ancora non 

presi in considerazione con il fit parabolico. 

Fig.3.7 Esempio di fit in cui un andamento chiaramente non rettilineo viene mascherato da un buon χ 2 in 

virtù del fatto che le incertezze sono sovrastimate. Questo esempio mostra chiaramente che il test del χ 2 non 

va mai fatto senza ispezionare visivamente il grafico. 

Resta da chiarire con che criterio decidiamo che un χ 2 é buono o cattivo. Il procedimento é quello 

dei test di ipotesi. Detto χ 2 m il valore misurato, prendo le tabelle e calcolo 

2 

2 

P( 

χ > χ m 

) 

In questo caso essendo la statistica campionaria definita positiva, occorre considerare una sola 

coda. A questo punto possiamo mettere una soglia al valore di accettazione: per esempio, se questa 

probabilità é maggiore del 5% accetto l’ipotesi, in caso contrario la rigetto. In questo modo rigetto 

senz’altro il caso (1) ed il caso (3) nel caso di fit rettilineo. Invece accetto con altissima probabilità 

(il 98-99% o oltre) il caso (2). Questo però é un problema. Infatti come abbiamo visto il caso (2) 

115

significa che abbiamo sovrastimato le incertezze. Dunque quando la probabilità del χ 2 é molto alta 

é un campanello d’allarme per le incertezze. Quindi prima di concludere qualcosa riguardo 

l’andamento occorrerà tentare di stimare meglio le incertezze. 

Infine nel caso (4) il valore della probabilità del χ 2 é intorno al 50% ed infatti l’andamento é 

giusto. 

Concludiamo questa discussione insistendo sul fatto che in ogni caso il valore del χ 2 da solo non é 

in generale sufficiente per capire effettivamente se l’andamento proposto é corretto o no, ma 

occorre sempre ispezionare il grafico ed in particolare l’andamento dei residui. La fig.3.7 mostra 

un caso in cui pur avendosi un χ 2 buono un andamento rettilineo in realtà non descrive bene i dati. 

E’ un caso in cui una sovrastima delle incertezze “maschera” un andamento diverso da quello 

lineare “inventando” un buon χ 2 . 

(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti 

Un caso particolare si ha quando l’ipotesi che deve essere testata é quella dell’assenza di un 

qualsiasi andamento. Questo corrisponde, secondo quanto abbiamo detto, ad effettuare un fit con 

una funzione del tipo 

y = c 

in cui c é evidentemente l’unico parametro da determinare. Si noti come nel caso in questione la 

variabile indipendente x cessa di avere un qualunque ruolo. Infatti a questo punto il χ 2 sarà dato 

da: 

χ 

− 

= ∑ 

N 

2 

2 

( y i 

c) 

i= 

1 

2 

σ 

i 

derivando rispetto a c e uguagliando a 0 si ottiene: 

2 

∂χ 

∂ 

= −2 

N 

( y − c) 

i 

i 

∑ = −2∑ + 2c 

2 

2 ∑ 

c i= 1 σ 

i 

i= 1 σ 

i i= 

1 

da cui: 

cˆ 

N 

∑ 

i= 

1 

= N 

∑ 

i= 

1 

y i 

2 

σ 

i 

1 

2 

σ 

i 

N 

y 

N 

1 

σ 

2 

i 

che costituisce l’estensione della formula della media pesata al caso di N misure. Quanto visto 

costituisce dunque una dimostrazione della formula della media pesata data nel paragrafo 

precedente. 

Il valore del χ 2 in questo caso ci permette di valutare la consistenza tra N misure della stessa 

grandezza fisica, per esempio effettuata da diversi esperimenti. Dopo aver calcolato la media 

pesata tra le misure, sulla base del valore del χ 2 ottenuto posso testare l’ipotesi di consistenza tra le 

misure. Si tratta evidentemente di un χ 2 con N-1 gradi di libertà (perché in questo caso ho stimato 

solo c) per il quale valgono le considerazioni viste nel paragrafo precedente. 

Infine se l’ipotesi é accettata, posso usare la media pesata come migliore stima della grandezza. La 

varianza di tale stima sarà evidentemente: 

Var( cˆ) 

= N 

∑ 

i= 

1 

1 

1 

2 

σ 

i 

= 0 

come si ottiene applicando la propagazione alla formula per c. 

(3.5.7) Il fit: come farlo operativamente 

Ricapitoliamo dunque brevemente quanto visto, per avere un quadro delle operazioni da fare. 

116

Lo schema é quello visto. I dati sono costituiti da una tabella di N misure di y in corrispondenza di 

N valori di x. Schematizziamo la procedura da seguire. 

(a) Effettuiamo il grafico y-x su carta millimetrata. Tracciando a matita una retta, valutiamo “a 

occhio” se la dipendenza rettilinea é corretta e possiamo dare una prima stima di m. 

(b) Date le incertezze sulle x e sulle y (determinate “al meglio”) ed il valore di m stimato, 

valutiamo se si é nella condizione di “trascurabilità” delle incertezze sulle x secondo quanto detto. 

(c) Calcoliamo m,c utilizzando le formule che qui riassumiamo: 

(d) 

(e) 

xy − x y 

mˆ 

= 

2 

2 

x − x 

2 

x y − xxy 

cˆ 

= 

2 

2 

x − x 

e tracciamo la retta corrispondente. Si deve osservare che la retta “fitta” bene i punti. Occorre 

ricordare sempre che le formule non “inventano” nulla, si limitano a tradurre ciò che noi faremmo 

a occhio. Può essere utile a questo punto fare il grafico dei residui in funzione di x. 

s( 

mˆ ) = 

s( cˆ) 

= 

Calcoliamo le incertezze su m e su c secondo le formule che riassumiamo: 

1 

Var( 

x) 

∑ ⎜ 

⎛ 

⎝ 

2 

x 

Var( 

x) 

∑ ⎜ 

⎛ 

⎝ 

1 

2 

σ 

i 

⎟ 

⎞ 

⎠ 

→ 

→ 

1 

2 

σ ⎟ 

⎞ 

i ⎠ 

1 

Var( 

x) 

2 

x 

Var( 

x) 

σ 

N 

σ 

N 

in cui la freccia si riferisce al caso in cui le incertezze sulle y sono tutte uguali. Se necessario si 

può calcolare la covarianza tra m e c secondo la formula: 

x 


= − 

N 

Var( 

x)( 

∑ 

i= 

1 

2 

x σ 

→ − 

1 Var( 

x) 

N 

2 ) 

σ 

i 

Calcoliamo il χ 2 del fit e, da questo con l’ausilio delle tabelle il valore della probabilità del 

χ 2 . Sulla base del valore trovato, e in considerazione dell’andamento visto, traiamo una 

conclusione riguardo al problema di partenza e cioè se l’andamento rettilineo riproduce bene i dati. 

Sono riportate di seguito le tabelle della distribuzione del χ 2 

(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui 

Da ultimo esaminiamo il caso in cui non dispongo delle incertezze sulle y, cioè il caso in cui ho 

solo una serie di N coppie x-y. Ad un caso del genere ci si riconduce quando la stima delle 

incertezze sulle y si rivela poco credibile, per esempio i casi (1) e (2) sopra discussi, nei quali 

avevamo forti indicazioni di una sottostima (caso(1)) e di una sovrastima (caso (2)). L’andamento 

atteso offre comunque un metodo per stimare le incertezze sulle y. L’idea è di assumere lo scarto 

medio tra i punti e la retta, come misura dell’incertezza sulle mie misure di y. Posso dunque 

stimare la quantità: 

2 

1 

= ∑ N 

resi 

i= 

s 

N − 2 

117

Tabella della cumulativa della distribuzione del χ 2 . Ogni riga corrisponde ad un diverso numero di gradi di 

libertà (ngl) e le diverse colonne corrispondono a diversi valori α dell’integrale da χ 2 0 a infinito. I 

numeri riportati sono i valori di χ 2 0. 

e assumerla come stima della σ da usare nelle formule del fit (caso tutte le incertezze uguali). 

Tuttavia questo metodo può essere usato solo quando sono verificate alcune circostanze: 

é ragionevole assumere che tutte le incertezze siano uguali; 

non si devono osservare andamenti “sovrapposti” a quello rettilineo (quindi lo si può applicare 

al caso (1) ma non al caso (3)); 

non si può poi fare il test del χ 2 , infatti la definizione di s appena data, corrisponde a trovare 

quel valore di σ per cui il fit ha un χ 2 =N-2. 

Si tratta in definitiva di un metodo per trovare i parametri del fit, con incertezze ragionevoli, 

quando sono certo che l’andamento rettilineo sia giusto. In sostanza uso l’andamento come 

riferimento , come insiemi di valori veri. 

118

119


3.1) Un brillante sperimentatore giapponese sostiene di aver scoperto che alla latitudine di Tokyo 

l’accelerazione di gravità g dipende dalla temperatura dell’atmosfera. I suoi dati sono: 

g (m/s 2 ) T ( o C) 

9.8081 0 

9.8116 3 

9.8095 6 

9.8130 9 

9.8183 12 

9.8117 15 

9.8171 18 

9.8241 21 

9.8184 24 

9.8205 27 

9.8263 30 

L’incertezza che lui fornisce per g é di 0.0025 m/s 2 mentre la temperatura é per ogni misura fissata 

con una precisione di 10 -4 o C. 

1) È corretta la conclusione dello sperimentatore giapponese ? 

2) Il metodo dello sperimentatore giapponese consiste nel misurare l’allungamento di una molla di 

costante di elasticità K nota, quando ad essa é stato appeso un peso noto e ripetendo la misura a 

diverse temperature. Quale effetto strumentale potrebbe simulare il fenomeno osservato ? 

3.2) Con un rivelatore di raggi cosmici di superficie sensibile 10 m x 10 m conto 121 eventi in 1 

ora. Il flusso medio di raggi cosmici a quella latitudine atteso su quel rivelatore é φ(R.C.) = (2.01 ± 

0.01) x 10 -4 / m 2 s 

Da informazioni indipendenti so che in quell’ora c’è stata l’esplosione di una supernova. Posso dire 

che l’ho osservata anch’io ? 

3.3) Considero uno strumento che fa misure di lunghezza. Per tararlo uso delle lunghezze campione 

tra 0.5 e 3.0 mm date dal costruttore con una precisione di 1 μm. Ottengo la seguente tabella: 

Valore costruttore Valore misurato 

500 512. 

1000 1022. 

1500 1535. 

2000 2061. 

2500 2579. 

3000 3107. 

Quali sono le caratteristiche dello strumento (precisione, accuratezza, errore sistematico) ? 

Leggo 2284 sullo strumento. Qual è la migliore stima del valore vero ? 

3.4) Nel 2000 i dati sulla variabile R erano: 

Esperimento Valore pubblicato 

KteV 2.80±0.30 

NA48 1.85± 0.45 

NA31 2.30± 0.65 

120

E731 0.74± 0.52 

In cui ciascun esperimento ha fornito l’incertezza assumendo per R una distribuzione gaussiana. 

Posso dire che gli esperimenti sono complessivamente in accordo ? 

3.5) In una ripetizione dell'esperimento di Joule uso un motorino dalla potenza di 10.0 ±0.1 W che 

aziona un mulinello inserito in un recipiente contenente un fluido di capacità termica C=3.41 ± 0.01 

cal/K. Tenendo il motorino in funzione per un tempo Δ t registro la variazione di temperatura 

all'interno del fluido. Ripeto la misura per diversi valori di Δ t e ogni volta riporto la temperatura al 

valore ambiente T=21 o . In tabella sono dati i risultati. 

Δt 

T-21 o 

10 7.1 

20 13.9 

30 21.3 

40 28.3 

50 34.9 

60 41.6 

Il sensore di temperatura fornisce un valore con una incertezza di 0.5 o , l'incertezza sull'intervallo 

dei tempi é trascurabile. 

Determinare l'equivalente meccanico della caloria. Discutere il risultato 

ottenuto. 

3.6) Un ricercatore sostiene che nel suo laboratorio la radioattività ambientale dipende linearmente 

dalla umidità relativa h. A sostegno di tale tesi porta i seguenti dati: 

N(conteggi) h(%) 

118 42 

134 48 

121 51 

181 58 

156 63 

Tutte le misure sono state fatte contando con lo stesso rivelatore in 1 ora di tempo (usando un 

cronometro manuale aventi 1 s come ultimo digit), con l’eccezione della quarta misura che, per 

distrazione, lo sperimentatore ha fatto andare avanti fino a 1h 18min e 24 s. 

Dire se i dati suffragano la tesi del ricercatore (si assuma trascurabile l’incertezza su h). 

3.7) Uno strumento per misure di lunghezza ha una precisione nota, gaussiana di deviazione 

standard σ = 24.2 μm. Lo uso per misurare la posizione assoluta di una trave portante di un 

grattacielo. Il giorno X ho preso un campione di 128 misure e ho trovato un valor medio di L = 

438.2 μm. Dopo una settimana trovo L = 426.8 μm da un campione di sole 8 misure. Ho stabilito a 

priori di far scattare l’allarme solo se le variazioni di tale posizione é significativa oltre il 90% di 

livello di probabilità. Faccio scattare l’allarme ? (assumere le 2 incertezze delle 2 misure non 

correlate). 

3.8) Per la calibrazione assoluta di una sonda di temperatura ad alta precisione, uso una cella a 

punto triplo (0 o C). Faccio 5 letture a tempi diversi ed ottengo i seguenti valori: 0.012, 0.015, 0.019, 

0.013, 0.022. Stabilire (1) se la sonda é scalibrate e (2) quale é la migliore stima della correzione da 

apportare. 

121

3.9) Ho una sorgente luminosa isotropa. Ad una distanza r dalla sorgente l’intensità é I = α / r 2 . 

Sapendo che ad una distanza r = (1.000 ± 0.001) m misuro I = 3.12 ± 0.13 W/m 2 s, stimare α con la 

sua incertezza. 

3.10) Un fit lineare di un grafico che riporta le velocità di allontanamento delle galassie in funzione 

della loro distanza dalla terra, fornisce un χ 2 di 56.2. Il grafico é fatto raggruppando le 1624 galassie 

note in 30 gruppi di galassie ciascun gruppo caratterizzato da distanze circa uguali, e mettendo nel 

grafico le velocità medie di ciascun gruppo. Discutere la bontà del fit. 

3.11) Per misurare l’efficienza di un rivelatore di raggi gamma invio 10000 raggi gamma sul 

rivelatore e vedo quante volte il rivelatore “li vede” . Ottengo 9438 ok. Stimare l’efficienza con la 

sua incertezza. 

Successivamente uso lo stesso rivelatore per misurare il flusso di raggi gamma di uguale energia ma 

provenienti da un’altra sorgente. In 1 h di tempo conto 318 conteggi. Quant’è il flusso in conteggi al 

secondo da quella sorgente ? 

3.12) (preso da D’Agostini) Un politico, a cui piacciono molto i sondaggi di opinione, prima e dopo 

un’apparizione televisiva fa effettuare delle rapide interviste telefoniche per stimare la frazione 

della popolazione che é in accordo con la sua linea politica. Nel primo sondaggio erano state sentite 

215 persone, delle quali 86 si erano dette dalla sua parte; nel secondo ottiene il consenso di 91 

persone su 189. 

La sua apparizione televisiva é servita ad aumentare la sua popolarità ? 

3.13) Per misurare l'indice di rifrazione di un blocco di materiale trasparente, sono stati misurati 

l'angolo di Brewster θ B e l'angolo limite per riflessione totale θ lim rispetto all'aria. 

Sono stati ottenuti i valori: 

θ B =55.6 o 

θ lim =43.1 o 

entrambi con una incertezza di σ(θ)=0.2 o . 

Sulle tavole trovo per l'indice di rifrazione del quarzo il valore n qu =1.458 mentre per quello del 

plexiglass il valore n pl = 1.49. Cosa si può concludere sulla natura del blocco ? 

3.14) Due diversi gruppi effettuano un esperimento con l’obiettivo di misurare la concentrazione di 

una certa sostanza nociva nella crosta terrestre. I due esperimenti (esp1 ed esp2) usano diverse 

tecnologie. Il primo analizza N 1 =950 campioni di roccia e rileva una deviazione standard 

campionaria tra le misure di s 1 =0.128 ppm. Il secondo analizza N 2 =100 campioni di roccia ma la 

deviazione standard campionaria che osserva tra le N 2 misure é s 2 =0.051 ppm. I due esperimenti 

trovano come valori medi i valori: 

x 1 =1.03567 ppm 

x 2 =1.04598 ppm 

Nessuno dei 2 esperimenti fornisce una stima dell’incertezza sistematica. 

Si chiede: 

(1) Quale dei 2 apparati di misura é più preciso ? 

(2) Quali sono gli intervalli standard e di quasi-certezza per i 2 risultati ? 

(3) Il modello X prevede una concentrazione di 1 ppm (perfettamente nota nell’ambito del 

modello). E’ ciascun risultato compatibile con questo modello ? 

(4) I due risultati sono tra loro compatibili ? 

(5) Se volessi raggiungere una incertezza standard relativa sotto l’1 permille quanto devo 

aumentare il numero di campioni analizzati nei 2 esperimenti ? 

3.15) Nel suo lavoro del 1909 sulla carica elettrica elementare, Millikan diede una prima misura 

della carica elettrica elementare mediando i seguenti 4 valori (in unità di 10 -19 C): 1.648 , 1.674 , 

122

1.618 ,1.638. Egli tuttavia si limitò a fornire la media dei 4 valori, e non diede alcuna indicazione 

sulla incertezza. 

(a) A distanza di 94 anni, esprimiamo allora il suo risultato come intervallo di probabilità del 

68.3%. 

(b) L’attuale valore della carica dell’elettrone é : (1.602176462 ± 0.000000063)x 10 -19 C. Possiamo 

dire che il valore originario di Millikan sia in accordo con tale valore attuale ? 

3.16) In un esperimento di diffusione alla Rutherford, dopo 2 ore e 32 minuti di presa dati vengono 

contate 52 particelle α deflesse ad un angolo maggiore di 25 gradi dalla lamina sottile di oro. 

Sapendo che il “rate” di particelle α spedite sul bersaglio é di 12.4 s -1 , stimare la probabilità di 

avere una deflessione a più di 25 gradi per una particella α da nuclei di oro. La teoria dell’atomo di 

Thomson prevede che tale probabilità sia < 10 -4 . Il risultato ottenuto é compatibile con il modello di 

Thomson ? 

3.17) Diversi satelliti in orbita a diverse quote misurano l’accelerazione di gravità con una 

incertezza di 7 parti su 1000. Vengono raccolti i risultati nella tabella: 

g (m s -2 ) 

h (km) 

9.806 0 

7.087 1124 

5.776 1902 

3.960 3597 

3.699 3851 

in cui il valore misurato a 0, si intende misurato sulla superficie terrestre. 

(0) Fare il grafico dell’andamento di g in funzione di h. 

Sapendo che: 

il raggio della terra é pari a R T =6360 km 

l’accelerazione di gravità dipende dalla distanza R dal centro della terra secondo la relazione: 

Gm 

g( 

R) 

= 

R 

T 

2 

La costante di gravitazione universale é pari a G=(6.673 ± 0.010) x 10 -11 m 3 kg -1 s -2 

(1) Linearizzare la relazione g=g(R) graficando g in funzione di 1 / R 2 . 

(2) Dal fit lineare dell’andamento ottenuto, determinare la massa della terra con la sua incertezza. 

(3) Valutare se la legge di gravitazione universale é in accordo con i dati. 

(4) Stimare la densità media della terra con la sua incertezza. 

123

Soluzione degli esercizi proposti. 

Capitolo (1) 

Gli esercizi della prima parte del corso richiedono essenzialmente la capacità di saper trattare i 

risultati delle misure. Si richiede in modo particolare la scrittura corretta dei risultati per quel che 

riguarda le unità di misura, le cifre significative, la notazione esponenziale. Si richiede inoltre di 

saper costruire semplici grafici (di andamenti o istogrammi), di saper calcolare medie e deviazioni 

standard da campioni e di saper fornire intervalli standard o di quasi-certezza per i risultati di 

misure ripetute. In parecchi esercizi si richiede infine di giudicare la bontà di certe ipotesi 

(consistenza tra misure o tra misure e previsioni teoriche). A questo livello del corso queste ultime 

questioni sono affrontate ancora in modo semi-quantitativo. Gli stessi esercizi possono essere rivisti 

a fine corso alla luce dei metodi di test di ipotesi che saranno trattati nel terzo capitolo. 

(1.1) Qui la soluzione dipende da chi fa l’esercizio. In genere si rimane sorpresi dal fatto che la 

propria capacità di interpolazione é migliore di quanto ci si attenda (1/4 o 1/5 di divisione 

sono risultati tipici). 

(1.2) C’è solo da applicare la definizione di deviazione standard campionaria e di riportarla alla 

dimensione della divisione minima (che é pari a 0.025 come si evince dalla figura). 

(1.3) Occorre fare attenzione alle unità di misura, agli esponenziali ed alle cifre significative. 

Mantenendo 2 cifre (tenerne 3 non sarebbe comunque sbagliato) si ha E=1.9x10 -16 CV = 

1.9x10 -16 J 

(1.4) La densità del fluido é pari al rapporto tra la massa del fluido (M-M 0 ) e il suo volume. 

Quest’ultimo é espresso in ml cioè in cm 3 e le masse sono in grammi. Quindi si tratta di fare 

il rapporto. Si noti solo che M-M 0 = 13.2 g (troncato al primo decimale) e dunque densità = 

0.213 g/cm 3 (a 3 cifre o anche a 2). 

(1.5) In questo esercizio l’ipotesi da fare é che ciascun gruppo di campioni sia costituito da reperti 

contemporanei, e che la fluttuazioni dei valori misurati sia l’effetto della precisione (meglio 

della imprecisione) dell’apparato di misura. I valori che si ottengono sono: media reperti A 

= 5346 anni e media reperti B = 5952 anni. Il confronto tra questi 2 numeri da solo 

evidentemente non permette di trarre alcuna conclusione. Le deviazioni standard sono 340 

anni per i reperti A e 180 anni per i reperti B (abbiamo usato la formula con N non con N-1 

ma il risultato finale non é significativamente alterato da ciò) L’anziano archeologo 

dovrebbe prendere le 2 medie e vedere se entro le rispettive incertezze (sulle medie che 

dunque sono le deviazioni standard divise per √N dove N vale 10 per i reperti A e 15 per i 

reperti B) sono in accordo tra di loro. Se facesse cosi’ vedrebbe la cosa seguente: età reperti 

A = (5.35 ±0.11)x10 3 anni e età reperti B = (5.95 ±0.05) x10 3 anni. Senza fare alcun test di 

ipotesi (vedi Capitolo 3) si vede che sono incompatibili. Infatti la differenza tra i 2 risultati é 

di 600 anni mentre le incertezze sono di 110 e 50 anni rispettivamente. L’anziano 

archeologo ha torto. 

(1.6) L’incertezza su T é del 2.5%, la metà di quella su M in virtù del fatto che T “va come la 

radice di M”. 

(1.7) Usando le definizioni date dei termini metrologici si ha: risoluzione 1 g, precisione < 1 g e 

accuratezza caratterizzata da un errore sistematico di 22 g. Si tratta di uno strumento preciso 

ma poco accurato. Sarà bene controllarne periodicamente la calibrazione. 

(1.8) L’intervallo di quasi-certezza é pari a 3x52μm /√100 = 16 μm (dato a 2 cifre). 

(1.9) Calcoliamo in primo luogo l’incertezza di misura. Si ottiene: 0.002x2.99814x10 8 /√9150 = 

6.3x10 3 m/s. Quindi la media delle misure per il campione di γé: (2.98814 ± 0.00006)x10 8 

m/s. Si tratta ora di vedere se tale valore é “significativamente diverso” dal valore noto della 

velocità della luce nel vuoto. La differenza é pari a 22 x10 3 m/s, che é oltre 3 volte 

l’incertezza sulla misura. Dunque la differenza é significativa (anche se al limite). La misura 

é caratterizzata dunque da un errore sistematico di (22 ± 6) x 10 3 m/s. 

124

(1.10) Si tratta di confrontare la frazione di persone affette da X con la sua incertezza (dovuta alla 

limitatezza statistica del campione) con la stessa frazione per un campione di popolazione 

normale anch’esso con la sua incertezza. E’ cruciale in questo genere di cose la scelta dei 

campioni che devono essere “omogenei” perché siano assenti altri motivi di differenza. 

(1.11) ΔV = 3.69x10 3 cm 3 =3.69x10 -3 m 3 ; p = 1.2x10 6 Pa. Il lavoro é dunque L = 4.4 x 10 3 J. 

(1.12) L’intervallo di quasi certezza su ambedue le misure ripetute a distanza di un anno é 3x52μm 

/√1000 = 4.9 μm cioè é 10 volte più piccolo dello spostamento osservato. Dunque lo 

spostamento é decisamente significativo. 

(1.13) Dare al meglio il risultato della misura significa indicare la media come valore centrale e la 

deviazione standard campionaria della media come incertezza (eventualmente moltiplicando 

per 3 per dare un intervallo di quasi-certezza per la media). Per la misura in questione si 

ottiene: (914.1 ± 0.3) mm (lo 0.3 proviene dall’aver fatto 0.32/√100=0.32). In questo caso si 

ha una informazione in più sull’apparato di misura. Per utilizzarla occorre però fare delle 

ipotesi. C’è una scalibrazione di 2.6 mm oppure di un fattore 1.0026 (scalibrazione del 2.6 

permille). Dobbiamo quindi scegliere se applicare la correzione “additiva” (sottraendo 2.6 

mm) o “moltiplicativa” (dividendo per 1.0026). In entrambi i casi stiamo ipotizzando che a 

914 mm la scalibrazione sia la stessa che a 1000 ( a volte alcuni strumenti possono anche 

avere curve di calibrazioni “bizzarre”). Facendo questa ragionevole ipotesi si ha: (911.5± 

0.3) mm nel primo caso e (911.7± 0.3) mm nel secondo caso. I due risultati sono 

praticamente indistringuibili poiché 914é vicino a 1000. Tuttavia la correzione (una delle 

due) é significativa (maggiore dell’incertezza) e quindi va applicata. 

(1.14) Sul mio atlante (del 1992) trovo: abitanti Londra = 6.378x10 6 , abitanti Roma = 2.693x10 6 . 

Passo alle cartine dove stimo le superfici delle 2 città approssimandole a cerchi. Diametro 

cerchio Londra = 60 km, diametro cerchio Roma (GRA) = 20 km. Densità Londra = 2.3x10 3 

abitanti / km 2 , densità Roma = 8.6x10 3 abitanti / km 2 . La differenza é significativa dal 

momento che l’approssimazione del calcolo (dominata dalla stima del diametro) anche fosse 

del 10-20% darebbe una incertezza del 20-40% circa sulla densità che rende comunque 

incompatibili i due risultati. Del resto per chiunque conosca le 2 città il risultato é tutt’altro 

che sorprendente. 

(1.15) Si tratta ancora di un problema di significatività che a questo punto del corso affrontiamo 

ancora con strumenti non rigorosi. Assumiamo che i 3 l dei recipienti siano privi di 

incertezza. In tal caso facendo media e deviazione standard campionaria della media delle 5 

misure, otteniamo una concentrazione di (21.4 ± 0.5)%. Volendo dare un intervallo di quasi 

certezza avremmo (21.4 ± 1.5)% che include, sebbene al bordo dell’intervallo, il valore di 

20% previsto. Dunque il chimico é quanto meno incauto nell’annuncio. Un fisico avrebbe 

ripetuto la misura un numero più consistente di volte (se ciò fosse stato possibile) altrimenti 

avrebbe detto che non c’era ancora una evidenza chiara dell’anomalia. E’ istruttivo vedere 

che la nostra analisi é come detto grossolana in un aspetto che sarà chiarito nella parte 

conclusiva del corso. Infatti un intervallo di questi certezza per un campione di poche 

misure (come le 5 in questo caso) é significativamente più largo di quello che si ottiene con 

il metodo qui utilizzato. 

(1.16) 67/√2000 = 1.5. Quindi il mio risultato é (0.1 ± 1.5)x10 -4 . Anche troppo compatibile con 0. 

(1.17) Qui il problema é inverso. Discriminare tra i 2 modelli significa poter misurare X con una 

incertezza molto minore della differenza tra i 2 valori prevista (10 -5 nel nostro caso). D’altro 

canto l’unico modo per diminuire la nostra incertezza é quello di mediare su un numero N 

sempre maggiore di misure ripetute. Dovrà essere dunque : 67x10 -4 /√N > 670 2 = 4.5x10 5 .Con 

il simbolo >> si intende molto maggiore. Per i nostri scopi può significare un fattore 10 (nel 

qual caso l’incertezza é 10 -6 e quindi non si hanno dubbi sul risultato). 

(1.18) Assumiamo che il cronometro apprezzi 1/10 di secondo (assunzione ragionevole dato il 

modo con cui é dato il valore) e che le indicazioni autostradali sono date con incertezza di 

125

100 m (assunzione meno ragionevole probabilmente sono date al metro). In tal caso v = 4.4 

km /1032.8 s = 15 km/h. Sono andato molto lento. Risultato a 2 cifre perché dominato 

dall’incertezza sullo spazio percorso. 

(1.19) 15.6x10x86400 = 13.5x10 6 km (ammesso che non si sia schiantato sulla luna che si trova a 

distanze tra i 0.3 e i 0.4 x10 6 km (all’incirca). 

(1.20) ρ(iceberg) = 1.00 x 0.9 = 0.9 g/cm 3 . Non più di una cifra. 

(1.21) Attenzione alle unità di misura e alle cifre significative con cui dare i risultati. a = 4.28 m/s 2 

= 0.436 g. 

(1.22) Grande gara. L’ipotesi da fare é che i 2 atleti abbiano viaggiato a velocità costante: vel(Carl 

Lewis) = 100/9.92 = 10.08 m/s. All’istante di tempo in cui Ben Johnson tagliava il traguardo 

(t = 9.79) Lewis si trovava alla posizione 10.08 x 9.79 m = 98.7 m, cioè 1.3 m dietro a Ben 

Johnson. Si noti che quando si hanno numeri a 3 cifre come 9.92 o 9.79 (molto prossimi a 

far scattare la quarta cifra) é come se avessero quattro cifre. Inoltre 100 m ha molte più cifre 

delle tre apparenti, essendo i 100 m della pista misurati con estrema precisione. 

(1.23) Media e deviazione standard campionaria sono: 6.36 s e 0.25 s rispettivamente. Per dare la 

migliore stima dell’intervallo di quasi-certezza su h, si può ragionare nel modo seguente: 

calcolo prima l’intervallo di quasi certezza per t (tempo di caduta) misurato direttamente e 

poi “propago” questo risultato ad h. Si ottiene: t = (6.36 ± 0.17) s. Per passare ad h si deve 

calcolare h e propagare l’incertezza osservando che l’incertezza su g é trascurabile e che 

quella relativa su t (che é l’unica a determinare l’incertezza su h) va moltiplicata per 2 dal 

momento che t compare al quadrato nella formula. h = (198 ± 11) m. 

(1.24) Per poter affermare di avere osservato un tale effetto (che avrebbe un impatto sconvolgente 

sulla fisica), uno dovrebbe far vedere che la carica media delle presunte cariche ½ osservate 

sia significativamente diversa dalla carica dell’elettrone. Poiché la carica dell’elettrone é 

1.602 (in unità di 10 -7 pC), l’incertezza con cui misuro questo campione deve essere molto 

minore della differenza tra la carica dell’elettrone e metà di questa cioè 0.8x10 -7 pC. Deve 

essere allora: 0.7x10 -7 /√N >1. Quindi per 

esempio con N=10 cariche osservate si può trarre una conclusione convincente. Giova qui 

ricordare che naturalmente una osservazione del genere dovrebbe essere accompagnata da 

molte altre misure di controllo per esempio far vedere che la misura della carica é accurata, 

che non ci sono errori sistematici, che non ci sono effetti che possono simulare il fenomeno. 

Quando il risultato é particolarmente importante, la scienza é particolarmente esigente. 

(1.25) Graficando i valori della radioattività in funzione del tempo si osserva facilmente che a 

cavallo dell’ottavo punto vi é un “gradino”. Calcolando la media e la deviazione standard 

dei primi 7 punti e degli ultimi 8 punti si ottengono i valori: r(8) = 

17.24 ±0.02 decisamente incompatibili. Dunque si ha un effetto, si tratta di capire cosa é 

successo in quell’ora. 

(1.26) Si tratta di calcolare media e deviazione standard della media dei 2 istogrammi, fare il 

rapporto tra le medie, valutarne l’incertezza e poi confrontare il rapporto con il valore atteso 

di 1.102. 

(1.27) Si ottiene M = ( 918 ± 6 ) g 

(1.28) La migliore stima della carica della particella misteriosa é ( 1.48 ± 0.02 )x10 -19 C, 

incompatibile con il valore noto della carica dell’elettrone. 

Capitolo (2) 

Sono esercizi di calcolo combinatorio e di calcolo delle probabilità. In generale si tratta di 

ricondurre il problema in esame ad un caso noto. Per fare ciò é sempre importante indicare le ipotesi 

che vengono fatte (se ce ne sono). Nelle soluzioni numeriche le probabilità sono date 

126

indifferentemente come % o come numero tra 0 e 1, e i coefficienti binomiali sono indicati come (N 

n) per non appesantire la notazione. 

(2.1) I 2 casi (con o senza reintroduzione della pallina nell’urna) sono evidentemente diversi. Nel 

caso con reintroduzione si hanno 5 estrazioni indipendenti, ciascuna delle quali ha una 

probabilità pari a 1/5. La probabilità di una data sequenza é dunque (1/5) 5 . Nel caso in cui 

non si reintroduce invece si ha una probabilità pari a 1/5 alla prima estrazione, poi ¼ alla 

seconda (si tratta della probabilità condizionata di estrarre il 2 quando alla prima estrazione 

é stato estratto 1), 1/3 alla terza (di nuovo probabilità condizionata di estrarre 3 quando alle 

prime due estrazioni sono state estratti 1 e 2) e cosi’ via. Complessivamente 1/5!. 

Naturalmente l’argomento vale per qualunque sequenza immaginabile. 

(2.2) Applichiamo il metodo combinatorio di calcolo delle probabilità. Si hanno 36 casi possibili 

tutti equiprobabili (se vogliamo si tratta delle disposizioni di 6 elementi in 2 caselle, 6 2 =36). 

Le possibili differenze hanno un intervallo di definizione tra –5 e 5. Contando per ciascuna 

possibile differenza il numero di casi possibili e dividendo per 36 si ha la seguente 

distribuzione: P(-5)=P(5)=1/36, P(-4)=P(4)=2/36, P(-3)=P(3)=3/36, P(-2)=P(2)=4/36, P(- 

1)=P(1)=5/36, P(0)=6/36=1/6. La probabilità di avere una differenza pari a 0 in 3 estrazioni 

consecutive é (1/6) 3 (i 3 lanci sono indipendenti) cioè il 0.46%. 

(2.3) Si tratta di una tipica applicazione del teorema di Bayes. A priori sappiamo infatti che 

p(D)=0.1. La prendiamo come “probabilità a priori”. Gli altri dati sono: p(+/D)=0.98 e 

p(+/N)=0.16. Abbiamo indicato con + la positività al test e con D e N l’essere o no affetti 

dalla malattia. Applichiamo il teorema di Bayes per calcolare p(D/+) dai dati che abbiamo. 

Naturalmente p(N)=1-p(D)=0.9. Si ottiene P(D/+)=40.5%. Come si vede la bassa incidenza 

della malattia sulla popolazione fa si’ che applicando a tutti il test solo il 40% dei positivi 

sono realmente affetti dalla malattia. 

(2.4) Cominciamo con lo stabilire a partire dalla tabella della gaussiana standardizzata a quanto 

corrispondono il 90-esimo de il 40-esimo percentile. Prendendo la tabella di pag.69 vedo 

che lo 0.90 si trova in corrispondenza di 1.28 mentre il 60% di 0.26 (dunque il 40% 

simmetrico rispetto al 60% corrisponderà a –0.26). Dunque avremo: (22.5-μ)/σ = 1.28 e 

(18.2-μ)/σ = -0.26. Siamo di fronte ad un sistema lineare di 2 equazioni in 2 incognite (μ e 

σ). Risolvendo si ottiene: μ = 18.9 kg e σ = 2.8 kg. 

(2.5) In un giorno mi aspetto 1.8x10 -3 x 86400 = 155 conteggi. Trattandosi di conteggi é 

ragionevole assumere una distribuzione poissoniana con λ = 155 per il numero di conteggi 

in un giorno che, dato il valore elevato di λ, posso approssimare ad una gaussiana con m = 

155 e s = √155 = 12. Il valore osservato é assolutamente incompatibile con la distribuzione 

attesa essendo (N-μ)/σ = 20. Devo preoccuparmi. 

(2.6) Trattiamo separatamente e indipendentemente i figli avuti prima dei 30 e dopo i 30 anni. Per 

i figli avuti prima dei 30, la probabilità di non essere affetto dalla sindrome X é (1-0.0012) 3 

= 0.996, per quelli dopo i 30 anni é (1-0.0028) 7 = 0.980. Moltiplico le 2 probabilità ed ho 

p(0 figli con sindrome X) = 0.977. 

(2.7) Occorre in primo luogo stimare la probabilità che una centrale abbia un incidente nei 

prossimi 100 anni. Se gli incidenti avvengono casualmente (cioè poissonianamente), con 

vita media 20000 anni, p(

(2.10) Problema inverso del precedente in un certo senso. Dobbiamo fare una assunzione sulle 

caratteristiche dell’intervallo. La cosa più naturale é assumere che sia simmetrico. Sarà 

ovviamente m = (150+220)/2 = 185 mg/dl. Quanto a σ, dobbiamo ricorrere alle tabelle 

(pag.69) dove però occorre fare attenzione al fatto che un intervallo simmetrico al 90% 

corrisponde ad un estremo al 95% a destra e al 5% a sinistra. Il valore in corrispondenza a 

95%é 1.65 e quello al 5% sarà –1.65. Pertanto s = (220-185)/1.65 = 21 mg/dl. 

(2.11) Si tratta di calcolare la probabilità che su 1654 voti il numero di SI sia inferiore a 1654/2 = 

827, sapendo che la probabilità di votare SI é del 52.67%. Nel trattare il problema in questo 

modo stiamo assumendo che il nostro paese sia “elettoralmente omogeneo” alla popolazione 

nazionale, che tutti i 1654 aventi diritto votino, che non ci siano schede bianche, e cosi’ via. 

Il problema é binomiale, ampiamente in limite gaussiano. Pertanto μ = Np = 1654 x 0.5267 

= 871.2 e σ = √Np(1-p) = 20.3. p(x < 827) = p( m < -2.17) = 1.5% (guardando la tabella di 

pag.69). 

(2.12) Il fenomeno é caratterizzato da un rate di 38.4/100 = 0.384 s -1 e da una costante di tempo τ = 

1/rate = 2.60 s. Usando la distribuzione dei tempi d’attesa si ha che P(t > t*) = exp(-t*/τ) 

cioè (t* = 10 s, τ = 2.60 s) P(t>10s) = 0.021. In un’ora il dispositivo si blocca un numero di 

volte dato da: rate x 3600 s x P(t > 10s) = 29. 

(2.13) I dati sono: P(P/C) = 90% e P(N/NC) = 90% in cui C e NC vuol dire affetto o non affetto da 

epatite C. Da questi deduciamo che P(N/C)=10% e P(P/NC)=10% per motivi di 

“normalizzazione”. Io sono interessato a sapere P(C/PNP) e P(C/PPP). Qui l’applicazione 

del teorema di Bayes é più complessa. Mi servono infatti in primo luogo P(PNP/C) e 

P(PPP/C), ma anche P(PNP/NC) e P(PPP/NC). Assumendo che i 3 test siano indipendenti, 

avrò: P(PNP/C) = P(P/C) 2 x P(N/C) = 0.081 e P(PPP/C) = P(P/C) 3 = 0.729, P(PNP/NC) = 

P(P/NC)2 x P(N/NC) = 0.009 e infine P(PPP/NC) = P(P/NC) 3 = 0.001. Applichiamo Bayes 

ai 2 casi e otteniamo: P(C/PNP) = 90% e P(C/PPP) = 99.86%. 

(2.14) Problema di calcolo combinatorio. Per ciascun ruolo si tratta di calcolare il numero di 

combinazioni, dal momento che non posso avere ripetizioni (far comparire più volte nella 

squadra lo stesso giocatore), né mi interessa in che ordine i giocatori compaiono (avere 

come attaccanti Totti e Vieri o Vieri e Totti é la stessa cosa). Quindi (3 1) = 3 combinazioni 

di portieri, (6 4) = 15 di difensori, (7 4) = 35 di centrocampisti e, infine (6 2) = 15 di 

attaccanti. Infine moltiplico i 4 numeri = 23625 squadre. 

(2.15) Lasciamo il grafico al lettore. Si ha P(1) = 1/36, P(2) = 3/36, P(3) = 5/36, P(4) = 7/36, P(5) = 

9/36 e P(6) = 11/36. 

(2.16) Problema binomiale. P(2 / N=5, p=0.5) = (5 2) (1/2) 5 = 31/2%. Le 3 sequenze sono 

naturalmente equiprobabili p=(1/2) 5 = 3.1%. 

(2.17) Per definizione di intervallo p(fuori / sano) = 0.05. Se i 3 test sono indipendenti posso 

calcolare P(fuori X) x P(fuori Y1 OR fuori Y2) = P(fuori X) x (P(fuori Y 1 )+P(fuori Y 2 ) – 

P(fuori Y 1 )xP(fuori Y 2 ))= 0.49%. 

(2.18) (90 15) = 4.6 x 10 16 cartelle diverse. 

(2.19) Trattiamo questa situazione assumendo che i parti nel paese avvengano nel tempo in modo 

del tutto casuale, cosi’ da poter schematizzare come poissoniano il fenomeno. Il rate di 

questo fenomeno é 1/7 g -1 (secondo l’esperienza pluriennale) e dunque il λ associata ad un 

giorno é λ = 1/7 = 0.14. Si tratta di calcolare ora P(>1, λ = 0.14) = 1 – P(0) – P(1) = 1 – 

exp(-λ) – λexp(-λ) = 0.0089. Dunque la probabilità é al di sotto dell’1%. L’eventualità si 

verificherà 3-4 volte l’anno. 

(2.20) Problema inverso. Essendo N = 1250 e σ(n) / n = √Nε(1-ε) / Nε = 0.02 (qui εé l’efficienza), 

ricavo ε girando la formula: ε = 1 / (1 + (0.02) 2 x 1250) = 0.67. 

(2.21) (a) NO le stelle si ammassano in galassie, le galassie in ammassi di galassie e cosi’ via. (b) 

NO come tutti i fenomeni periodici o quasi-periodici. (c) forse SI se si ammette che le 

condizioni “demografiche” e “sociali” che determinano le attitudini dei giovini siano 

128

costanti nel tempo. (d) forse SI a meno che non vi siano periodi di maggiore frequenza per 

fatti specifici. 

(2.22) Applichiamo il teorema di Bayes in un caso con probabilità a priori molto “disuniforme” 

(P(infetto) = 0.2% P(non infetto) = 99.8%) e nell’altro con probabilità a priori “uniforme” 

(P(infetto) = P(non infetto) = 50%). Si ottiene: (1) P(infetto / +) = 22% e (2) P(infetto / +) = 

99.3%. 

(2.23) In questo caso devo calcolare P(+++/infetto) = (P(+/infetto)) 3 = 97% assumendo i test 

indipendenti e P(+++/non infetto) = (P(+/non infetto) 3 = 3 x 10 -7 . Le probabilità a priori 

sono evidentemente le stesse e dunque si ottiene: P(infetto/+++) = 99.98%. Come si vede le 

cose cambiano. 

(2.24) Semplice problema di calcolo combinatorio. Si hanno 21 lettere (mancano I O e Q ma ci 

sono X Y e W) e 10 cifre. Quindi 21 2 x 10 3 x 21 2 = 2 x 10 8 targhe (200 milioni). Di queste, 

quelle in cui le ultime 2 lettere sono la copia delle prime 2 sono 21 2 x 10 3 . La probabilità é 1 

/ 21 2 = 0.22%. 

(2.25) Devo disporre 36 oggetti in 6 caselle ed ho la possibilità di ripetere le cifre e di mettere la 

stessa cifre in più caselle. Si ha: 36 6 = 2.2 x 10 9 combinazioni. Al massimo impiego per 

trovarla un tempo pari a 2.2 x 10 9 x 10 -3 s / 3.15 x 10 7 s = 0.070 anni, poco meno di un 

mese. Nel secondo caso invece il numero di combinazioni é 26 3 x 10 3 = 1.7 x 10 7 da cui il 

tempo massimo é meno di 5 ore. 

(2.26) P(>8.2) = 18%; p(3 volte > 8.2) = 0.58%. 

(2.27) Mi riconduco alla gaussiana standardizzata. Per i dati: m 1 = (129 – 138.2 ) / 4.58 = -2.01 e 

m 2 = (149 – 138.2 ) / 4.58 = 2.35 mentre per la simulazione m 1 = -2.32 e m 2 = 2.72. Dalle 

tabelle si ottiene nei 2 casi P(m 1 < m < m 2 ) = 0.9684 per i dati e 0.9865 per la simulazione. 

Si passa da una reiezione del 3.2% nei dati ad una del 1.4% nella simulazione. 

(2.28) Sono 24 prove e la probabilità del successo é 2.34% (se vogliamo chiamare successo il fatto 

di arrivare in ritardo). Uso la binomiale: P(0 successi) = (1-0.0234) 24 = 57%. Ho una 

probabilità del 43% di arrivare almeno una volta in ritardo. 

(2.29) Rate di decessi poissoniano = 1 / 62 g -1 da cui il λ per un mese (assunto medio di 30 giorni) 

é λ = 0.48. P(>0) = 1 – P(0) = 1 – exp(-λ) = 38%. 

(2.30) L’altezza H della distribuzione triangolare deve soddisfare il criterio di normalizzazione: 40 

x H / 2 = 1. Da ciò H = 0.05 anni -1 . La funzione a 60é per ragioni geometriche (basta 

disegnare la distribuzione per rendersene conto) H/2. Calcolo P(>60) = 10 x H/2 /2 = 12.5%. 

La probabilità che i primi 3 siano > 60é (assumendo che ogni docente sia preso a caso dal 

corpo docente) 0.125 3 = 0.2% molto bassa. 

(2.31) Classico problema binomiale. N = 5, p = 1250/2000 = 0.625. P(>2) = P(3) + P(4) + P(5) = 

72.4%. 

(2.32) Tre poissoniane indipendenti nel limite gaussiano. Per ciascuna P( 2) = 0.025. Che su 10 bin 2 e solo 2 di questi dia 

più di 575 costituisce di nuovo un problema binomiale con N = 10 e p = 0.025. P(2) = 2.3%. 

Si noti che l’assunzione iniziale di poissonianità é in realtà una approssimazione. Infatti i 

contenuti di ciascun bin sono distribuiti a rigore secondo una distribuzione multinomiale che 

può essere descritta dal prodotto di poissoniane indipendenti quando il numero di bin é 

abbastanza elevato. 

(2.34) N(N-1) = 90. 

(2.35) Esempio tipico in cui si applica il teorema di Bayes. Con ovvio significato dei simboli: 

P(D/colore) = P(colore/D) P 0 (D) / [ P(colore/D) P 0 (D) + P(colore/R) P 0 (R) ] in cui 

evidentemente P 0 (D) e P 0 (R) sono le probabilità a priori che incontrando una persona questa 

sia democratica (il 23.6%) o repubblicana (il 76.4%), P(colore/D) e P(colore/R) sono i 

129

isultati dei sondaggi (il 16.2% e il 2.5% rispettivamente). Mettendo i numeri si ottiene: 

P(D/colore) = 66.7% 

La probabilità che i miei sette dipendenti di colore siano tutti democratici é: [P(D/colore)] 7 = 

5.9%, dunque la probabilità che ce ne sia almeno uno repubblicano é 1-5.9% = 94.1%. 

(2.36) Trattiamo il fenomeno come poissoniano con μ = 3.24. 

(a) P(0) = exp(-3.24) = 3.9% 

(b) Il numero medio di incidenti in un anno é 3.24 x 52 = 168.5. La distribuzione é 

una poissoniana nel limite gaussiano con μ = 168 e σ = 13. 

(c) Ricorro alle tabelle della gaussiana standardizzata P(

(3.2) In quell’ora misuro un flusso di 3.36 x 10 -4 conteggi / m 2 s, con una incertezza percentuale 

di 1 / √121 ~9%. Dunque φ(misurato) =(3.36 ± 0.30) x 10 -4 cont / m 2 s. Testo l’ipotesi di 

consistenza con il valore atteso φ(R.C.) = (2.01 ± 0.01) x 10 -4 cont / m 2 s costruendo una 

variabile Z. Ottengo Z = 4.5: ho osservato la supernova. 

(3.3) Lo strumento é evidentemente caratterizzato da un errore sistematico che cresce con il 

valore in misura. Per mettere in evidenza questa caratteristica dello strumento é utile 

graficare l’andamento di x(misurato) – x(“vero”) in funzione di x(“vero”). Si osserverà una 

crescita dell’errore sistematico. Se questo grafico mostra un andamento, si può fare un fit di 

questo andamento, ottenendo cosi’ una “curva di calibrazione” che può essere usata per 

correggere i valori letti. Quindi, letto 2284 devo sottrarre un numero che starà tra 61 e 79. 

Nel grafico sono riportati sia x(misurato) - x(vero) che la stessa cosa divisa per x(vero). Il 

secondo grafico ci mostra che l’errore sistematico é in prima approssimazione tra il 2% ed il 

3% per tutti i valori. Quindi una correzione ragionevole potrebbe essere quella di 

moltiplicare ogni misura per 0.975. 

131

(3.4) La media pesata dei quattro valori é 2.19; il χ 2 rispetto all’ipotesi che siano in accordo 

fornisce il valore 12.5 per 3 gradi di libertà. Dalle tabelle si vede che tale valore si trova 

essenzialmente tra 0.005 e 0.01 quindi é arduo accettare l’ipotesi che i valori siano in 

accordo. Anche in questo caso é utile fare un semplice grafico dei 4 valori. Si vede 

chiaramente che il quarto valore é incompatibile con il primo e questo rende il χ 2 

inaccettabile. 

(3.5) L’equivalenza calore-lavoro ci suggerisce che il lavoro fatto (potenza x tempo) sia 

proporzionale al calore dissipato (capacità termica x variazione di temperatura). I valori 

misurati devono pertanto disporsi su di una retta il cui coefficiente angolare costituisce 

l’equivalente meccanico della caloria. Pertanto dal fit lineare di temperatura-tempo si ricava 

il coefficiente angolare che, moltiplicato per la capacità termica e diviso per la potenza 

fornisce l’inverso dell’equivalente meccanico cercato. Per determinare l’incertezza sulla 

quantità trovata occorrerà utilizzare la propagazione delle incertezze relative. 

Risultati numerici. 

Fit lineare: m = 0.69 ± 0.01 K/s; χ 2 = 1.2 / 4 gdl. 

132

Equivalente meccanico: (4.25 ± 0.07) J / cal 

Questo risultato é da confrontare con il valore 4.1855 J / cal che si trova nei libri di testo. Il 

nostro risultato é “fuori di una deviazione standard” dunque é sostanzialmente in accordo. 

(3.6) Qui lo sperimentatore ci dice di fare attenzione nell’usare il quarto punto sperimentale. 

Basterà dividere per 1h 18 min e 24 s cioè per 4704 s anziché per un ora cioè per 3600 s. 

Inoltre a ciascun punto attribuiamo un’incertezza data da √N / tempo assumendo che si tratti 

di conteggi poissoniani. Quindi si tratta di testare l’ipotesi che non vi sia andamento. 

Facendo un fit con una costante si ottiene: χ 2 = 6.8 / 4 gdl corrispondente ad una probabilità 

tra il 10 ed il 20% pertanto accettabile. Tuttavia rimane una certa indicazione di crescita 

(come si vede dal grafico riportato qui di seguito) e quindi vale la pena ripetere 

l’esperimento aumentando il tempo di osservazione per ridurre le incertezze statistiche 

relative. 

(3.7) Costruisco per ciascuna delle 2 misure un intervallo di probabilità del 90%: prima misura: 

L 1 = 438.2 ± 3.5 μm; valore seconda misura: L 2 = 427 ± 16 μm (in questo secondo caso ho 

moltiplicato per 1.90 anziché per 1.65 per tenere conto che non sono ancora nel limite 

gaussiano). L’intervallo al 90% per la differenza é: L 1 - L 2 = 11 ± 16 μm. Dunque la 

variazione non é significativa oltre il 90% dunque l’allarme non dovrebbe scattare. 

(3.8) Tutte le 5 misure effettuate sono positive, quindi ciò fa pensare che effettivamente possiamo 

essere scalibrati. Tuttavia dobbiamo mediare queste misure e ricavarne un intervallo di 

probabilità (per esempio del 95%) per stabilirlo quantitativamente. 

Risultato: T = 0.0162 ± 0.0052 o C (qui ho usato la tabella della t-Student essendo il numero 

di misure molto piccolo). Quindi lo strumento é scalibrato. Il valore trovato é anche la 

migliore stima della correzione. In tal caso é meglio usare una incertezza al 68% cioè: T corr = 

0.0162 ± 0.0016 o C. 

(3.9) α = I r 2 = 3.12 ± 0.13 W / s 

(3.10) Si tratta di vedere la probabilità associata ad un χ 2 di 56.2 per 28 gradi di libertà. Dalle 

tabelle tale probabilità é pari a circa 0.001 cioè l’1 per mille. Il fit non é molto buono. 

(3.11) L’efficienza é: ε = ( 94.4 ± 0.2 ) % (usando la formula per la binomiale). Per ottenere il 

flusso effettivo devo “correggere” per l’efficienza. φ = N / ( ε Δt ) = ( 94 ± 5) x10 -3 s -1 . 

(3.12) La preferenza é passata da 86 / 215 = ( 40 ± 3 ) % a 91 / 189 = ( 48 ± 4 ) %. L’aumento di 

preferenze é pertanto ( 8 ± 5 )%. Quindi prima di rallegrarmi il politico farebbe bene a 

rendere statisticamente più consistente il suo campione. 

(3.13) Ricordiamo le 2 relazioni: n = tanθ B e n = 1 /sen θ lim . Dalle 2 misure ricaviamo 2 diversi 

valori di n indipendenti ( che chiamiamo rispettivamente n B e n lim ). Utilizzando la 

133

propagazione delle incertezze troviamo: n B = 1.460 ± 0.011 e n lim = 1.463 ± 0.005. Si noti 

che nell’utilizzare la propagazione abbiamo riportato il valore dell’incertezza sugli angoli da 

gradi a radianti ( × π / 180 ). I 2 valori sono chiaramente compatibili. La media pesata 

fornisce: n = 1.462 ± 0.004 che é distante una deviazione standard da n qu e 7 deviazioni 

standard da n pl . Si tratta di quarzo dunque. 

(3.14) Rispondiamo con ordine alle singole domande. (1) Il secondo esperimento é più preciso. (2) 

Gli intervalli standard e di quasi-certezza (cioè a 3 deviazioni standard) per i 2 esperimento 

sono: x 1 = 1.036 ± 0.004 (0.012) e x 2 = 1.046 ± 0.005 (0.015). (3) Sono chiaramente 

ambedue i risultati incompatibili con x = 1. (4) Sono compatibili tra di loro. (5) Poiché 

l’incertezza statistica diminuisce “come 1 / √N” dove Né il numero di campioni, per passare 

da una incertezza standard di 0.004 ( da 0.005) ad una di 0.001 dovrò aumentare il numero 

di campioni di un fattore 4 2 = 16 per l’esperimento 1 e 5 2 = 25 per l’esperimento 2. 

(3.15) (a) q = ( 1.644 ± 0.014 ) × 10 -19 C. (b) q Millikan – q oggi = ( 0.042 ± 0.014 ) × 10 -19 C. Il 

risultato di Millikan dista 3 deviazioni standard dal valore che abbiamo oggi. Ai limiti 

dell’accettabilità. 

(3.16) Rate( θ > 25° ) = ( 5.7 ± 0.8 ) × 10 -3 s -1 , da cui P( θ > 25° ) = ( 4.6 ± 0.6 ) × 10 -4 . Il 

risultato é incompatibile con il modello di Thomson. 

(3.17) È un esempio di come a volte graficando non direttamente l’andamento delle grandezze 

misurate, ma l’andamento di funzioni semplici di tali grandezze, si riesca ad avere una 

migliore comprensione del problema. In questo caso, guidati dalla legge di gravitazione 

universale, é conveniente graficare g in funzione di 1/R 2 , grafico che deve dare una retta. 

Tuttavia occorre definire per bene R come distanza dal centro della terra, non dalla 

superficie terrestre, R = h + R T . Dal fit lineare si ottiene il prodotto Gm T e, da questo, dato 

G, la massa della terra m T . Infine m T / R T 3 fornisce la densità media della terra. 

Risultati numerici: dal fit m = ( 404 ± 4 ) × 10 6 m s -2 km 2 = ( 404 ± 4 ) × 10 12 m 3 s -2 con un 

χ 2 pari a 3.01 / 3 gradi di libertà dunque molto buono. Da qui: m T = ( 6.05 ± 0.06 ) × 10 24 

kg e dunque ρ T = m T / ( 4 / 3 π R T 3 ) = 5.56 g / cm 3 . Abbiamo riportato le unità della densità 

a g / cm 3 perché sono più facilmente comprensibili (in queste unità l’acqua ha densità 1, il 

piombo 11 e cosi’ via). 

134

x - Fisica - Sapienza

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?