Lezione 8
Lezione 8
Lezione 8
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Lezione</strong> 8<br />
Misure per<br />
Produzione ed Automazione<br />
Industriale<br />
Seconda Università di Napoli<br />
Ing. Daniele Gallo<br />
Analisi dei risultati di misura<br />
• Inferenza statistica<br />
– Come dedurre dai parametri di un campione<br />
informazioni su sui parametri dell’intera<br />
distribuzione<br />
• Decisioni su basi statistiche<br />
– Come prendere decisioni oggettive su processi<br />
influenzati da eventi aleatori ottimizzando il livello di<br />
confidenza e l’onere computazionale<br />
• Collaudo Campionario<br />
– Come determinare la numerosità del campione e i<br />
criteri di accettazione/rifiuto per il collaudo di<br />
prodotti e processi<br />
1
Analisi dei risultati di misura<br />
• Analisi della media (ANOM)<br />
– Come attenuare gli effetti delle cause di variabilità<br />
aleatoria del processo di misura volto a<br />
determinare sperimentalmente gli effetti di uno o<br />
più parametri su una caratteristica del sistema<br />
• Analisi della varianza (ANOVA)<br />
–Per discriminare gli effetti di più variabili su una<br />
caratteristica, cercare le eventuali correlazioni,<br />
discriminare le cause speciali rispetto alla<br />
variabilità naturale<br />
Considerazioni preliminari<br />
• I processi di misurazione, sono finalizzati a<br />
prendere delle decisioni<br />
• Problema: ogni decisione è sempre affetta<br />
da un grado di imponderabilità!<br />
• La complessità dei processi industriali è<br />
elevata, per cui i modelli deterministici delle<br />
regolazioni causa-effetto sono inadeguati.<br />
• si assumono decisioni su basi statistiche<br />
2
Considerazioni preliminari<br />
• Aumentare il numero di prove eseguite<br />
aumenta la significatività dei risultati<br />
– Si riduce l’impatto del “rumore” sovrapposto<br />
ai dati di misura, ovvero delle variazioni<br />
aleatorie<br />
• Aumentare il numero di prove implica<br />
l’aumento dei costi di esecuzione<br />
– Ottimizzazione del numero di prove<br />
mediante un opportuno “collaudo<br />
campionario”<br />
Inferenza statistica<br />
L’analisi dell’intera<br />
popolazione di prova è<br />
normalmente troppo<br />
onerosa in termini<br />
di costo o di tempi.<br />
μ σ<br />
CAMPIONE<br />
x S<br />
L’unica alternativa è quella di analizzare un limitato<br />
sottinsieme e dall’analisi dei parametri del campione<br />
(es. la media x e la varianza, S2 ) dedurre i parametri<br />
dell’intera popolazione (la media μ e la varianza, σ2 POPOLAZIONE<br />
)<br />
3
Inferenza statistica<br />
È chiaro che quanto più<br />
numeroso risulta il<br />
campione tanto più<br />
precise saranno le<br />
informazioni che si<br />
otterranno rispetto<br />
all’intera popolazione<br />
→ μ<br />
x S → σ<br />
CAMPIONE 1<br />
POPOLAZIONE<br />
Se il campione si estende fino a coprire l’intera<br />
popolazione i parametri calcolati (la media e la<br />
varianza) sarebbero quelli corretti.<br />
Inferenza statistica<br />
CAMPIONE n<br />
CAMPIONE 2<br />
• Secondo il Teorema del Limite Centrale, la media<br />
campionaria, x, è variabile aleatoria distribuita<br />
secondo una gaussiana con media μ e varianza<br />
σ 2 /n con μ e σ 2 media e varianza dell’intera<br />
popolazione<br />
• per il calcolo delle probabilità relative a x a possiamo<br />
far riferimento alla standardizzazione:<br />
z<br />
=<br />
μ<br />
n<br />
• Per n molto grande, z è gaussiana anche usando la<br />
varianza campionaria, altrimenti è una T Student.<br />
x<br />
σ /<br />
−<br />
4
Intervallo di Confidenza<br />
x − μ<br />
La probabilità che z =<br />
σ / n<br />
cada tra –z(α/2) e +z(α/2) è uguale a (1- α) dove<br />
z(α/2) indica il valore della variabile normale<br />
standardizzata il cui integrale vale α/2:<br />
⎡ ⎛ α ⎞ x − μ ⎛ α ⎞⎤<br />
P⎢−<br />
z⎜<br />
⎟〈<br />
〈 z⎜<br />
⎟⎥<br />
= 1−<br />
α<br />
⎢⎣<br />
⎝ 2 ⎠ σ / n ⎝ 2 ⎠⎥⎦<br />
⎡ ⎛ α ⎞ σ ⎛ α ⎞ σ ⎤<br />
P⎢x<br />
− z⎜<br />
⎟ 〈 μ〈<br />
x + z⎜<br />
⎟ ⎥ = 1−<br />
α<br />
⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />
Si ha quindi<br />
Intervallo di Confidenza<br />
⎡ ⎛ α ⎞ σ ⎛ α ⎞ σ ⎤<br />
P⎢x<br />
− z⎜<br />
⎟ 〈 μ〈<br />
x + z⎜<br />
⎟ ⎥ = 1−<br />
α<br />
⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />
α/2<br />
( α 2 )<br />
− z<br />
z<br />
b α<br />
( 2 )<br />
α/2<br />
5
Intervallo di Confidenza<br />
⎡ ⎛ α ⎞ σ<br />
⎢x<br />
− z⎜<br />
⎟<br />
⎣ ⎝ 2 ⎠ n<br />
⎛ α ⎞ σ ⎤<br />
x + z⎜<br />
⎟ ⎥<br />
⎝ 2 ⎠ n ⎦<br />
Questo intervallo è detto intervallo di<br />
confidenza al [100•(1-α)]%<br />
Probabilità dell’intervallo di contenere<br />
la media della popolazione è (1-α).<br />
;<br />
In pratica α rappresenta la percentuale di<br />
risultati esterni all’intervallo di confidenza.<br />
Intervallo di Confidenza<br />
Questa probabilità è chiamata Livello Di Confidenza e<br />
generalmente è scelto tra 0,95 e 0,99.<br />
Livello di Limiti di α z(α/2)<br />
confidenza confidenza<br />
68.27 % x ± σ/ n 0.317 1.000<br />
90.00 % x ± 1.645 σ/ n 0.100 1.645<br />
95.00 % x ± 1.96 σ/ n 0.050 1.960<br />
95.45 % x ± 2 σ/ n 0.045 2.000<br />
99.00 % x ± 2.58 σ/ n 0.010 2.580<br />
99.73 % x ± 3 σ/ n 0.003 3.000<br />
6
Esempio<br />
Per analizzare una produzione di pelati sono stati<br />
estratti e pesati 1000 barattoli e si sono ottenuti<br />
x = 380g<br />
Applicando<br />
2<br />
S =<br />
100g<br />
⎡ ⎛ α ⎞ σ ⎛ α ⎞ σ ⎤<br />
P ⎢x<br />
− z⎜<br />
⎟ 〈 μ 〈 x + z⎜<br />
⎟ ⎥ = 1 − α<br />
⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />
Se ne può dedurre per la media μ di prodotto:<br />
⎛ α ⎞ 10<br />
⎛ α ⎞ 10<br />
P[<br />
380 − z⎜<br />
⎟ 〈 μ〈<br />
380 + z⎜<br />
⎟ ] = 1−<br />
α<br />
⎝ 2 ⎠ 1000 ⎝ 2 ⎠ 1000<br />
Esempio<br />
2 = ⎟<br />
⎛ α ⎞<br />
z⎜<br />
⎝ ⎠<br />
2<br />
1.<br />
96<br />
n > 100 ⇒ S<br />
Scegliendo l’intervallo di confidenza al 95%<br />
(1-α=0.95)<br />
Allora<br />
1.<br />
96 1.<br />
96<br />
P[<br />
380 − 〈 μ〈<br />
380 + ] =<br />
10 10<br />
0.<br />
95<br />
Ovvero la media di produzione con una<br />
probabilità del 95% è compresa nell’intervallo<br />
[<br />
379.<br />
38<br />
;<br />
380.<br />
62]<br />
≈ σ<br />
7
Varianza campionaria<br />
Considerando la distribuzione della varianza campionaria,<br />
è possibile provare teoricamente che la variabile<br />
2 ( n − 1)<br />
s<br />
2<br />
J = → χ<br />
2<br />
n<br />
σ<br />
segue una distribuzione del chi-quadrato con (n-1)<br />
gradi di liberà quando la variabile analizzata segue a<br />
sua volta una distribuzione normale e le osservazioni<br />
sono indipendenti.<br />
Questo fatto ci permette di determinare per esempio gli<br />
intervalli di confidenza di una varianza, oppure di<br />
testare se la varianza della popolazione dalla quale ho<br />
estratto il campione è uguale o diversa ad una certa<br />
varianza data<br />
Varianza campionaria<br />
In altre parole, se per esempio,<br />
• estraessi da una popolazione 1000 campioni di n = 10<br />
individui ciascuno<br />
• misurassi in ciascun individuo una variabile continua che<br />
possiede una distribuzione gaussiana<br />
• calcolassi la varianza campionaria s 2 in ciascuno di questi<br />
campioni<br />
• moltiplicassi ognuna delle 1000 varianze per 9 e dividessi<br />
tale prodotto per la varianza della popolazione che<br />
assumo essere nota e pari a σ 2 , ottenendo così 1000<br />
valori della variabile J<br />
La distribuzione di frequenza di questi 1000 valori finali della<br />
variabile J tenderebbe a seguire (seguirebbe, se invece di<br />
1000 campioni analizzassi infiniti campioni) una distribuzione<br />
del chi-quadrato con (n-1) gradi di libertà<br />
−1<br />
8
Test di Fisher<br />
Serve a confrontare le varianze, s1 2 es 2 2 , di due<br />
popolazioni gradi di libertà n 1 e n 2.<br />
Se le due varianze che consideriamo sono<br />
calcolate su due campioni che provengono dalla<br />
stessa popolazione, queste stanno stimando la<br />
stessa varianza σ 2 (solitamente ignota) e il<br />
rapporto delle due varianze campionarie è dato da<br />
F<br />
=<br />
s<br />
s<br />
2<br />
1<br />
2<br />
2<br />
=<br />
χ<br />
σ<br />
( n − )<br />
Test di Fisher<br />
2<br />
( n2<br />
−1)<br />
χn<br />
1 ( 2 1)<br />
1−<br />
n −<br />
=<br />
2 2 2<br />
σ χ ( n −1)<br />
2<br />
n1<br />
−1<br />
2<br />
1 1 χn2<br />
−1<br />
n2<br />
−1<br />
1<br />
La figura di merito, F, si confronta con la<br />
distribuzione di Fisher con n 1 e n 2 gradi di libertà<br />
con livello di significatività α trovato in tabella<br />
2<br />
s<br />
F =<br />
≤ Fα<br />
s<br />
1<br />
2<br />
2<br />
, n1,<br />
n2<br />
Un valore inferiore al livello critico conferma<br />
l’ipotesi di provenienza dalla stessa popolazione<br />
9
Decisioni su basi statistiche<br />
Prendere decisioni oggettive su processi influenzati da<br />
eventi aleatori tenendo in conto la probabilità di sbagliare.<br />
Test delle ipotesi<br />
– Si impostano le ipotesi a confronto<br />
– Si determina il rischio di sbagliare<br />
– Si definisce il criterio di decisione<br />
– Si gestisce la probabilità di accettare una<br />
decisione sbagliata<br />
– Si calcola la numerosità del campione<br />
– Si eseguono le prove e si decide<br />
Esempi di test delle ipotesi<br />
• Test di Significatività<br />
• Test del χ 2<br />
• Test di Fisher<br />
• …<br />
10
Impostazione delle ipotesi<br />
• Impostare le ipotesi vuol dire definire le<br />
popolazioni da mettere a confronto per<br />
determinare se esiste una differenza<br />
significativa fra di esse<br />
• tipicamente si cercano differenze dei parametri<br />
(media o varianza) di due campioni<br />
– Ipotesi nulla (H0 ): non c’è differenza fra i parametri<br />
dei due campioni (tipicamente è l’ipotesi che si<br />
vuole verificare)<br />
– Ipotesi alternativa (H1 ): qualsiasi ipotesi diversa<br />
da quella nulla (c’è differenza fra i parametri)<br />
Impostazione delle ipotesi<br />
•Esempio:<br />
– Si vuole determinare se esiste una<br />
variazione di un processo produttivo<br />
(es., la quantità di rifiuti prodotti) tra<br />
due mesi diversi:<br />
• Ipotesi nulla: la diversità non esiste<br />
• Ipotesi alternativa: la diversità esiste<br />
11
Ipotesi bilaterali<br />
– H 0 : Le medie e le varianze delle popolazioni<br />
sono le stesse<br />
– H 1 : Le medie e le varianze delle popolazioni<br />
NON sono le stesse<br />
non interessa conoscere se una media/varianza è<br />
più grande dell’altra, ma solo se sono diverse. I<br />
test di questo tipo si chiamano a due code (o<br />
bilaterali, o non direzionali)<br />
Ipotesi unilaterali<br />
–H 0 : Le medie delle popolazioni sono le<br />
stesse<br />
–H 1 : La media della popolazione 1 è<br />
maggiore/minore della media della<br />
popolazione 2<br />
Se interessa dare un peso maggiore ad una<br />
”direzione” del test.<br />
12
Esempio: confronto con valore<br />
storico<br />
–H 0 : La media μ 0 è uguale a R 0<br />
–H 1 : La media μ 0 è maggiore/minore di R 0<br />
Se l’interesse è di determinare la<br />
variazione rispetto ad un valore target<br />
specificato, ad esempio un valore medio<br />
ottenuto da analisi storiche.<br />
Il rischio di sbagliare<br />
A causa della natura aleatoria di ogni processo,<br />
ogni decisione ha una probabilità di essere<br />
sbagliata:<br />
– è possibile rifiutare l’ipotesi H 0 quando essa<br />
è vera, con una probabilità di errore pari a α<br />
– è possibile non rifiutare l’ipotesi H 0, quando<br />
essa è falsa con probabilità di errore pari a β<br />
13
Il rischio di sbagliare<br />
Decisione<br />
statistica<br />
ACCETTO H 0<br />
RIFIUTO<br />
H 0<br />
H 0 VERA<br />
Decisione<br />
corretta al (1-α)%<br />
errore<br />
I TIPO<br />
α<br />
Situazione reale<br />
Il rischio di sbagliare<br />
H 0 FALSA<br />
Errore<br />
II TIPO<br />
β<br />
Decisione<br />
corretta al<br />
(1- β)%<br />
• Il rischio α è fissato a priori e determina il<br />
criterio di confronto rispetto a cui prendere la<br />
decisione. (1-α è il livello di significatività del<br />
test)<br />
• Il rischio β è poi determinato a valle del criterio di<br />
decisione. (1-β èdetta potenza del test)<br />
• I due errori NON si possono commettere<br />
contemporaneamente, perché si riferiscono a<br />
ipotesi mutuamente esclusive<br />
14
Il rischio di sbagliare<br />
• Più è alto 1- α, maggiore è la probabilità<br />
che, se è vera l’ipotesi nulla, la decisione<br />
sia corretta, ovvero è minore la<br />
probabilità che essa venga rigettata<br />
• α deve essere sufficientemente piccolo<br />
in modo che, se rigetto l’ipotesi nulla, ciò<br />
sia dovuto al fatto che nella realtà è<br />
molto probabile l’ipotesi alternativa.<br />
Il rischio di sbagliare<br />
• β, invece, indica la probabilità che la scelta<br />
dell’ipotesi nulla dipenda da un evento<br />
favorevole che però appartiene ad una<br />
situazione diversa da quella descritta<br />
dall’ipotesi nulla.<br />
• Quanto più è piccolo β tanto più il test ci tutela<br />
da tali occorrenze<br />
• Es. le distribuzioni da cui prelevo i due<br />
campioni sono diverse ma i risultati della<br />
misurazione sono tali da far ritenere che<br />
invece esse siano identiche<br />
15
Il criterio di decisione<br />
Definite le ipotesi e il rischio associato si<br />
deve definire il criterio di decisione, ovvero<br />
una procedura che mi permetta di giungere<br />
ad una decisione:<br />
1. Definire una figura di merito<br />
2. Scegliere la statistica corrispondente<br />
3. Confrontare il valore sperimentale della<br />
figura di merito con la statistica teorica<br />
Il criterio di decisione<br />
• In altre parole, la natura statistica della<br />
nostra decisione deriva dal fatto che ciò che<br />
posso osservare è solo un campione<br />
limitato di n elementi prelevati da una<br />
distribuzione, sul quale basare la decisione.<br />
• Esempio: la media campionaria è variabile<br />
aleatoria distribuita secondo una gaussiana<br />
con media μ e varianza σ 2 /n<br />
16
Fissato il rischio α (di sbagliare nel rifiutare H 0 )<br />
α/2<br />
Definizione del Criterio Formale di<br />
Decisione<br />
a b<br />
α/2<br />
Per la distribuzione normale:<br />
⎧F0<br />
( a)<br />
= α / 2<br />
⎨<br />
⎩1<br />
− F0<br />
( b)<br />
= α / 2<br />
per cui a – b “Regione di accettazione”: A ≡ { [ a,<br />
b]<br />
}<br />
{ ] − ∞,<br />
a [ U]<br />
, b,<br />
+∞[<br />
} = B “Regione di rifiuto”<br />
In questo caso il test è bilaterale<br />
Definizione del Criterio Formale di<br />
Decisione<br />
Test è unilaterale:<br />
α corrisponde ad un’unica regione di rifiuto, ad<br />
una delle due estremità dell’intervallo possibile;<br />
α<br />
−<br />
z ( α )<br />
17
Esempio<br />
• Supponiamo che la media storica della<br />
produzione di rifiuti sia μ 0 e la deviazione<br />
standard σ 0 .<br />
• Vogliamo verificare se la modifica di una<br />
parte del processo produttivo riduce la<br />
produzione di rifiuti giornaliera. Posso a<br />
tal fine misurare la produzione per n<br />
giorni e farne la media, μ<br />
– Figura di merito: media della produzione<br />
di n giorni<br />
Esempio<br />
• Utilizzando la variabile standardizzata<br />
z<br />
=<br />
μ −<br />
σ<br />
0<br />
• Fissato il rischio di sbagliare (es α=5%) calcolo<br />
la regione di accettazione<br />
⎡ ⎛ α ⎞ σ 0 ⎛ α ⎞ σ 0 ⎤<br />
⎢μ0<br />
− z⎜<br />
⎟ ; μ0<br />
+ z⎜<br />
⎟ ⎥<br />
⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />
• Se μ appartiene alla regione, la media di<br />
produzione non è cambiata con un livello di<br />
confidenza del (1-α)%<br />
/<br />
μ<br />
0<br />
n<br />
18
Esempio<br />
• La verifica si può effettuare anche confrontando<br />
il valore di soglia percentile e cioè se<br />
μ − μ 0<br />
σ / n<br />
0<br />
≤<br />
z<br />
⎛<br />
⎜<br />
⎝<br />
α<br />
2<br />
la media di produzione non è cambiata con un<br />
livello di confidenza del (1-α)%<br />
Esempio<br />
• Volendo effettuare un test unilaterale<br />
(es. la produzione è aumentata) deve essere<br />
considerato il nuovo valore di soglia e il nuovo criterio<br />
d’accettazione diventa<br />
Ovvero<br />
⎡<br />
μ<br />
∈ ⎢μ0<br />
− z<br />
⎣<br />
μ −<br />
σ /<br />
0<br />
μ<br />
0<br />
n<br />
≥<br />
− z<br />
la media di produzione è aumentata con un livello di<br />
confidenza del (1-α)%<br />
σ<br />
⎞<br />
⎟<br />
⎠<br />
0 ( α ) ; + ∞⎢<br />
n ⎣<br />
( α )<br />
⎡<br />
19
GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />
UNA DECISIONE FALSA<br />
• Se la figura di merito cade nella regione<br />
d’accettazione, non possiamo escludere che<br />
ciò sia dovuto ad un’occorrenza favorevole<br />
proveniente da una situazione sfavorevole:<br />
– Esempio: la produzione di rifiuti è effettivamente<br />
cambiata (distanza δ), ma non me ne accorgo<br />
perché μ è affetta da variabilità aleatoria che la<br />
porta all’interno della regione di accettazione<br />
GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />
UNA DECISIONE FALSA<br />
a b<br />
Se la media si è spostata da μ 0 a μ 1<br />
(a parità di σ) esiste una aliquota di valori<br />
che ha probabilità β di finire<br />
nella regione di accettazione.<br />
20
GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />
UNA DECISIONE FALSA<br />
• La probabilità che ciò succeda è data<br />
dalla probabilità che la distribuzione<br />
con media μ 1 ≠μ 0 esibisca dei valori<br />
nell’intervallo di accettazione [a ; b]<br />
(per l’ipotesi bilaterale)<br />
β = F 1 (a) - F 1 (b)<br />
• β dipende dalla distanza tra μ 1 e μ 0 , e<br />
dalla numerosità del campione<br />
GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />
UNA DECISIONE FALSA<br />
L’errore di secondo tipo non è semplice da determinare.<br />
Infatti, essendo un errore che si compie quando è vera<br />
l’ipotesi alternativa, bisogna specificare un’ipotesi<br />
alternativa per determinarlo.<br />
Può essere conveniente capire quale probabilità<br />
abbiamo di accettare erroneamente l’ipotesi nulla se<br />
fosse vera una specifica ipotesi alternativa, µ’<br />
La scelta del valore di µ’ dovrebbe identificare un valore<br />
particolarmente anomalo, che se fosse veramente la<br />
media della popolazione dalla quale abbiamo estratto il<br />
campione che stiamo analizzando vorremo che venisse<br />
evidenziata<br />
21
GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />
UNA DECISIONE FALSA<br />
β<br />
N.<br />
B.<br />
Per<br />
Per<br />
(1-α)<br />
β(μ 1 ): caratteristica<br />
operativa del test<br />
μ → ∞<br />
1<br />
μ → μ<br />
1<br />
0<br />
β → 0<br />
β → ( 1−α<br />
)<br />
1−β(μ 1 ): funzione<br />
potenza del test<br />
Numerosità del campione<br />
Scegliendo un livello di confidenza 1- α in un<br />
test bilaterale (α 1 = α 2 = α/2) l’intervallo di<br />
accettazione è:<br />
0<br />
0<br />
[ a;<br />
b]<br />
= ⎢μ0<br />
− z⎜<br />
⎟ ; μ0<br />
+ z⎜<br />
⎟ ⎥<br />
⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />
⎣<br />
• Al crescere di n<br />
⎡<br />
⎛ α ⎞ σ<br />
⎛ α ⎞ σ<br />
– i due estremi dell’intervallo di<br />
accettazione si avvicinano a μ0 – l’area sottesa dalla curva relativa alla<br />
media μ1 tra i due estremi è minore<br />
⎤<br />
22
Numerosità del campione<br />
• Per il calcolo di β, consideriamo la variabile μ,<br />
gaussiana con media μ 1 e varianza σ 0 2 , il<br />
calcolo della probabilità che cada in [a; b] si<br />
ottiene con riferimento alla standardizzazione<br />
• Gli estremi saranno<br />
z a<br />
=<br />
σ<br />
a<br />
0<br />
−<br />
/<br />
μ<br />
1<br />
n<br />
z<br />
=<br />
σ<br />
μ −<br />
Numerosità del campione<br />
0<br />
• Sostituendo i valori di a e b, l’area risulta<br />
⎡ μ<br />
⎤ ⎡<br />
⎤<br />
0 − μ 1 ⎛ α ⎞ μ 0 − μ 1 ⎛ α ⎞<br />
β = F<br />
⎢ + z ⎜ ⎟ ⎥ − F ⎢ − z ⎜ ⎟ ⎥<br />
⎢⎣<br />
σ / ⎝ 2 ⎠ ⎥⎦<br />
⎢⎣<br />
/ ⎝ 2<br />
0 n<br />
σ 0 n ⎠ ⎥⎦<br />
Al crescere di n,<br />
cresce la<br />
potenza del test<br />
(1-β)<br />
/<br />
μ<br />
z b<br />
1<br />
n<br />
=<br />
a b<br />
σ<br />
b<br />
0<br />
−<br />
/<br />
μ<br />
1<br />
n<br />
23
Numerosità del campione<br />
• Nella pratica la numerosità del test può<br />
essere scelta proprio in modo da fissare<br />
la probabilità di essere ingannati<br />
– Si fissa la minima variabilità significativa,<br />
δ=μ0-μ1 , e la potenza desiderata, (1-β)<br />
– si calcolala numerosità minima che sia<br />
compatibile con questi valori<br />
Esempio:<br />
Dati iniziali μ 0 = 72 mm σ 0 = 2 mm<br />
Dopo la regolazione si modifica la dimensione<br />
media?<br />
Ipotesi nulla<br />
H 0 : μ = μ 0<br />
Sperimentalmente,<br />
su un campione<br />
N=10 risulta X=75.<br />
Ipotesi alternativa<br />
H a :μ ≠μ 0<br />
⎧ σ 2<br />
⎪<br />
= = 0,<br />
632<br />
N 10<br />
Calcoli: ⎨<br />
⎪ 75 − 72<br />
z0<br />
= = 4,<br />
74<br />
⎪⎩<br />
0,<br />
632<br />
24
Esempio:<br />
Criterio di<br />
accettazione<br />
o rifiuto.<br />
0,025 0,025<br />
-1,96<br />
Probabilità di<br />
errore del I o<br />
tipo (α)<br />
(rifiutare<br />
l’ipotesi vera) è<br />
rappresentata<br />
dall’area<br />
tratteggiata.<br />
Rifiuto accettazione rifiuto<br />
In genere si assume di accettare l’ipotesi al 95%; questo significa:<br />
Respingere H0 quando ΙZ0Ι≥1,96 Accettazione H0 quando ΙZ0Ι < 1,96<br />
che significa che la probabilità di respingere H0 quando è vera è 5%<br />
Esempio:<br />
1,96<br />
Z 0 = 4,74 ≥ 1,96 → H 0 RIFIUTATA<br />
72 75 X<br />
0 4,74 z<br />
La probabilità che NON si sia modifica la media<br />
è esigua!<br />
z<br />
25
Possibili classificazioni :<br />
1)<br />
2)<br />
• Accettazione<br />
• Selezione<br />
•Tipo<br />
PROVE DI COLLAUDO<br />
• Collaudo al 100%<br />
• Collaudo campionario<br />
Saltuario<br />
Percentuale<br />
Statistico<br />
BASI DEL COLLAUDO STATISTICO<br />
Il valor medio μ della caratteristica appartiene ad<br />
una distribuzione normale, con varianza fissa.<br />
Il prodotto è di buona qualità se μ ≤ μ1<br />
Test delle ipotesi:<br />
H<br />
H<br />
0<br />
a<br />
: μ = μ<br />
1<br />
: μ ≠ μ = μ<br />
1<br />
2<br />
26
BASI DEL COLLAUDO STATISTICO<br />
β<br />
μ 1<br />
μ a<br />
α → R.<br />
F.<br />
rischio del fornitore<br />
β → R.<br />
C.<br />
rischio del committente<br />
α<br />
μ 2<br />
ANOM (Analisis of Mean)<br />
Si utilizza per valutare gli effetti di p parametri<br />
c 1 …c i …c p su una caratteristica di qualità η, a<br />
partire dall’analisi di N misurazioni.<br />
Si considerano pertanto anche j livelli per<br />
ognuno dei parametri, c i1 …c iq …c ij<br />
Es. per l’evaporazione di un gas si considerano<br />
temperatura e pressione con differenti livelli<br />
T [°k]<br />
P [bar]<br />
300<br />
10<br />
350<br />
20<br />
400<br />
30<br />
450<br />
40<br />
x<br />
27
ANOM (Analisis of Mean)<br />
1. Si calcola la media μ della caratteristica a partire<br />
da tutti i dati sperimentali:<br />
μ =<br />
1 N<br />
∑ ηk<br />
N k = 1<br />
2. Si calcolano le medie condizionate ad ogni<br />
livello q di ogni parametro c i (si utilizzano solo gli n iq<br />
esperimenti eseguiti con il parametro c i al livello q):<br />
m<br />
iq<br />
=<br />
1<br />
n<br />
niq<br />
∑<br />
iq k = 1<br />
3. Si valutano gli effetti dei parametri dalla<br />
differenza tra media generale e medie locali:<br />
η<br />
ANOM (Analisis of Mean)<br />
αiq = miq<br />
− μ<br />
αiq è una stima della capacità di spostare il valor<br />
medio del parametro c i al livello q<br />
In esperimenti con “target” prefissati si<br />
individua il parametro, ed il livello di parametro<br />
che forniscono il minor scostamento dal target.<br />
k<br />
28
ANOVA (Analisi della Varianza )<br />
E’ una procedura che serve ad analizzare la<br />
variabilità dei risultati di una misura<br />
attribuendone la causa a variazioni<br />
deterministiche di uno o più parametri o aleatorie<br />
La forma più semplici di ANOVA può essere<br />
considerata come l’estensione del test delle<br />
ipotesi: invece di confrontare le medie di due<br />
popolazioni, confrontiamo le medie di un<br />
numero maggiore di popolazioni,<br />
simultaneamente in una singola analisi.<br />
ANOVA (Analisi della Varianza )<br />
Supponiamo di avere 4 popolazioni da confrontare. In<br />
questo caso potrei quindi ingenuamente pensare di<br />
fare 6 confronti con 6 test delle ipotesi, ognuno per<br />
ogni possibile coppia di popolazioni.<br />
il problema in questi 6 confronti è quello dell’errore<br />
complessivo di primo tipo, detto anche<br />
Experimentwise Error).<br />
Se la probabilità di compiere un errore di primo tipo<br />
era stata prefissata al valore α in ciascuno dei test, è<br />
chiaro che più test faccio, più aumenta la probabilità di<br />
compiere errori di primo tipo.<br />
29
ANOVA (Analisi della Varianza )<br />
In generale se ripetiamo n test delle ipotesi la<br />
probabilità di non fare nessun errore di primo tipo è<br />
( ) n<br />
−<br />
P = 1−<br />
1 α<br />
Per esempio, se α = 0.05, come di solito, la probabilità<br />
di fare almeno un errore di primo tipo in 6 test è 0.26.<br />
Se facessi 20 test la probabilità sarebbe pari a 0.65.<br />
Con una probabilità molto alta (65%), quindi, almeno<br />
un test darebbe erroneamente un risultato significativo<br />
anche se fosse vera l’ipotesi nulla.<br />
ANOVA (Analisi della Varianza )<br />
TERMINOLOGIA<br />
l’ANOVA serve per confrontare le medie di diverse<br />
(più di due) popolazioni.<br />
Le medie di una variabile quantitativa, come altezza,<br />
peso, concentrazione, etc. misurata sulle singole<br />
osservazioni.<br />
Il fattore, nell’ANOVA, é invece l’elemento che<br />
distingue le diverse popolazioni, e al quale siamo<br />
interessati. Il fattore viene anche detto via, oppure<br />
criterio di classificazione.<br />
Il fattore può essere presente in più livelli<br />
L’anova può essere fatta con più fattori<br />
30
ANOVA (Analisi della Varianza )<br />
Esempio<br />
Supponiamo aver campionato 20 individui in 4 popolazioni<br />
di una certa specie di coleottero prelevati a differenti livelli di<br />
quota. Peso ciascuno degli 80 individui e mi chiedo<br />
se esente una differenza tra i pesi medi<br />
nelle 4 diverse quote di provenienza.<br />
l’ipotesi nulla è di uguaglianza tra le medie nelle 4<br />
popolazioni da cui provengono i campioni:<br />
H0: m1 = m 2 = m 3 = m 4<br />
L’ipotesi alternativa è invece quella che prevede che<br />
ALMENO una media sia diversa.<br />
H1: m1 = m 2 = m 3 = m 4<br />
ANOVA (Analisi della Varianza )<br />
Esempio<br />
variabile: peso degli individui<br />
fattore: quota dell’habitat<br />
livelli del fattore: diversi livelli di quota<br />
31
ANOVA (Analisi della Varianza )<br />
Può essere<br />
ANOVA univariata unifattoriale (One-way<br />
Anova): considera gli effetti di un parametro<br />
controllato sul prodotto (processo)<br />
ANOVA multifattoriale si cerca di capire come<br />
diversi fattori agiscono sulla variabile<br />
considerata e interagiscono tra di loro<br />
Two-way Anova: vi sono due parametri<br />
controllati<br />
Three-way Anova: ………c.s.<br />
ONE WAY ANOVA<br />
Se tutti i campioni provengono da popolazioni con la stessa<br />
media (ossia, se é vera l’ipotesi nulla), esistono due modi<br />
per stimare la varianza della variabile:<br />
Il primo modo é quello di utilizzare le varianze calcolate<br />
nei singoli campioni e calcolarne la media pesata per i<br />
diversi gradi di libertà.<br />
Questa varianza misura la dispersione delle singole<br />
osservazioni rispetto alla media del gruppo dal quale le<br />
osservazioni provengono (e quindi non dipende<br />
dall’eventuale differenza tra le popolazioni). Tale<br />
stima viene si chiama varianza entro gruppi, o varianza<br />
residua, o varianza dell’errore. Noi la chiameremo MSE<br />
(Mean Square Error). La stima MSE, è corretta nel caso<br />
sia vera l’ipotesi nulla, e anche nel caso sia vera<br />
l’ipotesi alternativa<br />
32
ONE WAY ANOVA<br />
Il secondo modo i basa sulla dispersione delle medie<br />
osservate nei diversi campioni.<br />
Abbiamo infatti visto che le medie campionarie estratte da<br />
una popolazione con varianza σ 2 si distribuiscono con una<br />
varianza pari a σ 2 /n (n e’ il numero di osservazioni nel<br />
singolo campione).<br />
Abbiamo a disposizione un numero k di medie campionarie<br />
dalle quali possiamo calcolare direttamente una stima della<br />
varianza delle medie (casa che non potevo fare con un<br />
campione solo), σ 2 (y-barra). Se appunto é vera l’ipotesi<br />
nulla, questa varianza delle medie stimata dalle medie nei<br />
diversi campioni é una stima di σ 2 /n chiamata varianza<br />
tra gruppi, o MSB<br />
ONE WAY ANOVA<br />
Se é vera l’ipotesi nulla, MSE e MSB stimano la stessa cosa<br />
(σ 2 ), e quindi i rapporto MSB/MSE tende ad essere 1 e ad<br />
essere distribuito come la distribuzione teorica Fisher (che é<br />
appunto il rapporto tra due varianze).<br />
Se invece é vera l’ipotesi alternativa, (almeno una media é<br />
diversa dalle altre), MSE stima ancora σ 2 , ma questo non é<br />
più vero per MSB. Infatti MSE é sempre una varianza entro<br />
gruppi, anche se le medie dei gruppi sono diverse. MSB<br />
invece utilizza la varianza delle medie campionarie calcolata<br />
dai dati che, se non é vera l’ipotesi nulla, tende ad essere<br />
maggiore di σ 2 /n. Quindi, se é vera H1, MSB/MSE tende<br />
ad essere maggiore di 1, e posso testare la significatività<br />
di questo rapporto con il test di Fisher.<br />
33
ONE WAY ANOVA<br />
ONE WAY ANOVA<br />
Esempio coleotteri<br />
Peso<br />
n i<br />
y i =Σ j x ij<br />
µ i<br />
σ i<br />
1<br />
12.3<br />
12.6<br />
13.1<br />
12.5<br />
12.8<br />
5<br />
63.3<br />
12.660<br />
LIVELLI DI QUOTA<br />
11.9<br />
11.8<br />
11.4<br />
3<br />
35.1<br />
11.700<br />
12.2<br />
12.6<br />
12.5<br />
12.4<br />
4<br />
49.7<br />
12.425<br />
MSB= MSE=<br />
2<br />
3<br />
4<br />
12.1<br />
12.5<br />
12.4<br />
11.7<br />
4<br />
48.7<br />
12.175<br />
totale<br />
16<br />
196.8<br />
12.30<br />
34
ONE WAY ANOVA<br />
Vediamo ora un modo assolutamente equivalente<br />
per arrivare a MSE e MSB, ma a partire dalla<br />
scomposizione degli scarti. La variazione totale può<br />
essere decomposta in :<br />
• variazione della media di tutte le osservazioni<br />
rispetto a zero;<br />
• variazione della media delle osservazioni<br />
relative ad ogni livello del parametro rispetto<br />
alla media di tutte le osservazioni.<br />
• variazione delle singole osservazioni rispetto<br />
alla media delle osservazioni di ogni livello del<br />
parametro.<br />
ONE WAY ANOVA<br />
SSTO<br />
SSTO<br />
SSTO<br />
=<br />
=<br />
=<br />
2<br />
∑(<br />
yij<br />
− yˆ<br />
) = ∑(<br />
( yij<br />
− yˆ<br />
i ) − ( yˆ<br />
i − yˆ<br />
) )<br />
j,<br />
j<br />
2<br />
∑(<br />
yij<br />
− yˆ<br />
i ) −∑<br />
ni<br />
( yˆ<br />
i − yˆ<br />
)<br />
j,<br />
j<br />
SS<br />
e<br />
+ SS<br />
M<br />
j,<br />
j<br />
Devianza totale = Devianza entro gruppi + Devianza tra gruppi<br />
La somma del quadrato dei dati è pari alla somma<br />
del quadrato dei valori medi somma del quadrato<br />
degli errori<br />
j<br />
2<br />
2<br />
35
SS<br />
SS<br />
SS<br />
ESEMPIO DI UTILIZZO DI ONE WAY ANOVA<br />
Pompa N.<br />
Velocità di<br />
afflusso<br />
(dl/s)<br />
T<br />
M<br />
e<br />
= 5<br />
2<br />
+ 6<br />
T<br />
N<br />
2<br />
2<br />
1<br />
5<br />
+ 8<br />
2<br />
6<br />
3<br />
8<br />
4<br />
2<br />
Risulta N=8<br />
T=40 dl/s<br />
Ť =5.0 dl/s<br />
ESEMPIO DI UTILIZZO DI NO-WAY ANOVA<br />
⎛<br />
= N⎜<br />
⎝<br />
⎞<br />
⎟<br />
⎠<br />
=<br />
= 222 − 200 = 22 ( dl / s)<br />
2<br />
+ 2<br />
T<br />
N<br />
2<br />
2<br />
+ 5<br />
2<br />
40<br />
=<br />
8<br />
2<br />
+ 4<br />
2<br />
2<br />
5<br />
5<br />
+ 4<br />
La varianza dell'errore<br />
vale:<br />
2<br />
6<br />
4<br />
+ 6<br />
2<br />
= 200 ( dl / s)<br />
( ν è il numero di gradi di libertà<br />
e<br />
SSe<br />
ν<br />
e<br />
=<br />
2<br />
7<br />
4<br />
8<br />
6<br />
= 222 ( dl / s)<br />
22<br />
7<br />
=<br />
3,<br />
14<br />
per l'errore)<br />
2<br />
36
TWO WAY ANOVA<br />
TWO WAY ANOVA<br />
37
Progettazione degli esperimenti<br />
38