29.05.2013 Views

Lezione 8

Lezione 8

Lezione 8

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Lezione</strong> 8<br />

Misure per<br />

Produzione ed Automazione<br />

Industriale<br />

Seconda Università di Napoli<br />

Ing. Daniele Gallo<br />

Analisi dei risultati di misura<br />

• Inferenza statistica<br />

– Come dedurre dai parametri di un campione<br />

informazioni su sui parametri dell’intera<br />

distribuzione<br />

• Decisioni su basi statistiche<br />

– Come prendere decisioni oggettive su processi<br />

influenzati da eventi aleatori ottimizzando il livello di<br />

confidenza e l’onere computazionale<br />

• Collaudo Campionario<br />

– Come determinare la numerosità del campione e i<br />

criteri di accettazione/rifiuto per il collaudo di<br />

prodotti e processi<br />

1


Analisi dei risultati di misura<br />

• Analisi della media (ANOM)<br />

– Come attenuare gli effetti delle cause di variabilità<br />

aleatoria del processo di misura volto a<br />

determinare sperimentalmente gli effetti di uno o<br />

più parametri su una caratteristica del sistema<br />

• Analisi della varianza (ANOVA)<br />

–Per discriminare gli effetti di più variabili su una<br />

caratteristica, cercare le eventuali correlazioni,<br />

discriminare le cause speciali rispetto alla<br />

variabilità naturale<br />

Considerazioni preliminari<br />

• I processi di misurazione, sono finalizzati a<br />

prendere delle decisioni<br />

• Problema: ogni decisione è sempre affetta<br />

da un grado di imponderabilità!<br />

• La complessità dei processi industriali è<br />

elevata, per cui i modelli deterministici delle<br />

regolazioni causa-effetto sono inadeguati.<br />

• si assumono decisioni su basi statistiche<br />

2


Considerazioni preliminari<br />

• Aumentare il numero di prove eseguite<br />

aumenta la significatività dei risultati<br />

– Si riduce l’impatto del “rumore” sovrapposto<br />

ai dati di misura, ovvero delle variazioni<br />

aleatorie<br />

• Aumentare il numero di prove implica<br />

l’aumento dei costi di esecuzione<br />

– Ottimizzazione del numero di prove<br />

mediante un opportuno “collaudo<br />

campionario”<br />

Inferenza statistica<br />

L’analisi dell’intera<br />

popolazione di prova è<br />

normalmente troppo<br />

onerosa in termini<br />

di costo o di tempi.<br />

μ σ<br />

CAMPIONE<br />

x S<br />

L’unica alternativa è quella di analizzare un limitato<br />

sottinsieme e dall’analisi dei parametri del campione<br />

(es. la media x e la varianza, S2 ) dedurre i parametri<br />

dell’intera popolazione (la media μ e la varianza, σ2 POPOLAZIONE<br />

)<br />

3


Inferenza statistica<br />

È chiaro che quanto più<br />

numeroso risulta il<br />

campione tanto più<br />

precise saranno le<br />

informazioni che si<br />

otterranno rispetto<br />

all’intera popolazione<br />

→ μ<br />

x S → σ<br />

CAMPIONE 1<br />

POPOLAZIONE<br />

Se il campione si estende fino a coprire l’intera<br />

popolazione i parametri calcolati (la media e la<br />

varianza) sarebbero quelli corretti.<br />

Inferenza statistica<br />

CAMPIONE n<br />

CAMPIONE 2<br />

• Secondo il Teorema del Limite Centrale, la media<br />

campionaria, x, è variabile aleatoria distribuita<br />

secondo una gaussiana con media μ e varianza<br />

σ 2 /n con μ e σ 2 media e varianza dell’intera<br />

popolazione<br />

• per il calcolo delle probabilità relative a x a possiamo<br />

far riferimento alla standardizzazione:<br />

z<br />

=<br />

μ<br />

n<br />

• Per n molto grande, z è gaussiana anche usando la<br />

varianza campionaria, altrimenti è una T Student.<br />

x<br />

σ /<br />

−<br />

4


Intervallo di Confidenza<br />

x − μ<br />

La probabilità che z =<br />

σ / n<br />

cada tra –z(α/2) e +z(α/2) è uguale a (1- α) dove<br />

z(α/2) indica il valore della variabile normale<br />

standardizzata il cui integrale vale α/2:<br />

⎡ ⎛ α ⎞ x − μ ⎛ α ⎞⎤<br />

P⎢−<br />

z⎜<br />

⎟〈<br />

〈 z⎜<br />

⎟⎥<br />

= 1−<br />

α<br />

⎢⎣<br />

⎝ 2 ⎠ σ / n ⎝ 2 ⎠⎥⎦<br />

⎡ ⎛ α ⎞ σ ⎛ α ⎞ σ ⎤<br />

P⎢x<br />

− z⎜<br />

⎟ 〈 μ〈<br />

x + z⎜<br />

⎟ ⎥ = 1−<br />

α<br />

⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />

Si ha quindi<br />

Intervallo di Confidenza<br />

⎡ ⎛ α ⎞ σ ⎛ α ⎞ σ ⎤<br />

P⎢x<br />

− z⎜<br />

⎟ 〈 μ〈<br />

x + z⎜<br />

⎟ ⎥ = 1−<br />

α<br />

⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />

α/2<br />

( α 2 )<br />

− z<br />

z<br />

b α<br />

( 2 )<br />

α/2<br />

5


Intervallo di Confidenza<br />

⎡ ⎛ α ⎞ σ<br />

⎢x<br />

− z⎜<br />

⎟<br />

⎣ ⎝ 2 ⎠ n<br />

⎛ α ⎞ σ ⎤<br />

x + z⎜<br />

⎟ ⎥<br />

⎝ 2 ⎠ n ⎦<br />

Questo intervallo è detto intervallo di<br />

confidenza al [100•(1-α)]%<br />

Probabilità dell’intervallo di contenere<br />

la media della popolazione è (1-α).<br />

;<br />

In pratica α rappresenta la percentuale di<br />

risultati esterni all’intervallo di confidenza.<br />

Intervallo di Confidenza<br />

Questa probabilità è chiamata Livello Di Confidenza e<br />

generalmente è scelto tra 0,95 e 0,99.<br />

Livello di Limiti di α z(α/2)<br />

confidenza confidenza<br />

68.27 % x ± σ/ n 0.317 1.000<br />

90.00 % x ± 1.645 σ/ n 0.100 1.645<br />

95.00 % x ± 1.96 σ/ n 0.050 1.960<br />

95.45 % x ± 2 σ/ n 0.045 2.000<br />

99.00 % x ± 2.58 σ/ n 0.010 2.580<br />

99.73 % x ± 3 σ/ n 0.003 3.000<br />

6


Esempio<br />

Per analizzare una produzione di pelati sono stati<br />

estratti e pesati 1000 barattoli e si sono ottenuti<br />

x = 380g<br />

Applicando<br />

2<br />

S =<br />

100g<br />

⎡ ⎛ α ⎞ σ ⎛ α ⎞ σ ⎤<br />

P ⎢x<br />

− z⎜<br />

⎟ 〈 μ 〈 x + z⎜<br />

⎟ ⎥ = 1 − α<br />

⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />

Se ne può dedurre per la media μ di prodotto:<br />

⎛ α ⎞ 10<br />

⎛ α ⎞ 10<br />

P[<br />

380 − z⎜<br />

⎟ 〈 μ〈<br />

380 + z⎜<br />

⎟ ] = 1−<br />

α<br />

⎝ 2 ⎠ 1000 ⎝ 2 ⎠ 1000<br />

Esempio<br />

2 = ⎟<br />

⎛ α ⎞<br />

z⎜<br />

⎝ ⎠<br />

2<br />

1.<br />

96<br />

n > 100 ⇒ S<br />

Scegliendo l’intervallo di confidenza al 95%<br />

(1-α=0.95)<br />

Allora<br />

1.<br />

96 1.<br />

96<br />

P[<br />

380 − 〈 μ〈<br />

380 + ] =<br />

10 10<br />

0.<br />

95<br />

Ovvero la media di produzione con una<br />

probabilità del 95% è compresa nell’intervallo<br />

[<br />

379.<br />

38<br />

;<br />

380.<br />

62]<br />

≈ σ<br />

7


Varianza campionaria<br />

Considerando la distribuzione della varianza campionaria,<br />

è possibile provare teoricamente che la variabile<br />

2 ( n − 1)<br />

s<br />

2<br />

J = → χ<br />

2<br />

n<br />

σ<br />

segue una distribuzione del chi-quadrato con (n-1)<br />

gradi di liberà quando la variabile analizzata segue a<br />

sua volta una distribuzione normale e le osservazioni<br />

sono indipendenti.<br />

Questo fatto ci permette di determinare per esempio gli<br />

intervalli di confidenza di una varianza, oppure di<br />

testare se la varianza della popolazione dalla quale ho<br />

estratto il campione è uguale o diversa ad una certa<br />

varianza data<br />

Varianza campionaria<br />

In altre parole, se per esempio,<br />

• estraessi da una popolazione 1000 campioni di n = 10<br />

individui ciascuno<br />

• misurassi in ciascun individuo una variabile continua che<br />

possiede una distribuzione gaussiana<br />

• calcolassi la varianza campionaria s 2 in ciascuno di questi<br />

campioni<br />

• moltiplicassi ognuna delle 1000 varianze per 9 e dividessi<br />

tale prodotto per la varianza della popolazione che<br />

assumo essere nota e pari a σ 2 , ottenendo così 1000<br />

valori della variabile J<br />

La distribuzione di frequenza di questi 1000 valori finali della<br />

variabile J tenderebbe a seguire (seguirebbe, se invece di<br />

1000 campioni analizzassi infiniti campioni) una distribuzione<br />

del chi-quadrato con (n-1) gradi di libertà<br />

−1<br />

8


Test di Fisher<br />

Serve a confrontare le varianze, s1 2 es 2 2 , di due<br />

popolazioni gradi di libertà n 1 e n 2.<br />

Se le due varianze che consideriamo sono<br />

calcolate su due campioni che provengono dalla<br />

stessa popolazione, queste stanno stimando la<br />

stessa varianza σ 2 (solitamente ignota) e il<br />

rapporto delle due varianze campionarie è dato da<br />

F<br />

=<br />

s<br />

s<br />

2<br />

1<br />

2<br />

2<br />

=<br />

χ<br />

σ<br />

( n − )<br />

Test di Fisher<br />

2<br />

( n2<br />

−1)<br />

χn<br />

1 ( 2 1)<br />

1−<br />

n −<br />

=<br />

2 2 2<br />

σ χ ( n −1)<br />

2<br />

n1<br />

−1<br />

2<br />

1 1 χn2<br />

−1<br />

n2<br />

−1<br />

1<br />

La figura di merito, F, si confronta con la<br />

distribuzione di Fisher con n 1 e n 2 gradi di libertà<br />

con livello di significatività α trovato in tabella<br />

2<br />

s<br />

F =<br />

≤ Fα<br />

s<br />

1<br />

2<br />

2<br />

, n1,<br />

n2<br />

Un valore inferiore al livello critico conferma<br />

l’ipotesi di provenienza dalla stessa popolazione<br />

9


Decisioni su basi statistiche<br />

Prendere decisioni oggettive su processi influenzati da<br />

eventi aleatori tenendo in conto la probabilità di sbagliare.<br />

Test delle ipotesi<br />

– Si impostano le ipotesi a confronto<br />

– Si determina il rischio di sbagliare<br />

– Si definisce il criterio di decisione<br />

– Si gestisce la probabilità di accettare una<br />

decisione sbagliata<br />

– Si calcola la numerosità del campione<br />

– Si eseguono le prove e si decide<br />

Esempi di test delle ipotesi<br />

• Test di Significatività<br />

• Test del χ 2<br />

• Test di Fisher<br />

• …<br />

10


Impostazione delle ipotesi<br />

• Impostare le ipotesi vuol dire definire le<br />

popolazioni da mettere a confronto per<br />

determinare se esiste una differenza<br />

significativa fra di esse<br />

• tipicamente si cercano differenze dei parametri<br />

(media o varianza) di due campioni<br />

– Ipotesi nulla (H0 ): non c’è differenza fra i parametri<br />

dei due campioni (tipicamente è l’ipotesi che si<br />

vuole verificare)<br />

– Ipotesi alternativa (H1 ): qualsiasi ipotesi diversa<br />

da quella nulla (c’è differenza fra i parametri)<br />

Impostazione delle ipotesi<br />

•Esempio:<br />

– Si vuole determinare se esiste una<br />

variazione di un processo produttivo<br />

(es., la quantità di rifiuti prodotti) tra<br />

due mesi diversi:<br />

• Ipotesi nulla: la diversità non esiste<br />

• Ipotesi alternativa: la diversità esiste<br />

11


Ipotesi bilaterali<br />

– H 0 : Le medie e le varianze delle popolazioni<br />

sono le stesse<br />

– H 1 : Le medie e le varianze delle popolazioni<br />

NON sono le stesse<br />

non interessa conoscere se una media/varianza è<br />

più grande dell’altra, ma solo se sono diverse. I<br />

test di questo tipo si chiamano a due code (o<br />

bilaterali, o non direzionali)<br />

Ipotesi unilaterali<br />

–H 0 : Le medie delle popolazioni sono le<br />

stesse<br />

–H 1 : La media della popolazione 1 è<br />

maggiore/minore della media della<br />

popolazione 2<br />

Se interessa dare un peso maggiore ad una<br />

”direzione” del test.<br />

12


Esempio: confronto con valore<br />

storico<br />

–H 0 : La media μ 0 è uguale a R 0<br />

–H 1 : La media μ 0 è maggiore/minore di R 0<br />

Se l’interesse è di determinare la<br />

variazione rispetto ad un valore target<br />

specificato, ad esempio un valore medio<br />

ottenuto da analisi storiche.<br />

Il rischio di sbagliare<br />

A causa della natura aleatoria di ogni processo,<br />

ogni decisione ha una probabilità di essere<br />

sbagliata:<br />

– è possibile rifiutare l’ipotesi H 0 quando essa<br />

è vera, con una probabilità di errore pari a α<br />

– è possibile non rifiutare l’ipotesi H 0, quando<br />

essa è falsa con probabilità di errore pari a β<br />

13


Il rischio di sbagliare<br />

Decisione<br />

statistica<br />

ACCETTO H 0<br />

RIFIUTO<br />

H 0<br />

H 0 VERA<br />

Decisione<br />

corretta al (1-α)%<br />

errore<br />

I TIPO<br />

α<br />

Situazione reale<br />

Il rischio di sbagliare<br />

H 0 FALSA<br />

Errore<br />

II TIPO<br />

β<br />

Decisione<br />

corretta al<br />

(1- β)%<br />

• Il rischio α è fissato a priori e determina il<br />

criterio di confronto rispetto a cui prendere la<br />

decisione. (1-α è il livello di significatività del<br />

test)<br />

• Il rischio β è poi determinato a valle del criterio di<br />

decisione. (1-β èdetta potenza del test)<br />

• I due errori NON si possono commettere<br />

contemporaneamente, perché si riferiscono a<br />

ipotesi mutuamente esclusive<br />

14


Il rischio di sbagliare<br />

• Più è alto 1- α, maggiore è la probabilità<br />

che, se è vera l’ipotesi nulla, la decisione<br />

sia corretta, ovvero è minore la<br />

probabilità che essa venga rigettata<br />

• α deve essere sufficientemente piccolo<br />

in modo che, se rigetto l’ipotesi nulla, ciò<br />

sia dovuto al fatto che nella realtà è<br />

molto probabile l’ipotesi alternativa.<br />

Il rischio di sbagliare<br />

• β, invece, indica la probabilità che la scelta<br />

dell’ipotesi nulla dipenda da un evento<br />

favorevole che però appartiene ad una<br />

situazione diversa da quella descritta<br />

dall’ipotesi nulla.<br />

• Quanto più è piccolo β tanto più il test ci tutela<br />

da tali occorrenze<br />

• Es. le distribuzioni da cui prelevo i due<br />

campioni sono diverse ma i risultati della<br />

misurazione sono tali da far ritenere che<br />

invece esse siano identiche<br />

15


Il criterio di decisione<br />

Definite le ipotesi e il rischio associato si<br />

deve definire il criterio di decisione, ovvero<br />

una procedura che mi permetta di giungere<br />

ad una decisione:<br />

1. Definire una figura di merito<br />

2. Scegliere la statistica corrispondente<br />

3. Confrontare il valore sperimentale della<br />

figura di merito con la statistica teorica<br />

Il criterio di decisione<br />

• In altre parole, la natura statistica della<br />

nostra decisione deriva dal fatto che ciò che<br />

posso osservare è solo un campione<br />

limitato di n elementi prelevati da una<br />

distribuzione, sul quale basare la decisione.<br />

• Esempio: la media campionaria è variabile<br />

aleatoria distribuita secondo una gaussiana<br />

con media μ e varianza σ 2 /n<br />

16


Fissato il rischio α (di sbagliare nel rifiutare H 0 )<br />

α/2<br />

Definizione del Criterio Formale di<br />

Decisione<br />

a b<br />

α/2<br />

Per la distribuzione normale:<br />

⎧F0<br />

( a)<br />

= α / 2<br />

⎨<br />

⎩1<br />

− F0<br />

( b)<br />

= α / 2<br />

per cui a – b “Regione di accettazione”: A ≡ { [ a,<br />

b]<br />

}<br />

{ ] − ∞,<br />

a [ U]<br />

, b,<br />

+∞[<br />

} = B “Regione di rifiuto”<br />

In questo caso il test è bilaterale<br />

Definizione del Criterio Formale di<br />

Decisione<br />

Test è unilaterale:<br />

α corrisponde ad un’unica regione di rifiuto, ad<br />

una delle due estremità dell’intervallo possibile;<br />

α<br />

−<br />

z ( α )<br />

17


Esempio<br />

• Supponiamo che la media storica della<br />

produzione di rifiuti sia μ 0 e la deviazione<br />

standard σ 0 .<br />

• Vogliamo verificare se la modifica di una<br />

parte del processo produttivo riduce la<br />

produzione di rifiuti giornaliera. Posso a<br />

tal fine misurare la produzione per n<br />

giorni e farne la media, μ<br />

– Figura di merito: media della produzione<br />

di n giorni<br />

Esempio<br />

• Utilizzando la variabile standardizzata<br />

z<br />

=<br />

μ −<br />

σ<br />

0<br />

• Fissato il rischio di sbagliare (es α=5%) calcolo<br />

la regione di accettazione<br />

⎡ ⎛ α ⎞ σ 0 ⎛ α ⎞ σ 0 ⎤<br />

⎢μ0<br />

− z⎜<br />

⎟ ; μ0<br />

+ z⎜<br />

⎟ ⎥<br />

⎣ ⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />

• Se μ appartiene alla regione, la media di<br />

produzione non è cambiata con un livello di<br />

confidenza del (1-α)%<br />

/<br />

μ<br />

0<br />

n<br />

18


Esempio<br />

• La verifica si può effettuare anche confrontando<br />

il valore di soglia percentile e cioè se<br />

μ − μ 0<br />

σ / n<br />

0<br />

≤<br />

z<br />

⎛<br />

⎜<br />

⎝<br />

α<br />

2<br />

la media di produzione non è cambiata con un<br />

livello di confidenza del (1-α)%<br />

Esempio<br />

• Volendo effettuare un test unilaterale<br />

(es. la produzione è aumentata) deve essere<br />

considerato il nuovo valore di soglia e il nuovo criterio<br />

d’accettazione diventa<br />

Ovvero<br />

⎡<br />

μ<br />

∈ ⎢μ0<br />

− z<br />

⎣<br />

μ −<br />

σ /<br />

0<br />

μ<br />

0<br />

n<br />

≥<br />

− z<br />

la media di produzione è aumentata con un livello di<br />

confidenza del (1-α)%<br />

σ<br />

⎞<br />

⎟<br />

⎠<br />

0 ( α ) ; + ∞⎢<br />

n ⎣<br />

( α )<br />

⎡<br />

19


GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />

UNA DECISIONE FALSA<br />

• Se la figura di merito cade nella regione<br />

d’accettazione, non possiamo escludere che<br />

ciò sia dovuto ad un’occorrenza favorevole<br />

proveniente da una situazione sfavorevole:<br />

– Esempio: la produzione di rifiuti è effettivamente<br />

cambiata (distanza δ), ma non me ne accorgo<br />

perché μ è affetta da variabilità aleatoria che la<br />

porta all’interno della regione di accettazione<br />

GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />

UNA DECISIONE FALSA<br />

a b<br />

Se la media si è spostata da μ 0 a μ 1<br />

(a parità di σ) esiste una aliquota di valori<br />

che ha probabilità β di finire<br />

nella regione di accettazione.<br />

20


GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />

UNA DECISIONE FALSA<br />

• La probabilità che ciò succeda è data<br />

dalla probabilità che la distribuzione<br />

con media μ 1 ≠μ 0 esibisca dei valori<br />

nell’intervallo di accettazione [a ; b]<br />

(per l’ipotesi bilaterale)<br />

β = F 1 (a) - F 1 (b)<br />

• β dipende dalla distanza tra μ 1 e μ 0 , e<br />

dalla numerosità del campione<br />

GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />

UNA DECISIONE FALSA<br />

L’errore di secondo tipo non è semplice da determinare.<br />

Infatti, essendo un errore che si compie quando è vera<br />

l’ipotesi alternativa, bisogna specificare un’ipotesi<br />

alternativa per determinarlo.<br />

Può essere conveniente capire quale probabilità<br />

abbiamo di accettare erroneamente l’ipotesi nulla se<br />

fosse vera una specifica ipotesi alternativa, µ’<br />

La scelta del valore di µ’ dovrebbe identificare un valore<br />

particolarmente anomalo, che se fosse veramente la<br />

media della popolazione dalla quale abbiamo estratto il<br />

campione che stiamo analizzando vorremo che venisse<br />

evidenziata<br />

21


GESTIONE DELLA PROBABILITA’ DI ACCETTARE<br />

UNA DECISIONE FALSA<br />

β<br />

N.<br />

B.<br />

Per<br />

Per<br />

(1-α)<br />

β(μ 1 ): caratteristica<br />

operativa del test<br />

μ → ∞<br />

1<br />

μ → μ<br />

1<br />

0<br />

β → 0<br />

β → ( 1−α<br />

)<br />

1−β(μ 1 ): funzione<br />

potenza del test<br />

Numerosità del campione<br />

Scegliendo un livello di confidenza 1- α in un<br />

test bilaterale (α 1 = α 2 = α/2) l’intervallo di<br />

accettazione è:<br />

0<br />

0<br />

[ a;<br />

b]<br />

= ⎢μ0<br />

− z⎜<br />

⎟ ; μ0<br />

+ z⎜<br />

⎟ ⎥<br />

⎝ 2 ⎠ n ⎝ 2 ⎠ n ⎦<br />

⎣<br />

• Al crescere di n<br />

⎡<br />

⎛ α ⎞ σ<br />

⎛ α ⎞ σ<br />

– i due estremi dell’intervallo di<br />

accettazione si avvicinano a μ0 – l’area sottesa dalla curva relativa alla<br />

media μ1 tra i due estremi è minore<br />

⎤<br />

22


Numerosità del campione<br />

• Per il calcolo di β, consideriamo la variabile μ,<br />

gaussiana con media μ 1 e varianza σ 0 2 , il<br />

calcolo della probabilità che cada in [a; b] si<br />

ottiene con riferimento alla standardizzazione<br />

• Gli estremi saranno<br />

z a<br />

=<br />

σ<br />

a<br />

0<br />

−<br />

/<br />

μ<br />

1<br />

n<br />

z<br />

=<br />

σ<br />

μ −<br />

Numerosità del campione<br />

0<br />

• Sostituendo i valori di a e b, l’area risulta<br />

⎡ μ<br />

⎤ ⎡<br />

⎤<br />

0 − μ 1 ⎛ α ⎞ μ 0 − μ 1 ⎛ α ⎞<br />

β = F<br />

⎢ + z ⎜ ⎟ ⎥ − F ⎢ − z ⎜ ⎟ ⎥<br />

⎢⎣<br />

σ / ⎝ 2 ⎠ ⎥⎦<br />

⎢⎣<br />

/ ⎝ 2<br />

0 n<br />

σ 0 n ⎠ ⎥⎦<br />

Al crescere di n,<br />

cresce la<br />

potenza del test<br />

(1-β)<br />

/<br />

μ<br />

z b<br />

1<br />

n<br />

=<br />

a b<br />

σ<br />

b<br />

0<br />

−<br />

/<br />

μ<br />

1<br />

n<br />

23


Numerosità del campione<br />

• Nella pratica la numerosità del test può<br />

essere scelta proprio in modo da fissare<br />

la probabilità di essere ingannati<br />

– Si fissa la minima variabilità significativa,<br />

δ=μ0-μ1 , e la potenza desiderata, (1-β)<br />

– si calcolala numerosità minima che sia<br />

compatibile con questi valori<br />

Esempio:<br />

Dati iniziali μ 0 = 72 mm σ 0 = 2 mm<br />

Dopo la regolazione si modifica la dimensione<br />

media?<br />

Ipotesi nulla<br />

H 0 : μ = μ 0<br />

Sperimentalmente,<br />

su un campione<br />

N=10 risulta X=75.<br />

Ipotesi alternativa<br />

H a :μ ≠μ 0<br />

⎧ σ 2<br />

⎪<br />

= = 0,<br />

632<br />

N 10<br />

Calcoli: ⎨<br />

⎪ 75 − 72<br />

z0<br />

= = 4,<br />

74<br />

⎪⎩<br />

0,<br />

632<br />

24


Esempio:<br />

Criterio di<br />

accettazione<br />

o rifiuto.<br />

0,025 0,025<br />

-1,96<br />

Probabilità di<br />

errore del I o<br />

tipo (α)<br />

(rifiutare<br />

l’ipotesi vera) è<br />

rappresentata<br />

dall’area<br />

tratteggiata.<br />

Rifiuto accettazione rifiuto<br />

In genere si assume di accettare l’ipotesi al 95%; questo significa:<br />

Respingere H0 quando ΙZ0Ι≥1,96 Accettazione H0 quando ΙZ0Ι < 1,96<br />

che significa che la probabilità di respingere H0 quando è vera è 5%<br />

Esempio:<br />

1,96<br />

Z 0 = 4,74 ≥ 1,96 → H 0 RIFIUTATA<br />

72 75 X<br />

0 4,74 z<br />

La probabilità che NON si sia modifica la media<br />

è esigua!<br />

z<br />

25


Possibili classificazioni :<br />

1)<br />

2)<br />

• Accettazione<br />

• Selezione<br />

•Tipo<br />

PROVE DI COLLAUDO<br />

• Collaudo al 100%<br />

• Collaudo campionario<br />

Saltuario<br />

Percentuale<br />

Statistico<br />

BASI DEL COLLAUDO STATISTICO<br />

Il valor medio μ della caratteristica appartiene ad<br />

una distribuzione normale, con varianza fissa.<br />

Il prodotto è di buona qualità se μ ≤ μ1<br />

Test delle ipotesi:<br />

H<br />

H<br />

0<br />

a<br />

: μ = μ<br />

1<br />

: μ ≠ μ = μ<br />

1<br />

2<br />

26


BASI DEL COLLAUDO STATISTICO<br />

β<br />

μ 1<br />

μ a<br />

α → R.<br />

F.<br />

rischio del fornitore<br />

β → R.<br />

C.<br />

rischio del committente<br />

α<br />

μ 2<br />

ANOM (Analisis of Mean)<br />

Si utilizza per valutare gli effetti di p parametri<br />

c 1 …c i …c p su una caratteristica di qualità η, a<br />

partire dall’analisi di N misurazioni.<br />

Si considerano pertanto anche j livelli per<br />

ognuno dei parametri, c i1 …c iq …c ij<br />

Es. per l’evaporazione di un gas si considerano<br />

temperatura e pressione con differenti livelli<br />

T [°k]<br />

P [bar]<br />

300<br />

10<br />

350<br />

20<br />

400<br />

30<br />

450<br />

40<br />

x<br />

27


ANOM (Analisis of Mean)<br />

1. Si calcola la media μ della caratteristica a partire<br />

da tutti i dati sperimentali:<br />

μ =<br />

1 N<br />

∑ ηk<br />

N k = 1<br />

2. Si calcolano le medie condizionate ad ogni<br />

livello q di ogni parametro c i (si utilizzano solo gli n iq<br />

esperimenti eseguiti con il parametro c i al livello q):<br />

m<br />

iq<br />

=<br />

1<br />

n<br />

niq<br />

∑<br />

iq k = 1<br />

3. Si valutano gli effetti dei parametri dalla<br />

differenza tra media generale e medie locali:<br />

η<br />

ANOM (Analisis of Mean)<br />

αiq = miq<br />

− μ<br />

αiq è una stima della capacità di spostare il valor<br />

medio del parametro c i al livello q<br />

In esperimenti con “target” prefissati si<br />

individua il parametro, ed il livello di parametro<br />

che forniscono il minor scostamento dal target.<br />

k<br />

28


ANOVA (Analisi della Varianza )<br />

E’ una procedura che serve ad analizzare la<br />

variabilità dei risultati di una misura<br />

attribuendone la causa a variazioni<br />

deterministiche di uno o più parametri o aleatorie<br />

La forma più semplici di ANOVA può essere<br />

considerata come l’estensione del test delle<br />

ipotesi: invece di confrontare le medie di due<br />

popolazioni, confrontiamo le medie di un<br />

numero maggiore di popolazioni,<br />

simultaneamente in una singola analisi.<br />

ANOVA (Analisi della Varianza )<br />

Supponiamo di avere 4 popolazioni da confrontare. In<br />

questo caso potrei quindi ingenuamente pensare di<br />

fare 6 confronti con 6 test delle ipotesi, ognuno per<br />

ogni possibile coppia di popolazioni.<br />

il problema in questi 6 confronti è quello dell’errore<br />

complessivo di primo tipo, detto anche<br />

Experimentwise Error).<br />

Se la probabilità di compiere un errore di primo tipo<br />

era stata prefissata al valore α in ciascuno dei test, è<br />

chiaro che più test faccio, più aumenta la probabilità di<br />

compiere errori di primo tipo.<br />

29


ANOVA (Analisi della Varianza )<br />

In generale se ripetiamo n test delle ipotesi la<br />

probabilità di non fare nessun errore di primo tipo è<br />

( ) n<br />

−<br />

P = 1−<br />

1 α<br />

Per esempio, se α = 0.05, come di solito, la probabilità<br />

di fare almeno un errore di primo tipo in 6 test è 0.26.<br />

Se facessi 20 test la probabilità sarebbe pari a 0.65.<br />

Con una probabilità molto alta (65%), quindi, almeno<br />

un test darebbe erroneamente un risultato significativo<br />

anche se fosse vera l’ipotesi nulla.<br />

ANOVA (Analisi della Varianza )<br />

TERMINOLOGIA<br />

l’ANOVA serve per confrontare le medie di diverse<br />

(più di due) popolazioni.<br />

Le medie di una variabile quantitativa, come altezza,<br />

peso, concentrazione, etc. misurata sulle singole<br />

osservazioni.<br />

Il fattore, nell’ANOVA, é invece l’elemento che<br />

distingue le diverse popolazioni, e al quale siamo<br />

interessati. Il fattore viene anche detto via, oppure<br />

criterio di classificazione.<br />

Il fattore può essere presente in più livelli<br />

L’anova può essere fatta con più fattori<br />

30


ANOVA (Analisi della Varianza )<br />

Esempio<br />

Supponiamo aver campionato 20 individui in 4 popolazioni<br />

di una certa specie di coleottero prelevati a differenti livelli di<br />

quota. Peso ciascuno degli 80 individui e mi chiedo<br />

se esente una differenza tra i pesi medi<br />

nelle 4 diverse quote di provenienza.<br />

l’ipotesi nulla è di uguaglianza tra le medie nelle 4<br />

popolazioni da cui provengono i campioni:<br />

H0: m1 = m 2 = m 3 = m 4<br />

L’ipotesi alternativa è invece quella che prevede che<br />

ALMENO una media sia diversa.<br />

H1: m1 = m 2 = m 3 = m 4<br />

ANOVA (Analisi della Varianza )<br />

Esempio<br />

variabile: peso degli individui<br />

fattore: quota dell’habitat<br />

livelli del fattore: diversi livelli di quota<br />

31


ANOVA (Analisi della Varianza )<br />

Può essere<br />

ANOVA univariata unifattoriale (One-way<br />

Anova): considera gli effetti di un parametro<br />

controllato sul prodotto (processo)<br />

ANOVA multifattoriale si cerca di capire come<br />

diversi fattori agiscono sulla variabile<br />

considerata e interagiscono tra di loro<br />

Two-way Anova: vi sono due parametri<br />

controllati<br />

Three-way Anova: ………c.s.<br />

ONE WAY ANOVA<br />

Se tutti i campioni provengono da popolazioni con la stessa<br />

media (ossia, se é vera l’ipotesi nulla), esistono due modi<br />

per stimare la varianza della variabile:<br />

Il primo modo é quello di utilizzare le varianze calcolate<br />

nei singoli campioni e calcolarne la media pesata per i<br />

diversi gradi di libertà.<br />

Questa varianza misura la dispersione delle singole<br />

osservazioni rispetto alla media del gruppo dal quale le<br />

osservazioni provengono (e quindi non dipende<br />

dall’eventuale differenza tra le popolazioni). Tale<br />

stima viene si chiama varianza entro gruppi, o varianza<br />

residua, o varianza dell’errore. Noi la chiameremo MSE<br />

(Mean Square Error). La stima MSE, è corretta nel caso<br />

sia vera l’ipotesi nulla, e anche nel caso sia vera<br />

l’ipotesi alternativa<br />

32


ONE WAY ANOVA<br />

Il secondo modo i basa sulla dispersione delle medie<br />

osservate nei diversi campioni.<br />

Abbiamo infatti visto che le medie campionarie estratte da<br />

una popolazione con varianza σ 2 si distribuiscono con una<br />

varianza pari a σ 2 /n (n e’ il numero di osservazioni nel<br />

singolo campione).<br />

Abbiamo a disposizione un numero k di medie campionarie<br />

dalle quali possiamo calcolare direttamente una stima della<br />

varianza delle medie (casa che non potevo fare con un<br />

campione solo), σ 2 (y-barra). Se appunto é vera l’ipotesi<br />

nulla, questa varianza delle medie stimata dalle medie nei<br />

diversi campioni é una stima di σ 2 /n chiamata varianza<br />

tra gruppi, o MSB<br />

ONE WAY ANOVA<br />

Se é vera l’ipotesi nulla, MSE e MSB stimano la stessa cosa<br />

(σ 2 ), e quindi i rapporto MSB/MSE tende ad essere 1 e ad<br />

essere distribuito come la distribuzione teorica Fisher (che é<br />

appunto il rapporto tra due varianze).<br />

Se invece é vera l’ipotesi alternativa, (almeno una media é<br />

diversa dalle altre), MSE stima ancora σ 2 , ma questo non é<br />

più vero per MSB. Infatti MSE é sempre una varianza entro<br />

gruppi, anche se le medie dei gruppi sono diverse. MSB<br />

invece utilizza la varianza delle medie campionarie calcolata<br />

dai dati che, se non é vera l’ipotesi nulla, tende ad essere<br />

maggiore di σ 2 /n. Quindi, se é vera H1, MSB/MSE tende<br />

ad essere maggiore di 1, e posso testare la significatività<br />

di questo rapporto con il test di Fisher.<br />

33


ONE WAY ANOVA<br />

ONE WAY ANOVA<br />

Esempio coleotteri<br />

Peso<br />

n i<br />

y i =Σ j x ij<br />

µ i<br />

σ i<br />

1<br />

12.3<br />

12.6<br />

13.1<br />

12.5<br />

12.8<br />

5<br />

63.3<br />

12.660<br />

LIVELLI DI QUOTA<br />

11.9<br />

11.8<br />

11.4<br />

3<br />

35.1<br />

11.700<br />

12.2<br />

12.6<br />

12.5<br />

12.4<br />

4<br />

49.7<br />

12.425<br />

MSB= MSE=<br />

2<br />

3<br />

4<br />

12.1<br />

12.5<br />

12.4<br />

11.7<br />

4<br />

48.7<br />

12.175<br />

totale<br />

16<br />

196.8<br />

12.30<br />

34


ONE WAY ANOVA<br />

Vediamo ora un modo assolutamente equivalente<br />

per arrivare a MSE e MSB, ma a partire dalla<br />

scomposizione degli scarti. La variazione totale può<br />

essere decomposta in :<br />

• variazione della media di tutte le osservazioni<br />

rispetto a zero;<br />

• variazione della media delle osservazioni<br />

relative ad ogni livello del parametro rispetto<br />

alla media di tutte le osservazioni.<br />

• variazione delle singole osservazioni rispetto<br />

alla media delle osservazioni di ogni livello del<br />

parametro.<br />

ONE WAY ANOVA<br />

SSTO<br />

SSTO<br />

SSTO<br />

=<br />

=<br />

=<br />

2<br />

∑(<br />

yij<br />

− yˆ<br />

) = ∑(<br />

( yij<br />

− yˆ<br />

i ) − ( yˆ<br />

i − yˆ<br />

) )<br />

j,<br />

j<br />

2<br />

∑(<br />

yij<br />

− yˆ<br />

i ) −∑<br />

ni<br />

( yˆ<br />

i − yˆ<br />

)<br />

j,<br />

j<br />

SS<br />

e<br />

+ SS<br />

M<br />

j,<br />

j<br />

Devianza totale = Devianza entro gruppi + Devianza tra gruppi<br />

La somma del quadrato dei dati è pari alla somma<br />

del quadrato dei valori medi somma del quadrato<br />

degli errori<br />

j<br />

2<br />

2<br />

35


SS<br />

SS<br />

SS<br />

ESEMPIO DI UTILIZZO DI ONE WAY ANOVA<br />

Pompa N.<br />

Velocità di<br />

afflusso<br />

(dl/s)<br />

T<br />

M<br />

e<br />

= 5<br />

2<br />

+ 6<br />

T<br />

N<br />

2<br />

2<br />

1<br />

5<br />

+ 8<br />

2<br />

6<br />

3<br />

8<br />

4<br />

2<br />

Risulta N=8<br />

T=40 dl/s<br />

Ť =5.0 dl/s<br />

ESEMPIO DI UTILIZZO DI NO-WAY ANOVA<br />

⎛<br />

= N⎜<br />

⎝<br />

⎞<br />

⎟<br />

⎠<br />

=<br />

= 222 − 200 = 22 ( dl / s)<br />

2<br />

+ 2<br />

T<br />

N<br />

2<br />

2<br />

+ 5<br />

2<br />

40<br />

=<br />

8<br />

2<br />

+ 4<br />

2<br />

2<br />

5<br />

5<br />

+ 4<br />

La varianza dell'errore<br />

vale:<br />

2<br />

6<br />

4<br />

+ 6<br />

2<br />

= 200 ( dl / s)<br />

( ν è il numero di gradi di libertà<br />

e<br />

SSe<br />

ν<br />

e<br />

=<br />

2<br />

7<br />

4<br />

8<br />

6<br />

= 222 ( dl / s)<br />

22<br />

7<br />

=<br />

3,<br />

14<br />

per l'errore)<br />

2<br />

36


TWO WAY ANOVA<br />

TWO WAY ANOVA<br />

37


Progettazione degli esperimenti<br />

38

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!