22.05.2013 Views

nasce la sensibilità al glutine - Adi

nasce la sensibilità al glutine - Adi

nasce la sensibilità al glutine - Adi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

222<br />

LA RICERCA DEI VALORI ANOMALI<br />

A. N. Eramo<br />

Ricercatore di Statistica Soci<strong>al</strong>e, Dipartimento di Sociologia, Università Degli Studi di Napoli “Federico II”<br />

Quante volte ci sarà capitato che nel<strong>la</strong> fase di raccolta<br />

dei dati, in riferimento ad una variabile quantitativa,<br />

ci si imbatte in mod<strong>al</strong>ità che ci sembrano<br />

“diverse”, in ordine di grandezza rispetto <strong>al</strong><strong>la</strong> maggioranza<br />

dei casi fino ad <strong>al</strong>lora registrati. Sono i<br />

cosiddetti v<strong>al</strong>ori anom<strong>al</strong>i, o v<strong>al</strong>ori aberranti, o<br />

outlier, o out-line. La diversità del<strong>la</strong> rappresentazione<br />

di un qu<strong>al</strong>unque fenomeno spinge lo studioso<br />

<strong>al</strong>l’indagine per trovare leggi che governano t<strong>al</strong>e<br />

diversità, ma è anche vero che un solo v<strong>al</strong>ore anom<strong>al</strong>o<br />

può indurre in conclusioni errate, poco rappresentative<br />

del<strong>la</strong> re<strong>al</strong>tà.<br />

Facciamo un esempio per chiarire il concetto. Una<br />

ASL sta conducendo un’indagine sul suo territorio<br />

di competenza sull’assenteismo del person<strong>al</strong>e paramedico.<br />

Pertanto chiede ai vari responsabili delle<br />

strutture il rilevamento dei dati necessari, tra cui i<br />

giorni di assenza. In una di queste, <strong>la</strong> rilevazione sui<br />

(n=) 5 dipendenti, indicata con X <strong>la</strong> variabile “giorni<br />

di assenza”, si presenta così X : 2; 1; 3; 1; 45. Che<br />

fare? Se si trasmettesse il v<strong>al</strong>ore del<strong>la</strong> media aritmetica<br />

(M) dei giorni di assenza, cioè 10,4, non si<br />

renderebbe giustizia <strong>al</strong><strong>la</strong> maggioranza del person<strong>al</strong>e,<br />

dando una visione distorta del fenomeno. Infatti<br />

<strong>la</strong> media aritmetica non sintetizza nel modo più<br />

appropriato e rappresentativo del<strong>la</strong> re<strong>al</strong>tà, i nostri<br />

dati. Si potrebbe ovviare in modo molto semplice e<br />

cioè utilizzando <strong>la</strong> mediana(Med) <strong>al</strong> posto di M.<br />

Infatti, essendo <strong>la</strong> Med una misura di sintesi di tendenza<br />

centr<strong>al</strong>e definita come quel v<strong>al</strong>ore del<strong>la</strong><br />

distribuzione dei dati, ordinati in modo crescente,<br />

che occupa il posto centr<strong>al</strong>e, non risente del<strong>la</strong> presenza<br />

di v<strong>al</strong>ori anom<strong>al</strong>i, a differenza di M, che come<br />

tutti i v<strong>al</strong>ori medi razion<strong>al</strong>i coinvolge nel c<strong>al</strong>colo<br />

tutti i dati rilevati. La sequenza di sopra ordinata è<br />

X : 1; 1; 2; 3; 45. Il v<strong>al</strong>ore centr<strong>al</strong>e Med = 2.<br />

In gener<strong>al</strong>e, se n è dispari, il v<strong>al</strong>ore centr<strong>al</strong>e è unico<br />

e corrisponde <strong>al</strong> dato che occupa il posto (n+1)/2;<br />

nel nostro esempio (5+1)/2 = 3. Il terzo v<strong>al</strong>ore<br />

osservato, in ordine crescente, corrisponde <strong>al</strong><strong>la</strong><br />

mediana. Nel caso di n pari, <strong>la</strong> distribuzione presenta<br />

due v<strong>al</strong>ori centr<strong>al</strong>i che corrispondono rispettivamente<br />

<strong>al</strong> dato che occupa <strong>la</strong> posizione n/2 e <strong>al</strong><br />

successivo. Così, se i dati osservati fossero 8, i due<br />

v<strong>al</strong>ori centr<strong>al</strong>i sarebbero il quarto (n/2) ed il quinto<br />

(n/2 +1). Basta fare <strong>la</strong> media aritmetica dei due<br />

v<strong>al</strong>ori centr<strong>al</strong>i così individuati per ottenere <strong>la</strong> Med.<br />

Tanto per ribadire il concetto, se nel<strong>la</strong> precedente<br />

sequenza di dati sostituissimo 45 con 90, <strong>la</strong> Med<br />

sarebbe sempre 2, mentre <strong>la</strong> M passerebbe da 10,4 a<br />

19,4, ancora più fuorviante che prima.<br />

Questa prassi è consolidata nelle an<strong>al</strong>isi statistiche,<br />

quando ci si trova di fronte ad uno o più casi anom<strong>al</strong>i,<br />

ma sorge il problema di fissare una rego<strong>la</strong><br />

oggettiva che ci consenta di stabilire quando un<br />

v<strong>al</strong>ore osservato è da considerarsi t<strong>al</strong>e, in modo da<br />

porre un margine <strong>al</strong><strong>la</strong> discrezion<strong>al</strong>ità dello studioso.<br />

I metodi utilizzati per stabilire l’anom<strong>al</strong>ia di un dato<br />

osservato sono due: a) il primo, piuttosto empirico, si<br />

basa sul<strong>la</strong> forma del<strong>la</strong> distribuzione osservata, ed il<br />

secondo b) fa uso di semplici formule matematiche.<br />

Il primo, come detto, si basa sul concetto di forma o<br />

di simmetria di una distribuzione di dati, nel senso<br />

che per una distribuzione simmetrica, di forma<br />

campanu<strong>la</strong>re, di cui <strong>la</strong> curva norm<strong>al</strong>e o gaussiana ne<br />

è il riferimento matematico, v<strong>al</strong>e <strong>la</strong> seguente rego<strong>la</strong><br />

empirica:<br />

indicato con DS 1<br />

, o semplicemente S, lo scarto quadratico<br />

medio o deviazione standard,<br />

1 i v<strong>al</strong>ori osservati che ricadono tra <strong>la</strong> M ± S, rappresentano<br />

circa il 68% del tot<strong>al</strong>e dei dati;<br />

2. i v<strong>al</strong>ori osservati che ricadono tra <strong>la</strong> M ± 2S, rappresentano<br />

circa il 95% del tot<strong>al</strong>e dei dati;<br />

3. i v<strong>al</strong>ori osservati che ricadono tra <strong>la</strong> M ± 3S, rappresentano<br />

più del 99% del tot<strong>al</strong>e dei dati.<br />

1<br />

S = √ ( ∑ ( Xi – M) 2 / n)<br />

ADI MAGAZINE 3, 2011; 15 - www.adiit<strong>al</strong>ia.com

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!