13.07.2015 Views

202 - Dipartimento di Economia e Statistica

202 - Dipartimento di Economia e Statistica

202 - Dipartimento di Economia e Statistica

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1423Sintesi delle <strong>di</strong>stribuzioniDalle operazioni preliminari del capitolo precedente si esce con una o più <strong>di</strong>stribuzioni <strong>di</strong> frequenza che riassumonoil contenuto informativo acquisito per i vari aspetti che si è ritenuto <strong>di</strong> stu<strong>di</strong>are sulle unità. La quantità <strong>di</strong>dati che esse detengono, pur nelle astrazioni e semplificazioni effettuate, è eccessiva perché si possa coglierel’essenza delle variabili o per confrontarle efficacemente. E’ perciò necessario procedere ad una sintesi delle<strong>di</strong>stribuzioni in pochi in<strong>di</strong>ci descrittivi (detti statistiche) delle loro caratteristiche più salienti.Quali sono i tratti principali <strong>di</strong> una <strong>di</strong>stribuzione <strong>di</strong> frequenza? Qual’è il modo più efficiente per evidenziarli?Quale tecnica può agevolare la comprensione del processo che ha generato i dati? La <strong>Statistica</strong>, nel corso deltempo, ha focalizzato l’attenzione su alcuni aspetti <strong>di</strong>fferenzianti delle <strong>di</strong>stribuzioni quali: la centralità cioèl’esistenza <strong>di</strong> una modalità, fittizia o reale, che prevalga sulle altre e sia <strong>di</strong> queste rappresentativa (paragrafo 3.1);la variabilità e cioè l’attitu<strong>di</strong>ne delle modalità a <strong>di</strong>sperdersi o a concentrarsi su particolari valori (paragrafo 3.2);la simmetria cioè la tendenza all’equilibrio ovvero al prevalere dei valori piccoli o dei valori gran<strong>di</strong> stu<strong>di</strong>ata nelparagrafo 3.3. Nell’esporre concetti ed in<strong>di</strong>ci cercheremo <strong>di</strong> tenere in primo piano l’avviso <strong>di</strong> Ehrenberg (1983)che invita ad insegnare la <strong>Statistica</strong> che si usa limitando l’enunciazione <strong>di</strong> principi astratti applicati a problemiche nessuno si porrà. In questo capitolo più che nei due precedenti, i calcoli ed i grafici saranno in primo pianoed a questo fine valgono le avvertenze già date nella premessa: qualcuno può anche essere svolto con penna ecalcolatrice, ma è meglio impostarli sul foglio elettronico tipo Excel o con un pacchetto applicativo tipo SPSSche sollevano dalle fasi più ingrate dell’appren<strong>di</strong>mento per dare maggiore tempo alla riflessione.


3.1 I valori me<strong>di</strong>I valori me<strong>di</strong>, o anche in<strong>di</strong>ci <strong>di</strong> posizione o <strong>di</strong> tendenza centrale in<strong>di</strong>viduano il livello <strong>di</strong> maggiore addensamentodelle modalità ovvero la categoria o il valore (espresso nella stessa unità <strong>di</strong> misura del fenomeno) intorno a cuiruota l’intera rilevazione.143Esempi:a) Nel grafico sono riportati tre poligoni <strong>di</strong> frequenza simili tra <strong>di</strong> loro tranne che per il centro.Le modalità c1, c2, c3 rappresentano il “centro” della <strong>di</strong>stribuzione, interpretabile anche come il livello <strong>di</strong> equilibrio naturale a cui la<strong>di</strong>stribuzione tenderebbe in assenza <strong>di</strong> forze <strong>di</strong>versificatrici.b) Livi (1963, p. 58) riflette ... Nei giu<strong>di</strong>zi e nei ragionamenti che si fanno su fatti e cose soggetti a variare e a mutare si operaistintivamente un conguaglio <strong>di</strong> più qualità o quantità <strong>di</strong>suguali. Su questa cosciente o subcosciente operazione <strong>di</strong> sintesi o <strong>di</strong>conguaglio si fonda il comune concetto <strong>di</strong> me<strong>di</strong>a.Per “me<strong>di</strong>a”, in <strong>Statistica</strong>, si intende comune a tante misure ed in ciò <strong>di</strong>fferisce dal significato usuale che associail termine “me<strong>di</strong>a” ad una somma <strong>di</strong> valori <strong>di</strong>visa per il numero degli adden<strong>di</strong>. La me<strong>di</strong>a è una modalità, ipoteticao effettivamente osservata, rappresentativa e tipica della <strong>di</strong>stribuzione. L’unico vincolo nella sua scelta è lacon<strong>di</strong>zione <strong>di</strong> internalità se la scala <strong>di</strong> misurazione è almeno or<strong>di</strong>nale e cioè: X (1)≤ Me<strong>di</strong>a ≤X (n).Esempi:ALibri Utenti1 242 233 114 55 265BLinguaggio ParlantiMandarino 740Inglese 403Russo 277Spagnolo 266Indostano 264Arabo 160Bengalese 1552265Nel caso A la me<strong>di</strong>a può essere un qualsiasi numero (anche frazionario) compreso tra 1 e 5; nel secondo caso, trattandosi <strong>di</strong> unavariabile nominale, la me<strong>di</strong>a dovrà coincidere con una delle modalità del dominio. La con<strong>di</strong>zione <strong>di</strong> internalità permette alla me<strong>di</strong>a <strong>di</strong>informare sull’or<strong>di</strong>ne <strong>di</strong> grandezza del fenomeno segnalando che una parte delle modalità è minore <strong>di</strong> essa ed una parte maggiore.Il processo <strong>di</strong> estrema sintesi che porta al collassamento della <strong>di</strong>stribuzione su <strong>di</strong> una singola modalità costituiscel’han<strong>di</strong>cap maggiore degli in<strong>di</strong>ci <strong>di</strong> posizione perché <strong>di</strong>stribuzioni molto <strong>di</strong>ssimili possono presentare la stessame<strong>di</strong>a e quin<strong>di</strong> questa, da sola, non è in grado <strong>di</strong> <strong>di</strong>scernere tra situazioni <strong>di</strong>verse.Esempio:Il centro C è comune a tre <strong>di</strong>versi poligoni <strong>di</strong> frequenza. A partire dalla sola conoscenza della modalità C non si riesce a stabilire suquale particolare poligono <strong>di</strong> frequenza sia stata in<strong>di</strong>viduata.c


144Esercizio_SD01: il termine “me<strong>di</strong>a” è tradotto in inglese con “mean”, ma anche con “average”.a) Scoprite l’etimologia del termine “average”;b) In inglese, il termine “mean” oltre ad in<strong>di</strong>care una me<strong>di</strong>a generica, ha anche una connotazione negativa.Perché?La centralità è il concetto più facilmente riscontrabile in una <strong>di</strong>stribuzione ed ha dato luogo a numerose definizionioperative che, a scopo esemplificativo, <strong>di</strong>vi<strong>di</strong>amo in tre gruppi:1) Le me<strong>di</strong>e lasche in cui l’in<strong>di</strong>catore <strong>di</strong> centralità coincide con una delle modalità effettivamente riscontrate nellarilevazione (ovvero è funzione <strong>di</strong> una o due <strong>di</strong> esse) che si <strong>di</strong>stingue per un qualche aspetto rilevante ai fini dellarappresentatività della <strong>di</strong>stribuzione: la moda, la me<strong>di</strong>ana, i quantili, il valore massimo, il valore minimo.2) Le me<strong>di</strong>e ferme (o analitiche) ottenute con il concorso esplicito <strong>di</strong> tutte le modalità verificatesi nella rilevazione:la me<strong>di</strong>a aritmetica e le me<strong>di</strong>e <strong>di</strong> potenze.3) Le me<strong>di</strong>e revisionate che coinvolgono tutte le modalità ricadenti in un certo intervallo laddove, su quelleesterne, si effettuano mo<strong>di</strong>fiche o sostituzioni quando non siano ad<strong>di</strong>rittura soppresse.3.1.1 La modaE’ l’in<strong>di</strong>ce <strong>di</strong> posizione più facile da calcolare, ma anche quello più grezzo. Si identifica con la modalitàcorrispondente alla maggiore frequenza relativa (o con l’ascissa del punto <strong>di</strong> massima densità <strong>di</strong> frequenza nelcaso <strong>di</strong> variabili continue) e può essere locale o globale: una moda locale M jsi determina quando una modalitàha una frequenza relativa più alta rispetto alla modalità che imme<strong>di</strong>atamente la segue e la precede nel dominio(purché la scala <strong>di</strong> misurazione sia almeno or<strong>di</strong>nale):{ } = { ≤ = … }M = x f ≤ f ≥ f ; M M f f ; i , , kj j j− 1 j j+1 o j i j 12La frequenza relativa maggiore determina la moda globale: M oper cui una <strong>di</strong>stribuzione può avere più modelocali e una o più mode globali. Il calcolo avviene in due fasi: prima si determinano le frequenze localmente oglobalmente maggiori e poi si considerano “mode” le modalità ad esse corrispondenti; attenzione a non fermarsialla prima fase e considerare “moda” la frequenza maggiore: è un errore visto che la moda deve essere unamodalità. Il senso <strong>di</strong> questo in<strong>di</strong>ce è che la <strong>di</strong>stribuzione possa essere rappresentata -su tutto l’arco dei valoridallamodalità che si è ripetuta più spesso.Esempi:a) Classificazione del molare destro per numero <strong>di</strong> b) Valutazioni espresse da un gruppo <strong>di</strong> 100 giu<strong>di</strong>cicanali su 1000 soggetti sulla qualità <strong>di</strong> una confezione.N. <strong>di</strong> canali Soggetti Valutazioni Giu<strong>di</strong>ci1 2Ottimo 152 914Buono 293 76Sufficiente 194 8Me<strong>di</strong>ocre 251000Pessimo 12100Nel primo caso esiste una sola moda ed è rappresentativa visto che riguarda più del 91% dei soggetti; nel secondo la <strong>di</strong>stribuzione ha duemode locali della stessa importanza (29% e 25%), ma per giu<strong>di</strong>zi abbastanza <strong>di</strong>scosti. Ne consegue che la moda globale “buono” è sìdeterminabile analiticamente, ma non logicamente dato che la sua tipicità non può estendersi oltre l’ambito delle valutazioni non sfavorevoli.Esercizio_SD02: presenze nei governi <strong>di</strong> alcuni partiti (9 legislature).a) Calcolare la moda per le partecipazioni al governo e per le presenze conministri;b) Ha senso calcolare la moda per il rapporto M/P?Partito Partecipazioni Ministro M/PDC 45 78 1.73PSDI 26 19 0.73PLI 14 7 0.50PRI 22 10 0.45PSI 19 32 1.68Per calcolare la moda non è necessario usare tutte le informazioni: le modalità non entrano infatti nella sua formulache è basata sul confronto delle frequenze; questo è un vantaggio per la rapi<strong>di</strong>tà <strong>di</strong> calcolo, ma è anche un limite e nonsorprende perciò che in certe occasioni la moda possa dare in<strong>di</strong>cazioni inaccettabili.


145Esempio:Bachman e Paternoster (1997, p. 86) propongono la seguente situazione: un gruppo <strong>di</strong> n=20 uomini arrestati per violenza in famigliavenne sottoposto a vigilanza speciale per due anni. Al termine del periodo si registrò la <strong>di</strong>stribuzione qui riportata per la reiterazionedel reato.Denunce Pregiu<strong>di</strong>cati0 81 12 13 14 35 36 320La frequenza massima è “8” corrispondente a “0” denunce ed appare piuttosto significativa dato che la frequenza più grande dopoquella modale è meno della metà. Tuttavia, <strong>di</strong>re che è tipico che, in libertà vigilata, si abbiano zero denunce sarebbe una inammissibilecopertura per un gruppo <strong>di</strong> sei criminali che ha ripetuto lo stesso bruttissimo reato per cinque o sei volte.Esercizio_SD03: quali sono le ragioni <strong>di</strong> maggiore insod<strong>di</strong>sfazione dei clienti? Una indagine campionaria sugliacquirenti <strong>di</strong> prodotti elettronici ha ottenuto i risultati in tabella.Motivo principale %Commesso/a che non ascolta 23Non trova prodotto pubblicizzato 3Lunga attesa al telefono per aver risposta 10Apparecchiatura <strong>di</strong>fficile da usare 9Costo elevato delle riparazioni 13Eccessivo materiale pubblicitario postale 12Difficoltà nel far valere la garanzia 16Acquistare un prodotto <strong>di</strong>fettoso 6Essere pressati da ven<strong>di</strong>tori insistenti 8100a) In<strong>di</strong>viduate la moda; b) Valutate la sua vali<strong>di</strong>tà come categoria rappresentativa in questo tipo <strong>di</strong> indagine;c) La moda è ritenuta un in<strong>di</strong>catore <strong>di</strong> centralità piuttosto stabile. In che senso si deve intendere questa caratteristica?L’in<strong>di</strong>viduazione della moda è imme<strong>di</strong>ata se si <strong>di</strong>spone <strong>di</strong> una rappresentazione grafica della <strong>di</strong>stribuzione:istogramma o poligono <strong>di</strong> frequenza. Basta trovare le ascisse corrispondenti ai picchi; quella associata al piccopiù alto sarà la moda globale.Esempi:a) Talvolta, la frequenza non corrispondere ad un valore unico. Inoltre, la frequenza che in<strong>di</strong>vidua la moda potrebbe superare <strong>di</strong> pocoquelle <strong>di</strong> altre mode locali al punto da invalidare la moda come valore rappresentativo.Mo Mo 1 Mo 2La bimodalità è <strong>di</strong> solito l’esito <strong>di</strong> un accentuato <strong>di</strong>morfismo quale ad esempio la <strong>di</strong>stribuzione <strong>di</strong> una specie <strong>di</strong> uccelli per peso o perapertura alare in cui la <strong>di</strong>versità dei sessi determina la creazione <strong>di</strong> due poli <strong>di</strong> addensamento dei valori.b) Classificazione <strong>di</strong> 100 persone, <strong>di</strong> tre <strong>di</strong>verse etnie, secondo il gruppo sanguigno.Etnia 1 Etnia 2 Etnia 3Gruppo f i Gruppo f iGruppo f iA 0.20 A 0.38 A 0.25B 0.45 B 0.37 B 0.26AB 0.15 AB 0.20 AB 0.24O 0.20 O 0.05 O 0.251.00 1.00 1.00La <strong>di</strong>stribuzione dell’etnia “1” è unimodale con moda rappresentativa nel gruppo “B”, la <strong>di</strong>stribuzione “2” è bimodale ovvero non hauna moda univoca, la “3” è una <strong>di</strong>stribuzione uniforme in cui ogni categoria è rappresentativa <strong>di</strong> se stessa e quin<strong>di</strong> esistono delle modelocali (ma non una moda globale).


146Esercizio_SD04: numero <strong>di</strong> pazienti ammessi ogni giorno in una clinica privata.Pazienti Giorni f 0.305 8 0.04446 12 0.06670.257 17 0.0944 0.208 35 0.19449 50 0.27780.1510 33 0.1833 0.1011 13 0.072212 10 0.0556 0.0513 2 0.0111 0.00180 1.0000 5 6 7 8 910 11 12 13a) Calcolare la moda; b) Vi sembra che sia una efficace sintesi della <strong>di</strong>stribuzione?Esercizio_SD05: morti in incidenti stradali in sinistri <strong>di</strong>stinti per statali, provinciali e comunali (A) e perautostrade e superstrade (B).Morti Sinistri A Sinistri B0 31 271 26 322 29 313 16 154 11 85 7 4>5 5 3125 120a) Calcolare la moda per le due <strong>di</strong>stribuzioni e per la <strong>di</strong>stribuzione congiunta ottenuta sommando le frequenze;b) Rappresentare la <strong>di</strong>stribuzione congiunta e interpretare la eventuale bimodalità.La moda ha il grave <strong>di</strong>fetto delle oscillazioni campionarie: se la popolazione ha due punti <strong>di</strong> addensamento M 1e M 2(<strong>di</strong> cui uno è la moda globale) molti campioni avranno come moda M 1, ma altri avranno la M 2e ciò<strong>di</strong>minuisce la possibilità <strong>di</strong> generalizzare il risultato all’intera popolazione.Esempio:L’estrazione <strong>di</strong> due campioni <strong>di</strong> ampiezza n=40 da una popolazione bipolare che cioè si addensa intorno ad un centro e ad unanticentro, ha prodotto gli istogrammi qui riportati.La moda è nettamente <strong>di</strong>versa nei due campioni: si intuisce la presenza della bimodalità, ma non è sicura ed in mancanza <strong>di</strong> altrenotizie si opterà per una sola moda significativa (e nettamente <strong>di</strong>versa) in entrambi i casiNella statistica inferenziale vedremo come le eccessive fluttuazioni campionarie <strong>di</strong> una statistica comportinocampioni <strong>di</strong> ampiezza maggiore (e quin<strong>di</strong> più costosi e più soggetti ad errori).La moda per dati raggruppati in classiPer dati raggruppati in classi la frequenza relativa maggiore in<strong>di</strong>viduerà, dopo aver eliminato l’influenza della<strong>di</strong>versa ampiezza, la classe modale; all’interno <strong>di</strong> tale classe occorre determinare il valore puntuale più rispondenteall’idea <strong>di</strong> moda. La <strong>di</strong>versità <strong>di</strong> ampiezza deve essere superata in quanto la frequenza <strong>di</strong> una classe può<strong>di</strong>pendere dalla sua maggiore o minore estensione ed a questo fine basterà confrontare la densità <strong>di</strong> frequenzache rende comparabile l’incidenza delle classi: h o≥h iper i=1,2,…,k. A questo punto qualsiasi valore ricadentenella classe modale può assumere il ruolo <strong>di</strong> moda tanto che, per evitare ambiguità, si preferisce spesso concludereil calcolo alla classe modale.


147L’indeterminatezza insorge perché si ignora il comportamento dei valori nella classe: se ci sono ragioni <strong>di</strong> pensareche queste si <strong>di</strong>spongano simmetricamente rispetto al valore centrale: M o=(U o+L o)/2 allora si potrà consideraremoda proprio il valore centrale della classe modale:Esempio:Alcuni pazienti sono stati raggruppati a seconda del livello <strong>di</strong> colesterolo LDL presente nel sangue.Livelli n f c170 180 18 0.1084 175180 190 29 0.1747 185190 200 32 0.1928 195200 210 24 0.1446 205210 220 21 0.1265 215220 230 14 0.0843 225230 240 11 0.0663 235240 250 9 0.0542 245250 260 6 0.0361 255260 270 2 0.0120 265166 1.0000La moda è X=195. E’ un calcolo approssimato, ma <strong>di</strong> solito sod<strong>di</strong>sfacente. Da notare però che, a <strong>di</strong>fferenza del calcolo della modaper variabili nominali, or<strong>di</strong>nali e metriche <strong>di</strong>screte, la moda non necessariamente è una delle modalità osservate: non siamo quin<strong>di</strong>sicuri che qualcuno dei soggetti abbia fatto registrare un livello <strong>di</strong> LDL pari a 195. La con<strong>di</strong>zione <strong>di</strong> internalità è comunque rispettataautomaticamente.Ipotesi <strong>di</strong> attrazioneTenuto conto della soggettività della strutturazione in classi che possono essere variate in numero ed ampiezzasembra inutile cercare tecniche sofisticate per un calcolo così ovvio. Tuttavia, se si dovesse per forza proporrecome “me<strong>di</strong>a” la modalità <strong>di</strong> massima frequenza e non sembri sod<strong>di</strong>sfacente il valore centrale della classe modalesi può seguire uno schema alternativo.Moda secondol'ipotesi<strong>di</strong> attrazioneCABDModa secondo l'ipotesisimmetria e unimodalitàL oU oSi ipotizza che la moda sia più vicina all’estremo della classe modale che confina con la classe a maggiore densità(che risulta perciò esercitare una più forte attrazione) fra le classi contigue a quella modale (se la classe modalefosse estrema il problema non si porrebbe). La moda si determina come ascissa del punto <strong>di</strong> intersezione delledue rette AB e CD nel grafico a destra che rende uguale il peso delle classi a<strong>di</strong>acenti:( )( )( )⎡ hM o = L o +o − h o−1 ⎤⎢⎥⎣⎢( h o − h o−1 )+ h o − h o+1 ⎦⎥ U o − L oLa situazione in figura mostra una moda -calcolata con l’ipotesi <strong>di</strong> attrazione- inferiore al valore centrale dellaclasse modale perché la classe antecedente ha densità maggiore <strong>di</strong> quella susseguente e quin<strong>di</strong> dà maggiore pesoalle modalità più a sinistra. Le due formule coincidono se le classi contigue della modale hanno la stessa densità:h o-1= h o+1.


148Esempi:a) Un’azienda attiva nel campo della grande <strong>di</strong>stribuzione ha sud<strong>di</strong>viso in classi <strong>di</strong> importo (in milioni <strong>di</strong> lire) gli or<strong>di</strong>ni ricevuti nell’ultimomese. Casse modale: (4.0-5.9); valore centrale classe modale=(4.0+5.9)/2=4.95;moda secondo l’ipotesi <strong>di</strong> attrazione:⎡ 0.1852 − 0.1558 ⎤4.0 + ⎢⎥ *1.9 = 4.38⎣( 0.1852 − 0.1558)+ ( 0.1852 − 0.0677)⎦Importi Or<strong>di</strong>ni fid i h i0.0 1.9 102 0.1726 1.9 0.09082.0 3.9 175 0.2961 1.9 0.15584.0 5.9 208 0.3519 1.9 0.18526.0 7.9 76 0.1286 1.9 0.06778.0 9.9 23 0.0389 1.9 0.020510.0 11.9 7 0.0118 1.9 0.0062591 1.0000b) Una ra<strong>di</strong>ografia è stata scomposta in pixel (elemento minimo <strong>di</strong> risoluzione) e <strong>di</strong> ognuno si è rilevato il livello <strong>di</strong> grigio.Classe modale: 31-49; valore centrale della classe modale: (31+49)/2=40;ipotesi <strong>di</strong> attrazione:⎡ 0.0071 − 0.0004 ⎤31 + ⎢⎥ *18 = 41.05⎣( 0.0071 − 0.0004)+ ( 0.0071 − 0.0018)⎦Riflettenza Pixel fi d i h i0 30 54 0.0113 30.0 0.000431 49 613 0.1277 18.0 0.007150 98 421 0.0877 48.0 0.001899 127 716 0.1492 28.0 0.0053128 160 432 0.0900 32.0 0.0028161 191 798 0.1663 30.0 0.0055192 240 1579 0.3290 48.0 0.0069241 255 187 0.0390 14.0 0.00284800 1.0000Nonostante il maggiore formalismo e l’aura <strong>di</strong> precisione che il calcolo della moda sembra possedere nell’ipotesi <strong>di</strong> attrazione, restail dubbio se sia un vero e proprio miglioramento rispetto al valore centrale della classe modale, soprattutto in <strong>di</strong>stribuzioni come questa,chiaramente bimodali e con mode non contigue.La moda è una statistica che ha un significato peculiare che non sempre trova riscontro nella <strong>di</strong>stribuzione o netrova più <strong>di</strong> uno. E’ per questo che, pur essendo calcolabile per variabili su ogni tipo <strong>di</strong> scala, risulta utilizzatameno assiduamente rispetto agli altri in<strong>di</strong>ci <strong>di</strong> centralità che stu<strong>di</strong>eremo nei prossimi paragrafiEsempi:a) Dalenius (1965) riporta la seguente situazione in cui la moda è la migliore in<strong>di</strong>cazione <strong>di</strong> centralità: un fabbricante <strong>di</strong> scarpe ha avutodei guasti nei macchinari che gli consentono <strong>di</strong> produrre una sola misura. Dovrà produrre la misura modale se vuole minimizzare ilnumero <strong>di</strong> prodotti che rimangono in magazzino.b) La moda è il valore più frequente nella <strong>di</strong>stribuzione. Se i valori osservati debbono costituire una base empirica per previsioni sullesuccessive manifestazioni del fenomeno, allora la moda è il valore su cui puntare in mancanza <strong>di</strong> altre informazioni.Esercizio_SD06: costo del pasto alle mense universitarie (anno 1992).Costo Atenei f d 100*h


1493.1.2 La me<strong>di</strong>anaImmaginate una compagnia <strong>di</strong> soldati schierata per un picchetto d’onore od anche un gruppo <strong>di</strong> majorettes pronteper la sfilata. In entrambi i casi i giovani sono <strong>di</strong>sposti in or<strong>di</strong>ne <strong>di</strong> altezza crescente. La fila che sta al centro èla fila me<strong>di</strong>ana: se il numero <strong>di</strong> file è <strong>di</strong>spari, la me<strong>di</strong>ana è tale che metà delle file è formata da persone più altee metà delle file da persone più basse da quelle inserite nella me<strong>di</strong>ana; se il numero <strong>di</strong> file è pari allora la me<strong>di</strong>ananon è più una fila effettiva, ma una riga ideale tracciata a metà strada tra le due file che occupano le posizionipiù centrali.Uno dei più noti in<strong>di</strong>ci <strong>di</strong> posizione, la me<strong>di</strong>ana, si basa proprio sull’idea <strong>di</strong> fila centrale.⎧⎪⎪M e = ⎨⎪⎪⎩X⎛ n+1⎝ 2⎞⎠se "n" è <strong>di</strong>spariX ( n/2)+ X ( n/2)+12se "n" è pariLa formula, per “n” pari, presuppone che abbia senso pensare ad un valore centrale tra due <strong>di</strong> esse. Se <strong>di</strong>etro ildominio esiste un continuo percettivo la me<strong>di</strong>ana sarà un ideale grado interme<strong>di</strong>o tra le categorie or<strong>di</strong>nali più alcentro; se il continuo non esiste la me<strong>di</strong>ana dovrà essere interpretata e non solo calcolata. Da notare, infine, chela me<strong>di</strong>ana -per costruzione- verifica la con<strong>di</strong>zione <strong>di</strong> internalità.Esempio:Si considerino i seguenti costi <strong>di</strong> estrazione (dollaro/barile) in varie zone <strong>di</strong> produzione. I valori or<strong>di</strong>nati sono:{2.5,5.0,6.0,6.2,6.3,7.4,7.5,10.7,15.1,17.5}. Poiché la graduatoria prevede n=10 unità, le posizioni centrali saranno la “5” e la “6” :X 102M e =( ) + X 10 2( )+1= X ( 5) + X ( 6)6.3 + 7. 4=22 2= 6.85Usa/Alaska 7.5 Canada 5.0Messico 6.0 Venezuela 6.2Argentina 15.1 Me<strong>di</strong>o Oriente 2.5Indonesia 10.7 Africa 7.4Nord Europa 17.5 Russia 6.3Esercizio_SD08: salari iniziali per laureati in economia con in<strong>di</strong>rizzo internazionale.Laureata Stipen<strong>di</strong>oGina F. 1940Lina D. 1730Tina R. 1690Pina A. 2000Nina T. 2580Laureata Stipen<strong>di</strong>oDina S. 1710Rina C. 1680Mina G. 1460Mita L. 2170Rita A. 2360Laureata Stipen<strong>di</strong>oLisa B. 1830Aida H. 2040Mira S. 2170Irma F. 1950a) Calcolare lo stipen<strong>di</strong>o me<strong>di</strong>ano;b) Interpretate il risultato alla luce del significato attribuito a questo in<strong>di</strong>ce <strong>di</strong> centralità.Quando le modalità si ripetono numerose l’attenzione si sposta sulle frequenze relative cumulate. La me<strong>di</strong>anaè la modalità più piccola cui corrisponde la frequenza relativa cumulata maggiore o uguale a 0.5. La definizionecoincide con l’ascissa della ogiva <strong>di</strong> frequenza (cumulata o retrocumulata) corrispondente all’or<strong>di</strong>nata tale cheF(x)=G(x)=0.5.Esempi:a) Riunioni settimanali necessarie al completamento <strong>di</strong> un progetto.Sedute Settimane f i F i0 4 0.0769 0.07691 9 0.1731 0.25002 15 0.2885 0.53853 11 0.2115 0.75004 6 0.1154 0.86545 4 0.0769 0.94236 2 0.0385 0.98087 1 0.0192 1.000052 1.000016141210864200 1 2 3 4 5 6 7La me<strong>di</strong>ana è 2 settimane che coincide anche con la moda della <strong>di</strong>stribuzione.


150b) Classificazione dei clienti <strong>di</strong> un punto ven<strong>di</strong>ta per numero <strong>di</strong> acquisti effettuati nel mese. La me<strong>di</strong>ana è “3” la cui frequenza relativacumulata (0.7590) è la prima a raggiungere la soglia <strong>di</strong> 0.5.{ }Me = Min x F ( x )≥ 05Acquisti Clienti f F0 40 0.0964 0.0964.1 69 0.1663 0.26272 95 0.2289 0.49163 111 0.2675 0.75904 74 0.1783 0.93735 26 0.0627 1.0000415 1.0000c) Espressione grafica della me<strong>di</strong>ana.M eM eLa me<strong>di</strong>ana corrisponde alla retta X=M e che separa due parti uguali dell’istogramma o dell’area sottesa al poligono <strong>di</strong> frequenza.La me<strong>di</strong>ana è una statistica piuttosto stabile: l’aggiunta <strong>di</strong> una nuova modalità la cambia solo se il nuovo valorealtera l’or<strong>di</strong>namento. Se la me<strong>di</strong>ana del “numero <strong>di</strong> acquisti effettuati da un cliente” è “3 acquisti” la me<strong>di</strong>anarimarrà invariata se si aggiungono coppie <strong>di</strong> clienti con “1” e “4” acquisti o qualsiasi altra coppia <strong>di</strong> modalitàinferiore e superiore alla me<strong>di</strong>ana. Questo però potrebbe anche essere un <strong>di</strong>fetto se il comportamento nelle codeè utile per comprendere il fenomeno. La me<strong>di</strong>ana, in effetti, sfrutta solo le relazioni or<strong>di</strong>nali tra le modalità e<strong>di</strong>l dominio della variabile deve perciò essere almeno su tale scala. In caso <strong>di</strong> variabile or<strong>di</strong>nale la me<strong>di</strong>ana saràla prima categoria della graduatoria corrispondente alla frequenza relativa cumulata 0.5 o superiore.Esempio:il boss mafioso don Mariano, nel “Giorno della civetta” <strong>di</strong> Leonardo Sciascia, dà una eloquente classificazione delle persone. Qui èproposta con delle frequenze ipotetiche, ma rispondenti all’idea del boss.Categorie Persone fi FiUomini 5 0.0002 0.0002Mezzi uomini 50 0.0024 0.0026Ominicchi 1000 0.0476 0.0502Fessi 5000 0.2381 0.2883Quaqquaraqquà 14945 0.7117 1.000021000 1.0000Secondo don Mariano è facile in<strong>di</strong>viduare la me<strong>di</strong>ana.E’ chiaro che la scelta delle categorie influenza la me<strong>di</strong>ana: un raffinamento o un accorpamento può determinarelo spostamento della me<strong>di</strong>ana che conserva perciò un certo grado <strong>di</strong> soggettività per variabili or<strong>di</strong>nali.Esercizio_SD09: provincie per residenti in zone urbane/residenti totali:Tipologia Province f FAltamente urbane 27 0.2621 0.2621Urbane 31 0.3010 0.5631In transizione 19 0.1845 0.7476Rurali 17 0.1650 0.9126Altamente rurali 9 0.0874 1.0000103 1.0000a) Calcolare la me<strong>di</strong>ana;b) Se la me<strong>di</strong>ana cadesse tra “urbane” e “in transizione” che interpretazione dareste?La me<strong>di</strong>ana per dati in classiSe le modalità sono in classi sarà possibile in<strong>di</strong>viduare univocamente solo la classe me<strong>di</strong>ana cioè la classe cuicorrisponde la frequenza relativa cumulata 0.5. Per determinare un valore puntuale sarà necessario, come per lamoda, fare un’ipotesi sulla <strong>di</strong>stribuzione dei valori ricadenti nella classe me<strong>di</strong>ana.


151Quella più ricorrente è che le modalità si <strong>di</strong>stribuiscano uniformemente all’interno della classe; ciò implica:(M e = L e + 0.5 − F e−1); per "e" tale che F e =h eMin { F F j ≥ 0.5}1≤ j≤kEsempi:a) Uno stu<strong>di</strong>o <strong>di</strong> consulenza ha classificato le operazioni <strong>di</strong> au<strong>di</strong>ting per la revisione dei conti annuali secondo la durata in giorni delciclo <strong>di</strong> operazioni. Il calcolo della me<strong>di</strong>ana avviene in due passi: si in<strong>di</strong>vidua la classe me<strong>di</strong>ana e poi si interpola linearmente perottenerne il valore puntuale.0.5 − 0.3333M e = 15 + ( ) = 18.110.2143 4Durata Revisioni f F5 7 5 0.0595 0.05958 10 9 0.1071 0.166710 14 14 0.1667 0.333315 19 18 0.2143 0.547620 24 15 0.1786 0.726225 29 12 0.1429 0.869030 34 11 0.1310 1.000084 1.0000Nel calcolo della me<strong>di</strong>ana per modalità in classi non si accenna alla <strong>di</strong>stinzione tra “n” pari ed “n” <strong>di</strong>spari che ha una qualche importanzasolo se l’ampiezza della rilevazione è piccola. D’altra parte, per i dati in classi, il calcolo della me<strong>di</strong>ana avviene già in forma approssimatae si suppone che questa sia valida sempre.b) Un’indagine sulle bibite contenenti alcool in commercio nella Comunità europea ha portatoalla tabella qui riprodotta. La me<strong>di</strong>ana sarebbe la bibita che in or<strong>di</strong>ne <strong>di</strong> contenuto <strong>di</strong> alcooloccupa la 53ª posizione. L’aggregazione in classi ha però fatto perdere questa informazioneche deve essere data in via presuntiva: M e =3.5.% Alcool Bibite N0.0 - 1.0 3 30.1 - 2.0 7 102.0 - 3.0 15 253.0 - 3.5 28 533.5 - 4.0 31 844.0 - 5.0 16 1005.0 - 8.0 5 105105c) La formula <strong>di</strong> calcolo della me<strong>di</strong>ana è applicabile anche quando la <strong>di</strong>stribuzione ha degli estremi indeterminati In questo caso ilcalcolo della moda potrebbe essere precluso se la classe con densità massima è una <strong>di</strong> quelle terminali. Rilevazione su n=200 clienti<strong>di</strong> un megastore <strong>di</strong> articoli sportivi. Dalle ricevute rilasciate gli importi più piccoli e più gran<strong>di</strong> sono stati acquisiti come or<strong>di</strong>ne <strong>di</strong>grandezza e non come valore esatto.( 05 . − 047 . )M e = 101 += 105.645( 0. 155 / 24)Xi ni fi Fi25 7 0.035 0.03526 50 11 0.055 0.09051 75 40 0.200 0.29076 100 36 0.180 0.470101 125 31 0.155 0.625La me<strong>di</strong>ana ricade nella classe [101-125] e il suo calcolo puntuale è avvenuto senza problemi.Esercizio_SD10: unità locali per addetto nelle confezioni <strong>di</strong> vestiario.Addetti Unità locali f F≤3 1124 0.2171 0.21714 5 637 0.1230 0.34026 9 636 0.1229 0.463010 19 1206 0.2330 0.6960126 150 26 0.130 0.755151 175 15 0.075 0.830176 200 12 0.060 0.890201 225 10 0.050 0.940226 250 9 0.045 0.985251 3 0.015 1.000200 1.00020 99 1212 0.2341 0.9301100 249 238 0.0460 0.9760250 499 91 0.0176 0.9936500 999 25 0.0048 0.9985≥1000 8 0.0015 1.00005177 1.0000a) Calcolare la me<strong>di</strong>ana;b) In quali casi l’indeterminatezza degli estremi può <strong>di</strong>venire un ostacolo?Esercizio_SD11: raggruppamento dei giorni <strong>di</strong> un anno secondo la velocità massima in no<strong>di</strong> del vento osservatain una stazione <strong>di</strong> rilevamento eolica.Velocità Giorni f F0.0 0.4 176 0.4822 0.48220.4 2.9 60 0.1644 0.64663.0 7.9 34 0.0932 0.73978.0 12.9 31 0.0849 0.824713.0 17.9 26 0.0712 0.895918.0 22.9 20 0.0548 0.950723.0 27.0 18 0.0493 1.0000365 1.0000a) Calcolare la me<strong>di</strong>ana;b) Re<strong>di</strong>gere l’istogramma e verificare che l’area a sinistra ed a destra della me<strong>di</strong>ana siano uguali.


152La me<strong>di</strong>ana rende minima la somma dei valori assoluti degli scarti, cioè la quantità:è minima se A=M e.QA ( )= ∑ X i − Aki=1f iEsempi:a) Proviamo a darne una <strong>di</strong>mostrazione per modalità tutte positive scomponendo la somma dei valori assoluti in due somme parziali:( )( )QA ( )= ∑ X()i − Af() i + ∑ A−X()i f()iX() i > AX()i ≤ A= ∑ X()i f() i − A ∑ f()i + A ∑ f()i − ∑ X()i f() i ± ∑ X()i f()iX() i > AX() i > A X() i ≤ A X() i ≤ AX()i ≤ A= ∑ X()i f() i + ∑ X()i f() i − A[ 1− F( A)]+ AF( A)− 2 ∑ X()i f()iX() i > AX() i ≤ AX()i ≤ A=µ−A[ 1− 2F( A)]− 2 ∑ X()i f()iX ≤ A() idove µ è la me<strong>di</strong>a aritmetica (cfr. par. 3.1.4) non <strong>di</strong>pendente da A. L’andamento <strong>di</strong> Q(A) è decrescente per A tale che F(A)0.5; il minimo è perciò raggiunto per F(A)=0.5 che corrisponde ad A=M e .b) Siano {X (1) , X (2) , …,X (k) } delle stazioni <strong>di</strong>sposte lungo una linea ferroviaria. Supponiamo che un treno parti da un punto genericoA lungo la linea per lasciare il carico alla stazione X (1) e poi, tornato ad A, riparta carico per andare a scaricare a X (2) e così proseguendofino a che non lasci l’ultimo carico alla stazione X (k) . In quale punto deve essere collocato A in modo da rendere minima la <strong>di</strong>stanzacomplessivamente percorsa?X (1) X (2)X (i)M e X (i+1)X (k-1) X (k)Evidentemente dovrà trovarsi interno a (X (1) ,X (k) ) altrimenti sarebbe possibile ridurre la <strong>di</strong>stanza scegliendo A=X (1) oppure A=X (k) . Allostesso modo “A” deve essere interno a (X (2) ,X (k-1) ) a (X (3) ,X (k-2) ) e così via. Pertanto, se vi è un elemento che si trova in posizionecentrale A coinciderà con esso ovvero A=me<strong>di</strong>ana. Se esiste una coppia <strong>di</strong> punti centrali A sarà il punto interme<strong>di</strong>o tra <strong>di</strong> esse.Esercizio_SD12: si consideri la <strong>di</strong>stribuzione <strong>di</strong> frequenza( ) = …Xi, fi, i 12 , , , k.a) Che succede alla me<strong>di</strong>ana se le frequenze delle prime k/2 modalità sono <strong>di</strong>mezzate e quelle successive sonoraddoppiate?b) Che succede alla moda?Esercizio_SD13: variazioni percentuali in ribasso <strong>di</strong> un in<strong>di</strong>ce sintetico per la borsarispetto alla linea <strong>di</strong> tendenza teorica (cfr. Cap. 4). Valutazioni su 500 giornate borsistiche.a) Calcolare la me<strong>di</strong>ana;b) Rappresentare il poligono delle frequenze ed in<strong>di</strong>viduate graficamente la me<strong>di</strong>ana.Variazione Giornate-50 -45 7-45 -40 19-40 -35 32-35 -30 45-30 -25 68-25 -20 85-20 -15 79-15 -10 62-10 -5 55-5 0 48500Esercizio_SD14: un vasto stu<strong>di</strong>o sui gemelli mirava a stabilire se il primo nato èpiù aggressivo nei confronti. Un in<strong>di</strong>catore <strong>di</strong> aggressività con valori crescenti tra50 e 100 è stato rilevato su 120 coppie.a) Calcolare moda e me<strong>di</strong>ana per entrambe le <strong>di</strong>stribuzioni;b) E’ ragionevole, in base a questi dati, l’ipotesi della maggiore aggressività delprimogenito?In<strong>di</strong>ce 1° nato 2° nato50 55 3 656 60 4 1061 65 6 1866 70 9 2571 75 14 2476 80 20 1681 85 21 1286 90 23 591 95 12 396 100 8 1120 120


1533.1.3 I quantiliL’idea della me<strong>di</strong>ana può essere generalizzata. Ogni ascissa X p-detta quantile <strong>di</strong> or<strong>di</strong>ne “p”- della funzione <strong>di</strong>graduazione vista nel capitolo precedente può essere adoperata per misurare la centralità della <strong>di</strong>stribuzioneconfigurandosi come il valore che supera il p% ed è superato dall’(1-p)% delle modalità rilevate. La formulausuale per modalità <strong>di</strong>screte è( ) + < < ≤ < + =X = 1 −γ X γX , 0 p 1 ; i np i 1 ; γp () i ( i+1)⎧05. se [ np]=np⎨⎩1se [ np]


154Esempio:Principali coltivazioni agricole delle Marche nel 1998. Valori in ettari. Calcolo del quantile <strong>di</strong> or<strong>di</strong>ne 0.60:n* p = 9* 060 . = 54 . ⇒ i = 54 . + 05 . 59 . 5; γ 59 . 5 09 .X06 . = 0. 1* X( 5) + 0. 9 * X( 6)= 23' 300.6[ ]= [ ]= = − =Coltivazione SuperficiePomodoro 1'304 Mais ibrido 14'558Pesca 1'486 Uva da vino 24'272Cavolfiore 1'967 Grano tenero 36'553Olivo 6'218 Girasole 38'281Grano duro 123'049Esercizio_SD18: superficie delle fiere in m 2 . Periodo 1987-1996.Milano 12'677'412 Firenze 1'209'431 Padova 462'414Bologna 5'187'952 Genova 1'129'177 Parma 373'761Verona 2'413'274 Rimini 845'366 Forlì 216'356Napoli 2'018'978 Bari 547'539 Roma 81'286Torino 1'150'220 Foggia 475'864 Longarone 50'560Calcolare il quantile che separa il primo 15% dal resto.Per modalità in classi si adopera la formula:Xp= L +i( )p−Fihi−1; per " i" tale che F = Min FF≥p;i{ j j }1≤j≤kche è basata, come per la me<strong>di</strong>ana, sull’interpolazione lineare all’interno della classe <strong>di</strong> interesse.Esempio:Dimensioni delle operazioni <strong>di</strong> fusione e <strong>di</strong> acquisizione in Italia per fatturato. Calcolo <strong>di</strong> X 0.80 .(0.80− 0.7477)X 0.80= 40 + = 51.18( 0.0935/ 20)Fatturato Operazioni fi Fi1 5 30 0.2804 0.28045 20 36 0.3364 0.616820 40 14 0.1308 0.747740 60 10 0.0935 0.841160 100 12 0.1121 0.9533100 150 5 0.0467 1.0000107 1.0000Esercizio_SD19: <strong>di</strong>soccupati impegnati in lavori socialmente utili.Età Operai f F15 19 85 0.0050 0.005020 24 1676 0.0976 0.102625 29 5455 0.3178 0.420430 34 6137 0.3575 0.777935 39 2552 0.1487 0.9265Calcolare i percentili <strong>di</strong> or<strong>di</strong>ne 0.60 e 0.30.40 44 740 0.0431 0.969645 49 322 0.0188 0.988450 54 127 0.0074 0.995855 59 50 0.0029 0.9987≥60 22 0.0013 1.000017166 1.0000E’ raro che un quantile sia usato da solo. In genere si adoperano come estremi <strong>di</strong> classi con numerosità prestabilitaoppure per in<strong>di</strong>viduare soglie <strong>di</strong> troncamento e <strong>di</strong> esclusione. Fra i quantili più noti ci sono i 3 quartili chesud<strong>di</strong>vidono i valori in quattro gruppi ciascuno comprendente il 25% delle unità. Pure usati sono i 4 quintili(richiamati in <strong>di</strong>verse valutazioni cliniche) e i 9 decili nello stu<strong>di</strong>o della <strong>di</strong>stribuzione dei red<strong>di</strong>ti.Esempi:a) Deputati <strong>di</strong> un partito per classi <strong>di</strong> età. Calcolo dei quattro quintili.Età Deputati f F≤30 2 0.0114 0.011430 34 11 0.0629 0.074335 39 12 0.0686 0.142940 44 39 0.2229 0.365745 49 51 0.2914 0.657150 54 46 0.2629 0.920055 59 10 0.0571 0.977160 64 2 0.0114 0.988665 74 2 0.0114 1.0000175 1.00000. 20 − 0.1429C 1= 40 + ( )*4 = 41. 020.22290. 40 − 0.3657C 2 = 45 + ( ) *4 = 45. 470. 29140.60 − 0. 3657C 3= 45 + ( )*4 = 48.220. 2914C = 50 + ( 0.80− 0.6571 )*4 = 52.174 0.2629


155b) L’esito dell’ammissione ad un corso a numero chiuso è riassunto nella tabella. La commissione decide <strong>di</strong> ammettere il 40% conpunteggio più alto, <strong>di</strong> escludere il 25% inferiore e <strong>di</strong> sottoporre il restante 35% a test suppletivi. Quali sono le soglie <strong>di</strong> <strong>di</strong>visione?X = 0.05 +⎛ 0.25 − 0.152⎞0.25 ⎝0.205⎠ 0.10 − 0.05X =⎛0.600.15+ 0.60 − 0.536⎞⎝0.143⎠ 0.20 − 0.15Punteggio Can<strong>di</strong>dati fi Fi0.40 3 0.027 1.000112 1.000Esercizio_SD20: scala <strong>di</strong> Stapel per valutare il tempo <strong>di</strong> espletamento <strong>di</strong> un servizio.Calcolare i due terzili.( ) = 0.0843;( ) = 0.1724Le soglie che si originano dai quantili hanno natura<strong>di</strong> conteggio che non assicura l’omogeneità dei valoriinclusi tra due soglie e può pertando succedereche in una stessa classe siano inserite modalità molto<strong>di</strong>stanti. Tale problema si attenua aumentando ilnumero <strong>di</strong> soglie ovvero riducendo le frazioni <strong>di</strong> unitàda includere tra <strong>di</strong> esse.4.03.53.02.52.01.51.00.50.0Voto 5 4 3 2 1 -1 -2 -3 -4 -5Giu<strong>di</strong>ci 67 53 26 19 11 9 6 5 3 1 200EsclusiAmmessi-0.1 0.0 0.1 0.2 0.3 0.4 0.5Esercizio_SD21: un campione <strong>di</strong> comuni è stato classificato per il numero <strong>di</strong> addetti allapubblica amministrazione iscritti nelle rispettive liste anagrafiche.1) Calcolare il 1° ed il 9° decile;2) Calcolate e interpretate la statistica:X01 . + X09.V =2Addetti Comuni50 75 7876 100 71101 125 63126 150 51151 200 39201 250 28251 350 26351 500 19501 1000 8383Me<strong>di</strong>e <strong>di</strong> quantiliI quantili possono essere utilizzati per definire misure <strong>di</strong> centralità poco sensibili ai valori remoti e che coinvolgonopiù strettamente le modalità osservate. In particolare si possono considerare le statistiche:τ kk'⎛k'⎞∑ ⎜ ⎟ Xi=0⎝i ⎠=k'2i+1k + 1, k' = k −1; k <strong>di</strong>spari;dove⎛ N⎞N!⎜ ⎟ =⎝ n ⎠ n! ( N−n)!“k” è il numero <strong>di</strong> sud<strong>di</strong>visioni dell’intervallo unitario effettuate con i quantili (k=1 implica la me<strong>di</strong>ana). L’in<strong>di</strong>ce èbilanciato rispetto al centro nel senso che quantili precedenti e susseguenti scelti in posizioni equi<strong>di</strong>stanti dalla me<strong>di</strong>anasono moltiplicati per lo stesso fattore grazie ad una proprietà del coefficiente binomiale (cfr. capitolo 6). Inoltre, sempreper le proprietà dei coefficienti binomiali, la somma dei fattori è pari al denominatore per cui i pesi sono positivi esommano ad uno (ciò assicura la internalità). Valori <strong>di</strong> τ kmaggiori della me<strong>di</strong>ana in<strong>di</strong>cheranno il prevalere <strong>di</strong> valorigran<strong>di</strong> e valori inferiori alla me<strong>di</strong>ana segnaleranno la presenza più incisiva delle modalità piccole.Esempio:Valori me<strong>di</strong> mensili degli stipen<strong>di</strong> dei parlamentari europei. Calcolo della trime<strong>di</strong>a (k=3). Per il calcolo dei quantili si applica la formuladelle variabili <strong>di</strong>screte∑2 ⎛2⎜ ⎞ 10 ⎝ ⎠ ⎟ Xi+i= iτ 4 025 2 05 075 47 2 62 783 =6 22522= X . + X . + X . . + * . + .== .44Paese Stipen<strong>di</strong>o Paese Stipen<strong>di</strong>oGrecia 2.8 Danimarca 6.4Portogallo 4.1 Olanda 6.9Spagna 4.7 Belgio 7.8Lussemburgo 5.4 Germania 8.8Irlanda 5.7 Francia 9.9Regno Unito 6.0 Italia 11.9Esercizio_SD22 per la serie della <strong>di</strong>stanza dal sole dei pianeti:{36, 67, 93, 142, 484, 887, 1765, 2791, 3654}a) Calcolare la pentame<strong>di</strong>a (cioè k=5); b) Verificare la con<strong>di</strong>zione <strong>di</strong> internalità.


1563.1.4 La me<strong>di</strong>a aritmeticaE’ la me<strong>di</strong>a per antonomasia. Essa interpreta l’idea <strong>di</strong> centralità partendo dall’ammontare complessivo riscontratonella rilevazione: T=∑X in iin cui sono accorpate le modalità ripetute: la me<strong>di</strong>a aritmetica è la modalità cheogni unità dovrebbe presentare affinché ciascuna abbia la stessa quota del totale della variabile:µ=Xn 1 1+ Xn 2 2+ … + Xn knkk= ∑ Xfi=1i iInfatti, se ad ogni modalità X isi sostituisce µ, l’ammontare totale T rimane invariato.Xki nn∑ i n∑ µn i =µ n i =µn =µi=1∑ = ∑ X i n iµi=1i=1ni=1Il calcolo <strong>di</strong> µ è insensibile all’or<strong>di</strong>namento delle modalità ed anche alla loro sequenza <strong>di</strong> rilevazione: mo<strong>di</strong>ficandol’or<strong>di</strong>ne degli adden<strong>di</strong>, la somma non cambia.Esempio:Compagnie petrolifere per numero <strong>di</strong> <strong>di</strong>stributori propri <strong>di</strong> carburante. Se tutte potessero scambiarsi i <strong>di</strong>stributori fino a che ne<strong>di</strong>spongano <strong>di</strong> un uguale numero, quale sarebbe il numero posseduto da ciascuna?µ=5063 + 2352+…+149710= 1880910= 1880.9 ≅ 1881Compagnia DistributoriAgip 5063Ip 2362Esso 2467Q8 1825Erg 1594Tamoil 701Shell 1220Api 1191Fina 889In<strong>di</strong>pendenti 149718809Esercizio_SD23: risorse finanziarie per la formazione nel 1997 (capoluoghi <strong>di</strong> provincia, valori in mgl <strong>di</strong> lire).Regioni Fon<strong>di</strong>Valle d'Aosta 58190 Friuli V.G. 601446 Marche 402625 Molise 20000Piemonte 358475 Veneto 1744559 Lazio 2866487 Puglia 573702Liguria 933162 Emilia-Rom. 2222032 Abruzzo 126382 Calabria 230515Lombar<strong>di</strong>a 2378020 Toscana 1637204 Campania 1033256 Sicilia 2149265Trentino A.A. 477000 Umbria 724000 Basilicata 97596 Sardegna 645840a) Calcolare la me<strong>di</strong>a aritmetica;b) In che unità <strong>di</strong> misura è espressa la me<strong>di</strong>a aritmetica?c) Se i valori sono arrotondati ai milioni, che succede alla me<strong>di</strong>a aritmetica?Interpretare la me<strong>di</strong>a aritmetica solo sotto il profilo <strong>di</strong> valore ripartitorio ne limiterebbe l’ammissibilità a queifenomeni nei quali ha senso lo scambio tra unità <strong>di</strong> ciò che si rileva cioè ai cosiddetti caratteri “trasferibili”:red<strong>di</strong>to tra persone, popolazione tra comuni, assetti societari, <strong>di</strong>pendenti tra imprese. Un approccio alternativo(cfr. Lombardo, 1994, pp. 252-253), più pratico e generale, ne estende l’interpretabilità a molte altre situazioni:la me<strong>di</strong>a aritmetica è il punto <strong>di</strong> equilibrio <strong>di</strong> forze parallele applicate ai punti rappresentati dalle modalità edaventi come intensità le frequenze relative.Esempio:La me<strong>di</strong>a aritmetica è il fulcro su cui poggiare l’asta rigida perché questa resti in equilibrio.X n-5 1-1 10 13 14 15 17 39⎛µ = −5* ⎜1 ⎞⎝ 9⎠⎟ − 1* ⎛⎜1 ⎞⎝ 9 ⎠⎟ + 0* ⎛⎜1 ⎞⎝ 9 ⎠⎟ + 3* ⎛⎜1 ⎞⎝ 9 ⎠⎟ + 4* ⎛⎜1 ⎞⎝ 9 ⎠⎟ + 5* ⎛⎜1 ⎞⎝ 9 ⎠⎟ + 7* ⎛⎜3 ⎞⎝ 9⎟= 27⎠ 9 = 3


157Se ogni modalità attrae il fenomeno in forza del suo valore e della frequenza relativa, la me<strong>di</strong>a aritmetica è il puntoin cui le forze operanti alla sinistra e quelle a destra si bilanciano tenendo il sistema in equilibrio stabile.Esempi:a) Numero <strong>di</strong> figli maschi in famiglie <strong>di</strong> otto figli.Figli Famiglie f X * f0 161 0.0044 0.00001 152 0.0041 0.00412 3957 0.1071 0.21433 7603 0.2058 0.61754 10263 0.2779 1.11145 8498 0.2301 1.15036 4984 0.1349 0.80967 1055 0.0286 0.19998 264 0.0071 0.057236937 1.0000 4.1643Per calcolare la me<strong>di</strong>a aritmetica si forma una colonna con i prodotti delle modalità per le frequenze relative e si sommano i risultati(per limitare gli errori <strong>di</strong> arrotondamento si potrebbero anche moltiplicare le modalità per le frequenze assolute e poi <strong>di</strong>videre il totaleper “n”). L’esito non è un intero nonostante il tipo <strong>di</strong> dominio della variabile lo richiederebbe: la me<strong>di</strong>a aritmetica è tra quattro e cinquefigli, ma con prevalenza del quattro.b) Soggetti classificati per mesi compiuti tra l’ultimo compleanno e la data <strong>di</strong> decesso (Andrews e Herzberg, 1985, p. 430).X 0 1 2 3 4 5 6 7 8 9 10 11n 99 99 114 106 106 103 107 114 109 104 110 110 1281f 0.08 0.08 0.09 0.08 0.08 0.08 0.08 0.09 0.09 0.08 0.09 0.09 1.00Xf 0.00 0.08 0.18 0.25 0.33 0.40 0.50 0.62 0.68 0.73 0.86 0.94 5.58La me<strong>di</strong>a aritmetica è 5 mesi e mezzo. Parrebbe esserci una tendenza a completare un altro anno, ma non è molto evidente.Esercizio_SD24: <strong>di</strong>pendenti <strong>di</strong> un’impresa per permessi brevi nell’ultimo anno.Permessi Dipendenti f2 8 0.02013 30 0.07544 80 0.20105 148 0.37196 98 0.24627 28 0.07048 6 0.0151398 1.0000a) Calcolare la me<strong>di</strong>a aritmetica;b) Supponete che, per errore, le frequenze assolute siano state raddoppiate. E’ possibile ottenere la me<strong>di</strong>aaritmetica senza ripetere i calcoli?Proprietà della me<strong>di</strong>a aritmetica1) La me<strong>di</strong>a aritmetica verifica la con<strong>di</strong>zione <strong>di</strong> internalità. Infatti, dalla <strong>di</strong>suguaglianza:k∑ X f ≤ ∑X f ≤∑X f() 1 ii ii= 1 i=1 i=1kin cui ogni modalità è stata sostituita dalla più piccola (lato sinistro) e dalla più grande (lato destro) si ottiene:k( n)ikkX ∑ f ≤ ∑X f ≤X ∑ f ⇒ X ≤ ∑ X f ≤X() 1 ii i ( n) i() 1i = 1 i = 1 i = 1dato che X (1)e X (n)sono costanti rispetto all’in<strong>di</strong>ce <strong>di</strong> sommatoria.2) La somma degli scarti semplici tra modalità e me<strong>di</strong>a aritmetica è nulla:kki=1ii( n)k∑( X i −µ ) f i = ∑ X i f i − ∑µf i = ∑ X i f i −µ = ∑ X i f i −µ =µ−µ=0i=13) La me<strong>di</strong>a aritmetica rende minima la somma degli scarti al quadrato.kkki=1ki=1[ ] =ki=1222 2∑( X − A) f = ∑ ( X −µ )+( µ− A)f ( X −µ ) + ( µ− A) + 2(µ− A) ( X −µ ) fi i iii= 1i= 1i=1ki=1k∑[ ]i i i


158k2 2( ) + ( µ− ) + ( µ− ) ∑( −µ )= ∑ X −µ f ∑ A f 2 A X fi=1ki i i i ii=1i=12k2i i ii=1( ) + ∑( µ− )= ∑ X −µ f A fi=1kkIl terzo termine della prima relazione risulta nullo per la proprietà già <strong>di</strong>mostrata della me<strong>di</strong>a aritmetica <strong>di</strong>annullare la somma degli scarti semplici. Proseguendo lo sviluppo si ottiene:k( X i −µ ) 2 kf i + ( µ−A ) 2 k= ( X i −µ ) 2 f i + ( µ−A ) 2 k k∑ ∑ ∑∑ f i = ∑ X i −µi=1i=1i=1i=1 i=1( ) 2 f i + ( µ−A ) 2Nell’ultima relazione possiamo tralasciare il primo addendo perché non <strong>di</strong>pende da A per considerare solo ilsecondo. Questo è semplicemente un quadrato che ha il minimo nello zero, raggiunto per A=µ.Esempio:Le prime (per fatturato) cento società estere per numero <strong>di</strong> se<strong>di</strong> operative in Italia.12∑(X-A) 2i10Se<strong>di</strong> Società f i X if i1 46 0.4600 0.460083 24 0.2400 0.720064 18 0.1800 0.72007 5 0.0500 0.350048 4 0.0400 0.3200210 2 0.0200 0.2000µ12 1 0.0100 0.12000A100 1.0000 2.89000 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5L’andamento parabolico della somma degli scarti raggiunge il minimo se il riferimento è la me<strong>di</strong>a aritmetica. Tale proprietà consenteun’ulteriore interpretazione della me<strong>di</strong>a aritmetica (cfr. Frosini, 1987, pp. 82-83): se con lo scarto al quadrato si misura un aspettonegativo: una per<strong>di</strong>ta, un rischio, un costo, etc. µ è il valore che lo mantiene al minimo (se gli scarti sono in valore assoluto talecaratteristica è della me<strong>di</strong>ana).4) Riproducibilità rispetto a trasformazioni lineari. Supponiamo che la variabile X sia trasformata lineare:Ve<strong>di</strong>amo che succede alla me<strong>di</strong>a aritmetica.Y = a+ bX i = 12 , ,…,nii( ) =µ = ∑ Y f = ∑ a + bX f ∑ af + b∑X f = a + bµykkki ii i i i i xi= 1 i= 1 i=1 i=1La me<strong>di</strong>a aritmetica segue la stessa sorte della variabile subendo una uguale trasformazione.kEsempio:Bilancio delle principali squadre <strong>di</strong> calcio <strong>di</strong> serie A (in milioni).Squadre Lire DollariJuventus 1847 947.18Milan -27093 -13893.85Inter -21442 -10995.90Roma 504 258.46Parma -25418 -13034.87Lazio 251 128.72Fiorentina -10579 -5425.13Sampdoria -879 -450.77Bologna -8822 -4524.10µ=-10181.22 -5221.14Conversione in migliaia <strong>di</strong> dollari. Ipotizzando un rapporto <strong>di</strong> conversione 1000: 1950, la me<strong>di</strong>a in lire µ=-10’181.22 <strong>di</strong>venta µ=-10’181.22/1950=-5’221.14 in migliaia <strong>di</strong> dollari che coincide con la il calcolo <strong>di</strong>retto della me<strong>di</strong>a in tale unità <strong>di</strong> misura.Esercizio_SD25: è stata calcolata la me<strong>di</strong>a aritmetica <strong>di</strong> n=20’000 misurazioni comprese tra 1 e 1000 ottenendoun valore <strong>di</strong> µ=199; prima <strong>di</strong> pubblicare i risultati ci si accorge che i dati erano in realtà dei decimali in cuiera stato omesso lo “0.”; si può recuperare la me<strong>di</strong>a aritmetica dei valori originali?


1596) La me<strong>di</strong>a aritmetica è associativa. Supponiamo <strong>di</strong> in<strong>di</strong>viduare “g” gruppi <strong>di</strong> unità all’interno delle nostre unità(si parla <strong>di</strong> miscuglio). Le modalità hanno due in<strong>di</strong>ci: il primo per il gruppo ed il secondo per le unità del gruppo.Gruppi Valori UnitàniG1 X11 X12 X1nn1 1Xg∑ ijj = 1G2 X21 X22 X2nn2 2 ∑ ni= n; µi= ; i = 12 , ,…,gi=1niMG X X X ng g1 g2gnggµ iè la i-esima me<strong>di</strong>a aritmetica parziale. La proprietà associativa consente <strong>di</strong> ricavare la me<strong>di</strong>a aritmeticacomplessiva µ da quelle dei singoli gruppi:µ=g n i∑ ∑ X iji=1j=1n=n i∑ Xg ijj=1∑ n ii=1 n in=g∑ n i µ ij=1ng= ∑µ i f ij=1Ne consegue che si può calcolare la me<strong>di</strong>a globale a partire dalle me<strong>di</strong>e <strong>di</strong> gruppo anche ignorando i valori dellesingole osservazioni.Esempio:Per tre <strong>di</strong>verse aree si è considerato il consumo me<strong>di</strong>o annuo per famiglia <strong>di</strong> zucchero.Aree Unità Me<strong>di</strong>eZona_ A 647 115Zona_ B 173 80Zona_ C 435 75totale 1255 ?µ= 647 173 435*115 + *80+1255 1255 1255 *75= 96.31Note le µ i e le numerosità, il calcolo della me<strong>di</strong>a aritmetica globale non presenta ostacoli. La me<strong>di</strong>a aritmetica del miscuglio è pari allame<strong>di</strong>a aritmetica dei singoli gruppi; se poi le me<strong>di</strong>e <strong>di</strong> gruppo sono uguali a µ, allora anche la me<strong>di</strong>a del miscuglio è pari a µ comeè evidente dalla sua espressione (cfr. Olivieri, 1995, pp.44-45).Esercizio_SD26: la variabile Z è data dalla somma <strong>di</strong> “m” variabili:Z = ∑ X ; i = 12 , ,…,kSi può ricavare la me<strong>di</strong>a aritmetica <strong>di</strong> Z se sono note le me<strong>di</strong>e delle “m” variabili {X i}?imj=1ijEsercizio_SD27: la <strong>di</strong>stribuzione dei red<strong>di</strong>ti in euro in un Paese è stata <strong>di</strong>visa in quintili e le me<strong>di</strong>e aritmetichedei percettori <strong>di</strong> red<strong>di</strong>to ricadenti nelle varie categorie sono: µ 1=6217, µ 2=18374, µ 3=25701, µ 4=31498,µ 5=43533,. Qual’è la me<strong>di</strong>a aritmetica globale?La me<strong>di</strong>a aritmetica per dati in classiSe fossero <strong>di</strong>sponibili le me<strong>di</strong>e e le frequenze per ciascuna delle classi il calcolo <strong>di</strong> µ sarebbe semplice: me<strong>di</strong>aaritmetica delle me<strong>di</strong>e parziali. Il fatto è che le me<strong>di</strong>e aritmetiche <strong>di</strong> classe -solitamente- non sono note ed occorrestimarle. L’accorgimento più imme<strong>di</strong>ato e ricorrente è l’uso del valore centrale delle classi:Ui+ Liµ i = ; i = 12 , ,…,k2Qualora uno degli estremi fosse indeterminato, il valore centrale potrà essere calcolato con le formule viste nelparagrafo 2.2.4 o altra procedura ritenuta opportuna.


160Esempi:a) Casi <strong>di</strong> epatite A in un comune.Età Pazienti c f Xif≤9 662 6.75 0.5400 3.644810 19 420 14.50 0.3426 4.967420 29 117 24.50 0.0954 2.338130 39 18 34.50 0.0147 0.506540 49 5 44.50 0.0041 0.1815≥50 4 52.25 0.0033 0.17051226 1.0000 11.8087Calcolo della me<strong>di</strong>a aritmetica ipotizzando per le classi estreme un’ampiezza pari alla metà dell’ampiezza delle classi loro contigue.Uso dei valori centralib) Percentuale <strong>di</strong> un elemento chimico nelle ceneri in n=130 prelievi in un bosco <strong>di</strong>strutto dagli incen<strong>di</strong>.L U n f (0.6L+0.4U)f (0.5L+0.5U)f0 0.99 4 0.031 0.012 0.0151 1.99 14 0.108 0.151 0.1612 2.99 38 0.292 0.702 0.7293 3.99 43 0.331 1.125 1.1564 4.99 23 0.177 0.778 0.7955 5.99 6 0.046 0.249 0.2546 6.99 2 0.015 0.055 0.100130 1.000 3.072 3.210Per correggere la tendenza della me<strong>di</strong>a aritmetica a privilegiare i valori elevati le me<strong>di</strong>e <strong>di</strong> classe sono state calcolate dando più pesoall’estremo inferiore.Esercizio_SD28: luoghi d’arte per prezzo <strong>di</strong> ingresso. Calcolare µ stimando le me<strong>di</strong>e <strong>di</strong> classe come:a) µ =(2) L + (5 7 7 ) U i = 12 , ,…, k;i i ib) 2 L 1 3 3U i 12 , , , kµ =( ) + ( ) = …i i iCosto Luoghi1000 2000 22000 3000 73000 4000 244000 5000 455000 6000 526000 7000 177000 8000 88000 9000 69000 10000 3164Le me<strong>di</strong>e ponderateLa formula della me<strong>di</strong>a aritmetica può essere considerata un caso speciale <strong>di</strong> me<strong>di</strong>a ponderata:che coincide con µ se w i=f iper ogni “i”.kMw ( 1 ,w 2 ,…,w k )= ∑ w i X i ; con w i ≥ 0; ∑ w i = 1i=1ki=1Esempi:a) Un campione <strong>di</strong> giovani <strong>di</strong>soccupati <strong>di</strong>plomati e laureati è raggruppato per numero <strong>di</strong> domande inviate alle aziende fuori dalla regione<strong>di</strong> residenza. La me<strong>di</strong>a aritmetica, calcolata in base alle frequenze relative, è µ=2.86; nella tabella è riportato il calcolo con pesi:wi=1fi; i= 12 , ,…,kk∑ 1fi=1iDomande Disoccupati f 1/f w Xw i0 25 0.1667 6.0000 0.0239 0.00001 30 0.2000 5.0000 0.0199 0.01992 26 0.1733 5.7692 0.0230 0.04593 20 0.1333 7.5000 0.0298 0.08954 14 0.0933 10.7143 0.0426 0.17055 11 0.0733 13.6364 0.0543 0.27136 8 0.0533 18.7500 0.0746 0.44777 7 0.0467 21.4286 0.0853 0.59698 4 0.0267 37.5000 0.1492 1.19389 3 0.0200 50.0000 0.1990 1.790710 2 0.0133 75.0000 0.2984 2.9845150 1.0000 251.2985 1.0000 7.6108Qui si inverte l’importanza delle modalità: quelle meno frequenti hanno maggiore peso e quelle più riscontrate vedono ridotto il loroapporto alla me<strong>di</strong>a che ora vale: µ=7.61b) Spesso, le rilevazioni campionarie risultano dall’aggregazione <strong>di</strong> varie sottorilevazioni <strong>di</strong> ampiezza <strong>di</strong>versa che cercano <strong>di</strong> riprodurrela composizione della popolazione rispetto ad alcune variabili criterio ovvero <strong>di</strong> aumentare o <strong>di</strong>minuire la presenza <strong>di</strong> particolaricategorie <strong>di</strong> unità per via ponderale cioè tenendo conto <strong>di</strong> tute le unità, ma non pesi unitari. Una me<strong>di</strong>a non ponderata e che quin<strong>di</strong>ignorasse queste procedure potrebbe portare fuori strada.


161La me<strong>di</strong>a ponderata ha molte applicazioni come vedremo (una l’abbiamo già incontrata nella stima delle me<strong>di</strong>e<strong>di</strong> classe per il calcolo della me<strong>di</strong>a aritmetica). Il punto <strong>di</strong> forza, ma anche <strong>di</strong> debolezza, è la flessibilità nella sceltadei pesi che è arbitraria.Esercizio_SD29: si definiscano i pesi come segue:wi⎧⎪= ⎨⎪⎩⎪( )2firfirse fse fii> Me<strong>di</strong>ana{ f }≤ Me<strong>di</strong>ana{ f }a) Applicatela ai dati dell’esempio precedente;b) E’ possibile usare pesi negativi?ii2iifi≤ Me{ fi} fi>Me{ fi}= … = ∑ + ( )i 12 , , , k ; con r f ∑ f3.1.5 Le me<strong>di</strong>e <strong>di</strong> potenzeLa me<strong>di</strong>a aritmetica rientra in una classe, le “me<strong>di</strong>e <strong>di</strong> potenza”, che esprime l’or<strong>di</strong>ne <strong>di</strong> grandezza del fenomenocon il coinvolgimento <strong>di</strong> tutti i valori osservati:⎧ kα ⎫MX ( 1 ,…,X k ;f 1 ,…,f k ;α)= ⎨ ∑ X i f i ⎬⎩i=1⎭Le me<strong>di</strong>e <strong>di</strong> potenze, fermo restando il vincolo <strong>di</strong> internalità, sod<strong>di</strong>sfano l’importante principio, suggerito da O.Chisini nel 1926, <strong>di</strong> misurare la centralità lasciando invariato un particolare aspetto del fenomeno allorché alposto <strong>di</strong> ogni X isi sostituisca la M:gX ( , X, …, X; f, … f)= gMM , ,…, M; f, …,f1 2 k 1 k 1 k1 α( )Ad esempio, la me<strong>di</strong>a aritmetica posta in vece <strong>di</strong> ciascuna X iconserva l’ammontare complessivo delle modalità(ammesso che ciò abbia un senso nel contesto considerato). Per ogni α si ottiene una me<strong>di</strong>a che riproduce lasomma delle potenze α-esime:k∑i=1[ M( α )] α n i = M( α )[ ] α n ikα∑ Xki nik∑ = i=1α* n = ∑ X i nii=1 n i=1Esempio:Il vincolo della internalità non è automaticamente sod<strong>di</strong>sfatto dalle me<strong>di</strong>e <strong>di</strong> potenze. Ripren<strong>di</strong>amo l’esempio suggerito da Jecklin(1949) scegliendo due modalità con x 1 2.Le me<strong>di</strong>e <strong>di</strong> potenze godono <strong>di</strong> molte proprietà (la loro <strong>di</strong>mostrazione è proposta nel compito <strong>di</strong> riepilogo SD70).Esercizio_SD30: la con<strong>di</strong>zione <strong>di</strong> internalità risale a A.L. Cauchy: “On appelle moyenne entre plusiers quantitésdonnées une nouvelle quantité comprise entre la plus petite et la plus grande de celles que l’on considère”. Nelladefinizione c’è un problema. Quale?


162Esercizio_SD31: si consideri il seguente triangolo:2 2Sia: OP = m 1 ; OQ = m 2 . La lunghezza del terzo lato, grazie al teorema <strong>di</strong> Carnot, è: m = m + m − 2m m cos( θ)3 1dove θ è l’angolo tra i due lati <strong>di</strong> lunghezza nota. Supponiamo <strong>di</strong> cercare una “me<strong>di</strong>a”, M, dei due lati che <strong>di</strong>acomunque lo stesso valore m 3una volta sostituita alle lunghezze dei lati, cioè:2 2 2M + M − 2M cos( θ) = ma) Calcolare M ; b) Cosa si può <strong>di</strong>re sulla con<strong>di</strong>zione <strong>di</strong> internalità?321 2La me<strong>di</strong>a geometricaE’una misura <strong>di</strong> centralità adatta per fenomeni evolutivi (andamento esponenziale) in cui le modalità si realizzanoproporzionalmente al livello già raggiunto:k∑fG = X i fi = X 1 f1 * X 2 f2 *…*X k k = e f iLn( X i )i=1∏i=1L’uso dei logaritmi evita il prodotto nell’argomento che potrebbe produrre valori troppo gran<strong>di</strong> (o troppo piccoliin caso <strong>di</strong> modalità frazionarie). La base “e” non è obbligatoria e possono essere scelti i logaritmi in qualsiasi base.kEsempi:a) I laboratori <strong>di</strong> analisi specificano la concentrazione <strong>di</strong> una sostanza misurata per <strong>di</strong>luizioni successive con espressioni del tipo x i =2 i c,i=0,1,2,… dove “c” è una costante. Ne deriva una <strong>di</strong>stribuzione su <strong>di</strong>versi livelli, la cui centralità è meglio misurata dalla me<strong>di</strong>a aritmeticadei logaritmi (considerando poi l’antilogaritmo). Infatti, la successione dei logaritmi è equispaziata cioè due logaritmi consecutivi<strong>di</strong>fferiscono per la stessa costante: Log(x i+1 ) -Log(x i ) =Log(2 i+1 c) -Log(2 i c)=(i+1)Log(2)+log(c)-iLog(2)-Log(c)=(i+1-i)Log(2)=Log(2).b) Un risparmiatore investe una certa somma A in una attività a ren<strong>di</strong>mento variabile X i . In<strong>di</strong>chiamo con T i il red<strong>di</strong>to accumulato allafine del periodo i-esimo si avrà, per ogni “i”:T1 = A+ X1A= A( 1+X1) ; T2 = T1 + X2T1 = T1( 1+X2)= A( 1+X1) ( 1+X2) ; …kTi = Ti−1 + XiTi−1 = Ti−1( 1+Xi)= A( 1+X1) ( 1+X2)… ( 1+Xi)⇒ R= A∏ ( 1+Xi)i=1Se il ren<strong>di</strong>mento fosse costante, <strong>di</strong>ciamo G, nei “k” perio<strong>di</strong>, dopo l’ultimo <strong>di</strong> essi si avrebbe un capitale pari a R=A(1+G) k . Uguagliandole due espressioni <strong>di</strong> R si ottiene:1A ( 1 + G) k k⎡ k ⎤ k= A ∏ ( 1 + X i )⇒ ( 1 + G)= ⎢ ∏ ( 1 + X i ) ⎥i=1⎣i=1⎦La me<strong>di</strong>a geometrica dei fattori <strong>di</strong> capitalizzazione è quel valore (1+G) che, sostituito a tutti gli altri, lascerebbe inalterato l’importo.c) I logaritmi sono meno soggetti a variazioni rispetto ai valori originari e quin<strong>di</strong> la loro me<strong>di</strong>a aritmetica (che corrisponde alla me<strong>di</strong>ageometrica) è più stabile ovvero meno influenzata da valori gran<strong>di</strong>. Infatti, nella progressione geometrica in ragione “2” si ha:Xi 2 4 8 16 32 64 128 256 512 1024 204.6Log(X i) 0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 2.7093 3.0103 1.6557 45.2548con una me<strong>di</strong>a geometrica, G=45.25 che supera ed è superata dallo stesso numero <strong>di</strong> valori rispetto ad una me<strong>di</strong>a aritmetica: µ=204.6che ne supera sette ed è superata solo da tre.d) Numero <strong>di</strong> casse attive su 7 in un supermercato rilevate in n=110 spot temporali. Anche in questo caso conviene calcolare la me<strong>di</strong>aaritmetica dei logaritmi per poi calcolare la me<strong>di</strong>a geometrica come antilogaritmo:G = e 0.4284 = 1.5348Attive Lotti f Ln(Xi)f1 70 0.6364 0.00002 14 0.1273 0.08823 8 0.0727 0.07994 7 0.0636 0.08825 6 0.0545 0.08786 3 0.0273 0.04897 2 0.0182 0.0354110 1.0000 0.4284Da notare che µ=1.93 e ciò desterebbe un maggiore allarme sullo stato del processo.


163Esercizio_SD32: alcuni criceti sono sottoposti per n=20 volte ad un test non cruento.La tabella che segue in<strong>di</strong>ca il numero <strong>di</strong> animali che hanno superato il test.a) Calcolare la me<strong>di</strong>a geometrica;b) Che effetto potrebbe avere una frequenza nulla?c) E se fosse nulla una modalità?Successi Prove f5 1 0.05006 2 0.10007 3 0.15008 8 0.40009 4 0.200010 2 0.100020 1.0000Il raggruppamento delle modalità in classi comporta -come sempre- problemi <strong>di</strong> indeterminatezza dovute allaper<strong>di</strong>ta dei valori <strong>di</strong> dettaglio. Il fatto che la me<strong>di</strong>a geometrica totale sia pari alla me<strong>di</strong>a geometrica delle parziali(si veda il compito SD50) non è <strong>di</strong> aiuto perché queste sono solitamente incognite. Per approssimarle si adoperala me<strong>di</strong>a geometrica degli estremi: G i=√U iL iEsempi:Parco autoveicoli per anni <strong>di</strong> servizio. Calcolo delle me<strong>di</strong>a geometrica.G = e 1.5969 = 4.9377Anni Veicoli G i fi Ln(Xi)f i1 2 23 1.4142 0.0979 0.03393 4 81 3.4641 0.3447 0.42825 7 75 5.9161 0.3191 0.56738 12 40 9.7980 0.1702 0.388512 16 16 13.8564 0.0681 0.1790235 1.0000 1.5969Esercizio_SD33: popolazione presente non residente per sesso in Emilia-Romagna.Età F M1 15 822 87115 24 802 98325 34 1473 247334 44 668 121245 54 388 50155 64 655 6384808 6678a) Calcolare la me<strong>di</strong>a geometrica delle due <strong>di</strong>stribuzioni separatamente;b) Calcolare la me<strong>di</strong>a geometrica della <strong>di</strong>stribuzione ottenuta aggregando per le <strong>di</strong>stribuzioni per sesso.La me<strong>di</strong>a armonicaLa me<strong>di</strong>a armonica è definita come il reciproco della me<strong>di</strong>a aritmetica dei reciproci:H =k∑1f ii=1 X i; per X i ≠ 0E’ un in<strong>di</strong>ce che esprime bene la centralità per modalità ottenute da moltiplicazioni: <strong>di</strong>stanze come prodotto <strong>di</strong>velocità per tempo, valori come prodotto <strong>di</strong> prezzo per quantità, ren<strong>di</strong>menti per tempi <strong>di</strong> produzione, etc.Esempi:a) Si spende A per acquistare la quantità X 1 <strong>di</strong> una merce al prezzo p 1 in modo che A=X 1 p 1 , lo stesso importo è speso per acquistarne laquantità X 2 al prezzo p 2 con A=X 2 p 2 e così via fino spendere l’importo A per acquistarne la quantità X k al prezzo p k dove A=X k p k . Alla finesi <strong>di</strong>sporrà <strong>di</strong> un ammontare <strong>di</strong> merce Q=X 1 +X 2 +…+X k per una spesa complessiva pari ad T=kA. Qual’è il prezzo me<strong>di</strong>o che si è pagato?p = T Q = kA = kA k 1= =k k A k 1 k 1∑ X i ∑ ∑ ki=1 i=1 p i i=1 p ∑ i i=1 p ib) Un percorso <strong>di</strong> 100 Km è <strong>di</strong>viso in due tratti <strong>di</strong> uguale lunghezza. Nella prima metà la velocità è stata <strong>di</strong> 10 Km/h e nella seconda <strong>di</strong> 50Km/h. Qual’è stata la velocità me<strong>di</strong>a sull’intero percorso? La risposta spontanea sarebbe la me<strong>di</strong>a aritmetica: 30 Km/h perché (10+50)/2=30 cheperò è meno valida della me<strong>di</strong>a armonica per esprimere la centralità. Il tempo totale impiegato è <strong>di</strong> 5 ore per percorrere i primi 50 Km e <strong>di</strong>un’ora per gli altri 50 Km quin<strong>di</strong> 6 ore per 100 Km che porta a 100/6=16.67 Km/h (De Finetti, 1966/1990): 2/[(1/10)+(1/50)]=100/6=16.67La me<strong>di</strong>a armonica è inoltre impiegata quando l’or<strong>di</strong>ne <strong>di</strong> grandezza dei valori è piccolo ad esempio quando lemodalità esprimono il contributo frazionario dell’unità alla composizione <strong>di</strong> un tutto.


164Esempi:a) Quota <strong>di</strong> provenienza degli iscritti nel gruppo delle lauree letterarie per vari or<strong>di</strong>ni <strong>di</strong> scuola superiore:Profes sional e Tecnici Magistrali Scientifici Classici Artistici Altri0.340 0.136 0.605 0.168 0.304 0.470 0.3731 7 7H = = =7 1 25.9975 = 0.26937 (1/7)∑ ∑i=1 X i=1X i ib) Rilevazione <strong>di</strong> famiglie per numero <strong>di</strong> figli. Calcolo della me<strong>di</strong>a armonica. A questo fine conviene prima calcolare la me<strong>di</strong>a aritmeticadei reciproci e poi considerarne il reciproco.Figli Famiglie f (1/Xi)f1 185 0.5362 0.53621H =0.7119 = 1.4047 2 78 0.2261 0.11303 33 0.0957 0.03194 25 0.0725 0.01815 13 0.0377 0.00756 8 0.0232 0.00397 3 0.0087 0.0012345 1.0000 0.7119Esercizio_SD34: particelle α emesse in 1000 repliche <strong>di</strong> un esperimento.Particelle Repliche1 542 1433 1794 2315 1676 1107 898 209 410 31000a) Calcolare la me<strong>di</strong>a armonica;b) Se si utilizza la trasformazione: Y i=1/(X i+a) con a>0 sarà possibile includere lo zero tra le modalità?Per modalità in classi la me<strong>di</strong>a armonica si ottiene stimando le me<strong>di</strong>e <strong>di</strong> classe con la formula:1H i =λ 1+ λ i = 1, 2,…,k; con λ 1 + λ 2 = 1 (In genere si pone: λ 1=λ 2=0.5)2L i U iEsempi:a) Gare d’appalto per importi a base d’asta oltre la soglia comunitaria. Valori in decine <strong>di</strong> milioni.Importi Gare Hi fi fi/Hi35 100 20329 51.85 0.8438 0.0162734100 500 2846 166.67 0.1181 0.0007088500 1000 452 666.67 0.0188 0.00002811000 5000 205 1666.67 0.0085 0.00000515000 10000 147 6666.67 0.0061 0.000000910000 20000 92 13333.33 0.0038 0.000000320000 40000 21 26666.67 0.0009 0.000000024092 1.0000 0.0170167Le me<strong>di</strong>e armoniche parziali sono state stimate con la me<strong>di</strong>a armonica degli estremi delle classe. La me<strong>di</strong>a armonica globale è H=1/0.017=58.82 ricadente, come è giusto, nella prima classe dato che questa include più dell’80% delle gare ban<strong>di</strong>te.b) Tasso <strong>di</strong> <strong>di</strong>soccupazione (lavori persi ogni mille posizioni) per varie tipologie professionali.Calcolo delle me<strong>di</strong>e. Tra le proprietà che caratterizzano le me<strong>di</strong>e <strong>di</strong> potenza vi èl’andamento crescente rispetto alla potenza che si risolve nella <strong>di</strong>seguaglianza:H ≤ G≤ µin cui l’uguaglianza si ottiene per la <strong>di</strong>stribuzione degenere, cioè una rilevazione cheproduce un unico valore per tutte le unità. Nell’esempio, le relazioni sono confermatesegnalando un tasso <strong>di</strong> <strong>di</strong>soccupazione me<strong>di</strong>o per le 150 attività lavorative che va dallo0.85% della me<strong>di</strong>a armonica all’1.4% della me<strong>di</strong>a aritmetica. Forse il <strong>di</strong>vario non sembraaccentuato, ma applicato ad un milione <strong>di</strong> lavoratori e lavoratrici significa una <strong>di</strong>fferenza<strong>di</strong> 6’500 persone. La scelta della me<strong>di</strong>a non è una questione solo tecnica e verrà approfon<strong>di</strong>tain un prossimo paragrafo.Tasso Attività c µ G H0.1 0.3 3 0.20 0.004 -0.032 0.1000.3 0.5 7 0.40 0.019 -0.043 0.1170.5 0.7 18 0.60 0.072 -0.061 0.2000.7 0.9 27 0.80 0.144 -0.040 0.2250.9 1.0 16 0.95 0.101 -0.005 0.1121.0 1.1 19 1.05 0.133 0.006 0.1211.1 1.3 29 1.20 0.232 0.035 0.1611.3 1.5 14 1.40 0.131 0.031 0.0671.5 1.7 9 1.60 0.096 0.028 0.0381.7 2.0 6 1.85 0.074 0.025 0.0222.0 2.5 2 2.25 0.030 0.011 0.006150 -0.045 1.1671.036 0.956 0.857Esercizio_SD35: popolazione maschile in Calabria al 1976 per classi <strong>di</strong> età (si scelga L 1=6 e U k=108).Età Maschi≤9 186610 19 <strong>202</strong>220 29 169430 39 111140 49 116850 59 89160 69 81370 79 466≥80 13510166Calcolare la me<strong>di</strong>a armonica stimando H icome me<strong>di</strong>a armonica degli estremi con pesi uguali.


1653.1.6 I valori anomali e le me<strong>di</strong>eLa presenza <strong>di</strong> valori isolati rispetto al resto della <strong>di</strong>stribuzione ha una incidenza <strong>di</strong>versa sulla centralità secondoil tipo <strong>di</strong> me<strong>di</strong>a che si adopera. Ad esempio, per la me<strong>di</strong>a <strong>di</strong> potenza A, l’aggiunta <strong>di</strong> una nuova modalità “x”produce l’effetto:⎛M' ( α,x)= A + xα ⎞⎜⎝ n + 1⎟⎠La M’(α,x) cresce con l’aumentare della modalità e si <strong>di</strong>mostra che, al tendere <strong>di</strong> “x” all’infinito (cioè man manoche M è sempre più caratterizzato dalla “x”), tutte le me<strong>di</strong>e <strong>di</strong> potenze tendono ad “x” annullando il ruolo dellealtre modalità; pensate all’analogia dei pesi sull’asse in equilibrio: più è lontano il punto <strong>di</strong> pressione, maggioreè l’effetto <strong>di</strong> squilibrio. Una tale incisività è dovuto al coinvolgimento esplicito <strong>di</strong> tutte le modalità: una ragione<strong>di</strong> forza in generale, ma che <strong>di</strong>venta una debolezza in presenza <strong>di</strong> valori abnormi.1 αEsempio:Valutiamo me<strong>di</strong>a aritmetica e me<strong>di</strong>ana delle due rilevazioni seguenti:A 5 8 9 9 10 11 12 15 20B 5 8 9 9 10 12 12 15 2013La A e la B <strong>di</strong>fferiscono per l’ultima modalità: da 20 a 2’013: la me<strong>di</strong>a aritmetica passa però da 11 a 232.5 perdendo gran parte della suaidoneità a rappresentare la centralità dei valori. La me<strong>di</strong>ana, basata solo sulle relazioni d’or<strong>di</strong>ne, non cambia (sia in A che in B è uguale a10) qualunque sia la mo<strong>di</strong>fica sugli estremi, purché la graduatoria rimanga invariata; la moda cambia se la mo<strong>di</strong>fica del valore più grandealtera le relazioni d’or<strong>di</strong>ne tra frequenze relative, ma se ciò accadesse vorrà <strong>di</strong>re che il valore non è poi tanto anomalo visto che è quelloche si verifica più spesso.Le me<strong>di</strong>e lasche, grazie al legame meno stretto con le singole modalità, limitano l’impatto dei valori estremi,laddove le me<strong>di</strong>e <strong>di</strong> potenze ne possono essere travolte.I valori anomaliLa possibilità <strong>di</strong> accertare l’anomalia, ci ricorda D.J. Finney (1975), <strong>di</strong>pende dal contesto in cui avviene larilevazione perché solo qui si può avvertire la presenza <strong>di</strong> valori estranei o straor<strong>di</strong>nariamente <strong>di</strong>stinti dal restodelle osservazioni. La serie: {5, 13, 2, 291, 11, 6} può far pensare ad un errore tipografico per spiegare la presenza<strong>di</strong> “291”, che è 22 volte più grande del maggiore tra gli altri. Non è pacifico. Esistono <strong>di</strong>versi fenomeni in cuisi rinvengono valori così eterogenei e solo apparentemente non rappresentativi ed invece legittimati a presentarsidallo spessore delle code (cfr. cap. 7). Ad esempio il numero <strong>di</strong> <strong>di</strong>fetti in un’auto nuova od anche il numero <strong>di</strong>clienti in fila davanti ad uno sportello. Diverso è il caso se i valori derivano da un fenomeno <strong>di</strong> cui abbiamoconoscenza. Ad esempio, se la serie {3.6, 2.7, 2.8, 3.9, 2.1, 85.8, 3.4, 2.8} è riferita al peso alla nascita <strong>di</strong> alcunineonati: il valore “85.8” è viziato da macroscopica illogicità.Esempi:a) Tre persone furono denunciate per truffa ai danni dell’ENEL perché avevano posto in uso contatori “lenti” che segnavano unconsumo minore della effettiva energia erogata. Il furto fu evidenziato da un calo abnorme del consumo rispetto a quelli precedenti.b) Percentuale <strong>di</strong> non votanti in alcuni comuni capoluoghi nelle politiche del 1996.Capoluogo Perc.Alessandria 14Genova 16.7Venezia 17.1Latina 12.4Chieti 16.2Capoluogo Perc. Capoluogo Perc.Napoli 27.3 Macerata 12.7Brin<strong>di</strong>si 19.3 Roma 14.1Vibo Valentia 51.7 Caserta 15.5Varese 13.7 Salerno 16.9La Spezia 12.4 Cosenza 24.5Il dato 51.7 relativo a Vibo Valentia è visibilmente incoerente con le altre percentuali: il valore ad esso più prossimo è quello <strong>di</strong> Napoli:27.3 che è pari solo alla metà <strong>di</strong> quello <strong>di</strong> Vibo. Pur ipotizzando una con<strong>di</strong>zione <strong>di</strong> forte <strong>di</strong>saffezione dal voto il dato sembra troppoestremo per non includere anche una qualche forma <strong>di</strong> protesta o <strong>di</strong> <strong>di</strong>sagio sociale.c) Buckland ed al. (1993, p. 35) sostengono che qualche valore strano, scarsamente compatibile con il profilo complessivo dei dati,è usuale nelle indagini sul campo e ne raccomandano l’eliminazione vista la scarsa utilizzabilità nello stu<strong>di</strong>o delle <strong>di</strong>stribuzioni.I valori anomali (outliers) sono modalità inconsuete alla luce <strong>di</strong> ciò che è noto senza che le si possa ritenere errateovvero senza che ci sia una causa naturale o una teoria che porti a giu<strong>di</strong>carle spurie o <strong>di</strong>fettate, da scartare senzaesitazione.


EEEEEEE166Esempio:Foto all’incanto. Prezzi <strong>di</strong> aggiu<strong>di</strong>cazione esitati a New York il 15.4.1992.Autore Anno Valore P. Outerbridge 1936 3'000'800B. Abbot 1935 4'364'800 I. Penn 1971 27'280'000M. Bourke-White 1932 4'364'800 J. Sudek 1955 3'546'400A. Kertész 1929 19'096'000 E. Weston 1936 25'916'000In questo ambito l’anomalia è più <strong>di</strong>fficile da in<strong>di</strong>viduare dato che nella formazione del prezzo concorrono fattori emotivi e ragioni <strong>di</strong>prestigio. Secondo Christies non esiste un valore eccessivo, qualunque sia l’oggetto battuto.E’ chiaro che, in un insieme <strong>di</strong> modalità <strong>di</strong>sposte in or<strong>di</strong>ne, una <strong>di</strong> esse sarà maggiore delle altre ed un’altra saràminore; solo se questi estremi sono molto remoti rispetto alle modalità loro contigue ovvero remoti rispetto aquanto ragionevolmente ci si può attendere, nascerà il sospetto <strong>di</strong> <strong>di</strong>sfunzioni: se una ASL ha storicamenterichiesto il rimborso <strong>di</strong> un numero mensile <strong>di</strong> “parti cesarei con complicazioni” che oscilla tra i 20 ed i 30 e, undato mese, richiede rimborsi per 120 <strong>di</strong> tali operazioni non necessariamente è un fatto anomalo, ma potrebbeessere la spia <strong>di</strong> un cambiamento nel meccanismo dei rimborsi o nel management della ASL.Esempio:I massimi mensili (classi <strong>di</strong> ampiezza <strong>di</strong> 1 dml) delle precipitazioni giornaliere in una stazione delle isole Fiji sono riassunte (Revfeim,1986) nella tabella che segue. Si riporta inoltre il poligono delle frequenze per valori non superiori ai 19 dml.Xini0 1 391 2 472 3 433 4 434 5 405 6 416 7 287 8 208 9 169 10 1110 11 711 12 712 13 713 14 414 15 515 16 216 17 417 18 218 19 0>19 5504540353025201510500 2 4 6 8 10 12 14 16 18 20Le 5 unità nella classe “>19” sono in parte manifestazioni estreme <strong>di</strong> un fenomeno normale, ma anche veri e proprie catastrofiatmosferiche (lo è ad esempio il valore massimo: 272 dml, non riportato).E’ facile confondere valori <strong>di</strong>scordanti, ma ragionevoli con valori remoti del tutto incompatibili con gli altridati o con la teoria in cui si inquadra la rilevazione. Se un fenomeno può produrre modalità estremamente piccolee/o gran<strong>di</strong> è inevitabile che nel corso della rilevazione qualcuno <strong>di</strong> questi si mostri prima o poi apparendo però<strong>di</strong>screpante dalla maggioranza e non rappresentativo.Esempi:a) Se un provve<strong>di</strong>torato sbaglia una volta su cento a comunicare il numero <strong>di</strong> docenti in servizio sarà <strong>di</strong>fficile accorgersi della presenza<strong>di</strong> un valore anomalo confrontando poche rilevazioni: {1781, 1975, 1789, 1763}. Le possibilità aumentano se il numero <strong>di</strong> rilevazioniè più esteso. Se si analizza la serie per un numero maggiore <strong>di</strong> anni si potrà spiegare lo scostamento <strong>di</strong> un dato da tutti gli altri: {1736,1778, 1801, 1795, 1733, 1756, 1719, 1728, 1768, 1781, 1975, 1789, 1763}. In questo caso, il dato “1975” è da attribuire o ad unainversione <strong>di</strong> cifre (1795) ovvero alla confusione del numero <strong>di</strong> docenti con l’anno <strong>di</strong> rilevazione. Il giu<strong>di</strong>zio sull’anomalia non puòprescindere dal numero <strong>di</strong> osservazioni considerate.b) Hamilton (1990, p150-152) propone come caso <strong>di</strong> valore remoto il numero <strong>di</strong> matrimoni ogni 100 residenti per gli Stati dellafederazione USA. Ecco il <strong>di</strong>agramma a punti per il logaritmo del rapporto:EEEEEEE E EE EEEEEEEEE EEE1.9 2.1 2.3 2.5 2.7 2.9 3.1 3.3 3.5 3.7 3.9 4.1 4.3 4.5 4.7 4.9 5.1Nonostante l’effetto telescopico della scala logaritmica il dato relativo al Nevada (142.83) contro una me<strong>di</strong>ana <strong>di</strong> circa 10.57 ed unvalore penultimo <strong>di</strong> 17.27 emerge senza ombra dubbio come valore anomalo. In questo caso la sua cancellazione dal data set èmotivata dalle <strong>di</strong>sinvolte leggi <strong>di</strong> quello Stato che agevola particolarmente le nozze dei non residenti e che lo rendono un caso<strong>di</strong>somogeneo rispetto al resto.Esercizio_SD36: il rischio <strong>di</strong> violazione della riservatezza dei dati rilasciati nelle indagini statistiche è influenzatodalla presenza <strong>di</strong> casi unici. Diversi stu<strong>di</strong>osi ipotizzano che la percentuale <strong>di</strong> casi eccezionali presenti inuna determinata area <strong>di</strong>penda soprattutto dal numero <strong>di</strong> unità presenti in essa.a) Che relazione ritenete possa esistere tra la percentuale <strong>di</strong> incremento <strong>di</strong> casi unici e la percentuale <strong>di</strong>incremento <strong>di</strong> popolazione dell’area; b) Il caso unico può sempre essere considerato un caso anomalo?c) Discutete il trade-off tra aumento dei dettagli rilevati sull’unità ed il rischio <strong>di</strong> violazione della privacydell’unità stessa.


167Caratteristiche della anomaliaIglewicz e Hoaglin (1996, pp. 6-7) affermano che, a livello teorico e pratico, è riconosciuta la necessità <strong>di</strong>effettuare sui dati controlli <strong>di</strong> routine per la ricerca <strong>di</strong> valori eccezionali. Anche se questi dovessero risultareosservazioni isolate e inatten<strong>di</strong>bili, spesso hanno origine in una causa identificabile e la sua conoscenza contribuiràad una migliore comprensione del fenomeno che produce i dati. Spesso, i valori anomali sono trattati consospetto e fasti<strong>di</strong>o dato che compromettono l’opportunità <strong>di</strong> rappresentare la rilevazione empirica con un modelloteorico semplice e ben conosciuto e c’è il rischio concreto che una minuscola frazione dei dati finisca con ildeterminare le conclusioni <strong>di</strong> un’indagine.L’anomalia <strong>di</strong> per sé non è una caratterizzazione negativa. Infatti, ricordano Barnett e Lewis (1978, p. 32)un fisico delle particelle può considerare un colpo <strong>di</strong> fortuna e non un errore la presenza <strong>di</strong> una osservazionetalmente <strong>di</strong>scosta dalle altre da far pensare piuttosto ad un nuovo tipo <strong>di</strong> particella. Come si è già detto altrove,molte scoperte scientifiche e molti successi commerciali sono dovuti alla constatazione <strong>di</strong> valori troppo estremio fuori posto rispetto al contesto ed al tentativo riuscito <strong>di</strong> spiegarne la ragione. I valori anomali sono lampi <strong>di</strong>luce scorti da lontano. A produrre il brillìo può essere un coccio <strong>di</strong> bottiglia lasciato dai gitanti oppure unosmeraldo grezzo; per capire <strong>di</strong> che si tratta occorre andare a vedere.Esempi:a) La procura della repubblica avviò un’indagine intesa ad accertare i motivi per i quali a Catanzaro si verificava una consistenteaffluenza <strong>di</strong> can<strong>di</strong>dati provenienti da altre regioni per gli esami <strong>di</strong> Stato per l’abilitazione alla professione <strong>di</strong> avvocato. Uno dei dati <strong>di</strong>partenza fu una percentuale <strong>di</strong> promossi molto più elevata <strong>di</strong> quanto non si registrasse in altri <strong>di</strong>stretti <strong>di</strong> corte d’appello.b) Barnett e Lewis (1978, p. 6) riportano la seguente serie: {43, 43, 41, 41, 41, 41, 43, 58, 58, 41, 41} relativa alla temperatura in gra<strong>di</strong>Farhenheit tra la sera del 31.12.1960 e il mattino del 1.1.1961 nel Nord della Scozia. Il valore “58” è manifestamente incoerente conil livello generale degli altri. Tanto più inverosimile se si pensa che corrisponde a circa 14° il che non è male per la notte <strong>di</strong> Capodannoa due passi dal Polo Nord. Un esame più approfon<strong>di</strong>to accertò che, dopo la mezzanotte, venne adottato un sistema <strong>di</strong> registrazionedelle temperature in gra<strong>di</strong> Celsius per cui “58” andava letto come “5.8” corrispondente a 42 gra<strong>di</strong> Farenheit; inoltre, “41” era ”4.1” ilche equivale a 39F° e quin<strong>di</strong> in linea con quelli registrati prima.Esercizio_SD37: copie <strong>di</strong>ffuse per giornalisti assunti per i quoti<strong>di</strong>ani italiani (ads 12/99; 11/2000).0.37 0.45 0.46 0.56 0.61 0.61 0.63 0.63 0.63 0.69 0.71 0.75 0.80 0.80 0.81 0.850.85 0.86 0.89 0.89 0.89 0.89 0.93 0.95 0.99 1.02 1.03 1.10 1.13 1.19 1.23 1.241.24 1.25 1.35 1.37 1.37 1.38 1.51 1.62 1.62 1.73 2.08 2.13 2.16 2.64 3.00 3.15Rappresentare graficamente la <strong>di</strong>stribuzione e <strong>di</strong>scutere la presenza <strong>di</strong> valori remoti.Esercizio_SD38: una ricerca <strong>di</strong> mercato tentò <strong>di</strong> in<strong>di</strong>viduare quanto fossero efficaci i canali televisivi. La ricercasi concentrò su 24 zone <strong>di</strong>vise in tre gruppi: A, B, C in cui il prodotto era pubblicizzato con gli stessi spot su TVnazionali, su TV locali inserite in network nazionali e TV locali. Gli incrementi <strong>di</strong> ven<strong>di</strong>ta furono i seguenti:TV Naz. 6.7 8.1 7.2 8.3 6.8 7.1 1.5 8.2TV L/N 3.2 0.1 3.9 4.1 4.4 4.5 3.3 2.9TV Loc. 1.5 1.2 1.1 1.4 1.3 1.6 1.4 1.3I valori inclusi nei cerchi furono riconosciuti anomali: un insuccesso così patente delle campagna pubblicitariain quelle zone era sorprendente. Un semplice incrocio <strong>di</strong> dati bastò per accertare che le due zone erano se<strong>di</strong> <strong>di</strong>stabilimenti per la produzione del bene che davano molta occupazione tra <strong>di</strong>retta ed indotta. Ogni incremento<strong>di</strong> pubblicità qui era da considerarsi superfluo. Che insegnamento si può trarre?Le me<strong>di</strong>e troncateUn espe<strong>di</strong>ente ingegnoso per instaurare un legame forte tra modalità e in<strong>di</strong>ce <strong>di</strong> centralità e -nello stesso tempocontenerel’effetto dei valori abnormi è il taglio delle ali ovvero l’eliminazione <strong>di</strong> una certa percentuale in unao in entrambe le code come ancora si fa nella valutazione delle performances in <strong>di</strong>versi sport. Limiteremo peròla <strong>di</strong>scussione alla sola me<strong>di</strong>a aritmetica. In<strong>di</strong>chiamo con M γ1,γ2la me<strong>di</strong>a calcolata sulle modalità superiori alquantile <strong>di</strong> or<strong>di</strong>ne γ 1ed inferiori al quantile γ 2:Mγ1, γ =2n−[ nγ2 ]∑ Xi ()i=[ nγ1 ]n nγnγ− [ 2]− [ 1]Questa formula è nota come me<strong>di</strong>a aritmetica troncata o potata (in inglese: trimmed) e la rilevazione che risultadalla potatura dei valori più estremi è detta rilevazione troncata.


168Esempi:a) Un partito politico ha ottenuto, negli n=29 comuni considerati in un sondaggio, i voti qui in<strong>di</strong>cati.831 195 781 294 249 241 749 146 286 14451367 266 977 1668 1122 563 498 630 1164 1240620 377 1516 240 724 300 1097 228 2213La me<strong>di</strong>a aritmetica totale è M 0.0 =759.55. Eliminiamo adesso i valori inferiori al primo decile e superiori all’ultimo ventile, cioè vincoliamoi voti nell’intervallo: X 0.1 < X


169Le me<strong>di</strong>e winsorizzateInvece <strong>di</strong> eliminare del tutto i valori anomali si possono sostituire con delle opportune stime ottenendo le me<strong>di</strong>ewinsorizzate (dall’autore, il naturalista C.P. Winsor, che ne avviò l’uso).( )


1703.1.7 Uso dei valori me<strong>di</strong>I valori me<strong>di</strong> danno conto del centro della <strong>di</strong>stribuzione che può essere visto sia come il punto da cui le modalità <strong>di</strong>stanomeno che come la modalità tipica o riscontrata in una posizione tipica della <strong>di</strong>stribuzione. Il loro uso non può essere<strong>di</strong>sgiunto dall’apporto informativo <strong>di</strong> altre statistiche e dall’essere riferiti ad una rilevazione campionaria o totale, percui le considerazioni qui svolte saranno incomplete. La compatibilità con la scala <strong>di</strong> misurazione è un requisitoessenziale: la me<strong>di</strong>a aritmetica (e le me<strong>di</strong>e potenze) richiedono la scala metrica: è vero che in <strong>di</strong>verse indaginile scale or<strong>di</strong>nate o parzialmente or<strong>di</strong>nate sono tradotte in numeri (un esempio del genere è, come abbiamo visto,il calcolo del voto me<strong>di</strong>o sugli esami sostenuti), ma è arbitrario ed ogni altro insieme <strong>di</strong> numeri che producesseuna me<strong>di</strong>a antagonista non potrebbe essere contestata. Il principio <strong>di</strong> Chisini è un buon ausilio per scegliere lame<strong>di</strong>a: l’idea che essa sia funzionale alla preservazione <strong>di</strong> un aspetto particolare fornisce un’in<strong>di</strong>cazione imme<strong>di</strong>atae comprensibile su come orientarsi ed abbiamo visto varie circostanze in cui era preferibile ora l’una oral’altra me<strong>di</strong>a <strong>di</strong> potenze. C’è da notare però che tali me<strong>di</strong>e stanno tra <strong>di</strong> loro in una relazione d’or<strong>di</strong>ne ed è <strong>di</strong>fficileche conclusioni tratte ad esempio sulla base della me<strong>di</strong>a aritmetica siano sconvolte o sostanzialmente alteratedall’uso della me<strong>di</strong>a geometrica o armonica. D’altra parte se manca una finalità da inquadrare nel principio <strong>di</strong>funzionalità, qualsiasi me<strong>di</strong>a <strong>di</strong> potenza potrebbe essere la prescelta.Esempi:a) Monari (1981) scrive: “...Scegliere la me<strong>di</strong>a aritmetica come misura <strong>di</strong> sintesi equivale a ritenere ugualmente probabili gli errori <strong>di</strong>uguale ammontare in eccesso o in <strong>di</strong>fetto. Quando invece vi è ragione <strong>di</strong> ritenere ugualmente possibili gli errori che danno luogo arapporti <strong>di</strong> uguale ammontare in eccesso o in <strong>di</strong>fetto, la misura <strong>di</strong> sintesi più conveniente <strong>di</strong>venta la me<strong>di</strong>a geometrica.”b) Yule e Kendall (1968, p.114-115) ritengono che, se la rilevazione trattata è parte <strong>di</strong> una indagine più ampia che prevede lacombinazione <strong>di</strong> più rilevazioni, allora la me<strong>di</strong>a aritmetica è quella che si presta meglio alla aggregazione <strong>di</strong>retta degli in<strong>di</strong>ci <strong>di</strong> centralità(ciò non è possibile per la me<strong>di</strong>ana e per la moda) ed è algebricamente più complesso per le altre me<strong>di</strong>e <strong>di</strong> potenze.c) Un vecchio metodo per il calcolo della ricchezza privata <strong>di</strong> una nazione quando non si <strong>di</strong>sponeva <strong>di</strong> rilevazioni più specifiche sibasava sull’ammontare dei beni trasmessi in ere<strong>di</strong>tà in un singolo anno moltiplicato per la durata me<strong>di</strong>a dell’intervallo tra duesuccessivi trapassi: il cosiddetto intervallo devolutivo me<strong>di</strong>o (Boldrini, 1968, p. 457, De Finetti, 1966/1990). A questo fine era utilizzatala me<strong>di</strong>a aritmetica degli anni che intercorrono tra la morte dei genitori e quella dei figli, ma si trattava <strong>di</strong> un errore: l’intervallo me<strong>di</strong>onon interessa come durata, ma come velocità <strong>di</strong> trasferimento dei patrimoni per cui doveva essere usata la me<strong>di</strong>a armonica. Si abbiano“n” patrimoni i cui valori siano v 1 , v 2 , …,v n e che siano trasferiti -per donazione o lascito- con gli intervalli temporali in anni t 1 , t 2 , …,t n ;la quantità <strong>di</strong> ricchezza annualmente trasferita per l’i-esima persona è r i =v i /t i . L’uguaglianza tra la somma dei valori patrimonialitrasferiti v i e la somma dei prodotti delle r i per il comune intervallo devolutivo comporta:n∑ vn ni∑ v i = ∑ r i I d ⇒I d = i=1ni=1 i=1 ∑ r ii=1n∑ v i= i=1n∑ itii=1vd) Nel mercato d’arte non è la qualità che fa il prezzo, ma, almeno fino ad un certo punto, è il prezzo che fa la qualità; perciò, volendoriassumere con un unico dato il valore dei quadri <strong>di</strong> De Chirico battuti da Southeby’s conviene servirsi della me<strong>di</strong>a quadratica (a=2) che riflettemaggiormente i prezzi superiori. (Boldrini ed al. 1962, p.101).Più attraente è l’idea delle me<strong>di</strong>e troncate e delle me<strong>di</strong>e <strong>di</strong> quantili come guida all’uso <strong>di</strong> misure meno sensibiliai valori anomali che possono affacciarsi nelle rilevazioni e che, in mancanza <strong>di</strong> una spiegazione della loroesistenza o <strong>di</strong> un preciso vincolo <strong>di</strong> completezza si preferisce emarginare dai calcoli.Valori anomali ed ampiezza della rilevazioneUn’altra scelta, pure dotata <strong>di</strong> una certa attrattiva, è la winsorizzazione dei valori troppo piccoli o troppo gran<strong>di</strong>cioè la loro sostituzione con valori meno selvatici. Una strada che, alla luce <strong>di</strong> ciò che si è detto sui valori anomali,deve essere percorsa con prudenza: i valori anomali o remoti sono tali solo se si ha una conoscenza adeguata dellospettro dei valori riscontrabili in un fenomeno. Di solito, le modalità osservate sono troppo poche rispetto a quellepotenzialmente rilevabili e questo può indurre a valutazioni errate sull’anomalia.Esempio:Nelle rilevazioni piccole si può avere il seguente paradosso: nel primografico la A sembra anomala. Nella rilevazione più grande, la A risultaperfettamente allineata, ma è il resto della prima rilevazione che puòessere considerato anomalo. Certi suoni a frequenza molto bassa omolto alta sono “remoti” rispetto al nostro u<strong>di</strong>to che infatti non li percepisce;questo però non significa che non esistono, anzi sono fondamentaliper la sopravvivenza <strong>di</strong> altri esseri.Rilevazione piccolaARilevazione grande


171D’altra parte, è ben nota la sensibilità della me<strong>di</strong>a aritmetica ai valori più gran<strong>di</strong> ed è perciò inappropriata nei casi incui tali manifestazioni rivestano un ruolo marginale: se si guarda agli atenei per numero <strong>di</strong> iscritti, l’inclusione <strong>di</strong> Roma“La Sapienza” porterà molto in alto il numero me<strong>di</strong>o <strong>di</strong> iscritti. Se il caso fosse unico allora si potrà escluderlo , se invecenon è caso isolato oppure si vuole tenerne esplicitamente conto, la me<strong>di</strong>a aritmetica ri<strong>di</strong>venta ammissibile.Un <strong>di</strong>scorso a parte meritano le me<strong>di</strong>e lasche: moda e me<strong>di</strong>ana in particolare. La prima è l’unica a poter essereutilizzata anche per variabili nominali e la seconda a partire dalle variabili su scala or<strong>di</strong>nale ed hanno, quin<strong>di</strong>, un raggiod’azione più ampio delle me<strong>di</strong>e <strong>di</strong> potenze. Non solo, le me<strong>di</strong>e lasche sono determinabili anche in <strong>di</strong>stribuzioni concode spesse, causa più verosimile dei valori remoti. La moda, nei casi in cui esiste una frequenza relativa che svettadecisamente sulle altre, è l’in<strong>di</strong>ce più in<strong>di</strong>cato: nessuna altra me<strong>di</strong>a potrebbe aggiungere informazioni significative.Peraltro, le me<strong>di</strong>ana è l’unica a poter essre calcolata con una certa accuratezza allorché gli estremi della primoe/o dell’ultima classe sono indeterminati.Esempio:Un campione <strong>di</strong> titoli è raggruppato in base ai giorni mancanti per la maturazione della cedola.Giorni Investimenti20 29 230 39 440 49 350 59 860 69 3170 79 980 89 690 99 265La classe “60-69” comprende da sola quasi il 50% delle rilevazioni. Ogni modalità ad essa interna è una can<strong>di</strong>data legittima comein<strong>di</strong>ce <strong>di</strong> centralità e qualunque sia la me<strong>di</strong>a (ragionevole) scelta ben <strong>di</strong>fficilmente si andrà al <strong>di</strong> fuori <strong>di</strong> tale intervallo.La moda ha però <strong>di</strong>fetti che ne complicano l’uso: non è sempre calcolabile oppure -se calcolabile- non è sempresignificativa: nelle <strong>di</strong>stribuzioni plurimodali ad esempio insorgono incertezze su quale modalità debba considerarsi“moda”. Inoltre, risente molto della strutturazione in classi e non sfrutta una parte delle informazioni. Questo <strong>di</strong>fettoè con<strong>di</strong>viso dalla me<strong>di</strong>ana che non coinvolge puntualmente le modalità, ma solo il loro or<strong>di</strong>namento. Le me<strong>di</strong>e lasche,in effetti, possono tornare utili allorché il poligono <strong>di</strong> frequenza presenti asimmetrie fortissime e inaspettate, verosimilmenteda attribuire a <strong>di</strong>storsioni nei dati.Esempi:a) Una strada ad alta intensità <strong>di</strong> traffico è stata sud<strong>di</strong>visa in tratti regolari e in ognuno è stato rilevato il numero <strong>di</strong> incidenti.Incident Tratti fi F i0 229 0.3969 0.39691 211 0.3657 0.76262 93 0.1612 0.92373 35 0.0607 0.98444 7 0.0121 0.99655 2 0.0035 1.0000577La moda non può essere utilizzata in quanto in<strong>di</strong>cherebbe lo “0” ignorando il verificarsi <strong>di</strong> incidenti che è l’oggetto della rilevazione. La me<strong>di</strong>aaritmetica µ=0.94, ci informa che, in me<strong>di</strong>a, in ogni tratto è avvenuto circa un incidenti, ma può trattarsi <strong>di</strong> una informazione inutile. La me<strong>di</strong>anaM e =1 è un in<strong>di</strong>ce più chiaro: sulla metà dei tratti è avvenuto almeno un incidente.b) In un negozio si è rilevato il numero <strong>di</strong> clienti serviti per ogni giorno <strong>di</strong> apertura.Clienti Giorni ci f0 10 9 5.00 0.029611 20 21 15.50 0.069121 25 39 23.00 0.128326 30 88 28.00 0.289531 35 66 33.00 0.217136 40 42 38.00 0.138241 50 27 45.50 0.088851 60 12 55.50 0.0395304 1.00000.300.250.200.150.100.050.000 5 10 15 20 25 30 35 40 45 50 55 60La moda (28.76), la me<strong>di</strong>ana (29.77) e la me<strong>di</strong>a aritmetica (30.92) <strong>di</strong>fferiscono poco e questo accade se il poligono <strong>di</strong> frequenza èsimmetrico intorno alla me<strong>di</strong>ana.Esercizio_SD44: per <strong>di</strong>stribuzioni unimodali e simmetriche o anche moderatamente asimmetriche dovrebbevalere la relazione: (me<strong>di</strong>ana-moda)=3(me<strong>di</strong>a-me<strong>di</strong>ana) cioè, la me<strong>di</strong>ana è posta, rispetto a “µ”, ad un terzodella <strong>di</strong>stanza cui è posta la moda.a) Verificare l’uguaglianza (anche approssimativa) per i dati dell’esempio precedente;b) Perché non è valida nelle <strong>di</strong>stribuzioni a “L”, a “J” e ad “U”?


1723.2 La variabilitàLe me<strong>di</strong>e forniscono informazioni sul centro della <strong>di</strong>stribuzione ovvero in<strong>di</strong>viduano la modalità dominante onormale cioè quella che dovrebbe essere scelta se si volesse rappresentare con un solo valore tutte quelle rilevate.Tuttavia, è tipico dei fenomeni che interessano la <strong>Statistica</strong> <strong>di</strong> presentare valori o attributi <strong>di</strong>versi (in verità, tuttele scienze si interessano dei cambiamenti) e dunque le me<strong>di</strong>e potranno assolvere il loro compito <strong>di</strong> sintesi in modopiù o meno efficace secondo la variabilità presente nel fenomeno. In questo paragrafo stu<strong>di</strong>eremo il concetto ela misura della variabilità per variabili metriche sia in termini assoluti che relativi. Discuteremo anche la misuradella variabilità per le variabili nominali ed or<strong>di</strong>nali (mutabilità).Concetto <strong>di</strong> variabilitàLa variabilità è la tendenza a <strong>di</strong>fferenziarsi della variabile. E’ cioè frutto dell’assenza o dell’annullamento <strong>di</strong> forzeche spingono ad un valore o una categoria costante in tutte le rilevazioni (ad esempio la velocità della luce rispettoalla sua fonte). Un fenomeno ha più variabilità quanto maggiore è la gamma <strong>di</strong> modalità che presenta confrequenza non nulla e quanto minore è la <strong>di</strong>versificazione tra le frequenze con cui le modalità del suo dominiosi verificano.Esempio:Distribuzione "1" Distribuzione "2" Distribuzione "3"Xi niX niXi ni1 1 1 1 1 53 23 2 2 2 55 1 3 19 3 525 4 2 4 55 1 5 525 25Distribuzione "4"Xin i3 2525La “1” ha meno variabilità della “2” e “3” perché, a parità <strong>di</strong> unità, è minore il numero <strong>di</strong> modalità che presenta (tre rispetto a cinque).La “3” ha maggiore variabilità della “2” perché, a parità del numero <strong>di</strong> modalità e del numero <strong>di</strong> unità, sono minori le <strong>di</strong>fferenze trale frequenze. La “4” è un caso estremo- detto <strong>di</strong>stribuzione degenere- in cui si presenta una sola modalità e la variabilità è assente.Da notare che le quattro <strong>di</strong>stribuzioni hanno in comune moda, me<strong>di</strong>ana e me<strong>di</strong>a aritmetica e quin<strong>di</strong>, dal punto <strong>di</strong> vista della centralitàsono in<strong>di</strong>stinguibili; lo <strong>di</strong>ventano solo se si allarga il confronto estendendolo ad altri aspetti oltre che la tendenza centrale.La variabilità è una caratteristica tanto evidente e generale che A. Costanzo (1969, p. 9) considera confermatal'opinione <strong>di</strong> molti statistici del passato che l'indagine statistica altro non sia che un insieme <strong>di</strong> tecniche rivolteallo stu<strong>di</strong>o della variabilità. Graficamente la variabilità corrisponde alla forma più o meno assottigliata delpoligono o della densità <strong>di</strong> frequenza ed alla estensione più o meno vasta dell’arco dei valori. Consideriamo le<strong>di</strong>stribuzioni del ren<strong>di</strong>mento <strong>di</strong> due fon<strong>di</strong> <strong>di</strong> investimento.BALa curva B è maggiormente addensata intorno al suo centro; le code della A sono più spesse. La <strong>di</strong>stribuzioneB è meno variabile della A Gli investitori in B rischiano meno, ma pure guadagnano meno; in A c’è più rischioe le per<strong>di</strong>te possono essere gravi, ma sono anche possibili alti guadagni.Requisiti degli in<strong>di</strong>ci <strong>di</strong> variabilitàGli in<strong>di</strong>ci <strong>di</strong> variabilità V(x 1,x 2,…,x n) esprimono l’attitu<strong>di</strong>ne a variare delle modalità (cfr. Castellano, !962).Qualunque sia lo schema <strong>di</strong> costruzione e la scala <strong>di</strong> misurazione del dominio, un in<strong>di</strong>ce <strong>di</strong> variabilità dovrà:1) Essere nullo se e solo se le modalità sono tutte uguali;2) Aumentare se e solo se aumenta la <strong>di</strong>versificazione tra le modalità.


173Queste proprietà fanno pensare ad un modello <strong>di</strong> riferimento costituito dalla piatta uniformità delle unità rispettoal fenomeno, cioè tutte presentano la stessa modalità. In questo caso l’in<strong>di</strong>ce <strong>di</strong> variabilità deve valere zero. Viavia che aumentano gli scostamenti dall’uguaglianza generale l’in<strong>di</strong>ce dovrà crescere. A parità <strong>di</strong> altre con<strong>di</strong>zioni,se due <strong>di</strong>stribuzioni hanno un <strong>di</strong>verso in<strong>di</strong>ce <strong>di</strong> variabilità, quella con l’in<strong>di</strong>ce più grande sarà giu<strong>di</strong>cata più<strong>di</strong>spersa.Esercizio_SD45: l’istogramma riguarda le misurazioni del peso in milligrammi <strong>di</strong> un prodotto fornito dall’esterno.Un controllo <strong>di</strong> qualità accerta che le misure rientrino nei limiti <strong>di</strong> tolleranza, tuttavia i valori risultanosorprendentemente variabili (si ricorda che qui è proprio la variabilità il nemico da vincere).0.160.120.080.04Quale potrebbe essere la causa?0.000.00 0.02 0.04 0.06 0.08 0.10 0.123.2.1 In<strong>di</strong>ci posizionali <strong>di</strong> variabilitàDerivano dallo scarto tra quantili in posizioni equi<strong>di</strong>stanti dalla me<strong>di</strong>ana. La formula è data da Parzen (1979):D p = X 1−p − X p ; 0 < p ≤ 0.5La loro finalità è <strong>di</strong> fornire soglie <strong>di</strong> controllo che fanno poi scattare allarmi ed interventi allorché siano superate.Campo <strong>di</strong> variazione (range).E’ il più semplice degli in<strong>di</strong>ci <strong>di</strong> variabilità e si ottiene dalla <strong>di</strong>fferenza tra la modalità più grande e la più piccola(D pper p→0). Di quest’in<strong>di</strong>ce si possono dare <strong>di</strong>verse formule:∑[ ]n( n) ( 1) { i j } =( i) −( i−1)i=21) R = X − X ; 2) R = Max X − X ; i, j = 12 , ,…, n ; 3)R X XCome mostrano le definizioni, R è un in<strong>di</strong>ce basato sul confronto <strong>di</strong> tutte le modalità e non solo <strong>di</strong> quelle estreme.Esempio:Variazioni dell’in<strong>di</strong>ce <strong>di</strong> borsa MIB rispetto al giorno precedente.2.3% 1.8% -0.7% 0.2% 1.4% 2.2% -1.9% -0.5% 1.9%1 2 3 4 5 6 7 8 9Una volta or<strong>di</strong>nate le modalità si ottiene R=2.3 - (-1.9) = 5.2. Il calcolo effettivo <strong>di</strong>ce però meno <strong>di</strong> quanto non si riesca a comunicareesprimendo R con i suoi termini: da -1.9 a 2.3Il campo <strong>di</strong> variazione è espresso nella stessa unità <strong>di</strong> misura del fenomeno cui è applicato: la <strong>di</strong>fferenza tra chilometrio litri è espressa in chilometri o litri e può essere confrontata con il campo <strong>di</strong> variazione dello stesso fenomeno in altrecircostanze. L’in<strong>di</strong>ce, inoltre, rispetta il primo requisito richiesto alle misure <strong>di</strong> variabilità perché è nullo solo secoincidono X (1)e X (n)cioè se le modalità sono tutte uguali. Rispetto al secondo requisito R è carente in quantoinsensibile ad alterazioni delle modalità o all’aggiunta <strong>di</strong> nuovi valori o cancellazione <strong>di</strong> già esistenti che noncoinvolgano i due estremi.


174Esempio:A 12 15 18 21 24 27 30 33 36B 12 24 24 24 24 24 24 24 36C 12 13 13 13 24 27 35 35 36Le tre rilevazioni in tabella hanno un identico campo <strong>di</strong> variazione pur in presenza <strong>di</strong> una struttura <strong>di</strong> variabilità molto <strong>di</strong>versa.Esercizio_SD46: PIL per abitante delle regioni italiane.Regione PIL x ab.Piemonte 19853.0 Friuli V.G. 18913.6Val d’Aosta 2<strong>202</strong>6.5Lombar<strong>di</strong>a 55538.8Trentino 19716.0Veneto 19533.1Molise 12090.1Campania 11255.8Puglia 11965.9Sicilia 11552.1Marche 17950.6Lazio 19452.1 Sardegna 12539.5Abruzzi 14323.9 Liguria 19709.9Emilia R. 20977.8Toscana 19150.6Umbria 15510.0Basilicata 9873.0Calabria 9524.0Calcolate il campo <strong>di</strong> variazione per il Nord-Centro (fino al Molise) e del Sud (Sardegna inclusa). Dove c’èmaggiore variabilità?Poiché R è strettamente legato ai valori estremi può dare in<strong>di</strong>cazioni fuorvianti: basta una sola modalità atipicaper alterarne significativamente il valore. Pertanto, il campo <strong>di</strong> variazione è utilizzabile per controllare soloprocessi stabili in cui la presenza <strong>di</strong> un valore fuori norma implichi il verificarsi <strong>di</strong> una situazione abnorme.Esercizio_SD47: extracomunitari rispetto al riconoscimento della citta<strong>di</strong>nanza.Mese Regol. Iscriz. Mese Regol. Iscriz. Mese Regol. Iscriz.Gennaio - Maggio 24 13 Settembre 12 8Febbraio 11 19 Giugno 29 24 Ottobre 26 2Marzo 28 55 Luglio 28 8 Novembre 11 2Aprile 62 146 Agosto 10 5 Dicembre 12 1a) Calcolare il campo <strong>di</strong> variazione delle due serie storiche;b) Lo scarto mensile tra le due serie potrebbe essere considerato una misura <strong>di</strong> variabilità?Uno dei <strong>di</strong>fetti <strong>di</strong> R è che il suo or<strong>di</strong>ne <strong>di</strong> grandezza non è legato alla numerosità della rilevazione. Per eliminarequesta carenza si può adoperare il campo <strong>di</strong> variazione me<strong>di</strong>o:R * =Rn −1 =n∑ [ X ( i ) − X ] ( i −1 )i =2Esempio:Le due serie che seguono riguardano il mercato dei titoli <strong>di</strong> stato in Europa in due anni <strong>di</strong>versi. Il confronto della variabilità attraversoil range <strong>di</strong>venta meno epidermico se si tiene conto della <strong>di</strong>versità nel numero <strong>di</strong> unità rilevate:n −1R97 = 1164. 5 − 0. 9 = 1163. 6; R96= 1<strong>202</strong>. 9 − 0.9 = 1<strong>202</strong>* 1163.6* 1<strong>202</strong>R97 = = 116. 36; R96= = 120.1010Paese Imp.1997 Paese Imp.1996Germania 793.0 ermania 859.8Francia 660.4 rancia 669.5Italia 1164.5 talia 1<strong>202</strong>.9Spagna 275.2 pagna 296.0Belgio 252.4 Belgio 269.9Olanda 183.9 ustria 74.8Austria 70.6 inlan<strong>di</strong>a 54.8Finlan<strong>di</strong>a 51.0 rlanda 31.1Olanda 186.1 ussemburgo 0.9Irlanda 27.7 ortogallo 56.8Lussemburgo 0.9 recia 107.6Esercizio_SD48: se i dati sono raggruppati in classi, si potrebbe adoperare la formula R = U k- L 1(supponendoperò noti i limiti delle classi estreme).Modalità Frequenze-10 -5 12-5 -3 19-3 2 212 6 146 8 571a) Calcolate R ed R* per la <strong>di</strong>stribuzione in tabella: b) Qual’è l’efficacia <strong>di</strong> R per dati raggruppati in classi?


175La <strong>di</strong>fferenza interquartilicaConfronta barriere riguardanti il 50% centrale della rilevazione: DI=Q 3-Q 1(D pper p=0.25). L’idea è che quantopiù è piccolo l’intervallo che include la metà centrale delle modalità tanto minore sarà la variabilità presentatadal fenomeno.Esempi:a) I modelli <strong>di</strong> auto più rubati in Italia. DI=X (13) - X (5) =11’597-3’368=8’229.Modello Furti Modello Furti Modello Furti Modello Regol.Fiat Uno 76239 Lancia Thema 9364 Peugeot 205 3439 A.R. 75 2578Fiat Punto 18021 Fiat Tipo 8568 Renault clio 3399 Lancia Dedra 2253A. Y10 17915 Fiat Croma 8238 Fiat 500 3368WW Golf 13252 Mercedes 200 4828 BMW serie 3 2787Fiat Bravo/a 11597 AR 164 3667 Fiat Tempra 2694La metà delle marche subisce un numero <strong>di</strong> furti che va da 3’400 a 11’600 con uno scarto <strong>di</strong> 8’200 macchine.b) Due gruppi <strong>di</strong> volontari in sovrappeso si sono sottoposti -sotto stretto controllo me<strong>di</strong>co- a tre <strong>di</strong>versi tipi <strong>di</strong> <strong>di</strong>eta. Ecco i chili persinei tre protocolli:ABC3.8 4.2 4.8 5.3 5.9 6.3 7.0 7.5 7.7 7.9 8.0 8.3 8.5 9.4 9.8 10.0 10.7 11.2 12.0 12.6 13.0 13.24.7 6.3 6.9 7.6 8.1 8.4 8.6 8.8 9.0 9.3 9.4 9.7 10.0 10.3 10.6 10.8 11.0 11.5 11.8 13.0 13.1 13.81.3 2.2 2.8 3.5 4.2 4.7 5.2 5.9 6.3 6.8 7.6 8.1 8.7 9.2 9.7 10.3 10.6 10.8 11.4 11.7 12.0 12.5Dieta Q1 Q3DIA 05 . * 59 . + 0563 . . = 61 . 05 . * 10+ 05 . * 107 . = 1035 . 425 .B825 . 1090 . 265 .C495 . 1045 . 550 .Le <strong>di</strong>fferenze <strong>di</strong> risultato ci sono: la <strong>di</strong>eta B è meno variabile delle altre ed ha in genere risultati migliori. Resta< da stabilire se i risultatisu gruppi <strong>di</strong> 22 soggetti siano atten<strong>di</strong>bili cioè ragionevolmente generalizzabili a tutte le persone in sovrappeso.c) Numero <strong>di</strong> aerei atterrati in un’ora campione per n=150 ore.Aerei ore0 31 52 83 104 115 296 377 268 109 610 311 2150Q1 = X( 38) = 5, Q3 = X( 113)= 7;DI = 7− 5=22C’è un forte addensamento al centro dato che il 50% delle modalità è compreso tra i “5” ed i “7” atterraggi: più le modalità sono stretteintorno al centro, minore è la variabilità segnalata dall’in<strong>di</strong>ce.La <strong>di</strong>fferenza interquartilica è espressa nella stessa unità <strong>di</strong> misura della variabile su cui è calcolata, ma mancadella univocità del valore nullo. E’ sufficiente che sia costante il 50% centrale della <strong>di</strong>stribuzione perché la DIsia nulla.La variabilità presente nelle code non è visibile con questo in<strong>di</strong>ce per il quale, a <strong>di</strong>fferenza del campo <strong>di</strong>variazione, il valore nullo non in<strong>di</strong>ca che tutte le modalità sono uguali, ma che sono uguali solo quelle nella metàcentrale.La DI è invariante rispetto ad aggiunte, esclusioni o cambiamenti <strong>di</strong> modalità che lascino inalterati il 1° e<strong>di</strong>l 3° quartile. Questo, non è del tutto negativo perché così i quartili resistono ai valori abnormi che tanto possonoincidere sul campo <strong>di</strong> variazione. Ne consegue che la <strong>di</strong>fferenza interquartilica può ben essere adoperata nellesituazioni in cui si voglia tenere sotto controllo le modalità interme<strong>di</strong>e della <strong>di</strong>stribuzione trascurando ciò chesuccede nelle code.


176Esercizio_SD49: istituti <strong>di</strong> cre<strong>di</strong>to per classi <strong>di</strong> “prime rate” praticati alla clientela.Xi ni fi Fi9.00 9.05 16 0.0808 0.08089.05 9.10 30 0.1515 0.23239.10 9.15 44 0.2222 0.45459.15 9.20 51 0.2576 0.71219.20 9.25 36 0.1818 0.89399.25 9.40 14 0.0707 0.96469.40 9.50 7 0.0354 1.0000198 1.0000a) Calcolare la <strong>di</strong>fferenza interquartilica;b) Come reagisce la DI rispetto alle varie ipotesi che si possono fare sulla <strong>di</strong>stribuzione interna delle classi?BoxplotNel capitolo 2 è stato introdotto il <strong>di</strong>agramma ramo-foglia come metodo <strong>di</strong> organizzazione dei dati che, senzatroppe sofisticazioni e con mezzi reperibili ovunque, è in grado <strong>di</strong> dare un’idea imme<strong>di</strong>ata della <strong>di</strong>stribuzione.In linea con questa impostazione è il boxplot o <strong>di</strong>agramma a scatola proposto da J.W. Tukey nel 1977 (Tufte, 1983,p. 123 segnala un riferimento bibliografico del 1952). Si tratta <strong>di</strong> una rappresentazione basata sui quartili chefornisce, a mezzo <strong>di</strong> cinque numeri, l’essenza della <strong>di</strong>stribuzione <strong>di</strong> una variabile metrica. I valori coinvolti sono:X (1), Q 1, M e, Q 3, X (n)che si traducono in elementi <strong>di</strong> <strong>di</strong>segno con la seguente corrispondenza: gli estremi delcampo <strong>di</strong> variazione sono marcati con due piccoli cerchi (o anche dei trattini ortogonali all’asse del <strong>di</strong>segno) chedelimitano fisicamente il campo <strong>di</strong> variazione. La presentazione verticale o orizzontale è una scelta personaleanche se, quella verticale, sembra più idonea per un confronto tra rilevazioni <strong>di</strong>verse.X (1)Q 1 Q 3M eX (n)Il primo ed il terzo quartile sono riportati su <strong>di</strong> un quadrato che ha base pari alla <strong>di</strong>fferenza interquartilica edun’altezza convenzionale, proporzionata alla grandezza complessiva del grafico per non guastarne l’impattovisivo. Il tratto che va da X (1)a Q 1mostra la parte del dominio che è necessario coinvolgere per includere il 25%più piccolo e dà quin<strong>di</strong> un’idea della coda a sinistra della <strong>di</strong>stribuzione; analogamente il tratto da Q 3a X (n)fornisce una misura <strong>di</strong> quanto dominio de<strong>di</strong>care alla copertura del 25% più grande, cioè la coda a destra. Se unodei due tratti è più lungo dell’altro ciò sarà dovuto al prevalere dei valori più piccoli (o più gran<strong>di</strong>) nel complessodella rilevazione. Il rettangolo delimitato dai quartili fissa geometricamente l’arco <strong>di</strong> valori in cui è racchiuso(inscatolato, da cui il nome) il 50% centrale: minore è la sua lunghezza, maggiore sarà il raggruppamento intornoal centro.L’area del rettangolo potrebbe essere legata all’ampiezza della rilevazione (ad esempio pari a √n) nelconfronto <strong>di</strong> rilevazioni <strong>di</strong> <strong>di</strong>versa numerosità (McGill ed al. 1978). La me<strong>di</strong>ana è in<strong>di</strong>cata con una linea verticale:se non è proprio al centro rivela uno sbilanciamento verso i valori inferiori (se vicina a Q 1) oppure verso i valorisuperiori (se si accosta a Q 3) e quin<strong>di</strong> esprime, come si apprenderà nel prossimo paragrafo, l’asimmetria della<strong>di</strong>stribuzione; vedremo, inoltre, i quantili più estremi svelano il comportamento nelle code.Esempi:a) Extracomunitari iscritti alle liste <strong>di</strong> collocamento per Paese <strong>di</strong> origine (me<strong>di</strong>a 1997).309 425 50 235 3606 4445 644 1696 2142 2863 1032 9596 429 32389 14092141 3440 953 11565 2503 1138 11704 452 10142 3469 687 982 71 758 161La <strong>di</strong>stribuzione è squilibrata dal Marocco: 32’389, non troppo sorprendente visti i flussi extracomunitari provenienti da questo Paese,ma comunque molto più grande degli altri.50452 3469127432389La forma del grafico conferma la presenza <strong>di</strong> un valore dominante (da solo, il Marocco fornisce una quota del 30% degli immigratiextracomunitari in Italia) che ha schiacciato l’intera <strong>di</strong>stribuzione.


177b) Province secondo gli orari <strong>di</strong> ricevimento degli uffici.169.87 169.87 169.87 151.00 141.56 138.99 135.90 132.12 132.12 130.23 126.65120.33 119.21 113.25 113.25 113.25 113.25 113.25 113.25 113.25 113.25 112.66111.07 109.92 109.71 106.17 106.17 105.53 105.16 105.16 105.16 105.16 103.81103.58 102.95 102.95 101.53 100.79 100.66 100.46 99.38 99.09 99.09 99.0999.09 98.69 97.07 97.07 97.07 96.26 95.25 94.37 94.37 93.88 93.5592.66 92.01 92.01 91.23 91.23 90.60 90.60 90.08 89.93 88.98 88.6388.47 87.29 87.11 86.60 85.70 84.94 84.94 84.94 84.94 84.94 84.9484.94 84.94 84.94 84.94 84.94 83.45 83.27 83.05 82.76 82.51 82.3681.79 79.79 79.27 78.19 77.86 77.21 76.85 76.44 75.50 74.05 73.6162.29 56.62 100.00Massimo 169.873° Quartile 106.17Me<strong>di</strong>ana 95.251° Quartile 84.94Minimo 56.62Gli orari sono concentrati intorno alla me<strong>di</strong>ana con un leggero allungamento verso i valori alti. La <strong>di</strong>stribuzione è più compatta peri valori inferiori alla me<strong>di</strong>ana che per quelli superiori.Esercizio_SD50: percentuali <strong>di</strong> crescita delle ven<strong>di</strong>te in un gruppo <strong>di</strong> imprese.10.9 11.1 7.0 11.0 7.3 7.6 13.0 5.6 9.2 14.2 14.4 7.4 7.7 9.3 13.1 13.3 11.0 13.3 12.713.3 5.6 8.2 5.6 14.1 10.9 14.9 14.6 5.1 11.1 6.3 6.0 13.1 10.8 7.6 13.2 7.6 10.4 9.513.4 6.9 5.3 10.3 7.2 11.0 12.3 5.0 10.3 14.1 6.3 7.6 6.1 13.4 5.8 9.4 11.1 11.3 12.210.2 16.9 15.4 8.3 17.9 12.9 15.8 13.0 16.8 14.1 8.4 10.1 14.5 14.8 10.9 14.7 14.2 11.4 15.42.2 9.8 2.0 10.1 2.9 3.2 5.9 11.1 7.6 9.0 6.7 9.7 2.3 7.9 4.8 9.3 4.8 2.1 2.59.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0 9.0Re<strong>di</strong>gere il boxplot dei dati e commentare il risultato.Il boxplot è utile quando si debbano presentare molte variabili contemporaneamente o il calcolo <strong>di</strong> in<strong>di</strong>ci piùpuntuali sia inatten<strong>di</strong>bile per problemi <strong>di</strong> misurazione o <strong>di</strong> rilevazione. Disporre in parallelo dei boxplot <strong>di</strong>variabili <strong>di</strong>verse, ma su scala omogenea, è una tecnica consolidata <strong>di</strong> analisi statistica comparativa. Il boxplotsemplifica il confronto tra le <strong>di</strong>stribuzioni facendolo passare per quantità essenziali e meno soggette a deformazioni:estremi, me<strong>di</strong>ana e quartili.Esempi:a) Disponibilità da riduzione <strong>di</strong> spese e da autofinanziamento in una selezione <strong>di</strong> comuni capoluogo.180000160000140000120000100000800006000040000200000Città Riduz. Autofin.Torino 69'068 48'000Genova 67'743 29'500Milano 133'598 79'400Padova 77'670 42'019Bologna 104'395 59'003Firenze 77'483 41'700Pisa 62'637 27'000Roma 132'002 161'500Napoli 144'000 92'000Salerno 15'433 21'800Bari 53'542 56'000Catania 44'327 26'000Messina 32'102 26'500Palermo 60'422 35'000Cagliari 45'180 20'400Riduzione speseAutofinanziamentoLe due figure forniscono una chiave <strong>di</strong> lettura agevolata del fenomeno: la riduzione delle spese è più <strong>di</strong>spersa rispetto all’autofinanziamentoche è comunque centrato su valori più bassi. In entrambe le <strong>di</strong>stribuzioni c’è un allungamento verso i valori alti. Si rivelanoperciò <strong>di</strong>fferenze nitide <strong>di</strong> centralità e <strong>di</strong> variabilità tra le due <strong>di</strong>stribuzioni.b) Ad un campione <strong>di</strong> studenti già laureati è stato chiesto <strong>di</strong> in<strong>di</strong>care il loro voto <strong>di</strong> <strong>di</strong>ploma <strong>di</strong> scuola secondaria.Veri/N<strong>di</strong>c.00 0 0 0Veri/Dic00000000Dich.0 0 00 0000 0 000036 40 44 48 52 56 60Dai dati anagrafici dei rispondenti si è risaliti all’istituto presso il quale è stato ottenuto il <strong>di</strong>ploma e si è rilevato il dato vero; si sonoinoltre acquisiti i dati <strong>di</strong> coloro che avevano scelto <strong>di</strong> non rispondere al quesito. Nel grafico è presentato il boxplot delle tre <strong>di</strong>stribuzioni.Il grafico evidenzia due fatti <strong>di</strong> cui occorre tenere conto nei sondaggi <strong>di</strong> opinione: le persone tendono a presentarsi in una luce migliorerispetto alla realtà e tendono a non ricordare o ad approssimare in una precisa <strong>di</strong>rezione i fatti negativi o che giu<strong>di</strong>cano tali nel corsodell’intervista (cfr. Hamilton, 1990, pp. 130-131).


178Esercizio_SD51: indagine sulle unità sanitarie locali nel 1989. Percentuali <strong>di</strong> risposte delle USL e degli esentida ticket per motivi <strong>di</strong> red<strong>di</strong>to.Regioni % Risposte % Esenti Regioni % Risposte % EsentiLiguria 93.74 15.56 Marche 81.07 19.18Lombar<strong>di</strong>a 89.06 12.94 Molise 36.73 35.06Piemonte 91.74 15.06 Toscana 80.47 15.23Val d'Aosta 100.00 11.66 Umbria 85.01 15.10Emilia-Rom. 73.70 17.53 Basilicata 83.50 16.88Friuli V.G. 96.86 15.52 Calabria 73.18 39.92Pr. Au. Trento 100.00 16.53 Campania 69.71 26.40Pr.Au. Bolzano 100.00 11.86 Puglia 93.68 37.02Veneto 95.86 17.22 Sardegna 79.98 25.28Abruzzo 80.19 22.90 Sicilia 73.24 37.60Lazio 60.69 14.21Costruite il boxplot per le due variabili. Cosa emerge dal loro confronto?Boxplot e valori remotiNel grafico si introducono due serrafile, uno inferiore: Q 1-1.5DI e l’altro superiore: Q 3+1.5DI. Le modalità chesi trovassero all’esterno <strong>di</strong>: [Q 1-1.5DI, Q 3+1.5DI] sono “allarmanti” nel senso che ci sono elementi per pensareche provengano da un meccanismo <strong>di</strong>verso da quello del resto della rilevazione ovvero lo stesso meccanismo,ma contaminato da errori o da fonti sconosciute <strong>di</strong> variabilità. Questo, come si è già osservato, non significa chedebbono essere esclusi, ma che sono dei sorvegliati speciali ed i loro valori saranno asseverati e revisionati. Sipossono inoltre inserire due ulteriori serrafile: Q 1-3DI e Q 3+3DI e le modalità che si collocano all’esterno <strong>di</strong> [Q 1-3DI, Q 3+3DI] saranno anomale oltre ogni ragionevole dubbio. Le modalità che oltrepassino le soglie <strong>di</strong> allertae <strong>di</strong> esclusione dovrebbero essere presentate nel boxplot in<strong>di</strong>vidualmente e, se possibile, etichettate (<strong>di</strong> parerecontrario sono i progettisti <strong>di</strong> <strong>di</strong>versi pacchetti statistici che hanno scelto <strong>di</strong> escludere dal grafico i valori chesuperano i prescritti steccati dell’anomalia).Esempio:Durata in giorni dei perio<strong>di</strong> <strong>di</strong> assenza dal lavoro <strong>di</strong> un campione <strong>di</strong> n=45 <strong>di</strong>pendenti:41 15 6 21 10 21 9 7 44 8 16 7 28 21 1416 15 7 8 6 22 15 29 36 175 126 27 34 43 4130 13 8 15 15 20 56 6 21 98 29 14 90 14 28Q 1=13, M e= 20, Q 3=30, DI=17;Soglie <strong>di</strong> allarme: Q 3 +1.5DI=55.5;Soglia dei valori remoti: Q 3 +3*DI=81.Q1MeQ3Q3+1.5DIQ3+3DI* * * *13 20 3055.581Nel corso della rilevazione si è incontrato un valore sospetto: 56 (ma non troppo dato che è appena superiore alla soglia <strong>di</strong> allarme)e ben 4 valori <strong>di</strong>scordanti. Le me<strong>di</strong>e <strong>di</strong> potenze potrebbero risentire della loro presenza. Per la me<strong>di</strong>a aritmetica e geometrica si ha:µ= 29. 44, µ t = 19. 50, µ w = 23. 56; G = 20. 12, Gt = 16. 93, Gw= 18.83Le troncate -ottenute escludendo i valori oltre la soglia <strong>di</strong> anomalia- <strong>di</strong>fferiscono molto dalle globali, ma la perequazione, realizzatasostituendo i valori remoti con il valore ammissibile più prossimo: 56 attenua il problema. La me<strong>di</strong>a geometrica risulta meno sensibileai valori remoti rispetto a quella aritmetica.Se le soglie <strong>di</strong> allarme risultano esterne ai valori estremi osservati nella rilevazioni vorrà <strong>di</strong>re che le code nonpresentano allungamenti anomali. Osserva Cleveland (1994, p. 140): Il boxplot non nasconde i valori anomalisotto il tappeto.Esercizio_SD52: una rivista femminile ha rilevato il patrimonio (se superiore a 25 miliari) <strong>di</strong> scapoli e vedoviancora liberi nel jet set italiano. Valori arrotondati all’intero superiore.20 25 26 26 28 30 32 33 37 40 61 68 75 8088 109 112 114 116 124 126 152 152 155 156 172 205 324a) Utilizzare il boxplot per indagare la presenza dei valori remoti;b) In caso affermativo, calcolare la me<strong>di</strong>a aritmetica troncata dei valori oltre soglia.


3.2.2 Altri in<strong>di</strong>ci <strong>di</strong> variabilitàPartiamo dalla rilevazione <strong>di</strong> due variabili metriche le cui modalità siano presentate or<strong>di</strong>natamente in un <strong>di</strong>agrammacartesiano in corrispondenza <strong>di</strong> ascisse equispaziate.179Esempio:Ogni coppia (X i ,Y i ) produce almeno uno scarto perché oltre ad un confronto tra i due elementi , si potrebbero considerare scarti ottenuticombinando una qualsiasi X i con una qualsiasi Y i .Possiamo misurare la variabilità in base allo scarto complessivo tra le due serie in cui una, <strong>di</strong>ciamo la Yi, forniscelo standard con cui l’altra, la Xi, si confronta. Occorre perciò trovare un in<strong>di</strong>ce che quantifichi i cambiamenti daapportare al grafico delle Xi perché si possa sovrapporre esattamente -e nella sequenza fissata- al grafico delleYi. La sintesi si può realizzare considerando la metrica <strong>di</strong> Minkowsky ponderata:S α ⎡ nα ⎤α n= ⎢ ∑ X i − Y i wi⎥ ; wi ≥ 0, ∑ w i = 1⎣i=1⎦i=11Esempio:Produzione <strong>di</strong> decreti dalla 1ª alla 10ª legislatura (pesi uguali).Legislatura Presentati Convertiti S iI 29 16 13II 60 25 35III 30 17 13IV 94 39 55V 69 22 47VI 124 40 84VII 167 37 130VIII 284 171 113IX 304 136 168X 409 172 237895450400350300250200150100500PresentatiConvertitiE’ evidente l’aumento del <strong>di</strong>vario col progre<strong>di</strong>re delle legislature segno <strong>di</strong> un progressivo scollamento tra governo e maggioranza.Esercizio_SD53: in un test sulla maneggevolezza <strong>di</strong> un nuovo tipo <strong>di</strong> automobile da presentare con un allestimento“classico” o “sportivo” vennero coinvolti 20 automobilisti che hanno prodotto i tempi seguenti per unparcheggio in file parallele.Guidatore 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Classico 37.8 25.8 16.2 24.2 39.6 33.4 23.8 58.2 33.6 24.4 23.5 22.2 36.6 29.8 38.3 48.1 29.1 35.7 32.8 28.4Sportivo 41.8 29.8 17.2 25.2 41.6 32.4 26.8 59.2 35.6 25.4 30.5 25.2 39.6 36.8 39.3 50.1 31.1 40.7 33.8 31.4Rappresentate graficamente le due serie. Ritenete ci sia molta o poca variabilità tra le due serie?La S a potrebbe anche essere interpretata come la <strong>di</strong>stanza complessiva percorsa se ogni X isi spostasse sullacorrispondente Y i. Le due serie potrebbero anche essere or<strong>di</strong>nate (ad esempio in senso ascendente) con lapossibilità <strong>di</strong> valutare la <strong>di</strong>ssimilarità con la metrica <strong>di</strong> Minkowsky per modalità or<strong>di</strong>nate:D α ⎡ nα ⎤α n= ⎢ ∑ X ( i)− Y ( i)wi⎥ ; wi ≥ 0, ∑ w i = 1⎣i=1⎦i=1con un’intepretazione analoga alla S α , ma con il vincolo <strong>di</strong> una sola possibile successione <strong>di</strong> confronti.1


180Esempio:Ricoveri ospedalieri. 1989. Pazienti da altre regioni (avere) e residenti ricoverati in altre regioni (dare).Regioni Avere Dare Regioni Avere DarePiemonte 44'147 32'874 Marche 17'758 21'46690Val d'Aosta 5'324 1'390 Lazio 31'009 59'168 75Lombar<strong>di</strong>a 62'627 86'006 Abruzzo 21'236 13'538PA Bolzano 5'920 5'723 Molise 8'590 7'462 60PA Trento 10'270 11'672 Campania 52'011 23'965Veneto 32'237 54'781 Puglia 46'333 31'807Friuli V.G. 9'988 21'849 Basilicata 25'945 7'501Liguria 22'247 48'834 Calabria 45'023 6'4764530Emilia R. 30'655 70'342 Sicilia 50'180 5'484AvereEToscana 25'646 45'680 Sardegna 9'756 2'250 15E EUmbria 12'765 11'409 E E E E E 0E EJ EJE EE E J J JJ J J DareJ J J J J J JIl grafico non è forse il più adatto per mostrare il forte <strong>di</strong>sagio delle regioni meri<strong>di</strong>onali e della Calabria in particolare. Si riesce peròa cogliere la presenza <strong>di</strong> alcune regioni con forti importazioni ed esportazioni <strong>di</strong> pazienti (estrema destra del grafico).JEJ E J EJEJJEEEsercizio_SD54: professori universitari in Italia. 1997.a) Misurare la variabilità con gli in<strong>di</strong>ci:n⎡2 ⎤ 2 ⎡2S 2 ⎢ ∑ X i − Y i ⎥=i=1⎢ ⎥ ; D 2 ⎢ ∑ X ( i)− Y ( i)=i=1⎢⎢ n ⎥ ⎢ n⎣⎢⎦⎥⎣⎢b) Quale dei due in<strong>di</strong>ci esprime meglio la variabilità?1n12⎤⎥⎥⎥⎦⎥Gruppo Or<strong>di</strong>nari AssociatiScientifico 2865 3737Me<strong>di</strong>co 2961 3926Ingegneria 2431 2826Agrario 959 862Economico 1019 949Politico-sociale 455 530Giuri<strong>di</strong>co 927 421Letterario 2066 2332Altre 511 682Variabilità come scarto da un valore tipicoL’approccio delineato ha il <strong>di</strong>fetto più grave nella genericità: perché l’andamento <strong>di</strong> una serie dovrebbe essere untermine <strong>di</strong> paragone per l’altra? Qual’è il significato logico <strong>di</strong> trasformare l’una nell’altra? E quello <strong>di</strong> spostarsi da unpunto ad un altro? Non mancano risposte interessanti, ma per il momento conviene pensare a confronti più semplici,in cui una delle due fonti <strong>di</strong> variabilità, quella della X o quella della Y, sia soppressa.Esempio:Si supponga che le X i siano tutte uguali: (X i = A per i=1,2,...,n) ci si troverà perciò nella situazione in<strong>di</strong>cata in figura.La variabilità <strong>di</strong>pende ora dallo scostamento <strong>di</strong> ogni singola modalità da un valore fisso ovvero dalla <strong>di</strong>stanza percorsa complessivamente(o in me<strong>di</strong>a) perché ogni modalità eguagli il valore standard.La variabilità può essere misurata scegliendo un termine <strong>di</strong> confronto A ed una sintesi degli scarti:⎡ nSA,α ( )= X i − A α ⎤⎢ ∑ f i ⎥⎣i=1⎦1α; fi{ }= frequenze relativePer ogni scelta <strong>di</strong> A e <strong>di</strong> α la statistica risulta espressa nella stessa unità <strong>di</strong> misura della X poiché l’elevamentoa potenza è controbilanciato dalla ra<strong>di</strong>ce dello stesso or<strong>di</strong>ne. Inoltre, si annulla solo per la variabile degenere ecioè per una rilevazione che abbia dato luogo per “n” volte ad uno stesso valore (in questo caso me<strong>di</strong>ana, me<strong>di</strong>aaritmetica e tutti gli altri in<strong>di</strong>ci <strong>di</strong> centralità coincidono con il valore costante A). Un aumento <strong>di</strong> S(A,α) è possibilesolo in presenza <strong>di</strong> un aumento <strong>di</strong> variabilità, anche se non necessariamente un aumento <strong>di</strong> variabilità produceun aumento della statistica: una modalità che si allontani da A per uno scarto <strong>di</strong> uguale misura e frequenzabilanciato dall’avvicinamento <strong>di</strong> un’altra non sarà rilevato da S(A,α) che rimarrà invariata pur in presenza <strong>di</strong> unaumento della <strong>di</strong>versificazione tra le modalità.


181Lo scarto quadratico me<strong>di</strong>oE’ la misura più classica <strong>di</strong> variabilità (nota anche come deviazione standard):k( ) 2 f iσ = ∑ X i −µ ; µ= ∑ X i f ii=1ki=1Esempi:a) Tariffe <strong>di</strong> interconnessione telefonica per minuto al 1997 (valori in centesimi <strong>di</strong> ECU).Paese Tariffa Paese Tariffa Paese TariffaGran Bretagna 0.64 Finlan<strong>di</strong>a 1.84 Italia 1.80Spagna 1.51 Danimarca 0.98 Belgio 2.78Francia 0.71 Olanda 2.00 Austria 7.61Germania 1.00 Svezia 1.68Le modalità prossime alla me<strong>di</strong>a producono scarti <strong>di</strong> entità piccola (Olanda, Italia, Finlan<strong>di</strong>a). Scarti elevati si determinano per modalità<strong>di</strong>scoste dalla me<strong>di</strong>a: sono queste che contribuiscono maggiormente alla formazione del valore <strong>di</strong> σ (l’Austria, ad esempio):22.5538.0152µ= = 205 . ; σ = = 1.8591111Il quadrato dello scarto quadratico me<strong>di</strong>o: σ 2 , detto varianza, è spesso richiamato come in<strong>di</strong>catore <strong>di</strong> variabilità anche se non èespresso nella giusta unità <strong>di</strong> misura: una <strong>di</strong>stanza in metri ha una varianza in metri quadri.b) Un profilo (circa 37.2 metri) <strong>di</strong> suolo è stato sud<strong>di</strong>viso in sezioni <strong>di</strong> 31 centimetri. Per ogni sezione si è rilevato il numero <strong>di</strong> eventirari nell’epoca geologica in esso rappresentata. In me<strong>di</strong>a, in ogni sezione si registrano 2 eventi rari con scarto pari a 1.48 (la formuladello scarto quadratico me<strong>di</strong>o è espressa in una forma giu<strong>di</strong>cata spesso più semplice).Eventi Sezioni f i X if i2X i if0 16 0.1333 0.0000 0.00001 31 0.2583 0.2583 0.25832 34 0.2833 0.5667 1.13333 22 0.1833 0.5500 1.65004 9 0.0750 0.30005 4 0.0333 0.16676 3 0.0250 0.15007 1 0.0083 0.0583120 1.0000 2.05001.20000.83330.90000.40836.3833⎛ k2 2⎞σ = ⎜ ∑ x f −µ ⎟ = − =i i 6. 3833 4. <strong>202</strong>5 1.48⎝i=1 ⎠Sia µ che σ sono grandezze continue che si applicano male alle variabili <strong>di</strong>screte e necessitano <strong>di</strong> forzature per essere interpretate.c) Parco macchine per percorrenza (migliaia <strong>di</strong> Km).Percorrenza Auto c i f i f i*c i(c 2i -µ) f i10 19.9 6 14.95 0.0462 0.6900 10.636720 24.9 16 22.45 0.1231 2.7631 7.261325 29.9 48 27.45 0.3692 10.1354 2.653930 34.9 33 32.45 0.2538 8.2373 1.365135 39.9 18 37.45 0.1385 5.1854 7.417140 49.9 9 44.95 0.0692 3.1119 15.2033130 1.0000 30.1231 44.5374Si ignorano i valori <strong>di</strong> dettaglio e per il calcolo si utilizzano i valori centrali delle classi. La percorrenza me<strong>di</strong>a è <strong>di</strong> 30 mila chilometricon un σ =√44.5374=6.67 mila chilometri. Il risultato è approssimato come è naturale in un quadro <strong>di</strong> informazione così incompleto,ma fornisce elementi sufficienti per capire come si comporta il fenomeno.d) Talvolta le misure <strong>di</strong> riferimento del boxplot sono la me<strong>di</strong>a aritmetica ed alcuni valori <strong>di</strong> soglia espressi come <strong>di</strong>stanze da µproporzionali allo scarto quadratico me<strong>di</strong>o: ±σ, ±1.96σ, ±2.58σ. Prodotto interno lordo procapite per 89 Paesi. Analisi con il boxplot.4035302520151002250450067 5090 0011 25 0135001575018 00 0408 837 1606 2774 4645 12000 15518496 914 1689 2830 4799 12618 15887514 952 1721 3068 4890 12653 16362514 956 1869 3075 5185 12721 16471527 978 1876 3332 5208 12724 16798530 1029 2092 3380 5746 12955 17945547 1085 2102 3569 6167 13281569 1104 2173 3622 6253 13484608 1162 2178 3685 7082 13918634 1282 2215 3807 9203 13986711 1385 2240 3826 9637 14091734 1432 2247 3882 9802 14458740 1493 2250 3942 9843 14709762 1510 2719 4253 11363 15105


182408Min17945Max5474.42µ10866.43µ+s116042.76µ+2sIl boxplot non segnala particolari anomalie se non un addensamento <strong>di</strong> valori nei livelli più bassi del PIL. Nasconde però un fenomenoben noto agli economisti dello sviluppo: la bimodalità della <strong>di</strong>stribuzione. Oltre ai valori più frequenti della prima classe (Paesi poveri)esiste un picco <strong>di</strong> Paesi a maggiore benessere dal quale si <strong>di</strong>staccano poi i Paesi più ricchi.e) In caso <strong>di</strong> calcoli statistici con dati arrotondati la cui unità <strong>di</strong> arrotondamento (il valore che può essere sottratto dal numero senzaconseguenze) sia pari ad “r” si dovrebbe fare in modo che 0≤r≤σ/2 (Nicholson, 1979).Esercizio_SD55: costo del metano (incluse imposte) al 1° gennaio 1998 nelle principali città italiane.(Lit/m 3 ).Città Cucina e acqua Riscald.Torino 755.5 1102.7Milano 719.2 1130.8Verona 719.2 1019.0Venezia 719.2 1083.3Bologna 755.5 1072.0Forlì 755.5 1012.8Ancona 741.2 1055.7Firenze 755.5 1087.7Roma 806.1 1257.6L'Aquila 735.7 893.6Napoli 836.9 1301.0Palermo 846.8 1220.2a) Calcolare lo scarto quadratico me<strong>di</strong>o delle due serie;b) Ha senso il confronto della variabilità con lo scarto quadratico me<strong>di</strong>o?Esercizio_SD56: numero <strong>di</strong> cristalli ottenuti dalla vaporizzazione del solfato<strong>di</strong> potassio.a) Calcolare lo scarto quadratico me<strong>di</strong>o;b) Le me<strong>di</strong>e <strong>di</strong> classe sono utili al calcolo della deviazione standard?Cristalli Soluzioni20 24 825 29 1730 34 2435 39 3640 44 41Cristalli Soluzioni45 49 8350 54 5255 59 3560 64 565 69 9310Come è evidente dalla sua formula, la deviazione standard si annulla esclusivamente se tutte le modalità coincidonocon la me<strong>di</strong>a aritmetica. E’ però insensibile a certe mo<strong>di</strong>fiche compensative. Supponiamo <strong>di</strong> sottrarre laquantità d alla modalità X je <strong>di</strong> sommarla alla quantità X i(entrambe riscontrate una sola volta nella rilevazione).La me<strong>di</strong>a aritmetica rimane invariata. Per la deviazione standard, limitatamente ai valori mo<strong>di</strong>ficati, si ha:2 2 2 2( X + δ)−µ( X δ)−µ[ X ] + X −µ 2δ X δ X[ ] + −[ ] = −µ[ ] + ( + − )i j i j i jPoiché X j=X i+d l’ultimo addendo si annulla e s non cambia. Un aumento della deviazione standard è conseguenza<strong>di</strong> un aumento della variabilità, ma non è vero che ogni aumento <strong>di</strong> variabilità si riflette in un aumento delladeviazione standard.La correzione <strong>di</strong> SheppardConsiderare uniforme la <strong>di</strong>stribuzione delle modalità all’interno delle classi porta ad una valutazione approssimatadell’ammontare effettivo <strong>di</strong> variabilità. L’entità ed il segno dell’errore <strong>di</strong>pendono dalla forma della <strong>di</strong>stribuzionee l’uso dei valori centrali può fornire un σ inferiore o superiore a quello reale senza che si possaprevederne l’effetto in tutti i casi.Esempio:f(x)µx


183Nelle classi a sinistra della me<strong>di</strong>a le modalità tendono ad addensarsi verso gli estremi superiori cosicché qui i valori centrali sottostimanole me<strong>di</strong>e <strong>di</strong> classe producendo scarti più gran<strong>di</strong> <strong>di</strong> quelli che dovrebbero essere. Nelle classi a destra della me<strong>di</strong>a le modalitàsi addensano negli estremi inferiori cosicché i valori centrali sovrastimano le me<strong>di</strong>e <strong>di</strong> classe dando luogo anche qui a scarti maggioridel dovuto. Nel complesso si ottiene uno scarto quadratico me<strong>di</strong>o maggiore <strong>di</strong> quello reale.In certe con<strong>di</strong>zioni è però possibile apportare una correzione che migliora lo scarto quadratico me<strong>di</strong>o: se il graficotende ad appiattirsi sia per valori gran<strong>di</strong> che per valori piccoli, se le classi sono numerose e se hanno la stessaampiezza “d”, il σ è meglio approssimato con la formula:⎡ kσ = ⎢ ∑ X i −µ⎣i=1( ) 2 f i⎤⎥12 ⎦− d2Esempio:Un ornitologo ha condotto la pesatura <strong>di</strong> un campione <strong>di</strong> una specie <strong>di</strong> uccelli migratori.Peso Uccelli ci f i f i*c i (ci-µ)^ 2fi0.0 0.9 15 0.45 0.0383 0.0172 0.61691.0 1.9 24 1.45 0.0612 0.0888 0.55672.0 2.9 31 2.45 0.0791 0.1938 0.32123.0 3.9 64 3.45 0.1633 0.5633 0.16834.0 4.9 103 4.45 0.2628 1.1693 0.00015.0 5.9 99 5.45 0.2526 1.3764 0.24496.0 6.9 26 6.45 0.0663 0.4278 0.26137.0 7.9 13 7.45 0.0332 0.2471 0.29548.0 8.9 11 8.45 0.0281 0.2371 0.44569.0 9.9 6 9.45 0.0153 0.1446 0.3803392 1.0000 4.4653 3.2906σ or<strong>di</strong>nario =1.814;σ corretto=1.795La correzione, detta <strong>di</strong> Sheppard dal nome dell’autore che l’ha suggerita all’inizio del 1900, ha poco effetto se “n” è grande oppurese la comune ampiezza degli intervalli è piccola rispetto alla me<strong>di</strong>a del fenomeno. D’altra parte le con<strong>di</strong>zioni <strong>di</strong> applicabilità sonopiuttosto vaghe per cui non è usata spesso; rimane tuttavia un esempio eccellente <strong>di</strong> come lo conoscenze teoriche consentono spesso<strong>di</strong> integrare, mo<strong>di</strong>ficare e correggere i dati.Esercizio_SD57: neonati sottoposti a cure per peso (in grammi) alla nascita.Peso Neonati601 800 604801 1000 7101001 1200 8811201 1400 4851401 1600 6203300a) Calcolare la deviazione standard utilizzando la correzione <strong>di</strong> Sheppard;b) Come vi regolereste se le classi terminali avessero estremi indeterminati?La <strong>di</strong>suguaglianza <strong>di</strong> TchebycheffLo scarto quadratico me<strong>di</strong>o, a <strong>di</strong>fferenza del campo <strong>di</strong> variazione o della <strong>di</strong>fferenza interquartilica, non ha unainterpretazione <strong>di</strong>retta in termini delle modalità della rilevazione e, soprattutto, non è chiaro il ruolo che riveste nelladescrizione del fenomeno. Per comprendere meglio questo in<strong>di</strong>ce richiamiamo un importante risultato teorico dovutoal matematico sovietico P. Tchebycheff (1821-1894) che ha apportato molti contributi alla matematica ed alla statisticasoprattutto al fine <strong>di</strong> definire processi <strong>di</strong> soluzione numerica (algoritmi). L’esempio più importante <strong>di</strong> questo approccioè la <strong>di</strong>suguaglianza <strong>di</strong> Tchebycheff. Scomponiamo la varianza in tre adden<strong>di</strong>:σ2k( )2 2 2 2( )( )∑( )= ∑ X −µ f = ∑ X −µ f + ∑ X −µ f + X −µ fi dove b>0i ii ii iii= 1x≤µ−bσ x≥µ+ bσ µ− bσ


184in cui si è esclusa la variabilità dovuta alle classi centrali della <strong>di</strong>stribuzione. Poiché b e σ sono positivi si ha µ-bσ


185La sua portata è però rilevantissima quando verrà riferita alle variabili casuali del capitolo 7 in cui, grazie allaTchebycheff si potranno ottenere agevolmente risultati altrimenti <strong>di</strong>fficili da <strong>di</strong>mostrare.Esercizio_SD58: <strong>di</strong>stribuzione delle officine autorizzate per tempo me<strong>di</strong>o necessario alla revisione delle auto.Tempo Off.Aut. c i c i ni2 c i n i20 25 5 22.5 112.5 2531.325 30 15 27.5 412.5 11343.830 35 25 32.5 812.5 26406.335 40 17 37.5 637.5 23906.340 45 11 42.5 467.5 19868.845 50 8 47.5 380.0 18050.050 55 6 52.5 315.0 16537.555 60 3 57.5 172.5 9918.890 3310.0 128562.5Verificate che siano rispettate le soglie della Tchebycheff per b=1 e b=2 anche in presenza <strong>di</strong> stima delle me<strong>di</strong>e<strong>di</strong> classe con i valori centrali.La Tchebycheff è utile per interpretare la deviazione standard. Poniamo c=bσ ovvero b=c/σ; quin<strong>di</strong>:fr. rel. ( X −µ < c)≥ − ⎛ σ1⎞⎝ c ⎠Fissato l’intervallo µ-c≤ x ≤µ+c, se aumenta la deviazione standard <strong>di</strong>minuisce la frequenza delle modalità chericadono nell’intervallo intorno alla me<strong>di</strong>a. Più grande è σ meno tipica e rappresentativa sarà la me<strong>di</strong>a aritmetica; d’altraparte, più piccolo è σ, tanto più corto sarà l’intervallo -centrato su µ- nel quale ricade una data percentuale <strong>di</strong> modalitàcon la conseguenza che meno <strong>di</strong>spersa sarà la <strong>di</strong>stribuzione e più espressiva della centralità sarà la me<strong>di</strong>a aritmetica.Esercizio_SD59: si supponga che una variabile X abbia me<strong>di</strong>a µ=10 e scarto quadratico me<strong>di</strong>o σ=5. Cosa siriesce a <strong>di</strong>re sulla <strong>di</strong>spersione della X?Esercizio_SD60: il numero <strong>di</strong> incidenti automobilistici coinvolgenti giovani verificatisi in un tratto <strong>di</strong> superstradaha me<strong>di</strong>a 90 e varianza pari a 9. Qual’è la frequenza massima attribuibile all’intervallo: {x|81≤x≤99}?2La scomposizione della varianzaSupponiamo che la rilevazione sia il risultato dell’accorpamento <strong>di</strong> sottorilevazioni in “g” gruppi <strong>di</strong>stinti <strong>di</strong>numerosità n i, i=1,2,…,g e che <strong>di</strong> ciascun gruppo sia nota la me<strong>di</strong>a aritmetica:µ i =n i∑ X ijj=1n i; i = 1, 2,…,gLa varianza si presta ad una riscrittura che evidenzia quanta parte sia attribuibile alla <strong>di</strong>versificazione interna aigruppi (detta “within”) e quanta invece sia dovuta a <strong>di</strong>fferenze fra i gruppi ( “between”).∑ [( ) + µ −µ ]( ) + µ −µg ni g ni g nig nig niσ 2 222 2ijij i ( i )ij i ∑ ∑( i )i= 1j=1i= 1j=1i= 1j=1i=1j=1i=1j=1( )( ) −µn = ∑ ∑ ( X −µ ) = ∑ X −µ; = ∑ ∑ X −µ+ 2 ∑ ∑ µ −µ X ;ni∑ ( )X −µg ij i gj=1= ∑ ni+ ∑ niµ −µn2n∑ ( )2i( ) + 2 ∑( µ −µ ) X −µi i ij ii= 1 i i= 1i=1 j=1gi ij iLa quantità nσ 2 è la devianza. L’ultimo termine si annulla in quanto ogni suo addendo è la somma degli scartisemplici dalla me<strong>di</strong>a aritmetica del rispettivo gruppo. Quin<strong>di</strong>, la varianza totale è:


186gσ 2 2= ∑ f i σ i + ∑ f i µ i −µi=1gi=1( ) 2Si sono ottenuti due fattori:1) varianza nei gruppi (me<strong>di</strong>a ponderata delle varianze all’interno dei gruppi;2) varianza tra i gruppi (me<strong>di</strong>a ponderata degli scarti tra le me<strong>di</strong>e parziali e la me<strong>di</strong>a totale).Una conseguenza <strong>di</strong>retta è:gg∑( µ i −µ )n i = ∑µ i n i − ∑ µn i = nµ−nµ =0i=1i=1gi=1cioè la me<strong>di</strong>a totale rende nulla la somma ponderata degli scarti dalle me<strong>di</strong>e parziali. Note (g-1) me<strong>di</strong>e parzialie nota anche la me<strong>di</strong>a totale, l’ultima me<strong>di</strong>a parziale è automaticamente determinata dal vincolo appena <strong>di</strong>mostrato.Questo fatto si descrive <strong>di</strong>cendo che si è perso un grado <strong>di</strong> libertà. Calcolando le me<strong>di</strong>e parziali si perdeun grado <strong>di</strong> libertà per ogni me<strong>di</strong>a. Supponiamo <strong>di</strong> dover trasmettere -in forma <strong>di</strong> telegramma- l’esito dellarilevazione rispetto all’i-esimo gruppo: le n imodalità in esso incluse e la me<strong>di</strong>a <strong>di</strong> gruppo µ i. Possiamo risparmiareil costo <strong>di</strong> un’informazione trasmettendo tutte le n imodalità e chi riceve si calcola autonomamente la me<strong>di</strong>aoppure, trasmettiamo (n i-1) valori e la me<strong>di</strong>a <strong>di</strong> gruppo µ icosicché chi riceve può ricavarsi l’informazionemancante.Esempio:Le emissioni tossiche <strong>di</strong> tre stabilimenti sono state monitorate per 5 giorni.A B C TotaleGiorni Stabil. "A" Stabil. "B" Stabil. "C"Me<strong>di</strong>e 47.92 52.22 43.32 47.821 46.30 48.60 45.10(µ -µ) 2 0.01 19.36 20.252 43.70 52.30 46.70Varianze 6.96 5.77 5.19 19.183 51.20 50.90 41.80Varianza w. 2.32 1.92 1.73 5.974 49.60 53.60 40.40Varianza b. 0.00 6.45 6.75 13.21 19.25 48.80 55.70 42.6054525048464442Stab. AStab. BStab. CGlobaleLa fonte maggiore <strong>di</strong> variabilità è quella “between”. In particolare lo stabilimento “C” che ha una me<strong>di</strong>a <strong>di</strong> inquinante tendenzialmentemeno elevata unita ad una maggiore variabilità interna. Il profilo delle me<strong>di</strong>e riportato in grafico è un ottimo ausilio per descriverevisivamente il comportamento dei gruppi.La sud<strong>di</strong>visione della varianza ne consente una nuova interpretazione: se i gruppi avessero la stessa me<strong>di</strong>a nonci sarebbe variabilità “between” e la variabilità complessiva deriverebbe solo da <strong>di</strong>versificazioni interne aigruppi; d’altra parte, se i gruppi presentassero sempre la stessa modalità sparirebbe la variabilità “within” econterebbero solo le <strong>di</strong>fferenze tra i livelli dei gruppi. Possiamo avere perciò variabilità perché i gruppi <strong>di</strong>fferisconoal loro interno o perché <strong>di</strong>fferiscono tra <strong>di</strong> loro o per entrambe le ragioni.Esercizio_SD61: lunghezza in chilometri della rete stradale per regioni e tipi.Regione Autostrade Statali ProvincialiPiemonte 704 2686 10891Lombar<strong>di</strong>a 545 3272 8974Toscana 387 3495 7279Campania 440 2672 6918Calabria 295 3347 5780Sicilia 570 3606 11024a) Calcolare le me<strong>di</strong>e e le varianze parziali nonché quelle totali;b) Come si presenta una rilevazione in cui sia nulla la variabilità tra gruppi gruppi?c)Come si presenta una rilevazione in cui sia nulla la variabilità nei gruppi?


187A nalisi della varianzaLa scomposizione della varianza prelude ad una tecnica statistica -l’analisi della varianza- che qui accenniamosolo fugacemente per riprenderla in fasi più avanzate del corso. In pratica ci occupiamo solo <strong>di</strong> un in<strong>di</strong>ce cheesprime l’effetto della <strong>di</strong>visione in gruppi sulla variabilità. Tale in<strong>di</strong>ce è dato dal rapporto tra la devianza delleme<strong>di</strong>e parziali e la devianza nei gruppi.g( ) 2∑ n i µ i −µF = s 2 2i=12s = ( g − 1)g n i 1∑ ∑ x ij −µ ii=1j=1( ) 2( n − g)( )( )= n − gg − 1g∑i=1g n in i ( µ i −µ ) 2∑ ∑( x ij −µ i ) 2i=1j=1La statistica F è un in<strong>di</strong>ce non negativo ed invariante rispetto a trasformazioni lineari. La sud<strong>di</strong>visione non avràavuto alcun effetto se le me<strong>di</strong>e parziali sono tutte uguali: µ 1=µ 2=…=µ ge quin<strong>di</strong> il numeratore sarà nullo e qualunquecausa abbia determinato la categorizzazione è da ritenersi ininfluente sul fenomeno. Se invece le me<strong>di</strong>e <strong>di</strong> gruppo sono<strong>di</strong>verse allora la sud<strong>di</strong>visione in gruppi è una fonte <strong>di</strong> variabilità ed è tanto più forte quanto più cresce il numeratorerispetto al denominatore. La F, infatti, tende ad infinito man mano che la <strong>di</strong>fferenza tra le me<strong>di</strong>e <strong>di</strong> gruppo <strong>di</strong>venta l’unicafonte <strong>di</strong> variabilità e cioè ogni gruppo presenta la stessa modalità al suo interno <strong>di</strong>stinta dalla modalità presentata daglialtri gruppi: X ij=µ iper j=1,2,…,n i; i=1,2,…,g. Ne consegue che i valori gran<strong>di</strong> <strong>di</strong> F saranno dovuti ad una o più me<strong>di</strong>eparziali piuttosto lontane dalle altre e la classificazione in categorie <strong>di</strong>stinte può effettivamente dare un contributoalla comprensione del fenomeno: in breve, la classificazione è significativa. Se ci si aspetta omogeneità per i livellime<strong>di</strong> e si scopre che la variabilità “within” è maggiore della “between” allora i dati contrastano l’ipotesi <strong>di</strong>partenza; se accade il contrario questo non deve necessariamente essere considerato una conferma, ma un contributoa supporto dell’ipotesi <strong>di</strong> sostanziale uguaglianza tra le me<strong>di</strong>e aritmetiche dei vari gruppi. La statistica F,tuttavia, non è in grado <strong>di</strong> <strong>di</strong>rci quale gruppo abbia contribuito <strong>di</strong> più e quale meno alla variabilità: ci informa chei gruppi non hanno lo stesso livello me<strong>di</strong>o, ma non si pronuncia sull’or<strong>di</strong>namento tra le me<strong>di</strong>e rinviando adulteriori indagini l’accertamento sulle singole me<strong>di</strong>e. I calcoli per la F sono riassunti nella tabella che segue:Variabilità Devianze Gra<strong>di</strong> <strong>di</strong> libertà Scarto me<strong>di</strong>ogg∑ n i µ i −µTra gruppi ∑ n i ( µ i −µ ) 22g − 1 s 2 = i=1i=1( g − 1)g n i∑ ∑ xg n ij −µ iiNei gruppi ∑ ∑ ( x ij −µ i ) 22 i=1 j=1n − g s 1 =i=1 j=1( n − g)g n iTotale ∑ ∑ ( x ij −µ ) 2 n − 1 F = s 2 22i=1 j=1s 1( ) 2( ) 2Esempio:I punteggi <strong>di</strong> alcuni can<strong>di</strong>dati a posti <strong>di</strong> responsabile della comunicazione <strong>di</strong> impresa sono stati sud<strong>di</strong>visi in tre gruppi: laurea scientifica,laurea umanistica, laurea in economia.Ec Sc Um86 75 9277 77 9084 74 8787 78 8291 80 7589 89 7292 7382Totalin i8 7 6 21T i688 546 498 1732µ i86 78 83 µ=82.48(µ i-µ) 2 n 99.3373 140.2546 1.6462 241.2381i∑(X ij-µ i) 2 172 176 332 680Il valore della F è 3.1929 . I valori elevati della F sono da considerarsi una evidenza contro l’ipotesi che la classificazione abbia introdottocategorie effettivamente <strong>di</strong>stinte, almeno dal punto <strong>di</strong> vista della me<strong>di</strong>a aritmetica. Poiché F è basso, la sud<strong>di</strong>visione per laurea nonsembra costituire motivo <strong>di</strong> attendersi una <strong>di</strong>versità sui punteggi me<strong>di</strong>.


188Eccoci però <strong>di</strong> nuovo al problema <strong>di</strong> stabilire che cosa debba intendersi per “basso”. Anche qui lo zero è l’unicovalore inequivoco: significa che non c’è effetto. Ma F>0 significa che l’effetto c’è? Una certa <strong>di</strong>fferenza tra igruppi dobbiamo comunque aspettarcela non fosse altro che per errori <strong>di</strong> misurazione e per il fatto che nonabbiamo esaminato tutti i can<strong>di</strong>dati possibili, ma solo un campione. Resta perciò da chiedersi se il valore positivo<strong>di</strong> F sia da ascriversi ad una reale scostamento della me<strong>di</strong>a <strong>di</strong> uno o più gruppi oppure si tratti <strong>di</strong> una <strong>di</strong>versificazionetenue che non suscita particolari riflessioni. Non ci vuole molto per rendersi conto della portata delquesito: tenuto conto dei dati osservati, fino a che livello il valore <strong>di</strong> F è compatibile con delle <strong>di</strong>versificazioniaccidentali ovvero da quale valore <strong>di</strong> F in poi si devono ritenere patologiche le <strong>di</strong>fferenze riscontrate?La <strong>Statistica</strong> non è in grado <strong>di</strong> dare una risposta globale: all’aumentare <strong>di</strong> F saremo sempre più convinti chel’effetto ci sia, ovvero giu<strong>di</strong>cheremo inverosimile un <strong>di</strong>versificazione accidentale che porti a valori così gran<strong>di</strong><strong>di</strong> F. Tuttavia, se ricorrono alcune con<strong>di</strong>zioni è possibile trarre conclusioni atten<strong>di</strong>bili in base ai quantili <strong>di</strong> unmodello: la cosiddetta F <strong>di</strong> Fisher, facilmente calcolabili con il foglio elettronico EXCEL. I gra<strong>di</strong> <strong>di</strong> libertà delnumeratore n 1sono dati dal numero <strong>di</strong> gruppi (<strong>di</strong>minuito <strong>di</strong> una unità) e quelli del denominatore n 2dal numero<strong>di</strong> rilevazioni (<strong>di</strong>minuito del numero <strong>di</strong> gruppi). La soglia corrispondente a n 1=2, n 2=18 è 6.01 che deve esserecosì interpretato: per la combinazione <strong>di</strong> gra<strong>di</strong> <strong>di</strong> libertà (2,18), valori inferiori o uguali a 6.01 sono da ritenersior<strong>di</strong>nari ovvero regolarmente riscontrabili anche in presenza <strong>di</strong> uguaglianze tra le me<strong>di</strong>e: è questo il casodell’esempio con F=3.19; valori superiori a 6.01 (sempre con n 1=2, n 2=18 ) sono da considerarsi significativicioè le <strong>di</strong>fferenze tra le me<strong>di</strong>e sono reali al<strong>di</strong>là <strong>di</strong> ogni ragionevole dubbio e non solo apparenti. Più grande è loscarto tra la soglia teorica e quella calcolata, tanto più fondata sarà la nostra conclusione.Esercizio_SD62: 30 uomini sud<strong>di</strong>visi per il livello <strong>di</strong> stress accumulato sul posto <strong>di</strong> lavoro e per numero <strong>di</strong> volteche hanno sottoposto i figli minori a punizioni corporali.Alto 4 6 12 10 5 9 8 11 10 8Me<strong>di</strong>o 2 4 5 3 0 3 2 5 5 4Basso 3 1 2 0 2 2 4 1 0 1Valutate se risulta provato un legame tra i livello dello stress e le punizioni.Di quanto può deviare una modalità?Consideriamo la devianza <strong>di</strong> una serie <strong>di</strong> “n” osservazioni or<strong>di</strong>nate in senso ascendente e scriviamola isolandola modalità più grande:n[ x ( i)−µ ] 2 n−1= ∑ x ii=1i=1∑ [ ( ) −µ* ] 2 + nn − 1[ x ( n) −µ ] 2; con µ* =n−1∑ x ( i)i=1n − 1Dividendo entrambi i membri per “n” e portando a sinistra lo scarto relativo ad X (n)si ha:[ x( n)−µ ]n−12[ ]n− x( n)−µ2 1 122= σ − ∑[ x()−µ *xni ] ⇒ ≤σ ⇒[ ( n)−µ ]≤σ−1n i=1n − 12Pertanto, nessuna osservazione può eccedere <strong>di</strong> un fattore √(n-1) lo scarto quadratico me<strong>di</strong>o e la prossimità aquesta soglia in<strong>di</strong>cherà un’anomalia. Tale risultato è molto popolare ed è stato scoperto e riscoperto più volte.Esempio:Finanziamenti dalla Banca europea degli investimenti. Valori in milioni <strong>di</strong> ECU. Anno 1989.µ=975.42, σ = 1060.4, σ n − 1 = 3673.3nella colonna intestata “scarto rel.” è riportato il valore del rapporto:xi −µσ n − 1L’avvicinarsi all’unità <strong>di</strong> tale rapporto è un in<strong>di</strong>catore <strong>di</strong> anomalia. Il valore per l’Italia è <strong>di</strong> 0.78che è in effetti elevato rispetto agli altri e desta una certa perplessità. Quale potrebbe essereil motivo <strong>di</strong> tale prevalenza?Paese Finanziamenti Scarto rel.Belgio 206.3 -0.21Danimarca 564.7 -0.11Germania 863.5 -0.03Grecia 176.3 -0.22Spagna 1942.0 0.26Francia 1684.6 0.19Irlanda 217.7 -0.21Italia 3855.7 0.78Lussemburgo 11.8 -0.26Paesi Bassi 245.3 -0.20Portogallo 794.7 -0.05Regno unito 1892.8 0.25Altri 225.1 -0.20


189Esercizio_SD63: Olkin (1992) <strong>di</strong>mostra che per un qualsiasi modalità vale:2 n2 nc( xi−µ ) ≤ ∑( xj−µ ) per c ≤j = 1 n − 1a) E’ in contrad<strong>di</strong>zione con quanto si è trovato in precedenza?b) Proporre un’altra <strong>di</strong>suguaglianza che aiuti a trovare i valori remoti.I momentiLa me<strong>di</strong>a aritmetica è stata interpretata in una chiave fisica richiamando il concetto <strong>di</strong> “momento” che però nonè un’unità <strong>di</strong> tempo più o meno breve: “aspetta un momento”, ma significa tendenza a ruotare intorno ad un centro.Anche lo scarto quadratico me<strong>di</strong>o, per la sua intrinseca natura <strong>di</strong> “me<strong>di</strong>a”, può essere interpretato come momento.In generale si ha:rispetto all' origine : µ = ∑ X f ;rispetto alla me<strong>di</strong>a : µ = X −µ fr'rki=1ki=1ri i∑( )con “r” intero non negativo (µ 0=µ’ 0=1). I momenti rispetto a µ (che abbrevia il simbolo µ 1) si ricavano daimomenti rispetto all’origine:iri' ' 2 ' 3 '21 2 23 3 1 24 4 1 3 2 1µ = 0; µ =µ −µ ; µ =µ − 3µµ + 2µ ; µ =µ − 4µµ + 6µ µ − 3µOgni momento fornisce un’informazione sulla <strong>di</strong>stribuzione: la centralità, la variabilità ed altre caratteristiche chevedremo nel prossimo paragrafo. Anzi, sotto certe con<strong>di</strong>zioni, la loro conoscenza è equivalente alla conoscenzadell’intera <strong>di</strong>stribuzione e due <strong>di</strong>stribuzioni tendono sempre <strong>di</strong> più a somigliarsi all’aumentare del numero deimomenti che con<strong>di</strong>vidono.41Esempi:a) I maggiori terremoti dell’ultimo secolo in Italia. Magnitudo in scala Richter. Calcolo dei momenti centrati.Regione Magnitudo 2 3 4 5 6Calabria 6.8 46.2 314.4 2138.1 14539.3 98867.5Calabria 5.9 34.8 205.4 1211.7 7149.2 42180.5Sicilia 7.5 56.3 421.9 3164.1 23730.5 177978.5Campania 6.0 36.0 216.0 1296.0 7776.0 46656.0Sicilia 4.3 18.5 79.5 341.9 1470.1 6321.4Abruzzo 5.0 25.0 125.0 625.0 3125.0 15625.0Friuli 5.9 34.8 205.4 1211.7 7149.2 42180.5Campania 6.5 42.3 274.6 1785.1 11602.9 75418.9Sicilia 6.0 36.0 216.0 1296.0 7776.0 46656.0Friuli 6.5 42.3 274.6 1785.1 11602.9 75418.9Campania 7.2 51.8 373.2 2687.4 19349.2 139314.1Sicilia 7.0 49.0 343.0 2401.0 16807.0 117649.0Umbria 6.3 39.7 250.0 1575.3 9924.4 62523.56.2 39.4 253.8 1655.3 10923.2 72830.0Da notare l’aumento dei valori numerici dei momenti all’aumentare dell’or<strong>di</strong>ne con la conseguente complessità <strong>di</strong> calcolo e <strong>di</strong>fficoltà<strong>di</strong> contenere gli errori <strong>di</strong> arrotondamento. L’importanza delle modalità più gran<strong>di</strong> ai fini della determinazione del momento cresce edassume un risalto che va spesso oltre quello loro attribuibile in base alla frequenza.b) Un gruppo <strong>di</strong> n=15 pazienti è sottoposto ad una terapia che riduce la pressione arteriosa. In tabella è riportata la <strong>di</strong>stribuzione delnumero dei successi per poco più <strong>di</strong> mille sperimentazioni.''µ 1 = 11. 7 µ 1 = 0; µ 2 = 142. 2; µ 2 = 5.3''µ 3 = 1781. 5 µ 3 = − 33. 3; µ 4 = 21997. 3; µ 4 = 455.3Xin i0 1 8 211 2 9 462 2 10 1053 6 11 1884 1 12 2545 6 13 2346 10 14 1347 9 15 3810570.250.200.150.100.050.00oooooooo o o o o o o o0 3 6 9 12 15Il momento 3° rispetto alla me<strong>di</strong>a con segno negativo è connesso all’allungamento verso i valori bassi; il valore positivo ed elevato delmomento 4° è un in<strong>di</strong>catore sia del grado <strong>di</strong> appuntimento al centro che del <strong>di</strong>verso spessore nelle due code.Se la rilevazione è in classi, il calcolo dei momenti potrà basarsi sui valori centrali con gli inevitabili errori <strong>di</strong>approssimazione cui si aggiungono quelli <strong>di</strong> arrotondamento.


190Esempi:a) Ven<strong>di</strong>te <strong>di</strong> motocicli in Italia per cilindrata.Cilindrata Moto ci fi c ifi2°c 3°c 4°c50 80 615 65 0.0054 0.35 753.9 -281'351.4 105'000'337.181 125 41250 103 0.3631 37.39 40'792.6 -13'673'667.7 4'583'413'400.3126 250 5642 188 0.0497 9.34 3'108.5 -777'757.2 194'594'849.2251 380 348 315.5 0.0031 0.97 46.1 -5'658.0 694'235.0381 500 12251 440.5 0.1078 47.50 0.6 1.3 3.0501 800 36994 650.5 0.3256 211.80 14'675.1 3'115'518.3 661'424'543.6800 1000 16519 900 0.1454 130.85 31'005.6 14'318'402.8 6'612'238'423.3113619 1.0000 438.20 90'382.4 2'695'488.2 12'157'365'791.6Il 1° momento dall’origine (la me<strong>di</strong>a aritmetica) non presenta problemi <strong>di</strong> interpretazione: la cilindrata è, in me<strong>di</strong>a, 438. Il momento2° centrato è la varianza. Gli errori <strong>di</strong> arrotondamento incidono meno sui momenti rispetto alla me<strong>di</strong>a aritmetica per gli effetti <strong>di</strong>bilanciamento propri <strong>di</strong> questo in<strong>di</strong>ce.b) Koop (200, pp. 27) <strong>di</strong>scute un data set relativo al prezzo delle abitazioni in Canada. Nella tabella che viene fornita su floppy <strong>di</strong>skabbiamo selezionato 136 rilevazioni relative alle abitazioni con due stanze da letto ed altrettante abitazioni con tre camere da letto.Bedrooms Min Max µ Std.Dev.µ '3σ 3 µ '4σ 42 25000 101000 51886.03 14343.20 0.8901 4.43693 25000 128000 59288.20 21814.02 1.3591 5.0643Le due <strong>di</strong>stribuzioni sono effettivamente <strong>di</strong>verse: non solo nella me<strong>di</strong>a e nella deviazione standard, ma anche rispetto ai momenti 3°e 4° che qui, per ridurne l’or<strong>di</strong>ne <strong>di</strong> grandezza, abbiamo rapportato allo scarto quadratico me<strong>di</strong>o.Esercizio_SD64: <strong>di</strong>stribuzione secondo le ore <strong>di</strong> lavoro giornaliero dei bambini in età compresa tra i 12 ed i 15anni impiegati nelle fabbriche italiane nel 1913.Ore <strong>di</strong> lavoro Fanciulli FanciulleFino a 8 3090 15888-8.5 668 7888.5-9 3661 22499-9.5 1800 17919.5-10 15199 2429610-10.510.5-1111-12.012 e più6401 272894985 19889162 524294 37936260 78793a) Calcolare i primi quattro momenti delle <strong>di</strong>stribuzioni;b) Quali evidenze mostrano i momenti nel confronto tra le due <strong>di</strong>stribuzioni?Lo scarto assoluto me<strong>di</strong>anoNel paragrafo 3.1 si è visto come in certe occasioni sia necessario esprimere la centralità con la me<strong>di</strong>ana inveceche con la me<strong>di</strong>a aritmetica. In questi casi sembra corretto quantificare la variabilità con gli scarti dalla me<strong>di</strong>ana.La misura che si è affermata in questo senso è lo scarto assoluto me<strong>di</strong>ano:che usa gli scarti in modulo dalla me<strong>di</strong>ana.kS Me = ∑ X i − M e f i ;i =1Esempi:a) Spesa in pubblicità per l’olio <strong>di</strong> oliva in alcuni Paesi della Comunità europea. Valori in miliar<strong>di</strong>.Me= X( 6)= 240; SMe= 125.1Paese Spesa Paese Spesa Paese SpesaItalia 512 R.U. 240 Olanda 128Francia 240 Benelux 128 Irlanda 80Grecia 240 Spagna 640 Danim. 80Germ. 384 Portog. 256In me<strong>di</strong>a i Paesi deviano dalla me<strong>di</strong>ana <strong>di</strong> 125 miliar<strong>di</strong>. Da notare che la me<strong>di</strong>ana minimizza la somma assoluta degli scarti.b) Un campione <strong>di</strong> frutti è stato classificato per numero <strong>di</strong> semi.Semi Frutti f i F i |X i -Me|f i0 1 0.0070 0.0070 0.04201 4 0.0280 0.0350 0.13992 6 0.0420 0.0769 0.16783 9 0.0629 0.1399 0.18884 16 0.1119 0.2517 0.22385 31 0.2168 0.4685 0.21686 76 0.5315 1.0000 0.0000143 1.0000 0.9790L’applicazione della formula è semplice: in me<strong>di</strong>a le modalità <strong>di</strong>fferiscono <strong>di</strong> un seme (circa) dalla me<strong>di</strong>ana.


191c) Un parco <strong>di</strong> veicoli è stato classificato per capacità <strong>di</strong> carico in tonnellate.Carico Veicoli fi Fi |X-Me|f0 10 406 0.2929 0.2929 3.146111 20 545 0.3932 0.6861 0.094421 25 169 0.1219 0.8081 0.885236 40 124 0.0895 0.8975 1.991541 50 99 0.0714 0.9690 2.125751 60 43 0.0310 1.0000 1.23351386 1.0000 9.4764La capacità me<strong>di</strong>ana è M e =15.74 cioè circa 16 tonnellate con uno scarto assoluto me<strong>di</strong>ano <strong>di</strong> circa 9 tonnellate.Esercizio_SD65: tempo <strong>di</strong> permanenza in un quartiere prima del trasferimento. Valori in anni e frazioni <strong>di</strong> anno.X n f F0.0 0.5 2 0.013 0.0130.5 1.0 6 0.038 0.0501.5 2.0 11 0.069 0.1192.0 3.0 14 0.088 0.206a) Calcolare lo scarto assoluto me<strong>di</strong>ano;b) In quale unità <strong>di</strong> misura è espresso S Me?3.0 4.0 20 0.125 0.3314.0 6.0 39 0.244 0.5756.0 10.0 31 0.194 0.76910.0 15.0 24 0.150 0.91915.0 20.0 13 0.081 1.000160 1.000Lo S Mesi annulla solo nel caso <strong>di</strong> modalità tutte uguali ed è insensibile a mo<strong>di</strong>fiche che <strong>di</strong>ano luogo a compensinegli scarti sullo stesso lato dalla me<strong>di</strong>ana. Supponiamo <strong>di</strong> sottrarre la quantità positiva d alla modalità X ie <strong>di</strong>sommarla alla quantità X jposte sullo stesso lato della me<strong>di</strong>ana, <strong>di</strong>ciamo maggiori (e con un entità <strong>di</strong> d che nonmo<strong>di</strong>fichi tale con<strong>di</strong>zione). Lo scarto assoluto me<strong>di</strong>ano rimarrà invariato. Infatti:X + δ − M + X −δ − M = X + δ − M + X −δ− M = X − M + X − Mi e j e i e j e i e j e= X − M + X − Mi e j eAlcuni aumenti della variabilità non sono perciò intercettabili con lo scarto assoluto me<strong>di</strong>ano.Esercizio_SD66: rocce per percentuali <strong>di</strong> porosità:Porosità Rocce12 14 215 18 319 20 521 22 723 24 825 26 2327 28 1229 30 2731 32 833 34 5100a) Calcolare lo scarto assoluto me<strong>di</strong>ano;b) L’uso dei valori centrali può impe<strong>di</strong>re alla me<strong>di</strong>ana <strong>di</strong> minimizzare la somma assoluta degli scarti?Esercizio_SD67: nel mese <strong>di</strong> giugno 25 alberi <strong>di</strong> clementine sono stati irrorati con un antiparassitario. Inun’altra zona, <strong>di</strong>stante dalla prima, ma con lo stesso microclima, 20 alberi nella stessa fase dello sviluppo deiprecedenti sono stati lasciati intonsi. Ecco la produzione in chilogrammi.Irrorate 123 124 122 124 134 143 141 121 121 140 135 123 139 144 127 125 137 127 126 123 142 128 134 128 134Non irrorate 144 130 132 128 139 112 136 115 124 119 112 132 117 137 131 118 138 116 129 137a) Calcolare lo scarto quadratico me<strong>di</strong>o e lo scarto assoluto me<strong>di</strong>ano;b) Ritenete che l’antiparassitario abbia avuto effetto?Me<strong>di</strong>ana degli scarti dalla me<strong>di</strong>anaLo scarto assoluto me<strong>di</strong>ano non convince come misura <strong>di</strong> variabilità perché è un ibrido tra una me<strong>di</strong>a lasca <strong>di</strong>modalità e una me<strong>di</strong>a ferma <strong>di</strong> scarti. Varrebbe forse la pena <strong>di</strong> considerare non la me<strong>di</strong>a aritmetica degli scartidalla me<strong>di</strong>ana, ma la me<strong>di</strong>ana degli scarti dalla me<strong>di</strong>ana:{ }S = M X − M ; i = 12 , ,…,ne e i eLa S eè espressa nella stessa unità <strong>di</strong> misura della X e si annulla se e solo se le modalità sono tutte uguali tra <strong>di</strong>loro.


192Esempio:Occupati per settore nelle province della Lombar<strong>di</strong>a. Dati in migliaia <strong>di</strong> unità.Province Sondrio Lo<strong>di</strong> Cremona Lecco Mantova Pavia Como Varese Bergamo Brescia MilanoOccupati 72 82 133 136 163 198 226 332 402 436 1571|Xi-Me| 126 116 65 62 35 0 28 134 204 238 1373Dopo aver or<strong>di</strong>nato gli scarti dalla me<strong>di</strong>ana: 0, 2, 35, 62, 65, 116, 126, 134,204, 238, 1373 si accerta che S e =116/11=10.54. Tale misuraè agevolmente interpretabile: la metà delle province ha un numero <strong>di</strong> occupati che <strong>di</strong>sta me<strong>di</strong>amente 10.54 occupati o meno dallame<strong>di</strong>ana degli occupati della regione.Esercizio_SD68: seggi nell’attuale parlamento europeo.Paese SeggiGermania 99Gran Bretagna 87Francia 87Italia 87Spagna 64a) Calcolare la me<strong>di</strong>ana degli scarti dalla me<strong>di</strong>ana;b) E’ utile in presenza <strong>di</strong> valori remoti?Olanda 31Grecia 25Belgio 25Portogallo 25Svezia 22Austria 21Danimarca 16Finlan<strong>di</strong>a 16Irlanda 15Lussemburgo 6La deviazione me<strong>di</strong>aNel corso del tempo si è guadagnata una posizione <strong>di</strong> rilievo come in<strong>di</strong>ce <strong>di</strong> variabilità anche la me<strong>di</strong>a degli scartiin valore assoluto dalla me<strong>di</strong>a aritmetica (deviazione me<strong>di</strong>a o scarto semplice me<strong>di</strong>o)kS µ = ∑ X i −µ f i ;i=1Esempi:a) Red<strong>di</strong>to me<strong>di</strong>o unitario per categorie <strong>di</strong> <strong>di</strong>pendenti.Qualifica R.M.U. Qualifica R.M.U. Qualifica R.M.U.Operai 17.767 Doc. Univ. 61.787 Magistrati 78.754Impiegai 25.175 Ins. Scuola 26.539 Parlamentari 50.818Funzionari 44.851 Sottuf. 25.753 Religiosi 18.053Dirigenti 86.828 Ufficiali 32.115n∑ X i −µµ=42.59 ; S µ = i=1n= 20.02Il calcolo elimina il segno dagli scarti rispetto alla me<strong>di</strong>a aritmetica. L’R.M.U. si attesta al livello µ= 42.5 milioni con una deviazioneme<strong>di</strong>a <strong>di</strong> 20 milioni.b) Squadre <strong>di</strong> calcio <strong>di</strong> serie A e B: numero <strong>di</strong> elementi nella rosa dei calciatori convocabili.Calciatori Squadre f i Xfi |Xi-µ|f18 4 0.1053 1.8947 0.315819 3 0.0789 1.5000 0.157920 5 0.1316 2.6316 0.131621 8 0.2105 4.4211 0.000022 14 0.3684 8.1053 0.368423 3 0.0789 1.8158 0.157924 1 0.0263 0.6316 0.078938 1.0000 21.0000 1.2105In me<strong>di</strong>a le “rose” <strong>di</strong>fferiscono dalla me<strong>di</strong>a “21 giocatori” per poco più <strong>di</strong> un giocatore.c) I ven<strong>di</strong>tori <strong>di</strong> prodotti finanziari per ven<strong>di</strong>te realizzate nell’ultimo trimestre.Ven<strong>di</strong>te Operatori ci fi Xifi |ci-µ|fi10 14 5 12.0 0.0357 0.4286 0.646815 19 9 17.0 0.0643 1.0929 0.842820 24 19 22.0 0.1357 2.9857 1.100625 29 41 27.0 0.2929 7.9071 0.910830 34 26 32.0 0.1857 5.9429 0.351035 39 18 37.0 0.1286 4.7571 0.885940 44 12 42.0 0.0857 3.6000 1.019145 50 10 47.5 0.0714 3.3929 1.2421140 1.0000 30.1071 6.9991Gli operatori effettuano in me<strong>di</strong>a 30 ven<strong>di</strong>te con una deviazione, in più o in meno, me<strong>di</strong>amente pari a 7.La deviazione me<strong>di</strong>a è simile allo scarto assoluto me<strong>di</strong>ano (per le proprietà <strong>di</strong> minimo della me<strong>di</strong>ana rispetto aivalori assoluti si ha comunque: S µ>S Me); inoltre, risulta espresso nella stessa unità <strong>di</strong> misura della variabile e siannulla solo in caso <strong>di</strong> modalità costanti.Esempi:a) Nel misurare la variabilità, Pearce (1965, p.7) ritiene preferibile lo scarto quadratico me<strong>di</strong>o rispetto alla deviazione me<strong>di</strong>a perchédà peso maggiore agli scarti più gran<strong>di</strong>. Per le due <strong>di</strong>stribuzioni: A={9, 6, 5, 8} con µ A =7, S µA =1.5, σ A =1.58 e B={10, 7, 4, 7} con µ B =7,S µB =1.5,σ B =2.12. Gli scarti maggiori potrebbero derivare da un agente sconosciuto o incontrollato laddove una serie <strong>di</strong> scarti moderaticonfermerebbe l’assenza <strong>di</strong> tali forze.


193Rispetto alla sensibilità ai cambiamenti, la deviazione me<strong>di</strong>a non reagisce a mo<strong>di</strong>fiche compensative su uno deilati della me<strong>di</strong>a aritmetica. In effetti, se consideriamo due modalità minori della me<strong>di</strong>a aritmetica: x i


194c) La deviazione me<strong>di</strong>a interviene nel taglio delle offerte estreme nelle gare pubbliche <strong>di</strong> appalto. In altre parole, per stabilire la <strong>di</strong>ttaaggiu<strong>di</strong>catrice <strong>di</strong> una gara con offerte al ribasso si elimina il 20% delle offerte. Supponiamo che siano state effettuale le offerte: {13, 14, 15,16, 17, 19, 20, 21, 22, 28}. Per ottenere la soglia <strong>di</strong> esclusione occorre scartare il 10% più alto ed il 10% più basso (con arrotondamentoall’intero superiore). Nell’esempio si esclude il 13 ed il 28 ottenendo una me<strong>di</strong>a potata pari ad un ribasso del 18%. A questo punto occorrecalcolare un fattore correttivo dato dalla deviazione me<strong>di</strong>a sulle offerte rimaste dopo la potatura (e non su quelle originali visto che alcunesono già state escluse) che superano la me<strong>di</strong>a aritmetica: |19-18|+|20-18|+|21-18|+|22-18|)/4=2.5 che porta ad una soglia <strong>di</strong> esclusione del20.5% per cui sono anomale le offerte “21” e “22”; la gara è aggiu<strong>di</strong>cata alla <strong>di</strong>tta che ha offerto un ribasso del 20%. Se lo scarto fosse statocalcolato su tutte le offerte superiori alla me<strong>di</strong>a la correzione sarebbe stata <strong>di</strong> (10+|28-18|)/5=4 con soglia pari al 22% e l’appalto sarebbestato vinto dalla <strong>di</strong>tta che ha offerto proprio un ribasso del 22%. Il problema è controverso e, allo stato attuale della legislazione, prevalel’esclusione dei valori anomali sia dalla me<strong>di</strong>a potata che dalla deviazione me<strong>di</strong>a. Provate infine a pensare ad una gara in cui tutte le <strong>di</strong>tteancora in gara presentino ribassi dell’x%. Quale che sia il ribasso questo sarà giu<strong>di</strong>cato valido se si considerano anomale solo leofferte strettamente superiori alla me<strong>di</strong>a.Esercizio_SD71: un gruppo <strong>di</strong> bambini è sottoposto ad un test <strong>di</strong> appren<strong>di</strong>mento.Per ciascuno è stato rilevato il tempo (in minuti) resosi necessario per imparare adeffettuare un semplice compito. Giu<strong>di</strong>cate -in base alle formule <strong>di</strong> Beesack- se iltempo <strong>di</strong> 25 minuti è un valore remoto.10 12 10 14 11 11 9 14 1115 14 13 11 9 10 12 11 1313 15 11 9 11 14 10 10 1510 15 14 13 14 13 14 12 2515 20 15 13 10 12 13 9 8Le <strong>di</strong>fferenze me<strong>di</strong>eLa variabilità può essere misurata considerando il confronto <strong>di</strong> una modalità con tutte le altre in<strong>di</strong>pendentementedalla sequenza con cui sono state rilevate ovvero valutando l’entità della variazione che in me<strong>di</strong>a si dovrebbeapplicare se ogni modalità dovesse essere resa uguale a tutte le altre. Un in<strong>di</strong>ce sintetico <strong>di</strong> variabilità basato suquest’idea è la <strong>di</strong>fferenza me<strong>di</strong>a <strong>di</strong> or<strong>di</strong>ne α:nn1α⎡α ⎤⎢ ∑ ∑ X i − X j ⎥∆ α i=1j=1R = ⎢⎢ n 2 ⎥⎥⎣⎢⎦⎥n−1⎡α ⎤⎢2 ∑ ∑ X i − X j ⎥; ∆ α i=1 j=i+1= ⎢⎥⎢ nn− ( 1)⎥⎣⎢⎦⎥che misura il valor me<strong>di</strong>o dello scarto tra due modalità qualsiasi. Il pe<strong>di</strong>ce R in<strong>di</strong>ca che il calcolo avviene “conripetizione” cioè si considerano i confronti <strong>di</strong> una modalità con sé stessa anche se il contributo alla variabilitàè nullo. Se è opportuno escluderli, la <strong>di</strong>fferenza me<strong>di</strong>a è “senza ripetizione” e si considerano meno confronti.Le <strong>di</strong>fferenze me<strong>di</strong>e rispecchiano l’unità <strong>di</strong> misura delle variabili su cui si calcolano e si annullano se solose le modalità sono tutte uguali.n1αEsempio:Produzione <strong>di</strong> acciaio grezzo in migliaia <strong>di</strong> tonnellate. Calcolo della <strong>di</strong>fferenza me<strong>di</strong>a per α=1.∆R = 737068= ∆ = 73706815' 042;4942= 17549Paese ProduzioneSpagna 12444Regno Unito 18733Francia 19061Italia 25179Germania 51078Giappone 58743USA 97943In me<strong>di</strong>a, la produzione <strong>di</strong> acciaio tra due Paesi qualsiasi (anche uguali) <strong>di</strong>fferisce <strong>di</strong> 15’042 tonnellate. Se i paesi a confronto debbonoessere <strong>di</strong>versi, allora in me<strong>di</strong>a le produzioni <strong>di</strong>fferiscono <strong>di</strong> 17’549 tonnellate.Le <strong>di</strong>fferenze me<strong>di</strong>e si basano sul confronto <strong>di</strong>retto <strong>di</strong> tutte le modalità senza riferimento ad un fittizio termine <strong>di</strong>paragone perciò sviluppano un’idea <strong>di</strong> variabilità <strong>di</strong>versa rispetto agli scostamenti da un valor me<strong>di</strong>o: in questi siquantifica l’ammontare delle mo<strong>di</strong>fiche da apportare alle modalità per renderle uguali alla me<strong>di</strong>a; nelle <strong>di</strong>fferenzeme<strong>di</strong>e, il ruolo dello standard è interpretato, a turno, da tutte le modalità. Tale questione appassionò gli statistici tra il1912 ed il 1935, e si concluse con l’osservazione <strong>di</strong> V. Castellano (1935) che sottolineò come ogni in<strong>di</strong>ce misurasseun aspetto <strong>di</strong>verso della variabilità ed era inutile <strong>di</strong>battere su quale fosse il migliore da usare in tutte le occasioni.La <strong>di</strong>fferenza me<strong>di</strong>a che ha trovato più applicazioni è la <strong>di</strong>fferenza semplice me<strong>di</strong>a con α=1 il cui calcolopuò essere molto semplificato. Infatti, tenuto conto cheX() iX( j) X() iX( j) 2 Min X() i, X( j)− = + − { }


195La <strong>di</strong>fferenza semplice me<strong>di</strong>a può essere espressa come:1 ⎡⎣∆ R =nn∑ ∑i=1j=1( ) − − +X ( i)− X ( j)n 2 =⎤⎦n n∑ ∑ X ( i ) + X ( j ) − 2 min{ X ( i),Xj=1[ ( j }])i=1n 21 ⎡⎤2 2 2 2 2 1 ( 2 1 )⎣⎦nnn nn∆ R = i iii i i in⎢ ∑ nX + nµ∑( n i ) X ⎥ = n X n i X w X w i niin− ∑( − + )2 () 2 2 2 1 () 2 ⎢ ∑ () () ⎥ = ∑ ();= 2iiin− −= 1= 1= 1 = 1= 1I valori or<strong>di</strong>nati delle modalità entrano nel calcolo con pesi simmetrici e <strong>di</strong> segno opposto per posizioni equi<strong>di</strong>stantidalla me<strong>di</strong>ana (i pesi sono a somma zero); inoltre, man mano che le modalità si allontanano dalla me<strong>di</strong>ana,aumenta il loro contributo all’in<strong>di</strong>ce. In caso <strong>di</strong> “n” <strong>di</strong>spari, la modalità centrale avrà associato peso zero e nonpotrà quin<strong>di</strong> contribuire alla determinazione della variabilità.Esempi:a) Riconsideriamo la produzione <strong>di</strong> acciaio . I calcoli sono ora più rapi<strong>di</strong>. Inoltre, poiché∆=n∆ R /(n-1), non è necessario effettuare un calcolo <strong>di</strong>verso o rifare quello precedenteper la <strong>di</strong>fferenza me<strong>di</strong>a senza ripetizione. Si può notare che se si mo<strong>di</strong>fica la modalitàme<strong>di</strong>ana l’in<strong>di</strong>ce non si accorge del cambiamento ovvero fintanto che si toglie la me<strong>di</strong>anae la si sostituisce con un altro valore interme<strong>di</strong>o tra quello che precede e quello che seguela me<strong>di</strong>ana, la <strong>di</strong>fferenza semplice me<strong>di</strong>a rimarrà invariata mancando <strong>di</strong> segnalare ilcambiamento nella variabilità.Paese Produzione i Wi XiwiSpagna 12444 1 -0.245 -3047.5Regno Unito 18733 2 -0.163 -3058.4Francia 19061 3 -0.082 -1556.0Italia 25179 4 0.000 0.0Germania 51078 5 0.082 4169.6Giappone 58743 6 0.163 9590.7USA 97943 7 0.245 23986.030084.4b) Confronto della <strong>di</strong>ffusione <strong>di</strong> alcune tra le maggiori testate dei quoti<strong>di</strong>ani in Italia. I pesi sono comuni ad entrambe le serie (e sonocomuni a tutte le serie formate da otto modalità <strong>di</strong>stinte ed or<strong>di</strong>nate). Solo una posizione si è scambiata nell’anno : Sole-24 Ore eGazzetta dello Sport, ma anche così, per il calcolo sono stati necessari due or<strong>di</strong>namenti <strong>di</strong>versi delle testate.Testata Diff. 2/2000 Pesi C2000 C2001 Testata Diff. 2/2001Il Secolo XIX 122'500 -0.219 -26'796.9 -26'621.9 Il Secolo XIX 121'700Il Giornale 234'590 -0.156 -36'654.7 -35'655.8 Il Giornale 228'197Il Messaggero 279'000 -0.094 -26'156.3 -26'507.8 Il Messaggero 282'750La Stampa 383'900 -0.031 -11'996.9 -12'087.5 La Stampa 386'800Il Sole-24 Ore 426'033 0.031 13'313.5 12'906.3 La Gazzetta dello Sport 413'000La Gazzetta dello Sport 436'000 0.094 40'875.0 39'986.3 Il Sole-24 Ore 426'521La Repubblica 670'456 0.156 104'758.8 103'920.6 La Repubblica 665'092Corriere della Sera 740'000 0.219 161'875.0 157'500.0 Corriere della Sera 720'000219'217.6 213'440.3La <strong>di</strong>fferenza me<strong>di</strong>a è <strong>di</strong>minuita a fronte <strong>di</strong> un leggero appiattimento delle copie circolate. Quello che non possiamo ancora stabilire,almeno con gli strumenti della statistica descrittiva, è se tale <strong>di</strong>fferenza sia da considerarsi importante oppure rientri in un quadro <strong>di</strong>sostanziale stabilità.Esercizio_SD72: peso <strong>di</strong> un campione <strong>di</strong> n=136 passeri.21.4 22.6 22.6 22.8 23.2 23.2 23.2 23.3 23.3 23.5 23.6 23.6 23.7 23.8 23.9 23.9 23.9 24.0 24.0 24.0 24.1 24.1 24.2 24.2 24.224.2 24.2 24.3 24.3 24.3 24.3 24.4 24.4 24.5 24.6 24.6 24.6 24.6 24.6 24.6 24.6 24.7 24.7 24.7 24.7 24.8 24.8 24.8 24.8 24.824.8 24.9 24.9 24.9 24.9 24.9 25.0 25.0 25.0 25.0 25.1 25.1 25.1 25.3 25.4 25.5 25.5 25.5 25.6 25.6 25.6 25.7 25.7 25.7 25.725.7 25.8 25.8 25.9 25.9 25.9 26.0 26.0 26.0 26.0 26.0 26.0 26.0 26.0 26.1 26.1 26.1 26.1 26.1 26.2 26.2 26.2 26.3 26.3 26.326.4 26.5 26.5 26.5 26.5 26.5 26.6 26.6 26.7 26.7 26.7 26.8 26.8 26.9 26.9 26.9 26.9 26.9 26.9 27.0 27.0 27.1 27.3 27.4 27.527.5 27.6 27.7 27.9 28.0 28.3 28.3 28.6 29.0 30.5 31.0Calcolare la <strong>di</strong>fferenza semplice me<strong>di</strong>a con ripetizione.Esercizio_SD73: <strong>di</strong>mostrare che la <strong>di</strong>fferenza semplice me<strong>di</strong>a con ripetizione, rapportata la doppio della me<strong>di</strong>aaritmetica, può essere espressa come:n∆i−R i 122µ = =n2∑( 1)Xµ() i− 1La me<strong>di</strong>ana non compare esplicitamente nella formula della <strong>di</strong>fferenza semplice me<strong>di</strong>a. Il suo ruolo può essereevidenziato ricorrendo alla formula proposta da Berrebi e Silber (1987):


196n'w ii=1∆ R = ∑'X ( i)− M e con w i=i − (n − i + 1)n 2che ingloba la <strong>di</strong>fferenza me<strong>di</strong>a nello schema <strong>di</strong> variabilità come scarti da un valore <strong>di</strong> riferimento (la me<strong>di</strong>ana).Non è proprio il caso <strong>di</strong> riaprire una polemica da tempo sopita, ma rimane il dubbio che i due approcci allavariabilità siano realmente <strong>di</strong>versi.Esempio:Consideriamo la <strong>di</strong>fferenza me<strong>di</strong>a <strong>di</strong> or<strong>di</strong>ne α=2.n n2 n n n n n nn n n222nXi − XjX j XiXX i j n X2j n X X⎛ n∑ ∑∑ ∑ ∑ ∑ ∑ ∑ ∑ij Xi2 i ji j i j i jj ij i∆ 2 ∑ ∑2 ⎞∑ X= 1 = 1= 1 = 1 = 1 = 1 = 1 = 1= 1 = 1 = 1 = 1 ⎜∑ ii=1 2⎟2R = + − 2 = + − 2 * = 2 −µ22222 2⎜ ⎟ = 2σnn nn n n n n n⎜ ⎟⎝ ⎠( ) =Come si vede, c’è un rapporto costante tra la <strong>di</strong>fferenza me<strong>di</strong>a <strong>di</strong> or<strong>di</strong>ne α=2 e lo scarto quadratico me<strong>di</strong>o: ∆ R 2 = σ√2. La <strong>di</strong>versità <strong>di</strong>approccio alla misura della variabilità non impe<strong>di</strong>sce la prossimità algebrica tra gli in<strong>di</strong>ci.Rispetto a mo<strong>di</strong>fiche compensative ∆ Rrisulta insensibile -è facile <strong>di</strong>mostrarlo- se le modalità coinvolte sono<strong>di</strong>sposte sullo stesso lato della me<strong>di</strong>ana.Esercizio_SD74: personale della scuola in pensione nel 1990.a) Calcolare la <strong>di</strong>fferenza me<strong>di</strong>a <strong>di</strong> or<strong>di</strong>ne uno e due;b) E’ un caso oppure un fatto sistematico che la seconda sia maggiore dellaprima?Esercizio_SD75: verificare la vali<strong>di</strong>tà della seguente formula:4∆=( − ) ∑ n− 2( n + 1)iXnn 1 ( − ) µ() ii=1 n 1Provincia Docenti Provincia DocentiTorino 1190 Reggio Em. 294Milano 2137 Firenze 520Genova 271 Ancona 382Bologna 566 Roma 1582Modena 370 Bari 920Catania 713Nel caso <strong>di</strong> modalità ripetute la formula <strong>di</strong> calcolo può sfruttare l’or<strong>di</strong>namento delle modalità:k k∑ ∑ X i − X j f i f ji=1j=1k∆ R =n 2 = 2 ∑ X () i f i ( F i−1 + F i )− 1i=1[ ]La stessa formula può essere applicata a <strong>di</strong>stribuzioni in classi, ma l’esito è quasi sempre insod<strong>di</strong>sfacente.Esempio:Una società <strong>di</strong> sondaggi ha intervistato alcune persone chiedendo quale fosse il numero ideale <strong>di</strong> figli in una famiglia.Figli Interviste f i Fi X f (F + Fi i i i-10 15 0.0109 0.0109 0.0000)-11 24 0.0175 0.0285 -0.01682 742 0.5416 0.5701 -0.43493 359 0.2620 0.8321 0.31624 185 0.1350 0.9672 0.43175 25 0.0182 0.9854 0.08696 15 0.0109 0.9964 0.06457 5 0.0036 1.0000 0.02551370 2.3744 0.9461Fra due persone intervistate qualsiasi il numero <strong>di</strong> figli <strong>di</strong>fferisce in me<strong>di</strong>a <strong>di</strong> uno (circa).Esercizio_SD76: nello stu<strong>di</strong>o della migliore organizzazione dei servizi alla clientela <strong>di</strong> una banca è stato rilevatoil numero <strong>di</strong> cassieri impegnati in n= 160 perio<strong>di</strong> <strong>di</strong> controllo.Sportelli Perio<strong>di</strong>0 21 42 73 84 155 176 227 398 309 16160a) Calcolare la <strong>di</strong>fferenza semplice me<strong>di</strong>a.b) Che succede alla <strong>di</strong>fferenza semplice me<strong>di</strong>a se non si conteggia una delle ripetizioni della modalità me<strong>di</strong>ana?


1973.2.3 Centralità e variabilità per trasformazioni lineariGli in<strong>di</strong>ci <strong>di</strong> centralità e <strong>di</strong> variabilità sono espressi nelle medesime unità <strong>di</strong> misura del fenomeno cui si riferiscono.Ad esempio se la variabile è l’età in anni compiuti, me<strong>di</strong>a e scarto quadratico saranno espressi in anni, sela variabile rileva il numero <strong>di</strong> sportelli bancari questo sarà pure l’unità <strong>di</strong> misura <strong>di</strong> me<strong>di</strong>ana e scarto assolutome<strong>di</strong>ano; ciò significa che se si trasforma il dominio della variabile cambieranno conseguentemente le statistichedella <strong>di</strong>stribuzione. In che modo è possibile confrontare valori singoli acquisiti in due <strong>di</strong>verse rilevazioni? In chemodo utilizzare correttamente la flessibilità delle scale intervallari e proporzionali?Supponiamo che {X 1, X 2, ..., X n} siano trasformate linearmente: Y i=a+bX i. Per quanto attiene alla modal’effetto sarà solo la trasformazione della moda stessa (tale caratteristica è detta riproducibilità) in quanto ilcalcolo è basato sulle frequenze relative che non sono toccate dalla trasformazione. Anche la me<strong>di</strong>ana è riproduttivain quanto non si mo<strong>di</strong>fica la posizione centrale; per gli altri quantili non c’è mo<strong>di</strong>fica se la trasformazioneè ascendente, si invertono le posizioni se il coefficiente angolare della trasformazione è negativo. Quin<strong>di</strong>:⎧a+ bXp;b>0Mo( Y)= Mo( a + bX)= a + bMo( X) ; Yp= ⎨⎩a+ bX1−p;b


198Esempi:a) Un gruppo <strong>di</strong> pazienti <strong>di</strong> una clinica oculistica è stato raggruppato per classi <strong>di</strong> pressione intraoculare misurata con un tonometroottenendo:Pressione Pazienti c i f i f i*c i (c -µ) 2 f7.5 11.5 3 9.50 0.0123 0.1173 1.053311.5 13.5 17 12.50 0.0700 0.8745 2.721313.5 15.5 20 14.50 0.0823 1.1934 1.477515.5 17.5 43 16.50 0.1770 2.9198 0.885417.5 19.5 63 18.50 0.2593 4.7963 0.014619.5 21.5 57 20.51 0.2346 4.8110 0.737521.5 23.5 23 22.50 0.0947 2.1296 1.340323.5 25.5 7 24.50 0.0288 0.7058 0.956825.5 27.5 4 26.50 0.0165 0.4362 0.99<strong>202</strong>7.5 29.5 3 28.50 0.0123 0.3519 1.176831.5 33.5 3 32.50 0.0123 0.4012 2.3386243 1.0000 18.7369 13.6940con µ=18.74, e σ=3.7. Supponiamo che, per un errore <strong>di</strong> taratura, si sia sfasato il tonometro in modo che ogni misura valida è stataprima <strong>di</strong>mezzata e poi aumentata <strong>di</strong> 0.05. Quali erano me<strong>di</strong>a e scarto per i valori corretti? Non è necessario ripetere i calcoli. Infatti:µ c=2(µ-0.05)=37.38; σ c=2σ=7.4b) Le trasformazioni lineari influenzano la collocazione e la scala dell’asse delle ascisse, ma non alterano la forma dell’istogrammao del poligono delle frequenze. Data la <strong>di</strong>stribuzione del tempo (in giorni) necessari a completare le pratiche in una Camera <strong>di</strong>commercio si è costruito l’istogramma delle frequenze; successivamente si sono trasformati i giorni in settimane. Come si vede, ilgrafico si è spostato verso i valori più piccoli e la scala delle ascisse è cambiata (ogni valore è stato <strong>di</strong>viso per sette), ma nessunamo<strong>di</strong>fica interviene nella struttura dell’istogramma.0.250.25Pratiche 0.2036 42 1243 49 28 0.1550 56 345770628348596384699775410.100.0598 126 23320 0.000 20 40 60 80 100 120 1400.200.150.100.050.000 2 4 6 8 10 12 14 16 18Esercizio_SD77: una trasformazione interessante è la seguente:Y i = X i*100; per XX ( n)≠ 0, i = 1, 2, … ,n( n)a) Si tratta <strong>di</strong> una trasformazione lineare? b) Come cambiano moda, me<strong>di</strong>ana, me<strong>di</strong>a aritmetica e me<strong>di</strong>ageometrica? c) Come cambiano deviazione me<strong>di</strong>a, scarto quadra<strong>di</strong>co me<strong>di</strong>o e <strong>di</strong>fferenza me<strong>di</strong>a?Esercizio_SD78: dal bilancio 1989 delle società <strong>di</strong> gestione aeroporti si evincevano i fatturati-in miliar<strong>di</strong> <strong>di</strong> lire- riportati in tabella.a) Calcolare il fatturato me<strong>di</strong>ano e lo scarto assoluto me<strong>di</strong>ano;b) Calcolate gli in<strong>di</strong>ci, ma per importi espressi in milioni <strong>di</strong> euri (ipotizzare L 1=2 e U k=72).Alcune speciali trasformazioniDiverse trasformazioni rientrano nello schema lineare:Fatturato Società


199il cui effetto è <strong>di</strong> portare tutte le modalità nell’intervallo [0,100] oppure [0,1] se la costante è uno e non cento.Di solito questa trasformazione è richiamata nelle rappresentazioni grafiche perché delimita e unifica gli estremida rappresentare.Esempio:Un comune ha ricevuto 2.5 miliar<strong>di</strong> per lavori <strong>di</strong> pubblica utilità; un ‘altro comune, con un numero <strong>di</strong> abitanti uguale, ma <strong>di</strong> una <strong>di</strong>versaprovincia ha ricevuto 4.8 miliar<strong>di</strong> (cioè quasi il doppio). Se, però, si tiene conto del campo <strong>di</strong> variazione rilevato nelle due province:0-3 per quella del primo e 0-7 per quella dell’altro si ottiene: (2.5-0)/(3-0)=0.83 e (4.8-0)/(7-0)=0.69 che è molto più piccolo.Standar<strong>di</strong>zzazioneLa trasformazione <strong>di</strong> gran lunga più conosciuta èZi( Xi−µ )=σi = 12 , ,…,ndetta variabile standar<strong>di</strong>zzata (punteggi zeta o zeta score) che rende pari a zero la me<strong>di</strong>a della trasformata edunitario lo scarto quadratico me<strong>di</strong>o, in<strong>di</strong>pendentemente dai valori <strong>di</strong> questi nelle variabili originarie.k k ⎛ x −µ ⎞µ = ∑ = ∑ ⎜ ⎟ =− µ + ∑ =− µ + µ i xx1 kx xyyfi ifixifi= 0i= 1 i= 1⎝σ ⎠ σ σ i=1 σ σxx2k2 kk2⎛ x −µ ⎞ ⎛i x1 ⎞ k2 σxσy= ∑ ( yi −µy) fi= ∑ yifi= ∑ ⎜ ⎟ fi= ⎜ ⎟ ∑ ( xi −µx)fi= = 12i= 1i= 1 i=1⎝σ ⎠ ⎝ σ ⎠ i=1σxIl punteggio standard in<strong>di</strong>ca <strong>di</strong> quanti σ una data modalità <strong>di</strong>sta dalla me<strong>di</strong>a aritmetica. Ad esempio, Z i=0.7significa che il valore rilevato è più grande della me<strong>di</strong>a aritmetica e la supera per il 70% <strong>di</strong> σ.x2xx2xxEsempio:Produzione olearia 91-92.Regione Resa Z_resa Regione Resa Z_resa Regione Resa Z_resaPuglia 19.40 0.49 Abruzzo 16.60 -1.03 Molise 16.20 -1.25Calabria 19.90 0.76 Sardegna 19.20 0.38 Veneto 16.20 -1.25Sicilia 20.00 0.81 Basilicata 20.70 1.19 Lombar<strong>di</strong>a 15.90 -1.41Campania 18.40 -0.05 Liguria 22.30 2.06 Emilia Rom. 15.50 -1.63Lazio 18.50 0.00 Marche 18.20 -0.16 Trentino A.A. 19.30 0.43Toscana 18.20 -0.16 Umbria 20.00 0.81La resa in Emilia Romagna è 15.5 quintali <strong>di</strong> olio per 100 quintali <strong>di</strong> olive. Questo, a livello <strong>di</strong> confronto regionale, non è moltoinformativo. Il punteggio standard relativamente alle altre regioni con produzione olearia è Z=(15.5-18.5)/1.84=-1.63 è quin<strong>di</strong> inferiorealla me<strong>di</strong>a. Inoltre, dalla <strong>di</strong>suguaglianza <strong>di</strong> Tchebycheff, sappiamo che in µ±1.63σ è compreso almeno [1-1/(1.63) 2 ]=62.36% ed èperciò un valore basso.Esercizio_SD79: costi (in lire) delle tariffe postali.Paesi Lettere Raccom. EspressiBelgio 497 3205 3551Danimarca 677 5206 6169Francia 497 3160 4589Germania 737 1851 3687G. Bretagna 406 3145 3551Grecia 316 1625 1941Irlanda 587 1958Italia 700 2800Lussemburgo 421 1775Paesi Bassi 497 2618Portogallo 271 1008Spagna 226 391a) Calcolare punteggi unitari e standard per ogni Paese;b) Quale delle trasformazioni lineari può meglio servire ad in<strong>di</strong>viduare i valori anomali?La variabilità relativaPer confrontare la variabilità tra fenomeni aventi or<strong>di</strong>ni <strong>di</strong> grandezza ineguali (voto d’esame nella facoltà <strong>di</strong>lettere e nella facoltà <strong>di</strong> economia) o campi <strong>di</strong> variazione <strong>di</strong>versi (circonferenza del polso e lunghezza del braccioin centimetri) o con unità <strong>di</strong> misura eterogenee (produzione in quintali e produttività in ore lavorate) oppure con<strong>di</strong>verse unità <strong>di</strong> conto (esportazioni in euri ed importazioni in dollari) dobbiamo far intervenire altre trasformazioni,nella fattispecie i rapporti statistici (approfon<strong>di</strong>ti nel capitolo 5).


200Questi hanno il compito <strong>di</strong> eliminare dal confronto ciò che è inutile e nel contempo preservare il legame tra lavariabilità e la sua misura.Esempio:F. Vinci (1920) riflette: Occorre <strong>di</strong>stinguere due scopi <strong>di</strong>versi ai quali una misura della variabilità <strong>di</strong> rapporti può essere rivolta. Quando,infatti, dalla variabilità della serie dei rapporti in esame interessi <strong>di</strong> risalire alla variabilità della serie dei numeratori, sarebbe erratofondarsi su me<strong>di</strong>e <strong>di</strong> scostamenti o <strong>di</strong>fferenze desunte <strong>di</strong>rettamente dai rapporti medesimi e su coefficienti <strong>di</strong> variabilità ottenutiragguagliando tali me<strong>di</strong>e al valor me<strong>di</strong>o dei rapporti o dei valori singoli, ma converrebbe, invece, determinare la relazione in cui codestemisure <strong>di</strong> variabilità stanno a quelle relative ai singoli elementi dei rapporti, al fine <strong>di</strong> poter correttamente calcolare i coefficienti <strong>di</strong>variabilità dei numeratori attraverso quelli dei rapporti. Ma quando, invece, una serie <strong>di</strong> rapporti abbia un significato a sé stante, <strong>di</strong>versoda quello degli elementi che la compongono ed interessi misurare appunto la variabilità delle nuove misure risultanti da quei rapporti,è legittima l’applicazione <strong>di</strong> in<strong>di</strong>ci che ignorino la natura <strong>di</strong> rapporto della variabile.Tra le trasformazioni più frequenti vi è:Y i =X i −X ( 1)X ( n)+ X 1; i = 1,2,…,n; con campo <strong>di</strong> variazione: R = X ( n) − X ( 1)( ) X ( n)+ X ( 1)Ora R è “normalizzato” cioè ha valori nell’intervallo unitario con R=0 che denota l’assenza <strong>di</strong> variabilità e conR=1 che descrive una situazione <strong>di</strong> variabilità massima (“una” e non “la”, perché la massima <strong>di</strong>spersione puòessere definita in mo<strong>di</strong> alternativi secondo il tipo <strong>di</strong> fenomeno analizzato). La normalizzazione rende comparabili<strong>di</strong>stribuzioni con <strong>di</strong>fferenti campi <strong>di</strong> variazione. Non solo, ma il campo <strong>di</strong> variazione ora esprime la variabilitàriscontrata come percentuale del massimo raggiungibile in quella rilevazione aggiungendo così un utile elementointerpretativo. Inoltre, R è invariante rispetto a mo<strong>di</strong>fiche proporzionali ed è quin<strong>di</strong> anche “standar<strong>di</strong>zzato”:bX ( i)− bX ( 1)bX ( n)+ bX 1= b b * X ( i) − X ( 1)= X ( i) − X ( 1)per ogni b ≠ 0( ) X ( n)+ X ( 1)X ( n)+ X ( 1)Un’altra trasformazione interessante è: Y i=X i/|M e| che standar<strong>di</strong>zza le modalità. Ad esempio, la <strong>di</strong>fferenzainterquartilica e lo scarto assoluto me<strong>di</strong>ano <strong>di</strong>ventano:DI = Q 3 − Q 1M e;k∑i=1X i − M eM ef i = S MeM e= CDSe le {X i} subiscono una trasformazione moltiplicativa la DI ed il coefficiente <strong>di</strong> <strong>di</strong>spersione CD (scarto assolutome<strong>di</strong>ano rapportato alla me<strong>di</strong>ana) adesso non cambiano.Esempio:Gastwirth (1982) illustra un interessante uso del coefficiente <strong>di</strong> <strong>di</strong>spersione nella tassazione dei cespiti immobiliari. Se X i =V i /P i è ilrapporto tra il valore presunto V i <strong>di</strong> un bene e P i è il suo prezzo <strong>di</strong> mercato allora il CD <strong>di</strong> “n” cespiti è:CD =V i⎛ 1 ⎞ X i − M e⎝ n ⎠∑ ki=1 M = ⎛ 1 − Pk i⎞ M ee⎝ n ∑⎠ i=1 P ie CD misura l’accuratezza delle stime del valore <strong>di</strong> valore <strong>di</strong> mercato <strong>di</strong> terreni e fabbricati.Altre trasformazioni utili sono: 1) Y i=X i/|µ|; 2) Y i=0.5(X i/|µ|); della prima interessa lo scarto quadratico me<strong>di</strong>onoto come coefficiente <strong>di</strong> variazione; della seconda si considera la deviazione me<strong>di</strong>a.Coeff . <strong>di</strong> var.:2k ⎛ X i −µ ⎞∑ ⎜⎝ µ⎟ f i = σ⎠ µ ; Dev. me<strong>di</strong>a rel.: 1 k X i −µ∑ f i = S µ2 µ 2µi=1i=1


201Sia il coefficiente <strong>di</strong> variazione che la deviazione me<strong>di</strong>a relativa sono misure standar<strong>di</strong>zzate, ma la seconda èanche normalizzata, pone cioè un limite alla variabilità riscontrabile in una rilevazione. Il coefficiente <strong>di</strong> <strong>di</strong>spersionedovrebbe risultare meno sensibile a modalità vicine agli estremi vista la loro ridotta influenza, almeno sulsuo denominatore.Esempio:Un’impresa multinazionale ha due stabilimenti <strong>di</strong> cuscinetti a sfere: uno in Irlanda eduno in Italia. Un ispettore ha rilevato i <strong>di</strong>ametri <strong>di</strong> un lotto <strong>di</strong> produzione in entrambigli stabilimenti ottenendo:Irlanda (in.)Italia (cm)0.000 0.006 35 0.000 0.012 160.006 0.008 28 0.012 0.022 420.008 0.010 15 0.022 0.028 160.010 0.012 10 0.028 0.034 130.012 0.014 8 0.034 0.040 90.014 0.016 3 0.040 0.046 4100 100CV, CD, DMR Irlanda:{0.04276, 0.48682, 0.41054}CV, CD, DMR Italia: {0.06893, 0.39512, 0.70514}Dai tre in<strong>di</strong>ci non emerge in modo univoco quale sia lo stabilimento in cui èmaggiore la variabilità. Per il coefficiente <strong>di</strong> variazione e la deviazione me<strong>di</strong>a èquello italiano, per il coefficiente <strong>di</strong> <strong>di</strong>spersione è quello irlandese. Maggiorevariabilità implica minore qualità, ma non è chiaro dove intervenire.Esercizio_SD80: alla chiusura della contrattazione decentrata in due impresesimili si erano configurate le seguenti <strong>di</strong>stribuzioni degli addetti perclassi <strong>di</strong> salario.a) Confrontate la variabilità calcolando La D.M.R. il CV ed il CD;b) Verificate le in<strong>di</strong>cazioni <strong>di</strong>segnando i due poligoni <strong>di</strong> frequenza.Salari giornalieriImpresaA B10 000 - 15 000 7.2% 3.8%15 000 - 20 000 9.6% 8.1%20 000 - 25 000 14.3% 15.2%25 000 - 30 000 16.9% 14.7%30 000 - 35 000 32.4% 26.2%35 000 - 40 000 13.5% 25.4%40 000 - 45 000 6.1% 6.6%Totale 100.0% 100.0%Addetti 1874 961Se le unità <strong>di</strong> misura sono in rapporto costante (pollici/ centimetri) si potrà usare uno degli in<strong>di</strong>ci proposti senon ci sono altre ragioni contrarie (cfr. De Cristofaro, 1988). Questo problema tocca le variabili su scala proporzionaleperché sono loro a non mo<strong>di</strong>ficare la loro relazione con il concetto se la misura è <strong>di</strong>latata o contrattalinearmente. Se la trasformazione è ad<strong>di</strong>tiva (tipo Celsius/Fahrenheit) gli in<strong>di</strong>ci risulteranno alterati.Esempio:Ad esempio, se Y i =a+bX i , il coefficiente <strong>di</strong> variazione sarà:CV2k ⎛ Yi−µ( Y)=∑ ⎜i 1⎝µ yy2⎞ k ⎛ a+ bXi−a− bµ⎟ fi= ∑ ⎜⎠ i 1⎝a+ bµxx2⎞⎟ fi= b⎠= = =2k ⎛ Xi−µ∑ ⎜i 1⎝a+ bµ2x⎞⎟x ⎠Applichiamolo ai dati sui partecipanti ai test per maestri sul grado <strong>di</strong> conoscenzadelle lingue straniere.Francese Inglese TedescoCV= 0.7989 0.7125 1.0078CD= 0.7338 0.5374 1.0421DMR= 0.6263 0.5304 0.8292DI*= 1.4802 0.9700 3.0000Il confronto evidenzia un or<strong>di</strong>namento <strong>di</strong> variabilità che vede il tedesco sempre superiore al francese e questo superiore all’inglese.E’ peraltro intuitiva la non usabilità della D.M.R. o del CV quando la me<strong>di</strong>a aritmetica è prossima allo zero (odel coefficiente <strong>di</strong> <strong>di</strong>spersione quando la me<strong>di</strong>ana è quasi nulla) dato che si potrebbero trovare valori enormi senzache se ne possa dare una interpretazione in termini <strong>di</strong> variabilità. In questi casi converrebbe, ad esempio,standar<strong>di</strong>zzare le modalità <strong>di</strong>videndole per (|X (1)|+|X (n)|)/2 che ha la stessa efficacia delle altre misure <strong>di</strong> centralitàper l’eliminazione delle costanti moltiplicative ed aggira il problema <strong>di</strong> un denominatore troppo piccolo.Esercizio_SD81: un modo alternativo (cfr. Weisberg, 1992, p.64) <strong>di</strong> rendere la DI comparabile è <strong>di</strong> <strong>di</strong>viderla perla somma dei quartili: DI + =(Q 3-Q 1)/|Q 3+Q 1| .a) E’ normalizzato? b) E’ standar<strong>di</strong>zzato?fiRegioni Fr. Ing. Td. Regioni Fr. Ing. Td.Liguria 235 393 5 Marche 87 178 6Lombar<strong>di</strong>a 674 1434 79 Molise 22 82 5Piemonte 695 600 20 Umbria 84 182 6Emilia-Rom. 254 706 29 Basilicata 187 140 4Friuli V.G. 45 272 45 Calabria 814 504 8Trentino A.A. 6 53 98 Campania 500 715 12Toscana 226 434 20 Puglia 313 462 13Veneto 218 642 79 Sardegna 227 267 10Abruzzo 146 179 4 Sicilia 423 524 52Lazio 279 591 23


<strong>202</strong>3.2.4 La mutabilità e le sue misureL’idea <strong>di</strong> <strong>di</strong>fferenziazione richiama in genere il concetto <strong>di</strong> variabilità che però è applicabile alle sole variabilimetriche. Quando la scala <strong>di</strong> misurazione non è metrica la variabilità, o meglio, la mutabilità, si può interpretarein termini <strong>di</strong> eterogeneità (per variabili qualitative) e <strong>di</strong> bipolarità (variabili quantitative or<strong>di</strong>nali).La eterogeneitàUna variabile è eterogenea se tutte le categorie sono presenti con uguale frequenza: il fenomeno non mostrapreferenza evidente per nessuna modalità; la variabile è omogenea se tutte le unità presentano la stessa modalità.Esempio:Stanziamenti per opere pubbliche.Settori Nord Centro Sud TotaleTrasporti 27.39% 20.78% 51.83% 100.00E<strong>di</strong>lizia 43.60% 19.70% 36.70% 100.00%Ambiente 25.09% 7.12% 67.80% 100.00%Reti 23.13% 18.02% 58.84% 100.00%Varie 1.46% 1.51% 97.04% 100.00%Se i settori ricevessero finanziamenti eterogenei per comparto territoriale ognuno riceverebbe un terzo (33.33%) dell’importo complessivamentestanziato. L’omogeneità si avrebbe nel caso in cui un settore venisse finanziato in un solo comparto.Requisiti degli in<strong>di</strong>ci <strong>di</strong> eterogeneitàPer misurare l’eterogeneità debbono essere approntati in<strong>di</strong>ci I(k;f 1, f 2,…,f k) che rispecchino la <strong>di</strong>stribuzionedegli attributi ricalcando ciò che è stato richiesto agli in<strong>di</strong>ci <strong>di</strong> variabilità (tranne, è ovvio, questioni legateall’unità <strong>di</strong> misura). Quin<strong>di</strong>, dovrebbero:1) Essere basati esclusivamente sulle frequenze.2) Essere nulli per la <strong>di</strong>stribuzione degenere.3) Assumere valori crescenti all’aumentare della eterogeneità.4) Avere un valore massimo che aumenta con “k”, numero delle modalità.Esempi:a) Un in<strong>di</strong>ce <strong>di</strong> eterogeneità grezzo, ma molto espressivo è la frequenza non modale (noto come variance ratio nei testi USA):f = 1 − Max{ f 1 , f 2 ,…, f k }= 1 − f Moche è nullo se la <strong>di</strong>stribuzione è omogenea: f Mo =1 cioè tutte le unità presentano la stessa modalità ed è pari a (k-1)/k (quin<strong>di</strong> tendentead uno per k crescente) se la <strong>di</strong>stribuzione è eterogenea. In<strong>di</strong>rettamente l’in<strong>di</strong>ce ci <strong>di</strong>ce quanto rappresentativa è la moda: valori viciniallo zero in<strong>di</strong>cheranno che c’è una moda spiccata ovvero poco rilevante se sono vicini all’unità (cfr. Naddeo, 1986, p.140).b) La proprietà “4” è suggerita da Frosini (1987, p. 134) ed è opportuna per gestire il confronto dell’eterogeneità <strong>di</strong> <strong>di</strong>stribuzioni aventiun <strong>di</strong>verso numero <strong>di</strong> categorie. Sembra cioè ragionevole ritenere che il passaggio da I(2;1/2,1/2) a I(4;1/4,1/4,1/4,1/4) si debbariflettere in un aumento dell’in<strong>di</strong>ce dato il logico aumento <strong>di</strong> eterogeneità che è possibile riscontrare. Patil e Taillie (1982) ritengonoche l’eterogeneità (vista come <strong>di</strong>versità <strong>di</strong> specie presenti in un’area) aumenti con la comparsa <strong>di</strong> una nuova categoria o con la<strong>di</strong>visione <strong>di</strong> una già esistente in due categorie <strong>di</strong>stinte. La misura della eterogeneità della composizione <strong>di</strong> una polvere deve tenereconto della <strong>di</strong>stribuzione tra i vari tipi <strong>di</strong> rocce, ma anche del numero <strong>di</strong> rocce presenti.Dei vari in<strong>di</strong>ci <strong>di</strong> eterogeneità esistenti (cfr. Leti, 1965, Patil e Taillie, 1982) ne consideriamo solo alcuni:kk⎡ ⎤2In<strong>di</strong>ce <strong>di</strong> eterogeneità <strong>di</strong> Gini : E1= ∑ fi( 1−fi)1 fi;⎣⎢i1 ⎦⎥ = ⎛− ∑ ⎞= ⎝ i=1 ⎠L’in<strong>di</strong>ce è nullo per la <strong>di</strong>stribuzione degenere e vale (k-1)/k (crescente con “k”) in caso <strong>di</strong> perfetta eterogeneità:( )Entropia della <strong>di</strong>stribuzione: E 2 =−∑f i Ln f iTale in<strong>di</strong>ce misura il grado <strong>di</strong> indeterminatezza riscontrato nella rilevazione: se la variabile può mostrare una solacategoria allora, prima <strong>di</strong> analizzare una qualsiasi unità, è già nota la categoria in cui ricadrà: se si rilevasse il numero<strong>di</strong> facce in un cubo sapremmo che l’esito è X=6, l’entropia è nulla ed infatti si ha E 2=0 (poiché xLn(x)→0 se x→0).La quantità <strong>di</strong> informazione che si può ricavare dalla conoscenza <strong>di</strong> una sola manifestazione decresce all’aumentareki=1


203della <strong>di</strong>versificazione tra le categorie fino ad approssimarsi allo stato <strong>di</strong> totale ignoranza (massima entropia) allorchétutte le categorie si manifestano con la stessa frequenza; in tal caso si ha E 2=Ln(k) che aumenta con “k”.Una statistica che ricorre spesso nelle analisi politologiche e sociometriche è:Coefficiente <strong>di</strong> <strong>di</strong>ssimilarità: E 3 = 2⎛ k − 1 ⎞⎝ k ⎠ −k∑ f i − 1 kbasato sulla deviazione me<strong>di</strong>a delle frequenze dal valore osservabile in caso <strong>di</strong> uniformità ed è interpretabile comefrazione <strong>di</strong> unità che occorre complessivamente spostare da una categoria all’altra per ottenere l’uniformità. L’E 3variatra zero (valore assunto solo in caso <strong>di</strong> perfetta omogeneità) e 2(k-1)/k per la perfetta eterogeneità.Bachman e Paternoster (1996, pp. 114-116) propongono l’uso del seguente in<strong>di</strong>ce:i=1E 4 =k −1∑k∑i =1 j=i +1che sembra coinvolgere le frequenze in modo più completo. Anche E 4è nullo nel caso si verifichi una solacategoria ed ha valore massimo (k-1)/2k -crescente con “k”- ottenuto per la <strong>di</strong>stribuzione uniforme.Cisbani (1938) e Frosini (1987, pp. 136-137) propongono <strong>di</strong> misurare l’eterogeneità con lo scarto quadraticome<strong>di</strong>o relativo delle frequenze relative:f i f jE 5 = k − 1k−k⎛f i − 1 ⎞∑⎝ k ⎠i=12che ha gli estremi: zero e [(k-1)/k] 0.5 rispettivamente nella <strong>di</strong>stribuzione degenere ed in quella uniforme.Esempio:In un sistema elettorale i can<strong>di</strong>dati possono presentarsi in più collegi, ma la loro posizione sulla scheda elettorale può essere <strong>di</strong>versanei vari collegi. Ecco le percentuali <strong>di</strong> voto per i tre can<strong>di</strong>dati maggiori per due formazioni politiche.Posizioni dei 3 maggiori can<strong>di</strong>datiA-B-C A-C-B B-C-A B-A-C C-A-B C-B-AConservatori 0.25 0.15 0.15 0.05 0.25 0.15 1.00Liberali 0.14 0.23 0.14 0.12 0.21 0.16 1.00E1 0.1875 0.1275 0.1275 0.0475 0.1875 0.1275 0.19500.1204 0.1771 0.1204 0.1056 0.1659 0.1344 0.1762E2 0.3466 0.2846 0.2846 0.1498 0.3466 0.2846 1.69660.2753 0.3380 0.2753 0.2544 0.3277 0.2932 1.7639E3 0.0833 0.0167 0.0167 0.1167 0.0833 0.0167 1.33330.0267 0.0633 0.0267 0.0467 0.0433 0.0067 1.4533E4 1.40251.4119E5 0.0069 0.0003 0.0003 0.0136 0.0069 0.0003 0.74450.0007 0.0040 0.0007 0.0022 0.0019 0.0000 0.8152Le misure non sembrano in<strong>di</strong>care un effetto-posizione particolarmente forte anche se qualche sospetto in più lo si ha per la <strong>di</strong>stribuzionedei conservatori che ha in<strong>di</strong>ci sistematicamente più bassiLa scelta tra questi in<strong>di</strong>ci <strong>di</strong>pende da quale caratteristica della mutabilità interessa e dalla sensibilità che l’in<strong>di</strong>cemostra nel <strong>di</strong>stinguere non le situazioni estreme, che quelle non creano alcun problema, ma le situazioni interme<strong>di</strong>espesso così ravvicinate da non potersi analizzare senza un buon in<strong>di</strong>catore.Esercizio_SD82: nella tabella è riportata la situazione dei detenuti al 1997.a) Calcolare i cinque in<strong>di</strong>ci <strong>di</strong> eterogeneità;b) Che succede agli in<strong>di</strong>ci se si sdoppiano tutte le modalità (con delle opportunesottocategorie) e si considera una rilevazione con k=10?Posizioni DetenutiAttesa primo giu<strong>di</strong>zio 12'419Appellanti 5'811Ricorrenti 2'280Condannati 26'762Internati 1'223


204La bipolaritàPer variabili or<strong>di</strong>nali è applicabile il concetto <strong>di</strong> bipolarità che è del tutto analogo alla eterogeneità nel caso incui tutte le unità rilevate abbiano la stessa frequenza. Cambia, però il significato <strong>di</strong> <strong>di</strong>fferenziazione massimache nel caso della bipolarità si realizza se una metà presenta la prima modalità e l'altra metà, l'ultima.Esempio:Massima bipolaritàMassima eterogeneitàX1 X2 X3 X4 X5Le due situazioni estreme danno luogo a <strong>di</strong>stribuzioni <strong>di</strong> frequenza che hanno una palese <strong>di</strong>fformità <strong>di</strong> struttura. Invece, la perfettaeterogeneità ha la stessa conformazione sia per le variabili nominali che per le or<strong>di</strong>nali: uguali frequenze relative in tutte le categorie.Per misurare la bipolarità si possono sfruttare le frequenze relative cumulate con requisiti identici alle misuredell’eterogeneità ad esclusione dell’estremo superiore che deve essere raggiunto nel caso <strong>di</strong> bipolarità massima.Che poi, tale estremo, debba <strong>di</strong>pendere dal numero <strong>di</strong> categorie “k” è evidente perché altrimenti quando k=2,massima e minima bipolarità verrebbero a coincidere. Fra i vari in<strong>di</strong>ci proposti consideriamo:In<strong>di</strong>ce <strong>di</strong> Gini: D 1 =k −1( )∑ F i 1 − F iSe le modalità si presentano con uguale frequenza cioè in caso <strong>di</strong> assenza <strong>di</strong> ogni forma <strong>di</strong> polarizzazione si haD 1=[(k 2 -1)/6k]; se le frequenze si bipartiscono tra le categorie agli estremi si ha f 1= 0.5, f k=0.5 e quin<strong>di</strong> F i=0.5per i 0.5L’in<strong>di</strong>ce è zero in caso perfetta omogeneità cioè quando è presente una sola modalità della graduatoria; si ha D 2=kper la <strong>di</strong>stribuzione uniforme e raggiunge il valore (k-1)/2 se la frequenza relativa cumulata è 0.5 per la primamodalità e tale rimane fino alla penultima inclusa.


205Esempio:Cifre iniziali dei dati su popolazione residente nei comuni italiani. Calcolo dell’in<strong>di</strong>ce <strong>di</strong> Leik.Il valore dell’in<strong>di</strong>ce D 2 =1.924 è in una posizione equi<strong>di</strong>stante tra lo zero della perfetta eterogeneitàe il valore massimo 4 della perfetta bipolarità. In fatti, c’è l’abnorme rilevanza della cifra “1” chefa traino all’in<strong>di</strong>ce che però non è bilanciata da una presenza altrettanto forte della cifra “9”.Cifre Comuni fi Fi <strong>di</strong>1 2397 0.298 0.298 0.2982 1496 0.186 0.485 0.4853 1037 0.129 0.614 0.3864 842 0.105 0.718 0.2825 634 0.079 0.797 0.2036 508 0.063 0.860 0.1407 396 0.049 0.910 0.0908 399 0.050 0.959 0.0419 326 0.041 1.0008035 1.000 1.924Altri due in<strong>di</strong>ci si ricavano dalla <strong>di</strong>ssomiglianza tra frequenze relative cumulate osservate e quelle ottenibiliin caso <strong>di</strong> <strong>di</strong>stribuzione uniforme (F i=i/k):D3k −1ik'( k −k'−1)k= ∑ Fi− ; D3( max bip)=; k' = ⎡ k 2kk ⎣ ⎢ ⎤ 2⎦ ⎥ ; >i=1D4k −1ik 3k2=⎛Fi−⎞− +∑ ; D4( max bip)=;⎝ k⎠12ki=122k > 2Gli in<strong>di</strong>ci sono nulli se F i=i/k come è evidente dalle espressioni. In caso <strong>di</strong> perfetta bipolarità: F i=0.5 per i=1,2,…, k-1 e F k=1, D 3e D 4hanno gli estremi correttamente legati in modo monotono crescente al numero <strong>di</strong>categorie (se k=2 si ha 0≤D 3,D 4≤0.5).Esempi:a) Le abitazioni <strong>di</strong> un comune sono state classificate secondo i tipi e le categorie delle ren<strong>di</strong>te catastali:Categorie Abitazioni f i F i D1 D2 D3 D4A1-Signorili 21 0.0288 0.0288 0.0279 0.0288 0.1379 0.0190A2-Civili 86 0.1178 0.1466 0.1251 0.1466 0.1868 0.0349A3-Economiche 127 0.1740 0.3205 0.2178 0.3205 0.1795 0.0322A4-Popolari 40 0.0548 0.3753 0.2345 0.3753 0.2913 0.0849A5-Ultra popolari 18 0.0247 0.4000 0.2400 0.4000 0.4333 0.1878A6-Rurali 438 0.6000 1.0000 0.8453 1.2712 1.2288 0.5990730 Max= 1.2500 2.5000 2.0000 0.7454In grassetto sono riportati i valori degli in<strong>di</strong>ci ed in corsivo i valori <strong>di</strong> massima bipolarità con k=6 categorie or<strong>di</strong>nali. Gli in<strong>di</strong>ci descrivonouna situazione interme<strong>di</strong>a in quanto al polo rurale “A6” non è contrapposto l’estremo “A1” e le categorie sono tutte abbastanza presenti.b) Kempton (1979) presenta la <strong>di</strong>stribuzione delle specie per classi <strong>di</strong> numerosità degli alberi presenti una zona (le classi sono in<strong>di</strong>catecon i soli limiti inferiori).Alberi ni fi Fi E1 D11 17 0.0702 0.0702 0.0653 0.06532 18 0.0744 0.1446 0.0688 0.12374 22 0.0909 0.2355 0.0826 0.18018 16 0.0661 0.3017 0.0617 0.210716 24 0.0992 0.4008 0.0893 0.240232 28 0.1157 0.5165 0.1023 0.249764 25 0.1033 0.6198 0.0926 0.2356128 17 0.0702 0.6901 0.0653 0.2139256 23 0.0950 0.7851 0.0860 0.1687512 8 0.0331 0.8182 0.0320 0.14881024 4 0.0165 0.8347 0.0163 0.13802048 2 0.0083 0.8430 0.0082 0.1324204 Val. eff. 0.7706 2.1069Val.max. 0.9167 2.7500L ‘eterogeneità è molto vicina al massimo e questo non è sorprendente. Sembra invece poco coerente l’in<strong>di</strong>ce <strong>di</strong> bipolarità del Giniche risulta troppo elevato.Esercizio_SD83: esercizi alberghieri in Napoli e negli altri comuni della provincia.Napoli capoluogoAltri comuniCategoria Esercizi fi Fi Esercizi fi Fi5 stelle 4 0.0046 0.0046 0 0.0000 0.00004 stelle 89 0.1031 0.1078 9 0.0756 0.07563 stelle 207 0.2399 0.3476 39 0.3277 0.40342 stelle 253 0.2932 0.6408 38 0.3193 0.72271 stella 310 0.3592 1.0000 33 0.2773 1.0000863 1.0000 119 1.0000a) Calcolare gli in<strong>di</strong>ci <strong>di</strong> bipolarità. Quale in<strong>di</strong>catore risulta più sensibile?b) Come variano gli in<strong>di</strong>ci se le modalità accentratrici sono la seconda e la penultima?


2063.3 L’asimmetria della <strong>di</strong>stribuzioneNei paragrafi precedenti si è analizzata la possibilità <strong>di</strong> ricondurre le <strong>di</strong>stribuzioni <strong>di</strong> frequenza a degli in<strong>di</strong>cidescrittivi della centralità e variabilità. Ma sono sufficienti? Esistono cioè <strong>di</strong>stribuzioni che, pur avendo la stessatendenza centrale e la stessa <strong>di</strong>spersione, siano <strong>di</strong>verse per altri aspetti importanti?Esempio:Distribuzioni ipotetichex n 1 n2 n31 10 3 42 10 6 63 10 20 114 10 13 135 10 12 226 10 11 137 10 10 118 10 8 69 10 7 490 90 90Le <strong>di</strong>fferenze <strong>di</strong> aspetto delle <strong>di</strong>stribuzioni possono essere rilevanti anche quando la me<strong>di</strong>a aritmetica (m=5) è la stessa e gli scartisono simili: 2.58, 2.18, 1.97. L’esempio mostra come possano essere necessarie altre informazioni per identificare la <strong>di</strong>stribuzionee per <strong>di</strong>scriminare tra situazioni <strong>di</strong>ssimili.Nelle <strong>di</strong>stribuzioni in cui i due lati si equivalgono, l’analisi o il confronto della centralità porta naturalmente ascegliere un in<strong>di</strong>ce che è insieme me<strong>di</strong>ana e me<strong>di</strong>a aritmetica (anche moda se c’è unimodalità) lasciando pocaincertezza su che cosa debba costituire la centralità. Nelle <strong>di</strong>stribuzioni con forti squilibri tra i due lati, la presenza<strong>di</strong> un certo numero <strong>di</strong> valori inusuali può complicare la misura della centralità e anche la misura della variabilità<strong>di</strong>venta questionabile. Infine, alcuni importanti risultati <strong>di</strong> statistica inferenziale sono ottenuti per rilevazionimeno numerose (e quin<strong>di</strong> meno costose) e con maggiore semplicità in caso <strong>di</strong> <strong>di</strong>stribuzioni simmetriche.Definizione <strong>di</strong> asimmetriaZanar<strong>di</strong> (1965) definisce simmetria <strong>di</strong> una <strong>di</strong>stribuzione l’attitu<strong>di</strong>ne della variabile a determinare un poligono<strong>di</strong> frequenza simmetrico rispetto alla me<strong>di</strong>ana. Ciò implica che:fr. rel. ( M − ε) − fr. rel. ( M + ε)= 0 ovvero fr. rel. ( x) − fr. rel.( 2M −ε)= 0 per ogni ε > 0e e eper cui è assegnata la stessa frequenza a modalità equi<strong>di</strong>stanti dalla me<strong>di</strong>ana. Una <strong>di</strong>stribuzione è simmetricaquando il poligono <strong>di</strong> frequenza coincide con la sua immagine speculare:f( M e−ε)f( M e+ )εf( M e−ε)f( M e+ε)M e−εM e M e+εM e−εM e M e+εSe si piega il poligono o l’istogramma delle frequenze della <strong>di</strong>stribuzione simmetrica lungo la me<strong>di</strong>ana, ciò chesi trova su <strong>di</strong> un lato si sovrapporrà esattamente a ciò che su trova sull’altro. Plurimodalità e simmetria sonoperfettamente compatibili.La definizione <strong>di</strong> simmetria può anche basarsi sulla funzione <strong>di</strong> ripartizione. Si <strong>di</strong>rà simmetrica la <strong>di</strong>stribuzioneper la quale F(M e-ε)=1-F(M e+ε) per ogni ε. La parte della curva superiore alla linea F=0.5 è ottenutapiegando verso l’alto quella inferiore con rotazione speculare.


207( X p − M e )− ( X 1−p − M e )= 0 per 0< p < 0.5Analogamente, la simmetria può essere presentata con la curva <strong>di</strong> graduazione intendendo simmetrica la<strong>di</strong>stribuzione per la quale la funzione:C = M − X per 0 < p < 1p e pè simmetrica intorno a 0.5 (Cleveland, 1993, pp. 44-45). La definizione <strong>di</strong> simmetria, in qualunque forma la siconsideri, permette solo <strong>di</strong> stabilire la presenza o l’assenza della simmetria, ma non <strong>di</strong> quantificare né <strong>di</strong><strong>di</strong>versificare i gra<strong>di</strong> <strong>di</strong> scostamento dalla situazione <strong>di</strong> simmetria. Per arrivare alla definizione operativa dellaasimmetria dobbiamo coinvolgere i valori empirici e, soprattutto, la loro me<strong>di</strong>ana.Si supponga che le modalità siano in or<strong>di</strong>ne crescente <strong>di</strong> grandezza. Perché la <strong>di</strong>stribuzione osservata possaconsiderarsi simmetrica è necessario che i valori centrali tra modalità equi<strong>di</strong>stanti dalla me<strong>di</strong>ana coincidano conquest’ultima:X ( i)+ X ( n−i+1)2[ ] = [ M e − X ( i)] per i = 1, 2,…, [ n 2]= M e ovvero X ( n−i+1)− M eRisulta quin<strong>di</strong> simmetrica la <strong>di</strong>stribuzione in cui gli scarti negativi dalla me<strong>di</strong>ana sono uguali in numero ed ingrandezza a quelli positivi.Grafico <strong>di</strong> TukeySe si rappresentano graficamente i punti <strong>di</strong> coor<strong>di</strong>nate:( X (n−i+1) − M e ) 2 + ( M − X (i) ) 2;4M eX (n−i+1) + X (i); i = 1, 2,…, [ n 2]2per una <strong>di</strong>stribuzione simmetrica correranno paralleli all’asse delle ascisse lungo il livello della me<strong>di</strong>ana, sarannocrescenti se c’è uno sbilanciamento sia verso i valori alti che verso i valori bassi (l’eliminazione del segnodall’or<strong>di</strong>nata del grafico preclude la possibilità <strong>di</strong> in<strong>di</strong>viduare la <strong>di</strong>rezione degli squilibri).Esempio:Siano A: {0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55}, B={0, 1, 2, 4, 6, 10, 15, 21, 28, 36, 45, 55}3026221814"A"Me"B"104 9 14 19 24 29 34 39 44Per la A i punti sono allineati lungo la retta y=M e =27.5; per la B seguono una curva che evidenzia lo sbilanciamento verso i valorigran<strong>di</strong>. Il grafico è proposto da Emerson e Stoto (1983) non solo per verificare la simmetria, ma anche per proporre una trasformazioneche renda simmetrica la <strong>di</strong>stribuzione.


208Esercizio_SD84: tasso <strong>di</strong> occupazione camere alberghiere (in percentuale) e ricavo me<strong>di</strong>o per camera occupata.Provincia T.O.C. R.M.C.O.Bologna 55.2 178Firenze 62.3 225Genova 50.8 155Messina 44.2 111Milano 65.2 208Napoli 73.8 121Ravenna 49.0 121Roma 67.1 234Torino 53.6 157Trieste 49.9 139Venezia 62.1 329Verona 47.7 143Vicenza 48.1 129Lecce 59.9 197Disegnate il <strong>di</strong>agramma <strong>di</strong> Tukey e valutate la presenza <strong>di</strong> asimmetria.Se le modalità sono in classi la definizione <strong>di</strong> simmetria <strong>di</strong>venta più ostica: le classi debbono avere ampiezzeuguali per classi equi<strong>di</strong>stanti da quella me<strong>di</strong>ana e la classe me<strong>di</strong>ana deve essere simmetrica intorno a M e. Inoltre,le frequenze relative debbono essere uguali a coppie <strong>di</strong> classi corrispondenti.⎧( c k −i+1 − M e )= ( M e − c i )⎪⎨f k −i+1 = f i; per i = 1, 2,…, k 2⎪⎩( U k −i+1 − L k −i+1 )= ( U i − L i )[ ]L’ipotesi <strong>di</strong> <strong>di</strong>stribuzione uniforme all’interno delle classi evoca una <strong>di</strong>stribuzione simmetrica delle modalità,almeno all’interno <strong>di</strong> ogni classe.Esempio:Distribuzione dell’intake (assunzione) <strong>di</strong> calcio da parte <strong>di</strong> un gruppo <strong>di</strong> donne adulte.Milligrammi Donne c i f i0 100 4 50.00 0.010100 200 11 150.00 0.028200 400 66 300.00 0.170400 600 59 500.00 0.152600 800 108 700.00 0.278800 1000 59 900.00 0.1521000 1200 66 1100.00 0.1701200 1300 11 1250.00 0.0281300 1400 4 1350.00 0.010388 1.000E’ evidente la simmetria rispetto al polo X=M e . Se riflesso in uno specchio, il poligono <strong>di</strong> frequenza è poco o per niente <strong>di</strong>stinguibiledal <strong>di</strong>segno originario.Esercizio_SD85: Lee (1980, p.14) riporta la <strong>di</strong>stribuzione dei mesi <strong>di</strong> sopravvivenza<strong>di</strong> 40 pazienti affetti da mieloma.a) Costruire il poligono <strong>di</strong> frequenza;b) Può ritenersi simmetrico? Se vi sembra asimmetrico, con quali elementi può essereillustrata la asimmetria?Mesi Sopravviventi0 5 405 10 3510 15 2815 20 2220 25 1825 30 1330 35 935 40 540 45 545 50 3≥50 2La mancanza <strong>di</strong> simmetria (presenza <strong>di</strong> asimmetria) è il frutto <strong>di</strong> uno scompenso tra le modalità ricadenti su <strong>di</strong>un lato della me<strong>di</strong>ana rispetto alle modalità sul lato opposto e l’asimmetria è tanto più spiccata quanto maggiorisono le <strong>di</strong>fferenze tra le due parti a confronto. In genere, gli squilibri vicino al centro non sono consideratipreoccupanti e sono <strong>di</strong> fatto ignorati. Molto più rilevanti sono quelli concernenti il <strong>di</strong>verso comportamento nellecode soprattutto ai fini dello spessore delle code e per la presenza <strong>di</strong> valori remoti. Nella rappresentazioneanalitica o tabellare, la simmetria si riconosce in una perfetta compensazione tra tutte le statistiche calcolabilisulla parte destra e sinistra (rispetto alla me<strong>di</strong>ana) della <strong>di</strong>stribuzione. Vedremo tra poco come sfruttare questapeculiarità.


209Asimmetria con segnoOltre che alla quantificazione assoluta della asimmetria, si è anche interessati al segno (per le <strong>di</strong>stribuzioniunimodali). Si parlerà <strong>di</strong> asimmetria positiva se gli scostamenti dovuti a valori minori della me<strong>di</strong>ana hanno piùpeso dei corrispondenti scostamenti per valori superiori alla me<strong>di</strong>ana. Si parlerà <strong>di</strong> asimmetria negativa nel casoopposto. Gli scostamenti possono verificarsi al centro della <strong>di</strong>stribuzione (ad esempio, moda e me<strong>di</strong>ana noncoincidono) e/o realizzarsi nelle code per la presenza <strong>di</strong> modalità anomale su <strong>di</strong> un solo lato della <strong>di</strong>stribuzione.Asimmetriapositiva o a destraAsimmetrianegativa o a sinistraL’asimmetria negativa può risultare da una “accelerazione” del fenomeno che esaurisce la sua spinta solo dopo unlivello molto elevato. Questo si può osservare nella <strong>di</strong>stribuzione delle patologie da ambiente <strong>di</strong> lavoro in cui le personesono suscettibili <strong>di</strong> ammalarsi in ragione della durata dell’esposizione oppure nella per<strong>di</strong>ta <strong>di</strong> liqui<strong>di</strong> a causa <strong>di</strong> unafessura in un contenitore. Anche la <strong>di</strong>stribuzione <strong>di</strong> fenomeni che inglobano un processo <strong>di</strong> lenta accumulazione tendead avere <strong>di</strong>stribuzione asimmetriche a sinistra (ad esempio, le malattie legate all’età). Caso estremo <strong>di</strong> asimmetrianegativa è la curva a “J” che è un modello ideale per fenomeni poco frequenti ai livelli bassi, ma che si manifestanocon assiduità via via crescente man mano che i livelli aumentano: finanziamenti in cui le imprese gran<strong>di</strong> sono piùfavorite, possibilità <strong>di</strong> impiego in ragione dell’esperienza acquisita, ven<strong>di</strong>te <strong>di</strong> beni in relazione alla loro qualità.Esempi:a) Il numero <strong>di</strong> quiz risolti dagli studenti in una prova interme<strong>di</strong>a ha mostrato l’andamento qui riportato. Sono rari gli studenti con pochesoluzioni corrette. Il numero <strong>di</strong> studenti che non commette errori aumenta con l’aumentare del numero <strong>di</strong> risposte esatte. La prova-evidentemente- non era molto selettiva.60Risolti Studenti 53 1 84 35 56 1219269 3910 4811 51204504030201003 4 5 6 5 8 9 10 11b) Boldrini (1968, pp. 403-404) cita un interessante esempio <strong>di</strong> <strong>di</strong>stribuzione con massima asimmetria negativa: la rilevazione,secondo la <strong>di</strong>stanza da una sorgente luminosa, <strong>di</strong> un campione <strong>di</strong> moscerini il cui fototropismo li in<strong>di</strong>rizza verso il punto <strong>di</strong> illuminazione.c) Rosner (1990, p.11) segnala come <strong>di</strong>stribuzione con asimmetria negativa la rilevazione dei giorni per tasso <strong>di</strong> umi<strong>di</strong>tà in una zonamolto umida: la maggioranza delle osservazioni produrrebbe modalità elevate con rari elementi per i livelli più moderati <strong>di</strong> umi<strong>di</strong>tà.Riuscite a proporre un fenomeno in cui, per le stesse ragioni dovrebbe riscontrarsi asimmetria negativa? Ad esempio il numero <strong>di</strong> reaticommessi da minori in un quartiere a rischio, il numero <strong>di</strong> infortuni sul lavoro in un cantiere in cui si violino le norme <strong>di</strong> sicurezza.Esercizio_SD86: liquidazioni <strong>di</strong> sinistri in cui sono rimasti coinvolti camper e roulotte.Li Ui n fi100 200 2 0.007200 300 4 0.015300 400 8 0.030400 500 10 0.037500 600 16 0.059600 700 21 0.078700 800 38 0.141800 900 47 0.174900 1000 79 0.2931000 1100 34 0.1261100 1200 11 0.041270 1.000Valori in decine <strong>di</strong> migliaia <strong>di</strong> lire. Costruite il poligono <strong>di</strong> frequenza per asseverare la presenza <strong>di</strong> asimmetrianegativa ed eventualmente spiegatene la ragione.L’asimmetria positiva può derivare dalla presenza <strong>di</strong> un “freno” che si attiva ad un livello piuttosto basso. Ad esempiola <strong>di</strong>stribuzione <strong>di</strong> celibi/nubili secondo l’età; nella <strong>di</strong>stribuzione dei red<strong>di</strong>ti in cui raggiungere un certo livello èrelativamente semplice, ma poi pochi riescono a <strong>di</strong>stanziarsi dai livelli centrali; i casi <strong>di</strong> una malattia infettiva seguonola stessa evoluzione se si considerano le nuove insorgenze per numero <strong>di</strong> giorni dallo scoppio dell’epidemia.


210Esempi:a) Miller (1955) ritiene che la fonte della asimmetria positiva nella curva dei red<strong>di</strong>ti sia dovuta alla contemporanea presenza <strong>di</strong> red<strong>di</strong>tieri <strong>di</strong>versiper fascia d’età e/o sesso le cui <strong>di</strong>stribuzioni -prese separatamente- sarebbero simmetriche, ma generano asimmetria con l’aggregazione.L’asimmetria -positiva o negativa- può in effetti derivare dal fatto che la rilevazione analizzata è in realtà un misto <strong>di</strong> almeno due <strong>di</strong>stribuzionicon <strong>di</strong>versa centralità e/o variabilità.b) Cleveland (1993, p. 46) sostiene che ogni insieme <strong>di</strong> numeri positivi che variano su <strong>di</strong>verse potenze del <strong>di</strong>eci è un can<strong>di</strong>dato naturalea presentarsi secondo una <strong>di</strong>stribuzione con asimmetria positiva.c) Hoel (1971, p. 101) presenta una <strong>di</strong>stribuzione con forte asimmetria positiva relativa ai casi <strong>di</strong> morte per scarlattina secondo l’età.d) Rosner (1990, p.10) propone come caso <strong>di</strong> asimmetria positiva la <strong>di</strong>stribuzione <strong>di</strong> alcune donne comprese nella fascia d’età 20-29 per il numero <strong>di</strong> anni d’uso della pillola anticoncezionale.e) Sull’interpretazione della asimmetria Clifford (1982, pp. 81-82) fornisce uno splen<strong>di</strong>do esempio <strong>di</strong> non identificabilità (la presenza<strong>di</strong> più <strong>di</strong> una spiegazione ragionevole dei fatti) <strong>di</strong>scutendo la <strong>di</strong>stribuzione degli incidenti secondo il numero degli autisti per un fissatoperiodo <strong>di</strong> tempo e che presenta asimmetria positiva. 1ª spiegazione: la tendenza a provocare incidenti è costante per ogni autista,ma varia da autista ad autista ed alcuni ne hanno una più elevata degli altri. Per ridurre il numero <strong>di</strong> incidenti si deve ridurre l’impiego<strong>di</strong> coloro che hanno provocato più sinistri. 2ª spiegazione: tutti gli autisti hanno la stessa tendenza a provocare incidenti, ma dopo cheli hanno provocati <strong>di</strong>ventano più prudenti e più ne provocano e più li evitano. Per ridurre il numero <strong>di</strong> incidenti si deve aumentarel’impiego <strong>di</strong> coloro che hanno provocato più sinistri. La non identificabilità non è una situazione molto piacevole per chi deve prenderedecisioni e può essere superata aumentando le variabili del confronto.Caso estremo <strong>di</strong> asimmetria positiva è la curva a “L” che è tipica <strong>di</strong> eventi soggetti a rarefarsi man mano che sene considerano il numero <strong>di</strong> manifestazioni: interruzioni <strong>di</strong> energia elettrica, esplosioni in una conduttura <strong>di</strong> gas,esondazioni <strong>di</strong> un fiume.Esempio:Nel prospetto sono stati classificati, per numero <strong>di</strong> incidenti sul lavoro, i <strong>di</strong>pendenti <strong>di</strong> alcuni stabilimenti in cui si seguono correttamentele norme antinfortunistiche.Incidenti Lavoratori fi0 763 0.92711 26 0.03162 14 0.01703 8 0.00974 5 0.00615 4 0.00496 2 0.00247 1 0.0012823 1.0000La grande maggioranza dei <strong>di</strong>pendenti non subisce infortuni e la loro frequenza relativa decade molto rapidamente all’aumentare delnumero <strong>di</strong> infortuni.Esercizio_SD87: numero <strong>di</strong> fratelli e sorelle sopravviventi dopo una certa età:F. & S. 8 7 6 5 4 3 2 1 0Persone 19 28 41 50 85 106 306 672 413 1720a) Rappresentare la funzione <strong>di</strong> graduazione; b) Che tipo <strong>di</strong> asimmetria presenta?3.3.1 Misura della asimmetriaLa misura della asimmetria mira a quantificare lo scostamento da una situazione <strong>di</strong> simmetria nonché, per le<strong>di</strong>stribuzioni unimodali, a specificare, attraverso il segno, le zone <strong>di</strong> maggiore scompenso rispetto al polo <strong>di</strong>simmetria. Zanar<strong>di</strong> (1965) <strong>di</strong>stingue due piani: quello concettuale in cui si definisce la asimmetria e quellooperativo in cui la si traduce in quantità misurabili. Il concetto <strong>di</strong> simmetria può avere <strong>di</strong>verse definizionioperative e questo ha portato due conseguenze: la proposta <strong>di</strong> una moltitu<strong>di</strong>ne <strong>di</strong> in<strong>di</strong>ci <strong>di</strong> asimmetria e lacontrad<strong>di</strong>ttorietà tra le in<strong>di</strong>cazioni che forniscono sia tra <strong>di</strong> loro che rispetto alla morfologia della <strong>di</strong>stribuzione.Osserva G. Leti (1983, p. 446): “La misura dell’asimmetria, nonostante l’affinamento che col tempo hannosubito gli strumenti statistici, sono rimaste ru<strong>di</strong>mentali ed equivoche”. I requisiti per un in<strong>di</strong>ce <strong>di</strong> asimmetriaα(X) della variabile X sono:1) α(X)=0 se la <strong>di</strong>stribuzione è simmetrica;2) α(X) aumenta all’aumentare dello scostamento dalla situazione <strong>di</strong> simmetria;3) Nel caso <strong>di</strong> <strong>di</strong>stribuzioni unimodali si deve avere α(X)0 se l’allungamento è verso i valori gran<strong>di</strong>.4) α[g(x)]=α(X) se la derivata prima g’(x) è positiva e α[g(x)]=−α(X) se g’(X)


211In<strong>di</strong>ce semplice <strong>di</strong> asimmetriaNelle <strong>di</strong>stribuzioni simmetriche, il baricentro fisico della <strong>di</strong>stribuzione: la me<strong>di</strong>a aritmetica, coincide con il polo<strong>di</strong> simmetria: la me<strong>di</strong>ana. Ogni allontanamento da questa con<strong>di</strong>zione in<strong>di</strong>ca asimmetria. Nelle <strong>di</strong>stribuzioniunimodali simmetriche, l’aumento delle modalità superiori alla me<strong>di</strong>ana -a parità <strong>di</strong> ampiezza della rilevazionenonaltera la me<strong>di</strong>ana, ma fa aumentare la me<strong>di</strong>a aritmetica irrobustendo il lato destro per cui µ>M e. D‘altra parte,una riduzione delle modalità inferiori alla me<strong>di</strong>ana, a parità <strong>di</strong> ampiezza, lascia invariata la me<strong>di</strong>ana e riduce lame<strong>di</strong>a aritmetica per cui µ0.5; si ha α 1= 1 se la frequenza relativa della modalità minima f( X (1)) >0.5Esempio:Consideriamo tre <strong>di</strong>stribuzioni ipotetiche molto semplici.Le in<strong>di</strong>cazioni fornite dall’in<strong>di</strong>ce corrispondono in effetti a degli squilibritra i due lati della me<strong>di</strong>ana.x A:negativa B: positiva C: simmetrica0 5 51 51 5 24 <strong>202</strong> 15 15 503 24 5 204 51 5 5100 100 100A B CM e4 0 2µ 3.11 0.89 2SMe0.89 0.89 0.6α1−1 1 0


212Esercizio_SD88: pazienti affetti da schizofrenia (A) o da <strong>di</strong>sor<strong>di</strong>ni affettivi (B) per episo<strong>di</strong> <strong>di</strong> stress.a) Calcolare α 1per entrambe le <strong>di</strong>stribuzioni;Episo<strong>di</strong> Schizof. Dis.Aff.0 23 71 39 102 46 283 21 424 21 755 13 346 9 157 2 3174 214b) Analizzare le <strong>di</strong>fferenze <strong>di</strong> asimmetria che risultano dal grafico e quelle mostrate da α 1.Esercizio_SD89: classificazione <strong>di</strong> due allevamenti: A e B, <strong>di</strong> mucche da latte per i giorni-mucca.Latte All. A7 9 12310 12 87513 17 157218 22 239923 27 177728 32 43933 35 27187Latte All.B7 10 17810 12 165913 15 262415 20 106120 25 78425 30 28030 35 126598a) Calcolare gli in<strong>di</strong>ci semplici <strong>di</strong> asimmetria;b) E’ rilevante la <strong>di</strong>versa struttura delle classi?In<strong>di</strong>ce <strong>di</strong> asimmetria <strong>di</strong> K. PearsonLe <strong>di</strong>stribuzioni unimodali e simmetriche sono caratterizzate dalla relazione me<strong>di</strong>a aritmetica = me<strong>di</strong>ana = moda.In particolare, lo sbilanciamento verso uno dei lati della <strong>di</strong>stribuzione è segnalato da un addensamento dellefrequenze in un punto <strong>di</strong>stante dal baricentro fisico della <strong>di</strong>stribuzione. Pearson nel 1920 propose <strong>di</strong> utilizzarecome misura della asimmetria l’in<strong>di</strong>ce:α2 = µ−M oσAsimmetrianegativaAsimmetriapositivaµM e M 0M 0 M eµSe c’è asimmetria positiva la me<strong>di</strong>a aritmetica è maggiore della moda a causa della “coda” allungata verso i valoripiù gran<strong>di</strong>. Per ragioni analoghe µ risulterà inferiore alla moda in caso <strong>di</strong> asimmetria negativa. Anche per α 2sussistono le stesse remore <strong>di</strong> α 1: l’identità M o=µ non è un segnale univoco <strong>di</strong> <strong>di</strong>stribuzione simmetrica e puòben verificarsi anche per <strong>di</strong>stribuzioni asimmetriche.Esempio:X i 1 2 3 4 5n i 5 3 8 5 4 25La <strong>di</strong>stribuzione ha me<strong>di</strong>a aritmetica e moda pari a tre, ma non può considerarsi simmetrica.L’in<strong>di</strong>ce non cambia per una trasformazione lineare crescente e può quin<strong>di</strong> servire per il confronto <strong>di</strong> <strong>di</strong>stribuzioniche abbiano <strong>di</strong>versa unità <strong>di</strong> misura o <strong>di</strong>versa origine. Contrariamente però all’altro, l’a 2non è normalizzato.E’ stato però osservato che per <strong>di</strong>stribuzioni poco asimmetriche (ferma restando l’unimodalità) ricorre la relazione:M o-µ=3(M e-µ) il che implicherebbe che le tre misure <strong>di</strong> centralità si possano presentare solo in or<strong>di</strong>nealfabetico o in or<strong>di</strong>ne alfabetico inverso: M a< M e M e>M o. Se ciò fosse vero allora poiché loscarto assoluto me<strong>di</strong>ano è minore della deviazione me<strong>di</strong>a e la deviazione me<strong>di</strong>a minore <strong>di</strong> s si avrebbe: -3≤α 2≤3.


213Esercizio_SD90: famiglie italiane per elettrodomestici posseduti.Elletrodom. Famiglie1 9692 7853 6624 4855 4296 3887 1678 1209 10110 3011 912 613 24153a) Calcolare l’in<strong>di</strong>ce <strong>di</strong> asimmetria <strong>di</strong> K. Pearson (moda come valore centrale della classe modale);b) Verificare la corrispondenza tra segno e forma della <strong>di</strong>stribuzione.Esercizio_SD91: comuni per costo <strong>di</strong> 200m 3 <strong>di</strong> acqua potabile.Costo Comuni150 180 9180 210 <strong>202</strong>10 240 65240 270 98270 300 150300 330 296330 360 159360 390 32390 430 21850a) Calcolare l’in<strong>di</strong>ce <strong>di</strong> K. Pearson;b) Che effetto può avere la <strong>di</strong>versa tecnica <strong>di</strong> calcolo della moda?In<strong>di</strong>ce <strong>di</strong> Yule-BowleyGli in<strong>di</strong>ci basati su <strong>di</strong>fferenze tra misure <strong>di</strong> centralità hanno il <strong>di</strong>fetto <strong>di</strong> guardare molto al centro della <strong>di</strong>stribuzionee solo in<strong>di</strong>rettamente a ciò che succede nelle code. Un in<strong>di</strong>ce che misura l’asimmetria con attenzione a zonepiù lontane dal centro è lo Yule-Bowley:(YB = Q 3 − M e)− M e − Q 1( Q 3 − M e )+ M e − Q 1( )( ) = Q 3 + Q 1 − 2M eQ 3 − Q 1YB è nullo per <strong>di</strong>stribuzioni simmetriche. Infatti, queste presentano le stesse frequenze su entrambi i lati dellame<strong>di</strong>ana e quin<strong>di</strong> lo scarto positivo (Q 3-M e) è esattamente compensato dallo scarto negativo (Q 1- M e). Sedominano i valori me<strong>di</strong>o-bassi (asimmetria positiva) YB sarà positivo ad in<strong>di</strong>care che a sinistra della me<strong>di</strong>anasi concentrano più modalità che non a destra; l’in<strong>di</strong>ce è negativo per <strong>di</strong>stribuzioni con asimmetria negativa incoerenza con il prevalere <strong>di</strong> valori me<strong>di</strong>o-alti.Esempio:Simmetria:MeMinQ1Q3MaxSe conveniamo che l’altezza del rettangolo sia uno allora l’in<strong>di</strong>ce <strong>di</strong> Yule-Bowley è dato dalla <strong>di</strong>fferenza tra i rettangoli interni al boxrapportata all’area complessiva del box. In caso <strong>di</strong> simmetria (ma non solo) l’area dei due rettangoli interni è uguale.Asimmetria positiva:MeMinQ1Q3Maxil rettangolo che rappresenta le modalità me<strong>di</strong>o-piccole ha area inferiore rispetto a quello che rappresenta le modalità me<strong>di</strong>o gran<strong>di</strong>,perché queste -più sparse- si presentano su <strong>di</strong> un più ampio arco <strong>di</strong> valori.Asimmetria negativa:MeMinQ1Q3Maxadesso sono i valori me<strong>di</strong>o-gran<strong>di</strong> a dar luogo al rettangolo <strong>di</strong> area più piccola in quanto la base che ne racchiude il 25% è più corta<strong>di</strong> quanto non succeda per i valori me<strong>di</strong>o-piccoli.L’in<strong>di</strong>ce <strong>di</strong> YB è normalizzato perché al suo denominatore c’è il massimo raggiungibile dal numeratore. Questo,infatti, è espresso come scarto tra le <strong>di</strong>stanze <strong>di</strong> un punto interme<strong>di</strong>o (la me<strong>di</strong>ana) da altri due (1° e 3° quartile)


214per cui il numeratore potrà arrivare, alpiù, allo scarto tra i due estremi: -1≤ YB≤ 1. Il minimo è ottenuto per<strong>di</strong>stribuzioni con simmetria negativa in cui almeno la metà del 50% più piccolo ha la modalità me<strong>di</strong>ana ed ilmassimo è raggiunto da <strong>di</strong>stribuzioni in cui la me<strong>di</strong>ana è attribuita ad almeno il 50% più grande. Inoltre, YBrimane uguale per trasformazioni ascendenti. All’in<strong>di</strong>ce Yule-Bowley si applicano le critiche già svolte per lealtre misure <strong>di</strong> asimmetria e, in particolare, la non esclusività del valore nullo per le <strong>di</strong>stribuzioni simmetriche.Esempi:a)E’ stata condotta un’indagine fra gli acquirenti <strong>di</strong> una marca <strong>di</strong> detersivo e fra quelli delle concorrenti al fine <strong>di</strong> accertare il numero<strong>di</strong> spot televisivi visti nelle ultime tre settimane.Spot Clienti f i F0 191 0.0817 0.08171 265 0.1133 0.19502 270 0.1155 0.31053 437 0.1869 0.49744 310 0.1326 0.63005 315 0.1347 0.76486 291 0.1245 0.88927 259 0.1108 1.00002338 1.00000.2000.160 00.12 0 0000.08 00.040.000 1 2 3 4 5 6 7In questo caso YB=-1/3. La <strong>di</strong>stribuzione mostra una sostanziale simmetria che si riflette nel valore basso dello YB.b) Confronto della <strong>di</strong>stribuzione per età della popolazione<strong>di</strong> due Paesi in fasi <strong>di</strong>verse <strong>di</strong> sviluppo economico.Or<strong>di</strong>ne K JQ15. 085 5.045Me25. 007 15.064Q235. 087 35.036YB −0. 328 0.332Il poligono è simile ovvero le <strong>di</strong>versità non giustificanovalori <strong>di</strong> asimmetria ad<strong>di</strong>rittura opposti. E’ evidente che YBè ingannato dalla struttura delle classi la cui ampiezzacostante non è appropriata in questa applicazione.Età K J1 1577 2281 4 6268 8765 14 <strong>202</strong>23 181715 24 17627 132325 34 15727 103435 44 11057 77945 54 9018 60355 64 6573 39565 74 3724 21275 84 1438 8385 188 2293420 73720.250.200.150.100.050.00JK0 10 20 30 40 50 60 70 80 90 100Esercizio_SD92: un in<strong>di</strong>ce per misurare lo sbilanciamento verso una delle code è:[ X( Q Q Xn) −3]−[ 1−( 1)]c =X − X[ ( n) ( 1)]a) E’ un in<strong>di</strong>ce normalizzato e standar<strong>di</strong>zzato? b) Che in<strong>di</strong>cazioni fornisce sulla asimmetria?Esercizio_SD93: pazienti affetti da sarcoma dei tessuti molli.Anni M F F i(M) F i(F)0 1 22 70 0.191 0.0801 2 26 80 0.417 0.1602 3 15 85 0.548 0.2513 4 12 88 0.652 0.3494 5 11 92 0.748 0.4495 6 10 98 0.835 0.5546 7 9 97 0.913 0.6667 8 6 92 0.965 0.7778 9 3 91 0.991 0.8829 10 1 82 1.000 0.986115 875Confrontare l’asimmetria delle due <strong>di</strong>stribuzioni con dell’in<strong>di</strong>ce <strong>di</strong> Yule-Bowley.Funzione <strong>di</strong> asimmetriaL’in<strong>di</strong>ce <strong>di</strong> Yule-Bowley rientra in una vasta categoria <strong>di</strong> misure (cfr. Velleman e Hoaglin, 1981; Frosini, 1987,p. 244) ottenute dalla funzione <strong>di</strong> asimmetria:(A p = X 1−p − M e )− M e − X p( X 1−p − M e )+ M e − X p( )( ) = X 1−p + X p − 2M eX 1−p − X p; 0 < p < 0.5che corrisponde all’in<strong>di</strong>ce <strong>di</strong> Yule-Bowley per p=0.25. Ogni scelta <strong>di</strong> “p” determina un in<strong>di</strong>ce che è nullo in caso<strong>di</strong> simmetria e <strong>di</strong>verso da zero per <strong>di</strong>stribuzioni asimmetriche; in particolare è positivo se il p% a destra dellame<strong>di</strong>ana impegna un intervallo <strong>di</strong> valori più grande rispetto a quello necessario per delimitare il p% posto allasua sinistra. E’ negativo nel caso opposto.


215Se non si hanno ragioni per scegliere uno specifico valore <strong>di</strong> “p” si può analizzare A psull’intervallo unitario.Esempi:a) Tempi me<strong>di</strong> in minuti <strong>di</strong> attesa ad uno sportello del PRA. Analizziamo l’asimmetria con la A p valutata per decili.X n i0 5 75 10 1310 20 1420 30 2830 45 2645 60 1160 75 975 90 690 120 2116La funzione si mantiene costantemente positiva confermando il segno della asimmetria e lo sbilanciamento verso la coda a sinistra (valoripiccoli). La funzione A p sembra pertanto uno strumento interessante, ma forse te<strong>di</strong>oso <strong>di</strong> analisi della morfologia delle <strong>di</strong>stribuzioni.b) Età in anni compiuti <strong>di</strong> pazienti affetti da leucemia <strong>di</strong>stinti tra rispondenti alla terapia ed non rispondenti (Lee, 1980, p. 340).Rispondenti 20 25 26 26 27 28 28 31 33 33 36 40 40 45 45 50 50 53 5662 71 74 75 77 18 19 22 26 27 28 28 28 34 37 47 56 19Non Rispon. 27 33 34 37 43 45 45 47 48 51 52 53 57 59 59 60 60 61 6161 63 65 71 73 73 74 80 21 28 36 55 59 62 83La funzione <strong>di</strong> asimmetria può essere calcolata per ogni coppia equi<strong>di</strong>stante dalla me<strong>di</strong>ana (asimmetria puntuale)Ai−05.nX( n+ 1−i)+ Xi −2Me=; i 12 , , , nX( n+ 1−i)− X2i= … [ ]Il comportamento delle due rilevazioni è profondamente <strong>di</strong>verso: nei rispondenti prevalgono i valori piccoli e quin<strong>di</strong> l’asimmetria èpositiva. Avviene il contrario nei non rispondenti la cui asimmetria, sistematicamente negativa, denota un addensamento verso i valorialti. L’età, almeno come prima evidenza, sembra un fattore rilevante per la risposta alla terapia.Esercizio_SD94: età al primo matrimonio <strong>di</strong> un campione <strong>di</strong> 220donne. Stu<strong>di</strong>are l’asimmetria rappresentando graficamente la funzioneA pin cui le “p” siano date dai decili.In<strong>di</strong>ce <strong>di</strong> asimmetria <strong>di</strong> FisherLe <strong>di</strong>stribuzioni simmetriche unimodali hanno il centro <strong>di</strong> simmetria (la me<strong>di</strong>ana) uguale alla me<strong>di</strong>a aritmeticaper cui possono essere <strong>di</strong> un certo interesse anche gli scarti dalla me<strong>di</strong>a aritmetica (X i-µ). Poiché non si puòconsiderare la somma degli scarti semplici visto che è sempre nulla né i quadrati poiché è importante anche ilsegno, l’attenzione si ferma sugli scarti al cubo standar<strong>di</strong>zzati:kγ 1 =⎛∑⎝i=1X i −µσ⎞⎠Età n f F14 18 9 0.041 0.04118 22 18 0.082 0.12322 24 21 0.095 0.21824 26 37 0.168 0.386326 28 48 0.218 0.60530 32 57 0.259 0.86432 36 20 0.091 0.95536 40 7 0.032 0.98640 48 3 0.014 1.000220 1.000


216Nelle <strong>di</strong>stribuzioni simmetriche gli scarti negativi dalla me<strong>di</strong>a aritmetica sono bilanciati da scarti positivi cosicchéil momento terzo dalla me<strong>di</strong>a aritmetica si annulla (in effetti si annullano tutti i momenti dalla me<strong>di</strong>aaritmetica <strong>di</strong> or<strong>di</strong>ne <strong>di</strong>spari). Nelle <strong>di</strong>stribuzioni con asimmetria positiva ovvero con coda <strong>di</strong>stesa verso i valorigran<strong>di</strong>, gli scarti positivi dalla me<strong>di</strong>a saranno, in modulo, più gran<strong>di</strong> <strong>di</strong> quelli negativi per la prevalenza dei valorisuperiori alla me<strong>di</strong>a per cui si ha γ 1>0. Nelle <strong>di</strong>stribuzioni con asimmetria negativa gli scarti negativi (modalitàinferiori alla me<strong>di</strong>a) prevarranno su quelli positivi e si ha γ 1


217Esercizio_SD95: pazienti inseriti in un programma <strong>di</strong> controllo del peso corporeo perkilo-calorie consumate giornalmente prima della cura.a) Calcolare l’in<strong>di</strong>ce γ 1;b) La scelta del valore centrale come tipico della classe presuppone che la <strong>di</strong>stribuzionesia simmetrica all’interno della classe. In che modo può incidere la violazione <strong>di</strong> questaipotesi sul calcolo degli in<strong>di</strong>ci <strong>di</strong> asimmetria?Calorie Pazienti f i2.5 2.8 7 0.0372.8 3.1 10 0.0533.1 3.4 15 0.0793.4 3.7 38 0.2013.7 4.0 51 0.2704.0 4.3 39 0.2064.3 4.6 18 0.0954.6 5.0 11 0.058189 1.000Esercizio_SD96: punti ven<strong>di</strong>ta <strong>di</strong> una catena commerciale per importo delle ven<strong>di</strong>te inmigliaia <strong>di</strong> euro.a) Disegnare l’istogramma delle frequenze;b) Calcolare i quattro in<strong>di</strong>ci <strong>di</strong> asimmetria;c) Verificare che gli in<strong>di</strong>ci abbiano il segno corretto e spiegare eventualmente il perché <strong>di</strong> unsegno sbagliato.Ven<strong>di</strong>te Negozi200 400 13401 600 32601 800 48801 900 39901 1000 421001 1100 511101 1300 221301 1500 5252Esercizio_SD97: l’in<strong>di</strong>ce <strong>di</strong> asimmetria proposto da S. Vianelli nel 1939 è definito come:Dd− DsV =Dd+ Dsdove D <strong>di</strong>n<strong>di</strong>ca la <strong>di</strong>fferenza me<strong>di</strong>a tra gli scostamenti positivi dalla me<strong>di</strong>ana e D squella tra scostamenti negativia) E’ normalizzato? E’ standar<strong>di</strong>zzato? b) Il suo segno coglie correttamente la forma del poligono unimodale?In<strong>di</strong>ci <strong>di</strong> asimmetria basati sulle frequenzeIpotizziamo che le modalità X iaumentino in progressione aritmetica. Perché si abbia una <strong>di</strong>stribuzione simmetricabisogna e basta che: f i=f k+1-iper i=1,2,…,k. Gini (1952) ha proposto <strong>di</strong> misurare l’asimmetria con l’in<strong>di</strong>ce:[ k 2]g = ∑ f i − f k −i+1i=1( )che è zero in caso <strong>di</strong> simmetria; è positivo per <strong>di</strong>stribuzioni tendenti alla forma “L” ed è negativo per quelletendenti alla forma “J”. I valori estremi “-1” (o “+1”) sono ottenuti quando le modalità precedenti la me<strong>di</strong>ana(o successive a quella me<strong>di</strong>ana) sono nulle.Se si ragiona con le frequenze relative cumulate la <strong>di</strong>stribuzione sarà simmetrica se: F i=1-F k-iper i=1,2,…,k.Tale con<strong>di</strong>zione si riflette nell’in<strong>di</strong>ce <strong>di</strong> Vinci (1932) che ha caratteristiche analoghe all’in<strong>di</strong>ce “g”.[ k 2]∑ ( F i + F k −i − 1)v =i=1[ k 2]Esempi:Ripren<strong>di</strong>amo le <strong>di</strong>stribuzioni ipotetiche estreme: v(A)=-0.445, v(B)=0.445, v(C)=0, g(A)=-0.65, g(B)=0.65, g(C)=0.In “g” gli scarti tra frequenze relative entrano nel calcolo con lostesso peso, in “v” entrano con peso decrescente man mano che dagli estremi ci si avvicinaalla me<strong>di</strong>ana.x A:negativa B: positiva C: simmetrica0 5 51 51 5 24 <strong>202</strong> 15 15 503 24 5 204 51 5 5100 100 100Esercizio_SD98: con<strong>di</strong>zionatori d’aria per tempi <strong>di</strong> regolare funzionamento (in mesi).Durata Freq.0.0 5.5 15.5 11.5 411.5 17.5 317.5 23.5 723.5 29.5 829.5 35.5 10Quantificare l’asimmetria con gli in<strong>di</strong>ci <strong>di</strong> Gini e <strong>di</strong> Vinci.35.5 41.5 1241.5 47.5 947.5 53.5 753.559.559.565.55470

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!