La Statistica
secondo Trilussa
Sai che d’è la statistica? È na’ cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che spósa.
Ma pè me la statistica curiosa è dove c’entra la percentuale,
pè via che, lì, la media è sempre eguale puro co’ la persona bisognosa.
Me spiego: da li conti che se fanno seconno le statistiche d’adesso
risurta che te tocca un pollo all’anno:
e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso
perch’è c’è un antro che ne magna due.
L’esercizio di Trilussa
• I consumatori di pollo
• Il consumo di pollo
• La (percentuale) media del consumo di pollo
• N: 100
• X: variabile discreta rappresentata dal numero di polli consumati
Polli (Xi) Consumatori (ni)
0 90
20 10
100
Come sintetizzare?
• Come fa Trilussa: con la media
𝑋 = "! ∑#$!" 𝑥# 𝑛# = [(0 x 90)+(20 x 10)]/100 = 200/100 = 2
• Come avremmo potuto fare noi?
• Con la MODA che è = 0
• Oppure con la MEDIANA che è = 0
• Ma cosa fa confondere il buon Trilussa?
• La variabilità dei dati! In questo caso una marcata differenza tra le due modalità del consumo di pollo.
La variabilità: attitudine naturale dell’informazione (statistica)
• Quando osserviamo la variabilità di una distribuzione (o variabile) statistica, ci stiamo riferendo a simultaneamente a due processi di differenziazione:
• Il primo riguarda le modalità: la variabilità dipende dal numero delle modalità.. Un carattere sarà (almeno teoricamente) più variabili se si manifesta con maggiori modalità
• Il secondo riguarda le frequenze ossia la concentrazione dei « casi»
nelle diverse modalità
NB: La variabilità è il concetto che è alla base della «informazione statistica»:
Possiamo definire la VARIABILITA’ come «l’attitudine di un carattere quantitativo a manifestarsi sulle N unità di un collettivo con modalità tra loro DIVERSE e
DISTANTI». Nel caso di caratteri qualitativi potrò solo rilevare la diversità ma non la distanza
Osserviamo ad esempio la distribuzione di alcune misure (pesi in kg) su un collettivo di 50 persone:
Modalità frequenze assolute osservate
45 7
45,5 13
47 15
49 8
51 5
51,5 2
Totale 50
La variabilità aumenta sia se osservo misure sempre più diverse (quindi diminuisce se aggrego le modalità in classi!)
Ma anche in ragione del modo differente con cui si
«concentrano i casi» nelle modalità ossia in
Variabilità o Dispersione?
• Gli statistici osservando il modo con cui le modalità si presentano in modo differente tra le unità, hanno pensato di sintetizzare tali differenze in due modi: o confrontando tra le modalità tra loro o confrontandole tutte rispetto ad un centro.
• Nel primo caso parleremo di MUTUA VARIABILITA’ nel secondo caso di
DISPERSIONE. Questa seconda famiglia di indicatori è molto interessante e molto sviluppata nelle analisi statistiche, per questo vi dedicheremo più tempo.
Misurare la dispersione
• Un modo per ottenere una sintesi è partire dagli scarti ossia dalle
differenze dalla media (o dalla mediana), ovvero la perdita informativa
misurata come distanza dalla media (o dalla mediana) che possiamo anche chiamare deviazioni.
• La sintesi che cerchiamo sarà un valore che cresca quando cresce la
variabilità e che analogamente diminuisca nel caso di distribuzioni poco variabili, divenendo nullo nel caso di equidistribuzione.
Le misure di variabilità rispetto alla Media
• La Varianza che si indica con la lettera greca sigma al quadrato
𝜎! = ∑"#$% 𝑥" − 𝑋 2 𝑛
• La Devianza
è il numeratore della Varianza e si indica con DEV (X)
• La Deviazione standard che si indica con la lettera greca sigma
𝜎 = 𝜎!
Vediamo un esempio: Supponiamo di avere due variabili statistiche di eguale
numerosità (n =20) ed equale media aritmetica (60), possiamo dire che siano uguali?
Vediamo gli istogrammi e i box plot
Pur avendo una stessa tendenza centrale, le due distribuzioni sono differenti rispetto alla variabilità: X ha una minore oscillazione rispetto alla media, oltre che minore campo di variazione e minore IQR.
Dobbiamo misurare la variabilità, partendo dagli scarti.
Interpretare la variabilità/1
• La varianza (e così la devianza) è una misura quadratica più sensibile alle
variazioni più ampie rispetto alla media e meno sensibile a quelle più piccole.
Cresce al crescere della variabilità dei dati ed è sempre positiva, PER
COSTRUZIONE. Tende a zero nel caso di equidistribuzione e bassa variabilità (distribuzione Uniforme).
• La devianza risente della dimensione/grandezza del collettivo mentre la varianza no.
• La deviazione standard denominata anche scarto quadratico medio (vista la sua forma di radice quadrata della media degli scarti) ci fornisce misure della
variazione nella stessa scala originaria dei dati.
Interpretare la variabilità/2
• La necessità di interpretare la variabilità secondo la scala di misura può essere ottenuta anche utilizzando altri due indicatori:
• Lo Scostamento semplice dalla Media:
𝑆& = ∑"#$% |𝑥𝑖 − 𝑋|
𝑛
• Lo Scostamento semplice dalla Mediana:
𝑆&' = ∑"#$% |𝑥𝑖 − 𝑀𝑒|
𝑛
NB: Il primo SM è sempre maggiore o uguale al secondo SMe. Ma il secondo è meno sensibile ai dati estremi e ai dati anomali.
Misure di dispersione per dati raggruppati
• Quando i dati sono raggruppati per frequenze, la formula della varianza varia semplicemente:
𝜎! = ∑"#$% 𝑥" − 𝑋 2 𝑛𝑗
Laddove k rappresenta il numero delle classi e n𝑛 j sono le frequenze
assolute, se utilizzeremo le frequenze relative la formula sarà la seguente:
𝜎! = (
"#$
%
𝑥" − 𝑋 2 𝑓𝑗
Calcolo semplificato della Varianza
• La varianza può essere riscritta come segue 𝜎! = ∑"#$% '"&
( - 𝑋!
• Si dimostra semplicemente sviluppando la formula della varianza.
• Tal formulazione può essere utile per il calcolo, per cui la varianza è pari alla somma dei valori al quadrato meno la media al quadrato.
La somma dei valori al quadrato è uguale a 7520.
Tale quantità diviso n = 20 è = 376
La media aritmetica è = 18,8 e il suo quadrato è = 353,44
Per cui la varianza sarà uguale alla differenza tra
376 – 353,44 = 22,56
Misure relative di variabilità
• Può essere utile disporre di misure che non risentano della scala originari dei valori: per esempio per osservare l’evoluzione della variabilità di una variabile nel tempo (o nello spazio) oppure per confrontare due o più variabili.
• In questo caso si utilizza il Coefficiente di Variazione (CV) proposto da Pearson CV =)* x 100
• Espresso come rapporto in percentuale tra deviazione standard e media (questa deve essere positiva, alcuni infatti riscrivono la formula mettendo il denominatore sempre in valore assoluto).
• Un ulteriore vantaggio – percepito come primo requisito desiderabile da Pearson – è la neutralità della numerosità che consente il confronto tra collettivi di diversa
dimensione
Altri indici «ingenui» o «laschi» di Variabilità per dati quantitativi che già conosciamo
• Il Range o Campo di Variazione
dato dalla differenza tra Valore Minimo e Valore Massimo di un insieme di dati osservati.
• La Differenza Interquartilica (IQR)
data dalla differenza tra il Primo e il Terzo quartile di una distribuzione di dati.
Misure di Mutua variabilità
• Gli indici di Mutua Variabilità effettuano confronti a coppie tra le diverse modalità assunte dalle unità del collettivo.
• Si tratta di misure della dissomiglianza o disuguaglianza che vengono calcolate osservando tutte le mutue differenze in valore assoluto
La differenza media semplice
D = (((*')' ∑,-'( ∑.-'( 𝑥, − 𝑥. che può assumere valori compresi tra 0 (nel caso di equidistribuzione e 2 volte la media nel caso di massima concentrazione
La differenza media semplice con ripetizione
DR = ('! ∑,-'( ∑.-'( 𝑥, − 𝑥. che può assumere valori compresi tra 0 (nel caso di equidistribuzione e 2 volte la media per (n-1)/n nel caso di massima concentrazione
I due indici sono legati dalla seguente relazione D = DR n/(n-1)
6 4 4 6
somma per i
D = "("$!)! ∑&'!" ∑('!" 𝑥& − 𝑥(
DR= "!! ∑&'!" ∑('!" 𝑥& − 𝑥(
D = 1/(4*3)*20 = 20/12 ≅ 1,667
DR= (1/42)*20 = 20/16 = 1,25
Calcolo degli Indici D e D
Rnel caso di dati raggruppati per frequenze
• Nel caso in cui i dati sono raggruppati per distribuzioni di frequenze, il calcolo degli indici sarà il seguente:
La differenza media semplice D = $($&#)# ∑()#$ ∑*)#$ 𝑥( − 𝑥* ninj
La differenza media semplice con ripetizione DR = $#) ∑()#$ ∑*)#$ 𝑥( − 𝑥* ninj
La concentrazione/1
• Una misura di variabilità utilizzata SOLO per i caratteri trasferibili (es: il Reddito o il numero di addetti) fu proposta da Corrado Gini – primo presidente dell’ISTAT ed esponente della scuola statistica italiana. Tale misura è il Rapporto di Concentrazione.
• Quando un carattere è trasferibile vuol dire che sono teoricamente possibili i trasferimenti del valore da un’unità ad un’altra e che la somma dei valori ha un significato preciso: essa rappresenta l’ammontare complessivo del carattere (A=∑#$!" 𝑥#).
• Se tale ammontare fosse distribuito «equamente» tra tutte le unità, di avrebbe pertanto una distribuzione uniforme e ciascuna unità possiederebbe una quota del carattere paria ad A/n uguale per tutti le n
osservazioni. È facile osservare come tale quantità consiste anche nel valore medio della distribuzione infatti sarà che &𝑋 = %" = ∑!"#$" '!
• In tutti gli altri casi il carattere tende a concentrarsi inversamente ma non proporzionalmente alla
variabilità della distribuzione sino al caso limite in cui tutto il carattere sia posseduto da un’unica unità e sia totalmente concentrato su tale unità mentre le altre non possiederebbero nessun valore (xi= 0 ∀ 𝑖 = 1, 2, 3, … 𝑛 − 1). L’ennesima unità n possiederebbe pertanto l’intero ammontare complessivo xn = A = n &𝑋.
La concentrazione/2
• Una misura di variabilità utilizzata SOLO per i caratteri trasferibili (es: il Reddito o il numero di addetti) fu proposta da Corrado Gini – primo presidente dell’ISTAT ed esponente della scuola statistica italiana. Tale misura è il Rapporto di Concentrazione.
• Il Rapporto di concentrazione è pertanto una misura relativa compresa tra 0 (=concentrazione nulla ed equidistribuzione) e 1 (=massima concentrazione) e permette confronti tra diverse distribuzioni (ad esempio in tempi o spazi differenti).
La concentrazione/3
• Ci sono diversi modi per calcolare tale rapporto, confrontando ad esempio la
distribuzione delle frequenze cumulata (𝐹() e quelle del carattere cumulato (𝑄(): nei casi intermedi (tra equidistribuzione e concentrazione massima) di concentrazione 𝐹( ≥ 𝑄(.
• L’indice sintetico deriva dall’osservazione delle differenze tra 𝐹(e 𝑄( che vengono sommate e confrontate con il loro valore massimo (∑()#$&#𝐹() per cui avremo che il rapporto di concentrazione R sarà:
R = ∑!"#$%#∑ ,!&-!
!"#
$%# ,! = 1- ∑∑!"#$%# -!
!"#
$%# ,!
• La concentrazione può anche essere calcolato come misura normalizzata della D in relazione al suo valore massimo
R = ! ,+*
Vediamo un esempio:
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Qi
Bisettrice = retta di equidistribuzione
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
0 0,2 0,4 0,6 0,8 1
Qi
Tutti i casi intermedi sono rilevati dall’osservazione di come carattere e frequenze si cumulano inversamente
0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1,000
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Qi
Fi
Area di concentrazione
R = ∑𝒊#𝟏𝒏&𝟏∑ 𝑭𝒊$𝑸𝒊
𝒊#𝟏𝒏&𝟏𝑭𝒊 = 1- ∑∑𝒊#𝟏𝒏&𝟏𝑸𝒊
𝒊#𝟏𝒏&𝟏𝑭𝒊
La curva di Lorenz
• Un modo molto efficace di rappresentare geometricamente e
visualizzare graficamente la concentrazione attraverso la costruzione di una spezzata ottenuta dall’unione dei punti che hanno come
coordinate i valori della frequenze cumulate (ascissa) e dell’ammontare cumulato (ordinata):
• Tale modello fu proposto da Otto Max Lorenz nel 1912 per analizzare la distribuzione dei redditi negli USA.
• Il segmento le cui coordinate sono (0-0; 1-1) rappresenta la retta di equidistribuzione e la spezzata ottenuta dalle coordinata (Fi; Qi) rappresenta i valori empirci osservati: la concentrazione viene
calcolata come area compresa tra queste due curve, Fi
Calcolo della Concentrazione nel caso di dati raggruppati per frequenze
• Utilizzando il suo modello Lorenz ha proposto un calcolo della concentrazione per dati raggruppati che può essere collegato al coefficiente di Gini, la cui formula è la seguente:
R = 1 − ∑"#$% 𝐹" − 𝐹"-$ 𝑄" + 𝑄"-$ %
%-$
• Laddove k rappresenta il numero delle classi.