La Statistica secondo Trilussa

(1)

La Statistica

secondo Trilussa

Sai che d’è la statistica? È na’ cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che spósa.

Ma pè me la statistica curiosa è dove c’entra la percentuale,

pè via che, lì, la media è sempre eguale puro co’ la persona bisognosa.

Me spiego: da li conti che se fanno seconno le statistiche d’adesso

risurta che te tocca un pollo all’anno:

e, se nun entra nelle spese tue, t’entra ne la statistica lo stesso

perch’è c’è un antro che ne magna due.

(2)

L’esercizio di Trilussa

• I consumatori di pollo

• Il consumo di pollo

• La (percentuale) media del consumo di pollo

• N: 100

• X: variabile discreta rappresentata dal numero di polli consumati

Polli (X_i) Consumatori (n_i)

0 90

20 10

100

(3)

Come sintetizzare?

• Come fa Trilussa: con la media

𝑋 = _"^! ∑_#$!^" 𝑥_# 𝑛_# = [(0 x 90)+(20 x 10)]/100 = 200/100 = 2

• Come avremmo potuto fare noi?

• Con la MODA che è = 0

• Oppure con la MEDIANA che è = 0

• Ma cosa fa confondere il buon Trilussa?

• La variabilità dei dati! In questo caso una marcata differenza tra le due modalità del consumo di pollo.

(4)

La variabilità: attitudine naturale dell’informazione (statistica)

• Quando osserviamo la variabilità di una distribuzione (o variabile) statistica, ci stiamo riferendo a simultaneamente a due processi di differenziazione:

• Il primo riguarda le modalità: la variabilità dipende dal numero delle modalità.. Un carattere sarà (almeno teoricamente) più variabili se si manifesta con maggiori modalità

• Il secondo riguarda le frequenze ossia la concentrazione dei « casi»

nelle diverse modalità

NB: La variabilità è il concetto che è alla base della «informazione statistica»:

Possiamo definire la VARIABILITA’ come «l’attitudine di un carattere quantitativo a manifestarsi sulle N unità di un collettivo con modalità tra loro DIVERSE e

DISTANTI». Nel caso di caratteri qualitativi potrò solo rilevare la diversità ma non la distanza

Osserviamo ad esempio la distribuzione di alcune misure (pesi in kg) su un collettivo di 50 persone:

Modalità frequenze assolute osservate

45 7

45,5 13

47 15

49 8

51 5

51,5 2

Totale 50

La variabilità aumenta sia se osservo misure sempre più diverse (quindi diminuisce se aggrego le modalità in classi!)

Ma anche in ragione del modo differente con cui si

«concentrano i casi» nelle modalità ossia in

(5)

Variabilità o Dispersione?

• Gli statistici osservando il modo con cui le modalità si presentano in modo differente tra le unità, hanno pensato di sintetizzare tali differenze in due modi: o confrontando tra le modalità tra loro o confrontandole tutte rispetto ad un centro.

• Nel primo caso parleremo di MUTUA VARIABILITA’ nel secondo caso di

DISPERSIONE. Questa seconda famiglia di indicatori è molto interessante e molto sviluppata nelle analisi statistiche, per questo vi dedicheremo più tempo.

(6)

Misurare la dispersione

• Un modo per ottenere una sintesi è partire dagli scarti ossia dalle

differenze dalla media (o dalla mediana), ovvero la perdita informativa

misurata come distanza dalla media (o dalla mediana) che possiamo anche chiamare deviazioni.

• La sintesi che cerchiamo sarà un valore che cresca quando cresce la

variabilità e che analogamente diminuisca nel caso di distribuzioni poco variabili, divenendo nullo nel caso di equidistribuzione.

(7)

Le misure di variabilità rispetto alla Media

• La Varianza che si indica con la lettera greca sigma al quadrato

𝜎^! = ∑_"#$^% 𝑥_" − 𝑋 ² 𝑛

• La Devianza

è il numeratore della Varianza e si indica con DEV (X)

• La Deviazione standard che si indica con la lettera greca sigma

𝜎 = 𝜎^!

(8)

Vediamo un esempio: Supponiamo di avere due variabili statistiche di eguale

numerosità (n =20) ed equale media aritmetica (60), possiamo dire che siano uguali?

Vediamo gli istogrammi e i box plot

Pur avendo una stessa tendenza centrale, le due distribuzioni sono differenti rispetto alla variabilità: X ha una minore oscillazione rispetto alla media, oltre che minore campo di variazione e minore IQR.

Dobbiamo misurare la variabilità, partendo dagli scarti.

(9)

Interpretare la variabilità/1

• La varianza (e così la devianza) è una misura quadratica più sensibile alle

variazioni più ampie rispetto alla media e meno sensibile a quelle più piccole.

Cresce al crescere della variabilità dei dati ed è sempre positiva, PER

COSTRUZIONE. Tende a zero nel caso di equidistribuzione e bassa variabilità (distribuzione Uniforme).

• La devianza risente della dimensione/grandezza del collettivo mentre la varianza no.

• La deviazione standard denominata anche scarto quadratico medio (vista la sua forma di radice quadrata della media degli scarti) ci fornisce misure della

variazione nella stessa scala originaria dei dati.

(10)

Interpretare la variabilità/2

• La necessità di interpretare la variabilità secondo la scala di misura può essere ottenuta anche utilizzando altri due indicatori:

• Lo Scostamento semplice dalla Media:

𝑆_& = ∑_"#$^% |𝑥𝑖 − 𝑋|

𝑛

• Lo Scostamento semplice dalla Mediana:

𝑆_&' = ∑_"#$^% |𝑥𝑖 − 𝑀𝑒|

𝑛

NB: Il primo S_M è sempre maggiore o uguale al secondo S_Me. Ma il secondo è meno sensibile ai dati estremi e ai dati anomali.

(11)

Misure di dispersione per dati raggruppati

• Quando i dati sono raggruppati per frequenze, la formula della varianza varia semplicemente:

𝜎^! = ∑_"#$^% 𝑥_" − 𝑋 ² 𝑛_𝑗

Laddove k rappresenta il numero delle classi e n𝑛 _j sono le frequenze

assolute, se utilizzeremo le frequenze relative la formula sarà la seguente:

𝜎^! = (

"#$

%

𝑥_" − 𝑋 ² 𝑓_𝑗

(12)

Calcolo semplificato della Varianza

• La varianza può essere riscritta come segue 𝜎^! = ^∑^"#$^% ^'^"^&

( - 𝑋^!

• Si dimostra semplicemente sviluppando la formula della varianza.

• Tal formulazione può essere utile per il calcolo, per cui la varianza è pari alla somma dei valori al quadrato meno la media al quadrato.

(13)

La somma dei valori al quadrato è uguale a 7520.

Tale quantità diviso n = 20 è = 376

La media aritmetica è = 18,8 e il suo quadrato è = 353,44

Per cui la varianza sarà uguale alla differenza tra

376 – 353,44 = 22,56

(14)

Misure relative di variabilità

• Può essere utile disporre di misure che non risentano della scala originari dei valori: per esempio per osservare l’evoluzione della variabilità di una variabile nel tempo (o nello spazio) oppure per confrontare due o più variabili.

• In questo caso si utilizza il Coefficiente di Variazione (CV) proposto da Pearson CV =⁾_* x 100

• Espresso come rapporto in percentuale tra deviazione standard e media (questa deve essere positiva, alcuni infatti riscrivono la formula mettendo il denominatore sempre in valore assoluto).

• Un ulteriore vantaggio – percepito come primo requisito desiderabile da Pearson – è la neutralità della numerosità che consente il confronto tra collettivi di diversa

dimensione

(15)

Altri indici «ingenui» o «laschi» di Variabilità per dati quantitativi che già conosciamo

• Il Range o Campo di Variazione

dato dalla differenza tra Valore Minimo e Valore Massimo di un insieme di dati osservati.

• La Differenza Interquartilica (IQR)

data dalla differenza tra il Primo e il Terzo quartile di una distribuzione di dati.

(16)

Misure di Mutua variabilità

• Gli indici di Mutua Variabilità effettuano confronti a coppie tra le diverse modalità assunte dalle unità del collettivo.

• Si tratta di misure della dissomiglianza o disuguaglianza che vengono calcolate osservando tutte le mutue differenze in valore assoluto

La differenza media semplice

D = _(((*')^' ∑_,-'⁽ ∑_.-'⁽ 𝑥_, − 𝑥_. che può assumere valori compresi tra 0 (nel caso di equidistribuzione e 2 volte la media nel caso di massima concentrazione

La differenza media semplice con ripetizione

D_R = ₍^'! ∑_,-'⁽ ∑_.-'⁽ 𝑥_, − 𝑥_. che può assumere valori compresi tra 0 (nel caso di equidistribuzione e 2 volte la media per (n-1)/n nel caso di massima concentrazione

I due indici sono legati dalla seguente relazione D = D_R n/(n-1)

(17)

6 4 4 6

somma per i

D = "("$!)^! ∑_&'!^" ∑_('!^" 𝑥_& − 𝑥₍

D_R= _"^!! ∑_&'!^" ∑_('!^" 𝑥_& − 𝑥₍

D = 1/(4*3)*20 = 20/12 ≅ 1,667

D_R= (1/4²)*20 = 20/16 = 1,25

(18)

(19)

(20)

Calcolo degli Indici D e D

_R

nel caso di dati raggruppati per frequenze

• Nel caso in cui i dati sono raggruppati per distribuzioni di frequenze, il calcolo degli indici sarà il seguente:

La differenza media semplice D = _$($&#)^# ∑_()#^$ ∑_*)#^$ 𝑥₍ − 𝑥_* n_in_j

La differenza media semplice con ripetizione D_R = _$^#) ∑_()#^$ ∑_*)#^$ 𝑥₍ − 𝑥_* n_in_j

(21)

La concentrazione/1

• Una misura di variabilità utilizzata SOLO per i caratteri trasferibili (es: il Reddito o il numero di addetti) fu proposta da Corrado Gini – primo presidente dell’ISTAT ed esponente della scuola statistica italiana. Tale misura è il Rapporto di Concentrazione.

• Quando un carattere è trasferibile vuol dire che sono teoricamente possibili i trasferimenti del valore da un’unità ad un’altra e che la somma dei valori ha un significato preciso: essa rappresenta l’ammontare complessivo del carattere (A=∑_#$!^" 𝑥_#).

• Se tale ammontare fosse distribuito «equamente» tra tutte le unità, di avrebbe pertanto una distribuzione uniforme e ciascuna unità possiederebbe una quota del carattere paria ad A/n uguale per tutti le n

osservazioni. È facile osservare come tale quantità consiste anche nel valore medio della distribuzione infatti sarà che &𝑋 = ^%_" = ^∑^!"#^$_" ^'^!

• In tutti gli altri casi il carattere tende a concentrarsi inversamente ma non proporzionalmente alla

variabilità della distribuzione sino al caso limite in cui tutto il carattere sia posseduto da un’unica unità e sia totalmente concentrato su tale unità mentre le altre non possiederebbero nessun valore (x_i= 0 ∀ 𝑖 = 1, 2, 3, … 𝑛 − 1). L’ennesima unità n possiederebbe pertanto l’intero ammontare complessivo x_n = A = n &𝑋.

(22)

La concentrazione/2

• Una misura di variabilità utilizzata SOLO per i caratteri trasferibili (es: il Reddito o il numero di addetti) fu proposta da Corrado Gini – primo presidente dell’ISTAT ed esponente della scuola statistica italiana. Tale misura è il Rapporto di Concentrazione.

• Il Rapporto di concentrazione è pertanto una misura relativa compresa tra 0 (=concentrazione nulla ed equidistribuzione) e 1 (=massima concentrazione) e permette confronti tra diverse distribuzioni (ad esempio in tempi o spazi differenti).

(23)

La concentrazione/3

• Ci sono diversi modi per calcolare tale rapporto, confrontando ad esempio la

distribuzione delle frequenze cumulata (𝐹₍) e quelle del carattere cumulato (𝑄₍): nei casi intermedi (tra equidistribuzione e concentrazione massima) di concentrazione 𝐹₍ ≥ 𝑄₍.

• L’indice sintetico deriva dall’osservazione delle differenze tra 𝐹₍e 𝑄₍ che vengono sommate e confrontate con il loro valore massimo (∑_()#^$&#𝐹₍) per cui avremo che il rapporto di concentrazione R sarà:

R = ^∑^!"#^$%#_∑ ^,^!^&-^!

!"#

$%# ,_! = 1- ^∑_∑^!"#^$%# ^-^!

!"#

$%# ,_!

• La concentrazione può anche essere calcolato come misura normalizzata della D in relazione al suo valore massimo

R = _{! ,}⁺_*

(24)

Vediamo un esempio:

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Qi

Bisettrice = retta di equidistribuzione

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

0 0,2 0,4 0,6 0,8 1

Qi

(25)

Tutti i casi intermedi sono rilevati dall’osservazione di come carattere e frequenze si cumulano inversamente

0,000 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 1,000

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Qi

Fi

Area di concentrazione

R = ^∑^𝒊#𝟏^𝒏&𝟏_∑ ^𝑭^𝒊^$𝑸^𝒊

𝒊#𝟏𝒏&𝟏𝑭_𝒊 = 1- ^∑_∑^𝒊#𝟏^𝒏&𝟏^𝑸^𝒊

𝒊#𝟏𝒏&𝟏𝑭_𝒊

(26)

La curva di Lorenz

• Un modo molto efficace di rappresentare geometricamente e

visualizzare graficamente la concentrazione attraverso la costruzione di una spezzata ottenuta dall’unione dei punti che hanno come

coordinate i valori della frequenze cumulate (ascissa) e dell’ammontare cumulato (ordinata):

• Tale modello fu proposto da Otto Max Lorenz nel 1912 per analizzare la distribuzione dei redditi negli USA.

• Il segmento le cui coordinate sono (0-0; 1-1) rappresenta la retta di equidistribuzione e la spezzata ottenuta dalle coordinata (Fi; Qi) rappresenta i valori empirci osservati: la concentrazione viene

calcolata come area compresa tra queste due curve, F_i

(27)

Calcolo della Concentrazione nel caso di dati raggruppati per frequenze

• Utilizzando il suo modello Lorenz ha proposto un calcolo della concentrazione per dati raggruppati che può essere collegato al coefficiente di Gini, la cui formula è la seguente:

R = 1 − ∑_"#$^% 𝐹_" − 𝐹_"-$ 𝑄_" + 𝑄_"-$ ^%

%-$

• Laddove k rappresenta il numero delle classi.

(28)