• Non ci sono risultati.

La statistica come sintesi. Indicatori di posizione e di variabilità

N/A
N/A
Protected

Academic year: 2022

Condividi "La statistica come sintesi. Indicatori di posizione e di variabilità"

Copied!
44
0
0

Testo completo

(1)

La statistica come sintesi

Indicatori di posizione e di variabilità

(2)

La sintesi è un processo di riduzione della informazione contenuta nei dati

• Le distribuzioni di frequenza e la costruzione di tabelle nonché la loro

visualizzazione attraverso i grafici è una prima forma di riduzione ottenuta attraverso il raggruppamento dei dati per modalità.

• Osservando graficamente (ma anche analiticamente) la forma di tale riduzione, possiamo notare la presenza di eventuali concentrazioni di unità statistiche nell’intervallo (o nell’insieme) di valori effettivamente osservati che nel caso di caratteri quantitativi abbiamo denominato range o campo di variazione

(calcolato come differenza tra valore minimo e valore massimo).

• Altre posizioni «note» potranno essere interessanti, in quanto capaci di offrire una sintesi di caratteristiche della distribuzione

(3)

Indicatori di posizione e di tendenza centrale

• Una prima categoria di tali sintesi è quella degli indicatori di posizione, tra cui particolarmente ricordiamo gli indicatori di tendenza centrale.

• Una prima definizione semplice, valida per tutti le tipologie di caratteri, è quella della modalità prevalente e ancora di più la modalità massima (con frequenza più elevata): tale indicatore viene denominato MODA o NORMA.

• Possono esserci più valori particolarmente rilevanti e prevalenti commisurati sempre ai valori e alla numerosità del collettivo, si parlerà di pluri-modalità.

• Una forma particolare è la concentrazione dei dati su due valori: la

bi-modalità.

(4)

Alcuni esempi concreti

• Un operatore di sportello, durante una giornata di lavoro, ha incontro 50 persone e ha rilevato tramite un questionario alcune informazioni:

La condizione professionale (occupato, inoccupato, disoccupato)

Il titolo di studio (nessuno, licenza elementare, licenza media, diploma, laurea e altro).

I dati raccolti vengono sintetizzati nei seguenti grafici a barre

8

12

30

occupati inoccupati disoccupati

Condizione professionale

È la categoria

modale

(5)

• Supponiamo che l’operatore abbia rilevato anche altre due

informazioni, una relativa al reddito ISEE e una seconda relativa all’età

0 5 10 15 20 25 30

20 -| 30 30 - | 40 40 - |50

età

In questo caso, in mancanza di altre informazioni, posso stimare il valore

È la categoria

modale

(6)

L’istogramma seguente presenta una bimodalità : i dati si concentrano su due intervalli non contigui

0 5 10 15 20 25 30 35

(7)

Indicatori di posizione e di tendenza centrale/2

• Un altro indicatore particolarmente interessante è dato dal valore (effettivo o stimato) che identifica il 50% dei dati: tale valore è la

MEDIANA. Può essere calcolato (o meglio individuato) seguendo due procedure:

Utilizzando la distribuzione unitaria dei dati: i dati vengono ordinati in modo non decrescente, il valore mediano sarà quello che occupa esattamente (nel caso di numerosità dispari) o approssimativamente (nel caso di numerosità pari). Nel secondo caso si individuano due valori centrali pertanto si otterrà la mediana come semisomma di tali valori.

Utilizzando la distribuzione delle frequenze cumulate: il valore mediano è quello che individua precisamente o include il 50% della frequenza cumulata.

(8)

Ad esempio sei i dati sono ordinati in modo non decrescente

• Nel caso di X la mediana di 11 numeri ordinati sarà il valore relativo alla

posizione al centro ossia la sesta cioè

«17»

• Nel caso di Z avremo un numero pari di osservazioni (per cui la mediana corrisponde alla semisomma dei valori corrispondenti alle due posizioni centrali 3 e 4 per cui (3+4)/2= 3,5 che non è un valore osservato

X 15 16 16 17 17 17 18 18 18 19 21

Z 2 2 2 3 3 4 4 4 5 5

(9)

Supponiamo di avere i risultati di 70 esami di statistica di altrettanti studenti, mi interessa sapere il voto mediano degli studenti, a tal fine costruirò le distribuzione di frequenza prima e poi la distribuzione cumulata, individuando così il voto mediano.

Supponiamo che il collega di sociologia abbia svolto anche lui i suoi esami e abbia per un eccesso di sintesi annotato i voti con la seguente distribuzione di frequenze

Per calcolare la mediana, dovrà prima individuare la classe mediana e poi calcolare in modo approssimato il valore mediano, ad esempio attraverso il v.c. della classe mediana:

22-25 il cui v.c. è pari a (22+25)/2 = 23,5

Voti f F

18_21 25 36% 36%

22_25 32 46% 81%

26_29 13 19% 100%

70 100%

(10)

Calcolo approssimato del valore puntuale della Mediana, nel caso di una variabile di scala

• Nel caso in cui le modalità siano Intervalli, è sempre possibile individuare la classe mediana e determinare in modo approssimativo il valore mediano nel valore centrale della classe.

• È, tuttavia possibile, determinare il valore esatto della mediana seguendo la seguente formula:

𝑀𝑒 ≈ Im + 0,5 − FmFm− Fm−1−1 Dm

Dove

Im : estremo inferiore classe mediana;

Fm−1 :frequenza rela2va cumulata fino alla classe precedente della classe mediana;

Fm : frequenza rela2va cumulata alla classe mediana;

D : ampiezza classe mediana

(11)

• Nel caso dell’esempio dei voti di sociologia, il calcolo più preciso del voto mediano potrà essere fatto

Im 22

Fm-1 0,36 23

Fm 0,81

Dm 3

Me = 22 + (!,#! $!,%&

!,'( $!,%&) ∗ 3 = 22 + !,()!,)# ∗ 3 = 22 + 0,31111111*3 = 22,933333333 ≅ 23

(12)

La tendenza centrale nei caratteri quantitativi

• Nel caso dei valori numerici, la concentrazione dei dati rappresentata dalle frequenze può essere sintetizzata attraverso delle funzioni dei dati.

• La tendenza centrale misura il baricentro dei dati, il valore che annulla tutte le distanze, il valore che sarebbe rilevato in ogni singolo dato nel caso totale

«uniformità» .

• Anche nel caso di caratteri quantitativi è possibile calcolare sia la mediana che la moda, a tali sintesi se ne aggiunge un terzo: un valore puntale che rappresenta l’attrazione verso il valore centrale (che non è un valore medio) determinata dal «peso» della informazione.

• Tutti e tre i valori (Moda, Mediana e Media) sono calcolati e/o individuati

sono espressi nella stessa scala originaria di valori

(13)

Una intuitiva rappresentazione grafica

Minimo Valore Centrale Massimo

(14)

La media (average in inglese) più comune è quella «aritmetica»: i dati vengono considerati indipendenti (come gli elementi di un campione statistico) e, in virtù di tale condizione, relativa alla misura, possono essere sintetizzati attraverso la somma.

Indicato generalmente con la lettera greca 𝜇 o con la notazione "𝑋 , dato un insieme di

osservazioni di una misura X = 1, 2, 3, …., n-1, n la media aritmetica si ottiene come somma dei valori osservati nei dati relativizzati ai dati stessi, in formula:

"

𝑋 = !"#$ 𝑥! 𝑛

Se misuro la distanza da ogni valore xi dal valore medio ottengo una differenza che definisco scarto dalla media;

La somma degli scarti dal valore medio "𝑋 è, per costruzione nulla. Pertanto dato un insieme di dati xi la media è qual valore che rende nulla la seguente espressione ∑!"#$ 𝑥! − "𝑋 = 0.

Maggiore è lo scarto (in valore assoluto) maggiore è la distanza dalla media, e viceversa. Tale distanza sarà nulla nel caso in cui x1 = x2 = x3 = … = xn-1 =xn chiameremo questa strana

distribuzione «uniforme»

La «madre» di tutti i valori medi: la media aritmetica

(15)

Valori medi per dati raggruppati

• Quando i dati sono raggruppati in distribuzione di frequenza è possibile utilizzare una formula generalizzata di media aritmetica «ponderata»:

𝑋 = $ !

!"#

$

𝑥

!

𝑓

!

• Dove f

i

rappresentano le frequenze relative

• In termini generalizzati la formula della media ponderata è:

𝑋 = ! ∑

!"#$

𝑥

!

𝑤

!

!"#$

𝑤

!

• Dove w

i

sono i pesi ossia una valore numerico che distribuisce un

coefficiente di ponderazione differente per ogni i

(16)

Un esempio

• Ai fini della verifica delle presenze, la segreteria didattica

dell’università ha rilevato per ciascuna lezione, il numero di studenti presenti, che ha la seguente distribuzione

La segretaria è interessata a conoscere quanti studenti tendenzialmente hanno frequentato ogni lezione, pertanto decide di calcolare la media aritmetica

𝑝𝑟𝑒𝑠𝑒𝑛𝑧𝑒 𝑚𝑒𝑑𝑖𝑒 = !"#!$#!!#!$#!"#!%#!"#!!#!!#!"

$" = !$&$" = 41,6 ≅ 42

Il collega che le vede fare i calcoli le suggerisce che avendo valori ricorrenti che si ripetono più volte («frequenti» dice prontamente la segretaria) può raggruppare i valori e fare un calcolo aggregato utilizzando la formula della media ponderata:

𝑝𝑟𝑒𝑠𝑒𝑛𝑧𝑒 𝑚𝑒𝑑𝑖𝑒 = !" ∗! #!$ ∗% #!% (∗$)#!!(∗*)

!#%#$#* = !$&$" = 41,6 ≅ 42

(17)

Valori medi e valori estremi (e anomali)

La media è un valore numerico, teorico e non necessariamente osservato, che rappresenta il

«centro» dei dati.

Proprio per questo la sintesi matematica della media è «sensibile» ai valori estremi e anomali.

Tali valori sono valori all’estremo del campo di variazione o valori (minimo o massimo) moloto differenti da tutti gli altri valori

Nel caso di presenza di valori estremi è possibile utilizzare un particolare tipo di media aritmetica detta «troncata» (eng: trimmed average);

Tale media consiste nel ricalcolare la media avendo eliminato un porzione di frequenza ⍺ (ad esempio pari al 50%) in modo però da eliminare i valori estremi delle code (ad esempio 25% a sinistra ossia dei valori più piccoli e 25% a destra ossia dei valori più grandi).

La scelta di troncare i valori si traduce in un «sacrificio di informazione»: si perdono infatti alcune osservazioni che vengono così escluse dall’analisi.

(18)

Un esempio

• Proprio mentre stava per finire il calcolo la segretaria si ricorda di non aver considerato un dato, pertanto ricostruisce la distribuzione e ricalcola la media:

lezioni presenze

1 40

2 41

3 44

4 41

5 40

6 42

7 40

8 44

9 44

10 40

11 20

𝑝𝑟𝑒𝑠𝑒𝑛𝑧𝑒 𝑚𝑒𝑑𝑖𝑒 𝑎𝑔𝑔 = !"#!$#!!#!$#!"#!%#!"#!!#!!#!"#%"

$$ = !*&$$ = 37,81 ≅ 38

Il valore ottenuto, molto più basso degli altri, trascina verso il basso tutta la media..

Allora la segretaria decide di non considerarlo escludendolo. Il collega le suggerisce che può utilizzare una media troncata eliminando il 20% dei dati ossia 11 * 20% = 2,2 elimino pertanto il primo e l’ultimo dato, una volta però averli ordinati in ordine non decrescente, pertanto il 20 e uno dei 44

𝑝𝑟𝑒𝑠𝑒𝑛𝑧𝑒 𝑚𝑒𝑑𝑖𝑒 (𝑡𝑟𝑜𝑛𝑐𝑎𝑡𝑒) = !"#!$#!!#!$#!"#!%#!"#!!#!"

$$+% = *,%- = 41,33 ≅ 41

(19)

Le proprietà della media aritmetica

• Si tratta di requisiti formali desiderabili che rendono la media vantaggiosa come sintesi e funzione dei dati, alcune di queste proprietà possono essere dimostra dal punto di vista matematico, ci limitiamo qui ad enumerarle evidenziando il significato pratico:

1. La proprietà di Cauchy o della internalità della media: la media aritmetica, se esiste, è sempre un valore compreso tra il minimo e il massimo dei valori

effettivamente osservati;

2. La proprietà associativa ossia la possibilità di ottener la media di tutti dati anche come «media delle medie» dei dati raggruppati in sub-collettivi

3. Omogeneità e linearità, la seconda include la prima, ossia la media è un operatore lineare, invariante nelle trasformazioni di scala.

Se Yi = a + bXi allora $𝑌= a +b $𝑋 laddove Yie Xi sono due distribuzioni statistiche e $𝑌 e $𝑋 le loro rispettive medie.

(20)

Esempi

• Sulla proprietà associativa:

Se osservo un collettivo di persone di generi diversi e conosco le altezze medie dei maschi (188 cm) e delle femmine (182 cm) pur non avendo altre informazioni posso ricavare la media del collettivo calcolando la media dei due sottogruppi= (188 +182)/2 = 185 cm

• Sulla proprietà di linearità

Supponendo che il rapporto tra Yen e Dollaro sia definito da una equazione lineare per cui Yen = 500 +1,2Dollari. Conoscendo il reddito medio in dollari per capita dei cittadini americani (35.000) posso dire che tale valore

corrisponde ad un reddito medio in Yen (500 + 1,2*35.000)=42.500 Yen

(21)

Ulteriori requisiti formali della media

• Un primo requisito riguarda la proprietà di annullamento degli scarti, poiché la somma degli scarti dalla media è sempre nulla

!"#$

𝑥

!

− ! 𝑋 =0

• Un secondo requisito è quello della equidistribuzione del Totale:

!"#$

𝑥

!

= n ! 𝑋 =Totale di X

Da cui si ricava che il Totale è una grandezza che rappresenta tutto il

carattere cumulato, tal valore però ha significato soltanto nel caso di

caratteri quantitativi «trasferibili».

(22)

Media o Mediana? Una scelta «resistente»

• In molte applicazioni e studi statistici, proprio a motivo di questa eccessiva sensitività della media ai valori estremi si preferisce la mediana.

• L’uso della mediana – rispetto alla media troncata – permette di non sacrificare informazione utile soprattutto in caso di bassa numerosità.

• La mediana – proprio perché è maggiormente resistente ai valori estremi – si dice che possiede un carattere di ROBUSTEZZA o

RESISTENZA ossia di minore sensitività.

(23)

Supponiamo che vengano rilevati i prezzi di un certo bene X in diversi punti vendita localizzati al centro e che il prezzo medio sia sia 150 euro uguale al prezzo mediano

Prezzo 150 148 153 147 150 150 151 152 149 149 148

media 150

mediana 150

Immaginiamo che vengano rilevati altri due prezzi di ulteriori due punti di vendita

localizzati in periferia: 171 e 172

Come varia la media? Come varia la mediana?

Prezzo 150 148 153 147 150 150 151 152 149 172 171 149 148

media 153

mediana 150

(24)

Valori medi e funzioni di perdita

• Se i valori medi indicano i valori che una distribuzione assume quando si concentra l’informazione al centro, ne deriva che la forza informativa di tali valori dipende dalla loro attitudine (da misurare in termini matematici) di rendere più piccola la distanza tra i valori osservati e il valore medio.

• Possiamo introdurre il concetto di «perdita informativa» inteso come misura di tale distanza tra le osservazioni e la media.

• Alla base di tale misura vi è il concetto di «scarto».

(25)

Scarti e funzione di Perdita

La media e la mediana sintetizzano in modo specifico il centro dei dati – nel caso della media ciò non vale sempre come abbiamo visto soprattutto nel caso in cui ci siano valori anomali che

rischiano di creare distorsioni – pertanto gli scarti tali valori medi possiamo interpretarli come

«perdita di informazione»:

𝑥! − "𝑋 scarto o distanza di ciascun valore osservato dalla media

𝑥! − "𝑋 𝑓! nel caso di dati raggruppati

𝑥! − 𝑀𝑒 scarto o distanza di ciascun valore osservato dalla mediana

𝑥! − 𝑀𝑒 𝑓! nel caso di dati raggruppati

La distanza è una lunghezza pertanto la considero in «valore assoluto» (o modulo) perché gli scarti sono positivi e negativi e tendono a «compensarsi» ossia la loro somma è nulla.

Anche la trasformazione quadratica evita la compensazione degli scarti e l’annullamento della loro somma, e ha anche il pregio di dare un maggiore peso alle variazioni di maggiore entità e di dare un minor peso gli scostamenti di piccola entità.

Si dimostra che il valore che minimizza la somma degli scarti in modulo è la mediana, mentre

(26)

esempio

(27)

Una media? Tante medie…!

La media aritmetica è solamente un tipo di media che viene utilizzata proprio perché le osservazioni sono prodotte in modo da risultare tutte indipendenti (dal punto di vista geometrico diremo ortogonali o perpendicolari), e pertanto risulta lecito e non distorsivo aggregarle e sommarle.

Laddove viene meno tale ipotesi, ossia laddove le osservazioni sono in qualche maniera dipendenti per il modo in cui

vengono prodotte le misure o sono legate le osservazioni (ad esempio nel caso di rapporti), è utile utilizzare un altro tipo di media, quella GEOMETRICA:

Mg = ! ./$0 𝑥. in caso di distribuzione unitaria dei dati

Per aspetti computazionali (ossia per semplificare i calcoli) si utilizza la trasformazione logaritmica per cui si averà che il logaritmo (base decimale o base naturale neperiana)della media geometrica log (Mg) è pari alla somma dei logaritmi delle modalità fratto n:

ln 𝑀𝑔 = 𝑙𝑛𝑥$+ 𝑙𝑛𝑥%+ ⋯ + 𝑙𝑛𝑥0

𝑛 = ./$0 𝑙𝑛𝑥. 𝑛

Mgk= ∑#$%

& !#

./$1 𝑥.0# nel caso di dati raggruppati in distribuzione di frequenza, dove k è relativo al numero delle classi Nel caso in cui utilizziamo la distribuzione delle frequenze relative avremo che la media geometrica sarà: 0

(28)

Se i dati non possono essere ritenuti indipendenti, utilizzo la media geometrica

Supponiamo di aver osservato il numero degli iscritti ad un corso di laurea, e i dati rilevati sono i seguenti:

# iscritti

a.a. 2014/15 100

a.a. 2015/16 98

a.a. 2016/17 95

a.a. 2017/18 98

a.a. 2018/19 102

a.a.2019/20 110

Valutiamo la dinamica degli iscritti misurata dalla variazione che posso in termini assoluti o

percentuali come differenza o come incremento

Quale è la variazione media annua? Per calcolare tale misura occorre una media ma che tipo di media?

Poiché i dati sono dipendenti per costruzione, la media più adeguata è quella geometrica

variazione assoluta 10,0 10,0

Media artimetica Media geometrica

Differenze Incrementi

* *

-2,000 -2

-3,061 -3,06122449

3,158 3,157894737

4,082 4,081632653

7,843 7,843137255

(29)

Il procedimento analitico di Chisini

• Il matematico lombardo Oscar Chisini ideò un algoritmo per

determinare tutti i tipi di media fondato sulla seguente equazione:

f(𝑥

#

, 𝑥

%

, … 𝑥

$

) = f(𝑋, 𝑋,… 𝑋) Se la f è la somma avremo la media aritmetica

Se la f è il prodotto avremo la media geometrica

(30)

Dimostriamolo

• Nel caso della media aritmetica la funzione f è la somma Σ per cui Σ (𝑥!, 𝑥", … 𝑥#) = Σ (𝑋, 𝑋,… 𝑋)

Se guardiamo il secondo membro possiamo riscriverlo così n 𝑋 da cui mettendo in evidenza 𝑋 avremo che:

𝑋= ($!% $",% ⋯%$#)

# cdd

• Nel caso della media geometrica la funzione f è la somma Π per cui Π(𝑥!, 𝑥", … 𝑥#) =Π(𝑋, 𝑋,… 𝑋)

Se guardiamo il secondo membro possiamo riscriverlo così 𝑋n da cui mettendo in evidenza 𝑋 avremo che:

𝑋= #()!# 𝑥( cdd

(31)

Vediamo una terza dimostrazione

Poniamo come funzione f la somma dei reciproci che può essere anche espresso algebricamente come elevazione a -1 poiché sappiamo che un numero A elevato a meno uno corrisponde al su reciproco ovvero 1/A. Pertanto sarà:

Σ (𝑥!, 𝑥", … 𝑥#)-1 = Σ (𝑋, 𝑋,… 𝑋)-1 ovvero

x1-1 + x2-1 + x3-1 +…+ xn-1-1 + xn-1 = 𝑋 -1 + 𝑋 -1 + 𝑋 -1 +…+ 𝑋 -1 + 𝑋 -1 Il primo membro può essere scritto anche come ∑()!# 𝑥(*!

Il secondo membro posso riscriveremo come n 𝑋 -1 cioè +# per cui mettendo in evidenza 𝑋 avremo che, per il secondo principio di uguaglianza delle equazioni:

𝑋 = #

$%!# $$&! = x1−1+ x2−1+ x3−1#+…+ xn−1−1+xn−1 tale media sarà detta Armonica

(32)

La media armonica per dati raggruppati in frequenze

MH

k

=

& $

%&'!'&(&'"'⋯&)&'#

nel caso di distribuzione di frequenze assolute

=

#

&%&*!'&(&*"'⋯&)&*#

nel caso di distribuzione di frequenze relative

La media armonica è l’inverso della media geometrica supponendo che le

modalità siano tutte sempre diverse da zero, particolarmente utilizzata nel

caso in cui i dati siano relativi a tempi (durate) o più in generale abbiano

una relazione funzionale inversa con le osservazioni (frequenze)

(33)

Medie ponderate e medie di potenze

Tutte le medie ponderate sono un caso specifico della Media di Potenza:

Ms = ! M"!N"OM#!NN#O …OM$!N$

Dove k rappresenta il numero delle classi con cui sono raggruppati i casi (se k =1 allora abbiamo i dati in distribuzione unitaria!)

Al variare di s possiamo riconoscere le medie note già presentate: se s= 1 avremo la media aritmetica e se s =-1 avremo la media armonica, la media geometrica si ottiene dimostrando il caso in cui s → 0 (calcolo asintotico).

Si può infine dimostrare che le medie di potenze sono funzioni crescenti del parametri s tale per cui:

Min ≤ … ≤ MH ≤ Mg ≤ 𝑋 ≤… Max

(34)

Vediamo un esempio: tre distribuzioni differenti

(35)

Tendenza centrale e simmetria della distribuzione

• Sintetizzare la tendenza centrale di una distribuzione di frequenze di un carattere quantitativo è molto informativo quando i dati tendono a concentrarsi all’interno del campo di variazione nell’intorno del valore centrale (che non è la media!). In tal caso si parlerà di SIMMETRIA. Tale condizione equivale al caso in cui Media Mediana e Moda coincidono esattamente.

• Quando Media > Mediana > Moda parleremo di ASIMMETRIA POSITIVA, le

frequenze più elevate sono relative ai dati con valori più bassi (verso il minimo)

• Quando Media < Mediana < Moda parleremo di ASIMMETRIA NEGATIVA, le frequenze più elevate sono relative ai dati con valori più alti (verso il Massimo

Media = Mediana = Moda = 18

(36)

Misure analitiche di Asimmetria

• Abbiamo detto che confrontando gli indici di tendenza centrale (la cui coincidenza ci informa della simmetria della distribuzione) è un modo analitico di verificare l’esistenza di asimmetria.

• Pearson ha suggerito una misura della asimmetria che si basa sull’osservazione della distanza della media (aritmetica) dal

valore modale, infatti se la Media è superiore alla Moda si avrà

una distanza positiva (asimmetria positiva e gobba a sinistra) e

viceversa se la Media è inferiore alla Moda avremo una distanza

negativa (asimmetria negativa e gobba a destra).

(37)

Altre misure di posizione: Quartili, decili e percentili

• Esistono altri indicatori sintetici per individuare alcune «posizioni» utili

importanti, così come la Mediana è la «posizione centrale» o il valore massimo è la posizione estrema dei valori manifestati dai dati.

• Tali indicatori sono detti PERCENTILI e si costruiscono suddividendo la distribuzione dei valori ordinati in modo non decrescente o utilizzando la funzione delle frequenze cumulate.

I QUARTILI sono i valori che suddividono distribuzioni in 4 parti equali, i DECILI in 10 parti uguali, i QUINTILI in 5 parti e così via…

• Dai quartili è possibile ricavare (lo fece Pearson per primo) una misura ingenua di variabilità analoga al range, detta Differenza Interquartilica: essa è la differenza tra Terzo Quartile (Q3) e Primo Quartile (Q1) ossia il 75% - il 25% dei dati , tale grandezza pertanto identifica il 50% «centrale» dei valori ed è chiaramente inferiore al campo di variazione-

(38)

Supponiamo di avere una distribuzione unitaria di altezze misurate in cm, calcoliamo i quartili e i decili.

(39)

Calcolo puntuale ma approssimato del percentile

• Quando la distribuzione è raggruppata in frequenza è possibile utilizzare per il calcolo dei percentili la seguente formula:

𝑃𝑡 ≈ IPt + (i/100) − FPtFPt−FPt−1 −1 DPt

Dove

• i/100 identifica il livello della distribuzione cumulata che identifica il percentile (ad esempio nel caso del secondo decile sarà 2/10 = 0,2 nel caso del 60esimo percentile sarà 60/100= 0,6)

• IPt: estremoinferiore classe dove cade l%i − esimo percentile;

• FPt−1 : frequenza relativa cumulata fino alla classe precedente cui cade l’i−esimo percentile;

• FPt : frequenza relativa cumulata fino alla classe che contiene l’𝑖 − esimo percentile;

(40)

Un grafico sintetico molto utile: il Box Plot

Il Grafico «scatola a baffi (Box Plot) è un grafico molto efficace che ci permette di rappresentare alcuni parametri sintetici della distribuzione:

La scatola è identificata dal Primo e Terzo Quartile, i baffi dal Minimo e dal Massimo.

L’altezza della scatola è misurata dalla

Differenza Interquartile e la lunghezza del

«baffo» rappresenta il Range.

Sono anche individuati Media (in genere con un segno puntuale) e Mediana (in genere con un segmento che attraversa la scatola)

La scala numerica è in ordinata, mentre in ascissa non ci sono coordinate grafiche.

Possibilità di rappresentare valori anomali e valori estremi

157 183

163,75 170 180

170,75

140 145 150 155 160 165 170 175 180 185

(41)

Come individuare i dati anomali?

È possibile identificare i valori anomali ed estremi (outlier) sulla base di un intervallo costruito sulle informazioni della differenza interquartilica o

interquartile (IQR) i cui estremi sono:

(Q1 - 𝛼 x IQR) – (Q3 + 𝛼 x IQR)

tale 𝛼 è una quantità costante che viene considerato convenzionalmente pari a 1,5

• I valori che ricadono al di fuori di tale intervallo possono essere dei potenziali outliers.

• Il Box Plot può essere modificato utilizzando tali estremi per identificare i «baffi».

(42)

L’Homme Moyen di Quetelet

I fenomeni morali, quando

osservati su larga scala, sembrano assomigliare ai fenomeni fisici;

e quindi si arriva al principio

fondamentale per cui più grande è il numero degli individui osservati più le loro peculiarità, siano esse fisiche o morali, si assottigliano, e lasciano il posto di primo piano agli aspetti generali, in virtù dei quali la società esiste e si conserva.

(43)

Lezione 3. Concetti chiave

• Indicatori di posizione

• Moda

• Mediana

• Tendenza centrale

• Valori medi

• Medie analitiche

• Percentili (Quartili)

• Differenza interquartile

• Box Plot

(44)

Gli argomenti della lezione potranno essere approfonditi come segue:

Mecatti Di Ciaccio - Borra Agresti - Franklin

Capitoli 5 e 6 Capitolo 3 Capitolo 2

Riferimenti

Documenti correlati

 I ricavi da vendita di beni sono riconosciuti nel momento della consegna al cliente (nel caso in cui il cliente abbia il diritto alla restituzione il riconoscimento del ricavo

Il grafene è il primo materiale con struttura bi-dimensionale (2D) disponibile all’uso che, dalla data della sua scoperta, nel 2004, è stato oggetto di notevoli attenzioni

1,6 punti: risposta corretta, soluzione migliore ma senza una buona proprietà di linguaggio o senza una buona esposizione.. 1,4 punti: risposta corretta ma non la

Tuttavia la media aritmetica si può calcolare anche nel caso in cui la somma a numeratore non avesse un significato concreto, come avviene ad esempio per il carattere

Gli studenti possono cogliere che l’attività educativa della Group Care stimola l’apprendimento “le sedute sono utili ad approfondire diversi aspetti legati al diabete, si aiutano

Per esempio, anche se i dati negli insiemi A e B che seguono hanno la stessa media campionaria e la stessa mediana campionaria, i valori contenuti nell’in- sieme B sono chiaramente

«potestas ampiamente discrezionale» 133 , tale potestas però non include l’inibizione assoluta del diritto alla sessualità inframuraria. Eppure è proprio questa la realtà

Un olio essenziale è il prodotto della distillazione in corrente di vapore o. dell’idrodistillazione,