• Non ci sono risultati.

Lezione 3 RAPPRESENTAZIONI GRAFICHE In numerosi casi le informazioni contenute nelle distribuzioni di frequenza vengono rappresentate mediante grafici, che hanno lo scopo di mettere in evidenza le caratteristiche fondamentali

N/A
N/A
Protected

Academic year: 2021

Condividi "Lezione 3 RAPPRESENTAZIONI GRAFICHE In numerosi casi le informazioni contenute nelle distribuzioni di frequenza vengono rappresentate mediante grafici, che hanno lo scopo di mettere in evidenza le caratteristiche fondamentali"

Copied!
25
0
0

Testo completo

(1)

1

Lezione 3

RAPPRESENTAZIONI GRAFICHE

In numerosi casi le informazioni contenute nelle distribuzioni di frequenza vengono rappresentate mediante grafici, che hanno lo scopo di mettere in evidenza le caratteristiche fondamentali dell’assetto distributivo di una variabile e possono essere utilizzati sia nella fase preliminare di analisi dei dati, sia nella fase finale di presentazione dei risultati ottenuti.

Questo perché i grafici sono facilmente comprensibili e non richiedono conoscenze particolari: di conseguenza sono frequentemente utilizzati dai vari mezzi di comunicazione.

Le forme che possono assumere i grafici sono molto diverse fra loro e variano a seconda della natura della variabile considerata, nel senso che alcune rappresentazioni grafiche sono idonee per certi tipi di variabile ma non per altri.

Il grafico a torta è usato specialmente per variabili qualitative. Qui di seguito ne è riportato un esempio

Distribuzione degli occupati irregolari per settore (dati Istat, 2016)

(2)

2

In questo caso le diverse “fette” della torta hanno un’ampiezza che dipende dalla frequenza associata alle modalità. Questo tipo di rappresentazione è usata in numerose circostanze ed è di facile facile costruzione con i più comuni software, ma a mano libera è un po’ laboriosa.

Per questo motivo si esamineranno in dettaglio grafici diversi, descritti qui di seguito, distinti a seconda del tipo di variabile.

(3)

3

1) VARIABILI QUALITATIVE SCONNESSE

Per queste variabili si può usare un grafico a colonne (o grafico a barre)

Per la costruzione di un grafico a colonne (o a barre) si utilizza un sistema di assi cartesiani: sulle ascisse si riportano, equispaziandole, le k modalità della variabile e da quei punti si innalzano dei rettangoli (oppure parallelepipedi, cilindri, …) di altezza proporzionale alla frequenza (assoluta o relativa) corrispondente.

Esempio

La seguente distribuzione riporta la distribuzione della materia meno gradita da 300 studenti di un liceo classico

Materia Frequenza assoluta Educazione fisica 10

Geografia 65

Storia 45

Inglese 78

Italiano 22

Matematica 80

300

Una possibile rappresentazione grafica di questa distribuzione è riportata nel grafico seguente

0 10 20 30 40 50 60 70 80 90 100

Ed.fisica Geografia Storia Inglese Italiano Matematica

frequenza assoluta

materia

(4)

4

Come si vede, i confronti fra le diverse materie sono possibili, ma sarebbero resi più semplici se si ordinassero le materie a seconda del valore assunto dalla frequenza corrispondente (in senso crescente o decrescente).

Questa è in effetti la convenzione che viene utilizzata quando la variabile risulta sconnessa.

Per l’esempio appena considerato una rappresentazione grafica corretta è quindi la seguente

La regola adottata nel rappresentare graficamente una variabile sconnessa mediante un grafico a barre consiste nell’ordinare i rettangoli in base al valore delle frequenze

Va notato che questo tipo di grafico assume una stessa forma se sull’asse delle ordinate si riportano le frequenze assolute oppure le frequenze relative, per cui la rappresentazione può essere fatta indifferentemente con un tipo di frequenza o con l’altro (si ha solo un cambio di scala sull’asse delle ordinate).

Una rappresentazione grafica alternativa si ottiene scambiando le ascisse con le ordinate. Si ottiene in questo modo una rappresentazione che prende il nome di grafico a nastri.

0 10 20 30 40 50 60 70 80 90 100

Ed.fisica Italiano Storia Geografia Inglese Matematica

frequenza assoluta

materia

(5)

5

Considerata, per esempio, la seguente distribuzione del numero totale dei casi di coronavirus per regione in Italia, aggiornata alle ore 17:00 del 9 marzo 2020,

Regione Frequenza assoluta

Abruzzo 30

Basilicata 5

Calabria 11

Campania 120

Emilia Romagna 1386

Friuli V.G. 93

Lazio 102

Liguria 109

Lombardia 5469

Marche 323

Molise 14

Piemonte 350

Puglia 50

Sardegna 19

Sicilia 54

Toscana 208

Trentino A.A. 42

Umbria 28

Valle d'Aosta 15

Veneto 744

9172

il corrispondente grafico a nastri assume la forma seguente

(6)

6

0,00 500,00 1000,00 1500,00 2000,00 2500,00 3000,00 3500,00 4000,00 4500,00 5000,00 5500,00 6000,00 Lombardia

Emilia Romagna Veneto Piemonte Marche Toscana Campania Liguria Lazio Friuli V.G.

Sicilia Puglia Trentino A.A.

Abruzzo Umbria Sardegna Valle d'Aosta Molise Calabria Basilicata

casi totali R

e g i o n e

(7)

7

2) VARIABILI QUALITATIVE ORDINABILI

I precedenti grafici sono utilizzati anche quando la variabile è qualitativa ordinabile e le regole che si devono seguire sono le medesime, con un’unica differenza: le modalità di una variabile ordinabile vanno elencate (in ascissa o in ordinata) in base al loro ordine naturale.

La regola adottata nel rappresentare graficamente una variabile qualitativa ordinabile mediante un grafico a barre o un grafico a nastri consiste nell’elencare gli elementi seguendo l’ordine naturale delle modalità assunte dalla variabile

Esempio

La seguente distribuzione riporta i dati di un’indagine effettuata da Almalaurea sui laureati in economia e commercio in Italia aggiornata all’aprile 2019.

La distribuzione delle risposte alla domanda circa l’adeguatezza del carico di studio alla durata del corso è riportata nella tabella seguente

Valutazione Frequenza relativa Decisamente no 0.011

Più no che sì 0.101 Più sì che no 0.573 Decisamente sì 0.315 1.000

In questo caso una rappresentazione grafica a barre adeguata è la successiva, in cui l’ordinamento delle modalità rispetta il loro ordine naturale.

(8)

8

0 0,1 0,2 0,3 0,4 0,5 0,6

Decisamente no Più no che sì Più sì che no Decisamente sì

frequenza relativa

valutazione

(9)

9

3) VARIABILI QUANTITATIVE DISCRETE

La rappresentazione grafica di una distribuzione relativa a una variabile quantitativa discreta segue le medesime regole descritte per un grafico a barre, ma vengono utilizzati segmenti al posto di rettangoli, cilindri o prallelepipedi.

Una rappresentazione grafica adeguata per una distribuzione relativa a una variabile discreta è il cosiddetto diagramma ad aste nel quale le intensità della variabile sono riportate sull’asse delle ascisse nella posizione determinata dalla scala di misura adottata e da ciascuno di questi punti si innalza un segmento di altezza proporzionale alla frequenza (relativa o assoluta) corrispondente.

Esempio

La seguente distribuzione indica il numero di esami superati dagli iscritti al primo anno di un certo corso di laurea nel momento dell’iscrizione all’anno successivo

Esami superati

Frequenza relativa

0 0.20

1 0.09

2 0.13

3 0.22

4 0.22

5 0.11

6 0.03

1.00

Il diagramma ad aste assume la forma riportata nella figura successiva

(10)

10 0

0,05 0,1 0,15 0,2 0,25 0,3

0 1 2 3 4 5 6 7

frequenza relativa

esami superati

(11)

11

4)VARIABILI QUANTITATIVE CONTINUE

Se la distribuzione è relativa a una variabile continua, nella prima colonna della tabella compaiono le classi di valori e non le singole determinazioni. In questi casi la distribuzione della variabile all'interno delle singole classi non è nota e per poterla rappresentare graficamente occorre formulare delle ipotesi.

Non essendo nota la reale distribuzione all’interno di ciascuna classe si adotta l’ipotesi di distribuzione uniforme che consiste nel ripartire la frequenza complessiva della classe in maniera proporzionale alla sua ampiezza.

Seguendo questa regola, considerata una determinata classe:

- a due sottointervalli di pari ampiezza si attribuisce la stessa frazione della frequenza della classe

- a un sottointervallo di un'ampiezza doppia si attribuisce una frazione di frequenza doppia e così via…

Esempio

Se la frequenza relativa associata a un intervallo (0, 2] è 0.3, la frazione di

frequenza associata agli intervalli (0, 1] e (1, 2] è 0.15, mentre all’intervallo (0, 0.5] è associata una frequenza pari a 0.075.

Considerato un sottointervallo di una certa classe, la frazione di frequenza associata a questo sottointervallo si calcola dividendo la frequenza relativa associata alla classe per l’ampiezza della classe, ottenendo la cosiddetta densità di frequenza, e moltiplicando questa densità per l’ampiezza del sottointervallo.

(12)

12

In simboli, considerando la j-esima classe (cj-1, cj] a cui è associata la frequenza relativa fj la densità di frequenza è pari a

𝑗 = 𝑓𝑗

𝑐𝑗 − 𝑐𝑗−1 = 𝑓𝑗

𝑗

dove j = cj - cj-1 corrisponde all’ampiezza della classe.

La densità di frequenza così ottenuta misura l’addensamento delle frequenze nella classe e, per come è stata calcolata, risulta costante all'interno della classe.

Considerando ora un sottointervallo (a, b] contenuto nella classe (cj-1, cj] la frazione di frequenza ad esso associato è dato dal prodotto fra la densità e l’ampiezza del sottointervallo, ossia da

𝑗 × (𝑏 − 𝑎)

Esempio

Considerata la seguente distribuzione

X Frequenza 2 − 3 4 3 − 5 6 5 − 10 6 16

si calcoli la densità di frequenza per ciascuna classe di valori e si determini la frazione di frequenza associata all’intervallo (3.05, 3.15).

(13)

13

Innanzitutto è necessario calcolare le frequenze relative, poi le ampiezze delle classi e infine i rapporti fra ciascuna frequenza relativa e l’ampiezza corrispondente, così come mostrato nella tabella successiva.

X Frequenza relativa Ampiezza Densità

2 − 3 0.250 1 0.2500

3 − 5 0.375 2 0.1875

5 − 10 0.375 5 0.0750

1.000

La frazione di frequenza associata all’intervallo (3.05, 3.15) si ottiene dal prodotto 0.1875×(3.15-3.05)=0.01875.

Si vede facilmente che la frequenza associata a un singolo valore (cioè a un intervallo di ampiezza nulla) è necessariamente uguale a zero.

Di conseguenza la frazione di frequenza per (a, b), a, b, (a, b o a, b) è sempre la stessa.

L’importanza della densità di frequenza deriva dal fatto che al crescere dell'ampiezza di un intervallo anche la frequenza corrispondente tenderà a crescere. Per questo motivo non si possono utilizzare le frequenze (assolute o relative) per confrontare le informazioni fornite da intervalli di diversa ampiezza.

La densità di frequenza, non dipendendo dall’ampiezza degli intervalli, misura l’addensamento delle osservazioni.

(14)

14

La rappresentazione grafica corretta per una distribuzione in classi relativa a una variabile continua è il cosiddetto istogramma, costituito da un insieme di rettangoli affiancati aventi per base le diverse classi e per altezza la densità di frequenza corrispondente.

Nel caso della distribuzione considerata nell’esempio precedente l’istogramma assume la forma successiva

Si deve notare che l’area di ciascun rettangolo (ottenuta come prodotto della base per l’altezza) corrisponde alla frequenza relativa associata alla classe.

Dalla formula della densità di frequenza risulta infatti che la frequenza complessiva associata al j-esimo intervallo è data dal prodotto fra la densità della classe e la sua ampiezza

𝑓𝑗 = ℎ𝑗 × ∆𝑗

Per la j-esima classe (cj-1, cj], quindi, il rettangolo corrispondente avrà una base pari aj, un’altezza pari a hj mentre la sua area è fj.

0 0,05 0,1 0,15 0,2 0,25 0,3

0 1 2 3 4 5 6 7 8 9 10 11 12

densità

X

(15)

15

INDICI DI POSIZIONE

In statistica si utilizzano svariati indici per evidenziare le caratteristiche principali della variabile rilevata sull’insieme delle unità statistiche esaminate. Le cosiddette medie (o indici di posizione) descrivono sinteticamente l’insieme delle osservazioni mediante una sola modalità o un unico valore numerico, a seconda che la variabile considerata sia qualitativa o quantitativa.

Si distinguono in

- Medie di posizione, che possono essere determinate per variabili qualsiasi - Medie analitiche, che possono essere determinate solo per variabili quantitative, in quanto richiedono l’esecuzione di operazioni algebriche

Una qualsiasi media effettua la sintesi di tutte le informazioni contenute nei dati originali attraverso una sola determinazione, per cui la media di una variabile qualitativa coincide con una delle k modalità osservate, mentre la media di una variabile quantitativa risulta sempre interna al suo intervallo di variazione.

In questa lezione si esamineranno alcune delle più comuni medie di posizione, mentre nella successiva si studierà una particolare media analitica e le sue proprietà

(16)

16

MODA (o valore modale)

La media di posizione più semplice è la cosidetta moda che può essere determinata per una variabile qualsiasi

In una distribuzione relativa a una variabile qualitativa (sconnessa o ordinabile) o in una distribuzione relativa a una variabile quantitativa discreta la moda corrisponde alla determinazione che presenta la frequenza (assoluta o relativa) più elevata.

Se esistono più determinazioni a cui è associata la stessa frequenza massima, tutte queste determinazioni sono altrettante mode (si può parlare in questo caso di distribuzioni bimodali, trimodali e così via).

La moda si individua facilmente anche sulla rappresentazione grafica associata alla distribuzione dato che corrisponde alla determinazione a cui è associato il rettangolo o il segmento con l’altezza maggiore (per grafici a colonna o diagrammi ad asta) oppure al rettangolo con la base maggiore (per grafici a nastro).

In una distribuzione relativa a una variabile quantitativa continua la classe modale corrisponde all’intervallo che presenta la densità di frequenza più elevata.

(17)

17

La moda si determina in maniera molto semplice e ha il pregio di non risentire della eventuale presenza di valori anomali (cioè della presenza di osservazioni estremamente diverse da tutte le altre), ma ha un uso piuttosto limitato a causa di alcuni difetti:

- non è molto utile se le determinazioni assunte dalla variabile sono numerose, specie se la massima frequenza non è molto più elevata delle altre.

- Per una distribuzione in classi, la classe modale dipende dalla scelta degli intervalli.

ESERCIZI

1) Data la seguente serie di voti

21 24 30 24 26 25 24 28 il voto modale è 24

2) Considerata la seguente distribuzione espressa mediante le frequenze cumulate, determinare la moda

X Frequenza relativa cumulata

-2 0.250

-1 0.425

0 0.550

1 0.750

2 0.900

3 1.000

Occorre innanzitutto calcolare le frequenze relative X Frequenza relativa

-2 0.250

-1 0.175

0 0.125

1 0.200

2 0.150

3 0.100

1.000 La moda è -2

(18)

18

3) Considerata la seguente distribuzione, determinare la classe modale X Frequenza relativa

0 – 1 0.10 1 – 5 0.30 5 – 10 0.40

10 – 20 0.20

1.00 Occorre innanzitutto calcolare le densità

X Ampiezza densità 0 – 1 1 0.100 1 – 5 4 0.075 5 – 10 5 0.080 10 – 20 10 0.020 La classe modale è la prima

(19)

19

QUANTILI

Altri indici di posizione che vengono frequentemente calcolati se la variabile è almeno ordinabile sono i cosiddetti quantili.

Per semplicità in questa lezione si considerano solo i casi relativi a una variabile quantitativa discreta o alla sequenza di una variabile continua, ma i quantili possono essere determinati anche per variabili qualitative ordinabili e per distribuzioni in classi, mentre non possono essere determinati per variabili qualitative sconnesse (o non ordinabili)

Date n osservazioni relative a una variabile quantitativa discreta X, il quantile di ordine p (con 0 < p < 1), indicato con xp, è quel valore della variabile per cui la proporzione di osservazioni inferiori o uguali a xp è almeno pari a p.

Se per un gruppo di studenti il quantile di ordine 0.25 è pari a 40 CFU, un quarto degli studenti ha un numero di crediti inferiore o uguale a 40; se in una distribuzione di stature x0,8 vale 178 centimetri, significa che l’80% delle unità ha una statura inferiore o uguale a 178 centimetri.

Fra tutti i possibili quantili che possono essere considerati, alcuni sono di uso più comune. In particolare si usano spesso

- i tre quartili(x0.25, x0.5, x0.75) - i nove decili(x0.1, x0.2, …, x0.9)

- i novantanove centili(x0.01, x0.02, …, x0.99)

(20)

20

Il quantile più utilizzato in assoluto è la mediana x0.5 che corrisponde al secondo quartile, al quinto decile e al cinquantesimo centile. La mediana è quella determinazione della variabile per cui la metà delle osservazioni presenta un valore inferiore o uguale a x0.5

L’uso della mediana è molto comune. Per esempio, nel report dell’Istat

“CONDIZIONI DI VITA, REDDITO E CARICO FISCALE DELLE FAMIGLIE” del 6 dicembre 2018 si legge “Metà delle famiglie residenti in Italia percepisce un reddito netto non superiore a 25.091 euro l’anno (circa 2.090 euro al mese;

+2,3% rispetto al 2015). Il reddito mediano cresce in tutte le ripartizioni: da +0,6% del Nord-ovest a +3,9% del Nord-est.”

I quantili possono essere determinati sia su una sequenza di osservazioni, sia su una distribuzione di frequenza

(21)

21

1) SEQUENZA DI n OSSERVAZIONI

Data una sequenza di n osservazioni, il quantile xp di ordine p è l’osservazione che nella sequenza ordinata occupa il posto corrispondente alla parte intera superiore del prodotto np, indicato con ⌈𝑛𝑝⌉

Per “parte intera superiore” si intende che se il prodotto np dà origine a un numero intero si considera quel risultato, se invece dà origine a un numero che non è intero si prende l’intero immediatamente superiore.

ESEMPI

1) Considerata la seguente sequenza di voti ottenuti da uno studente

24 18 27 22 30

si determini il quantile di ordine p = 0.5 della variabile.

In questo caso n=5 per cui

⌈𝑛𝑝⌉ = ⌈5 × 0.5⌉ = ⌈2.5⌉ = 3

Il quantile di ordine 0.5 occupa quindi il terzo posto nella sequenza ordinata

18 22 24 27 30

e il quantile cercato risulta x0.5 = x(3 )= 24.

2) Considerata la seguente sequenza di voti ottenuti da uno studente

18 22 24 25 27 30

si determini il quantile di ordine p = 0.5 della variabile.

In questo caso n=6 per cui

⌈𝑛𝑝⌉ = ⌈6 × 0.5⌉ = ⌈3⌉ = 3 La sequenza ordinata è

18 22 24 25 27 30

e il quantile cercato risulta x0.5 = x(3 )= 24.

La necessità di considerare l’ordinamento delle determinazioni esclude la possibilità di determinare i quantili per variabili non ordinabili.

(22)

22

ESERCIZI

1) Considerata la seguente sequenza di osservazioni relative a una variabile continua, si determini il valore dei tre quartili

2.0 1.8 1.9 2.8 2.9 3.0 3.1 4.8 5.5 3.1 La sequenza ordinata risulta

1.8 1.9 2.0 2.8 2.9 3.0 3.1 3.1 4.8 5.5 Il primo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.25⌉ = ⌈2.5⌉ = 3 per cui x0.25 = x(3) = 2.0

Il secondo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.5⌉ = ⌈5⌉ = 5 per cui x0.5 = x(5) = 2.9

Il terzo quartile occupa il posto ⌈𝑛𝑝⌉ = ⌈10 × 0.75⌉ = ⌈7.5⌉ = 8 per cui x0.75 = x(8) = 3.1

2) Considerata la sequenza ordinata dei voti in statistica ottenuti da 12 studenti:

20 20 22 22 22 24 24 25 27 27 28 28 determinare i quantili di ordine 0.2, 0.5 e 0.8.

Il secondo decile occupa il posto ⌈12 × 0.2⌉ = 3, Il secondo quartile occupa il posto ⌈12 × 0.5⌉ = 6 L’ottavo decile occupa il posto ⌈12 × 0.8⌉ = 10

Risulta quindi x0.25 = 22, x0.5 = 24, x0.75 = 27.

Si osservi che uno stesso valore della variabile può corrispondere a più quantili di ordine diverso.

(23)

23

2) DISTRIBUZIONI DI FREQUENZA

Il procedimento di calcolo dei quantili per una distribuzione di frequenza è lo stesso utilizzato al caso precedente, anche se può sembrare diverso.

Data la distribuzione riportata nella tabella successiva

X Frequenza assoluta

-2 3

-1 5

0 2

10

la determinazione dei tre quartili potrebbe essere effettuata costruendo la sequenza ordinata corrispondente

-2 -2 -2 -1 -1 -1 -1 -1 0 0

ed utilizzando quest’ultima, ma esiste un metodo più semplice di procedere (specie quando n è molto elevato). Il metodo utilizzato si basa sulle frequenze assolute cumulate.

Dato che, per definizione, xp occupa il posto ⌈𝑛𝑝⌉, in una distribuzione di frequenza relativa a una variabile quantitativa discreta X il quantile di ordine p corrisponde alla determinazione cj a cui è associata la prima frequenza assoluta cumulata Nj maggiore o uguale a ⌈𝑛𝑝⌉

Per la distribuzione precedente si ha

X Frequenza assoluta cumulata

-2 3

-1 8

0 10

Dato che il primo quartile occupa il posto ⌈10 × 0.25⌉ = 3, x0.25 = -2, in quanto la frequenza assoluta cumulata associata a tale valore è esattamente uguale a 3.

(24)

24

La mediana, invece, occupa il posto ⌈10 × 0.5⌉ = 5 per cui x0.5 = -1, dato che il valore della frequenza assoluta cumulata associata a tale valore è pari a 8.

La determinazione -1 è infatti quel valore della variabile in corrispondenza del quale la frequenza assoluta cumulata assume per la prima volta un valore maggiore di 5 (in corrispondenza dell’intensità precedente era uguale a 3).

Il terzo quartile, infine, occupa il posto ⌈10 × 0.75⌉ = 8 per cui x0.75 = -1.

Si controlla facilmente che i medesimi risultati si sarebbero potuti ottenere sulla sequenza ordinata.

Esercizio

Data la seguente distribuzione dei risultati sufficienti ottenuti in una prova intermedia espressa in quindicesimi, si determinino i quantili di ordine 0.25, 0.3 e 0.5.

X Frequenza assoluta

8 17

9 25

10 40

11 35

12 27

13 18

14 10

15 8

180

Le frequenze assolute cumulate risultano le seguenti

(25)

25

X Frequenza assoluta cumulata

8 17

9 42

10 82

11 117

12 144

13 162

14 172

15 180

Il posto occupato dal primo quartile è ⌈180 × 0.25⌉ = 45, per cui x0.25 = 10.

Il posto occupato dal terzo decile è ⌈180 × 0.3⌉ = 54, per cui x0.3 = 10.

Il posto occupato dalla mediana è ⌈180 × 0.5⌉ = 90, per cui x0.5 = 11.

Riferimenti

Documenti correlati

Problema: Da un’urna contenente sei palline, numerate da 1 a 6, se ne estraggono due senza rimpiazzo (cioè senza reinserire ciascuna pallina estratta nell’urna, in modo che le

    Si abbiano n variabili casuali X i  (supposte con=nue ed indipenden= ) con         media μ i   e varianza σ i

Per rappresentare graficamente le frequenze cumulate di un carattere continuo raggruppato i classi prima si disegna un diagramma a gradini, poi i gradini vengono congiunti

Una spira quadrata di lato L=5,0cm si trova inizialmente immersa in un campo magnetico B uniforme, parallelo al piano in cui giace la spira.. Un campo magnetico

[r]

Variabili casuali ad una dimensione a.a. Si consideri un esperimento stocastico consistente nell’estrazione con reimmissione di un campione di 4 biglie da un sacchetto contenente

Se, invece, la variabile è di tipo qualitativo ordinabile, la rappresentazione grafica della sua distribuzione di frequenza può essere effettuata sempre mediante grafici a

L’estremo A `e attratto verso il vertice B del quadrato da una molla ideale di