Corso di
Analisi Statistica per le Imprese
Rappresentazione dei dati Prof. L. Neri
a.a. 2016-2017
Il manager è consapevole che presentare le informazioni raccolte in forma di matrice dei dati non ha senso
È utile invece rappresentarle in forma organizzata e sintetica allo scopo di:
• evidenziarne le caratteristiche principali
• facilitarne la lettura e l’interpretazione Rappresentazione tabellare
Rappresentazione grafica
La rappresentazione dei dati
Distribuzione di frequenze Distribuzione di quantità Serie storica
Serie territoriale
Rappresentazioni tabellari
Organizzazione dei dati mediante una tabella risultante dalle operazioni di:
• Classificazione
• Conteggio
Ad ogni modalità di un carattere (qualitativo o quantitativo) si fa corrispondere il numero di volte che esso si presenta nel collettivo (la sua frequenza assoluta)
Distribuzione di frequenze
Distribuzione di frequenze
Punti
vendita Addetti
1 6
2 6
3 10
4 10
5 7
6 3
7 3
8 6
9 4
Addetti (valori distinti)
Numero punti vendita
(frequenze) 3
4 6 7 10
Quanti sono i punti vendita con 3 addetti? 2 2
Quanti sono i punti vendita con 4 addetti? 1 1
Quanti sono i punti vendita con 6 addetti? 3 3
Quanti sono i punti vendita con 7 addetti? 1 1
Quanti sono i punti vendita con 10 addetti? 2 2
Distribuzione semplice di frequenze
X Freq.
x1 n1 x2 n2
… …
xj nj
… …
xk nk Totale n
n
K n
j
La somma delle frequenze
assolute è uguale al numero totale di unità del collettivo
x1, x2,…,xK
sono le modalità distinte che
assume il
carattere X nel collettivo di n unità esaminato
n1, n2,…,nK sono le freq.
assolute
associate a ciascuna modalità
n1 indica
quante unità presentano la modalità x1 del carattere X
Frequenze relative e frequenze relative percentuali
La frequenza relativa è data dal rapporto tra frequenza assoluta e numero totale di unità del collettivo
per la j-esima modalità Vale che
La frequenza relativa percentuale altro non è che la frequenza relativa moltiplicata per 100
n fj nj
K
1
j fj 1
n 100 100 n
f
pj j j
K
1
j pj 100
Calcolo delle frequenze relative e percentuali
Addetti Frequenze assolute
3 2
4 1
6 3
7 1
10 2
Tot n=9
Frequenze relative 2/9=0,22 1/9=0,11 3/9=0,34 1/9=0,11 2/9=0,22
1,00
Frequenze rel. perc.
22,2 11,1 33,3 11,1 22,2 100,0
I punti vendita con 3 addetti sono 2 (freq. ass.)
Rappresentano il 22% del totale dei punti vendita
La somma delle freq.
rel. perc. è pari a 100 (in questo caso è stata arrotondata perché risultava pari a 99,9)
Perché si calcolano le frequenze relative e percentuali?
Le frequenze assolute dipendono da n Quindi non possono essere utilizzate per
effettuare confronti tra collettivi con diversa numerosità
Al contrario, le frequenze relative e quelle percentuali sono numeri puri
Si utilizzano per confrontare distribuzioni di frequenza riferite a collettivi di diversa
numerosità
Esempio di utilizzo delle freq. rel. perc.
Supponiamo che il manager dell’azienda
debba valutare se la distribuzione dei punti vendita per numero di addetti in Campania è diversa da quella di una regione spagnola, la Catalogna
Si sospetta che in Campania ci siano più
punti vendita con pochi addetti rispetto alla Catalogna
Confronto tra distrib. di frequenze
Addetti Freq ass.
3 2
4 1
6 3
7 1
10 2
Tot n=9
Addetti Freq.
ass.
3 4
4 4
5 11
6 15
8 8
10 6
Tot n=48
Campania Catalogna
Confrontando le freq. ass., si conclude che il numero dei punti
vendita con 3 addetti è minore in Campania rispetto alla Catalogna (2 contro 4) e lo stesso vale per i p.v. con 4 addetti (1 contro 4)
Ma il confronto fatto in questo modo è errato!
Questo risultato sembra ribaltare le supposizioni iniziali
Addetti Freq ass.
3 2
4 1
6 3
7 1
10 2
Tot n=9
Freq. rel.
perc.
22,2 11,1 33,3 11,1 22,2 100
Addetti Freq.
ass.
3 4
4 4
5 11
6 15
8 8
10 6
Tot n=48
Freq. rel.
perc.
8,3 8,3 22,9 31,3 16,7 12,5 100,0
Campania Catalogna
In termini di freq. rel. perc., i 2 p.v. con 3 addetti costiituiscono il 22,2 % del totale dei p.v. in Campania e solo l’8,3% del totale dei p.v. in Catalogna
Confronto tra distrib. di frequenze
L’incidenza dei p.v. con pochi addetti è maggiore in Campania, come si supponeva
Frequenze cumulate
Addetti (valori distinti)
Numero punti vendita
(frequenze)
3 2
4 1
6 3
7 1
10 2
frequenze cumulate
Quanti sono i punti vendita con al max 3 addetti? 2 Quanti sono i punti vendita con al max 4 addetti?
Quanti sono i punti vendita con al max 6 addetti?
Quanti sono i punti vendita con al max 7 addetti?
Quanti sono i punti vendita con al max 10 addetti?
2+1 2+1+3 2+1+3+1 2+1+3+1+2 9
3 6 7 2
Le freq. cum.
si definiscono solo se le
modalità del carattere sono ordinate
Frequenze cumulate
Addetti Freq.
ass. nj Freq. ass.
cum. Nj Freq. rel.
cum. Fj Freq. perc.
cum. Pj
3 2 2 0,22 22,2
4 1 3 0,33 33,3
6 3 6 0,67 66,6
7 1 7 0,78 77,7
10 2 9 1,00 100,0
Dalla lettura delle freq. perc. cum. Pj,
si ricava che il 66,6% dei punti vendita (cioè i 2/3) ha un numero di addetti inferiore o uguale a 6
Distribuzione in classi di valori
Una variabile quantitativa continua
usualmente viene rappresentata mediante una tabella di frequenze associate a classi di valori
• Le classi sono formate da gruppi contigui di modalità
• Le classi non devono sovrapporsi
• Una modalità deve appartenere ad una sola classe
Distribuzione di frequenze in classi della variabile Ricavi
Ricavi (valori ordinati)
180 200 205 270 280 340 350 500 600
Per ricavare la corrispondente
distribuzione in classi di valori, potremmo pensare di definire classi tali che:
• abbiano più o meno la stessa frequenza
• abbiano più o meno la stessa ampiezza
• corrispondano a livelli del fenomeno che possiamo individuare come (basso, medio, alto) oppure (basso, alto) avendo in mente specifiche soglie
Distribuzione di frequenze in classi della variabile Ricavi
Ricavi (valori ordinati)
180 200 205 270 280 340 350 500 600
Classi di
ricavo Freq.
ass.
(0 – 250]
(250 – 350]
Oltre 350
Scelgo di formare 3 classi di ricavi:
-Fino a 250 (incluso)
-Da 250 (escluso) a 350 (incluso) -Oltre 350
3 4 2
Qual è la frequenza associata alla prima classe?
Quanti sono i p.v. i cui ricavi sono al massimo 250?
Organizzazione dei dati mediante una tabella risultante dalle operazioni di:
• Classificazione
• Misurazione di un fenomeno
Ad ogni modalità di un carattere si fa
corrispondere una misurazione (per es. una somma o una media) di un carattere
quantitativo
Distribuzione di quantità
Esempio distribuzione di quantità
Classifico in base agli addetti Per ogni modalità del
carattere “Addetti” calcolo la somma e la media dei ricavi
Punti
vendita Addetti Ricavi
1 6 350
2 6 200
3 10 600
4 10 500
5 7 270
6 3 180
7 3 205
8 6 340
9 4 280
Addetti Ricavo totale
Ricavo medio
3 385 192,5
4 280 280
6 890 296,7
7 270 270
10 1100 550
Come si ricava la quantità 385 (ricavo totale) in corrispondenza del numero di addetti pari a 3?
Dalla somma di 180 e 205, i ricavi dei p.v. che hanno 3 addetti
Serie storica
Tabella che ad ogni riferimento temporale (ad esempio, l’anno, il mese, il giorno) associa
l’ammontare del carattere X in esame
Evidenzia la dinamica di un certo fenomeno nel tempo
Esempi:
il valore aggiunto di un’azienda negli ultimi cinque anni
l’indice S&P/Mib alla Borsa di Milano
nell’ultima settimana
Serie storica (esempio)
Facendo riferimento al nostro esempio base, la banca può richiedere il R.O.
(risultato operativo) di ogni punto vendita degli ultimi quattro anni
Per ogni punto
vendita si ha una
serie storica del tipo:
anni R.O.
(migliaia euro)
2004 85
2005 120
2006 215
2007 161
Serie territoriale
Tabella che ad ogni unità territoriale
(ad esempio paese, regione, distretto industriale) fa corrispondere l’ammontare del carattere X in esame
Mostra la distribuzione del fenomeno in rapporto al territorio
Esempi:
il tasso di inflazione nei paesi UE
le emissioni di CO2 nei capoluoghi di regione italiani
Serie territoriale (esempio)
Paese PIL nominale
(in dollari USA)
Italia 31.802
Spagna 27.951
Regno Unito 39.681
Svezia 43.190
Valori del PIL pro-capite in alcuni Paesi
(Dati del Fondo Monetario Internazionale 2007)
Esercizio 1.
Supponete di disporre dei seguenti dati del fatturato in migliaia di euro di un’azienda 120 123 221 135 146 123 167 123 123 121 135 136 136 221 222 223 167 135 135 121 Costruire la tabella di frequenza in classi.
• Decidete di costruire tre classi
Esercizi di riepilogo
Distribuzione in classi del fatturato
Classi di
fatturato nj fj pj
(110-130] 7 0.35 35%
(130-200] 9 0.45 45%
(200+ 4 0.20 20%
Grafici a barre o a nastri Grafici a torta
Diagrammi cartesiani (per serie storiche) Cartogrammi (per serie territoriali)
Istogrammi
Rappresentazioni grafiche
Rappresentazioni grafiche: le le componenti
componenti
– I dati: sono rappresentati in barre, linee, aree o punti.
– Le componenti di supporto: consentono la comprensione dei dati:
• Il titolo del grafico
• I titoli degli assi
• Le etichette degli assi
• L’unità di misura dei dati
• La griglia
• La legenda
• Le etichette dei dati
• Le note
• La fonte dei dati.
Rappresentazioni grafiche: le le componenti
componenti
• Il titolo del grafico deve essere breve e coinciso.
Ne esistono di due tipi:
• Il titolo informativo contiene le informazioni necessarie per comprendere i dati. Risponde alle tre domande: “Cosa?”, Dove?” e “Quando?”.
p.e. Tasso di disoccupazione in Italia, anni 2009-2012
• Il titolo descrittivo sintetizza in poche parole il trend o il pattern rappresentato nel grafico.
p.e. L’aumento della disoccupazione in Italia dal 2009 al 2012.
• I titoli degli assi identificano le mutabili o le variabili rappresentate dagli assi. Se si possono evincere dal titolo del grafico non è necessario ripeterli.
• Le etichette degli assi identificano le modalità o i valori rappresentati nel grafico.
Rappresentazioni grafiche:
le componenti le componenti
• L’unità di misura dei dati (p.e. “in migliaia” , “%” etc.).
Se l’unità di misura è ovvia, non è necessario specificarla (p.e.
“anni” per le serie storiche).
• La griglia può essere aggiunta per agevolare la lettura e il confronto dei dati.
• La legenda identifica simboli, tratteggi o colori usati per rappresentare i dati.
• Le etichette dei dati visualizzate sopra o vicino alle barre, alle aree o alle linee facilitano la lettura del grafico.
• Le note possono essere aggiunte per fornire definizioni o informazioni sulla metodologia.
• La fonte di provenienza dei dati.
Esempi Esempi
Un grafico chiaro
10
15
25
0 10 20 30
A B C
Il grafico a destra è più facile da leggere.
Il ricorso a poche componenti di supporto permette di concentrare l’attenzione sui dati.
Nel grafico a sinistra tutte le componenti hanno il massimo impatto.
Il risultato è un grafico confuso, difficile da leggere anche se sono presenti solo 3 valori.
Generalmente si utilizzano per caratteri qualitativi e quantitativi discreti
Ad ogni modalità corrisponde un nastro o una barra
Le altezze delle barre o le larghezze dei
nastri sono proporzionali alla frequenza o alla quantità (totale, media, proporzione di un
carattere) che si vuole rappresentare
Si usano anche per evidenziare graduatorie tra Paesi, regioni, città,…
Grafici a barre o a nastri
Grafico a barre
Grafico a nastri
Grafico a barre
Grafici a torta
Si utilizzano per caratteri qualitativi per
evidenziare la composizione di un fenomeno A ciascuna modalità del carattere
corrisponde una fetta della torta
proporzionale alla corrispondente frequenza o intensità
Generalmente il numero delle modalità è limitato
Grafici a torta
Grafici a torta
Grafici a torta
Grafici di serie temporali
Sono diagrammi cartesiani
In ascissa viene riportato il tempo di riferimento (anno, mese, giorno) e in ordinata il carattere osservato
Grafici di serie temporali
Grafici di serie territoriali
Utilizzano una mappa geografica
Ad ogni area territoriale (provincia, regione, nazione,…) corrisponde una colorazione
differente a seconda della frequenza o della quantità del fenomeno
Una legenda aiuta la lettura del grafico,
attribuendo ad ogni colore un valore o una classe di valori
Grafici di serie territoriali
Grafici di serie territoriali
Istogramma per caratteri quantitativi continui
Composto da una serie di rettangoli affiancati, uno per ogni classe di valori Rappresentazione areale:
L’area di ogni rettangolo deve essere uguale (o proporzionale) alla frequenza di ciascuna classe di valori in modo che l’area
complessiva di tutti i rettangoli sia uguale (o proporzionale) alla numerosità n del collettivo
Istogramma per caratteri quantitativi continui
Base del rettangolo = Ampiezza della classe (in ascissa)
Altezza del rettangolo = Densità di frequenza
(in ordinata)
classe frequenza ampiezza
classe aj densità di frequenza hj
… … … …
(xj; xj+1) nj xj+1 - xj nj/(xj+1 – xj)
… … … …
Costruzione dell’istogramma 1
Classi di superficie (in ettari)
Numero aziende
(nj)
0-1 120
1-2 160
2-3 220
3-5 212
5-10 205
10-20 110
20-40 65
21
Ampiezza classe
(aj)
1 1 1 2 5 10 20 40
Base del rettangolo Altezza del rettangolo Densità di
freq
(hj)
120 160 220 106 41 11 3,25 0,525 40-80
Istogramma
Superficie dj
5 10 20 40 80
Istogramma per le prime 5 classi
(precedente esempio)
Superficie hj
2
1 3 5 10
120 160 220
106
41
0
Classi di
superf. Freq.
0-1 120
1-2 160
2-3 220
3-5 212
5-10 205
Ampiezza
(aj) Dens di freq (hj)
1 120
1 160
1 220
2 106
5 41
212 è l’area di questo rettangolo