• Non ci sono risultati.

Corso diAnalisi Statistica per le ImpreseRappresentazione dei datiProf. L. Neria.a. 2016-2017

N/A
N/A
Protected

Academic year: 2021

Condividi "Corso diAnalisi Statistica per le ImpreseRappresentazione dei datiProf. L. Neria.a. 2016-2017"

Copied!
48
0
0

Testo completo

(1)

Corso di

Analisi Statistica per le Imprese

Rappresentazione dei dati Prof. L. Neri

a.a. 2016-2017

(2)

Il manager è consapevole che presentare le informazioni raccolte in forma di matrice dei dati non ha senso

È utile invece rappresentarle in forma organizzata e sintetica allo scopo di:

• evidenziarne le caratteristiche principali

• facilitarne la lettura e l’interpretazione Rappresentazione tabellare

Rappresentazione grafica

La rappresentazione dei dati

(3)

Distribuzione di frequenze Distribuzione di quantità Serie storica

Serie territoriale

Rappresentazioni tabellari

(4)

Organizzazione dei dati mediante una tabella risultante dalle operazioni di:

• Classificazione

• Conteggio

Ad ogni modalità di un carattere (qualitativo o quantitativo) si fa corrispondere il numero di volte che esso si presenta nel collettivo (la sua frequenza assoluta)

Distribuzione di frequenze

(5)

Distribuzione di frequenze

Punti

vendita Addetti

1 6

2 6

3 10

4 10

5 7

6 3

7 3

8 6

9 4

Addetti (valori distinti)

Numero punti vendita

(frequenze) 3

4 6 7 10

Quanti sono i punti vendita con 3 addetti? 2 2

Quanti sono i punti vendita con 4 addetti? 1 1

Quanti sono i punti vendita con 6 addetti? 3 3

Quanti sono i punti vendita con 7 addetti? 1 1

Quanti sono i punti vendita con 10 addetti? 2 2

(6)

Distribuzione semplice di frequenze

X Freq.

x1 n1 x2 n2

xj nj

xk nk Totale n

n

K n

j

La somma delle frequenze

assolute è uguale al numero totale di unità del collettivo

x1, x2,…,xK

sono le modalità distinte che

assume il

carattere X nel collettivo di n unità esaminato

n1, n2,…,nK sono le freq.

assolute

associate a ciascuna modalità

n1 indica

quante unità presentano la modalità x1 del carattere X

(7)

Frequenze relative e frequenze relative percentuali

La frequenza relativa è data dal rapporto tra frequenza assoluta e numero totale di unità del collettivo

per la j-esima modalità Vale che

La frequenza relativa percentuale altro non è che la frequenza relativa moltiplicata per 100

n fj nj

K

1

j fj 1

n 100 100 n

f

pj j j

K

1

j pj 100

(8)

Calcolo delle frequenze relative e percentuali

Addetti Frequenze assolute

3 2

4 1

6 3

7 1

10 2

Tot n=9

Frequenze relative 2/9=0,22 1/9=0,11 3/9=0,34 1/9=0,11 2/9=0,22

1,00

Frequenze rel. perc.

22,2 11,1 33,3 11,1 22,2 100,0

I punti vendita con 3 addetti sono 2 (freq. ass.)

Rappresentano il 22% del totale dei punti vendita

La somma delle freq.

rel. perc. è pari a 100 (in questo caso è stata arrotondata perché risultava pari a 99,9)

(9)

Perché si calcolano le frequenze relative e percentuali?

Le frequenze assolute dipendono da n Quindi non possono essere utilizzate per

effettuare confronti tra collettivi con diversa numerosità

Al contrario, le frequenze relative e quelle percentuali sono numeri puri

Si utilizzano per confrontare distribuzioni di frequenza riferite a collettivi di diversa

numerosità

(10)

Esempio di utilizzo delle freq. rel. perc.

Supponiamo che il manager dell’azienda

debba valutare se la distribuzione dei punti vendita per numero di addetti in Campania è diversa da quella di una regione spagnola, la Catalogna

Si sospetta che in Campania ci siano più

punti vendita con pochi addetti rispetto alla Catalogna

(11)

Confronto tra distrib. di frequenze

Addetti Freq ass.

3 2

4 1

6 3

7 1

10 2

Tot n=9

Addetti Freq.

ass.

3 4

4 4

5 11

6 15

8 8

10 6

Tot n=48

Campania Catalogna

Confrontando le freq. ass., si conclude che il numero dei punti

vendita con 3 addetti è minore in Campania rispetto alla Catalogna (2 contro 4) e lo stesso vale per i p.v. con 4 addetti (1 contro 4)

Ma il confronto fatto in questo modo è errato!

Questo risultato sembra ribaltare le supposizioni iniziali

(12)

Addetti Freq ass.

3 2

4 1

6 3

7 1

10 2

Tot n=9

Freq. rel.

perc.

22,2 11,1 33,3 11,1 22,2 100

Addetti Freq.

ass.

3 4

4 4

5 11

6 15

8 8

10 6

Tot n=48

Freq. rel.

perc.

8,3 8,3 22,9 31,3 16,7 12,5 100,0

Campania Catalogna

In termini di freq. rel. perc., i 2 p.v. con 3 addetti costiituiscono il 22,2 % del totale dei p.v. in Campania e solo l’8,3% del totale dei p.v. in Catalogna

Confronto tra distrib. di frequenze

L’incidenza dei p.v. con pochi addetti è maggiore in Campania, come si supponeva

(13)

Frequenze cumulate

Addetti (valori distinti)

Numero punti vendita

(frequenze)

3 2

4 1

6 3

7 1

10 2

frequenze cumulate

Quanti sono i punti vendita con al max 3 addetti? 2 Quanti sono i punti vendita con al max 4 addetti?

Quanti sono i punti vendita con al max 6 addetti?

Quanti sono i punti vendita con al max 7 addetti?

Quanti sono i punti vendita con al max 10 addetti?

2+1 2+1+3 2+1+3+1 2+1+3+1+2 9

3 6 7 2

Le freq. cum.

si definiscono solo se le

modalità del carattere sono ordinate

(14)

Frequenze cumulate

Addetti Freq.

ass. nj Freq. ass.

cum. Nj Freq. rel.

cum. Fj Freq. perc.

cum. Pj

3 2 2 0,22 22,2

4 1 3 0,33 33,3

6 3 6 0,67 66,6

7 1 7 0,78 77,7

10 2 9 1,00 100,0

Dalla lettura delle freq. perc. cum. Pj,

si ricava che il 66,6% dei punti vendita (cioè i 2/3) ha un numero di addetti inferiore o uguale a 6

(15)

Distribuzione in classi di valori

Una variabile quantitativa continua

usualmente viene rappresentata mediante una tabella di frequenze associate a classi di valori

• Le classi sono formate da gruppi contigui di modalità

• Le classi non devono sovrapporsi

• Una modalità deve appartenere ad una sola classe

(16)

Distribuzione di frequenze in classi della variabile Ricavi

Ricavi (valori ordinati)

180 200 205 270 280 340 350 500 600

Per ricavare la corrispondente

distribuzione in classi di valori, potremmo pensare di definire classi tali che:

• abbiano più o meno la stessa frequenza

• abbiano più o meno la stessa ampiezza

• corrispondano a livelli del fenomeno che possiamo individuare come (basso, medio, alto) oppure (basso, alto) avendo in mente specifiche soglie

(17)

Distribuzione di frequenze in classi della variabile Ricavi

Ricavi (valori ordinati)

180 200 205 270 280 340 350 500 600

Classi di

ricavo Freq.

ass.

(0 – 250]

(250 – 350]

Oltre 350

Scelgo di formare 3 classi di ricavi:

-Fino a 250 (incluso)

-Da 250 (escluso) a 350 (incluso) -Oltre 350

3 4 2

Qual è la frequenza associata alla prima classe?

Quanti sono i p.v. i cui ricavi sono al massimo 250?

(18)

Organizzazione dei dati mediante una tabella risultante dalle operazioni di:

• Classificazione

• Misurazione di un fenomeno

Ad ogni modalità di un carattere si fa

corrispondere una misurazione (per es. una somma o una media) di un carattere

quantitativo

Distribuzione di quantità

(19)

Esempio distribuzione di quantità

Classifico in base agli addetti Per ogni modalità del

carattere “Addetti” calcolo la somma e la media dei ricavi

Punti

vendita Addetti Ricavi

1 6 350

2 6 200

3 10 600

4 10 500

5 7 270

6 3 180

7 3 205

8 6 340

9 4 280

Addetti Ricavo totale

Ricavo medio

3 385 192,5

4 280 280

6 890 296,7

7 270 270

10 1100 550

Come si ricava la quantità 385 (ricavo totale) in corrispondenza del numero di addetti pari a 3?

Dalla somma di 180 e 205, i ricavi dei p.v. che hanno 3 addetti

(20)

Serie storica

Tabella che ad ogni riferimento temporale (ad esempio, l’anno, il mese, il giorno) associa

l’ammontare del carattere X in esame

Evidenzia la dinamica di un certo fenomeno nel tempo

Esempi:

il valore aggiunto di un’azienda negli ultimi cinque anni

l’indice S&P/Mib alla Borsa di Milano

nell’ultima settimana

(21)

Serie storica (esempio)

Facendo riferimento al nostro esempio base, la banca può richiedere il R.O.

(risultato operativo) di ogni punto vendita degli ultimi quattro anni

Per ogni punto

vendita si ha una

serie storica del tipo:

anni R.O.

(migliaia euro)

2004 85

2005 120

2006 215

2007 161

(22)

Serie territoriale

Tabella che ad ogni unità territoriale

(ad esempio paese, regione, distretto industriale) fa corrispondere l’ammontare del carattere X in esame

Mostra la distribuzione del fenomeno in rapporto al territorio

Esempi:

il tasso di inflazione nei paesi UE

le emissioni di CO2 nei capoluoghi di regione italiani

(23)

Serie territoriale (esempio)

Paese PIL nominale

(in dollari USA)

Italia 31.802

Spagna 27.951

Regno Unito 39.681

Svezia 43.190

Valori del PIL pro-capite in alcuni Paesi

(Dati del Fondo Monetario Internazionale 2007)

(24)

Esercizio 1.

Supponete di disporre dei seguenti dati del fatturato in migliaia di euro di un’azienda 120 123 221 135 146 123 167 123 123 121 135 136 136 221 222 223 167 135 135 121 Costruire la tabella di frequenza in classi.

• Decidete di costruire tre classi

Esercizi di riepilogo

(25)

Distribuzione in classi del fatturato

Classi di

fatturato nj fj pj

(110-130] 7 0.35 35%

(130-200] 9 0.45 45%

(200+ 4 0.20 20%

(26)

Grafici a barre o a nastri Grafici a torta

Diagrammi cartesiani (per serie storiche) Cartogrammi (per serie territoriali)

Istogrammi

Rappresentazioni grafiche

(27)

Rappresentazioni grafiche: le le componenti

componenti

– I dati: sono rappresentati in barre, linee, aree o punti.

– Le componenti di supporto: consentono la comprensione dei dati:

• Il titolo del grafico

• I titoli degli assi

• Le etichette degli assi

• L’unità di misura dei dati

• La griglia

• La legenda

• Le etichette dei dati

• Le note

• La fonte dei dati.

(28)

Rappresentazioni grafiche: le le componenti

componenti

Il titolo del grafico deve essere breve e coinciso.

Ne esistono di due tipi:

• Il titolo informativo contiene le informazioni necessarie per comprendere i dati. Risponde alle tre domande: “Cosa?”, Dove?” e “Quando?”.

p.e. Tasso di disoccupazione in Italia, anni 2009-2012

• Il titolo descrittivo sintetizza in poche parole il trend o il pattern rappresentato nel grafico.

p.e. L’aumento della disoccupazione in Italia dal 2009 al 2012.

I titoli degli assi identificano le mutabili o le variabili rappresentate dagli assi. Se si possono evincere dal titolo del grafico non è necessario ripeterli.

Le etichette degli assi identificano le modalità o i valori rappresentati nel grafico.

(29)

Rappresentazioni grafiche:

le componenti le componenti

L’unità di misura dei dati (p.e. “in migliaia” , “%” etc.).

Se l’unità di misura è ovvia, non è necessario specificarla (p.e.

“anni” per le serie storiche).

La griglia può essere aggiunta per agevolare la lettura e il confronto dei dati.

La legenda identifica simboli, tratteggi o colori usati per rappresentare i dati.

Le etichette dei dati visualizzate sopra o vicino alle barre, alle aree o alle linee facilitano la lettura del grafico.

Le note possono essere aggiunte per fornire definizioni o informazioni sulla metodologia.

La fonte di provenienza dei dati.

(30)

Esempi Esempi

Un grafico chiaro

10

15

25

0 10 20 30

A B C

Il grafico a destra è più facile da leggere.

Il ricorso a poche componenti di supporto permette di concentrare l’attenzione sui dati.

Nel grafico a sinistra tutte le componenti hanno il massimo impatto.

Il risultato è un grafico confuso, difficile da leggere anche se sono presenti solo 3 valori.

(31)

Generalmente si utilizzano per caratteri qualitativi e quantitativi discreti

Ad ogni modalità corrisponde un nastro o una barra

Le altezze delle barre o le larghezze dei

nastri sono proporzionali alla frequenza o alla quantità (totale, media, proporzione di un

carattere) che si vuole rappresentare

Si usano anche per evidenziare graduatorie tra Paesi, regioni, città,…

Grafici a barre o a nastri

(32)

Grafico a barre

(33)

Grafico a nastri

(34)

Grafico a barre

(35)

Grafici a torta

Si utilizzano per caratteri qualitativi per

evidenziare la composizione di un fenomeno A ciascuna modalità del carattere

corrisponde una fetta della torta

proporzionale alla corrispondente frequenza o intensità

Generalmente il numero delle modalità è limitato

(36)

Grafici a torta

(37)

Grafici a torta

(38)

Grafici a torta

(39)

Grafici di serie temporali

Sono diagrammi cartesiani

In ascissa viene riportato il tempo di riferimento (anno, mese, giorno) e in ordinata il carattere osservato

(40)

Grafici di serie temporali

(41)

Grafici di serie territoriali

Utilizzano una mappa geografica

Ad ogni area territoriale (provincia, regione, nazione,…) corrisponde una colorazione

differente a seconda della frequenza o della quantità del fenomeno

Una legenda aiuta la lettura del grafico,

attribuendo ad ogni colore un valore o una classe di valori

(42)

Grafici di serie territoriali

(43)

Grafici di serie territoriali

(44)

Istogramma per caratteri quantitativi continui

Composto da una serie di rettangoli affiancati, uno per ogni classe di valori Rappresentazione areale:

L’area di ogni rettangolo deve essere uguale (o proporzionale) alla frequenza di ciascuna classe di valori in modo che l’area

complessiva di tutti i rettangoli sia uguale (o proporzionale) alla numerosità n del collettivo

(45)

Istogramma per caratteri quantitativi continui

Base del rettangolo = Ampiezza della classe (in ascissa)

Altezza del rettangolo = Densità di frequenza

(in ordinata)

classe frequenza ampiezza

classe aj densità di frequenza hj

(xj; xj+1) nj xj+1 - xj nj/(xj+1 – xj)

(46)

Costruzione dell’istogramma 1

Classi di superficie (in ettari)

Numero aziende

(nj)

0-1 120

1-2 160

2-3 220

3-5 212

5-10 205

10-20 110

20-40 65

21

Ampiezza classe

(aj)

1 1 1 2 5 10 20 40

Base del rettangolo Altezza del rettangolo Densità di

freq

(hj)

120 160 220 106 41 11 3,25 0,525 40-80

(47)

Istogramma

Superficie dj

5 10 20 40 80

(48)

Istogramma per le prime 5 classi

(precedente esempio)

Superficie hj

2

1 3 5 10

120 160 220

106

41

0

Classi di

superf. Freq.

0-1 120

1-2 160

2-3 220

3-5 212

5-10 205

Ampiezza

(aj) Dens di freq (hj)

1 120

1 160

1 220

2 106

5 41

212 è l’area di questo rettangolo

Riferimenti

Documenti correlati

Si può calcolare solo per variabili quantitative È una media analitica cioè è funzione di tutti i valori..

→ Il carattere assume un’unica modalità (tutte le unità del collettivo presentano quella modalità). • Eterogeneità massima

omogeneità) → Il carattere presenta tutte le modalità e a ciascuna di esse è associata la stessa

La tecnica di scomposizione può essere utilizzata anche per risolvere equazioni di grado superiore

Calcolare la pressione se il recipiente viene collegato, a temperatura costante, ad un altro contenitore avente un volume di 0, 53 litri.. Un palloncino è riempito di aria per un

[r]

[r]

L’altezza di Marta è uguale = a quella di Anna. ANNA