ESERCITAZIONE
RIEPILOGO di Statistica
Descrittiva
ESERCITAZIONE
MISURE DI TENDENZA
CENTRALE
Il Monte dei Paschi di Siena vuole fare una propaganda mirata per emettere più carte di credito ricaricabili. Se la banca dispone delle seguenti informazioni su quale gruppo di individui sicuramente avrà più presa se fa una propaganda mirata?
Livello di istruzione dei
titolari attuali Numero di titolari
Licenza elementare 100
Licenza media 150
Licenza media superiore 250
laurea 400
Livello di
istruzione dei titolari attuali
Numero di
titolari N j F j
Licenza elementare
100 100 0.11
Licenza media 150 250 0.28 Licenza media
superiore
250 500 0.56
laurea 400 900 1.00
Me=licenza media inferiore
Il carattere è qualitativo ordinale la miglior misura di tendenza centrale è
Supponiamo di aver letto sui giornali le seguenti informazioni sulla % di pubblicità che viene effettuata Italia e in Germania.
TV 54,8%
Stampa 28,7%
Radio 5,9%
Internet 2,5%
altro 8,1%
TV 31,9%
Stampa 51,9%
Radio 4,8%
Internet 4,5%
altro 6,9%
I dati riportati sono le quotazioni di un titolo in borsa rilevati negli ultimi cinque mesi:
2.5, 1.8, 3, 2.6, 4
Se il valore 2.6 fosse erroneamente trascritto come 26 quale sarebbe l'effetto sulle seguenti misure di tendenza centrale e perché?
a) Un incremento della media aritmetica.
b) Un incremento della mediana.
c) Un incremento della moda.
Giorni 1° 2° 3° 4° 5° 6° 7° 8° 9° 10°
rimorchiatori 4 5 3 2 1 5 3 2 1 3
La seguente tabella riporta il numero di rimorchiatori osservati in 10 giorni nel porto di Napoli.
a)In media nel porto ci sono più rimorchiatori nei primi 5 giorni o nei restanti 5?
Alla sede centrale delle poste di Firenze si rilevano i tempi di attesa per usufruire del servizio su cinque clienti.
50 30 25 15 10
Entra un nuovo cliente che ha molta fretta e domanda all’impiegato quanto più o meno deve attendere in fila. L’impiegato risponde non più di 10 minuti. Valutare tale risposta sulla base dei dati a
disposizione.
Se fosse attendibile l’affermazione dell’impiegato dovrei osservare una media dei tempi di attesa inferiore o al massimo uguale a 10. Uno sguardo ai dati fa capire che tale affermazione è completamente arbitraria, perché?
Supponiamo che un ricercatore sia interessato a
valutare se la distanza tra il valore aggiunto pro-capite delle aziende più ricche e di quelle più povere sia
sostanzialmente diverso tra Sicilia e Piemonte sulla base delle seguenti informazioni.
sicilia piemonte
25 48
32 43
81 20
50 28
49 26
43 23
64 29
48 80
v.a. F i
25 0,125
32 0,25
43 0,375
48 0,5
49 0,625
50 0,75
SICILIA:
Q3/Q1=50/32=1,56
v.a. F i
20 0,125
23 0,25
26 0,375
28 0,5
29 0,625
43 0,75
PIEMONTE:
Q3/Q1=43/23=1,89
C’è più distanza tra i valoriaggiunti in
Piemonte che in Sicilia
Esercizi vari
I valori standardizzati
Se il carattere quantitativo X ha media µ e deviazione standard σ allora è possibile
sempre ottenere i suoi valori standardizzati
i
i
y x
i=1…nLa distribuzione del carattere Y avrà allora media zero e
esempio
Supponiamo di aver osservato i seguenti valori
2, 4, 5, 5 , 6, 8, 10, 12, 18, 20 µ=9
σ =5.73
I valori standardizzati saranno dati da:
y
1=(2-9)/5,73=-1.22
y
2=(4-9)/5,73=-0.35 ecc..
Caso di studio L’andamento dei
consumi e dei redditi in USA negli anni (1921-
1942)
Un ricercatore vuole studiare l’andamento dei consumi e dei redditi in USA negli anni 1921- 1942. Ha a disposizione la seguente serie storica dei consumi e redditi in
ANNO CONSUMO REDDITO
1921 39,20 43,70
1922 41,90 40,60
1923 45,00 49,10
1924 49,20 55,40
1925 50,60 56,40
1926 52,60 58,70
1927 55,10 60,30
1928 56,20 61,30
1929 57,30 64,00
1930 57,80 67,00
1931 55,00 57,70
1932 50,90 50,70
1933 45,60 41,30
1934 46,50 45,30
1935 48,70 48,90
1936 51,30 53,30
1937 57,70 61,80
1938 58,70 65,00
1939 57,50 61,20
1940 61,60 68,40
1941 65,00 74,10
1942 69,70 85,30
Sviluppare lo studio del ricercatore.
Tenendo presente che le domande a cui vuole rispondere sono le seguenti:
• la media del consumo di quanto è inferiore a quella del reddito?
• la serie dei consumi e dei redditi presentano la stessa variabilità?
• a quanto ammontano le mediane del
consumo e del reddito?
Analisi del caso di studio: SINTESI DEI RISULTATI
La media del consumo è 53.22 dollari Quella del reddito è di 57.66 dollari La deviazione standard è 7.39 e 10.94 La mediana è 52.7 e 57.75
Allora possiamo dire che il reddito medio è in genere più alto che il consumo medio.
La variabilità del reddito rispetto alla media sembra più alto CV(consumo)=53.22/7.40=0.13
CV(reddito)=57.66/10.94=0.18
In conclusione la variabilità del reddito è più alta di quella
0,00 20,00 40,00 60,00 80,00 100,00
1 4 7 10 13 16 19 22
CONSUMO REDDITO
I consumi e i redditi hanno un andamento crescente per i primi 10 anni. Intorno agli anni ’30 (recessione) cominciano a
decrescere per poi risalire inseguito
Giudizio Licenziati Sufficiente 37,1
Buono 26,4
Distinto 19,2
Ottimo 17,3
100,0
Esercizio
Si consideri la distribuzione degli alunni della scuola secondaria di primo grado per giudizio riportato
all’esame di Stato nell’Anno scolastico 2006/07 in Italia (dati Istat)
a) Determinare la moda e la mediana.
Giudizio Licenziati
Sufficiente 37,1 0,371 0,371
Buono 26,4 0,264 0,635
Distinto 19,2 0,192 0,827
Ottimo 17,3 0,173 1
100,0 1,000
La moda, ossia la modalità più frequente, è sufficiente
Si tratta di una distribuzione percentuale F
jf
jPer il calcolo della mediana sulla colonna delle
frequenze relative cumulate si individua la prima F
jGiudizio Licenziati
Sufficiente 37,1 0,371 0,1376
Buono 26,4 0,264 0,0697
Distinto 19,2 0,192 0,0369
Ottimo 17,3 0,173 0,0299
100,0 1,000 0,2741
f
jf
2j7259 ,
0 2741
, 0 1
f 1
E
K1 j
2 j
1
b) Eterogeneità della distribuzione
75 , 4 0
3 K
1 E K
0
1 968
, 7259 0
,
e 0
Si consideri la seguente distribuzione di 100 imprese per classi di fatturato:
Classi di fatturato (migliaia di euro)
N.
imprese
(0-20] 30
(20-50] 50
(50-100] 20
Totale 100
a) Rappresentare graficamente la distribuzione b) Determinare la moda
Esercizio
Classi di fatturato
(migliaia di euro) n
jAmpiezza classe
(a
j)
Densità di freq
(h
j)
0-20 30 20 1,5
20-50 50 30 1,67
50-100 20 50 0,4
Totale 100
a) Costruzione dell’istogramma.
Le classi hanno diversa ampiezza. E’
necessario calcolare la densità di frequenza
1,5 1,7 h i