La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Materiale didattico:
I file sono, generalmente, in pdf. Per leggerli, scarica Adobe Acrobat Professional, disponibile gratuitamente sul sito www.adobe.com
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
(in alternativa)
D Piccolo (2004) – Statistica per le decisioni – Il Mulino D. Piccolo (2004) – Statistica per le decisioni – Il Mulino.
S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie , ( ) g per le scienze economiche e sociali – McGraw-Hill.
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
(più ne fate, meglio è)
S. Bernstein, R. Bernstein,
Statistica descrittiva, Collana Schaum’s, 2003
S. Bernstein, R. Bernstein,
Calcolo delle probabilità Collana Schaum’s 2003 S. Bernstein, R. Bernstein,
Calcolo delle probabilità, Collana Schaum’s, 2003
Statistica inferenziale, Collana Schaum’s, 2003
A. Montanari, P. Agati, D.G. Calò,
Statistica Collana OPEN Masson Milano 1998
Statistica, Collana OPEN, Masson, Milano, 1998
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
A. D’Elia e D. Piccolo
Statistica per le decisioni – Test di autovalutazione Il Mulino (2004).
S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie , ( ) g per le scienze economiche e sociali – McGraw-Hill.
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Concetti matematici di base:
• Richiami di aritmetica e di algebra
• Nozioni di analisi matematica:
• Insiemi ed operazioni sugli insiemi
• Insiemi ed operazioni sugli insiemi
• Nozioni di calcolo combinatorio
Lezioni introduttive di matematica Prof. F. Capocasa p
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
“Se mi rimanesse un’ora sola da vivere vorrei trascorrerla ad una Se mi rimanesse un ora sola da vivere vorrei trascorrerla ad una lezione di statistica perché sembrerebbe durare per sempre”
Lamento di uno studente
“Ci t ti i di l b i l di b i l
“Ci sono tre tipi di menzogne: le bugie, le grandi bugie e le statistiche”
Benjamin Disraeli j
”Se si muove è biologia, se cambia colore è chimica, se si rompe è fisica, se ti fa dormire è statistica”
Bob Hogg, Università dello Iowa é
«Non mi fido molto delle statistiche, perché un uomo con la testa nel forno acceso e i piedi nel congelatore statisticamente ha una temperatura media.»
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
E’ l’insieme delle metodologie per lo studio di fenomeni che E l insieme delle metodologie per lo studio di fenomeni che hanno l’attitudine a variare.
Comprende la raccolta, l’elaborazione e la definizione di informazioni per agevolare sia l’analisi dei dati che i processi decisionali.
Un dato è una qualsiasi misurazione di un qualsiasi fenomeno.
Un’informazione è un dato o un insieme di dati semplici o elaborati Un informazione è un dato, o un insieme di dati, semplici o elaborati, che ci servono per:
Prevedere Capire
Prevedere
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Nel marketing
Nel marketing: per valutare la soddisfazione dei propri clienti al fine di migliorare/correggere le proprie politiche commerciali
proprie politiche commerciali In Economia
In Economia: per costruire modelli di p
previsione economica per l’intervento in Paesi in via di sviluppo
In medicina
In medicina: Nel sequenziamento del genoma umano e q g nella ricerca di patologie genetiche
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
In campo sociale In campo sociale In campo sociale In campo sociale:
- per la progettazione e gestione di indagini campionarie e sondaggi demoscopici;
e so dagg de oscop c ;
- per la programmazione e valutazione dei servizi sociali e sanitari;
- per la rilevazione dei comportamenti e motivazioni soggettive in svariati campi (processi educativi, espressioni di voto mobilità sociale e turistica sport espressioni di voto, mobilità sociale e turistica, sport, tempo libero e comunicazione, psicologia).
“Conoscere per governare” (Luigi Einaudi)
“Non si può gestire ciò che non si può misurare”
(K l N t )
p g p
(Kaplan e Norton)
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Ogni risultato va interpretato interpretato;
Ogni interpretazione può essere giusta o sbagliata, utile o inutile, rilevante o irrilevante rispetto al problema problema che dobbiamo risolvere;
Da un’indagine campionaria condotta sulle matricole Ciò su cui si deve essere d’accordo è il processo processo che ha portato a quel risultato.
Es : Da un indagine campionaria condotta sulle matricole universitarie è risultato che il 70% ha dato un giudizio buono sui propri docenti.
Questo risultato può Positivo
Perché è, in assoluto, una % alta;Es.:
Questo risultato può essere considerato…
Negativo
Perché la percentuale media degli anni precedenti era oltre l’80%.Positivo
e c é è, asso u o, u a % a a;Ma ciò che è importante
(d di i i i )è:
Ma ciò che è importante
(da un punto di vista statistico)è:
Come è stato scelto il campione?
Come si è determinata la sua numerosità?
Qual è l’errore associato a questo risultato e quale il livello di “fiducia”
che noi riponiamo in esso?
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Ci occuperemo di alcune tecniche e procedure che vengono utilizzate per Ci occuperemo di alcune tecniche e procedure che vengono utilizzate per raccogliere, organizzare, presentare, analizzare e interpretare dati numerici al fine di (far) prendere decisioni efficaci.
Tabelle, Grafici, Indici sintetici La statistica descrittiva può essere definita come l’insieme dei metodi che concernono la raccolta, il compendio, la presentazione e la definizione di un insieme di dati per descriverne in maniera adeguata le varie caratteristiche.
Generalizzazione dei risultati g
La statistica inferenziale può essere definita come l’insieme La statistica inferenziale può essere definita come l insieme dei metodi che, utilizzando lo strumento probabilistico,
permettono la stima di una caratteristica di una popolazione, o
d i i d d i d l i h
una decisione da prendere riguardo una popolazione, e che
sono basati soltanto sui risultati di un campione
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Gli argomenti fondamentali del corso sono:
1. La raccolta dei dati
2. L’organizzazione dei dati: tabelle e grafici 3. Gli indici sintetici: tendenza centrale e variabilità
4. Le statistiche bivariate: analisi della dipendenza e della interdipendenza 5. Elementi di teoria della probabilità
6. Le variabili casuali: discrete e continue 6. Le variabili casuali: discrete e continue 7. Le distribuzioni campionarie
8. La stima per intervalli
9 La verifica delle ipotesi Solo per gli studenti che hanno almeno 8 CFU 9. La verifica delle ipotesi
10. La verifica delle ipotesi (test sulla varianza di una popolazione)
11. La verifica delle ipotesi
(t t ll diff t i t i di d l i i)
So o pe g stude t c e a o a e o 8 C U
(test sulla differenza tra i parametri di due popolazioni)
12. Test di indipendenza
13. Software per l'analisi dei dati
(questa parte del corso si svolgerà in laboratorio)
Solo per gli studenti che hanno 12 CFU
(questa parte del corso si svolgerà in laboratorio) hanno 12 CFU
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Studiare le metodologie
Fare esercizi per la prova scritta
Ripetere gli argomenti per la prova orale Ripetere gli argomenti per la prova orale
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
E’ l’insieme delle metodologie per lo studio di fenomeni che E l insieme delle metodologie per lo studio di fenomeni che hanno l’attitudine a variare.
Comprende la raccolta, l’elaborazione e la definizione di informazioni per agevolare sia l’analisi dei dati che i processi decisionali.
Un dato è una qualsiasi misurazione di un qualsiasi fenomeno.
Un’informazione è un dato o un insieme di dati semplici o elaborati Un informazione è un dato, o un insieme di dati, semplici o elaborati, che ci servono per:
Prevedere Capire
Prevedere
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
. Approccio “esplorativo” o “confermativo”
Le fasi di un’indagine statistica
Definizione del problema
. Scelta delle unità
(indagine censuaria o campionaria)
pp p
. Uso delle informazioni a priori . Coerenza con
il problema posto
Raccolta dei dati Conclusioni
Controllo Controllo
(indagine censuaria o campionaria) . Scelta delle variabili (princìpi di pertinenza, esaustività, non ridondanza) posto
. Metodi univariati, bivariati,
Scelta del
metodo di analisi Interpretazione
dei risultati
multivariati, multidimensionali, …
Significatività e . Significatività e
rilevanza dei risultati
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
Riguarda la definizione del problema da analizzare
La definizione del problema
Raccoltadei dati Scelta del metodo di analisi ConclusioniInterpretazione dei risultati
Riguarda la definizione del problema da analizzare in tutti i suoi aspetti
(scientifici statistici organizzativi economici) (scientifici, statistici, organizzativi, economici) Approccio esplorativo:
non si hanno particolari conoscenze sul fenomeno Approccio confermativo o esplicativo:
si dispone di conoscenze preliminari Scelta del metodo di rilevazione:
Scelta del metodo di rilevazione:
1. Direttamente (questionari)
2. Indirettamente (raccolta di dati statistici prodotti da altri enti)
3. Osservazioni sperimentali
(esperimenti fisici, chimici effettuati in laboratorio)
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’indagine statistica
La definizione del problema
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
La definizione del problema La raccolta dei
dati
Le unità Le variabili
da Le variabili
(o caratteri statistici)
Unità statistica:
Unità statistica:
unità elementare su cui vengono osservati i caratteri oggetto di studio (persone o esseri
In corrispondenza di viventi, oggetti, territori, tempi, ..) In corrispondenza di
ogni unità statistica sono osservati
l i tt i
Collettivo statistico o popolazione:
insieme di unità statistiche omogenee su cui si
alcuni caratteri o variabili effettua la rilevazione di uno o più caratteri
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’indagine statistica
Raccoltadei datiScelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Il concetto di Popolazione e di Unità statistica
U P l i U i i di i i li ti di ’ i d
Una Popolazione può essere:
i clienti di un’azienda Le aziende manifatturiere i Comuni di una Regione Un insieme di soggetti
Un insieme di stabilimenti Un insieme di unità amministrative
i delitti in un anno Un insieme di eventi
L’unità statistica è l’elemento su cui viene condotta l’indagine u s s o su u o do d g L’unità statistica ISTAT La Famiglia
Un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da vincoli affettivi,
p , , , ,
coabitanti e aventi dimora abituale nello stesso comune.
Una famiglia può essere costituita anche da una sola persona (Censimento 2001).
L’insieme delle variabili misurate sulle diverse unità statistiche viene raccolto in una tabella unitàvariabili.
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
Un esempio
di raccolta dei dati: il questionario
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
1. Genere 2. Età ___________
maschio femmina X
25
1. Genere 2. Età ___________
maschio femmina X
25 X 25
3. Residenza durante gli studi 4. Età alla laurea 5. Voto di laurea
MC Prov. MC Altra prov.
24-25 anni 26-28 anni >28 anni
<95 96-104 105-109 110-110 e lode
X X
X
3. Residenza durante gli studi 4. Età alla laurea 5. Voto di laurea
MC Prov. MC Altra prov.
24-25 anni 26-28 anni >28 anni
<95 96-104 105-109 110-110 e lode
X X
X X X
X
Id . G en ere E tà R es id en z a E tà alla lau rea
Vo to d i
lau rea …
1 maschio 35 Macerata 25 110 e lode …
2 maschio 21 Macerata 27 96 …
3 femmina 26 Provincia MC 24 105 …
:
251 maschio 24 Altra Provincia 29 104 …
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
à
Definizione del problema
Le tabelle unitàvariabili
Raccoltadei dati Scelta del metodo di analisi ConclusioniInterpretazione dei risultati
L’ unità statistica I diversi tipi di variabili
Ind Genere Età Titolo
di studio Attività Reddito (€)
Comp.
fam.
Quantitative continue I diversi tipi di variabili
Quantitative discrete
I
1M 21 M. inf. Operaio 950 4
I
2M 56 Laurea Impiegato 1700 4
I
3F 33 Laurea Docente 2100 2
Qualitative ordinabili Qualitative sconnesse
3
: : : : : : :
I
nM 71 M. Sup. Pensionato 1300 3
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
à
Definizione del problema
Le tabelle unitàvariabili
Raccoltadei dati Scelta del metodo di analisi ConclusioniInterpretazione dei risultati
Ind Genere Età Titolo
di studio Attività Reddito (€)
Comp.
L’ unità statistica fam.
I diversi tipi di variabili I
1
M 21 M. inf. Operaio 950 4
I
2M 56 Laurea Impiegato 1700 4
I
3F 33 Laurea Docente 2100 2
Quantitative continue I diversi tipi di variabili
Quantitative discrete
3: : : : : : :
I
nM 71 M. Sup. Pensionato 1300 3
Qualitative ordinabili Qualitative sconnesse
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
à
Definizione del problema
Le tabelle unitàvariabili
Raccoltadei dati Scelta del metodo di analisi ConclusioniInterpretazione dei risultati
Ind Genere Età Titolo
di studio Attività Reddito (€)
Comp.
L’ unità statistica fam.
I diversi tipi di variabili I
1M 21 M. inf. Operaio 950 4
I
2M 56 Laurea Impiegato 1700 4
I
3F 33 Laurea Docente 2100 2
Quantitative continue I diversi tipi di variabili
Quantitative discrete
3: : : : : : :
I
nM 71 M. Sup. Pensionato 1300 3
Qualitative ordinabili Qualitative sconnesse
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
à
Definizione del problema
Le tabelle unitàvariabili
Raccoltadei dati Scelta del metodo di analisi ConclusioniInterpretazione dei risultati
Ind Genere Età Titolo
di studio Attività Reddito (€)
Comp.
L’ unità statistica fam.
I diversi tipi di variabili I
1M 21 M. inf. Operaio 950 4
I
2M 56 Laurea Impiegato 1700 4
I
3F 33 Laurea Docente 2100 2
Quantitative continue I diversi tipi di variabili
Quantitative discrete
3: : : : : : :
I
nM 71 M. Sup. Pensionato 1300 3
Qualitative ordinabili
Qualitative sconnesse
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
à
Definizione del problema
Le tabelle unitàvariabili
Raccoltadei dati Scelta del metodo di analisi ConclusioniInterpretazione dei risultati
Ind Genere Età Titolo
di studio Attività Reddito (€)
Comp.
L’ unità statistica fam.
I diversi tipi di variabili I
1
M 21 M. inf. Operaio 950 4
I
2M 56 Laurea Impiegato 1700 4
I
3F 33 Laurea Docente 2100 2
Quantitative continue I diversi tipi di variabili
Quantitative discrete
3: : : : : : :
I
nM 71 M. Sup. Pensionato 1300 3
Qualitative ordinabili Qualitative sconnesse
Caratteri o variabili statistiche:
Caratteri o variabili statistiche:
Un carattere può assumere modalità differenti in corrispondenza delle diverse unità del
ll tti L d lità d l tt d collettivo. Le modalità del carattere devono
essere esaustive e non sovrapposte.
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
La presentazione dei dati:
Raccoltadei datiScelta del metodo di analisi Conclusioni
Interpretazione dei risultati
unità età sesso n.auto 1 35 M 1 2 37 M 2 3 59 F 1
La distribuzione unitaria semplice:
3 59 F 1 4 54 M 0 5 44 F 2 6 38 M 1
elencazione delle modalità osservate, unità per unità per un solo
7 62 F 1 8 71 F 0 9 56 M 3 10 60 M 2
carattere
La distribuzione unitaria multipla:
10 60 M 2 11 33 M 2 12 46 F 4 13 41 F 3 14 53 M 1
elencazione delle modalità 14 53 M 1
15 38 F 1 16 55 M 2 17 50 M 3
elencazione delle modalità osservate, unità per unità per più di un carattere
18 63 M 0 19 35 F 1 20 51 M 2
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni di frequenza:
Caratteri qualitativi sconnessi
Frequenze
Tipo diplomaassolute
(n
i) Liceo classico 10 Liceo scientifico 64
ITC 141
Altro 12
Totale 227
Frequenza assoluta: Distribuzione di frequenza Frequenza assoluta:
numero di volte che una modalità viene
t l ll tti
Distribuzione di frequenza semplice
associa alle modalità che può tt l osservata nel collettivo assumere un carattere le
corrispondenti frequenze assolute
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni di frequenza:
Caratteri qualitativi sconnessi
Frequenze Freq.
Tipo diploma
assolute (n
i)
Relative (f
i) Liceo classico 10 0,044 Liceo scientifico 64 0,282
ITC 141 0,621
Altro 12 0,053 ,
Totale 227
1,000
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni di frequenza:
Caratteri qualitativi sconnessi
Frequenze Freq. Freq.
Tipo diploma
assolute (n
i)
Relative (f
i)
percentuali (p
i)
Liceo classico 10 0,044 4,4
Liceo scientifico 64 0,282 28,2
ITC 141 0,621 62,1
Altro 12 0,053 , 5,3 ,
Totale 227
1,000
100,0La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Caratteri qualitativi ordinabili e Caratteri quantitativi discreti
Le distribuzioni di frequenza:
Titolo di studio
Frequenze assolute
(n )
Freq.
Relative (f )
Freq.
percentuali (p ) (n
i) (f
i) (p
i) Licenza elementare 42 0,185 18,5
Licenza media 70 0,308 30,8
Diploma scuola supe 55 0,242 24,2
Laurea 60 0,264 26,4
Totale 227
1,000
100,0Totale 227
1,000
100,0La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Caratteri qualitativi ordinabili e Caratteri quantitativi discreti
Le distribuzioni di frequenza:
Titolo di studio
Frequenze assolute
(n )
Freq.
Relative (f )
Freq.
percentuali (p )
Freq. ass.
cumulate (N )
Freq. rel.
cumulate (F )
Freq. % cumulate
(P ) (n
i) (f
i) (p
i) (N
i) (F
i) (P
i)
Licenza elementare 42 0,185 18,5 42 0,185 18,5
Licenza media 70 0,308 30,8 112 0,493 49,3
Diploma scuola supe 55 0,242 24,2 167 0,736 73,6
Laurea 60 0,264 26,4 227 1,000 100,0
Totale 227
1,000
100,0Totale 227
1,000
100,0La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni di frequenza:
Caratteri qualitativi ordinabili e Caratteri quantitativi discreti
Variabile x
Frequenze assolute
Frequenze cumulate
Frequenze relative
Frequenze
% x assolute cumulate relative % x 1 n 1 n 1 n 1 /N n 1 /N*100 x 2 n 2 n 1 +n 2 n 2 /N n 2 /N*100
… … … … …
x k n k n 1 + ….+n k =N n k /N n k /N*100
totale N 1 100
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Dove e come studiare
• Libro di testo: D. Piccolo (2004) – Statistica per le decisioni – Il Mulino.
Cap. 1, Cap. 2 (escluso paragrafi 2.4, 2.5),
• Libro di testo: S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill.
Cap. 1, Cap. 2 p , p
E i i 1 t 1
File “esercizi indici sintetici.pdf”
Esercizio n. 1 – punto 1
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
Le distribuzioni di frequenza:
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
ETÀ
Frequenze % % cumulate
Caratteri quantitativi
Le distribuzioni di frequenza:
1 5.0 5.0
2 10.0 15.0
1 5.0 20.0
2 10.0 30.0
33 35 37 38
Frequenze % % cumulate
Suddivisione in classi
1 5.0 35.0
1 5.0 40.0
1 5.0 45.0
1 5.0 50.0
41 44 46 50 51
in classi
classe freq. %
% cumulate 33 |- 47 9 45% 45%
1 5.0 55.0
1 5.0 60.0
1 5.0 65.0
1 5.0 70.0
1 5 0 75 0
51 53 54 55 56
47 |- 61 8 40% 85%
61 |- 74 3 15% 100%
totale 20 100%
1 5.0 75.0
1 5.0 80.0
1 5.0 85.0
1 5.0 90.0
1 5 0 95 0
56 59 60 62
63 1 5.0 95.0
1 5.0 100.0
20 100.0
63 71 Totale
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Raccoltadei datiScelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Operazione consistente nel suddividere l’insieme dei possibili Suddivisione in classi di un carattere quantitativo
p p
valori in intervalli tra loro disgiunti
Le classi devono essere definite in modo che:
• il loro numero sia abbastanza piccolo da fornire una adeguata sintesi
bb t d d t l’i f i li ll
ma abbastanza grande da mantenere l’informazione con un livello sufficiente di dettaglio
• siano tra loro disgiunte s a o t a o o d sg u te
• comprendano tutte le possibili modalità del carattere
• abbiano, se possibile, la stessa ampiezza
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Suddivisione in classi
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
1 5.0 5.0
33
Frequenze % % cumulate
Suddivisione in classi
Ampiezza di ciascuna classe
2 10.0 15.0
1 5.0 20.0
2 10.0 30.0
1 5 0 35 0
35 37 38
41
71 33
Ampiezza di ciascuna classe
1 5.0 35.0
1 5.0 40.0
1 5.0 45.0
1 5.0 50.0
41 44 46 50 51
max min
71 33 12, 66
. 3
x x
num classi
1 5.0 55.0
1 5.0 60.0
1 5.0 65.0
1 5.0 70.0
51 53 54 55
Classi di uguale ampiezza
Freq. % %
1 5.0 75.0
1 5.0 80.0
1 5.0 85.0
1 5 0 90 0
56 59 60 62
cumulata
33 |-| 46 9 45% 45%
46 -| 59 7 35% 80%
1 5.0 90.0
1 5.0 95.0
1 5.0 100.0
20 100.0
62 63 71 Totale
46 | 59 7 35% 80%
59 -| 72 4 20% 100%
20
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
Suddivisione in classi
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
1 5.0 5.0
33
Frequenze % % cumulate
• Numero di classi: 3
Suddivisione in classi
2 10.0 15.0
1 5.0 20.0
2 10.0 30.0
1 5 0 35 0
35 37 38 41
• Frequenza assoluta costante in ogni classe:
20/3=6,7
1 5.0 35.0
1 5.0 40.0
1 5.0 45.0
1 5.0 50.0
41 44 46 50 51
,
• Frequenza percentuale costante in ogni classe:
100/3=33 3%
1 5.0 55.0
1 5.0 60.0
1 5.0 65.0
1 5.0 70.0
51 53 54
55
%
100/3=33,3%
Classi di uguale frequenza
1 5.0 75.0
1 5.0 80.0
1 5.0 85.0
1 5 0 90 0
56 59 60 62
classe freq. %
% cumulate 33 |- 42 7 35% 35%
42 |- 56 7 35% 70%
56 6 30% 100%
1 5.0 90.0
1 5.0 95.0
1 5.0 100.0
20 100.0
62 63 71 Totale
>=56 6 30% 100%
totale 20 100%
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
La distribuzione in
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
La distribuzione in
classi di uguale ampiezza
Tempo per raggiungere la Facoltà
Frequenze assolute
(n
i)
Freq.
Relative (f
i)
Freq.
percentuali (p
i)
Freq. ass.
cumulate (N
i)
Freq. rel.
cumulate (F
i)
Freq. % cumulate
(P
i)
(in min.)(n
i) (f
i) (p
i) (N
i) (F
i) (P
i)
0-|20 84 0,370 37,0 84 0,370 37,0
20-|40 81 0,357 35,7 165 0,727 72,7
40-|60 44 0,194 19,4 209 0,921 92,1
60-|80 8 0,035 3,5 217 0,956 95,6
80-|100 0 0,000 0,0 217 0,956 95,6
100-|120 4 0,018 1,8 221 0,974 97,4
120-|140 6 0,026 2,6 227 1,000 100,0
227 1,000 100,0 227 1,000 100,0
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
La distribuzione in
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
La distribuzione in
classi di ampiezza diversa le densità di
frequenza (Rapporto tra la
Tempo per raggiungere l F ltà
Frequenze assolute
Freq.
Relative Freq.
percentuali Freq. ass.
cumulate
Freq. rel.
cumulate Freq. % cumulate
Densità di frequenza
frequenza e l’ampiezza della classe)
la Facoltà
(in min.) (ni) (fi) p
(pi) (Ni) (Fi) (Pi) q
(di)
0-|60 84 0,370 37,0 84 0,370 37,0 1,4
60-|80 81 0,357 35,7 165 0,727 72,7 4,0
80 |120 44 0 194 19 4 209 0 921 92 1 1 1
80-|120 44 0,194 19,4 209 0,921 92,1 1,1
120 -|140 18 0,079 7,9 227 1,000 100,0 0,9
227 1,000 100,0
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Dove e come studiare
• Libro di testo: D. Piccolo (2004) – Statistica per le decisioni – Il Mulino.
Cap. 1
• Libro di testo: S. Borra, A. Di Ciaccio (2004) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill.
Cap. 1, Cap. 2, p , p ,
E i i 1 t 2
File “esercizi indici sintetici.pdf”
Esercizio n. 1 – punto 2
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
Rappresentazioni grafiche
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Rappresentazioni grafiche
Illustrare mediante figure linee o segmenti aree solidi Illustrare mediante figure, linee o segmenti, aree, solidi,
simboli convenzionali una distribuzione di frequenza o di intensità, in funzione delle modalità, qualitative o di intensità, in funzione delle modalità, qualitative o
quantitative, di uno o più caratteri Vantaggi:
Vantaggi:
• confronto tra più distribuzioni mette in rilievo casi anomali
• mette in rilievo casi anomali
• potenza divulgativa
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
I grafici: Caratteri qualitativi e
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
I grafici: Caratteri qualitativi e
caratteri quantitativi discreti
• Pie-chart
Freq.
Relative (fi) 4,4 Tipo diploma
Frequenze assolute
(ni) Liceo classico 10
Freq.
percentuali (pi)
4,4
• Bar chart
28,2 62,1 5,3 100,0 Liceo scientifico 64
ITC 141
Altro 12
Totale 227
28,2 62,1 5,3 100,0
Altro Liceo classico
% 70
60 5,3%
28,2%
4,4%
Liceo scientifico 50 40
ITC
30
20
10 62,1%
Altro ITC Liceo scientifico Liceo classico 10
0
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
I grafici: Variabili continue Istogramma
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
I grafici: Variabili continue Istogramma
90
Tempo per
Frequenze
Freq.
70 80
raggiungere 90
la Facoltà (in min.)
Frequenze assolute
(n
i)
0-|20 84
40 50
0 |20 84
6020-|40 81
40-|60 44
60 |80 8
10 20
60-|80 8
3080-|100 0
100-|120 4
min.
0 20 40 60 80 100 120 140
120-|140 6
227
Classi di ampiezza diversa Sull’asse ordinate dobbiamo mettere la densità di frequenza
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
I grafici: Variabili continue Istogramma
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
I grafici: Variabili continue Istogramma
Densità
Classi di ampiezza diversa
Densità
Tempo per
raggiungere
Frequenze l
Densità di
f
3 03,5 4,0
raggiungere la Facoltà (in min.)
assolute (n
i)
frequenza (d
i)
0-|60 84 1,4
60 |80 81 4 0
2,0 2,5 3,0
60-|80 81 4,0
80-|120 44 1,1
120 -|140 18 0,9
227 0,5
1,0 1,5
min.
227
0,0 ,
60 80 120 140
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
I grafici: Variabili continue Istogramma
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
I grafici: Variabili continue Istogramma grafico costituito da barre non distanziate, con basi in generale
diverse, dove ogni barra possiede un’area proporzionale alla corrispondente frequenza
area di ogni rettangolo = frequenza (densità ampiezza della classe)
( p )
(frequenza/ampiezza della classe)
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Definizione del problema
L’analisi dei dati:
I grafici: Variabili continue Istogramma
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
16 14 12
I grafici: Variabili continue Istogramma
12 10 8 6 4 2
30
Reddito pro capite 1997 (in milioni di lire) 31.0 30.0 29.0 28.0 27.0 26.0 25.0 24.0 23.0 22.0 21.0 20.0 19.0 18.0 17.0 16.0 15.0 14.0
0 20
10
Reddito pro capite 1997 (in milioni di lire) 30.6 28.8 27.0 25.2 23.4 21.6 19.8 18.0 16.2 14.4 0
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
I grafici: Variabili continue e discrete
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
I grafici: Variabili continue e discrete
Rappresentazione a ramo e foglia
unità età 1 35 2 37 3 59 4 54 5 44 6 38
• ramo: numeri interi iniziali dei dati
• foglia: numeri interi finali dei dati
Presenta i dati sia in forma tabellare che grafica
6 38 7 62 8 71 9 56 10 60
Presenta i dati sia in forma tabellare che grafica Frequenza Ramo & Foglia
10 60 11 33 12 46 13 41
6 3 . 355788 3 4 . 146 7 5 . 0134569
14 53 15 38 16 55 17 50
3 6 . 023 1 7 . 1
17 50 18 63 19 35 20 51
Ampiezza ramo: 10 Ogni foglia: 1 caso
La raccolta e la presentazione dei dati La raccolta e la presentazione dei dati Università di Macerata
Università di Macerata –– Facoltà di Scienze Politiche Facoltà di Scienze Politiche -- Anno accademico 2011Anno accademico 2011--20122012 Cristina Davino Cristina Davino
Definizione del problema
L’analisi dei dati:
Le statistiche univariate
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le statistiche univariate
analisi delle distribuzioni
Distribuzioni di frequenza Distribuzioni di frequenza analisi delle distribuzioni
di frequenza Suddivisioni in classi
Istogrammi, boxplot, steam and leaf Suddivisioni in classi
Istogrammi, boxplot, steam and leaf
Rappresentazioni
Grafici a barre Grafici a torta Grafici a barre Grafici a torta grafiche
Istogrammi
Boxplot
IstogrammiBoxplot
Tendenza centrale
Steam and leaf
Tendenza centrale
Steam and leaf
Indici sintetici Variabilità
Forma Variabilità
Forma
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino
Dove e come studiare
• Libro di testo: Libro di testo: D Piccolo (2004) – Statistica per le decisioni – Il Mulino D. Piccolo (2004) – Statistica per le decisioni – Il Mulino.
Cap. 1
• Libro di testo: S. Borra, A. Di Ciaccio (2004) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill.
Cap. 1, Cap. 2, p , p ,
Esercizio n. 1 – punto 3 e punto 4 File “esercizi indici sintetici.pdf”
Esercizio n.3 – punto a, b, c Esercizio n. 7 – punto a e b Esercizio n. 8 – punto a Esercizio n. 10 – punto a T1: Test di autovalutazione
La raccolta e la presentazione dei dati
La raccolta e la presentazione dei dati Cristina DavinoCristina Davino