comunicazione e delle relazioni
internazionali - a.a. 2013-2014
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni doppie
Genere Tipo diploma
1 Femmina ITC
2 Femmina ITC
3 Femmina Classico
4 Femmina ITC
5 Maschio ITC
6 Femmina Scientif.
7 Femmina ITC
8 Femmina Classico
9 Femmina ITC
10 Femmina ITC
11 Maschio Scientif.
12 Femmina ITC
13 Femmina Scientif.
14 Femmina ITC
15 Femmina ITC
16 Maschio Scientif.
17 Maschio Scientif.
18 Femmina ITC
19 Femmina Scientif.
20 Maschio ITC
21 Maschio ITC
22 Maschio ITC
23 Femmina Scientif.
: : :
Distribuzione unitaria multipla
97 42,7
130 57,3
227 100,0
Maschio Femmina Totale
Frequenza %
Genere
10 4,4
64 28,2
141 62,1
12 5,3
227 100,0
Liceo classico Liceo Scientifico ITC
Altro Totale
Frequenza %
Tipo diploma
Distribuzioni di frequenza
Conteggio
6 30 55 6 97
4 34 86 6 130
10 64 141 12 227
Maschio Femmina Genere
Totale
Liceo classico
Liceo
Scientifico ITC Altro Tipo dploma
Totale
Tabella di frequenze a doppia entrata o Tabella doppia di frequenze o
Tabella di contingenza
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Tabella di frequenze a doppia entrata o tabella doppia di frequenze o tabella di contingenza:
viene utilizzata per indagare le relazioni esistenti tra le modalità di due
variabili qualitative o quantitative divise in classi o miste purché la variabile quantitativa sia divisa in classi
Studio dell’associazione
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Esempio Reddito / Consumi
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Esempio Reddito / Consumi
Distribuzioni marginali
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Esempio Reddito / Consumi
Distribuzioni marginali Distribuzioni condizionate
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Esempio Reddito / Consumi
Distribuzioni marginali Distribuzioni condizionate
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Una distribuzioni doppia è caratterizzata da:
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Esempio Reddito / Consumi
Distribuzioni marginali Distribuzioni condizionate
Una variabile X, sulle righe, con k modalità;
ü
Una variabile Y, sulle colonne, con h modalità;
ü
Una distribuzione marginale per la X;
ü
Una distribuzione marginale per la Y;
ü
k distribuzioni di Y condizionate alle modalità di X;
ü
h distribuzioni di X condizionate alle modalità di Y;
ü
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Distribuzioni relative condizionate
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
10-15mila 0,87 0,48 0,02 0,00 0,31
15-20mila 0,09 0,48 0,28 0,07 0,25
20-25mila 0,04 0,04 0,70 0,50 0,38
25-30mila 0,00 0,00 0,00 0,43 0,06
Totale 1,00 1,00 1,00 1,00 1,00
Reddito p.c.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
10-15mila 0.63 0.34 0.03 0.00 1.00
15-20mila 0.08 0.42 0.46 0.04 1.00
20-25mila 0.03 0.03 0.77 0.18 1.00
25-30mila 0.00 0.00 0.00 1.00 1.00
Totale 0.22 0.22 0.42 0.14 1.00
Reddito p.c.
275/440 151/440
275/317 28/317
Distribuzioni relative condizionate dei consumi rispetto al reddito (profili riga)
Distribuzioni relative condizionate del reddito
rispetto ai consumi
(profili colonna)
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Si scelgono le distribuzioni relative condizionate di colonna (profili colonna) quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile posta in riga
Un criterio
Si scelgono le distribuzioni relative condizionate di riga (profili riga) quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in colonna
Analisi delle tabelle di contingenza
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Distribuzioni doppie
Indipendenza : il carattere X è indipendente da Y se, per qualsiasi modalità di Y, la
distribuzione relativa condizionata di X non cambia
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
10-15mila 0,87 0,48 0,02 0,00 0,31
15-20mila 0,09 0,48 0,28 0,07 0,25
20-25mila 0,04 0,04 0,70 0,50 0,38
25-30mila 0,00 0,00 0,00 0,43 0,06
Totale 1,00 1,00 1,00 1,00 1,00
Reddito p.c.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
10-15mila 0,63 0,34 0,03 0,00 1,00
15-20mila 0,08 0,42 0,46 0,04 1,00
20-25mila 0,03 0,03 0,77 0,18 1,00
25-30mila 0,00 0,00 0,00 1,00 1,00
Totale 0,22 0,22 0,42 0,14 1,00
Reddito p.c.
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Distribuzioni doppie
Indipendenza : il carattere X è indipendente da Y se, per qualsiasi modalità di Y, la
distribuzione relativa condizionata di X non cambia
Se non c ’ è
indipendenza tra due caratteri
Dipendenza (Approccio asimmetrico)
Interdipendenza (Approccio simmetrico)
XàY oppure YàX
X ↔ Y
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Simbologia
Conteggio
13 33 38 84
38 102 40 180
90 45 20 155
141 180 98 419
Tizio Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
. 1
h
i ij
j
n n
=
= ∑
. 1
k
j ij
i
n n
=
= ∑
.. 1 1k h
i j ij
n n
= =
= ∑∑
n ij
Generico elemento, di riga i e colonna j.
j-esimo elemento del marginale di colonna.
E’ la somma delle frequenze delle modalità di tutte le righe relativamente alla sola modalità di posto j della variabile in colonna.
i-esimo elemento del marginale di riga.
E’ la somma delle frequenze delle modalità di tutte le colonne relativamente alla sola modalità di posto i della variabile in riga.
Totale delle frequenze.
E’ la somma delle frequenze di tutte le celle, o anche la somma degli elementi dei marginali di riga o di quelli dei marginali di colonna.
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Simbologia
Y
y
1… y
j… y
htotale
x
1n
11… n
1j… n
1hn
1.… … … … … … …
x
in
i1… n
ij… n
ihn
i.… … … … … … …
X
x
kn
k1… n
kj… n
khn
k.totale n
.1… n
.j… n
.hn
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Simbologia
Y
y
1… y
j… y
htotale
x
1n
11… n
1j… n
1hn
1.… … … … … … …
x
in
i1… n
ij… n
ihn
i.… … … … … … …
X
x
kn
k1… n
kj… n
khn
k.totale n
.1… n
.j… n
.hn
Distribuzioni relative condizionate di riga
. .
.
1 ;...; ;...
i ih i
ij i
i
n n n
n n
n
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Simbologia
Y
y
1… y
j… y
htotale
x
1n
11… n
1j… n
1hn
1.… … … … … … …
x
in
i1… n
ij… n
ihn
i.… … … … … … …
X
x
kn
k1… n
kj… n
khn
k.totale n
.1… n
.j… n
.hn
Distribuzioni relative condizionate di
colonna j
kj j
ij j
j
n n n
n n
n
. .
.
1 ;...; ;...
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
CASO TEORICO DI PERFETTA INDIPENDENZA TRA CARATTERI
êX // Yè A B C Totali
Maschi 40/80=0,5 28/80=0,35 12/80=0,15 1,00 Femmine 60/120=0,5 42/120=0,35 18/120=0,15 1,00 Totali 100/200=0,5 70/200=0,35 30/200=0,15 1,00
Distribuzioni relative condizionate di riga
n ij
n i.
n . j
n ij
n i. = n .j
n ⇒ ˆn ij = n i. ×n .j n
40
80 = 100
200 ⇒ 40 = 80 ×100
200
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
CASO TEORICO DI PERFETTA INDIPENDENZA TRA CARATTERI
êX // Yè A B C Totali
Maschi 40/100=0,4 28/70=0,4 12/80=0,4 80/200=0,4 Femmine 60/100=0,6 42/70=0,6 18/120=0,6 120/200=0,6
Totali 1,00 1,00 1,00 1,00
Distribuzioni relative condizionate di colonna
n ij
n i.
n . j
n ij
n .j = n i.
n ⇒ ˆn ij = n i. ×n .j n
40 100 = 80
200 ⇒ 40 = 80 ×100
200
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
L ’ associazione tra variabili qualitative
Conteggio
13 33 38 84
38 102 40 180
90 45 20 155
141 180 98 419
Tizio Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
Valori osservati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
L ’ associazione tra variabili qualitative
mutabili2 2
variabili 1 variabile 1 mutabile Approccio
simmetrico (interdipendenza)
Approccio asimmetrico (dipendenza)
13 33 38 84
15,5% 39,3% 45,2% 100,0%
38 102 40 180
21,1% 56,7% 22,2% 100,0%
90 45 20 155
58,1% 29,0% 12,9% 100,0%
141 180 98 419
33,7% 43,0% 23,4% 100,0%
Freq.
% Freq.
% Freq.
% Freq.
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
Valori osservati e % di riga (distribuzioni condizionate)
Le frequenze teoriche:
(in caso di indipendenza)
Indipendenza
Indipendenza: il carattere X è indipendente da Y se, per qualsiasi modalità di Y, la distribuzione relativa
condizionata di X non cambia
n n n
n n
n j
k kj i
ij .
. .
= ...
=
n n n
n j
i
ij .
.
= n
n n ˆ ij n i . × . j
=
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
L ’ associazione tra variabili qualitative
Valori osservati, % di riga e valori teorici
13 33 38 84
28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
L’indice
chi-quadrato
( )
22
ˆ
ˆ
ij ij
i j ij
n n
χ = ∑∑ n −
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
L ’ associazione tra variabili qualitative
13 33 38 84
28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
L’indice chi-quadrato:
L’indice phi-quadrato:
2 2
n
Φ = χ
max( )
Φ =2 min⎡⎣(
k −1 ;) (
h−1)
⎤⎦( )
2( ) ( )
max
χ
= ×n min⎡⎣ k −1 ; h−1⎤⎦L’indice V di Cramer:
( ) ( )
2
min 1 ; 1
V k h
= Φ
⎡ − − ⎤
⎣ ⎦
( )
22
ˆ
ˆ
ij ij
i j ij
n n
χ = ∑∑ n −
( ) ( )
2
min 1 ; 1
n k h
= χ
⎡ ⎤
⋅ ⎣ − − ⎦
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
L ’ associazione tra variabili qualitative
13 33 38 84
28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
% Freq. oss.
Freq. teoriche
% Freq. oss.
Freq. teoriche
% Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
( )
22
ˆ
ˆ
ij ij
i j ij
n n
χ = ∑∑ n −
2 2
n Φ = χ
83,780
=
83,78
= 419 = 0,200
( ) ( )
2
min 1 ; 1
V k h
= Φ
⎡ − − ⎤
⎣ ⎦
0,200
= 2 = 0,316
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 1
Conteggio
22 27 51 100
35 40 44 119
57 67 95 219
Femmina Maschio Genere
Totale
Discipline
artistiche Materie
umanistiche Materie scientifiche Attitudine
Totale
22 27 51 100
22,0% 27,0% 51,0% 100,0%
35 40 44 119
29,4% 33,6% 37,0% 100,0%
57 67 95 219
26,0% 30,6% 43,4% 100,0%
freq.
% freq.
% freq.
% Femmina
Maschio Genere
Totale
Discipline
artistiche Materie
umanistiche Materie scientifiche Attitudine
Totale
Le frequenze osservate
Le distribuzioni condizionate
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 1
Conteggio
22 27 51 100
35 40 44 119
57 67 95 219
Femmina Maschio Genere
Totale
Discipline
artistiche Materie
umanistiche Materie scientifiche Attitudine
Totale
22 27 51 100
26,0 30,6 43,4 100,0
35 40 44 119
31,0 36,4 51,6 119,0
57 67 95 219
57,0 67,0 95,0 219,0
Osservate Teoriche Osservate Teoriche Osservate Teoriche Femmina
Maschio Genere
Totale
Discipline
artistiche Materie
umanistiche Materie scientifiche Attitudine
Totale
Le frequenze osservate
Le frequenze teoriche
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 1
22 27 51 100
26,0 30,6 43,4 100,0
35 40 44 119
31,0 36,4 51,6 119,0
57 67 95 219
57,0 67,0 95,0 219,0
Osservate Teoriche Osservate Teoriche Osservate Teoriche Femmina
Maschio Genere
Totale
Discipline
artistiche Materie
umanistiche Materie scientifiche Attitudine
Totale
Le frequenze osservate e teoriche
Il calcolo del chi-quadrato
( ) (
2) (
2)
22
22 26 27 30,6 51 43,4
26 30,6 43,4
χ = − + − + − + ( 35 31 ) (
240 36,4 ) (
244 51,6 )
231 36,4 51,6
− − −
+ +
16 12,96 57,76 16 12,96 57,76 26 30,6 43, 4 31 36, 4 51,6
= + + + + +
0,615 0, 424 1,331 0,516 0,356 1,119
= + + + + + = 4,361
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 1
22 27 51 100
26,0 30,6 43,4 100,0
35 40 44 119
31,0 36,4 51,6 119,0
57 67 95 219
57,0 67,0 95,0 219,0
Osservate Teoriche Osservate Teoriche Osservate Teoriche Femmina
Maschio Genere
Totale
Discipline
artistiche Materie
umanistiche Materie scientifiche Attitudine
Totale
Le frequenze osservate e teoriche
Il calcolo del chi-quadrato e dell ’ indice V di Cramer
2 4,361
χ =
( ) ( )
2
min 1 ; 1
V n k h
= χ
⎡ ⎤
⋅ ⎣ − − ⎦
4,361 219 1
= ⋅ = 0,199 = 0,141
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
La seguente tabella riporta la distribuzione degli occupati per settori di attività economica e per posizione professionale. Determinare:
Gli occupati a prescindere dalla posizione professionale;
Gli occupati per posizione professionale a prescindere dal settore.
Esercizio 2
Settori Posizione Professionale
Dipendenti Autonomi
Agricoltura 485 776
Industria 4147 956
Altre attività 4941 2546
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Settori Posizione Professionale Totale Dipendenti Autonomi
Agricoltura 485 776 1261
Industria 4147 956 5103
Altre attività 4941 2546 7487
Totale 9573 4278 13851
Settori Totale Agricoltura 1261
Industria 5103
Altre attività 7487
Totale 13851
Esercizio 2
Gli occupati a prescindere dalla posizione professionale
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 2
Gli occupati per posizione professionale a prescindere dal settore
Settori Posizione Professionale Totale Dipendenti Autonomi
Agricoltura 485 776 1261
Industria 4147 956 5103
Altre attività 4941 2546 7487
Totale 9573 4278 13851
Posizione Professionale
Totale
Dipendenti 9573
Autonomi 4278
Totale 13851
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 3
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Esercizio 4
Si determini se esiste relazione tra caratteri
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati
Dove e come studiare
Esercizio n. 1 Esercizio n. 4 Esercizio n. 6 Esercizio n. 7 Esercizio n. 10
File “esercizi statistiche bivariate.pdf”
• S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill. Cap. 6 (escluso paragrafi 6.7, 6.8)
• D. Piccolo (2004) – Statistica per le decisioni – Il Mulino. Cap. 7
Raccolta dei dati
Scelta del metodo di analisi Conclusioni
Interpretazione dei risultati