Facoltà di Scienze Politiche
Statistica sociale
marco gherghi
Dipartimento di matematica e statistica
Università di Napoli Federico II gherghi@unina.it
(prof.ssa C. Davino)
L’Associazione tra caratteri
Corso di
Seminario su:
Le distribuzioni doppie
Genere Tipo
diploma
1 Femmina ITC
2 Femmina ITC
3 Femmina Classico
4 Femmina ITC
5 Maschio ITC
6 Femmina Scientif.
7 Femmina ITC
8 Femmina Classico
9 Femmina ITC
10 Femmina ITC
11 Maschio Scientif.
12 Femmina ITC
13 Femmina Scientif.
14 Femmina ITC
15 Femmina ITC
16 Maschio Scientif.
17 Maschio Scientif.
18 Femmina ITC
19 Femmina Scientif.
20 Maschio ITC
21 Maschio ITC
22 Maschio ITC
23 Femmina Scientif.
: : :
Distribuzione unitaria multipla
97 42,7
130 57,3
227 100,0
Maschio Femmina Totale
Frequenza %
Genere
10 4,4
64 28,2
141 62,1
12 5,3
227 100,0
Liceo classico Liceo Scientifico ITC
Altro Totale
Frequenza %
Tipo diploma
Distribuzioni di frequenza
Conteggio
6 30 55 6 97
4 34 86 6 130
10 64 141 12 227
Maschio Femmina Genere
Totale
Liceo classico
Liceo
Scientifico ITC Altro Tipo dploma
Totale
Tabella di contingenza
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Esempio Reddito pro capite / Consumi pro capite
CONSUMI p.c. (€)
REDDITO p.c. (€)
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Distribuzioni marginali
Esempio Reddito pro capite / Consumi pro capite
CONSUMI p.c. (€)
REDDITO p.c. (€)
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Distribuzioni marginali Distribuzioni condizionate
Esempio Reddito pro capite / Consumi pro capite
CONSUMI p.c. (€)
REDDITO p.c. (€)
Le distribuzioni doppie
Una distribuzione doppia è:
ü
quantitativa qualitativa mista
se entrambe le componenti sono quantitative;
se entrambe le componenti sono qualitative;
se una componente è quantitativa, l’altra qualitativa.
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Distribuzioni marginali Distribuzioni condizionate
Esempio Reddito pro capite / Consumi pro capite
CONSUMI p.c. (€)
REDDITO p.c. (€)
Le distribuzioni doppie
Consumi p.c. Totale 5-10mila 10000-12500 12500-15000 15-20mila
Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
Distribuzioni marginali Distribuzioni condizionate
Una variabile X, sulle righe, con r modalità;
ü
Una variabile Y, sulle colonne, con c modalità;
ü
Una distribuzione marginale per la X;
ü
Una distribuzione marginale per la Y;
ü
r distribuzioni di Y condizionate alle modalità di X;
ü
c distribuzioni di X condizionate alle modalità di Y;
ü
Esempio Reddito pro capite / Consumi pro capite
Una distribuzione doppia è caratterizzata da…
CONSUMI p.c. (€)
REDDITO p.c. (€)
40-50 50-65 65-75 75-95 Tot
150-160 57 52 4 0 113
160-170 53 147 24 1 225
170-175 5 138 61 6 210
175-180 0 46 116 23 185
180-200 0 0 15 52 67
Tot 115 383 220 82 800
Y
X
155,0 113 165,0 225 172,5 210 177,5 185 190,0 67 800
× + × + × + × + ×
M(X) =
136433
= 800 = 170,54
Esempio: Altezza (in cm, X) e Peso (in kg, Y) di 800 matricole
cm
Le distribuzioni doppie
40-50 50-65 65-75 75-95 Tot
150-160 57 52 4 0 113
160-170 53 147 24 1 225
170-175 5 138 61 6 210
175-180 0 46 116 23 185
180-200 0 0 15 52 67
Tot 115 383 220 82 800
Y
X
45,0 115 57,5 383 70,0 220 85,0 82 800
× + × + × + ×
M(Y) =
49568
= 800 = 61,96
Esempio: Altezza (in cm, X) e Peso (in kg, Y) di 800 matricole
kg
Le distribuzioni doppie
40-50 50-65 65-75 75-95 Tot
150-160 57 52 4 0 113
160-170 53 147 24 1 225
170-175 5 138 61 6 210
175-180 0 46 116 23 185
180-200 0 0 15 52 67
Tot 115 383 220 82 800
Y
X
45,0 57 57,5 52 70,0 4 85,0 0 113
× + × + × + ×
M(Y|X=x
1) =
5835
= 113 = 51,64
Esempio: Altezza (in cm, X) e Peso (in kg, Y) di 800 matricole
kg
Le distribuzioni doppie
40-50 50-65 65-75 75-95 Tot
150-160 57 52 4 0 113
160-170 53 147 24 1 225
170-175 5 138 61 6 210
175-180 0 46 116 23 185
180-200 0 0 15 52 67
Tot 115 383 220 82 800
Y
X
155,0 52 165,0 147 172,5 138 177,5 46 190,0 0 383
× + × + × + × + ×
M(X|Y=y
2) =
64285
= 383 = 167,85
Esempio: Altezza (in cm, X) e Peso (in kg, Y) di 800 matricole
cm
Le distribuzioni doppie
Conteggio
13 33 38 84
38 102 40 180
90 45 20 155
141 180 98 419
Tizio Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
Simbologia
Conteggio
13 33 38 84
38 102 40 180
90 45 20 155
141 180 98 419
Tizio Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
. 1
h
i ij
j
n n
=
= ∑
. 1
k
j ij
i
n n
=
= ∑
.. 1 1k h
i j ij
n n
= =
= ∑∑
n ij
Generico elemento, di riga i e colonna j.
j-esimo elemento del marginale di colonna.
E’ la somma delle frequenze delle modalità di tutte le righe
relativamente alla sola modalità di posto j della variabile in colonna.
i-esimo elemento del marginale di riga.
E’ la somma delle frequenze delle modalità di tutte le colonne
relativamente alla sola modalità di posto i della variabile in riga.
Totale delle frequenze.
E’ la somma delle frequenze di tutte le celle, o anche la somma degli elementi dei marginali di riga o di quelli dei marginali di colonna.
Simbologia
Conteggio
13 33 38 84
38 102 40 180
90 45 20 155
141 180 98 419
Tizio Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
Valori osservati
L ’ associazione tra mutabili
. .
ˆ
ijn
in
jn n
= ×
⇒
13 33 38 84
15,5% 39,3% 45,2% 100,0%
38 102 40 180
21,1% 56,7% 22,2% 100,0%
90 45 20 155
58,1% 29,0% 12,9% 100,0%
141 180 98 419
33,7% 43,0% 23,4% 100,0%
Freq.
% Freq.
% Freq.
% Freq.
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
Valori osservati e % di riga (distribuzioni condizionate)
Indipendenza
'. '.
ij i j
i i
n n
n = n
...
n
j= n
Le frequenze teoriche:
(in caso di indipendenza)
.
. ..
ij j
i
n n n = n
L ’ associazione tra mutabili
2
mutabili 2
variabili 1 variabile 1 mutabile Approccio
simmetrico (interdipendenza)
Approccio asimmetrico (dipendenza)
Valori osservati, % di riga e valori teorici
13 33 38 84
28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
L ’ associazione tra mutabili
2
mutabili 2
variabili 1 variabile 1 mutabile Approccio
simmetrico (interdipendenza)
Approccio asimmetrico (dipendenza)
Valori osservati, % di riga e valori teorici
13 33 38 84
28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
L ’ indice
chi-quadrato:
2( ˆ )
2ˆ
ij ij
i j ij
n n
χ = ∑∑ n −
L ’ associazione tra mutabili
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
2 2 2 2
2 2 2 2 2
13 28,3 33 36,1 38 19,6 38 60,6
28,3 36,1 19,6 60,6
102 77,3 40 42,1 90 52,2 45 66,6 20 36,3
77,3 42,1 52,2 66,6 36,3
− − − −
= + + + +
− − − − −
+ + + + +
83,78
=
13 33 38 84 28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
%
Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
L ’ indice phi-quadrato:
2 2
n
Φ = χ
max( )
Φ2 = min⎡⎣( )
r − 1 ;( )
c − 1 ⎤⎦L ’ indice chi-quadrato:
2( ˆ )
2 max( ) χ
2 = n × min⎡⎣( )
r − 1;( )
c − 1⎤⎦ˆ
ij ij
i j ij
n n
χ = ∑∑ n −
L ’ indice V di Cramer: = Φ
2min ⎡ ⎣ ( ) r − 1 ; ( ) c − 1 ⎤ ⎦
V = χ
2n ⋅ min ⎡ ⎣ ( ) r − 1 ; ( ) c − 1 ⎤ ⎦
L ’ associazione tra mutabili
13 33 38 84 28,3 36,1 19,6 84,0 15,5% 39,3% 45,2% 100,0%
38 102 40 180
60,6 77,3 42,1 180,0 21,1% 56,7% 22,2% 100,0%
90 45 20 155
52,2 66,6 36,3 155,0 58,1% 29,0% 12,9% 100,0%
141 180 98 419
141,0 180,0 98,0 419,0 33,7% 43,0% 23,4% 100,0%
Freq. oss.
Freq. teoriche
% Freq. oss.
Freq. teoriche
% Freq. oss.
Freq. teoriche
% Freq. oss.
Freq. teoriche
% Tizio
Caio
Sempronio Docente
Totale
Basso Medio Alto Voto
Totale
( )
22
ˆ
ˆ
ij ij
i j ij
n n
χ = ∑∑ n −
2 2
n Φ = χ
= 83,78
83,78
= 419 = 0,200
L ’ associazione tra mutabili
( ) ( )
2
min 1 ; 1
V k h
= Φ
⎡ − − ⎤
⎣ ⎦
0,200
= 2 = 0,316
( χ ) ( )
= × ⎡ ⎣ − − ⎤ ⎦
2
min 1 ; 1
V n k h =
× 83,78
419 2 = 0,316
L ’ associazione tra mutabili
Esempio: Pratica religiosa / età
18-34 35-54 Oltre 54 totale
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
totale 914 1134 438 2486
18-34 35-54 Oltre 54 totale
Praticanti 9,0 12,6 7,3 28,9
Saltuari 10,7 12,7 3,5 26,9
Non praticanti 17,1 20,3 6,8 44,2
totale 36,8 45,6 17,6 100
Tabella delle
% sul totale
L ’ associazione tra mutabili
Esempio: Pratica religiosa / età
18-34 35-54 Oltre 54 totale
Praticanti 31,1 43,6 25,3 100
Saltuari 39,6 47,3 13,1 100
Non praticanti 38,7 46,0 15,3 100
Totale 36,8 45,6 17,6 100
18-34 35-54 Oltre 54 totale
Praticanti 24,4 27,6 41,5 28,9
Saltuari 29,1 28,0 20,1 26,9
Non praticanti 46,5 44,4 38,4 44,2 totale 100,0 100,0 100,0 100,0 Tabella delle
% di colonna
Tabella delle
% di riga
L ’ associazione tra mutabili
Esempio: Pratica religiosa / età
18-34 35-54 Oltre 54 totale
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
totale 914 1134 438 2486
Tabella delle frequenze
teoriche
18-34 35-54 Oltre 54 totale Praticanti 264,0 327,5 126,5 718 Saltuari 246,7 306,1 118,2 671 Non praticanti 403,3 500,4 193,3 1097
Totale 914 1134 438 2486
L ’ associazione tra mutabili
Esempio: Pratica religiosa / età
Tabella delle frequenze teoriche
18-34 35-54 Oltre 54 totale
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
totale 914 1134 438 2486
18-34 35-54 Oltre 54 totale Praticanti 264,0 327,5 126,5 718 Saltuari 246,7 306,1 118,2 671 Non praticanti 403,3 500,4 193,3 1097
Totale 914 1134 438 2486
χ
2 =(
nij − ˆnij)
2nˆij
∑
j∑
i =(
223− 264,0)
2264,0 +
(
313− 327,5)
2327,5 +
(
182− 126,5)
2126,5 +
+
(
266− 246,7)
2246,7 +
(
317− 306,1)
2306,1 +
(
88− 118,2)
2118,2 + +
(
425− 403,3)
2403,3 +
(
504− 500,4)
2500,4 +
(
168− 193,3)
2193,3
= 45,47
L ’ associazione tra mutabili
Esempio: Pratica religiosa / età
Tabella delle frequenze teoriche
18-34 35-54 Oltre 54 totale
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
totale 914 1134 438 2486
18-34 35-54 Oltre 54 totale Praticanti 264,0 327,5 126,5 718 Saltuari 246,7 306,1 118,2 671 Non praticanti 403,3 500,4 193,3 1097
Totale 914 1134 438 2486
χ
2 = 45,5 ; V= 45,52486× 2 = 0,1
Da un punto di vista descrittivo, l’indice χ
2indica una associazione certa, anche se debole.
Se però consideriamo i soggetti intervistati come un campione casualmente estratto da una
popolazione più vasta, è possibile dire che il risultato campionario è sufficiente ad indicare
una relazione tra i caratteri nella popolazione, oppure il valore osservato è diverso da quanto
ci attenderemmo in caso di indipendenza per la sola aleatorietà legata all’estrazione
campionaria?
L ’ associazione tra mutabili: il test chi-quadrato
• Il test chi-quadrato sull’indipendenza fra mutabili
H
0: Indipendenza tra i caratteri
H
1: Associazione tra i caratteri Statistica test:
Regola di decisione:
Si rifiuta H
0se il valore chi-quadrato calcolato risulta superiore al valore tabulato in corrispondenza del livello di significatività scelto e dei gradi di libertà della tabella.
n
ij− ˆn
ij( )
2n ˆ
ij χ
2∑
j∑
i22 19 29 70
31,4% 27,1% 41,4% 100,0%
61 57 51 169
36,1% 33,7% 30,2% 100,0%
25 23 25 73
34,2% 31,5% 34,2% 100,0%
22 20 28 70
31,4% 28,6% 40,0% 100,0%
130 119 133 382
34,0% 31,2% 34,8% 100,0%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
% Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale OCCUPAZIONE ATTUALE
VOTO
χ
2= ( n
ij− n
ij)
2n
ij∑
j∑
i=3,84
nij − nij
( )
2nij
∑
j∑
iα = 0,05
• Il test chi-quadrato sull’indipendenza fra mutabili
L ’ associazione tra mutabili: il test chi-quadrato
Tavola della distribuzione χ2
0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010
1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635
2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
Area nella coda destra Gradi
di libertà
L ’ associazione tra mutabili: il test chi-quadrato
22 19 29 70
31,4% 27,1% 41,4% 100,0%
61 57 51 169
36,1% 33,7% 30,2% 100,0%
25 23 25 73
34,2% 31,5% 34,2% 100,0%
22 20 28 70
31,4% 28,6% 40,0% 100,0%
130 119 133 382
34,0% 31,2% 34,8% 100,0%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
% Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale OCCUPAZIONE ATTUALE
VOTO
χ
2= ( n
ij− n
ij)
2n
ij∑
j∑
i=3,84
nij − nij
( )
2nij
∑
j∑
iα = 0,05
12,59
Zona di rifiuto
α
2
0,05;6
12,59
χ =
Zona di
accettazione 1-
α
• Il test chi-quadrato sull’indipendenza fra mutabili
L ’ associazione tra mutabili: il test chi-quadrato
22 19 29 70
31,4% 27,1% 41,4% 100,0%
61 57 51 169
36,1% 33,7% 30,2% 100,0%
25 23 25 73
34,2% 31,5% 34,2% 100,0%
22 20 28 70
31,4% 28,6% 40,0% 100,0%
130 119 133 382
34,0% 31,2% 34,8% 100,0%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
% Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale OCCUPAZIONE ATTUALE
VOTO
χ
2= ( n
ij− n
ij)
2n
ij∑
j∑
i=3,84
nij − nij
( )
2nij
∑
j∑
iα = 0,05
12,59
Zona di rifiuto
α
2
0,05;6
12,59
χ =
Zona di
accettazione 1-
α
3,84
• Il test chi-quadrato sull’indipendenza fra mutabili
L ’ associazione tra mutabili: il test chi-quadrato
Non rifiuto l ’ ipotesi H
0di
indipendenza fra le mutabili
22 19 29 70
31,4% 27,1% 41,4% 100,0%
61 57 51 169
36,1% 33,7% 30,2% 100,0%
25 23 25 73
34,2% 31,5% 34,2% 100,0%
22 20 28 70
31,4% 28,6% 40,0% 100,0%
130 119 133 382
34,0% 31,2% 34,8% 100,0%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
% Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale
χ
2= ( n
ij− n
ij)
2n
ij∑
j∑
inij − nij
( )
2nij
∑
j∑
i2
0,05;6
12,59
χ =
α = 0,05
12,59 3,84
=3,84
1-
α
Zona di
accettazione Zona di rifiuto
α
Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale OCCUPAZIONE ATTUALE
VOTO
Supponiamo che, sulla base di questo risultato campionario, io decida comunque di rifiutare l’ipotesi di indipendenza e concluda per l’associazione tra le mutabili considerate. Qual è la probabilità che stia commettendo un errore?
• Il test chi-quadrato sull’indipendenza fra mutabili
L ’ associazione tra mutabili: il test chi-quadrato
22 19 29 70
31,4% 27,1% 41,4% 100,0%
61 57 51 169
36,1% 33,7% 30,2% 100,0%
25 23 25 73
34,2% 31,5% 34,2% 100,0%
22 20 28 70
31,4% 28,6% 40,0% 100,0%
130 119 133 382
34,0% 31,2% 34,8% 100,0%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
% Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale
χ
2= ( n
ij− n
ij)
2n
ij∑
j∑
inij − nij
( )
2nij
∑
j∑
i3,84
=3,84
Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale OCCUPAZIONE ATTUALE
VOTO
p-value
Il p-value è la probabilità di commettere un errore nel rifiutare l’ipotesi H0 sulla base del valore campionario osservato. Quanto più è piccolo, tanto più tenderemo a rifiutare H0.
• Il test chi-quadrato sull’indipendenza fra mutabili
L ’ associazione tra mutabili: il test chi-quadrato
Tavola della distribuzione χ2
0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010
1 0,001 0,004 0,016 0,102 1,323 2,706 3,841 5,024 6,635
2 0,051 0,103 0,211 0,575 2,773 4,605 5,991 7,378 9,210
3 0,072 0,115 0,216 0,352 0,584 1,213 4,108 6,251 7,815 9,348 11,345
4 0,207 0,297 0,484 0,711 1,064 1,923 5,385 7,779 9,488 11,143 13,277
5 0,412 0,554 0,831 1,145 1,610 2,675 6,626 9,236 11,070 12,833 15,086
6 0,676 0,872 1,237 1,635 2,204 3,455 7,841 10,645 12,592 14,449 16,812
7 0,989 1,239 1,690 2,167 2,833 4,255 9,037 12,017 14,067 16,013 18,475
8 1,344 1,646 2,180 2,733 3,490 5,071 10,219 13,362 15,507 17,535 20,090
9 1,735 2,088 2,700 3,325 4,168 5,899 11,389 14,684 16,919 19,023 21,666
10 2,156 2,558 3,247 3,940 4,865 6,737 12,549 15,987 18,307 20,483 23,209
11 2,603 3,053 3,816 4,575 5,578 7,584 13,701 17,275 19,675 21,920 24,725
12 3,074 3,571 4,404 5,226 6,304 8,438 14,845 18,549 21,026 23,337 26,217
13 3,565 4,107 5,009 5,892 7,042 9,299 15,984 19,812 22,362 24,736 27,688
14 4,075 4,660 5,629 6,571 7,790 10,165 17,117 21,064 23,685 26,119 29,141
15 4,601 5,229 6,262 7,261 8,547 11,037 18,245 22,307 24,996 27,488 30,578
16 5,142 5,812 6,908 7,962 9,312 11,912 19,369 23,542 26,296 28,845 32,000
17 5,697 6,408 7,564 8,672 10,085 12,792 20,489 24,769 27,587 30,191 33,409
18 6,265 7,015 8,231 9,390 10,865 13,675 21,605 25,989 28,869 31,526 34,805
19 6,844 7,633 8,907 10,117 11,651 14,562 22,718 27,204 30,144 32,852 36,191
20 7,434 8,260 9,591 10,851 12,443 15,452 23,828 28,412 31,410 34,170 37,566
21 8,034 8,897 10,283 11,591 13,240 16,344 24,935 29,615 32,671 35,479 38,932
22 8,643 9,542 10,982 12,338 14,041 17,240 26,039 30,813 33,924 36,781 40,289
Area nella coda destra Gradi
di libertà
L ’ associazione tra mutabili: il test chi-quadrato
Chi-quadrato
3,835 6 ,699
Chi-quadrato di Pearson
Valore df Sig.
• Il test chi-quadrato sull’indipendenza fra mutabili
22 19 29 70
31,4% 27,1% 41,4% 100,0%
61 57 51 169
36,1% 33,7% 30,2% 100,0%
25 23 25 73
34,2% 31,5% 34,2% 100,0%
22 20 28 70
31,4% 28,6% 40,0% 100,0%
130 119 133 382
34,0% 31,2% 34,8% 100,0%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
% Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale
χ
2= ( n
ij− n
ij)
2n
ij∑
j∑
i(
ij ij)
2i j ij
n n n
∑∑
−%%3,84
=3,84
Conteggio
22 19 29 70
61 57 51 169
25 23 25 73
22 20 28 70
130 119 133 382
Meno di 96 96-105 106-110 110 e lode VOTO
Totale
Non occupato Precario Occ. stabile OCCUPAZIONE ATTUALE
Totale OCCUPAZIONE ATTUALE
VOTO
p-value
Il p-value è la probabilità di commettere un errore nel rifiutare l’ipotesi H0 sulla base del valore campionario osservato. Quanto più è piccolo, tanto più tenderemo a rifiutare H0.