Facoltà di Scienze Politiche Facoltà di Scienze Politiche
Università di Macerata Università di Macerata
Corso di
Statistica Sociale Statistica Sociale Statistica Sociale Statistica Sociale
L’analisi bivariata L’analisi bivariata
d t C i ti D i docente: Cristina Davino
a.a.: 2013-2014
ociale
L’analisi bivariata
Statistica So
Frequenza %
Genere
Distribuzioni di frequenza
L analisi bivariata
Corso di S
Genere Tipo diploma
1 Femmina ITC
Distribuzione unitaria multipla 97 42,7
130 57,3 227 100,0 Maschio
Femmina Totale
Frequenza %
2 Femmina ITC
3 Femmina Classic o
4 Femmina ITC
5 Masc hio ITC
6 Femmina Sc ientif.
7 Femmina ITC
10 4,4
64 28,2
141 62,1
12 5,3
Liceo classico Liceo Scientifico ITC Altro
Frequenza %
Tipo diploma
8 Femmina Classic o
9 Femmina ITC
10 Femmina ITC
11 Masc hio Sc ientif.
12 Femmina ITC
13 Femmina Sc ientif.
227 100,0
Totale
Tabella di contingenzagg 13 Femmina Sc ientif.
14 Femmina ITC
15 Femmina ITC
16 Masc hio Sc ientif.
17 Masc hio Sc ientif.
18 Femmina ITC
19 Femmina Sc ientif
6 30 55 6 97
4 34 86 6 130
Maschio Femmina Genere
Liceo classico
Liceo
Scientifico ITC Altro Tipo dploma
Totale
19 Femmina Sc ientif.
20 Masc hio ITC
21 Masc hio ITC
22 Masc hio ITC
23 Femmina Sc ientif.
: : :
10 64 141 12 227
Totale
Prof.ssa C. Davino
ociale
L’analisi bivariata
Statistica So
L analisi bivariata
Relazioni statistiche o probabilistiche
Corso di S
Relazioni statistiche o probabilistiche
Non si individuano nessi di causa-effetto Non si individuano nessi di causa effetto
Di ti i t i bili i di d ti di d ti Distinzione tra variabili indipendenti e dipendenti
Variabile indipendente Variabile indipendente Nominale Cardinale Nominale Tabelle di
Variabile dipendente
Nominale Tabelle di contingenza Cardinale Analisi della
i Regressione e l i varianza correlazione
Prof.ssa C. Davino
ociale
Tabelle di contingenza
Statistica So
Esempio Reddito / Consumi
Tabelle di contingenza
Corso di S
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
Esempio Reddito / Consumi
Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
20 25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
ociale
Tabelle di contingenza
Statistica So
Esempio Reddito / Consumi
Tabelle di contingenza
Corso di S
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
Esempio Reddito / Consumi
Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
Distribuzioni marginali
20 25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
ociale
Tabelle di contingenza
Statistica So
Esempio Reddito / Consumi
Tabelle di contingenza
Corso di S
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
Esempio Reddito / Consumi
Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
Distribuzioni marginali Distribuzioni
20 25mila 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
condizionate
Prof.ssa C. Davino
ociale
Tabelle di contingenza
Statistica So
Esempio Reddito / Consumi
Tabelle di contingenza
Corso di S
Consumi p.c. Totale
5-10mila 10000-12500 12500-15000 15-20mila
Esempio Reddito / Consumi
Reddito
p.c. 10-15mila 275 151 14 440
15-20mila 28 151 165 14 358
20-25mila 14 14 413 96 537
Distribuzioni marginali Distribuzioni
0 5 a 14 14 413 96 537
25-30mila 83 83
Totale 317 316 592 193 1418
condizionate
Prof.ssa C. Davino
ociale
Analisi delle tabelle di contingenza
Statistica So
Esempio: Pratica religiosa / età
Analisi delle tabelle di contingenza
Corso di S
18-34 35-54 Oltre 54
totale
Praticanti
223 313 182 718
Saltuari
266 317 88 671
Non praticanti
425 504 168 1097
totale 914 1134 438 2486
18-34 35-54 Oltre 54
totale
Praticanti
9,0 12,6 7,3 28,9
Tabella delle
t li l
Saltuari10,7 12,7 3,5 26,9
Non praticanti
17,1 20,3 6,8 44,2
totale 36 8 45 6 17 6 100
percentuali sul totale
totale 36,8 45,6 17,6 100
ociale
Analisi delle tabelle di contingenza
Statistica So
Esempio: Pratica religiosa / età
Analisi delle tabelle di contingenza
Corso di S
18-34 35-54 Oltre 54
totale
Praticanti
31,1 43,6 25,3 100 Tabella delle percentuali di
, , ,
Saltuari
39,6 47,3 13,1 100
Non praticanti
38,7 46,0 15,3 100
percentuali di riga
Totale
36,8 45,6 17,6 100
18-34 35-54 Oltre 54
totale
Praticanti
24,4 27,6 41,5 28,9
Tabella delle
t li di
Saltuari29,1 28,0 20,1 26,9
Non praticanti
46,5 44,4 38,4 44,2
totale 100 0 100 0 100 0 100 0
percentuali di colonna
totale 100,0 100,0 100,0 100,0
ociale
Analisi delle tabelle di contingenza
Statistica So
Analisi delle tabelle di contingenza
Un criterio
Corso di S
Si scelgono i profili colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile l’influenza che la variabile posta in colonna ha sulla variabile posta in riga
Si scelgono i profili riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile posta in che la variabile posta in riga ha sulla variabile posta in colonna
Prof.ssa C. Davino
ociale
Analisi delle tabelle di contingenza
Statistica So
Risposte alla domanda “Lei è soddisfatto dell’operato del governo?” per ampiezza del comune di residenza (in migliaia)
Analisi delle tabelle di contingenza
Corso di S
governo? per ampiezza del comune di residenza (in migliaia)
>250 100-250 50-100 10-50 1-10 <1 totale
Per nulla 97 26 29 22 62 10 246
Poco 168 71 99 249 253 8 848
Poco 168 71 99 249 253 8 848
Non so 89 36 49 118 153 1 446
Abbastanza 159 66 92 246 326 5 894
Molto 3 2 2 8 14 1 30
Totale 516 201 271 643 808 25 2464
>250 100-250 50-100 10-50 <10
Tabella delle percentuali
>250 100 250 50 100 10 50 <10
Per nulla 18,8 12,8 10,8 3,4 8,6
Poco 32,5 35,3 36,5 38,7 31,3
Non so 17 3 18 0 18 0 18 4 18 5
percentuali
di colonna
Non soAbbastanza 30,817,3 18,032,9 18,034,0 18,438,3 18,539,8Molto 0,6 1,0 0,7 1,2 1,8
l 00 00 00 00 00
Totale 100 100 100 100 100
N 516 201 271 643 833
Prof.ssa C. Davino
ociale
Analisi delle tabelle di contingenza
Statistica So
Analisi delle tabelle di contingenza
>250 100-250 50-100 10-50 <10
Per nulla 18 8 12 8 10 8 3 4 8 6
Corso di S
Tabella delle percentuali
di colonna
Per nulla 18,8 12,8 10,8 3,4 8,6
Poco 32,5 35,3 36,5 38,7 31,3
Non so 17,3 18,0 18,0 18,4 18,5
Abb t 30 8 32 9 34 0 38 3 39 8
di colonna
Abbastanza 30,8 32,9 34,0 38,3 39,8Molto 0,6 1,0 0,7 1,2 1,8
Totale 100 100 100 100 100
>250 100-250 50-100 10-50 <10
N 516 201 271 643 833
Tabella delle percentuali
Per nulla + poco 51,3 48,1 47,3 42,1 39,9
Non so 17,3 18,0 18,0 18,4 18,5
Abbastanza + Molto 31 4 33 9 34 7 39 5 41 6
percentuali
di colonna
Abbastanza + Molto 31,4 33,9 34,7 39,5 41,6Totale 100 100 100 100 100
IDP -19,9 -14,2 -12,6 -2,6 +1,7
Indice di differenza percentuale
ociale
Analisi delle tabelle di contingenza
Statistica So
Analisi delle tabelle di contingenza
18-34 35-54 Oltre 54 totale
Praticanti 223 313 182 718
Corso di S
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
Indipendenza
18-34 35-54 Oltre 54 totaleP ti ti 31 1 43 6 25 3 100
totale 914 1134 438 2486
p
'
ij i j
n n n
. jPraticanti 31,1 43,6 25,3 100
Saltuari 39,6 47,3 13,1 100
Non praticanti 38,7 46,0 15,3 100
Le frequenze teoriche: n
ijn
.jn ˆ n
i. n
.j. '.
ij i j
i i
n n
...
j
n
Totale 36,8 45,6 17,6 100Le frequenze teoriche:
(in caso di indipendenza)
. .
i j
n
ij n
. ..
j j
n
i n L’indice
nijnˆij
2L indice chi-quadrato
2
ˆ
ij ij
i j ij
n n
nociale
Analisi delle tabelle di contingenza
Statistica So
Analisi delle tabelle di contingenza
18-34 35-54 Oltre 54 totale
Praticanti 223 313 182 718
Corso di S
Praticanti 223 313 182 718
Saltuari 266 317 88 671
Non praticanti 425 504 168 1097
totale 914 1134 438 2486
totale 914 1134 438 2486
18-34 35-54 Oltre 54 totale
P ti ti 264 0 327 5 126 5 718
Le frequenze teoriche:
(in caso di indipendenza)
Praticanti 264,0 327,5 126,5 718
Saltuari 246,7 306,1 118,2 671
Non praticanti 403,3 500,4 193,3 1097
Totale 914 1134 438 2486
L’indice
chi-quadrato
2 2
2 ˆ 223 264,0
... 45, 47
ˆ 264,0
ij ij
i j ij
n n n
Prof.ssa C. Davino
ociale
Il test del chi-quadrato
Statistica So
Il test del chi quadrato
L’indice
2 2
2 ˆ 223 264,0
45 47
ij ij
n n
Corso di S
chi-quadrato
ˆ 264,0 ... 45, 47i j nij
IL valore dell’indice è significativamente diverso da zero?
IL valore dell indice è significativamente diverso da zero?
Ipotesi Livello di
significati ità Statistica t t significatività test
H
0: indipendenza
H
1: no indipendenza =0.05
2
ˆ
2ˆ
ij ij
i j ij
n n n
Regola di decisione:
i j ij
Regola di decisione:
Rifiutiamo H0, con una probabilità di errore pari a , se 2oss> 2c
2 è il l iti h i t ll d di
2cè il valore critico che si trova nella coda di destra della distribuzione con (r-1)(c-1) gdl
Prof.ssa C. Davino
ociale
Il test del chi-quadrato
Statistica So
Il test del chi quadrato
Ipotesi Livello di Statistica
Corso di S
Livello di
significatività Statistica
H
0: indipendenza test
H : no indipendenza =0 05
2 45, 47
2 9, 488H
1: no indipendenza 0.05
,Rifiutiamo H
0P-value
c 9, 488Rifiutiamo H
0P value
(
2 45, 47) 0,001p value P
Più piccolo è il p-value, più
improbabile appare l’ipotesi nulla! p pp p
ociale
Il test del chi-quadrato
Statistica So
Il test del chi quadrato
L’effetto della numerosità del campione
Corso di S
18-34 35-54 Oltre 54 totale
Praticanti 22 31 18 71
Praticanti 22 31 18 71
Saltuari 27 32 9 68
Non praticanti 43 50 17 110
totale 92 113 44 249
Ipotesi Livello di Statistica
Ipotesi Livello di
significatività Statistica
H
0: indipendenza test
H 0 05
2 4 5472 9 488
H
1: no indipendenza =0.05
4,547Accettiamo H
c2 9, 488Accettiamo H
0ociale
Misure di associazione
Statistica So
Misure di associazione
n ˆn
2Corso di S
L’indice chi- quadrato:
2 max n mink1 ;h1
2
ˆ
ij ij
i j ij
n n
nL’indice phi- quadrato:
2 2
n
max
2 mink1 ; h1quad ato
L’indice V di
Cramer:
2
min 1 ; 1
V k h
2
min 1 ; 1
n k h
Cramer:
Prof.ssa C. Davino
ociale
Misure di cograduazione fra variabili ordinali
Statistica So
Misure di cograduazione fra variabili ordinali
a) Forza o intensità della relazione
Corso di S
b) Segno (positivo o negativo) della relazione
Basso Medio Alto
Alto 20 40 150
Basso Medio Alto
Alto 250 75 45
Medio 45 250 30
Basso 400 50 15
Medio 45 150 60
Basso 30 45 300
Le misure di cograduazione si basano sul confronto fra i valori assunti dalle variabili X e Y su tutte le possibili coppie di casi:
- coppia di casi concordante pp - coppia di casi discordante - coppia di casi appaiata
Prof.ssa C. Davino
ociale
Misure di cograduazione fra variabili ordinali
Statistica So
Misure di cograduazione fra variabili ordinali
Le misure di cograduazione si basano sul confronto fra i valori assunti dalle
Corso di S
variabili X e Y su tutte le possibili coppie di casi:
- coppia di casi concordante (P) - coppia di casi discordante (Q) coppia di casi discordante (Q) - coppia di casi appaiata
+1: perfetta relazione positiva
P Q
P Q
di
Goodman e
+1: perfetta relazione positiva 0: assenza di relazione
1 f tt l i ti
Kruskal
-1: perfetta relazione negativaociale
Relazioni tra variabili categoriali
Statistica So
Relazioni tra variabili categoriali
(rapporti di probabilità - odds )
Totale
Corso di S
Totale Atteggiamento
verso la pena Favorevoli 1188
Proporzione di soggetti favorevoli:
1188 0, 663 p 1792
di morte Contrari 604
Totale 1792
gg
Rapporto di
probabilità: 1188 1, 97
604 “ci sono quasi due favorevoli per ogni persona contraria”
Rapporto fra la probabilità che un individuo, estratto a caso dalla popolazione, appartenga ad una categoria e la probabilità che non vi appartenga
vi appartenga
1 2
[0, [ 1
i i
p f
f p
• =1: le due categorie della variabile hanno lo stesso peso
ociale
Rapporti di probabilità e di associazione
Statistica So
Rapporti di probabilità e di associazione
Istruzione
Inferiore Superiore Totale
Corso di S
Inferiore Superiore Totale Atteggiamento
verso la pena Favorevoli a 1027
b 161
1188 di morte
Contrari c
397
d 207
604
Totale 1424 368 1792
Proporzioni condizionate:
11027 0, 721
p 1424
2161 0, 438 p 368 Rapporti di
probabilità
11027 2, 59
397
2161
0, 77
207
condizionati: 397 207
Rapporti di
11027 207
a c ad 3 33
Rapporti di associazione (odds ratio):
1 2
3, 33 397 161 b d bc
Prof.ssa C. Davino
ociale
Rapporti di probabilità e di associazione
Statistica So
Rapporti di probabilità e di associazione
Rapporti di
1
a c ad [0 [
Corso di S
pp
associazione (odds ratio):
1 2
[0,+ [ a c ad
b d bc
1A i i i i l i bili
2
1
Associazione positiva tra le variabili
(i soggetti della categoria X
1hanno probabilità di collocarsi nella categoria Y
1maggiore di quanto sia la probabilità dei
tti ll t i X ) soggetti nella categoria X
2)
1 2
1
Associazione negativa tra le variabili
2
• L’odds ratio cambia se si inverte l’ordine delle righe o delle colonne
• L’odds ratio resta immutato se si cambia l’orientamento della tavola
• L odds ratio resta immutato se si cambia l orientamento della tavola
• L’odds ratio non risente della dimensione del campione
• L’odds ratio non cambia se le frequenze di una riga o di una colonna sono moltiplicate per una costante
• Gli odds ratio possono essere calcolati solo su tabelle 22
Prof.ssa C. Davino
ociale
L’analisi bivariata
Statistica So
L analisi bivariata
Relazioni statistiche o probabilistiche
Corso di S
Relazioni statistiche o probabilistiche
Non si individuano nessi di causa-effetto Non si individuano nessi di causa effetto
Di ti i t i bili i di d ti di d ti Distinzione tra variabili indipendenti e dipendenti
Variabile indipendente Variabile indipendente Nominale Cardinale Nominale Tabelle di
Variabile dipendente
Nominale Tabelle di contingenza Cardinale Analisi della
i Regressione
varianza eg ess o e
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
Conteggio
Reddito p.c. (in euro)
Y Reddito p.c. Variabile dipendente
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zonageografica
Totale
10-15mila 15-20mila 20-25mila 25-30mila Totale
Medie
condizionate: M(Y|X=Nord)
1
1, 1
1 k
j j
X i
y n n
condizionate:
12,5 0 17,5 7 22,5 34 27,5 5 46
1025
46 22,28
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
Conteggio
Y Reddito p.c. Variabile dipendente
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zonageografica
Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale Y è indipendente in media da X
se al variare delle modalità di X le medie condizionate di Y rimangono costanti.
32 26 39 6 103
Totale
Medie
condizionate:
M(Y) 1 .1 h
j j
i
y n n
Media generale:
condizionate:
M(Y|X=Nord) = 22,3
12,5 32 17,5 26 22,5 39 27,5 6
103
18, 4
M(Y|X=Centro) = 18,7
M(Y|X=Sud) = 12,7
,
M(Y) 22,3 46 18,7 25 12,7 32
103 103 103
Prof.ssa C. Davino
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
Reddito p.c. (in euro)
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zona
geografica Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
M(Y) = 18,4
i
2 ii
Dev Y
y y nn
i
Reddito M(Y) = 18,4
Prof.ssa C. Davino
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
Reddito p.c. (in euro)
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zona
geografica Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
M(Y) = 18,4
i
2 ii
Dev Y
y y nn
Reddito
( )
(…)
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
Reddito p.c. (in euro)
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zona
geografica Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
M(Y) = 18,4
i
2 ii
Dev Y
y y nn
Nord Centro Sud
Reddito
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
X Zona geografica Mutabile indipendente Y Reddito p.c. Variabile dipendente
Conteggio
Reddito p.c. (in euro)
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zona
geografica Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
M(Y) = 18,4
i
2 ii
Dev Y
y y nn M(Y|X=Nord) = 22,3
M(Y|X=Centro) = 18,7
M(Y|X=Sud) = 12,7 Nord
Centro Sud
Reddito M(Y|X=Sud) = 12,7 M(Y|X=Centro) = 18,7 M(Y|X=Nord) = 22,3
Prof.ssa C. Davino
ociale
L’analisi della varianza (ANOVA)
Statistica So
La decomposizione della devianza
L’analisi della varianza (ANOVA)
Corso di S
p
Conteggio
Reddito p.c. (in euro)
i
2 i iDev Y
y y n7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zona
geografica Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
Dev Y Dev W Dev B Dev(Y) = Dev(Within) + Dev(Between)
n
Dev(Y) Dev(Within) + Dev(Between)
Nord Centro Sud
Reddito M(Y|X=Sud) = 12,7 M(Y|X=Centro) = 12,7 M(Y|X=Nord) = 12,7
Prof.ssa C. Davino
ociale
L’analisi della varianza (ANOVA)
Statistica So
X Zona geografica Mutabile indipendente
L’analisi della varianza (ANOVA)
Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zona
geografica Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
32 26 39 6 103
Totale
Dev Y Dev W Dev B
E’ la devianza totale. Esprime la dispersione della nube di punti attorno alla media generale.
i
2 ii
Dev Y
y y n
2 E’ la devianza Within, o entro i gruppi. Esprime la dispersione dei k gruppi attorno alle rispettive medie. Si ottiene sommando le k devianze interne ai k gruppi.E’ la devianza Between o fra i gruppi Esprime la dispersione delle
ij i
2 iji j
Dev W
y y n
2Dev B
y y n E la devianza Between o fra i gruppi. Esprime la dispersione delle medie dei k gruppi attorno alla media generale.
j
jj
Dev B
y y nociale
Una misura della forza della relazione
Statistica So
X Zona geografica Mutabile indipendente
Una misura della forza della relazione
Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zonageografica
Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
Il rapporto di
correlazione:
2 Dev B
Dev Y
k 2
32 26 39 6 103
Totale
M(Y|X=N) 22,283 M(Y|X=C) 18,700
(di Pearson) Dev Y
2 Dev B Dev Y
2 . 1
2 k
i i
i h
i j
y y n y y n
M(Y|X=S) 12,656
M(Y) 18,422
Dev(Y|X=N) 297,83
D (Y|X C) 214 00
.1 i j
j
y y n
Dev(Y|X=C) 214,00Dev(Y|X=S) 24,22
Dev(B) 1751,33
Dev(TOT) 2287 38
Rapporto di correlazione (di Pearson): proporzione della devianza generale “spiegata” dalla variabile indipendente
Dev(TOT) 2287,38 Eta quadro 0,77
devianza generale spiegata dalla variabile indipendente
ociale
Una misura della forza della relazione
Statistica So
X Zona geografica Mutabile indipendente
Una misura della forza della relazione
Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zonageografica
Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
Il rapporto di
correlazione:
2 Dev B
Dev Y
k 2
32 26 39 6 103
Totale
M(Y|X=N) 22,283 M(Y|X=C) 18,700
(di Pearson) Dev Y
2 Dev B Dev Y
2 . 1
2 k
i i
i h
i j
y y n y y n
M(Y|X=S) 12,656
M(Y) 18,422
Dev(Y|X=N) 297,83 D (Y|X C) 214 00
0
2 1
.1 i j
j
y y n
Dev(Y|X=C) 214,00Dev(Y|X=S) 24,22
Dev(B) 1751,33
Dev(TOT) 2287 38
2= 0: nessuna relazione t l d i bili
Dev(TOT) 2287,38
Eta quadro 0,77
tra le due variabili
2= 1: relazione perfetta
Prof.ssa C. Davino
ociale
La significatività della relazione
Statistica So
La significatività della relazione
• ANOVA
Corso di S
Verifica l’uguaglianza tra più valori medi attraverso stime diverse della variabilità il cui rapporto, sotto l’ipotesi H
0di
• ANOVA
pp , p
0nessuna differenza tra i valori medi, si distribuisce come una v.c. di Fisher, con opportuni gradi di libertà.
H
0:
1=
2= =
k=
• ANOVA
a 1, 2, …, k fattori
H
0:
1=
2=…=
k=
s
2BF
Statistica test:
2W
F s
Statistica test:
Prof.ssa C. Davino
ociale
La significatività della relazione
Statistica So
La significatività della relazione
D Y D W D B
Corso di S
Dev Y Dev W Dev B
Fonte di
variabilità Devianza Gradi di libertà
Varianza
stimata F- calcolata
Esterna DB k -1 2
1
B B
s D
k
F s2B2
Interna DW n-k s
Totale DT n -1
2 W
W
s D
n k
W2
s
T
ociale
La significatività della relazione
Statistica So
La significatività della relazione
H
0:
1=
2=…=
k= F s
2B2s
Corso di S
Se H0è falsafalsa :
Il numeratore F sarà maggiore del denominatore il rapporto sarà >1
0
1
2
k
2s
Wdenominatore il rapporto sarà >1 Livello di
Livello di
Significatività: =0.05
Regola di decisione:
Rifiutiamo H
0, con una probabilità di Rifiutiamo H
0, con una probabilità di
errore pari a , se F>F
cociale
Una misura della forza della relazione
Statistica So
X Zona geografica Mutabile indipendente
Una misura della forza della relazione s
2Corso di S
Y Reddito p.c. Variabile dipendente
Conteggio
2BW
F s s
7 34 5 46
1 18 5 1 25
31 1 32
32 26 39 6 103
Nord Centro Sud e Isole Zonageografica
Totale
10-15mila 15-20mila 20-25mila 25-30mila Reddito p.c. (in euro)
Totale
gdl F
Dev(B) 1751 334 3-1 163 35
32 26 39 6 103
Totale Dev(B) 1751.334 3 1 163.35
Dev(W) 536.050 103-3 Dev(TOT) 2287.379
Livello di
Significatività: 0 05 Significatività: =0.05
Fc=3.10
Regola di decisione:
Rifiutiamo H0, con una probabilità di errore hé
pari a , perché F>Fc
Prof.ssa C. Davino
ociale
Introduzione di una terza variabile
Statistica So
Introduzione di una terza variabile
l l i i bi i i li
Corso di S
Molte relazioni bivariate sono ingannevoli: statisticamente sono inattaccabili ma la covariazione può essere dovuta all’azione di una terza variabile
terza variabile
• Relazione spuria
Z
• Relazione spuria
• Relazione indiretta
• Relazione condizionata X Y
Prof.ssa C. Davino
ociale
Relazione spuria
Statistica So
Relazione spuria
1. La successione oraria dei prezzi dei cavoletti di
Corso di S
Bruxelles venduti nel mercato di Londra e la corrispondente altezza del Tamigi
2. Il numero di turisti canadesi che giungono a g g Roma e il numero di gelati venduti nella capitale 3. Il numero di case con nidi di cicogna sul tetto ed
il numero di case in cui nascono più bambini il numero di case in cui nascono più bambini
Z La relazione tra X e Y è provocata da una terza variabile Z che agisce causalmente
X Y terza variabile Z che agisce causalmente
sia su X che su Y
ociale
Relazione spuria
Statistica So
Relazione spuria
1. La successione oraria dei prezzi dei cavoletti di Bruxelles venduti nel mercato di Londra e la corrispondente altezza del
Corso di S
venduti nel mercato di Londra e la corrispondente altezza del Tamigi
(Z=ora del giorno)
2. Il numero di turisti canadesi che giungono a Roma e il numero di gelati venduti nella capitale
(Z=temperatura)
di gelati venduti nella capitale
(Z temperatura)
3. Il numero di case con nidi di cicogna sul tetto ed il numero di case in cui nascono più bambini