1
D ip e n d e n z a in m e d ia
•La misurazione della connessione tra due caratteri si basa solo sulle frequenze congiunte senza tenere conto delle modalitàdei due caratteri. •Quando uno dei due caratteri (tipicamente Y) èquantitativo, è possibile confrontare le distribuzioni condizionate di Y tramite le medie condizionate. •Per l’i-esima modalitàdi X(xi), la media condizionata di Yèdata da •Nel caso in cui il carattere Y èin classi, occorre utilizzare i valori centrali delle classi al posto delle modalità.∑ ===
K jijj ixXny ny i 1
1 o 2
•Il carattere Y si diceindipendente in mediada X quando X non influenza la media di Y. In termini matematici: dove la media marginaledi Yèdata da •Altrimenti, Yèdipendente in mediada X.yyyy HxXxXxX=======L 21 ∑ ==
K jjjny ny 1
1 o 3
Esempio •La media della distribuzione condizionata del reddito quando il titolo di studio èla licenza media viene calcolata come •Si ha anche (titolo di studio = diploma) (titolo di studio = laurea) e quindi il reddito dipende in media dal titolo di studio. •La media della distribuzione marginale del reddito è
350
120
142
88
Frequenze(nij) ---
65
20
5
Valoricentrali(yj) 11080Totale
780030-100
284010-30
4400-10
yjnijReddito(yi)
Lic en za me dia
66,3111080 350
11 11 1
1===∑ ==
K jjjxXny ny o 31,38 2==xXy 83,48 3==xXy 35=y4
S p e z z a ta d i re g re s s io n e
•La spezzata di regressione èun grafico che consiste nel rappresentare, e congiungere con dei segmenti, i punti di coordinate •La spezzata di regressione permette di intuire come varia la media di Y al variare della modalitàdi X .() ixXiyx=, Esempio
5
M is u ra d e lla d ip e n d e n z a in m e d ia
•Per verificare se c’èo meno dipendenza in media di Y da X si può utilizzare lavarianza spiegata(ovarianza delle medie condizionate)che èdefinita come •La varianza spiegata èsempre non negativa; in particolare indipendenza in mediadi Yda X. dipendenza in media di Y da X. •Il massimo della varianza spiegata èdato dalla varianza totale di Y, •La differenza tra la varianza totale e quella spiegata èchiamata varianza residua ed èsempre non negativa()∑ ==−=
H iixXXYMedianyy ni 1
22 )|(1 oσ ⇒=02 )|(XYMediaσ ⇒>02 )|(XYMediaσ ()∑ =−=
K jjjYnyy n1
221 oσ ()()∑∑ ====−=−=
H i
K jijxXjXYMediaYxXYnyy nMedia ii 11 22 )|(22 |1 σσσ6
•E’quindi possibile definire un indice relativoper misurare la dipendenza in media, chiamatorapporto di correlazione, come •Per l’interpretazione del valore assunto da si consideri che: indipendenza in media di Y da X. dipendenza in media di Y da X. massima dipendenza in media di Y da X. •La dipendenza in mediaimplicala dipendenza statisticae quindi se •L’indipendenza in media non implica l’indipendenza statistica e quindi può accadere che
2
2 )|(2 | Y
XYMedia XY σ
σ η= ⇒=02 |XYη
2 |XYη ⇒>02 |XYη ⇒=12 |XYη 0022 |>⇒>χηXY 0022 |>=χηeXY 7
Esempio ---
48,83
38,31
31,66
Mediecondizionate ( ) 500
64
86
350
ni° 17093,51Totale
12237,89Laurea
944,48Diploma
3911,14Licenzamedia
Titolodi studio (xi) ixXy=()oixXnyy i
2 −= ()19,34500/51,170931 1
22 )|(==−=∑ ==
H iixXXYMedianyy nioσ 500
200
200
100
Frequenze (n°j) ---
65
20
5
Valoricentrali (yj) 315000Totale
18000030-100
4500010-30
900000-10
Reddito ()jjnyyo2 − ()630 500
3150001 1
22 ==−=∑ =
K jjjYnyy noσ054,0 63019,342 |==XYη8
C o rr e la z io n e
•Quando i caratteri Xe Ystudiati sono quantitativi, se ne può dare una rappresentazione grafica attraverso ungrafico a dispersione(onuvola di punti). •Un grafico a dispersione si ottiene riportando sul piano cartesiano i punti di coordinate (xi,yi) che rappresentano le modalitàdei due caratteri presentate dall’unitài-esima. •Si dice che Xe Ysonocorrelati positivamentequando al crescere di Xanche Ytende a crescere. Si dice che Xe Ysono correlati negativamentequando al crescere di X, Ytende a decrescere.9
Esempio •Per un collettivodi n = 6 impresesonostate rilevatele modalità deicaratterinumerodi dipendenti( X ) e fatturato(Y ). 7,59
8,312
6,87
4,58
5,210
9,215
FatturatoDipendenti 10
•Una misura della concordanzatra Xe Yèdata dalla covarianza, un indice simmetrico calcolato come: •La covarianza assume valori nell’intervallo •Dividendo la covarianza per σXσYsi ottiene il coefficiente di correlazione lineare di Bravais-Pearson:
()()()yxXYMediayyxx n
n iiiXY−=−−=∑ =1
1 σ YXXYYXσσσσσ≤≤− YXXY XY σσσ ρ= 11
P ro p ri e tà d e l c o e ff ic ie n te d i c o rr e la z io n e
• •se Y = a+bXe i due caratteri sono concordi. •se Y = a+bXe i due caratteri sono discordi. •se Xe Ysono indipendenti, oppure se la loro relazione non èlineare.11≤≤−XYρ 1=XYρ 1−=XYρ 0=XYρ 12
Esempio 67,5-0,6810,583-1,1677,59 18,783
2,536
0,369
5,236
0,286
11,036 0
1,383
-0,117
-2,417
-1,717
2,283 0
1,833
-3,167
-2,167
-0,167
4,833 41,5
8,3
6,8
4,5
5,2
9,2
Fatturato (yi) 440,761
99,612
47,67
368
5210
13815
Dipendenti (xi)()xxi−()yyi−()()yyxxii−−iixy 17,10661==x 92,665,41==y
13,36783,18==XYσ 13,392,617,1067,440=⋅−=XYσ
13
0,3401,3610,583-1,1677,59 42,833
3,361
10,028
4,694
0,028
23,361 0
1,383
-0,117
-2,417
-1,717
2,283 0
1,833
-3,167
-2,167
-0,167
4,833 41,5
8,3
6,8
4,5
5,2
9,2
Fatturato (yi) 16,26861
1,91412
0,0147
5,8408
2,94710
5,21415
Dipendenti (xi)()xxi−()yyi− 672,26833,42==Xσ
()2 xxi−()2 yyi− 647,16268,16==Xσ
712,0 647,1672,213,3 = ⋅=XYρ