D ip e n d e n z a in m e d ia

(1)

1

D ip e n d e n z a in m e d ia

•La misurazione della connessione tra due caratteri si basa solo sulle frequenze congiunte senza tenere conto delle modalitàdei due caratteri. •Quando uno dei due caratteri (tipicamente Y) èquantitativo, è possibile confrontare le distribuzioni condizionate di Y tramite le medie condizionate. •Per l’i-esima modalitàdi X(xi), la media condizionata di Yèdata da •Nel caso in cui il carattere Y èin classi, occorre utilizzare i valori centrali delle classi al posto delle modalità.

∑ ===

K jijj ixXny ny i 1

1 o 2

•Il carattere Y si diceindipendente in mediada X quando X non influenza la media di Y. In termini matematici: dove la media marginaledi Yèdata da •Altrimenti, Yèdipendente in mediada X.yyyy HxXxXxX=======L 21 ∑ ==

K jjjny ny 1

1 o 3

Esempio •La media della distribuzione condizionata del reddito quando il titolo di studio èla licenza media viene calcolata come •Si ha anche (titolo di studio = diploma) (titolo di studio = laurea) e quindi il reddito dipende in media dal titolo di studio. •La media della distribuzione marginale del reddito è

350

120

142

88

Frequenze(nij) ---

65

20

5

Valoricentrali(yj) 11080Totale

780030-100

284010-30

4400-10

yjnijReddito(yi)

Lic en za me dia

66,3111080 350

11 11 1

1===∑ ==

K jjjxXny ny o 31,38 2==xXy 83,48 3==xXy 35=y4

S p e z z a ta d i re g re s s io n e

•La spezzata di regressione èun grafico che consiste nel rappresentare, e congiungere con dei segmenti, i punti di coordinate •La spezzata di regressione permette di intuire come varia la media di Y al variare della modalitàdi X .

() ixXiyx=, Esempio

(2)

5

M is u ra d e lla d ip e n d e n z a in m e d ia

•Per verificare se c’èo meno dipendenza in media di Y da X si può utilizzare lavarianza spiegata(ovarianza delle medie condizionate)che èdefinita come •La varianza spiegata èsempre non negativa; in particolare indipendenza in mediadi Yda X. dipendenza in media di Y da X. •Il massimo della varianza spiegata èdato dalla varianza totale di Y, •La differenza tra la varianza totale e quella spiegata èchiamata varianza residua ed èsempre non negativa

()∑ ==−=

H iixXXYMedianyy ni 1

22 )|(1 oσ ⇒=02 )|(XYMediaσ ⇒>02 )|(XYMediaσ ()∑ =−=

K jjjYnyy n1

221 oσ ()()∑∑ ====−=−=

H i

K jijxXjXYMediaYxXYnyy nMedia ii 11 22 )|(22 |1 σσσ6

•E’quindi possibile definire un indice relativoper misurare la dipendenza in media, chiamatorapporto di correlazione, come •Per l’interpretazione del valore assunto da si consideri che: indipendenza in media di Y da X. dipendenza in media di Y da X. massima dipendenza in media di Y da X. •La dipendenza in mediaimplicala dipendenza statisticae quindi se •L’indipendenza in media non implica l’indipendenza statistica e quindi può accadere che

2

2 )|(2 | Y

XYMedia XY σ

σ η= ⇒=02 |XYη

2 |XYη ⇒>02 |XYη ⇒=12 |XYη 0022 |>⇒>χηXY 0022 |>=χηeXY 7

Esempio ---

48,83

38,31

31,66

Mediecondizionate ( ) 500

64

86

350

ni° 17093,51Totale

12237,89Laurea

944,48Diploma

3911,14Licenzamedia

Titolodi studio (xi) ixXy=()oixXnyy i

2 −= ()19,34500/51,170931 1

22 )|(==−=∑ ==

H iixXXYMedianyy nioσ 500

200

100

Frequenze (n°j) ---

65

20

5

Valoricentrali (yj) 315000Totale

18000030-100

4500010-30

900000-10

Reddito ()jjnyyo2 − ()630 500

3150001 1

22 ==−=∑ =

K jjjYnyy noσ054,0 63019,342 |==XYη8

C o rr e la z io n e

•Quando i caratteri Xe Ystudiati sono quantitativi, se ne può dare una rappresentazione grafica attraverso ungrafico a dispersione(onuvola di punti). •Un grafico a dispersione si ottiene riportando sul piano cartesiano i punti di coordinate (xi,yi) che rappresentano le modalitàdei due caratteri presentate dall’unitài-esima. •Si dice che Xe Ysonocorrelati positivamentequando al crescere di Xanche Ytende a crescere. Si dice che Xe Ysono correlati negativamentequando al crescere di X, Ytende a decrescere.

(3)

9

Esempio •Per un collettivodi n = 6 impresesonostate rilevatele modalità deicaratterinumerodi dipendenti( X ) e fatturato(Y ). 7,59

8,312

6,87

4,58

5,210

9,215

FatturatoDipendenti 10

•Una misura della concordanzatra Xe Yèdata dalla covarianza, un indice simmetrico calcolato come: •La covarianza assume valori nell’intervallo •Dividendo la covarianza per σXσYsi ottiene il coefficiente di correlazione lineare di Bravais-Pearson:

()()()yxXYMediayyxx n

n iiiXY−=−−=∑ =1

1 σ YXXYYXσσσσσ≤≤− YXXY XY σσσ ρ= 11

P ro p ri e tà d e l c o e ff ic ie n te d i c o rr e la z io n e

• •se Y = a+bXe i due caratteri sono concordi. •se Y = a+bXe i due caratteri sono discordi. •se Xe Ysono indipendenti, oppure se la loro relazione non èlineare.

11≤≤−XYρ 1=XYρ 1−=XYρ 0=XYρ 12

Esempio 67,5-0,6810,583-1,1677,59 18,783

2,536

0,369

5,236

0,286

11,036 0

1,383

-0,117

-2,417

-1,717

2,283 0

1,833

-3,167

-2,167

-0,167

4,833 41,5

8,3

6,8

4,5

5,2

9,2

Fatturato (yi) 440,761

99,612

47,67

368

5210

13815

Dipendenti (xi)()xxi−()yyi−()()yyxxii−−iixy 17,10661==x 92,665,41==y

13,36783,18==XYσ 13,392,617,1067,440=⋅−=XYσ

(4)

13

0,3401,3610,583-1,1677,59 42,833

3,361

10,028

4,694

0,028

23,361 0

1,383

-0,117

-2,417

-1,717

2,283 0

1,833

-3,167

-2,167

-0,167

4,833 41,5

8,3

6,8

4,5

5,2

9,2

Fatturato (yi) 16,26861

1,91412

0,0147

5,8408

2,94710

5,21415

Dipendenti (xi)()xxi−()yyi− 672,26833,42==Xσ

()2 xxi−()2 yyi− 647,16268,16==Xσ

712,0 647,1672,213,3 = ⋅=XYρ