7b
La dipendenza in media
La dipendenza in media
Quando si analizzano due caratteri, di cui almeno uno quantitativo, si può analizzare la dipendenza in media del carattere quantitativo (X) dall’altro (A).
Il punto di partenza è la suddivisione della popolazione in k gruppi, sulla base delle modalità assunte dal carattere qualitativo A.
La dipendenza in media
Analizzare la dipendenza in media significa valutare in che misura la media del carattere quantitativo X tende a variare quando viene calcolata, anzichè sull’intera popolazione, all’interno dei k gruppi.
12
M1
22 M2
...
...
...
k2
Mk
La dipendenza in media
I due caratteri X e A si dicono indipendenti in media se tutte le medie parziali sono uguali tra loro, cioè
M
kM M
M
1
2 ...
La dipendenza in media
Questo normalmente non avviene, quindi i due caratteri in genere saranno dipendenti in media, però come al solito abbiamo bisogno di un indice statistico per valutare l’intensità di questa dipendenza.
La dipendenza in media
Pensiamo ad esempio ai due caratteri Prezzo (X) e Zona (IGT, DOC, DOCG) (A) del nostro dataset Altroconsumo.
Analizzare la dipendenza in media del Prezzo dalla Zona significa valutare in che misura la media del Prezzo varia se viene calcolata, anzichè su tutti i 283 vini, nei sottogruppi dei vini IGT, DOC, DOCG.
La dipendenza in media
Calcoliamo, per il carattere quantitativo Prezzo, medie e varianze parziali, cioè all’interno dei gruppi determinati dalle diverse modalità del carattere qualitativo Zona.
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
ni 169 49 65
La dipendenza in media
1 2 1 1
n M
2 2 2 2
n M
...
...
...
k 2 k k
n M
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
ni 169 49 65
La dipendenza in media
Le medie parziali sono diverse, quindi tra i due caratteri esiste dipendenza in media, vogliamo misurarne l’intensità.
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
ni 169 49 65
La dipendenza in media
Prima di tutto calcoliamo la media generale
9889 .
283 5
65 0408
. 5 49
7612 .
8 169
5497 .
M 5
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
ni 169 49 65
La dipendenza in media
Un buon modo per giudicare quanto le medie parziali tendono a variare è considerare le differenze tra le medie parziali e la media generale (elevate al quadrato per evitare compensazioni di elementi di segno opposto).
M1 M
2
M2 M
2
M3 M
2La dipendenza in media
M1 M
2
M2 M
2
M3 M
2DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
0.8990 7.6858
0.1929
La dipendenza in media
I tre valori appena calcolati ci mostrano quanto le singole medie parziali variano attorno alla media generale. Per sintetizzarli conviene calcolarne la media aritmetica (ponderata per le numerosità dei gruppi!)
65 0.8990
49 7.6858
169 0.1929
n M N M
1 3
1
i i
2 i
La dipendenza in media
Ora disponiamo di una misura di quanto le medie parziali variano attorno alla media generale (è una specie di varianza delle medie parziali).
65 0.8990
49 7.6858
169 0.1929
n M N M
1 3
1
i i
2 i
La dipendenza in media
Di certo, se il nostro indice vale 0, abbiamo indipendenza in media, ma se è diverso da 0 non sappiamo valutare quanto è elevato....
ki1 Mi M 2ni N1
La dipendenza in media
Sarebbe ottimale individuare un valore massimo che questo indice può assumere, in modo da poterlo standardizzare e ottenere un nuovo indice compreso tra 0 e 1, facile da interpretare.
ki1 Mi M 2ni N1
La dipendenza in media
Osserviamo meglio l’indicatore che abbiamo calcolato...
... e ricordiamo la regola della scomposizione della varianza:
ki1 Mi M 2ni N
1
FRA NEI
2 VARTOT VAR VAR
La dipendenza in media
dove
k
i
i i k
k
NEI k n
N n
n n
n n
VAR n
1
2 2
1
2 2
2 2 1
2
1 1
...
...
k
k
k FRA k
n M
M
n n
n
n M
M n
M M
n M
VAR M
2
2 1
2 2
2 2
1 2 1
1
...
...
La dipendenza in media
Quindi il nostro indicatore
è proprio la VARFRA che, per la regola di scomposizione della varianza, non può eccedere la VARTOT.
ki1 Mi M 2ni N
1
La dipendenza in media
La VARFRA può al massimo essere uguale alla VARTOT (nel caso in cui VARNEI sia uguale a 0)
FRA NEI
2 VARTOT VAR VAR
La dipendenza in media
Quindi l’indicatore standardizzato per valutare l’intensità della dipendenza in media è dato dal rapporto tra VARFRA e VARTOT. Questo indice si chiama rapporto di correlazione di Pearson
TOT
VARFRA
2 VAR A
|
X
La dipendenza in media
L’indice:
• vale 0 in caso di indipendenza in media
• vale 1 in caso di massima dipendenza in media
TOT
VARFRA
2 VAR A
|
X
La dipendenza in media
Torniamo al nostro esempio. Abbiamo già calcolato VARFRA=1.6524.
Per calcolare VARTOT dobbiamo prima calcolare VARNEI e poi otterremo VARTOT come somma di VARFRA e VARNEI.
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
La dipendenza in media
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
9125 .
283 8
65 9005
. 4 49
8555 .
14 169
7324 .
8
N n VAR 1 k
1
i 2 i
i NEI
La dipendenza in media
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
10.5649 9125
. 8 6524
. 1
VAR VAR
VARTOT FRA NEI
La dipendenza in media
DOC DOCG IGT
medie parziali 5.5497 8.7612 5.0408
varianze parziali 8.7324 14.8555 4.9005
0.1564 5649
. 10
6524 .
1 VAR
VAR
TOT 2 FRA
A
|
X
La dipendenza in media
0.1564 5649
. 10
6524 .
1 VAR
VAR
TOT 2 FRA
A
|
X
La dipendenza in media tra Prezzo e Zona è pari al 15.64% del massimo teorico.