7
Analisi dell’associazione
tra caratteri
Analisi dell’associazione tra caratteri
•
Si ha dipendenza logica tra due caratteri quando si suppone a priori una relazione causa-effetto
•
Si ha interdipendenza logica tra due caratteri quando si suppone a priori un’interrelazione
•
Si ha indipendenza logica tra due
caratteri quando si suppone a priori che
non possa sussistere alcuna relazione
Analisi dell’associazione tra caratteri
A seconda degli obiettivi dell’indagine statistica si possono utilizzare diversi metodi per studiare l’associazione tra due caratteri.
La scelta e l’impiego di un metodo dipende
anche dal tipo di caratteri considerati.
Connessione
Dipendenza in media Correlazione
Analisi dell’associazione tra caratteri
Entrambi i caratteri qualitativi
Un carattere qualitativo e uno quantitativo
Entrambi i caratteri quantitativi
Sì Sì Sì
Sì
Sì Sì
No
No No
7a
La connessione
La connessione
L’analisi della connessione tra due caratteri può essere condotta quando si dispone della loro distribuzione bivariata.
Si tratta di un metodo adatto al caso di due
caratteri entrambi qualitativi, quindi può
essere utilizzato anche per tutte le altre
tipologie di caratteri, purchè i quantitativi
continui siano raggruppati in classi.
La connessione
L’analisi della connessione, si basa sul confronto fra la situazione osservata nella realtà e le seguenti due situazioni estreme:
•
connessione minima o nulla (indipendenza distributiva)
•
connessione massima
Connessione nulla
(indipendenza distributiva)
Il carattere A è indipendente in distribuzione dal carattere B (A non è connesso con B) se le distribuzioni di frequenze relative di A condizionate alle varie modalità di B sono tutte uguali.
Il carattere B è indipendente in distribuzione
dal carattere A (B non è connesso con A) se
le distribuzioni di frequenze relative di B
condizionate alle varie modalità di A sono
Connessione nulla
(indipendenza distributiva)
Esaminiamo la seguente tabella che riporta la distribuzione bivariata dei due caratteri
•
Grado di apprezzamento di un vino
•
Genere
rilevati su N=300 soggetti.
Connessione nulla
(indipendenza distributiva)
Genere
Apprezzamento Maschi Femmine Totale
Basso 20 30 50
Intermedio 60 90 150
Alto 40 60 100
Totale 120 180 300
Connessione nulla
(indipendenza distributiva)
Genere
Apprezzamento Maschi Femmine Totale
Basso 0.17 0.17 0.17
Intermedio 0.50 0.50 0.50
Alto 0.33 0.33 0.33
Totale 1.00 1.00 1.00
Valutiamo se l’Apprezzamento è indipendente
in distribuzione dal Genere calcolando le
distribuzioni di frequenze relative condizionate
Connessione nulla
(indipendenza distributiva)
Genere
Apprezzamento Maschi Femmine Totale
Basso 0.4 0.6 1.00
Intermedio 0.4 0.6 1.00
Alto 0.4 0.6 1.00
Totale 0.4 0.6 1.00
Valutiamo se il Genere è indipendente in
distribuzione dall’ Apprezzamento calcolando le
distribuzioni di frequenze relative condizionate
Connessione nulla
(indipendenza distributiva)
L’indipendenza distributiva è una relazione simmetrica: se A non è connesso con B, allora B non è connesso con A.
Quindi possiamo ragionare indifferente-
mente facendo riferimento all’indipen-
denza di A da B o a quella di B da A.
Connessione nulla
(indipendenza distributiva)
La condizione di indipendenza distributiva di A da B o si può anche scrivere come
cioè
i j|i
f
f
N n n
n
ij
ij
Connessione nulla
(indipendenza distributiva)
Allora possiamo dire che in caso di indipendenza distributiva tra i due caratteri, le frequenze assolute congiunte sono pari a
N n n
ijn
i
j
Connessione nulla
(indipendenza distributiva)
Verifichiamo questa proprietà sulla nostra tabella
Genere
Apprezzamento Maschi Femmine Totale
Basso 20 30 50
Intermedio 60 90 150
Alto 40 60 100
Totale 120 180 300
Connessione nulla
(indipendenza distributiva)
Genere
Apprezzamento Maschi Femmine Totale
Basso 20 30 50
Intermedio 60 90 150
Alto 40 60 100
Totale 120 180 300
300 20
50 120
N n
n
ijn
i
j
n
ijn
in N
Connessione nulla
(indipendenza distributiva)
Genere
Apprezzamento Maschi Femmine Totale
Basso 20 30 50
Intermedio 60 90 150
Alto 40 60 100
Totale 120 180 300
300 90
150 180
N n
n
ijn
i
j
n
ij
n
in N
Connessione nulla
(indipendenza distributiva)
N n n n
ˆ
ij i
j
Poichè in genere la situazione di perfetta indipendenza distributiva è solo teorica, si usa rappresentare la relazione appena verificata in questo modo
e si dice che rappresenta la frequenza congiunta teorica attesa in caso di indipendenza distributiva.
n
ijˆ
Connessione nulla
(indipendenza distributiva)
La relazione che consente di calcolare le frequenze teoriche attese in caso di indipendenza distributiva si può facilmente riesprimere in termini di frequenze relative
j i
ij
f f
fˆ
Connessione massima
(perfetta dipendenza distributiva)
Il carattere A dipende perfettamente in distribuzione dal carattere B (massima connessione unilaterale di A rispetto a B) se ad ogni modalità di B è associata un’unica modalità di A.
Questo tipo di massima connessione si
può avere solo se A ha un numero di
modalità minore o uguale a quelle di B.
Connessione massima
(perfetta dipendenza distributiva)
A B b
1b
2b
3Totale
a
110 20 0 30
a
20 0 30 30
Il carattere A dipende perfettamente in
distribuzione dal carattere B (massima
connessione unilaterale di A rispetto a B) se ad
ogni modalità di B è associata un’unica modalità
di A.
Connessione massima
(perfetta dipendenza distributiva)
A B b
1b
2b
3Totale
a
110 20 0 30
a
20 0 30 30
Notiamo che per questa tabella non sussiste
anche la massima connessione unilaterale di B
rispetto ad A, che si avrebbe se ad ogni modalità
di A fosse associata un’unica modalità di B.
Connessione massima
(perfetta dipendenza distributiva)
In generale, se la tabella è rettangolare
(cioè A e B hanno un numero diverso di
modalità), si può avere massima
connessione unilaterale del carattere con
minori modalità rispetto all’altro, ma non
viceversa.
Connessione massima
(perfetta dipendenza distributiva)
La relazione di massima connessione può essere simmetrica, e in questo caso si parla di massima connessione bilaterale tra A e B, se la tabella è quadrata, cioè se A e B hanno lo stesso numero di modalità.
Tra i caratteri A e B esiste massima
connessione bilaterale se ad ogni modalità
di un carattere corrisponde un’unica
modalità dell’altro carattere e viceversa.
Connessione massima
(perfetta dipendenza distributiva)
Tra i caratteri A e B esiste massima connessione bilaterale se ad ogni modalità di un carattere corrisponde un’unica modalità dell’altro carattere e viceversa.
A B b
1b
2b
3Totale
a
10 10 0 10
a
20 0 20 20
a
330 0 0 30
Analisi della connessione
Le due situazioni estreme ora esaminate sono in genere solo teoriche.
Normalmente una distribuzione bivariata
non evidenzia nè indipendenza
distributiva, nè massima connessione, ma
si collocherà in un punto intermedio tra
questi due estremi.
Analisi della connessione
Quindi per ogni data distribuzione vorremmo poter sapere dove si colloca, se più vicina ad una situazione di indipendenza distributiva o ad una situazione di massima connessione.
Vorremmo in altre parole, valutare il grado
di connessione tra due caratteri in base
alla loro distribuzione bivariata.
Analisi della connessione
Un’idea semplice consiste nel confrontare le frequenze congiunte osservate con quelle teoriche attese nel caso di perfetta indipendenza distributiva .
Otteniamo le cosiddette contingenze.
n
ijn
ijˆ
ij ij
ij
n n ˆ
c
ij ij ij ijn ˆ
c n ˆ
n ˆ
d n
Contingenze assolute Contingenze relative
Analisi della connessione
Utilizzando le contingenze possiamo valutare se vi è attrazione (c
ij> 0) o repulsione (c
ij< 0) tra la modalita a
idi A e la modalità b
jdi B.
ij ij
ij
n n ˆ
c
ij ij ij ijn ˆ
c n ˆ
n ˆ
d n
Contingenze assolute Contingenze relative
Analisi della connessione
La contingenza relativa può anche essere scritta come
quindi si interpreta come la variazione (incremento in caso di attrazione - c
ij> 0 - e decremento in caso di repulsione - c
ij< 0) che si osserva tra la frequenza teorica e
n 1 ˆ n n ˆ
n ˆ d n
ij ij ij
ij ij
ij
Analisi della connessione
E’ facile verificare che
quindi le contingenze possono essere calcolate anche a partire dalle frequenze relative.
ij ij ij
ij
fˆ
fˆ d f
Analisi della connessione
Vediamo ora il nostro esempio iniziale.
Prima di tutto calcoliamo le frequenze teoriche attese in caso di indipendenza.
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Analisi della connessione
B
A Modesto Medio Elevato Totale
Piccola 30.60 36.72 34.68 102
Media 31.50 37.80 35.70 105
Grande 27.90 33.48 31.62 93
300
105 108
300
93
102
Analisi della connessione
B
A Modesto Medio Elevato Totale
Piccola 30.60 36.72 34.68 102
Media 31.50 37.80 35.70 105
Grande 27.90 33.48 31.62 93
Poichè le frequenze teoriche sono diverse da
quelle osservate, tra i due caratteri esiste
connessione. Calcoliamo le contingenze.
Analisi della connessione
B
A Modesto Medio Elevato Totale
Piccola 14.40 -0.72 -13.68
Media -1.50 10.20 -8.70
Grande -12.90 -9.48 22.38 80
. 37
48 21 34 . 68
Analisi della connessione
A questo punto possiamo esaminare le singole coppie di modalità e valutare se fra di esse vi è attrazione o repulsione.
A questa analisi disaggregata delle
contingenze si può abbinare il calcolo di
un indice che consenta di valutare il grado
di connessione tra i due caratteri.
Indice di connessione normalizzato
dove k è il minore tra il numero di modalità di A e quello di B e l’indice X
2è il cosiddetto indice di associazione di Pearson (1900)
) 1 k
( N
C X
2
i j2 ij 2 ij
n ˆ
) n ˆ n
X (
Indice di connessione normalizzato
L’indice X
2può essere calcolato anche a partire dalle frequenze relative
i jij ij 2 2 ij
fˆ
) fˆ f
N (
X
Indice di connessione normalizzato
L’indice C ha le seguenti proprietà:
•
vale 0 in caso di indipendenza
•
vale 1 in caso di massima connessione
•
in tutti gli altri casi assume un valore
compreso tra 0 e 1
Indice di connessione normalizzato
B
A Modesto Medio Elevato Totale
Piccola 14.40 -0.72 -13.68
Media -1.50 10.20 -8.70
Grande -12.90 -9.48 22.38
Calcoliamo l’indice C nella tabella del nostro esempio.
Eleviamo al quadrato le contingenze e dividiamole
per le frequenze teoriche per calcolare X
2.
Indice di connessione normalizzato
B
A Modesto Medio Elevato Totale
Piccola 6.7765 0.0141 5.3963
Media 0.0714 2.7524 2.1202
Grande 5.9645 2.6843 15.8401
80 . 37
20 .
10
2
68 . 34
68 .
13
2
Indice di connessione normalizzato
B
A Modesto Medio Elevato Totale
Piccola 6.7765 0.0141 5.3963
Media 0.0714 2.7524 2.1202
Grande 5.9645 2.6843 15.8401
6198 .
n 41 ˆ
) n ˆ n
X
i j(
ij
2 ij
2 ij