6
Distribuzioni bivariate
La statistica bivariata
La statistica bivariata è un insieme di metodi che consentono di analizzare congiuntamente due caratteri.
Si ricorre alla rilevazione congiunta di due (o più) caratteri quando si ritiene che fra essi possano esservi delle relazioni.
I metodi differiscono a seconda dei tipi di caratteri considerati (qualitativi, quantitativi, ...).
Distribuzioni bivariate
Sia che i caratteri siano qualitativi o quantitativi, se hanno poche modalità (o poche classi nel caso dei quantitativi) si utilizza spesso la distribuzione di frequenze doppia o bivariata, che si rappresenta con una tabella a doppia entrata.
Distribuzioni bivariate
Pensiamo ad esempio di voler analizzare congiuntamente i due caratteri
• Dimensioni dell’azienda
• Grado di utilizzo di tecnologie moderne
rilevati su N=300 aziende vinicole ed entrambi suddivisi in 3 classi.
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Totale 90 108 102 300
+ + =
+ +
+ = + =
+ + + =
+ + + +
+ + +
=
Costruiamo la tabella a doppia entrata relativa alla rilevazione congiunta dei due caratteri, contenente la loro distribuzione bivariata
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Totale 90 108 102 300
Frequenze marginali di
riga Modalità
della Dimensione dell’azienda
Modalità del
Grado di utilizzo delle tecnologie
Caratteri
Frequenze Congiunte
Frequenze marginali di colonna
Costruiamo la tabella a doppia entrata relativa alla rilevazione congiunta dei due caratteri, contenente la loro distribuzione bivariata
Distribuzioni bivariate
A B b1 ... bj ... bq Totale
a1 n11 ... n1j ... n1q n1
⋮ ⋮ ⋮ ⋮ ⋮
ai ni1 ... nij ... niq ni 
⋮ ⋮ ⋮ ⋮ ⋮
ap np1 ... npj ... npq np
Totale n1 ... nj ... nq N
Distribuzioni bivariate
La tabella a doppia entrata può essere rappresentata anche in termini di frequenze relative (o percentuali):
frequenze congiunte frequenze marginali
N fij  nij
N fi  ni
N fj  nj
   
   
  
p 1 i
q 1
j j
p 1
i i
q 1
j fij f f 1
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Totale 90 108 102 300
Vediamo il calcolo delle frequenze relative congiunte e marginali nella nostra tabella
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.15 0.12 0.07 0.34
Media 0.10 0.16 0.09 0.35
Grande 0.05 0.08 0.18 0.31
Totale 0.30 0.36 0.34 1.00
48/300 54/300 Frequenze
relative congiunte
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.15 0.12 0.07 0.34
Media 0.10 0.16 0.09 0.35
Grande 0.05 0.08 0.18 0.31
Totale 0.30 0.36 0.34 1.00
N f
ij n
ijFrequenze
relative congiunte
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.15 0.12 0.07 0.34
Media 0.10 0.16 0.09 0.35
Grande 0.05 0.08 0.18 0.31
Totale 0.30 0.36 0.34 1.00
108/300 93/300 Frequenze relative marginali
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.15 0.12 0.07 0.34
Media 0.10 0.16 0.09 0.35
Grande 0.05 0.08 0.18 0.31
Totale 0.30 0.36 0.34 1.00
N fi  ni
f  nj
Frequenze relative marginali
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.15 0.12 0.07 0.34
Media 0.10 0.16 0.09 0.35
Grande 0.05 0.08 0.18 0.31
Totale 0.30 0.36 0.34 1.00
   
   
  
p 1 i
q 1
j j
p 1
i i
q 1
j fij f f 1
 
  p 1 i
q 1
j fij 1 p f 1
1
i i 
1
q f
Distribuzioni bivariate
• La distribuzione congiunta mostra come sono ripartite le N unità tra le modalità dei due caratteri considerati congiuntamente.
• Le due distribuzioni marginali mostrano come sono ripartite le N unità tra le modalità dei due caratteri considerati singolarmente.
• Per ognuno dei due caratteri si possono individuare altre distribuzioni dette distribuzioni parziali o condizionate.
Distribuzioni bivariate
Distribuzione del carattere Dimensione dell’azienda, condizionata al Grado di utilizzo delle tecnologie «Medio»
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Totale 90 108 102 300
Distribuzioni bivariate
Distribuzione del carattere Grado di utilizzo delle tecnologie, condizionata alla Dimensione dell’azienda «Piccola»
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Totale 90 108 102 300
Distribuzioni bivariate
• Per confrontare le distribuzioni parziali di un carattere è necessario tenere conto del fatto che normalmente i totali marginali sono diversi
• Le frequenze condizionate vengono perciò espresse quasi sempre in termini relativi (o percentuali)
Distribuzioni bivariate
p ,..., 2
, 1 f i
f n
) n b
| a ( f f
j ij j
ij j
i j
|i    
q ,..., 2
, 1 f j
f n
) n a
| b ( f f
i ij i
ij i
j i
|
j    
1 f
f i j|i
j ij| 
Distribuzioni bivariate
Calcoliamo ora le distribuzioni di frequenze relative condizionate
B
A Modesto Medio Elevato Totale
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
Totale 90 108 102 300
Distribuzioni bivariate
Distribuzioni di frequenza relative del carattere Dimensione dell’azienda, condizionate al Grado di utilizzo delle tecnologie
B
A Modesto Medio Elevato Totale
Piccola 0.50 0.33 0.21 0.34
Media 0.33 0.44 0.26 0.35
Grande 0.17 0.22 0.53 0.31
Totale 1.00 1.00 1.00 1.00
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.50 0.33 0.21 0.34
Media 0.33 0.44 0.26 0.35
Grande 0.17 0.22 0.53 0.31
Totale 1.00 1.00 1.00 1.00
48/108 54/102
j ij j
ij j
i j
|i f
f n
) n b
| a ( f f
Distribuzioni bivariate
Distribuzioni di frequenza relative del carattere Grado di utilizzo delle tecnologie, condizionate alla Dimensione dell’azienda
B
A Modesto Medio Elevato Totale
Piccola 0.44 0.35 0.21 1.00
Media 0.29 0.46 0.26 1.00
Grande 0.16 0.26 0.58 1.00
Totale 0.30 0.36 0.34 1.00
Distribuzioni bivariate
B
A Modesto Medio Elevato Totale
Piccola 0.44 0.35 0.21 1.00
Media 0.29 0.46 0.26 1.00
Grande 0.16 0.26 0.58 1.00
Totale 0.30 0.36 0.34 1.00
i ij i
ij i
j i
|
j f
f n
) n a
| b ( f
48/105 54/93 f