Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2019/2020
Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Distribuzioni miste
Tra le domande poste in un questionario, una è relativa alla percezione della propria felicità.
Considerando tutti gli aspetti della tua vita, quanto ti ritieni felice? Esprimi la tua scelta mettendo una crocetta ( ) su questa linea per indicare il tuo
livello di felicità.
✖
estremamente infelice
estremamente felice
✖
Il dato è la lunghezza di questo segmento
Felicità
Frequenza
0 9 18 26 35
Misura
[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9]
[9;10] [10;11] [11;12]
Lunghezza totale: 12 cm.
Distribuzioni miste
Tra le domande poste in un questionario, una è relativa alla percezione della propria felicità.
Considerando tutti gli aspetti della tua vita, quanto ti ritieni felice? Esprimi la tua scelta mettendo una crocetta ( ) su questa linea per indicare il tuo
livello di felicità.
✖
estremamente infelice
estremamente felice
✖
Il dato è la lunghezza di questo segmento
Felicità
Frequenza
0 9 18 26 35
Misura
[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9]
[9;10] [10;11] [11;12]
Stratificare rispetto al genere.
♀ ♂
Lunghezza totale: 12 cm.
👇
Distribuzioni miste
[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9] [9;10] [10;11] [11;12] Totale
1 8 4 4 15 7 8 23 11 11 6 1 99
2 1 2 4 15 8 9 10 14 14 5 2 86
Totale 3 9 6 8 30 15 17 33 25 25 11 3 185
♀
♂
Maschi
Densità
0,00 0,06 0,13 0,19 0,25
Misura
[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9] [9;10][10;11][11;12]
Femmine
Densità
0,00 0,06 0,13 0,19 0,25
Misura
[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9] [9;10][10;11][11;12]
Media = 6,45
Deviazione Standard = 2,44 Coefficiente di variazione = 0,37
Media = 6,91
Deviazione Standard = 2,22 Coefficiente di variazione = 0,32
Più variabili qualitative
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).
♀
♂
Più variabili qualitative
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
Numero di intervistati mancini: 17.
In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).
♀
♂
Più variabili qualitative
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
Distribuzione doppia Numero di femmine che scrivono con la mano destra
Numero di intervistati mancini: 17.
In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).
♀
♂
Più variabili qualitative
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
Distribuzione congiunta Numero di maschi che
scrivono con la mano
sinistra e portano gli occhiali
Distribuzione doppia Numero di femmine che scrivono con la mano destra
Numero di intervistati mancini: 17.
♀
♂
In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).
Più variabili qualitative
Ricapitoliamo utilizzando la notazione insiemistica
Insieme totale degli intervistati:
Maschi:
Femmine:
Occhiali SI:
Occhiali NO:
Mano sinistra:
Mano destra:
S M
F
O
SIO
NOSx Dx
M ∪ F = S
M ∩ F = ∅ } esaustivi disgiunti
Sx ∪ Dx = S
Sx ∩ Dx = ∅ } esaustivi disgiunti
O
SI∪O
NO= S
O
SI∩O
NO= ∅ } esaustivi disgiunti
Più variabili qualitative
Ricapitoliamo utilizzando la notazione insiemistica
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
♀
♂
Più variabili qualitative
Ricapitoliamo utilizzando la notazione insiemistica
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
♀
♂
F
Più variabili qualitative
Ricapitoliamo utilizzando la notazione insiemistica
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
♀
♂
O
NOF
Più variabili qualitative
Ricapitoliamo utilizzando la notazione insiemistica
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
♀
♂ M ∩ Dx
O
NOF
Più variabili qualitative
Ricapitoliamo utilizzando la notazione insiemistica
Occhiali Genere
Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
♀
♂
M ∩ Sx ∩O
SIM ∩ Dx
O
NOF
Occhiali Genere Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
Totale 93 70 163
♀
♂
Grafici
0 15 30 45 60
Mano S Mano D Mano S Mano D Occhiali SI Occhiali NO
maschi femmine
Distribuzione condizionata
Distribuzione condizionata di occhiali & scrittura vs. genere.
7
91 = M ∩ Sx ∩OSI
M ×100
38
72 = F ∩ Dx ∩ONO
F ×100
38
72 = F ∩ Sx
F ×100
👉
👉
👉
percentuale di maschi con occhiali &
mancini.
percentuale di femmine senza occhiali &
non mancine.
percentuale di femmine mancine.
Occhiali Mano Genere Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
♀
♂
38
72 = F ∩ Dx ∩ONO
F ×100
7
11 = M ∩ Sx ∩OSI
M ∩ Sx ×100 7
11 = M ∩ Sx ∩OSI
M ∩ Sx ×100 7
11 = M ∩ Sx ∩OSI
M ∩ Sx 7 ×100
91 = M ∩ Sx ∩OSI
M ×100
38
72 = F ∩ Dx ∩ONO
F ×100
19,02
57,06 ×100 = rapporto di composizione = 33,33%
Distribuzione condizionata
Distribuzione condizionata di occhiali vs. scrittura & genere.
In questo caso, quali sono gli insiemi coinvolti?
Occhiali Mano Genere Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
♀
♂
Distribuzione condizionata
Distribuzione condizionata di occhiali vs. scrittura & genere.
In questo caso, quali sono gli insiemi coinvolti?
7
11 = M ∩ Sx ∩OSI
M ∩ Sx ×100
👉
percentuale con occhiali fra i maschi mancini.3
6 = F ∩ Sx ∩OSI
F ∩ Sx ×100
👉
percentuale con occhiali fra le femmine mancine.7
11 = M ∩ Sx ∩OSI
M ∩ Sx ×1007
11 = M ∩ Sx ∩OSI
M ∩ Sx ×100
7
11 = M ∩ Sx ∩OSI
M ∩ Sx ×1003
6 = F ∩ Sx ∩OSI
F ∩ Sx ×100
Occhiali Mano Genere Occhiali SI Occhiali NO Totale Totale
Mano S 7 4 11
Mano D 55 25 80 91
Mano S 3 3 6
Mano D 28 38 66 72
♀
♂
Distribuzione condizionata
Un grafico a mosaico è una rappresentazione grafica che consente di esaminare l’associazione fra due variabili qualitative.
Passo1: quadrato di lato 1 Passo2: suddividere l’area del quadrato in due rettangoli di aree
proporzionali alle
percentuali di una delle distribuzioni marginali.
Ad esempio la variabile occhiali 57,06% & 42,94%
no si
Occhiali
Genere Occhiali NO Occhiali SI Totale 38,04% 17,79% 55,83%
19,02% 25,15% 44,17%
Totale 57,06% 42,94% 100%
♀
♂
Distribuzione condizionata
Occhiali
Occhiali NO Occhiali SI 66,67% 41,43%
33,33% 58,57%
Totale 100% 100%
♀
♂
Passo3: suddividere l’area di ogni rettangolo in base alle distribuzioni
condizionate. Ad esempio, la regione Occhiali NO di area proporzionale al 57,6%
viene suddivisa in due regioni, Maschi & Femmine di area proporzionale a 66,7%
& 33,33%.
femmine
maschi
occhiali
no si
Occhiali
maschi femmine genere
La forma del grafico a mosaico non cambia di molto se la stessa costruzione viene fatta partendo dalla variabile Genere.
Come si legge il grafico?
nosi
Distribuzione condizionata
Occhiali
Occhiali NO Occhiali SI 66,67% 41,43%
33,33% 58,57%
Totale 100% 100%
♀
♂
Passo3: suddividere l’area di ogni rettangolo in base alle distribuzioni
condizionate. Ad esempio, la regione Occhiali NO di area proporzionale al 57,6%
viene suddivisa in due regioni, Maschi & Femmine di area proporzionale a 66,7%
& 33,33%.
La forma del grafico a mosaico non cambia di molto se la stessa costruzione viene fatta partendo dalla variabile Genere.
Come si legge il grafico?
Tanto più la griglia si avvicina ad una croce tanto più le due variabili sono indipendenti.
femmine
maschi
occhiali
si
Occhiali
maschi femmine genere
nosi
no
Caratteri indipendenti
Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti.
Caratteri indipendenti
Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti.
In assenza di indipendenza si parla di connessione fra i due caratteri. Le due
variabili tendono ad influenzarsi reciprocamente e tra di loro esiste una relazione.
Caratteri indipendenti
Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti.
In assenza di indipendenza si parla di connessione fra i due caratteri. Le due
variabili tendono ad influenzarsi reciprocamente e tra di loro esiste una relazione.
In termini statistici si riconosce che una variabile X è indipendente da una variabile Y quando le distribuzioni condizionate di Y sono uguali per ogni modalità (o classi di modalità) di X, cioè hanno le stesse frequenze relative (percentuali).
Esempio. Consideriamo due caratteri
X
edY
le cui modalità si comportano come nella seguente tabella:12 4 16 8 40
15 5 20 10 50
9 3 12 6 30
36 12 48 24 120
X / Y Y
X
y1 y2 y3 y4 x1
x2 x3
12 4 16 8 40 15 5 20 10 50
9 3 12 6 30
36 12 48 24 120
X / Y Y
X
C’è indipendenza
40/120=
0,33
12/36=
0,33
4/12=
0,33
16/48=
0,33
8/24=
0,33 50/120=
0,42
15/36=
0,42
5/12=
0,42
20/48=
0,42
10/24=
0,42 30/120=
0,25
9/36=
0,25
3/12=
0,25
12/48=
0,25
6/24=
0,25
Totale 1,00 1,00 1,00 1,00 1,00
X x1 x2 x3
y1 y2 y3 y4 x1
x2 x3
f (X) f (X | y1) f (X | y2) f (X | y3) f (X | y4 )
Caratteri indipendenti
Caratteri indipendenti
Non c’è indipendenza
0,80 0,05 0,05 0,40
0,10 0,85 0,05 0,30
0,10 0,10 0,90 0,30
Totale 1,00 1,00 1,00 1,00
X x1 x2 x3
f (X | y1) f (X | y2) f (X | y3) f (X | y4 )
Nella tabella precedente abbiamo osservato che la modalità del carattere non è in alcun modo influenzata dalla modalità del carattere Y. Se invece
avessimo avuto una tabella come quella qua sotto dove le frequenze relative del carattere
X
X dipendono chiaramente dalle modalità del carattereY concluderemmo che i due caratteri non sono indipendenti.
Caratteri indipendenti
Frequenza assoluta Occhiali
Genere Occhiali NO Occhiali SI Totale
62 29 91
31 41 72
Totale 93 70 163
♀
♂
Tabella delle frequenze relative condizionate Occhiali
Genere Occhiali NO Occhiali SI Totale 55,83% 55,83% 55,83%
44,17% 44,17% 44,17%
Totale 100% 100% 100%
♀
♂
Se i caratteri fosseroindipendenti produrrebbero una tabella come questa,
👈
163 persone: 55,83% maschi, 44,17% femmine.
Caratteri indipendenti
Frequenza assoluta Occhiali
Genere Occhiali NO Occhiali SI Totale
62 29 91
31 41 72
Totale 93 70 163
♀
♂
Tabella delle frequenze relative condizionate Occhiali
Genere Occhiali NO Occhiali SI Totale 55,83% 55,83% 55,83%
44,17% 44,17% 44,17%
Totale 100% 100% 100%
♀
♂
Se i caratteri fosseroindipendenti produrrebbero una tabella come questa, ma così non è…
👈
163 persone: 55,83% maschi, 44,17% femmine.
Tabella delle frequenze relative condizionate Occhiali
Genere Occhiali NO Occhiali SI Totale 66,67% 41,43% 55,83%
33,33% 58,57% 44,17%
Totale 100% 100% 100%
♀
♂ 👈
Caratteri indipendenti
Frequenza assoluta Occhiali
Genere Occhiali NO Occhiali SI Totale
62 29 91
31 41 72
Totale 93 70 163
♀
♂
E infatti producono una tabella come questa.
163 persone: 55,83% maschi, 44,17% femmine.
Caratteri indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 31,85% 23,98%
25,20% 18,97%
Totale 57,05% 42,95%
♀
♂
163 persone: 55,83% maschi, 44,17% femmine.
Distribuzione congiunta se indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 38,04% 17,79%
19,02% 25,15%
Totale 57,06% 42,94%
♀
♂
Distribuzione congiunta effettiva
93× 0,5583
163 ×100 = 31,85
Distribuzione marginale del carattere occhiali
93× 0,5583
163 ×100 = 31,85 93× 0,5583
163 Frequenza relativa di chi ×100 = 31,85
non indossa occhiali
Caratteri indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 31,85% 23,98%
25,20% 18,97%
Totale 57,05% 42,95%
♀
♂
163 persone: 55,83% maschi, 44,17% femmine.
Distribuzione congiunta se indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 38,04% 17,79%
19,02% 25,15%
Totale 57,06% 42,94%
♀
♂
Distribuzione congiunta effettiva
93× 0,5583
163 ×100 = 31,85
Distribuzione marginale del carattere occhiali
93× 0,5583
163 ×100 = 31,85 93× 0,5583
163 Frequenza relativa di chi ×100 = 31,85
non indossa occhiali
Frequenza relativa dei maschi
Caratteri indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 31,85% 23,98%
25,20% 18,97%
Totale 57,05% 42,95%
♀
♂
163 persone: 55,83% maschi, 44,17% femmine.
Distribuzione congiunta se indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 38,04% 17,79%
19,02% 25,15%
Totale 57,06% 42,94%
♀
♂
Distribuzione congiunta effettiva
93× 0,5583
163 ×100 = 31,85
Distribuzione marginale del carattere occhiali
93× 0,5583
163 ×100 = 31,85 93× 0,5583
163 Frequenza relativa di chi ×100 = 31,85
non indossa occhiali
Frequenza relativa dei maschi
Frequenza relativa percentuale dei maschi che non indossano occhiali
Caratteri indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 31,85% 23,98%
25,20% 18,97%
Totale 57,05% 42,95%
♀
♂
163 persone: 55,83% maschi, 44,17% femmine.
Distribuzione congiunta se indipendenti
Occhiali
Genere Occhiali NO Occhiali SI 38,04% 17,79%
19,02% 25,15%
Totale 57,06% 42,94%
♀
♂
Distribuzione congiunta effettiva
Vediamo le frequenze assolute
confrontate con quelle che sarebbero state se indipendenti.
👇
93× 0,5583
163 ×100 = 31,85
Occhiali
Genere Occhiali NO Occhiali SI Totale
62 29 91
31 41 72
Totale 93 70 163
♀
♂
Caratteri indipendenti
163 persone: 55,83% maschi, 44,17% femmine.
Occhiali
Genere Occhiali NO Occhiali SI
♀
♂
91
163 × 93 = 51,92 ˆn11 = 51,92 ˆn12 = 39,08 ˆn21 = 41,08 ˆn22 = 30,92
Frequenza assoluta se indipendenti
Frequenza assoluta effettiva 91
163 × 93 = 51,92Frequenza relativa dei maschi
Caratteri indipendenti
163 persone: 55,83% maschi, 44,17% femmine.
Ora calcoliamo le differenze fra le frequenze assolute effettive e quelle ipotetiche.
Occhiali
Genere Occhiali NO Occhiali SI
♀
♂
62 − 51,92 = 10,0831− 41,08 = −10,08
29 − 39,08 = −10,08 41− 30,92 = 10,08
Le differenze così calcolate vanno normalizzate alle frequenze assolute ipotetiche
ˆn
ij e poi sommate al quadrato moltiplicando ciascuna di esse per il relativo pesoˆn
ijc
11= 10,08
51,92 , c
12= − 10,08
39,08 , c
21= − 10,08
41,08 , c
22= 10,08 30,92
dato da .
Otteniamo l’espressione
C
r= c
ij2ˆn
ijj=1
∑
s i=1∑
r dove0 ≤ C
r≤ nmin r −1, s −1 { }
r r = numero di righe, c = numero di colonne, n = popolazione totale 0 = numero di righe, c = numero di colonne, n = popolazione totale ≤ C
r≤ nmin r −1, s −1 { }
Indice di connessione di Cramer
L’indice di connessione di Cramer è un indice relativo, che varia fra 0 & 1, ottenuto mediante la seguente espressione:
C
r*= c
ij2ˆn
ijj=1
∑
s i=1∑
rn min r { −1, s −1 }
Nell’esempio appena visto si ha
C
r*= 0,25
, ossia un modesto livello di connessioneC
r*= 0 👉
i caratteriX
&Y
sono sconnessi.Tanto più
C
r* si avvicina a1
, maggiore è la dipendenza traX
&Y
.Indice di connessione di Cramer
Si ha la perfetta dipendenza quando la tabella delle frequenze assolute (tabella di contingenza) si presenta come una matrice diagonale.
Frequenza assoluta Occhiali
Genere Occhiali NO Occhiali SI Totale
92 0 92
0 71 71
Totale 92 71 163
♀
♂
In tal caso poniamo…
Indice di connessione di Cramer
Frequenza assoluta Occhiali
Genere Occhiali NO Occhiali SI Totale
92 0 92
0 71 71
Totale 92 71 163
♀
♂
Distribuzione se indipendenti Occhiali
Genere Occhiali NO Occhiali SI
♀
♂
ˆn11 = 51,92 ˆn12 = 40,07 ˆn21 = 40,07 ˆn22 = 30,92
👇
92 − 51,92 = 40,07 0 − 40,07 = −40,07 71− 30,92 = 40,07
c
11= 40,07
51,92 c
12= − 40,07 40,07 c
21= − 40,07
40,07 c
22= 40,07 30,92
👇
C
r= c
ij2ˆn
ijj=1