C
ORSO DIS TATISTICA S OCIALE
Dott.ss Agnieszka Stawinoga [email protected]
Statistica sociale
Laboratorio 4
Distribuzione unitaria multipla
Distribuzioni di frequenza
Tabella di contingenza
La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale
esso si presenta nei dati analizzati.
Categoria Frequenza
Categoria1 n1 Categoria2 n2 Totale n
Una tabella di contingenza è una tabella costituita da righe che rappresentano I possibili valori (o categorie) di una variabile e da colonne che rappresentano I possibili valori (o
categorie) di una seconda variabilr. I dati nel corpo della tabella sono il numero di volte in cui compare ogni coppia di
valori/ categorie.
Categ1 Categ2 Categ3 Totale
Categ1 n11 n12 n13
Categ2 n21 n22 n23
Totale
Variabile 1
Variabile 2
Studente Sesso Fumo
1 1 0
2 1 0
3 1 0
4 0 0
5 0 0
6 1 0
7 0 0
8 1 0
9 0 1
10 0 0
11 0 0
12 0 1
13 1 0
14 1 0
15 0 1
16 1 0
17 0 1
18 1 0
19 1 0
20 1 1
21 1 0
22 0 0
23 0 0
24 0 1
25 0 0
26 0 0
27 1 1
28 1 0
29 1 0
30 1 0
31 1 0
Distribuzioni di frequenza
La distribuzione di frequenza di una variabile è una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si
presenta nei dati analizzati.
La frequenza relativa di una classificazione consiste nel numero di volte in cui una osservazione si ritrova all’interno della classificazione stessa (frequenza assoluta ni), rappresentata come una porzione del numero totale di osservazioni. La frequenza relativa può essere espressa come una frazione, decimale o percentuale.
i i
f n
n
La frequenza relativa
della i-ma classe La frequenza relativa
percentuale (%)
f
i*100
La frequenza relativa cumulata di una classe è la somma della frequenza relativa di quella classe con quella di tutte le classi precedenti. Rappresenta una porzione del
numero totale delle osservazioni e può essere espressa come una frazione, un numero decimale o una percentuale.
Le distribuzioni doppie:
Alcuni simboliZ: FUMO
Y: SESSO Non fuma Fuma Totale complessivo
Maschio 80 25 105
Femmina 101 30 131
Totale complessivo 181 55 236
Generico elemento di riga i
e colonna j
n
ij.
1 k
j ij
i
n n
j-esimo elemento del marginale di
colonna
.
1 m
i ij
j
n n
i-esimo elemento del marginale di
riga
..
1 1
k m
ij
i j
n n
Totale delle frequenze
Caratteristiche di una distribuzione doppia:
- una variabile Y, sulle righe, con k modalità, - una variabile Z, sulle colonne con m modalità, - una distribuzione marginale per la Y,
- una distribuzione marginale per la Z,
- m distribuzioni di Z condizionate alle modalità di Y, - k distribuzioni di Y condizionate alle modalità di Z.
Le distribuzioni doppie
quantitativa: se entrambe le componenti sono quantitative qualitativa: se entrambe le componenti sono qualitative mista: se una componente è quantitativa e l’altra
qualitativa
L’associazione fra due variabili nominali
Approccio simmetrico (interdipendenza):
l’indice chi-quadrato
l’indice phi-quadrato
l’indice V di Cramer
Indipendenza:
Le frequenze teoriche:
(in caso di indipendenza)
' .
. '. ..
ij i j j
i i
n n n
n n n
.
. ..
ij j
i
n n
n n
. .
ˆ
ijn
in
jn n
2
2
( ˆ )
ˆ
ij ij
i j ij
n n
L’indice chi-quadrato: n
L’indice phi-quadrato:
L’indice V di Cramer:
2 2
n
2 2
min[( 1), ( 1)] min[( 1), ( 1)]
V k m n k m
max(
2) min[( k 1), ( m 1)]
max(
2) n min[( k 1), ( m 1)]
H
0: Le due variabili sono indipendenti tra loro
H
1: Le due variabili non sono indipendenti tra loro
Significatività della relazione fra due variabili nominali
L’indice chi-quadrato misura la distanza della distribuzione di frequenza osservata dalla distribuzione di frequenza teorica che si avrebbe in caso di indipendenza.
2
2
( ˆ )
ˆ
ij ij
i j ij
n n n
La statistica test chi-quadrato si calcola seguendo la formula:
Gradi di libertà si calcolano nel seguente modo: (k-1)*(m-1)
i= 1,…,k; j=1,…,m
Stabilito il livello di significatività α. Per decidere se rifiutare o no H
0si confronta il valore calcolato della statistica test con il valore critico del
chi-quadrato . Si rifiuta H
0quando il
valore osservato è maggiore dal valore di .
2,(k 1)(m 1)2
,(k 1)(m 1) 2
Tipo di copertura assicurativa
Qualifica Alto livello Base Nessuna Totale
Funzionario 35 12 3 50
Impiegato 21 67 12 100
A contratto 6 112 32 150
Totale 62 191 47 300
Tipo di copertura assicurativa
Qualifica Alto livello Base Nessuna Totale
Funzionario 10.33 31.83 7.83 50
Impiegato 20.67 63.67 15.67 100
A contratto 31 95.5 23.5 150
Totale 62 191 47 300
Frequenze osservate Frequenze attese
Esempio:
Il dipartimento di risorse umane di una grande azienda raccoglie i dati su 300
impiegati relativamente a due caratteristiche: livello di qualifica lavorativa e piano assicurativo. I dati vengono riassunti in una tabella di contingenza (Tab1). Verificare se esiste una relazione tra la scelta del piano assicurativo e livello di qualifica
professionale. (Il livello di significatifità uguale al 0.05)
Tab1.
2 2
2
(35 10, 33) (32 23, 5)
... 58,88 ... 3, 07 101, 35
10, 33 23, 5
2
0,34
0, 29 V
2
0,05,4
9, 49
oss2 0,05,42Rifiutiamo H
0, quindi due variabili non sono
indipendenti
H0: Scelta del piano assicurativo e livello di qualifica sono indipendenti H1: Scelta del piano assicurativo e livello di qualifica non sono indipendenti
Nel test chi-quadro le frequenze attese in ciascuna cella devono essere almeno 5. Quando non è cosi, le categorie devono essere unite.
Esercizio 1:
In uno studio sul consumo di alcol dagli studenti di una certa facoltà si vuole indagare se il consumo di alcol è connesso in qualche modo con il luogo in cui uno studente abita. Il ricercatore compila la tabella di
contingenza riportata di seguito. Al livello di significatività uguale a 0.05 verificate se esiste una relazione tra queste due variabili.
Tipo di bevitore
Residenza Sobrio Occasionale Frequente Totale
Casa dello studente 35 25 46
Istituto religioso 0 1 0
Altra residenza univ 0 2 1
Appartamento privato 49 30 24
Totale 213