Corso di
Analisi Statistica per le Imprese
2.Cross tabulation e relazione lineare tra
variabili
Prof. L. Neri
a.a. 2017-2018
Analisi Bivariata
Una volta effettuata un’analisi preliminare delle singole variabili (analisi univariata), è necessario comprendere se le variabili oggetto di studio sono associate oppure no e, se sì, misurare il grado di associazione.
In prima battuta si procede alla valutazione della
interdipendenza (relazione X Y, relazione Y X) tra
due variabili (analisi bivariata).
Analisi Bivariata
Si distinguono due casi:
•le variabili X e Y sono qualitative (sconnesse o ordinali), o una qualitativa e l’altra quantitativa discreta con poche modalità, si procede alla
rappresentazione tabellare con tabelle di contingenza (cross-tabulation analysis) e si
misura il grado di interdipendenza tra le variabili
•le variabili X e Y sono quantitative, in questo caso si possono rappresentare i dati con uno scatter-plot e si misura la relazione lineare tramite opportuni indicatori
3
Cross-tabulation analysis
Addet
ti Genere respons
6 M
6 M
10 F
10 F
7 M
3 M
3 M
6 F
4 F
Genere responsabile
M F
3 4 6 7 10
Addetti
Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2
2
Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0
0 0
2
1 1
1 0
0 2
Cross-tabulation analysis
Genere
responsabile Tot
M F
3 2 0 2
4 0 1 1
6 2 1 3
7 1 0 1
10 0 2 2
Tot 5 4 9
Addetti
1 è la frequenza
congiunta associata
alla modalità 4 del
Numero di addetti e
alla modalità F del
Genere responsabile
Cross-tabulation analysis
Genere
responsabile Tot
M F
3
3 22 00 22 4
4 00 11 11 66 22 11 33 77 11 00 11 10
10 00 22 22
Tot 5 4 9
Addetti Distribuzione marginale del
genere del responsabile (distribuzione di frequenza
semplice del carattere “genere del responsabile”)
Qual è la proporzione di punti vendita il cui responsabile è una femmina?
(44%)
44 , 4 0
p
Cross-tabulation analysis
Genere
responsabile Tot
M F
3 22 00 2
4 00 11 1
6 22 11 3
7 11 00 1
10 00 22 2
Tot 55 44 9
Addetti Distribuzione marginale degli
addetti
(distribuzione di frequenza
semplice del carattere “numero di addetti”)
Cross-tabulation analysis
Genere
responsabile Tot
M F
3 2 00 22
4 0 11 11
6 2 11 33
7 1 00 11
10 0 22 22
Tot 5 44 99
Addetti
Distribuzione parziale del numero di addetti, condizionata alla
modalità “maschio” del carattere “genere del responsabile”
Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?
Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”
Cross-tabulation analysis
Genere
responsabile Tot
M F
3 22 00 22 4 00 11 11
6 2 1 3
7 11 00 11 10 00 22 22 Tot 55 44 99
Addetti
Distribuzione parziale del genere del
responsabile,
condizionata alla modalità “6” del
carattere “numero di addetti”
Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?
Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6
Cross-tabulation analysis
Ubicazione Vendita on line
centro si
periferia si Semicentro no
periferia no
centro no
centro no
periferia no Semicentro no
centro si
Vendita on
line Tot si no
Centro 2 2 4
Semic
entro 0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Cross-tabulation analysis
Vendita on
line Tot si no
Centro 2 2 4
Semic
entro 0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Qual è la proporzione di p.v. ubicati in centro?
Nel sottoinsieme dei p.v.
che effettuano anche la vendita on line, qual è la proporzione di p.v.
ubicati in centro?
Qual è la proporzione di p.v. che vendono anche on line?
Nel sottoinsieme di p.v.
ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?
Cross-tabulation analysis
Y Tot
y1 … yj … yK
X
X1 n11 n1j n1k n1.
…
Xi ni1 nij nik ni.
…
xH nH1 nHj nHK nH.
Tot n.1 n.j n.K n
2 distribuzioni marginali
H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y
Relazione tra variabili: indipendenza
Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi
Se tra X e Y non c’è alcun legame
X e Y sono statisticamente indipendenti
Tra due caratteri c’è indipendenza statistica quando
la conoscenza della modalità di uno dei due caratteri
non migliora la “previsione” della modalità dell’altro
Relazione tra variabili:
Associazione
In presenza di una qualche relazione
«associazione» tra X e Y, per lo studio e la misura di tale relazione è necessario
specificare se si è interessati a studiare la
dipendenza o l’interdipendenza
Relazione tra variabili:
dipendenza e interdipendenza
Dipendenza: studia come le modalità di un
carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale, si parla di
«dipendenza causale»
Interdipendenza: si assume che i due caratteri siano sulla stesso piano ovvero non si distingue tra causa ed effetto e quindi che il legame sia
bidirezionale
Misure di interdipendenza
Frequenze osservate n
ijFrequenze teoriche (quelle che si
osserverebbero in caso di indipendenza statistica)
La condizione di indipendenza statistica si verifica a partire dalle differenze c
ijtra
ciascuna frequenza osservata e la corrispondente frequenza teorica
n n n
ij'n
.i
.j
' ij ij
ij
n n
c
Misure di interdipendenza
Y Tot
y1 … yj … yK
X
X1 n11 n1j n1k n1.
…
Xi ni1 nik
…
xH nH1 nHj nHK nH.
Tot n.1 n.K
Freq. osservate
n n n
'ijn
i.
.j
Freq. che si utilizzano per ricavare le freq. teoriche
n.j
nij ni.
n
Misure di interdipendenza:
frequenze osservate
Vendita on
line Tot
si no
Centro 2 2 4
Semice
ntro 0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Misure di interdipendenza:
frequenze teoriche
Vendita on
line Tot
si no
Centro 4
Semice
ntro 2
Perif. 3
Tot 3 6 9
9 3 2
9 3 4
Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?
Ubicazione
9
6 4
9 6 2
9 3 3
9
6
3
Misure di interdipendenza:
frequenze osservate e teoriche
Vendita on
line Tot si no
Centro 2 2 4
Semice ntro
0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Vendita on
line Tot si no
Centro 1,33 2,67 4 Semice
ntro
0,67 1,33 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Osservate Teoriche
Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri
Qual è il grado di associazione tra i due caratteri?
Misure di interdipendenza:
indice Chi-quadrato
Misura l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una cross tabulation
H1 i
K 1
j '
ij 2 2 ij
n
c c
ij n
ij n
'ij2
0
indipendenza statistica
2
0
grado di interdipendenza
Misure di interdipendenza:
indice V di Cramer
Indice relativo per misurare l’associazione
(interdipendenza) tra due caratteri qualitativi
H 1 , K 1
min
n V /
2
0 V 1
V=0 indipendenza statistica V=1 associazione perfetta
Più V si avvicina ad 1 e più aumenta il grado
di associazione tra X e Y
5 , 1 67
, 0 33
, 0
17 ,
0 33
,
2
0
H=3, K=2 quindi il minimo
tra H-1 e K-1 è uguale a 1
0 , 41
9 50 ,
V 1
2 2 2
1 1 1
33 , 1
33 , 1 2
67 , 0
67 , 0 0
67 , 2
67 , 2 2
33 , 1
33 , 1 2
2 2
2 2
2 2
2
Misure di interdipendenza:
Calcolo di χ 2 e V
Comunque basso grado di associazione tra le due variabili
Inferenza:
test Chi-quadrato di indipendenza
Selezionato un campione casuale con schema di
campionamento probabilistico possiamo per verificare l’ipotesi di indipendenza tra X e Y ed estendere il
risultato ottenuto alla popolazione. I passi:
1.Stabilire H 0 e H 1
H
0: indipendenza tra X e YH
1: X e Y non sono indipendenti2.Cross tabulation di X e Y (frequenze osservate) 3.Calcolo delle frequenze attese
4. Calcolo del valore empirico della statistica test dove
n n nij' ni. .j
H K2
2
c
ijc
ij n
ij n
'ijInferenza:
test Chi-quadrato di indipendenza
5 , 1 67
, 0 33
, 0
17 ,
0 33
,
2
0
Inferenza:
test Chi-quadrato di indipendenza
Nel nostro esempio
Si calcola:
la percentuale di riga dividendo la
frequenza osservata per la frequenza marginale di riga
la percentuali di colonna dividendo la
frequenza osservata per la frequenza marginale di colonna, cella per cella.
Le percentuali di riga e di colonna sono utili per
definire e comparare dei profili. Se la distribuzione delle percentuali di colonna per ciascun carattere in riga è simile da riga a riga allora i profili dei caratteri definiti dalla proprietà in riga sono simili.
Percentuali di Colonna e Percentuali di Riga
Percentuali di Colonna e Percentuali di Riga
Percentuali di riga
Percentuali di colonna
Osservando le percentuali di riga si nota come i profili di maschi e femmine siano molto diversi per ciò che riguarda la
ripetenza (75 percento dei ripetenti sono maschi contro il 25 percento delle
femmine). Dato che il 75 percento dei ripetenti sono maschi, contro un profilo
medio del 49 percento (ossia il 49 percento dei componenti del campione sono
maschi), si può supporre vi sia attrazione tra l’essere maschi e l’essere ripetenti.
Osservando le percentuali di colonna si può dire la stessa cosa ribaltata: il 63
percento dei maschi è ripetente contro il 37 percento non ripetente. Quindi i profili dei Ripetenti e dei Non Ripetenti sono diversi.
• Si percentualizza per Colonna quando si vuole
analizzare l’influenza della variabile in colonna (var.
indipendente) sulla variabile posta in riga (var.
dipendente).
Percentuali di Colonna e Percentuali di Riga
Esempio
Genere: variabile indipendente;
Occupazione: variabile dipendente;
si è posta la variabile “genere” in colonna e la variabile “occupazione” in riga per
vedere se il genere ha effetto sulla
condizione occupazionale se il genere non avesse effetto le due colonne di
percentuali sarebbero uguali
• Si percentualizza per Riga quando si vuole
analizzare l’influenza della variabile in riga (var.
indipendente) sulla variabile posta in colonna (var.
dipendente)
Percentuali di Colonna e Percentuali di Riga
Esempio
Residenza: variabile dipendente;
Occupazione: variabile indipendente;
si è posta la variabile “residenza” in riga e la variabile “occupazione” in colonna.
se la residenza non avesse effetto le due righe di percentuali sarebbero uguali
Se X e Y sono quantitativi una prima analisi della relazione tra esse viene svolta valutando
l’esistenza e l’intensità del legame lineare tra esse. A tal fine
•si può costruire una rappresentazione grafica della relazione tra le due variabili ( scatter plot) per rappresentare, se esiste, una linea di
tendenza;
•si calcolano specifici indici che misurano
l’intensità del legame lineare tra le due variabili (covarianza e coefficiente di correlazione).
Relazione tra Caratteri Quantitativi
Relazione tra Caratteri Quantitativi:
scatter plot
Due variabili quantitative:
•Ricavi sull’asse X
•Costi sull’asse Y
Ogni punto rappresenta una unità (un punto
vendita).
Le coordinate (x
i,y
i) del punto i rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita.
n=9 coppie di valori del tipo (xi,yi)
Relazione tra Caratteri Quantitativi:
scatter plot
Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due
variabili.
In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi.
Si osserva una relazione lineare positiva
(concordanza) tra costi e
ricavi.
Relazione tra Caratteri Quantitativi:
covarianza
Cov(X,Y)=0
Relazione tra Caratteri Quantitativi:
covarianza
Cov(X,Y)>0
Relazione tra Caratteri Quantitativi:
covarianza
Cov(X,Y)<0
Relazione tra Caratteri Quantitativi:
covarianza
Relazione tra Caratteri Quantitativi:
coefficiente di correlazione
1 1
XY
XY
1
0 1
XY
XY
0
1 0
XY
XY
1
ρ=1
Perfetta concordanza
ρ=-1
Perfetta discordanza
Relazione tra Caratteri Quantitativi:
coefficiente di correlazione
Relazione tra Caratteri Quantitativi: un esempio
(Scarti X) x (Scarti Y)
402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Ricavi
(X) Costi (Y)
350 205
200 100
600 350
500 270
270 200
180 120
205 105
340 210
280 140
Scarti
X Scarti Y
25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89
325 188,89 Media
Relazione tra Caratteri Quantitativi:
un esempio
325 188,89 Ricavi
(X) Costi (Y)
350 205
200 100
600 350
500 270
270 200
180 120
205 105
340 210
280 140
Media
142,83 82,25 Dev std
C’è una forte relazione lineare positiva: concordanza tra
ricavi e costi
Relazione tra Caratteri: summary
Tipo di
relazione Caratteri Struttura
dati Indici
Interdipendenza
tra X e Y qualsiasi
(se qualitativi
sconnessi è l’unico tipo di relazione da studiare)