Corso di
Analisi Statistica per le Imprese
Cross tabulation e relazioni tra variabili
Prof. L. Neri
a.a. 2015-2016
Distribuzione doppia di frequenza
Addet
ti Genere respons
6 M
6 M
10 F
10 F
7 M
3 M
3 M
6 F
4 F
Genere responsabile
M F
3 4 6 7 10
Addetti
Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2
2
Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0
0 0
2
1 1
1 0
0 2
Distribuzione doppia di frequenza
Genere
responsabile Tot
M F
3 2 0 2
4 0 1 1
6 2 1 3
7 1 0 1
10 0 2 2
Tot 5 4 9
Addetti 1 è la frequenza
congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile
Distribuzione doppia di frequenza
Genere
responsabile Tot
M F
3
3 22 00 22 4
4 00 11 11 66 22 11 33 77 11 00 11 10
10 00 22 22
Tot 5 4 9
Addetti Distribuzione marginale del
genere del responsabile (distribuzione di frequenza
semplice del carattere “genere del responsabile”)
Qual è la proporzione di punti vendita il cui responsabile è una femmina?
(44%)
44 , 4 0
p
Distribuzione doppia di frequenza
Genere
responsabile Tot
M F
3 22 00 2
4 00 11 1
6 22 11 3
7 11 00 1
10 00 22 2
Tot 55 44 9
Addetti Distribuzione marginale degli
addetti
(distribuzione di frequenza
semplice del carattere “numero di addetti”)
Distribuzione doppia di frequenza
Genere
responsabile Tot
M F
3 2 00 22
4 0 11 11
6 2 11 33
7 1 00 11
10 0 22 22
Tot 5 44 99
Addetti
Distribuzione parziale del numero di addetti, condizionata alla
modalità “maschio” del carattere “genere del responsabile”
Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?
Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”
Distribuzione doppia di frequenza
Genere
responsabile Tot
M F
3 22 00 22 4 00 11 11
6 2 1 3
7 11 00 11 10 00 22 22 Tot 55 44 99
Addetti
Distribuzione parziale del genere del
responsabile,
condizionata alla modalità “6” del
carattere “numero di addetti”
Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?
Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6
Distribuzione doppia di frequenza
Ubicazione Vendita on line
centro si
periferia si Semicentro no
periferia no
centro no
centro no
periferia no Semicentro no
centro si
Vendita on
line Tot si no
Centro 2 2 4
Semic
entro 0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Distribuzione doppia di frequenza
Vendita on
line Tot si no
Centro 2 2 4
Semic
entro 0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Qual è la proporzione di p.v. ubicati in centro?
Nel sottoinsieme dei p.v.
che effettuano anche la vendita on line, qual è la proporzione di p.v.
ubicati in centro?
Qual è la proporzione di p.v. che vendono anche on line?
Nel sottoinsieme di p.v.
ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?
Distribuzione doppia di frequenza
Y Tot
y1 … yj … yK
X
X1 n11 n1j n1k n1.
…
Xi ni1 nij nik ni.
…
xH nH1 nHj nHK nH.
Tot n.1 n.j n.K n
2 distribuzioni marginali
H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y
Relazioni tra variabili:
indipendenza
Quando si osservano due caratteri X e Y
diventa interessante studiare la relazione tra di essi
Se tra X e Y non c’è alcun legame
X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza
statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro
Associazione
In presenza di un qualche legame
(associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di:
• distinguere la tipologia di caratteri che si esaminano
• specificare se si è interessati a studiare la dipendenza o l’interdipendenza
Dipendenza e interdipendenza
Dipendenza:
studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale
Interdipendenza:
Si assume che i due caratteri abbiano lo
stesso ruolo e che il legame sia bidirezionale
Caratteri qualitativi sconnessi Tabella doppia di frequenza
Frequenze osservate nij
Frequenze teoriche (quelle che si
osserverebbero in caso di indipendenza statistica)
La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra
ciascuna frequenza osservata e la corrispondente frequenza teorica
n n nij' n.i .j
' ij ij
ij n n
c
Freq. osservate e freq. teoriche
Y Tot
y1 … yj … yK
X
X1 n11 n1j n1k n1.
…
Xi ni1 nik
…
xH nH1 nHj nHK nH.
Tot n.1 n.K
Freq. osservate
n n n'ij ni. .j
Freq. che si utilizzano per ricavare le freq. teoriche
n.j
nij ni.
n
Frequenze osservate
Vendita on
line Tot
si no
Centro 2 2 4
Semice
ntro 0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Frequenze teoriche
Vendita on
line Tot
si no
Centro 4
Semice
ntro 2
Perif. 3
Tot 3 6 9
9 3 2
9 3 4
Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?
Ubicazione 9
6 4
9 6 2
9 3 3
9 6 3
Frequenze osservate e teoriche
Vendita on
line Tot si no
Centro 2 2 4
Semice ntro
0 2 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Vendita on
line Tot si no
Centro 1,33 2,67 4 Semice
ntro
0,67 1,33 2
Perif. 1 2 3
Tot 3 6 9
Ubicazione
Osservate Teoriche
Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri
Qual è il grado di associazione tra i due caratteri?
Interdipendenza:
Indice Chi-quadrato
Studia l’interdipendenza tra due caratteri
qualitativi sconnessi a partire da una tabella doppia
H1 i
K 1
j '
ij 2 2 ij
n
c c
ij n
ij n
'ij2 0
indipendenza statistica
2 0
interdipendenza
Interdipendenza: Indice V di Cramer
Indice relativo per misurare l’associazione
(interdipendenza) tra due caratteri qualitativi
H 1 , K 1
min
n V /
2
0 V 1
V=0 indipendenza statistica V=1 associazione perfetta
Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y
5 , 1 67
, 0 33
, 0
17 ,
0 33
,
2 0
H=3, K=2 quindi il minimo
tra H-1 e K-1 è uguale a 1 0,41
9 50 ,
V 1
2 2 2
1 1 1
33 , 1
33 , 1 2
67 , 0
67 , 0 0
67 , 2
67 , 2 2
33 , 1
33 , 1 2
2 2
2 2
2 2
2
Calcolo di χ
2e V
Se X e/o Y sono qualitativi ordinati o
quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibile
Tuttavia ci sono indici più opportuni da utilizzare
Per caratteri che non sono
qualitativi sconnessi
Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o
quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.
Un carattere quantitativo e uno
qualsiasi
Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame
lineare tra le variabili (covarianza, coefficiente di correlazione).
Caratteri quantitativi
Rappresentazione grafica Grafico di dispersione
Due variabili quantitative Ricavi sull’asse X
Costi sull’asse Y
Ogni punto rappresenta una unità (un punto
vendita)
Le coordinate (x,y) del punto rappresentano i
valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita
n=9 coppie di valori del tipo (xi,yi)
Grafico di dispersione
Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due
variabili
In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi
C’è una relazione lineare positiva (concordanza) tra costi e ricavi
Interdipendenza tra due caratteri quantitativi
Covarianza: Indice simmetrico di associazione tra due variabili quantitative
Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y
oppure alti valori di X corrispondenti a alti valori di Y).
Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra
variabile)
Cov = 0 in assenza di relazione lineare tra X e Y
x x
y y
n ) 1
Y , X (
Cov n i
1
i i
XY
Cov(X,Y)=0
Covarianza nulla
Cov(X,Y)>0
Covarianza positiva (concordanza)
Cov(X,Y)<0
Covarianza negativa (discordanza)
La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y)
prossimo allo 0, il che indica assenza di
legame lineare X e Y NON sono
indipendenti, ma legati da una forte relazione di tipo non lineare
Legame non lineare
Correlazione lineare
Indice relativo di concordanza/discordanza
perfetta discordanza discordanza
assenza di legame lineare concordanza
concordanza perfetta
n
1 i
2 i
n 1 i
2 i
i n
1
i i
Y X XY XY
y y
x x
y y
x x
) Y , X (
Corr 1 XY 1
XY 1
0 1 XY
XY 0
1 0 XY
1
ρ=1
Perfetta concordanza
ρ=-1
Perfetta discordanza
Concordanza e discordanza
perfetta
Calcolo della covarianza
(Scarti X) x (Scarti Y)
402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Ricavi
(X) Costi (Y)
350 205
200 100
600 350
500 270
270 200
180 120
205 105
340 210
280 140
Scarti
X Scarti Y
25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89
325 188,89
Media 10219,44
9 91975 )
Y , X ( Cov y
y x n x
1
i n
1
i i
Calcolo del coefficiente di correlazione
325 188,89
97 , 48 0
, 78 66
, 134
44 , 10219
Y X
XY
Ricavi
(X) Costi (Y)
350 205
200 100
600 350
500 270
270 200
180 120
205 105
340 210
280 140
Media
134,66 78,48 Dev std
44 ,
10219 )
Y , X (
Cov
C’è una forte concordanza tra ricavi e costi
Ancora sulla covarianza
n
1
i i i
i n
1
i xi x y y x y nxy
) Y , X ( Codevianza
n
1
i xiyy xy n
1 n
) Y , X ( Codev )
Y , X ( Cov
Relazioni tra variabili: riepilogo
Tipo di relazione Caratteri Struttura
dati Indici
Interdipendenza
tra X e Y qualsiasi
(se qualitativi
sconnessi è l’unico tipo di relazione da studiare)
Tabella doppia di frequenze
χ2
V (relativo)
Dipendenza in
media di Y da X Y quantitativo X qualsiasi
(se quantitativo continuo, in classi)
Valori
raggruppati in base alle modalità di X
η2 (relativo)
Interdipendenza tra X e Y
(concordanza/di scordanza)
quantitativi Coppie di
valori Cov
ρ (relativo)