• Non ci sono risultati.

2.Cross tabulation e relazione lineare tra variabili

N/A
N/A
Protected

Academic year: 2021

Condividi "2.Cross tabulation e relazione lineare tra variabili"

Copied!
43
0
0

Testo completo

(1)

Corso di

Analisi Statistica per le Imprese

2.Cross tabulation e relazione lineare tra

variabili

Prof. L. Neri

a.a. 2017-2018

(2)

Analisi Bivariata

Una volta effettuata un’analisi preliminare delle singole variabili (analisi univariata), è necessario comprendere se le variabili oggetto di studio sono associate oppure no e, se sì, misurare il grado di associazione.

In prima battuta si procede alla valutazione della

interdipendenza (relazione X Y, relazione Y X) tra

due variabili (analisi bivariata).

(3)

Analisi Bivariata

Si distinguono due casi:

•le variabili X e Y sono qualitative (sconnesse o ordinali), o una qualitativa e l’altra quantitativa discreta con poche modalità, si procede alla

rappresentazione tabellare con tabelle di contingenza (cross-tabulation analysis) e si

misura il grado di interdipendenza tra le variabili

•le variabili X e Y sono quantitative, in questo caso si possono rappresentare i dati con uno scatter-plot e si misura la relazione lineare tramite opportuni indicatori

3

(4)

Cross-tabulation analysis

Addet

ti Genere respons

6 M

6 M

10 F

10 F

7 M

3 M

3 M

6 F

4 F

Genere responsabile

M F

3 4 6 7 10

Addetti

Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2

2

Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0

0 0

2

1 1

1 0

0 2

(5)

Cross-tabulation analysis

Genere

responsabile Tot

M F

3 2 0 2

4 0 1 1

6 2 1 3

7 1 0 1

10 0 2 2

Tot 5 4 9

Addetti

1 è la frequenza

congiunta associata

alla modalità 4 del

Numero di addetti e

alla modalità F del

Genere responsabile

(6)

Cross-tabulation analysis

Genere

responsabile Tot

M F

3

3 22 00 22 4

4 00 11 11 66 22 11 33 77 11 00 11 10

10 00 22 22

Tot 5 4 9

Addetti Distribuzione marginale del

genere del responsabile (distribuzione di frequenza

semplice del carattere “genere del responsabile”)

Qual è la proporzione di punti vendita il cui responsabile è una femmina?

(44%)

44 , 4 0

p  

(7)

Cross-tabulation analysis

Genere

responsabile Tot

M F

3 22 00 2

4 00 11 1

6 22 11 3

7 11 00 1

10 00 22 2

Tot 55 44 9

Addetti Distribuzione marginale degli

addetti

(distribuzione di frequenza

semplice del carattere “numero di addetti”)

(8)

Cross-tabulation analysis

Genere

responsabile Tot

M F

3 2 00 22

4 0 11 11

6 2 11 33

7 1 00 11

10 0 22 22

Tot 5 44 99

Addetti

Distribuzione parziale del numero di addetti, condizionata alla

modalità “maschio” del carattere “genere del responsabile”

Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?

Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”

(9)

Cross-tabulation analysis

Genere

responsabile Tot

M F

3 22 00 22 4 00 11 11

6 2 1 3

7 11 00 11 10 00 22 22 Tot 55 44 99

Addetti

Distribuzione parziale del genere del

responsabile,

condizionata alla modalità “6” del

carattere “numero di addetti”

Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?

Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6

(10)

Cross-tabulation analysis

Ubicazione Vendita on line

centro si

periferia si Semicentro no

periferia no

centro no

centro no

periferia no Semicentro no

centro si

Vendita on

line Tot si no

Centro 2 2 4

Semic

entro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

(11)

Cross-tabulation analysis

Vendita on

line Tot si no

Centro 2 2 4

Semic

entro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Qual è la proporzione di p.v. ubicati in centro?

Nel sottoinsieme dei p.v.

che effettuano anche la vendita on line, qual è la proporzione di p.v.

ubicati in centro?

Qual è la proporzione di p.v. che vendono anche on line?

Nel sottoinsieme di p.v.

ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?

(12)

Cross-tabulation analysis

Y Tot

y1 yj yK

X

X1 n11 n1j n1k n1.

Xi ni1 nij nik ni.

xH nH1 nHj nHK nH.

Tot n.1 n.j n.K n

2 distribuzioni marginali

H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y

(13)

Relazione tra variabili: indipendenza

Quando si osservano due caratteri X e Y diventa interessante studiare la relazione tra di essi

Se tra X e Y non c’è alcun legame

X e Y sono statisticamente indipendenti

Tra due caratteri c’è indipendenza statistica quando

la conoscenza della modalità di uno dei due caratteri

non migliora la “previsione” della modalità dell’altro

(14)

Relazione tra variabili:

Associazione

In presenza di una qualche relazione

«associazione» tra X e Y, per lo studio e la misura di tale relazione è necessario

specificare se si è interessati a studiare la

dipendenza o l’interdipendenza

(15)

Relazione tra variabili:

dipendenza e interdipendenza

Dipendenza: studia come le modalità di un

carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale, si parla di

«dipendenza causale»

Interdipendenza: si assume che i due caratteri siano sulla stesso piano ovvero non si distingue tra causa ed effetto e quindi che il legame sia

bidirezionale

(16)

Misure di interdipendenza

Frequenze osservate n

ij

Frequenze teoriche (quelle che si

osserverebbero in caso di indipendenza statistica)

La condizione di indipendenza statistica si verifica a partire dalle differenze c

ij

tra

ciascuna frequenza osservata e la corrispondente frequenza teorica

n n n

ij'

n

.i

.j

' ij ij

ij

n n

c  

(17)

Misure di interdipendenza

Y Tot

y1 yj yK

X

X1 n11 n1j n1k n1.

Xi ni1 nik

xH nH1 nHj nHK nH.

Tot n.1 n.K

Freq. osservate

n n n

'ij

n

i.

.j

Freq. che si utilizzano per ricavare le freq. teoriche

n.j

nij ni.

n

(18)

Misure di interdipendenza:

frequenze osservate

Vendita on

line Tot

si no

Centro 2 2 4

Semice

ntro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

(19)

Misure di interdipendenza:

frequenze teoriche

Vendita on

line Tot

si no

Centro 4

Semice

ntro 2

Perif. 3

Tot 3 6 9

9 3 2 

9 3 4 

Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?

Ubicazione

9

6 4 

9 6 2 

9 3 3 

9

6

3 

(20)

Misure di interdipendenza:

frequenze osservate e teoriche

Vendita on

line Tot si no

Centro 2 2 4

Semice ntro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Vendita on

line Tot si no

Centro 1,33 2,67 4 Semice

ntro

0,67 1,33 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Osservate Teoriche

Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri

Qual è il grado di associazione tra i due caratteri?

(21)

Misure di interdipendenza:

indice Chi-quadrato

Misura l’interdipendenza tra due caratteri qualitativi sconnessi a partire da una cross tabulation

 

 

H

1 i

K 1

j '

ij 2 2 ij

n

c c

ij

n

ij

n

'ij

2

 0

indipendenza statistica

2

 0

 grado di interdipendenza

(22)

Misure di interdipendenza:

indice V di Cramer

Indice relativo per misurare l’associazione

(interdipendenza) tra due caratteri qualitativi

   

H 1 , K 1

min

n V /

2

  0 V 1

V=0 indipendenza statistica V=1 associazione perfetta

Più V si avvicina ad 1 e più aumenta il grado

di associazione tra X e Y

(23)

5 , 1 67

, 0 33

, 0

17 ,

0 33

,

2

0

H=3, K=2 quindi il minimo

tra H-1 e K-1 è uguale a 1

0 , 41

9 50 ,

V  1 

   

   

   

2 2 2

1 1 1

33 , 1

33 , 1 2

67 , 0

67 , 0 0

67 , 2

67 , 2 2

33 , 1

33 , 1 2

2 2

2 2

2 2

2

 

 

 

 

 

 

Misure di interdipendenza:

Calcolo di χ 2 e V

Comunque basso grado di associazione tra le due variabili

(24)

Inferenza:

test Chi-quadrato di indipendenza

Selezionato un campione casuale con schema di

campionamento probabilistico possiamo per verificare l’ipotesi di indipendenza tra X e Y ed estendere il

risultato ottenuto alla popolazione. I passi:

1.Stabilire H 0 e H 1

H

0: indipendenza tra X e Y

H

1: X e Y non sono indipendenti

2.Cross tabulation di X e Y (frequenze osservate) 3.Calcolo delle frequenze attese

4. Calcolo del valore empirico della statistica test dove

n n nij' ni..j

 

H K

2

2

c

ij

c

ij

 n

ij

 n

'ij

(25)

Inferenza:

test Chi-quadrato di indipendenza

(26)

5 , 1 67

, 0 33

, 0

17 ,

0 33

,

2

0

Inferenza:

test Chi-quadrato di indipendenza

Nel nostro esempio

(27)

Si calcola:

la percentuale di riga dividendo la 

frequenza osservata per la frequenza marginale di riga

la percentuali di colonna dividendo la 

frequenza osservata per la frequenza marginale di colonna, cella per cella.

Le percentuali di riga e di colonna  sono utili per

definire e comparare dei profili. Se la distribuzione delle percentuali di colonna per ciascun carattere in riga è simile da riga a riga allora i profili dei caratteri definiti dalla proprietà in riga sono simili.

Percentuali di Colonna e Percentuali di Riga

(28)

Percentuali di Colonna e Percentuali di Riga

Percentuali di riga

Percentuali di colonna

Osservando le percentuali di riga si nota come i profili di maschi e femmine siano molto diversi per ciò che riguarda la

ripetenza (75 percento dei ripetenti sono maschi contro il 25 percento delle

femmine). Dato che il 75 percento dei ripetenti sono maschi, contro un profilo

medio del 49 percento (ossia il 49 percento dei componenti del campione sono

maschi), si può supporre vi sia attrazione tra l’essere maschi e l’essere ripetenti.

Osservando le percentuali di colonna si può dire la stessa cosa ribaltata: il 63

percento dei maschi è ripetente contro il 37 percento non ripetente. Quindi i profili dei Ripetenti e dei Non Ripetenti sono diversi.

(29)

• Si percentualizza per Colonna quando si vuole

analizzare l’influenza della variabile in colonna (var.

indipendente) sulla variabile posta in riga (var.

dipendente).

Percentuali di Colonna e Percentuali di Riga

Esempio

Genere: variabile indipendente;

Occupazione: variabile dipendente;

si è posta la variabile “genere” in colonna e la variabile “occupazione” in riga per

vedere se il genere ha effetto sulla

condizione occupazionale se il genere non avesse effetto le due colonne di

percentuali sarebbero uguali

(30)

• Si percentualizza per Riga quando si vuole

analizzare l’influenza della variabile in riga (var.

indipendente) sulla variabile posta in colonna (var.

dipendente)

Percentuali di Colonna e Percentuali di Riga

Esempio

Residenza: variabile dipendente;

Occupazione: variabile indipendente;

si è posta la variabile “residenza” in riga e la variabile “occupazione” in colonna.

 se la residenza non avesse effetto le due righe di percentuali sarebbero uguali

(31)

Se X e Y sono quantitativi una prima analisi della relazione tra esse viene svolta valutando

l’esistenza e l’intensità del legame lineare tra esse. A tal fine

•si può costruire una rappresentazione grafica della relazione tra le due variabili ( scatter plot) per rappresentare, se esiste, una linea di

tendenza;

•si calcolano specifici indici che misurano

l’intensità del legame lineare tra le due variabili (covarianza e coefficiente di correlazione).

Relazione tra Caratteri Quantitativi

(32)

Relazione tra Caratteri Quantitativi:

scatter plot

Due variabili quantitative:

•Ricavi sull’asse X

•Costi sull’asse Y

Ogni punto rappresenta una unità (un punto

vendita).

Le coordinate (x

i

,y

i

) del punto i rappresentano i valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita.

n=9 coppie di valori del tipo (xi,yi)

(33)

Relazione tra Caratteri Quantitativi:

scatter plot

Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due

variabili.

In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi.

Si osserva una relazione lineare positiva

(concordanza) tra costi e

ricavi.

(34)

Relazione tra Caratteri Quantitativi:

covarianza

(35)

Cov(X,Y)=0

Relazione tra Caratteri Quantitativi:

covarianza

(36)

Cov(X,Y)>0

Relazione tra Caratteri Quantitativi:

covarianza

(37)

Cov(X,Y)<0

Relazione tra Caratteri Quantitativi:

covarianza

(38)

Relazione tra Caratteri Quantitativi:

coefficiente di correlazione

1 1  

XY

XY

  1

0 1  

XY

XY

 0

1 0  

XY

XY

 1

(39)

ρ=1

Perfetta concordanza

ρ=-1

Perfetta discordanza

Relazione tra Caratteri Quantitativi:

coefficiente di correlazione

(40)

Relazione tra Caratteri Quantitativi: un esempio

(Scarti X) x (Scarti Y)

402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Ricavi

(X) Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Scarti

X Scarti Y

25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89

325 188,89 Media

(41)

Relazione tra Caratteri Quantitativi:

un esempio

325 188,89 Ricavi

(X) Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Media

142,83 82,25 Dev std

C’è una forte relazione lineare positiva: concordanza tra

ricavi e costi

(42)

Relazione tra Caratteri: summary

Tipo di

relazione Caratteri Struttura

dati Indici

Interdipendenza

tra X e Y qualsiasi

(se qualitativi

sconnessi è l’unico tipo di relazione da studiare)

Cross

tabulation χ

2

V (indice relativo) Lineare di

Interdipendenza tra X e Y

quantitativi Coppie di

valori (X,Y) Covarianza,

ρ (indice

relativo)

(43)

Se X ed Y sono indipendenti allora Cov (X, Y ) = 0

Il viceversa però non `e vero: non basta verificare la singola condizione numerica Cov (X, Y ) = 0 per

dedurre l’indipendenza.

Se la coppia (X, Y ) ha una distribuzione

Normale bivariata, allora la condizione Cov (X, Y) ) = 0 implica l’indipendenza.

Relazione tra Caratteri Quantitativi:

indipendenza vs incorrelazione

Riferimenti

Documenti correlati

Naturalmente, le preferenze di spesa riflettono scelte politiche ed è proprio per questo motivo che la questione, tutta politica, del futuro delle relazioni Stati Uniti – Europa

[r]

[r]

I gestori delle identità già accreditati ed i gestori dei servizi che hanno già stipulato convenzione con Agid prima della pubblicazione del presente avviso, sono tenuti ad

Steiner (1796–1863) hanno provato che ogni costruzione eseguibile con riga e compasso è ottenibile anche con la sola riga quando sia assegnata, nel foglio, una circonferenza

La scoperta dei numeri trascendenti consentì, come vedremo, la dimostrazione d’impossibilità di diversi antichi problemi geometrici riguardanti le costruzioni con riga e compasso;

Calcolare il numero delle matrici in X che non soddisfano nessuna delle seguenti condizioni:. a) la terza colonna ha tutti gli elementi nulli; b) la prima riga ha tutti gli

• La trigonometria compare con una tabella di valori dell’arco e della corda per una serie di angoli al centro di una circonferenza.