• Non ci sono risultati.

Cross tabulation e relazioni tra variabili

N/A
N/A
Protected

Academic year: 2021

Condividi "Cross tabulation e relazioni tra variabili"

Copied!
40
0
0

Testo completo

(1)

Corso di

Analisi Statistica per le Imprese

Cross tabulation e relazioni tra variabili

Prof. L. Neri

a.a. 2015-2016

(2)

Distribuzione doppia di frequenza

Addet

ti Genere respons

6 M

6 M

10 F

10 F

7 M

3 M

3 M

6 F

4 F

Genere responsabile

M F

3 4 6 7 10

Addetti

Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2

2

Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0

0 0

2

1 1

1 0

0 2

(3)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 2 0 2

4 0 1 1

6 2 1 3

7 1 0 1

10 0 2 2

Tot 5 4 9

Addetti 1 è la frequenza

congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile

(4)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3

3 22 00 22 4

4 00 11 11 66 22 11 33 77 11 00 11 10

10 00 22 22

Tot 5 4 9

Addetti Distribuzione marginale del

genere del responsabile (distribuzione di frequenza

semplice del carattere “genere del responsabile”)

Qual è la proporzione di punti vendita il cui responsabile è una femmina?

(44%)

44 , 4 0

p

(5)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 22 00 2

4 00 11 1

6 22 11 3

7 11 00 1

10 00 22 2

Tot 55 44 9

Addetti Distribuzione marginale degli

addetti

(distribuzione di frequenza

semplice del carattere “numero di addetti”)

(6)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 2 00 22

4 0 11 11

6 2 11 33

7 1 00 11

10 0 22 22

Tot 5 44 99

Addetti

Distribuzione parziale del numero di addetti, condizionata alla

modalità “maschio” del carattere “genere del responsabile”

Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?

Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”

(7)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 22 00 22 4 00 11 11

6 2 1 3

7 11 00 11 10 00 22 22 Tot 55 44 99

Addetti

Distribuzione parziale del genere del

responsabile,

condizionata alla modalità “6” del

carattere “numero di addetti”

Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?

Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6

(8)

Distribuzione doppia di frequenza

Ubicazione Vendita on line

centro si

periferia si Semicentro no

periferia no

centro no

centro no

periferia no Semicentro no

centro si

Vendita on

line Tot si no

Centro 2 2 4

Semic

entro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

(9)

Distribuzione doppia di frequenza

Vendita on

line Tot si no

Centro 2 2 4

Semic

entro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Qual è la proporzione di p.v. ubicati in centro?

Nel sottoinsieme dei p.v.

che effettuano anche la vendita on line, qual è la proporzione di p.v.

ubicati in centro?

Qual è la proporzione di p.v. che vendono anche on line?

Nel sottoinsieme di p.v.

ubicati in periferia, qual è la proporzione di p.v. che

(10)

Distribuzione doppia di frequenza

Y Tot

y1 yj yK

X

X1 n11 n1j n1k n1.

Xi ni1 nij nik ni.

xH nH1 nHj nHK nH.

Tot n.1 n.j n.K n

2 distribuzioni marginali

H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y

(11)

Relazioni tra variabili:

indipendenza

Quando si osservano due caratteri X e Y

diventa interessante studiare la relazione tra di essi

Se tra X e Y non c’è alcun legame

X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza

statistica quando la conoscenza della

modalità di uno dei due caratteri non

migliora la “previsione” della modalità

dell’altro

(12)

Associazione

In presenza di un qualche legame

(associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di:

• distinguere la tipologia di caratteri che si esaminano

• specificare se si è interessati a studiare la

dipendenza o l’interdipendenza

(13)

Dipendenza e interdipendenza

Dipendenza:

studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale

Interdipendenza:

Si assume che i due caratteri abbiano lo

stesso ruolo e che il legame sia bidirezionale

(14)

Caratteri qualitativi sconnessi Tabella doppia di frequenza

Frequenze osservate n

ij

Frequenze teoriche (quelle che si

osserverebbero in caso di indipendenza statistica)

La condizione di indipendenza statistica si verifica a partire dalle differenze c

ij

tra

ciascuna frequenza osservata e la corrispondente frequenza teorica

n n n

ij'

n

.i

.j

' ij ij

ij

n n

c  

(15)

Freq. osservate e freq. teoriche

Y Tot

y1 yj yK

X

X1 n11 n1j n1k n1.

Xi ni1 nik

xH nH1 nHj nHK nH.

Tot n.1 n.K

Freq. osservate

n n n'ij ni. .j

Freq. che si utilizzano per ricavare le freq. teoriche

n.j

nij ni.

n

(16)

Frequenze osservate

Vendita on

line Tot

si no

Centro 2 2 4

Semice

ntro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

(17)

Frequenze teoriche

Vendita on

line Tot

si no

Centro 4

Semice

ntro 2

Perif. 3

Tot 3 6 9

9 3 2 

9 3 4 

Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?

Ubicazione 9

6 4 

9 6 2 

9 3 3 

9 6 3 

(18)

Frequenze osservate e teoriche

Vendita on

line Tot si no

Centro 2 2 4

Semice ntro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Vendita on

line Tot si no

Centro 1,33 2,67 4 Semice

ntro

0,67 1,33 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Osservate Teoriche

Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri

Qual è il grado di associazione tra i due caratteri?

(19)

Interdipendenza:

Indice Chi-quadrato

Studia l’interdipendenza tra due caratteri

qualitativi sconnessi a partire da una tabella doppia

 

H

1 i

K 1

j '

ij 2 2 ij

n

c c

ij

n

ij

n

'ij

2

 0

 indipendenza statistica

2

 0

 interdipendenza

(20)

Interdipendenza: Indice V di Cramer

Indice relativo per misurare l’associazione

(interdipendenza) tra due caratteri qualitativi

   

H 1 , K 1

min

n V /

2

  0 V 1

V=0 indipendenza statistica V=1 associazione perfetta

Più V si avvicina ad 1 e più aumenta il grado

di associazione tra X e Y

(21)

5 , 1 67

, 0 33

, 0

17 ,

0 33

,

2

0

H=3, K=2 quindi il minimo

tra H-1 e K-1 è uguale a 1 0,41

9 50 ,

V 1

   

   

   

2 2 2

1 1 1

33 , 1

33 , 1 2

67 , 0

67 , 0 0

67 , 2

67 , 2 2

33 , 1

33 , 1 2

2 2

2 2

2 2

2

 

 

 

 

 

 

Calcolo di χ

2

e V

(22)

Se X e/o Y sono qualitativi ordinati o

quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibile

Tuttavia ci sono indici più opportuni da utilizzare

Per caratteri che non sono

qualitativi sconnessi

(23)

Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o

quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.

Un carattere quantitativo e uno

qualsiasi

(24)

Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame

lineare tra le variabili (covarianza, coefficiente di correlazione).

Caratteri quantitativi

(25)

Rappresentazione grafica Grafico di dispersione

Due variabili quantitative Ricavi sull’asse X

Costi sull’asse Y

Ogni punto rappresenta una unità (un punto

vendita)

Le coordinate (x,y) del punto rappresentano i

valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita

n=9 coppie di valori del tipo (xi,yi)

(26)

Grafico di dispersione

Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due

variabili

In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi

C’è una relazione lineare positiva (concordanza) tra costi e ricavi

(27)

Interdipendenza tra due caratteri quantitativi

Covarianza: Indice simmetrico di associazione tra due variabili quantitative

Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y

oppure alti valori di X corrispondenti a alti valori di Y).

Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra

variabile)

x x  y y

n ) 1

Y , X (

Cov

n i

1

i i

XY

  

 

(28)

Cov(X,Y)=0

Covarianza nulla

(29)

Cov(X,Y)>0

Covarianza positiva (concordanza)

(30)

Cov(X,Y)<0

Covarianza negativa (discordanza)

(31)

La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y)

prossimo allo 0, il che indica assenza di

legame lineare X e Y NON sono

indipendenti, ma legati da una forte relazione di tipo non lineare

Legame non lineare

(32)

Correlazione lineare

Indice relativo di concordanza/discordanza

perfetta discordanza discordanza

assenza di legame lineare concordanza

concordanza perfetta

  

    

n

1 i

2 i

n 1 i

2 i

i n

1

i i

Y X XY XY

y y

x x

y y

x x

) Y , X (

Corr 1 XY 1

XY  1

0 1  XY

XY  0

1 0  XY

 1

(33)

ρ=1

Perfetta concordanza

ρ=-1

Perfetta discordanza

Concordanza e discordanza

perfetta

(34)

Calcolo della covarianza

(Scarti X) x (Scarti Y)

402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Ricavi

(X) Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Scarti

X Scarti Y

25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89

325 188,89

Media   10219,44

9 91975 )

Y , X ( Cov y

y x n x

1

i n

1

i i

(35)

Calcolo del coefficiente di correlazione

325 188,89

97 , 48 0

, 78 66

, 134

44 , 10219

Y X

XY

Ricavi

(X) Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Media

44 ,

10219 )

Y , X (

Cov

C’è una forte concordanza tra ricavi e costi

(36)

Ancora sulla covarianza

   

n

1

i i i

i n

1

i xi x y y x y nxy

) Y , X ( Codevianza

n

1

i xiyy xy n

1 n

) Y , X ( Codev )

Y , X ( Cov

(37)

Relazioni tra variabili: riepilogo

Tipo di relazione Caratteri Struttura

dati Indici

Interdipendenza

tra X e Y qualsiasi

(se qualitativi

sconnessi è l’unico tipo di relazione da studiare)

Tabella doppia di frequenze

χ2

V (relativo)

Dipendenza in

media di Y da X Y quantitativo X qualsiasi

(se quantitativo continuo, in classi)

Valori

raggruppati in base alle modalità di X

η2 (relativo)

Interdipendenza tra X e Y

(concordanza/di

quantitativi Coppie di

valori Cov

ρ (relativo)

(38)

Si vuole investire nel mercato azionario italiano e in quello di un altro Paese con l’obiettivo di diversificare il portafoglio.

Sulla base delle serie mensili delle variazioni del

Morgan Stanley Capital Index (MSCI) riferito a Italia, Germania, Francia e Singapore si hanno i seguenti

risultati: ρ

Italia-Francia 0.87 Italia-Germania 0.88 Italia-Singapore 0.63

Il suggerimento è di investire in titoli azionari

Relazioni tra variabili: applicazioni

(39)

Dalla teoria economica sappiamo che esiste una relazione tra la variabile produzione (misurata

tramite il valore aggiunto) e gli input fattore capitale e fattore lavoro.

Dalle serie storiche (1970-1983) delle tre variabili si ottengono i grafici di dispersione del valore aggiunto e, rispettivamente, l’input di capitale e l’input di

lavoro

Relazioni tra variabili: applicazioni

(40)

Relazioni tra variabili: applicazioni

Il valore aggiunto ha una correlazione maggiore con l’input di capitale (grafico a sinistra) che con l’input di lavoro (grafico a destra)

Riferimenti

Documenti correlati

Oltre a questi Ooms richiede altri dati accessori necessari per specificare diversi aspetti della soluzione delle equazioni, quali: comporti isotermo o presenza

Emit a copy of the input data = Local top-k list emitted by a reducer of Job #1 (NullWritable, (“product_x,product_y”, num. Occurrences_xy)

• Un puntatore contiene l’indirizzo della locazione di memoria assegnata ad una variabile (che conterrà i valori di tale variabile).. • Si dice che il puntatore ‘punta’

quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.

Se la distribuzione delle percentuali di colonna per ciascun carattere in riga è simile da riga a riga allora i profili dei caratteri definiti dalla proprietà in riga sono

Come il nome di un array equivale a un puntatore, così un array di puntatori equivale a un puntatore a puntatore (con in più l’allocazione della memoria puntata, come nel caso di

• Regola 3: Anche se le stringhe di formato della scanf() assomigliano molto a quelle della printf(), hanno una semantica leggermente differente (leggete il manuale!). • Regola

Siano dati in input le informazioni su n libri di una biblioteca creando quattro vettori con il codice del libro, i loro prezzi, il codice della casa editrice e l’anno di