• Non ci sono risultati.

Cross tabulation e relazioni tra variabili

N/A
N/A
Protected

Academic year: 2021

Condividi "Cross tabulation e relazioni tra variabili"

Copied!
37
0
0

Testo completo

(1)

Corso di

Analisi Statistica per le Imprese

Cross tabulation e relazioni tra variabili

Prof. L. Neri

a.a. 2015-2016

(2)

Distribuzione doppia di frequenza

Addet

ti Genere respons

6 M

6 M

10 F

10 F

7 M

3 M

3 M

6 F

4 F

Genere responsabile

M F

3 4 6 7 10

Addetti

Quanti sono i punti vendita con 3 addetti, il cui responsabile è un maschio? 2

2

Quanti sono i punti vendita con 3 addetti, il cui responsabile è una femmina? 0

0 0

2

1 1

1 0

0 2

(3)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 2 0 2

4 0 1 1

6 2 1 3

7 1 0 1

10 0 2 2

Tot 5 4 9

Addetti 1 è la frequenza

congiunta associata alla modalità 4 del Numero di addetti e alla modalità F del Genere responsabile

(4)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3

3 22 00 22 4

4 00 11 11 66 22 11 33 77 11 00 11 10

10 00 22 22

Tot 5 4 9

Addetti Distribuzione marginale del

genere del responsabile (distribuzione di frequenza

semplice del carattere “genere del responsabile”)

Qual è la proporzione di punti vendita il cui responsabile è una femmina?

(44%)

44 , 4 0

p

(5)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 22 00 2

4 00 11 1

6 22 11 3

7 11 00 1

10 00 22 2

Tot 55 44 9

Addetti Distribuzione marginale degli

addetti

(distribuzione di frequenza

semplice del carattere “numero di addetti”)

(6)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 2 00 22

4 0 11 11

6 2 11 33

7 1 00 11

10 0 22 22

Tot 5 44 99

Addetti

Distribuzione parziale del numero di addetti, condizionata alla

modalità “maschio” del carattere “genere del responsabile”

Qual è il numero medio di addetti dei punti vendita il cui responsabile è un uomo?

Distribuzione del numero di addetti dato che il genere del responsabile è “maschio”

(7)

Distribuzione doppia di frequenza

Genere

responsabile Tot

M F

3 22 00 22 4 00 11 11

6 2 1 3

7 11 00 11 10 00 22 22 Tot 55 44 99

Addetti

Distribuzione parziale del genere del

responsabile,

condizionata alla modalità “6” del

carattere “numero di addetti”

Considerando i punti vendita con 6 addetti, qual è la proporzione il cui responsabile è una femmina?

Distribuzione del genere del responsabile dato che il numero di addetti è pari a 6

(8)

Distribuzione doppia di frequenza

Ubicazione Vendita on line

centro si

periferia si Semicentro no

periferia no

centro no

centro no

periferia no Semicentro no

centro si

Vendita on

line Tot si no

Centro 2 2 4

Semic

entro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

(9)

Distribuzione doppia di frequenza

Vendita on

line Tot si no

Centro 2 2 4

Semic

entro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Qual è la proporzione di p.v. ubicati in centro?

Nel sottoinsieme dei p.v.

che effettuano anche la vendita on line, qual è la proporzione di p.v.

ubicati in centro?

Qual è la proporzione di p.v. che vendono anche on line?

Nel sottoinsieme di p.v.

ubicati in periferia, qual è la proporzione di p.v. che vendono anche on line?

(10)

Distribuzione doppia di frequenza

Y Tot

y1 yj yK

X

X1 n11 n1j n1k n1.

Xi ni1 nij nik ni.

xH nH1 nHj nHK nH.

Tot n.1 n.j n.K n

2 distribuzioni marginali

H distribuzioni parziali di Y, condizionate ad ogni valore di X K distribuzioni parziali di X, condizionate ad ogni valore di Y

(11)

Relazioni tra variabili:

indipendenza

Quando si osservano due caratteri X e Y

diventa interessante studiare la relazione tra di essi

Se tra X e Y non c’è alcun legame

X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza

statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro

(12)

Associazione

In presenza di un qualche legame

(associazione) tra X e Y, lo studio della relazione tra i due caratteri richiede di:

• distinguere la tipologia di caratteri che si esaminano

• specificare se si è interessati a studiare la dipendenza o l’interdipendenza

(13)

Dipendenza e interdipendenza

Dipendenza:

studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale

Interdipendenza:

Si assume che i due caratteri abbiano lo

stesso ruolo e che il legame sia bidirezionale

(14)

Caratteri qualitativi sconnessi Tabella doppia di frequenza

Frequenze osservate nij

Frequenze teoriche (quelle che si

osserverebbero in caso di indipendenza statistica)

La condizione di indipendenza statistica si verifica a partire dalle differenze cij tra

ciascuna frequenza osservata e la corrispondente frequenza teorica

n n nij' n.i .j

' ij ij

ij n n

c  

(15)

Freq. osservate e freq. teoriche

Y Tot

y1 yj yK

X

X1 n11 n1j n1k n1.

Xi ni1 nik

xH nH1 nHj nHK nH.

Tot n.1 n.K

Freq. osservate

n n n'ij ni. .j

Freq. che si utilizzano per ricavare le freq. teoriche

n.j

nij ni.

n

(16)

Frequenze osservate

Vendita on

line Tot

si no

Centro 2 2 4

Semice

ntro 0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

(17)

Frequenze teoriche

Vendita on

line Tot

si no

Centro 4

Semice

ntro 2

Perif. 3

Tot 3 6 9

9 3 2 

9 3 4 

Se ci fosse indipendenza statistica quali sarebbero le frequenze congiunte?

Ubicazione 9

6 4 

9 6 2 

9 3 3 

9 6 3 

(18)

Frequenze osservate e teoriche

Vendita on

line Tot si no

Centro 2 2 4

Semice ntro

0 2 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Vendita on

line Tot si no

Centro 1,33 2,67 4 Semice

ntro

0,67 1,33 2

Perif. 1 2 3

Tot 3 6 9

Ubicazione

Osservate Teoriche

Non tutte le freq. teoriche sono uguali alle corrispondenti freq. osservate Non c’è indipendenza statistica tra i due caratteri

Qual è il grado di associazione tra i due caratteri?

(19)

Interdipendenza:

Indice Chi-quadrato

Studia l’interdipendenza tra due caratteri

qualitativi sconnessi a partire da una tabella doppia

 

H

1 i

K 1

j '

ij 2 2 ij

n

c c

ij

n

ij

n

'ij

2  0

 indipendenza statistica

2  0

 interdipendenza

(20)

Interdipendenza: Indice V di Cramer

Indice relativo per misurare l’associazione

(interdipendenza) tra due caratteri qualitativi

   

H 1 , K 1

min

n V /

2

  0 V 1

V=0 indipendenza statistica V=1 associazione perfetta

Più V si avvicina ad 1 e più aumenta il grado di associazione tra X e Y

(21)

5 , 1 67

, 0 33

, 0

17 ,

0 33

,

2 0

H=3, K=2 quindi il minimo

tra H-1 e K-1 è uguale a 1 0,41

9 50 ,

V 1

   

   

   

2 2 2

1 1 1

33 , 1

33 , 1 2

67 , 0

67 , 0 0

67 , 2

67 , 2 2

33 , 1

33 , 1 2

2 2

2 2

2 2

2

Calcolo di χ

2

e V

(22)

Se X e/o Y sono qualitativi ordinati o

quantitativi (in classi), un’analisi esplorativa sulla tabella doppia con l’indice Chi-quadrato è sempre possibile

Tuttavia ci sono indici più opportuni da utilizzare

Per caratteri che non sono

qualitativi sconnessi

(23)

Se Y è un carattere quantitativo e X è qualitativo o quantitativo discreto o

quantitativo continuo ma raggruppato in classi si può costruire un indice che misuri l’intensità della dipendenza in media di Y da X, si parla di rapporto di correlazione.

Un carattere quantitativo e uno

qualsiasi

(24)

Se X e Y sono quantitativi si può costruire un indice che misuri l’intensità del legame

lineare tra le variabili (covarianza, coefficiente di correlazione).

Caratteri quantitativi

(25)

Rappresentazione grafica Grafico di dispersione

Due variabili quantitative Ricavi sull’asse X

Costi sull’asse Y

Ogni punto rappresenta una unità (un punto

vendita)

Le coordinate (x,y) del punto rappresentano i

valori rispettivamente dei ricavi e dei costi osservati per quel punto vendita

n=9 coppie di valori del tipo (xi,yi)

(26)

Grafico di dispersione

Da come si dispongono i punti sul piano possiamo capire il tipo di relazione (se esiste) tra le due

variabili

In questo caso, a ricavi alti corrispondono costi alti e, viceversa, a ricavi bassi corrispondono costi bassi

C’è una relazione lineare positiva (concordanza) tra costi e ricavi

(27)

Interdipendenza tra due caratteri quantitativi

Covarianza: Indice simmetrico di associazione tra due variabili quantitative

Cov > 0 se prevalgono scostamenti concordi di X e Y (bassi valori di X corrispondenti a bassi valori di Y

oppure alti valori di X corrispondenti a alti valori di Y).

Cov < 0 se prevalgono scostamenti discordi (alti valori di una variabile associati a bassi valori dell’altra

variabile)

Cov = 0 in assenza di relazione lineare tra X e Y

x x



y y

n ) 1

Y , X (

Cov n i

1

i i

XY

(28)

Cov(X,Y)=0

Covarianza nulla

(29)

Cov(X,Y)>0

Covarianza positiva (concordanza)

(30)

Cov(X,Y)<0

Covarianza negativa (discordanza)

(31)

La relazione tra X e Y non è di tipo lineare Ci aspettiamo un valore di Cov(X,Y)

prossimo allo 0, il che indica assenza di

legame lineare X e Y NON sono

indipendenti, ma legati da una forte relazione di tipo non lineare

Legame non lineare

(32)

Correlazione lineare

Indice relativo di concordanza/discordanza

perfetta discordanza discordanza

assenza di legame lineare concordanza

concordanza perfetta

  

 

 

n

1 i

2 i

n 1 i

2 i

i n

1

i i

Y X XY XY

y y

x x

y y

x x

) Y , X (

Corr 1 XY 1

XY 1

0 1 XY

XY 0

1 0 XY

1

(33)

ρ=1

Perfetta concordanza

ρ=-1

Perfetta discordanza

Concordanza e discordanza

perfetta

(34)

Calcolo della covarianza

(Scarti X) x (Scarti Y)

402,8 11111,1 44305,6 14194,4 -611,1 9988,9 10066,7 316,7 2200,0 Ricavi

(X) Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Scarti

X Scarti Y

25 16,11 -125 -88,99 275 161,11 175 81,11 -55 11,11 -145 -68,89 -120 -83,89 15 21,11 -45 -48,89

325 188,89

Media   10219,44

9 91975 )

Y , X ( Cov y

y x n x

1

i n

1

i i

(35)

Calcolo del coefficiente di correlazione

325 188,89

97 , 48 0

, 78 66

, 134

44 , 10219

Y X

XY

Ricavi

(X) Costi (Y)

350 205

200 100

600 350

500 270

270 200

180 120

205 105

340 210

280 140

Media

134,66 78,48 Dev std

44 ,

10219 )

Y , X (

Cov

C’è una forte concordanza tra ricavi e costi

(36)

Ancora sulla covarianza

   

n

1

i i i

i n

1

i xi x y y x y nxy

) Y , X ( Codevianza

n

1

i xiyy xy n

1 n

) Y , X ( Codev )

Y , X ( Cov

(37)

Relazioni tra variabili: riepilogo

Tipo di relazione Caratteri Struttura

dati Indici

Interdipendenza

tra X e Y qualsiasi

(se qualitativi

sconnessi è l’unico tipo di relazione da studiare)

Tabella doppia di frequenze

χ2

V (relativo)

Dipendenza in

media di Y da X Y quantitativo X qualsiasi

(se quantitativo continuo, in classi)

Valori

raggruppati in base alle modalità di X

η2 (relativo)

Interdipendenza tra X e Y

(concordanza/di scordanza)

quantitativi Coppie di

valori Cov

ρ (relativo)

Riferimenti

Documenti correlati

In questo caso, l'andamento dei punti mostra la presenza di una moderata correlazione negativa tra queste variabili (il numero si secondi impiegato per raggiungere una

Tutoraggio Analisi

I fiori di una determinata specie sono divisi a seconda del colore dei petali nel modo seguente:.. 30% colore azzurro 40% colore rosa 30%

Una scatola contiene un numero di palline rosse, nere e blu pari rispettivamente a :..  Giorno

Questo normalmente non avviene, quindi i due caratteri in genere saranno dipendenti in media, però come al solito abbiamo bisogno di un indice statistico per valutare l’intensità

Un massimo o minimo vincolato per una funzione di due variabili è un massimo o minimo da ricercarsi non su tutto il dominio ma all'interno del sottoinsieme del dominio che

Scrivere una funzione ricorsiva maxPrimoRec(int m) che usa scomponi per calcolare il massimo fattore primo di un numero positivo m;.. F scrivere una funzione iterativa maxPrimoIt(int

La forza tra due magneti aumenta al diminuire della distanza con una legge di potenza il cui esponete dipende dalla forma.