• Non ci sono risultati.

6. INDICI DI DIPENDENZA 6.1 Introduzione

N/A
N/A
Protected

Academic year: 2021

Condividi "6. INDICI DI DIPENDENZA 6.1 Introduzione"

Copied!
23
0
0

Testo completo

(1)

6. INDICI DI DIPENDENZA

6.1 Introduzione

La rilevazione contemporanea di due variabili X e Y su n unità statistiche ha essenzialmente lo scopo di evidenziare le eventuali relazioni esistenti fra loro, ossia di verificare se esiste una certa dipendenza di una variabile dall’altra. Una condizione di dipendenza di Y da X implica che al variare delle determinazioni assunte da X si modifica una qualche caratteristica della distribuzione di Y.

Se almeno una delle due variabili è di tipo qualitativo, si ha una situazione di dipendenza, che in questo caso è detta anche connessione, quando a una particolare determinazione di una di esse si accompagna, in genere, una specifica determinazione dell’altra.

Se invece entrambe le variabili sono quantitative, si è in presenza di un certo grado di dipendenza, che in questo caso è detta correlazione, quando al crescere dei valori assunti dalla X anche la Y tende a crescere, oppure quando al crescere dei valori assunti dalla X la Y tende a diminuire.

Fra le innumerevoli variabili che risultano naturalmente più o meno dipendenti fra loro si possono citare la posizione geografica e il tipo di vegetazione presente in una zona, le condizioni igieniche e le malattie, la pressione atmosferica e il livello di inquinamento, la quantità di fertilizzante impiegata e la resa produttiva delle coltivazioni, l'ammontare di prestiti e il tasso di interesse, i livelli di reddito e di consumo delle famiglie, l’età dei bambini e la classe che frequentano a scuola, la professione e il titolo di studio.

In tutti questi casi la determinazione assunta da una variabile su un’unità statistica è in grado di fornire indicazioni più o meno precise sulla determinazione dell’altra. Così, per esempio, l'età di un bambino fornisce un'indicazione sulla classe che molto probabilmente frequenta a scuola, la professione di un individuo adulto fornisce informazioni sul suo probabile titolo di studio.

Come si vede dagli esempi, i casi che interessano da un punto di vista statistico si riferiscono a situazioni in cui la conoscenza della determinazione assunta da una variabile consente di fare delle valutazioni più o meno attendibili sulla determinazione assunta da un’altra, ma in genere non permette di conoscerla esattamente. Nelle situazioni reali, infatti, due variabili possono risultare più o meno dipendenti, ma ben difficilmente la relazione che li lega è perfetta, né è del tutto inesistente.

La situazione limite di dipendenza perfetta si presenterebbe quando a ciascuna delle determinazioni con cui può manifestarsi una variabile fosse associata, in ogni caso, una sola delle diverse determinazioni dell’altra variabile.

(2)

Con riferimento agli esempi precedenti una situazione di connessione perfetta si avrebbe quando, in una collettività di bambini di età diverse e iscritti a classi diverse, tutti quelli di una stessa età frequentassero una stessa classe, oppure quando tutti gli individui con una stessa professione possedessero lo stesso titolo di studio. In questi casi, evidentemente, conoscere l'età equivarrebbe a conoscere esattamente anche la classe, mentre l’informazione sulla professione consentirebbe di conoscere esattamente il titolo di studio.

Nelle situazioni concrete possono esistere legami più o meno stretti fra le due variabili, e questo legame è tanto più stretto quanto più a ciascuna delle determinazioni con cui può manifestarsi una variabile è associata, nella maggior parte dei casi, una stessa determinazione dell'altra. Il grado di dipendenza fra età e classe frequentata dai bambini è probabilmente molto elevata, mentre in generale lo è di meno quella fra professione e titolo di studio.

Nelle situazioni di elevata dipendenza la conoscenza della determinazione assunta da una variabile su una particolare unità statistica consente di “prevedere” con una qualche precisione quale sarà la manifestazione dell’altra variabile sulla medesima unità. Il legame fra due variabili risulta tanto più stretto e, quindi, il grado di dipendenza è tanto più elevato, quanto maggiore è l'attendibilità di questa

“previsione”.

La situazione limite opposta, detta di indipendenza, si ha quando non esiste alcuna associazione fra le due variabili, nel senso che la conoscenza della determinazione assunta da una di esse non fornisce alcuna informazione sulla probabile determinazione dell'altra.

Per esempio, la conoscenza del sesso di un individuo non consente di avere una previsione attendibile della sua età o della sua religione. Nelle situazioni reali esistono anche variabili che sono correlate fra loro per un gruppo di individui, ma non per un altro, come per esempio nel caso dell’età e dell’altezza che risultano correlate per i bambini, ma non per gli adulti.

Nelle pagine seguenti si esamineranno alcuni dei più comuni metodi statistici utilizzati per evidenziare l'esistenza di un eventuale legame fra le variabili, per descrivere il tipo di relazione e per misurarne l'intensità.

Questi indici assumono forme diverse a seconda del tipo di variabili considerate e del tipo di legame di cui si vuole misurare l’intensità. Va comunque sottolineato il fatto che una qualsiasi misura statistica della dipendenza indica soltanto che tra due variabili esiste di fatto un’associazione più o meno stretta, mentre la natura di questa associazione può essere messa in luce solo con gli strumenti propri della scienza che si occupa di quei particolari fenomeni. In altri termini, questo significa che i metodi statistici non sono in

(3)

grado di individuare le eventuali “leggi” che regolano i legami fra variabili, ma solo di verificare se esistono o meno delle regolarità di rapporti.

(4)

6.2 Associazione fra variabili in una distribuzione bivariata

Nella successiva tabella 6.2.1 è riportato un caso di dipendenza perfetta della variabile Y dalla X in quanto le unità statistiche che presentano una certa determinazione della X presentano tutte una stessa determinazione della Y. In questo caso la conoscenza della determinazione assunta dalla prima variabile equivale a conoscere con certezza anche la determinazione della seconda.

Tabella 6.2.1

Esempio di dipendenza perfetta unilaterale della Y dalla X

X\Y d1 d2

c1 0 n12

c2 n21 0

c3 n31 0

Non esiste invece una dipendenza perfetta della X dalla Y dato che, mentre alla determinazione d2 corrisponde la determinazione c1, a d1 corrispondono sia c2 sia c3.

In situazioni analoghe a questa si dice che esiste una perfetta dipendenza unilaterale della Y dalla X.

Nella tabella 6.2.2, invece, è riportato un esempio in cui è la variabile X a dipendere in modo perfetto dalla Y.

Tabella 6.2.2

Esempio di perfetta dipendenza unilaterale della X dalla Y

X\Y d1 d2 d3

c1 0 n12 0

c2 n21 0 n23

Per semplicità, in seguito si esaminerà in dettaglio la dipendenza della Y dalla X, ma ovviamente tutte le considerazioni valgono anche se si scambiano le due variabili fra loro.

La dipendenza perfetta della Y dalla X implica che le distribuzioni condizionate della Y|cj presentano un'unica determinazione a cui è associata una frequenza diversa da zero, mentre tutte le altre frequenze sono nulle.

Con riferimento alle distribuzioni relative condizionate della Y|cj ciascuna di esse presenta una sola

(5)

Nella tabella 6.2.3 è invece riportato un esempio di dipendenza perfetta bilaterale. In questa situazione tutte le unità statistiche che presentano una certa determinazione di una variabile presentano una e una sola determinazione dell'altra e viceversa.

Tabella 6.2.3

Esempio di dipendenza perfetta bilaterale

X\Y d1 d2 d3

c1 0 n12 0

c2 n21 0 0

c3 0 0 n33

In una situazione di perfetta dipendenza bilaterale tutte le distribuzioni di Y condizionate a X (e tutte le distribuzioni di X condizionate a Y) presentano un'unica determinazione con frequenza diversa da zero, mentre alle restanti determinazioni è associata una frequenza nulla.

Con riferimento alle distribuzioni relative condizionate esiste una sola frequenza pari a 1 su ciascuna riga e su ciascuna colonna della tabella, mentre le restanti frequenze sono nulle.

La situazione di perfetta dipendenza bilaterale richiede necessariamente che le due variabili assumano uno stesso numero di determinazioni diverse, per cui la tabella a doppia entrata avrà un numero di righe uguale al numero di colonne.

Quando invece la tabella è rettangolare, con un numero di righe diverso dal numero di colonne, se esiste una situazione di dipendenza perfetta, questa può essere solo unilaterale.

In alcune situazioni reali, l'interesse può essere rivolto a misurare il grado di dipendenza unilaterale di una variabile dall’altra, ma in altre situazioni si può voler valutare il grado di dipendenza bilaterale, detta anche interdipendenza.

Nel primo caso si intende valutare in che misura una variabile "dipende" dall'altra per cercare di

“prevedere” la determinazione di tale variabile a partire da quella assunta dall’altra (come nei casi delle variabili reddito e consumo, livello dei tassi di interesse e numero di richieste di mutui bancari, dose di un fertilizzante e produttività per ettaro, ammontare delle spese pubblicitarie e numero di articoli venduti).

Nel secondo caso si suppone invece che le due variabili abbiano uno stesso “ruolo” all’interno dell’analisi (esempi di questo genere sono costituiti dalle coppie di variabili peso e statura, lunghezza del femore e

(6)

dell’omero, consumo medio delle auto in città e in autostrada, votazione ottenuta negli esami di matematica e di statistica).

Se interessa esaminare la dipendenza della Y dalla X (oppure della X dalla Y), la prima variabile è detta variabile dipendente, mentre la seconda è detta variabile indipendente o variabile esplicativa.

L'uso del termine "dipendenza" non vuole però suggerire che la determinazione assunta da una variabile sia la causa (o una delle cause) della determinazione assunta dall'altra, anche perché una eventuale relazione di causa-effetto non potrebbe in ogni caso essere provata con i soli metodi statistici.

Se fra le variabili non esiste alcuna relazione, si dice che X e Y sono indipendenti.

Facendo riferimento alla tabella a doppia entrata, la condizione di indipendenza implica che le distribuzioni relative condizionate risultano tutte uguali fra loro, ossia che per ogni determinazione di una variabile le diverse determinazioni dell’altra si presentano sempre nelle stesse proporzioni.

In questo caso è evidente che la conoscenza della determinazione assunta da una variabile su una unità statistica è del tutto irrilevante per fare delle ipotesi attendibili sulla determinazione assunta dall’altra su quella stessa unità.

Se la variabile Y è indipendente da X, quindi, le distribuzioni relative condizionate di Y|cj sono tutte uguali fra loro, per cui valgono le seguenti uguaglianze

1

;

. 1 .

1 1.

11 s

f ... f f .... f f f

k k j

j   

…;

;

. .

1.

1

l k kl j

l jl s

f ... f f .... f f

f    

…;

h k kh j

h jh s

f f f

f f

f    

. .

1.

1

.... ...

come si vede anche dalla tabella 6.2.4 che riporta le distribuzioni condizionate relative di Y|cj sotto ipotesi di indipendenza della Y dalla X.

(7)

Tabella 6.2.4

Distribuzioni relative condizionate della Y dalla X sotto ipotesi di indipendenza della Y dalla X

X\Y d1 ... d l ... d h

c1 1

1.

11 s f

f... l sl

f f

1.

1 ...

h sh

f f

1.

1 1.00

. . . . . . .

cj

1 .

1 s

f f

j

j... l

j

jl s

f

f

.

...

h j

jh s

f

f

.

1.00.

. . . . . . .

ck 1

.

1 s

f f

k

k... l

k kl s f f

.

....

h k kh s f

f

.

1.00

A partire dalle uguaglianze contenute all’interno della tabella precedente, la distribuzione bivariata può essere posta nella forma riportata nella tabella 6.2.5.

Tabella 6.2.5

Esempio di distribuzione bivariata sotto ipotesi di indipendenza della Y dalla X

X\Y d1 ... d l ... d h

c1 f11=s1f1. ... f1l=sl f1. ... f1h=sh f1. f1.

. . . .

cj fj1=s1fj. ... fjl=sl fj. ... fjh=sh fj. fj.

. . . .

ck fk1=s1fk. ... fkl=sl fk. ... fkh=sh fk. fk.

f.1 . f.l . f.h 1

Effettuando le somme per colonna delle frequenze si ottiene

1

;

1 . 1 1

. s f s

f

k

j j

…;

;

1 .

. l

k

j j l

l s f s

f

…;

;

1 .

. h

k

j j h

h s f s

f

(8)

da cui risulta che ciascuna costante s

l

corrisponde alla frequenza relativa marginale

f.l

(per ogni l

= 1, 2, …, h).

In caso di indipendenza della Y dalla X le distribuzioni relative condizionate delle Y|cj sono tutte uguali fra loro e uguali alla distribuzione relativa marginale della Y.

Questo risultato resta valido anche nel caso in cui si utilizzino le frequenze assolute, anziché le frequenze relative, dato che le une differiscono dalle altre solo per la costante moltiplicativa n.

In caso di indipendenza valgono quindi le seguenti uguaglianze

n n n n f f f

l j jl

l j jl

. .

. .

(j = 1, 2, …, k; l = 1, 2, …, h)

6.2.1

per cui un qualsiasi indice calcolato per la Y assume sempre lo stesso risultato per ciascun gruppo omogeneo in X, e tale risultato corrisponde anche al valore dell’indice calcolato sulla distribuzione marginale di Y.

In una situazione di indipendenza, quindi, le informazioni fornite dalle distribuzioni condizionate non aggiungono nulla a quelle fornite dalla distribuzione marginale.

Dalle uguaglianze 6.2.1, valide sotto ipotesi di indipendenza della Y dalla X, discendono anche le due seguenti uguaglianze

n n n n f f f

j l jl

j l jl

. .

. .

(j = 1, 2, …, k; l = 1, 2, …, h)

in base alle quali risulta che le distribuzioni relative condizionate della X sono uguali fra loro e uguali alla distribuzione marginale della X: si può quindi concludere che quando Y è indipendente da X anche X risulta indipendente da Y.

La condizione di indipendenza statistica è sempre bilaterale.

(9)

Dalle uguaglianze 6.2.1 deriva infine che, sotto condizione di indipendenza, le frequenze interne (assolute e relative) della tabella corrispondono ai prodotti

n n njlnj. .l

(j = 1, 2, …, k; l = 1, 2, …, h)

.l . j

jl f f

f

e queste due uguaglianze rappresentano la condizione necessaria e sufficiente per l’indipendenza fra X e Y.

Due variabili X e Y sono indipendenti se e solo se la frequenza assoluta associata a ogni coppia (cj, dl) è uguale al prodotto delle frequenze assolute marginali associate a cj e dl diviso per n, oppure se la frequenza relativa associata a ogni coppia (cj, dl) è uguale al prodotto delle frequenze relative marginali associate a cj e dl.

Le frequenze interne corrispondenti al caso di indipendenza fra X e Y sono dette frequenze

teoriche (assolute o relative) e sono indicate mediante la notazione seguente

n n

n'jlnj. .l

(j = 1, 2, …, k; l = 1, 2, …, h) 6.2.2

.l . j '

jl f f

f

Esempio 6.2.1

Data la seguente distribuzione relativa a due variabili qualitative sconnesse X e Y Esempio di distribuzione bivariata

X\Y d1 d

2 d

3

c1 0.30 0.18 0.12 0.60

c2 0.20 0.12 0.08 0.40

0.50 0.30 0.20 1.00

si determinino le distribuzioni della variabile Y condizionata a X

Le due distribuzioni risultano quelle riportate nella tabella successiva e coincidono con la distribuzione marginale della Y della tabella precedente. Le variabili X e Y sono quindi indipendenti fra loro.

(10)

Distribuzioni della variabile Y|c

j ottenute dalla tabella precedente

X\Y d

1 d

2 d

3

c1 0.50 0.30 0.20 1.00

c2 0.50 0.30 0.20 1.00

Esempio 6.2.2

Completare la seguente tabella sotto ipotesi di indipendenza assoluta fra le due variabili Esempio di distribuzione bivariata

X\Y a b c

0 30

1 20

2 50

20 50 30 100

La tabella assume la forma seguente

Esempio di distribuzione bivariata

X\Y a b c

0 6 15 9 30

1 4 10 6 20

2 10 25 15 50

20 50 30 100

La relazione analizzata in questo paragrafo è solo uno dei tanti possibili tipi di legame che possono intercorrere fra due variabili. Per distinguerla da altri tipi di dipendenza/indipendenza si parla quindi di

“dipendenza/indipendenza assoluta” o anche di “dipendenza/indipendenza in distribuzione”.

(11)

6.3 Dipendenza assoluta (o dipendenza in distribuzione)

Nelle situazioni reali, la relazione esistente fra le variabili X e Y è più o meno lontana dalle situazioni limite di indipendenza e di dipendenza perfetta, per cui le frequenze delle diverse distribuzioni condizionate sono più o meno concentrate in corrispondenza di una o più determinazioni diverse, mentre alle altre determinazioni sono associate frequenze minori.

L'indice più comunemente usato per valutare il grado di dipendenza assoluta fra due variabili è il cosiddetto chi-quadrato di Pearson, indicato con il simbolo 2, che assume la forma

 



 

k

j h

l '

jl '

jl jl

n n n

1 1

2

2 . 6.3.1

Questo indice si basa sulle differenze (comunemente dette contingenze) fra le frequenze osservate e quelle teoriche, calcolate cioè sotto ipotesi di indipendenza, per cui può essere calcolato per variabili di qualsiasi tipo, dato che si basa solo sui valori delle frequenze congiunte.

Se la distribuzione è espressa mediante le frequenze relative, il calcolo del chi-quadrato richiede la conoscenza della numerosità della popolazione e la 6.3.1 assume la forma equivalente

 



 

k

j h

l '

jl ' jl jl

f f n f

1 1

2

2 6.3.2

Dalle precedenti espressioni risulta evidente che l’indice non può mai assumere valori negativi e che risulta uguale a zero se e solo se tutte le contingenze sono uguali a zero e, quindi, in caso di indipendenza assoluta fra X e Y, mentre tende ad assumere valori crescenti al crescere del grado di dipendenza fra le due variabili.

Una formula semplificata di calcolo è data da





 



  k

j h

l j. .l

jl

n n n n

1 1 2

2

1

6.3.3

se la tabella è espressa mediante le frequenze assolute oppure dall’espressione equivalente

(12)





 



  k

j h

l j. .l

jl

f f n f

1 1 2

2

1

6.3.4

che si utilizza quando si dispone delle frequenze relative ed è noto il numero n di unità statistiche.

Dimostrazione

Per ottenere le due formule precedenti è sufficiente sviluppare i quadrati che compaiono nelle formule originali e utilizzare l’uguaglianza 6.2.2. Per esempio, sviluppando la 6.3.1 si ottiene





  





 

 

 

 

 





  





  





  

k

j h

l j. .l

k jl j

h

l jl k

j h

l

k

j h

l .l .l j.

j.

jl

k

j h

l

jl .l j.

.l j.

k jl j

h

l

' jl ' jl

jl jl

n n n

n n n

n n

n n n n

n n

n n n n n n

n n n

n n n

1 1 2

1 1

1 1 1 1

2

1 1 2

1 1 2 2

2 1 2

2

 2

da cui si ottiene la 6.3.3, mentre partendo dalla 6.3.2, con un procedimento analogo, si ottiene la 6.3.4.

Il valore massimo del chi-quadrato, che si ottiene nei casi di perfetta dipendenza assoluta (sia unilaterale, sia bilaterale), risulta uguale al prodotto fra n e il minore fra il numero di determinazioni assunto da X e il numero di determinazioni assunto da Y diminuito di 1. Il campo di variazione del chi-quadrato è quindi costituito dai due estremi

2 0

min

 ,

min

 

, 1

max2n k h

 ,

per cui tende ad assumere valori crescenti al crescere delle dimensioni della tabella a doppia entrata e al crescere del numero delle unità statistiche.

Dimostrazione

Per questa dimostrazione occorre innanzitutto tenere presente che per ogni j e l si ha sempre

.l

jl n

nj = 1, 2, …, k, l = 1, 2, …, h

dove il segno di uguaglianza vale solo nel caso in cui a ogni determinazione di Y corrisponde una sola determinazione di X, ossia quando c'è una condizione di dipendenza assoluta perfetta della X dalla Y.

Moltiplicando entrambi i termini della disuguaglianza precedente per njl, si ottiene

(13)

jl l

jl n n

n2.

che, sostituita nella 6.3.3, fornisce il seguente risultato

 

1 1

1 1

1 . 1 1

1 1

2  





 





 





 

  

 

 

k n n

n n n

n n n

n n n n

k

j j.

k j j

h

l j.

k jl j

h

l j. .l

jl

.l . 6.3.5

In caso di perfetta dipendenza della X dalla Y, quindi, il valore massimo del chi quadrato è pari al prodotto della numerosità n per il numero di modalità della X meno 1.

In maniera analoga, a partire dalla disuguaglianza

. j

jl n

nj = 1, 2, …, k, l = 1, 2, …, h

si vede facilmente che risulta

 

1

2nl

, 6.3.6

dove il segno di uguaglianza si ha solo in caso di perfetta dipendenza della Y dalla X.

Si consideri, per esempio, la tabella 6.3.1 che si riferisce a due variabili qualitative sconnesse rilevate su una collettività di 200 individui.

Tabella 6.3.1

Distribuzione degli occupati dipendenti per rapporto di lavoro e sesso

Lavoro\Sesso Maschi Femmine

A tempo determinato 7 8 15

A tempo indeterminato 50 35 85

57 43 100

Questa distribuzione è molto prossima a quella che si avrebbe in caso di indipendenza, come risulta dalla tabella 6.3.2, in cui le frequenze interne sono state calcolate sotto questa ipotesi.

Tabella 6.3.2

Distribuzione teorica degli occupati dipendenti per rapporto di lavoro e sesso in caso di indipendenza

Lavoro\Sesso Maschi Femmine

A tempo determinato 8.55 6.45 15

A tempo indeterminato 48.45 36.55 85

57 43 100

Di conseguenza il chi-quadrato, che in questa situazione potrebbe assumere un qualsiasi valore compreso fra 0 e 100 (in quanto entrambe le variabili assumono 2 modalità diverse), risulta prossimo al suo minimo

(14)

. 7688 . 0 85 1

43 35 85 57

50 15 43

8 15 57 100 7

2 2

2

2 2 



 

 

 

 

 

Esempio 6.3.1

Data la seguente distribuzione bivariata, riferita al sesso dell’acquirente e al modello di ipod acquistato, si calcoli il valore dell’indice chi-quadrato e se ne determini minimo e massimo.

Esempio di distribuzione bivariata

Sesso\Modello A B C

F 18 12 0 30

M 2 8 10 20

20 20 10 50

Utilizzando la formula 6.3.3 si ottiene

5 22 20 1

10 10 20 20

8 20 20

2 20 30

12 20 30 50 18

2 2

2 2

2 2  .



 

 

 

 

 

 

Il minimo e il massimo sono rispettivamente 2 0

min

χ ,

min

 

2,3 1

50.

2 50

max

(15)

6.4 Dipendenza in media

Data una variabile quantitativa Y considerata in corrispondenza delle diverse determinazioni assunte da una variabile X (qualitativa o quantitativa), si può avere interesse a valutare le eventuali differenze esistenti non fra le distribuzioni condizionate della Y|cj, ma fra i valori di una specifica caratteristica di tali distribuzioni che si ritiene di particolare interesse nel caso in esame.

In numerose situazioni reali, per esempio, si vogliono confrontare i valori medi assunti dalla Y all’interno dei diversi gruppi omogenei in X, per cui lo scopo dell’indagine consiste nel valutare le differenze fra le medie delle distribuzioni condizionate. Casi di questo genere si presentano quando si vogliono comparare i livelli medi del rendimento a un esame di studenti che hanno utilizzato differenti libri di testo, le medie della resa produttiva per ettaro di fertilizzanti diversi, i livelli medi del reddito a seconda del tipo di occupazione oppure del settore di attività economica, i rendimenti medi di differenti titoli azionari.

Considerata per esempio la successiva tabella 6.4.1, che riporta la distribuzione degli occupati di sesso maschile per classe di età e ramo di attività economica, si potrebbe essere interessati a verificare se l’età media degli occupati varia a seconda del ramo di attività.

Tabella 6.4.1

Distribuzione degli occupati maschi per età e ramo di attività. Dati in migliaia1 Attività\età [14, 25) [25, 30) [30, 50) [50, 65) 65 e +

Agricoltura 123 94 538 554 59 1368

Industria 913 703 3049 1137 67 5869

Terziario 624 714 3419 1430 104 6291

1660 1511 7006 3121 230 13528

Chiudendo l’ultima classe a 75 anni si ottengono i seguenti risultati (arrotondati a due cifre decimali)

68 1368 45

59 70 554 5 57 538 40 94 5 27 123 5 19

a

agricoltur . . . .

y           

05 5869 39

67 70 1137 5 57 3049 40 703 5 27 913 5 19

industria . . . .

y           

02 . 6291 41

104 70 1430 5 . 57 3419 40 714 5 . 27 624 5 . 19

terziario          

y

dai quali risulta che gli occupati nel settore agricolo hanno in media poco meno di 46 anni, gli occupati nel terziario hanno un’età media di 41 anni, mentre la media più bassa, pari a circa 39 anni, si rileva nel settore dell’industria.

1ISTAT (1986), Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Novembre 1983, Note e relazioni n.1

(16)

Nell’esempio appena esaminato la variabile Y “età” assume dei valori medi che variano al variare della determinazione assunta dalla variabile X “settore di attività economica”, per cui si può concludere che la Y dipende in media da X.

Quando esiste questo tipo di dipendenza è possibile ottenere una valutazione più o meno approssimata dell'ordine di grandezza assunta dalla Y su una unità statistica quando per quella unità è nota la determinazione cj assunta dalla X. Tanto più la Y è dipendente in media dalla X, tanto più accurata sarà tale previsione, corrispondente alla media della distribuzione condizionata

cj

y .

L’intensità di questo tipo di legame dipende dalla variabilità delle distribuzioni condizionate della Y|cj. Se infatti i k valori delle varianze condizionate s2y|cj risultano prossimi a zero, tali distribuzioni sono molto concentrate intorno alla loro media per cui le

cj

y forniscono indicazioni attendibili sull'ordine di grandezza della Y per ogni gruppo omogeneo in X.

La situazione limite di perfetta dipendenza in media della Y dalla X si ha quando le k varianze condizionate s2y|cj sono nulle, perché in questo caso la conoscenza della determinazione assunta da X consente di individuare con certezza la corrispondente determinazione assunta da Y. In questo caso, quindi, si avrebbe anche una perfetta dipendenza assoluta della Y dalla X.

Se le medie condizionate risultassero tutte uguali fra di loro ci si troverebbe invece nella condizione limite opposta, di indipendenza in media. In questo caso la conoscenza della determinazione assunta dalla variabile X su un’unità statistica sarebbe del tutto irrilevante per prevedere il valore assunto dalla Y su quella stessa unità sulla base della media della distribuzione condizionata

cj

y .

Per misurare il grado di dipendenza in media della Y dalla X si utilizza un indice che si basa sulla scomposizione 4.3.10 della varianza di n osservazioni suddivise in g gruppi.

In questo contesto, però, la varianza fra i gruppi (o varianza between) è la varianza delle medie condizionate

 

k

j

j c

b y y n

s n j

1

. 2

1

2

(17)

e viene chiamata varianza spiegata perché misura quella parte della varianza complessiva della Y che

"dipende", ossia è "spiegata", dalle differenze fra i valori medi della Y all'interno di ogni gruppo omogeneo in X.

La varianza all’interno dei gruppi (o varianza within) corrisponde invece alla media delle varianze delle distribuzioni condizionate

k

j

j c y

w s n

s n j

1 . 2

|

2

1

e viene chiamata varianza residua perché misura la parte “residua” della varianza complessiva della Y, che dipende dalla variabilità della Y all'interno dei singoli gruppi omogenei in X.

La dipendenza in media di una variabile quantitativa Y da una variabile X di tipo qualsiasi viene misurata mediante il cosiddetto rapporto di correlazione della Y sulla X che è pari al rapporto fra la varianza spiegata e la varianza totale della Y.

Il rapporto di correlazione

2y|x (eta quadrato) assume la forma

2 2 2

2 2

1

y w y

y|x b

s s s

s  

 6.4.1

e, dato che s2y corrisponde alla somma sb2+sw2, risulta sempre compreso nell’intervallo [0, 1].

Più in particolare, risulta pari a zero quando il suo numeratore è uguale a zero, ossia quando le

cj

y sono tutte uguali fra loro e uguali alla media della distribuzione marginale y. Un risultato pari a zero indica quindi che la variabile Y è indipendente in media dalla X.

Il rapporto di correlazione assume invece valore 1 quando è nulla la varianza residua, ossia quando è nulla la media ponderata delle varianze condizionate. Questo si verifica se e solo se tutte le varianze delle distribuzioni condizionate sono pari a zero, ossia quando all’interno dei diversi gruppi omogenei in X i valori della Y coincidono tutti con la media condizionata. In questo caso c’è una dipendenza assoluta perfetta della Y dalla variabile X.

(18)

Se è noto che X e Y sono indipendenti in senso assoluto (per cui l’indice chi-quadrato è pari a zero), Y risulta anche indipendente in media dalla X, dato che le variabili Y|cj hanno distribuzioni identiche e, quindi, hanno gli stessi momenti.

Se, invece, c’è indipendenza in media, per cui le

cj

y sono tutte uguali fra loro, questo non implica che siano uguali fra loro anche le distribuzioni condizionate per cui potrebbe esservi una situazione di dipendenza più o meno elevata in distribuzione.

Se due variabili sono indipendenti in senso assoluto lo sono anche in media, mentre non è necessariamente vero il viceversa.

Nelle situazioni concrete l'indice 6.4.1 assume un valore interno all’intervallo [0, 1] e al crescere del risultato cresce il grado di dipendenza in media della Y dalla X. Per esempio, il valore del rapporto di correlazione calcolato sulla tabella 6.4.1 è circa pari a

2y|x

0

.

024

e indica quindi che si è prossimi alla situazione di indipendenza in media, dato che solo poco più del 2% della variabilità complessiva della Y è assorbita dalla varianza spiegata.

Se tutte e due le variabili sono quantitative, sulla distribuzione è definito anche il rapporto di correlazione

2

x|y della X sulla Y, per il quale valgono tutte le considerazioni precedenti.

È evidente che i valori dei due indici in genere sono diversi fra di loro, come si intuisce subito con riferimento alle situazioni di dipendenza assoluta perfetta unilaterale.

Ovviamente l’indipendenza assoluta implica l’indipendenza in media bilaterale.

Con riferimento ai dati sul reddito e sul consumo riportati nella tabella 5.2.6, i valori dei due rapporti di correlazione (arrotondati a 4 cifre decimali) sono

x|y2

0

.

4367

e

y|x2

0

.

4341

. In questo esempio, quindi, il 43% della variabilità della Y dipende (o viene spiegato) dalla relazione che lega le medie condizionate della Y alla X, mentre la varianza media all'interno dei singoli gruppi omogenei è pari al residuo 57% della variabilità complessiva. Commenti analoghi valgono per il rapporto di correlazione della X sulla Y.

Esempio 6.4.1

Considerata la seguente distribuzione bivariata si calcoli il rapporto di correlazione della Y sulla X

X\Y -11 17 79

A 4 4 0 8

B 1 1 6 8

C 0 1 3 4

(19)

Dalla distribuzione marginale si ottengono la media e la varianza di Y che risultano rispettivamente uguali a

8 . 20 4

9 8 6 4 5

0     

y

     

10.56

20

9 8 . 4 8 6 8 . 4 4 5 8 . 4

0 2 2 2

2         

sy Sulle tre distribuzioni condizionate si ottiene

0 . 8 2

4 4 4

0   

A

y

   

4.0

8

4 2 4 4 2

0 2 2

2

|A      

sy

5 . 8 6

6 8 1 4 1

0     

B

y

     

7.75

8

6 5 . 6 8 5 . 6 4 5 . 6

0 2 2 2

2

|B        

sy

0 . 4 7

3 8 1

4   

C

y

   

0 . 4 3

3 7 8 7

4 2 2

2

|C     

sy Per cui la varianza spiegata è

     

2 4.8 8 6.5 4.8 8 7 4.8 4

5.26

20

1 2 2 2

2         

sb

e il rapporto di correlazione della Y sulla X risulta 0.4981 56

. 10

26 .

2  5 

y|x

(20)

6.5 Concordanza e discordanza

In numerose situazioni reali, quando entrambe le variabili X e Y sono di tipo quantitativo, si vuole valutare se al crescere dei valori assunti da una variabile anche i valori dell’altra tendono a crescere oppure se tendono a diminuire. Per esempio, si potrebbe essere interessati a verificare se al crescere dei livelli del reddito mensile anche la spesa per consumi tende ad aumentare, se al crescere del grado di anzianità in ruolo aumenta anche il livello del reddito, se al crescere della produzione di grano il suo prezzo tende a diminuire.

Se si dispone della sequenza originaria delle coppie di osservazioni, uno strumento che si rivela particolarmente utile per indagare sul tipo e sull'intensità del legame esistente fra le variabili è il cosiddetto diagramma di dispersione o scatter diagram, che consiste in un grafico sul quale le coppie di valori (xi, yi), per i = 1,2, …, n, rilevati sulle n unità statistiche vengono rappresentate da un punto con coordinate proporzionali a xi e yi. Pertanto ogni singolo punto del grafico corrisponde a una unità statistica.

Il diagramma di dispersione mette in evidenza il campo di variazione delle due variabili, i punti intorno ai quali sono concentrati i loro valori, il tipo di legame che esiste tra le variabili e la sua intensità.

La figura 6.5.1, per esempio, riporta le coppie di valori elencate nella tabella 5.2.5.

Figura 6.5.1

Diagramma di dispersione dei dati riportati nella tabella 5.2.5

18 19 20 21 22 23 24 25 26

22 23 24 25 26 27 28 29 30 31 32 33 34 35

C o n s u m

o

Reddito

(21)

Il grafico ottenuto mostra come, al crescere del livello del reddito, anche il consumo tende generalmente a crescere. In una situazione come questa si dice che esiste concordanza fra le due variabili, o che le variabili X e Y sono concordi.

Inoltre il grafico evidenzia anche che i punti tendono a disporsi intorno ad una retta con inclinazione positiva. Si può quindi concludere che a incrementi di reddito corrispondono generalmente incrementi proporzionali di consumo, per cui quello proposto è un esempio di dipendenza lineare diretta fra le due variabili. In situazioni come questa la conoscenza del valore di una variabile per una unità statistica sembra in grado di fornire informazioni, sia pure approssimate, sull'ordine di grandezza dell'altra variabile. Questa affermazione ancora intuitiva e poco accurata verrà ripresa e precisata nelle pagine seguenti.

Il diagramma di dispersione relativo ai dati dell’esempio 5.6.4, che riporta i valori della variabile X

“contenuto di umidità” e Y “solidità” di 10 assi di legno, mostra invece un esempio di discordanza fra le due variabili, dato che al crescere dei valori dell’umidità la solidità delle assi di legno tende a diminuire.

Le variabili X e Y sono quindi discordi.

Figura 6.5.2

Diagramma di dispersione dei dati riportati nell’esempio 5.6.4

Come si può notare dal confronto fra i due grafici precedenti, l’intensità del legame fra X e Y può essere più o meno elevata e le forme che possono assumere le nuvole di punti di un diagramma di dispersione sono le più varie. Nella figura 6.5.3, per esempio, non esiste una relazione di concordanza o di

11 12 13 14

8 9 10 11 12

s o l i d

i t à

umidità

(22)

discordanza fra le due variabili considerate, mentre il grafico della figura 6.5.4 mostra un andamento dapprima concordante e poi discordante.

Figura 6.5.3

Esempio di diagramma di dispersione

Figura 6.5.3

Esempio di diagramma di dispersione

Nota

Anche la rappresentazione di una distribuzione bivariata relativa a due variabili quantitative potrebbe essere effettuata mediante un diagramma di dispersione, ma in questa situazione i singoli punti hanno un peso diverso, che dipende dalla frequenza associata a ciascuna coppia di valori. Per questo motivo si evita questo tipo di rappresentazione ricorrendo, semmai, a grafici di tipo differente che non verranno però esaminati in questa sede.

4 6 8 10 12 14 16 18 20

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Y

X

0 2 4 6 8 10

0 1 2 3 4

Y

X

(23)

Un indice in grado di valutare se le due variabili in esame sono legate in modo diretto o inverso è la covarianza che, come si è visto in precedenza, assume valori positivi se le variabili sono concordi e valori negativi se sono discordi.

Una covarianza nulla indica solo l’assenza di concordanza o discordanza nell’andamento delle due variabili, ma non esclude che esistano altri tipi di legami, anche molto stretti, per cui a una covarianza pari a zero può corrispondere un eta quadrato o un chi-quadrato molto elevato, o addirittura massimo.

Se, invece, è il chi-quadrato a risultare nullo, allora saranno nulli sia l’indice eta quadrato sia la covarianza.

Se due variabili X e Y sono indipendenti in senso assoluto (o in distribuzione) e sono entrambe di tipo quantitativo, la loro covarianza è pari a zero.

Dimostrazione

Tenendo presente la seconda delle uguaglianze 6.2.2, il primo momento misto fra le due variabili (espresso nella formula 5.6.5) può essere scritto nella forma seguente

y x f y f x f

f y x

m l.

k

j

h

l l . j j l.

. j l k

j h

l j

,



 

 1 1 1 1

1 1

e risulta quindi uguale al prodotto delle medie delle due variabili.

Di conseguenza la covarianza, pari alla differenza fra la media della variabile XY meno il prodotto delle medie delle due variabili, risulta pari a zero.

Riferimenti

Documenti correlati

[r]

Soluzione degli esercizi di preparazione al primo esonero di Calcolo Differenziale ed Integrale I e

[r]

[r]

Esiste il valore massimo delle derivate di f in p secondo versori?.

l’integrale generale (recuperiamo anche la soluzione costante y ≡ −1, che comunque non inter- essa ai fini del nostro problema di Cauchy)... l’integrale generale (recuperiamo anche

Riassumiamo in un grafico lo studio

Questo normalmente non avviene, quindi i due caratteri in genere saranno dipendenti in media, però come al solito abbiamo bisogno di un indice statistico per valutare l’intensità