• Non ci sono risultati.

Lezione 10 Dipendenza e indipendenza Si è detto che la rilevazione contemporanea di due variabili ha lo scopo principale di verificare se esiste una qualche relazione fra tali variabili e di misurare

N/A
N/A
Protected

Academic year: 2021

Condividi "Lezione 10 Dipendenza e indipendenza Si è detto che la rilevazione contemporanea di due variabili ha lo scopo principale di verificare se esiste una qualche relazione fra tali variabili e di misurare"

Copied!
22
0
0

Testo completo

(1)

Lezione 10

Dipendenza e indipendenza

Si è detto che la rilevazione contemporanea di due variabili ha lo scopo principale di verificare se esiste una qualche relazione fra tali variabili e di misurare l’entità di questa relazione.

Il segno assunto dalla covarianza (o dal coefficiente di correlazione lineare), per esempio, ci indica se due variabili quantitative sono concordi o discordi, ma esistono differenti tipi di legami che la statistica è in grado di individuare e valutare attraverso il calcolo di opportuni indici.

In generale due variabili di qualsiasi natura si dicono dipendenti quando al variare delle determinazioni assunte da una variabile si modifica una qualche caratteristica della distribuzione dell’altra.

Considerate, per esempio, due variabili qualitative (sconnesse o ordinabili) si ha una situazione di dipendenza quando a una particolare modalità di una di esse si accompagna, in genere, una certa modalità dell’altra. Esempi di questo genere si hanno quando si rileva la posizione geografica e il tipo di vegetazione di diverse zone geografiche oppure la posizione nella professione e il titolo di studio di un gruppo di individui.

Se una variabile è qualitativa e l’altra è quantitativa può accadere che al variare delle modalità assunte dalla variabile qualitativa si modifichi l’ordine di grandezza della variabile quantitativa. Esempi di questo genere si hanno quando si rileva la posizione nella professione e lo stipendio di un gruppo di

(2)

impiegati oppure la classe frequentata e l’età di bambini che frequentano la scuola primaria.

Se entrambe le variabili sono quantitative, si è in presenza di un certo grado di dipendenza quando al crescere dei valori assunti dalla X anche la Y tende a crescere (come nel caso dei livelli di reddito e di consumo) oppure a diminuire (come nel caso dei tassi di interesse e dell’ammontare dei prestiti).

I due casi limite consistono nella:

- indipendenza, quando la conoscenza della determinazione di una variabile non fornisce alcuna informazione sulla probabile determinazione dell'altra - dipendenza perfetta, quando a ciascuna delle determinazioni di una variabile è sempre associata una sola determinazione dell’altra variabile.

Nei casi reali il grado di dipendenza fra due variabili si pone generalmente in una posizione intermedia fra le due situazioni limite, ma è evidente che il legame fra due variabili risulta tanto più stretto e, quindi, il grado di dipendenza è tanto più elevato, quanto maggiore è l'attendibilità delle “previsioni” che è possibile effettuare.

Quando esiste una situazione di indipendenza, ossia quando non esiste alcuna associazione fra le variabili, le due variabili si dicono indipendenti. Esempi del genere si hanno quando su un gruppo di persone si rileva il sesso e la religione oppure il comune di nascita e il peso corporeo.

Esistono poi variabili che sono legate fra loro per alcuni gruppi di unità statistiche, ma non per altri gruppi, come nel caso della statura e dell’età rilevate su un gruppo di bambini e su un gruppo di persone adulte.

(3)

Gli indici di dipendenza utilizzati in statistica hanno lo scopo di evidenziare l'esistenza di un legame fra le variabili, di descrivere il tipo di legame e di misurarne l'intensità.

Prima di passare ad analizzare i diversi indici, è però opportuno distinguere i diversi casi che si può avere interesse a valutare nelle situazioni reali, distinguendo fra lo studio della

1) dipendenza unilaterale, quando interessa esaminare la dipendenza della Y dalla X (oppure della X dalla Y). In questo caso la prima variabile è detta variabile dipendente, mentre la seconda è detta variabile indipendente o variabile esplicativa. Un esempio di questo tipo si ha quando si analizza il livello dei consumi delle famiglie (che costituisce la variabile dipendente) al variare del livello del reddito familiare (che è la variabile esplicativa) oppure la durata di funzionamento di una lampadina (variabile dipendente) in relazione al tipo di materiale utilizzato (variabile esplicativa).

La determinazione assunta da una variabile non va però mai ritenuta la causa della determinazione assunta dall'altra, in quanto una eventuale relazione di causa-effetto non potrebbe in ogni caso essere provata con i metodi statistici.

2) dipendenza bilaterale o interdipendenza, quando le due variabili hanno uno stesso “ruolo” all’interno dell’analisi. Esempi di questo genere sono i livelli del consumo medio delle automobili in città e in autostrada, i voti ottenuti in matematica e in statistica da un certo gruppo di studenti.

A questo punto conviene esaminare in dettaglio i due casi estremi, di dipendenza perfetta e di indipendenza.

(4)

PERFETTA DIPENDENZA UNILATERALE E BILATERALE ASSOLUTA (O IN DISTRIBUZIONE)

Considerata una tabella a doppia entrata, si ha una situazione di perfetta dipendenza unilaterale della Y dalla X quando le distribuzioni condizionate (assolute o relative) di Y|cj presentano un'unica determinazione a cui è associata una frequenza diversa da zero, mentre tutte le altre sono nulle.

La tabella seguente mostra un esempio di perfetta dipendenza della Y dalla X,

X\Y A B C

-1 8 0 0 8

0 0 0 12 12

1 0 10 0 10

2 10 0 0 10

18 10 12 40

come si vede dall’esame delle distribuzioni condizionate della Y|x o dalle corrispondenti distribuzioni relative condizionate riportate di seguito

X\Y A B C

-1 1 0 0 1

0 0 0 1 1

1 0 1 0 1

2 1 0 0 1

Se per una unità statistica è nota l’intensità assunta dalla variabile X, si è in grado di indicare con certezza la modalità assunta da Y. Infatti, se

x=-1 la modalità della Y è A x=0 la modalità della Y è C x=1 la modalità della Y è B x=2 la modalità della Y è A

(5)

Nella tabella precedente non esiste invece una situazione di perfetta dipendenza della X dalla Y. Se la Y assume la modalità A, infatti, non si può indicare con certezza l’intensità della X, che potrebbe essere -1 oppure 2.

La situazione di perfetta dipendenza bilaterale (ossia della Y dalla X e, contemporaneamente, della X dalla Y) si può verificare se e solo se le due variabili assumono uno stesso numero di determinazioni diverse, ossia quando la tabella è quadrata (con uno stesso numero di righe e di colonne).

Nell’esempio successivo si ha una situazione di perfetta dipendenza bilaterale

X\Y -1 0 1

1 0.0 0.0 0.2 0.2

2 0.5 0.0 0.0 0.5

3 0.0 0.3 0.0 0.3

0.5 0.3 0.2 1.0

In questo caso, infatti, sia le distribuzioni condizionate di Y|cj sia le distribuzioni di X|dl presentano un'unica determinazione a cui è associata una frequenza diversa da zero, mentre tutte le altre sono nulle.

Quando la tabella è rettangolare (con un numero di righe diverso dal numero di colonne), se esiste una situazione di dipendenza perfetta, tale dipendenza può essere solo unilaterale.

(6)

INDIPENDENZA ASSOLUTA (O IN DISTRIBUZIONE)

In una situazione di indipendenza fra X e Y le distribuzioni relative condizionate della Y|cj sono tutte uguali fra loro e anche le distribuzioni relative condizionate della X|dl sono tutte uguali fra loro.

Questo significa che per ogni determinazione di una variabile le diverse determinazioni dell’altra si presentano sempre nelle stesse proporzioni.

La conoscenza della determinazione di una variabile su un’unità statistica non aggiunge alcuna informazione utile per prevedere la determinazione assunta dall’altra variabile.

La tabella successiva riporta un caso di indipendenza fra X e Y

X\Y Basso Medio Alto

1 0.05 0.03 0.02 0.10

2 0.10 0.06 0.04 0.20

3 0.20 0.12 0.08 0.40

4 0.15 0.09 0.06 0.30

0.50 0.30 0.20 1.00 Le distribuzioni relative condizionate di Y|cj sono infatti

X\Y Basso Medio Alto

1 0.50 0.30 0.20 1.00

2 0.50 0.30 0.20 1.00

3 0.50 0.30 0.20 1.00

4 0.50 0.30 0.20 1.00

e, come si vede, sono tutte uguali alla distribuzione relativa marginale della Y.

(7)

Questo significa che la conoscenza della determinazione assunta da X su un’unità statistica non fornisce informazioni aggiuntive sulla Y rispetto a quelle note sulla base della sua distribuzione marginale.

La condizione di indipendenza statistica è sempre bilaterale

Dalla tabella originale si nota infatti che anche le distribuzioni relative condizionate di X|dl sono tutte uguali fra loro

X\Y Basso Medio Alto

1 0.10 0.10 0.10

2 0.20 0.20 0.20

3 0.40 0.40 0.40

4 0.30 0.30 0.30

1.00 1.00 1.00 e uguali alla distribuzione relativa marginale della X.

In caso di indipendenza, le distribuzioni relative condizionate di una variabile sono tutte uguali fra loro e uguali alla sua distribuzione relativa marginale.

Data la generica frequenza relativa della distribuzione relativa condizionata della Y|cj corrispondente al rapporto

𝑓𝑗𝑙

𝑓𝑗. per ogni 𝑙 = 1, 2, … , ℎ

in condizioni di indipendenza fra X e Y vale quindi la seguente uguaglianza

(8)

𝑓𝑗𝑙

𝑓𝑗. = 𝑓.𝑙 per ogni 𝑙 = 1, 2, … , ℎ

Allo stesso modo, data la generica frequenza relativa della distribuzione relativa condizionata della X|dl corrispondente al rapporto

𝑓𝑗𝑙

𝑓.𝑙 per ogni 𝑗 = 1, 2, … , 𝑘

in condizioni di indipendenza fra X e Y vale l’uguaglianza

𝑓𝑗𝑙

𝑓.𝑙 = 𝑓𝑗. per ogni 𝑗 = 1, 2, … , 𝑘

Da una qualsiasi delle precedenti uguaglianze nei riquadri colorati in giallo di questa pagina si ottiene la seguente uguaglianza

𝑓𝑗𝑙 = 𝑓𝑗.× 𝑓.𝑙

in base alla quale, in caso di indipendenza fra X e Y, le frequenze relative congiunte corrispondono al prodotto delle corrispondenti frequenze relative marginali. Questa condizione è necessaria e sufficiente perché ci sia indipendenza fra le variabili considerate.

Tornando a esaminare la tabella colorata in giallo, si nota come le frequenze interne corrispondano al prodotto delle frequenze marginali.

(9)

Se si fa riferimento alle frequenze assolute, anziché alle frequenze relative, la condizione di indipendenza fra X e Y implica che siano verificate le seguenti uguaglianze:

- per quanto riguarda le distribuzioni della Y|cj deve risultare

𝑛𝑗𝑙 𝑛𝑗. = 𝑛.𝑙

𝑛 per ogni 𝑙 = 1, 2, … , ℎ

- per quanto riguarda le distribuzioni della X|dl deve risultare

𝑛𝑗𝑙 𝑛.𝑙 = 𝑛𝑗.

𝑛 per ogni 𝑙 = 1, 2, … , ℎ

Facendo quindi riferimento a una tabella espressa mediante frequenze assolute, la condizione di indipendenza fra le due variabili comporta che le frequenze interne della tabella siano pari al prodotto delle frequenze marginali diviso per n, ossia

𝑛𝑗𝑙 = 𝑛𝑗.× 𝑛.𝑙 𝑛

In seguito, per non fare confusione, si utilizzeranno le notazioni 𝑓𝑗𝑙 e 𝑛𝑗𝑙 per indicare, rispettivamente, le frequenze relative e le frequenze assolute calcolate sotto ipotesi di indipendenza fra le due variabili in modo da distinguerle dalle frequenze relative 𝑓𝑗𝑙 e dalle frequenze assolute 𝑛𝑗𝑙 effettivamente osservate sulle n unità statistiche esaminate. Per questo motivo le frequenze 𝑓𝑗𝑙 e 𝑛𝑗𝑙

(10)

verranno chiamate frequenze teoriche (ossia calcolate sotto ipotesi di indipendenza).

Inoltre, dato che la dipendenza (o indipendenza) che si è considerata in questo paragrafo è solo uno dei vari tipi di dipendenza (o indipendenza) che si esamineranno in seguito, la indicheremo come dipendenza (o indipendenza) assoluta o dipendenza (o indipendenza) in distribuzione.

Riassumendo quanto detto finora: condizione necessaria e sufficiente per l’indipendenza assoluta o in distribuzione è qualsiasi delle due uguaglianze

𝑓𝑗𝑙 = 𝑓𝑗.× 𝑓.𝑙 𝑛𝑗𝑙 = 𝑛𝑗.× 𝑛.𝑙

𝑛

Quando le frequenze osservate sono uguali alle frequenze teoriche per ogni j=1, 2, …, k e per ogni l = 1, 2, …, h, le variabili sono indipendenti in senso assoluto o in distribuzione.

Quando non si è in una situazione di indipendenza, esiste un certo grado di dipendenza fra le due variabili e qui di seguito verrà esaminato un indice in grado di valutare il grado di dipendenza assoluta (o in distribuzione) di due variabili.

(11)

CHI-QUADRATO DI PEARSON

Questo indice, che misura la dipendenza bilaterale (o interdipendenza) fra le due variabili considerate, si basa sulle differenze fra le frequenze effettivamente osservate e quelle teoriche, calcolate sotto ipotesi di indipendenza assoluta.

Dipende solo valori delle frequenze, per cui può essere calcolato per variabili di qualsiasi tipo e la sua formula corrisponde a

𝜒2 = ∑ ∑(𝑛𝑗𝑙 − 𝑛𝑗𝑙)2 𝑛𝑗𝑙

𝑙=1 𝑘

𝑗=1

se le frequenze riportate nella tabella sono assolute, oppure a

𝜒2 = 𝑛 ∑ ∑(𝑓𝑗𝑙 − 𝑓𝑗𝑙)2 𝑓𝑗𝑙

𝑙=1 𝑘

𝑗=1

se le frequenze riportate nella tabella sono relative.

Le differenze fra frequenze osservate e frequenza teoriche, dette contingenze, risultano tutte pari a zero se le variabili sono indipendenti e assumono valori crescenti (negativi o positivi) al crescere del grado di dipendenza fra le variabili.

(12)

In una situazione di indipendenza assoluta, quindi, il chi-quadrato risulta pari a zero, mentre tende ad assumere valori crescenti al crescere del grado di dipendenza assoluta fra X e Y.

Esistono formule alternative per questo indice (che possono essere ottenute dalla formula originaria, ma che qui non saranno dimostrate) che consentono ottenere il risultato in maniera più rapida e semplice, evitando di calcolare le contingenze.

Nel caso di una tabella in cui compaiono le frequenze assolute, il chi-quadrato può essere ottenuto con la formula seguente

𝜒2 = 𝑛 (∑ ∑ 𝑛𝑗𝑙2 𝑛𝑗.𝑛.𝑙 − 1

𝑙=1 𝑘

𝑗=1

)

mentre nel caso in cui compaiono le frequenze relative corrisponde a

𝜒2 = 𝑛 (∑ ∑ 𝑓𝑗𝑙2 𝑓𝑗.𝑓.𝑙 − 1

𝑙=1 𝑘

𝑗=1

)

Si è detto che il suo minimo è pari a zero, mentre il massimo è pari al prodotto fra n ed il minore fra il numero di determinazioni (k) assunte dalla X e il numero di determinazioni (h) assunte dalla Y meno 1.

In simboli, il suo campo di variazione è

[0, 𝑛 × [𝑚𝑖𝑛(𝑘, ℎ) − 1]]

(13)

ESEMPI

1) Considerata la tabella successiva

X\Y a b c

A 3 1 0 4

B 1 7 8 16

4 8 8 20

calcolare il chi-quadrato e indicarne valore minimo e valore massimo Utilizzando la formula semplificata di calcolo si ottiene

𝜒2 = 20 ( 32

4 × 4+ 12

4 × 8+ 12

4 × 16+ 72

8 × 16+ 82

8 × 16− 1) = 9.84375

Per valutare il significato del risultato ottenuto è necessario sapere quale sarebbe il valore minimo e il valore massimo che potrebbe assumere l’indice per la tabella in esame. Il valore minimo è sempre pari a zero, mentre il massimo in questo caso è pari a

𝑛 × [𝑚𝑖𝑛(𝑘, ℎ) − 1] = 20 × [min(2,3) − 1] = 20 × (2 − 1) = 20

dato che la X assume due modalità diverse mentre la Y ne assume 3.

Il risultato del chi-quadrato si pone quindi verso il centro del campo di variazione dell’indice, evidenziando un moderato grado di dipendenza fra X e Y.

(14)

2) Considerata la tabella riportata nel precedente esempio, determinare le frequenze relative osservate e le frequenze relative teoriche, stimate sotto ipotesi di indipendenza assoluta fra le variabili

La tabella originaria espressa mediante le frequenze relative assume la forma

X\Y a b c

A 0.15 0.05 0.00 0.20

B 0.05 0.35 0.40 0.80

0.20 0.40 0.40 1.00 mentre quella sotto ipotesi di indipendenza risulta

X\Y a b c

A 0.04 0.08 0.08 0.20

B 0.16 0.32 0.32 0.80

0.20 0.40 0.40 1.00

PROPRIETÀ

Se due variabili X e Y quantitative sono indipendenti in senso assoluto la loro covarianza è pari a zero.

Per effettuare questa dimostrazione è sufficiente tenere presente la seguente condizione necessaria e sufficiente per l’indipendenza assoluta

𝑓𝑗𝑙 = 𝑓𝑗.× 𝑓.𝑙

e andare a sostituirla nella formula di calcolo del momento misto ordinario di ordine 1,1 riferito a una tabella a doppia entrata espressa mediante le

(15)

DIMOSTRAZIONE

Sotto la condizione di indipendenza assoluta, il momento misto dall’origine di ordine 1,1 calcolato sulla distribuzione bivariata relativa a due variabili quantitative X e Y, assume la forma

𝑚1,1 = ∑ ∑ 𝑥𝑗𝑦𝑙

𝑙=1 𝑘

𝑗=1

𝑓𝑗𝑙 = ∑ ∑ 𝑥𝑗𝑦𝑙

𝑙=1 𝑘

𝑗=1

𝑓𝑗.𝑓.𝑙 = ∑ 𝑥𝑗𝑓𝑗.× ∑ 𝑦𝑙

𝑙=1 𝑘

𝑗=1

𝑓.𝑙

Dato che

∑ 𝑥𝑗𝑓𝑗. = 𝑥̅

𝑘

𝑗=1

∑ 𝑦𝑙𝑓.𝑙 = 𝑦̅

𝑙=1

risulta che

𝑚1,1 = 𝑥̅𝑦̅

per cui

𝑠𝑥𝑦 = 𝑚1,1− 𝑥̅𝑦̅ = 𝑥̅𝑦̅ − 𝑥̅𝑦̅ = 0

(16)

DIPENDENZA E INDIPENDENZA IN MEDIA

Data una tabella a doppia entrata, si può avere interesse a confrontare le distribuzioni condizionate di una variabile per i diversi gruppi omogenei nell’altra variabile. Di solito, se la variabile Y è quantitativa, si confrontano le sue medie condizionate, ossia le medie calcolate all’interno dei gruppi omogenei in X (che può essere una variabile di natura qualsiasi). Esempi di questo tipo si presentano se si volessero confrontare:

- i voti medi a un esame ottenuti da studenti che hanno utilizzato differenti libri di testo

- i rendimenti medi di vari titoli azionari

- i livelli medi di consumo per diverse classi di reddito

- i tempi medi di guarigione da una malattia a seconda di differenti tipi di farmaci

Se i valori medi della Y|x variano al variare della determinazione della X, si dice che Y dipende in media da X.

Quando esiste una condizione di dipendenza in media della Y dalla X, si può ottenere una valutazione più o meno precisa dell'ordine di grandezza di Y su una unità statistica di cui è nota la sola determinazione cj assunta dalla X.

Questa valutazione, corrispondente alla media della distribuzione condizionata 𝑦̅𝑐𝑗, risulta tanto più accurata quanto maggiore è il grado di dipendenza in media della Y dalla X.

L’intensità del legame dipende ovviamente dalla variabilità delle distribuzioni condizionate Y|c: se le k varianze delle distribuzioni condizionate 𝑠2 sono

(17)

prossime a zero, le distribuzioni sono molto concentrate intorno alla loro media e le 𝑦̅𝑐𝑗 forniscono indicazioni attendibili sull'ordine di grandezza della Y per i gruppi omogenei in X.

La perfetta dipendenza in media della Y dalla X si avrebbe solo se ognuna delle k varianze condizionate 𝑠𝑦|𝑐2 𝑗 fosse nulla. In questo caso in ciascuna distribuzione condizionata c’è una sola intensità a cui è associata una frequenza non nulla e ovviamente questa intensità coincide con la media condizionata.

In questa situazione la conoscenza di X consente di individuare con certezza la corrispondente determinazione di Y per cui la perfetta dipendenza in media della Y dalla X equivale alla perfetta dipendenza in distribuzione della Y dalla X.

La situazione diametralmente opposta, di indipendenza in media, si ha quando le medie condizionate sono tutte uguali fra loro (e uguali alla media generale 𝑦̅).

Nelle situazioni reali, in genere, ci si trova in una situazione intermedia fra i due casi limite di indipendenza e di dipendenza perfetta e un indice in grado di misurare la dipendenza in media si basa sulla ormai nota scomposizione della varianza di n osservazioni suddivise in g gruppi distinti.

(18)

RAPPORTO DI CORRELAZIONE

La variabilità delle medie condizionate è misurata dalla varianza fra i gruppi (o varianza between) che in questo caso viene anche detta varianza spiegata, in quanto misura quella parte della varianza della Y che "dipende", ossia è

"spiegata", dalle differenze fra i valori medi della Y all'interno di ogni gruppo omogeneo in X.

Questa varianza, nel caso delle tabelle a doppia entrata, assume la forma

𝑠𝑏2 =1

𝑛∑ (𝑦̅𝑐𝑗 − 𝑦̅)2𝑛𝑗. =

𝑘

𝑗=1

∑ (𝑦̅𝑐𝑗 − 𝑦̅)2𝑓𝑗.

𝑘

𝑗=1

La varianza all’interno dei gruppi (o varianza within) è la media ponderata delle varianze condizionate e in questo caso viene detta varianza residua in quanto misura la parte “residua” della varianza complessiva della Y, quella parte, cioè, che dipende dalla variabilità della Y all'interno dei singoli gruppi omogenei in X.

Questa varianza assume la forma

𝑠𝑤2 = 1

𝑛∑ 𝑠𝑦|𝑐2 𝑗𝑛𝑗. =

𝑘

𝑗=1

∑ 𝑠𝑦|𝑐2 𝑗𝑓𝑗.

𝑘

𝑗=1

L’indice che misura la dipendenza in media della Y dalla X è chiamato rapporto di correlazione della Y sulla X e corrisponde al rapporto fra varianza spiegata e varianza totale di Y

(19)

𝜂𝑦|𝑥2 =𝑠𝑏2 𝑠𝑦2

In altri termini, l’eta quadrato della Y sulla X fornisce la proporzione di varianza complessiva della Y che viene spiegata dalla variabilità delle sue medie condizionate.

Dalla scomposizione della varianza complessiva della Y

𝑠𝑦2 = 𝑠𝑏2+ 𝑠𝑤2 si ottiene

𝑠𝑏2 = 𝑠𝑦2− 𝑠𝑤2

per cui il rapporto di correlazione può essere posto nella forma alternativa

𝜂𝑦|𝑥2 = 𝑠𝑦2 − 𝑠𝑤2

𝑠𝑦2 = 1 −𝑠𝑤2 𝑠𝑦2

per cui l’eta quadrato della Y sulla X è pari a 1 meno il rapporto fra la varianza residua divisa per la varianza complessiva della Y.

(20)

Tenendo presente che la varianza spiegata 𝑠𝑏2 può variare fra un minimo pari a zero e un massimo pari alla varianza complessiva 𝑠𝑦2 della Y, è evidente che:

Il rapporto di correlazione risulta sempre compreso nell’intervallo [0, 1].

Più precisamente:

- risulta pari a zero quando le 𝑦̅𝑐𝑗 sono tutte uguali fra loro e uguali a 𝑦̅, e in questo caso la Y è indipendente in media dalla X.

- risulta pari a 1 quando è nulla la varianza residua, ossia quando tutte le varianze delle distribuzioni condizionate sono pari a zero. Questo significa che all’interno dei gruppi omogenei in X i valori della Y coincidono tutti con la media condizionata e si è detto che questa situazione corrisponde ad una situazione di dipendenza assoluta perfetta della Y dalla variabile X.

A questo proposito va osservato che se è noto che X e Y sono indipendenti in senso assoluto (per cui l’indice chi-quadrato è nullo), anche i due eta quadrato (della Y sulla X e della X sulla Y) saranno pari a zero.

La variabile Y risulta infatti indipendente in media dalla X, dato che le variabili Y|cj hanno distribuzioni identiche e, quindi, la stessa media (e, più in generale, gli stessi momenti). Il discorso vale anche scambiando il ruolo delle due variabili.

Non vale invece la conclusione opposta in quanto una situazione di indipendenza in media della Y dalla X non esclude che vi sia dipendenza assoluta (o in distribuzione) fra le due variabili.

(21)

ESEMPIO

Considerata la seguente distribuzione bivariata

X\Y -1 0 1

A 15 5 0 20

B 5 35 40 80

20 40 40 100

si calcoli il rapporto di correlazione della Y sulla X sia come rapporto fra varianza spiegata e varianza totale, sia come 1 meno il rapporto fra varianza residua e varianza totale

Considerata la distribuzione marginale della Y si ottiene 𝑦̅ = 0.2

𝑚2𝑦 = 0.6 𝑠𝑦2 = 0.56

Le medie delle distribuzioni condizionate della Y|x sono rispettivamente pari a 𝑦̅𝐴 = −0.75

𝑦̅𝐵 = 0.4375

per cui la varianza spiegata è pari a

𝑠𝑏2 = (−0.75 − 0.2)2× 20 + (0.4375 − 0.2)2× 80

100 = 0.225625

Il rapporto di correlazione della Y sulla X espresso in funzione della varianza spiegata è pari a

𝜂𝑦|𝑥2 =𝑠𝑏2

𝑠𝑦2 = 0.225625

0.56 ≈ 0.4029

(22)

Le varianze delle due distribuzioni condizionate della Y sono invece pari a 𝑠𝑦|𝐴2 = 0.1875

𝑠𝑦|𝐵2 = 0.37109375

per cui la varianza residua è pari a 𝑠𝑤2 = 0.1875 × 20 + 0.37109375 × 80

100 = 0.334375

Il rapporto di correlazione della Y sulla X espresso in funzione della varianza residua è pari a

𝜂𝑦|𝑥2 = 1 −𝑠𝑤2

𝑠𝑦2 = 1 −0.334375

0.56 ≈ 0.4029

Riferimenti

Documenti correlati

Per risolvere questo esercizio con il metodo algebrico sarebbe necessario, dopo aver trovato i massimi e minimi liberi (in questo caso non ce ne sono) all’interno della

Per questo scopo si calcola una statistica test in grado di misurare la diversità fra le due distribuzioni e, sulla base della sua distribuzione di probabilità, stimata sotto

Teorema sulla condizione sufficiente per l'esistenza di massimi e minimi relativi (dim).. Test delle derivate parziali seconde per l'esistenza di massimi e minimi

Come per le funzioni ad una sola variabile si definisce DOMINIO DI UNA FUNZIONE A due VARIABILI l'insieme dei valori che possono essere attribuiti alle variabili indipendenti

I dati riportano il numero di risposte corrette in funzione della durata dello spot. (x n y

CORSO DI LAUREA IN INGEGNERIA EDILE/ARCHITETTURA. FOGLIO DI ESERCIZI 5 –

In caso positivo esprimere tale combinazione lineare (nella forma pi` u generale

Al contrario aminoacidi e sali minerali ( ad eccezione del potassio ) , avranno una concentrazione maggiore nelle parti esterne del frutto , cosi come tutte le parti colloidali