• Non ci sono risultati.

5. DISTRIBUZIONI BIVARIATE 5.1 Introduzione

N/A
N/A
Protected

Academic year: 2021

Condividi "5. DISTRIBUZIONI BIVARIATE 5.1 Introduzione"

Copied!
29
0
0

Testo completo

(1)

5. DISTRIBUZIONI BIVARIATE

5.1 Introduzione

Nei capitoli precedenti sono stati esaminati alcuni dei più comuni metodi statistici utilizzati per descrivere l’assetto distributivo di una variabile per evidenziarne le caratteristiche principali. Scopo delle prossime pagine sarà quello di estendere l'analisi a quei casi in cui su ogni unità statistica sono rilevate più variabili contemporaneamente.

In questa situazione si possono studiare le caratteristiche delle singole variabili, ma l’interesse principale consiste nell’analizzare le eventuali relazioni esistenti fra le variabili stesse e nel misurarne l’intensità.

Per semplicità sarà preso in considerazione solo il caso di due variabili e lo studio sarà quindi limitato alle cosiddette distribuzioni bivariate.

Le due variabili statistiche oggetto dell'indagine saranno indicate genericamente con le lettere maiuscole X e Y e si parlerà o di due variabili X e Y o di una variabile (X, Y) a due dimensioni. Le due variabili considerate possono essere sia qualitative (sconnesse o ordinabili) sia quantitative (discrete o continue) e possono essere dello stesso tipo, oppure di tipo diverso.

Su n individui può essere rilevato, per esempio, il titolo di studio e la posizione nella professione e in questo caso le due variabili sono entrambe di qualitative sconnesse. Su n imprese si può rilevare il ramo di attività economica (commercio, trasporti, credito, …) e il numero di addetti, per cui si tratta di una variabile qualitativa e di una variabile quantitativa discreta. Su n famiglie si può rilevare il reddito medio annuo e il consumo medio annuo, e in questo caso le due variabili prese in considerazione sono entrambe di tipo quantitativo e possono essere considerate di tipo continuo.

L'osservazione delle due variabili su ognuna delle n unità considerate fornisce una sequenza di n coppie di modalità o di valori di X e Y, in cui ogni coppia si riferisce a una stessa unità. Le determinazioni rilevate su queste n coppie, indicate genericamente nel modo seguente

(x1, y1), (x2, y2), ..., (xi, yi), ..., (xn, yn),

possono essere elencate in un prospetto analogo a quello della tabella 5.1.1, in cui con xi e yi vengono indicate le determinazioni delle variabili X e Y rilevate sull'i-esima unità (i = 1, 2, …, n) ordinate in base all’ordine di rilevazione.

(2)

Tabella 5.1.1

Esempio di sequenza di coppie relative a n osservazioni

X x1 x2 ... xi ... xn

Y y1 y2 ... yi ... yn

Si supponga, per esempio, che su 20 clienti di un’azienda che vende fondi di investimento si sia rilevato se il cliente è un pensionato o meno e la tipologia di investimento scelto. Indicata con X la variabile che assume valore 1 se il cliente è pensionato e valore 0 in caso contrario, e con Y la variabile che assume le seguenti modalità A= “azioni”, V= “polizza vita”, F= “fondi” il prospetto seguente riporta la sequenza delle coppie di determinazioni rilevate su 20 clienti.

Tabella 5.1.2

Sequenza delle coppie di determinazioni assunte da due variabili su 20 unità (elencate secondo l’ordine di rilevazione)

X 0 0 1 1 1 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0 Y A F V A A F V V V A F V V V A V A V A V

Dai dati della tabella 5.1.2 risulta, per esempio, che il quarto cliente rilevato è un pensionato che ha acquistato azioni, mentre il nono cliente non è un pensionato e ha acquistato una polizza vita.

Se le variabili sono qualitative ordinate o quantitative, le coppie possono essere anche elencate sulla base della sequenza ordinata delle determinazioni assunte da una o dall'altra variabile, così come si è già visto nel caso univariato, dato che l’eventuale ordinamento non altera in alcun modo le informazioni raccolte.

(3)

5.2 Distribuzioni bivariate

Come già descritto per il caso univariato, anche i risultati della rilevazione di una coppia di variabili qualitative o quantitative discrete sono presentati di solito sotto forma di distribuzioni di frequenza mediante dei prospetti, detti tabelle a doppia entrata o distribuzioni bivariate, che hanno una struttura analoga a quella della tabella successiva.

Tabella 5.2.1

Esempio di distribuzione bivariata – frequenze assolute

X\Y d1 d 2 ... dl ... dh

c1 n11 n12 ... n1l ... n1h n1.

c2 n21 n22 ... n2l ... n2h n2.

. . . .

cj nj1 nj2 ... njl ... njh nj.

. . . .

ck nk1 nk2 ... nkl .... nkh nk.

n.1 n.2 ... n.l ... n.h n

I simboli cj (j = 1, 2, ..., k) che compaiono sulla prima colonna rappresentano le k determinazioni diverse che la variabile X assume sulle n unità statistiche esaminate, mentre i simboli dl (l = 1, 2, ..., h) riportati sulla prima riga rappresentano le h determinazioni diverse che la Y assume sullo stesse unità.

Se le variabili sono qualitative ordinabili o quantitative discrete, le determinazioni sono riportate secondo il loro ordine naturale.

Il simbolo njl, che si legge all'incrocio fra la riga cj e la colonna dl, indica il numero di unità sui quali sono state rilevate contemporaneamente le determinazioni cj e dl delle variabili X e Y.

I simboli n.1, n.1, ..., n.h riportati nell'ultima riga della tabella 5.2.1 indicano i totali delle diverse colonne e, quindi, il numero di unità sulle quali sono state rilevate le determinazioni d1, d2, ..., dh della variabile Y, senza tener conto delle determinazioni assunte dalla X.

Risulta perciò

k

j j

. n

n

1 1

1 , ...,

k

j l j

.l n

n

1

, ...,

k

j h j

.h n

n

1

.

(4)

Un significato analogo hanno i simboli nj. che, corrispondendo ai totali delle diverse righe, indicano il numero di unità sulle quali sono state rilevate le determinazioni c1, c2, ..., ck della X, senza tener conto delle determinazioni assunte dalla Y.

Risulta ovviamente

h

l l

. n

n

1 1

1 , ...,

h

l jl

j. n

n

1

, ...,

h

l kl

k. n

n

1

.

Nel quadratino in basso a destra della tabella 5.2.1 la lettera n indica il numero totale delle unità statistiche esaminate, per cui risulta

. n n

n n

k

j h

l jl h

l .l k

ji

j.

 

 

1 1 1

1

Un esempio di distribuzione bivariata riferita a una variabile qualitativa sconnessa e a una qualitativa ordinabile è riportato nella tabella successiva.

Tabella 5.2.2

Arrivi negli esercizi ricettivi in Italia per residenza dei clienti e mese – Anno 2007 Fonte ISTAT- Movimento dei clienti negli esercizi ricettivi

Mese\Residenza Italiani Stranieri

Gennaio 2863439 1509739 4373178

Febbraio 2898551 1951340 4849891

Marzo 3518301 2660268 6178569

Aprile 4782364 3662612 8444976

Maggio 4091207 4677447 8768654

Giugno 6212762 4992022 11204784

Luglio 6566385 5963598 12529983

Agosto 7818714 5232409 13051123

Settembre 4647082 5246572 9893654

Ottobre 3318629 3718105 7036734

Novembre 2924948 1768584 4693532

Dicembre 3398903 1446432 4845335

53041285 42829128 95870413

In questo caso, per esempio, la frequenza 1951340 posta all'incrocio fra “Febbraio” e “Stranieri”

corrisponde al numero di stranieri arrivati negli esercizi ricettivi italiani durante il mese di febbraio del 2007.

(5)

Le coppie costituite dagli elementi della prima e dell'ultima riga della tabella costituiscono invece la distribuzione degli arrivi negli esercizi ricettivi italiani durante l’anno 2007 per residenza dei clienti, senza tener conto del mese. Così, per esempio, sono circa 53 milioni gli italiani arrivati in un esercizio ricettivo durante il 2007.

In maniera analoga si possono commentare i valori indicati sull’ultima colonna, per cui 4373178 è il numero di arrivi negli esercizi ricettivi in Italia nel gennaio 2007, senza tenere conto della residenza dei clienti.

Se le variabili rilevate sono qualitative o quantitative discrete, la distribuzione congiunta delle due variabili contiene le stesse informazioni della sequenza originaria.

Se almeno una delle due variabili è quantitativa continua, le informazioni raccolte saranno sintetizzate utilizzando delle classi di valori, per le quali valgono tutte le considerazioni fatte a proposito delle distribuzioni univariate. Evidentemente questa operazione comporta necessariamente una perdita di informazione, ma evidenzia l’assetto distributivo della variabile oggetto di indagine, cosi come accadeva nel caso univariato.

In questo caso sulla prima riga della tabella, sulla prima colonna, o su entrambe, sono indicate non le singole determinazioni cj e dl ma degli opportuni intervalli di valori (che saranno considerati sempre aperti a sinistra e chiusi a destra, se non sarà diversamente specificato).

Se, per esempio, si utilizzano classi di valori sia per la X sia per la Y, all'incrocio fra la riga indicata con l'intervallo cj-1cj e la colonna indicata con l'intervallo dl-1dl il simbolo njl rappresenta il numero di unità su cui sono stati rilevati contemporaneamente valori della X compresi nell’intervallo (cj-1 , cj] e valori della Y compresi nell’intervallo (dl-1, dl].

Esempio 5.2.1

Date le due seguenti sequenze di dati che si riferiscono ai livelli di colesterolo, misurati in mg per 100 ml, di due diversi gruppi di unità

Gruppo 1

233, 291, 312, 250, 246, 197, 268, 224, 239, 239, 254, 276, 234, 181, 248, 252, 202, 218, 212, 325

Gruppo 2

344, 185, 263, 246, 224, 212, 188, 250, 148, 169, 226, 175, 242, 252, 153, 183, 137, 202, 194, 213

si organizzino i dati in una tabella a doppia entrata in cui la variabile X, che identifica il gruppo, assume valore 1 per il primo gruppo e valore 2 per il secondo, mentre la variabile Y, che indica i livelli di colesterolo, è raggruppata nelle classi 130-180, 180-220, 220-250, 250-350.

(6)

La distribuzione bivariata di X e Y assume la forma indicata nella tabella successiva.

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo X\Y 130 - 180 180 - 220 220 - 250 250 - 350

1 0 5 8 7 20 2 5 7 5 3 20 5 12 13 10 40

Nelle successive tabelle 5.2.3 e 5.2.4 sono riportati alcuni esempi di distribuzioni bivariate con variabili di diverso tipo. Nel primo caso entrambe le variabili sono qualitative sconnesse, mentre nel secondo caso una è qualitativa sconnessa e l’altra quantitativa discreta ma, a causa dell’elevato numero dei suoi diversi valori, si è utilizzato un raggruppamento in classi.

Tabella 5.2.3

Produzione di vino per regione e marchio di qualità - Anno 2007 (Fonte ISTAT) Marchio\Regione D.O.C. e D.O.C.G. I.G.T. Da tavola

Piemonte 2276353 0 447593 2723946 Valle d'Aosta 11500 0 6000 17500 Lombardia 670701 181578 246785 1099064 Trentino-Alto Adige 1019845 179730 21820 1221395 Veneto 2329132 4541373 808550 7679055 Friuli-Venezia Giulia 669450 203881 156159 1029490 Liguria 45078 7957 36019 89054 Emilia-Romagna 1480163 2300051 1976967 5757181 Toscana 1749601 711084 357891 2818576 Umbria 307090 399637 291683 998410 Marche 272580 362615 121470 756665 Lazio 888984 323870 605219 1818073 Abruzzo 769150 130330 1246985 2146465 Molise 187595 0 131665 319260 Campania 235045 256206 1161104 1652355 Puglia 827925 1058798 3499152 5385875 Basilicata 29359 24007 167874 221240 Calabria 84454 28292 293361 406107 Sicilia 153015 1147173 2641120 3941308 Sardegna 239947 177775 444514 862236

14246967 12034357 14661931 40943255

(7)

Tabella 5.2.4

Fallimenti dichiarati dalle società per classe di ampiezza demografica dei comuni e forma giuridica (Anno 2006) - Fonte ISTAT

forma\ampiezza 50.000 [50001, 100000] [100001, 500000] > 500000

Società di fatto 17 2 5 11 35

In nome collettivo 472 88 102 95 757

A resp. limitata 3152 818 1006 1843 6819

Per azioni 80 21 24 40 165

In acc. semplice 691 196 125 280 1292

In acc. per azioni 20 0 2 5 27

Cooperative 119 40 32 46 237

4551 1165 1296 2320 9332

Nella tabella 5.2.5 è invece riportata la sequenza originaria di coppie dei valori del reddito e del consumo annui di 25 famiglie e nella 5.2.6 una delle possibili distribuzioni di frequenza corrispondente, espressa mediante intervalli di valori.

Tabella 5.2.5

Reddito e consumo annui di 25 famiglie (dati in migliaia di euro)

Reddito 22.2 22.6 23.2 23.4 23.8 24.2 24.6 25.0 25.2 25.6

Consumo 18.4 19.0 19.8 19.4 20.2 20.6 22.2 22.2 20.0 21.4

Reddito 25.8 26.2 26.8 27.2 27.6 28.0 28.4 28.6 29.0 29.4

Consumo 21.0 21.6 22.2 21.8 22.0 23.0 24.0 23.6 24.2 22.0

Reddito 30.2 30.6 31.2 32.0 34.2

Consumo 23.4 24.2 23.6 24.4 25.8

Tabella 5.2.6

Distribuzione sintetica ottenuta dalla tabella 5.2.5 reddito\consumo 18 - 20 20 - 22 22 – 24 24 - 26

22 – 25 4 2 2 0 8

25 – 27 1 3 1 0 5

27 – 29 0 2 3 1 6

29 – 35 0 1 2 3 6

5 8 8 4 25

(8)

Esempio 5.2.2

Considerate le coppie di osservazioni della tabella 5.1.2 si costruisca la distribuzione doppia corrispondente

In questo caso le 3 determinazioni della variabile Y possono essere riportate secondo un ordine qualsiasi.

Distribuzione bivariata ottenuta dalla sequenza di coppie considerate nella tabella 5.1.2

X\Y A F V

0 5 3 6 14

1 2 0 4 6

7 3 10 20

(9)

5.3 Frequenze relative

Analogamente a quanto visto per le distribuzioni univariate, anche la distribuzione congiunta delle due variabili X e Y può essere descritta mediante le frequenze relative, anziché mediante le frequenze assolute.

Queste frequenze si calcolano dividendo le frequenze assolute per il numero totale di osservazioni

n f jlnjl ,

e indicano la frazione di unità che presentano una stessa coppia di determinazioni delle due variabili.

Tabella 5.3.1

Esempio di distribuzione bivariata – frequenze relative

X\Y d1 d 2 ... dl ... dh

c1 f11 f12 ... f1l ... f1h f1.

c2 f21 f22 ... f2l ... f2h f2.

. . . .

cj fj1 fj2 ... fjl ... fjh fj.

. . . .

ck fk1 fk2 ... fkl .... fkh fk.

f.1 f.2 ... f.l ... f.h 1.0

Si ha evidentemente

, f

k

j h

l

jl

1

1 1



 

5.3.1

mentre le frequenze relative riportate nell’ultima riga e nell’ultima colonna della tabella a doppia entrata corrispondono rispettivamente a

.l k

j

jl f

f

1

l = 1, 2, …, h 5.3.2

. j h

l

jl f

f

1

j = 1, 2, …, k 5.3.3

con

(10)

. f f

h

l l . k

j .

j

1

1

1

 5.3.4

Nella tabella 5.3.2 è riportata, a titolo d’esempio, la stessa distribuzione della tabella 5.2.6 dove le frequenze assolute sono state sostituite con quelle relative.

Tabella 5.3.2

Distribuzione espressa mediante frequenze relative ottenuta dalla tabella 5.2.6 reddito\consumo 18 - 20 20 - 22 22 – 24 24 – 26

22 – 25 0.16 0.08 0.08 0.00 0.32

25 – 27 0.04 0.12 0.04 0.00 0.20

27 – 29 0.00 0.08 0.12 0.04 0.24

29 – 35 0.00 0.04 0.08 0.12 0.24

0.20 0.32 0.32 0.16 1.00

Come nel caso univariato, anche in quello bivariato gli indici statistici possono essere calcolati indifferentemente utilizzando uno qualunque dei diversi tipi di frequenza.

Esempio 5.3.1

Data la distribuzione bivariata costruita nell’esempio 5.2.1, si sostituiscano le frequenze assolute con le corrispondenti frequenze relative.

Distribuzione di 40 unità per gruppo di appartenenza e livelli di colesterolo (frequenze relative)

X\Y 130 - 180 180 - 220 220 - 250 250 - 350

1 0.000 0.125 0.200 0.175 0.500 2 0.125 0.175 0.125 0.075 0.500 0.125 0.300 0.325 0.250 1.000

(11)

5.4 Distribuzioni marginali e condizionate

Le informazioni contenute in una tabella a doppia entrata sono costituite dalle 2 distribuzioni di una variabile senza tener conto delle determinazioni assunte dall’altra e dalla distribuzione congiunta delle due variabili, riportata nel riquadro centrale della tabella.

L’insieme delle coppie (cj, fj..) o delle coppie (cj, nj..) per j = 1, 2, ..., k, che costituisce la distribuzione di frequenza della variabile X senza considerare la Y, viene chiamata distribuzione marginale della X.

Allo stesso modo l’insieme delle coppie (dl, f.l) o (dl, n.l) per l = 1, 2, ..., h, costituisce la distribuzione marginale della Y.

Tali distribuzioni sono utilizzate per calcolare tutti gli indici esaminati nei capitoli precedenti per quanto riguarda le due variabili singolarmente considerate.

Le informazioni più rilevanti di una tabella a doppia entrata sono però contenute nel suo riquadro interno, in quanto la distribuzione congiunta delle due variabili X e Y evidenzia le eventuali relazioni esistenti fra esse e serve per misurare l’entità di tali relazioni.

Per ottenere questo tipo di informazione dai dati occorre analizzare e confrontare fra loro gli assetti distributivi di una variabile rilevata all’interno dei diversi gruppi omogenei nell’altra, ossia per gruppi

“omogenei” di unità che presentano tutte una stessa determinazione (o una stessa classe di valori) dell’altra variabile.

Le k righe del riquadro interno di ogni tabella a doppia entrata, in associazione con la prima riga, rappresentano altrettante distribuzioni univariate della variabile Y all’interno dei diversi gruppi omogenei in X. I valori fj1, fj2, ..., fjh della j-esima riga indicano infatti la distribuzione della variabile Y limitatamente al gruppo di unità che presentano tutti la stessa determinazione cj di X oppure un’intensità compresa nella j-esima classe (cj-1, cj] di questa variabile (con j = 1, 2, …, k).

Ogni riga interna della tabella rappresenta la distribuzione della Y per un gruppo di unità omogenee rispetto alla variabile X. Tali distribuzioni, note come distribuzioni condizionate della Y alle diverse determinazioni (o classi di valori) della X, vengono indicate mediante la notazione Y|x.

La prima riga del riquadro interno della tabella 5.3.1, per esempio, rappresenta la distribuzione del consumo delle sole famiglie con un reddito compreso fra 22 e 25 mila euro annui, mentre la seconda riga fornisce informazioni sulla distribuzione del consumo per le famiglie con un reddito fra 25 e 27 mila euro annui.

(12)

Uno degli scopi dell’analisi di questa tabella può consistere nel confronto delle distribuzioni del consumo fra gruppi di famiglie omogenee rispetto al reddito, per valutare se questi consumi variano a seconda del livello di reddito.

In genere si presenta la difficoltà di confrontare distribuzioni relative a gruppi di numerosità diversa, per cui conviene dividere le frequenze che compaiono su ciascuna riga per il totale di riga corrispondente, ottenendo le frequenze relative di riga, che consentono di effettuare questi confronti quale che sia la numerosità di ciascun gruppo.

Nel caso dei dati riportati nelle tabelle 5.2.6 o 5.3.1, per esempio, le frequenze relative di riga assumono i valori riportati nella tabella successiva.

Tabella 5.4.1

Frequenze relative di riga ottenute dalla tabella 5.2.7 o 5.3.1 reddito\consumo 18 – 20 20 - 22 22 - 24 24 – 26

22 – 25 0.50 0.25 0.25 0.00 1.00

25 – 27 0.20 0.60 0.20 0.00 1.00

27 – 29 0.00 0.17 0.50 0.03 1.00

29 – 35 0.00 0.03

0,1 6

0.50 1.00

Le distribuzioni di frequenza della Y per i diversi gruppi omogenei in X quando è posta uguale ad 1 la frazione complessiva di unità di ciascun gruppo, sono chiamate distribuzioni relative condizionate della Y alle diverse determinazioni (o classi di valori) della X.

Nella successiva tabella 5.3.3 è riportato un altro esempio di distribuzioni condizionate. In questo caso si tratta delle distribuzioni del tipo di visita medica a cui si sono sottoposte pazienti di sesso femminile, condizionate alle classi di età delle pazienti.

(13)

Tabella 5.3.3

Distribuzione delle visite mediche specialistiche per tipo specializzazione del medico ed età del paziente1 - Femmine - Frequenze relative di riga

età\tipo A B C D E F

 14 0.062 0.019 0.158 0.442 0.146 0.173 1.000

14-19 0.060 0.090 0.129 0.527 0.050 0.144 1.000

20-29 0.064 0.615 0.073 0.164 0.048 0.036 1.000

30-39 0.072 0.549 0.054 0.201 0.044 0.080 1.000

40-49 0.160 0.363 0.069 0.224 0.059 0.125 1.000

50-59 0.208 0.226 0.066 0.203 0.091 0.206 1.000

60-64 0.388 0.048 0.214 0.126 0.044 0.180 1.000

65 e + 0.371 0.075 0.157 0.177 0.049 0.171 1.000

A = cardiologiche, B = ginecologiche ed ostetriche, C = oculistiche, D = odontoiatriche, E = otorinolaringoiatriche, F = ortopediche

Dai dati contenuti nella tabella risulta, per esempio, che per le pazienti con un'età inferiore a 20 anni le visite sono soprattutto di tipo odontoiatrico (44% del totale in quella classe di età), per quelle con un'età compresa fra 20 e 40 anni sono ostetriche e ginecologiche (oltre il 60%) ed infine, per quelle con un'età superiore a 60, sono cardiologiche. Per quest’ultimo tipo di visita si nota un incremento dell'incidenza al crescere dell'età delle pazienti, mentre per quelle oculistiche la maggiore incidenza si ha per le pazienti con un'età inferiore a 20 anni e superiore a 60.

Quando ci si vuole riferire alla distribuzione della variabile Y condizionata ad una generica determinazione cj (o alla j-esima classe) della X si utilizza la notazione

Y|cj, j = 1, 2, ..., k,

mentre le frequenze relative condizionate corrispondenti si ottengono dai rapporti

j.

jl j.

jl

f f n

n  , 5.4.1

dove

1Fonte: ISTAT (1986) Indagine statistica sulle condizioni di salute della popolazione e sul ricorso ai servizi sanitari. Note e relazioni n.1

(14)

1

1 1

h

l j.

h jl

l j.

jl

f f n

n j = 1, 2, ..., k. 5.4.2

Se si vuole scambiare il ruolo delle due variabili, analizzando la distribuzione condizionata della variabile X condizionata ad una generica determinazione yl (o alla l-esima classe) della Y, si utilizza ovviamente la notazione

X|dl, l = 1, 2, ..., h.

mentre le frequenze relative condizionate corrispondenti sono date dal rapporto

l.

jl l.

jl

f f n

n  , 5.4.3

dove

1

1 1

k

j .l

k jl

j .l

jl

f f n

n l = 1, 2, ..., h.

In una tabella a doppia entrata relativa a una variabile X che assume k determinazioni (o classi di valori) diverse e a una variabile Y che assume h determinazioni (o classi di valori) diverse restano quindi determinate:

- la distribuzione di frequenza congiunta delle due variabili;

- le due distribuzioni marginali da X e della Y;

- le k distribuzioni condizionate della Y|cj (con j = 1, 2, …, k);

- le h distribuzioni condizionate della X|dl (con l = 1, 2, …, h).

(15)

Esempio 5.4.1

Data la seguente distribuzione bivariata relativa ai residenti di un comune italiano classificati per classe di età (X) e nazionalità (Y)

Distribuzione dei residenti per classe di età e nazionalità

X\Y Italiani Stranieri

 14 10053 1245 11298 15 – 39 30247 4105 34352 40 – 64 41556 3470 45026

≥ 65 32144 2180 34324 114000 11000 125000

si determinino le distribuzioni relative condizionate della X dalla Y.

Le distribuzioni relative delle classi di età a seconda della nazionalità dei residenti risultano Distribuzioni relative delle classi di età dei residenti condizionate alla nazionalità

X\Y Italiani Stranieri  14 0.09 0.11 15 – 39 0.27 0.37 40 – 64 0.36 0.32

≥ 65 0.28 0.20 1.00 1.00

Esempio 5.4.2

In un’indagine su 100 studenti universitari iscritti a un certo corso di laurea nel 2015, si è rilevato il voto di diploma conseguito e se erano ancora iscritti al corso o se lo avevano abbandonato. Sulla base della distribuzione riportata nella tabella successiva,

Distribuzione di un gruppo di studenti universitari per stato e voto di diploma Condizione (X)\Voto (Y) 80 8190 >90

Abbandono 12 6 2 20

Iscritto 18 40 22 80

30 46 24 100

si calcolino le distribuzioni relative condizionate del voto di diploma (Y) a seconda della condizione dello studente (X).

Distribuzioni relative del voto di diploma condizionate allo stato degli studenti

X\Y 80 8190 >90

Abbandono 0.600 0.300 0.100 1.000 Iscritto 0.225 0.500 0.275 1.000

(16)

5.5 Valori caratteristici

Le distribuzioni marginali delle variabili X e Y sono utilizzate per calcolare gli indici esaminati per le distribuzioni univariate.

Se entrambe le variabili sono quantitative, il generico momento dall’origine di ordine r per X e Y è dato rispettivamente da

l . h

j r l l

. h

l r l ry

. j k

j rj .

j k

j rj rx

f d n

n d m

f c n

n c m

1 1

1 1

1 1

r = 0, 1, 2, ...

nel caso in cui le variabili siano discrete, mentre la loro formula approssimata è

l . h

j lr l

. h

l lr ry

. j k

j rj .

j k

j rj rx

f d n

n d m

f c n

n c m

1 1

1 1

1 1

r = 0, 1, 2, ...

per variabili in classi di valore.

Allo stesso modo, il generico momento centrale di ordine r di X e Y corrisponde a

   

 

h

 

.l

j

r l l

. h

l

r l ry

. j k

j

r j .

j k

j

r j rx

f y d n

y n d

m

f x c n

x n c

m

1 1

1 1

1 1

r = 0, 1, 2, ...

se la tabella riporta i valori delle variabili, mentre se la distribuzione è in classi, si utilizzano le medesime espressioni in cui compaiono però i valori centrali delle singole classi

   

   

l h

j

r l l

h

l

r l ry

j k

j

r j j

k

j

r j rx

f y d n

y n d

m

f x c n

x n c

m

. 1

. 1

. 1

. 1

1 1

r = 0, 1, 2, ...

(17)

Esempio 5.5.1

Considerata la seguente distribuzione bivariata

X\Y 0 1 2

-1.5  -0.5 40 0 0 40

-0.5  0.5 0 40 40 80

0.5  1.5 0 20 60 80

40 60 100 200

si calcoli la media e la varianza delle variabili X e Y.

Risulta

2 200 0

80 1 80 0 40

1 .

x       06

200 80 1 40 1

2 .

m x      sx20.60.220.56 3

200 1

100 2 60 1 40

0 .

y       23

200 100 4 60 1

2 .

m x     sy22.31.320.61

I diversi momenti possono essere calcolati anche sulle diverse distribuzioni condizionate.

Più in particolare, il momento di ordine r delle k distribuzioni della variabile quantitativa Y condizionata alla variabile X (che può essere invece di qualsiasi tipo) corrisponde a

jl h

j lr j jl h

l lr j c ry

jl h

j r l j jl h

l r l j c ry

f f d

n n d

m

f f d

n n d

m

j j

. 1 . 1

|

. 1 . 1

|

1 1

1 1

r = 0, 1, 2, ... 5.5.1

a seconda che nella tabella compaiano i singoli valori o le classi, mentre le corrispondenti formule per il momento centrale r-esimo corrispondono a

   

   

jl

h

j

r x j l

jl h

l

r x j l

c ry

jl h

j

x r l j jl h

l

x r l j c ry

f y f d

n y n d

m

f y f d

n y n d

m

j j

j

j j

j

. 1 . 1

|

. 1 . 1

|

1 1

1 1

r = 0, 1, 2, ... 5.5.2

Considerata la distribuzione doppia ottenuta nell’esempio 5.2.1, le distribuzioni relative condizionate di

|

1

Y x

e di

Y x |

2 sono riportate nella tabella successiva

(18)

Tabella 5.5.1

Distribuzioni condizionate della Y in base alla distribuzione congiunta dell’esempio 5.2.1

X\Y 130 - 180 180 - 220 220 - 250 250 – 350

1 0.00 0.25 0.40 0.35 1.00

2 0.25 0.35 0.25 0.15 1.00

da cui, applicando la 5.5.1, si ottengono le medie

1

1 y

my| 200

0.25

2350.4

300

0.35 = 249.00,

2

2 y

my| 155

0.25

200

0.35

235

0.25

300

0.15 = 212.50,

e i momenti del secondo ordine

1

m2y| 2002

0.25

2352

0.4

3002

0.35 = 63590,

2

m2y| 1552

0.25

2002

0.35

2352

0.25

3002

0.15= 47312.5.

Le varianze delle due distribuzioni condizionate sono quindi rispettivamente pari a

2 1

|

sy = 63590  2492 = 1589.00,

2

| 2

sy = 47312.5 212,52 = 2156,25.

Esempio 5.5.2

Considerata la distribuzione bivariata dell’esempio 5.5.1 si calcoli la media delle tre distribuzioni condizionate della Y dalla X.

Risulta

1.5,0.5

0401400200

y y0.5,0.5

140802401.5 y0.5,1.5

120802601.75

Allo stesso modo, i momenti di ordine r delle h distribuzioni della variabile X|dl quando X è discreta (qualitativa o quantitativa) risultano

(19)

jl k

j rj l jl k

j rj l d

rx c f

n f n c

m l

 

. 1 . 1

|

1

1

r = 0, 1, 2, ...

mentre nel caso di una distribuzione in classi occorre utilizzare i valori centrali degli intervalli.

Analogamente, per il momento centrale r-esimo della X|dl risulta

   

jl

k

j

r y j l jl k

j

r y j l d

rx c x f

n f x n c

m l

l

l

. 1 . 1

|

1

1

r = 0, 1, 2, ...

dove cj va sostituito con il valore centrale del j-esimo intervallo se la distribuzione è in classi.

Esempio 5.5.3

Considerata la distribuzione bivariata dell’esempio 5.5.1 si calcoli la media e la varianza delle tre distribuzioni condizionate X|y.

Per quanto riguarda le medie risulta

40 1

0 1 0 0 40 1

0      

x

3 2 60

20 1 40 0 0 1

1      

x 0.6

100

60 1 40 0 0 1

2      

x

I momenti di ordine 2 sono invece pari a

 

1

40

0 1 0 0 40

12 2 2

0

|

2x        

m

3 2 60

20 12

1

|

2x   

m 0.6

100 60 12

2

|

2x   

m

per cui le varianze sono

0 1

2 1

0

|   

sx

9 2 9

4 6 9 4 3

2 2

1

|     

sx sx2|20.60.620.24

(20)

5.6 Momenti misti e covarianza

Per analizzare e misurare le eventuali relazioni esistenti fra le variabili X e Y è necessario utilizzare degli indici, diversi dai precedenti, che si basano sulla distribuzione congiunta delle due variabili.

Analogamente a quanto visto per una distribuzione univariata, per due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche sono definiti i cosiddetti momenti misti dall'origine o momenti misti ordinari, di ordine r,s (con r,s = 0, 1, ...), la cui espressione generale assume la forma

is n

i ir

r,s x y

m n

1

1

. 5.6.1

se si dispone della sequenza delle coppie di valori.

Se invece i dati rilevati sono organizzati in una distribuzione di frequenza, il momento misto di ordine r,s assume la forma seguente

jl s l k

j h

l r

j jl

s l k

j h

l r

j

r,s c d n c d f

m n

 

 

 

1 1 1 1

1

se entrambe le variabili sono discrete. Se una o entrambe le variabili sono continue, il risultato approssimato del generico momento misto di ordine r,s si calcola utilizzando i valori centrali delle classi.

Il momento più comunemente usato è quello che si ottiene ponendo r = s = 1 e che quindi, a seconda del tipo di dati, assume le forme seguenti

i n

i i

, x y

m n

1 1 1

1

5.6.2

jl l k

j h

l j jl

l k

j h

l

jd n c d f

n c

m

 

 

 

1 1 1 1

1 , 1

1

5.6.3

jl l k

j h

l j jl

l k

j h

l

jd n c d f

n c

m

 

 

 

1 1 1 1

1 , 1

1

. 5.6.4

Considerata una distribuzione relativa a due variabili quantitative X e Y, il momento misto di ordine 1,1 corrisponde alla media aritmetica del prodotto fra le due variabili.

(21)

Esempio 5.6.1

Il momento misto dall’origine di ordine 1,1 sulla seguente sequenza di voti in matematica e in statistica ottenuti da 8 studenti universitari

Matematica 24 26 27 28 18 30 20 23

Statistica 24 28 23 26 20 24 24 27

risulta

24 24 26 28 27 23 28 26 18 20 30 24 20 24 23 27

604.25 8

1

1

1,                

m

Esempio 5.6.2

Considerata la distribuzione riportata nell’esempio 5.5.1 se ne calcoli il momento misto di ordine 1,1

X\Y 0 1 2

-1.5  -0.5 40 0 0 40

-0.5  0.5 0 40 40 80

0.5  1.5 0 20 60 80

40 60 100 200

Considerando i soli prodotti che risultano diversi da zero si ottiene

7 . 200 0

60 2 1 20 1 1

1 ,

1       

m

Oltre ai momenti misti ordinari, restano definiti anche i momenti misti centrali, usualmente indicati con il simbolo mr,s, la cui espressione generica assume le seguenti forme, a seconda del tipo di dati ottenuti nella rilevazione,

  

i

s

n

i

r i

r,s x x y y

mn

 

1

1

.

   

k

   

jl

j h

l

s l r j jl

s l k

j h

l

r j s

r c x d y n c x d y f

m n

 

 

 

1 1 1 1

,

1

       

jl k

j h

l

s l r j jl

s l k

j h

l

r j s

r c x d y n c x d y f

m n

 

 

 

1 1 1 1

,

1

Anche in questo caso il momento più usato, detto covarianza ed indicato comunemente con sxy, è il momento misto centrale di ordine 1,1. Le sue espressioni, a seconda del tipo di dati, si ottiene dalle espressioni precedenti ponendo r = s = 1

(22)

x x



y y

m n

s i

n

i i ,

xy  

 

1 1 1

1

. 5.6.5

   

jl k

j h

l

l j

jl l

k

j h

l j

xy c x d y n c x d y f

m n

s

 

 

 

1 1 1 1

1 , 1

1

5.6.6

     

jl k

j h

l

l j jl

l k

j h

l j

xy c x d y n c x d y f

m n

s

 

 

 

1 1 1 1

1 , 1

1

5.6.7

Considerate due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche, la covarianza sxy corrisponde alla media aritmetica del prodotto degli scarti dalla media delle due variabili.

Sviluppando la 5.6.5 si ottiene una formula di calcolo semplificata

 

y x y n x y x y x y x y n x

y n x n x

y n y

x y n x

y x y x y x y n x

s

n

i i i n

i i i

n

i n

i i n

i i n

i i i n

i

i i i i xy

1 1

1 1

1 1

1

1 1

1 1

1 1

1

5.6.8

da cui risulta che la covarianza corrisponde al momento centrale ordinario di ordine 1,1 meno il prodotto delle medie delle due variabili.

La covarianza fra due variabili quantitative X e Y rilevate contemporaneamente su n unità statistiche, corrisponde alla media di XY meno il prodotto delle medie 𝑥̅𝑦̅.

Nel caso della distribuzione riportata nell’esempio 5.5.1 per la quale sono stati ottenuti in precedenza i risultati

2 .

0

x ,y

1 . 3

, m1,1

0 . 7

la covarianza fra X e Y risulta

(23)

sxy = 0.7 0.2×1.3 = 0.44.

Per la tabella 5.2.6 le medie delle due variabili risultano pari a x27.12 e a y21.88 mentre il momento misto di ordine 1,1 è m1,1 = 597.44. In questo caso la covarianza fra le due variabili risulta

sxy = 597.44 27.1221.88 = 4.0544.

La covarianza può assumere valori positivi o negativi, a seconda del tipo di relazione fra le variabili considerate.

Se la relazione è di tipo diretto, ossia se al crescere dei valori assunti da una variabile anche l’altra tende a crescere, gli scarti delle due variabili dalla propria media avranno tendenzialmente segno concorde: a scarti negativi/positivi della X tenderanno a essere associati scarti negativi/positivi della Y. I prodotti degli scarti delle due variabili risulteranno quindi positivi nella maggior parte dei casi e anche la covarianza, che corrisponde alla media dei prodotti di tali scarti, avrà segno positivo.

Se invece la relazione fra X e Y è di tipo inverso, al crescere dei valori assunti da una variabile l’altra tende a diminuire, per cui gli scarti delle due variabili dalla propria media avranno tendenzialmente segno discorde: a scarti negativi/positivi della X tenderanno a essere associati scarti positivi/negativi della Y. I prodotti degli scarti delle due variabili avranno segno discorde e risulteranno quindi tendenzialmente negativi: di conseguenza la covarianza sarà minore di zero.

Esempio 5.6.3

Data la seguente tabella a doppia entrata

X\Y 1 2 3

1 0 10 20 30

2 5 10 5 20

5 20 25 50

calcolare la covarianza fra X e Y.

Si ottiene

4 . 50 1

20 2 30

1   

x ,

4 . 50 2

25 3 20 2 5

1     

y ,

Riferimenti

Documenti correlati

Esercizio 2: In modo analogo a come effettuato nell’Esercizio 1, si considerino le seguenti coppie di valori reali x, y ∈ R.. Si costruisca uno

14. Cosa si è osservato nell’esempio delle variabili PLIC, TD ecc. per le regioni italiane, quando si è svolta la regressione ed in particolare la riduzione del numero di fattori?..

Leggi attentamente i problemi ed indica con una crocetta l'operazione corretta.. Leggi le domande ed indica con una crocetta la

Calcolare il numero delle matrici in X che non soddisfano nessuna delle seguenti condizioni:. a) la terza colonna ha tutti gli elementi nulli; b) la prima riga ha tutti gli

Sia che i caratteri siano qualitativi o quantitativi, se hanno poche modalità (o poche classi nel caso dei quantitativi) si utilizza spesso la distribuzione di frequenze doppia

8.2.1 Risoluzione delle collisioni mediante liste di trabocco

Tattiche e strategie applicate all’aiuto allo sviluppo, Harmattan Italia (2001) [6] Schunk, J., Il ciclo del progetto, (2009) c/o sito UNIMONDO [7] Stocchiero, A., I

NON MEDICI Totale DIRIG... CONTRATTI STA