Distribuzioni multiple: premessa

(1)

∆ ∆

Unità 8

Le rilevazioni statistiche doppie

(2)

∆

Distribuzioni multiple: premessa

• Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione per:

– interpretare – prevedere

– simulare e controllare i fenomeni reali.

• Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.

STATISTICA - Università di Salerno 2

(3)

∆

Distribuzioni multiple

• Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati,

congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).

• Si parla di variabile doppia, tripla, n-pla, a seconda che le variabili rilevate siano, 2, 3 oppure n (vedi esempio seguente).

(4)

STATISTICA - Università di Salerno

∆

4

(5)

∆

Distribuzioni doppie

( ^x ₁ ^, ^y ₁ ) ( ^, ^x ₂ ^, ^y ₂ ) ^, ^K ^, ( ^x _N ^, ^y _N ) ( ^{X ,} ^Y )

• Le variabili univariate X e Y vengono dette componenti.

• La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il viceversa.

Rilevazione

statistica doppia

5

(6)

∆

Esempio: tabella di contingenza

FUMO NO SI

SESSO Totale

M 756 323 1079

F 1300 380 1680

Totale 2056 703 2759

La tabella di contingenza riguarda due caratteri qualitativi, in questo esempio SESSO e FUMMO, rilevati su un insieme di N unità statistiche, in questo esempio 2759.

Frequenze doppie o congiunte

Frequenze marginali di colonna

Frequenze marginali di riga

N

6

(7)

∆

Esempio: distribuzioni marginali

SESSO Totale

M 1079

F 1680

Totale 2759

FUMO Totale

No 2056

Si 703

Totale 2759

Marginale sesso

Marginale fumo

7

(8)

∆

Esempio: frequenze relative

FUMO NO SI

SESSO Totale

M 0.27 0.12 0.39 F 0.47 0.14 0.61 Totale 0.74 0.26 1.00

8

(9)

∆

Esempio: distribuzioni condizionate

FUMO NO SI

SESSO Totale

M 756 323 1079

F 1300 380 1680

Totale 2056 703 2759

Sesso|Fumo=Si Totale

M 323

F 380

Totale 703

Fumo|Sesso=F Totale

No 1300

Si 380

Totale 1680

9

(10)

∆

Tabella a doppia entrata

X\Y y ₁ y ₂ …. y _h Totale x ₁ n ₁₁ n ₁₂ … n _1h n _1.

x ₂ n ₂₁ n ₂₂ … n _2h n _2.

…. … … … … …

x _k n _k1 n _k2 … n _kh n _k.

Totale n _.1 n _.2 … n _.h N

(11)

∆

Frequenze e frequenze marginali

N n

n

n ^h _j _j _i ^k _i

i k h

j ij ∑ = ∑ =

∑ ₌ ₁ ∑ ₌ ₁ = ₌ _{1 .} ₌ _{1 .}

1 i .

h j n ij = n

∑ ₌

k j

i ₁ n ij = n _.

∑ ₌

Frequenze marginali

11

(12)

∆

Frequenze relative

. i i

f n

⋅ = N

Frequenze relative marginali

N f _ij = n ^ij

. j j

f n

⋅ = N

Frequenze relative

12

(13)

∆

Distribuzioni condizionate

• Data una distribuzione doppia (X, Y), la

distribuzione condizionata Y |x _i , è la distribuzione semplice che si ottiene se si fissa X = x _i e si limita l’analisi della variabile Y ai soli soggetti per cui

risulta X = x _i .

• Analogamente, si può fissare Y = y _j e studiare la distribuzione, semplice, di X.

P P*

13

(14)

∆

Condizionate su Y

X|Y = y _j n _ij f _i

x ₁ n _1j n _1j / n _.j x ₂ n _2j n _2j / n _.j

…. … …

x _k n _kj n _kj / n _.j

Totale n _.j 1

14

(15)

∆

Condizionate su X

Y|X = x _i n _ij f _i

y ₁ n _i1 n _i1 / n _i.

y ₂ n _i2 n _i2 / n _i.

…. … …

y _h n _ih n _ih / n _i.

Totale n _i. 1

15

(16)

∆ ∆

Unità 9

Le rappresentazione grafiche per

dati bivariati

(17)

∆

Diagramma a barre affiancate

• Il diagramma a barre affiancate è utile per

rappresentare graficamente le distribuzioni di frequenza condizionate.

• Si costruisce a partire dalla tabella doppia di frequenze condizionate.

• Si utilizza per rappresentare rilevazioni doppie in cui i caratteri sono qualitativi e/o quantitativi

discreti con poche modalità.

(18)

∆

Esempio: frequenze doppie assolute

Anno immatricolazione

Provenienza 1993 1994 1995 Totale

Scientifico 68 88 67 223

Classico 104 87 50 241

Tecnico 162 172 100 434

Altri 27 27 19 73

Totale 361 374 236 971

Anno di immatricolazione e scuola di Provenienza degli Studenti di Statistica della Facoltà di Scienze Politiche della Università di Napoli

18

(19)

∆

Esempio: frequenze rel. condizionate

Anno immatricolazione

Provenienza 1993 1994 1995 Totale Scientifico 0.19 0.24 0.28 0.23 Classico 0.29 0.23 0.21 0.25 Tecnico 0.45 0.46 0.42 0.45

Altri 0.07 0.07 0.08 0.08

Totale 1 1 1 1

Anno di immatricolazione e scuola di Provenienza degli Studenti di Statistica della Facoltà di Scienze Politiche della Università di Napoli

19

(20)

∆

Esempio: diagramma a barre aff.

(21)

∆

Esempio: diagramma a barre in pila

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Anno 1993 Anno 1994 Anno 1995

Scientifico Classico Tecnico Altri

21

(22)

∆

Esempio di grafico non adatto

• Il grafico a torta non è adatto a fare confronti nel tempo, poiché non si riesce facilmente a

confrontare l’area dei diversi settori del cerchio

STATISTICA - Università di Salerno ANNO SCORSO

42% 58%

NORD SUD

QUEST'ANNO

63%

37%

22

(23)

∆

Box-plot paralleli

• I box-plot paralleli permettono di confrontare la distribuzioni di una variabile condizionatamente ad una variabile discreta o a una mutabile.

• Permettono di effettuare una analisi e un

confronto di tipo robusto delle caratteristiche principali del carattere quantitativo, rilevato in

– tempi – luoghi

– circostanze diverse.

(24)

∆

Box-plot paralleli: esempio 1

1 2

-2 0 2 4 6

N.B.: i due box-plot vengono rappresentati rispetto allo stesso asse misurato. In questo

esempio, l’intervallo di valori (-2, 6)

Nota la diversa posizione

(=mediane) delle due distribuzioni ….

24

(25)

∆

Box-plot paralleli: esempio 2

1 2

-4 -2 0 2 4 6

Nota la diversa posizione e la diversa variabilità (=ampiezza scatola) delle due

distribuzioni ….

25

(26)

∆

Box-plot paralleli: esempio 3

1 2 3 4

0.0 0.2 0.4 0.6 0.8 1.0

Nota anche la diversa

asimmetria delle quattro

distribuzioni.

In alcuni casi, sono presenti anche valori eccezionalmente grandi o piccoli

….

26

(27)

∆

Box-plot paralleli: esempio

Peso (in kg) degli studenti Scienze Politiche (anno accademico 1988 – 1995), distinti per sesso.

27

(28)

∆

Diagramma a dispersione

• Il diagramma a dispersione (o scatter) è utile per rappresentare graficamente le rilevazioni doppie di caratteri quantitativi.

• Un diagramma a dispersione è un grafico

costruito su un sistema di assi cartesiani, su cui vengono rappresentati mediante punti le coppie di valori relativi a due variabili, rilevate su n unità statistiche.

• Va costruito direttamente sui dati osservati, senza derivare la distribuzione doppia di frequenza.

(29)

∆

Diagramma scatter: peso vs altezza

Ogni punto in questo

diagramma rappresenta un individuo diverso. La forma che assume la nuvola dei punti è indicativa del legame esistente tra le due

variabili PESO e ALTEZZA.

Ad esempio, questo punto

rappresenta un individuo che pesa

circa 56 kg ed è alto circa 187 cm.

Peso (in kg) e altezza (in cm) degli studenti Scienze Politiche (anno accademico 1988 – 1995).

29

(30)

∆

Diagramma scatter: peso vs altezza

La numerosità dei punti che rientrano nelle singole celle determina la frequenza doppia delle corrispondenti classi di modalità per le due variabili considerate.

30

(31)

∆

Tabella doppia: peso vs altezza

Peso

Altezza _{40 -| 50} _{50 -| 60} _{60 -| 70} _{70 -| 80} _{80 -| 90} _{90 -| 120} Totale

140 -| 150 8 4 12

150 -| 160 195 280 31 6 1 513

160 -| 170 112 687 327 59 11 2 1198

170 -| 180 2 108 298 299 72 10 789

180 -| 190 2 21 95 80 34 232

190 -| 200 4 5 6 15

Totale 317 1081 677 463 169 52 2759

Altezza (in cm) e peso (in kg) degli studenti Scienze Politiche (anno accademico 1988 – 1995).

31

(32)

∆

Misura del legame lineare

• L’esistenza di un legame lineare tra due variabili indica la presenza di correlazione tra le variabili.

• Per misurare la forza del legame lineare esistente tra due variabili è utile calcolare la covarianza e l’indice di correlazione

• Si considerino ad esempio due variabili, indicate con X e Y, rilevate su n unità statistiche. Si avrà la seguente serie doppia di dati: (x _i , y _i , i=1,…,n)

(33)

∆

Covarianza

• La covarianza misura la presenza di legame

lineare tra due variabili quantitative. Essa indica come “covariano” i dati, per cui è da annoverare tra gli indici di variabilità.

• L’indice di covarianza dipende dalla grandezza dei due fenomeni osservati, per cui non è adatto per fare confronti tra rilevazioni diverse.

(34)

∆

Covarianza: formula

( )( )

1 cov( , ) 1

N

XY i X i Y

i

X Y x y

σ N µ µ

=

= = ∑ − −

0 (correlazione positiva) 0 (incorrelazione)

0 (correlazione negativa)

σ XY

>

 

=

  <



( ) ( )

1 1

cov( , ) 1

k h

XY i X j Y ij

i j

X Y x y n

σ N µ µ

= =

= = ∑∑ − − ⋅

Per serie doppia di dati

Per distribuzione doppia di frequenza

Commento del risultato

34

(35)

∆

Esempio: covarianza positiva

-4 -2 0 2 4 6 8

-4-20246810

X

Y

corr(X,Y)=0.99

-2 0 2 4 6

0510

X

Y

corr(X,Y)=0.90

In questi due esempi l’indice di covarianza è positivo (σ_XY>0)

35

(36)

∆

Esempio: covarianza nulla

0 20 40 60 80 100

020406080100

corr(X,Y)=0.19

X

Y

-2 0 2 4 6 8

-4-202468

X

Y

corr(X,Y)=0.0 In questi due esempi la

covarianza è prossima allo zero, poiché la nuvola non ha alcuna inclinazione, oppure si orienta secondo una retta con pendenza nulla.

36

(37)

∆

Esempio: covarianza negativa

-4 -2 0 2 4 6 8

0510

X

Y

corr(X,Y)=-0.70

-4 -2 0 2 4 6 8

-50510

X

Y

corr(X,Y)=-0.95

In questi due esempi la covarianza assume un valore negativo (σ_XY

<

0)

37

(38)

∆

Covarianza: proprietà

cov( , X X ) = σ _X 2

cov( X + a Y , + = c ) cov( , ) X Y

cov( bX dY , ) = ⋅ ⋅ b d cov( , ) X Y

cov( a + bX c , + dY ) = ⋅ ⋅ b d cov( , ) X Y cov( , ) X Y = µ _XY − µ µ _X _Y

cov( , ) 0 X ed Y indipendenti ⇒ X Y =

1 1 ^N

XY i i

i

N x y

µ

=

= ∑

cov( , ) X Y = cov( , Y X )

Formula alternativa della covarianza

Proprietà per trasformate di variabili

38

(39)

∆

Coefficiente di correlazione (Bravais-Pearson)

• L’indice di correlazione misura la forza del legame lineare esistente tra due variabili

quantitative. Essa indica quanto la nuvola di punti si avvicini alla retta ipotetica.

• L’indice di correlazione è un indice

normalizzato, e non dipende dalla grandezza dei due fenomeni osservati, per cui è adatto per fare confronti tra rilevazioni diverse.

(40)

∆

Coefficiente di correlazione: formula

1 corr( , ) 1

N

i X i Y

XY

i X Y

x y

X Y

N

µ µ

ρ ₌ σ σ

 −  − 

= =   

  

∑

corr( , ) ^XY

XY

X Y

X Y σ

ρ ⁼ ⁼ σ σ

Per serie doppia di dati

Formula alternativa dell’indice di

correlazione

40

(41)

∆

Esempio: correlazione positiva

-4 -2 0 2 4 6 8

-4-20246810

X

Y

corr(X,Y)=0.99

-2 0 2 4 6

0510

X

Y

corr(X,Y)=0.90

In questo esempio vi è evidenza di un forte legame lineare positivo:

l’indice di correlazione è prossimo al suo massimo +1.

In questo esempio vi è evidenza di un legame lineare positivo meno forte del precedente: infatti, l’indice di correlazione è positivo ma minore del precedente.

41

(42)

∆

Esempio: correlazione debole o assente

-2 0 2 4 6

-4-20246810

X

Y

corr(X,Y)=0.60

-2 0 2 4 6 8

-4-202468

X

Y

corr(X,Y)=0.0

In questo esempio si nota l’assenza di legame tra le due variabili: infatti, l’indice di correlazione è nullo.

In questo esempio vi è evidenza di legame lineare positivo debole:

infatti, l’indice di correlazione non è prossimo al suo massimo +1.

42

(43)

∆

Esempio: correlazione negativa

-4 -2 0 2 4 6 8

0510

X

Y

corr(X,Y)=-0.70

-4 -2 0 2 4 6 8

-50510

X

Y

corr(X,Y)=-0.95

In questo esempio vi è evidenza di legame lineare negativo debole:

infatti, l’indice di correlazione è negativo, ma non è prossimo al suo minimo -1.

In questo esempio si evidenzia un forte legame lineare

negativo: infatti, l’indice di correlazione è prossimo al minimo -1.

43

(44)

∆

Esempio: correlazione perfetta

-4 -2 0 2 4 6 8

0510

X

Y

corr(X,Y)=-1.0

-4 -2 0 2 4 6 8

-4-20246810

X

Y

corr(X,Y)=1.0

In questo esempio vi è perfetto legame lineare negativo:

infatti, l’indice di correlazione è uguale al suo minimo -1.

In questo esempio si evidenzia un perfetto legame lineare positivo: infatti, l’indice di correlazione è uguale al massimo +1.

44

(45)

∆

Proprietà di Corr(X, Y) (1)

• corr(X, Y) = 0 correlazione nulla (assenza di legame lineare tra X ed Y).

• corr(X, Y) > 0 correlazione positiva (a variazioni positive di X si accompagnano, in media, variazioni

positive di Y).

• corr(X, Y) < 0 correlazione negativa (a variazioni negative di X si accompagnano, in media, variazioni

positive di Y e viceversa).

1 corr( , ) X Y 1

− ≤ ≤ +

45

(46)

∆

Proprietà di Corr(X, Y) (2)

• corr(X, Y) = +1 esiste un legame lineare positivo perfetto tra X ed Y.

• corr(X, Y) = -1 esiste un legame lineare negativo perfetto tra X ed Y.

corr( , ) X Y = + 1 ⇒ Y = + ⋅ a b X corr( , ) X Y = − 1 ⇒ Y = − ⋅ a b X

46

(47)

∆

Proprietà di Corr(X, Y) (3)

• Tanto più corr(X, Y) si avvicina a +1, tanto più il legame lineare positivo tra X ed Y è forte (la

nuvola è molto “vicina” a una retta con pendenza positiva).

• Tanto più corr(X, Y) si avvicina a -1, tanto più il legame lineare negativo tra X ed Y è forte (la

nuvola è molto “vicina” a una retta con pendenza negativa).

• Tanto più corr(X, Y) si avvicina a 0 tanto più debole (o assente) è il legame lineare

(48)

∆

Proprietà di Corr(X, Y) (4)

e indipendenti corr( , ) 0

X Y ⇒ X Y =

corr( , ) se 0

corr( , )

corr( , ) se 0

X Y b d

a bX c dY

X Y b d

⋅ >

+ + =  

− ⋅ <

 corr( , ) X Y = corr( , Y X ) corr( , X X ) = 1

Proprietà per trasformate di variabili

48

(49)

∆

Correlazione a blocchi

• Per popolazioni che possono essere suddivise in sottogruppi, con valori medi molto differenti, bisogna interpretare l’indice di correlazione con cautela.

• Può accadere infatti che la correlazione calcolata sull’intera popolazione risulti maggiore di quella calcolata sui singoli sottogruppi.

(50)

∆

Correlazione a blocchi: esempio studenti SP (altezza vs peso)

Nota: se si guarda

separatamente alla nuvola dei punti rossi e alla nuvola dei punti neri, le due nuvole evidenziano debole correlazione tra le

variabili. Se invece si guarda alla forma della nuvola intera (a

prescindere dal colore dei punti), si concluderebbe che vi è forte correlazione positiva.

50

(51)

∆

Esempio: studenti SP (maschi e femmine)

Età Peso Altezza

Età 1

Peso 0.195 1.000

Altezza 0.089 0.771 1

Questa rappresenta la matrice delle correlazioni, che riporta gli indici di correlazione tra le variabili Età, Peso e Altezza, considerate a due a due. Ad esempio, per evidenziare la correlazione tra il Peso e l’Altezza degli studenti, basterà estrarre dalla matrice il valore che si trova all’incrocio tra la riga (o la colonna) relativa all’Altezza e la colonna (o la riga) relativa al Peso. Data la proprietà di simmetria

dell’indice di correlazione, per la quale corr(X,Y)=corr(Y,X), ne deriva che la matrice di correlazione è una matrice simmetrica. Per tale motivo, si trascrive soltanto la parte al di sotto (o al di sopra) della diagonale principale (vedi triangolo in basso), in quanto l’altra parte (vedi triangolo tratteggiato) risulta speculare.

Tornando all’esempio della correlazione a blocchi, se guardiamo all’altezza e al peso degli studenti di Scienze Politiche senza distinzione di sesso, risulta che l’altezza e il peso degli studenti sono

discretamente correlati, come evidenzia l’indice di correlazione pari a 0.771 (vedi riquadro rosso).

51

(52)

∆

Esempio: studenti SP distinti per sesso

Femmine Età Peso Altezza

Età 1

Peso 0.057 1.000

Altezza -0.067 0.492 1

Maschi Età Peso Altezza

Età 1

Peso 0.075 1.000

Altezza -0.098 0.591 1

Tuttavia, se guardiamo all’altezza degli studenti di Scienze Politiche

distinguendoli per sesso, risulta che la correlazione

dell’altezza e del peso è inferiore a quella calcolata mischiando le due popolazioni (maschi e femmine), come evidenziato dai riquadri rossi.

Questo è un caso di correlazione a

blocchi.

52

(53)

∆

Correlazione e causalità

• Il fatto che due variabili risultino correlate

(anche fortemente) non implica necessariamente che vi sia un rapporto di causa-effetto tra le due.

• Vi possono essere, infatti, dei casi in cui due fenomeni appaiono fortemente correlati, in

quanto l’indice di correlazione è sensibilmente diverso da zero, nonostante siano tra di loro concettualmente indipendenti.

(54)

∆

Esempio: Correlazione spuria

• Può accadere che il legame tra X ed Y esiste non in modo diretto ma perché entrambe le variabili dipendono da una terza variabile Z che le

influenza entrambe.

(55)

∆

Esempio: Correlazione spuria

• Esempio 2: Da una rilevazione statistica effettuata in America nel periodi 1993-2000 è risultato che vi è forte correlazione tra il tasso di natalità in età precoce (n. nascite per 1000 donne giovani) e il tasso di omicidi (n. omicidi per 100000 abitanti).

• L’indice di correlazione risulta pari a 0.9987

• Questo non implica che vi sia un legame diretto tra i parti di ragazze-madri e gli omicidi (assurdo!!!). Probabilmente vi è una variabile economica (ad esempio indice di povertà, abbandono precoce della scuola, ecc…) che risulta correlata alle due variabili precedenti.

Distribuzioni multiple: premessa

∆ ∆

Unità 8

Le rilevazioni statistiche doppie

∆

Distribuzioni multiple: premessa

• Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione per:

– interpretare – prevedere

– simulare e controllare i fenomeni reali.

• Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.

∆

Distribuzioni multiple

• Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati,

congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).

• Si parla di variabile doppia, tripla, n-pla, a seconda che le variabili rilevate siano, 2, 3 oppure n (vedi esempio seguente).

∆

∆

Distribuzioni doppie

( x 1 , y 1 ) ( , x 2 , y 2 ) , K , ( x N , y N ) ( X , Y )

• Le variabili univariate X e Y vengono dette componenti.

• La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il viceversa.

Rilevazione

statistica doppia

∆

Esempio: tabella di contingenza

FUMO NO SI

SESSO Totale

M 756 323 1079

F 1300 380 1680

Totale 2056 703 2759

N

∆

Esempio: distribuzioni marginali

SESSO Totale

M 1079

F 1680

Totale 2759

FUMO Totale

No 2056

Si 703

Totale 2759

Marginale sesso

Marginale fumo

∆

Esempio: frequenze relative

FUMO NO SI

SESSO Totale

M 0.27 0.12 0.39 F 0.47 0.14 0.61 Totale 0.74 0.26 1.00

∆

Esempio: distribuzioni condizionate

FUMO NO SI

SESSO Totale

M 756 323 1079

F 1300 380 1680

Totale 2056 703 2759

Sesso|Fumo=Si Totale

M 323

F 380

Totale 703

Fumo|Sesso=F Totale

No 1300

Si 380

Totale 1680

∆

Tabella a doppia entrata

X\Y y 1 y 2 …. y h Totale x 1 n 11 n 12 … n 1h n 1.

x 2 n 21 n 22 … n 2h n 2.

…. … … … … …

x k n k1 n k2 … n kh n k.

Totale n .1 n .2 … n .h N

∆

Frequenze e frequenze marginali

N n

n

n h j j i k i

i k h

j ij ∑ = ∑ =

∑ = 1 ∑ = 1 = = 1 . = 1 .

1 i .

h j n ij = n

( ^x ₁ ^, ^y ₁ ) ( ^, ^x ₂ ^, ^y ₂ ) ^, ^K ^, ( ^x _N ^, ^y _N ) ( ^{X ,} ^Y )

X\Y y ₁ y ₂ …. y _h Totale x ₁ n ₁₁ n ₁₂ … n _1h n _1.

x ₂ n ₂₁ n ₂₂ … n _2h n _2.

x _k n _k1 n _k2 … n _kh n _k.

Totale n _.1 n _.2 … n _.h N

n ^h _j _j _i ^k _i

∑ ₌ ₁ ∑ ₌ ₁ = ₌ _{1 .} ₌ _{1 .}

∑ ₌

i ₁ n ij = n _.

∑ ₌

N f _ij = n ^ij

distribuzione condizionata Y |x _i , è la distribuzione semplice che si ottiene se si fissa X = x _i e si limita l’analisi della variabile Y ai soli soggetti per cui

risulta X = x _i .

• Analogamente, si può fissare Y = y _j e studiare la distribuzione, semplice, di X.

X|Y = y _j n _ij f _i

x ₁ n _1j n _1j / n _.j x ₂ n _2j n _2j / n _.j

x _k n _kj n _kj / n _.j

Totale n _.j 1

Y|X = x _i n _ij f _i

y ₁ n _i1 n _i1 / n _i.

y ₂ n _i2 n _i2 / n _i.

y _h n _ih n _ih / n _i.

Totale n _i. 1