• Non ci sono risultati.

Distribuzioni multiple: premessa

N/A
N/A
Protected

Academic year: 2021

Condividi "Distribuzioni multiple: premessa"

Copied!
55
0
0

Testo completo

(1)

∆ ∆

Unità 8

Le rilevazioni statistiche doppie

(2)

Distribuzioni multiple: premessa

• Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione per:

– interpretare – prevedere

– simulare e controllare i fenomeni reali.

• Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.

STATISTICA - Università di Salerno 2

(3)

Distribuzioni multiple

• Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati,

congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).

Si parla di variabile doppia, tripla, n-pla, a seconda che le variabili rilevate siano, 2, 3 oppure n (vedi esempio seguente).

STATISTICA - Università di Salerno 3

(4)

STATISTICA - Università di Salerno

4

(5)

Distribuzioni doppie

STATISTICA - Università di Salerno

( x 1 , y 1 ) ( , x 2 , y 2 ) , K , ( x N , y N ) ( X , Y )

Le variabili univariate X e Y vengono dette componenti.

• La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il viceversa.

Rilevazione

statistica doppia

5

(6)

Esempio: tabella di contingenza

STATISTICA - Università di Salerno

FUMO NO SI

SESSO Totale

M 756 323 1079

F 1300 380 1680

Totale 2056 703 2759

La tabella di contingenza riguarda due caratteri qualitativi, in questo esempio SESSO e FUMMO, rilevati su un insieme di N unità statistiche, in questo esempio 2759.

Frequenze doppie o congiunte

Frequenze marginali di colonna

Frequenze marginali di riga

N

6

(7)

Esempio: distribuzioni marginali

STATISTICA - Università di Salerno

SESSO Totale

M 1079

F 1680

Totale 2759

FUMO Totale

No 2056

Si 703

Totale 2759

Marginale sesso

Marginale fumo

7

(8)

Esempio: frequenze relative

STATISTICA - Università di Salerno

FUMO NO SI

SESSO Totale

M 0.27 0.12 0.39 F 0.47 0.14 0.61 Totale 0.74 0.26 1.00

8

(9)

Esempio: distribuzioni condizionate

STATISTICA - Università di Salerno

FUMO NO SI

SESSO Totale

M 756 323 1079

F 1300 380 1680

Totale 2056 703 2759

Sesso|Fumo=Si Totale

M 323

F 380

Totale 703

Fumo|Sesso=F Totale

No 1300

Si 380

Totale 1680

9

(10)

Tabella a doppia entrata

X\Y y 1 y 2 …. y h Totale x 1 n 11 n 12n 1h n 1.

x 2 n 21 n 22n 2h n 2.

…. … … … … …

x k n k1 n k2n kh n k.

Totale n .1 n .2n .h N

STATISTICA - Università di Salerno 10

(11)

Frequenze e frequenze marginali

STATISTICA - Università di Salerno

N n

n

n h j j i k i

i k h

j ij ∑ = ∑ =

= 1= 1 = = 1 . = 1 .

1 i .

h j n ij = n

=

k j

i 1 n ij = n .

=

Frequenze marginali

11

(12)

Frequenze relative

STATISTICA - Università di Salerno

. i i

f n

⋅ = N

Frequenze relative marginali

N f ij = n ij

. j j

f n

⋅ = N

Frequenze relative

12

(13)

Distribuzioni condizionate

Data una distribuzione doppia (X, Y), la

distribuzione condizionata Y |x i , è la distribuzione semplice che si ottiene se si fissa X = x i e si limita l’analisi della variabile Y ai soli soggetti per cui

risulta X = x i .

Analogamente, si può fissare Y = y j e studiare la distribuzione, semplice, di X.

STATISTICA - Università di Salerno

P P*

13

(14)

Condizionate su Y

STATISTICA - Università di Salerno

X|Y = y j n ij f i

x 1 n 1j n 1j / n .j x 2 n 2j n 2j / n .j

…. … …

x k n kj n kj / n .j

Totale n .j 1

14

(15)

Condizionate su X

STATISTICA - Università di Salerno

Y|X = x i n ij f i

y 1 n i1 n i1 / n i.

y 2 n i2 n i2 / n i.

…. … …

y h n ih n ih / n i.

Totale n i. 1

15

(16)

∆ ∆

Unità 9

Le rappresentazione grafiche per

dati bivariati

(17)

Diagramma a barre affiancate

• Il diagramma a barre affiancate è utile per

rappresentare graficamente le distribuzioni di frequenza condizionate.

Si costruisce a partire dalla tabella doppia di frequenze condizionate.

• Si utilizza per rappresentare rilevazioni doppie in cui i caratteri sono qualitativi e/o quantitativi

discreti con poche modalità.

STATISTICA - Università di Salerno 17

(18)

Esempio: frequenze doppie assolute

Anno immatricolazione

Provenienza 1993 1994 1995 Totale

Scientifico 68 88 67 223

Classico 104 87 50 241

Tecnico 162 172 100 434

Altri 27 27 19 73

Totale 361 374 236 971

STATISTICA - Università di Salerno

Anno di immatricolazione e scuola di Provenienza degli Studenti di Statistica della Facoltà di Scienze Politiche della Università di Napoli

18

(19)

Esempio: frequenze rel. condizionate

Anno immatricolazione

Provenienza 1993 1994 1995 Totale Scientifico 0.19 0.24 0.28 0.23 Classico 0.29 0.23 0.21 0.25 Tecnico 0.45 0.46 0.42 0.45

Altri 0.07 0.07 0.08 0.08

Totale 1 1 1 1

STATISTICA - Università di Salerno

Anno di immatricolazione e scuola di Provenienza degli Studenti di Statistica della Facoltà di Scienze Politiche della Università di Napoli

19

(20)

Esempio: diagramma a barre aff.

STATISTICA - Università di Salerno 20

(21)

Esempio: diagramma a barre in pila

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Anno 1993 Anno 1994 Anno 1995

Scientifico Classico Tecnico Altri

21

(22)

Esempio di grafico non adatto

• Il grafico a torta non è adatto a fare confronti nel tempo, poiché non si riesce facilmente a

confrontare l’area dei diversi settori del cerchio

STATISTICA - Università di Salerno ANNO SCORSO

42% 58%

NORD SUD

QUEST'ANNO

63%

37%

22

(23)

Box-plot paralleli

• I box-plot paralleli permettono di confrontare la distribuzioni di una variabile condizionatamente ad una variabile discreta o a una mutabile.

• Permettono di effettuare una analisi e un

confronto di tipo robusto delle caratteristiche principali del carattere quantitativo, rilevato in

– tempi – luoghi

– circostanze diverse.

STATISTICA - Università di Salerno 23

(24)

Box-plot paralleli: esempio 1

STATISTICA - Università di Salerno

1 2

-2 0 2 4 6

N.B.: i due box-plot vengono rappresentati rispetto allo stesso asse misurato. In questo

esempio, l’intervallo di valori (-2, 6)

Nota la diversa posizione

(=mediane) delle due distribuzioni ….

24

(25)

Box-plot paralleli: esempio 2

STATISTICA - Università di Salerno

1 2

-4 -2 0 2 4 6

Nota la diversa posizione e la diversa variabilità (=ampiezza scatola) delle due

distribuzioni ….

25

(26)

Box-plot paralleli: esempio 3

STATISTICA - Università di Salerno

1 2 3 4

0.0 0.2 0.4 0.6 0.8 1.0

Nota anche la diversa

asimmetria delle quattro

distribuzioni.

In alcuni casi, sono presenti anche valori eccezionalmente grandi o piccoli

….

26

(27)

Box-plot paralleli: esempio

STATISTICA - Università di Salerno

Peso (in kg) degli studenti Scienze Politiche (anno accademico 1988 – 1995), distinti per sesso.

27

(28)

Diagramma a dispersione

Il diagramma a dispersione (o scatter) è utile per rappresentare graficamente le rilevazioni doppie di caratteri quantitativi.

• Un diagramma a dispersione è un grafico

costruito su un sistema di assi cartesiani, su cui vengono rappresentati mediante punti le coppie di valori relativi a due variabili, rilevate su n unità statistiche.

• Va costruito direttamente sui dati osservati, senza derivare la distribuzione doppia di frequenza.

STATISTICA - Università di Salerno 28

(29)

Diagramma scatter: peso vs altezza

STATISTICA - Università di Salerno

Ogni punto in questo

diagramma rappresenta un individuo diverso. La forma che assume la nuvola dei punti è indicativa del legame esistente tra le due

variabili PESO e ALTEZZA.

Ad esempio, questo punto

rappresenta un individuo che pesa

circa 56 kg ed è alto circa 187 cm.

Peso (in kg) e altezza (in cm) degli studenti Scienze Politiche (anno accademico 1988 – 1995).

29

(30)

Diagramma scatter: peso vs altezza

STATISTICA - Università di Salerno

La numerosità dei punti che rientrano nelle singole celle determina la frequenza doppia delle corrispondenti classi di modalità per le due variabili considerate.

30

(31)

Tabella doppia: peso vs altezza

Peso

Altezza 40 -| 50 50 -| 60 60 -| 70 70 -| 80 80 -| 90 90 -| 120 Totale

140 -| 150 8 4 12

150 -| 160 195 280 31 6 1 513

160 -| 170 112 687 327 59 11 2 1198

170 -| 180 2 108 298 299 72 10 789

180 -| 190 2 21 95 80 34 232

190 -| 200 4 5 6 15

Totale 317 1081 677 463 169 52 2759

STATISTICA - Università di Salerno

Altezza (in cm) e peso (in kg) degli studenti Scienze Politiche (anno accademico 1988 – 1995).

31

(32)

Misura del legame lineare

• L’esistenza di un legame lineare tra due variabili indica la presenza di correlazione tra le variabili.

• Per misurare la forza del legame lineare esistente tra due variabili è utile calcolare la covarianza e l’indice di correlazione

• Si considerino ad esempio due variabili, indicate con X e Y, rilevate su n unità statistiche. Si avrà la seguente serie doppia di dati: (x i , y i , i=1,…,n)

STATISTICA - Università di Salerno 32

(33)

Covarianza

• La covarianza misura la presenza di legame

lineare tra due variabili quantitative. Essa indica come “covariano” i dati, per cui è da annoverare tra gli indici di variabilità.

• L’indice di covarianza dipende dalla grandezza dei due fenomeni osservati, per cui non è adatto per fare confronti tra rilevazioni diverse.

STATISTICA - Università di Salerno 33

(34)

Covarianza: formula

STATISTICA - Università di Salerno

( )( )

1

cov( , ) 1

N

XY i X i Y

i

X Y x y

σ N µ µ

=

= = ∑ − −

0 (correlazione positiva) 0 (incorrelazione)

0 (correlazione negativa)

σ XY

>

 

=

  <

( ) ( )

1 1

cov( , ) 1

k h

XY i X j Y ij

i j

X Y x y n

σ N µ µ

= =

= = ∑∑ − − ⋅

Per serie doppia di dati

Per distribuzione doppia di frequenza

Commento del risultato

34

(35)

Esempio: covarianza positiva

STATISTICA - Università di Salerno

-4 -2 0 2 4 6 8

-4-20246810

X

Y

corr(X,Y)=0.99

-2 0 2 4 6

0510

X

Y

corr(X,Y)=0.90

In questi due esempi l’indice di covarianza è positivo (σXY>0)

35

(36)

Esempio: covarianza nulla

STATISTICA - Università di Salerno

0 20 40 60 80 100

020406080100

corr(X,Y)=0.19

X

Y

-2 0 2 4 6 8

-4-202468

X

Y

corr(X,Y)=0.0 In questi due esempi la

covarianza è prossima allo zero, poiché la nuvola non ha alcuna inclinazione, oppure si orienta secondo una retta con pendenza nulla.

36

(37)

Esempio: covarianza negativa

STATISTICA - Università di Salerno

-4 -2 0 2 4 6 8

0510

X

Y

corr(X,Y)=-0.70

-4 -2 0 2 4 6 8

-50510

X

Y

corr(X,Y)=-0.95

In questi due esempi la covarianza assume un valore negativo (σXY

<

0)

37

(38)

Covarianza: proprietà

STATISTICA - Università di Salerno

cov( , X X ) = σ X 2

cov( X + a Y , + = c ) cov( , ) X Y

cov( bX dY , ) = ⋅ ⋅ b d cov( , ) X Y

cov( a + bX c , + dY ) = ⋅ ⋅ b d cov( , ) X Y cov( , ) X Y = µ XY − µ µ X Y

cov( , ) 0 X ed Y indipendentiX Y =

1

1 N

XY i i

i

N x y

µ

=

= ∑

cov( , ) X Y = cov( , Y X )

Formula alternativa della covarianza

Proprietà per trasformate di variabili

38

(39)

Coefficiente di correlazione (Bravais-Pearson)

• L’indice di correlazione misura la forza del legame lineare esistente tra due variabili

quantitative. Essa indica quanto la nuvola di punti si avvicini alla retta ipotetica.

• L’indice di correlazione è un indice

normalizzato, e non dipende dalla grandezza dei due fenomeni osservati, per cui è adatto per fare confronti tra rilevazioni diverse.

STATISTICA - Università di Salerno 39

(40)

Coefficiente di correlazione: formula

STATISTICA - Università di Salerno

1

corr( , ) 1

N

i X i Y

XY

i X Y

x y

X Y

N

µ µ

ρ = σ σ

 −  − 

= =   

  

corr( , ) XY

XY

X Y

X Y σ

ρ = = σ σ

Per serie doppia di dati

Formula alternativa dell’indice di

correlazione

40

(41)

Esempio: correlazione positiva

STATISTICA - Università di Salerno

-4 -2 0 2 4 6 8

-4-20246810

X

Y

corr(X,Y)=0.99

-2 0 2 4 6

0510

X

Y

corr(X,Y)=0.90

In questo esempio vi è evidenza di un forte legame lineare positivo:

l’indice di correlazione è prossimo al suo massimo +1.

In questo esempio vi è evidenza di un legame lineare positivo meno forte del precedente: infatti, l’indice di correlazione è positivo ma minore del precedente.

41

(42)

Esempio: correlazione debole o assente

STATISTICA - Università di Salerno

-2 0 2 4 6

-4-20246810

X

Y

corr(X,Y)=0.60

-2 0 2 4 6 8

-4-202468

X

Y

corr(X,Y)=0.0

In questo esempio si nota l’assenza di legame tra le due variabili: infatti, l’indice di correlazione è nullo.

In questo esempio vi è evidenza di legame lineare positivo debole:

infatti, l’indice di correlazione non è prossimo al suo massimo +1.

42

(43)

Esempio: correlazione negativa

STATISTICA - Università di Salerno

-4 -2 0 2 4 6 8

0510

X

Y

corr(X,Y)=-0.70

-4 -2 0 2 4 6 8

-50510

X

Y

corr(X,Y)=-0.95

In questo esempio vi è evidenza di legame lineare negativo debole:

infatti, l’indice di correlazione è negativo, ma non è prossimo al suo minimo -1.

In questo esempio si evidenzia un forte legame lineare

negativo: infatti, l’indice di correlazione è prossimo al minimo -1.

43

(44)

Esempio: correlazione perfetta

STATISTICA - Università di Salerno

-4 -2 0 2 4 6 8

0510

X

Y

corr(X,Y)=-1.0

-4 -2 0 2 4 6 8

-4-20246810

X

Y

corr(X,Y)=1.0

In questo esempio vi è perfetto legame lineare negativo:

infatti, l’indice di correlazione è uguale al suo minimo -1.

In questo esempio si evidenzia un perfetto legame lineare positivo: infatti, l’indice di correlazione è uguale al massimo +1.

44

(45)

Proprietà di Corr(X, Y) (1)

• corr(X, Y) = 0 correlazione nulla (assenza di legame lineare tra X ed Y).

corr(X, Y) > 0 correlazione positiva (a variazioni positive di X si accompagnano, in media, variazioni

positive di Y).

corr(X, Y) < 0 correlazione negativa (a variazioni negative di X si accompagnano, in media, variazioni

positive di Y e viceversa).

STATISTICA - Università di Salerno

1 corr( , ) X Y 1

− ≤ ≤ +

45

(46)

Proprietà di Corr(X, Y) (2)

• corr(X, Y) = +1 esiste un legame lineare positivo perfetto tra X ed Y.

• corr(X, Y) = -1 esiste un legame lineare negativo perfetto tra X ed Y.

STATISTICA - Università di Salerno

corr( , ) X Y = + 1 ⇒ Y = + ⋅ a b X corr( , ) X Y = − 1 ⇒ Y = − ⋅ a b X

46

(47)

Proprietà di Corr(X, Y) (3)

• Tanto più corr(X, Y) si avvicina a +1, tanto più il legame lineare positivo tra X ed Y è forte (la

nuvola è molto “vicina” a una retta con pendenza positiva).

• Tanto più corr(X, Y) si avvicina a -1, tanto più il legame lineare negativo tra X ed Y è forte (la

nuvola è molto “vicina” a una retta con pendenza negativa).

• Tanto più corr(X, Y) si avvicina a 0 tanto più debole (o assente) è il legame lineare

STATISTICA - Università di Salerno 47

(48)

Proprietà di Corr(X, Y) (4)

STATISTICA - Università di Salerno

e indipendenti corr( , ) 0

X YX Y =

corr( , ) se 0

corr( , )

corr( , ) se 0

X Y b d

a bX c dY

X Y b d

⋅ >

+ + =  

− ⋅ <

 corr( , ) X Y = corr( , Y X ) corr( , X X ) = 1

Proprietà per trasformate di variabili

48

(49)

Correlazione a blocchi

• Per popolazioni che possono essere suddivise in sottogruppi, con valori medi molto differenti, bisogna interpretare l’indice di correlazione con cautela.

• Può accadere infatti che la correlazione calcolata sull’intera popolazione risulti maggiore di quella calcolata sui singoli sottogruppi.

STATISTICA - Università di Salerno 49

(50)

Correlazione a blocchi: esempio studenti SP (altezza vs peso)

STATISTICA - Università di Salerno

Nota: se si guarda

separatamente alla nuvola dei punti rossi e alla nuvola dei punti neri, le due nuvole evidenziano debole correlazione tra le

variabili. Se invece si guarda alla forma della nuvola intera (a

prescindere dal colore dei punti), si concluderebbe che vi è forte correlazione positiva.

50

(51)

Esempio: studenti SP (maschi e femmine)

STATISTICA - Università di Salerno

Età Peso Altezza

Età 1

Peso 0.195 1.000

Altezza 0.089 0.771 1

Questa rappresenta la matrice delle correlazioni, che riporta gli indici di correlazione tra le variabili Età, Peso e Altezza, considerate a due a due. Ad esempio, per evidenziare la correlazione tra il Peso e l’Altezza degli studenti, basterà estrarre dalla matrice il valore che si trova all’incrocio tra la riga (o la colonna) relativa all’Altezza e la colonna (o la riga) relativa al Peso. Data la proprietà di simmetria

dell’indice di correlazione, per la quale corr(X,Y)=corr(Y,X), ne deriva che la matrice di correlazione è una matrice simmetrica. Per tale motivo, si trascrive soltanto la parte al di sotto (o al di sopra) della diagonale principale (vedi triangolo in basso), in quanto l’altra parte (vedi triangolo tratteggiato) risulta speculare.

Tornando all’esempio della correlazione a blocchi, se guardiamo all’altezza e al peso degli studenti di Scienze Politiche senza distinzione di sesso, risulta che l’altezza e il peso degli studenti sono

discretamente correlati, come evidenzia l’indice di correlazione pari a 0.771 (vedi riquadro rosso).

51

(52)

Esempio: studenti SP distinti per sesso

STATISTICA - Università di Salerno

Femmine Età Peso Altezza

Età 1

Peso 0.057 1.000

Altezza -0.067 0.492 1

Maschi Età Peso Altezza

Età 1

Peso 0.075 1.000

Altezza -0.098 0.591 1

Tuttavia, se guardiamo all’altezza degli studenti di Scienze Politiche

distinguendoli per sesso, risulta che la correlazione

dell’altezza e del peso è inferiore a quella calcolata mischiando le due popolazioni (maschi e femmine), come evidenziato dai riquadri rossi.

Questo è un caso di correlazione a

blocchi.

52

(53)

Correlazione e causalità

• Il fatto che due variabili risultino correlate

(anche fortemente) non implica necessariamente che vi sia un rapporto di causa-effetto tra le due.

• Vi possono essere, infatti, dei casi in cui due fenomeni appaiono fortemente correlati, in

quanto l’indice di correlazione è sensibilmente diverso da zero, nonostante siano tra di loro concettualmente indipendenti.

STATISTICA - Università di Salerno 53

(54)

Esempio: Correlazione spuria

• Può accadere che il legame tra X ed Y esiste non in modo diretto ma perché entrambe le variabili dipendono da una terza variabile Z che le

influenza entrambe.

STATISTICA - Università di Salerno 54

(55)

Esempio: Correlazione spuria

Esempio 2: Da una rilevazione statistica effettuata in America nel periodi 1993-2000 è risultato che vi è forte correlazione tra il tasso di natalità in età precoce (n. nascite per 1000 donne giovani) e il tasso di omicidi (n. omicidi per 100000 abitanti).

• L’indice di correlazione risulta pari a 0.9987

• Questo non implica che vi sia un legame diretto tra i parti di ragazze-madri e gli omicidi (assurdo!!!). Probabilmente vi è una variabile economica (ad esempio indice di povertà, abbandono precoce della scuola, ecc…) che risulta correlata alle due variabili precedenti.

STATISTICA - Università di Salerno 55

Riferimenti

Documenti correlati

Per sostenere il processo di formazione delle ossa e mantenere in salute la struttura minerale, la vitamina D può anche essere associata al calcio; il calcio citrato ri- sulta

Il programma prevedeva una sessione plenaria iniziale nella quale sono stati trattati i temi della vendita al dettaglio, dell’industria e dell’innovazione in generale con

I claim sono composti dalla indicazione dell’aumento o riduzione del nutriente, rife- rita a specifici prodotti o alla media dei prodotti analoghi sul mercato, dalla indicazione

“nutrizione adeguata” alla “nutrizione ottimale” riconoscendo che determinati alimenti sono idonei non soltanto a soddisfare necessità nutritive, ma anche a realizzare

Si dice peso specifico di una sostanza il peso espresso in grammi di un centimetro cubo o il peso in kilogrammi di un decimetro cubo o il peso in tonnellate di un metro cubo..

[r]

• Lo strumento può essere fornito nella sua forma integrale o essere proposto come modello affinché l’allievo ne costruisca uno personalizzato, inserendo immagini familiari in

Per la sua natura deve essere differenziata dall'anoressia nervosa, poiché induce il desiderio di una smisurata quantità di cibo, ma la differenza maggiore è