∆ ∆
Unità 8
Le rilevazioni statistiche doppie
∆
Distribuzioni multiple: premessa
• Finalità frequente di studi statistici è la ricerca di relazioni di causa-effetto e/o associazione per:
– interpretare – prevedere
– simulare e controllare i fenomeni reali.
• Per conseguire tale obiettivo è necessario enfatizzare il concetto di contemporaneo verificarsi di insiemi di modalità su una data unità statistica.
STATISTICA - Università di Salerno 2
∆
Distribuzioni multiple
• Si ottiene una distribuzione multipla, quando su ogni unità statistica vengono rilevati,
congiuntamente, due o più caratteri statistici (qualitativi e/o quantitativi).
• Si parla di variabile doppia, tripla, n-pla, a seconda che le variabili rilevate siano, 2, 3 oppure n (vedi esempio seguente).
STATISTICA - Università di Salerno 3
STATISTICA - Università di Salerno
∆
4∆
Distribuzioni doppie
STATISTICA - Università di Salerno
( x 1 , y 1 ) ( , x 2 , y 2 ) , K , ( x N , y N ) ( X , Y )
• Le variabili univariate X e Y vengono dette componenti.
• La conoscenza della distribuzione doppia permette la conoscenza delle componenti ma non è vero il viceversa.
Rilevazione
statistica doppia
5
∆
Esempio: tabella di contingenza
STATISTICA - Università di Salerno
FUMO NO SI
SESSO Totale
M 756 323 1079
F 1300 380 1680
Totale 2056 703 2759
La tabella di contingenza riguarda due caratteri qualitativi, in questo esempio SESSO e FUMMO, rilevati su un insieme di N unità statistiche, in questo esempio 2759.
Frequenze doppie o congiunte
Frequenze marginali di colonna
Frequenze marginali di riga
N
6
∆
Esempio: distribuzioni marginali
STATISTICA - Università di Salerno
SESSO Totale
M 1079
F 1680
Totale 2759
FUMO Totale
No 2056
Si 703
Totale 2759
Marginale sesso
Marginale fumo
7
∆
Esempio: frequenze relative
STATISTICA - Università di Salerno
FUMO NO SI
SESSO Totale
M 0.27 0.12 0.39 F 0.47 0.14 0.61 Totale 0.74 0.26 1.00
8
∆
Esempio: distribuzioni condizionate
STATISTICA - Università di Salerno
FUMO NO SI
SESSO Totale
M 756 323 1079
F 1300 380 1680
Totale 2056 703 2759
Sesso|Fumo=Si Totale
M 323
F 380
Totale 703
Fumo|Sesso=F Totale
No 1300
Si 380
Totale 1680
9
∆
Tabella a doppia entrata
X\Y y 1 y 2 …. y h Totale x 1 n 11 n 12 … n 1h n 1.
x 2 n 21 n 22 … n 2h n 2.
…. … … … … …
x k n k1 n k2 … n kh n k.
Totale n .1 n .2 … n .h N
STATISTICA - Università di Salerno 10
∆
Frequenze e frequenze marginali
STATISTICA - Università di Salerno
N n
n
n h j j i k i
i k h
j ij ∑ = ∑ =
∑ = 1 ∑ = 1 = = 1 . = 1 .
1 i .
h j n ij = n
∑ =
k j
i 1 n ij = n .
∑ =
Frequenze marginali
11
∆
Frequenze relative
STATISTICA - Università di Salerno
. i i
f n
⋅ = N
Frequenze relative marginali
N f ij = n ij
. j j
f n
⋅ = N
Frequenze relative
12
∆
Distribuzioni condizionate
• Data una distribuzione doppia (X, Y), la
distribuzione condizionata Y |x i , è la distribuzione semplice che si ottiene se si fissa X = x i e si limita l’analisi della variabile Y ai soli soggetti per cui
risulta X = x i .
• Analogamente, si può fissare Y = y j e studiare la distribuzione, semplice, di X.
STATISTICA - Università di Salerno
P P*
13
∆
Condizionate su Y
STATISTICA - Università di Salerno
X|Y = y j n ij f i
x 1 n 1j n 1j / n .j x 2 n 2j n 2j / n .j
…. … …
x k n kj n kj / n .j
Totale n .j 1
14
∆
Condizionate su X
STATISTICA - Università di Salerno
Y|X = x i n ij f i
y 1 n i1 n i1 / n i.
y 2 n i2 n i2 / n i.
…. … …
y h n ih n ih / n i.
Totale n i. 1
15
∆ ∆
Unità 9
Le rappresentazione grafiche per
dati bivariati
∆
Diagramma a barre affiancate
• Il diagramma a barre affiancate è utile per
rappresentare graficamente le distribuzioni di frequenza condizionate.
• Si costruisce a partire dalla tabella doppia di frequenze condizionate.
• Si utilizza per rappresentare rilevazioni doppie in cui i caratteri sono qualitativi e/o quantitativi
discreti con poche modalità.
STATISTICA - Università di Salerno 17
∆
Esempio: frequenze doppie assolute
Anno immatricolazione
Provenienza 1993 1994 1995 Totale
Scientifico 68 88 67 223
Classico 104 87 50 241
Tecnico 162 172 100 434
Altri 27 27 19 73
Totale 361 374 236 971
STATISTICA - Università di Salerno
Anno di immatricolazione e scuola di Provenienza degli Studenti di Statistica della Facoltà di Scienze Politiche della Università di Napoli
18
∆
Esempio: frequenze rel. condizionate
Anno immatricolazione
Provenienza 1993 1994 1995 Totale Scientifico 0.19 0.24 0.28 0.23 Classico 0.29 0.23 0.21 0.25 Tecnico 0.45 0.46 0.42 0.45
Altri 0.07 0.07 0.08 0.08
Totale 1 1 1 1
STATISTICA - Università di Salerno
Anno di immatricolazione e scuola di Provenienza degli Studenti di Statistica della Facoltà di Scienze Politiche della Università di Napoli
19
∆
Esempio: diagramma a barre aff.
STATISTICA - Università di Salerno 20
∆
Esempio: diagramma a barre in pila
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Anno 1993 Anno 1994 Anno 1995
Scientifico Classico Tecnico Altri
21
∆
Esempio di grafico non adatto
• Il grafico a torta non è adatto a fare confronti nel tempo, poiché non si riesce facilmente a
confrontare l’area dei diversi settori del cerchio
STATISTICA - Università di Salerno ANNO SCORSO
42% 58%
NORD SUD
QUEST'ANNO
63%
37%
22
∆
Box-plot paralleli
• I box-plot paralleli permettono di confrontare la distribuzioni di una variabile condizionatamente ad una variabile discreta o a una mutabile.
• Permettono di effettuare una analisi e un
confronto di tipo robusto delle caratteristiche principali del carattere quantitativo, rilevato in
– tempi – luoghi
– circostanze diverse.
STATISTICA - Università di Salerno 23
∆
Box-plot paralleli: esempio 1
STATISTICA - Università di Salerno
1 2
-2 0 2 4 6
N.B.: i due box-plot vengono rappresentati rispetto allo stesso asse misurato. In questo
esempio, l’intervallo di valori (-2, 6)
Nota la diversa posizione
(=mediane) delle due distribuzioni ….
24
∆
Box-plot paralleli: esempio 2
STATISTICA - Università di Salerno
1 2
-4 -2 0 2 4 6
Nota la diversa posizione e la diversa variabilità (=ampiezza scatola) delle due
distribuzioni ….
25
∆
Box-plot paralleli: esempio 3
STATISTICA - Università di Salerno
1 2 3 4
0.0 0.2 0.4 0.6 0.8 1.0
Nota anche la diversa
asimmetria delle quattro
distribuzioni.
In alcuni casi, sono presenti anche valori eccezionalmente grandi o piccoli
….
26
∆
Box-plot paralleli: esempio
STATISTICA - Università di Salerno
Peso (in kg) degli studenti Scienze Politiche (anno accademico 1988 – 1995), distinti per sesso.
27
∆
Diagramma a dispersione
• Il diagramma a dispersione (o scatter) è utile per rappresentare graficamente le rilevazioni doppie di caratteri quantitativi.
• Un diagramma a dispersione è un grafico
costruito su un sistema di assi cartesiani, su cui vengono rappresentati mediante punti le coppie di valori relativi a due variabili, rilevate su n unità statistiche.
• Va costruito direttamente sui dati osservati, senza derivare la distribuzione doppia di frequenza.
STATISTICA - Università di Salerno 28
∆
Diagramma scatter: peso vs altezza
STATISTICA - Università di Salerno
Ogni punto in questo
diagramma rappresenta un individuo diverso. La forma che assume la nuvola dei punti è indicativa del legame esistente tra le due
variabili PESO e ALTEZZA.
Ad esempio, questo punto
rappresenta un individuo che pesa
circa 56 kg ed è alto circa 187 cm.
Peso (in kg) e altezza (in cm) degli studenti Scienze Politiche (anno accademico 1988 – 1995).
29
∆
Diagramma scatter: peso vs altezza
STATISTICA - Università di Salerno
La numerosità dei punti che rientrano nelle singole celle determina la frequenza doppia delle corrispondenti classi di modalità per le due variabili considerate.
30
∆
Tabella doppia: peso vs altezza
Peso
Altezza 40 -| 50 50 -| 60 60 -| 70 70 -| 80 80 -| 90 90 -| 120 Totale
140 -| 150 8 4 12
150 -| 160 195 280 31 6 1 513
160 -| 170 112 687 327 59 11 2 1198
170 -| 180 2 108 298 299 72 10 789
180 -| 190 2 21 95 80 34 232
190 -| 200 4 5 6 15
Totale 317 1081 677 463 169 52 2759
STATISTICA - Università di Salerno
Altezza (in cm) e peso (in kg) degli studenti Scienze Politiche (anno accademico 1988 – 1995).
31
∆
Misura del legame lineare
• L’esistenza di un legame lineare tra due variabili indica la presenza di correlazione tra le variabili.
• Per misurare la forza del legame lineare esistente tra due variabili è utile calcolare la covarianza e l’indice di correlazione
• Si considerino ad esempio due variabili, indicate con X e Y, rilevate su n unità statistiche. Si avrà la seguente serie doppia di dati: (x i , y i , i=1,…,n)
STATISTICA - Università di Salerno 32
∆
Covarianza
• La covarianza misura la presenza di legame
lineare tra due variabili quantitative. Essa indica come “covariano” i dati, per cui è da annoverare tra gli indici di variabilità.
• L’indice di covarianza dipende dalla grandezza dei due fenomeni osservati, per cui non è adatto per fare confronti tra rilevazioni diverse.
STATISTICA - Università di Salerno 33
∆
Covarianza: formula
STATISTICA - Università di Salerno
( )( )
1
cov( , ) 1
N
XY i X i Y
i
X Y x y
σ N µ µ
=
= = ∑ − −
0 (correlazione positiva) 0 (incorrelazione)
0 (correlazione negativa)
σ XY
>
=
<
( ) ( )
1 1
cov( , ) 1
k h
XY i X j Y ij
i j
X Y x y n
σ N µ µ
= =
= = ∑∑ − − ⋅
Per serie doppia di dati
Per distribuzione doppia di frequenza
Commento del risultato
34
∆
Esempio: covarianza positiva
STATISTICA - Università di Salerno
-4 -2 0 2 4 6 8
-4-20246810
X
Y
corr(X,Y)=0.99
-2 0 2 4 6
0510
X
Y
corr(X,Y)=0.90
In questi due esempi l’indice di covarianza è positivo (σXY>0)
35
∆
Esempio: covarianza nulla
STATISTICA - Università di Salerno
0 20 40 60 80 100
020406080100
corr(X,Y)=0.19
X
Y
-2 0 2 4 6 8
-4-202468
X
Y
corr(X,Y)=0.0 In questi due esempi la
covarianza è prossima allo zero, poiché la nuvola non ha alcuna inclinazione, oppure si orienta secondo una retta con pendenza nulla.
36
∆
Esempio: covarianza negativa
STATISTICA - Università di Salerno
-4 -2 0 2 4 6 8
0510
X
Y
corr(X,Y)=-0.70
-4 -2 0 2 4 6 8
-50510
X
Y
corr(X,Y)=-0.95
In questi due esempi la covarianza assume un valore negativo (σXY
<
0)37
∆
Covarianza: proprietà
STATISTICA - Università di Salerno
cov( , X X ) = σ X 2
cov( X + a Y , + = c ) cov( , ) X Y
cov( bX dY , ) = ⋅ ⋅ b d cov( , ) X Y
cov( a + bX c , + dY ) = ⋅ ⋅ b d cov( , ) X Y cov( , ) X Y = µ XY − µ µ X Y
cov( , ) 0 X ed Y indipendenti ⇒ X Y =
1
1 N
XY i i
i
N x y
µ
=
= ∑
cov( , ) X Y = cov( , Y X )
Formula alternativa della covarianza
Proprietà per trasformate di variabili
38
∆
Coefficiente di correlazione (Bravais-Pearson)
• L’indice di correlazione misura la forza del legame lineare esistente tra due variabili
quantitative. Essa indica quanto la nuvola di punti si avvicini alla retta ipotetica.
• L’indice di correlazione è un indice
normalizzato, e non dipende dalla grandezza dei due fenomeni osservati, per cui è adatto per fare confronti tra rilevazioni diverse.
STATISTICA - Università di Salerno 39
∆
Coefficiente di correlazione: formula
STATISTICA - Università di Salerno
1
corr( , ) 1
N
i X i Y
XY
i X Y
x y
X Y
N
µ µ
ρ = σ σ
− −
= =
∑
corr( , ) XY
XY
X Y
X Y σ
ρ = = σ σ
Per serie doppia di dati
Formula alternativa dell’indice di
correlazione
40
∆
Esempio: correlazione positiva
STATISTICA - Università di Salerno
-4 -2 0 2 4 6 8
-4-20246810
X
Y
corr(X,Y)=0.99
-2 0 2 4 6
0510
X
Y
corr(X,Y)=0.90
In questo esempio vi è evidenza di un forte legame lineare positivo:
l’indice di correlazione è prossimo al suo massimo +1.
In questo esempio vi è evidenza di un legame lineare positivo meno forte del precedente: infatti, l’indice di correlazione è positivo ma minore del precedente.
41
∆
Esempio: correlazione debole o assente
STATISTICA - Università di Salerno
-2 0 2 4 6
-4-20246810
X
Y
corr(X,Y)=0.60
-2 0 2 4 6 8
-4-202468
X
Y
corr(X,Y)=0.0
In questo esempio si nota l’assenza di legame tra le due variabili: infatti, l’indice di correlazione è nullo.
In questo esempio vi è evidenza di legame lineare positivo debole:
infatti, l’indice di correlazione non è prossimo al suo massimo +1.
42
∆
Esempio: correlazione negativa
STATISTICA - Università di Salerno
-4 -2 0 2 4 6 8
0510
X
Y
corr(X,Y)=-0.70
-4 -2 0 2 4 6 8
-50510
X
Y
corr(X,Y)=-0.95
In questo esempio vi è evidenza di legame lineare negativo debole:
infatti, l’indice di correlazione è negativo, ma non è prossimo al suo minimo -1.
In questo esempio si evidenzia un forte legame lineare
negativo: infatti, l’indice di correlazione è prossimo al minimo -1.
43
∆
Esempio: correlazione perfetta
STATISTICA - Università di Salerno
-4 -2 0 2 4 6 8
0510
X
Y
corr(X,Y)=-1.0
-4 -2 0 2 4 6 8
-4-20246810
X
Y
corr(X,Y)=1.0
In questo esempio vi è perfetto legame lineare negativo:
infatti, l’indice di correlazione è uguale al suo minimo -1.
In questo esempio si evidenzia un perfetto legame lineare positivo: infatti, l’indice di correlazione è uguale al massimo +1.
44
∆
Proprietà di Corr(X, Y) (1)
• corr(X, Y) = 0 correlazione nulla (assenza di legame lineare tra X ed Y).
• corr(X, Y) > 0 correlazione positiva (a variazioni positive di X si accompagnano, in media, variazioni
positive di Y).
• corr(X, Y) < 0 correlazione negativa (a variazioni negative di X si accompagnano, in media, variazioni
positive di Y e viceversa).
STATISTICA - Università di Salerno
1 corr( , ) X Y 1
− ≤ ≤ +
45
∆
Proprietà di Corr(X, Y) (2)
• corr(X, Y) = +1 esiste un legame lineare positivo perfetto tra X ed Y.
• corr(X, Y) = -1 esiste un legame lineare negativo perfetto tra X ed Y.
STATISTICA - Università di Salerno
corr( , ) X Y = + 1 ⇒ Y = + ⋅ a b X corr( , ) X Y = − 1 ⇒ Y = − ⋅ a b X
46
∆
Proprietà di Corr(X, Y) (3)
• Tanto più corr(X, Y) si avvicina a +1, tanto più il legame lineare positivo tra X ed Y è forte (la
nuvola è molto “vicina” a una retta con pendenza positiva).
• Tanto più corr(X, Y) si avvicina a -1, tanto più il legame lineare negativo tra X ed Y è forte (la
nuvola è molto “vicina” a una retta con pendenza negativa).
• Tanto più corr(X, Y) si avvicina a 0 tanto più debole (o assente) è il legame lineare
STATISTICA - Università di Salerno 47
∆
Proprietà di Corr(X, Y) (4)
STATISTICA - Università di Salerno
e indipendenti corr( , ) 0
X Y ⇒ X Y =
corr( , ) se 0
corr( , )
corr( , ) se 0
X Y b d
a bX c dY
X Y b d
⋅ >
+ + =
− ⋅ <
corr( , ) X Y = corr( , Y X ) corr( , X X ) = 1
Proprietà per trasformate di variabili
48
∆
Correlazione a blocchi
• Per popolazioni che possono essere suddivise in sottogruppi, con valori medi molto differenti, bisogna interpretare l’indice di correlazione con cautela.
• Può accadere infatti che la correlazione calcolata sull’intera popolazione risulti maggiore di quella calcolata sui singoli sottogruppi.
STATISTICA - Università di Salerno 49
∆
Correlazione a blocchi: esempio studenti SP (altezza vs peso)
STATISTICA - Università di Salerno
Nota: se si guarda
separatamente alla nuvola dei punti rossi e alla nuvola dei punti neri, le due nuvole evidenziano debole correlazione tra le
variabili. Se invece si guarda alla forma della nuvola intera (a
prescindere dal colore dei punti), si concluderebbe che vi è forte correlazione positiva.
50
∆
Esempio: studenti SP (maschi e femmine)
STATISTICA - Università di Salerno
Età Peso Altezza
Età 1
Peso 0.195 1.000
Altezza 0.089 0.771 1
Questa rappresenta la matrice delle correlazioni, che riporta gli indici di correlazione tra le variabili Età, Peso e Altezza, considerate a due a due. Ad esempio, per evidenziare la correlazione tra il Peso e l’Altezza degli studenti, basterà estrarre dalla matrice il valore che si trova all’incrocio tra la riga (o la colonna) relativa all’Altezza e la colonna (o la riga) relativa al Peso. Data la proprietà di simmetria
dell’indice di correlazione, per la quale corr(X,Y)=corr(Y,X), ne deriva che la matrice di correlazione è una matrice simmetrica. Per tale motivo, si trascrive soltanto la parte al di sotto (o al di sopra) della diagonale principale (vedi triangolo in basso), in quanto l’altra parte (vedi triangolo tratteggiato) risulta speculare.
Tornando all’esempio della correlazione a blocchi, se guardiamo all’altezza e al peso degli studenti di Scienze Politiche senza distinzione di sesso, risulta che l’altezza e il peso degli studenti sono
discretamente correlati, come evidenzia l’indice di correlazione pari a 0.771 (vedi riquadro rosso).
51
∆
Esempio: studenti SP distinti per sesso
STATISTICA - Università di Salerno
Femmine Età Peso Altezza
Età 1
Peso 0.057 1.000
Altezza -0.067 0.492 1
Maschi Età Peso Altezza
Età 1
Peso 0.075 1.000
Altezza -0.098 0.591 1
Tuttavia, se guardiamo all’altezza degli studenti di Scienze Politiche
distinguendoli per sesso, risulta che la correlazione
dell’altezza e del peso è inferiore a quella calcolata mischiando le due popolazioni (maschi e femmine), come evidenziato dai riquadri rossi.
Questo è un caso di correlazione a
blocchi.
52
∆
Correlazione e causalità
• Il fatto che due variabili risultino correlate
(anche fortemente) non implica necessariamente che vi sia un rapporto di causa-effetto tra le due.
• Vi possono essere, infatti, dei casi in cui due fenomeni appaiono fortemente correlati, in
quanto l’indice di correlazione è sensibilmente diverso da zero, nonostante siano tra di loro concettualmente indipendenti.
STATISTICA - Università di Salerno 53
∆
Esempio: Correlazione spuria
• Può accadere che il legame tra X ed Y esiste non in modo diretto ma perché entrambe le variabili dipendono da una terza variabile Z che le
influenza entrambe.
STATISTICA - Università di Salerno 54
∆
Esempio: Correlazione spuria
• Esempio 2: Da una rilevazione statistica effettuata in America nel periodi 1993-2000 è risultato che vi è forte correlazione tra il tasso di natalità in età precoce (n. nascite per 1000 donne giovani) e il tasso di omicidi (n. omicidi per 100000 abitanti).
• L’indice di correlazione risulta pari a 0.9987
• Questo non implica che vi sia un legame diretto tra i parti di ragazze-madri e gli omicidi (assurdo!!!). Probabilmente vi è una variabile economica (ad esempio indice di povertà, abbandono precoce della scuola, ecc…) che risulta correlata alle due variabili precedenti.
STATISTICA - Università di Salerno 55