• Non ci sono risultati.

Antonio Azzollini antonio.azzollini@unibas.it Statistica

N/A
N/A
Protected

Academic year: 2021

Condividi "Antonio Azzollini antonio.azzollini@unibas.it Statistica"

Copied!
38
0
0

Testo completo

(1)

Statistica

Antonio Azzollini

antonio.azzollini@unibas.it

Anno accademico 2019/2020

Dipartimento di Matematica, Informatica ed Economia (DiMIE)

(2)

Distribuzioni miste

Tra le domande poste in un questionario, una è relativa alla percezione della propria felicità.

Considerando tutti gli aspetti della tua vita, quanto ti ritieni felice? Esprimi la tua scelta mettendo una crocetta ( ) su questa linea per indicare il tuo

livello di felicità.

estremamente infelice

estremamente felice

Il dato è la lunghezza di questo segmento

Felicità

Frequenza

0 9 18 26 35

Misura

[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9]

[9;10] [10;11] [11;12]

Lunghezza totale: 12 cm.

(3)

Distribuzioni miste

Tra le domande poste in un questionario, una è relativa alla percezione della propria felicità.

Considerando tutti gli aspetti della tua vita, quanto ti ritieni felice? Esprimi la tua scelta mettendo una crocetta ( ) su questa linea per indicare il tuo

livello di felicità.

estremamente infelice

estremamente felice

Il dato è la lunghezza di questo segmento

Felicità

Frequenza

0 9 18 26 35

Misura

[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9]

[9;10] [10;11] [11;12]

Stratificare rispetto al genere.

♀ ♂

Lunghezza totale: 12 cm.

👇

(4)

Distribuzioni miste

[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9] [9;10] [10;11] [11;12] Totale

1 8 4 4 15 7 8 23 11 11 6 1 99

2 1 2 4 15 8 9 10 14 14 5 2 86

Totale 3 9 6 8 30 15 17 33 25 25 11 3 185

Maschi

Densità

0,00 0,06 0,13 0,19 0,25

Misura

[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9] [9;10][10;11][11;12]

Femmine

Densità

0,00 0,06 0,13 0,19 0,25

Misura

[0;1] [1;2] [2;3] [3;4] [4;5] [5;6] [6;7] [7;8] [8;9] [9;10][10;11][11;12]

Media = 6,45

Deviazione Standard = 2,44 Coefficiente di variazione = 0,37

Media = 6,91

Deviazione Standard = 2,22 Coefficiente di variazione = 0,32

(5)

Più variabili qualitative

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).

(6)

Più variabili qualitative

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

Numero di intervistati mancini: 17.

In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).

(7)

Più variabili qualitative

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

Distribuzione doppia Numero di femmine che scrivono con la mano destra

Numero di intervistati mancini: 17.

In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).

(8)

Più variabili qualitative

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

Distribuzione congiunta Numero di maschi che

scrivono con la mano

sinistra e portano gli occhiali

Distribuzione doppia Numero di femmine che scrivono con la mano destra

Numero di intervistati mancini: 17.

In questo esempio abbiamo tre variabili qualitative: il sesso (M,F) l’uso degli occhiali (SI/NO) e la mano preferita (S/D).

(9)

Più variabili qualitative

Ricapitoliamo utilizzando la notazione insiemistica

Insieme totale degli intervistati:

Maschi:

Femmine:

Occhiali SI:

Occhiali NO:

Mano sinistra:

Mano destra:

S M

F

O

SI

O

NO

Sx Dx

M ∪ F = S

M ∩ F = ∅ }

esaustivi disgiunti

Sx ∪ Dx = S

Sx ∩ Dx = ∅ }

esaustivi disgiunti

O

SI

∪O

NO

= S

O

SI

∩O

NO

= ∅ }

esaustivi disgiunti

(10)

Più variabili qualitative

Ricapitoliamo utilizzando la notazione insiemistica

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

(11)

Più variabili qualitative

Ricapitoliamo utilizzando la notazione insiemistica

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

F

(12)

Più variabili qualitative

Ricapitoliamo utilizzando la notazione insiemistica

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

O

NO

F

(13)

Più variabili qualitative

Ricapitoliamo utilizzando la notazione insiemistica

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

M ∩ Dx

O

NO

F

(14)

Più variabili qualitative

Ricapitoliamo utilizzando la notazione insiemistica

Occhiali Genere

Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

M ∩ Sx ∩O

SI

M ∩ Dx

O

NO

F

(15)

Occhiali Genere Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

Totale 93 70 163

Grafici

0 15 30 45 60

Mano S Mano D Mano S Mano D Occhiali SI Occhiali NO

maschi femmine

(16)

Distribuzione condizionata

Distribuzione condizionata di occhiali & scrittura vs. genere.

7

91 = M ∩ Sx ∩OSI

M ×100

38

72 = F ∩ Dx ∩ONO

F ×100

38

72 = F ∩ Sx

F ×100

👉

👉

👉

percentuale di maschi con occhiali &

mancini.

percentuale di femmine senza occhiali &

non mancine.

percentuale di femmine mancine.

Occhiali Mano Genere Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

38

72 = F ∩ Dx ∩ONO

F ×100

7

11 = M ∩ Sx ∩OSI

M ∩ Sx ×100 7

11 = M ∩ Sx ∩OSI

M ∩ Sx ×100 7

11 = M ∩ Sx ∩OSI

M ∩ Sx 7 ×100

91 = M ∩ Sx ∩OSI

M ×100

38

72 = F ∩ Dx ∩ONO

F ×100

19,02

57,06 ×100 = rapporto di composizione = 33,33%

(17)

Distribuzione condizionata

Distribuzione condizionata di occhiali vs. scrittura & genere.

In questo caso, quali sono gli insiemi coinvolti?

Occhiali Mano Genere Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

(18)

Distribuzione condizionata

Distribuzione condizionata di occhiali vs. scrittura & genere.

In questo caso, quali sono gli insiemi coinvolti?

7

11 = M ∩ Sx ∩OSI

M ∩ Sx ×100

👉

percentuale con occhiali fra i maschi mancini.

3

6 = F ∩ Sx ∩OSI

F ∩ Sx ×100

👉

percentuale con occhiali fra le femmine mancine.

7

11 = M ∩ Sx ∩OSI

M ∩ Sx ×1007

11 = M ∩ Sx ∩OSI

M ∩ Sx ×100

7

11 = M ∩ Sx ∩OSI

M ∩ Sx ×1003

6 = F ∩ Sx ∩OSI

F ∩ Sx ×100

Occhiali Mano Genere Occhiali SI Occhiali NO Totale Totale

Mano S 7 4 11

Mano D 55 25 80 91

Mano S 3 3 6

Mano D 28 38 66 72

(19)

Distribuzione condizionata

Un grafico a mosaico è una rappresentazione grafica che consente di esaminare l’associazione fra due variabili qualitative.

Passo1: quadrato di lato 1 Passo2: suddividere l’area del quadrato in due rettangoli di aree

proporzionali alle

percentuali di una delle distribuzioni marginali.

Ad esempio la variabile occhiali 57,06% & 42,94%

no si

Occhiali

Genere Occhiali NO Occhiali SI Totale 38,04% 17,79% 55,83%

19,02% 25,15% 44,17%

Totale 57,06% 42,94% 100%

(20)

Distribuzione condizionata

Occhiali

Occhiali NO Occhiali SI 66,67% 41,43%

33,33% 58,57%

Totale 100% 100%

Passo3: suddividere l’area di ogni rettangolo in base alle distribuzioni

condizionate. Ad esempio, la regione Occhiali NO di area proporzionale al 57,6%

viene suddivisa in due regioni, Maschi & Femmine di area proporzionale a 66,7%

& 33,33%.

femmine

maschi

occhiali

no si

Occhiali

maschi femmine genere

La forma del grafico a mosaico non cambia di molto se la stessa costruzione viene fatta partendo dalla variabile Genere.

Come si legge il grafico?

nosi

(21)

Distribuzione condizionata

Occhiali

Occhiali NO Occhiali SI 66,67% 41,43%

33,33% 58,57%

Totale 100% 100%

Passo3: suddividere l’area di ogni rettangolo in base alle distribuzioni

condizionate. Ad esempio, la regione Occhiali NO di area proporzionale al 57,6%

viene suddivisa in due regioni, Maschi & Femmine di area proporzionale a 66,7%

& 33,33%.

La forma del grafico a mosaico non cambia di molto se la stessa costruzione viene fatta partendo dalla variabile Genere.

Come si legge il grafico?

Tanto più la griglia si avvicina ad una croce tanto più le due variabili sono indipendenti.

femmine

maschi

occhiali

si

Occhiali

maschi femmine genere

nosi

no

(22)

Caratteri indipendenti

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti.

(23)

Caratteri indipendenti

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti.

In assenza di indipendenza si parla di connessione fra i due caratteri. Le due

variabili tendono ad influenzarsi reciprocamente e tra di loro esiste una relazione.

(24)

Caratteri indipendenti

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti.

In assenza di indipendenza si parla di connessione fra i due caratteri. Le due

variabili tendono ad influenzarsi reciprocamente e tra di loro esiste una relazione.

In termini statistici si riconosce che una variabile X è indipendente da una variabile Y quando le distribuzioni condizionate di Y sono uguali per ogni modalità (o classi di modalità) di X, cioè hanno le stesse frequenze relative (percentuali).

Esempio. Consideriamo due caratteri

X

ed

Y

le cui modalità si comportano come nella seguente tabella:

12 4 16 8 40

15 5 20 10 50

9 3 12 6 30

36 12 48 24 120

X / Y Y

X

y1 y2 y3 y4 x1

x2 x3

(25)

12 4 16 8 40 15 5 20 10 50

9 3 12 6 30

36 12 48 24 120

X / Y Y

X

C’è indipendenza

40/120=


0,33

12/36=


0,33

4/12=


0,33

16/48=


0,33

8/24=


0,33 50/120=


0,42

15/36=


0,42

5/12=


0,42

20/48=


0,42

10/24=


0,42 30/120=


0,25

9/36=


0,25

3/12=


0,25

12/48=


0,25

6/24=


0,25

Totale 1,00 1,00 1,00 1,00 1,00

X x1 x2 x3

y1 y2 y3 y4 x1

x2 x3

f (X) f (X | y1) f (X | y2) f (X | y3) f (X | y4 )

Caratteri indipendenti

(26)

Caratteri indipendenti

Non c’è indipendenza

0,80 0,05 0,05 0,40

0,10 0,85 0,05 0,30

0,10 0,10 0,90 0,30

Totale 1,00 1,00 1,00 1,00

X x1 x2 x3

f (X | y1) f (X | y2) f (X | y3) f (X | y4 )

Nella tabella precedente abbiamo osservato che la modalità del carattere non è in alcun modo influenzata dalla modalità del carattere Y. Se invece

avessimo avuto una tabella come quella qua sotto dove le frequenze relative del carattere

X

X dipendono chiaramente dalle modalità del carattereY concluderemmo che i due caratteri non sono indipendenti.

(27)

Caratteri indipendenti

Frequenza assoluta Occhiali

Genere Occhiali NO Occhiali SI Totale

62 29 91

31 41 72

Totale 93 70 163

Tabella delle frequenze relative condizionate Occhiali

Genere Occhiali NO Occhiali SI Totale 55,83% 55,83% 55,83%

44,17% 44,17% 44,17%

Totale 100% 100% 100%

Se i caratteri fossero

indipendenti produrrebbero una tabella come questa,

👈

163 persone: 55,83% maschi, 44,17% femmine.

(28)

Caratteri indipendenti

Frequenza assoluta Occhiali

Genere Occhiali NO Occhiali SI Totale

62 29 91

31 41 72

Totale 93 70 163

Tabella delle frequenze relative condizionate Occhiali

Genere Occhiali NO Occhiali SI Totale 55,83% 55,83% 55,83%

44,17% 44,17% 44,17%

Totale 100% 100% 100%

Se i caratteri fossero

indipendenti produrrebbero una tabella come questa, ma così non è…

👈

163 persone: 55,83% maschi, 44,17% femmine.

(29)

Tabella delle frequenze relative condizionate Occhiali

Genere Occhiali NO Occhiali SI Totale 66,67% 41,43% 55,83%

33,33% 58,57% 44,17%

Totale 100% 100% 100%

♂ 👈

Caratteri indipendenti

Frequenza assoluta Occhiali

Genere Occhiali NO Occhiali SI Totale

62 29 91

31 41 72

Totale 93 70 163

E infatti producono una tabella come questa.

163 persone: 55,83% maschi, 44,17% femmine.

(30)

Caratteri indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 31,85% 23,98%

25,20% 18,97%

Totale 57,05% 42,95%

163 persone: 55,83% maschi, 44,17% femmine.

Distribuzione congiunta se indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 38,04% 17,79%

19,02% 25,15%

Totale 57,06% 42,94%

Distribuzione congiunta effettiva

93× 0,5583

163 ×100 = 31,85

Distribuzione marginale del carattere occhiali

93× 0,5583

163 ×100 = 31,85 93× 0,5583

163 Frequenza relativa di chi ×100 = 31,85

non indossa occhiali

(31)

Caratteri indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 31,85% 23,98%

25,20% 18,97%

Totale 57,05% 42,95%

163 persone: 55,83% maschi, 44,17% femmine.

Distribuzione congiunta se indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 38,04% 17,79%

19,02% 25,15%

Totale 57,06% 42,94%

Distribuzione congiunta effettiva

93× 0,5583

163 ×100 = 31,85

Distribuzione marginale del carattere occhiali

93× 0,5583

163 ×100 = 31,85 93× 0,5583

163 Frequenza relativa di chi ×100 = 31,85

non indossa occhiali

Frequenza relativa dei maschi

(32)

Caratteri indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 31,85% 23,98%

25,20% 18,97%

Totale 57,05% 42,95%

163 persone: 55,83% maschi, 44,17% femmine.

Distribuzione congiunta se indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 38,04% 17,79%

19,02% 25,15%

Totale 57,06% 42,94%

Distribuzione congiunta effettiva

93× 0,5583

163 ×100 = 31,85

Distribuzione marginale del carattere occhiali

93× 0,5583

163 ×100 = 31,85 93× 0,5583

163 Frequenza relativa di chi ×100 = 31,85

non indossa occhiali

Frequenza relativa dei maschi

Frequenza relativa percentuale dei maschi che non indossano occhiali

(33)

Caratteri indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 31,85% 23,98%

25,20% 18,97%

Totale 57,05% 42,95%

163 persone: 55,83% maschi, 44,17% femmine.

Distribuzione congiunta se indipendenti

Occhiali

Genere Occhiali NO Occhiali SI 38,04% 17,79%

19,02% 25,15%

Totale 57,06% 42,94%

Distribuzione congiunta effettiva

Vediamo le frequenze assolute

confrontate con quelle che sarebbero state se indipendenti.

👇

93× 0,5583

163 ×100 = 31,85

(34)

Occhiali

Genere Occhiali NO Occhiali SI Totale

62 29 91

31 41 72

Totale 93 70 163

Caratteri indipendenti

163 persone: 55,83% maschi, 44,17% femmine.

Occhiali

Genere Occhiali NO Occhiali SI

91

163 × 93 = 51,92 ˆn11 = 51,92 ˆn12 = 39,08 ˆn21 = 41,08 ˆn22 = 30,92

Frequenza assoluta se indipendenti

Frequenza assoluta effettiva 91

163 × 93 = 51,92Frequenza relativa dei maschi

(35)

Caratteri indipendenti

163 persone: 55,83% maschi, 44,17% femmine.

Ora calcoliamo le differenze fra le frequenze assolute effettive e quelle ipotetiche.

Occhiali

Genere Occhiali NO Occhiali SI

62 − 51,92 = 10,08

31− 41,08 = −10,08

29 − 39,08 = −10,08 41− 30,92 = 10,08

Le differenze così calcolate vanno normalizzate alle frequenze assolute ipotetiche

ˆn

ij e poi sommate al quadrato moltiplicando ciascuna di esse per il relativo peso

ˆn

ij

c

11

= 10,08

51,92 , c

12

= − 10,08

39,08 , c

21

= − 10,08

41,08 , c

22

= 10,08 30,92

dato da .

Otteniamo l’espressione

C

r

= c

ij2

ˆn

ij

j=1

s i=1

r dove

0 ≤ C

r

≤ nmin r −1, s −1 { }

r r = numero di righe, c = numero di colonne, n = popolazione totale 0 = numero di righe, c = numero di colonne, n = popolazione totale ≤ C

r

≤ nmin r −1, s −1 { }

(36)

Indice di connessione di Cramer

L’indice di connessione di Cramer è un indice relativo, che varia fra 0 & 1, ottenuto mediante la seguente espressione:

C

r*

= c

ij2

ˆn

ij

j=1

s i=1

r

n min r { −1, s −1 }

Nell’esempio appena visto si ha

C

r*

= 0,25

, ossia un modesto livello di connessione

C

r*

= 0 👉

i caratteri

X

&

Y

sono sconnessi.

Tanto più

C

r* si avvicina a

1

, maggiore è la dipendenza tra

X

&

Y

.

(37)

Indice di connessione di Cramer

Si ha la perfetta dipendenza quando la tabella delle frequenze assolute (tabella di contingenza) si presenta come una matrice diagonale.

Frequenza assoluta Occhiali

Genere Occhiali NO Occhiali SI Totale

92 0 92

0 71 71

Totale 92 71 163

In tal caso poniamo…

(38)

Indice di connessione di Cramer

Frequenza assoluta Occhiali

Genere Occhiali NO Occhiali SI Totale

92 0 92

0 71 71

Totale 92 71 163

Distribuzione se indipendenti Occhiali

Genere Occhiali NO Occhiali SI

ˆn

11 = 51,92 ˆn12 = 40,07 ˆn21 = 40,07 ˆn22 = 30,92

👇

92 − 51,92 = 40,07 0 − 40,07 = −40,07 71− 30,92 = 40,07

c

11

= 40,07

51,92 c

12

= − 40,07 40,07 c

21

= − 40,07

40,07 c

22

= 40,07 30,92

👇

C

r

= c

ij2

ˆn

ij

j=1

s i=1

r

= 163

Riferimenti

Documenti correlati

non solo la variazione intervenuta fra il tempo base e quello attuale, ma anche…. … la variazione a breve fra

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente

Le medie e le deviazioni standard delle quotazioni giornaliere dei titoli azionari Indesit & De Longhi nell’arco del 2006 sono state:. Indesit: media = 9,89; deviazione standard

non solo la variazione intervenuta fra il tempo base e quello attuale, ma anche…. … la variazione a breve fra

Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti...

Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade

come indice centrale, considerando la deviazione standard come indice di dispersione dei dati, ci si pone la questione di stabilire a priori una stima della percentuale di dati che