• Non ci sono risultati.

Distribuzione normale

N/A
N/A
Protected

Academic year: 2022

Condividi "Distribuzione normale"

Copied!
32
0
0

Testo completo

(1)

Distribuzione normale

(2)

Consideriamo un campione (provetta) di siero, facciamone 160 aliquote e misuriamone la concentrazione di glucosio.

Ne risulterà una distribuzione di frequenza di questo tipo:

Glicemia Frequenza

82-86 0

86-90 10

90-94 20

94-98 30

98-102 40

102-106 30

106-110 20

110-114 10

114-118 0

(3)

0 5 10 15 20 25 30 35 40 45

82-86 86-90 90-94 94-98 98-102 102-106 106-110 110-114 114-118

L’istogramma relativo è quello della figura.

(4)

Distribuzione normale

Se il numero dei dosaggi fosse molto grande otterremmo una curva detta

“normale”, “a campana” o “gaussiana”

(5)

Vediamo quali sono le sue proprietà fondamentali

1. Ha forma a campana.

2. E’ simmetrica rispetto alla media.

3. Le due code tendono asintoticamente a zero.

4. Oltre alla numerosità del campione, bastano soltanto altri due parametri per definirla in modo univoco: la media (che coincide con la mediana) e la deviazione standard (in genere si indica la varianza):

N ( m , s

2

)

(6)

Dalle proprietà prima esposte si evince che:

A) Il valore delle ascisse che corrisponde alla frequenza massima è la media della distribuzione.

B) Le ascisse corrispondenti ai punti di flesso si trovano ad una distanza dalla media uguale alla deviazione standard.

C) La parte di area delimitata dalla curva e dalle ordinate di ascissa rispettivamente m – s e m + s comprende circa il 68,26% delle

osservazioni.

D) La parte di area delimitata dalla curva e dalle ordinate di ascissa

rispettivamente m – 2 s e m + 2 s comprende circa il 95,45% delle

osservazioni.

(7)

Grafici della distribuzione normale per un dato valore di m e per

diversi valori di s :

(8)

Grafici della distribuzione normale per un dato valore di s e per

diversi valori di m :

(9)

Errore standard della media

Serve a definire un intervallo intorno alla media

campionaria (m

c

) all’interno del quale si trovi con elevata probabilità la media della popolazione (m

p

)

Per esempio un intervallo all’interno del quale troviamo sicuramente la media della popolazione con una

probabilità del 95%

Adotteremo quindi una formula del tipo: m ± 1,96 s

è circa 2

(10)

Teorema del limite centrale

4. ES è funzione sia della s

p

sia della numerosità del campione

3. La s dell’insieme di tutte le m

c

di campioni di una data numerosità è detta Errore Standard della Media (ES) 2. Il valore medio di tutte le m

c

è la media della

popolazione (m

p

)

1. La distribuzione delle medie campionarie (m

c

) è

“normale”

(11)

Dobbiamo quindi definire un’altro parametro

dove n = numerosità del campione

La migliore stima di ES da un singolo campione è data da ES

c

: Errore standard della media (ES oppure S

m

)

L’errore standard della media dei campioni di numerosità n tratti da una popolazione

avente deviazione standard s è dato dalla

formula a dx ES  s n

ES c s n c

(12)

Possiamo ora definire attorno alla media campionaria un intervallo di possibili valori all’interno del quale si può ritenere con elevata probabilità che vi sia compresa la

media della popolazione

Questo intervallo è detto INTERVALLO DI CONFIDENZA

oppure

INTERVALLO FIDUCIALE DELLA MEDIA

(13)

Intervallo di confidenza (IC) IC al 95% = m c ± 1,96 · ES

IC al 95% descrive l’intervallo nel quale, con una fiducia pari a circa il 95%, è contenuta la media della popolazione dalla quale il campione è stato tratto

La probabilità che m

c

± 1,96 · ES

definisca un intervallo che comprende m

p

è del 95%

(14)

Esempio 1

Consideriamo un campione di 566 soggetti maschi di età compresa tra i 18 e i 40 anni. Supponiamo che: la media e la deviazione standard della frequenza cardiaca siano 77,3 e 12,8 bpm, la media e la deviazione standard della pressione al polso siano 49,1 e 11,1 mmHg.

Quali sono gli errori standard ?

a) 0,02 e 0,02

b) 0,54 e 0,47

c) 3,25 e 2,06

(15)

Risposta es. 1

ES = 12,8 / = 0,54

ES = 11,1 / = 0,47

La soluzione è data dalla risposta (b) 566

566

(16)

Esempio 2

Supponiamo che nello stesso campione la media e la deviazione standard della pressione sistolica siano 128,8 e 13,1 e la media e la deviazione standard della pressione diastolica siano 79,7 e 9,4 mmHg.

Quali sono gli IC al 95% ?

a) 128,25 – 129,35; 79,31 – 80,09

b) 127,38 – 130,22; 78,70 – 79,70

c) 127,72 – 129,88; 78,93 – 80,47

(17)

Risposta es. 2

Pressione diastolica

IC = 79,7 ± 1,96 ES IC = 79,7 ± 0,77 = 78,93 - 80,47 La soluzione è data dalla risposta (c)

Pressione sistolica

IC = 128,8 ± 1,96 · ES IC = 128,8 ± 1,96 · 13,1 /

IC = 128,8 ± 25,67/23,8 IC = 128,8 ± 1,08 = 127,72 - 129,88

566

(18)

Variabile quantitativa vs qualitativa Statistica inferenziale

Test t di Student

(19)

Test t di Student

Serve per valutare le differenze tra due campioni o gruppi (cioè tra le loro medie), per esempio tra un gruppo a cui viene somministrato un farmaco e un gruppo di controllo a cui viene somministrato un placebo.

E’ necessario che i campioni siano distribuiti normalmente e che le varianze siano omogenee.

Si parte dal concetto che le medie dei due gruppi appartengano alla stessa popolazione (ipotesi nulla) nella speranza di poter dimostrare che questo non è vero.

In pratica si stima la probabilità che la differenza osservata tra le medie sia

dovuta al caso e se tale P è minore del 5%, allora affermiamo che le due

medie rappresentano campioni appartenenti a popolazioni diverse (e

quindi che il farmaco funziona).

(20)

Alfa = 5,5%; che è la probabilità di affermare che esiste differenza quando non c’è, ciò equivale a dire che la probabilità di commettere un errore nell’affermare che il campione non appartiene ai soggetti sani è >5%

Beta = 35%; che è la probabilità di affermare che non esiste differenza quando c’è, ciò equivale a dire che la probabilità di commettere un errore nell’affermare che il campione non appartiene ai soggetti malati è del 35%

Potenza = probabilità di affermare che c’è una differenza quando in realtà c’è (1-beta)

Curva a sx: distribuzione del Na in soggetti malati

Curva a dx: distribuzione del Na in soggetti sani

138 è il valore da analizzare

(media di un campione di soggetti sani).

(21)

Prima di introdurre il t-test è necessario riassumere le caratteristiche della Curva Normale o Gaussiana:

s μ Ζ x

2

σ μ x 2

e 1

2π σ

f(x) 1

y     

2

2

e 1

2π f(z) 1

y    z

Variabile Generica

Variabile Standardizzata Media = 0 SD = 1

Vediamo quali sono le sue proprietà fondamentali 1. Ha forma a campana

2. E’ simmetrica, avendo come asse di simmetria la retta x = m 3. Le due code tendono asintoticamente a zero

4. Oltre alla numerosità del campione, bastano soltanto altri due parametri per definirla in modo univoco e cioè la media (che coincide con la mediana) e la deviazione

standard, infatti per indicare una variabile aleatoria normale si usa la simbologia:

che si legge: “ la variabile aleatoria x si distribuisce normalmente con media m e varianza s2

X ~ N (m, s

2

)

(22)

La formula del test è data dal rapporto tra:

- la differenza delle due medie

Più è grande in valore assoluto tale differenza e più è ragionevole pensare che le due medie esprimano veramente campioni appartenenti a popolazioni diverse - l’errore standard della differenza delle medie

Questo valore esprime la dispersione dei due campioni.

Se la dispersione di ogni campione è piccola (e l’ES è quindi un valore basso), le due medie riassumono molto bene i dati della distribuzione del campione e, anche se (per esempio) differiscono di poco, possono ragionevolmente esprimere due popolazioni diverse

 

1 2

1 2

x x

t X X

ES

n n -2

1)s - (n 1)s

- S (n

aggregata Varianza

2 1

22 2 2

1 2 1

a

 

2 a2

1 a2 x

x n

S n

ES S

2

1

(23)

La distribuzione del t di Student ha una forma simmetrica, a campana (come la normale

standardizzata, ma con una dispersione maggiore).

Da quanto detto fino ad ora è evidente che non vi è una sola curva t ma esiste un’intera famiglia di

distribuzioni t, una per ogni grado di libertà.

Distribuzione t di Student per vari gradi di libertà (colori diversi)

Queste curve si ottengono ponendoci in condizioni di ipotesi nulla valida

(24)

Il 5% dell’area sottesa dalla curva (2,5% a dx + 2,5% a sx) si trova in corrispondenza di valori di t “elevati” (in valore assoluto), cioè > 2,06.

P(t) è una Funzione di probabilità.

(25)

GL P = 5% P = 1%

1 12,7062 63,6559

2 4,3027 9,9250

3 3,1824 5,8408

4 2,7765 4,6041

5 2,5706 4,0321

15 2,1315 2,9467

16 2,1199 2,9208

17 2,1098 2,8982

18 2,1009 2,8784

19 2,0930 2,8609

20 2,0860 2,8453

30 2,0423 2,7500

40 2,0211 2,7045

50 2,0086 2,6778

60 2,0003 2,6603

70 1,9944 2,6479

80 1,9901 2,6387

90 1,9867 2,6316

100 1,9840 2,6259

110 1,9818 2,6213

120 1,9799 2,6174

Tabella dei valori di t per vari GL in

corrispondenza di

P = 5% e P = 1%

(26)

Significato di t elevato (a)

Consideriamo una popolazione di 100 diabetici (con glicemia a digiuno tra 130 e 160 mg/dl) e misuriamo la glicemia a 2 gruppi di questa popolazione ognuno costituito da 20 soggetti, cambiando di volta in volta i gruppi (non la loro numerosità) .

A questi confronti corrisponderà un certo valore di t, che cambierà di volta in volta perche le medie dei due gruppi saranno sempre leggermente diverse.

Quindi avremo moltissimi confronti tra 2 gruppi scelti a caso nella stessa popolazione ai quali corrisponderanno tanti valori di t.

La distribuzione di questi valori di t sarà di tipo normale: molti valori saranno

vicino alla media e qualcuno sarà in valore assoluto più grande e vicino alle code.

Questa condizione di “ipotesi nulla valida” (stessa popolazione) genererà quindi solo pochi valori del test statistico al di sopra di una certa soglia (quella che

corrisponde al 5% dell’area, 2,5% della coda di dx e 2,5% della coda di sx).

Il valore del test statistico è “elevato” se supera questa soglia.

(27)

Eseguiamo ora una sperimentazione di un farmaco ipoglicemico.

Avremo quindi un gruppo di studio che assume il farmaco e uno di controllo che assume un placebo. L’ipotesi nulla è che il farmaco non funzioni e quindi che la glicemia a digiuno di questi due gruppi non sia diversa.

Calcoliamo il test t e se è “elevato” cioè se sottende un’area complessivamente del 5% (tra dx e sx) della funzione di probabilità costruita in condizione di ipotesi nulla valida,

concludiamo che c’è meno del 5% di probabilità di osservare dati maggiori del valore ottenuto dal test, se fosse vera l’ipotesi che il farmaco non ha effetto (H zero).

Per convenzione, se P (livello di significatività) è <5%, scartiamo l’ipotesi di inefficacia*

Significato di P: il valore P è la probabilità di ottenere un valore del test statistico uguale o maggiore di quello calcolato dai dati quando, in realtà, non c’è differenza tra i diversi

trattamenti.

Riassumendo

Se t è elevato, cioè se: t calcolato > t tabulato al 5% allora la probabilità di sbagliare nell’affermare che l’ipotesi nulla (H zero) è da rifiutare è <5% (P<0,05).

*In pratica, se t è elevato, la probabilità di essere “coerente” con la distribuzione ottenuta in condizione di ipotesi nulla è bassa e quindi i due campioni appartengono a popolazioni diverse

Significato di t elevato (b)

(28)

Confronto tra due campioni indipendenti

 

1 2

1 2

x x

t X X ES

 

1 2

2 2

1 2

a a

X X

t s s

n n

GL = n

1

+ n

2

- 2

2 - n n

1)s - (n 1)s

- S (n

aggregata Varianza

2 1

22 2 2

1 2 1

a

 

2 a2

1 a2 x

x

n

S n

ES S

2

1

 

La varianza aggregata viene anche chiamata stima combinata della varianza Se n1 = n2 allora la varianza aggregata è la media delle due varianze.

(29)

Esempio 1

Confronto tra alotano e morfina nella chirurgia a cuore aperto.

61 pazienti sono anestetizzati con alotano e mostrano un valore medio della pressione arteriosa minima di 66,9 mmHg (DS = 12,2). Altri 61 pazienti trattati con morfina mostrano invece un valore medio di 73,2 mmHg (DS = 14,4).

La differenza è statisticamente significativa ?

S

a2

= ½∙(

DS12

+

DS22

) = ½∙(12,2

2

+ 14,4

2

) = 178,1

2,607 61

178,1 61

178,1

66,9 -

t 73,2 

Il valore tabulato di t corrispondente a P = 0,05 è 1,980 e a P = 0,01 è 2,617.

Poiché │t│ = 2,607 > 1,980 possiamo rifiutare H zero (cioè che i due campioni provengano dalla stessa popolazione) con una probabilità di sbagliare inferiore al 5% (ma superiore all’1% perché │t│ = 2,607 < 2,617).

Possiamo quindi affermare che l’alotano determina in media una pressione arteriosa minima più bassa rispetto all’uso della morfina.

gdl = 120

(30)

Esempio 2

Livelli di glucosio in bambini con genitori diabetici.

25 bambini i cui genitori sono affetti da diabete di tipo II avevano un livello medio di glicemia a digiuno pari a 86,1 mg/dl, mentre 25 bambini i cui genitori non erano diabetici avevano un livello medio di glicemia a digiuno pari a 82,2 mg/dl.

Le relative DS erano 2,09 e 2,49.

La glicemia dei primi è significativamente superiore ?

Soluzione

(31)

S

a2

= ½∙(

D

s

12

+

D

s

22

) = ½∙(2,09

2

+ 2,49

2

) = 5,28

001 , 6 25

5,28 25

5,28

82,2

t 86,1 

 

con 48 gdl

Con 48 gdl t supera il valore di 2,011 solo il 5% delle volte e supera 2,682 solo l’1% delle volte, quando i due campioni sono estratti dalla stessa popolazione.

Visto che il t calcolato supera 2,682 possiamo dire che c’è meno dell’1% di

probabilità di ottenere un valore del test statistico uguale o maggiore di quello calcolato dai dati, se fosse vera l’ipotesi nulla.

Quindi i livelli di glicemia a digiuno dei bambini con genitori diabetici sono significativamente superiori.

Soluzione es. 2

(32)

Esempio 3

Una popolazione di pazienti con tumore al retto è sottoposta a due tipi di chirurgie.

Un gruppo di 137 pazienti viene operato con chirurgia laparoscopica e la media del loro BMI è pari a 26,4 con DS pari a 4,2; l’altro gruppo costituito da 112 pazienti viene

operato con chirurgica robotica ed ha un BMI medio pari a 24,6 con DS pari a 3,7.

Stabilire se la differenza tra le due medie è statisticamente significativa.

Si applica la tecnica degli IC della media al 95%.

Prima si calcolano i due ES:

ES lap = 4,2/√137 = 0,36 ES rob = 3,7/√112 = 0,35

La formula per calcolare l’IC della media al 95% è: m ± 1,96 · ES Quindi calcoliamo i due IC:

IC lap: 26,4 ± 1,96 · 0,36 range: 25,7 - 27,1 IC rob: 24,6 ± 1,96 · 0,35 range: 23,9 – 25,3

I due IC non si sovrappongono e quindi le due medie sono espressione di due

popolazioni diverse e la loro differenza è quindi statisticamente significativa (p<0,05).

Riferimenti

Documenti correlati

Testi degli esercizi.. I voti di un questionario di matematica vanno da 1 a 10, in funzione del numero di risposte esatte date dai candidati ad una serie di 10 domande. Il voto medio

Voglio una funzione che sia almeno continua con derivate prime e seconde; in ogni inter- vallo [x j−1 , x j ] chiedo che la funzione sia un polinomio di terzo grado. Nei punti

Voglio una funzione che sia almeno continua con derivate prime e seconde; in ogni inter- vallo [x j−1 , x j ] chiedo che la funzione sia un polinomio di terzo grado. Nei punti

Voglio una funzione che sia almeno continua con derivate prime e seconde; in ogni inter- vallo [x j−1 , x j ] chiedo che la funzione sia un polinomio di terzo grado. Nei punti

Nell’uso delle Tabelle 7.1 e 7.2 si può applicare direttamente questa proprietà indichando con z la distanza dalla media espressa in numero di deviazioni standard, piuttosto che

L’occorrenza di un nuovo evento puo’ essere considerato un esperimento tipo Bernoulli che genera solo due eventi incompatibili, tipo successo – insuccesso. (1-p) = probabilità di

Misure, indici (numerici) che descrivono le caratteristiche della di- stribuzione di una o pi` u variabili in modo sintetico. • indici di posizione o

Teorema - Sia data una popolazione numerica infinita di media µ e deviazione standard (scarto quadratico medio) σ da cui ven- gono estratti dei campioni casuali formati ciascuno da