Inferenza statistica classica
Maria Piera Rogantin
DIMA – Universit`a di Genova – rogantin@dima.unige.it BiostAT 2014
Asti 1-2 luglio 2014
PARTE 1
Introduzione all’inferenza
Introduzione
Situazioni concrete:
singolo risultato incerto – esito a lungo termine prevedibile.
Per lo studio di un fenomeno che manifesta casualit`a, `e neces- saria l’osservazione ripetuta dello stesso fenomeno nelle identiche condizioni.
Identiche condizioni:
i fattori controllabili assumono le stesse caratteristiche;
i fattori non controllabili possono essere differenti e generano la casualit`a del fenomeno.
Le regolarit`a evidenziate dai fenomeni casuali ripetuti sono l’oggetto di studio della teoria della probabilit`a.
La probabilit`a permette di introdurre un modello teorico della variabilit`a per prevedere il comportamento in casi non esaminati.
• Raccolta dati o simulazione esperimento e sintesi delle infor- mazioni (grafici e indici)
• Valutazione delle probabilit`a in base alle frequenze osservate.
L’osservazione parziale pu`o esser insita nel problema concreto:
- limitazioni per problemi di costi (tempo e denaro) - sondaggi e elezioni
- esperimenti invasivi (industriali, farmaceutici) - previsioni temporali
Finalit`a: costruzione di un modello probabilistico - che parta dall’esperienza,
- consistente formalmente
- capace di descrivere i fenomeni
- capace di valutare le inevitabili approssimazioni commesse nel passaggio dalle informazioni parziali dei dati osservati a conside- razioni sull’intera popolazione o sull’intero fenomeno.
Fidarsi dell’esperienza e Legge dei grandi numeri
X1, X2, ..., Xn variabili aleatorie indipendenti con stessa distribuzione in particolare: uguale media µ e uguale varianza σ2.
Variabile aleatoria media campionaria:
Xn = 1 n
n X i=1
Xi con: media di Xn = µ varianza di Xn = σ2 n Legge dei grandi numeri
Se la numerosit`a n tende all’infinito, la probabilit`a che Xn assuma valori al di fuori dell’intervallo
(µ − δ, µ + δ)
tende a 0, qualunque sia la semiampiezza δ dell’intervallo.
Pi`u precisamente P|Xn − µ| > δ → 0 se n → ∞
Utilizzo: tante pi`u prove si fanno, tanto pi`u la valutazione della media µ di X fatta sulla base dell’esperienza avr`a una probabilti`a
Campionamento e stima
Come passare dalle informazioni su un campione a considerazioni su una popolazione o su un fenomeno,
valutando in termini probabilistici gli errori che si commettono?
Primo obiettivo: stimare i parametri di variabili aleatorie che modellano un fenomeno/caratteristica sull’intera popolazione.
ESEMPIO
Si vuole conoscere se il livello del piombo nel sangue degli abitanti di una zona sia al di sotto di una certa soglia.
Si esegue il test solo su alcuni abitanti e si usano i risultati per fare una previsione su tutti.
Non si pu`o essere sicuri dell’esattezza della previsione ma si pu`o giustificarla in senso probabilistico se scegliamo gli abitanti se- condo certe modalit`a.
• Come scegliere il campione? Come stimare l’errore?
• Come definire un intervallo entro il quale si trova, con una certa probabilit`a, il livello medio di piombo dell’intera zona.
• Come sapere quanto il valore medio ottenuto dal campione `e effettivamente vicino al valore medio reale?
Popolazioni e campioni
Esempi di popolazioni sono l’insieme di tutti gli abitanti di una citt`a o di una regione, l’insieme degli studenti iscritti a un corso di laurea, un prodotto alimentare venduto in una determinata regione geografica.
E importante selezionare un campione in modo corretto, cio`` e in modo che sia
• Rappresentativo della popolazione (se, ad esempio, si vuole studiare il prezzo medio di un prodotto non si pu`o avere un campione formato solo da supermercati, senza piccoli ne- gozi);
• Formato da elementi fra di loro indipendenti (Esempio. Va- riabile: pressione sanguigna. Popolazione: abitanti di una regione. Campione: no solo ricoverati in ospedale).
Tecniche di campionamento: molte
Qui: campioni scelti casualmente con probabilit`a uniforme sull’intera popolazione.
Schema del procedimento quando la popolazione `e finita Popolazione di numerosit`a N e campione di numerosit`a n.
Possiamo immaginare (ma non sempre `e realistico) che gli ele- menti della popolazione abbiano una etichetta e che da un’urna con N palline con le etichette se ne estraggano n con reintro- duzione.
Ipotesi di reintroduzione: non del tutto ragionevole, ma garan- tisce l’indipendenza e semplifica i calcoli. Se N >> n poca dif- ferenza.
Errore campionario: differenza fra i valori ottenuti nel campione e il corrispondente parametro della variabile definita sull’intera popolazione.
Valutazione dell’errore sulla base di considerazioni probabilistiche, utilizzando le conoscenze sulla distribuzione degli elementi del
Esempi di parametri su cui fare inferenza
• media (o valore atteso) µ di una caratteristica quantitativa, ad esempio:
- raccolto medio di una nuova specie ibrida di cereali - tempo medio di funzionamento di lampadine
- durata media in giorni di una malattia
- quantit`a media di vitamine conservate in un prodotto in- dustriale
- concentrazione media di alga tossica nel mare
• frequenza relativa (o proporzione) p di una caratteristica che assume due possibili valori, ad esempio:
- frequenza di ovulazione di un ovaio sottoposto a cure per problemi all’endometrio
- frequenza di guarigioni in un tempo prefissato da una data malattia
• varianza σ2 di una caratteristica quantitativa, ad esempio:
- precisione nella produzione di pezzi con fissate specifiche Confronto fra parametri: differenza di medie e frequenze, rap- porto di varianze
Stima puntuale
Consideriamo una variabile aleatoria X che modella una caratte- ristica della popolazione che si vuole analizzare.
ESEMPIO. Stima della media della pressione arteriosa sistolica (mmHg) X nella popolazione di riferimento. Campione di 8 in- dividui, la cui pressione `e:
x1 x2 x3 x4 x5 x6 x7 x8
126 128 133 136 126 129 131 135 Scelta dello stimatore – due fra i possibili:
- media campionaria: X = X1+X2n+···+Xn
- valore centrale dell’intervallo dei valori assunti nel campione:
T = max(X1 + X2 + · · · + Xn) + min(X1 + X2 +· · · + Xn) 2
Stime: x = 130 e t = 131.
Quale stimatore scegliere?
Quali sono i possibili campioni estraibili da una popolazione?
Quali sono i valori e le corrispondenti probabilit`a dello stimatore X media campionaria?
ESEMPIO
Popolazione di 4 individui A, B, C, D. Campioni di numerosit`a 2.
Nella pratica, solo un campione sar`a estratto!
Pressione arteriosa sistolica (mmHg) di questi 4 individui:
A B C D
125 129 131 133 valori di una variabile X.
A ciascun valore assegnamo probabilit`a 14.
Abbiamo l’intera popolazione: µ = 125+129+131+133
4 = 129.5.
Ottica di chi vuole stimare µ senza avere le informazioni su tutta la popolazione ma solo quelle di un campione di numerosit`a 2.
Stima della media della popolazione con la media empirica cal- colata sul campione.
A fianco tutti i campioni e le cor- rispondenti stime della media per capire
- quali sono i possibili campioni, - i possibili valori per lo stimatore, - le corrispondenti probabilit`a.
Nella situazione reale: un solo campione.
campione X1 X2 X
AA 125 125 125
AB 125 129 127
AC 125 131 128
AD 125 133 129
BA 129 125 127
BB 129 129 129
BC 129 131 130
BD 129 133 131
CA 131 125 128
CB 131 129 130
CC 131 131 131
CD 131 133 132
DA 133 125 129
DB 133 129 131
DC 133 131 132
DD 133 133 133
Possibili valori dello stimatore X e corrispondenti probabilit`a
x 125 127 128 129 130 131 132 133
P (X = x) 1/16 2/16 2/16 3/16 2/16 3/16 2/16 1/16 dove sta la casualit`a?
perch´e diciamo che X `e una variabile aleatoria?
la casualit`a sta nell’estrarre a caso un campione e nell’ottenere uno dei possibili valori con una determinata probabilit`a
Osservazione: con nessun campione si ottiene una stima di µ uguale alla media effettiva.
MA stime ”lontane” da 129.5 sono per`o in numero minore delle stime ”vicine”.
Distribuzione campionaria di X e suo valore atteso
125 126 127 128 129 130 131 132 133
0.06 0.08 0.10 0.12 0.14 0.16 0.18
E(X) = 125+2×127+2×128+3×129+2×130+3×131+2×132+131
16 = 129.5
X `e centrata nel valore del parametro che vuole stimare.
Propriet`a generale – non dipende dai particolari valori dell’esempio.
Propriet`a degli stimatori
Uno stimatore T di un parametro θ `e
• non distorto o centrato se E(T ) = θ.
• consistente se `e non distorto e la sua varianza tende a zero quando la numerosit`a del campione tende all’infinito.
Due stimatori di θ
0 2 4 6 8 10
0.00.20.40.60.81.0
0 2 4 6 8 10
0.00.20.40.60.81.0
θ
non sempre la non distorsione `e - da sola - una buona propriet`a
Alcuni stimatori
Stimatore del valore atteso µ di una variabile aleatoria X Nella popolazione E(X) = µ e V(X) = σ2
Stimatore Xn con E(X) = µ e varianza V(X) = σn2 X `e stimatore di µ non distorto e consistente
Stimatore della frequenza p di una variabile a valori 0 e 1 Nella popolazione X vale 1 con prob. p e 0 con prob. 1 − p Stimatore di p: frequenza (relativa) di successi nel campione:
P =ˆ 1 n
n X i=1
Xi = Xn con E( ˆP ) = p V( ˆP ) = p(1 − p) n
Variabile aleatoria media campionaria standardizzata:
Zn = X − µ
√σ n
con: media di Zn = 0 varianza di Zn = 1
Il teorema del limite centrale
Se la numerosit`a n tende all’infinito, Zn ”tende” ad avere una distribuzione normale di media 0 e varianza 1.
La funzione di distribuzione cumulata di Zn, calcolata in ogni punto t, quando n tende all’infinito, tende alla funzione di dis- tribuzione cumulata di N calcolata in t, con N variabile aleatoria normale standardizzata.
Utilizzo: qualunque sia la distribuzione di una v.a. X, la funzione di distribuzione cumulata di X si pu`o approssimare con quella di una v.a. normale (con stessa media e varianza di X) e tale approssimazione `e tanto migliore quanto pi`u grande `e n.
PARTE 2
Intervalli di confidenza
Intervalli di confidenza
intervallo nel quale ci aspettiamo stia il parametro da stimare con un elevato grado di fiducia.
”fiducia” assegnata in termini probabilistici
1 − α livello di significativit`a (o livello di confidenza).
(livelli usuali 95% o il 99% ... ma non solo)
Intervalli di confidenza per la media µ
Tramite un campione di numerosit`a n:
• Stima puntuale di µ: x
(valore assunto dallo stimatore X nel campione
• Intervallo di confidenza per µ
a livello di significativit`a di 1 − α:
X − δ , X + δ
con δ tale che PX − δ < µ < X + δ = 1 − α
La probabilit`a di sbagliare `e α (tipicamente 5%, 1% – bassa) E un intervallo aleatorio (cercheremo di capire dopo)`
La realizzazione campionaria `e:
(x − δ, x + δ)
Come si calcola δ?
che cosa vuol dire che `e un intervallo aleatorio?
E necessario conoscere la distribuzione di probabilit`` a di X
... ma non basta.
- o si conosce la distribuzione della v.a. X che modella il fenomeno;
- o si usa il teorema del limite centrale
Se X ha distribuzione normale X ∼ N (µ, σ) allora X ∼ N µ, σ
√n
!
ovvero Z = X − µ
√σ n
∼ N (0, 1)
0.95 = P X − δ < µ < X + δ
= P
µ − δ < X < µ + δ
CASO X ∼ N (µ, σ) con σ = 2 noto
n = 9 0.0
0.10.20.30.40.50.60.00.10.20.30.40.50.6
µ − δ µ µ + δ
X ∼ N µ, 2
√9
!
1 − α = P µ − δ < X < µ + δ
= P µ − δ − µ
√σ n
< X − µ
√σ n
< µ + δ − µ
√σ n
!
= P − δ
√σ n
< Z < δ
√σ n
!
⇒ δ
√σ n
= z1−α/2 ⇒ δ = z1−α/2 σ
√n
0.00.10.20.30.40.50.60.00.10.20.30.40.50.6
µ − δ µ µ + δ
0.00.10.20.30.40.50.60.00.10.20.30.40.50.6
−1.96 0 1.96
Z ∼ N (0, 1) X ∼ N (µ, σ/√ n)
Int. di confidenza per µ: X − z1−α/2 σ
√n, X + z1−α/2 σ
√n
!
Notazione: za, ta quantile a-esimo, come usato nei software, ad esempio in R
Realizzazione dell’intervallo di confidenza per µ nel campi- one:
x − z1−α/2 σ
√n, x + z1−α/2 σ
√n
!
Non sappiamo se µ nella popolazione appartenga o no effetti- vamente a questo intervallo, i cui limiti sono calcolati usando il valore campionario x.
Con un’altra stima puntuale per la media, proveniente da un altro campione, avremmo avuto anche un diverso intervallo di confidenza.
Fra tutti i possibili intervalli di confidenza costruiti in questo modo sulla base di tutti i possibili campioni, il 95% contiene la media di X nella popolazione e il 5% non la contiene
Simulazione per 50 campioni
- numerosit`a n = 80 - varianza σ2 = 4
- livello di signifcativit`a 1 − α = 95%
x − 1.96 2
√80, x + 1.96 2
√80
!
µ
4 campioni non contengono la media vera, l’8%
CASO X ∼ N (µ, σ) con σ sconosciuto
Si stima la varianza con S2 = 1
n−1 Pn
i=1
Xi − X2 e si considera la variabile t di Student
X − t1−α/2 S
√n, S + t1−α/2 S
√n
!
Stessa simulazione prece- dente ma σ `e stimato
x − 1.96 s
√80, x + 1.96 s
√80
!
µ
CASO X con distribuzione qualsiasi
• Si calcola esplicitamente la distribuzione dello stimatore
• Si utilizza l’approssimazione normale garantita dal Teorema del Limite Centrale se la numerosit`a del campione `e
“grande”
E meglio un livello di significativit`` a del 95% o del 99%?
Livello del 99%:
• probabilit`a di errore pi`u piccola
• ampiezza dell’intervallo pi`u grande
z0.950 = 1.64 z0.975 = 1.96 z0.995 = 2.58
0.95 0.99 0.90
Quello che si guadagna in precisione si perde in ampiezza Nell’esempio precedente con σ = 2 e n = 80, se x = 2.5:
- al 90% si ha δ = 0.37 I.d.c. (1.92, 3.08) - al 95% si ha δ = 0.44 I.d.c. (2.06, 2.94)
Esempio: pressione sanguigna su popolazione di 4 individui
Distribuzione campionaria di X
125 126 127 128 129 130 131 132 133
0.06 0.08 0.10 0.12 0.14 0.16 0.18
Fissato α = 15%
(i dati sono pochi, bisogna aumentare α)
si trova δ = 2.6.
Infatti
P µ − δ < X < µ + δ
> 85%
P 129.5 − 2.6 < X < 129.5 + 2.6
= P 126.9 < X < 132.1
= 14/16 = 0.87%
x 125 127 128 129 130 131 132 133
P (X = x) 1/16 2/16 2/16 3/16 2/16 3/16 2/16 1/16
Quali possibili intervalli di confidenza e con quale probablit`a?
x intervallo di confidenza probabilit`a di ottenerlo contiene µ
125 (122.4, 127.6) 1/16 NO
127 (124.4, 129.6) 2/16
128 (125.4, 130.6) 2/16
129 (126.4, 131.6) 3/16
130 (127.4, 132.6) 2/16
131 (128.4, 133.6) 3/16
132 (129.4, 134.6) 1/16
133 (130.4, 135.6) 1/16 NO
NOTA: anche in questo caso nella pratica ho UN solo intervallo di confidenza perch´e ho Un solo campione
Altri modelli
• X ∼ N (µ, σ), σ sconosciuto, i.d.c. per µ
• X ∼ N (µ, σ), µ noto o sconosciuto, i.d.c. per σ2
• X ∼ Bernoulli(p) approssimato, i.d.c. per p
• X con legge qualsiasi, con n grande, i.d.c. per µ
• X ∼ Poisson(λ), X ∼ Exp(λ),X ∼ Bernoulli(p)... si possono fare calcoli espliciti
I.d.c. approssimati per la frequenza relativa p di una caratteristica qualitativa dicotomica
Stimiamo p con ˆP , calcolato su un campione di numerosit`a n:
P =ˆ X1 + X2 + · · · + Xn n
P `ˆ e una media campionaria di v.a. X1, X2, . . . , Xn che valgono 1 con proba- bilit`a p oppure 0 con probabilit`a 1 − p e con
E(Xi) = p e V(Xi) = p(1 − p)
Distribuzione di ˆP ? Se n `e elevato si utilizza il teorema del limite centrale. Approssimativamente:
P ∼ Nˆ
p,
sp(1 − p) n
V( ˆP ) sconosciuta; pu`o essere stimata tramite ˆP da: S2ˆ
P = P (1− ˆˆ P )
n−1
Realizzazione campionaria di un i.d.c per p, a livello 1 − α:
p − zˆ 1−α/2
sp(1 − ˆˆ p)
, ˆp + z1−α/2
sp(1 − ˆˆ p)
oppure t1−α/2
Esempio
Intervallo di confidenza a livello di significativit`a del 95% per la frequenza (relativa) di ovulazione di un ovaio sottoposto a cure per problemi all’endometrio.
In un campione di 190 donne si trova che 89 hanno avuto l’ovulazione dal lato sottoposto a cure:
p = 89/190 = 46.8%ˆ
Realizzazione campionaria di un i.d.c per la frequenza nella popo- lazione `e:
0.468 − 1.96
r0.468 · (1 − 0.468)
189 , 0.468 + 1.96
r0.468 · (1 − 0.468) 189
!
=
(0.397, 0.540)
PARTE 3
Test Parametrici
Introduzione alla verifica di ipotesi su parametri
Atteggiamento diverso dalla stima dei parametri ma modello probabilistico simile
Esempi di situazioni riconducibili a verifica di ipotesi su parametri.
- il raccolto di una nuova specie ibrida di grano `e superiore a quello di una specie comune?
- un nuovo tipo di lampadine ha una durata di funzionamento maggiore di quelle tradizionali?
- un nuovo prodotto farmaceutico riduce il numero di giorni di malattia rispetto a uno tradizionale?
- un metodo di conservazione dei cibi `e migliore di un altro relativamente alla conservazione delle vitamine?
- un macchinario continua a produrre pezzi rispettando certe specifiche?
- la concentrazione di alga tossica nel mare `e tale da destare preoccu- pazione?
- l’ovaio sottoposto a cure per problemi all’endometrio, continua ad ovulare come l’altro?
Esempio
Farmaco che dovrebbe ridurre un certo tipo di eczema.
Ricerche precedenti hanno mostrato il 40% dei topi di una certa specie affetti dall’eczema sono liberi da sintomi in 4 settimane.
Riteniamo il farmaco efficace se pi`u del 40% dei topi sono senza sintomi in 4 settimane.
Due popolazioni:
- la prima topi non trattati (il 40% guarisce in 4 settimane)
- la seconda di topi di cui a un campione `e somministrato il farmaco.
Numerosit`a n del campione della seconda popolazione p frequenza relativa di topi senza sintomi
Formuliamo l’ipotesi che il farmaco non abbia effetto p = 0.40 (sembra non naturale ...).
Formulazione delle ipotesi
Due ipotesi:
H0 ipotesi principale o ipotesi nulla H1 ipotesi alternativa
Atteggiamento: si rimane convinti della conoscenza/supposizione di partenza (l’ipotesi principale) a meno che non si abbiano forti evidenze sperimentali per negarla
Esempi:
- farmaco H0: p = 0.4 e H1: p > 0.4
- lampadine H0: µ = 1400 e H1: µ 6= 1400 - macchinario H0: σ2 ≥ σ02 e H1: σ2 < σ02 Ipotesi semplice o composta:
- H0: p = 0.4 semplice - H0: σ2 ≥ σ02 composta
Il modello statistico
La statistica test T : funzione delle osservazioni campionarie (pu`o essere uno stimatore) di cui `e nota la distribuzione quando sia conosciuto il valore del parametro.
Il test `e una regola di decisione
Si suddivide lo spazio dei possibili valori assunti dalla statistica test in due regioni disgiunte, A0 e R0, e si accetta o si rifiuta l’ipotesi principale a seconda che il valore ottenuto nel campione appartenga alla prima o alla seconda.
Il livello del test
Atteggiamento: si rimane convinti della conoscenza/supposizione di partenza (l’ipotesi principale) a meno che non si abbiano forti evidenze sperimentali per negarla
Livello del test α: probabilit`a dell’errore che si commette rifiu-
La regione di rifiuto dell’ipotesi principale H0: θ = θ0
P (T ∈ R0|H0 vera) = α
0.00.20.40.00.20.40.00.20.4
c1 θ c2
0.00.20.40.00.20.4
c1 θ
0.00.20.40.00.20.4
θ c2
0.000.100.200.000.100.200.000.100.20
c1 c2
0.000.100.200.000.100.20
c1
0.000.100.200.000.100.20
c2
H1 : θ 6= θ0
Test bilaterale
R0 = (−∞, c1) ∪ (c2, ∞)
H1 : θ < θ0
Test unilaterale sinistro R0 = (−∞, c1)
H1 : θ > θ0
Test unilaterale destro R0 = (c2, ∞)
Esempio: X modella la concentrazione di alga tossica
Assumiamo (attenzione!): X ∼ N (µ, σ) e σ noto quindi X ∼ N
µ, √σ
n
Livello di allerta se µ > 10000 cellule/litro
H0 : µ ≥ 10000 H1 : µ < 10000
Poniamo: α = 5%. Se si rifiuta H0 si pu`o fare il bagno con probabilit`a di conseguenze del 5%.
Campione di numerosit`a 10.
Costruzione del test in tre passi:
1. H0 : µ=10000 H1 : µ= 8500 2. H0 : µ=10000 H1 : µ<10000 3. H0 : µ≥10000 H1 : µ<10000
Si suppone H0 vera: X ∼ N (10000, 2100/√
10)
R0 = (−∞, x0.05) tale che α = 0.05 = Px0.05 < X|µ = 10000 con R: x0.05 = 8908
mu0=10000;std=2100/sqrt(10) c1= qnorm(.05,mu0,std);c1
Se si ha un valore sperimentale minore di 8908 si rifiuta H0 con probabilit`a di aver preso la decisione sbagliata del 5%
E se si trova un valore sperimentale maggiore di 8908?
Se H1 : µ = 8500
β = P x0.05 < X|µ = 8500 con R: β = 27%
mu1=8500;1-pnorm(c1,mu1,std)
si accetta H0 con probabilit`a di aver preso la decisione sbagliata del 27%
10000
8500 H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
10000
8500 H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
Errore di prima specie e errore di seconda specie
DECISIONE PROBABILIT `A
H0 accettata H0 rifiutata H0 accettata H0 rifiutata H1 rifiutata H1 accettata H1 rifiutata H1 accettata H0 vera
corretta sbagliata 1 − α α
H1 falsa H0 falsa
sbagliata corretta β 1 − β
H1 vera
α = Prob(rifiutare H0|H0 vera) = Prob. errore di prima specie β = Prob(rifiutare H1|H1 vera) = Prob. errore di seconda specie
Propriet`a di un buon test:
la probabilit`a di prendere la decisione sbagliata `e inferiore alla probabilit`a di prendere la decisione giusta:
α < 1 − β oppure β < 1 − α ⇒ α + β < 1
Caso
H0 : µ=10000 H1 : µ<10000 R0 non cambia
(`e calcolata “sotto” H0)
Cambia la probabilit`a dell’errore di seconda specie β.
Diventa una funzione di µ1 10000
H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
Caso
H0 : µ≥10000 H1 : µ<10000 Mantenendo la stessa R0
la probabilit`a dell’errore di prima specie diventa < α
La probabilit`a dell’errore di seconda specie β `e la stessa del caso prece- dente.
10000
H accettata - H rifiutata H accettata - H rifiutata1 0 0 1
Il p-value – Un altro modo per decidere
probabilit`a sotto H0 di ottenere un valore campionario “pi`u lon- tano” da H0 e “pi`u vicino” a H1 di quello ottenuto, x
oppure
livello del test se la soglia di R0 fosse x
H0 : µ = µ0 nell’esempio: µ0 = 10000 x = 9000 H1 : µ < µ0
H1 : µ > µ0
H1 : µ 6= µ0
10000 9000
10000 9000
10000 11000
9000
p(9000) = 0.066
pnorm(9000,mu0,std)
p(9000) = 0.934
1-pnorm(9000,mu0,std)
p(9000) = 0.132
2*pnorm(9000,mu0,std)
La potenza di un test P (θ)
E la probabilit`` a di accettare l’ipotesi alternativa H1 al variare del parametro θ
- Θ0 insieme a cui appartiene θ quando H0 `e vera - Θ1 insieme a cui appartiene θ quando H1 `e vera
- Se θ ∈ Θ1, P (θ) probabilit`a di scelta corretta: P (θ) = 1 − β(θ) - Se θ ∈ Θ0, P (θ) probabilit`a di scelta sbagliata: P (θ) ≤ α(θ)
Esempio alga tossica H0 : µ ≥ 10000
H1 : µ < 10000
Θ0 = (10000, +∞) Θ1 = (−∞, 10000)
P (µ) = PX < x0.05 | µ ∈ R 0
1
α
10000 8500
1-β(8500)
Potenza e numerosit`a campionaria
La probabilit`a di accettare H1, quando `e vera, aumenta all’aumentare della numerosit`a campionaria.
Se i valori del parametro sotto H1 e sotto H0 sono molto vicini, solo con grandi campioni si riesce ad avere una probabilit`a alta di effettuare la scelta corretta.
Potenza del test H0 : µ ≥ 10000 H1 : µ < 10000 n = 10 rosso n = 20 blu
0 1
α0 1
α
La potenza per test unilaterali e bilaterali
Unilaterale:
P (µ) = PX < x0.05 | µ ∈ R Bilaterale:
P (µ) = PX < x0.025 | µ ∈ R + P X > x0.975 | µ ∈ R
rosso – unilaterale H0 : µ ≥ 10000
H1 : µ < 10000 blu – bilaterale H0 : µ = 10000 H1 : µ 6= 10000
0 1
α
10000
mu=seq(7000,13000);c1_u=qnorm(.05,mu0,std);p=pnorm(c1_u,mu,std) c1_b=qnorm(.025,mu0,std);c2_b=qnorm(.975,mu0,std)
p_b=pnorm(c1_b,mu,std)+1-pnorm(c2_b,mu,std)
Numerosit`a campionaria n fissati α e β
H0 : µ = µ0 H1 : µ = µ1 con µ1 < µ0 ⇒ R0 = (−∞, s)
α = P X < s|µ = µ0
= P
X − µ0
σ/√
n < s − µ0
σ/√ n
= P
X − µ0
σ/√
n < zα
β = P X > s|µ = µ1
= P
X − µ1
σ/√
n > s − µ1
σ/√ n
= P
X − µ1
σ/√
n > z1−β
Da s−µ0
σ/√
n = zα e s−µ1
σ/√
n = z1−β = −zβ si ottiene:
n =
zα + zβ2 σ2
(µ0 − µ1)2
Vale anche nel caso µ1 > µ0.
n deve essere tanto maggiore quanto pi`u:
- `e minore la distanza fra i valori attesi sotto le due ipotesi;
- `e maggiore la varianza;
- sono minori i due errori (e quindi z e z maggiori)
Confronto fra intervalli di confidenza e test I.d.c a livello 1 − α. Test a livello α
X ∼ N (µ, σ), σ noto Parametro di interesse µ Bilaterale:
δB = z1−α/2 σ
√n
L’intervallo di confidenza `e centrato in x, A0 `e centrato in µ0.
( µ )
( x
A) ( x
B)
0
Test Unilaterale sinistro e I.d.c. destro:
δU = z1−α σ
√n
A0 = (µ0−δU, ∞) I.d.c. sinistro per µ: (∞, µ0+δU) Il test unilaterale si pu`o confrontare con l’i.d.c
bilaterale a livello 1 − 2α
x
A( µ
)
0
) (
Osservazioni: a) δU < δB (i disegni sopra non sono in scala)
b) δ `e uguale per i.d.c. e test (non cos`ı per inferenza su parametro p)
Test multipli e correzioni per molteplicit`a
In molte situazioni sperimentali, sugli stessi dati, si effettuano pi`u test con ipotesi principali
H0(1), H0(2), . . . , H0(K)
1 − α = Prob(accettare H0(i) |H0(i) vera). Poniamo α = 0.05
K = 2
Probabilit`a di accettare entrambe le ipotesi (se indipendenti) quando vere:
(1 − α)2 = 0.952 = 0.90
Probabilit`a di rifiutare almeno una delle due ipotesi quando vere:
1 − (1 − α)2 = 1 − 0.952 = 0.10 K = 20
Probabilit`a di accettare tutte le 20 ipotesi quando vere:
(1 − α)20 = 0.9520 = 0.36
Probabilit`a di rifiutare almeno una delle 20 ipotesi quando vere:
1 − (1 − α)20 = 1 − 0.9520 = 0.64 α
Correzione di Bonferroni
E una possibile. Varie altre sono state sviluppate.`
Il livello di significativit`a di ciascuno dei K si pone a α/K Nei casi precedenti:
K = 2. Probabilit`a di rifiutare almeno una delle due ipotesi quando vere:
1 − (1 − (0.05/2))2 = 0.0493
K = 20. Probabilit`a di rifiutare almeno una delle 20 ipotesi quando vere:
1 − (1 − (0.05/20))20 = 0.0488
Di conseguenza il p-value ottenuto su un singolo test viene molti- plicato per K per essere confrontato con α.
Altri modelli
• su un campione
– X ∼ N (µ, σ), σ sconosciuto, test per µ
– X ∼ N (µ, σ), µ noto o sconosciuto, test per σ2 – X ∼ Bernoulli(p) approssimato, test per p
– X con legge qualsiasi, con n grande
– X ∼ Poisson(λ), X ∼ Exp(λ), X ∼ Bernoulli(p)... si pos- sono fare calcoli esatti
• su due campioni
– X1 ∼ N (µ1, σ1) e X2 ∼ N (µ2, σ2):
∗ test per µ1 − µ2
· su due diverse popolazioni
· sulla stessa popolazione
∗ test per σ12/σ22
– X1 ∼ Bernoulli(p1) e X2 ∼ Bernoulli(p2), test per p1 − p2 – Poisson, Esponenziale, Gamma, ...
Test per la frequenza relativa p
Esempio: eczema nei topi (continua)
Dopo 4 settimane: H0: p ≥ 0.40 e H1: p > 0.40
In un campione di 25 topi trattati con il nuovo farmaco: ˆp = 0.45 Supponiamo H0 vera. Fissiamo α = 5%. Approssimativamente
P ∼ Nˆ 0.40,
r0.40 0.60 25
!
Regione di rifiuto di H0: p-value di 0.48:
(p0.95, 1) = (0.56, 1)
con p0.95 quantile 95-simo di una N (0.40, 0.098)
con R: con R:
> qnorm(0.95,0.40,sqrt(0.4*0.6/25)) > 1-pnorm(0.48,0.40,sqrt(0.4*0.6/25))
[1] 0.5611621 [1] 0.2071081
Non c’`e evidenza sperimentale per rifiutare H0
Test per l’uguaglianza delle medie di due v.a. Normali
Esempio: XF e XS modellano la riduzione del colesterolo nel sangue, con un nuovo farmaco e con un farmaco standard.
XF ∼ N (µF, σF) XS ∼ N (µS, σS)
Si vuole verificare: H0 : µF = µS e H1 : µF < µS ovvero H0 : µF − µS = 0 e H1 : µF − µS < 0
nF e nS numerosit`a dei due campioni indipendenti di XF e XS. XF ∼ N µF, σF
√nF
!
XS ∼ N µS, σS
√nS
!
Consideriamo
XF − XS ∼ N
µF − µS,
v u u t
σF2
nF + σS2 nS
Test sulla media di una v.a. con distribuzione normale.
1. Le varianze σF2 e σS2 sono note
Fissato α si effettua il test nel modo usuale.
2. Le varianze σF2 e σS2 sono sconosciute
Stimate con gli stimatori non distorti SF2 e SS2
Si suppone σS2 = k σF2 con k noto.
Uno stimatore non distorto di V XF − XS
`e:
S2 = k(nF − 1)SF2 + (nS − 1)SS2
k (nF + nS − 2) · knF + nS nF nS Inoltre
XF − XS
− (µF − µS)
S ∼ td con d = nF + nS − 2 In particolare se σS2 = σF2 e nF = nS = n,
S2 = SF2 + SS2
/n e d = 2n − 2
Fissato α si effettua il test nel modo usuale.
Confronto tra due trattamenti (Mauro Gasparini)
Il confronto fra un nuovo trattamento T e un trattamento stan- dard S si basi su un parametro θ (misura teorica di confronto da stimare)
Per esempio: θ = πT − πS
πT e πS: prob. di malattia sotto il trattamento e sotto lo standard Altro esempio: θ = µS − µT
µT e µS: quantit`a medie di un anticorpo (favorevole) sotto T e sotto S (pi`u grande `e meglio `e)
Pi`u piccolo `e θ, pi`u T risulta migliore di S.
-
θ valore neutro0
T migliore S migliore
Θ stimatore di θˆ
Supponiamo per semplicit`a Θˆ ∼ N (θ, σΘˆ) con σΘˆ noto
1. Test di superiorit`a
Una prova clinica di superiorit`a `e spesso formulata come test per le ipotesi
H0 : θ = 0 (eguaglianza degli effetti) H1 : θ < 0 (superiorit`a del trattamento) Test unilaterale sinistro a livello α
A0 = (z1−ασΘˆ, ∞) Si rifiuta H0 se ˆθ non appartiene a A0.
Intervallo di confidenza bilaterale per θ di livello 1 − 2α
θ − zˆ 1−2ασΘˆ, ˆθ + z1−2ασΘˆ Si rifiuta H0 se non contiene lo 0
( )
0
)
( ^ θ
2. Noninferiorit`a ed equivalenza
Supponiamo che non si richieda che T sia superiore a S, ma solo che sia equivalente.
In prove cliniche ci sono due casi importanti:
• dimostrare che un farmaco completamente nuovo d`a risul- tati non peggiori di una terapia standard. Se il farmaco nuovo fosse, per esempio, meno tossico dello standard, al- lora sarebbe utile dimostrarne la non inferiorit`a rispetto allo standard;
• dimostrare che una nuova formulazione di un farmaco for- nisce al corpo umano la stessa quantit`a di sostanza attiva di una formulazione standard. Tale dimostrazione di equa biodisponibilit`a pu`o indurre le autorit`a sanitarie, sotto certe condizioni, ad autorizzare l’uso di un farmaco generico (o equivalente) in sostituzione di un farmaco brevettato.
3. Noninferiorit`a come test e come intervallo di confidenza
Concentriamoci prima sulla non inferiorit`a: occorre stabilire un margine di equivalenza ∆ tale che, se θ < ∆, allora T e S sono equivalenti, o simili.
H0 : θ ≥ ∆ (superiorit`a dello standard)
H1 : θ < ∆ (non inferiorit`a del trattamento).
Non si confronta pi`u θ con 0 ma con ∆ con ∆ > 0.
La regola di decisione opportuna `e la seguente:
Si dichiara l’equivalenza se l’intervallo di confi- denza di livello 1 − 2α `e interamente contenuto nell’intervallo di equivalenza (−∞, ∆)
0
) ( ^ θ
∆
Il problema della equivalenza `e formulato in termini di test di ipotesi, ma `e risolto con tecniche di stima. Pensare in termini di stima chiarisce il fine del problema ed aiuta a formulare corretta- mente l’ipotesi che si vuole dimostrare.
Scelta del margine di equivalenza
La scelta del margine di equivalenza ∆ `e cruciale.
In un contesto di prove cliniche, per esempio, con una catena di prove di equivalenza (su una serie di generici, per esempio), se non si presta attenzione si pu`o arrivare ad approvare come generici trattamenti inefficienti
(vedi le critiche di Garattini su http://www.ricercaepratica.it/)
Il margine di equivalenza deve essere confrontato con un analogo margine relativo al confronto con il placebo.
D’altra parte, il placebo non `e sempre etico...
Problema unilaterale o bilaterale?
Sarebbe sufficiente solo un intervallo di confidenza unilaterale di livello 1 − α;
ma un intervallo bilaterale di livello 1−2α conferisce informazioni supplementari di possibile interesse, come l’inclusione o meno di un importante valore alternativo di interesse, per esempio θ = 0, nell’intervallo di confidenza.
Inoltre per altri problemi, per esempio per la equa biodisponibilit`a, occorrono sia un limite superiore ∆ che un limite inferiore Γ.
La regola di decisione rimane la stessa:
Si dichiara l’equivalenza se l’intervallo di confidenza di livello 1− 2α `e interamente contenuto nell’intervallo di equivalenza (Γ, ∆).
PARTE 4
Inferenza nel modello lineare
Introduzione al modello lineare
y e x1, . . . ,xp−1 rilevazioni quantitative su n unit`a sperimentali.
Esempio: consumo di ossigeno in atleti
ossigeno eta peso tempo p_ferm p_med p_max 44.609 44 89.47 11.37 62 178 182 45.313 40 75.07 10.07 62 185 185
54.297 44 85.84 8.65 45 156 168
59.571 42 68.15 8.17 40 166 172
49.874 38 89.02 9.22 55 178 180
...
Si vuole esprimere y come combinazione lineare di x1, . . . ,xp−1 pi`u un residuo.
Y variabile risposta x1, . . . ,xp−1 variabili esplicative yi = β0 + β1 xi1 + β2 xi2 + · · · + βp−1 xip−1 +εi
= xti β +εi
per i = 1, . . . , n
Esempio:
regressione lineare semplice
y = β0 + β1 x + ε
b0 + b1 xi (che appartiene alla retta)
`e la migliore approssimazione lineare di yi tramite xi.
(x , y )i i
(x , i β1 x + i 2)
(xi,b0+xib1) (xi, yi)
0 10
20 30 40 50 60
20 30 40
x y
Minimizzazione dell’errore di approssimazione
Si trovano quei valori dei parametri che rendono minima somma dei quadrati dei residui di ogni unit`a sperimentale:
εi = yi − xti β per i = 1, . . . , n
La regressione lineare su un campione
y realizzazioni campionarie di una v.a.
Si possono
• calcolare intervalli di confidenza
• effettuare test
sui parametri β per stabilire se le variabili esplicative del modello sono tutte utili per l’approssimazione della variabile risposta
Condizioni su media e varianza dei residui Variabile risposta con legge Normale
ε effetto di cause non identificate, perturbazione aleatoria; allora Y vettore aleatorio di cui si osservano alcune realizzazioni y.
Supponiamo
εi ∼ N (0, σ) σ costante e cov(εi, εj) = 0
Quindi Yi ∼ N xtiβ, σ e cov(Yi, Yj) = 0
dove xtiβ = β0 + β1 xi1 + β2 xi2 + · · · βp−1 xi p−1
Il vettore Y non `e quindi un campione di una stessa variabile aleatoria in quanto i valori attesi di ciascuna Yi sono diversi.
Non si pu`o verificare l’ipotesi di normalit`a sulle realizzazioni di Y.
Le variabili x , . . . ,x sono considerate deterministiche.
Stimatori dei coefficienti del modello B
Esempio: Altezza dei pioppi in dipendenza del diametro
Residuals:
Min 1Q Median 3Q Max
-27.8027 -5.5330 -0.4882 5.8626 17.4961 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.0172 1.3947 10.05 <2e-16 ***
Diametro 12.7864 0.2686 47.61 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 7.836 on 292 degrees of freedom
Multiple R-squared: 0.8859, Adjusted R-squared: 0.8855 F-statistic: 2267 on 1 and 292 DF, p-value: < 2.2e-16
Coefficients:
- colonna Estimate: stime bk dei parametri βk
- colonna Std. Error: stime delle deviazione standard degli stimatori Bk
Gli stimatori dei coefficienti del modello B sono combinazioni lineari di Y. Quindi sono v.a. normali
Bk ∼ N (βk, ˜σk) ovvero Tk = Bk − βk
S˜k ∼ tn−p
Intervalli di confidenza per βk
Bk − t1−α/2 S˜k, Bk + t1−α/2 S˜k
Sostituendo i valori campionari bk e ˜sk si ottiene la realizzazione campionaria dell’i.d.c.
> confint(regr_alt_diam)
2.5 % 97.5 % (Intercept) 11.27222 16.76228
Test di ipotesi sui singoli coefficienti βk
La k-esima variabile esplicativa xk ha influenza sulla variabile risposta se βk non `e nullo.
H0: βk = 0 contro H1: βk 6= 0 Se H0 `e vera, Tk = Bk
Sk ∼ tn−p Fissato α,
- se tk ∈ R0 = −∞, −t1−α/2 ∪ t1−α/2, +∞ si rifiuta H0 - oppure si confronta il p-value con α
Coefficients:
- colonna t value: stime tk = bk/sk - colonna Pr(>|t|): p-value di tk
Analisi dei residui per la bont`a del modello
• i residui rispetto ai predetti non devono presentare “anda- menti” ma essere una nuvolo omogenea intorno allo 0
• la normalit`a della variabile risposta non si pu`o verificare di- rettamente sulle rilevazioni di Y ma tramite i residui
40 60 80 100 120
-30-1010
Fitted values
Residuals
Residuals vs Fitted
184 130 238
-3 -2 -1 0 1 2 3
-3-112
Theoretical Quantiles
Standardized residuals
Normal Q-Q
184 130238
Residuals:
Min 1Q Median 3Q Max
-27.8027 -5.5330 -0.4882 5.8626 17.4961
Esempio: consumo di ossigeno
Si vuole stabilire se il consumo di ossigeno da parte di atleti che praticano sport di fondo `e esprimibile come combinazione lineare di variabili esplicative facilmente rilevabili anche sul campo:
- l’et`a del soggetto (eta), - il peso del soggetto (peso),
- il tempo di percorrenza di un prefissato tragitto (tempo), - le pulsazioni cardiache al minuto da fermo (pulsfer),
- le pulsazioni cardiache al minuto medie (pulsmed),
- le pulsazioni cardiache al minuto massime nella corsa (pulsmax)
40 45 50 55
-6-2246
Fitted values
Residuals
Residuals vs Fitted
17 15
23
-2 -1 0 1 2
-2-10123
Theoretical Quantiles
Standardized residuals
Normal Q-Q
15
17
20