Metodi statistici per l’analisi dei dati
Confronto tra due trattamenti
Confronto tra trattamenti
Motivazioni
• Obbiettivo:
– Confrontare due diverse condizioni (anche definiti trattamenti) per cui sono stati condotti gli esperimenti.
1
Confronto tra trattamenti
Esempio introduttivo
• L’impasto dell’esempio introduttivo è modificato aggiungendo un additivo che dovrebbe ridurne la viscosità.
• A tal proposito si prendono in considerazione
– 10 misure sperimentali di viscosità del trattamento originale (controllo) – 10 misure sperimentali di
viscosità del prodotto alimentare modificato.
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
j Crema
modificata (cp)
Controllo (cp)
1 67.40 70.00
2 65.60 70.52
3 68.84 73.00
4 65.40 72.00
5 66.08 71.44
6 68.16 71.00
7 67.84 72.88
8 68.60 71.60
9 66.36 71.84
10 66.28 72.60
67.06 71.69
y
3
Confronto tra trattamenti
Introduzione – Esempio
• Il valore medio delle misure del prodotto modificato è minore del valore medio del prodotto originale
• Due possibili spiegazioni:
– Le due formulazioni sono realmente differenti
– La differenza osservata nei trattamenti è dovuta alle fluttuazioni inevitabilmente presenti nelle misure sperimentali, e le due formulazioni sono di fatto equivalenti
• Obiettivo:
• Stabilire in maniera oggettiva se i due campioni sono
realmente differenti ricorrendo a strumenti statistici rigorosi 3
Confronto tra trattamenti
Concetti di statistica di base – Descrizioni grafiche della variabilità
• Diagramma per punti
• Utile per campioni di piccole dimensioni (sino a 20 osservazioni).
• Il diagramma permette di riconoscere il trend centrale e la dispersione dei dati.
• Un’ispezione visiva (qualitativa) del diagramma rivela che i due trattamenti sono verosimilmente differenti.
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
Viscosità [cp]
64 66 68 70 72 74
06 .
1 67
1
1
n y y
n
i i
69 .
1 71
2
2
n
y y
n
i i
5
Confronto tra trattamenti
Concetti di statistica di base – Descrizioni grafiche della variabilità
• Rappresentazione dei campioni tramite “diagrammi a scatola”
(“box-plots”)
Viscosità [cp]
64 66 68 70 72 74
Modificato Non modificato
Valore massimo osservato nel campione
Valore minimo osservato nel campione
75-mo percentile
25-mo percentile Mediana 5
Confronto tra trattamenti
Confronto tra campioni
• I due diversi trattamenti possono essere visti come due livelli del fattore “formulazioni”
• Modello statistico per i dati:
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
i ij
i
ij
j n
y i
,..., 2 , 1
2 , 1
y
ijj-esima osservazione dal
livello i-esimo
iMedia della risposta al livello
i-esimo
ijVariabile aleatoria normale associata
con la j-esima osservazione
7
Confronto tra trattamenti
Confronto tra campioni
• Assunzione:
• Gli errori sono normali, indipendenti e identicamente distribuiti (i.i.d.):
0 ,
2
N
7
Confronto tra trattamenti
Confronto tra campioni – Test statistici – Definizione del problema
• Dal punto di vista formale, si possono definire le seguenti ipotesi nulla H0e l’ipotesi alternativa H1:
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
H
0:
1=
2H
1:
1≠
29
Confronto tra trattamenti
Confronto tra campioni – Test statistici – Definizione del problema
• Tipologia di errori che possono essere commessi durante un test statistico:
• Errore di tipo I: rigettare l’ipotesi H0di partenza nonostante essa fosse vera
• Errore di tipo II: non rigettare H0nonostante essa fosse falsa
• Si deve ridurre al minimo il rischio (le probabilità a e b) di incorrere in questi due tipi di errore
errore di tipo I P rigetto H
0| H
0è vera
P
a
errore di tipo II P non rigetto H
0| H
0è falsa
P
b
9Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 1/4
• Scegliere un livello di significatività a del test (in genere a=0.05).
• Rappresenta la probabilità di sbagliare, nel caso in cui arrivassimo alla conclusione di rigetto dell’ipotesi nulla.
• Calcolare il valore critico ta/2 tale che:
dove T è la distribuzione t di Student a (n1+n2-2) gradi di libertà
t
a/2 T t
a/2 1 a
P
Metodi statistici per l'analisi dei dati
10 – 14 febbraio 2020 11
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 2/4
• Distribuzione T di student a 18 gdl con l’evidenzia delle regioni critiche
3 2 1 1 2 3
0.1 0.2 0.3 0.4
Regione di rigetto Regione di non rigetto Regione di rigetto
area=a/2=0.025 area=a/2=0.025
-2.101 -2.101 11
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 3/4
• Calcolare
• dove SP2è la stima della varianza campionaria comune
12=22=2:
– Nota: nel caso di n=n1=n2, l’espressione si riduce a
2 2 2 1
2 1
0
S S
y n y
t
2 1 2
2 0 1
1 1
n S n
y t y
P
2 1 1
2 1
2 2 2 2 1 2 1
n n
S n S S
Pn
Metodi statistici per l'analisi dei dati
10 – 14 febbraio 2020 13
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 4/4
• Si confronta il t0osservato con il valore critico ta/2
• non rigettiamo l’ipotesi nulla H0.
• Non si hanno evidenze sperimentali tali da affermare che i due trattamenti siano significativamente diversi
• Si rigetta l’ipotesi nulla: i due trattamenti sono significativamente diversi
• Si corre un «rischio» di affermare la conclusione sbagliata pari al livello di significatività a del test
2 / 0
t
at
2 / 0
t
at
13
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria
• La differenza delle medie dei due trattamenti può essere vista come una VA di tipo normale:
• Se i due trattamenti provenissero dalla stessa popolazione (ovvero 1=2 , 12=22), e la varianza 2fosse nota, la statistica:
• sarebbe un valore osservato di una Gaussiana di tipo standard (Z~N(0,1))
• t0 è un’osservazione di una T di student a (n1+n2-2) gdl:
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
2 1 2
2 1 2
1 y ~N , 1n 1n
y
2 1
2 1
0
1 n 1 n
y z y
15
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria
• Dato che la varianza è ignota, si ricorre alla sua stima SP2, per cui la statistica t0:
• è relativa ad una T di student a (n1+n2-2) g.d.l.
• Se H0 fosse vera, ci si aspetta quindi che la probabilità per t0 di cadere nell’intervallo [-ta/2, ta/2] sia pari a 100(1-a).
• Un campione che produce dei risultati al di fuori di questo intervallo non sarebbe usuale
– è quindi più plausibile che l’ipotesi nulla di partenza sia sbagliata
1 2
2
2 1
0
S 1 n 1 n
y t y
P
15
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione
• Per le emulsioni alimentari dell’esempio
• Calcolo valore critico ta/2:
– (da tabelle disponibili in letteratura o, equivalentemente, con l’ausilio di software)
ta/2=2.101
• Calcolo statistica t0:
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
1.292818 983 . 0 9 602 . 1 9 2
1 1
2 1
2 2 2 2 1
2 1
n n
S n S SP n
109 . 10 9 1 10 1 137 . 1
69 . 71 06 . 67 1
1 1 2
2 1
0
n n S
y t y
P
17
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione
• Conclusioni:
𝑡 ≫ 𝑡 /
• Il valore osservato t0è maggiore (in valore assoluto) del valore critico ta/2
• I due trattamenti sono significativamente differenti con un rischio (errore di tipo I) del 5% che tale conclusione sia sbagliata
17
Confronto tra trattamenti
Test statistici – Definizione ipotesi alternative
• L’ipotesi alternativa presa in considerazione
• contempla l’eventualità che i due trattamenti presi in considerazione siano solo differenti
• Tale ipotesi prende il nome di ipotesi alternativa “two- sided” (valori sia maggiori che minori portano al rigetto di H0).
• In altri casi, la natura del problema può suggerire altre espressioni per le ipotesi alternative.
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
H
1:
1≠
2H
1:
1<
2oppure
1<
219
Confronto tra trattamenti
Test statistici – Definizione ipotesi alternative «one sided»
• Si arriva al rigetto dell’ipotesi nulla solo se 1 è significativamente minore di 2
H
1:
1<
23 2 1 1 2 3
0.1 0.2 0.3 0.4
Regione di rigetto Regione di non rigetto area=a=0.05
19
Confronto tra trattamenti
Test statistici – Definizione ipotesi alternative «one sided»
• Si arriva al rigetto dell’ipotesi nulla solo se 1 è significativamente maggiore di 2
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
H
1:
1>
23 2 1 1 2 3
0.1 0.2 0.3 0.4
Regione di rigetto Regione di non rigetto
area=a=0.05
21
Confronto tra trattamenti
Intervalli di fiducia – Differenza di medie
• Supponiamo di essere interessati a determinare un intervallo di fiducia al 95% per la differenza d1=1-2 delle medie.
• A tale scopo, si consideri la statistica:
• essa è distribuita secondo una tn1+n2-2.
2 1
2 1 2 1
2 1
1 1
1 1 1
1
n S n
y y n S n
t d
P
P
d
21
Confronto tra trattamenti
Intervalli di fiducia – Differenza di medie
• Da cui:
• ovvero:
• Per cui
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
a a/2
2 1
2 1 2 1 2
/ 1 1 t
n S n
y t y
P
P
a a
2 1 2 / 2 1 2 1 2 1 2 / 2 1
1 1 1
1
n S n
t y n y
S n t y y
P P P
a a
2 1 2 / 2 1 2 1 2 1 2 / 2 1
1 1 1
1
n S n
t y n y
S n t y y
CONF P P
L q U
23
Confronto tra trattamenti
Intervalli di fiducia differenza di due medie - Applicazione
• Per l’esempio introduttivo
• ovvero:
• Da notare che il valore 1-2=0 non è incluso nell’intervallo, confermando ulteriormente che l’ipotesi 1=2 non è plausibile per il livello di significatività a15%.
10 1 10 137 1 . 1 101 . 2 69 . 71 06 . 10 67
1 10 137 1 . 1 101 . 2 69 . 71 06 .
67 1 2
CONF
y1y2
ta/2 SP2 1
1 1
n
n
y1y2
ta/2 SP2 1
1 1
n n
5.70123.56
CONF
23
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni
• 12≠22 Parte 1/2
• In presenza di un test delle ipotesi:
• in cui non è possibile assumere che le varianze dei campioni siano uguali, si può ricorrere alla statistica test
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
2 22
1 12
2 0 1
n S n S
y t y
H
0:
1=
2H
1:
1≠
225
Confronto tra trattamenti
Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni
• Caso in cui 12≠22 Parte 2/2
• essendo la statistica t ben approssimata da una t di student a u gradi di libertà:
1
1 2
2 2 2 2 1
2 2 1 1
2
2 22
1 12
u
n n S n
n S
n S n S 25
Confronto tra trattamenti
Test statistici – Esempio: Test per il confronto di due campioni – Estensioni
• 12e 22 note 1/2
• In presenza di un test delle ipotesi:
• in cui le varianze sono a priori note, si può usare la statistica:
• Se entrambi le popolazioni sono normali (o le dimensioni del campioni sono grandi) la statistica z0 ~ N(0,1)
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
H
0:
1=
2H
1:
1≠
2
2 22
1 12
2 0 1
n n
y z y
27
Confronto tra trattamenti
Test statistici – Esempio: Test per il confronto di due campioni – Estensioni
• 12e 22 note 2/2
• La regione critica per i test delle ipotesi può essere calcolata usando la distribuzione normale di tipo standard anziché la t di student. Sarà necessario calcolare il valore critico za tale che, per esempio (caso test ipotesi two-sided):
za/2Zza/2
1a P27
Confronto tra trattamenti
Esempio introduttivo – Confronto medie con “blocco”
• Si consideri di nuovo il caso dell’esempio introduttivo.
• La randomizzazione dei campioni ha portato alla selezione casuale di:
– 10 campioni da modificare
– 10 campioni non trattati che saranno usati come controllo
• Tale politica implica una inevitabile sorgente di variazione:
– la casualità nella scelta dei campioni da destinare ai due trattamenti si aggiunge alla eventuale variazione indotta dalla differenza dei trattamenti
Metodi statistici per l'analisi dei dati
10 – 14 febbraio 2020 29
Confronto tra trattamenti
Esempio introduttivo – Confronto medie con “blocco”
• Strategia possibile per eliminare tale sorgente di incertezza:
1. Si selezionano 10 campioni (anziché 20) non modificati 2. Se ne misura la viscosità
3. In seguito, gli stessi campioni sono modificati con l’aggiunta dell’additivo.
4. Si ripete la misura della viscosità sui campioni modificati 29
Confronto tra trattamenti
Esempio introduttivo – Confronto medie con “blocco”
• Il modello statistico per descrivere la procedura è il seguente:
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
b
ij i j i
ij j n
y i
,..., 2 , 1
2 , 1
yij j-esima osservazione
dal livello i- esimo
i
Media al livello i-esimo
ij
Variabile aleatoria normale associata
con la j-esima osservazione bj
Effetto del campione
specifico
31
Confronto tra trattamenti
Esempio introduttivo – Confronto medie con “blocco”
• In questo modo è possibile valutare la differenza per la coppia j-ma:
• Il valore atteso di questa differenza è n
j y
y
dj 1j 2j 1,...,
2 1
2 1
2 1
2 1
b
b
j j
j j
j j j d
y E y E
y y E
d
E È possibile fare
inferenza sulla differenza di medie
lavorando semplicemente con le differenze delle
coppie 31
Confronto tra trattamenti
Esempio introduttivo – Confronto medie con “blocco”
• Testare H0: 1=2 è equivalente a testare
• La statistica test per questa ipotesi è ancora una t a (n-1) gdl:
• dove
Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020
H
0:
d=0 H
1:
d≠0
n S t d
d2 0
1
1
2 2
nd S d
n
j j
n d
d d
n
j j
1 e
33
Confronto tra trattamenti
Esempio introduttivo – Confronto medie con “blocco”
• La possibilità di una campagna sperimentale con dati accoppiati, risulta da preferire alla campagna sperimentale completamente randomizzata.
• Si elimina una sorgente di incertezza dovuta alle differenze eventualmente presenti tra i campioni (e non dovute ai trattamenti).
• La filosofia del “blocco”permette di eliminare sorgenti di incertezza presenti nel campione di dati.
33