Metodi statistici per l analisi dei dati

(1)

Metodi statistici per l’analisi dei dati

Confronto tra due trattamenti

Confronto tra trattamenti

Motivazioni

• Obbiettivo:

– Confrontare due diverse condizioni (anche definiti trattamenti) per cui sono stati condotti gli esperimenti.

1

(2)

Esempio introduttivo

• L’impasto dell’esempio introduttivo è modificato aggiungendo un additivo che dovrebbe ridurne la viscosità.

• A tal proposito si prendono in considerazione

– 10 misure sperimentali di viscosità del trattamento originale (controllo) – 10 misure sperimentali di

viscosità del prodotto alimentare modificato.

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

j Crema

modificata (cp)

Controllo (cp)

1 67.40 70.00

2 65.60 70.52

3 68.84 73.00

4 65.40 72.00

5 66.08 71.44

6 68.16 71.00

7 67.84 72.88

8 68.60 71.60

9 66.36 71.84

10 66.28 72.60

67.06 71.69

y

3

Introduzione – Esempio

• Il valore medio delle misure del prodotto modificato è minore del valore medio del prodotto originale

• Due possibili spiegazioni:

– Le due formulazioni sono realmente differenti

– La differenza osservata nei trattamenti è dovuta alle fluttuazioni inevitabilmente presenti nelle misure sperimentali, e le due formulazioni sono di fatto equivalenti

• Obiettivo:

• Stabilire in maniera oggettiva se i due campioni sono

realmente differenti ricorrendo a strumenti statistici rigorosi 3

(3)

Concetti di statistica di base – Descrizioni grafiche della variabilità

• Diagramma per punti

• Utile per campioni di piccole dimensioni (sino a 20 osservazioni).

• Il diagramma permette di riconoscere il trend centrale e la dispersione dei dati.

• Un’ispezione visiva (qualitativa) del diagramma rivela che i due trattamenti sono verosimilmente differenti.

Viscosità [cp]

64 66 68 70 72 74

06 .

1 67

1

1





 

n y y

n

i i

69 .

1 71

2

2





 n

y y

n

i i

5

Concetti di statistica di base – Descrizioni grafiche della variabilità

• Rappresentazione dei campioni tramite “diagrammi a scatola”

(“box-plots”)

Viscosità [cp]

64 66 68 70 72 74

Modificato Non modificato

Valore massimo osservato nel campione

Valore minimo osservato nel campione

75-mo percentile

25-mo percentile Mediana 5

(4)

Confronto tra campioni

• I due diversi trattamenti possono essere visti come due livelli del fattore “formulazioni”

• Modello statistico per i dati:

 





 







i ij

i

ij

j n

y i

,..., 2 , 1

2 , 1

y

_ij

j-esima osservazione dal

livello i-esimo



_i

Media della risposta al livello

i-esimo



_ij

Variabile aleatoria normale associata

con la j-esima osservazione

7

Confronto tra campioni

• Assunzione:

• Gli errori  sono normali, indipendenti e identicamente distribuiti (i.i.d.):

  ⁰ ^, ^

²



 N

7

(5)

Confronto tra campioni – Test statistici – Definizione del problema

• Dal punto di vista formale, si possono definire le seguenti ipotesi nulla H₀e l’ipotesi alternativa H₁:

H

₀

: 

₁

=

₂

H

₁

: 

₁

≠

₂

9

Confronto tra campioni – Test statistici – Definizione del problema

• Tipologia di errori che possono essere commessi durante un test statistico:

• Errore di tipo I: rigettare l’ipotesi H₀di partenza nonostante essa fosse vera

• Errore di tipo II: non rigettare H₀nonostante essa fosse falsa

• Si deve ridurre al minimo il rischio (le probabilità a e b) di incorrere in questi due tipi di errore

 ^errore ^di ^tipo ^I   P ^rigetto ^H

0

^| ^H

0

^è ^vera 

P 

 a

 ^errore ^di ^tipo ^II   P ^non ^rigetto ^H

0

^| ^H

0

^è ^falsa 

P 



b

9

(6)

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 1/4

• Scegliere un livello di significatività a del test (in genere a=0.05).

• Rappresenta la probabilità di sbagliare, nel caso in cui arrivassimo alla conclusione di rigetto dell’ipotesi nulla.

• Calcolare il valore critico t_a/2 tale che:

dove T è la distribuzione t di Student a (n₁+n₂-2) gradi di libertà

 ^ t

_a/2

^ T ^ t

_a/2

 ^ ¹ ^ ^a

P

Metodi statistici per l'analisi dei dati

10 – 14 febbraio 2020 11

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 2/4

• Distribuzione T di student a 18 gdl con l’evidenzia delle regioni critiche

3 2 1 1 2 3

0.1 0.2 0.3 0.4

Regione di rigetto Regione di non rigetto Regione di rigetto

area=a/2=0.025 area=a/2=0.025

-2.101 -2.101 11

(7)

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 3/4

• Calcolare

• dove S_P²è la stima della varianza campionaria comune

₁²=₂²=²:

– Nota: nel caso di n=n₁=n₂, l’espressione si riduce a

2 2 2 1

2 1

0

S S

y n y

t 

 



 



 

 

2 1 2

2 0 1

1 1

n S n

y t y

P

   

2 1 1

2 1

2 2 2 2 1 2 1









 

n n

S n S S

_P

n

10 – 14 febbraio 2020 13

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 4/4

• Si confronta il t₀osservato con il valore critico t_a/2

• non rigettiamo l’ipotesi nulla H₀.

• Non si hanno evidenze sperimentali tali da affermare che i due trattamenti siano significativamente diversi

• Si rigetta l’ipotesi nulla: i due trattamenti sono significativamente diversi

• Si corre un «rischio» di affermare la conclusione sbagliata pari al livello di significatività a del test

2 / 0

 t

a

t

2 / 0

 t

a

t

13

(8)

Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria

• La differenza delle medie dei due trattamenti può essere vista come una VA di tipo normale:

• Se i due trattamenti provenissero dalla stessa popolazione (ovvero ₁=₂ , ₁²=₂²), e la varianza ²fosse nota, la statistica:

• sarebbe un valore osservato di una Gaussiana di tipo standard (Z~N(0,1))

• t₀ è un’osservazione di una T di student a (n₁+n₂-2) gdl:

 



2 1 2



2 1 2

1 y ~N , 1n 1n

y     

2 1

0

1 n 1 n

y z y





 

15

Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria

• Dato che la varianza è ignota, si ricorre alla sua stima S_P², per cui la statistica t₀:

• è relativa ad una T di student a (n₁+n₂-2) g.d.l.

• Se H₀ fosse vera, ci si aspetta quindi che la probabilità per t₀ di cadere nell’intervallo [-t_a/2, t_a/2] sia pari a 100(1-a).

• Un campione che produce dei risultati al di fuori di questo intervallo non sarebbe usuale

– è quindi più plausibile che l’ipotesi nulla di partenza sia sbagliata



1 2



2

2 1

0

S 1 n 1 n

y t y

P



 

15

(9)

Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione

• Per le emulsioni alimentari dell’esempio

• Calcolo valore critico t_a/2:

– (da tabelle disponibili in letteratura o, equivalentemente, con l’ausilio di software)

t_a/2=2.101

• Calcolo statistica t₀:

   

₁_.₂₉₂₈

18 983 . 0 9 602 . 1 9 2

1 1

2 1

2 2 2 2 1

2 1     









 

n n

S n S S_P n

109 . 10 9 1 10 1 137 . 1

69 . 71 06 . 67 1

1 ₁ ₂

2 1

0 



 



 

n n S

y t y

P

17

Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione

• Conclusioni:

𝑡 ≫ 𝑡 _/

• Il valore osservato t₀è maggiore (in valore assoluto) del valore critico t_a/2

• I due trattamenti sono significativamente differenti con un rischio (errore di tipo I) del 5% che tale conclusione sia sbagliata

17

(10)

Test statistici – Definizione ipotesi alternative

• L’ipotesi alternativa presa in considerazione

• contempla l’eventualità che i due trattamenti presi in considerazione siano solo differenti

• Tale ipotesi prende il nome di ipotesi alternativa “two- sided” (valori sia maggiori che minori portano al rigetto di H₀).

• In altri casi, la natura del problema può suggerire altre espressioni per le ipotesi alternative.

H

₁

: 

₁

≠

₂

H

₁

: 

₁

<

₂

oppure 

₁

<

₂

19

Test statistici – Definizione ipotesi alternative «one sided»

• Si arriva al rigetto dell’ipotesi nulla solo se ₁ è significativamente minore di ₂

H

₁

: 

₁

<

₂

3 2 1 1 2 3

0.1 0.2 0.3 0.4

Regione di rigetto Regione di non rigetto area=a=0.05

19

(11)

Test statistici – Definizione ipotesi alternative «one sided»

• Si arriva al rigetto dell’ipotesi nulla solo se ₁ è significativamente maggiore di ₂

H

₁

: 

₁

>

₂

3 2 1 1 2 3

0.1 0.2 0.3 0.4

Regione di rigetto Regione di non rigetto

area=a=0.05

21

Intervalli di fiducia – Differenza di medie

• Supponiamo di essere interessati a determinare un intervallo di fiducia al 95% per la differenza d₁=₁-₂ delle medie.

• A tale scopo, si consideri la statistica:

• essa è distribuita secondo una t_n1+n2-2.

   

2 1

2 1 2 1

2 1

1 1

1 1 1

1

n S n

y y n S n

t d

P

P 









 

 d

  21

(12)

Intervalli di fiducia – Differenza di medie

• Da cui:

• ovvero:

• Per cui

   

__





























 

 _a _a_/₂

2 1

2 1 2 1 2

/ 1 1 t

n S n

y t y

P

     



 



   _a        _a 

2 1 2 / 2 1 2 1 2 1 2 / 2 1

1 1 1

1

n S n

t y n y

S n t y y

P _P _P

     







   _a        _a 

2 1 2 / 2 1 2 1 2 1 2 / 2 1

1 1 1

1

n S n

t y n y

S n t y y

CONF _P _P

L q U

23

Intervalli di fiducia differenza di due medie - Applicazione

• Per l’esempio introduttivo

• ovvero:

• Da notare che il valore ₁-₂=0 non è incluso nell’intervallo, confermando ulteriormente che l’ipotesi ₁=₂ non è plausibile per il livello di significatività a15%.

         







          

10 1 10 137 1 . 1 101 . 2 69 . 71 06 . 10 67

1 10 137 1 . 1 101 . 2 69 . 71 06 .

67 ₁ ₂

CONF



y1y2



ta/2 S_P

2 1

1 1

n

n 



y1y2



ta/2 S_P

2 1

1 1

n n 

5.70₁₂3.56

CONF

23

(13)

Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni

• ₁²≠₂² Parte 1/2

• In presenza di un test delle ipotesi:

• in cui non è possibile assumere che le varianze dei campioni siano uguali, si può ricorrere alla statistica test

 

2 22

1 12

2 0 1

n S n S

y t y



 

H

₀

: 

₁

=

₂

H

₁

: 

₁

≠

₂

25

Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni

• Caso in cui ₁²≠₂² Parte 2/2

• essendo la statistica t ben approssimata da una t di student a u gradi di libertà:

   

1

1 ₂

2 2 2 2 1

2 2 1 1

2

2 22

1 12

 













 

 u

n n S n

n S

n S n S 25

(14)

Test statistici – Esempio: Test per il confronto di due campioni – Estensioni

• ₁²e ₂²note  1/2

• In presenza di un test delle ipotesi:

• in cui le varianze sono a priori note, si può usare la statistica:

• Se entrambi le popolazioni sono normali (o le dimensioni del campioni sono grandi) la statistica z₀ ~ N(0,1)

H

₀

: 

₁

=

₂

H

₁

: 

₁

≠

₂

 

2 22

1 12

2 0 1

n n

y z y





 

27

Test statistici – Esempio: Test per il confronto di due campioni – Estensioni

• ₁²e ₂²note  2/2

• La regione critica per i test delle ipotesi può essere calcolata usando la distribuzione normale di tipo standard anziché la t di student. Sarà necessario calcolare il valore critico z_a tale che, per esempio (caso test ipotesi two-sided):



z_a_/₂Zz_a_/₂



1a P

27

(15)

Esempio introduttivo – Confronto medie con “blocco”

• Si consideri di nuovo il caso dell’esempio introduttivo.

• La randomizzazione dei campioni ha portato alla selezione casuale di:

– 10 campioni da modificare

– 10 campioni non trattati che saranno usati come controllo

• Tale politica implica una inevitabile sorgente di variazione:

– la casualità nella scelta dei campioni da destinare ai due trattamenti si aggiunge alla eventuale variazione indotta dalla differenza dei trattamenti

10 – 14 febbraio 2020 29

Esempio introduttivo – Confronto medie con “blocco”

• Strategia possibile per eliminare tale sorgente di incertezza:

1. Si selezionano 10 campioni (anziché 20) non modificati 2. Se ne misura la viscosità

3. In seguito, gli stessi campioni sono modificati con l’aggiunta dell’additivo.

4. Si ripete la misura della viscosità sui campioni modificati 29

(16)

Esempio introduttivo – Confronto medie con “blocco”

• Il modello statistico per descrivere la procedura è il seguente:







 

 b







ij i j i

ij j n

y i

,..., 2 , 1

2 , 1

y_ij j-esima osservazione

dal livello i- esimo

_i

Media al livello i-esimo

_ij

Variabile aleatoria normale associata

con la j-esima osservazione b_j

Effetto del campione

specifico

31

Esempio introduttivo – Confronto medie con “blocco”

• In questo modo è possibile valutare la differenza per la coppia j-ma:

• Il valore atteso di questa differenza è n

j y

y

d_j  ₁_j ₂_j 1,...,

   

 

2 1









b





 b

















j j

j j j d

y E y E

y y E

d

E È possibile fare

inferenza sulla differenza di medie

lavorando semplicemente con le differenze delle

coppie 31

(17)

Esempio introduttivo – Confronto medie con “blocco”

• Testare H₀: ₁=₂ è equivalente a testare

• La statistica test per questa ipotesi è ancora una t a (n-1) gdl:

• dove

H

₀

: 

_d

=0 H

₁

: 

_d

≠0

n S t d

d2 0 

 

1

2 2







  n

d S d

n

j j

n d

d d

n

j j





 ¹ ^e

33

Esempio introduttivo – Confronto medie con “blocco”

• La possibilità di una campagna sperimentale con dati accoppiati, risulta da preferire alla campagna sperimentale completamente randomizzata.

• Si elimina una sorgente di incertezza dovuta alle differenze eventualmente presenti tra i campioni (e non dovute ai trattamenti).

• La filosofia del “blocco”permette di eliminare sorgenti di incertezza presenti nel campione di dati.

33

Metodi statistici per l analisi dei dati