• Non ci sono risultati.

Metodi statistici per l analisi dei dati

N/A
N/A
Protected

Academic year: 2022

Condividi "Metodi statistici per l analisi dei dati"

Copied!
17
0
0

Testo completo

(1)

Metodi statistici per l’analisi dei dati

Confronto tra due trattamenti

Confronto tra trattamenti

Motivazioni

• Obbiettivo:

– Confrontare due diverse condizioni (anche definiti trattamenti) per cui sono stati condotti gli esperimenti.

1

(2)

Confronto tra trattamenti

Esempio introduttivo

• L’impasto dell’esempio introduttivo è modificato aggiungendo un additivo che dovrebbe ridurne la viscosità.

• A tal proposito si prendono in considerazione

– 10 misure sperimentali di viscosità del trattamento originale (controllo) – 10 misure sperimentali di

viscosità del prodotto alimentare modificato.

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

j Crema

modificata (cp)

Controllo (cp)

1 67.40 70.00

2 65.60 70.52

3 68.84 73.00

4 65.40 72.00

5 66.08 71.44

6 68.16 71.00

7 67.84 72.88

8 68.60 71.60

9 66.36 71.84

10 66.28 72.60

67.06 71.69

y

3

Confronto tra trattamenti

Introduzione – Esempio

• Il valore medio delle misure del prodotto modificato è minore del valore medio del prodotto originale

• Due possibili spiegazioni:

– Le due formulazioni sono realmente differenti

– La differenza osservata nei trattamenti è dovuta alle fluttuazioni inevitabilmente presenti nelle misure sperimentali, e le due formulazioni sono di fatto equivalenti

• Obiettivo:

• Stabilire in maniera oggettiva se i due campioni sono

realmente differenti ricorrendo a strumenti statistici rigorosi 3

(3)

Confronto tra trattamenti

Concetti di statistica di base – Descrizioni grafiche della variabilità

• Diagramma per punti

• Utile per campioni di piccole dimensioni (sino a 20 osservazioni).

• Il diagramma permette di riconoscere il trend centrale e la dispersione dei dati.

• Un’ispezione visiva (qualitativa) del diagramma rivela che i due trattamenti sono verosimilmente differenti.

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

Viscosità [cp]

64 66 68 70 72 74

06 .

1 67

1

1

n y y

n

i i

69 .

1 71

2

2

n

y y

n

i i

5

Confronto tra trattamenti

Concetti di statistica di base – Descrizioni grafiche della variabilità

• Rappresentazione dei campioni tramite “diagrammi a scatola”

(“box-plots”)

Viscosi [cp]

64 66 68 70 72 74

Modificato Non modificato

Valore massimo osservato nel campione

Valore minimo osservato nel campione

75-mo percentile

25-mo percentile Mediana 5

(4)

Confronto tra trattamenti

Confronto tra campioni

• I due diversi trattamenti possono essere visti come due livelli del fattore “formulazioni”

• Modello statistico per i dati:

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

 

 

i ij

i

ij

j n

y i

,..., 2 , 1

2 , 1

y

ij

j-esima osservazione dal

livello i-esimo

i

Media della risposta al livello

i-esimo

ij

Variabile aleatoria normale associata

con la j-esima osservazione

7

Confronto tra trattamenti

Confronto tra campioni

• Assunzione:

• Gli errori  sono normali, indipendenti e identicamente distribuiti (i.i.d.):

  0 ,

2

 N

7

(5)

Confronto tra trattamenti

Confronto tra campioni – Test statistici – Definizione del problema

• Dal punto di vista formale, si possono definire le seguenti ipotesi nulla H0e l’ipotesi alternativa H1:

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

H

0

: 

1

=

2

H

1

: 

1

≠

2

9

Confronto tra trattamenti

Confronto tra campioni – Test statistici – Definizione del problema

• Tipologia di errori che possono essere commessi durante un test statistico:

• Errore di tipo I: rigettare l’ipotesi H0di partenza nonostante essa fosse vera

• Errore di tipo II: non rigettare H0nonostante essa fosse falsa

• Si deve ridurre al minimo il rischio (le probabilità a e b) di incorrere in questi due tipi di errore

errore di tipo I   P rigetto H

0

| H

0

è vera

P 

 a

errore di tipo II   P non rigetto H

0

| H

0

è falsa

P 

b

9

(6)

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 1/4

• Scegliere un livello di significatività a del test (in genere a=0.05).

• Rappresenta la probabilità di sbagliare, nel caso in cui arrivassimo alla conclusione di rigetto dell’ipotesi nulla.

• Calcolare il valore critico ta/2 tale che:

dove T è la distribuzione t di Student a (n1+n2-2) gradi di libertà

t

a/2

T t

a/2

1 a

P

Metodi statistici per l'analisi dei dati

10 – 14 febbraio 2020 11

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 2/4

• Distribuzione T di student a 18 gdl con l’evidenzia delle regioni critiche

3 2 1 1 2 3

0.1 0.2 0.3 0.4

Regione di rigetto Regione di non rigetto Regione di rigetto

area=a/2=0.025 area=a/2=0.025

-2.101 -2.101 11

(7)

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 3/4

• Calcolare

• dove SP2è la stima della varianza campionaria comune

12=22=2:

– Nota: nel caso di n=n1=n2, l’espressione si riduce a

2 2 2 1

2 1

0

S S

y n y

t 

 



 

 

 

2 1 2

2 0 1

1 1

n S n

y t y

P

   

2 1 1

2 1

2 2 2 2 1 2 1

 

n n

S n S S

P

n

Metodi statistici per l'analisi dei dati

10 – 14 febbraio 2020 13

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Ricetta 4/4

• Si confronta il t0osservato con il valore critico ta/2

• non rigettiamo l’ipotesi nulla H0.

• Non si hanno evidenze sperimentali tali da affermare che i due trattamenti siano significativamente diversi

• Si rigetta l’ipotesi nulla: i due trattamenti sono significativamente diversi

• Si corre un «rischio» di affermare la conclusione sbagliata pari al livello di significatività a del test

2 / 0

 t

a

t

2 / 0

 t

a

t

13

(8)

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria

• La differenza delle medie dei due trattamenti può essere vista come una VA di tipo normale:

• Se i due trattamenti provenissero dalla stessa popolazione (ovvero 1=2 , 12=22), e la varianza 2fosse nota, la statistica:

• sarebbe un valore osservato di una Gaussiana di tipo standard (Z~N(0,1))

• t0 è un’osservazione di una T di student a (n1+n2-2) gdl:

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

 

2 1 2

2 1 2

1 y ~N , 1n 1n

y     

2 1

2 1

0

1 n 1 n

y z y

 

15

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Teoria

• Dato che la varianza è ignota, si ricorre alla sua stima SP2, per cui la statistica t0:

• è relativa ad una T di student a (n1+n2-2) g.d.l.

• Se H0 fosse vera, ci si aspetta quindi che la probabilità per t0 di cadere nell’intervallo [-ta/2, ta/2] sia pari a 100(1-a).

• Un campione che produce dei risultati al di fuori di questo intervallo non sarebbe usuale

– è quindi più plausibile che l’ipotesi nulla di partenza sia sbagliata

1 2

2

2 1

0

S 1 n 1 n

y t y

P

 

15

(9)

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione

• Per le emulsioni alimentari dell’esempio

• Calcolo valore critico ta/2:

– (da tabelle disponibili in letteratura o, equivalentemente, con l’ausilio di software)

ta/2=2.101

• Calcolo statistica t0:

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

   

1.2928

18 983 . 0 9 602 . 1 9 2

1 1

2 1

2 2 2 2 1

2 1     

 

n n

S n S SP n

109 . 10 9 1 10 1 137 . 1

69 . 71 06 . 67 1

1 1 2

2 1

0 

 

 

n n S

y t y

P

17

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Applicazione

• Conclusioni:

𝑡 ≫ 𝑡 /

• Il valore osservato t0è maggiore (in valore assoluto) del valore critico ta/2

• I due trattamenti sono significativamente differenti con un rischio (errore di tipo I) del 5% che tale conclusione sia sbagliata

17

(10)

Confronto tra trattamenti

Test statistici – Definizione ipotesi alternative

• L’ipotesi alternativa presa in considerazione

• contempla l’eventualità che i due trattamenti presi in considerazione siano solo differenti

• Tale ipotesi prende il nome di ipotesi alternativa “two- sided” (valori sia maggiori che minori portano al rigetto di H0).

• In altri casi, la natura del problema può suggerire altre espressioni per le ipotesi alternative.

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

H

1

: 

1

≠

2

H

1

: 

1

<

2

oppure 

1

<

2

19

Confronto tra trattamenti

Test statistici – Definizione ipotesi alternative «one sided»

• Si arriva al rigetto dell’ipotesi nulla solo se 1 è significativamente minore di 2

H

1

: 

1

<

2

3 2 1 1 2 3

0.1 0.2 0.3 0.4

Regione di rigetto Regione di non rigetto area=a=0.05

19

(11)

Confronto tra trattamenti

Test statistici – Definizione ipotesi alternative «one sided»

• Si arriva al rigetto dell’ipotesi nulla solo se 1 è significativamente maggiore di 2

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

H

1

: 

1

>

2

3 2 1 1 2 3

0.1 0.2 0.3 0.4

Regione di rigetto Regione di non rigetto

area=a=0.05

21

Confronto tra trattamenti

Intervalli di fiducia – Differenza di medie

• Supponiamo di essere interessati a determinare un intervallo di fiducia al 95% per la differenza d1=1-2 delle medie.

• A tale scopo, si consideri la statistica:

• essa è distribuita secondo una tn1+n2-2.

   

2 1

2 1 2 1

2 1

1 1

1 1 1

1

n S n

y y n S n

t d

P

P

 

 d

  21

(12)

Confronto tra trattamenti

Intervalli di fiducia – Differenza di medie

• Da cui:

• ovvero:

• Per cui

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

   









 

a a/2

2 1

2 1 2 1 2

/ 1 1 t

n S n

y t y

P

P

     



 

   a        a

2 1 2 / 2 1 2 1 2 1 2 / 2 1

1 1 1

1

n S n

t y n y

S n t y y

P P P

     





   a        a

2 1 2 / 2 1 2 1 2 1 2 / 2 1

1 1 1

1

n S n

t y n y

S n t y y

CONF P P

L q U

23

Confronto tra trattamenti

Intervalli di fiducia differenza di due medie - Applicazione

• Per l’esempio introduttivo

• ovvero:

• Da notare che il valore 1-2=0 non è incluso nell’intervallo, confermando ulteriormente che l’ipotesi 1=2 non è plausibile per il livello di significatività a15%.

         

10 1 10 137 1 . 1 101 . 2 69 . 71 06 . 10 67

1 10 137 1 . 1 101 . 2 69 . 71 06 .

67 1 2

CONF

y1y2

ta/2 SP

2 1

1 1

n

n 

y1y2

ta/2 SP

2 1

1 1

n n 

5.70123.56

CONF

23

(13)

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni

• 12≠22  Parte 1/2

• In presenza di un test delle ipotesi:

• in cui non è possibile assumere che le varianze dei campioni siano uguali, si può ricorrere alla statistica test

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

 

2 22

1 12

2 0 1

n S n S

y t y

 

H

0

: 

1

=

2

H

1

: 

1

≠

2

25

Confronto tra trattamenti

Test statistici – Esempio: t-Test per il confronto di due campioni – Estensioni

• Caso in cui 12≠22  Parte 2/2

• essendo la statistica t ben approssimata da una t di student a u gradi di libertà:

   

1

1 2

2 2 2 2 1

2 2 1 1

2

2 22

1 12

 





 

 u

n n S n

n S

n S n S 25

(14)

Confronto tra trattamenti

Test statistici – Esempio: Test per il confronto di due campioni – Estensioni

• 12e 22 note  1/2

• In presenza di un test delle ipotesi:

• in cui le varianze sono a priori note, si può usare la statistica:

• Se entrambi le popolazioni sono normali (o le dimensioni del campioni sono grandi) la statistica z0 ~ N(0,1)

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

H

0

: 

1

=

2

H

1

: 

1

≠

2

 

2 22

1 12

2 0 1

n n

y z y



 

27

Confronto tra trattamenti

Test statistici – Esempio: Test per il confronto di due campioni – Estensioni

• 12e 22 note  2/2

• La regione critica per i test delle ipotesi può essere calcolata usando la distribuzione normale di tipo standard anziché la t di student. Sarà necessario calcolare il valore critico za tale che, per esempio (caso test ipotesi two-sided):

za/2Zza/2

1a P

27

(15)

Confronto tra trattamenti

Esempio introduttivo – Confronto medie con “blocco”

• Si consideri di nuovo il caso dell’esempio introduttivo.

• La randomizzazione dei campioni ha portato alla selezione casuale di:

– 10 campioni da modificare

– 10 campioni non trattati che saranno usati come controllo

• Tale politica implica una inevitabile sorgente di variazione:

– la casualità nella scelta dei campioni da destinare ai due trattamenti si aggiunge alla eventuale variazione indotta dalla differenza dei trattamenti

Metodi statistici per l'analisi dei dati

10 – 14 febbraio 2020 29

Confronto tra trattamenti

Esempio introduttivo – Confronto medie con “blocco”

• Strategia possibile per eliminare tale sorgente di incertezza:

1. Si selezionano 10 campioni (anziché 20) non modificati 2. Se ne misura la viscosità

3. In seguito, gli stessi campioni sono modificati con l’aggiunta dell’additivo.

4. Si ripete la misura della viscosità sui campioni modificati 29

(16)

Confronto tra trattamenti

Esempio introduttivo – Confronto medie con “blocco”

• Il modello statistico per descrivere la procedura è il seguente:

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020



 

 b

ij i j i

ij j n

y i

,..., 2 , 1

2 , 1

yij j-esima osservazione

dal livello i- esimo

i

Media al livello i-esimo

ij

Variabile aleatoria normale associata

con la j-esima osservazione bj

Effetto del campione

specifico

31

Confronto tra trattamenti

Esempio introduttivo – Confronto medie con “blocco”

• In questo modo è possibile valutare la differenza per la coppia j-ma:

• Il valore atteso di questa differenza è n

j y

y

dj1j2j 1,...,

   

   

 

2 1

2 1

2 1

2 1

b

 b

j j

j j

j j j d

y E y E

y y E

d

E È possibile fare

inferenza sulla differenza di medie

lavorando semplicemente con le differenze delle

coppie 31

(17)

Confronto tra trattamenti

Esempio introduttivo – Confronto medie con “blocco”

• Testare H0: 1=2 è equivalente a testare

• La statistica test per questa ipotesi è ancora una t a (n-1) gdl:

• dove

Metodi statistici per l'analisi dei dati 10 – 14 febbraio 2020

H

0

: 

d

=0 H

1

: 

d

≠0

n S t d

d2 0

 

1

1

2 2

 n

d S d

n

j j

n d

d d

n

j j

1 e

33

Confronto tra trattamenti

Esempio introduttivo – Confronto medie con “blocco”

• La possibilità di una campagna sperimentale con dati accoppiati, risulta da preferire alla campagna sperimentale completamente randomizzata.

• Si elimina una sorgente di incertezza dovuta alle differenze eventualmente presenti tra i campioni (e non dovute ai trattamenti).

• La filosofia del “blocco”permette di eliminare sorgenti di incertezza presenti nel campione di dati.

33

Riferimenti

Documenti correlati

E’ la definizione sperimentale di probabilità come limite della frequenza misurabile in una serie di esperimenti.. La probabilità di un evento è il limite cui tende la frequenza

incubazione di una malattia …); la mediana, la moda etc. Misura o campionamento di una popolazione. Descrizione pittorica/grafica dei dati, istogrammi. Classificazione

Il foglio con il testo, compilato con cognome, nome e numero di matricola, va consegnato assieme alla bella copia.. Non si consegnano

Il foglio con il testo, compilato con cognome, nome e numero di matricola, va consegnato assieme alla bella copia.. Non si consegnano

Il foglio con il testo, compilato con cognome, nome e numero di matricola, va consegnato assieme alla bella copia.. Non si consegnano

Il foglio con il testo, compilato con cognome, nome e numero di matricola, va consegnato assieme alla bella copia.. Non si consegnano

Il foglio con il testo, compilato con cognome, nome e numero di matricola, va consegnato assieme alla bella copia.. Non si consegnano

Il foglio con il testo, compilato con cognome, nome e numero di ma- tricola, va consegnato assieme alla bella copia.. Non si consegnano