Progettazione ed analisi degli esperimenti_1_slidexpag

(1)

Corso di Laurea in

Sicurezza igienico-sanitaria degli alimenti

Metodologie statistiche per l’analisi del rischio

PROGETTAZIONE ED ANALISI DEGLI

ESPERIMENTI PER L’ANALISI DEL RISCHIO

Facoltà di Medicina Veterinaria, Università di Padova Docente: Dott. L. Corain

(2)

SOMMARIO

¾

Definizioni, principi e fasi del DoE (Design of

Experiments)

¾

Blocco e covariata

¾

ANOVA a due vie

¾

ANOVA multivia

¾

Piani 2k

¾

Fattori fissi e fattori casuali

(3)

PRINCIPI E FASI DEL DOE

z Un esperimento è una serie di prove in cui lo

sperimentatore fa variare deliberatamente dei fattori (controllabili) di input di un processo/sistema, osserva la risposta in un uscita e quindi, grazie ad opportune elaborazioni statistiche inferenziali, determina quali fattori inducono una variazione significativa nella risposta.

z Nell’esperimento sono sempre

presenti anche dei fattori (fonti di

variabilità) non controllabili

(strumenti di

esecuzione/misurazione della

prova, materiale sperimentale non omogeneo/uniforme,

campionamento, ecc.) i quali

inducono una variabilità ulteriore alla risposta che si somma a quella determinata dai fattori controllabili.

(4)

PRINCIPI E FASI DEL DOE

z Si noti che mentre la variabile risposta (ad es. il grado di

contaminazione) deve necessariamente essere una misura di tipo numerico, i fattori controllabili di input di un processo/sistema possono essere sia qualitativi (tipo di reagente, materiale di confezionamento, ecc.) sia quantitativi (% di additivo, quantità di ossidante, ecc.).

z In un esperimento fattoriale, tutte le possibili

combinazioni dei livelli dei fattori (detti trattamenti) vengono testati, generalmente ciascuno per un uguale numero di volte pari ad n (esperimento bilanciato).

z In un piano fattoriale frazionato invece non tutte le

combinazioni dei trattamenti vengono testate, ma sono una loro parte (detta frazione del piano).

z Se i trattamenti vengano testati una sola volta, si parla di

esperimento/piano fattoriale non replicato. Esso ha il forte limite di non consentire una analisi inferenziale.

(5)

PRINCIPI E FASI DEL DOE

z Grazie ad un opportuno modello statistico di

rappresentazione dei dati sperimentali è possibile

formalizzare il ruolo sia dei fattori controllabili sia di quelli

non controllabili: Y = µ + ε,

dove Y è la risposta, µ rappresenta il valore medio

della risposta, che può dipendere (linearmente) dai livelli (cioè dai valori) dei fattori controllabili. Ad es.

9µ = µ₀ + τ_i (ANOVA ad una via)

9µ = µ₀ + τ_i + β_j (ANOVA ad una via con blocco)

9µ = µ₀ + τ_i + β_j + (τβ)_ij (ANOVA a due vie)

ε rappresenta il termine di errore sperimentale, dove

confluiscono tutte le fonti (fattori) di variabilità non controllabile e che si assume indipendente ed identicamente distribuito secondo una v.a. gaussiana:

(6)

PRINCIPI E FASI DEL DOE

z Gli esperimenti sono largamente utilizzati nel campo

dell’analisi del rischio microbiologico, ad esempio allo scopo di

stabilire se il grado di contaminazione microbica può

essere messo in relazione ai livelli di alcuni fattori di interesse (tipo di materiale/luogo/temperatura di produzione/conservazione/trasporto degli alimenti);

confrontare i pattern di trasferimento di batteri in

base a diversi aspetti (strumenti di lavorazione, processi di sanitizzazione, ecc.);

validare un protocollo di laboratorio e studiarne la sua

ripetibilità e riproducibilità.

z In generale, tutti gli esperimenti sono progettati ed i dati

ottenuti elaborati con metodi statistici, tuttavia solo alcuni in modo preciso, altri invece sono pianificati poco e male ed analizzati in modo improprio.

(7)

PRINCIPI E FASI DEL DOE

È importante sottolineare che l’esperimento deve essere debitamente progettato prima della sua esecuzione. In particolare bisogna stabilire:

l’idonea risposta (conta dei batteri, quantità di una certa

sostanza, ecc.) al luce del problema in oggetto;

i fattori ed i rispettivi livelli che si vogliono manipolare

nell’esperimento e che ci si aspetta possano influenzare la risposta; esiste un ovvio trade-off tra numero di fattori/livelli e tempi/costi dell’esperimento;

il numero n di prove per trattamento (numero di

repliche); in generale si preferisce far sì che ogni

trattamento abbia lo stesso numero di prove (esperimento bilanciato);

una appropriata assegnazione del materiale

sperimentale ai trattamenti;

(8)

PRINCIPI E FASI DEL DOE

I principi basilari del DoE sono tre: randomizzazione,

replicazione e blocco.

z Randomizzazione: sia l’ordine di esecuzione delle

prove sia l’assegnazione del materiale sperimentale ai trattamenti deve avvenire in modo completamente casuale (randomizzato); questo consente di mediare gli effetti di fattori non controllabili sempre presenti (ma “nascosti”) che vanno così ad incidere in modo uniforme sui vari trattamenti.

z Replicazione: significa che ogni trattamento deve

essere eseguito in più di una prova indipendente; questo consente di migliorare la precisione della stima dell’effetto dei fattori, riducendo nel contempo la stima dell’errore e del rumore di fondo (si ricordi che l’errore standard della media campionaria è uguale a σ, scarto quadratico medio della popolazione, diviso √n).

(9)

PRINCIPI E FASI DEL DOE

z Blocco: si tratta di un fattore di disturbo noto e

controllabile che quasi certamente produce sulla risposta un effetto, che non interessa però allo sperimentatore. Tuttavia la variabilità che trasmette alla risposta deve essere minimizzata.

z Tipici fattori di disturbo/blocco sono: lotti di materiale

grezzo, operatori, provini, attrezzature, il fattore temporale (turni, giorni, ecc.).

z Se la variabilità del disturbo è nota e controllabile, si può

usare la tecnica dei blocchi; se il fattore di disturbo è noto, osservabile ma non controllabile, si può usare

l’analisi di covarianza per rimuovere l’effetto del fattore

di disturbo dall’analisi.

z Se il fattore di disturbo non è né noto né controllabile (a

“variabile nascosta”), si spera che la randomizzazione equilibri la sua influenza nei confronti dell’esperimento.

(10)

PRINCIPI E FASI DEL DOE

Le linee guida per la pianificazione ed analisi degli

esperimenti sono le seguenti:

Identificazione e formulazione del problema.

Scelta dei fattori, livelli ed intervalli.

Identificazioni dei blocchi e delle covariate.

Selezione della variabile di risposta.

Scelta del piano sperimentale:

9 determinazione del numero di repliche;

9 assegnazione del materiale sperimentale ai trattamenti;

9 definizione dell’ordine di esecuzione delle prove.

Esecuzione dell’esperimento.

Analisi statistica dei dati mediante metodi ANOVA

(Analysis of Variance).

Conclusioni e raccomandazioni (eventuale pianificazione

(11)

z Nell’ANOVA a due vie si vuole stabilire se l’effetto dei

due fattori di interesse A e B e della loro interazione ha un impatto significativo sulla risposta.

z Si definisce interazione la possibile sinergia dei due

fattori che si verifica quando l’effetto del fattore A sulla risposta è diverso a seconda dei livelli del fattore B.

z Il modello di rappresentazione dei dati è il seguente:

Y_ijk = µ + τ_i + β_j + (τβ)_ij + ε_ijk,

con i=1,...,a, j=1,...,b, k=1,...n.

z Le analisi inferenziali di interesse corrispondono alle

verifiche d’ipotesi:

H_0A: τ₁=…=τ_a=0 contro H_1A: τ_i ≠ 0 per almeno un livello i;

H_0B: β₁=…=β_b=0 contro H_1B: β_j≠ 0 per almeno un livello j;

H_0AB: (τβ)₁₁= …=(τβ)_ab= 0 contro H_1AB: (τβ)_ij≠0 per almeno

una combinazione di livelli ij.

(12)

Ad esempio, in uno studio sulle frodi alimentari, si vuole stabilire se i due fattori “origine della produzione” (due livelli: standard o commerciale) e “tipo di produzione” (due livelli: allevamento o pescato) e la loro interazione hanno un impatto significativo sulla quantità di grasso nella carne di branzino. I valori medi campionari della risposta, per ciascun livello dei singoli fattori (main effect plot) e per i 4 trattamenti in questione (interaction plot), possono fornire una preliminare indicazione descrittiva sul problema.

ANOVA A DUE VIE

Tipo Prod Me an Pescato Allevam 6 5 4 3 2 Origine Comm Std

Interaction Plot (fitted means) for grasso

M e an o f g ra sso Std Comm 6.0 5.5 5.0 4.5 4.0 Pescato Allevam

Origine Tipo Prod

(13)

2 2 2 ... .. ... . . ... 1 1 1 1 1 2 2 . .. . . ... . 1 1 1 1 1 ( ) ( ) ( ) ( ) ( ) a b n a b ijk i j i j k i j a b a b n ij i j ijk ij i j i j k y y bn y y an y y n y y y y y y = = = = = = = = = = − = − + − + − − + + −

∑∑∑

∑

∑∑

∑∑∑

gradi di libertà:

1

1 1 (

1)(

1)

(

1)

T A B AB E

SS

df

abn

a

b

a

b

ab n

=

+

− = − + − + −

− +

−

Per sviluppare una formale verifica di ipotesi, per ciascuna

delle tre ipotesi H₀ di interesse, è necessario considerare la

seguente scomposizione della somma dei quadrati della risposta.

(14)

Grazie all’assunzione di normalità del termine di errore casuale, è possibile considerare tre statistiche test di tipo F, riassunte nella usuale tabella ANOVA.

Qualora uno o più p-value fossero inferiori al livello α

prefissato, si potrebbe rigettare la corrispondente ipotesi H₀

e concludere che i relativi effetti sono significativi.

(15)

ANOVA A DUE VIE

Factor Type Levels Values

Origine fixed 2 Comm; Std

Tipo Prod fixed 2 Allevam; Pescato

Analysis of Variance for grasso, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P

Origine 1 88.630 93.720 93.720 12.83 0.001 Tipo Prod 1 30.892 68.671 68.671 9.40 0.003 Origine*Tipo Prod 1 122.552 122.552 122.552 16.78 0.000 Error 102 745.100 745.100 7.305 Total 105 987.173 S = 2.70276 R-Sq = 24.52% R-Sq(adj) = 22.30%

Se applichiamo l’analisi inferenziale ANOVA al caso studio sulle frodi alimentari dei branzini otteniamo i seguenti risultati. Fissato il livello α al 5%, si può concludere che sia il tipo di produzione, sia l’origine sia la loro interazione ha un effetto significativo sulla quantità di grasso nella carne.

(16)

ANOVA A DUE VIE

Tukey Simultaneous Tests Response Variable grasso

All Pairwise Comparisons among Levels of Origine*Tipo Prod Origine = Comm, Tipo Prod = Allevam subtracted from:

Difference SE of Adjusted Origine Tipo Prod of Means Difference T-Value P-Value Comm Pescato 0.561 0.6605 0.849 0.8308 Std Allevam 0.280 0.7616 0.368 0.9829 Std Pescato -3.620 0.7742 -4.676 0.0001 Origine = Comm, Tipo Prod = Pescato subtracted from:

Difference SE of Adjusted Origine Tipo Prod of Means Difference T-Value P-Value Std Allevam -0.281 0.7659 -0.367 0.9831 Std Pescato -4.181 0.7784 -5.371 0.0000 Origine = Std, Tipo Prod = Allevam subtracted from:

Difference SE of Adjusted Origine Tipo Prod of Means Difference T-Value P-Value Std Pescato -3.900 0.8659 -4.504 0.0001

Grazie all’applicazione della procedura dei confronti multipli a coppie (metodo di Tukey) possiamo concludere che solamente lo standard/pescato differisce (ha meno grasso, si veda l’interaction plot) rispetto agli altri 3 trattamenti, che presentano invece tra loro uguale valore medio di grasso.

(17)

Residual Pe rc en t 10 5 0 -5 -10 99.9 99 90 50 10 1 0.1 Fitted Value Re si du al 6 5 4 3 2 10 5 0 -5 Residual Fr eq ue nc y 9 6 3 0 -3 -6 24 18 12 6 0 Observation Order Re si du al 100 90 80 70 60 50 40 30 20 10 1 10 5 0 -5

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for grasso

ANOVA A DUE VIE

L’analisi dei residui indica che l’assunzione di normalità del termine di errore è ragionevole, mentre qualche perplessità rimane sull’assunzione di omogeneità dalla varianza (ipotesi di omoschedasticità).

(18)

z E’ importante notare che la procedura dell’ANOVA tratta

ogni fattore come se fosse qualitativo,

indipendentemente dal fatto che sia qualitativo o quantitativo.

z A volte un esperimento può coinvolgere sia fattori

quantitativi che qualitativi.

z Questo fatto può essere considerato nell’analisi

statistica in riferimento ad un modello di regressione, per

i fattori quantitativi a ciascun livello (o combinazione dei livelli) dei fattori qualitativi. Si tratta di una analisi aggiuntiva (e seguente a quella ANOVA) che può essere implementata sugli stessi dati sperimentali.

z Queste curve e/o superfici di risposta sono spesso un

aiuto considerevole nell’interpretazione pratica dei risultati.

(19)

Si consideri uno studio sulla contaminazione di Escherichia

coli in funzione della temperatura di conservazione

dell’alimento (fattore A) ed il tipo di materiale di conservazione (fattore B).

In questo caso, separatamente per ciascun materiale, è possibile applicare anche un modello di regressione, ad es.

Y_i = β₀ + β₁ T_i + β₁ T_i2 + ε

i .

(20)

ANOVA A DUE VIE

Factor Type Levels Values

Materiale fixed 3 1; 2; 3

Temper fixed 3 15; 70; 125

Analysis of Variance for Batteri, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P

Materiale 2 10683.7 10683.7 5341.9 7.91 0.002 Temper 2 39118.7 39118.7 19559.4 28.97 0.000 Materiale*Temper 4 9613.8 9613.8 2403.4 3.56 0.019 Error 27 18230.7 18230.7 675.2 Total 35 77647.0 S = 25.9849 R-Sq = 76.52% R-Sq(adj) = 69.56%

L’applicazione dell’analisi inferenziale ANOVA al caso studio sulla contaminazione di Escherichia coli mette in luce i seguenti risultati. Fissato il livello α al 5%, si può concludere che sia il materiale sia la temperatura di conservazione, così come la loro interazione, hanno un effetto significativo sulla contaminazione batterica.

(21)

ANOVA A DUE VIE

Analizzando i main effect e interaction plot (dopo l’analisi inferenziale) possiamo stabilire quale sia il materiale migliore e peggiore (1 e 3) e quale sia l’effetto della temperatura (correlazione diretta con contaminazione). Inoltre si desume che al variare del materiale, l’effetto della temperatura non è lo stesso (ogni materiale ha un proprio profilo di contaminazione in funzione della temperatura).

Temper Me an 125 70 15 150 125 100 75 50 Materiale 3 1 2

Interaction Plot (fitted means) for Batteri

M e an of B a tte ri 3 2 1 150 140 130 120 110 100 90 80 70 60 125 70 15 Materiale Temper

(22)

ANOVA A DUE VIE

L’analisi dei residui non evidenzia alcuna criticità rispetto alle

tre assunzioni (normalità, indipendenza ed omoschedasticità) sul termine di errore casuale del modello.

Residual Pe rc en t 50 25 0 -25 -50 99 90 50 10 1 Fitted Value Re si du al 150 125 100 75 50 50 25 0 -25 -50 Residual Fr eq ue nc y 45 30 15 0 -15 -30 -45 -60 10.0 7.5 5.0 2.5 0.0 Observation Order Re si du al 35 30 25 20 15 10 5 1 50 25 0 -25 -50

(23)

ANOVA A DUE VIE

Dal momento che uno dei due fattori è di tipo quantitativo (temperatura) è possibile stimare una curva di risposta (polinomiale di 2° grado) per ciascuno dei tre materiali. Dai risultati si possono desumere delle importanti indicazioni sul profili di contaminazione per i tre materiali.

Temper Ba tte ri 140 120 100 80 60 40 20 0 200 150 100 50 0 Materiale 3 1 2

(24)

ANALISI DELLA VARIANZA MULTIVIA

Modello statistico (3 fattori)

( ) ( ) ( ) ( )

⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ = = = = + + + + + + + + = n l c k b j a i

Y_ijkl _i _j _k _ij _ik _jk _ijk _ijkl

,..., 2 , 1 ,..., 2 , 1 ,..., 2 , 1 ,..., 2 , 1 ε τβγ βγ τγ τβ γ β τ µ Yijkl è variabile casuale che indica l’ijkl‐esima osservazione µ è il valore atteso totale, è un parametro comune a tutti i livelli dell’esperimento τ_i è l’effetto dell’i‐esimo livello del fattore A β_j è l’effetto del j‐esimo livello del fattore B γ_k è l’effetto del k‐esimo livello del fattore C ( )τβ _ijè l’effetto dell’interazione tra il fattore A e il fattore B ( )τγ _ikè l’effetto dell’interazione tra il fattore A e il fattore C ( )βγ _jk è l’effetto dell’interazione tra il fattore B e il fattore C ( )τβγ _ijk è l’effetto dell’interazione tra il fattore A, il fattore B e il fattore C ε_ijkl rappresenta la componente dell’errore casuale avente distribuzione normale con media zero e varianza σ 2. Numero di osservazioni totali: abcn

(25)

z La procedura di base è simile al caso a due fattori; tutti le

abc…k combinazioni dei fattori (trattamenti) , ciascuna

replicata n volte, vengono realizzate in ordine casuale.

z Anche l’analisi ANOVA è simile e si basa sulla

scomposizione della somma dei quadrati del tipo:

z Per quanto riguarda l’analisi inferenziale, si avranno

tante verifiche di ipotesi (cosiddette sugli effetti principali) quanti sono i k fattori, così come si andrà a testare la significatività delle interazioni a due, a tre e così via.

T A B AB AC ABC AB K E

SS

=

+

+ +

+

+ +

+

(26)

PIANI 2K

z Lo studio sulle frodi alimentari è un esempio di piano 22,

ovvero di piano 2k _{con k=2. In generale, un piano 2}k _{è un}

caso particolare di piano multivia quando si considerano k fattori, ciascuno dei quali su 2 livelli (detti con-venzionalmente “alto”/”basso” o “presenza”/“assenza”, rispettivamente per fattori quantitativi o qualitativi).

z Si noti che il modello di rappresentazione dei dati include

k effetti principali, e interazioni a 2 e a 3 e così via.

z Il piano 2k è particolarmente utile nelle fasi iniziali della

sperimentazione quando è probabile che ci siano molti fattori da analizzare. Dato che tale piano determina un numero di trattamenti che il minimo valore possibile per

lo studio di k fattori, il piano 2k _{viene ampiamente}

utilizzato negli esperimenti di screening.

z Dato che si considerano solamente due livelli per fattore,

si assume implicitamente che la risposta vari linearmente nel range dei livelli scelti del fattore.

2 k ⎛ ⎞ ⎜ ⎟ ⎝ ⎠ 3 k ⎛ ⎞ ⎜ ⎟ ⎝ ⎠

(27)

Esempio: si consideri il processo di riempimento di una bevanda gasata dove la risposta (differenza dell’altezza del livello target) è in funzione di 3 fattori, quali A: % di carbonazione, B: pressione e C: velocità del macchinario.

Per ciascuno degli 8 trattamenti sono state realizzate n=2 repliche.

(28)

PIANI 2K

Term Effect Coef SE Coef T P Constant 1.0000 0.1976 5.06 0.001 A 3.0000 1.5000 0.1976 7.59 0.000 B 2.2500 1.1250 0.1976 5.69 0.000 C 1.7500 0.8750 0.1976 4.43 0.002 A*B 0.7500 0.3750 0.1976 1.90 0.094 A*C 0.2500 0.1250 0.1976 0.63 0.545 B*C 0.5000 0.2500 0.1976 1.26 0.242 A*B*C 0.5000 0.2500 0.1976 1.26 0.242 S = 0.790569 R-Sq = 93.59% R-Sq(adj) = 87.98% Analysis of Variance for Y (coded units)

Source DF Seq SS Adj SS Adj MS F P Main Effects 3 68.500 68.500 22.8333 36.53 0.000 2-Way Interactions 3 3.500 3.500 1.1667 1.87 0.214 3-Way Interactions 1 1.000 1.000 1.0000 1.60 0.242 Residual Error 8 5.000 5.000 0.6250 Pure Error 8 5.000 5.000 0.6250 Total 15 78.000

(29)

PIANI 2K

Main effect e interaction plot.

A B C 30 25 200 250 4 2 0 4 2 0 A 10 12 B 25 30

Interaction Plot (data means) for Y

Me an o f Y 12 10 2 1 0 30 25 250 200 2 1 0 A B C

(30)

30.0 Y -2 0 27.5 2 B 10 ₁₁ _25.0 12 A 240 Y -2 -1 0 1 220 C 10 ₁₁ ₂₀₀ 12 A 240 Y -2 -1 0 1 220 C 25.0 _27.5 ₂₀₀ 30.0 B Hold Values A 10 B 25 C 200 Surface Plots of Y

PIANI 2K

Surface e contour plot.

B*A 12.0 11.5 11.0 10.5 10.0 30.0 27.5 25.0 C*A 12.0 11.5 11.0 10.5 10.0 240 220 200 C*B 30.0 27.5 25.0 240 220 200 Hold Values A 10 B 25 C 200 Y -1 - 0 0 - 1 1 - 2 > 2 < -2 -2 - -1 Contour Plots of Y

(31)

z Negli esperimenti che abbiamo considerato finora i fattori

si assumono come fissi: ciò significa che lo sperimentatore può fissare a propria scelta i livelli del fattore stesso.

z L’analisi inferenziale mira a stabilire se quei specifici

livelli del fattore inducono una variazione significativa

nella risposta.

z Talvolta invece i livelli dei fattori non possono essere

considerati fissi, ma sono di fatto estratti casualmente da una più ampia popolazione di possibili livelli (ad es. alcun tra tutti i possibili laboratori, operatori, ecc.).

z Parliamo in questo caso di fattori casuali. L’obiettivo è

stabilire se l’intera popolazione di un dato fattore casuale ha un effetto significativo sulla risposta.

(32)

FATTORI FISSI E FATTORI CASUALI

z Nei disegni con fattori casuali spesso l’obiettivo è anche

quello di isolare e stimare la parte della variabilità

imputabile al fattore casuale, separandola dalla variabilità

non controllabile (rappresentata dal termine casuale ε).

z Nel caso di un singolo fattore casuale, il modello statistico

è definito come

sia τ_i sia ε_i sono variabili casuali, ovvero

da cui, la variabilità totale della variabile casuale che rappresenta ciascuna osservazione è data da

1, 2,...,

ij i ij

i

a

y

j

n

µ τ ε

⎧

=

= + +

_{⎨ =}

⎩

2 2

(0,

) e

(0,

)

ij

IIN

i

IIN

τ

ε

∼

σ

τ

∼

σ

2 2

( )

_ij

V y

=

σ

+

σ

_τ

(33)

z La variabilità totale delle osservazioni è scomposta in una

componente che misura la variabilità tra i trattamenti e una che misura la variabilità all’interno dei trattamenti.

z La verifica di ipotesi sugli effetti di un trattamento individuale

è priva di significato, pertanto vengono valutate le ipotesi sulle componenti di varianza:

z Se σ2_τ=0 tutti i trattamenti sono identici; se invece σ2_τ>0 c’è

variabilità tra i trattamenti (e quindi un effetto sulla risposta).

z I valori attesi delle somme dei quadrati portano a

z Bisogna quindi valutare la statistica test F con a-1 e N-1

gradi di libertà: .

FATTORI FISSI E FATTORI CASUALI

2 0 2 1 : 0 : 0 H H τ τ

σ

= > 0 Treatments

/

E

F

=

MS

2 2 2

(

_E

)

e (

_Treatments

)

E MS

=

σ

E MS

=

σ

+

n

σ

_τ

(34)

z Gli stimatori dei componenti della varianza sono:

z Nel caso di due o più fattori (tutti od in parte) di tipo

casuale, si possono ricavare opportuni stimatori dei componenti della varianza e stimare il peso che ciascuno di questi ha sulla variabilità (e quindi sulla riproducibilità) dell’intero sistema/protocollo di misurazione.

z Si noti che talvolta il metodo di analisi della varianza può

condurre ad una stima negativa (ovviamente priva di significato) di un componente della varianza.

2 2 2 2 2

ˆ

e

ˆ

E Treatments Treatments E E

MS

n

MS

n

MS

τ τ

σ

=

+

=

−

=

(35)

STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ

z Spesso risulta di interesse validare/studiare un protocollo

di laboratorio mediante un esperimento pianificato al fine di studiare/stimare le componenti di variabilità di un determinato sistema di misurazione. Si parla di ANOVA Gauge R&R (Repeatability & Reproducibility).

z Per ripetibilità si intende la variazione nelle misure prese

da una sola persona o strumento sulla stessa unità e alle stesse condizioni. Si tratta della variabilità attribuibile

esclusivamente all’errore sperimentale (σ2 relativo ad ε) .

z Con riproducibilità ci si riferisce invece alla componente

della variabilità che può essere attribuita all’operatore (inteso quindi come fattore casuale, come se un operatore venisse “estratto” da una ipotetica popolazione).

z Nel caso si considerasse anche il fattore laboratorio,

saremmo di fronte ad un modello con due fattori casuali, entrambi con un possibile impatto sulla riproducibilità.

(36)

STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ

z Si noti che il fattore operatore risultata nidificato (nested)

all’interno del fattore laboratorio; questo perché ovviamente un operatore opera solamente all’interno di un dato laboratorio; in presenza di fattori nested, il numero di trattamenti e di gradi di libertà si calcolano in modo diverso dal caso standard.

z Un ulteriore fattore che viene spesso considerato negli

studi Gauge R&R è rappresentato dalle parti (parts) o

campioni (samples), ovvero ciò che viene misurato.

z Spesso le parti/campioni sono estratti (trattasi di un fattore

casuale) dalla medesima popolazione (ad es. lotto di prodotto o materia prima) e ci si aspetta che tra le diverse parti/campioni non vi sia una differenza significativa.

z Anche l’effetto delle parti/campioni può avere un

(37)

Esempio: uno studio inter-laboratorio, dove la risposta è il conteggio delle colonie batteriche aerobiche, è stato condotto in 10 laboratori in ciascuno dei quali 2 analisti hanno provato 2 campioni di uno stesso lotto, facendo le analisi in doppio per ogni campione. Quindi, ogni laboratorio ha effettuato 2x2x2=8 analisi e il numero totale di prove è pari ad 80. Si tratta di uno studio Gauge R&R con 3 fattori (full nested). Dall’analisi della tabella ANOVA, fissato il livello α=5%, si evince che sia tra laboratori sia tra campioni esiste una differenza significativa.

STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ

Analysis of Variance for Log(counts), using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P

Laboratory 9 12.63583 12.63583 1.40398 9.42 0.001 Analyst(Laboratory) 10 1.49058 1.49058 0.14906 2.22 0.062 Sample(Laboratory Analyst) 20 1.34515 1.34515 0.06726 4.84 0.000 Error 40 0.55540 0.55540 0.01389 Total 79 16.02695 S = 0.117835 R-Sq = 96.53% R-Sq(adj) = 93.16%

(38)

STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ

Residual Pe rc e nt 0.2 0.1 0.0 -0.1 -0.2 99.9 99 90 50 10 1 0.1 Fitted Value Re si dua l 6.5 6.0 5.5 5.0 4.5 0.2 0.1 0.0 -0.1 -0.2 Residual Fr eq ue nc y 0.2 0.1 0.0 -0.1 -0.2 20 15 10 5 0 Observation Order Re si du a l 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 0.2 0.1 0.0 -0.1 -0.2

Residual Plots for Log(counts)

Variance Components

% of

Source Var Comp. Total StDev

Laboratory 0.157 71.99 0.396 Analyst 0.020 9.39 0.143 Sample 0.027 12.25 0.163 Error 0.014 6.37 0.118 Total 0.218 0.467 Ripetibilità = .014 (6.4%) Riproducibilità = .157 + .020 + .027 = .204(93.6%) Lo g( co unt s) Laboratory Analyst Sample 10 9 8 7 6 5 4 3 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 6.5 6.0 5.5 5.0 4.5

Dotplot of Log(counts) vs Laboratory; Analyst; Sample

Laboratory Me a n o f L o g( co u nt s) 10 9 8 7 6 5 4 3 2 1 6.5 6.0 5.5 5.0

Progettazione ed analisi degli esperimenti_1_slidexpag

Metodologie statistiche per l’analisi del rischio

PROGETTAZIONE ED ANALISI DEGLI

ESPERIMENTI PER L’ANALISI DEL RISCHIO

SOMMARIO

¾

Definizioni, principi e fasi del DoE (Design of

Experiments)

¾

Blocco e covariata

¾

ANOVA a due vie

¾

ANOVA multivia

¾

Piani 2k

¾

Fattori fissi e fattori casuali

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE

PRINCIPI E FASI DEL DOE







ANOVA A DUE VIE

∑∑∑

∑

∑

∑∑

∑∑∑

gradi di libertà:

1

1

1 (

1)(

1)

(

1)

SS

SS

SS

SS

SS

df

abn

a

b

a

b

ab n

=

+

+

+

− = − + − + −

− +

−

ANOVA A DUE VIE

ANOVA A DUE VIE

ANOVA A DUE VIE

ANOVA A DUE VIE

ANOVA A DUE VIE

ANOVA A DUE VIE

ANOVA A DUE VIE

ANALISI DELLA VARIANZA MULTIVIA

( ) ( ) ( ) ( )

SS

SS

SS

SS

SS

SS

SS

SS

=

_{⎨ =}