Corso di Laurea in
Sicurezza igienico-sanitaria degli alimenti
Metodologie statistiche per l’analisi del rischio
PROGETTAZIONE ED ANALISI DEGLI
ESPERIMENTI PER L’ANALISI DEL RISCHIO
Facoltà di Medicina Veterinaria, Università di Padova Docente: Dott. L. Corain
SOMMARIO
¾
Definizioni, principi e fasi del DoE (Design of
Experiments)
¾
Blocco e covariata
¾
ANOVA a due vie
¾
ANOVA multivia
¾
Piani 2k
¾
Fattori fissi e fattori casuali
PRINCIPI E FASI DEL DOE
z Un esperimento è una serie di prove in cui lo
sperimentatore fa variare deliberatamente dei fattori (controllabili) di input di un processo/sistema, osserva la risposta in un uscita e quindi, grazie ad opportune elaborazioni statistiche inferenziali, determina quali fattori inducono una variazione significativa nella risposta.
z Nell’esperimento sono sempre
presenti anche dei fattori (fonti di
variabilità) non controllabili
(strumenti di
esecuzione/misurazione della
prova, materiale sperimentale non omogeneo/uniforme,
campionamento, ecc.) i quali
inducono una variabilità ulteriore alla risposta che si somma a quella determinata dai fattori controllabili.
PRINCIPI E FASI DEL DOE
z Si noti che mentre la variabile risposta (ad es. il grado di
contaminazione) deve necessariamente essere una misura di tipo numerico, i fattori controllabili di input di un processo/sistema possono essere sia qualitativi (tipo di reagente, materiale di confezionamento, ecc.) sia quantitativi (% di additivo, quantità di ossidante, ecc.).
z In un esperimento fattoriale, tutte le possibili
combinazioni dei livelli dei fattori (detti trattamenti) vengono testati, generalmente ciascuno per un uguale numero di volte pari ad n (esperimento bilanciato).
z In un piano fattoriale frazionato invece non tutte le
combinazioni dei trattamenti vengono testate, ma sono una loro parte (detta frazione del piano).
z Se i trattamenti vengano testati una sola volta, si parla di
esperimento/piano fattoriale non replicato. Esso ha il forte limite di non consentire una analisi inferenziale.
PRINCIPI E FASI DEL DOE
z Grazie ad un opportuno modello statistico di
rappresentazione dei dati sperimentali è possibile
formalizzare il ruolo sia dei fattori controllabili sia di quelli
non controllabili: Y = µ + ε,
dove Y è la risposta, µ rappresenta il valore medio
della risposta, che può dipendere (linearmente) dai livelli (cioè dai valori) dei fattori controllabili. Ad es.
9µ = µ0 + τi (ANOVA ad una via)
9µ = µ0 + τi + βj (ANOVA ad una via con blocco)
9µ = µ0 + τi + βj + (τβ)ij (ANOVA a due vie)
ε rappresenta il termine di errore sperimentale, dove
confluiscono tutte le fonti (fattori) di variabilità non controllabile e che si assume indipendente ed identicamente distribuito secondo una v.a. gaussiana:
PRINCIPI E FASI DEL DOE
z Gli esperimenti sono largamente utilizzati nel campo
dell’analisi del rischio microbiologico, ad esempio allo scopo di
stabilire se il grado di contaminazione microbica può
essere messo in relazione ai livelli di alcuni fattori di interesse (tipo di materiale/luogo/temperatura di produzione/conservazione/trasporto degli alimenti);
confrontare i pattern di trasferimento di batteri in
base a diversi aspetti (strumenti di lavorazione, processi di sanitizzazione, ecc.);
validare un protocollo di laboratorio e studiarne la sua
ripetibilità e riproducibilità.
z In generale, tutti gli esperimenti sono progettati ed i dati
ottenuti elaborati con metodi statistici, tuttavia solo alcuni in modo preciso, altri invece sono pianificati poco e male ed analizzati in modo improprio.
PRINCIPI E FASI DEL DOE
È importante sottolineare che l’esperimento deve essere debitamente progettato prima della sua esecuzione. In particolare bisogna stabilire:
l’idonea risposta (conta dei batteri, quantità di una certa
sostanza, ecc.) al luce del problema in oggetto;
i fattori ed i rispettivi livelli che si vogliono manipolare
nell’esperimento e che ci si aspetta possano influenzare la risposta; esiste un ovvio trade-off tra numero di fattori/livelli e tempi/costi dell’esperimento;
il numero n di prove per trattamento (numero di
repliche); in generale si preferisce far sì che ogni
trattamento abbia lo stesso numero di prove (esperimento bilanciato);
una appropriata assegnazione del materiale
sperimentale ai trattamenti;
PRINCIPI E FASI DEL DOE
I principi basilari del DoE sono tre: randomizzazione,
replicazione e blocco.
z Randomizzazione: sia l’ordine di esecuzione delle
prove sia l’assegnazione del materiale sperimentale ai trattamenti deve avvenire in modo completamente casuale (randomizzato); questo consente di mediare gli effetti di fattori non controllabili sempre presenti (ma “nascosti”) che vanno così ad incidere in modo uniforme sui vari trattamenti.
z Replicazione: significa che ogni trattamento deve
essere eseguito in più di una prova indipendente; questo consente di migliorare la precisione della stima dell’effetto dei fattori, riducendo nel contempo la stima dell’errore e del rumore di fondo (si ricordi che l’errore standard della media campionaria è uguale a σ, scarto quadratico medio della popolazione, diviso √n).
PRINCIPI E FASI DEL DOE
z Blocco: si tratta di un fattore di disturbo noto e
controllabile che quasi certamente produce sulla risposta un effetto, che non interessa però allo sperimentatore. Tuttavia la variabilità che trasmette alla risposta deve essere minimizzata.
z Tipici fattori di disturbo/blocco sono: lotti di materiale
grezzo, operatori, provini, attrezzature, il fattore temporale (turni, giorni, ecc.).
z Se la variabilità del disturbo è nota e controllabile, si può
usare la tecnica dei blocchi; se il fattore di disturbo è noto, osservabile ma non controllabile, si può usare
l’analisi di covarianza per rimuovere l’effetto del fattore
di disturbo dall’analisi.
z Se il fattore di disturbo non è né noto né controllabile (a
“variabile nascosta”), si spera che la randomizzazione equilibri la sua influenza nei confronti dell’esperimento.
PRINCIPI E FASI DEL DOE
Le linee guida per la pianificazione ed analisi degli
esperimenti sono le seguenti:
Identificazione e formulazione del problema.
Scelta dei fattori, livelli ed intervalli.
Identificazioni dei blocchi e delle covariate.
Selezione della variabile di risposta.
Scelta del piano sperimentale:
9 determinazione del numero di repliche;
9 assegnazione del materiale sperimentale ai trattamenti;
9 definizione dell’ordine di esecuzione delle prove.
Esecuzione dell’esperimento.
Analisi statistica dei dati mediante metodi ANOVA
(Analysis of Variance).
Conclusioni e raccomandazioni (eventuale pianificazione
z Nell’ANOVA a due vie si vuole stabilire se l’effetto dei
due fattori di interesse A e B e della loro interazione ha un impatto significativo sulla risposta.
z Si definisce interazione la possibile sinergia dei due
fattori che si verifica quando l’effetto del fattore A sulla risposta è diverso a seconda dei livelli del fattore B.
z Il modello di rappresentazione dei dati è il seguente:
Yijk = µ + τi + βj + (τβ)ij + εijk,
con i=1,...,a, j=1,...,b, k=1,...n.
z Le analisi inferenziali di interesse corrispondono alle
verifiche d’ipotesi:
H0A: τ1=…=τa=0 contro H1A: τi ≠ 0 per almeno un livello i;
H0B: β1=…=βb=0 contro H1B: βj ≠ 0 per almeno un livello j;
H0AB: (τβ)11= …=(τβ)ab= 0 contro H1AB: (τβ)ij≠0 per almenouna combinazione di livelli ij.
Ad esempio, in uno studio sulle frodi alimentari, si vuole stabilire se i due fattori “origine della produzione” (due livelli: standard o commerciale) e “tipo di produzione” (due livelli: allevamento o pescato) e la loro interazione hanno un impatto significativo sulla quantità di grasso nella carne di branzino. I valori medi campionari della risposta, per ciascun livello dei singoli fattori (main effect plot) e per i 4 trattamenti in questione (interaction plot), possono fornire una preliminare indicazione descrittiva sul problema.
ANOVA A DUE VIE
Tipo Prod Me an Pescato Allevam 6 5 4 3 2 Origine Comm Std
Interaction Plot (fitted means) for grasso
M e an o f g ra sso Std Comm 6.0 5.5 5.0 4.5 4.0 Pescato Allevam
Origine Tipo Prod
2 2 2 ... .. ... . . ... 1 1 1 1 1 2 2 . .. . . ... . 1 1 1 1 1 ( ) ( ) ( ) ( ) ( ) a b n a b ijk i j i j k i j a b a b n ij i j ijk ij i j i j k y y bn y y an y y n y y y y y y = = = = = = = = = = − = − + − + − − + + −
∑∑∑
∑
∑
∑∑
∑∑∑
gradi di libertà:
1
1
1 (
1)(
1)
(
1)
T A B AB ESS
SS
SS
SS
SS
df
abn
a
b
a
b
ab n
=
+
+
+
− = − + − + −
− +
−
Per sviluppare una formale verifica di ipotesi, per ciascuna
delle tre ipotesi H0 di interesse, è necessario considerare la
seguente scomposizione della somma dei quadrati della risposta.
Grazie all’assunzione di normalità del termine di errore casuale, è possibile considerare tre statistiche test di tipo F, riassunte nella usuale tabella ANOVA.
Qualora uno o più p-value fossero inferiori al livello α
prefissato, si potrebbe rigettare la corrispondente ipotesi H0
e concludere che i relativi effetti sono significativi.
ANOVA A DUE VIE
Factor Type Levels Values
Origine fixed 2 Comm; Std
Tipo Prod fixed 2 Allevam; Pescato
Analysis of Variance for grasso, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P
Origine 1 88.630 93.720 93.720 12.83 0.001 Tipo Prod 1 30.892 68.671 68.671 9.40 0.003 Origine*Tipo Prod 1 122.552 122.552 122.552 16.78 0.000 Error 102 745.100 745.100 7.305 Total 105 987.173 S = 2.70276 R-Sq = 24.52% R-Sq(adj) = 22.30%
Se applichiamo l’analisi inferenziale ANOVA al caso studio sulle frodi alimentari dei branzini otteniamo i seguenti risultati. Fissato il livello α al 5%, si può concludere che sia il tipo di produzione, sia l’origine sia la loro interazione ha un effetto significativo sulla quantità di grasso nella carne.
ANOVA A DUE VIE
Tukey Simultaneous Tests Response Variable grasso
All Pairwise Comparisons among Levels of Origine*Tipo Prod Origine = Comm, Tipo Prod = Allevam subtracted from:
Difference SE of Adjusted Origine Tipo Prod of Means Difference T-Value P-Value Comm Pescato 0.561 0.6605 0.849 0.8308 Std Allevam 0.280 0.7616 0.368 0.9829 Std Pescato -3.620 0.7742 -4.676 0.0001 Origine = Comm, Tipo Prod = Pescato subtracted from:
Difference SE of Adjusted Origine Tipo Prod of Means Difference T-Value P-Value Std Allevam -0.281 0.7659 -0.367 0.9831 Std Pescato -4.181 0.7784 -5.371 0.0000 Origine = Std, Tipo Prod = Allevam subtracted from:
Difference SE of Adjusted Origine Tipo Prod of Means Difference T-Value P-Value Std Pescato -3.900 0.8659 -4.504 0.0001
Grazie all’applicazione della procedura dei confronti multipli a coppie (metodo di Tukey) possiamo concludere che solamente lo standard/pescato differisce (ha meno grasso, si veda l’interaction plot) rispetto agli altri 3 trattamenti, che presentano invece tra loro uguale valore medio di grasso.
Residual Pe rc en t 10 5 0 -5 -10 99.9 99 90 50 10 1 0.1 Fitted Value Re si du al 6 5 4 3 2 10 5 0 -5 Residual Fr eq ue nc y 9 6 3 0 -3 -6 24 18 12 6 0 Observation Order Re si du al 100 90 80 70 60 50 40 30 20 10 1 10 5 0 -5
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for grasso
ANOVA A DUE VIE
L’analisi dei residui indica che l’assunzione di normalità del termine di errore è ragionevole, mentre qualche perplessità rimane sull’assunzione di omogeneità dalla varianza (ipotesi di omoschedasticità).
z E’ importante notare che la procedura dell’ANOVA tratta
ogni fattore come se fosse qualitativo,
indipendentemente dal fatto che sia qualitativo o quantitativo.
z A volte un esperimento può coinvolgere sia fattori
quantitativi che qualitativi.
z Questo fatto può essere considerato nell’analisi
statistica in riferimento ad un modello di regressione, per
i fattori quantitativi a ciascun livello (o combinazione dei livelli) dei fattori qualitativi. Si tratta di una analisi aggiuntiva (e seguente a quella ANOVA) che può essere implementata sugli stessi dati sperimentali.
z Queste curve e/o superfici di risposta sono spesso un
aiuto considerevole nell’interpretazione pratica dei risultati.
Si consideri uno studio sulla contaminazione di Escherichia
coli in funzione della temperatura di conservazione
dell’alimento (fattore A) ed il tipo di materiale di conservazione (fattore B).
In questo caso, separatamente per ciascun materiale, è possibile applicare anche un modello di regressione, ad es.
Yi = β0 + β1 Ti + β1 Ti2 + ε
i .
ANOVA A DUE VIE
Factor Type Levels Values
Materiale fixed 3 1; 2; 3
Temper fixed 3 15; 70; 125
Analysis of Variance for Batteri, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P
Materiale 2 10683.7 10683.7 5341.9 7.91 0.002 Temper 2 39118.7 39118.7 19559.4 28.97 0.000 Materiale*Temper 4 9613.8 9613.8 2403.4 3.56 0.019 Error 27 18230.7 18230.7 675.2 Total 35 77647.0 S = 25.9849 R-Sq = 76.52% R-Sq(adj) = 69.56%
L’applicazione dell’analisi inferenziale ANOVA al caso studio sulla contaminazione di Escherichia coli mette in luce i seguenti risultati. Fissato il livello α al 5%, si può concludere che sia il materiale sia la temperatura di conservazione, così come la loro interazione, hanno un effetto significativo sulla contaminazione batterica.
ANOVA A DUE VIE
Analizzando i main effect e interaction plot (dopo l’analisi inferenziale) possiamo stabilire quale sia il materiale migliore e peggiore (1 e 3) e quale sia l’effetto della temperatura (correlazione diretta con contaminazione). Inoltre si desume che al variare del materiale, l’effetto della temperatura non è lo stesso (ogni materiale ha un proprio profilo di contaminazione in funzione della temperatura).
Temper Me an 125 70 15 150 125 100 75 50 Materiale 3 1 2
Interaction Plot (fitted means) for Batteri
M e an of B a tte ri 3 2 1 150 140 130 120 110 100 90 80 70 60 125 70 15 Materiale Temper
ANOVA A DUE VIE
L’analisi dei residui non evidenzia alcuna criticità rispetto alle
tre assunzioni (normalità, indipendenza ed omoschedasticità) sul termine di errore casuale del modello.
Residual Pe rc en t 50 25 0 -25 -50 99 90 50 10 1 Fitted Value Re si du al 150 125 100 75 50 50 25 0 -25 -50 Residual Fr eq ue nc y 45 30 15 0 -15 -30 -45 -60 10.0 7.5 5.0 2.5 0.0 Observation Order Re si du al 35 30 25 20 15 10 5 1 50 25 0 -25 -50
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
ANOVA A DUE VIE
Dal momento che uno dei due fattori è di tipo quantitativo (temperatura) è possibile stimare una curva di risposta (polinomiale di 2° grado) per ciascuno dei tre materiali. Dai risultati si possono desumere delle importanti indicazioni sul profili di contaminazione per i tre materiali.
Temper Ba tte ri 140 120 100 80 60 40 20 0 200 150 100 50 0 Materiale 3 1 2
ANALISI DELLA VARIANZA MULTIVIA
Modello statistico (3 fattori)
( ) ( ) ( ) ( )
⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ = = = = + + + + + + + + = n l c k b j a iYijkl i j k ij ik jk ijk ijkl
,..., 2 , 1 ,..., 2 , 1 ,..., 2 , 1 ,..., 2 , 1 ε τβγ βγ τγ τβ γ β τ µ Yijkl è variabile casuale che indica l’ijkl‐esima osservazione µ è il valore atteso totale, è un parametro comune a tutti i livelli dell’esperimento τi è l’effetto dell’i‐esimo livello del fattore A βj è l’effetto del j‐esimo livello del fattore B γk è l’effetto del k‐esimo livello del fattore C ( )τβ ijè l’effetto dell’interazione tra il fattore A e il fattore B ( )τγ ikè l’effetto dell’interazione tra il fattore A e il fattore C ( )βγ jk è l’effetto dell’interazione tra il fattore B e il fattore C ( )τβγ ijk è l’effetto dell’interazione tra il fattore A, il fattore B e il fattore C εijkl rappresenta la componente dell’errore casuale avente distribuzione normale con media zero e varianza σ 2. Numero di osservazioni totali: abcn
z La procedura di base è simile al caso a due fattori; tutti le
abc…k combinazioni dei fattori (trattamenti) , ciascuna
replicata n volte, vengono realizzate in ordine casuale.
z Anche l’analisi ANOVA è simile e si basa sulla
scomposizione della somma dei quadrati del tipo:
z Per quanto riguarda l’analisi inferenziale, si avranno
tante verifiche di ipotesi (cosiddette sugli effetti principali) quanti sono i k fattori, così come si andrà a testare la significatività delle interazioni a due, a tre e così via.
T A B AB AC ABC AB K E
SS
SS
SS
SS
SS
SS
SS
SS
=
+
+ +
+
+
+
+ +
+
PIANI 2K
z Lo studio sulle frodi alimentari è un esempio di piano 22,
ovvero di piano 2k con k=2. In generale, un piano 2k è un
caso particolare di piano multivia quando si considerano k fattori, ciascuno dei quali su 2 livelli (detti con-venzionalmente “alto”/”basso” o “presenza”/“assenza”, rispettivamente per fattori quantitativi o qualitativi).
z Si noti che il modello di rappresentazione dei dati include
k effetti principali, e interazioni a 2 e a 3 e così via.
z Il piano 2k è particolarmente utile nelle fasi iniziali della
sperimentazione quando è probabile che ci siano molti fattori da analizzare. Dato che tale piano determina un numero di trattamenti che il minimo valore possibile per
lo studio di k fattori, il piano 2k viene ampiamente
utilizzato negli esperimenti di screening.
z Dato che si considerano solamente due livelli per fattore,
si assume implicitamente che la risposta vari linearmente nel range dei livelli scelti del fattore.
2 k ⎛ ⎞ ⎜ ⎟ ⎝ ⎠ 3 k ⎛ ⎞ ⎜ ⎟ ⎝ ⎠
Esempio: si consideri il processo di riempimento di una bevanda gasata dove la risposta (differenza dell’altezza del livello target) è in funzione di 3 fattori, quali A: % di carbonazione, B: pressione e C: velocità del macchinario.
Per ciascuno degli 8 trattamenti sono state realizzate n=2 repliche.
PIANI 2K
Term Effect Coef SE Coef T P Constant 1.0000 0.1976 5.06 0.001 A 3.0000 1.5000 0.1976 7.59 0.000 B 2.2500 1.1250 0.1976 5.69 0.000 C 1.7500 0.8750 0.1976 4.43 0.002 A*B 0.7500 0.3750 0.1976 1.90 0.094 A*C 0.2500 0.1250 0.1976 0.63 0.545 B*C 0.5000 0.2500 0.1976 1.26 0.242 A*B*C 0.5000 0.2500 0.1976 1.26 0.242 S = 0.790569 R-Sq = 93.59% R-Sq(adj) = 87.98% Analysis of Variance for Y (coded units)
Source DF Seq SS Adj SS Adj MS F P Main Effects 3 68.500 68.500 22.8333 36.53 0.000 2-Way Interactions 3 3.500 3.500 1.1667 1.87 0.214 3-Way Interactions 1 1.000 1.000 1.0000 1.60 0.242 Residual Error 8 5.000 5.000 0.6250 Pure Error 8 5.000 5.000 0.6250 Total 15 78.000
PIANI 2K
Main effect e interaction plot.
A B C 30 25 200 250 4 2 0 4 2 0 A 10 12 B 25 30
Interaction Plot (data means) for Y
Me an o f Y 12 10 2 1 0 30 25 250 200 2 1 0 A B C
30.0 Y -2 0 27.5 2 B 10 11 25.0 12 A 240 Y -2 -1 0 1 220 C 10 11 200 12 A 240 Y -2 -1 0 1 220 C 25.0 27.5 200 30.0 B Hold Values A 10 B 25 C 200 Surface Plots of Y
PIANI 2K
Surface e contour plot.
B*A 12.0 11.5 11.0 10.5 10.0 30.0 27.5 25.0 C*A 12.0 11.5 11.0 10.5 10.0 240 220 200 C*B 30.0 27.5 25.0 240 220 200 Hold Values A 10 B 25 C 200 Y -1 - 0 0 - 1 1 - 2 > 2 < -2 -2 - -1 Contour Plots of Y
z Negli esperimenti che abbiamo considerato finora i fattori
si assumono come fissi: ciò significa che lo sperimentatore può fissare a propria scelta i livelli del fattore stesso.
z L’analisi inferenziale mira a stabilire se quei specifici
livelli del fattore inducono una variazione significativa
nella risposta.
z Talvolta invece i livelli dei fattori non possono essere
considerati fissi, ma sono di fatto estratti casualmente da una più ampia popolazione di possibili livelli (ad es. alcun tra tutti i possibili laboratori, operatori, ecc.).
z Parliamo in questo caso di fattori casuali. L’obiettivo è
stabilire se l’intera popolazione di un dato fattore casuale ha un effetto significativo sulla risposta.
FATTORI FISSI E FATTORI CASUALI
z Nei disegni con fattori casuali spesso l’obiettivo è anche
quello di isolare e stimare la parte della variabilità
imputabile al fattore casuale, separandola dalla variabilità
non controllabile (rappresentata dal termine casuale ε).
z Nel caso di un singolo fattore casuale, il modello statistico
è definito come
sia τi sia εi sono variabili casuali, ovvero
da cui, la variabilità totale della variabile casuale che rappresenta ciascuna osservazione è data da
1, 2,...,
1, 2,...,
ij i iji
a
y
j
n
µ τ ε
⎧
=
= + +
⎨ =
⎩
2 2(0,
) e
(0,
)
ijIIN
iIIN
τε
∼
σ
τ
∼
σ
2 2( )
ijV y
=
σ
+
σ
τz La variabilità totale delle osservazioni è scomposta in una
componente che misura la variabilità tra i trattamenti e una che misura la variabilità all’interno dei trattamenti.
z La verifica di ipotesi sugli effetti di un trattamento individuale
è priva di significato, pertanto vengono valutate le ipotesi sulle componenti di varianza:
z Se σ2τ=0 tutti i trattamenti sono identici; se invece σ2τ>0 c’è
variabilità tra i trattamenti (e quindi un effetto sulla risposta).
z I valori attesi delle somme dei quadrati portano a
z Bisogna quindi valutare la statistica test F con a-1 e N-1
gradi di libertà: .
FATTORI FISSI E FATTORI CASUALI
2 0 2 1 : 0 : 0 H H τ τ
σ
σ
= > 0 Treatments/
EF
=
MS
MS
2 2 2(
E)
e (
Treatments)
E MS
=
σ
E MS
=
σ
+
n
σ
τz Gli stimatori dei componenti della varianza sono:
z Nel caso di due o più fattori (tutti od in parte) di tipo
casuale, si possono ricavare opportuni stimatori dei componenti della varianza e stimare il peso che ciascuno di questi ha sulla variabilità (e quindi sulla riproducibilità) dell’intero sistema/protocollo di misurazione.
z Si noti che talvolta il metodo di analisi della varianza può
condurre ad una stima negativa (ovviamente priva di significato) di un componente della varianza.
2 2 2 2 2
ˆ
e
ˆ
ˆ
ˆ
ˆ
E Treatments Treatments E EMS
n
MS
MS
MS
n
MS
τ τσ
σ
σ
σ
σ
=
+
=
−
=
=
STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ
z Spesso risulta di interesse validare/studiare un protocollo
di laboratorio mediante un esperimento pianificato al fine di studiare/stimare le componenti di variabilità di un determinato sistema di misurazione. Si parla di ANOVA Gauge R&R (Repeatability & Reproducibility).
z Per ripetibilità si intende la variazione nelle misure prese
da una sola persona o strumento sulla stessa unità e alle stesse condizioni. Si tratta della variabilità attribuibile
esclusivamente all’errore sperimentale (σ2 relativo ad ε) .
z Con riproducibilità ci si riferisce invece alla componente
della variabilità che può essere attribuita all’operatore (inteso quindi come fattore casuale, come se un operatore venisse “estratto” da una ipotetica popolazione).
z Nel caso si considerasse anche il fattore laboratorio,
saremmo di fronte ad un modello con due fattori casuali, entrambi con un possibile impatto sulla riproducibilità.
STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ
z Si noti che il fattore operatore risultata nidificato (nested)
all’interno del fattore laboratorio; questo perché ovviamente un operatore opera solamente all’interno di un dato laboratorio; in presenza di fattori nested, il numero di trattamenti e di gradi di libertà si calcolano in modo diverso dal caso standard.
z Un ulteriore fattore che viene spesso considerato negli
studi Gauge R&R è rappresentato dalle parti (parts) o
campioni (samples), ovvero ciò che viene misurato.
z Spesso le parti/campioni sono estratti (trattasi di un fattore
casuale) dalla medesima popolazione (ad es. lotto di prodotto o materia prima) e ci si aspetta che tra le diverse parti/campioni non vi sia una differenza significativa.
z Anche l’effetto delle parti/campioni può avere un
Esempio: uno studio inter-laboratorio, dove la risposta è il conteggio delle colonie batteriche aerobiche, è stato condotto in 10 laboratori in ciascuno dei quali 2 analisti hanno provato 2 campioni di uno stesso lotto, facendo le analisi in doppio per ogni campione. Quindi, ogni laboratorio ha effettuato 2x2x2=8 analisi e il numero totale di prove è pari ad 80. Si tratta di uno studio Gauge R&R con 3 fattori (full nested). Dall’analisi della tabella ANOVA, fissato il livello α=5%, si evince che sia tra laboratori sia tra campioni esiste una differenza significativa.
STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ
Analysis of Variance for Log(counts), using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
Laboratory 9 12.63583 12.63583 1.40398 9.42 0.001 Analyst(Laboratory) 10 1.49058 1.49058 0.14906 2.22 0.062 Sample(Laboratory Analyst) 20 1.34515 1.34515 0.06726 4.84 0.000 Error 40 0.55540 0.55540 0.01389 Total 79 16.02695 S = 0.117835 R-Sq = 96.53% R-Sq(adj) = 93.16%
STUDI DI RIPETIBILITÀ E RIPRODUCIBILITÀ
Residual Pe rc e nt 0.2 0.1 0.0 -0.1 -0.2 99.9 99 90 50 10 1 0.1 Fitted Value Re si dua l 6.5 6.0 5.5 5.0 4.5 0.2 0.1 0.0 -0.1 -0.2 Residual Fr eq ue nc y 0.2 0.1 0.0 -0.1 -0.2 20 15 10 5 0 Observation Order Re si du a l 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 0.2 0.1 0.0 -0.1 -0.2Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Log(counts)
Variance Components
% of
Source Var Comp. Total StDev
Laboratory 0.157 71.99 0.396 Analyst 0.020 9.39 0.143 Sample 0.027 12.25 0.163 Error 0.014 6.37 0.118 Total 0.218 0.467 Ripetibilità = .014 (6.4%) Riproducibilità = .157 + .020 + .027 = .204(93.6%) Lo g( co unt s) Laboratory Analyst Sample 10 9 8 7 6 5 4 3 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 6.5 6.0 5.5 5.0 4.5
Dotplot of Log(counts) vs Laboratory; Analyst; Sample
Laboratory Me a n o f L o g( co u nt s) 10 9 8 7 6 5 4 3 2 1 6.5 6.0 5.5 5.0