Scheda riassuntiva ANALISI DELLA VARIANZA
Consideriamo una variabile quantitativa e una variabile qualitativa osservate su uno stesso insieme di unità sperimentali: ad esempio la quantità di una sostanza e la zona di
prelevamento dei campioni. Si vuole studiare se i valori della variabile quantitativa dipendono dall’appartenenza o meno delle osservazioni a una delle classi della variabile qualitativa.
La variabile qualitativa è anche detta fattore e le modalità con cui si presenta ciascun fattore vengono delle livelli. Il caso in cui ogni livello ha un ugual numero di unità sperimentali è detto esperimento bilanciato.
Se indichiamo con yik il valore della variabile quantitativa assunta dalla k-esima unità
sperimentale del livello i, l’ipotesi che i risultati della variabile Y dipendono dall’appartenenza delle osservazioni a un livello si può riscrivere con le seguente formula
yik=+i+errore Dove:
indica un valore medio generale dipendente dal tipo di caratteristica quantitativa;
i indica un valore che dipende dall’i-esimo livello della variabile qualitativa.
Come nel caso del modello di regressione lineare, la formula precedente si può riscrivere in termini matriciali e per determinare i coefficienti si minimizza la somma dei quadrati dei residui. È intuitivo pensare che se Y non fosse influenzato dal fattore il modello sarebbe
yik=+errore
La minima somma dei quadrati dei residui in questo caso si ha quando =y.
Per verificare se la variabile quantitativa Y è influenzata o meno dal fattore, si analizza, quindi, l’errore relativo che si commette nella somma dei quadrati dei residui del modello ridotto (formato dalla sola media) rispetto al modello completo. Questi dati vengono offerti dall’output di Minitab, che calcola, in particolare, il p-value della statistica test utilizzata in questo
contesto. Avremo che
Si rifiuta l’ipotesi di non influenza del fattore (ossia si accetta l’ipotesi che il fattore influenzi la variabile quantitativa), se il p-value è < di (=livello del test, usualmente 5% o 1%)
Si accetta l’ipotesi di non influenza del fattore, se il p-value è > di .
Esempio: Consideriamo i risultati di un’analisi di laboratorio sull’infiammabilità di un
particolare tessuto prodotto da diverse fabbriche. Sostanzialmente l’analisi consiste nel tenere sotto la fiamma un pezzo di standard di stoffa appoggiato su una piastra di metallo . Quando la fiamma è rimossa e il tessuto ha finito di bruciare, è misurata la lunghezza del tessuto
carbonizzato. Il problema è stabilire se i laboratori di diverse fabbriche danno gli stessi risultati se applicano lo stesso esperimento allo stesso tessuto. Da una prima analisi descrittiva dei dati si ha che
Total
Variable fabbrica Count Mean TrMean StDev Median valore 1 11 3,336 3,289 0,452 3,100 2 11 3,600 3,622 0,460 3,600 3 11 3,318 3,322 0,376 3,500 4 11 3,0000 3,0000 0,2864 2,9000
Si osserva una differenza nelle medie, ma non si è ancora certi che le medie siano significativamente diverse nelle 4 fabbriche.
Effettuando l’analisi della varianza (ANOVA) si ottiene il seguente output con Minitab
One-way ANOVA: valore versus fabbrica
Source DF SS MS F P fabbrica 3 1,990 0,663 4,14 0,012 Error 40 6,402 0,160
Total 43 8,392
S = 0,4001 R-Sq = 23,71% R-Sq(adj) = 17,99%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev ---+---+---+---+- 1 11 3,3364 0,4523 (---*---)
2 11 3,6000 0,4604 (---*---) 3 11 3,3182 0,3763 (---*---)
4 11 3,0000 0,2864 (---*---)
---+---+---+---+- 3,00 3,30 3,60 3,90
Dal valore (cerchiato) del p-value 0,012<5% si può concludere che l’esperimento da risultati diversi nelle 4 fabbriche. L’output di Minitab offre anche la rappresentazione grafica degli intervalli di confidenza delle medie nei singoli livelli e induce ad un’analoga conclusione. Infatti nonc’è sovrapposizione degli intervalli per i 4 livelli: si conclude, quindi, che le medie sono significativamente diverse.
Se si considerano, però, solo le fabbriche 1 e 2, il risultato sembrerebbe diverso. Abbiamo, infatti, dall’analisi della varianza considerando solo i valori delle fabbriche 1 e 2 che
One-way ANOVA: valore_1; valore_2
Source DF SS MS F P Factor 1 0,382 0,382 1,84 0,191 Error 20 4,165 0,208
Total 21 4,548
S = 0,4564 R-Sq = 8,41% R-Sq(adj) = 3,83%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev ---+---+---+---+- valore_1 11 3,3364 0,4523 (---*---)
valore_2 11 3,6000 0,4604 (---*---) ---+---+---+---+- 3,25 3,50 3,75 4,00 Pooled StDev = 0,4564
In questo caso il p-value è pari a 0,19>5% e questo porta a concludere che le medie NON sono significativamente diverse, ossia l’esperimento dà risultati analoghi in queste due fabbriche.