y Scheda riassuntiva ANALISI DELLA VARIANZA

(1)

Scheda riassuntiva ANALISI DELLA VARIANZA

Consideriamo una variabile quantitativa e una variabile qualitativa osservate su uno stesso insieme di unità sperimentali: ad esempio la quantità di una sostanza e la zona di

prelevamento dei campioni. Si vuole studiare se i valori della variabile quantitativa dipendono dall’appartenenza o meno delle osservazioni a una delle classi della variabile qualitativa.

La variabile qualitativa è anche detta fattore e le modalità con cui si presenta ciascun fattore vengono delle livelli. Il caso in cui ogni livello ha un ugual numero di unità sperimentali è detto esperimento bilanciato.

Se indichiamo con yik il valore della variabile quantitativa assunta dalla k-esima unità

sperimentale del livello i, l’ipotesi che i risultati della variabile Y dipendono dall’appartenenza delle osservazioni a un livello si può riscrivere con le seguente formula

yik=+i+errore Dove:

 indica un valore medio generale dipendente dal tipo di caratteristica quantitativa;

i indica un valore che dipende dall’i-esimo livello della variabile qualitativa.

Come nel caso del modello di regressione lineare, la formula precedente si può riscrivere in termini matriciali e per determinare i coefficienti si minimizza la somma dei quadrati dei residui. È intuitivo pensare che se Y non fosse influenzato dal fattore il modello sarebbe

yik=+errore

La minima somma dei quadrati dei residui in questo caso si ha quando =^y.

Per verificare se la variabile quantitativa Y è influenzata o meno dal fattore, si analizza, quindi, l’errore relativo che si commette nella somma dei quadrati dei residui del modello ridotto (formato dalla sola media) rispetto al modello completo. Questi dati vengono offerti dall’output di Minitab, che calcola, in particolare, il p-value della statistica test utilizzata in questo

contesto. Avremo che

Si rifiuta l’ipotesi di non influenza del fattore (ossia si accetta l’ipotesi che il fattore influenzi la variabile quantitativa), se il p-value è < di  (=livello del test, usualmente 5% o 1%)

Si accetta l’ipotesi di non influenza del fattore, se il p-value è > di .

Esempio: Consideriamo i risultati di un’analisi di laboratorio sull’infiammabilità di un

particolare tessuto prodotto da diverse fabbriche. Sostanzialmente l’analisi consiste nel tenere sotto la fiamma un pezzo di standard di stoffa appoggiato su una piastra di metallo . Quando la fiamma è rimossa e il tessuto ha finito di bruciare, è misurata la lunghezza del tessuto

carbonizzato. Il problema è stabilire se i laboratori di diverse fabbriche danno gli stessi risultati se applicano lo stesso esperimento allo stesso tessuto. Da una prima analisi descrittiva dei dati si ha che

Total

Variable fabbrica Count Mean TrMean StDev Median valore 1 11 3,336 3,289 0,452 3,100 2 11 3,600 3,622 0,460 3,600 3 11 3,318 3,322 0,376 3,500 4 11 3,0000 3,0000 0,2864 2,9000

Si osserva una differenza nelle medie, ma non si è ancora certi che le medie siano significativamente diverse nelle 4 fabbriche.

Effettuando l’analisi della varianza (ANOVA) si ottiene il seguente output con Minitab

One-way ANOVA: valore versus fabbrica

Source DF SS MS F P fabbrica 3 1,990 0,663 4,14 0,012 Error 40 6,402 0,160

Total 43 8,392

S = 0,4001 R-Sq = 23,71% R-Sq(adj) = 17,99%

(2)

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev ---+---+---+---+- 1 11 3,3364 0,4523 (---*---)

2 11 3,6000 0,4604 (---*---) 3 11 3,3182 0,3763 (---*---)

4 11 3,0000 0,2864 (---*---)

---+---+---+---+- 3,00 3,30 3,60 3,90

Dal valore (cerchiato) del p-value 0,012<5% si può concludere che l’esperimento da risultati diversi nelle 4 fabbriche. L’output di Minitab offre anche la rappresentazione grafica degli intervalli di confidenza delle medie nei singoli livelli e induce ad un’analoga conclusione. Infatti nonc’è sovrapposizione degli intervalli per i 4 livelli: si conclude, quindi, che le medie sono significativamente diverse.

Se si considerano, però, solo le fabbriche 1 e 2, il risultato sembrerebbe diverso. Abbiamo, infatti, dall’analisi della varianza considerando solo i valori delle fabbriche 1 e 2 che

One-way ANOVA: valore_1; valore_2

Source DF SS MS F P Factor 1 0,382 0,382 1,84 0,191 Error 20 4,165 0,208

Total 21 4,548

S = 0,4564 R-Sq = 8,41% R-Sq(adj) = 3,83%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev ---+---+---+---+- valore_1 11 3,3364 0,4523 (---*---)

valore_2 11 3,6000 0,4604 (---*---) ---+---+---+---+- 3,25 3,50 3,75 4,00 Pooled StDev = 0,4564

In questo caso il p-value è pari a 0,19>5% e questo porta a concludere che le medie NON sono significativamente diverse, ossia l’esperimento dà risultati analoghi in queste due fabbriche.