Nota sull'Analisi della Varianza

(1)

Analisi della Varianza a un fattore

In tutti i modelli di regressione esaminati nora sia la variabile risposta sia le esplicative erano quantitative, o almeno concettualmente quantitative. In molte situazioni accade di dover valutare, invece, se il fatto di appartenere ad un gruppo o ad un altro possa inuenzare una variabile risposta. Volendo mantenere l'impostazione utilizzata nora, un modo per arontare questo nuovo problema consiste nel considerare nel nostro modello di regressione, come variabile esplicativa, una variabile che indichi l'appartenenza ad uno specico gruppo piuttosto che ad un altro. Questa variabile esplicativa sarà quindi qualitativa. Uno strumento per vericare se una variabile qualitativa che assume due sole modalità inuenza una variabile continua lo conosciamo già e consiste nel test t a due campioni.

Ci chiediamo ora se è possibile generalizzare tale procedura per le situazioni in cui la variabile esplicativa qualitativa può assumere più di due modalità. Ad esempio ci possia-mo chiedere se il livello di istruzione di una persona (diciapossia-mo Scuole dell'Obbligo, Licenza Superiore, Laurea) può essere considerato un buon previsore del livello di reddito, o se co-noscendo il partito di un parlamentare sia possibile prevedere quanto ha speso per le ultime elezioni, o se il valore delle azioni di borsa di un'azienda dipende dal gruppo industriale a cui appartiene. . . Stiamo chiaramente descrivendo un problema di regressione, ma di tipo un po' speciale; in questo contesto, dire che l'appartenenza al gruppo ha eetto sulla variabile risposta è analogo a dire che il valore medio della variabile dipendente è diverso per ciascuno dei diversi gruppi. Si tratta cioè di un problema di confronto tra medie.

Si consideri la situazione più semplice, con una sola variabile esplicativa qualitativa (o categoriale) che può assumere K modalità (o livelli). Il modello di analisi della varianza a un fattore (ANOVA) è il seguente:

yij = µ + αi+ εij, i = 1, . . . , K, j = 1, . . . , ni (1)

dove yij è il valore della y per il j-esimo membro dell'i-esimo gruppo, µ è in livello complessivo

(corrispondente all'incirca a una media complessiva), αi misura l'eetto di essere nell'i-esimo

gruppo, εij è un termine di errore e niè il numero di osservazioni che appartengono all'i-esimo

gruppo.

I termini α = [α1, . . . , αK]T rappresentano le dierenze nelle medie E(y) derivanti

dal-l'appartenere a ciascun gruppo in particolare. È naturale dire che αi = 0 per ogni i se non ci

sono dierenze tra gruppi, ma dobbiamo andare cauti in queste aermazioni. Ad esempio, consideriamo tre gruppi, corrispondenti a Scuole dell'Obbligo, Licenza Superiore e Laurea. Se il salario medio per ogni gruppo fosse 30000 Euro, corrisponderebbe a nessun eetto per il Livello di istruzione, e potrebbe venir modellato in maniera naturale come

µ = 30000; α1 = α2 = α3 = 0;

ma potrebbe anche venire modellato

µ = 20000; α1 = α2 = α3 = 10000.

Nel secondo caso i parametri non ci aiutano a capire ciò che sta succendendo, e quindi non riettono esattamente quello che vorremmo. Per questo, si usa aggiungere una restrizione

(2)

aggiuntiva al modello (1), del tipo

K

X

i=1

αi = 0.

Con questo vincolo aggiuntivo, ci garantiamo che nella situazione in cui non ci sia alcun eetto di gruppo, avremo α = 0 (cioè tutti i singoli parametri αi sono nulli). Il modello (1)

può essere facilmente riscritto come un modello di regressione: y = β0x0+ β1x1+ . . . + βKxK+ ε, dove x0 =            1 ... ... ... ... 1            x1 =          1 ... 1 0 ... 0          . . . xK =          0 ... 0 1 ... 1          ,

dove i vettori x1, x2, . . . , xK avranno 1 per le unità che appartengono al gruppo 1, o 2, . . .,

o K, e 0 per tutte le altre unità, e vengono detti variabili indicatrici o in inglese variabili dummy. Con questa notazione avremo che x0 = x1+ x2+ . . . + xK; è per questo che, dunque,

abbiamo bisogno della condizione Piαi = 0. La forma del modello appena mostrata, che lo

assimila a un modello di regressione, ci ricorda che il test F per vericare l'ipotesi che tutti i parametri siano nulli, β1 = β2 = . . . = βK = 0, sta ora vericando l'ipotesi che E(yij) = µ

per ogni i (cioè, non ci aspettiamo nessuna dierenza nella media della risposta tra i diversi gruppi). Ovviamente sarà ˆyij = ¯yi (cioè, il valore interpolato per tutte le osservazioni nel

gruppo i sarà la media campionaria delle y sulle osservazioni appartenenti al medesimo gruppo i).

Se si prova a stimare il modello di regressione appena visto utilizzando come esplicative tutte le variabili indicatrici dalla x1alla xK, e includendo l'intercetta, si otterrà un messaggio

di errore, visto che la condizione Pixi = 0 non viene utilizzata. Un modello ANOVA potrà

venire stimato usando la regressione con K −1 variabili esplicative, e non con K. Ci sono di-versi modi per fare questo (ricordiamo, peraltro, che ogni software statistico possiede già una procedura per a stima di un modello ANOVA, non dovremmo quindi passare esplicitamente attraverso il modello di regressione, il software lo fa per noi).

1. Si elimina una qualsiasi delle variabili indicatrici. Quando si segue questa strada, il gruppo corrispondente alla variabile eliminata rappresenta un gruppo di riferimento. Il termine costante ˆβ0corrisponde alla y stimata per quel gruppo, mentre le stime delle βi

(i > 0) corrispondono alla dierenza tra le y stimate nel gruppo i e quelle del gruppo di riferimento. La statistica t per ciascuna variabile può essere usata per vericare la signicatività di queste dierenze. Così, se un gruppo è un gruppo di riferimento naturale, questo è l'approccio più appropriato per stimare il modello, e quel gruppo sarà il candidato più ovvio come gruppo di riferimento (ad esempio, quando y è il tempo no al termine di una determinata condizione medica, i gruppi rappresentano diversi

(3)

dosaggi di un farmaco, e un gruppo corrisponde alla situazione di somministrazione di nessun dosaggio; questo gruppo, considerato come gruppo di controllo, sarà il nostro gruppo di riferimento).

2. Se non c'è alcun gruppo di riferimento naturale, può essere desiderabile un modello di regressione in cui i coecienti non considerino un particolare gruppo in maniera speciale. È possibile un tale approccio usando variabili speciali chiamate codiche degli eetti. Si prenda un gruppo di riferimento (a dierenza delle variabili indicatrici, qui non è importante quale gruppo sia). Prendiamo ad esempio il gruppo K. Per i = 1, . . . , K − 1si denisca il previsore come

xi =

 



1 se l'osservazione è nel gruppo i −1 se l'osservazione è nel gruppo K

0 altrimenti

Ora il termine costante ˆβ0 è una stima del livello medio µ e ogni stima ˆβi corrisponde

all'eetto di essere nel gruppo i (αi). Così, a dierenza del precedente, questo modo di

stimare è consistente con la notazione dell'equazione (1). L'eetto di essere nel gruppo di riferimento (αK) è semplicemente − PK−1_i=1 βi, visto che le α devono sommare a 0. Le

statistiche t sulle singole variabili possono essere usate per vericare se αi = 0. Inoltre

le codiche degli eetti sono utili quando si hanno più di una variabile qualitativa (di gruppo).

In qualunque modo il modello sia stimato, è importante ricordare che questi modelli ANOVA sono, di fatto, modelli di regressione. Tutti gli usuali assunti sulle εi sono ancora

validi. Particolarmente importante in questo contesto è l'assunto che la varianza è costante, visto che sappiamo (per denizione) che nei dati esistono sottogruppi ben deniti.

Quando il test F è signicativo, vuol dire che c'è una signicativa dierenza nel valore medio della variabile risposta tra i gruppi. Quali gruppi sono diversi dagli altri? È un problema di confronti multipli. Possiamo guardare a tutte le I = K₂

= K(K − 1)/2 coppie, e vericare ciascuna usando un test t a due campioni. Tuttavia, a un livello di signicatività di 0.05 (che in questo contesto sarà il tasso di errore a coppie), il 5% di questi confronti risulterà signicativo semplicemente per caso! Ad esempio, se ci sono 7 gruppi (K = 7), si faranno I = 7₂

= 7(7 − 1)/2 = 21 veriche di ipotesi, di cui, in media, un paio ci diranno che le dierenze saranno statisticamente signicative anche se non c'è realmente dierenza tra nessuno dei gruppi (questo approccio è a volte chiamato metodo di Fisher, o metodo delle dierenze meno signicative.

Procedure di confronti multipli correggono questo problema controllando il tasso di errore complessivo. Un tasso di errore complessivo di 0.05 dice che se si stimano molti modelli ANOVA a dati in cui non c'è alcuna dierenza tra gruppi, solo il 5% delle volte ciascuna coppia di gruppi mostrerebbe dierenze signicative. Ci sono diversi approcci per trattare i confronti multipli; i più comuni sono il metodo di Bonferroni e il metodo di Tukey.

Il metodo di Bonferroni si basa sull'idea che se si desidera un livello di signicatività complessivo di α, ogni test a coppie dovrebbe essere fatto con un livello di signicatività pari

(4)

a α/I. Così, per esempio, per K = 7, ogni test t per le singole coppie dovrebbe essere fatto a un livello di signicatività di 0.05/21 = 0.00238. Il metodo di Bonferroni è molto generale e molto facile da applicare, e di solito controlla bene il livello di signicatività complessivo. Risulta però spesso troppo conservativo (cioè non riuta l'ipotesi nulla quando dovrebbe).

Il metodo di Tukey è un metodo per i confronti multipli specicamente derivato per i confronti in un modello ANOVA. Per questo è meno generale dell'approccio di Bonferroni, ma in genere è meno conservativo (particolarmente se il disegno è bilanciato, cioè se il numero di osservazioni in ciascun gruppo è circa uguale).

(3) Le categorie hanno un ordine naturale. Potremmo pensare che tale ordine corrisponda a una scala numerica. Per esempio, la variabile risposta è lo stipendio di una persona, e la variabile di raggruppamento è il suo livello di istruzione (Scuole dell'Obbligo, Licenza Superiore, Laurea). L'aumento medio del salario tra chi ha nito solo le Scuole dell'Ob-bligo e chi invece ha un diploma di Maturità è approssimativamente uguale all'aumento dello stipendio tra chi ha la Maturità e chi ha invece una Laurea? Ciè, la relazione tra salario e istruzione è lineare se l'istruzione fosse su una scala equispaziata di, diciamo, 1,2,3? Possiamo vericare una tale domanda usando un test F parziale.

Sia Lineare una variabile quantitativa che corrisponde all'ordine naturale dei grup-pi, diciamo 1, 2, e 3. La domanda è se un ordinamento nei gruppi implica anche un ordinamento per y. Si considerino le due situazioni seguenti:

Gruppo Stipendio medio Stipendio medio

Scuola dell'Obbligo 20000 20000

Licenza Superiore 35000 35000

Laurea 50000 65000

Nel primo caso, lo stipendio è linearmente legato al livello di istruzione, visto che la crescita nel livello di istruzione è associato ad un aumento costante dello stipendio medio. Un modello di regressione con solo la variabile Lineare si adatterebbe bene a questi dati. Usare questo modello sarebbe utile visto che un modello con una sola variabile esplicativa lineare è più semplice del modello ANOVA completo (che ha un parametro in più). Nella seconda situazione proposta, invece, l'aumento medio dello stipendio tra chi ha Licenza Superiore e chi ha la Laurea è il doppio dell'aumento tra coloro che hanno fatto solo la Scuola dell'Obbligo e quelli con la Maturità. Questa non è una relazione lineare e il modello basato solo su Lineare non si adatterebbe bene ai dati. Un test F parziale che confronti il modello ANOVA con il modello con solo la variabile Lineare è un test su se il modello più semplice è adeguato; se il test non è statisticamente signicativo, allora il modello più semplice è adeguato.