FS 6 - ANOVA ed esempi di Post-Hoc
Dr Giorgio Pioda
14 gennaio 2021
Controllo ad anello
Nel file anello.zip trovate i dati relativi al controllo ad anello dell’ematologia negli ospedali dell’EOC. Si analizzino i dati per scoprire se ci sono anomalie.
a) Si verifichi con un test ANOVA a doppia entrata (due vie) per almeno due misure ematologiche a scelta che i 5 apparecchi in uso restituiscono risultati comparabili1. (Per l’ANOVA si può anche utilizzare
Gnumeric, per i test successivi no). A livello concettuale è come se si svolgesse un test T ma invece di avere solamente due campioni se ne hanno cinque. È necessario serializzare i dati in formato long ed utilizzare R. I dati vanno organizzati in 3 colonne: una per la misura in sé, una per il mese e una per l’ospedale in cui è stata svolta la misurazione; successivamente si useranno le funzioni aov() e anova() in modo analogo a quanto fatto per le regressioni.
• stack(. . . ) permette di serializzare in modo semplice • aov(. . . ~ . . . , data=. . . )
• anova(. . . ) ANOVA tipo I, oppure meglio ancora
• drop1(. . . ) ANOVA tipo III (in questo caso non ci sono differenze tra i due tipi)
b) Si svolga il test di Friedman e di Quade, analoghi non-parametrici del test ANOVA sopra utilizzato2.
Per questo punto conviene usare R. Attenzione all’input dei dati. • friedman.test(. . . ,gruppi,blocchi)
• quade.test(. . . )
c) Di fronte a differenze significative si svolga il test posthoc di Tukey per determinare l’origine delle differenze3.
• La funzione TukeyHSD(. . . ,which) riceve il modello anova e il nome della descrittore da testare • Memorizzare l’output in una variabile usare il comando plot() per stampare il grafico del test
post-hoc
• Con il pacchetto {multcomp} provare ad ottenere lo stesso risultato con la sintassi glht(. . . , linfct = mcp(predittore = “Tukey”)). Anche in questo caso si può memorizzare il risultato e usare plot(. . . )
1Soliani, Cap. 11
2Soliani, Cap. 15, pag. 57 e segg.
3Si noti come è sempre possibile svolgere confornti post-hoc. Non è vero, come spesso riportato nei libri di test più vecchi, che i test post-hoc siano adeguati unicamente se il test ANOVA in se risulta positivo. I test post-hoc devono essere guidati dalle domende sperimentali a cui si vuole rispondere.
Controllo ad anello Fallstudium 6
d) Facoltativo: si usi il pacchetto {multcomp} e si verifichi se c’è una differenza significativa tra gli ospedali del sopra e sottoceneri. Si determini una comparazione tra l’ospedale OSG e tutti gli altri e un apio di altre differenze a piacimento. È bene che venga applicata la correzione di Bonferroni4 per test multipli
post-hoc. La sintassi è un po’ complicata, per esempio:
• *glht(fit,linfct=mcp(ospedale = c(“OSG (OCL + ODL + ITA + OBV) = 0”, “(OSG + OCL) -(ODL + ITA + OBV) = 0”)))
• summary(. . . ,test=adjusted("bonferroni))
e) Facoltativo: si esplori anche il metodo di Dunnet. Molto usato quando si confrontano vari livelli di un predittore (per esempio gli ospedali) usando uno di questo come controllo.
• glht(. . . , linfct = mcp(predittore = “Dunnett”)) • plot(. . . )
4La gestione deglie errori nei test post-hoc ha vari approcci. Infatto svolgendo numerosi test vi è il rischio che un eccessivo numero di questi risulti casualmente significativo. Pertanto è necessario ridurre la significatività in base al numero di test post-hoc svolti. Il metodo di Tukey usa una propria distribuzione ed è indicato per le comparazioni a coppie. Per comparazioni generiche, senza nessun vincolo di ortogonalità la correzione di Bonferroni risulta un po’ conservativa ma molto “sicura” nella gestione del FWER (Family Wise Error Rate). Agli interessati rimando il link di wikipedia.