• Non ci sono risultati.

Analisi multivariata della varianza per permutazioni (PERMANOVA)

4. Materiali e metod

4.9 Analisi statistica dei dat

4.9.5 Analisi multivariata della varianza per permutazioni (PERMANOVA)

Il piano di campionamento adottato in questo studio corrisponde ad un disegno sperimentale a tre fattori: zona, transetto e pedotipo. Il primo fattore, considerato fisso, ha assunto due livelli, est e ovest; il secondo, considerato random (si potrebbero identificare molti altri transetti), ne ha assunti sei (tre per ogni livello del fattore zona), in base al numero di transetti identificati; il terzo, anch’esso fisso, ha assunto tre livelli, San Vitale, Cerba e Pirottolo. Inoltre, sia i fattori zona e pedotipo, che i fattori transetto e tipo di suolo, avendo un rapporto reciproco simmetrico, sono stati considerati ortogonali tra loro (ogni pedotipo è presente in tutte e due le zone e in tutti i transetti). Il fattore transetto è stato considerato nested (gerarchizzato) nel fattore zona (ogni transetto ha una specifica collocazione in una sola delle due zone).

Per verificare se i fattori identificati avessero effetti statisticamente significativi è stata applicata l’analisi multivariata della varianza basata sulle permutazioni (PERMANOVA, Anderson, 2001). La PERMANOVA, come l’analisi della varianza classica (ANOVA) confronta tra loro gruppi di campioni definiti sulla base di uno o più fattori, detti anche criteri di classificazione. A differenza dell’ANOVA però, utilizza indici di similarità o dissimilarità multivariati, e fornisce test di ipotesi nulle sulla base di procedure di permutazione (Anderson et al., 2008).

Sebbene possa essere applicata in diversi ambiti, dalla zoologia, alla genetica e perfino alla psicologia, la PERMANOVA viene utilizzata principalmente per l’analisi di dati ecologici, specialmente in termini di abbondanze di specie.

Come altre tecniche di permutazione, la PERMANOVA è adatta all’analisi di dati che non soddisfano le assunzioni tipiche della statistica tradizionale, sia per l’elevato numero di variabili considerate, sia perché una o più variabili non sono distribuite normalmente. L’unico vincolo è che sia i campioni che gli errori associati possano essere ricombinati, rispettando una specifica ipotesi nulla. In altre parole, queste tecniche non richiedono esplicite assunzioni sulle distribuzioni delle variabili originarie e utilizzano le permutazioni per ottenere la distribuzione di probabilità attesa nel caso in cui sia vera l’ipotesi nulla. Anche nel caso della PERMANOVA, come per gli altri metodi di analisi multivariata, il punto di partenza è una matrice di associazione, nel caso presente la matrice di distanze euclidee per i dati abiotici, quella di dissimilarità di Bray-Curtis per i dati biologici.

Nell’ANOVA, vengono calcolate le differenze (scarti) tra le singole osservazioni appartenenti ad un gruppo e la media del gruppo stesso. I quadrati di queste distanze sono

poi sommati tra loro per ottenere la somma dei quadrati residua (SSres), che è una misura cumulativa delle differenze presenti all’interno dei gruppi.

Nel caso multivariato la tendenza centrale di un campione è espressa dal centroide. Nella PERMANOVA, analogamente all’ANOVA, a partire dalla matrice di associazione tra campioni si calcolano le distanze tra i singoli campioni ed il centroide del gruppo a cui appartengono (Fig. 4.12 B). Anche in questo caso la somma dei quadrati delle distanze costituisce la SSres.

Così come nell’ANOVA si calcolano poi le differenze tra medie dei singoli gruppi e la loro media, nella PERMANOVA si computano le distanze tra i centroidi dei gruppi e il centroide dei centroidi (Fig. 4.12 C). La somma dei loro quadrati costituisce la SSA che rende conto delle differenze tra gruppi.

Fig. 4.12. PERMANOVA, calcolo delle distanze. Diagramma di un ipotetico dataset, formato da 2 variabili (due dimensioni) e 10 campioni per ciasun gruppo (A). Distanze dei campioni dai centroidi (B). Distanze dei centroidi dal centroide dei centroidi (C).

In base all’ipotesi nulla che sostiene l’assenza di differenze tra i campioni in ambito multivariato, è stato calcolato il rapporto pseudo F che, analogamente al rapporto F usato nell’ANOVA, è uguale a:

( =

))*⁄+! ))-./⁄0+

dove, (a – 1) sono i gradi di libertà associati al fattore indagato e (N – a) sono i gradi di libertà residui, con a numero dei livelli del fattore (gruppi) e N numero totale di osservazioni.

Come risulta dalla formula, maggiore è il valore di pseudo F e minore è la probabilità che l’ipotesi nulla sia vera.

Nell’ANOVA, sotto la condizione che siano rispettate le assunzioni del metodo (osservazioni indipendenti, distribuite normalmente e con varianze omogenee) e che sia rispettata l’ipotesi nulla, la distribuzione del rapporto F è conosciuta, cioè le probabilità

associate ai suoi valori sono calcolabili usando un’equazione nota a priori. Questo permette di calcolare quanto sarebbe probabile il valore di F se l’ipotesi nulla fosse vera.

Nella PERMANOVA invece la distribuzione dello pseudo F sotto l’ipotesi nulla deve essere calcolata in ogni analisi, volta per volta tramite le permutazioni. Secondo questo approccio, una volta calcolata la pseudo F con i gruppi così come sono stati effettivamente osservati, le singole osservazioni sono scambiate tra i gruppi secondo tutte le combinazioni possibili (o secondo un sottoinsieme casuale, se le combinazioni totali possibili sono in numero troppo elevato). Per ogni combinazione viene calcolato la pseudo F.

L’idea che sta alla base di tale procedura è che se è vera l’ipotesi nulla, per cui non si hanno differenze tra i campioni in relazione ad alcun fattore, allora è altrettanto vero che variando le relazioni tra i campioni sulla base dei vari fattori considerati non si avrà alcun cambiamento sulle loro differenze (Anderson et al., 2008).

Nel nostro caso, in ogni analisi, ciascuna sorgente di variazione presente nel disegno sperimentale è stata testata tramite 9999 permutazioni random o comunque sino a realizzare tutte le ricombinazioni possibili, ottenendo in tal modo la distribuzione dello pseudo F se fosse rispettata l’ipotesi nulla.

Il livello di significatività del test, cioè la probabilità di osservare un valore di pseudo F maggiore o uguale a quello effettivamente osservato, nel caso in cui l’ipotesi nulla sia vera, viene calcolato secondo la formula:

 =

0 1 20 1 2342 5!3 5!

dove 6 7 (8 ≥ ( è il numero dei valori di pseudo F, ottenuti dalle permutazioni, maggiori o uguali allo pseudo F trovato inizialmente e 6 7 (8 è il numero di tutti gli pseudo F trovati con tutte le permutazioni. Lo pseudo F trovato inizialmente è considerato membro della distribuzione e pertanto viene inserito nel calcolo di P (probabilità di rigettare l’ipotesi nulla) come +1 sia al numeratore che al denominatore.