• Non ci sono risultati.

Analisi statistica per valutare il ruolo dei parametri ambientali e strutturali su biomassa,

I modelli sono rappresentazioni semplificate della realtà che dovrebbero essere accurati e adeguati per permettere l’interpretazione delle osservazioni compiute, la messa in luce delle interazioni tra processi ed, in ultima istanza, il loro impiego con finalità predittive in contesti analoghi ma spazialmente o temporalmente distanti.

Un modello mette in relazione una variabile dipendente (Y) con una o più (p) variabili indipendenti

(x1, x2, …, xp):

Y=a+b1x1+b2x2+…+bpxp

In termini statistici Y è definita anche come variabile di risposta, x come variabile esplicativa o

fattore, questa è la terminologia cui faremo riferimento nel prosieguo.

Parametrizzare un modello significa attribuire un valore a ciascuno dei coefficienti moltiplicativi dei fattori presenti nel modello stesso. Tali coefficienti (a, b1, b2, …, bp) sono denominati parametri

del modello.

Il numero totale di fattori è denotato con p; il numero totale di parametri è generalmente pari a k=p+1( includendo l’intercetta a); il numero totale di siti in cui sono misurati i fattori, è indicato

con n.

La misurazione di un fattore in un sito è indicata con osservazione.

I modelli possono essere divisi in 4 gruppi che, in ordine di descrescente di potenza esplicativa sono (Tabella 5):

• Modelli saturati • Modelli massimali

• Modelli minimali adeguati • Modelli nulli;

La parametrizzazione è stata eseguita mediante la minimizzazione della somma quadratica delle distanze verticali tra le osservazioni e le risposte predette tramite una approssimazione lineare delle osservazioni stesse (OLS, Ordinary Least Squares).

Nonostante sia impossibile massimizzare contemporaneamente rappresentazione della realtà (realismo), generalizzabilità e olismo di un modello, vi sono alcuni criteri riconducibili al principio della “parsimonia” per permettere di scegliere un modello rispetto ad un altro. Il principio di parsimonia consiglia di inserire una variabile esplicativa in un modello solo se essa migliora significativamente la capacità esplicativa del modello stesso.

• Un modello con k-1 parametri a uno con k parametri;

• Un modello con p-1 variabili esplicative a un modello con p variabili; • Un modello lineare a un modello più complesso;

• Un modello senza interazioni a un modello contenente interazioni tra fattori.

Sempre per lo stesso principio si devono preferire modelli che contengono variabili esplicative facili da misurare rispetto a quelli con variabili che sono difficili e costose da misurare.

Saturato Un parametro per ogni punto dei dati Fit: perfetto

Gradi di libertà: nessuno

Potenza esplicativa del modello: nessuna

Massimale Contiene tutti (p ) i fattori, le interazioni e le covarianze che potrebbero essere interessanti. Probabilmente alcuni termini del modello potrebbero essere non significativi.

Fit: massimo

Gradi di libertà: n-p-1

Potenza esplicativa del modello: dipende

Minimale adeguato Un modello semplificato con 0 ≤ p'≤p parametri

Fit: minore del modello massimale, ma non significativamente Gradi di libertà: n-p'-1

Potenza esplicativa del modello:r2=SSR/SSY

Nullo Un solo parametro, media di tutti i valori y Fit: nessuno; SSE=SSY

Gradi di libertà: n-1

Potenza esplicativa del modello: nessuno

Modello Caratteristiche

Tabella 6: caratteristiche dei modelli,

( )

2 2 n y y SSY =

,

( )

2 2 n x x SSX =

,

(

)

n y x xy SSXY =

∑ ∑

, SSX SSXY

SSR= 2 , SSE =SSYSSR, (tratto da Crawley, 2005)

La parsimonia richiede che il modello sia il più semplice possibile e che non contenga parametri ridondanti. Per raggiungere e semplificare modello massimale iniziale si opera seguendo i passaggi sottostanti per:

• Rimuovere le variabili esplicative non significative cominciando da quelle di più complessa interpretazione (le interazioni);

• Rimuovere i termini quadratici o di maggior grado non significativi;

• Eliminare la variabili esplicative il cui parametro non differisce significativamente da un altro, lasciando quello più facilmente interpretabile o misurabile.

Tutti i passaggi di semplificazione devono avere un senso scientifico e non devono comportare una riduzione significativa della capacità esplicativa del modello.

Se le variabili inserite nel modello sono di scala molto differente, la standardizzazione è un processo molto utile. Dopo la standardizzazione il confronto tra i parametri del modello è più semplice, permettendo di valutare la presenza o meno di parametri non significativamente diversi. La bontà del modello semplificato rispetto al modello di partenza è stata giudicata mediante analisi della varianza e stima dell’AIC (Akaike Information Criteria), che deve diminuire man mano che si procede nella semplificazione. L’AIC è un indice della quantità di informazioni perse nella semplificazione del modello, e dipende dalla funzione di veromiglianza (L) e dal numero di

parametri utilizzati (k).

AIC=2k-ln(L)

Nella procedura di semplificazione, il percorso si fermava all’occorrenza di una delle due seguenti condizioni:

• la capacità esplicativa del modello corrente fosse significativamente minore del modello precedente

• il coefficiente AIC del modello corrente fosse maggiore del precedente. Per dare una spiegazione ai nostri dati è stato scelta una regressione lineare multipla. Ci sono alcuni importanti questioni da considerare nella regressione multipla:

• Quali variabili indipendente includere;

• L’eventuale curvatura nella risposta alle variabili esplicative (i parametri devono avere un legame lineare con la variabile indipendente);

• Interazioni tra le variabili esplicative;

• Correlazione tra le variabili esplicative (collinearità); • Rischio di parametrizzazione eccessiva.

Il numero di variabili esplicative inoltre è fortemente legato al numero di osservazioni che costituiscono il dataset, è buona regola non utilizzare n/3 variabili indipendenti nel modello lineare

multiplo (Crawley, 2005).

Il modello lineare semplice richiede il rispetto di quattro assunzioni:

• Omoschedasticità, varianza costante. Un buon modello deve tener conto di un’adeguata relazione tra varianza e media e produrre effetti additivi sulla scala appropriata. L’omoschedasticità si ha quando la varianza rimane costante lungo tutto il range di osservazione delle variabile dipendente. Per verificare tale assunzione si mettono in un grafico i residui standardizzati in funzione dei valori predetti dal modello, il grafico

risultante deve apparire come “il cielo di notte” (Crawley, 2005), ossia non devono esserci andamenti ben delineati, altrimenti ci troveremo di fronte a casi di eteroschedasticità.

• Normalità degli errori. I residui devono avere una distribuzione normale, per verificare questa assunzione si realizza un grafico Q-Q normale, dove sull’asse delle ascisse sono riportati i quantili e sull’asse delle ordinate i residui standardizzati. I punti si devono disporre quanto più possibile lungo la retta che congiunge il 25° ed il 75° percentile.

• Indipendenza. Questa assunzione significa che ciascun valore di Y di un’osservazione non dovrebbe influenzare i valori di Y di altre osservazioni. La verifica di questa assunzione

viene fatta graficamente riportando sull’asse delle ascisse i valori predetti dal modello e sull’asse delle ordinate la radice quadrata del valore assoluto dei residui.

• Assenza di punti influenti. Se una particolare variabile esplicativa ha uno o più valori che sono molto più grandi delle altre osservazioni, queste osservazioni possono influenzare fortemente i risultati della regressione. Il Leverage è uno strumento che identifica le

osservazioni che hanno valori estremi per le variabili (outlier) e possono potenzialmente

pregiudicare i risultati della regressione. Per evidenziare questi valori si utilizza la distanza di Cook e come valore soglia quello calcolato con la formula di Fox (2011):

Valore soglia = 4/(n-k-1)

Dove n è il numero di osservazioni e k il numero di parametri utilizzati nel modello.

Una volta che il modello ha verificato le assunzioni rimane un ultimo passaggio per verificare la capacità esplicativa delle singole variabili indipendenti utilizzate e la loro collinearità, ossia la parte di variabilità spiegata in comune dai fattori presenti. Affinché un modello sia affidabile la componente della variabilità spiegata in comune dalle variabili indipendenti deve essere il più possibile bassa.

La partizione della varianza si può spiegare facilmente con le regressione lineare parziale, seguendo il metodo di Legendre e Legendre (1998), enfatizzando la decomposizione della variabilità (fig. 14).

Variabilità spiegata da W

Variabilità non spiegata Solo Variabile X Comune Solo Variabile W

Variabilità spiegata da X

a b c d

Figura 14: scomposizione della variabilità, (tratto e modificato da Zuur et al., 2007) Considerando un modello del tipo :

yi=Xiβ+Wiν+ε

Le matrici X e W sono le matrici che contengono p e m variabili esplicative. I parametri sono β e Ν,

e l’errore ε. L’obiettivo è trovare una relazione tra y e X , mentre si controllano le variabili in W,

chiamate anche covariabili.

Per ottenere le componenti della varianza (fig.14 ) Legendre e Legendre (1998) utilizzano il seguente algoritmo:

1. Applicare una regressione lineare yi=Xiβ+Wiν+ε e calcolarne il coefficiente di

determinazione. Questo è uguale a [a+b+c] e [d] è uguale a 1- [a+b+c].

2. Applicare una regressione lineare yi=Xiβ +εi e calcolarne il coefficiente di determinazione.

Questo è uguale a [a+b] .

3. Applicare una regressione lineare yi= Wiν+εi e calcolarne il coefficiente di determinazione.

Questo è uguale a [b+c] .

La seguente formula da [b] = [a+b] + [b+c] - [a+b+c]

Una volta calcolato [b] per differenza si possono calcolare [a] e [c].

Affinché in un modello tutte le variabili utilizzate abbiano un valore tale da essere considerate, la quantità [b] deve essere minima.

Una volta verificate tutte le assunzioni il modello selezionato può essere considerato applicabile. Il punto di partenza per l’analisi dei dati è stato il pairs panels di fig. 15 che mette in correlazioni le

variabili stimate nello studio. Questo utile strumento permette di individuare facilmente quali variabili siano collegate, e questo è utile per la scelta delle variabili esplicative.

Infatti permette di capire quali siano le variabili esplicative che più influenzano le variabili dipendenti, e quali variabili esplicative siano correlate tra loro in modo da poter evitare la multicollinearità.

3 Risultati

Documenti correlati