• Non ci sono risultati.

Vi è un'ampia varietà di metodi per la scelta di un modello statistico, relativi ai più disparati contesti e obiettivi. Di fatto, un criterio decisionale può essere applicato a qualsiasi situazione in cui vi sia la necessità di bilanciare la variabilità e la complessità. L'introduzione del libro di McQuarrie e Tsai (1998) fornisce una panoramica esaustiva dei diversi approcci selettivi. In questo paragrafo, l'attenzione sarà focalizzata sui criteri per la scelta del modello geostatistico.

In generale, ci si può trovare in due possibili situazioni, durante la stima della struttura probabilistica di un modello. Se il modello reale è innito- dimensionale oppure non è contenuto nell'insieme dei modelli candidati (nito- dimensionali), l'obiettivo della selezione è quello di approssimare al meglio tale modello. Ci si basa in questo caso sul principio di asintotica ecienza: un criterio è detto asintoticamente eciente se sceglie il modello con errore quadratico medio minimo, quando si ha a disposizione un grande insieme

di dati. Nel caso in cui, invece, il modello reale abbia dimensione nita e faccia parte dell'insieme dei modelli candidati, un criterio che lo identica asintoticamente è detto consistente. Nel seguito del paragrafo, si farà riferi- mento al criterio di ecienza asintotica, in quanto la complessità dei modelli geostatistici fa propendere per tale approccio.

Sia θ = (θ1, . . . , θr). Il metodo comunemente adottato per valutare la

bontà dell'approssimazione è quello di confrontare, per ciascun modello can- didato, la sua discrepanza con quello reale, ovvero una funzione d(θ, θ0) che

soddisfa la proprietà di non-negatività

d(θ, θ0) > 0 ∀θ, θ0 t.c. θ 6= θ0,

d(θ, θ0) = 0 per θ = θ0. (2.23) Chiaramente, si preferiscono i modelli con una discrepanza prossima allo zero. Si osservi che quest'ultima non è una distanza, poichè non necessariamente soddisfa la diseguaglianza triangolare e la simmetria. La discrepanza di Kull- back e Leibler (1951) è la più comunemente utilizzata nei criteri selettivi, per la sua adattabilità alla maggior parte dei modelli parametrici. Riprendendo la notazione precedentemente adottata, si ha

∆K−L = Eθ0[l(θ0) − l(θ)], (2.24)

in cui l(θ0) e l(θ) sono, rispettivamente, la log-verosimiglianza della distri-

buzione reale e del modello candidato, e il valore atteso è calcolato rispetto alla distribuzione reale. Akaike (1974) parte dalla minimizzazione di (2.24) per arrivare al noto criterio (Akaike Information Criterion)

AIC = −2l(ˆθ) + 2r, (2.25) in cui l(ˆθ) è la massima log-verosimiglianza del modello e r è il numero dei parametri considerati. Il primo termine in (2.26) rispecchia la bontà del modello, mentre il secondo la sua complessità. Il criterio seleziona quindi il modello con l'AIC minimo.

retta dell'AIC, ricavata euristicamente nel contesto geostatistico: AICc = −2l(ˆθ) + 2  n n − r + 1  r. (2.26)

In questo caso, i modelli con un grande numero di parametri sono più severa- mente penalizzati rispetto all'AIC. Gli autori mostrano inoltre che ignorare gli eetti della correlazione spaziale può portare a conseguenze disastrose nella scelta del modello, sia nel caso dell'AIC che in quello dell'AICc.

Purtroppo, per grandi insiemi di dati, i metodi basati sulla verosimiglian- za risentono dei problemi computazionali descritti nel precedente paragrafo. Per questo motivo, Bevilacqua et al. (2012) introducono un criterio basato sulla verosimiglianza composita. In particolare, gli autori partono dall'idea di Varin e Vidoni (2005) di considerare la discrepanza composita di Kullback- Leibler, denita come la combinazione lineare delle discrepanze associate a ciascuna componente di (2.19) KLC(θ0, θ) = n X i=1 n X j>i Eθ0[l(θ0) − l(θ)]wij, (2.27)

Minimizzando Eθ0[KLC(θ0, ˆθ)], si ottiene il CLIC (Composite Likelihood

Information Criterion)

CLIC = wcl(ˆθ) + tr( ˆJ ˆH−1), (2.28) in cui ˆJ e ˆH−1 sono le matrici in (2.20) calcolate in corrispondenza di ˆθ, ottenuto con il metodo della verosimiglianza composita.

Per concludere, un ecace metodo comunemente utilizzato per la valuta- zione del modello è quello della cross validation, che permette di considerare la sua bontà predivisiva. Tale argomento sarà trattato alla ne del prossimo capitolo e applicato nel quinto capitolo.

Capitolo 3

La previsione spaziale

3.1 Introduzione

L'obiettivo della previsione spaziale è un processo stocastico, funzione del segnale T = τ(S(·)), in cui S(·) è il processo casuale di interesse (il seegnale) a partire da un insieme di osservazioni, realizzazioni della variabile risposta Y, in una regione dello spazio A. A volte, si è interessati alla previsione del segnale stesso in un insieme di punti non appartenenti al dominio di campionamento; in questo caso, τ(·) è la funzione identità. Altre volte, i target previsivi sono delle funzioni lineari del segnale S, ad esempio l'integrale su una supercie di interesse contenuta in A, oppure non lineari, come il massimo di S(x), o ancora l'insieme di punti in cui il segnale supera una certa soglia di interesse.

Un previsore puntuale per T è una qualsiasi funzione di Y , cioè ˆT = t(Y ). Il metodo previsivo più conosciuto e utilizzato nel contesto geostatistico è il kriging, nome coniato da Georges Matheron in onore di Danie Krige, ingegne- re minerario sudafricano che per primo propose tale metodo per la risoluzione empirica di alcuni problemi in ambito minerario, negli anni '50 (Krige, 1951). Il suo lavoro fu formalizzato dallo stesso Matheron, circa dieci anni dopo. Ta- le metodo sarà applicato per la previsione spaziale e spaziotemporale della concentrazione di clorolla, descritta nel quinto capitolo.

visori lineari e non distorti. Il criterio di ottimalità considerato è quello della minimizzazione dell'errore quadratico medio

M SE( ˆT ) = E(T − ˆT )2. (3.1) Per la derivazione del previsore MSE, si seguirà l'approccio adottato da Dig- gle e Riberio (2007) che, partendo dall'assunzione di gaussianità per il model- lo, minimizzano l'errore (3.1). In questo caso, la linearità è una conseguenza dell'ipotesi di gaussianità.

Per quanto riguarda la struttura del capitolo, nel paragrafo 3.2 sarà rica- vato un importante risultato generale sul previsore puntuale a errore quadra- tico medio minimo; il paragrafo 3.3 sarà dedicato alla descrizione del kriging semplice, ordinario e universale; nel paragrafo 3.4 sarà brevemente esposto il kriging gaussiano trasformato; inne, il paragrafo 3.5 tratterà il metodo della cross validation per la validazione dei metodi previsivi.

3.2 Il previsore a errore quadratico medio mi-

Documenti correlati