5.6 Gridding
5.6.1 Tecniche di interpolazione
Riprendendo quanto detto in precedenza, è possibile ridefinire in maniera più generale il concetto di interpolazione spaziale.
Per interpolazione spaziale si in generale intende quell’insieme di tecniche che permettono, dato uno spazio in cui sono stati misurati in alcuni punti i valori assunti da una grandezza, di determinare i valori nei punti intermedi dove tale grandezza non è stata misurata, basandosi sugli altri valori noti. Il risultato dell’interpolazione spaziale è una superficie, funzione di x e y, che rappresenta i valori assunti dalla grandezza nello spazio.
Il problema dell’interpolazione consiste nel trovare un modello plausibile per esprimere il fatto che punti vicini hanno mediamente valori simili10. I modelli di interpolazione si dividono generalmente in due tipi:
8
Settando i raggi di ricerca X e Y uguali si hanno aree di ricerca quadrate o circolari, utilizzando invece diversi valori per i raggi X e Y si ottengono aree di ricerca ellittiche o rettangolari.
9
In particolare, se l’area di ricerca è di tipo quadrata o rettangolare è possibile calcolare come
1. Deterministici: il legame fra punti vicini è espresso da una legge esplicita i cui parametri hanno significato fisico.
2. Stocastici: il legame fra punti vicini è espresso da un legame statistico (covarianza11) che può non avere significato fisico.
L’interpolazione può essere effettuata globalmente o localmente:
Metodi globali: tutte le informazioni sono usate per costruire il modello.
Metodi locali: solo le informazioni dei punti vicini ai nodi sono usate per costruire il modello. In questa Tesi verranno trattati solo i metodi di interpolazione di tipo locale ed in particolare il metodo IDW o Inverse Distance Weighted (interpolazione pesata sull’inverso della distanza) ed il metodo Kriging (o della collocazione).
5.6.1-a Inverse distance weight (IDW)
La tecnica di interpolazione IDW tiene conto della distanza dei nodi rispetto ai punti di interesse (cut) pesando il contributo di ciascun punto con una funzione della sua distanza.
Il valore di ampiezza z assegnato ad un punto del grid (nodo) di coordinate (x,y) viene calcolato come (Shepard, D.,1968):
5.2 In cui:
indica il valore osservato nell’i-esimo punto noto di coordinate ;
n è il numero di punti vicini inclusi nel raggio di ricerca;
rappresenta il peso, legato alla distanza, dei punti vicini. Esso si indica come:
5.3 in cui:
indica la distanza tra il nodo in posizione e l’i-esimo punto noto vicino in posizione
a è chiamato smoothing factor e bilancia l’influenza tra punti vicini e punti lontani compresi nell’area di ricerca.
Normalmente si pone il vincolo , ovvero la somma di tutti i pesi all’interno della regione di ricerca è considerata pari a 1.
L’equazione 5.2 si può dunque riscrivere come:
10
Legge di Tobler: Tutto è correlato, ma oggetti vicini sono più correlati di oggetti lontani.
11 La covarianza di due variabili aleatorie è un numero Cov(X,Y) che fornisce una misura di quanto le due varino assieme,
120 5.4 Un esempio di applicazione di tale tecnica è mostrato in Figura 5.14.
I punti conosciuti (cut) sono dunque pesati in modo tale che l’influenza di un punto, relativo ad un altro, diminuisca all’aumentare della distanza dal nodo del grid.
L’importanza della distanza tra nodo e cut è valorizzata dal parametro di smoothing il quale accentua il peso della distanza nell’assegnare un valore ad un dato nodo del grid: ad un incremento di
a corrisponderà una minore influenza dei punti lontani contemporaneamente ad un incremento
dell’influenza dei punti vicini.
Le situazioni più comuni in cui ci si può imbattere nel calcolo dell’interpolazione IDW sono:
i valori calcolati sui nodi saranno dati dalla media aritmetica dei valori dei punti conosciuti.
(smoothed) i pesi assegnati ai dati sono in forma di frazioni e la somma complessiva di tutti i pesi è uguale ad 1.
si verifica quando un punto osservato coincide con il nodo; in questo caso al punto in esame viene assegnato un peso pari ad 1 mentre a tutti i restanti, incluse nel raggio di ricerca, il peso è pari a 0, ne consegue che al nodo in questione sarà assegnato il valore della coincidente osservazione.
I punti su cui fare la media pesata possono essere scelti o fissando la forma e le dimensioni dell’area di ricerca, oppure fissando il numero di punti (opzione non disponibile nel software utilizzato).
Il vantaggio di questa tecnica risiede soprattutto nella velocità e nella facilità di implementazione soprattutto se applicati ad una grande mole di dati, inoltre risulta sensibile alla presenza di cluster e di
trend globali nei dati.
Figura 5.14: Esempio di calcolo del metodo IDW. I valori osservati nei punti noti sono divisi per la distanza dal punto
interpolato e sommati. La somma è successivamente divisa per la somma dei pesi. Si considera lo smoothing factor pari ad un valore unitario ( ).
5.6.1-b Kriging
Il termini Kriging si riferisce ad una famiglia di procedure di interpolazione che tengono conto della presenza di una correlazione spaziale tra i valori dei punti conosciuti.
Anche in questo caso, per calcolare il valore incognito della variabile z in un punto di coordinate (x,y), è possibile utilizzare una combinazione lineare dei valori rilevati nei punti noti all’interno di una regione di ricerca:
5.5 Con all’interno della regione di ricerca.
A differenza del metodo IDW però, il peso da attribuire a ciascun punto noto non viene stimato solo in funzione della distanza tra il punto da interpolare e l’i-esimo punto noto, ma anche in base all’autocorrelazione spaziale presente tra tutti i punti misurati.
In pratica si considera l’assunzione per cui punti vicini (ad esempio quelli raggruppati in cluster) abbiano valori simili fra loro, mentre punti distanti tra loro non hanno alcun legame ovvero non sono fra loro correlabili (teoria di Matheron).
La correlazione spaziale tra i punti noti viene misurata attraverso la costruzione di un semivariogramma. Si tratta di un grafico in cui è riportata in ascisse la distanza calcolata tra tutte le possibili coppie dei punti noti ed in ordinata la semivarianza fra i valori misurati per ogni coppia di punti considerata.
La semivarianza è la metà della varianza (quadrato della deviazione standard) tra ogni valore z posseduto da un punto generico di coordinate e il valore di ognuno dei punti che si trova alla stessa distanza e può calcolarsi come12
:
5.6 In cui n rappresenta il numero di coppie che si trovano alla stessa distanza h tra loro.
Ponendo in un grafico le semivarianze di ogni singola coppia con le rispettive distanza si ottiene quello che viene chiamato semivariogramma a nuvola (Figura 5.15).
In generale, come si osserva dalla Figura 5.16-d, le semivarianze saranno più piccole a brevi distanze per poi stabilizzarsi ad una data distanza. In altre parole, i valori della variabile in oggetto saranno quindi più simili a corte distanze mentre aumenteranno all’aumentare di quest’ultime, fino a che le differenze tra le coppie saranno più o meno uguali alla varianza globale dell’area. La parte più importante del semivariogramma è la sua forma nei pressi dell’origine poiché ai punti più vicini verrà dato un peso maggiore durante l’interpolazione.
La nube di punti contiene quindi tutte le relazioni spaziali nei dati per tutte le possibili distanze tra i campioni, ma non è una funzione continua. E’ dunque praticamente impossibile interpretarla e comprendere l’esistenza di correlazioni spaziali.
Per questo motivo la nuvola del variogramma (Figura 5.16-b) viene prima trasformata in un semivariogramma sperimentale (Figura 5.16-c), in cui sono raggruppati i valori medi delle semivarianze ottenute all’interno di una distanza standard (lag), e successivamente ne viene modellizzata la distribuzione spaziale attraverso una stima ai minimi quadrati iterativamente ripesati (IRLS). (Figura 5.16-d). In questo modo le informazioni contenute nel variogramma vengono rese più leggibili.
12
La semivarianza è una misura della interdipendenza dei valori z, basata su quanto vicini essi sono (una misura di quanto varia il valore dei campioni in base alla distanza). In pratica, diminuendo la distanza h la semivarianza andrà sempre più a diminuire (i valori si somigliano sempre più) fino ad arrivare a zero quando i punti coincidono ( ). In questo caso i due valori sono uguali.
122
Figura 5.15: a) Linee che congiungono tutte le possibili coppie di campioni che si trovano a distanze diverse tra loro. b)
Semivariogramma a nuvola che racchiude tutti i possibili valori si semivarianza ottenuti per i punti contenuti nel grafico (a).
Figura 5.16: Fasi di costruzione di un variogramma modellizzato. a) Valore e posizione dei punti noti. b) Semivariogramma
a nuvola ottenuto per 44850 coppie dei punti noti. c) Valori medi delle semivarianze ottenute all’interno di lag di circa 300m. d) Modello di semivariogramma ottenuto (Hengl- Practical Guide to Geostatistical Mapping of Environmental Variables).
È proprio dalla forma del semivariogramma che si ricavano le informazioni per calcolare il peso nel calcolo dell’interpolazione Kriging. In esso si possono riconoscere quattro parametri (Figura 5.17):
1. Nugget: indica una stima del residuo degli errori di misurazione con le variazioni spaziali che si verificano su distanze minori del passo di campionamento.
2. Sill: conosciuto anche come altezza del variogramma, individua il valore di in corrispondenza del quale la semivarianza non mostra più apprezzabili variazioni con la distanza e fornisce una precisa indicazione riguardo alla distanza di massima correlazione delle misure sperimentali oltre la quale esse possono considerarsi statisticamente indipendenti. 3. Range: Distanza presso la quale il variogramma raggiunge il sill oltre il quale la semivarianza
diventa pressoché costante.
4. Scale: È pari alla differenza: – , se quest’ultimo è nullo, scale e sill coincideranno.
Figura 5.17: Semivariogramma sperimentale e parametri fondamentali.
Il kriging può dunque essere visto come un Inverse Distance Weighted molto più sofisticato: i pesi anziché determinati in modo arbitrario, riflettono la struttura di autocorrelazione spaziale definita dalla funzione di variogramma.
Una volta stimato il modello del semivariogramma è possibile derivare da esso i pesi Kriging rendendo possibile la stima del valore del nodo. I pesi dipendono inoltre dalla configurazione spaziale delle misure:
• Maggiore è la varianza di nugget, più bassi risultano i pesi assegnati ai punti vicini. • I pesi relativi dipendono dalla dimensione del raggio di ricerca 13
(neighborhood): all’aumentare di questa i pesi dei punti vicini diminuiscono e aumentano quelli dei punti più lontani (punti lontani ricevono pesi di kriging inferiori se sono disponibili osservazioni più vicine).
• Ai punti distribuiti in cluster vengono assegnati pesi individuali inferiori rispetto ai punti isolati alla stessa distanza.
Il variogramma può essere calcolato in diverse direzioni dello spazio base alla disposizione di determinati parametri ambientali (ad esempio strutture dotate di una certa direzionalità).
Un altro vantaggio di tale tecnica è che i pesi sono scelti in modo tale da rendere minima la varianza dell'errore di stima (Minimum-variance unbiased estimator, MVUE). Il kriging fornisce infatti non solo i valori previsti, ma anche le corrispondenti varianze che esprimono l’affidabilità della precisione.
Nonostante il kriging rappresenti un metodo di interpolazione più fine, tuttavia la sua applicazione si è rilevata abbastanza articolata ed inoltre le timeslices in uscita non presentavano grandi migliorie
13
124
rispetto a quelle prodotte attraverso il metodo IDW (Figura 5.18). Il kriging è stato dunque scartato durante le fasi di creazione delle timeslice per tre motivi:
• Scarse migliorie apportate al dato rispetto al metodo IDW. • Lunghi tempi di calcolo computazionale.
• Possibilità di visualizzare soltanto il semivariogramma a nuvola (Figura 5.19) e non il semivariogramma sperimentale. Questo comporta un non facile riconoscimento delle informazioni contenute.
Figura 5.18: Confronto tra una timeslice ottenuta attraverso il metodo di interpolazione IDW (a) e la medesima timeslice
ottenuta mediante il Kriging (b). In entrambi i casi è stata scelta una dimensione della cella elementare pari alla distanza tra le antenne del dispositivo multicanale, mentre per quanto riguarda la regione di ricerca è stata scelta una regione circolare di raggio 0.12. Non si notano grandi differenze sostanziali tra le due timeslice. La prima è stata ottenuta in tempi computazionali brevi al contrario della seconda che ha necessitato tempi più lunghi.
Figura 5.19: Semivariogramma a nuvola ottenuto dai dati in esame. Da questo dato non è possibile riconoscere i parametri