• Non ci sono risultati.

Metodi per l'analisi dei risultati

5.2.1 Cross-Validation e validazione con la ground truth

Un primo tipo di analisi è stato valutare la bontà di una strategia di in- terpolazione in termini di vicinanza del valore stimato in un punto rispetto al valore misurato eettivamente in quel punto. Questo si può fare grazie alla validazione.

In particolare, sono state fatte due analisi dierenti: la cross-validation (o con- valida incrociata) e la validazione con la ground truth.

La cross-validation è stata eseguita per le tre strategie utilizzando il kriging con i dati a disposizione a ogni iterazione per ogni strategia per stimare i valori

CAPITOLO 5. ORGANIZZAZIONE DELLA SPERIMENTAZIONE 38 di temperatura in quegli stessi punti.

Ad esempio: a una generica iterazione i con la strategia A si hanno a di- sposizione i dati di tre stazioni del sottoinsieme WUB. Queste stazioni sono:

IBOLOGNA49 di coordinate (x1,y1) e valore rilevato v1, IBOLOGNA77 di coordinate (x2, y2) e valore v2 e IBOLOGNA105 di coordinate (x3,y3) e va- lore v3. In questo caso verrà utilizzato il kriging non per stimare i valori nei punti della griglia costruita sulla SR, bensì nei punti (x1,y1), (x2,y2), (x3,y3). Il principio generale della cross-validation è suddividere i dati a disposi- zione in due sottoinsiemi, uno chiamato di training e uno chiamato di test. Si eseguono poi successivamente diverse istanze del kriging, usando i dati del sottoinsieme di training per stimare i valori nei punti di test.

A seconda di come vengono costruiti questi sottoinsiemi si distinguono varie tecniche. Quelle utilizzate nel presente lavoro sono:

• Leave One Out Cross-Validation (LOOCV), usata per la strategia A

• k-Fold Cross-Validation, usata per le strategie B e C.

Nella LOOCV, supponendo di avere n punti a disposizione, si eseguono n istan- ze del kriging. Ognuna di queste utilizzerà, a rotazione, n − 1 punti per il set di training e 1 punto per il set di test, come si vede nella Figura 5.5, in cui a ogni riga corrisponde un'esecuzione del kriging.

Riprendendo l'esempio accennato precedentemente, verranno eseguite tre istanze del kriging:

1. per stimare il valore in (x1,y1) calcolando il kriging con v2 e v3 2. per stimare il valore in (x2,y2) calcolando il kriging con v1 e v3 3. per stimare il valore in (x3,y3) calcolando il kriging con v1 e v2.

CAPITOLO 5. ORGANIZZAZIONE DELLA SPERIMENTAZIONE 39 Nella k-Fold Cross-Validation invece, a ogni iterazione, gli n punti a dispo- sizione vengono suddivisi in k sottoinsiemi di dimensione all'incirca uguale. Si eseguono quindi k calcoli del kriging e ognuno di questi utilizzerà, a rotazione, k −1 sottoinsiemi come set di training e 1 come set di test, come è possibile osservare nella Figura 5.6. I sottoinsiemi vengono calcolati in maniera casuale da un'apposita funzione MATLAB.

In generale, e anche nel presente lavoro, k è (arbitrariamente) posto di default a 10. Volendo scegliere un valore diverso per k, si dovrebbe arrivare a un compromesso fra vari aspetti, ad esempio:

• all'aumentare di k aumenta anche il tempo di calcolo (perché il kriging verrà eseguito un numero maggiore di volte)

• all'aumentare di k diminuisce il bias nella stima dell'errore atteso (perché il set di training sarà vicino alla totalità dell'insieme dei dati).

Il caso limite è, ovviamente, k = n, con il quale si ricade nella LOOCV.

Figura 5.6: Esempio di k-Fold Cross-Validation, con k=3

Per quanto riguarda l'altro tipo di validazione, il termine ground truth è nato nelle scienze geologiche per descrivere il controllo dei dati direttamente sul terreno (ground, in inglese). È stato poi esteso ad altre aree di studio per indicare un dato che è risaputo essere corretto, ovvero che deriva da osserva- zioni dirette, in contrapposizione ai dati forniti dall'inferenza.

Nell'ambito di questo studio, la validazione con la ground truth viene usata sfruttando il fatto che si hanno alcune informazioni che derivano da osserva- zioni `sul campo' e che si sa quindi per certo essere vere: si tratta dei dati delle stazioni meteorologiche di Weather Underground. A dierenza di quanto fatto con la cross-validation, in questo caso si procede come segue:

• per la strategia A, si usano le stazioni del sottoinsieme WUB per stimare il valore delle stazioni del sottoinsieme WUA

• per la strategia C, si usano i nodi mobili (ovvero, indirettamente, le stazioni di WUA) per stimare il valore delle stazioni di WUB.

CAPITOLO 5. ORGANIZZAZIONE DELLA SPERIMENTAZIONE 40 Questo produrrà dei valori confrontabili con la ground truth, ovvero con i dati letti dalle stazioni di WUA nel primo caso e con quelli letti dalle stazioni di

WUB nel secondo caso, in modo da dare una misura alla bontà dell'interpola-

zione.

Si noti che, per evitare dipendenze, questo procedimento non è applicabile alla strategia B, la quale utilizza tutte le stazioni sse disponibili.

Supponiamo di avere a una generica iterazione n osservazioni, con n > 0. Indicati con vi il valore eettivo e con ˜vi il valore stimato in un punto i,

per entrambi i tipi di validazione la bontà delle interpolazioni viene valutata secondo le seguenti metriche:

• errore assoluto in ogni punto: ei = |˜vi− vi|

• errore assoluto medio (Mean Absolute Error, MAE): 1 n n P i=1 |˜vi − vi| = 1 n n P i=1 ei

• errore quadratico medio (Mean Squared Error, MSE): 1 n

n

P

i=1

(˜vi− vi)2.

L'errore assoluto medio dà una misura di quanto le previsioni sono vicine al valore eettivo. In generale, poiché utilizza la stessa scala dei valori misurati, non può essere usato per confrontare serie in scala diversa fra di loro.

L'errore quadratico medio, come si evince dalla formula, calcola la media dei quadrati degli errori assoluti in ogni punto. Anche questo dà una misura della qualità di uno stimatore.

Sia MAE che MSE sono limitati inferiormente da 0 e non limitati superior- mente. L'interpolazione è tanto più buona quanto i loro valori sono vicini allo 0.

Esistono in statistica diverse altre metriche per il confronto, ad esempio Li- near Error in Probability Space (LEPS, usato per previsioni stagionali), coef- ciente di correlazione (R, utile per misure su regione diverse, in quanto stan- dardizza i valori), Root Mean Squared Error (RMSE, ovveror1

n n

P

i=1

(˜vi− vi)2),

Mean Absolute Scaled Error (MASE, che risolve il problema della scala nel caso del MAE).

CAPITOLO 5. ORGANIZZAZIONE DELLA SPERIMENTAZIONE 41

5.2.2 Altri metodi per l'analisi

Percentile

In statistica, il percentile è una misura che indica il valore sotto al quale ricade una determinata percentuale di osservazioni. Ad esempio, il k-esimo percentile è il valore sotto al quale si trovano il k% delle osservazioni.

In questo studio, come ulteriore metrica per l'analisi, vengono calcolati il 75- esimo e il 90-esimo percentile della varianza calcolata dalla funzione di kriging. Questo viene fatto a ogni iterazione e per ogni strategia.

Heatmap e surface plot della varianza

A ogni iterazione, i valori della varianza, output dei kriging calcolati con le tre strategie, vengono visualizzati come mappe di calore.

Una mappa di calore (in inglese heatmap) è una rappresentazione graca bi- dimensionale dei dati, in cui i valori vengono rappresentati con una scala di colori.

Per l'analisi, si è scelto di rappresentare heatmap sovrapposte alla mappa geo- graca dell'area di interesse, quindi con la longitudine che varia in orizzontale e la latitudine che varia in verticale. Come descritto nella Sezione 5.1.2, i valori della varianza si hanno solo per i punti della griglia costruita sulla SR. Tut- tavia, lo strumento utilizzato per la costruzione delle heatmap (ovvero QGIS) permette la creazione di mappe omogenee assegnando una colorazione anche alle aree comprese fra i punti della griglia, in modo da avere un'idea dell'an- damento della varianza su tutta l'area.

Oltre a quanto detto, per avere una visione globale del fenomeno, alla ne di tutte le iterazioni viene calcolata per ogni punto la media dei valori della varianza. Anche questi dati vengono rappresentati tramite mappe di calore.

Un altro tipo di visualizzazione per le varianze aggregate è quella come supercie tridimensionale, la cosiddetta surface plot. Anche in questo caso vengono assegnati dei colori in base al valore della varianza nei punti della griglia.

CAPITOLO 5. ORGANIZZAZIONE DELLA SPERIMENTAZIONE 42

Documenti correlati