• Non ci sono risultati.

Parametri statistici

7.2 Le principali funzionalità software sviluppate per la validazione

7.2.1 Parametri statistici

Una volta interpolati i punti di controllo sulle superci dei GDEM, si è proceduto all'analisi statistica delle dierenze Dz, sia utilizzando il metodo sistematico che i parametri robusti. Di seguito vengono presentati i parametri considerati.

ˆ Range: è un indicatore di variazione dei valori. Corrisponde alla dierenza tra il valore massimo ed il malore minimo del campione. Questo indice è abbastanza grossolano dal momento che non rivela nulla sulla variabilità dei dati intermedi

range =Dzmax−Dzmin (7.6)

ˆ Media: indicatore di posizione. Corrisponde al valore attorno al quale i da- ti del campione sono posizionati. Individua la presenza e l'entità di un errore sistematico nel campione

m = 1 N N X i=1 Dzi

ˆ Deviazione standard: indicatore della precisione. E' una misura della dispersione della variabile casuale intorno alla media. Maggiore è la deviazione standard, più i valori del campione sono dispersi

sv = v u u t 1 N − 1 N X i=1 (Dzi− m)2 (7.7)

ˆ Radice dell'errore quadratico medio: indicatore di accuratezza. Misura quanto la media si discosta dal valore atteso. Spesso viene indicato con la denominazione inglese rmse (Root Mean Square Error)

rmse = v u u t 1 N N X i=1 Dz2 i (7.8)

Un esempio classico per comprendere la dierenza tra la precisione e l'accuratezza è quello riportato in gura, dove è rappresentato un bersaglio su cui sono state scagliate delle frecce. Quanto più le frecce giungono raggruppate, tanto più la serie di tiri è precisa. Non importa quanto il centro del gruppo (la media) si avvicini al centro del bersaglio, quest'altro fattore è infatti determinato dall'accuratezza. Nei riquadri A e B, le serie di dati sono ugualmente precise, ma la serie B fornisce un valore medio scostato dal valore atteso, che è rappresentato dal centro del bersaglio: la misura è detta perciò inaccurata. In C, i dati sono poco precisi, ma la misura è invece accurata. In D, non si hanno né precisione né accuratezza.

A B

C D

Figura 7.12: Precisione e accuratezza. Nel riquadro A la serie di misure è precisa ed accurata; nel riquadro B è precisa, ma non accurata; nel riquadro C è accurata, ma non precisa; nel riquadro D non è nè precisa nè accurata

La statistica robusta rappresenta una valida soluzione nei casi in cui possono esistere errori grossolani all'interno dei dati che porterebbero a risultati non corretti. Si ricorre al suo uso quando, dato un insieme di osservazioni, si vuole attenuare l'eetto dei valori estremi.

I parametri statistici robusti corrispondenti a media, deviazione standard e rmse so- no, rispettivamente, la mediana, l'NMAD (Normalized Median Aboslute Deviation), qui denita std2, e quello che in questo lavoro viene denito rmse2, la stima robusta dell'accuratezza.

CAPITOLO 7. ORGANIZZAZIONE DEI DATI IN POSTGRESQL/POSTGIS 91 ˆ Mediana: è il valore che occupa la posizione centrale in un insieme ordinato di

osservazioni.

Per calcolare la mediana di un gruppo di valori, bisogna:

1. disporre i valori in ordine crescente oppure decrescente e contarne il numero totale

2. se il numero N è dispari, la mediana corrisponde al valore numerico del dato centrale, quello che occupa la posizione (N + 1)/2

3. se il numero N è pari, la mediana è stimata calcolando la media dei due valori centrali che occupano le posizioni N/2 e N/2 + 1

ˆ std2: misura la dispersione statistica di un campione

M AD = medianai(|Dzi− medianaj(Dzj) |) (7.9)

La relazione tra il MAD e la deviazione standard, per una distribuzione normale, è rappresentata dalla relazione

M AD

std2 ≈ 0.6745 (7.10) da cui:

std2 = N M AD = 1.4826 · M AD (7.11) ˆ rmse2: misura robusta dell'accuratezza

rmse2 =√mediana2 + sdt22 (7.12)

Rimozione degli outlier

In generale, una misura è aetta da errore quando il suo valore non corrisponde al valore vero. È evidente che la presenza di errori, di qualunque natura, può provocare distorsioni nella distribuzione delle variabili considerate, nelle stime nali dei dati e in tutte le analisi statistiche eettuate.

La rimozione degli outlier consiste nel non considerare quei valori estremi, o 'anomali', che si discostano notevolmente dai valori centrali di una distribuzione.

Questa operazione avviene mediante la determinazione di intervalli di accettazione al di fuori dei quali un valore è da considerarsi anomalo e quindi da sottoporre a controllo ed, eventualmente, a correzione.

Il criterio adottato per la rimozione degli outlier è quello di eliminare dagli insiemi dei Dz ricavati per ciascuna supercie GDEM gli oset che non rispettano la condizione:

mediana − 3 · std2 ≤Dz ≤ mediana + 3 · std2 (7.13) La gura seguente mostra un diagramma a blocchi, in cui è illustrato il processo per l'analisi statistica degli oset Dz tra i punti di controllo e le superci GDEM.

Punti GDEM Punti di controllo Triangolazione di Delaunay Dz 1 Parametri statistici Condizione inlier2 Dz=-9999 Inlier No Si Si Outlier No

1. Il triangolo non deve essere degenere, né avere un’area troppo grande 2. Condizione: mediana-3 sdt2< z<mediana+3 std2D

Parametri statistici

Capitolo 8

Verica della qualità planimetrica dei

GDEM

Per poter eettuare una stima attendibile della qualità altimetrica di un modello che riproduce l'andamento della supercie terrestre, è importante vericare come primo aspetto la corretta georeferenziazione dei dati, per quanto riguarda le componenti pla- nimetriche. Infatti la presenza di shif nei dati, in una delle due direzioni, Est o Nord, o in entrambe, fa si che la posizione dei punti non coincide con la realtà, il che produce una componente di errore che si va ad aggiungere all'errore insito nel modello nella determinazione della quota del terreno.

I primi controlli eseguiti pertanto riguardano la verica della coregistrazione tra i punti GPS e i punti quotati, al ne di avere dei dati che siano congruenti tra di loro.

8.1 Georeferenziazione dei punti di controllo

I punti di controllo utilizzati in questo lavoro di validazione hanno caratteristiche di- verse: il dataset dei punti GPS è composto da vertici misurati in modo molto preciso, ma che ricadono prevalentemente in aree 'piatte', spesso vicino ad aree urbanizzate, mentre i punti quotati meglio rappresentano i diversi comportamenti del terreno, ma sono stati misurati con una precisione inferiore.

Entrambi i dataset non risultano sucientemente densi per ricostruire delle superci che riproducano in modo adabile quella della Lombardia, pertanto lo studio di even- tuali shift planimetrici nell'insieme dei punti GPS e in quello dei punti quotati è stato eseguito in modo indiretto, utilizzando il DTM regionale come supercie di riferimento, e confrontando il comportamento dei punti GPS e dei punti quotati rispetto a questa.

E' stata realizzata una procedura automatica in due passi. Nella prima parte del procedimento sono ssati un range ed un valore di step in base ai quali vengono calcolati i valori di shift in Est e in Nord da applicare alla supercie del DTM. Per ciascuna coppia di traslazioni vengono calcolati i valori di Dz tra la supercie e un dataset di punti di controllo e ricavati i valori di rmse2 corrispondenti a ciascuna traslazione. Inne viene individuato il valore inferiore.

Nella seconda parte della procedura viene calcolato un range intorno ai valori (dx, dy) corrispondenti al valore rmse2 minimo e vengono ripetute le operazioni della prima parte, utilizzando un passo più piccolo, al ne di meglio identicare la coppia di (dx, dy) che genera il valore minimo di rmse2.

La coppia individuata corrisponde alle traslazioni in Est e in Nord da applicare ai punti di controllo per correggere la georeferenziazione. Per decidere se la traslazione è signicativa, ovvero genera un miglioramento eettivo nel posizionamento del dataset di controllo in esame, vengono confrontati i valori di rmse2 ottenuti in assenza di shift (dx = dy = 0) e quello minimo ottenuto al termine della procedura.

Documenti correlati