• Non ci sono risultati.

1.QUADRO CONOSCITIVO

1.1 ANALISI AMBIENTALE

1.1.2 DEFINIZIONE DI UNITÀ TERRITORIALI OMOGENEE

La zonizzazione del territorio regionale in macro-aree omogenee da un punto di vista ambientale ha lo scopo di identificare unità territoriali che fungano da riferimento per le analisi di dati faunistici e gestionali, e per le successive azioni di pianificazione.

1.1.2.1 METODI

Le basi dati georeferenziate contenenti le informazioni territoriali ritenute utili all’analisi sono state la più recente Carta regionale di uso del suolo (ricavata dalla fotointerpretazione delle immagini AGEA2008) e la cartografia dei punti quotati. Riguardo la cartografia di uso del suolo, si sono operati alcuni accorpamenti tra categorie ritenute simili (Appendice B), ricavandone 34 variabili di uso del suolo. Ricorrendo al nonoCTR, i layer di cui sopra sono stati discretizzati tramite operazioni di overlay cartografico, via GIS (QGIS 2.6), ottenendo 22.023 unità utilizzate per descrivere una superficie cumulata di 22.318 kmq circa, pari approssimativamente al 99% dell’estensione del territorio regionale. Per ciascuna delle unità, tramite uno specifico database relazionale (realizzato con Microsoft® Access 2000), sono stati calcolati i valori relativi all’estensione delle diverse variabili di uso del suolo ed all’altitudine media, minima e massima dei punti quotati compresi al suo interno.

Sul database così organizzato, si è proceduto ad avviare un procedimento statistico che si prefiggeva i seguenti obiettivi specifici:

1. Identificazione dei principali gradienti di uso del suolo tramite Analisi delle Componenti Principali (PCA);

2. Identificazione di una serie di Unità Territoriali Omogenee (UTO);

3. Validazione statistica delle Unità Territoriali identificate.

Sono state condotte tre tipi di analisi in relazione agli obiettivi sopracitati. Di seguito viene riportata una descrizione dettagliata dei metodi utilizzati. Tutte le analisi sono state condotte tramite l'ambiente di programmazione R (R Core Team 2015).

Identificazione dei gradienti di uso del suolo

L'analisi dei gradienti ambientali ha come scopo principale l'identificazione della variazione di variabili di tipo ambientale all’interno di un campione. A tale scopo è stata utilizzata l'analisi delle componenti principali o PCA. La PCA è una procedura esplorativa dei dati multivariati, che riconosce le proprie radici nei lavori pionieristici di Pearson (1901), e, dato un gruppo di variabili quantitative, consente di identificare un insieme ridotto di nuove variabili fra loro linearmente indipendenti in grado di rappresentare i dati in maniera più sintetica, senza perdere informazioni. Le nuove variabili sono dette “componenti” e vengono estratte in ordine d’importanza: da quella che spiega la quota maggiore di varianza dei dati osservati a quella che ne spiega la quota minore. Nel presente caso, la PCA è stata impiegata per individuare i principali gradienti di uso del suolo, proiettando le unità di campionamento (celle di 1 kmq) in uno spazio definito da un set di assi, tali che il massimo della variazione nei dati è estratta dal primo asse. La massima variazione non correlata con il primo asse si proietta sul secondo e così via. Ad ogni asse è correlato un valore detto eigenvalue, che rappresenta la variazione estratta da ogni asse. Poiché la presenza di molti zeri in un dataset può

37

indurre non linearità tra le correlazioni delle variabili studiate, a volte diventa necessario trasformare i dati prima di calcolare la matrice delle distanze utilizzata per il calcolo della PCA.

Un'analisi esplorativa tramite grafici del tipo dotchart (Cleveland 1984) ha evidenziato come fossero presenti molti valori nulli nel dataset e si è quindi deciso di applicare una trasformazione logaritimica alla matrice dei dati di uso del suolo, prima del calcolo della matrice delle distanze. La matrice delle distanze così ottenuta è quindi stata sottoposta all'algoritmo per il calcolo della PCA, che restituisce due tipi di informazioni: i) l'eigenvalue, ossia la misura della massima correlazione possibile di tutte le unità di osservazione con l'asse relativo, cioè la misura della quantità di variazione espressa dal set di dati lungo di esso. Idealmente tale valore si può identificare con l'importanza del gradiente ambientale che si cela dietro l'asse. ii) i vettori eigenvectors, che sono invece punteggi attribuiti alle unità di osservazione, nel nostro caso le superfici di categorie di uso del suolo, espressi in valore percentuale rispetto al totale della parcella.

Identificazione di una serie di unità ambientali omogenee

Per identificare un numero ottimale di unità ambientali omogenee è stata adottata una procedura di cluster analysis. La cluster analysis o analisi dei gruppi ha come scopo generale l'identificazione di gruppi di oggetti (in questo le celle di 1x1km) simili tra di loro. Esistono un gran numero di algoritmi di cluster analysis. Nel presente caso si è deciso di adottare l'algoritmo PAM (Partioning Around Medoids) (Kaufman & Rousseeuw, 2009). Questo algoritmo è noto per essere molto robusto alla presenza di rumore e valori estremi nei dati (Fielding 2007), specialmente in contesti di analisi biogeografiche (Fattorini, 2007). L'input per la PAM cluster analysis è consistito in una matrice ridotta dalla PCA, calcolata utilizzando la matrice originaria di uso del suolo (obbiettivo 1). La matrice input per una cluster analysis può potenzialmente comprendere varie tipologie di dati ambientali (e.s. altitudine e uso del suolo, combinati). L'inserimento di variabili aggiuntive può però introdurre un eccessivo rumore nei dati e compromettere l'interpretazione dei risultati finali. Per verificare la presenza di un eccessivo rumore si è condotta un'analisi preliminare, utilizzando dati di altitudine e uso del suolo. I risultati di tale analisi hanno evidenziato come non ci fosse una chiara segregazione spaziale di cluster, risultando l’altitudine l’unica variabile significativa e fortemente correlata alle variabili di uso del suolo (figura 1.1.2-F1). Si è quindi optato per procedere ad una cluster analysis con il soli dati di uso del suolo.

38

1.1.2-F1 Risultato dell’analisi a cluster condotta includendo la variabile “altitudine”.

L'algoritmo PAM segue una procedura iterativa basata sulla struttura locale dei dati per delineare i gruppi, identificando regioni ad alta densità di dati. Nello specifico l'algoritmo seleziona una o più celle (i medoids) ove la dissimilarità media, espressa in termini di distanza euclidea, è minima in relazione a tutte le altre celle. L'obiettivo dell'analisi PAM è di minimizzare la somma delle dissimilarità nel classificare gruppi di celle di 1x1km. Al contrario dei metodi di cluster analysis gerarchici il metodo PAM divide lo spazio multivariato in un certo numero di gruppi specificati a priori. Nel presente caso si è seguita una procedura iterativa, partendo da un numero minimo di due gruppi incrementando progressivamente il numero di gruppi, fino ad identificare un numero di gruppi ottimale. Il numero di gruppi ottimale è stato identificato utilizzando la procedura della silhouette plot (Rousseeuw, 1987) e alla procedura descritta nel paragrafo successivo (cfr. § 1.1.2.2), come parte dell'obiettivo 3. Queste due procedure sono da considerarsi complementari, in quanto entrambi i metodi riescono a dare conferma del numero ottimale di gruppi. La silhouette plot identifica il numero ottimale di gruppi sulla base del grado di appartenenza di una cella di 1x1km ad un cluster, misurato come la distanza tra la cella di 1x1km e tutte le celle del cluster. Il grado di appartenenza medio calcolato come la media tra tutti i gruppi indica il numero ottimale di gruppi.

Validazione dei gruppi identificati

I gruppi identificati sono stati validati tramite l'algoritmo Random Forests (Breiman 2001). Questo metodo serve a classificare oggetti o dimensioni predefiniti. Tale algoritmo può essere utilizzato per verificare l'efficacia della cluster analysis, utilizzando i punteggi dell'analisi PCA come variabili indipendenti e il numero di gruppi corrispondenti come variabile dipendente. Sebbene sia possibile condurre un'analisi simile con metodi come l'analisi discriminante (LDA), l'uso dell'algoritmo Random Forests è particolarmente vantaggioso in quanto tale algoritmo è in grado di modellizzare efficacemente relazioni non lineari nei dati e risulta essere molto robusto agli outliers presenti nei

39

dati. L'algoritmo Random Forests si basa sugli alberi di classificazione (Breiman et al., 1984), appartenenti ad una famiglia di metodi algoritmici che operano una segmentazione dei dati in sottoinsiemi omogenei, in termini di una variabile di risposta. Ogni segmentazione è operata ad un particolare valore della variabile di risposta. Questi alberi possono essere concettualmente simili ad una chiave tassonomica e vengono rappresentati con dei diagrammi ad albero. Essi si diramano in un insieme finito di elementi detti nodi. Il nodo da cui si diramano i successivi è detto radice o

“Root”. L’insieme dei nodi, ad eccezione del nodo radice, è suddiviso in più insiemi distinti che vengono indicati come sottoalberi del nodo root. L’insieme dei nodi discendenti da un determinato nodo intermedio è denominato branca. I valori soglia di una variabile che dividono le unità di un determinato nodo sono chiamati split. Random Forests è un modello multi-albero costituito da una collezione o ensemble di alberi di classificazione. Il vantaggio nell’uso di un ensemble di alberi risiede nelle capacità predittive del modello, ben superiori a quelle di un unico albero. In un modello Random Forests i singoli alberi vengono costruiti selezionando in maniera randomizzata campioni dalle osservazioni e dei predittori. Nello specifico, ogni albero viene costruito utilizzando dei dataset replicati (con la tecnica del bootstrap) e un subset di predittori selezionati in maniera randomizzata.

Gli alberi poi vengono combinati insieme per creare un modello finale. Questa procedura risulta molto vantaggiosa in quanto viene annullato il rischio di overfitting ossia l’eccessivo adattamento del modello ai dati osservati, che comporterebbe la perdita di generalità e di capacità predittive del modello.

Al fine di validare i risultati della cluster analysis è stata quantificata la bontà di predizione del modello Random Forests, ovvero la capita' di discriminare i gruppi identificati tramite la cluster analysis. A tale scopo il modello Random Forests è stato sottoposto ad una validazione incrociata (cross-validation). Questa consiste nel suddividere il dataset in più parti, in questo caso le variabili indipendenti formate dagli assi della PCA e la variabile dipendente formata dai gruppi identificati tramite la cluster analysis. La cross-validation segue una procedura iterativa. Ad ogni iterazione una parte viene esclusa ed il restante viene utilizzato per lo sviluppo di un modello Random Forests. La parte di dataset esclusa viene utilizzata per validare il modello confrontando le predizioni effettuate dal modello per i gruppi di cluster analysis e i gruppi identificati dalla procedura di cluster analysis.

Questa procedura viene ripetuta fino a quando si sono ottenute predizioni per tutte le partizioni del dataset. Nel presente caso, per effettuare la cross-validation, il dataset è stato partizionato in 5 parti. Questa scelta, comune nella validazione di modelli del tipo Random Forests (Friedman, Hastie

& Tibshirani, 2001), è giustificata dalla volontà di non eccedere nelle operazioni di calcolo dei modelli.

Definizione di Unità Territoriali Omogenee

Sulla base del risultato della Cluster Analysis, i raggruppamenti ottenuti e validati sono stati utilizzati per ottenere un file vettoriale delle Unità Territoriali Omogenee (UTO). Le scelte preliminari che hanno sotteso alla successiva digitalizzazione delle unità territoriali definitive sono state:

- Utilizzare come base cartografica il nonoCTR;

- Ottenere comparti ambientali unici, non frammentati;

40

- Come conseguenza del punto precedente, unire i Clusters 3 e 4 in un unico raggruppamento (Cluster 3-4), a causa dell’elevato grado di commistione delle celle appartenenti ai due raggruppamenti.

La procedura impiegata ha poi previsto le seguenti fasi:

- Utilizzando la funzione ‘Dissolve’, unione delle celle classificate nei cluster 1, 2 e 3-4 ottenendo tre comparti territoriali;

- Creazione e conteggio dei centroidi delle celle classificate nei quattro clusters in ciascuno dei tre comparti territoriali;

- Verifica che ciascun comparto territoriale (corrispondente ai Clusters 1, 2 e 3-4) contenesse non più del 5% di celle appartenenti agli altri due cluster.

1.1.2.2 RISULTATI

I risultati della PCA hanno evidenziato come esistano distinti gradienti ambientali a livello regionale (figura 1.1-F2). I primi tre assi della PCA hanno spiegato più del 58% della variazione presente nel dataset. Il primo asse è risultato essere correlato positivamente con categorie di uso del suolo legate a seminativi e prati stabili (S), zone urbanizzate (E) e Frutteti (Cf). Sul lato opposto del gradiente individuato da questo asse, le variabili maggiormente correlate risultano essere faggete (Bf), cespuglieti e aree a rimboschimento (T) e boschi misti di latifoglie (Bl). Il secondo asse ha mostrato una forte correlazione positiva con categorie di uso del suolo legate a seminativi e prati stabili (S), boschi misti di latifoglie (Bl), cespuglieti e aree a rimboschimento (T). Le categorie correlate negativamente con il secondo asse risultano invece essere Boschi di conifere (Ba), Praterie e Brughiere di alta quota (Tp) e Boschi di Faggi (Bf). Infine il terzo asse, risulta essere principalmente correlato positivamente con le categorie di uso del suolo legate a seminativi e prati stabili (S), frutteti (Cf) e Zone umide (U). Le tre categorie maggiormente correlate in maniera negativa con il terzo asse risultano essere legate alle categorie complessi sportivi (V), boschi misti di latifoglie (Bl) e zone urbanizzate (E).

41

1.1.2-F2 Risultati dell'analisi delle componenti principali (PCA). Le mappe mostrano le prime 3 componenti (PC1, PC2, PC3). I punteggi rappresentano i gradienti ambientali identificati dalla

PCA.

42

I risultati della cluster analysis hanno evidenziato come il numero di gruppi ottimale sia pari a 4 (figura 1.1.2-F3). Il numero di cluster ottimali è stato confermato sia dalla validazione tramite le silhouette plots che dall'analisi con Random Forests. Quest'ultima ha mostrato un'accuratezza della classificazione dei cluster ottenuti pari al 99%.

1.1.2- F3 Clusters ottenuti tramite la procedura di cluster analysis PAM (Partitioning Around Medoids).

La composizione dei quattro cluster in termini di estensione assoluta e percentuale delle singole categorie di uso del suolo è riportata in dettaglio nell’Appendice C. Per una descrizione dei raggruppamenti ottenuti utile a delinearne le caratteristiche, in tabella 1.1.2-T1 e tabella 1.1.2-T2 vengono riportate le superfici e la proporzione occupata sul totale delle cinque macro-categorie già utilizzati precedentemente nella descrizione dell’intero territorio regionale sulla base della Carta di uso del suolo (cfr. § 1.1.2 e Appendice A).

43

delle acque Totale

1 95,0 1.857,9 23,8 129,6 9,0 2.115,3

2 2.603,5 4.640,0 211,9 3,2 100,5 7.559,2

3 5.028,7 146,1 71,2 155,8 192,4 5.594,2

4 4.849,2 193,6 1.755,9 29,9 231,8 7.060,4

1.1.2-T1 Estensione (kmq) delle macro-categorie ambientali di uso del suolo nei quattro clusters.

delle acque Totale

1 4,5% 87,8% 1,1% 6,1% 0,4% 100,0%

2 34,4% 61,4% 2,8% 0,0% 1,3% 100,0%

3 89,9% 2,6% 1,3% 2,8% 3,4% 100,0%

4 68,7% 2,7% 24,9% 0,4% 3,3% 100,0%

1.1.2-T2 Estensione relativa (%) delle macro-categorie ambientali di uso del suolo nei quattro clusters.

Il Cluster 1 risulta composto principalmente da territori boscati e ambienti semi-naturali, tra i quali prevalgono i boschi di faggio, ed è caratterizzato da una associazione tra boschi e ambiente umido, ragione alla base della presenza di un buon numero di celle attribuito a questo raggruppamento, limitato altrimenti alla fascia di crinale appenninica, nel vasto complesso di zone umide salmastre delle Valli di Comacchio, tra le province di Ravenna e Ferrara, e nelle zone golenali del Po. Il Cluster 2 si caratterizza per un’alternanza tra boschi (misti di latifoglie principalmente), ambienti semi-naturali quali arbusteti, seminativi e aree eterogenee, tipica dell’ambiente collinare. I clusters 3 e 4 occupano a grandi linee la fascia planiziale, con un alto grado di frammentazione, sono composti principalmente da territori agricoli (seminativi, frutteti e vigneti), e contengono la quasi totalità dell’ambiente delle acque, differenziandosi principalmente per la collocazione dei Territori modellati artificialmente, quasi totalmente a carico del Cluster 4.

Sulla base dei risultati della cluster analysis, con i criteri definiti nella sezione 1.1.2.2, è stato realizzato il file vettoriale delle Unità Territoriali Omogenee (UTO), ottenendo tre UTO estese con direzione Nord-Ovest Sud-Est, e rappresentate in figura 1.1.2-F4. Le caratteristiche delle Unità Territoriali, in termini di composizione in macro-categorie di uso del suolo (cfr. § 1.1.1.2 e Appendice A), sono riportate in tabella 1.1.2-T3 e 1.1.2-T4 e rappresentate graficamente nei grafici di figura 1.1.2-F5. La composizione dettagliata sulla base di tutte le variabili ambientali della Carta regionale di uso del suolo è invece presentata in Appendice D.

44

1.1.2-F4 Unità Territoriali Omogenee.

UTO Territori

delle acque Totale

1 9.812,4 275,9 1.756,1 253,4 417,3 12.515,0

2 3.078,8 4.254,0 273,4 0,1 112,9 7.719,0

3 177,4 1.864,3 30,9 0,1 3,6 2.076,4

1.1.2-T3 Composizione in macro-categorie di uso del suolo delle UTO (kmq).

UTO Territori

delle acque Totale

1 78,4% 2,2% 14,0% 2,0% 3,3% 100,0%

2 39,9% 55,1% 3,5% 0,0% 1,5% 100,0%

3 8,5% 89,8% 1,5% 0,0% 0,2% 100,0%

1.1.2-T4 Composizione percentuale in macro-categorie di uso del suolo delle UTO.

45

1.1.2- F5 Composizione percentuale in macro-categorie di uso del suolo delle tre UTO.

46

L’UTO 3, che si estende per circa 2.000 kmq lungo la fascia alto-appenninica di crinale, risulta composta per quasi il 90% da territori boscati e ambienti semi-naturali (aree a vegetazione arbustiva, praterie e brughiere di alta quota, aree calanchive, a vegetazione rada, rocce nude). Tra i boschi, le faggete, tipiche di una fascia altitudinale superiore ai 900 m.s.l.m., rappresentano quasi il 70%. L’UTO 2, estesa per circa 7.700 kmq, si caratterizza per un territorio occupato per oltre metà della sua superficie da territori boscati e ambienti semi-naturali (principalmente boschi di latifoglie e misti, aree con vegetazione arbustiva e arborea in evoluzione, aree calanchive), per la restante porzione da territori agricoli (seminativi non irrigui e prati stabili principalmente, in minor misura vigneti e frutteti, ma anche aree eterogenee occupate da colture agricole intervallate da spazi naturali), e da tessuto urbanizzato per il 3,5% della superficie totale. Le UTO 2 e 3 raccolgono insieme il 96% circa dei territori boscati e semi-naturali dell’intera Regione (figura F6 e tabella 1.1.2-T5). L’UTO 1, la più estesa (12.515 kmq) comprende circa il 56% dell’intero territorio regionale, è occupata per quasi l’80% da territori agricoli e per il 14% da territori modellati artificialmente.

Considerando la ripartizione percentuale delle cinque categorie nelle tre UTO (tabella 1.1.2-T5), l’UTO 1 comprende la quasi totalità (99,9%)delle zone umide (interne, valli salmastre e saline), quasi l’80% delle acque interne (corsi d’acqua, canali, bacini di varia natura) (figura 1.1.2-F7) e oltre l’85%

dei territori modellati artificialmente (figura 1.1.2-F8). Esaminando la distribuzione delle categorie di territori agricoli tra le tre Unità Territoriali, si osserva come la categoria dei frutteti ricada nell’UTO 1 per una proporzione pari al 92% del totale e per l’8% nell’UTO 2, mentre i vigneti si distribuiscano per un 84% nell’UTO 1, nell’UTO 2 per il restante 16% (figura 1.1.2-F9).

Macro-categoria UTO 1 UTO 2 UTO 3 Totale

Territori agricoli 75,1% 23,6% 1,4% 100,0%

Territori boscati e ambienti semi-naturali 4,3% 66,5% 29,2% 100,0%

Territori modellati artificialmente 85,2% 13,3% 1,5% 100,0%

Ambiente umido 99,9% 0,0% 0,1% 100,0%

Ambiente delle acque 78,2% 21,1% 0,7% 100,0%

1.1.2-T5 Estensione relativa (%) delle macro-categorie ambientali di uso del suolo nelle tre UTO.

47

1.1.2-F6 Distribuzione di boschi e ambienti semi-naturali nelle UTO. (Fonte Carta regionale di uso del suolo 2008 ed. 2011).

1.1.2-F7 Distribuzione di zone umide, corsi d’acqua e bacini nelle UTO. (Fonte Carta regionale di uso del suolo 2008 ed. 2011).

48

1.1.2-F8 Distribuzione dei territori modellati artificialmente nelle UTO. (Fonte Carta regionale di uso del suolo 2008 ed. 2011).

. 1.1.2-F9 Distribuzione di frutteti e vigneti nelle UTO. (Fonte Carta regionale di uso del suolo 2008

ed. 2011).

49

1.2 CARATTERIZZAZIONE DELLA POPOLAZIONE VENATORIA REGIONALE

Documenti correlati