• Non ci sono risultati.

3.a L’analisi multidimensionale degli indicatori: l’analisi cluster 12

Nel documento PERCORSI EVOLUTIVI DEI TERRITORI ITALIANI 2 (pagine 195-198)

Gli indicatori messi a disposizione dal sistema 8milaCensus13 rappresentano la base informativa per individuare, relativamente ai primi due temi, gli insiemi territoriali omogenei per caratteristiche strutturali.

Un’analisi esplorativa della grande mole di dati a disposizione per il periodo 1991-2011 (Tavola 1) costituisce il passo preliminare per selezionare gli elementi descrittivi più utili per discriminare i comuni e costruire dei profili capaci di rappresentare al meglio le diverse componenti territoriali.

Questa esplorazione preliminare ha portato all’eliminazione di alcune informazioni non utilizzabili per la presenza di numerosi valori nulli (spesso corrispondenti ai comuni più piccoli), o per l’elevata o bassissima variabilità. Alcuni di questi (p.e. Indice di vecchiaia o Dotazione di servizi nell’abitazione) sono stati tuttavia mantenuti nell’analisi perché partico-larmente significativi per rappresentare una dimensione descrittiva.

In un passo successivo, l’analisi per componenti principali ha consentito di affinare ulteriormente la selezione, secondo i seguenti criteri:

10 Nella definizione degli outlier si assume la soglia di ±1,5 il valore di IQR (intervallo interquartile Q3-Q1).

11 Le mappe tematiche e le cluster-map LISA proposte in questa sezione sono elaborate con il software open-source GeoDa disponibile nel portale dedicato GeoDaCenter realizzato dalla School of Geographical Sciences and Urban Planning diretta da Luc Anselin - https://geodacenter.asu.edu/.

12 Il paragrafo e le scelte metodologiche sono a cura di Andrea Arru, Paolo Misso e Debora Tronu.

• eliminazione delle variabili concettualmente correlate, mantenendo fra di esse quella/ quelle con maggior peso nella determinazione degli assi (p.e. Età media degli edifici ed Indice di espansione edilizia);

• eliminazione delle variabili poco significative per la determinazione degli assi (per esempio il Tasso di analfabetismo);

• aggregazione di alcuni indicatori che nella loro forma più analitica risultavano poco significativi nell’analisi (p.e. le variabili sulla struttura familiare);

• disaggregazione, nelle voci più analitiche, di alcuni indicatori rivelatisi non efficaci per la discriminazione dei gruppi (p.e. Occupazione nel terziario extra-commercio, disaggregato nelle due componenti “Terziario avanzato” e “Pubblica Amministrazione ed altro”).

Al termine di questa fase esplorativa si è pervenuti alla selezione di 21 indicatori per il primo tema e di 19 per il secondo. La copertura delle diverse dimensioni descrittive è stata garantita, in questa scelta, da almeno un indicatore.

Su questa nuova base si è applicata, per ogni regione, un’analisi per componenti prin-cipali, avente lo scopo di determinare un numero più sintetico di elementi da sottoporre ad una successiva cluster analysis.

Le “nuove variabili”, combinazione lineare delle variabili iniziali, sono infatti gli assi fat-toriali restituiti dall’analisi per componenti principali. Questi sono in grado di spiegare una quota di varianza che ricade entro un intervallo definito a priori ed applicato all’elaborazione dei dati delle sette regioni. L’intervallo definito (fra il 68 ed il 75 per cento) ha garantito la selezione, in un quadro comparabile, di un numero minimo di assi per il massimo di va-rianza spiegata consentendo di ottenere, nel risultato finale, una buona rappresentatività di tutte le dimensioni di analisi (quasi tutte le variabili, entro questa soglia, sono rappresentate negli assi).

La cluster analysis applicata alle nuove variabili è stata condotta per il 1991 utilizzando preliminarmente il metodo gerarchico, con obiettivo di individuare il numero minimo di gruppi in cui stratificare la nuova base dati. Un passo successivo ha previsto, infine, l’appli-cazione del metodo non gerarchico (kmeans, centroidi) sulle variabili latenti non standar-dizzate e la conseguente scelta della partizione che massimizza il rapporto fra varianza entro i gruppi e varianza generale (valore di RSquare)14 (Tavola 2).

14 Per l’intero procedimento si è utilizzo il software open source Tanagra, la cui flessibilità ha consentito di condurre agevolmente sia la fase esplorativa sia quella delle successive elaborazioni dei gruppi. Il software è stato creato a fini didattici e di ricerca dal Prof. R. Rakotomalala dell’Università di Lione, Francia.

Tavola 1 - Processo di selezione degli indicatori base di 8milaCensus

TEMA DOMINIO INDICATORI Iniziali Dopo il primo processo di selezione

Dopo il secondo processo di selezione

Equilibrio demografi co e sociale

Popolazione 13 11 8

Integrazione stranieri 10 1 1

Famiglie 11 11 5

Abitazioni 15 10 7

Totale 49 43 21

Capitale umano e lavoro

Istruzione 9 6 3

Mercato del lavoro 22 17 14

Mobilità 9 3 2

197

Appendice metodologica

L’analisi dei dati al 2011 ha previsto un percorso diverso: successivamente all’indi-viduazione delle variabili latenti attraverso l’analisi per componenti principali si è, infatti, proceduto alla cluster analisys col metodo Kmeans, adottando come vincolo i valori dei centroidi dei cluster ottenuti nell’analisi al 1991.

La procedura di calcolo15 così impostata ha prodotto, oltre ai profili al 2011, una matrice denominata “di confusione” che consente di analizzare la distribuzione degli elementi base (i co-muni) nei raggruppamenti al 1991 e 2011. Questa matrice, inoltre, si configura come un utile stru-mento per descrivere la diversa stabilità dei gruppi e soprattutto la loro evoluzione nei due scenari.

I profili del 1991 e 2011 sono stati distintamente descritti attraverso l’analisi dei va-lori medi dei gruppi. La presenza, nei due anni, di un’uguale caratterizzazione rispecchia dunque la sostanziale omogeneità del profilo rispetto ai valori medi che lo descrivono, in-dipendentemente dalla composizione interna nei due anni (valutabile in base ai valori della matrice). L’attribuzione nel 2011 di una caratterizzazione diversa rispetto a quella del 1991 indica, invece, una modifica del profilo rispetto ad alcune caratteristiche, segnale di una sua evoluzione avvenuta in epoca più recente.

Nell’analisi condotta attraverso questo metodo bisogna tuttavia sottolineare che il con-fronto fra i valori dei due periodi non può essere di natura quantitativa: i due insiemi di medie, peraltro non ponderate, si riferiscono a gruppi diversamente composti, il cui ruolo è quello di concorrere a delineare uno scenario qualitativo, paragonabile ad un immagine del territorio ripresa in due tempi diversi.

I risultati ottenuti per le sette regioni, per gli stessi motivi sopra ricordati non fra loro confrontabili, tuttavia fanno emergere alcune considerazioni importanti per l’interpretazio-ne dei risultati.

15 La procedura, denominata Cluster strenghtening, è stata eseguita con il software opensource Tanagra.

Tavola 2 - Quadro di confronto delle scelte adottate e dei risultati nell’analisi cluster nelle sette regioni

EQUILIBRIO DEMOGRAFICO E SOCIALE 2011 1991 Numero di assi selezionati con ACP Varianza spiegata dagli assi Numero di cluster (richiesti al Kmeans) Rsquare Numero di assi selezionati con ACP Varianza spiegata dagli assi Numero di cluster (richiesti al Kmeans) RSquare Calabria 5 68 4 47 5 66 4 48 Emilia Romagna 3 68 3 56 4 69 3 51 Lombardia 5 70 5 55 5 70 5 55 Puglia 4 71 4 54 5 72 4 53 Sardegna 5 70 4 52 5 68 4 54 Toscana 4 68 4 57 5 71 4 53 Umbria 5 72 4 57 5 71 4 46 CAPITALE UMANO E LAVORO 2011 1991 Numero di assi selezionati con ACP Varianza spiegata dagli assi Numero di cluster (richiesti al Kmeans) Rsquare Numero di assi selezionati con ACP Varianza spiegata dagli assi Numero di cluster (richiesti al Kmeans) RSquare Calabria 4 75 5 54 5 68 5 50 Emilia Romagna 4 74 4 54 4 70 4 55 Lombardia 4 69 5 55 5 71 5 51 Puglia 4 72 5 55 5 70 5 51 Sardegna 5 71 5 49 6 71 5 44 Toscana 4 75 4 50 4 72 4 56 Umbria 4 73 4 46 4 70 4 52

L’analisi dei 21 indicatori descrittivi delle dinamiche demografiche ed insediative hanno fatto emergere pressoché ovunque un quadro lineare di trasformazione, per lo più inqua-drabile nel processo di progressiva concentrazione di popolazione nelle aree urbane che assumono in diversi contesti solo diverse configurazioni. Nel caso, invece, dell’analisi dei 19 indicatori descrittivi dell’evoluzione delle caratteristiche del capitale umano si ottengo-no risultati significativamente diversi. Ad una sostanziale gradualità nell’evoluzione della struttura socio-professionale delle regioni del Centro-Nord analizzate, si contrappone infatti una condizione molto più instabile delle regioni del Sud, dove a un pur generalizzato mi-glioramento del livello di istruzione si affianca una distribuzione settoriale e professionale dell’occupazione significativamente mutata nell’arco di vent’anni.

Nel documento PERCORSI EVOLUTIVI DEI TERRITORI ITALIANI 2 (pagine 195-198)