• Non ci sono risultati.

Per la cluster analysis si è deciso di utilizzare il metodo di raggruppamento dei medioidi, che corrisponde alla funzione in R “pam”, preferendolo a quello delle k-medie in quanto più robusto. Per poter iniziare lo studio è necessario innanzitutto caricare le apposite librerie, ovvero “cluster” e “stats”. Si è poi deciso di utilizzare una misura di somiglianza più generale possibile per la scelta del numero di gruppi, perciò, visti i pesi praticamente uguali per le variabili, si è utilizzata la distanza di Minkowski.

Si sono dunque effettuate delle prove per determinare il numero di gruppi ottimale da utilizzare (vedi illustrazione 14), scegliendo infine il numero che massimizza la Average silhouette width. In realtà la scelta ottimale in base a questo criterio sarebbe stata quella di 2 cluster (0.57), ma questo avrebbe impoverito l'analisi. Per evitare questo si sono usati invece 4 gruppi, ai quali corrisponde una Average silhouette width di poco inferiore (0.42). Non si sono scelti 3 cluster, perchè il terzo gruppo avrebbe avuto una buona fetta di unità statistiche con una silhouette width notevolmente inferiore allo zero (circa -0.2), mentre nel caso di k=4, le unità mal classificate hanno s(i) di poco negativa (vedi illustrazione 15).

Il risultato della chiamata “pam(dati,k=4)” viene dunque assegnato all'oggetto “medioidi” (vedi illustrazione 16).

Per avere una prima idea delle caratteristiche dei gruppi così formati, basta osservare l'oggetto medioidi$medoids, nel quale sono presentate le unità statistiche (e i relativi dati) ritenute rappresentative del cluster cui appartengono.

In particolare risulta che:

• nel primo cluster rientrano le unità statistiche con valori al di sotto della media per tutte le variabili. Potremmo definirli “Comuni con economia poco attiva”;

• il secondo gruppo è composto da comuni con valori delle variabili attorno alla media, perciò potremmo definirlo “Comuni con economia nella media”;

• nel terzo vi sono i comuni con valori molto vicini alla media dei dati. Sono “Comuni nella con economia molto attiva”;

• i comuni del quarto cluster hanno i valori più elevati di unità locali per kmq e si posso definire “Comuni con economia attiva”.

Uno strumento utile per semplificare la descrizione dei gruppi ottenuti è il clusplot. Esso rappresenta le unità statistiche e i cluster a cui appartengono su un piano nel quale l'asse x rappresenta la prima componente principale e l'asse y la seconda.

Osservando la disposizione dei cluster ottenuti dai dati a disposizione (vedi illustrazioni da 17 a 22), si nota che spostandosi da destra a sinistra si trovano in ordine il gruppo 1, il gruppo 2, il gruppo 4 e il gruppo 3. Sembra dunque che i cluster si differenzino nettamente per il valore della prima componente principale.

Valutando la seconda componente principale, i vari cluster non differiscono molto in termini di valori medi di questa, ma bensì in termini di range di valori assunti da essa. All'interno del cluster 2 infatti sembra che le varie unità statistiche non differiscano molto tra di loro in termini di seconda componente principale, mentre nel cluster 3 la differenza interna può essere molto più marcata. Lievemente minore a quello del cluster 3 è il range del gruppo 4, che a sua volta è superiore a quello del gruppo 1.

Illustrazione 16: Costruzione dei cluster e studio dei medioidi

Illustrazione 18: Clusplot dei 4 gruppi: rappresentazione grafica delle unità in base al valore delle prime due componenti

Illustrazione 19: Clusplot del primo gruppo: rappresentazione grafica delle unità in base al valore delle prime due componenti

Illustrazione 20: Clusplot del secondo gruppo: rappresentazione grafica delle unità in base al valore delle prime due componenti

Illustrazione 21: Clusplot del terzo gruppo: rappresentazione grafica delle unità in base al valore delle prime due componenti

Effettuando una breve analisi delle componenti principali diviene facile spiegare la posizione dei cluster nel clusplot (vedi illustrazioni 23 e 24). La prima cp infatti è influenzata negativamente dal numero di unità locali per kmq per ciascun settore, come si può notare dai relativi loadings per ciascuna variabile tutti concordi, negativi e di grandezza simile. E' naturale dunque che il cluster 3 si trovi molto più a sinistra (dove si trovano valori negativi e alti in modulo della prima cp) nel clusplot rispetto al cluster 1.

Osservando poi la percentuale di variabilità spiegata dalla prima componente principale, si vede nuovamente come a differenziare i gruppi sia in particolare questa componente.

La seconda cp contrasta invece UL_IND con le altre. Due unità che differiscono notevolmente per questa componente avranno dunque l'una valori particolarmente alti di UL_IND e bassi delle altre, l'altra la situazione esattamente opposta.

Illustrazione 22: Clusplot del quarto gruppo: rappresentazione grafica delle unità in base al valore delle prime due componenti

Conclusa questa analisi preliminare, si può procedere a raggruppare effettivamente i dati a seconda del gruppo di appartenenza. Per facilitare la descrizione, viene aggiunta la variabile “territorio” salvata all'inizio ai dati a disposizione (vedi illustrazione 25).

Illustrazione 23: Analisi delle componenti principali

Osservando dunque i comuni che compongono ogni cluster, si nota che Bassano del Grappa si trova nel terzo gruppo.

Effettuando la chiamata “corrispondenze[12,]” (dato che Bassano è nella dodicesima riga) si ottengono i valori dell'illustrazione 26.

Confrontando dunque questi valori con quelli riportati dalla chiamata “summary(c3)” (illustrazione 27), si vede che:

• il valore di UL_IND per Bassano è praticamente equivalente al primo quartile; • UL_COSTR per Bassano è quasi uguale alla media del cluster e alla mediana; • UL_COMM per Bassano è superiore al terzo quartile;

• UL_SERVIZI per Bassano è superiore al terzo quartile.

Da notare è anche che nello stesso gruppo ci sono altri comuni di grandi dimensioni quali Schio, Thiene e Vicenza.

Illustrazione 25: Assegnazione dei gruppi a nuovi oggetti

Di seguito sono presentate le immagini (da illustrazione 28 a 30) con i comuni e le principali statistiche di base per gli altri cluster.

Illustrazione 27: Caratteristiche del cluster 3

Per completare la descrizione dei cluster si può infine rappresentare graficamente i valori medi delle variabili di ognuno e confrontarli (vedi illustrazioni 31 e 32).

Illustrazione 29: Caratteristiche gruppo 2

Illustrazione 31: Codici creazione grafico delle medie