• Non ci sono risultati.

ANALISI UNIVARIATA, ANALISI BIVARIATA, SEGMENTAZIONE

LA CLUSTERIZZAZIONE DELLA POPOLAZIONE E L’ANALISI DEI GRUPPI OTTENUT

5.3.3 CLUSTER ANALYSIS – METODO DI WARD

Per questo terzo e ultimo processo agglomerativo gerarchico, si è preferito l‟utilizzo del metodo di Ward; si ricordi come tale metodo differisca dai precedenti in quanto basato sulla scomposizione della devianza, che aumenterà – quella entro i gruppi – all‟aumentare del numero g dei cluster, mentre al contrario diminuirà quella all‟esterno degli stessi.

In questo caso, partendo nuovamente dalla matrice delle distanze euclidee, la stessa quindi utilizzata per i primi due metodi di segmentazione in precedenza illustrati, il procedimento seguito in R è stato quello di inserire il comando hclust <- hclust(distanze, "ward.D").

Tale metodo ha condotto alla rappresentazione grafica del seguente dendrogramma:

6 2 20 0 2 01 10 9 17 3 1 53146 4116101124 13125199 1 89 9 94 29185 3117934141 1 28 28 93 193108 83 88 2 6 2 02 1 06 30122161167 42 61 36157143154142180 12668711156 15 51 19014 9910416052 381 136188120 82 73 78 181176 40 84 2 1 21113174 129 890 1 96168 71102 100139 45 6713778 51979 20 85 60 65148 48 98 52 81 16454159 1686 115 3 3 74131 16266155 55117 7 2 13 2 1 98197192191186182170166163140127118114 95 87 75 69 63 12 53138 5 92 103134 10 89 111133184194183 22 80 1957723 1017 35847 44 11 37145150 2515814 9 15 1 13 096 23 112 6105 4 1 16 5 50 172147 70 76 1 9 1 19 9113517564 7 432 1 49 32187 9757 1 10 24 46 175618144169 35 39127177 0 20 4 0 6 0 80 10 0 12 0 Cluster Dendrogram hclust (*, "ward.D") distanza H ei g ht

Si può concludere che questa volta, a differenza dei casi precedenti, emerge la formazione di (almeno) due cluster ben definiti, distanziati da un‟altezza sufficiente da caratterizzare la popolazione dei rispondenti mediante una divisione in due sotto-popolazioni.

Valutiamo questa distribuzione anche mediante l‟analisi del grafico rappresentante le altezze delle fusioni tra le varie unità:

È visibile, verso la parte destra della rappresentazione grafica, e negli ultimi tre dati dell‟ultima colonna della tabella riportata in appendice riportante le quote delle fusioni (Tavola 3), si verifichi un salto in corrispondenza delle ultime aggregazioni, nelle quali le altezze diventano più significative, fino a raggiungere quote pari a circa, rispettivamente, 20, 15 e 50; questa osservazione può aiutare a dedurre una prima ipotesi di divisione della popolazione in 2, 3 o 4 cluster. Vediamo però nel dettaglio quale di queste soluzioni rappresenta quella ottima ai fini dell‟analisi che si sta compiendo, attraverso diversi metodi di validazione, dei quali i due principali che si è scelto di considerare sono:

0 50 100 150 200 0 20 40 60 80 10 0 12 0 Index cl us t$ he ig ht

- Analisi della scomposizione della devianza; posto DevT=DevW+DevB, ovvero che la devianza totale del collettivo della sotto-popolazione (o dei due, tre, quattro collettivi) è somma della devianza all‟interno del gruppo considerato e delle devianze esterne al gruppo stesso, l‟obiettivo dell‟analisi è la segmentazione che minimizzi la devianza within o intra, massimizzando al contempo quella between, o inter.

- Elaborazione del grafico di Silhouette e del suo indice: ottenuto un raggruppamento ideale delle osservazioni composto da k sottopopolazioni, evidenziato nel dendrogramma da un taglio orizzontale posto ad un‟altezza che designi il numero di cluster scelti, è possibile elaborare un grafico (per l‟appunto il Silhouette plot) che permetta di verificare la bontà di ciascun segmento e della struttura nella sua globalità, riportando i valori medi, e che può essere utilizzato ai fini di analisi. La decisione sul numero di cluster più adeguati alla divisione della popolazione in oggetto di analisi si basa sulla realizzazione di molteplici grafici di silhouette, costruiti cambiando di volta in volta il numero delle sotto-popolazioni in cui dividere le osservazioni: il plot che presenta l‟indice di silhouette media migliore, oltre che una miglior rappresentazione grafica della clusterizzazione, corrisponderà anche alla suddivisione migliore.

Nel dettaglio, identificando ciascun‟osservazione rilevata con i, possiamo definire a(i) media delle dissimilarità interna, ovvero tra i stesso e gli altri oggetti che appartengono al cluster, e b(i) come il più piccolo tra i valori di d(i,C), ovvero della media d delle distanze tra l‟oggetto i e gli altri oggetti , per ogni altro cluster C. Si può quindi ora definire la larghezza della silhouette s(i) come:

s(i) = b(i)- a(i)

max(a(i), b(i))Î [-1,1]

Nel caso vi fossero cluster al cui interno vi è un solo elemento, per definizione si avrà un valore s(i) = 0;
 un valore alto di s(i), indica di contro che le osservazioni risultano ben suddivise; se s(i) tende allo 0, l‟osservazione si troverà a metà tra il gruppo cui appartiene, e

indice di silhouette media interpretazione

0.71-1.0 segmentazione molto valida 0.51-0.70 segmentazione ragionevole 0.26-0.50 segmentazione piuttosto debole

il più vicino; nel caso invece s(i) si presentasse con un valore minore di zero, l‟osservazione è stata probabilmente segmentata in modo sbagliato, e appartiene ad un cluster non consono.

Considertate le tre ipotesi di clusterizzazione, si è quindi proceduto a verificarle in prima istanza mediante l‟uso del metodo agglomerativo non gerarchico delle k-medie, inputando di volta in volta come numero di cluster obiettivo quelli emersi con l‟analisi della segmentazione mediante il metodo di Ward, ovvero 2, 3 o 4, con il comando kmeans(x, centers), dove centers corrisponde - per l‟appunto - al numero di gruppi ipotizzati. La risposta del software permetterà di analizzare parametri come:

- “cluster means”, vettori di numeri interi da 1 a k e che rappresentano la composizione dei gruppi, indicando le medie per ognuno, in riferimento alle diverse variabili considerate durante l‟analisi;

- “clustering vector”, vettore che identifica l‟appartenenza di ogni osservazione i al cluster di riferimento: permette di capire come i diversi rispondenti si suddividano all‟interno dei sottogruppi identificati durante la segmentazione;

- “within cluster sum of squares by cluster”, indica un valore dato dal rapporto tra la devianza

between e la devianza totale: l‟analisi trova il suo valore ideale, espresso nell‟ambiente

software da una percentuale, in un numero che tenda a zero; ragioniamo brevemente sul significato di questo valore e sul perché il fine dell‟analisi sia la sua minimizzazione. Si parta dall‟ipotesi che sia DevT=DevW+DevB per costruzione: dividendo tutto per DevT si ottiene 1= DevB

DevT+ DevWDevT , che può essere scritto anche come DevB

DevT =1- DevWDevT , ovvero R2 =1- DevW

DevT . A questo punto, se la devianza interna ai gruppi tendesse a 0 – risultato che

sarebbe ottimale ai fini della segmentazione in atto - è evidente che l‟indice R2 tenderebbe

di conseguenza a uno, in virtù del fatto che la frazione a destra dell‟uguale risulterebbe zero. Al contrario, se la devianza within risultasse uguale - o quantomeno tendesse - al valore della devianza totale, avremmo allora che l‟indice R2 risulterebbe zero, risultato non

positivo ai fini dell‟analisi in corso e sintomo di una clusterizzazione non ben effettuata o generalmente non ottimale. È da considerare altresì che questo indicatore da solo non permette di valutare in modo soddisfacente la divisione della popolazione in gruppi; è necessario quindi ponderare tale valore con un secondo parametro di verifica, rappresentato

in questo caso dall‟indice di silhouette: un R2 che tenda a 1, a fronte di una silhouette mal

strutturata, è sintomo di una clusterizzazione comunque non ottimale.

5.3.4 CLUSTER ANALYSIS – METODO AGGLOMERATIVO DELLE