METODO DI WARD - I METODI GERARCHICI AGGLOMERAT

L’ANALISI DEI RISULTATI: TEORIA E METODI D

4.2 I METODI GERARCHICI AGGLOMERAT

4.2.3 METODO DI WARD

Anche quest‟ultimo metodo gerarchico aggregativo può essere considerato nell‟analisi in oggetto, anche se differisce da tutti gli altri in quanto basato fondamentalmente sulla scomposizione della devianza (cioè il numeratore della varianza), ovvero quel processo che permette di calcolarne il valore entro i gruppi (o within) e tra i gruppi (o between): questo metodo, in particolare, è finalizzato a minimizzare la varianza all‟interno dei gruppi – è evidente quindi che tale criterio è da considerare solo in presenza di variabili quantitative -. Nel passaggio da g+1 a g gruppi, attraverso quindi l‟aggregazione tra elementi, la devianza entro i gruppi aumenta, mentre al contrario diminuisce la devianza tra i gruppi.

Passo dopo passo, si considera l‟aggregazione di tutte le possibili coppie di gruppi, e tale unione – basata su un concetto di varianza minima – dovrà tendere all‟ottimizzazione della partizione ottenuta, considerata tanto migliore quanto le classi risulteranno eterogenee tra loro ed omogenee al loro interno, aggregando ad ogni step i gruppi che presentano una minore crescita della devianza

within.

Conducendo l‟analisi dei dati mediante i metodi gerarchici associativi o agglomerativi, è possibile scegliere il numero ottimo di cluster da considerare mediante l‟esame della distanza alla quale si fondono i vari gruppi; se, come visto, si analizza il dendrogramma disegnato durante o dopo l‟applicazione dell‟algoritmo, tale scelta si può facilmente compiere mediante un taglio nel punto di massimo - o comunque di forte - incremento della distanza a cui avvengono le differenti fusioni. Esistono tuttavia differenti altri metodi che permettono di condurre tale scelta, in particolare, sempre mediante l‟uso della distanza di fusione si definiscono l‟indice di silhouette e il rispettivo grafico.

4.3. I METODI GERARCHICI DIVISIVI

Differentemente dai metodi analizzati poco sopra, e come già brevemente visto nella parte introduttiva, tali iter gerarchici divisivi partono da un cluster iniziale, composto dall‟insieme di tutte le unità derivanti dall‟osservazione compiuta, e suddividono in modo progressivo tale complesso in un numero sempre maggiore di sottoinsiemi, fino al caso limite di g gruppi tra loro distinti, corrispondenti alle n osservazioni rilevate; il processo che porta a tale conclusione si svolgerà di volta in volta basandosi sulla suddivisione delle classi in solo e soltanto due gruppi.

Fanno parte di questa categoria i cosiddetti metodi nodali, ovvero quelli che si riferiscono ad un algoritmo riassumibile in tre punti fondamentali:

- s‟individua, nel primo passo, la coppa di unità che presenta la massima distanza, definita a questo livello “coppia di punti nodali”;

- successivamente, tutte le rimanenti unità sono assegnate a tali due nodi, sulla base della distanza minima calcolata tra ognuna delle n-2 unità restanti e il punto nodale;

- si ripetono questi due primi passi, identificando di volta in volta nuovi punti nodali all‟interno di ogni singolo gruppo, fino all‟ottenimento di n gruppi.

Per concludere l‟esame di tali metodi, occorre sottolineare pregi e difetti che ognuno di questi algoritmi reca con se. In primis, si può evidenziare come sia necessario presupporre ai fini dell‟analisi una regola che permetta la classificazione delle unità, attraverso la quale sia possibile far rientrare o meno le stesse all‟interno di un gruppo piuttosto che di un altro; chiaramente, se nel contesto all‟interno del quale si conduce questa analisi non è possibile determinare una regola classificatoria sufficientemente strutturata, l‟utilizzo di metodi gerarchici risulterà piuttosto approssimativa e limitata, oltre che limitante, nel senso che può condurre a tipologie di clusterizzazione errate. Se questo è uno degli svantaggi principali dell‟applicazione di questi algoritmi, è certamente invece un vantaggio il fatto che tali metodi rendono possibile lo studio dei processi che portano elementi con caratteristiche comuni ad assimilarsi, anche se questo potrebbe essere limitante per lo studio oggetto di questa analisi in quanto presuppone delle ipotesi di divisione aprioristicamente determinate, cosa poco realistica nell‟esame della clientela di un punto vendita; al contrario, è proprio attraverso la somministrazione dei questionari che si tenta di evincere eventuali caratteristiche comuni che hanno favorito la clusterizzazione della popolazione.

4.4. I METODI NON GERARCHICI

Contrariamente a quanto considerato per gli algoritmi gerarchici divisi, tali metodi sono caratterizzati dalla supposizione a priori del numero di cluster che s‟intende ottenere per ripartire l‟eterogeneo gruppo di misurazioni iniziali; in sintesi, tali algoritmi sono caratterizzati da alcune peculiarità, tra le quali le più importanti risultano essere:

- sono metodi solitamente aggregativi, che finiscono per produrre come output una sola partizione, partendo da n misurazioni disposte in g cluster, per arrivare ad un prodotto finale

costituito da un solo grappolo contenente tutte le unità di partenza;

- è di fondamentale importanza identificare, all‟inizio del processo, il numero k dei punti da determinare in modo tale che l‟algoritmo usato generi una partizione unica delle unità iniziali in g gruppi finali.

Diversamente da quanto accade con gli algoritmi gerarchici, attraverso i quali si cerca passo dopo passo la scissione – o aggregazione – ottima, nel caso di metodi non gerarchici il procedimento permette il partizionamento delle unità sulla base di un criterio predefinito, e l‟allocazione di una unità all‟interno di un gruppo non risulta irrevocabile, ma è al contrario possibile la sua riassegnazione ad un cluster differente qualora il posizionamento inizialmente scelto. Posto a priori il numero k di cluster in cui si desidera dividere il gruppo iniziale, il procedimento che regola tali metodi non gerarchici si divide fondamentalmente in due momenti:

- generazione di una prima partizione contenente gli n individui osservati in g cluster;

- inizio dell‟iter algoritmico, che permette una successione di spostamenti delle varie osservazioni all‟interno dei grappoli, al fine di conseguire una suddivisione che risponda il maniera il più ottimale possibile alle caratteristiche di omogeneità all‟interno dei gruppi, e di eterogeneità al loro esterno.

Va sottolineato, però, come questo secondo punto contenente l‟individuazione dell‟ottima partizione sottintenda un‟operazione di calcolo di dimensioni tutt‟altro che modeste, viste tutte le possibili combinazioni che permettono l‟assegnazione di un individuo n ad un gruppo g. La letteratura propone perciò lo sviluppo di un metodo di raggruppamento che tenga in considerazione solamente un numero plausibile di distribuzioni alternative: scelta cioè l‟iniziale suddivisione, si prosegue riallocando le osservazioni che fanno parte dell‟analisi in maniera tale da ottimizzare la funzione fissata come obbiettivo dell‟esame, determinata mediante k di suddivisioni, in un numero massimo di interazioni possibili. L‟esempio migliore di questi metodi non gerarchici è quello delle

k medie - o di McQueen, 1967 - algoritmo che parte da una popolazione inziale, per riallocare

successivamente le unità al cluster che presenta il centroide più vicino, fino al punto nel quale non esista gruppo diverso da quello di appartenenza che abbia centroide più vicino all‟unità stessa; la procedura permette la minimizzazione – evidentemente – della devianza all‟interno dei gruppi.

In sintesi, se l‟algoritmo non viene sviluppato mediante software statistici – come ad esempio, nel caso dell‟analisi in oggetto, R – si può riassumere l‟iter procedurale da seguire per lo sviluppo dei metodi non gerachici nelle seguenti sei fasi:

1. scelta dei centri k, riferiti allo stesso numero g di gruppi;

2. posizionamento delle unità vicino al centro di riferimento, secondo la teoria per la quale dovrà risultare minima la distanza rispetto a questo che a qualsiasi altro;

3. valutazione dei centroidi dei cluster ottenuti da questo primo posizionamento, mediante calcolo per i g gruppi;

4. calcolo dell‟intervallo che separa ogni elemento dal corrispondente centroide del gruppo cui appartiene: se non è minima la distanza da questo, si procede a riallocare l‟unità in esame, posizionandola all‟interno del cluster che corrisponde al centroide con la distanza minore; normalmente, per il calcolo di tale distanza viene considerata la distanza euclidea;

5. si ricalcolano i centroidi dei gruppi così formati con la nuova riallocazione;.

6. si ripetono gli step 4 e 5 fino al punto in cui la formazione dei gruppi non subisce ulteriori variazioni rispetto all‟allocazione precedente.

Si sono considerati dunque vantaggi e svantaggi dei metodi non gerarchici, come fatto per i metodi gerarchici; dal punto di vista degli aspetti positivi, è ragionevole citare la velocità con la quale è possibile eseguire i calcoli, e la possibilità che viene data alle varie unità di raggrupparsi tra loro in nuovi gruppi, o di allontanarsi dagli stessi, anche se questo aspetto necessita tuttavia di ipotizzare a priori la composizione della struttura dell‟indagine e della successiva clusterizzazione. Per semplificare questa questione si può pensare di procedere principalmente secondo due modi differenti: applicando un metodo di tipo gerarchico, oppure scegliendo un intervallo razionale di accettazione del valore g onde evitare reiterazioni impegnative ma poco costruttive ai fini di una corretta analisi dei dati raccolti.

Passando invece alle criticità di questi algoritmi non gerarchici, è utile sottolineare in particolare il problema relativo all‟influenza che la scelta iniziale del numero di cluster e della composizione dei gruppi mediante analisi dei centroidi può avere nell‟esito della clusterizzazione; oltre a questo, è importante considerare che valori anomali, costruzione dei gruppi poco strutturata e numerosità delle osservazioni insufficiente possono portare a soluzioni poco stabili.

In particolare, ai fini di una clusterizzazione strutturata e solida, si considerino le valutazioni relativamente al processo di segmentazione evidenziate da Hill e Silvestri nel loro “Some problems

of the taxornetric approach” del 1964; i criteri che i due autori evidenziano, comprendono in

particolare:

- oggettività, riferita al fatto che lavoratori che operano in maniera indipendente alla stessa cluster analisi su identico campione, dovrebbero in linea teorica giungere agli stessi risultati; - stabilità, con particolare riferimento a quanto emerge dalla clusterizzazione fatta su

osservazioni equivalenti;

- capacità di predizione delle variabili rispetto ad un nuovo gruppo di osservazioni.

A conclusione delle due analisi compiute, si può sicuramente evincere che se il fine dell'indagine è la creazione di cluster che presentino alta omogeneità al loro interno, intesa come rapporto stretto tra le unità che appartengono ad uno stesso cluster, è utile procedere mediante tecniche non gerarchiche; viceversa, si può pensare di ricorrere ai metodi gerarchici. È altresì vero che nel corso di un‟analisi statistica su un campione misurato, ad esempio, mediante questionario, le due tipologie di metodo possono convivere, intendendo che una – quella gerarchica – può essere utilizzata ai fini della ricerca dell‟ottima divisione in cluster della popolazione iniziale, mentre l‟altra – non gerarchica – può essere adoperata per valutare e verificare l‟effettiva correttezza dell‟ipotesi di segmentazione svolta mediante il metodo scelto.

CAPITOLO 5

Nel documento Customer satisfaction e segmentazione, due strumenti fondamentali per l'analisi della clientela. Il caso Berica Chef. (pagine 52-57)