• Non ci sono risultati.

Come si conduce un’analisi cluster

II I Gruppi Strategici

V. Diversità tra i prodotti Le strategie comunicative

5. ANALISI DEI DATI

5.2 La Cluster Analysis (Analisi dei Gruppi)

5.2.1 Come si conduce un’analisi cluster

1. Si formula il problema identificando le variabili di classificazione

Innanzitutto è necessario selezionare le variabili che stanno alla base della procedura di raggruppamento. Bisogna fare molta attenzione poiché l’inclusione di anche una sola variabile irrilevante può modificare i risultati finali.

Le variabili discriminanti utilizzate sono le sei componenti principali otteniute dalla riduzione della lista degli atteggiamenti inizialmente individuata e sottoposta a giudizio da parte degli intervistati. Ricordiamo le sei componenti: “Specchio dei Sentimenti”, “Trasformismo”, “Fashion”, “Spontaneità”,”Naturalità”, “Compostezza”.

2. Si seleziona una funzione di distanza/similarità tra le unità

Tutte le tecniche di clustering si basano sul concetto di distanza tra due elementi. Infatti la bontà delle analisi ottenute dagli algoritmi di clustering dipende essenzialmente da quanto è significativa la metrica e quindi da come è stata definita la distanza. La distanza è un concetto fondamentale dato che gli algoritmi di clustering raggruppano gli elementi a seconda della distanza e quindi l'appartenenza o meno ad un insieme dipende da quanto l'elemento preso in esame è distante dall'insieme.

Una funzione di distanza (i’) tra due unità i soddisfa le seguenti proprietà: 1. d(i,i’)>=0 non negatività

2. d(i,i’)=d(i’,i) simmetria

3. d(i,i’)=0 se i e i’ hanno le stesse x 4. d(i,i’)>d(i,i’’) i è più vicina a i’’

Esistono infinite possibilità per definire funzioni di distanza30, tuttavia la funzione di distanza più utilizzata (per i dati quantitativi) è la distanza Euclidea. Anche nel nostro caso la distanza utilizzata è proprio la Euclidea.

30

Distanza Euclidea

x

i

= ( x

i1, …,

x

ip

)’

è il vettore delle covariate x corrispondenti alla ima unità statistica.

Combina scarti tra variabili che possono essere espresse in unità di misura diverse. A seconda della scala di misura che caratterizza le variabili si devono utilizzare funzioni di distanza/similarità diverse e quindi dati diversi.

3. Si seleziona una procedura di “raggruppamento”

Le tecniche per il raggruppamento si possono dividere in due grandi categorie.

Analisi non gerarchiche: sono tecniche che generano gruppi non gerarchizzabili; in questo caso si deve decidere a priori il numero di gruppi e le soluzioni con G o G-1 gruppi sono confrontabili solo attraverso indici sintetici e non gruppo per gruppo. Analisi gerarchica dei gruppi: in questo caso ogni gruppo fa parte di una classe più ampia, la quale è contenuta a sua volta in una classe di ampiezza superiore, e così via fino al gruppo che contiene tutte le unità.

Gli algoritmi di classificazione gerarchica si sviluppano quindi in fasi per ordine, in modo che in ogni fase vengono aggregati i due “oggetti” che risultano più omogenei tra loro in base alla misura di distanza prescelta. Nel momento in cui un oggetto viene allocato in un gruppo, esso non può venire riallocato in una fase successiva in un diverso cluster, al contrario di quanto accade per gli algoritmi non gerarchici.

Gli algoritmi più diffusi sono di tipo agglomerativo, in quanto i cluster sono formati raggruppando osservazioni in insiemi via via più grandi, fino a che tutte le osservazioni vengono incluse in un unico cluster.

Le analisi non gerarchiche sono generalmente applicate quando la quantità di dati su cui si effettua l’analisi è molto maggiore di quella a nostra disposizione, per questo si è scelto, per la nostra analisi di applicare una delle tecniche gerarchiche.

Lo sviluppo di una procedura gerarchica segue sempre alcune fai peculiari:

Fase 0. E’ lo stadio iniziale, in cui si considerano gli n oggetti coome sottoinsiemi disgiunte dell’insieme I, ovvero come n cluster elementari;

Fase 1. Si sceglie, osservando la matrice delle distanze D, l’elemento dij per cui si ha

dij = minhl (dhl) , dove con dhl si indica un generico elemento della matrice stessa. I due

oggetti i e j corrispondenti a dij vengono aggregati e in questo modo viene creato il

primo cluster “composito”. A conclusione di questa fase, si hanno pertanto n-2 cluster elementari e il cluster composito “i,j”;

Fase 2. Viene riaggiornata la matrice D, per tener conto dell’aggregazione avvenuta, eliminando le colonne corrispondenti agli “oggetti” i e j e aggiungendo una nuova colonna contenete le distanze dij, k tra il cluster composito “i,j” , e gli n-2 cluster

rimanenti;

Fasi successive. (da 3 a n-1 punti) Vengono iterati gli step 1 e 2 fino a quando gli n “oggetti” di partenza si trovano aggregati in un unico cluster composito ( che coincide con l’insieme 1), il quale li contiene tutti.

Nel Box 5.1 sono descritti i principali algoritmi di classificazione gerarchica a cui segue la spiegazione del metodo di Ward utilizzato nella nostra analisi.

Metodo di Ward:

La tecnica di Ward si propone di realizzare una classificazione gerarchica minimizzando la varianza delle variabili entro ciascun gruppo. Ad ogni stadio, vengono pertanto fusi i gruppi che producono il minimo aumento della varianza totale entro i gruppi (Ward, 1963). Questa tecnica permette di generare gruppi di dimensioni relativamente equivalenti e di forma tendenzialmente sferica.

Il metodo di Ward minimizza, nella scelta dei gruppi da aggregare, una funzione obiettivo che parte dal presupposto che una classificazione ha l’obiettivo di creare gruppi che abbiano la massima coesione interna e la massima separazione esterna.

1. Singlelinkage: la distanza fra un nuovo cluster e un caso individuale ( o un altro cluster precedentemente formatosi) è pari alla distanza minima fra il caso individuale stesso e un caso nel cluster. In altre parole, in ogni fase dell’algoritmo la distanza tra due cluster è data dalla distanza tra i loro punti più vicini.

2. Complete linkage: la distanza fra due cluster è data dalla distanza fra i loro punti più “lontani”.

3. Avarage linkage between group: l’omogeneità tra due cluster Ci C j è misurata con la media aritmetica dei valori della distanza tra ogni elemento del cluster Cj . Il metodo di average linkage differisce dai precedenti in quanto utilizza informazioni su tute le distanze fra gli elementi di cluster diversi e non solo la più bassa o la più elevata.

4. Avarage linkage within group: è una variante del metodo precedente e risponde all’esigenza di tenere conto della struttura interna dei cluster prima della loro fusione. L’omogeneità tra due cluster Ci C j è misurata con la media aritmetica dei valori della distanza tra coppie distinte di elementi che si trovano in Ci, tra coppie distinte di elementi che si trovano in C j , tra ogni elemento del cluster Ci, e ogni elemento del cluster C j.

5. Metodo del centroide: la distanza tra due cluster è data dalla distanza dei centri dei cluster stessi, ovvero dalla media dei cluster.

La devianza totale delle p variabili viene scomposta in devianza nei gruppi e devianza fra i gruppi:

Dev Totale= DevEntro+DevTra

Formalmente, data una partizione di G gruppi di numerosità variabile ng con (g=1,2,…,G):

o la devianza totale delle p variabili corrisponde ala somma delle devianze delle singole variabili rispetto alla corrispondente media generale

o la devianza nei gruppi è data dalla somma delle devianze di ciascun gruppo

o la devianza fra i gruppi è data dalla somma delle devianze (ponderate) delle medie di gruppo rispetto alla corrispondente media generale.

Nel metodo di Ward, ad ogni passo della procedura gerarchica si aggregano tra loro i gruppi che comportano il minor incremento della devianza nei gruppi DevEntro, e maggior incremento di DevTra, per ottenere la maggior coesione interna possibile, quindi di conseguenza, la maggior separazione esterna.

4. Si decide il numero di clusters

Tipicamente, l’output di una procedura gerarchica non contiene alcun indicatore numerico che supporti direttamente il numero corretto di cluster. A questo scopo si può esaminare con attenzione il dendogramma, rappresentazione grafica dell’unione di uno o più elementi/gruppi per ogni fase del processo, alla ricerca di eventuali “salti” di aggregazione dei diversi cluster.

Per una valutazione ancora più curata del processo di aggregazione è possibile anche esaminare la tabella con il programma di aggregazione, ovvero la sequenza dettagliata e completa del processo agglomerativo.