• Non ci sono risultati.

Logica del processo di clusterizzazione

Posto che l’obiettivo delle tecniche di cluster analysis è quello di assegnare i casi della matrice dei dati a un numero ristretto di tipi o gruppi, massimizzando l’omogeneità fra i casi collocati all’interno dei gruppi (compattezza interna) e l’eterogeneità tra i casi collocati in gruppi diversi (respingenza esterna) (Di Franco, 2011) e dato un certo numero di elementi, il problema consiste nel trovare un metodo che permetta di raggruppare tali oggetti in classi tali che:

 sia minima la distanza tra due elementi appartenenti alla stessa classe;

 sia massima la distanza tra due elementi posti in classi diverse (Arcidiacono e Bagnasco, 2006).

L’omogeneità/eterogeneità viene valutata rispetto ad un certo numero di variabili usate in funzione discriminatoria.

Le tecniche di analisi dei gruppi (adg) si pongono, dunque, l’obiettivo di una riduzione controllata e di una sintesi delle informazioni disponibili, finalizzata alla migliore rappresentazione dei fenomeni analizzati. La loro peculiarità consiste nel fatto che queste sintetizzano prevalentemente i casi (le righe) della matrice dei dati; si è usato il termine “prevalentemente” in quanto è possibile operare una adg sulle variabili oltre che sui casi.

Il problema fondamentale da risolvere prima di procedere ad una qualsiasi adg concerne l’individuazione delle proprietà (e delle relative variabili) sulle quali basare questa operazione. Si ricorre prevalentemente a variabili cardinali poiché esse, assumendo molti valori, permettono di discriminare i casi in modo più sensibile. È evidente che ogni tipologia prodotta vale e può essere valutata solo rispetto alle proprietà prescelte per l’individuazione dei tipi. Scegliendo variabili diverse, si costruiranno tipologie più o meno diverse. La scelta delle variabili-criterio su cui fondare la tipologia è, quindi, il momento determinante di ogni procedura di adg; per operarla il ricercatore deve far ricorso alle sue conoscenze circa le caratteristiche rilevanti dei casi indagati (Di Franco, 2011).

79

La scelta delle variabili dipende dagli obiettivi che si vogliono raggiungere con la cluster analysis; infatti, a livello teorico, non esiste un procedimento che porti all’individuazione delle variabili migliori. La classificazione dovrebbe tenere in considerazione tutti gli aspetti considerati importanti per gli scopi prefissati, quindi si dovrebbero ampliare il più possibile le variabili rilevate; bisogna anche considerare che l’aggiunta di variabili con scarsa capacità discriminatoria tra i gruppi, i cui dati sono quindi di bassa qualità, può peggiorare i risultati, di conseguenza l’intera classificazione. Un criterio può essere quello di considerare una pluralità di variabili, in modo tale che l’eliminazione di una di esse o l’aggiunta di un’eventuale variabile non cambi la composizione dei gruppi individuati. In altre parole, una classificazione ragionevole delle unità statistiche non dovrebbe essere eccessivamente sensibile rispetto a piccoli cambiamenti di variabili che la compongono (Zani, 2000).

L’applicazione delle tecniche di cluster analysis produce in ogni caso dei risultati; sta al ricercatore valutare se questi soddisfano i suoi obiettivi di analisi e danno una rappresentazione plausibile e interessante dei dati, oppure se sono dei meri artefatti matematici che non apportano alcun contributo alla conoscenza del fenomeno indagato. Essi, pertanto, non possono che restituire informazioni che sono già presenti nella matrice dei dati. In definitiva, per sfruttare i vantaggi offerti da questo strumento, il ricercatore deve poter controllare concettualmente tutti i passaggi che vanno dall’input (le variabili e/o i casi che si immettono nell’analisi) all’output (i risultati forniti dal programma di analisi dei dati). Inoltre, per giungere a dei risultati soddisfacenti, di solito, non è sufficiente un flusso lineare input → output (ossia un solo input e un solo output), ma è più opportuno uno circolare (input → output → input → output, e così via), che affini progressivamente i risultati ottenuti.

Una adg inizia, quindi, con la scelta delle variabili con le quali discriminare i casi e procede con la costruzione di una matrice quadrata simmetrica, dove si riportano i coefficienti di distanza (o di similarità/dissimilarità) fra tutti i casi. A questo punto si offrono al ricercatore centinaia di tecniche diverse per costruire una tipologia dei casi (Di Franco, 2011).

In sintesi, le principali fasi del processo di classificazione sono:

80

2. la scelta del tipo di misura di diversità da utilizzare per confrontare gli elementi da classificare;

3. la scelta del metodo o algoritmo di classificazione e dell’eventuale criterio di aggregazione/suddivisione;

4. la valutazione del risultato attraverso uno studio della similitudine fra le classi, l’eventuale consolidamento della partizione e l’interpretazione delle caratteristiche della tipologia ottenuta.

Il passaggio dalla fase 3 alla 4 è preceduto da un controllo sul risultato intermedio ottenuto: spesso ciò porta a ripetere le fasi 2 e 3, per verificare se la scelta di un altro indice di diversità o di un diverso algoritmo di clusterizzazione possa modificare il risultato.

Quando invece la cluster analysis è applicata ad insiemi molto numerosi di unità, è necessario seguire un percorso diverso, ovvero:

1. produrre una prima classificazione “fine”, ossia con un numero elevato di gruppi o nuclei (da 20 a 50);

2. studiare la similitudine fra i nuclei ottenuti;

3. scegliere il numero ottimale di classi o gruppi finali;

4. definire la matrice dei centroidi per l’intera tipologia, ossia la matrice dei baricentri che definiscono i profili di ciascun gruppo;

5. evidenziare le variabili più significative per ogni tipo, costruendo così la matrice di interpretazione (Bolasco, 2004).

L’estesa famiglia dell’adg si può classificare tenendo presenti due caratteristiche importanti:

1. il coefficiente usato per la formazione della matrice delle distanze o similarità; 2. il criterio seguito per costruire i gruppi.

È evidente che la distanza (o la similarità) tra due casi riguarda solo le variabili che sono state usate per quantificarla: ha cioè un valore relativo, non assoluto (Di Franco, 2011). In particolare, si considerino n elementi definiti da p caratteristiche quantitative o qualitative appartenenti ad un insieme I, dotato di una misura di distanza d, ovvero definiti in uno spazio metrico: si intende costruire una partizione degli n elementi in k gruppi. In genere, non si conosce il numero di gruppi che si vuole ottenere, pertanto sarebbe meglio dire “al massimo” in k gruppi.

81

Si indichi con Ik il generico gruppo (o classe) di elementi, per cui il sottoinsieme di I che

definisce l’elemento generico della partizione una tipologia come insieme di gruppi, può essere così espresso in simboli (Bolasco, 2004):

{I1, I2, …, Ik}

Si ipotizzi, successivamente, di aver rilevato i valori delle p variabili X1, X2, …, Xp

relativi a ciascun elemento. Obiettivo della procedura di cluster analysis è conseguire una partizione dell’insieme I in k sottoinsiemi C1, C2, …, Ck detti clusters, tali per cui:

1. k < n: l’analisi deve condurre ad una sintesi delle osservazioni;

2. Cr Cs = r, s = 1, 2, …, k: l’intersezione di due clusters è pari all’insieme

vuoto, ovvero ogni elemento può appartenere ad un solo cluster;

3. : l’unione dei k clusters è l’insieme degli n elementi di partenza (Molteni, 1993).

In generale, quindi, la variabilità multidimensionale totale dell’insieme I è individuabile dalla devianza totale (T) ed è scomponibile in due parti: variabilità interna dei gruppi (intra) e variabilità esterna tra i gruppi (inter), corrispondenti alle matrici W e B (rispettivamente: Within e Between). In assenza di ipotesi specifiche sulla nozione di gruppo e sugli obiettivi della classificazione, si dirà che una partizione è tanto migliore quanto più elevato è il rapporto variabilità esterna/variabilità totale, considerando che il valore del rapporto cresce all’aumentare del numero dei gruppi.

In presenza di determinate ipotesi è possibile costruire delle partizioni con criteri più specifici, non necessariamente volti ad ottimizzare l’omogeneità interna ai gruppi. Possono ad esempio definirsi funzioni obiettivo particolari che mirino a ricercare i gruppi sulla base di una loro struttura interna. Questo aspetto tende a sottolineare il fatto che un gruppo può essere un’entità costituita non solo da un cluster (unità vicine) ma anche da un pattern (unità caratterizzate da una certa relazione) (Bolasco, 2004).