La cluster analysis

3. La Conjoint analysis

3.3 Fasi operative della metodologia COA

3.3.3 La cluster analysis

Una volta ottenute le stime di utilità e di importanza è possibile, utilizzando le stesse matrici di partenza, suddividere i rispondenti in gruppi (o cluster) di clienti potenziali che siano omogenei al loro interno ed eterogenei al loro esterno. Questo è possibile grazie alla funzione “caSegmentation” la quale, partendo dalla matrice delle preferenze e quella degli attributi, restituisce il numero di gruppi46_{prescelto utilizzando il metodo delle k-medie (MacQueen,}

1967). Questa particolare funzione rientra tra le tecniche di segmentazione a posteriori nella quale i gruppi sono determinati a seguito di un’analisi quantitativa e non sono, come accade nelle metodologie di segmentazione a priori, noti nella fase precedente l’elaborazione dei dati. Più specificatamente si tratta di una segmentazione a posteriori per omogeneità, meglio nota come cluster analysis. Questa analisi permette di suddividere i rispondenti in base al loro grado di similarità rispetto a una o più variabili prescelte: consente quindi di ripartire un insieme eterogeneo di n unità in g gruppi omogenei di cui non si conosce a priori né l’esistenza né il numero47_.

Si distinguono due differenti metodologie di cluster analysis, quella gerarchica e quella non gerarchica. Nella prima si utilizza una matrice di prossimità, cioè una matrice n x p, in cui vengono riportate le misure di dissomiglianza tra le n coppie di osservazioni rispetto a variabili quantitative; tali misure prendono il nome di distanza.

Una distanza tra due unità xi e xj è una funzione che gode delle seguenti proprietà:

 Non negatività: le distanze non possono assumere valori minori di zero; dij ≥ 0.

 Identità: se il valore della distanza è uguale a zero allora le due unità coincidono; dij = 0.

 Simmetria: per la quale, dij = dji.

 Diseguaglianza triangolare: la distanza passando per un altro punto è sempre maggiore rispetto alla distanza tra i e j; dij ≤ diz + dzj.

46_{Il software R restituisce 3 cluster di default, ma è possibile impostare il numero che si vuole.}

47_{Se è effettivamente possibile suddividere le unità in gruppi allora si ha una riduzione delle dimensioni in}

Nel metodo gerarchico l’analisi si fonda dunque a partire da una matrice in cui vengono riportati i valori di dissomiglianza tra le unità. Dopodiché, attraverso una procedura iterativa, si creano delle aggregazioni di unità (ad ogni iterazione): si parte dallo scenario in cui vi sono n gruppi formati da una unità fino ad arrivare alla situazione in cui vi è solo un gruppo composto da n unità. In ciascun passaggio della procedura vengono legate le due unità più simili creando così dei gruppi che sono composti da aggregazioni formatesi nei passaggi precedenti. Una volta ultimato il processo è compito del ricercatore analizzare l’output e capire quale, tra le alternative possibili, rappresenti la suddivisione ottimale: cioè deve valutare in quanti gruppi è meglio suddividere il campione in quanto non tutte le partizioni danno una rappresentazione soddisfacente della realtà. Questa scelta viene supportata dall’utilizzo di diverse tecniche statistiche oppure mediante il calcolo di alcune stime che permettono di valutare la bontà del processo.

I metodi non gerarchici invece, partendo dalla matrice dei dati inziali, forniscono un'unica divisione delle n unità in g gruppi con g però fissato a priori; un esempio di questi è la tecnica delle k-medie, utilizzata dalla funzione “caSegmentation” del software R. Tramite l’utilizzo di questa tecnica48, una volta stabiliti il numero dei gruppi g, il software sceglie casualmente un numero g di unità (dette centroidi) da cui vengono calcolate le distanze dalle altre e che poi vengono suddivise in base alla vicinanza dal centroide stesso. Ad ogni passaggio vengono definiti nuovi centroidi e ri-calcolate le distanze fino a quando le unità non vengono riassegnate allo stesso gruppo dell’iterazione precedente. Esistono diversi modi per calcolare le distanze tra due punti, per questa analisi è stato utilizzato il metodo della distanza euclidea (dij) che è definita come la radice quadrata della somma delle differenze al quadrato tra i

valori assunti dalle unità (i e j) rispetto a ciascuna variabile (p) considerata49, cioè:

𝑑

_𝑖𝑗

= √∑(𝑥

_𝑖𝑠−

𝑥

_𝑗𝑠

)

2 𝑝

𝑠=1

48_{Anch’essa caratterizzata da una procedura iterativa}

49_{Nel caso in cui le variabili considerate fossero solo due, la distanza Euclidea, rappresenta la distanza tra}

Come riportato in precedenza, utilizzando la funzione “caSegmentation” è possibile scegliere il numero dei gruppi desiderato; poiché la scelta dei gruppi influenza il risultato finale, in questo lavoro di ricerca, l’analisi è stata ripetuta più volte dividendo le unità rispettivamente in 3, 4 e 5 gruppi. Per scegliere il numero ottimale è stato considerato prima di tutto l’indice R2_{che misura la quota di variabilità totale dei dati rispetto alle variabili}

considerate; esso rappresenta il rapporto tra la devianza tra i gruppi (B) e la devianza totale (T) e può quindi assumere valori compresi tra 0 e 1:

R

₌𝐷𝑒𝑣

(𝐵)

𝐷𝑒𝑣 (𝑇)

Questo indice assume valori crescenti all’aumentare del numero di gruppi50, dunque la ricerca del numero ottimale in cui suddividere le unità non può esser basata esclusivamente sul valore dell’indice R2. Pertanto, la scelta del numero ottimale di gruppi è avvenuta considerando anche le caratteristiche dell’indagine: scegliere 5 o 4 gruppi, avrebbe portato a una partizione con poche unità in ciascun gruppo, considerato che il numero dei rispondenti è stato di 213; invece, una partizione con 2 gruppi, avrebbe comportato un valore dell’indice R2 non soddisfacente (inferiore a 0,50). Per tali ragioni si è deciso di considerare una partizione con 3 gruppi (Fig.11) che presenta un indice R2 _{del valore di 0,615.}

Fig.11 - Valore dell’indice R2 in base al numero di gruppi della partizione

Di seguito è riportato l’output di R (Tab.16) ottenuto dalla seguente funzione che consente di definire una partizione di 3 gruppi:

caSegmentation(matrice profili, matrice attributi, 3).

K-means clustering with 4 clusters of sizes 37, 89, 87 Cluster means:

Card 1 Card 2 Card 3 Card 4 Card 5 Card 6 Card 7 Card 8

1 2,30 1,65 2,35 1,77 1,52 1,37 1,64 1,45

2 7,72 4,19 5,50 4,23 5,05 4,89 5,09 3,80

3 8,35 7,12 7,45 7,28 7,38 7,38 7,53 7,01

(between_SS / total_SS = 61,5 %)

Tab.16 - Rielaborazione output derivante dalla funzione caSegmentation

Dopo diverse iterazioni il programma riporta la suddivisione dei soggetti rispondenti nei tre gruppi: il primo composto da 37 unità, il secondo da 89 e infine il terzo da 87.

0,493

0,615

0,692 0,72

R

La funzione restituisce inoltre, per ciascuno gruppo, il valore del punteggio medio che è stato assegnato a ogni tipo di fidelity card; infine viene riportato anche il valore dell’indice R2_che

risulta essere di 0,615. Oltre l’output presentato nella Tab.16, viene riportata anche la collocazione di ciascun rispondente nei differenti gruppi. Questa importante informazione ha permesso di poter calcolare i valori medi dei coefficienti di utilità parziale di ciascun rispondente e di conseguenza i valori medi per ciascun gruppo; in questo modo è stato possibile desumere le differenti preferenze per ciascun attributo (Tab.17).

Tab.17 - Valori medi delle utilità parziali di ciascun gruppo e del campione in generale.

Confrontando i valori delle utilità parziali riferite al modello nel suo complesso con quelle ottenute in ciascun gruppo (Tab.17) si notano delle differenze considerevoli. Il Gruppo 1 presenta valori di utilità inferiori rispetto al modello generale il che potrebbe far desumere che questo gruppo sia composto da tifosi che non sono interessati a possedere una fidelity card con gli attributi proposti. In particolare si riscontrano dei valori critici per l’estrazione ad eventi, la partecipazione al meeting e la possibilità di avere uno sconto. L’attributo “estrazione agli eventi” assume un valore di utilità prossimo a zero, denotando quindi uno scarso interesse da parte dei rispondenti, così come la “partecipazione al meeting”, che presenta perfino un valore di utilità negativo, indicando dunque una preferenza nell’assenza di tale attributo.

Livelli Gruppo 1 Gruppo 2 Gruppo 3 Utilità generale 30€ 0,107 0,280 0,045 0,154 50€ -0,107 -0,280 -0,045 - 0,154 Estrazione eventi 0,014 0,566 0,263 0,350 No estrazione -0,014 -0,566 -0,263 - 0,350 Sconto 0,200 0,922 0,307 0,550 No sconto -0,200 -0,922 -0,307 - 0,550 Partecipazione meeting -0,043 0,546 0,185 0,300 No partecipazione 0,043 -0,546 -0,185 - 0,300 Walkabout 0,264 0,493 0,179 0,326 No walkabout -0,264 -0,493 -0,179 - 0,326

Infine, i tifosi appartenenti a questo gruppo sembrano essere poco interessati alla possibilità di avere uno sconto.

Il Gruppo 2 è caratterizzato, per ogni attributo, da valori di utilità molto più elevati rispetto a quelli generali. Ciò potrebbe significare che gli appartenenti a questo gruppo prediligano una fidelity card che possieda tutti gli attributi, con un costo di 30€. In particolare l’utilità percepita dai rispondenti è molto elevata sia per l’attributo sconto (0,922) sia per la partecipazione al meeting (0,546), che sembrano essere gli elementi caratterizzanti questo gruppo.

Infine, il Gruppo 3 presenta valori di utilità inferiori per quasi tutti i livelli, denotando una certa indecisione tra la combinazione delle modalità degli attributi proposti. In particolare si riscontra un valore più basso per gli attributi costo e walkabout: il primo assume un valore prossimo a zero, mentre il secondo ha un valore pari a circa la metà di quello del modello complessivo.

Di seguito viene riportato l’istogramma (Fig. 11) in cui sono riprodotti, con diverse tonalità di blu, i valori medi delle utilità parziali degli attributi valutati per ciascun gruppo; la linea rossa rappresenta invece il valore delle utilità parziali del modello complessivo.

Fig.11 - Valore medio dell’utilità parziale di un solo livello per ogni attributo e valore generale

calcolato dal campione.

-0,20 0,00 0,20 0,40 0,60 0,80 1,00

30 € Estrazione Sconto Meeting Walkabout

Dall’analisi dei valori medi delle utilità parziali, riportati rispettivamente nella Tab.17 e nella rappresentazione grafica corrispondente (Fig.11), è possibile individuare la tipologia di fidelity card preferita da ciascun segmento (Tab.18) in base agli attributi proposti nel questionario.

Gruppo 1 Gruppo 2 Gruppo 3

- 30€ -

- Estrazione Estrazione

- Sconto Sconto

- Meeting -

Walkabout Walkabout -

Tab.18 - Fidelity card per ciascun gruppo in base ai valori delle utilità parziali

È importante osservare come, in tutti e tre i profili, sia presente la possibilità di avere uno sconto presso gli store ufficiali del Club e al contrario, come il meeting annuale con la dirigenza sia presente solo nel profilo di card per il Gruppo 2. Il prezzo invece, come già si era denotato nel paragrafo precedente (calcolando l’utilità generale), risulta essere l’unico attributo per cui i rispondenti non hanno mostrato una netta preferenza per uno dei due livelli. Infatti anche se il Gruppo 2 presenta un valore maggiore rispetto a quello generale per il livello 30€, esso non è così elevato (0,280) da indicare una precisa preferenza da parte dei soggetti appartenenti a quel gruppo.

Nel documento Valutazione degli attributi preferiti di una nuova fidelity card e segmentazione dei tifosi: il caso Cagliari Calcio S.p.A (pagine 69-76)

3. La Conjoint analysis

3.3 Fasi operative della metodologia COA

3.3.3 La cluster analysis

𝑑

= √∑(𝑥

𝑥

)

R

= 𝐷𝑒𝑣

R

₌𝐷𝑒𝑣