• Non ci sono risultati.

Capitolo 5. Altri strumenti di marketing

6.2 Metodologia: cluster analysis

Su questo campione si è deciso di operare una cluster analysis al fine di individuare gruppi di imprese con comportamenti simili dal punto di vista dell’orientamento e delle strategie di marketing10. In particolare, le variabili che si sono considerate per il processo sono innanzitutto

quelle della sezione dedicata all’orientamento strategico (domande n. 44-57 del questionario), con un richiamo diretto al marketing, alle sue leve e alle diverse aree gestionali di un’impresa, e quelle della sezione sulle prestazioni gestionali (domande n. 58-64), caratterizzate dalla presenza di tipici indicatori di marketing; in secondo luogo si è scelto di utilizzare le variabili relative al postponement (domande n. 9-12), dal momento che la pratica mira ad aumentare la customer satisfaction, uno dei principali obiettivi dell’orientamento al mercato, quelle relative ai marchi/brand (domande n. 15-17), fondamentali strumenti di marketing, e, infine, l’attributo attinente all’uso di diversi packaging ed etichette in sede di esportazioni (domanda n. 36 del questionario), indicatore di una certa propensione alla differenziazione. Si tratta quindi di 30 variabili.

La cluster analysis è un insieme di tecniche statistiche atte a eseguire raggruppamenti (classificazione) di unità statistiche sulla base della similarità del loro profilo descritto da una serie di variabili; i gruppi ottenuti devono caratterizzarsi per un elevato grado sia di omogeneità interna che di eterogeneità esterna (Delvecchio, 1992; Molteni, 1993; Vercellis, 2006).

Volendo fornire una formalizzazione più esplicita, dato un insieme I=(i1, i2, …, in) costituito da n unità statistiche per ciascuna delle quali sono stati rilevati i valori di p variabili X1, X2, …, Xp, obiettivo di un processo di clusterizzazione è raggiungere una partizione dell’insieme I in m sottoinsiemi C1, C2, …, Cm detti cluster tali per cui:

− m < n, ossia l’analisi deve condurre a una sintesi delle osservazioni;

− Ch ∩ Ck = ∅ con h, k = 1, 2, …, m, cioè l’intersezione di due cluster è uguale all’insieme vuoto, ovvero ogni unità statistica può appartenere a un solo gruppo;

− ∪i=1,…,m Ci = I, vale a dire che l’unione degli m cluster è l’insieme degli n elementi di partenza;

− C1, C2, …, Cm devono essere dotati di compattezza interna, nel senso che gli elementi ij appartenenti a uno stesso gruppo devono essere il più possibile omogenei tra loro, e di respingenza esterna, nel senso che elementi appartenenti a cluster diversi devono essere il più possibile disomogenei tra loro.

Questi metodi si sono sviluppati a partire dalla fine del XIX secolo nell’ambito di numerose discipline quali l’econometria, l’economia, la psicologia, la biologia, la fisica, la medicina e l’ingegneristica, campi in cui la classificazione dei dati è una parte essenziale della ricerca di modelli interpretativi della realtà, e si stima che in letteratura gli algoritmi elaborati fino a oggi siano circa un migliaio, anche se in alcuni casi sostanzialmente analoghi in quanto frutto appunto di diverse materie che si sono approcciate al problema in modo indipendente e parallelo. Grazie all’evoluzione degli strumenti di calcolo automatico, è possibile attualmente utilizzare algoritmi sempre più complessi dal punto di vista computazionale, ma sempre più efficienti nel trarre informazioni dai dati tramite una loro adeguata classificazione.

Tutti gli algoritmi presuppongono comunque la scelta di una misura di omogeneità tra le unità statistiche definita in particolare in termini di minore distanza o maggiore similarità tra le unità stesse.

Data una coppia di individui i e j identificati dalle misurazioni relative a p variabili, una funzione reale dij è una distanza se gode delle seguenti proprietà:

− non negatività, dij ≥ 0;

− la distanza di un elemento da se stesso è nulla, dii = 0; − simmetria dij = dji;

− diseguaglianza triangolare, dij ≤ dir + drj.

Di seguito si presentano le funzioni di distanza più diffuse qualora si debba operare essenzialmente con dati quantitativi.

Dati due vettori riga xi e xj della matrice dei dati X n x p che contengono il profilo delle unità i e j misurato su p attributi, si definisce distanza Euclidea la norma della differenza tra i due vettori:

dij = xi! xj = x

(

i! xj

)

T xi! xj

(

)

" #$ %&' 1 2 =

(

xik! xjk

)

2 k=1 p

(

" # $ % & ' 1 2

.

Eliminando la radice quadrata, si può far riferimento alla distanza Euclidea al quadrato. L’espressione: dij= x

(

i! xj

)

T W x

(

i! xj

)

" #$ %&' 1 2 =

(

xik! xjk

)

2 wk k=1 p

(

" # $ % & ' 1 2

,

dove W è una matrice diagonale contenente i coefficienti di ponderazione wk, indica invece la distanza Euclidea ponderata.

La distanza City Block o di Manhattan è rappresentata dalla somma delle differenze in valore assoluto tra le variabili e rispetto alla distanza Euclidea pone minor enfasi sulle differenze di ampia portata non essendovi l’elevamento alla seconda potenza:

d

ij

=

x

ik

! x

jk k=1

p

"

.

Da notare come le due precedenti funzioni possano essere considerate come dei casi particolari della distanza di Minkowsky rispettivamente ponendo λ=2 e λ=1:

d

ij

=

x

ik

! x

jk ! k=1 p

"

#

$

%

&

'

(

1 !

.

Nel caso della distanza di Chebychev si considera invece esclusivamente la differenza massima in valore assoluto tra le variabili:

d

ij

= max

k

x

ik

! x

jk

.

Per quanto riguarda i dati qualitativi, anche se in certi casi può essere utilizzata ancora correttamente la distanza Euclidea, a essi meglio si addice il concetto di similarità, che gode delle seguenti proprietà:

− sij = sji; − sij > 0;

− sij cresce all’aumentare della similarità fra i e j.

Le misure più diffuse per le variabili qualitative dicotomiche sono il coefficiente di simple matching e quello di similarità di Jaccard. Dopo aver sintetizzato la matrice dei dati in una tabella di contingenza: Attributo h 1 0 Attributo k 1 a b 0 c d a+b+c+d=n

in cui a rappresenta il numero delle unità statistiche che presentano entrambi gli attributi (frequenza congiunta) e b il numero delle unità che presentano l’attributo k ma non quello h, si definisce il primo indice come:

cij = (a+d)/p = 1-dij = 1-(b+c)/p , mentre il secondo come:

cij = a/(a+b+c) = 1-dij = 1-(b+c)/(a+b+c) .

Nonostante la questione relativa alla scelta di una misura di similarità/distanza abbia ricevuto una forte attenzione in letteratura, i risultati di alcuni studi empirici (Green e Rao, 1969; Sherman e Sheth, 1977) dimostrano che tale decisione non è cruciale nella determinazione della soluzione finale quanto quella dell’algoritmo di cluster analysis. Si è deciso allora di utilizzare per il dataset la funzione di distanza più diffusa, cioè quella Euclidea semplice, e ciò dopo aver operato una standardizzazione11 dei dati dal momento che le variabili utilizzate per la clusterizzazione sono non commensurabili, ossia si caratterizzano per una differente unità di misura a causa anche della loro diversa tipologia sia quantitativa che qualitativa. Da notare come questa procedura equivalga al calcolo della distanza di Karl Pearson, che, indifferente a cambiamenti di scala, è così definita:

d

ij

=

(x

ik

! x

jk

)

2

!

k 2 k=1 p

"

#

$

%

&

'

(

1 2

,

con σ2 pari alla varianza della k-esima variabile.

Riguardo il processo di clusterizzazione, si è optato per un uso combinato di tecniche sia gerarchiche che non gerarchiche per sfruttare i relativi punti di forza.

Gli algoritmi di classificazione gerarchica, caratterizzati cioè da una procedura iterativa che genera una gerarchia nelle partizioni, sono utili per definire il numero dei grappoli da produrre, ma, sebbene dei vantaggi dal punto di vista computazionale, sono sensibili alla presenza di outlier e

11 La standardizzazione è un processo che trasforma una variabile aleatoria distribuita secondo una media µ e una varianza σ2 in una variabile aleatoria con distribuzione “standard”, cioè di media 0 e varianza pari a 1. La

formula da applicare è:

X ' =X ! µ

!

,

dove σ è la deviazione standard della variabile.

non consentono di falsificare la configurazione raggiunta: data la loro natura, nel momento in cui un oggetto viene allocato in un gruppo, esso non può più essere posto in un cluster diverso in una fase successiva.

Al contrario, gli algoritmi di classificazione non gerarchica, basati, per la formazione delle classi, sulla minimizzazione di un’assegnata funzione obiettivo tramite una procedura iterativa che ammette, nelle varie fasi, una riallocazione degli elementi già classificati così da permettere un progressivo miglioramento delle partizioni ottenute, sembrano essere meno sensibili alla presenza di outlier, all’esistenza di errori di misura nelle distanze/similarità, alla scelta di una particolare funzione distanza e alla considerazione di attributi irrilevanti; offrono inoltre la possibilità di analizzare efficientemente grandi masse di dati in termini sia di risorse hardware che di tempo. Necessitano però la specificazione a priori del numero di cluster che si vogliono ottenere (Molteni, 1993).