• Non ci sono risultati.

Nell’ambito della cluster analysis, per quanto riguarda i dati qualitativi o misti (quantitativi/qualitativi), ad essi meglio si applica il concetto di similarità rispetto a quello di distanza. Le misure di similarità/dissimilarità si basano su un confronto tra un certo numero di variabili dicotomiche (le cui modalità indicano la presenza/assenza di un carattere). La similarità tra due casi sarà massima quando tutti gli attributi sono sempre presenti o sempre assenti in entrambi, nulla quando nessun attributo del primo sarà presente nel secondo.

Una misura di similarità c (i, j) dovrebbe godere delle seguenti proprietà24: a) c (i, j) = c (j, i): proprietà di simmetria

b) c (i, j) > 0: proprietà di non negatività

c) c (i, j) cresce al crescere della similarità fra i e j (Molteni, 1993).

24 Una misura di distanza d può essere facilmente trasformata in una misura di similarità c, utilizzando la

84

Ѐ importante sottolineare che gli indici di similarità sono definiti con riferimento agli elementi di un insieme, ossia alle unità statistiche, quindi non rispetto ai vettori, come avviene per le distanze. Un indice di similarità, inoltre, assume valori compresi nell’intervallo chiuso [0, 1], a differenza della distanza, che può presentare qualsiasi valore non negativo (Zani, 2000).

Si supponga che la matrice X contenga p misurazioni nominali effettuate su n individui; in particolare, si valuta la presenza (1) o l’assenza (0) di p attributi:

unità i 1 1 0 1 1 0 1 0 0

unità j 1 0 1 1 0 1 1 1 0

con riferimento alle due unità, si possono sintetizzare le due righe della matrice dei dati mediante la seguente tabella di contingenza:

unità i

1 0

unità j 1 a b

0 c d

dove a rappresenta il numero dei caratteri presenti in entrambe le unità, b il numero dei caratteri presenti nell’unità j, ma assenti nell’unità i; c il numero dei caratteri presenti nell’unità i, ma assenti nell’unità j; d il numero dei caratteri assenti in entrambe le unità. Ovviamente si avrà:

a + b + c + d = p

Attraverso l’indice di similarità si vuole valutare la somiglianza tra coppie di unità statistiche, con riferimento ai caratteri considerati.

In letteratura sono presenti diversi modi di calcolare la similarità, che differiscono principalmente per il trattamento riservato all’aggregato d.

1. Simple matching: la misura di similarità è fornita dalla frequenza relativa degli attributi presenti o assenti in entrambe le unità (coefficiente di simple matching):

cij =

in corrispondenza si definisce la misura di distanza: dij = .

2. Coefficiente di similarità di Jaccard: cij =

85

a differenza del precedente, esclude dal confronto il numero di attributi che sono assenti in entrambe le unità. Questo indice ha il difetto di risultare indeterminato nei casi in cui d = p. Il relativo coefficiente di distanza sarà:

dij = = 1 – cij.

3. Coefficiente di similarità di Czekanowski: cij = , dij =

assegna peso doppio al numero di attributi presenti in entrambe le unità e peso nullo agli attributi assenti in entrambe.

Una misura di similarità per attributi dicotomici è fornita dalla statistica χ2 calcolata con riferimento alla seguente tabella di contingenza:

attributo h

1 0

attributo k 1 a b

0 c d

dove a rappresenta il numero delle unità che presentano entrambi gli attributi, b il numero delle unità che presentano l’attributo k e non l’attributo h; c il numero delle unità che presentano l’attributo h e non l’attributo k; d il numero delle unità che non presentano entrambi gli attributi; si noti che:

a + b + c + d = n

=

Per quanto concerne, invece, la similarità per variabili qualitative politomiche, il coefficiente di matching di Sneath misura la similarità cij mediante la frazione o la

percentuale di attributi per i quali gli individui i e j presentano la stessa modalità.

Nel caso in cui, invece, si voglia misurare la distanza per misurazioni ordinali, una soluzione consiste nell’attribuire un punteggio alle categorie ed utilizzare una delle misure di distanza o similarità introdotte per i caratteri quantitativi; l’operazione contiene ovvi elementi di arbitrarietà. Altrimenti, si potrebbe declassare la misurazione al livello nominale, applicando il coefficiente di matching di Sneath (Proietti).

Infine, per misurare la similarità in presenza di dati misti, un giudizio complessivo circa la similarità tra gli oggetti di riga si ottiene dall’indice di similarità di Gower:

86 cij =

dove cij,k è una misura di similarità fra le unità i e j calcolata con riferimento al k-esimo

attributo, mentre δij,k è una variabile nominale che assume valore unitario se le unità

possono essere confrontate con riferimento all’attributo k e zero altrimenti. In altre parole, essa denota l’ammissibilità del confronto.

La definizione di queste quantità varia a seconda delle tipologie delle variabili:  variabili quantitative

cij,k = 1 – dij,k = 1 -

, δij,k = 1

dove Rk rappresenta il campo di variazione (range) della variabile k (Molteni,

1993).

L’indice di Gower assume valore uguale a 1 se le unità i e j presentano valori identici per ciascuna delle variabili e modalità uguali per ciascuno dei fenomeni qualitativi; esso assume valore uguale a 0 nel caso di similarità nulla, ossia di diversità massima, quando le unità i e j assumono l’una il valore massimo e l’altra il valore minimo per ogni variabile e i caratteri qualitativi presentano modalità sempre diverse tra loro (Zani, 2000).

 variabili qualitative politomiche: cij,k assume valore unitario se le unità

presentano la stessa modalità e zero altrimenti, mentre δij,k = 1

 variabili qualitative dicotomiche:

Tabella 15: Variabili qualitative dicotomiche per il calcolo dell’indice di similarità di Gower.

cij,k Unità i δij,k Unità i

Unità j 1 0 Unità j 1 0

1 1 0 1 1 1

0 0 0 0 1 0

Fonte: Proietti

Scegliendo l’indice di similarità di Gower, quindi, si tende a pesare maggiormente la presenza congiunta di attributi qualitativi rispetto alla similarità sulle variabili quantitative. Infatti la differenza di misurazione su variabili quantitative ha il medesimo

87

peso rispetto alla presenza o meno di un attributo qualitativo in entrambi gli oggetti di cui si vuole verificare la similarità solo se tale differenza coincide con il range delle variabili quantitative stesse o se tale differenza è nulla: si tratta evidentemente di casi estremi (Molteni, 1993).

Inoltre, l’indice di Gower

1. nel caso di soli caratteri dicotomici coincide con l’indice di similarità di Jaccard; 2. nel caso di soli caratteri politomici coincide con l’indice di similarità

cij =

3. nel caso di sole variabili quantitative è uguale al complemento a 1 della distanza media di Manhattan, calcolata sui valori rapportati al loro campo di variazione (Zani, 2000).