Clustering gerarchico e rappresentazione tramite dendrogramma

2.7 Concatenazione di voice leading e serie temporali

0 10 9 8 7 6 5 4 3 2 1 0

(a) Insieme di dati bidimensionali.

2 4 6 8 10 12 14 16 A B C D I E H F G J (b) Dendrogramma.

i=1,...,nz j=1,...,nw

Metodi e risultati

Clustering gerarchico e rappresentazione tramite dendrogramma

2.7 Concatenazione di voice leading e serie temporali

2.7.2 Clustering gerarchico e rappresentazione tramite dendrogramma

Nell’esempio precedente abbiamo visto come confrontare i brani a coppie attraverso la DTW.

Possiamo pensare ora a un insieme di n brani (o alla loro rappresentazione come concatenazio-

ne di voice leading) come a una nuvola di n punti in uno spazio metrico, in cui la distanza tra

due punti `e la distanza DTW; `e ora possibile descrivere il posizionamento tra tali punti attra-

verso un’analisi di clustering gerarchico (si veda [Ott 2009] e [Jain e Dubes 1988]). Questa analisi

restituisce una semplice rappresentazione di tutti i possibili cluster tra i punti, visualizzabile

come dendrogramma.

2.7. CONCATENAZIONE DI VOICE LEADING E SERIE TEMPORALI

49

A

B

C

D

E

H

G

F

I

J

Figura 2.17: Dendrogramma che riporta la dissomiglianza tra dati. La struttura della nuvola

di punti `e fatta da due gruppi distinti e da due elementi outliers. Il dendrogramma riporta

una tale struttura, rappresentando i due gruppi come cluster separati e unendo gli outliers ai

cluster rispettando la loro posizione relativa rispetto alla configurazione della nuvola di punti.

Rappresentazione di dati tramite dendrogrammi

I dendrogrammi forniscono una rappresentazione intuitiva del clustering gerarchico di dati (si

veda [Langfelder, Zhang e Horvath 2008], [W. L. Martinez, A. R. Martinez e Solka 2010] per una

descrizione completa di questi argomenti). Si considerino i dati bidimensionali rappresentati

come punti inR

nella figura 2.17a. I dati formano due cluster e hanno due elementi distaccati

(outliers) etichettati come I e J. L’asse orizzontale del dendrogramma rappresenta la distanza (o

dissomiglianza) tra i cluster, mentre ogni oggetto `e rappresentato dalla sua etichetta nell’asse

verticale. L’informazione che restituisce il dendrogramma riguarda quindi la somiglianza e

il clustering tra dati. Ogni unione `e rappresentata dalla divisione di una linea orizzontale in

due linee orizzontali. La posizione della divisione consente di recuperare la distanza tra due

cluster. Osservando il dendrogramma nella figura 2.17b, si pu `o vedere come i due cluster

principali sono rappresentati come rami che stanno circa alla stessa distanza. I valori anomali

sono congiunti a distanze ben pi `u elevate.

I valori presenti all’interno di un dendrogramma sono chiamati foglie (o leaves, in inglese).

Calcolo del dendrogramma

Si consideri un gruppo di n oggetti e sia D

= (d

)la matrice

che rappresenta la distanza tra i cluster u e v, composti da n

e n

oggetti rispettivamente. Il

dendrogramma `e calcolato come segue:

1. Si trovano i cluster u e v tali che d

`e minimo in D.

2. Si raggruppano u e v in un nuovo cluster z con n

=n

+n

oggetti.

3. Occorre ora ricalcolare le distanze tra il nuovo cluster z e gli altri cluster w, ottenendo

una nuova matrice di distanze; a ogni tipo di distanza calcolata corrisponde la scelta di

un diverso algoritmo. Citiamo alcuni degli algoritmi pi `u utilizzati:

Sicut

Estote Discendi Se Tu m’accogli

Sicut

0 0, 7585

1, 6229

1, 3089

Estote 0, 7585

0

1, 5336

1, 2251

Discendi 1, 6229 1, 5336

0

1, 0962

Se Tu m’accogli 1, 3089 1, 2251

1, 0962

0

Tabella 2.5: Matrice delle distanze DTW tra i brani analizzati in questi esempi.

• Il linkage singolo (single) assegna la distanza:

d

=min{d(z

, w

) |i∈ {1, 2, . . . , n

_{Se Tu m'accogli}