• Non ci sono risultati.

Upper Level Set scan statistic

Capitolo 1 – Longevità e mortalità

2.2 Cluster detection

3.2.1 Upper Level Set scan statistic

Un recente metodo di clustering spaziale è stato proposto da Patil e Taille (2004) ed è indicato con l’acronimo ULS. La tecnica consente l’identificazione di aggregazioni spaziali irregolari ed è un approccio di ricerca basato sui dati che opera su uno spazio parametrico ridotto. Si consideri uno spazio bidimensionale

S

ripartito in

I

celle elementari, indicate con

a

i ed i=1,...I, per ciascuna delle quali si dispone di un conteggio di casi non negativo, espresso da una variabile casuale

C

a, e di una dimensione

n

a fissa e nota a priori. Come nel caso della spatial scan statistic, la variabile relativa ai casi osservati può essere descritta da due modelli distributivi: quello di Poisson e quello binomiale. Nel caso di un modello binomiale, il valore di

n

a identifica il numero di elementi, appartenenti alla cella

a

, aventi o meno uno specifico attributo, con una certa probabilità non nota

p

a,pa∈(0,1). La variabile di conteggio

C

a indica, invece, il numero di individui osservati all’interno di una cella e si distribuisce secondo la legge di probabilità

C

a

Bin(n

a

,p

a

)

. Per un

variabile

C

a individua un processo di Poisson (omogeneo o non omogeneo) di intensità

λ

a, descritta dalla distribuzione

C

a

Poi

a

n

a

)

, con λa >0. Per

entrambi i modelli distributivi le assunzioni di base prevedono che le variabili risposta

C

a siano indipendenti ed identicamente distribuite e che la variabilità spaziale risulti interamente spiegata dai parametri del modello. Analogamente alla spatial scan statistic, la ULS scan statistic si basa su tre caratteristiche principali: la geometria dell’area di ricerca, un modello probabilistico di riferimento per i valori osservati e la forma della finestra di scansione. Le prime due caratteristiche sono state già illustrate mentre la terza componente può essere descritta come la capacità di identificare clusters spaziali senza l’imposizione di vincoli geometrici alle aree esaminate impiegando, come strumento di ricerca, una funzione dei tassi di risposta osservati in ogni cella del territorio; in tal senso, la ULS scan statistic dipende solo dai dati reali osservati. Il punto di partenza della metodologia è una struttura a grafo nella quale risultano connessi i vertici delle aree territoriali adiacenti. La condizione di adiacenza geografica può essere scelta in differenti modi. Un caso limite è rappresentato da una zona adiacente solo a sé stessa; essa individua già un’area di interesse ed il numero massimo di clusters coincide esattamente con il numero di zone presenti sul territorio. La situazione opposta si ha quando un vertice risulta connesso con tutti gli altri nodi del grafo determinando un insieme di collegamenti difficilmente gestibile in fase di ricerca. In genere, si preferisce utilizzare una connettività di primo ordine in cui si considerano solo le aree strettamente adiacenti. Tale scelta consente di limitare sia la dimensione dell’insieme delle possibili aggregazioni finali che rendere più agevole la ricerca dei risultati spostandosi tra i vertici del grafo percorrendo i collegamenti esistenti. Si possono definire adiacenti due aree aventi un lato o almeno un punto in comune, oppure quando il confine condiviso ha una lunghezza positiva o, ancora, nel caso di corsi d’acqua, quando il flusso procede in una specifica direzione attraversando due aree adiacenti. L’obiettivo della ricerca è l’individuazione delle zone territoriali che mostrano un elevato tasso di risposta del fenomeno in riferimento alle rimanenti aree. L’idea di base della metodologia ULS è, dunque, simile a quella della spatial scan statistic di

Kulldorff ma si distingue da essa per la specifica modalità di trattamento delle aree e per l’identificazione dei clusters potenziali.

Prima di definire in dettaglio la metodologia ULS, è opportuno riportare alcune nozioni di teoria dei grafi utilizzate nelle tecniche di clustering geografico per aggregazioni non regolari. Si definisce grafo non-orientato

G

o brevemente

grafo, un insieme

V

finito non vuoto di elementi detti vertici e un insieme

E

di coppie non ordinate di punti distinti, dette lati, tali che

G:=(V,E)

. In genere, un grafo è rappresentato da un diagramma i cui vertici sono identificati da punti e due vertici sono congiunti mediante un segmento lineare

e

i che identifica univocamente i due vertici connessi, ei =

{

vi1,vi2

}

, con

v

i1

v

i2,

, , 2

1

v

V

v

i i

i=1,...m. La cardinalità dell’insieme

V

è detta ordine del grafo

G

mentre la cardinalità di

E

è detta dimensione del grafo (Mignani e Montanari, 1994). Un grafo orientato (o digrafo)

G

o è costituito da un insieme finito

V

non vuoto di vertici e un insieme (anche vuoto)

E

di coppie ordinate di vertici distinti, dette archi, tali che Go :=(V,E); un arco è rappresentato da una freccia

che unisce due vertici definendo una direzione mentre se nel grafo esistono lati o archi che congiungono un vertice con sé stesso si parla di pseudografi. Un grafo

G

costituito da

n

vertici ha un numero massimo di vertici e di lati compreso tra 0 e n(n−1) 2 mentre in un digrafo tale valore è compreso tra 0 e

) 1 (n

n . Un grafo

G:=(V,E)

si dice connesso se ogni coppia distinta di vertici

k j

v

v

,

è collegata da un percorso, detto cammino, ovvero se esiste una sequenza di vertici

v

r1

,...v

rp tale che

p r k r j v v v v = , = 1 e

{

vri,vri+1

}

E,i=1,...p−1. Un

elemento

S

=(V

1

,E

1

)

è un sottografo di

G

se

V

1

V

e

E

1

E

; per ottenere un sottografo è sufficiente eliminare dal grafo iniziale uno o più collegamenti o vertici. Si definisce, invece, componente di un grafo

G

un suo sottografo connesso che non è contenuto propriamente in nessun altro sottografo connesso di

G

, ovvero è un sottografo massimale connesso. Una componente in cui ogni coppia di vertici è connessa da un unico cammino è detta albero e rimuovendo un collegamento da un albero si ottiene un sottografo sconnesso. Un esempio di struttura a grafo è riportato in figura (1).

Figura 1. Esempio di grafo con vertici (vi) e relativi collegamenti (

j i

e )

I concetti di teoria dei grafi illustrati risultano particolarmente utili nei problemi di classificazione. Gli elementi che si desidera classificare in un numero non noto a priori di clusters possono essere interpretati come i vertici

v

1

,...v

i di un grafo generando una corrispondenza tra clusters e grafo: l’individuazione delle aggregazioni spaziali equivale alla ricerca di opportuni sottografi del grafo

G

.

Ritornando alla tecnica ULS, il tasso di risposta empirico, relativo ad una singola cella

a

, é espresso dal rapporto

G

a

=c

a

p

a . La definizione dell’insieme dei potenziali clusters, indicato con upper level set (ULS), avviene utilizzando dei valori soglia (o livelli)

g

del tasso di risposta osservato:

{a

c

p

g}

U

g

=

:

a a

Le zone candidate a formare un cluster

z

sono identificate da tutte quelle aree

con un tasso di risposta superiore al livello

g

prefissato. La metodologia ULS consente di definire una struttura ad albero associata allo spazio parametrico

ULS

in cui i nodi dell’albero rappresentano le zone candidate a formare il

cluster e le foglie individuano i punti di massimo locale del parametro osservato.

La struttura ad albero, indicata con ULS-tree, è definita dai collegamenti tra le zone candidate ai diversi livelli della funzione

G

. La caratteristica principale della procedura è la restrizione dello spazio parametrico di ricerca alle sole zone costituite dalle componenti geografiche connesse,

Z∈Ω

ULS, identificate dai limiti superiori dei tassi di risposta; tale restrizione consente una ricerca più rapida dei clusters in quanto la cardinalità dell’insieme

ULS è inferiore al

v1 v4 v2 v3 v5 v6 e12 e15 e35 e45 e36 e23 e13 v1 v4 v2 v3 v5 v6 e12 e15 e35 e45 e36 e23 e13

numero massimo di zone esaminate e le zone appartenenti a tale insieme rappresentano degli hot-spots10 potenziali. Supponiamo di fissare due livelli g e

'

g dei tassi di risposta e di ottenere, rispettivamente, un upper level set individuato da tre componenti connesse,

z

1,

z

2 e

z

3 ed un insieme costituito

dalle zone

z

4,

z

5 e

z

6. Il passaggio tra due livelli può consentire la definizione delle zone candidate secondo tre differenti modalità:

• una nuova zona può formarsi dall’unione di due zone già esistenti;

• ad un livello superiore, una zona già esistente può aumentare la sua estensione;

• può emergere una nuova zona non definita al livello precedente.

In fase iniziale, la procedura genera una matrice

I

di adiacenze delle aree del territorio. Successivamente le righe e le colonne sono ordinate in senso decrescente in base al valore del tasso di risposta definendo, per ogni livello g, una sotto-matrice quadrata triangolare superiore della matrice completa

I

. Nella fase successiva si delinea lo spazio parametrico di ricerca

ULS costituito dall’insieme di aree connesse definito ad ogni livello scelto e si determinano le stime di massima verosimiglianza L(z,p,q)11 per ogni elemento di tale spazio. Sotto l’ipotesi iniziale di distribuzione uniforme, si determina la distribuzione del LLR mediante un processo di simulazione (algoritmo MC) e la significatività statistica dei clusters è valutata confrontando il rango della statistica-test per i dati reali con quello ottenuto nella fase di simulazione.

In sintesi, la procedura ULS può essere descritta dal seguente algoritmo:

1. definizione della matrice di adiacenza

I

e calcolo dei tassi di risposta per ciascuna zona del territorio

2. ordinamento decrescente dei tassi di risposta ottenuti

10

La definizione di hot-spot non è rigorosa e ben definita in letteratura. In genere, con questo termine si indica un’area in cui il valore di verosimiglianza del parametro osservato è troppo grande per essere dovuta al caso

11

3. definizione degli insiemi di nodi connessi ad una zona in riferimento a ciascun livello g12

4. determinazione della statistica-test LLR per ogni insieme di zone aggregate

5. ripetizione dei punti (3) e (4) per ogni area del territorio 6. ordinamento decrescente dei valori di LLR ottenuti

7. identificazione dei principali hot-spots dalla lista ordinata di LLR

8. verifica della significatività statistica degli hot-spots mediante un algoritmo di simulazione MC

Documenti correlati