CAPITOLO 2

(1)

Pagina 24 di 104

CAPITOLO2-ACQUISIZIONE E ELABORAZIONE DI IMMAGINI NIRS

CAPITOLO 2

Acquisizione e elaborazione di

immagini NIRS.

In questo capitolo è presentato il dispositivo NIRS utilizzato illustrando la fase di acquisizione, la fase di salvataggio e i possibili artefatti che possono essere introdotti sia in fase di acquisizione sia in fase di calibrazione. Sono, inoltre, descritte due tra le operazioni più usate quando si trattano immagini mediche: la segmentazione e la registrazione d’immagini. La prima consente di ricavare informazioni utili dalle immagini, come l’estrazione di strutture anatomiche d’interesse o i loro contorni. La seconda è adoperata per allineare due o più immagini, o un’immagine e un modello raffiguranti lo stesso “oggetto”. L’allineamento ha diversi fini: integrazione d’informazioni di diversa natura, monitoraggio della forma della struttura anatomica d’interesse, correzione di artefatti da movimento ecc. Nei paragrafi successivi si fornisce una descrizione dei due processi e una breve panoramica dei metodi più comunemente adoperati in ambito d’immagini mediche che, ovviamente in base al quesito clinico, possono essere utilizzati anche per le immagini NIR.

(2)

2.1 Dispositivo di acquisizione: camera Kent.

Il dispositivo utilizzato in questo studio è il Multispectral Imaging Device KC103 della Kent Imaging Inc.,[24] un sistema non invasivo di stima dello stato di ossigenazione dei tessuti, capace di misurare sulla superficie del tessuto sotto esame i valori di:

 Saturazione di ossigeno ( );

 Livello di concentrazione di ossiemoglobina ( );

 Livello di concentrazione di deossiemoglobina (Hb).

Il dispositivo mostra su un display le immagini a colori del livello di ossigenazione del tessuto selezionato e riporta i valori misurati. Lo strumento è costituito da uno schermo collegato a un’asta, a sua volta congiunta a un carrello con quattro ruote bloccabili. Posteriormente, l’asta e lo schermo sono collegati a un braccio mobile che termina con la testa, la quale è costituita da sei LED laser, e da una matrice 470 LED (i LED della matrice emettono a quattro diverse lunghezze d’onda (λ): 48 a 670nm, 30 a 735nm, 120 a 890nm, 272 a 940nm), al centro della quale c’è il sensore rilevatore. La figura sottostante mostra una schematizzazione del dispositivo (Fig.2.1).

Fig. - 2.1 a) Multispectral Imaging Device KC103

(3)

Per utilizzare il dispositivo in modalità di acquisizione è necessario eseguire la calibrazione: la camera è posizionata sopra un cartoncino bianco, fornito dal costruttore, oppure su qualsiasi cartoncino di materiale fotografico, successivamente utilizzando i sei diodi laser puntatori, è impostata un’adeguata focalizzazione e un corretto posizionamento della camera. Quattro diodi laterali individuano il Filded of View (FOV) dell’immagine, mentre i due diodi centrali puntano il centro dell’immagine, indicando quando la macchina è alla giusta distanza dal soggetto per ottenere una corretta focalizzazione. Quando la camera è alla giusta distanza dal soggetto, le luci convergono verso il centro del cartoncino, invece, quando la camera si allontana dalla giusta distanza, le luci divergono (Fig.2.2 mostra il funzionamento dei diodi di posizionamento).

Fig. 2.2 -Schema puntatori laser: a) camera spenta; b) corretta distanza; c) camera a distanza non corretta [24].

Se il processo di calibrazione è andato a buon fine, si passa all’acquisizione delle immagini, in caso contrario appare un messaggio di errore in cui l’utente è invitato a riprovare una nuova calibrazione. La calibrazione, inoltre, ha una durata temporale limitata: trascorso un certo intervallo temporale l’utente deve ricalibrare il dispositivo (nella parte inferiore dello schermo è mostrata una barra di avanzamento che indica il tempo rimanente prima che scada la calibrazione).

Completata e riuscita la calibrazione, la camera, prima di acquisire le immagini, entra in modalità di posizionamento: si attivano i diodi di posizionamento proiettando dei puntini

(4)

rossi sul soggetto che aiutano a posizionare la camera in modo che il campo visivo della stessa catturi tutta la zona d’interesse. Una volta terminata la modalità di posizionamento, premendo l’apposito pulsante sullo schermo, è possibile acquisire le immagini. La camera Kent acquisisce un’immagine di riferimento a LED spenti, in seguito, la camera cattura le quattro immagini alle quattro lunghezze d’onda attivando e spegnendo separatamente i LED della matrice che ammettono alla stessa lunghezza d’onda: ogni tipologia di LED è accesa per 54ms, successivamente, i LED della stessa tipologia sono spenti e la camera acquisisce l’immagine ad una specifica lunghezza d’onda. Sfruttando le quattro immagini precedenti è calcolata l’immagine di saturazione. Concluso il processo di acquisizione, il dispositivo emette un segnale acustico e mostra un’immagine di saturazione di ossigeno sullo schermo con una mappa a falsi colori (di default jet: il rosso indica massima saturazione il blu indica saturazione zero). Attraverso appositi comandi a destra dello schermo, inoltre, è possibile scegliere in che modo visualizzare l’immagine ed effettuare qualche analisi sulla stessa. L’immagine può essere mostrata a falsi colori o in scala di grigio (Fig.2.3). Si può, inoltre, migliorare il contrasto dell’immagine. Premendo su un punto nell’immagine, la macchina disegnerà un cerchio in una zona d’interesse all’interno dell’immagine e mostrerà l’intensità media dei pixel all’interno del cerchio disegnato.

a) b)

Fig. 2.3 -Esempio utilizzo di mappa di colore diverso: a) scala di grigio b) color map Jet [24].

Dopo l’acquisizione delle immagini è possibile salvarle; di default sono creati due file in formato DICOM: nel primo file sono contenute le quattro immagini nel vicino infrarosso (alle quattro lunghezze d’onda), nel secondo file è racchiusa l’immagine di saturazione. Le immagini hanno una dimensione di 750x480 pixel e sono codificate a 12 bit ( livelli

(5)

di grigio). Le immagini, inoltre, possono essere salvate in formato JPEG o esportate in un dispositivo esterno (ad esempio un drive USB) per scopi di archiviazioni o di ulteriori analisi.

Le immagini elaborate possono mostrare degli artefatti introdotti sia in fase di acquisizione sia in fase di calibrazione. Se durante la calibrazione non si usa un cartoncino idoneo, nell’immagine possono comparire linee o “strane” forme (Fig.2.4). Nella fase di acquisizione dell’immagine si possono introdurre diversi artefatti a causa del movimento, della riflessione della luce, della presenza di aree ad alta curvatura.

Gli artefatti dovuti al movimento del paziente e/o della testa della camera causano sia una perdita dei dettagli nell’immagine sia una diminuzione della capacità del sistema di calcolare in modo accurato il livello di ossigenazione.

Gli artefatti da “riflesso” possono derivare dalla presenza di oggetti nella stanza, che riflettono la luce sul soggetto, o dalla presenza di sostanze liquide (come ad esempio pomate) sulla superficie d’interesse che causano la riflessione speculare della luce; entrambi i casi possono portare a una cattiva interpretazione del risultato riguardante l’ossigenazione. Per evitare questi artefatti da riflesso bisognerebbe asciugare la superficie umida, rimuovere se è possibile eventuali oggetti riflettenti, e posizionare la camera in modo da ridurre l’eccesiva riflessione.

Le zone eccessivamente curve, non essendo parallele alla testa del dispositivo, appaiono scure, quindi si potrebbero interpretare, erroneamente, come zone deossigenate. Per ovviare a questo problema si potrebbe provare a riposizionare la camera in modo che il campo di vista della stessa non catturi le zone curve (come ad esempio la parte estrema della coscia).

Fig. 2.4 -Esempio di artefatti introdotti durante la calibrazione: le frecce indicano due artefatti una linea e una macchia anomala [24].

2.2 Registrazione delle immagini

La registrazione d’immagine è un processo che consente di allineare due o più

(6)

Pagina 29 di 104 sensori [25]. Per allineare due immagini bisogna trovare una trasformazione geometrica che

mappi le coordinate dei voxel/pixel di una delle due immagini nelle corrispondenti coordinate dei voxel/pixel dell’immagine che si vuole registrare. La bontà dell’allineamento è valutata attraverso una funzione di similitudine (metrica), che fornisce un’informazione del grado di somiglianza tra le due immagini per ogni possibile trasformazione. Il problema della registrazione, quindi, è quello di trovare tra tutte le possibili trasformazioni quella che massimizza o minimizza una funzione di similitudine. Nel corso degli anni sono stati proposti diversi metodi di registrazione, questi ultimi possono essere classificati in base a vari criteri, come mostra la figura sottostante (Fig.2.5)[26].

Fig. 2.5- Criteri di classificazione dei metodi di registrazione [26].

Dimensionalità.

La dimensionalità riguarda la dimensione delle immagini (2D-2D, 3D-3D, 2D-3D) e/o la variabile temporale (una serie temporale d’immagini)[23].

Elemento base della registrazione.

L’algoritmo di registrazione può essere di tipo estrinseco o intrinseco [27]. Lo scopo della registrazione estrinseca è l’allineamento di elementi estranei inseriti nell’area dell’immagine: sono allineati dei marker posti sul paziente in modo non invasivo (dunque esterni, ad esempio cerotti con dentro il tracciante) o in mondo invasivo (impiantati). La registrazione di tipo estrinseco è relativamente facile e veloce, ma presenta alcuni inconvenienti: non può essere utilizzata per allineare organi deformabili, spesso sono utilizzati marker di natura invasiva ed è richiesta precisione durante il posizionamento dei marker in fase di pre-acquisizione. La registrazione intrinseca, invece, sfrutta informazioni dell’immagine provenienti dal paziente. Queste possono essere delle feauters dell’immagine:

(7)

strutture anatomiche d’interesse oppure punti di controllo anatomici o geometrici (ad esempio angoli, curvature). Queste informazioni, altrimenti, possono derivare dalle proprietà dei voxel. Il metodo basto sulle feauters ha come obiettivo l’allineamento delle caratteristiche estratte dall’immagine e richiede generalmente:

1. l’intervento dell’utente per l’individuazione dei punti di controllo;

2. l’utilizzo di algoritmi di segmentazione per estrarre le strutture anatomiche. La qualità del risultato finale dell’algoritmo di registrazione, quindi, dipende dall’abilità dell’utente, nel primo caso, e dalla precisione dell’algoritmo di segmentazione nel secondo caso.

Gli algoritmi di registrazione basati sulle proprietà dei voxel dell’immagine possono lavorare in due modi differenti: il primo approccio adopera tutta l’immagine ed è il più utilizzato, il secondo riduce l’immagine a un insieme di scalari e orientazioni, e consiste nell’allineamento dei baricentri delle immagini e degli assi principali (orientazioni principali). Il secondo metodo è veloce e di facile implementazione, ma è utilizzato solo in problemi di registrazione che non richiedono un’elevata precisione poiché i risultati ottenuti sono poco accurati. Infine è possibile utilizzare metodi ibridi di registrazione: questi metodi combinano tecniche di feauters con tecniche basate sull’intensità per ottenere un allineamento più accurato [26].

Dominio della trasformazione.

La trasformazione può essere di tipo locale o globale. La registrazione è definita globale se la trasformazione è applicata a tutta l’immagine e quindi i parametri della trasformazione sono validi per l’intera immagine. La registrazione, invece, è detta locale se la trasformazione coinvolge sottosezioni delle immagini e perciò i parametri della trasformazione sono validi solo per la piccola parte d’immagine coinvolta.

Natura della trasformazione.

Se prevede deformazioni elastiche la trasformazione è di tipo non rigido, se, invece coinvolge rotazioni e traslazioni è di tipo rigida. Nella maggior parte dei casi in letteratura troviamo la seguente classificazione del tipo di trasformazione [27]:

- rigida: ammette solo traslazione e rotazione, - affine: mappa rette parallele in rette parallele, - proiettiva: mappa rette in rette,

(8)

Dal punto di vista matematico una trasformazione rigida o affine può essere descritta utilizzando una matrice. Ad esempio, considerando una trasformazione rigida 3D la matrice di trasformazione T(x) applicata a un punto x dell’immagine può essere descritta come [28]:

T (x)=Rx+t

Dove i simboli indicano:

x punto nell’immagine di coordinate (x, y, z): x= t è il vettore delle traslazioni:

R è la matrice di rotazione che dipende dagli angoli di rotazione (α, β, γ):

R

I tre angoli di rotazione e il vettore della traslazione sono i parametri incogniti da cui dipende la matrice di trasformazione e sono definiti in un determinato intervallo di valori.

Interazione.

Esistono tre diversi modi d’interazione con l’utente [26]:

- metodo interattivo: l’utente attraverso l’uso di alcuni software effettua la registrazione;

- metodo automatico: dopo aver acquisito i parametri e i dati, viene eseguita la registrazione senza alcuna interazione con l’utente;

- metodo semiautomatico: in cui l’utente interviene per inizializzare il processo e/o interviene durante l’esecuzione dell’algoritmo per effettuare eventuali correzioni.

Modalità.

La registrazione può essere classificata in tre diversi tipi di modalità: unimodale, multimodale, modalità-modello[27][26]. La registrazione unimodale coinvolge immagini provenienti dalla stessa modalità di imaging, ed è utilizzata per diversi scopi: per la correzione di artefatti da movimento, per confrontare immagine pre-operatoria con immagine post-operatoria, per monitorare la forma e la dimensione della struttura biologica sotto esame o il cambiamento dell’intensità del segnale contenuto nei pixel dell’immagine in intervalli di tempo che possono durare qualche secondo (acquisizione delle immagini in un'unica seduta), qualche mese o addirittura anno (acquisizioni delle immagini in differenti sedute distribuite in un determinato arco temporale). La registrazione multimodale tratta immagini acquisite con diversa modalità d’imaging; questa modalità è adoperata per integrare informazioni di diversa natura: anatomiche con informazioni funzionali (tomografia assiale computerizzata (TAC) o

(9)

risonanza magnetica (MRI) con tomografia a emissione di positroni (PET) o tomografia a emissione di singolo fotone (SPECT)), alta risoluzione spaziale con velocità (TAC o MRI con ultrasuoni (US)). La differenza tra registrazione unimodale e multimodale a volte è ambigua, poiché alcune metodiche pur apparendo alla stessa modalità imaging, presentano informazioni differenti; ad esempio, considerando un processo di registrazione tra un’immagine di risonanza magnetica strutturale (MRI) e un’immagine di risonanza magnetica funzionale (fMRI): entrambe sono immagini di risonanza magnetica, quindi la modalità di registrazione potrebbe rientrare nel caso di registrazione unimodale, pur essendo due procedure di risonanza magmatica diverse; la prima infatti fornisce soltanto un’informazione anatomica sulle strutture cerebrali, mentre la seconda dà un’informazione sull’attività funzionale, cerebrale, quindi questa registrazione è più corretto classificarla come registrazione multimodale. Infine, l’ultima modalità coinvolge un’immagine acquisita in qualche modalità, un modello, o il paziente (il tipo modello-modalità è spesso applicato in tecniche di registrazione intra-operatorie).

Soggetto.

Un ultimo criterio di classificazione delle modalità d’immagini riguarda il soggetto coinvolto: intra-soggetto, inter-soggetto e soggetto-atlante. Nel primo caso le immagini riguardano lo stesso paziente, nel secondo tipo le immagini provengono da pazienti differenti e l’ultimo caso coinvolge un’immagine del paziente e un atlante anatomico.

Un algoritmo di registrazione è costituito da diversi componenti: le immagini, la trasformazione, l’interpolatore, la metrica, l’ottimizzazione (Fig.2.6)[29].

Fig. 2.6 - Schema delle componenti basi di un algoritmo di registrazione: le due immagini, la trasformazione, una metrica, un interpolatore e un otimizatore [29].

La registrazione d’immagini lavora o con una coppia d’immagini o con una serie temporale d’immagini, in quest’ultimo caso l’approccio generale è quello di ricondurre la

(10)

registrazione di una serie d’immagini alla registrazione di una coppia (ad esempio una possibile strategia è quella di allineare tutte le immagini a una di riferimento), la registrazione di una serie d’immagini non è argomento di questa tesi, quindi non sarà approfondito. Le immagini coinvolte nel processo di allineamento sono un’immagine “fissa”, cioè che rimane inalterata durante l’intero processo di registrazione, e un’immagine “mobile”, cioè che è trasformata spazialmente per ottenere la migliore sovrapposizione spaziale con l’immagine fissa. Tra le due immagini quella che ha le informazioni anatomiche più nitide è scelta come immagine fissa, e se non c’è nessuna differenza tra le due allora può essere scelta casualmente una delle due come immagine fissa.

La trasformazione spaziale che mappa i punti di un’immagine dipende dalle immagini a disposizione e può essere di diverso tipo, come descritto in precedenza.

L’interpolatore consente una corretta visualizzazione dell’immagine trasformata: in seguito alla trasformazione spaziale cambia la frazione di voxel/pixel dell’immagine e la griglia del sistema di riferimento dell’immagine, pertanto è necessario definire i valori dei voxel/pixel sulla nuova griglia attraverso un metodo d’interpolazione.

La metrica è una funzione che consente di valutare la qualità dell’allineamento. La scelta della metrica da utilizzare dipende dal tipo d’immagini a disposizioni e dall’algoritmo di registrazione adoperato. Ad esempio, nel caso di registrazione basata sulla proprietà dei voxel, se si dispongono due immagini in cui il segnale è simile (registrazione unimodale senza uso di agente di contrasto, ad esempio due immagini di tomografia computerizzata) allora è possibile utilizzare come metrica la differenza quadratica tra le due immagini (SSD), la quale è proporzionale alla differenza tra il segnale delle due immagini (ovvero la differenza tra il livello di grigio). La SSD tra due immagini A e B è definita come segue [28]:

: immagine B a cui è applicata la trasformazione T,

: area comune tra le due immagini A e ,

A( ) : valore dell’immagine A nella posizione nella regione , ( ): valore dell'immagine nella posizione nella regione , N: numero di pixel dell’area comune.

Questo tipo di metrica mostra ottimi risultati se si applica a immagini che hanno un’uguale distribuzione dell’intensità del segnale, in caso contrario la metrica conduce a un

(11)

alto errore di registrazione. Pertanto bisogna ricorrere ad altri tipi di metrica, come ad esempio la mutua informazione. La mutua informazione tra due immagini può essere pensata come una misura di quanto bene un’immagine spiega l’altra [22]; in termini più formali date due variabili aleatorie A e B (nel nostro caso sono i valori dei pixel delle due immagini), la mutua informazione I(A,B) è definita in termini di entropia Shannon [28]:

I(A,B) = H(A) + H(B) H(A,B) =

H (A) = entropia immagine A, H (B) = entropia immagine B,

H(A,B) = entropia congiunta tra le due immagini,

p(a) è la probabilità dell’occorrenza dell’intensità a (livello di grigio) nell’immagine

A; p(b) è la probabilità di occorrenza dell’intensità b nell’immagine B e p(a,b) è la probabilità congiunta dell’occorrenza delle intensità a e b nelle due immagini nella stessa locazione spaziale (pixel/voxel).

Le entropie delle due variabili aleatorie sono una misura dell’incertezza delle stesse (in altri termini, l’entropia di un’immagine descrive l’informazione contenuta in essa: l’entropia è alta quando la distribuzione di probabilità della varabile aleatoria è piatta), mentre l’entropia congiunta è una misura dell’incertezza sulla variabile aleatoria A, nota la variabile aleatoria B (l’entropia congiunta descrive la dipendenza tra le due variabili aleatorie: più sono dipendenti e minore è l’entropia congiunta). La mutua informazione, in base alla formula sopra descritta, quindi, fornisce una misura della riduzione dell’incertezza su A nota B e perciò questa è massima quando le due immagini sono allineate.

I parametri della trasformazione possono essere stimati direttamente dai dati disponibili, oppure calcolando una funzione di ottimizzazione che ottimizza una funzione costo, ovvero che minimizza o massimizza la metrica utilizzata nel processo di registrazione. Gli algoritmi di ottimizzazione possono essere locali o globali. I primi convergono a una soluzione buona in un tempo ragionevole, però il coretto funzionamento dell’algoritmo dipende dalle condizioni iniziali [30]. I secondi hanno l’ambizione di convergere a una soluzione ottima qualunque siano le condizioni iniziali, ma i tempi di calcolo possono essere lunghi.

2.3 Segmentazione.

La segmentazione è un processo di partizionamento di un’immagine digitale in parti significative rispetto all’ambito applicativo. Queste parti, se prese singolarmente, sono

(12)

omogenee, sulla base di alcuni criteri di appartenenza di pixel/voxel a una regione, come l’intensità, il colore o contorni di oggetti d’interesse nell’immagine; se invece sono prese unite a una delle regioni vicine risultano disomogenee [31]. La segmentazione d’immagini è adoperata per diversi scopi per [32]:

- lo studio di strutture anatomiche;

- l’identificazione di regioni “anomale”, come ad esempio tumori o lesioni; - per monitorare la crescita di un tessuto, come il tumore, attraverso la misura

del volume del tessuto.

La segmentazione d’immagine medica, perciò, ha l’obiettivo di estrarre gli oggetti d’interesse (strutture anatomiche) identificando i pixel/voxel che appartengono a uno stesso oggetto o solo quelli che fanno parte del suo contorno. L’uscita del processo di segmentazione, quindi, è un insieme di regioni omogenee o un insieme di contorni [33]. Le

regioni possono essere ottenute partendo dai contorni attraverso algoritmi di riempimento delle regioni (region filling), e i contorni possono essere ricavati da regioni usando algoritmi d’inseguimento dei contorni (border following o tracker following) [34].

In letteratura esistono diverse tecniche di segmentazione tradizionalmente usate, queste possono essere raggruppate in due categorie: metodi che si basano sulla discontinuità e metodi che si basano sulla similarità [35][36][37]. Alla prima categoria, appartengono i metodi in cui l’immagine è partizionata rilevando bruschi cambiamenti dell’intensità dei pixel; fa parte di questo gruppo la tecnica edge detection. La seconda categoria include i metodi che dividono l’immagine in regioni sulla base di un criterio prefissato, alcuni algoritmi di segmentazione di questa categoria sono: threshold, clustering, region based.

Threshold

Threshold è una tecnica di segmentazione comunemente usata per la sua semplicità di realizzazione 38][39]. In questa tecnica sono scelti uno o più valori soglia (intensità del segnale) in modo manuale (tipicamente nell’istogramma) o automatico (sulla base di qualche criterio generalmente statistico, come la media). In base a questi valori soglia i pixel sono raggruppati in classi. Quando un solo valore di soglia costante è applicato a tutta l’immagine, il thresholding è definito globale; se la soglia dipende da proprietà locali dell’immagine, allora il thresholding è definito locale. Il thresholding globale è utilizzato quando l’istogramma dell’immagine è “bimodale” (ossia quando l’istogramma presenta livelli d’intensità del segnale raggruppati attorno a due principali picchi. Pertanto nell’immagine sono presenti due classi: in una sono raggruppati i pixel del “fondo” e nella seconda i pixel di un oggetto con intensità del segnale omogenea). La soglia, dunque, è scelta in modo da

(13)

dividere i due modi dominanti nell’istogramma, e l’oggetto è estratto dal fondo con un’operazione che confronta i valori dei pixel dell’immagine al valore soglia selezionato. Considerando un’immagine bidimensionale a livelli di grigio f(x,y), una soglia T (il livello di grigio che separa i due picchi nell’istogramma dell’immagine), l’immagine g(x,y) dopo l’operazione di thresholding è ottenuta calcolando per ogni pixel (x,y) dell’immagine il valore:

Nel caso in cui l’istogramma è multimodale (presenta, cioè più picchi, ognuno dei quali rappresenta il valore medio di una classe individuata) si adopera un’estensione della tecnica sopra descritta: sono selezionate più soglie, in modo che ognuna separi due picchi consecutivi, e l’immagine è divisa in gruppi di pixel con valori all’interno degli intervalli definiti dalle soglie, e in gruppi di pixel con valori al di là di tali intervalli (un gruppo di pixel con valore inferiore alla soglia più bassa e un gruppo con valore maggiore della soglia più alta). Ad esempio, considerando un istogramma di un’immagine bidimensionale, come quello mostrato nella Fig.2.7, caratterizzato da quattro principali picchi, sono scelti tre valori soglia

, , e l’immagine g(x, y) è segmentata come segue:

Dove , , , sono le quattro classi ottenute dopo l’applicazione di thresholding, in pratica i pixel sono raggruppati in quattro classi ed etichettati in base alla classe di appartenenza.

(14)

La soglia può essere scelta manualmente o attraverso criteri automatici (ad esempio nell’algoritmo di Otzu la soglia è scelta in modo da minimizzare la varianza intra classe). La tecnica di thresholding globale è facile e veloce, ma fornisce risultati non corretti quando è presente basso contrasto tra il “fondo” e l’oggetto, oppure quando il “fondo” dell’immagine non è uniforme. In questi casi, dunque, un rimedio è di utilizzare la soglia locale, che può essere calcolata adoperando due approcci diversi:

1. L’immagine è divisa in sotto-immagini, generalmente di quadrato, nelle quali è valutato l’istogramma in base al quale sono calcolati i valori soglia con i quali eseguire la segmentazione.

2. Nell’intorno di ogni pixel è calcolata l’intensità media.

Il calcolo della soglia locale dal punto di vista computazionale è più costoso rispetto al calcolo della soglia globale, ma fornisce buoni risultati per immagini con molte regioni e/o con regioni piccole.

Il risultato della segmentazione a soglia consiste in immagini binarie (maschere) della stessa dimensione dell’immagine originale, in cui i pixel appartenenti a oggetti con valori d’intensità equivalenti hanno valore uno, mentre i rimanenti pixel hanno valore zero. Il numero di maschere che si ottiene è pari al numero di classi in cui sono stati raggruppati i pixel dell’immagine in base al loro valore d’intensità; quindi, se nell’immagine sono presenti dei pattern che hanno la stessa intensità del segnale, questi sono raggruppati nella stessa classe e pertanto sono mostrati in un’unica maschera. Tuttavia, adoperando un algoritmo di “label region” alle maschere ottenute dal processo di segmentazione, è possibile superare questo limite. L’obiettivo dell’algoritmo è trasformare una maschera in una lista di blob (gruppi di pixel), in cui i pixel inseriti nello stesso blob sono tutti quelli che appartengono a uno stesso oggetto connesso. La procedura inizia con la selezione (manuale oppure automatica) di un pixel qualsiasi della maschera che crea il primo blob, successivamente tutti i pixel in un intorno del primo pixel (kernel centrato nel pixel, generalmente di dimensione 3x3) sono controllati e quelli che hanno lo stesso valore del pixel di partenza sono aggiunti al primo blob. In seguito, la procedura è ripetuta per ogni pixel inserito nello stesso blob, fino al suo completamento (cioè tutti i pixel apparenti allo stesso oggetto sono stati identificati). Terminato il primo blob, partendo da un qualsiasi pixel, non appartenete al primo blob, i passi descritti sono ripetuti fino a quando tutti i pixel sono assegnati a un blob. Il risultato finale, quindi, è una lista di blob, che possono essere distinti in base alla loro grandezza, tipicamente quelli più piccoli sono eliminati perché sono considerati “rumore”.

(15)

Pagina 38 di 104 Edge detection.

La segmentazione Edge detection ha come obiettivo l’estrazione dei contorni di oggetti presenti nell’immagine [38][40]. Un contorno è un insieme di pixel connessi che giacciono sul confine tra due regioni omogenee. Un metodo per rilevare i contorni è l’individuazione di bruschi cambiamenti del livello d’intensità del segnale tra pixel adiacenti; questa informazione è riflessa dalla derivata dell’immagine: la derivata prima è alta in corrispondenza di un contorno ed è bassa in regioni dell’immagine in cui l’intensità del segnale non presenta variazioni brusche. Pertanto una transizione netta del segnale crea un picco nella derivata prima e inoltre origina uno zero crossing della derivata seconda (per zero crossing si intende un punto in cui la derivata seconda ha attraversato lo zero). Un modo per rilevare la presenza dei contorni nelle immagini, quindi, è il calcolo della derivata prima o seconda dell’immagine. La derivata prima di un’immagine è calcolata attraverso l’operatore gradiente; per un’immagine bidimensionale f(x,y) l’ampiezza del gradiente di un’immagine è definita come segue [38]:

La direzione del gradiente è definita come:

Dove e sono rispettivamente i gradienti nella direzione x e y.

Un metodo tradizionale per ottenere l’ampiezza del gradiente dell’immagine è di adoperare un filtraggio convolutivo. Uno tra i filtri più adoperati è il filtro di Sobel, costituito da una coppia di kernel covolutivi, come mostrato nella figura sottostante.

Questi Kernel sono applicati separatamente all’immagine d’ingresso, in modo da fornire in uscita una misura separata delle componenti del gradiente lungo le due direzioni ( e . Le due componenti sono combinate assieme per ottenere l’ampiezza del gradiente, come segue:

(16)

|G|=

Come accennato prima, un bordo è costituito da pixel che hanno valori di derivata maggiore rispetto ai pixel che li circondano, quindi è possibile evidenziare i contorni nell’immagine applicando un’operazione di thresholding all’immagine di gradiente, in modo da tagliare i pixel con valore basso di gradiente.

Un modo alternativo per rilevare i contorni in un’immagine è il calcolo della sua derivata seconda, questa è definita attraverso il Laplaciano. Per un’immagine bidimensionale f(x,y) il Laplaciano è [41]:

La derivata seconda dell’immagine può essere implementata adoperando un filtro Laplaciano attraverso la maschera mostrata nella figura sottostante:

Una tecnica molto usata per l’individuazione dei contorni e che sfrutta la derivata seconda è l’algoritmo di Marr-Hildreth, che prevede i seguenti passi [38] [42]:

a) filtraggio dell’immagine d’ingresso con un filtro passa basso gaussiano; b) calcolo del Laplaciano dell’immagine ottenuta nel passo precedente;

c) individuazione degli zero crossing nell’immagine del passo precedente per determinare le posizioni dei contorni. Un pixel p di un’immagine è uno zero crossing se considerando un suo intorno di otto pixel (cioè utilizzando un kernel 3x3 centrato in p) due pixel vicini hanno segno opposto (ci sono quattro casi di prova possibili: sinistra/destra, alto/basso e le due diagonali) e la loro differenza in modulo è maggiore di una certa soglia.

Il risultato che si ottiene adoperando una delle due tecniche sopra descritte è un’immagine binaria in cui i pixel dei bordi hanno valore pari a uno e i rimanenti hanno valore zero. In queste maschere i contorni non sono continui ma caratterizzati da diverse interruzioni per effetto del rumore. Le interruzioni dei contorni possono essere eliminate

utilizzando algoritmi ad hoc che ricostruiscono in modo completo i contorni di ciascuna regione omogenea. Gli algoritmi di estrazione dei contorni utilizzano varie tecniche quali [34]:

(17)

Pagina 40 di 104 - Inseguimento dei contorni (border following),

- Connettività dei pixel,

- Collegamento dei frammenti di bordo (link-edge),

- Approssimazione dei bordi (curve fitting), Trasformata di Hough, ecc..

In conclusione, calcolando operatori come il gradiente o il Laplaciano di un’immagine si ottengono delle mappe dei contorni sulle quali è applicata una delle tecniche sopra elencate per ottenere un’immagine dei contorni.

Region based.

Questa tecnica è basata su proprietà di similarità, cioè partiziona l’immagine in regioni che sono simili in base a una serie di criteri predefiniti, quindi opera in modo contrario rispetto alla tecnica edge, che, invece, è basata su proprietà di discontinuità, cioè partiziona l’immagine sulla base di rapidi cambiamenti dell’intensità dei pixel [36]. Una semplice tecnica di segmentazione di region-based è il region growing. Questa tecnica è utilizzata per estrarre una regione connessa di pixel simili da un’immagine [38]. L’algoritmo inizia con la selezione di un pixel, detto “seed pixel” (seme), all’interno della regione d’interesse, questo pixel può essere scelto dall’utente oppure con algoritmi automatici. In seguito, i pixel adiacenti al seed pixel sono ispezionati, e quelli con proprietà simili al seed pixel sono raggruppati e formano una regione che progressivamente cresce fino a quando nessun pixel può essere aggiunto alla regione. Un criterio per identificare pixel simili, ad esempio, si può basare sul livello di grigio o di colore: un pixel è incluso nella regione se la differenza in modulo tra il suo valore e il valore del pixel adiacente, appartenete alla regione, è minore di un valore soglia (un livello di grigio). Il risultato della segmentazione dipende dalla scelta del criterio di similarità dei pixel: se non è scelto in modo adeguato, può accadere che alcuni pixel, appartenenti alla stessa regione, non sono presi, oppure che la regione cresce “eccessivamente” fondendosi con aree che non appartengono alla struttura d’interesse. Un altro inconveniente del region growing è l’influenza dalla scelta del seed di partenza sul risultato finale: seed di partenza differenti possono creare regioni non identiche. Un vantaggio, invece, è che la segmentazione con region growing partiziona regioni differenti che hanno le stesse proprietà, ma sono spazialmente separate, quindi, rispetto alla segmentazione Threshold, questa tecnica è in grado di distinguere oggetti topologicamente differenti.

Clustering.

Il clustering è un processo che raggruppa elementi (nel caso d’immagini digitali sono i pixel) in classi dette cluster, in modo che gli elementi di un cluster abbiano caratteristiche

(18)

simili, e quelli di cluster diversi abbiano caratteristiche dissimili, sulla base di un criterio di somiglianza. La somiglianza tra gli elementi è quantificata in termini di una funzione distanza (come la distanza euclidea) adeguatamente calcolata [38]. Il clustering quindi, come la segmentazione region growing, raggruppa pixel sulla base di un criterio di similitudine, ma a differenza della segmentazione region growing, non tiene in considerazione la relazione spaziale tra i pixel. Pertanto, come anche accade nella segmentazione Threshold, non è possibile direttamente distinguere oggetti topologicamente differenti, ma occorre adoperare al risultato della segmentazione un algoritmo label region.

Gli algoritmi di clustering possono essere suddivisi in quattro classi [43]: 1) Exclusive Clustering: un elemento può appartenere a un solo cluster.

2) Clustering Overlapping: un elemento può appartenere a più cluster contemporaneamente con uno specifico grado di appartenenza.

3) Hierarchical Clustering: i cluster sono annidati come un albero gerarchico. 4) Probabilistic Clustering: ciascun cluster è rappresento da una distribuzione di

probabilità parametrica, come quella Gaussiana o di Possion, e l’intero set di dati è modellato come una miscela di tali distribuzioni.

La figura sottostante illustra alcuni algoritmi appartenenti alle quattro classi sopra citate, tra queste sono brevemente descritti il k-means e il Fuzzy-C-means.

Fig. 2.10-Tecniche di Clustering [43].

K-Means Clustering .

Il k-means [43][44] è un algoritmo di clustering di tipo esclusivo ampiamente utilizzato per partizionare i dati in k cluster, fissati a priori. La procedura inizia con la definizione casuale di k centroidi, ognuno per ogni cluster. In seguito ogni dato è assegnato al centroide più vicino secondo una funzione distanza scelta (come ad esempio quella euclidea), così si formano i k cluster. Per ogni cluster formato sono ricalcolati i k centroidi come punti

(19)

medi dei cluster ottenuti ed è ripetuta la procedura descritta fino a quando l’assegnazione dei dati ai cluster non è più modificata (la posizione dei centroidi non varia). In termini più formali, dato un insieme di dati X= (nel caso delle immagini è l’insieme dei pixel), che si vuole raggruppare in k cluster, definita una funzione distanza sull’insieme di dati, il problema consiste nel minimizzare la seguente funzione [45]:

J=

dove J è la funzione da minimizzare, N è il numero di dati, C è il numero di cluster, è il pixel i-esimo, è il cluster j-esimo, || - || è una distanza scelta tra un punto dei dati

e il centro del cluster .

La funzione obiettivo J è minimizzata eseguendo i passi della procedura descritta sopra. L’algoritmo, anche se converge sempre, talvolta non trova la configurazione ottima corrispondente al minimo globale della funzione, in quanto l’algoritmo dipende dalla configurazione iniziale dei centroidi. Pertanto è possibile ripetere più volte la procedura con valori casuali dei centroidi e trovare quale tra le configurazioni ottenute è quella con funzione obiettivo minima. Quest’algoritmo converge in tempi brevi, è facile da capire e implementare, dà buoni risultati quando l’insieme di elementi è costituito da dati ben distinti e lavora bene anche con un insieme grande di dati. Di contro, il risultato finale dell’algoritmo dipende dalla scelta iniziale dei centroidi, dal numero di cluster, dalla funzione distanza adoperata. L’algoritmo, inoltre, può bloccarsi a causa di uno svuotamento di un cluster.

Fuzzy c-means.

Il Fuzzy c-means è un algoritmo di clustering di tipo clustering Overlapping. Quest’algoritmo è basato sulla minimizzazione della seguente funzione costo [44]:

J=

Dove J è la funzione costo, N è il numero di pixel dell’immagine, C è il numero di cluster, è il dato i-esimo , è il cluster j-esimo, è il grado di appartenenza del dato al cluster j-esimo, m è un fattore fuzziness (maggiore di uno, in genere si pone uguale a due), |

- | è una distanza tra e , come ad esempio quell’Euclidea. L’algoritmo è costituito dai seguenti passi:

1) Inizializzazione di , grado di appartenenza per ogni pixel i-esimo al cluster j-esimo, con valori casuali tra zero e uno, in modo che la somma dei gradi di appartenenza di un pixel ai cluster sia uno.

2) Calcolo del valore di J iniziale.

(20)

=

4) Calcolo di come segue:

5) Ricalcolo di J e sono ripetuti i punti tre e quattro, la procedura si ferma quando è rispettato un criterio di arresto, ad esempio quando la differenza del valore di

in due iterazioni successive è minore di una certa soglia.

Il Fuzzy C-means, quando c’è una sovrapposizione dei dati, fornisce risultati migliori rispetto a quelli dell’algoritmo k-means, e inoltre ha bassa probabilità di svuotamento di un cluster. Il risultato finale dell’algoritmo, come nel caso del k-means, dipende dalla scelta iniziale dei centriodi, dal numero di cluster, dalla funzione distanza adoperata.

Oltre alle tecniche di segmentazione brevemente descritte sopra né esistono altre più sofisticate, come ad esempio le tecniche basate su modelli deformabili [38], in cui curve, superfici o volumi sono deformate in modo da minimizzare una funzione energia che comprende forze interne ed esterne. Il metodo Snake, o ai contorni attivi, è il metodo più noto appartenente a questa categoria e si basa sulla definizione di una curva (snake) che è deformata fino a sovrapporsi il meglio possibile al confine della struttura d’interesse.

In conclusione, nonostante esistano numerosi algoritmi di segmentazione, non esiste nessun algoritmo che sia universalmente buono per tutti i tipi d’immagini. La scelta dell’algoritmo da utilizzare dipende dalla natura del problema e dal tipo d’immagine [35].