CAPITOLO 4

(1)

Pagina 69 di 104

CAPITOLO 4–ANALISI DEI RISULTATI

CAPITOLO 4

Analisi dei risultati

In questo capitolo sono descritti i risultati ricavati dagli algoritmi di elaborazione delle immagini ed è discussa l’utilità della NIRS per valutare l’eventuale efficacia della terapia iperbarica nei pazienti con ulcere venose croniche. I pazienti analizzati sono sei, tre appartenenti al gruppo B (un trattamento al giorno), tre associati al gruppo A (due trattamenti al giorno) e uno del gruppo C (non trattati con terapia iperbarica).

(2)

4.1 Valutazione dell’efficacia della terapia iperbarica.

Quasi per la maggior parte delle immagini di saturazione dei pazienti analizzati, i profili estratti dall’immagine di saturazione post-terapia (sia quelli relativi alla riga o alla colonna centrale dell’immagine, sia quelli tracciati dall’utente) hanno valori più alti rispetto a quelli ottenuti dall’immagine pre-terapia, a causa dell’incremento di ossigeno sia nel plasma sia, anche se in maniera minore, legato all’emoglobina (nella Fig.4.1 è illustrato un esempio di suddetti profili estratti per tre pazienti in un giorno casuale tra quelli delle sedute). Come si osserva dalla tabella Tab.4.1, infatti, il valore medio dei valori medi calcolati nelle immagini di saturazione post-terapia è maggiore di quello calcolato per le immagini pre-terapia (anche se non di molto) per tre pazienti su sei, ed è poco più basso nei casi rimanenti.

Tab.4.1 Valore medio dei valori medi calcolati nell’immagine di saturazione pre- terapia e in quella post-terapia.

Fig.4.1- Profilo estratto manualmente dall’operatore dall’immagine pre-terapia sovrapposto a quello estratto dall’immagine post terapia, per tre pazienti: due, tre, quattro.

Paziente Pre - terapia Post - terapia

2 50.63 53.84 3 68.81 74.14 4 63.68 60.96 6 72.25 70.47 7 57.85 62.85 9 65.02 62.14

(3)

Per valutare dal punto di vista quantitativo se il livello di saturazione di ossigeno diminuisce durante il periodo del trattamento è stato calcolato il valore medio del livello di saturazione di ossigeno (in percentuale) nell’ulcera nell’immagine di saturazione pre-terapia, non considerando i pixel di artefatto individuati dalla segmentazione Fuzzy C-means. Come si osserva nella tabella Tab.4.2 per tutti pazienti il valore medio l’ultimo giorno di terapia è minore rispetto al primo girono: ciò potrebbe confermare l’efficacia della terapia, in quanto i valori di saturazione di ossigeno dell’ulcera si riducono. Questo risultato è concorde a studi precedenti [4][5], nei quali si è dimostrato che le lesioni che tendono a guarire hanno livelli di concentrazione di emoglobina inizialmente alti, che in seguito al trattamento della ferita diminuiscono per avvicinarsi ai livelli di concentrazione del tessuto sano. Si nota, inoltre, che la differenza in valore assoluto tra suddetti valori medi è più alto del 10% per il paziente due (circa il 27%), per il paziente quattro (circa il 18%) e per il paziente sette (circa il 19%); ciò potrebbe significare che questi pazienti rispondono meglio alla terapia rispetto agli altri. Tuttavia, anche se per tutti i pazienti il valore medio l’ultimo giorno di terapia è minore rispetto al primo giorno, attraverso lo studio della retta di regressione lineare1, si può valutare se questo valore diminuisce linearmente all’aumentare dei giorni di trattamento. Dalla figura Fig.4.2, che mostra per ogni paziente dello stesso gruppo le rette di regressione lineare sovrapposte al grafico di dispersione, si osserva che sia per il paziente tre (del gruppo A) e sia per il paziente nove (del gruppo B) la retta di regressione ha un’inclinazione quasi nulla; questo significa che non c’è una relazione lineare tra i giorni di terapia e i valori medi calcolati nei medesimi giorni. Il coefficiente di correlazione di Pearson, inoltre, calcolato per entrambi i pazienti, è molto piccolo (-0.01 per il paziente 3 e -0.09 per il paziente 9), ciò indica bassissimo grado di relazione tra le due variabili. Per i rimanenti pazienti sia del

1_{La regressione lineare è un tipo di analisi statistica che consente di studiare la relazione lineare tra una variabile}

dipendente (y, per il valore medo) e un’indipendente (x, nel nostro caso i giorni). Questo tipo di analisi si basa sull’ipotesi che ci sia una relazione causa-effetto tra la variabile indipendente e la variabile dipendente. Il modello di relazione lineare più semplice tra la variabile dipendente y e quell’indipendente x è rappresentato dalla seguente retta di equazione: y=a+bx; in cui a è l’intercetta della retta, b è l’inclinazione della retta.

A causa di errori di misura le m coppie di osservazione (xi, yi) (con i=1…m) non si sovrappongono mai perfettamente alla retta, per cui l’equazione precedente è riscritta nel modo seguente: y=a+bx+ℰ ; y - ℰ=a+bx dove ℰ è l’errore o scostamento dei dati dalla retta. L’equazione della retta, quindi, può essere scritta: ; dove è il valore di y stimato dal modello di regressione. Per trovare i coefficienti della retta si adopera il metodo dei minimi quadrati che consiste nel minimizzare l’errore tra i dati misurati e quelli stimati. Ai fini di questa tesi non occorre entrare nel dettaglio del metodo, basta scrivere le formule finali per ricavare questi coefficienti: b=

; a= b ; dove e sono i valori medi rispettivamente

della variabile x e della variabile y, cov (x, y) è la codevianza tra le due variabili e dev (x) è la devianza della varabile x.

Nell’analisi della regressione per misurare il grado di relazione tra la variabile spesso si ricorre al coefficiente di correlazione di Pearson, definito come: r=

Il coefficiente ha valori compresi tra . Il segno è positivo se le due variabili diminuiscono o crescono assieme, è negativo quando all’aumentare di una variabile l’altra diminuisce. Se non esiste correlazione tra le due variabili questo coefficiente ha valore zero, se invece la correlazione è massima il coefficiente in valore assoluto ha valore pari a uno.

(4)

gruppo A sia del gruppo B, invece, i coefficienti hanno valori alti con segno negativo, inoltre, le rette di regressione hanno pendenza negativa. In conclusione, dalle analisi fatte si deduce che per un paziente su tre di ogni gruppo (per il gruppo A il pazienti 9; per il gruppo B il paziente 3), non c’è alto grado di relazione tra la variabile dipendente e la variabile indipendente, e il valore medio non decresce linearmente durante il periodo di terapia. Dunque, per questi pazienti la terapia sembra meno efficace rispetto ai rimanenti pazienti, per ognuno dei quali, invece, il coefficiente di correlazione è alto con segno negativo e i dati sono allineati attorno alla retta di regressione che ha pendenza negativa. Pertanto per tali pazienti all’aumentare del numero di sedute di terapia il livello di saturazione di ossigeno decresce linearmente. Tuttavia, per affermare in modo significativo che ci sia una dipendenza lineare tra le due variabili si dovrebbe ricorrere a un test d’inferenza (spesso è usato il test t di Student), ma avendo pochi dati a disposizione per tutti pazienti (meno di dieci misure a paziente), non si effettua nessuna ulteriore analisi, oltre a quella interpretativa basata sulla distribuzione dei dati attorno alla retta di regressione.

Tab. 4.2 Valori medi di saturazione di ossigeno in percentuale dei pazienti: blu gruppo A, nero gruppo B.

Un parametro estratto per valutare l’efficacia della terapia è la dimensione dell’ulcera che dovrebbe diminuire a mano a mano che la stessa guarisce. Per valutare se c’è una relazione lineare tra il numero di sedute di terapia e la dimensione dell’ulcera (Tab.4.3 mostra l’area per i pazienti nelle diverse sedute di ogni paziente) è stata calcolata, per ogni paziente, la retta di regressione lineare, ponendo come variabile indipendente il numero di sedute di terapia e come variabile dipendente l’area dell’ulcera. Dalla Fig.4.2 è possibile osservare che per tutti i pazienti questa retta ha inclinazione negativa, quindi all’aumentare dei giorni di terapia la dimensione dell’ulcera decresce. Per due pazienti su tre sia nel gruppo A sia nel gruppo B, (gruppo A pazienti:2,7; gruppo B:4,6), il grado di correlazione tra le due

Seduta n° Paz. 2 Paz. 7 Paz. 9 Paz. 3 Paz. 4 Paz. 6 1 64,11 64,38 69,60 74,36 71,03 77,31 2 ND ND ND 56,29 ND ND 5 62,77 61,86 64,89 75,13 66,38 77,68 10 55,57 57,25 65,07 ND 62,73 ND 15 ND 64,18 55,50 70,85 71,65 72,61 20 35,37 54,27 71,80 72,16 60,20 75,03 25 36,24 59,37 64,48 63,46 61,54 65,07 30 ND 45,36 63,38 69,49 52,88 70,31

(5)

variabili è alto e i dati sono abbastanza allineati alle rispettive rette di regressione, quindi all’aumentare dei giorni di terapia l’area dell’ulcera decresce linearmente. Per il paziente tre e il paziente nove, invece, questo coefficiente ha un valore rispettivamente di -0.55 e di -0.51, quindi non è particolarmente alto da poter affermare che ci sia un alto grado di relazione tra le due variabili. Da questo tipo di analisi si deduce che per tutti i pazienti, esclusi i pazienti tre e nove, l’area dell’ulcera decresce linearmente all’aumentare dei giorni di terapia, quindi questi pazienti sembra rispondano meglio al trattamento rispetto agli altri due.

L’area calcolata attraverso matlab è stata confrontata con quella fornita dai medici calcolata con la planimetria digitale. I valori sono molto simili nelle due metodiche, per la maggioranza dei pazienti, mentre per alcuni, la differenza tra le due misure è più marcata: questo può derivare sia dall’osservatore, che è diverso, sia dal diverso approccio adoperato per calcolare l’area. La planimetria digitale prevede il tracciamento del contorno dell’ulcera attraverso un pennarello su un foglio millimetrato e trasparente in acetato (ogni quadratino rappresenta un ) poggiato sulla lesione e successivamente la superficie è calcolata attraverso il dispositivo Visitrack (Smith and Nephew). Il secondo metodo, invece, prevede il tracciamento del contorno dell’ulcera sull’immagine acquisita attraverso la NIRS adoperando matlab e poi è computata l’area della lesione. Pertanto, il primo metodo è più preciso rispetto al secondo, comunque, in tutti i casi il comportamento di tale misura è lo stesso, ad esempio, se la dimensione della lesione calcolata attraverso matlab decresce tra due sedute successive, lo stesso accade per l’area ricavata attraverso la planimetria digitale per le medesime sedute.

Tab. 4.3 Valori dell’area dell’ulcera dei pazienti: blu gruppo A, nero gruppo B.

Seduta n° Paz.2 Paz. 7 Paz. 9 Paz. 3 Paz. 4 Paz. 6

1 42,83 39,49 9,43 9,10 29,39 7,14 2 ND ND ND 9,10 ND ND 5 29,08 33,02 9,80 8.80 26,58 6,24 10 35,46 31,59 7,77 ND 28,13 ND 15 ND 37,13 10,51 8.73 22,99 7,04 20 24,48 35,91 6,58 8.44 22,97 6,41 25 23,95 28,40 9,01 8,31 19,21 6,13 30 ND 26,58 5,65 8,17 22,06 6,30

(6)

A)

B)

Fig. 4.2- A) Rette di regressione per i valori medi di StO2 dell’ulcera. B) Rette di regressione per l’area dell’ulcera.

(7)

Il risultato dedotto dall’analisi sull’area dell’ulcera per tutti i pazienti è lo stesso di quello derivato dall’analisi sul valore medio di StO2. Per i pazienti tre e nove la terapia sembra meno efficace rispetto ai rimanenti pazienti, in quanto né l’area né il valore medio diminuiscono in modo significativo nel tempo. Per gli altri pazienti, invece, sia l’area della zona lesa sia il livello di saturazione di ossigeno nell’ulcera decrescono all’aumentare delle sedute di terapia, perciò per questi pazienti la terapia sembra più efficiente.

Un’informazione aggiuntiva, oltre ai parametri area e valore medio di StO2, si ottiene dalla distribuzione del segnale di saturazione ricavato partendo dalla mappa delle distanze (come spiegato nel capitolo 3): questo segnale descrive come varia il livello di saturazione di ossigeno dal centro al bordo dell’ulcera.Nelle figure sottostanti è mostrato suddetto segnale per tutti e sei pazienti (Fig.4.3 si riferisce ai pazienti del gruppo B, Fig.4.4 è relativa ai pazienti del gruppo A): l’immagine a sinistra sono riferite al primo giorno di terapia, mentre, quelle a destra sono relative all’ultimo giorno di terapia. Ogni immagine è divisa in due sottoimmagini: nella sottoimmagine di destra è illustrata la ROI con sovrapposte le curve d’isolivello, e nella sottoimmagine di sinistra è disegnato l’andamento del segnale St . Dalla Fig.4.5, che illustra il segnale relativo al primo giorno di terapia sovrapposto a quello dell’ultimo giorno, si osserva che per tutti i pazienti, escluso il paziente nove, il segnale relativo all’ultimo giorno di terapia in corrispondenza del bordo dell’ulcera (cioè la parte terminale della curva) ha valori minori rispetto al primo giorno. Questo risultato potrebbe confermare l’efficacia della terapia, in quanto le ulcere guariscono, mostrando una riduzione dei valori di saturazione di ossigeno, inizialmente nel bordo della lesione e successivamente al centro dell’ulcera. Tuttavia, i pazienti non guariscono allo stesso modo, infatti, le curve hanno andamenti diversi. In particolare si osserva (Fig.4.5) che per il paziente due il segnale relativo all’ultimo giorno decresce molto andando dal centro al bordo dell’ulcera e la distanza tra il centro e il bordo dell’ulcera si dimezza a fine terapia. Per i rimanenti pazienti, invece, le curve a fine terapia non mostrano un forte abbassamento a livello del bordo dell’ulcera. Dalla Fig.4.5, si osserva, inoltre, che per il paziente tre le due curve (inizio a e fine terapia) sono molto vicine, quindi il livello di saturazione di ossigeno nell’ulcera a fine terapia non si è abbassato di molto, inoltre, la distanza tra il centro e il bordo dell’ulcera a fine terapia non si è ridotta. Pertanto si potrebbe dedurre che il paziente due è quello che risponde meglio al trattamento e il paziente tre è quello che guarisce di meno. Tuttavia, sebbene suddetto segnale fornisce informazioni utili al clinico, occorrerebbero più pazienti per validare le analisi e i risultati dedotti dal segnale.

(8)

b) a)

Fig.4.3- a) Primo giorno di terapia, ogni sottoimmagine: a sinistra il segnale StO2, a destra la ROI con sovrapposte le curve di isolivello.

b) Ultimo giorno di terapia, ogni sottoimmagine: a sinistra il segnale StO2, a destra la ROI con sovrapposte le curve di isolivello.

(9)

b) a)

Fig.4.4- a) Primo giorno di terapia, ogni sottoimmagine: a sinistra il segnale StO2, a destra la ROI con sovrapposte le curve di isolivello.

b) Ultimo giorno di terapia, ogni sottoimmagine: a sinistra il segnale StO2, a destra la ROI con sovrapposte le curve di isolivello.

(10)

B)

A)

Fig. 4.5- Andamento del segnale di saturazione ricavato partendo dalla mappa di distanza: A) gruppo A, B) gruppo B.

Per confrontare i due gruppi (A: pazienti trattati due volte al giorno, B: pazienti sottoposti alla terapia una volta al giorno) per ognuno di questi sono state ricavate due rette di regressione, adoperando come variabile indipendente il numero di sedute e come variabile dipendente una volta l’area media dell’ulcera e un’altra la media del livello di saturazione nell’ulcera. Il valore medio dell’area e la media del livello di saturazione sono stati calcolati tra pazienti appartenenti allo stesso gruppo con numero di seduta equivalente. Come si osserva dalla Fig.4.6, le rette di regressione sia per il gruppo A sia per il gruppo B hanno pendenza negativa, i dati sono abbastanza allineati ad essa, ed i coefficienti di correlazione sono relativamente alti. Pertanto per entrambi i gruppi sia il livello di saturazione sia l’area

(11)

decrescono linearmente all’aumentare del numero di sedute. Tuttavia (come si osserva meglio dalla Fig.4.6 B rispetto alla Fig.4.6 A) per il gruppo B le rette hanno una pendenza maggiore rispetto a quelle del gruppo A. Dalle analisi fatte, quindi, si potrebbe dedurre che i pazienti del gruppo B guariscono più velocemente rispetto a quelli del gruppo A, però il numero di pazienti analizzati è basso per affermarne questa deduzione in modo significativo.

A)

B)

Fig.4.6- A) Sovrapposizione delle rette di regressione dei due gruppi e relativo coefficiente di correlazione

B) Sovrapposizione delle rette di regressione traslatate.

Infine, per valutare l’efficacia della terapia iperbarica, sempre attraverso metodica NIRS, si dovrebbe confrontare lo stato di guarigione dei pazienti affetti da ulcera trattati con la terapia iperbarica con quello di pazienti curati solo con terapia convenzionale. Purtroppo in questo lavoro di tesi non è stato effettuato tale confronto, in quanto è stato reclutato

(12)

soltanto un paziente non trattato con terapia iperbarica. Per questo paziente sono state calcolate le rette di regressione usando come variabile indipendente sempre il numero di sedute e come variabile dipendente una volta l’area e un’altra il valore medio nell’ulcera dell’immagine di saturazione. In entrambi i casi, la retta di regressione ha pendenza negativa e i dati misurati si distribuiscono attorno essa (Fig.4.7), inoltre il coefficiente di correlazione è alto, quindi c’è un’alta correlazione tra la variabile dipendete e indipendente. Pertanto, all’aumentare del numero di giorni di trattamento sia l’area sia il livello di saturazione di ossigeno decrescono.

Fig.4.7- Rette di regressione e coefficiente di correlazione.

4.2 Analisi dei risultati ottenuti dai processi di segmentazione e

allineamento.

La prima operazione di elaborazione dell’immagine che è stata eseguita è l’allineamento dell’immagine di saturazione post-terapia con l’immagine pre-terapia. Sono state confrontate tre tecniche di allineamento:

1. Allineamento basato sulle proprietà dei voxel; 2. Allineamento attraverso le feauters;

3. Ibrido: pre-allineamento attraverso le feauters e successivo allineamento basato sulle proprietà dei voxel.

Il primo approccio, come spiegato nel capitolo precedente, prevede da parte dell’utente una corretta inizializzazione dei parametri della trasformazione, che sono scelti in modo approssimativo attraverso vari tentativi. Per tale motivo questo metodo è stato scartato, anche se il risultato conseguito è analogo a quello ottenuto con il terzo metodo, quando i parametri della trasformazione sono correttamente inizializzati. Il risultato raggiunto dal terzo approccio è leggermente più accurato rispetto a quello ottenuto usando

(13)

solo l’allineamento basato sulle feauters. Pertanto, finito il processo di allineamento, per decidere se salvare l’immagine trasformata con il terzo approccio o con il metodo delle

feauters, la mutua informazione è stata calcolata tra l’immagine fissa e le due immagini

trasformate con i due metodi di allineamento. Un valore più alto di mutua informazione indica un allineamento migliore, dunque, tra le due immagini trasformate si salva (come matrice in formato .mat) quella che ha fornito un valore di mutua informazione più alto. Il valore di mutua informazione tra l’immagine fissa e quella trasformata è più alto, per tutti i casi analizzati, con il terzo approccio invece che con il secondo: ad esempio, considerando il paziente tre seduta 06-03-2016, la mutua informazione con il terzo approccio è 0.7 contro 0.5 del secondo metodo. Le figure sottostanti mostrano il risultato dell’allineamento, con il terzo approccio, per il paziente 9 (seduta 11/14/2016) e per il paziente 4 (seduta 06/22/2016).

Fig. 4.8 - Esempio risultato allineamento paziente 9: a sinistra sovrapposizione immagine pre-allineamento, a destra sovrapposizione immagine post-allineamento.

Fig. 4.9- Esempio risultato allineamento paziente 4: a sinistra sovrapposizione immagine pre-allineamento, a destra sovrapposizione immagine post-allineamento.

Terminato il processo di allineamento, è stata eseguita la segmentazione delle immagini, ai fini di individuare i pixel di artefatto, adoperando due metodi: segmentazione a soglia e Fuzzy C-means. Entrambi i metodi richiedono l’intervento dell’utente, il primo per

(14)

selezionare dei punti nell’immagine utili a individuare la soglia e il secondo per decidere il numero di cluster. Tuttavia, la segmentazione a soglia richiede uno sforzo maggiore da parte dell’utente, in quanto l’operatore deve selezionare dei punti, che considera pixel di artefatto, che presentino un valore d’intensità differente (colore) nell’immagine alla prima lunghezza d’onda. Se l’utente non individua in modo opportuno tali pixel, il processo di segmentazione fallisce e l’operatore deve ripetere la procedura. Ad esempio, se l’utente seleziona tutti i pixel con la stessa intensità alta (colore bianco), il valore soglia, calcolato come il minimo tra i valori dei punti selezionati, è alto e quindi sono sottostimati i pixel di artefatto, poiché quelli con valore basso, sotto la soglia, non sono inclusi nella maschera che rappresenta la distribuzione dei pixel di artefatto. Se invece l’utente seleziona erroneamente un pixel non di artefatto, la soglia è bassa (i pixel non di artefatto hanno valore minore rispetto a quelli di artefatto) e quindi i pixel di artefatto sono sovrastimati. Nella segmentazione Fuzzy C-means, invece, l’utente deve soltanto decidere il numero di classi e ripetere la procedura se il risultato della segmentazione non è soddisfacente. Le figure sottostanti illustrano le maschere ottenute per lo stesso paziente con i due approcci (Fig.4.10 paziente 6, Fig.4.11 paziente 7).

A) B)

Fig.4.10- A) In alto: ROI; in basso: maschera dei pixel di artefatto, segmentazione Fuzzy. B) In alto: ROI; in basso: maschera dei pixel di artefatto, segmentazione a soglia.

(15)

A) B)

Fig.4.11- A) In alto: ROI; in basso: maschera dei pixel di artefatto, segmentazione Fuzzy. B) In alto: ROI; in basso: maschera dei pixel di artefatto, segmentazione a soglia.

Un modo per confrontare i due algoritmi di segmentazione, come descritto nel capitolo 3, è quello di calcolare gli indici di sensitività, specificità e dice, usando una maschera di riferimento. Per questo scopo è stato adoperato un set di 12 immagini, per ognuna di queste è stata costruita manualmente la maschera dei pixel di artefatto che rappresenta il riferimento. Per creare suddetta maschera, l’operatore salva l’immagine alla prima lunghezza d’onda in formato jpeg e la apre attraverso il programma paint per colorare di nero i pixel che considera di artefatto (valore d’intensità zero). Terminata quest’ultima operazione, l’operatore carica l’immagine modificata in matlab e attraverso un’operazione di thresholding ottiene la maschera dei pixel di artefatto. La procedura descritta ha variabilità intra ed inter-osservatore e, infatti, sostituendo l’operatore o facendo ripetere le operazioni allo stesso utente, la maschera che si ottiene cambia. Le variabilità intra-osservatore e inter-osservatore possono essere rappresentate dalla misura dell’indice dice, rispettivamente tra le due maschere ottenute dallo stesso operatore e tra le maschere ricavate da due diversi operatori. Nel caso intra-osservatore il valore medio dei valori dell’indice dice, stimato per il set di 12 immagini, è di 0.8, quindi c’è una buona sovrapposizione tra le maschere ottenute dallo stesso operatore. Tuttavia, considerando che è lo stesso utente a tracciare le due maschere, questo indice dovrebbe avere valore circa uno: la variabilità intra-osservatore, dunque, è alta. Nel caso inter-osservatore le maschere ricavate dai due utenti non sono molto sovrapposte, infatti, il valore medio dell’indice dice è 0.43, quindi anche in questo caso la

(16)

variabilità è alta. Questi valori degli indici dice così bassi sono dovuti al criterio d’individuazione dei pixel di artefatto che si basa sul colore percepito dall’utente (colore grigio chiaro, quasi bianco, per i pixel ad alta intensità). Come spiegato nel capitolo tre, inoltre, questi pixel sono distribuiti in gruppi, anche di piccole dimensioni, sparsi nell’immagine: è facile, quindi, che due operatori distinti individuino un numero diverso di pixel di artefatto, oppure che lo stesso utente, ripetendo due volte la procedura, non identifichi gli stessi pixel di artefatto; di conseguenza le maschere derivanti sono diverse. Per ciascuno dei due operatori, sono stati calcolati gli indici dice tra le maschere che ha realizzato l’operatore (che rappresentano il riferimento) e le maschere ricavate dalla procedura di segmentazione semiautomatica adoperata (Fuzzy C-means, con numero di classi pari a quattro, oppure a soglia). Tra la segmentazione eseguita manualmente dai due operatori e la segmentazione a soglia l’indice ha valore medio di 0.64 per il primo operatore e di 0.46 per il secondo. Tra la segmentazione Fuzzy C-means e quella manuale il dice ha un valore medio rispettivamente di 0.42 per il primo utente e 0.33 per il secondo. Pertanto, per entrambi i tipi di segmentazioni semiautomatiche, nel caso del secondo operatore il dice medio è più basso rispetto al primo operatore, a causa sia del numero mediamente alto di falsi positivi sia dell’elevato numero medio dei falsi negativi, entrambi più alti rispetto a quelli ottenuti usando come riferimento la maschera creata dal primo operatore. Il secondo utente quindi identifica pixel di artefatto diversi rispetto a quelli individuati dall’altro utente e rispetto a quelli riconosciuti dalle segmentazioni semiautomatiche. Gli indici dice calcolati (tra i due operatori, tra il primo utente e l’algoritmo di segmentazione semiautomatico, e tra il secondo operatore e la procedura di segmentazione semiautomatica) sono sati usati per eseguire un’analisi della varianza, test F (di Fisher), attraverso la quale si può verificare se il metodo di segmentazione semiautomatico si “comporta” come un osservatore umano. Per il test F si considerano i tre gruppi seguenti:

1. primo gruppo: indici dice per il set di 12 immagini tra le due maschere ottenute dai due operatori (D(g1,g2))

2. secondo gruppo: indici dice per il set di 12 immagini tra le maschere ottenute dal primo operatore e quelle ottenute dalla procedura di segmentazione semiautomatica (D(S,g1))

3. terzo gruppo: indici dice per il set di 12 immagini tra le maschere realizzate dal secondo operatore e quelle ricavate dall’algoritmo di segmentazione semiautomatico (D(S,g2)).

(17)

Se la differenza tra l’algoritmo semiautomatico e la segmentazione manuale è impercettibile, allora i tre indici devono venire significativamente uguali, in termini statistici: formulata l’ipotesi nulla ( ), secondo la quale tutti i campioni provengono dalla stessa popolazione, si accetta tale ipotesi in base ai risultati del test di Fisher. Se invece si rifiuta la suddetta ipotesi, si può usare il test t di Bonferroni per confronti multipli. L’analisi della varianza, attraverso il test F, prevede il calcolo della varianza entro i gruppi, che stima la variabilità esistente attorno alla media aritmetica di ogni gruppo, e la varianza tra i gruppi, che stima la differenza esistente tra i gruppi. Se i gruppi appartengono alla stessa popolazione il rapporto tra le due varianze, definito come statistica del test F, dovrebbe essere uguale a uno, cioè le medie dei gruppi sono ravvicinate; se invece questo rapporto è alto, allora probabilmente i gruppi non appartengono alla stessa popolazione. Il valore di F calcolato è abbastanza alto da poter rifiutare l’ipotesi nulla se è maggiore del valore critico della distribuzione F, ricavato dalla tabella dei valori critici di F per il livello di significatività scelto (generalmente del 5%) e per i gradi di libertà calcolati (considerando k gruppi e n numero dati, i gradi di libertà al numeratore sono vm=k-1 e al denominatore sono vd=n-k). Il test F è stato eseguito adoperando la funzione anova1 in matlab che prende in ingresso una matrice contenente in ogni colonna un gruppo (un vettore contenente gli indici

dice) e una matrice di caratteri: una riga per ogni colonna della matrice dei gruppi contenenti

il nome del gruppo. La funzione restituisce: P-value, la tabella ANOVA (nella quale è specificato il valore di F calcolato), una struttura con informazioni utili sui dati del test, come ad esempio i nomi dei gruppi e i gradi di libertà. Il livello di significatività scelto in queste analisi è stato del 5%, per cui se il P-value restituito dalla funzione anova1 è maggiore di 0.05 allora si accetta l’ipotesi nulla. Sono stati eseguiti due test F, il primo usando i tre gruppi descritti sopra, e si è adoperata come segmentazione semiautomatica quella Fuzzy C-means con numero di classi pari a quattro. Il secondo test F è stato eseguito con i gruppi organizzati come nel test precedente considerando però la segmentazione a soglia invece di quella Fuzzy C-means. Il P-value calcolato dalla funzione anova1 per il primo test è 0.44 quindi, essendo maggiore di 0.05, si accetta l’ipotesi nulla secondo la quale i tre gruppi appartengono alla stessa popolazione. In altri termini, l’algoritmo di segmentazione Fuzzy C-means risulta significativamente indistinguibile da un osservatore umano. In particolare, considerando l’alta variabilità intra ed inter-osservatore per la segmentazione manuale e l’elevato numero di falsi positivi (calcolato tra la maschera ricavata dal primo operatore e quella ottenuta dalla segmentazione Fuzzy), si può affermare che sia per l’operatore umano sia per l’algoritmo di segmentazione semiautomatico è

(18)

difficile identificare i singoli pixel di artefatto. Nel secondo test, il P-value ottenuto è minore di 0.05 (di 3.9x ), perciò si rifiuta l’ipotesi nulla, quindi la procedura di segmentazione a soglia è significativamente riconoscibile da quella svolta da un utente. Pertanto, la segmentazione Fuzzy C-means è più efficace di quella a soglia, ma il tempo di esecuzione dell’algoritmo di segmentazione Fuzzy è superiore a quello dell’algoritmo di segmentazione a soglia (103.45 secondi contro 13.63 secondi); tale tempo è comunque nettamente inferiore a quello della procedura di segmentazione manuale (circa cinque ore). Un ulteriore parametro che bisogna tenere in considerazione per valutare l’efficienza dell’algoritmo di segmentazione semiautomatico è l’attitudine del software a garantire una bassa variabilità intra e inter-osservatore. Queste possono essere rappresentate dalla misura dell’indice dice, rispettivamente tra le maschere ottenute dallo stesso algoritmo eseguito due volte dallo stesso osservatore e tra le maschere ricavate da due diversi utenti che hanno utilizzato lo stesso algoritmo (il dice è stato calcolato per ogni immagine del set di 12 immagini). Per la segmentazione Fuzzy C-means il valore medio del dice è alto sia nel caso intra-osservaore sia nel caso inter-osservaotore (0.95; 0.92), quindi la variabilità intra-osservatore e quella inter-osservatore sono basse. Il software forza due osservatori differenti a prendere la stessa decisione (nel nostro caso il numero di cluster), e induce lo stesso operatore a prendere la medesima scelta ripetendo due volte la procedura; conseguentemente le maschere che si ottengono sono abbastanza sovrapposte. Per la segmentazione a soglia, invece, il dice medio, in entrambi i casi, non è particolarmente alto (0.62 inter-osservatore, 0.68 intra-osservatore) e questo conferma i risultati precedenti: la segmentazione a soglia non è particolarmente efficace. Dalle analisi condotte, la segmentazione Fuzzy C-means risulta migliore di quella a soglia, tuttavia il valore medio dell’indice dice (media dei dice calcolati tra le maschere ricavate attraverso la segmentazione semiautomatica e quelle realizzata da un operatore manualmente) non è basso solo per la segmentazione a soglia, ma è basso anche per quella Fuzzy C-means. Pertanto, le maschere ottenute dagli algoritmi di segmentazione semiautomatica si sovrappongono poco con quelle ricavate dalla procedura di segmentazione manuale. Questo risultato principalmente è attribuito all’elevato numero di falsi positivi, quindi gli algoritmi di segmentazione semiautomatica sono più sensibili nel riconoscere i pixel di artefatto, cioè identificano più pixel di artefatto rispetto ad un osservatore umano. Come accennato nel capitolo tre, sovrastimando suddetti pixel sicuramente questi non sono presi in considerazione per successive valutazioni sull’immagine. Tuttavia, è necessario verificare quanto questa sovrastima influenzi le analisi susseguenti sull’immagine di saturazione. Per questo scopo è stato scelto come parametro di interesse il valore medio

(19)

nell’ulcera dell’immagine di saturazione pre-terapia. Sono stati confrontati i valori medi calcolati nell’ulcera di ogni immagine di saturazione pre-terapia, del set di 12 immagini, non considerando i pixel di artefatto individuati dai tre metodi di segmentazione: manuale (primo operatore), Fuzzy C-means numero di cluster pari a quattro, e a soglia. Per verificare se ci sia una variazione significativa tra i suddetti valori medi è stato eseguito il test F considerando i tre seguenti gruppi:

1. Valori medi delle ROI rimuovendo i pixel di artefatto evidenziati dalla segmentazione manuale del primo operatore.

2. Valori medi delle ROI non considerando i pixel di artefatto individuati dalla segmentazione Fuzzy C-means.

3. Valori medi delle ROI eliminando i pixel di artefatto evidenziati dalla segmentazione a soglia.

Il P-value restituito dalla funzione anova1 per i tre gruppi sopra descritti è di 0.97, quindi essendo maggiore di 0.05 si conclude che non c’è nessuna variazione significativa del valore medio calcolato, senza considerare i pixel di artefatto individuati dai tre processi di segmentazione. Pertanto, anche se gli algoritmi semiautomatici sovrastimano i pixel di artefatto, questo non altera analisi successive sull’immagine di saturazione.

Per confrontare i due metodi di segmentazione semiautomatica, inoltre, è stata fatta un’analisi degli indici di sensitività, specificità e dice considerando come maschera di riferimento quella del primo operatore. Come si osserva dalla tabella Tab.4.4, il valore medio della specificità per entrambi i metodi di segmentazione è alto, questo significa che gli algoritmi sono selettivi nel riconoscere i pixel di artefatto; in altre parole il numero di falsi positivi è nettamente inferiore al numero di veri negativi. Tuttavia per la segmentazione a soglia il valore medio di specificità è maggiore rispetto a quello della segmentazione Fuzzy C-means di circa il 7%, questo perché il numero di falsi positivi è più alto per la segmentazione Fuzzy C-means rispetto a quella soglia, quindi il primo tipo di segmentazione sovrastima i pixel di artefatto rispetto al secondo. Il valore medio di sensitività per la segmentazione a soglia rimane alto (anche se inferiore a quello della specificità di circa il 15%), perciò il numero di falsi negativi è nettamente inferiore al numero dei veri positivi. Per la segmentazione Fuzzy C-means, invece, il valore medio di sensitività non è molto alto, tuttavia, questo valore è “accettabile” e risulta inferiore di circa il 14% rispetto alla specificità. Confrontando i due algoritmi, la sensitività media per la segmentazione a soglia è più alta di circa il 6% della segmentazione Fuzzy C-means, e il valore medio dell’indice dice rispecchia il valore medio di sensitività, più alto per la segmentazione a soglia rispetto a

(20)

quella Fuzzy. Per valutare se ci sono differenze significative tra suddetti indici per le due procedure di segmentazione, si è effettuato un test t per dati appaiati adoperando la funzione

ttest in matlab. Questa funzione, prendendo in ingresso due vettori di dati, ritorna in uscita il

valore uno se c’è una differenza significativa tra i due campioni analizzati, con livello di significatività del 5% di default, nel caso contrario restituisce valore zero. Confrontando le sensitività la funzione ha restituito valore pari a zero, quindi per i due metodi di segmentazione l’indice mostra valori non significativamente differenti, mentre la funzione

ttest restituisce valore pari a uno sia per l’indice di specificità sia per l’indice dice. Suddetti

indici hanno valori significativamente differenti per le due procedure di segmentazione. Dalle analisi effettuate quindi la segmentazione a soglia, mostrando valori più alti degli indici calcolati rispetto a quelli della segmentazione Fuzzy C-means, in questo caso, risulterebbe migliore. Tuttavia, la segmentazione a soglia, come spiegato in precedenza, richiede uno sforzo maggiore all’operatore e cambiando utente i risultati della segmentazione possono essere nettamente differenti. Pertanto, in conclusione, la segmentazione Fuzzy means è più adatta di quella a soglia. Per la segmentazione Fuzzy C-means, inoltre, gli indici di sensitività, specificità e dice sono stati osservati variando il numero di cluster. Come spiegato nel capitolo precedente, il numero di cluster per la segmentazione Fuzzy C-means è scelto dall’utente che, attraverso un’ispezione visiva dell’immagine alla prima lunghezza d’onda e un’analisi del suo istogramma, ipotizza un numero di cluster e valuta il risultato. Se il risultato non è soddisfacente, l’operatore provando più volte l’algoritmo con numero di classi differente sceglie la soluzione migliore. Considerando sempre lo stesso set di 12 immagini e variando il numero di classi da tre a cinque sono stati calcolati suddetti indici, usando come riferimento la maschera creata dal primo operatore. Per verificare se ci sia una differenza significativa per lo stesso tipo d’indice, variando il numero di classi, è stata eseguita l’analisi della varianza ANOVA, con un livello di significatività del 5%, considerando tre gruppi ognuno dei quali contiene i valori dello stesso tipo d’indice riferiti però a un diverso numero di cluster (tre o quattro o cinque). Pertanto, avendo tre indici, (sensitività, specificità, dice) il test F è stato eseguito tre volte, sempre con un livello di significatività del 5%. I valori del P-value restituiti dalla funzione anova1 di matlab per la sensitività, specificità e indice dice sono:

1) 0.0013, confronto della sensitività; 2) 0.0011, confronto della specificità; 3) 0.134, confronto del dice.

(21)

Nel terzo caso il P-value è maggiore di 0.05, quindi si accetta l’ipotesi nulla secondo la quale i tre gruppi non sono significativamente diversi, cioè il valore dell’indice dice non è significativamente diverso se si adopera un numero di classi pari a cinque o quattro o tre. Nei primi due casi, invece, il P-value è minore di 0.05, quindi si rifiuta l’ipotesi nulla, cioè gli indici di sensitività e di specificità variano in modo significativo cambiando il numero di cluster per la segmentazione. Pertanto, occorre eseguire confronti multipli a coppie (detti post-hoc) e a tale scopo è stato usato il test t di Bonferroni. Questo test è una variante del test t di Student classico:

 per il calcolo della statistica t si usa la varianza entro i gruppi della stima combinata delle varianze;

 il valore critico di t, per ogni confronto, è ricavato considerando il livello di significatività scelto (α) diviso il numero totale di confronti (k); nel nostro caso si sceglie il 5% come livello di significatività e si eseguono tre confronti, per cui α = 0.05/3 ≈ 0,016. Il rischio globale di commettere errori di tipo I (falsi positivi), dunque, è sotto il 5%.

Per ogni confronto, quindi, si calcola la statistica t e si paragona con il valore critico di t tabulato per un livello di significatività α = 0.05/k e con un numero di gradi di libertà pari a k (n-1), dove k è il numero di gruppi e n è la numerosità di ciascun gruppo (caso di campioni di uguali dimensioni). Per eseguire i confronti multipli si è adoperata la funzione

multcompare in matlab, la quale prende in ingresso la struttura restituita dalla funzione anova1 usata in precedenza per confrontare i gruppi, il livello di significatività e il tipo di

test, nel nostro caso Bonferroni. La funzione restituisce una matrice, nella quale nella sesta colonna c’è il P-value dei due gruppi a confronto, i cui indici sono specificati nella prima e nella seconda colonna (si consulti help di matlab per ulteriori chiarimenti). I P-value restituiti dalla funzione per la sensitività e specificità per i tre gruppi sono:

1. 0.3719 sensitività, 0.5074 specificità, tra un numero di classi pari a quattro e un numero pari a cinque;

2. 0.0611 sensitività, 0.0366 specificità, tra numero di classi pari a quattro e un numero pari a tre;

3. 0.0010 sensitività, 0.0009 specificità, tra numero di classi paria a cinque e numero pari a tre.

Dalle analisi fatte, si deduce che la sensitività non cambia significativamente adoperando un numero di classi pari a quattro o cinque, oppure usando un numero di classi pari a quattro o tre. La sensitività, invece, è significativamente diversa tra un numero di

(22)

classi pari a tre e numero di cluster pari a cinque, infatti, come si osserva dalla tabella Tab.4.5, il valore medio di sensitività è più basso per numero di classi pari a cinque rispetto a un numero pari a tre, dunque mediamente il numero di falsi negativi rispetto ai veri positivi è più alto per un numero di cluster pari a cinque. Il numero alto di falsi negativi non è un risultato positivo, perché significa che l’algoritmo Fuzzy C-means non ha riconosciuto molti pixel di artefatto presenti nella maschera manuale; per questa ragione le maschere ottenute con la segmentazione Fuzzy C-means con numero di cluster pari a cinque sono state scartate. La specificità, invece, non varia significativamente tra un numero di classi pari a quattro e numero di cluster pari a cinque ma varia per i rimanenti casi. Dalla tabella Tab.4.5 si osserva che il valore medio della specificità è più alto per la segmentazione Fuzzy C-means con numero di classi pari a quattro rispetto a quello con numero di cluster pari a tre, ciò significa che mediamente il numero di falsi positivi è più alto nel secondo caso. Pertanto, si deduce che la segmentazione con un numero di classi pari a tre, mostrando un valore più basso di specificità, cioè numero più alto di falsi positivi, sovrastima i pixel di artefatto rispetto alla segmentazione con numero di classi pari a quattro. L’alto numero di falsi positivi, inoltre, fa sì che l’indice dice abbia un valore basso, quindi, in questo caso, le maschere ottenute dalla segmentazione Fuzzy C-means si sovrappongono poco con il riferimento. Dalle analisi sopra descritte, quindi, la segmentazione con numero di cluster pari a quattro risulta migliore rispetto alle altre due.

Per le immagini analizzate, in sintesi, si è dedotto che la procedura di segmentazione manuale ha elevata variabilità intra e inter-osservatore e ha un tempo di esecuzione nettamente maggiore a quello delle due segmentazioni semiautomatiche. Queste ultime, inoltre, sono più sensibili nel riconoscimento dei pixel di artefatto, ma la segmentazione Fuzzy-C-means è da preferire a quella a soglia, anche se ha un tempo di esecuzione leggermente superiore. Per la segmentazione Fuzzy-C-means, inoltre, si è dedotto che il numero ottimale di cluster è quattro. Tuttavia, è opportuno vedere come variano i valori medi calcolati nella ROI dell’immagine di saturazione pre-terapia, non considerando i pixel di artefatto individuati dalla segmentazione Fuzzy C-means cambiando il numero di classi. Per verificare che non ci sia una variazione significativa tra i suddetti valori medi, considerando un numero di cluster pari a tre, a quattro e cinque, si effettua il test F (sempre con un livello di significatività del 5%) attraverso la funzione anova1 di matlab. Il P-value calcolato dalla funzione è 0.77, quindi essendo maggiore di 0.05 si conclude che non c’è nessuna variazione significativa del valore medio calcolato come descritto sopra variando il numero di cluster per la segmentazione da tre a cinque.

(23)

Dai risultati conseguiti, si deduce che l’operatore può utilizzare indifferentemente un numero di classi pari a quattro, a cinque, o a tre per la segmentazione Fuzzy C-means di tutte le immagini a diposizione, ma se aumenta il numero d’immagini in seguito alla recluta di nuovi pazienti deve essere ripetuta l’analisi per valutare se il numero di classi può rimanere lo stesso o meno. Alla luce di ciò è più opportuno affidare all’utente il compito di scegliere il numero di classi. Dai risultati ottenuti, inoltre, si nota che il valore medio calcolato nella ROI dell’immagine di saturazione pre-terapia, non considerando i pixel di artefatto individuati dalla segmentazione a soglia, è simile a quello ottenuto non considerando suddetti pixel evidenziati dalla segmentazione Fuzzy-C-means. Pertanto, l’utente può adoperare indifferentemente una delle due tecniche, ma considerando le analisi precedenti si privilegia, per le immagini analizzate, la segmentazione Fuzzy C-means con numero di classi pari a quattro.

Tab. 4.4 Valori degli indici sensibilità, specificità, dice con sotto i valori medi.

Immagine n° Sensitività soglia Specificità soglia Dice soglia Sensitività Fuzzy classi n°4 Specificità Fuzzy classi n°4 Dice Fuzzy classi n°4 1 93.14 97.87 0.68 88.65 97.08 0.59 2 98.54 98.78 0.71 91.27 99.31 0.76 3 82.60 98.08 0.71 88.60 96.24 0.62 4 77.88 98.95 0.80 69.60 98.14 0.70 5 85.95 97.53 0.75 89.94 95.68 0.67 6 73.43 96.19 0.59 87.85 92.21 0.65 7 86.87 97.57 0.45 85.45 78.97 0.07 8 64.37 99.65 0.50 45.06 83.50 0.01 9 76.46 98.65 0.60 76.46 87.24 0.14 10 82.88 97.53 0.65 66-38 92.53 0.32 11 82.96 97.72 0.71 78.69 81.80 0.22 12 94.31 97.16 0.60 93.64 91.07 0.34 MEDIA 83.28 97.97 0.64 76.93 91.14 0.42

(24)

Tab. 4.5 Valori medi dell’indice dice, della sensibilità, della specificità, variando il numero di cluster da tre a cinque.

In conclusione, la segmentazione Fuzzy C-means è più sensibile nel trovare i pixel di artefatto rispetto alla segmentazione a soglia e rispetto a quella manuale, ha una bassa variabilità intra ed inter-osservatore e ha un tempo di esecuzione basso. Dunque, la segmentazione Fuzzy è migliore rispetto alla segmentazione a soglia e a quella manuale. Tuttavia, quest’ultima sovrastimi i pixel di artefatto, quindi, nessuno tra gli algoritmi di segmentazione analizzati può segmentare suddetti pixel con elevata precisione.

Numero di cluster Media Sensitività Media specificità Media dice 3 94.69 81.68 0.39 4 76.93 91.14 0.42 5 65.43 96.16 0.48