• Non ci sono risultati.

Applicazione algoritmi automatici a immagini real

5.2. Risultati su immagini real

5.2.1. Segmentazione con algoritmi n-SD

Analogamente al caso di analisi su fantoccio, anche per le immagini reali è stato effettuato il confronto tra la segmentazione ottenuta applicando gli algoritmi n-SD automatici e quella ottenuta applicando i metodi semi-automatici corrispondenti. Per eseguire la segmentazione con i metodi semi-automatici si è sfruttato il software HIPPOSW, descritto in precedenza, per il calcolo della soglia di segmentazione. Infatti, una volta caricate le immagini RM, il programma permette di tracciare delle ROI sulle singole immagini, dando la possibilità all’utente di selezionare l’immagine che ritiene più opportuna. Il software restituisce in uscita il valor medio e la SD dei pixel della ROI selezionata. Per tenere conto della variabilità intra e inter-operatore sono state selezionate due ROI all’interno del miocardio remoto e per ciascuna di essa sono stati memorizzati i valori medi e le SD restituiti dal software. Le soglie sono state calcolate facendo variare il valore di n secondo quanto indicato in letteratura:

𝑡ℎn-SD = 𝜇myo + 𝑛 ∗ σmyo con n = 2,3, … ,6

In Tabella 5.3. verranno mostrati i valori dei parametri ottenuti dall’estrazione delle ROI.

ID Paziente µ_S1 σ_S1 µ_S2 σ_S2 1 22,2 8,4 20,9 6,4 2 5,6 1,9 6,3 1,8 3 14,7 3,4 12,8 3,0 4 3,9 1,5 4,9 2,4 5 7,4 3,0 7,3 2,9 6 6,5 2,1 3,2 2,0 7 5,3 2,3 6,5 2,4 8 6,2 2,6 6,9 2,8 9 10,0 2,7 10,5 3,4 10 7,6 2,3 7,8 2,3

111 ID Paziente µ_S1 σ_S1 µ_S2 σ_S2 11 12,6 4,4 10,0 4,3 12 10,6 3,3 10,8 3,5 13 4,5 1,1 4,8 1,2 14 5,3 2,0 5,3 2,4 15 13,4 4,5 13,1 3,9 16 7,1 2,6 6,9 2,7 17 15,4 3,0 18,6 4,4 18 3,5 1,4 4,0 1,4 19 7,9 3,0 7,0 2,6 20 4,2 1,5 4,5 2,0 media ± SD 8,7 ± 23,3 2,8 ± 2,5 8,6 ± 22,4 2,9 ± 1,4

Gli algoritmi automatici invece sono stati applicati sia sull’intero volume di dati, facendo un’analisi dell’istogramma complessivo, sia su ogni singola slice, ovvero facendo l’analisi degli istogrammi delle singole immagini costituenti il volume di dati. In Tabella 5.4. verranno mostrati i valori dei parametri µ e σ ottenuti dalla procedura di fitting.

ID Paziente µ_globale σ_globale µ_medio_slice σ_medio_slice

1 31,6 16,5 28,8 11,4 2 5,7 1,8 5 1,7 3 12,5 3,3 19,7 7,2 4 7,1 3,7 7,5 3,6 5 8,1 4,2 10,6 4,4 6 5,3 1,8 7,2 2,8 7 7,2 3,8 8,8 3,5 8 8,6 4,5 10,5 4,8 9 10 3,4 10,5 3,7 10 7,3 2,5 13,1 5,4

Tabella 5.3. Valori dei parametri µ e σ computati per le soglie dei metodi n-SD semi-automatici estratti dalle ROI tracciate manualmente.

Tabella 5.4. Valori dei parametri µ e σ computati per le soglie dei metodi n-SD automatici ottenuti applicando l’algoritmo all’intero

112

ID Paziente µ_globale σ_globale µ_medio_slice σ_medio_slice

11 21,6 11,3 17,3 6,6 12 12 3,8 9,3 3,1 13 4,8 1,1 4,8 1,6 14 7,3 3,8 9,1 4,7 15 15,6 8,2 14,1 4,9 16 11,2 5,8 9,2 4,7 17 13,2 4,5 11,4 3,7 18 4,9 5,6 3 1,5 19 11,5 6 9,9 4,9 20 5,2 2,7 8,9 4,4 media ± SD 10,5 ± 42,3 4,9 ± 12,8 10,9 ± 33,3 4,4 ± 4,9

Trattandosi di metodi di segmentazione a soglia, per confrontare i risultati ottenuti con le due versioni degli algoritmi è sufficiente confrontare i valori dei parametri µ e σ utilizzati per il calcolo della soglia. Prima però di passare al confronto con i metodi semi-automatici è stato ritenuto opportuno verificare un’eventuale differenza tra la versione globale e quella slice per slice. Tale scelta nasce dall’osservazione che applicando la versione slice per slice i parametri stimati in ogni singola immagine hanno un’alta variabilità, come mostrato in Figura 5.3.

Tabella 5.4. Valori dei parametri µ e σ computati per le soglie dei metodi n-SD automatici ottenuti applicando l’algoritmo all’intero

volume dei dati e valori medi dei parametri µ e σ ottenuti applicando l’algoritmo slice per slice.

Figura 5.3. Rappresentazione del valor medio di µ e σ, con rispettive SD, calcolati per ogni paziente con la versione slice per slice

113 Per ogni metodo n-SD è stato dunque eseguito il t-test tra le percentuali di DE stimate dalle due versioni del metodo con un intervallo di confidenza del 95%, ottenendo i seguenti risultati:

Metodo n-SD P value 2SD 0.017 3SD 0.022 4SD 0.035 5SD 0.055 6SD 0.089

Dal test statistico emerge che i metodi 2SD, 3SD e 4SD sono significativamente diversi, per i metodi 5SD e 6SD invece non si ha una differenza significativa. Per comprendere dunque quale versione sia migliore è stato calcolato il Coefficiente di Correlazione Intraclasse (ICC) tra le percentuali di DE ottenute applicando le due versioni degli algoritmi e quella invece di riferimento, estratta dal Gold Standard. I risultati ottenuti verranno mostrati in Tabella 5.6..

2SD 3SD 4SD 5SD 6SD

ICC versione

slice per slice 0,592 0,732 0,627 0,527 0,455

ICC versione

globale 0,578 0,755 0,751 0,683 0,598

Confrontando i valori di ICC si può concludere che i metodi n-SD automatici globali, ad eccezione del metodo 2SD che presenta comunque un ICC confrontabile con la versione slice per slice, hanno un indice più elevato e quindi portano a dei risultati migliori.

Tabella 5.5. Valori p value del t-test eseguito tra le percentuali di DE stimate dalla versione globale e dalla versione slice per slice

dei metodi n-SD automatici.

Tabella 5.6. Valori indici ICC tra le percentuali di DE stimata dai metodi n-SD automatici versione slice per slice e globale, e la

114 Quindi, a seguito di tale analisi il confronto con i metodi semi-automatici è stato eseguito soltanto con la versione globale dei metodi automatici, non solo perché è sovrapponibile alla versione slice per slice ma anche perché è più simile alla procedura che viene eseguita dall’operatore.

Per tale studio è stata eseguita un’analisi statistica con il test ANOVA per prove ripetute, in modo da confrontare a coppie le soglie ottenute automaticamente con quelle ottenute manualmente. Dall’analisi è emerso che i valori di µ e σ, mostrati precedentemente in Tabella 5.3. e in Tabella 5.4., sono significativamente diversi (per µ si ottiene un p=0.042 e per σ un p=0.002), e di conseguenza, trattandosi di metodi a soglia, lo saranno tutti i metodi n-SD. Per comprendere meglio tali risultati sono stati analizzati più in dettaglio i valori dei parametri ottenuti con le due versioni. Dal confronto si evince che l’algoritmo automatico presenta valori dei parametri maggiori, come dimostrano anche i Bland-Altman plot mostrati in Figura 5.4. e in Figura 5.5.. La sovrastima è dovuta alla presenza di artefatti nelle immagini e nello specifico nella regione del miocardio remoto. Infatti, per l’algoritmo semi-automatico l’operatore tipicamente seleziona la ROI nell’immagine che, secondo il suo giudizio, presenta il miocardio remoto con segnale “perfettamente” annullato. L’algoritmo automatico invece stima tali parametri dal segnale del miocardio complessivo, dunque nel caso di slice con miocardio interessato da artefatti (come per esempio un segnale non annullato, artefatti da flusso o PVE), questi verranno inclusi nella stima del valor medio e della SD e di conseguenza risulteranno essere più elevati.

Figura 5.4 . BA tra µ stimato dall’algoritmo automatico e µ stimato dalla prima ROI (a sinistra) e µ stimato dalla seconda

ROI (a destra).

Figura 5. 5. BA tra σ stimato dall’algoritmo automatico e σ stimato dalla prima ROI (a sinistra) e σ stimato dalla seconda

115 A titolo di esempio di seguito verranno mostrate le immagini di un paziente in cui il fenomeno è presente in modo significativo.

In Figura 5.6. sono state riportate le immagini LGE in asse corto relative a due slice estratte dal volume di dati del paziente n.11. Sulla sinistra troviamo la slice n.4 dalla quale sono state estratte le ROI sul miocardio remoto, zona compresa all’interno dei contorni in verde, mentre sulla destra è stata riportata la slice successiva in cui è evidente come il segnale del miocardio remoto presenta intensità maggiore, portando alla sovrastima dei parametri computati dall’algoritmo automatico.

Quindi, dato che i metodi non sono sovrapponibili, il numero ottimale di n dipenderà dalla stima dei parametri. Analizzando la retta di regressione tra i parametri µ e σ si evince che nonostante siano significativamente diversi, sono correlati tra loro.

Slice 4 Slice 5

Figura 5.6 . Rappresentazione di due slice del volume di dati relativi al paziente n.11 ottenute con HIPPOSW in cui sono evidenziati

i contorni del LV(in verde).

Figura 5.7. Rappresentazione della retta di regressione tra µ stimato dall’algoritmo automatico e µ stimato dalla prima

116 Ciò si traduce nell’avere un n ottimale per i metodi n-SD automatici minore rispetto a quello della versione semi-automatica.

Di seguito verranno mostrati i grafici riassuntivi degli indici DICE e i BA delle percentuali di DE ottenuti applicando i metodi n-SD automatici e semi-automatici alle immagini relative ai 20 pazienti posti in esame.

Figura 5.8. Rappresentazione della retta di regressione tra µ stimato dall’algoritmo automatico e µ stimato dalla prima ROI

(a sinistra) e µ stimato dalla seconda ROI (a destra).

Figura 5.9. Rappresentazione degli indici DICE ottenuti applicando gli algoritmi n-SD automatici e semi-automatici alle

117

Figura 5.10. BA delle percentuali di DE ottenute applicando gli algoritmi n-SD automatici alle immagini reali rispetto alla

percentuale di DE del Gold Standard.

Figura 5.11. BA delle percentuali di DE ottenute applicando gli algoritmi n-SD semi-automatici (Osservatore S1) alle immagini

118 Dai BA emerge che gli algoritmi 2SD e 3SD automatici tendono a sovrastimare la percentuale di DE come anche tutti i metodi semi-automatici; i metodi 4SD, 5SD e 6SD automatici tendono invece a sottostimare la percentuale di DE.

Infine, è stato calcolato l’indice ICC tra le percentuali di DE stimata dai metodi n-SD, automatico e semi-automatico (Osservatore S1), e la percentuale di DE effettiva (valutata dal Gold Standard) per valutare qual è il valore di n ottimale per la versione semi-automatica e automatica. Si è ottenuto che il metodo ottimale per gli algoritmi semi-automatici è il metodo 6SD, invece per i metodi automatici il metodo ottimale è il 3SD. I risultati ottenuti confermano le considerazioni dedotte dallo studio statistico. 2SD 3SD 4SD 5SD 6SD ICC Metodi semi- automatici 0.215 0,441 0,660 0,798 0,844 ICC Metodi automatici 0,589 0,755 0,751 0,683 0,598

Questi risultati vengono anche confermati dai valori di n ottimale trovati facendo variare il parametro

n, in modo continuo, minimizzando l’errore commesso dai metodi nella stima della percentuale di

DE. Infatti, per i metodi automatici è stato trovato un valore di n compreso tra 3 e 4, e per i metodi semi-automatici un valore intorno a 6. In Tabella 5.8. sono stati riportati i valori di media e mediana dei parametri n ottimali per i metodi automatici e semi-automatici, calcolati per i 20 pazienti posti in esame.

Metodi n-SD automatici Metodi n-SD semi-automatici

Media n =4,48 n = 6,87

Mediana n = 3,35 n = 6,28

A seguito di tali risultati è interessante valutare se il metodo 3SD automatico è sovrapponibile al metodo 6SD semi-automatico.

Tabella 5.7. Valori indici ICC tra le percentuali di DE stimata dai metodi n-SD, semi-automatici e automatici, e la percentuale di DE

effettiva.

Tabella 5.8. Valori ottimali di n per i metodi n-SD, semi-automatici e automatici che minimizzano l’errore di stima della percentuale

119 A tale scopo è stato eseguito il test statistico ANOVA per prove ripetute tra le percentuali di DE stimate dall’algoritmo automatico e la percentuale di DE stimata dai metodi semi-automatici, per entrambi gli osservatori, ottenendo i seguenti risultati:

Quindi i metodi non sono significativamente diversi. Tuttavia, gli indici ICC mostrano delle differenze tra i metodi, ed in particolare per i valori ottenuti, riportati in precedenza in Tabella 5.7., si deduce che i metodi semi-automatici 6SD producono dei risultanti migliori.

Analizzando nel dettaglio i BA, mostrati in Figura 5.13., tra le percentuali di DE stimate con la percentuale di DE individuata dall’operatore, si osserva che l’algoritmo automatico presenta un errore sistematico e una variabilità dei dati maggiore rispetto a quelli del metodo semi-automatico.

6SD_S1 6SD_S2

3SD automatico p = 0.67 p = 0.51

Figura 5.12. Rappresentazione delle percentuali di DE stimate dagli algoritmi 3SD automatico e dagli 6SD semi-automatici

(a sinistra) con p value risultante del test ANOVA (a destra).

Figura 5.13. BA delle percentuali di DE ottenute applicando gli algoritmi 3SD automatici e 6SD semi-automatici alle immagini

120 Dunque, si può concludere che il metodo 3SD automatico non è statisticamente diverso dal metodo 6SD semi-automatico, ma produce un errore sistematico maggiore. Inoltre, analizzando i dati più nel dettaglio, è emerso che la maggiore variabilità presente nell’algoritmo semi-automatico è dovuta a quei pazienti in cui il miocardio remoto è perfettamente annullato. In questi casi infatti la stima automatica dei parametri µ e σ è confrontabile con quelli estratti dalle ROI, dunque il metodo 3SD non è il metodo migliore in quanto il valore di soglia è inferiore a quello ottimale, quindi andrebbe utilizzato un metodo con n maggiore, come per esempio il 6SD.

A titolo di esempio di seguito verranno mostrati i risultati ottenuti per un paziente dalla procedura di fitting e dalla segmentazione per il metodo 3SD automatico, dalla segmentazione ottenuta con il metodo 6SD semiautomatico e la maschera corrispondente del Gold Standard delineata manualmente da un operatore esperto.

Figura 5.14. Rappresentazione di una slice del paz n.7( in alto a sinistra), del fitting complessivo del metodo automatico 3SD (in

alto a destra) e delle maschere del DE( in basso) ottenute con il metodo 3SD automatico, con il metodo 6SD semi-automatico e con la delineazione manuale.

121

5.2.2. Segmentazione con algoritmo FWHM

Il metodo FWHM automatico è stato applicato solo all’intero volume di dati, in quanto per definizione del metodo questo può essere applicato solo ad immagini in cui è presente il DE, quindi dato che non tutte le slice presentano regioni fibrotiche, non avrebbe senso eseguire l’analisi slice per slice. Anche per questo algoritmo è stato eseguito il confronto con la corrispettiva versione semi-automatica. Per eseguire la segmentazione con il metodo semi-automatico si è sfruttato il software HIPPOSW per il calcolo della soglia di segmentazione. Caricate le immagini RM, per ogni paziente sono state tracciate due ROI sul miocardio fibrotico nell’immagine in cui il segnale presenta intensità maggiore. Infine, per ciascuna delle regioni selezionate sono stati memorizzati i valori medi e le SD restituiti dal software. La soglia di segmentazione è stata calcolata come:

𝑡ℎ𝐹𝑊𝐻𝑀 = 0.5 ∗ (𝜇𝐷𝐸 + 2 𝜎𝐷𝐸)

che corrisponde alla stima del 50% del valor massimo, valore indicato in letteratura per tale metodo. Per confrontare le due versioni del metodo FWHM è stato eseguito il test statistico ANOVA in modo da confrontare a coppie i valori di soglia computati dalla versione automatica e dalle due versioni semi-automatiche. Il test ha fornito un p=0,54 per il confronto tra automatico e il primo metodo semi- automatico e un p=0,65 per il confronto tra l’automatico e il secondo metodo semi-automatico. Dunque, non ci sono differenze significative tra le soglie. Ma trattandosi di algoritmi di segmentazione a soglia ciò significa che il metodo FWHM automatico non è significativamente diverso dalla versione semi-automatica, infatti effettuando il t-test, con intervallo di confidenza del 95%, tra le percentuali di DE stimate dal metodo automatico e dalla versione semi-automatica (Osservatore S1) si ottiene un p=0.443.

Figura 5.15. Rappresentazione delle soglie di segmentazione dei metodi FWHM automatici (th_A) e semi-automatici (th_S1

122 Di seguito verranno mostrati i grafici riassuntivi degli indici DICE e i BA delle percentuali di DE ottenuti applicando il metodo FWHM automatico e semi-automatico alle immagini relative ai 20 pazienti posti in esame.

Figura 5.16. Rappresentazione degli indici DICE ottenuti applicando i metodi FWHM automatici e semi-automatici alle immagini

reali.

Figura 5.17. BA delle percentuali di DE ottenute applicando gli algoritmi FWHM automatici e semi-automatici alle immagini

123 Dai BA, mostrati in Figura 5.17., si evince che i metodi FWHM, sia la versione automatica che la versione semi-automatica, tendono a sottostimare la percentuale di DE; inoltre il metodo semi- automatico presenta una variabilità dei dati, e quindi un intervallo di confidenza, maggiore rispetto a quella della versione automatica. Quindi, nonostante i metodi siano sovrapponibili, per il campione di pazienti analizzato entrambe le versioni dei metodi producono una stima errata della percentuale di DE. Infatti, calcolando l’indice ICC tra le percentuali di DE stimata dai metodi, automatico e semi- automatico (Osservatore S1), e la percentuale di DE effettiva (valutata dal Gold Standard) si ottengono valori molto bassi, come mostrato in Tabella 5.8..

FWHM ICC Metodo

semi- automatico 0,152

ICC Metodo

automatico 0,435

A titolo di esempio di seguito verranno mostrati i risultati ottenuti applicando il metodo ad immagini relative ad un paziente (paziente n.7 usato negli esempi precedenti) per mostrare il corretto funzionamento dell’algoritmo e per un secondo paziente (paziente n.4) per mostrare un caso in cui l’algoritmo non funziona correttamente, in quanto sottostima la percentuale di DE presente.

Tabella 5.8. Valori indici ICC tra le percentuali di DE stimata dai metodi FWHM, semi-automatici e automatici, e la percentuale di

124

Figura 5.18. Rappresentazione di una slice del paz n.7( in alto a sinistra) e delle maschere del DE ottenute con il metodo

FWHM automatico, con il metodo FWHM semi-automatico e con la delineazione manuale.

Figura 5.19. Rappresentazione di una slice del paz n.4( in alto a sinistra) e delle maschere del DE ottenute con il

125

5.2.3. Segmentazione con algoritmo PVE

Il metodo PVE, non essendoci una versione semi-automatica corrispondente, è stato confrontato soltanto con il Gold standard manuale, sia in termini di percentuale che in termini di DICE. L’algoritmo è stato applicato sia nella versione globale, analizzando l’istogramma dell’intero volume di dati, sia nella versione slice per slice. Per confrontare le due versioni è stato eseguito il t-test tra le percentuali di DE stimate dalle due versioni con un intervallo di confidenza del 95% ottenendo un

p= 0,99. Quindi le due versioni non mostrano differenze significative. Di seguito verranno mostrati i

grafici riassuntivi degli indici DICE e i BA delle percentuali di DE ottenuti applicando il metodo PVE, nelle due versioni, alle immagini relative ai 20 pazienti posti in esame.

Infine, è stato valutato l’indice ICC tra le percentuali di DE stimata dai metodi e la percentuale di DE effettiva (valutata dal Gold Standard). In Tabella 5.9. sono stati riportati i valori ottenuti.

PVE ICC Metodo

slice per slice 0,665

ICC Metodo

globale 0,454

Figura 5.20. Rappresentazione degli indici DICE ( sinistra) e BA delle percentuali di DE (a destra) ottenuti applicando l’algoritmo

PVE, globale e slice per slice, alle immagini reali rispetto alla percentuale di DE del Gold Standard.

Tabella 5.9. Valori indici ICC tra le percentuali di DE stimata dai metodi PVE, versione slice per slice e globale, e la percentuale

126 A titolo di esempio di seguito verranno mostrati i risultati ottenuti applicando il metodo, nella versione globale e nella versione slice per slice, per un paziente ( paziente n.7 usato negli esempi precedenti) per mostrare il corretto funzionamento dell’algoritmo e per un secondo paziente ( paziente n.13) per mostrare un caso in cui l’algoritmo non funziona, in quanto sovrastima la percentuale di DE presente.

Figura 5.21. Paziente n.7: rappresentazione di una slice(in alto a sinistra), delle maschere del DE delineata manualmente (in alto

a destra), del fitting complessivo (al centro a sinistra) e della maschera del DE ottenuta con il metodo PVE globale (al centro a destra), del fitting relativo alla singola slice (in basso a sinistra) e delle maschera di DE ottenuta con il metodo PVE slice per slice (in basso a destra).

Metodo PVE globale

127

Figura 5.22. Paziente n.13: rappresentazione di una slice (in alto a sinistra), delle maschere del DE delineata manualmente (in

alto a destra), del fitting complessivo (al centro a sinistra) e della maschera del DE ottenuta con il metodo PVE globale (al centro a destra), del fitting relativo alla singola slice (in basso a sinistra) e delle maschera di DE ottenuta con il metodo PVE slice per slice (in basso a destra).

Metodo PVE globale

128 Analizzando i casi in cui l’algoritmo PVE non funziona correttamente, come nel caso mostrato in

Figura 5.22., si è osservato che nonostante la procedura di fitting stimi correttamente l’istogramma,

sia nel caso della versione globale che nell’analisi slice per slice, la segmentazione che si ottiene è molto diversa dal Gold Standard delineato manualmente, e nello specifico l’algoritmo sovrastima la regione di DE. Nel caso in cui il metodo è stato applicato ad immagini fantoccio, immagini in cui è presente solo l’artefatto del PVE tra il tessuto sano e quello patologico del miocardio, il metodo funziona correttamente ed risulta essere confrontabile con i metodi 5SD e FWHM semi-automatici, come descritto nel Capitolo 4. Dunque, l’errato funzionamento dell’algoritmo nel caso di immagini reali potrebbe essere dovuto ad altri fenomeni che influiscono sulla distribuzione del segnale RM, come per esempio il campo di attenuazione e la variabilità biologica, che non sono stati inseriti nel modello.

129

Documenti correlati