• Non ci sono risultati.

Capitolo 2 Metodi di segmentazione delle immagini

N/A
N/A
Protected

Academic year: 2021

Condividi "Capitolo 2 Metodi di segmentazione delle immagini"

Copied!
42
0
0

Testo completo

(1)Capitolo 2. Metodi di segmentazione delle immagini. La segmentazione è un processo di basso livello utile in molte applicazioni basate sull’elaborazione delle immagini, alla base di diversi sistemi di processamento di immagini che prevedono l'identificazione di oggetti, il riconoscimento di pattern, la separazione degli oggetti di interesse dal background etc. La segmentazione produce un'immagine binaria in cui i pixel hanno valore pari ad 1 se appartengono all'oggetto di interesse e valore pari a zero se invece non appartengono. A seconda delle caratteristiche delle immagini da elaborare e degli oggetti da segmentare, esistono diverse tecniche di segmentazione che spaziano dalle più semplici, ma di effetto spesso insoddisfacente, alle più potenti, più complesse e onerose da applicare.. 2.1 Segmentazione. I metodi di segmentazione si suddividono in quattro categorie. • La. Metodi basati sul Pixel (Pixel based). prima. categoria. comprende. tecniche. di. segmentazione. di. facile. implementazione che coinvolgono direttamente l'istogramma. L'istogramma dell'immagine permette di scegliere una soglia ottima per discriminare i pixel in base al loro valore di intensità luminosa. Si parte dall'ipotesi che i pixel di un 1.

(2) oggetto abbiano più o meno la stessa intensità e che quindi possano essere separati dal background mediante una soglia sull’intensità luminosa. Questa tecnica è molto semplice, ma presenta alcuni svantaggi. Uno di questi si riscontra quando oggetti diversi, a causa del basso contrasto, hanno lo stesso colore e quindi non sono discriminabili mediante una soglia. •. Metodi basati sulla Regione (Region based). Si analizza la luminosità di intere aree dell'immagine. I metodi basati sulla regione estraggono i contorni all'interno delle immagini. Il “region growing” si basa sul raggruppamento automatico di regioni di pixel che hanno una proprietà in comune. Si scelgono, generalmente a caso, un certo numero di pixel nell'immagine, e li si e marca come semi. Ciascun seme costituisce un cluster. Iterativamente, ogni pixel viene associato al cluster più vicino secondo una distanza opportuna che tiene conto sia della distanza spaziale che della similitudine delle features; Quando tutti i pixel sono stati associati ad un cluster (labelled). Vi è poi la “Split and Merge” che è un approccio alla segmentazione opposto al region growing. Consiste nel suddividere inizialmente l'immagine in un insieme di regioni arbitrarie e disgiunte, quindi fondere e/o dividere le regioni con il fine di ottenere un partizionamento dell'immagine in regioni disgiunte ed internamente omogenee e connesse. •. Metodi basati sul Contorno (Edge based). Si estraggono i contorni per delimitare gli oggetti. Il contorno di un oggetto rappresenta la linea di separazione tra l'oggetto lo sfondo o tra l'oggetto ed altri oggetti. Per applicare questa tecnica è necessario conoscere alcune proprietà dell'immagine o dell'oggetto da segmentare. Gli algoritmi di segmentazione ‘edge based’ sono basati sulla discontinuità di proprietà dei pixel, quali per esempio il livello di grigio, il colore, la regolarità spaziale, la velocità. Ad esempio se si vuole segmentare il contorno del ventricolo cardiaco, è possibile farlo sapendo che il ventricolo è una cavità con una rigidità ed una elasticità specifiche. In corrispondenza dei contorni 2.

(3) degli oggetti si incontra una discontinuità delle proprietà infatti variano le caratteristiche fisiche, cinematiche o geometriche delle superficie. Per rivelare le discontinuità è necessario fare uso di algoritmi di estrazione dei contorni (edge) o di altre caratteristiche (punti isolati, linee). La maggior parte degli operatori per la rivelazione delle discontinuità fa uso di operatori derivativi. Tali operatori vengono applicati direttamente all'immagine o ad una sua qualche grandezza derivata, ottenuta applicando una opportuna trasformazione. I punti di discontinuità dell'immagine vengono rivelati e concatenati in modo da ottenere dei contorni chiusi delimitanti aree distinte. •. Metodi basati su un modello (Model based):. Si parte dalla conoscenza a priori del modello dell'oggetto.. 2.2. Tecniche. di. segmentazione. per. sogliatura. dell'immagine Le tecniche di Sogliatura si suddividono in due classi: Tecniche Globali e Tecniche Locali.. •. Tecniche globali. Le Tecniche globali sono quelle che determinano il valore della sogliatura in base alle proprietà globali dell'immagine, si considerano tutti i pixel. Si utilizzano in genere quando nell'immagine si deve riconoscere un solo oggetto. •. Tecniche locali. A differenza delle tecniche globali, in cui ogni pixel dell'immagine concorre alla determinazione del livello di sogliatura, qui l'immagine originaria viene partizionata in più sottoimmagini, e ad ognuna viene applicata una sogliatura.. 3.

(4) 2.2.1 Scelta diretta del livello di sogliatura L'operazione di soglia (“Threshold”) permette di identificare le strutture di interesse che hanno livelli di luminosità ragionevolmente uniformi, in un intervallo dato. Sebbene sia applicabile esclusivamente nel caso in cui l'oggetto risulti distinguibile dallo sfondo in base alla sua diversa luminosità, questo procedura rappresenta un passaggio indispensabile per molte applicazioni di analisi d'immagine. Sogliare l'immagine significa trovare quel valore, all'interno di un range di livelli di grigio, da utilizzare per separare le due regioni di interesse: una che include tutti i pixel con livello di grigio inferiore a quello soglia e l'altra contenente i pixel rimanenti. Se ad esempio un oggetto è bianco e lo sfondo è nero, risulta semplicissimo estrarre l'oggetto per segmentazione applicando un semplice filtro di soglia. Per poter eseguire l'operazione di soglia si sceglie un intervallo, tutti i punti all'interno di questo range assumono il valore “1” (Bianco) e gli altri il valore “0” (nero). Il processo di convertire i livelli di grigio di una immagine binaria è il metodo più semplice di segmentazione. Supponiamo di avere un’immagine I(x,y) e una soglia T, l’immagine dopo l’operazione di sogliatura sarà data da:. Uno dei problemi derivanti dal thresholding è che si prende in considerazione soltanto l'intensità, non il rapporto spaziale fra i pixel. Questo porta ad includere nella regione pixel estranei o a non includere i pixel che in realtà ne fanno parte. Il problema principale delle tecniche di sogliatura dell'immagine consiste nella scelta della migliore soglia T ossia quel valore che permette di estrarre la regione d'interesse minimizzando il rumore ed ottimizzando la riconoscibilità della stessa, per successive elaborazioni. 4.

(5) In teoria, dall'istogramma dei livelli di grigio dell'immagine originaria, si può estrapolare l’oggetto e lo sfondo rappresentati da due picchi e separati da una valle su cui operare la sogliatura.. Figura 1: Istogramma. In realtà la scelta del punto ottimale per la sogliatura non è cosi semplice, poiché i picchi dell'istogramma sono spesso differenti in altezza, e possono esistere ulteriori valli create dal rumore. E’ molto difficile che si possa conoscere a priori la luminosità dell’oggetto e dello sfondo, ossia il range di livelli di grigio che costituiscono una o l'altra regione, ed è per questo il motivo per cui negli ultimi 20 anni sono state messe a punto delle tecniche di calcolo automatico della soglia (analisi della concavità dell'istogramma, metodo dell'errore minimo, metodo dell'entropia, metodo del momento, metodo del discriminante). Per trovare una soglia globale o locale per una zona, si esamina solitamente l'istogramma . Un istogramma è una distribuzione di probabilità:. p(g) = ng/n. frazione tra il numero dei pixel ng che ha un livello di intensità g e il numero totale dei pixel N. Vi sono diversi modi di esaminare il problema..  Conoscenza della distribuzione. 5.

(6) Se si conosce la frazione dell’immagine 1/p occupata dall’oggetto che si vuole trovare, si può regolare la soglia semplicemente trovando il livello di intensità tale che la percentuale dei pixel dell’ immagine sia sotto questo valore. Consideriamo l'istogramma cumulativo:. Si trova la soglia T tali che c (T) = 1/p. O, se si sta cercando un oggetto scuro su un fondo chiaro è data da c(T) = 1 − 1/p..  Analisi della concavità dell'istogramma Le concavità dell'istogramma rappresentano dei buoni punti di divisione fra le due regioni da estrarre, quindi i punti di massima profondità dell'istogramma sono degli ottimi candidati per la sogliatura. Questi punti si possono trovare molto facilmente costruendo il poligono convesso sull'istogramma.. L'analisi della concavità. dell'istogramma è un buon metodo per ridurre l'ammontare delle informazioni da elaborare per identificare dei buoni livelli di sogliatura. Dopo aver costruito l'istogramma dei livelli di grigio dell'immagine, viene calcolato il più piccolo poligono convesso che lo contiene. Se h(g) è la frequenza del livello di grigio g dell'immagine, e H(g) è l'altezza del poligono convesso nello stesso punto g dell'istogramma, la ricerca della concavità si riduce alla ricerca della maggiore differenza. H(g)-h(g).. A. Rosenfeld e P. De La Torre propongono inoltre una misura di bilanciamento dell'immagine per ridurre la possibilità di determinare concavità spurie, cioè dovute al rumore:.    ∑.

(7)   ∑

(8)   . 6.

(9) La funzione Ei si calcola per ogni livello di grigio i dell'immagine e risulta nulla quando si trova ai limiti dell'istogramma, massima quando i è sulla mediana; quindi verranno scartati i valori ottenuti dall'algoritmo in corrispondenza dei quali la precedente funzione assumerà un valore prossimo a 0.. Figura 2. La posizione della soglia ottima è in prossimità del picco più alto dell'istogramma..  Ricerca di picchi e valli Un modo estremamente semplice per trovare una soglia è quello di trovare ciascun picco (massimi locali) e la rispettiva valle (minimo). Questo metodo sembra semplice, ma ci sono due problemi:. 1. L'istogramma può essere rumoroso, con molti minimi e massimi locali. L'istogramma deve essere prima smussato. 2. La somma di due distribuzioni separate, ciascuna con il loro proprio picco, non può produrre una distribuzione con due picchi distinti..  Metodo dell' errore minimo È spesso realistico pensare che i livelli di grigio dell’oggetto e dello sfondo dell'immagine siano distribuiti in modo Normale, ogni livello con una propria media. e. una. deviazione. standard.. 7.

(10) In questo caso le due distribuzioni avranno una parte sovrapposta, zona in cui la scelta della soglia presenterà un errore di classificazione.. L'idea è di trasformare la ricerca della soglia ottima in una ricerca dell'errore minimo.   . 1.  √2.  µ    .  . 1.  √2.  µ    .  è la Funzione di densità di probabilità (PDF), e per una certa soglia T si. ottiene il minimo errore di classificazione. Risolvendo la seguente equazione si può ricavare la soglia:. 8.

(11) . 1.   √2.  µ !     !. . . 1.   √2.  µ!    !. . .  $ µ1   $ µ2  ln    ln   $  ln    ln   –  2  2   .  $ μ   $ μ  2&'    2&'   $ ( *  2&'    2&'   $ ( *     . .   $ µ  $2&'    2&'    ( *   .   $ µ   $2&'    2&'    ( *   . Kittler e Illingworth hanno fornito una soluzione alla suddetta equazione. Il valore ottimo di T è quello che va a minimizzare la funzione J(T).. +  P1T .$2ln    2&'    (.    $ µ   $ µ  * /  2 .$2&'    2&'    ( * /     . +  1  20  &'      &'   1 $ 20P1T ln P1T  P2T ln P2T 1. dove T è il valore assunto dalla soglia. Si definisce la probabilità, la media e la deviazione standard associata alle due gaussiane.. t. P1(t) =. h(i) i=0 l. P2(t) =. h(i). 9.

(12) i=t+1 t. µ 1(t) = [. h(i)i ]/ P1(t) i=0 l. µ 2(t) = [. h(i)i ]/ P2(t) i=t+1. t. 1. 2. (t) = [. {i-µ 1(t)}2 h(i) ]/ P1(t) i=0. l. 2. 2. (t) = [. {i-µ 2(t)}2 h(i) ]/ P2(t) i=t+1. ..  Metodo dell'entropia. J.N. Kapur, P.K. Sahoo e A.K.C. Wong propongono una soluzione per il calcolo della soglia ottima basata sulla determinazione dell'entropia dell'immagine. È un buon metodo nel caso in cui l'oggetto non sia di facile distinzione dallo sfondo, cioè l'istogramma dei grigi non sia perfettamente bimodale.. Si considerano due. distribuzioni di probabilità:. A:. p0/ Pt, p1/ Pt, p2/Pt, ..., pt/Pt. B:. pt+1/(1-Pt), pt+2/(1-Pt), pt+3/(1-Pt), ..., pl-1/(1-Pt). dove pi = ni/n è il rapporto tra il numero di pixel con livello di grigio i e il numero totale di pixel dell'immagine, e t è il valore assunto dalla soglia. Se definiamo le relative entropie associate alle due distribuzioni:. 10.

(13) t. HA(t)= -. pi/ P t ln (pi/ P t) i=0. l-1. HB(t)= -. pi/(1-Pt) ln (pi/(1-Pt)) i=t+1. la soglia ottimale t è il valore che massimizza la funzione Ø(t) = HA(t) + HB(t)..  Metodo del momento. La soglia viene determinata in modo da mantenere invariato il momento ottenuto dai livelli di grigio dei pixel dell'immagine di partenza ed il momento ottenuto dall'immagine sogliata (o binarizzata). In base ai calcoli di W. Tsai, la soglia T può essere ottenuta dal percentile p0, dove: p0=(z-m1) /(c12-4c0)1/2 con momento i-esimo l-1. gi h(g). mi = 1/n g=0. c0=(m1m3-m22)/(m2-m12) c1=(m1m2-m3)/(m2-m12) z = 1/2[(c12-4c0)1/2-c1].  Metodo di Otsu. 11.

(14) Per applicazioni dove non si ha una conoscenza dell’immagine, la soglia si calcola valutando i parametri statistici della distribuzione dei livelli di grigio dei pixel dell’oggetto e dello sfondo. Dall’istogramma dell’immagine H(l) si deriva l’istogramma normalizzato dato da:. p (l ) =. H (l ) 255. ∑ H (i) i =0. Figura 3. Figura 4. S è il livello di grigio corrispondente alla minima probabilità p(s) tra i picchi delle due distribuzioni normali. Ogni valore di soglia S determina due varianze, vale a dire una per i livelli di grigio minori di S ed una per quelli maggiore di S. La definizione di soglia ottimale introdotta da Otsu è quella per la quale viene minimizzata la somma pesata delle varianze tra i due gruppi. 12.

(15) I pesi sono le probabilità dei rispettivi gruppi. Ciascun gruppo dovrebbe avere una distribuzione unimodale a forma di campana (approssimabile con una Gaussiana), una distribuita attorno ad una media bassa ed una attorno ad una media più alta. Questo implica che vi è una relazione di omogeneità dei livelli di grigio appartenenti ad ogni raggruppamento. Una misura di omogeneità è caratterizzata dalla varianza. Un raggruppamento con alta omogeneità avrà una varianza bassa e viceversa. La soglia ottimale viene scelta in modo da avere una varianza tra gruppi minima e nello stesso tempo di massimizzare la differenza tra le medie dei due gruppi. In corrispondenza di una soglia S, la probabilità che un pixel appartenga al primo gruppo oppure al secondo è data da:. S. q1 ( S ) = ∑ p (l ) l =0. S. µ1 ( S ) = ∑ l ⋅ p (l ) / q1 ( S ) l =0. q2 ( S ) =. 255. ∑ p(l ) = 1 − q ( S ) 1. l = S +1. µ2 (S ) =. 255. ∑ l ⋅ p(l ) / q (S ) 2. l = S +1. Mentre le varianze nelle due classi sono date da:. S. σ 12 ( S ) = ∑ (l − µ1 ( S )) 2 p(l ) / q1 ( S ) l =0. σ 22 =. 255. ∑ (l − µ ( S )). l = S +1. 2. 2. p (l ) / q2 ( S ). σ W2 ( S ) = q1 ( S )σ 12 ( S ) + q2 ( S )σ 22 ( S ). La migliore soglia può essere ottenuta mediante un metodo di ricerca sequenziale, attraverso tutti i possibili valori di S che vanno a minimizzare una certa funzione. Vi è una relazione tra la varianza σ B2 ( S ) tra le classi. e la varianza interna alle classi. σw2. 13.

(16) Riscrivendo 255. 255. µ = ∑ l ⋅ p(l ). σ = ∑ (l − µ ) p (l ) 2. 2. l =0. l =0. S. σ 2 = ∑ [l − µ1 ( S ) + µ1 ( S ) − µ ]2 p(l ) + l =0 S. {. 255. ∑ [l − µ (S ) + µ ( S ) − µ ]. l = S +1. 2. 2. 2. p (l ). }. = ∑ [l − µ1 ( S )]2 + 2[l − µ1 ( S )][µ1 ( S ) − µ ] + [ µ1 ( S ) − µ ]2 p (l ) l =0. +. ∑ {[l − µ 255. l = S +1. 2. }. ( S )]2 + 2[l − µ 2 ( S )][ µ 2 ( S ) − µ ] + [ µ 2 ( S ) − µ ]2 p (l ). Considerando che. 255. S. ∑ [l − µ ( S )][µ (S ) − µ ] p(l ) = 0 1. l =0. S. σ 2 = ∑ [l − µ1 ( S )]2 p(l ) + [ µ1 ( S ) − µ ]2 q1 ( S ) + l =0. [. ∑ [l − µ. 1. l =S +1. 255. ∑ [l − µ ( S )]. 2. l = S +1. 2. 2. ( S )][µ 2 ( S ) − µ ] p (l ) = 0. p (l ) + [ µ 2 ( S ) − µ ]2 q2 ( S ). ] {. = q1 ( S )σ 12 ( S ) + q2 ( S )σ 22 ( S ) + q1 ( S )[µ1 ( S ) − µ ]2 + q2 ( S )[ µ 2 ( S ) − µ ]2. σ W2 ( S ). }. σ B2 ( S ). µ = q1 ( S ) µ1 ( S ) + q2 ( S ) µ 2 ( S ). σ 2 = σ W2 ( S ) + q1 ( S )[1 − q1 ( S )][µ1 ( S ) − µ 2 ( S )]2. 14.

(17) σ B2 ( S ) = q1 ( S )[1 − q1 ( S )][µ1 ( S ) − µ 2 ( S )]2. Mentre σ B ( S ) misura la separazione tra le due classi di livelli di grigio, 2. σ W2 ( S ) ne. misura la compattezza. L'obiettivo del metodo è quello di individuare il valore della soglia S per cui si massimizzano la separazione tra le classi e la compattezza di ciascuna classe. Ciò equivale a massimizzare il rapporto:. 2.3 Tecniche di segmentazione per Clustering La maggior parte degli algoritmi di clustering noti tendono a minimizzare una funzione obiettivo, che è generalmente definita come la somma pesata delle distanze degli elementi di ciascun gruppo che si vuole formare da un elemento prototipale che riassume le proprietà degli elementi del gruppo stesso. In genere viene impostato come un problema di minimizzazione, un algoritmo di clustering assume una forma iterativa dove prototipi e funzioni di appartenenza vengono computate in successione, modificandole secondo criteri che guidino e garantiscano l’ottimizzazione. La segmentazione di un'immagine mediante un algoritmo di clusterizzazione può essere fatta in diversi modi. Un pixel dell’immagine viene definito dalla terna (i, j, c) dove i è il numero del pixel lungo l'asse verticale y, j è il numero del pixel lungo l'asse orizzontale x e c è il colore del pixel, ovvero uno dei possibili livelli di grigio. Gli algoritmi di clustering sono metodi efficaci di classificazione dei dati. Un pixel è un punto in uno spazio K- dimensionale ed i vari punti possono essere raggruppati. 15.

(18) tra loro in cluster, ognuno con una certa caratteristica. Il risultato dell’operazione di clustering dipende dalla metrica utilizzata per misurare le distanze nello spazio. Il Clustering permette di selezionare e raggruppare elementi omogenei in un insieme di dati. L’approccio può essere di tipo non supervisionato poiché l’algoritmo di clustering riesce a dividere i dati in una serie di insiemi avendo come unico input il numero di insiemi da trovare.. Figura 5. Punti tra loro “vicini” secondo la distanza scelta sono assegnati allo stesso insieme. Gli algoritmi di clustering si possono classificare in quattro classi:. 1. Clustering esclusivo: un dato deve appartenere ad uno ed un solo cluster 2. Clustering non esclusivo (fuzzy clustering): un dato può appartenere a più cluster con diversi livelli di appartenenza. La somma dei livelli di appartenenza su tutti i possibili cluster per un dato dovrà essere 1. 3. Clustering gerarchico: raggruppa i dati in insiemi tra loro vicini, partendo dal singolo dato ed andando via via seguendo un albero gerarchico. 4. Clustering probabilistico. 2.3.1 Algoritmo K-means. 16.

(19) L’algoritmo K-means è uno dei primi algoritmi ad essere realizzato per la classificazione di dati. Vanno definiti un numero K di cluster in cui dividere i dati e in modo casuale ma che siano abbastanza lontani tra loro, si definiscono k centroidi. Per ogni dato si calcola la distanza dai centroidi di partenza e il dato viene inserito nel cluster con il centroide più vicino. Si calcolano k nuovi centroidi calcolati come centro di massa dei cluster ottenuti al passo precedente. Si ricalcola la distanza di tutti i dati dai nuovi centroidi e si va avanti così in modo iterativo. Ad un certo punto i centroidi si stabilizzano senza cambiare più di posizione. L’algoritmo converge e restituisce il clustering desiderato. Esiste una funzione obiettivo da minimizzare:. 7. 6. +  2 234 

(20) $ 5

(21) 3

(22)  . Dove 34 

(23) $ 5

(24) 3. . . è la distanza tra un dato x e un centroide c.. La funzione obiettivo prende in considerazione la distanza degli n dati dai centri dei rispettivi cluster. L’algoritmo k-means converge sempre, ma non sempre la configurazione di convergenza è quella che permette di trovare un minimo assoluto della funzione obiettivo. Lo stato di convergenza dell’algoritmo dipende dalla definizione iniziale dei centroidi di partenza. E’ possibile ripetere il procedimento più volte e prendere tra le varie configurazioni stabili quella dove la funzione obiettivo è minima.. Si consideri un vettore ad n componenti 8  94 , 4 , 4; , … … . , 46 >. E’ possibile. raggruppare gli elementi del vettore in k cluster. Sia ? la media degli elementi nel cluster i. Affermiamo che x è nel cluster i se || x - m || è il minimo tra le k distanze. i. 17.

(25) Figura 6: Esempio di come m e m si modificano durante il processo iterativo 1. 2. Serve un algoritmo per inizializzare le medie. Un possibile metodo è far coincidere le k medie con k campioni scelti a caso nei dati. Il risultato finale dipende dalle medie iniziali, quindi si può far girare più volte l’algoritmo in dipendenza di condizioni iniziali diverse. Può accadere che il cluster relativo ad m si svuoti, per i. cui m non può essere aggiornato. Il risultato dipende dalla metrica. A volte è i. opportuno normalizzare le variabili rispetto alla deviazione standard (variabili standardizzate). Il risultato dipende dal numero k di cluster che viene definito in partenza. Quest’ultimo problema è molto grave, perché è difficile stimare il numero di cluster da utilizzare. Uno stesso algoritmo applicato agli stessi dati ma con un numero diverso di cluster produce un risultato diverso ed è difficile capire quale dei due sia preferibile. In generale non esiste un metodo per la stima del numero ottimo di cluster. Si possono fare diversi tentativi con k diversi e si stima la soluzione migliore con una qualche metrica.. 2.3.2 Algoritmo Fuzzy C-means La logica fuzzy è un'estensione della logica booleana, basata sul grado di verità di ciascuna proposizione e si basa sulla teoria degli insiemi sfocati, estensione della 18.

(26) teoria classica degli insiemi. Per gli insiemi Fuzzy non valgono i principi aristotelici di non contraddizione e del terzo escluso. Il principio di non contraddizione stabilisce che, dati due insiemi A e !A (A negato) ogni elemento che appartenente all'insieme A non può contemporaneamente appartenere a !A. Per il principio del terzo escluso, se un qualunque elemento non appartiene all'insieme A, esso necessariamente deve appartenere al suo complemento !A. L'unione di un insieme A e del suo complemento !A costituisce il dominio completo di definizione degli elementi di A. La logica Fuzzy rifiuta questo assunto. Il concetto di grado di verità o valore di appartenenza non è così scontato, ma una proprietà può assumere oltre che i valori vero (=1) o falso (=0) anche valori intermedi. Il concetto di appartenenza fuzzy non ha nulla a che vedere con il concetto di probabilità. Nella probabilità una affermazione o è vera o è falsa con una certa probabilità, mentre nella logica fuzzy è insieme vera e falsa.. L’algoritmo fuzzy C-means (FCM) ha la particolarità di consentire ad un dato di appartenere a più cluster contemporaneamente. Il metodo cerca minimizzazione la funzione obiettivo:. B. +@  2 2  . A.

(27) . μ

(28). @. 34 $ 5

(29) 3. . 1C?D∞. dove m è un numero strettamente maggiore di 1, u è il grado di appartenenza di x ij. i. rispetto al cluster j, x è il i-esimo di N dati d-dimensionali, c è il centro di. j. dimensionale del cluster, e ||*|| è una distanza. M è un parametro detto fuzzyness dell’algoritmo. Di solito si pone m=2. Il partizionamento fuzzy è ottenuto attraverso una ottimizzazione iterativa della funzione obiettivo, attraverso l’aggiornamento della funzione di appartenenza u e dei centri dei cluster c : ij. j. 19.

(30) μFG . 1.  L. 3xF $ cG 3 ∑MK ( * JxF $ cK J cG . L ∑N F μFG x F L ∑N F μFG. Il processo iterativo si ferma quando:. maxFG QRμFG KS $ μFG K R D εU dove ε definisce il criterio di convergenza. La procedura descritta converge ad un. minimo locale della funzione obiettivo J . Quindi , i passi dell’algoritmo sono i m. seguenti: 1. Inizializzare la matrice U = [μFG ]. 2. Per ogni step K- esimo calcolare il vettore dei centroidi C = [cG ]. cG . L ∑N F μFG x F L ∑N F μFG. 3. Aggiornare la matrice U. μFG . 1.  L. 3xF $ cG 3 ∑MK ( * JxF $ cK J. 20.

(31) 4. Se RμFG KS $ μFG K R D ε allora fermati altrimenti ritorna al passo 2. I dati sono associati a ciascun cluster attraverso il valore di una funzione di appartenenza che può assumere tutti i valori tra 0 e 1 in modo continuo. Nell’approccio classico la funzione di appartenenza è invece di tipo dicotomico. Nell’approccio k-means ogni dato viene associato ad uno ed un solo centro e la funzione di appartenenza è di tipo binario (1 o 0). Nell’approccio FCM, invece, ogni dato non deve appartenere necessariamente ad un solo cluster. Un dato può appartenente ad entrambi i cluster con una percentuale diversa. Introducendo una matrice U che rappresenti la:. Figura 7: matrice di appartenenza approccio classico (a) e per quello fuzzy (b). Le dimensioni della matrice dipendono dal numero di dati (righe) e dal numero di cluster (colonne).. 2.3.2 Algoritmo EM (Expectation Maximization) Nel clustering basato sui modelli la distribuzione dei dati sui singoli cluster viene modellata attraverso funzioni probabilistiche note, tra le quali la distribuzione 21.

(32) gaussiana. Si può tener conto, con tale approccio, di eventuali ipotesi sulla generazione dei dati e sul rumore che li accompagna. Ogni cluster è rappresentato da una distribuzione di tipo parametrico (distribuzioni Gaussiana o di Poisson). L’insieme dei dati viene modellato come una combinazione di queste distribuzioni, dette distribuzioni componenti. Uno dei metodi, quello più usato, utilizza combinazioni di gaussiane (mixture of Gaussian). I cluster sono modellati come gaussiane centrate sui centroidi dei cluster stessi.. Figura 8 I cerchi in grigio rappresentano la varianza delle distribuzioni. Supponiamo che ci siano k cluster. Un punto del piano avrà una certa probabilità di essere stato generato da ognuno dei k cluster, probabilità che dipende dai parametri della gaussiana che descrive il cluster stesso. In particolare, una gaussiana con un centro “lontano” dal punto o con una varianza piccola avrà basse probabilità di aver generato il punto, e viceversa. Se si conoscono i parametri che descrivono le gaussiane, si può utilizzare come distanza nell’algoritmo di clustering la probabilità che un certo dato sia stato generato da una certa gaussiana. 22.

(33) V4 , 5

(34)   4 \X

(35)   4 \?

(36) , 

(37) Quando però i parametri che caratterizzano le gaussiane non sono noti la situazione si complica, poiché l’algoritmo di clustering dovrà stimare sia i cluster che i parametri delle distribuzioni componenti. Si cerca di trovare i parametri delle gaussiane che hanno la maggiore probabilità di aver generato i dati osservati. Il procedimento da utilizzare, detto EM (expectation maximization) è di tipo iterativo e può essere utilizzato per diverse distribuzioni di probabilità. Il problema si può formalizzare come segue: •. k classi ( ω , ω , ω ) ognuna con una probabilità a priori P(ω ), una media 1. 2. k. Mi e una SD σ . i. •. Un insieme di dati x ,…,x composto da una serie di realizzazioni di un 1. n. processo. •. Sia x una particolare realizzazione. h. Il numero di classi k è noto mentre gli altri parametri devono essere determinati. Se ciascuna classe obbedisce ad una legge di probabilità gaussiana si può definire per un certo insieme di dati x la probabilità P(X \ ωi). h. Si ha quindi che: 7. 4Z  2 4Z \[ [  . La probabilità di avere i dati x nel loro complesso sarà allora: 6. 4\\,   ] 4Z  . 23.

(38) I parametri delle gaussiane e le probabilità a priori (pesi delle gaussiane) definiscono le probabilità a posteriori di osservare i dati. Si tratta di scegliere il vettore delle medie M e delle SD in modo da massimizzare la funzione. In generale il problema è estremamente complesso, ma può essere affrontato tramite l’algoritmo EM. Si può supporre per semplicità che e note..     7  ^, cioè che le SD siano uguali. Si sceglie un vettore di partenza L(0) che definisce i valori iniziali per le medie e le probabilità a priori.. _  \ … … , \7 ,  … … . 7 ). L’algoritmo EM in modo iterativo aggiorna il vettore L(t) avvicinandosi sempre di più alla stima ottima. Se per un certo x si conosce la probabilità che x appartiene alla classe i, P(ωi |x ), h. h. h. allora si può stimare M . Infatti: i. ∑6Z  [ \4Z 4Z \  6 ∑Z [ \4Z per calcolare P([ |x ) si può che questa probabilità dipende da L(t). Quindi: h. [ \4Z  [ \4Z , _`   4Z \[ , _` [ \_` \4Z \_` Il termine 4Z \[ , _`  rappresenta la probabilità di avere x da una certa h. gaussiana definita da L . (t). 24.

(39) Il termine [ \_`  è la probabilità a priori della gaussiana.. Il termine 4Z \_` è la somma delle probabilità di x su tutte le k gaussiane.. La cosa importante è che [ \4Z può essere calcolato da x e L . h. (t). Quindi il primo passo dell’algoritmo (E- Expectation) consiste nel valutare. [ \4Z con la formula precedente e quindi gli M . i. A questo punto il passo 2 (M- Maximization) calcola il nuovo valore di L L(t+1). Le probabilità a priori al passo t+1 sono:. `S . 6 1 2 [ \4Z '  . che si può calcolare con i dati del passo E. Insieme alle M già calcolate si costruisce il vettore L che poi viene utilizzato in un nuovo passo E. Si può dimostrare che una iterazione dell’algoritmo EM non riduce la verosimiglianza dei dati, quindi l’algoritmo EM converge ad un massimo locale della verosimiglianza. Nel caso della gaussian mixture, l’algoritmo EM è abbastanza semplice ed è composto dai due passi seguenti:. 1. E - step (expectation). Si calcolano le probabilità 

(40)  a  \4

(41)  che il dato x sia stato generato dalla j. componente i. Per la regola di Bayes si ha:. 

(42)  b4

(43) \a  a  . Il primo termine è ricavabile dalla formula della gaussiana, essendo il valore della gaussiana stessa nel punto. Il secondo termine è la probabilità della componente i,. 25.

(44) che considereremo come peso w della gaussiana. Questo secondo termine descrive quanto pesa il cluster nella generazione dei dati.. 2. M - step (maximization) Consiste nell’aggiornare i parametri delle gaussiane in base al passo precedente. Si definisce:.   2 

(45)

(46). Il passo M consiste nelle operazioni:. µ c.  c. 1 2 

(47) 4

(48) 

(49). 1 2 

(50) 4 4

(51) 

(52). [ c . Quindi dopo aver definito le nuove gaussiane si può ritornare al passo E. L’algoritmo si ferma quando i valori della media, della varianza e dei pesi si stabilizzano. I parametri trovati descrivono i cluster. L’algoritmo EM aumenta il grado di verosimiglianza della combinazione di gaussiane ad ogni iterazione e converge sotto certe condizioni ad un massimo locale della verosimiglianza della distribuzione di gaussiane. Un problema è che due gaussiane possono convergere alla stessa gaussiana, con la scomparsa di un cluster, e che una gaussiana può assumere una varianza infinita e che quindi si trasforma in un valore costante. Si possono variare le condizioni iniziali partendo da una stima dei parametri in modo da ottimizzare il funzionamento dell’algoritmo EM.. 26.

(53) 2.3 Valutazione dell’efficacia diagnostica E’ molto importante valutare la qualità di un’immagine medica e misurare l’efficacia dell’immagine nel processo diagnostico. L’operatore medico che utilizza l’immagine estrae degli indici diagnostici. Tali indici possono essere qualitativi o quantitativi. Gli indici quantitativi corrispondono a misure vere e proprie. Le misure qualitative sono espresse in una qualche scala diagnostica (esempio: assenza di infarto, infarto lieve, infarto grave) e possono essere mappate su una serie di numeri naturali. Si vuole valutare la qualità dell’immagine comparando il risultato ottenuto con il risultato corretto, ottenuto attraverso un metodica “gold standard”. A volte si vuol valutare se l’immagine consente ad operatori diversi (variabilità inter-osservatore) o allo stesso operatore in sessioni successive (variabilità intra-osservatore) di ottenere lo stesso risultato. L’efficacia diagnostica della coppia operatore-immagine è un indice che misura quanto sia buona l’immagine nell’individuazione di una certa patologia. Tutte le misure si basano sull’analisi statistica.. 2.3.1 Variabilità inter-osservatore e variabilità intra-osservatore Per valutare la variabilità inter-osservatore si prendono K immagini e si chiede viene ad un osservatore di estrarre da ciascuna immagine un indice. La stessa cosa viene chiesta ad un secondo osservatore. Si ottengono alla fine una prima serie di indici x1,x2,….,xK ed una seconda serie y1,y2,….,yK, che in teoria dovrebbero essere uguali a coppie (x1=y1, x2=y2,…), ma in realtà, saranno uguali a meno di un certo “rumore” della misura. Si può valutare l’errore percentuale medio:. f. 1 2J4 $ e J  2 d 4  e  . 27.

(54) Queste misure forniscono l’errore percentuale atteso che un osservatore commette quando esamina due volte la stessa immagine, e quindi fornisce una misura della qualità dell’immagine stessa. Inoltre l’errore medio non tiene conto della differenza tra errore casuale ed errore sistematico. Per errore sistematico intendiamo il fatto che uno dei due operatori sottostimi o sovrastimi sempre l’indice estratto ed è meno grave dell’errore casuale, in quanto mantiene l’ordine degli indici estratti. E’ preferibile valutare la variabilità intra-osservatore attraverso considerazioni di tipo statistico.. 2.3.2 Metodo dei minimi quadrati Si suppone una relazione lineare tra le osservazioni X =(x1,x2,…,xK) e Y =(y1,y2,…,yK).. e  g  h4  i La variabile dipendente y si ricava dalla variabile indipendente x e da una quantità casuale j che rappresenta il rumore della misura.. L’indice ‘a’ tiene conto del fatto che un operatore aggiunge una certa quantità. rispetto all’altro, il fattore ‘b’ il fatto che un operatore sovrastima l’indice in una certa misura. Il problema della regressione si traduce nella determinazione di a e b in modo da esprimere al ‘meglio’ la relazione funzionale tra Y e X. Supponiamo che il rumore nelle varie misure sia sempre lo stesso, sia a media nulla, incorrelato e con varianza costante.. i  0. lgmi nop`q6`r srt ou6 . 28.

(55) 5vli ; i

(56)   0. x y. Il processo casuale che causa l’errore nella misura è sempre lo stesso, non produce errori sistematici (modellati da a e b) ed è indipendente dalle altre misure. Date queste ipotesi si calcolano i coefficienti a e b secondo il metodo dei minimi quadrati B. B.  .  . z  zg, h  2 i  2e $ g $ h4  Le stime si ottengono risolvendo:. {g, h|  arg ?'q, zg, h Le soluzioni si ricavano uguagliando a zero le derivate parziali di S rispetto ad a e b:. B. €z  $2 2e $ g $ h4  0 €g  . B. €z  $2 2e $ g $ h4 4  0 €h  . Dove N denota il numero delle osservazioni; segue:. 29.

(57) B. B.  .  . g  h 2 4  2 e. B. B. B.  .  .  . g 2 4  h 2 4   2 4 e da cui si ricavano le soluzioni:. h. z‚ƒ  ∑ 4 e $ ∑ 4 ∑ e 5vl 4, e    z‚‚ lgm4  ∑ 4 $ ∑ 4 . ∑ e ∑ 4  $ ∑ 4 ∑ e 4  e„ – h 4 g  ∑ 4 $ ∑ 4 . Infatti, la varianza osservata è data da:. z‚‚. B. 1  lgm 4  24 $ 4    . Possiamo scrivere:. 30.

(58) z‚‚. f. f.  .  . f 1  † 2 4  2 4  $ 2 2 4 4 ‡    f. f.  .  . . f. . 1 1 2  ˆ2 4  †2 4 ‡ $ †2 4 ‡ ‰    f. f. 1    2 4 $ 2 4    .  .  . e la covarianza osservata da:. z‚ƒ. B. 1  5vl4, e  24 $ 4 e $ e„   . dove 4 , e„ denotano le medie osservate, si possono scrivere i parametri nella forma:. h  z‚ƒ /z‚‚ g  e„ $ h 4 . E’ possibile estendere il metodo a più variabili (caso multivariato). Il metodo dei minimi quadrati permette di ricavare una retta che va ad interpolare. uno scatter di punti minimizzando la somma dei quadrati delle distanze i dei punti. stessi dalla retta;. 31.

(59) Figura 9 Metodo minimi quadrati. Se le misure si trovano vicine alla retta di regressione vuol dire i due osservatori forniscono risultati simili. Oltre alla rappresentazione grafica è utile avere un indice numerico della bontà del fitting. L'R2, o coefficiente di determinazione, è una misura della bontà dell'adattamento della regressione lineare stimata ai dati osservati. Si definisce una funzione M (x) = x − x 0 che trasforma i vettori in scarti dalla propria media. In forma matriciale, l’operatore Mo si esprime come. \  ‹ $. 1 Œ . dove U è una matrice unitaria NxN. La matrice Mo è simmetrica e idempotente. (Mo x Mo = Mo). Dunque la somma degli scarti al quadrato delle e da e„ è semplicemente e \ e. L'R2 è definito come:. 32.

(60) ∑e“ $ e„  ‘ 8\ 8’ e“  \ e“ Ž     e  \ e e \ e ∑e $ e„  . Spesso e volentieri le quantità sopra sono denominate ESS (Explained Sum of Squares), e TSS ( dall'inglese Total Sum of Squares). Osservando che, per semplice sostituzione:. e ′ \ e  ‘′ 8′\ 8’  î′\ î  ‘′ 8′\ 8’  î′î dove l'ultima uguaglianza segue dal fatto che la media dei residui e zero, si ha:. Ž  1 $. î′î e ′ \ e. Ž  sarà un numero compreso tra 0 e 1 e la quantità î′î è indicata con la sigla. RSS (Residual Sum of Squares), o SSR (Sum of Squared Residuals) e misura la. frazione della variabilità delle osservazioni e . Ž  non misura se effettivamente sussista una relazione (di qualsiasi tipo) tra le e e i regressori, ma soltanto fino a. che punto un modello lineare consente di approssimare la realtà dei dati osservati; un modello non lineare, ad esempio, potrebbe meglio rappresentare la relazione tra variabile dipendente e regressori.. 33.

(61) Figura 10 Modello lineare e non lineare. I grafici in Figura (10) illustrano questo problema; in entrambi i casi, la stima di un modello lineare tipo y=a+bx porterebbe ad un Ž  molto basso, o addirittura nullo;. nel caso del grafico a sinistra, tuttavia, sarebbe arduo escludere che sussista una qualche relazione (probabilmente di tipo quadratico) tra y e il repressore x. Nella valutazione delle metodologie cliniche troveremo spesso un valore r o r2 che indica la qualità della relazione lineare tra due serie di dati, tanto migliore tanto più vicino all’unità. La retta di regressione può anche essere usata per stimare la dipendenza tra indici diversi che siano legati da una relazione di tipo lineare.. 2.3.2 Rappresentazione grafica di Bland e Altman Una rappresentazione grafica molto utilizzata è quella di Bland-Altman plot (Figura 11). In ordinate si ha la media delle due misure, ed in ascisse la differenza. La media delle differenze è riportata come una riga continua che permette di stimare se una delle due metodiche sottostima o sovrastima l’indice rispetto all’altra. In Figura (11) si può notare che la metodica automatica restituisce una stima inferiore rispetto a quella manuale. Le due righe indicate con 1.96SD e -1.96SD sono ottenute calcolando la deviazione standard dei dati. Se i punti del grafico sono all’interno delle due linee si considera che le due metodiche forniscano risultati congruenti, mentre i punti fuori dalle due linee sono casi in cui i due metodi non sono congruenti tra loro. 34.

(62) Figura 11 Rappresentazione grafica di Bland-Altman. La rappresentazione grafica di Bland-Altman permette il confronto tra misure della stessa natura.. 2.3.3 Correlazione fra due variabili Un altro approccio usa come metrica la di correlazione tra gli indici estratti. Il grafico in figura (12) esprime gli indici estratti in due modi diversi in funzione dell’immagine utilizzata.. 35.

(63) Figura 12 : Indici in funzione dell’immagine. Gli andamenti degli indici sono in qualche modo correlati, si vuole quindi valutare quantitativamente questa correlazione. L’analisi della correlazione fra due variabili conduce a misurare la forza, o l’intensità, del legame fra le due variabili. Si misura mediante l’indice di BravaisPearson detto “Indice di correlazione lineare”. m4 , 4

(64)  . dove. ∑f —– 4

(65) • $ 4—˜ • 4• $ 4. ™ ∑f —–  ™∑f —˜  • 4• $ 4 • 4

(66) • $ 4 . . indica il valor medio.. r varia tra -1 e 1. Le condizioni r = -1 e r = 1 corrispondono ad una relazione lineare tra i dati, mentre r = 0 indica una assenza di dipendenza tra le misure.. 36.

(67) Come si osserva dalla formula di r, la misura di correlazione ha senso se le variabili hanno la stessa varianza. In caso contrario le variabili possono essere standardizzate, cioè ricondotte a variabili covarianza unitaria, o si può applicare la cosiddetta correlazione di Spearman. L’approccio di Spearman consiste nell’ordinare le variabili e assegnare ad ogni variabile un coefficiente (rank) in base alla posizione nell’ordinamento. I coefficienti ottenuti vengono utilizzati per il calcolo di r. L’altro punto da evidenziare è che la correlazione lineare ha senso solo se la relazione tra i dati è di tipo lineare. Se non evi è relazione lineare bisogna utilizzare altri tipi di metrica. Tutti i metodi di analisi descritti partono dall’ipotesi di avere una distribuzione di tipo normale sui dati. Se non fosse così bisogna utilizzare altri tipi di approccio statistico con ipotesi meno stringenti.. 2.3.4 Test di significatività L’ipotesi zero (o ipotesi nulla) sta alla base di tutti i test statistici di significatività. Quando si va ad effettuare il confronto fra due o più gruppi di dati, l'ipotesi zero prevede sempre che non esista alcuna differenza tra i gruppi riguardo al parametro considerato. In altre parole, secondo l'ipotesi zero i gruppi sono fra loro uguali e le differenze osservate vanno attribuite al caso. L'ipotesi zero può essere accettata o respinta applicando un test statistico di significatività. Il risultato del test va confrontato con un valore critico. Se il risultato del test di significatività supera il valore critico, allora la differenza fra i gruppi viene dichiarata statisticamente significativa e, quindi, l'ipotesi zero viene respinta. In caso contrario l'ipotesi zero viene accettata. Si utilizza il parametro p che esprime la probabilità che l’ipotesi zero sia falsa. Se p è molto basso (valori tipici sono p<0.001, p < 0.005) vuol dire che i due gruppi sono equivalenti. Nel caso della misura della variabilità inter-osservatore, l’ipotesi zero ci dice che la differenza tra gli indici misurati dai due osservatori è dovuta al caso. Si ricava un p basso.. 37.

(68) I risultati di un test statistico non hanno un valore di assoluta e matematica certezza, ma soltanto di probabilità. La decisione di respingere l'ipotesi zero (presa sulla base del test statistico) è probabilmente giusta, ma potrebbe essere errata. La misura di questo rischio di cadere in errore si chiama livello di significatività del test. Il livello di significatività di una prova può essere scelto a piacere dallo sperimentatore. Si sceglie un livello di probabilità in genere di 0.05 (5%) o di 0.01 (1%). Questa probabilità (detta valore p) rappresenta una stima quantitativa della probabilità che le differenze osservate siano dovute al caso. Il valore p è "la probabilità di ottenere un risultato altrettanto estremo o più estremo di quello osservato se la diversità è interamente dovuta alla sola variabilità campionaria, assumendo quindi che l'ipotesi iniziale nulla sia vera". Il livello di significatività 5% viene adottato molto frequentemente in quanto si ritiene che il rapporto 1/20 (cioè 0.05) sia sufficientemente piccolo da poter concludere che sia piuttosto improbabile che la differenza osservata sia dovuta al semplice caso. In effetti, la differenza potrebbe essere dovuta al caso, e lo sarà 1 volta su 20. Tuttavia, questo evento è improbabile. Ovviamente, se si vuole escludere con maggiore probabilità l'effetto del caso, si adotterà un livello di significatività inferiore (es. 1%). Quindi:. • se l'ipotesi zero viene respinta al livello di significatività 5%, allora abbiamo il 5% di probabilità di respingere un'ipotesi zero che - in effetti - era vera;. • se l'ipotesi zero viene respinta al livello di significatività 1%, allora abbiamo l'1% di probabilità di respingere un'ipotesi zero che - in effetti - era vera;. • più in generale, se l'ipotesi zero viene respinta al livello di significatività n %, allora abbiamo n % di probabilità di respingere un'ipotesi zero che - in effetti - era vera.. Esistono numerosi test statistici in grado di determinare con un certo grado di probabilità l'esistenza (o l'assenza) di differenze significative nei dati in esame o di accettare o rigettare una ipotesi zero.. 38.

(69) 2.3.5 Misura dell’efficacia diagnostica La validità di un’immagine biomedica può anche essere valutata in base all’efficacia nell’identificare una malattia. Supponiamo K immagini, acquisite da K pazienti di cui un certo numero M presentano una certa malattia e un numero S sono invece sani. L’operatore esamina le varie immagini e fornisce un giudizio binario sulla presenza o meno della malattia. Vi sono quattro possibilità diverse:.  Veri Positivi (VP) Viene identificata la malattia ed il soggetto è effettivamente malato..  Veri negativi (VN) Non viene identificata la malattia ed il soggetto è sano..  Falsi Positivi (FP) Viene identificata la malattia ma il soggetto è sano..  Falsi Negativi (FN) Non viene identificata la malattia ma il soggetto è malato.. Figura 13. Nel caso ideale dovremmo avere VP = M, VN = S, FN = FP=0 Si definiscono:. 39.

(70) z'^h&šà . œ œ  . La sensibilità è la capacità dell’immagine di scoprire la patologia, quindi la percentuale di diagnosi giuste fatte sui soggetti malati.. z5ž5šà . œ œ  . La specificità è la capacita dell’immagine di fare una diagnosi corretta sui pazienti sani.. Ÿ55 mgš¡¡g . œ  œ œ  œ    . L’accuratezza descrive il numero di diagnosi corrette.. Un altro modo che permette di visualizzare queste misure sono le curve ROC. Una curva ROC è una curva che lega la sensitività alla specificità in base ad una soglia scelta per l’indice considerato.. 40.

(71) Figura 14: Curva ROC. Si consideri un vettore X = (x1,x2,…..xN) continuo che rappresenta una certa misura. Vi è poi un indice I = (i1,i2,….iN) binario, che indica se il soggetto ha o non ha una certa patologia. Si fa variare la soglia T e si definiscono patologici i soggetti con X<T e sani quelli con X>T. Si ottengono valori di sensitività e specificità che riportati nel grafico permettono di tracciare la curva ROC. C’è sempre un punto nell’origine che corrisponde ad una sensitività pari a zero e una specificità pari ad uno. Questo punto equivale ad un osservatore che risponde sempre NO. L’osservatore che risponde sempre SI corrisponde al punto in alto a destra. Tutti i punti della curva corrispondono ad un compromesso tra sensitività e specificità, il punto migliore in generale dipende dal quesito clinico e dal rapporto costo/beneficio. E’ possibile comunque calcolare il punto con la massima accuratezza. Una curva corrispondente alla diagonale indica che l’indice non dà informazioni sulla patologia. L’area della curva può essere usata come fattore di merito per la metodologia, e quindi in questo caso per l’immagine.. 41.

(72) 2.3.6 Analisi della varianza (ANOVA) E’ una tecnica statistica nata nell’ambito della ricerca sperimentale per valutare l’effetto di determinati fattori, variabili indipendenti , sulla variabile dipendente Il metodo ANOVA permette di investigare l’effetto della variazione dei fattori sulla variabilità dei risultati sperimentali del sistema sotto osservazione, determinando quale variazione è imputabile ai fattori stessi e quale ad effetti casuali. Di largo uso è l’ ANOVA ad una via, che permette di studiare l’effetto di un fattore (ovvero di una variabile in ingresso che influenza il sistema) su di un sistema. Lo studio avviene confrontando tra loro i vari “livelli” o “trattamenti” ai quali è possibile settare il fattore. Si possono quindi confrontare tra loro metodologie analitiche, laboratori, persone ecc. In questo modo è possibile capire se la differenza tra i risultati che si ottengono per ogni livello e per ogni prova è dovuta effettivamente alla diversità del metodo utilizzato di volta in volta, oppure alla variabilità intrinseca di ogni misurazione. Per effettuare un’analisi ANOVA ad una via devono essere rispettate due condizioni:. a). Le osservazioni per ogni trattamento devono essere distribuite normalmente. b). La varianza globale deve essere costante. 42.

(73)

Riferimenti

Documenti correlati

I employ regression discontinuity manipulation tests to identify authorities that manipulate estimated costs of contracts to be just below EU thresholds. 10-13% of examined

Quando si fu accertata che il treno aveva ripreso il suo cammino, tirò fuori da una busta una zampa di gallina e la porse a Wei Guo, mettendogliela davanti alla bocca: “Prendi!” ma

By inserting EPC procedures in an international agreement, the Member States have given legal value to commitments which were previously of a mere political

The INTERACT project interviewed 24 migration and integration experts across 19 countries in order to better understand the effects of current diaspora and integration

Questo mio lavoro vuole innanzitutto analizzare lo stato dell’arte in materia di flessibilità lavorativa secondo la pratica europea e mondialista della

Climate services for the assessment of climate change impacts and risks in coastal areas at the regional scale: the North Adriatic case study (Italy).. EGU

Statistics confirm a vigorous increase of economic activity that has an ample basis, driven by the strong manufacturing progression (56.8 points, +0.4 since January, highest

The need to intensify our understanding of the biology of invasions, on the one hand, and the potential that ecologists have to put their knowledge at the