7 M ETODI P REDITT
7.5 L E R ETI B AYESIANE NELLA P RATICA C LINICA
Enunciati i teoremi di base, è possibile costruire una Rete Bayesiana (Bayes Network) come modello grafico probabilistico per la rappresentazione e l’analisi di eventi e/o oggetti (nel nostro caso ROI) che coinvolgono incertezza; in particolare, per rappresentare la dipendenza fra variabili aleatorie e darne una specifica concisa della distribuzione di probabilità congiunta.
Basandosi sulla regola di Bayes, le reti esprimono relazioni di dipendenza condizionale (archi) tra le variabili in gioco (nodi) usando grafi aciclici orientati o “Directed Acyclic Graph” (DAG).
Figura 89: Schema di Rete Bayesiana
La rete Bayesiana è costituita da un certo numero di elementi:
1. I nodi del grafo costituiscono le variabili casuali discrete o continue. 2. Gli archi orientati collegano coppie di nodi.
3. Ogni nodo ha una tabella delle probabilità condizionate o “Conditional Probability Table” (CPT) che quantifica gli effetti che i “genitori” hanno sul nodo. Se un nodo ha molti genitori o se i genitori di un nodo hanno numerosi stati possibili, la tabella di probabilità condizionata associata può essere molto grande. La dimensione di una CPT, infatti, varia con relazione 2k, dove k è il numero dei genitori. 4. Il grafo non ha cicli diretti, ovvero non si può andare da un nodo a se stesso seguendo gli archi. Per una rete Bayesiana, l’ipotesi base afferma che ogni variabile è condizionatamente indipendente dai suoi non discendenti, dove un discendente di un nodo è definito o come un figlio del nodo oppure un discendente di uno dei suoi figli, dati i suoi genitori. Questa condizione, detta proprietà locale di Markov, porta alla specificazione di un’unica distribuzione di probabilità congiunta, che risulta fattorizzabile in accordo con il grafo, permettendo una rappresentazione compatta ed efficiente. In generale, la probabilità congiunta su tutte le variabili X1,…,Xn della rete
Bayesiana, si può calcolare con la seguente formula 𝑝(𝑋1= 𝑥1, … , 𝑋𝑛= 𝑥𝑛) = ∏𝑛𝑖=1𝑝(𝑋𝑖= 𝑥𝑖|𝑃𝑎𝑟𝑒𝑛𝑡𝑠(𝑋𝑖)), dove
Parents(Xi) indica i valori dei genitori del nodo Xi rispetto al grafo considerato.
La fattorizzazione viene utilizzata quando si intende:
1. Apprendere le probabilità condizionali, una volta nota la struttura della rete. 2. Apprendere sia la struttura della rete sia le probabilità condizionali.
Un nodo che non ha genitori diretti contiene una tabella di probabilità marginali tale che:
 Se il nodo è discreto, contiene una distribuzione di probabilità sugli stati della variabile che rappresenta;
 Se il nodo è continuo contiene una funzione gaussiana di densità (definita da media e varianza) della variabile casuale che rappresenta.
 Se un nodo ha genitori (cioè una o più frecce che puntano verso di esso), allora il nodo contiene una tabella di probabilità condizionate:
 Se il nodo è discreto, la funzione di probabilità condizionata contiene la probabilità condizionata del nodo data una configurazione dei suoi nodi genitori.
 Se il nodo è continuo, la funzione di probabilità condizionata contiene media e varianza di ogni configurazione degli stati dei suoi nodi genitori.
Le reti Bayesiane possono essere utilizzate in ogni settore in cui sia necessario modellare la realtà in situazioni di incertezza, cioè in cui siano coinvolte delle probabilità (es. decision making, data-mining, Computer Vision, ecc.).
Uno degli obiettivi della costruzione delle reti Bayesiane è, data l’osservazione corrente sullo stato di alcune tra le variabili del dominio, rispondere a quesiti sulla distribuzione di probabilità di alcuni valori di variabili di interesse; questo processo è detto “inferenza probabilistica” o “Belief Updating”.
Una rete Bayesiana, completamente specificata, contiene quindi l’informazione necessaria per rispondere a tutti i quesiti probabilistici circa le variabili d’interesse. Il meccanismo che permette di trarre conclusioni è detto propagazione dell’evidenza, dove con evidenza si intende l’informazione corrente di cui si dispone. La propagazione consiste nell’aggiornare le distribuzioni di probabilità delle variabili, in accordo con la nuova evidenza disponibile. Le reti semplificano il processo d’inferenza probabilistica, aggiornando le probabilità del modello attraverso la regola di Bayes e il calcolo della probabilità a posteriori. L’aggiornamento delle probabilità, è però valido solo se la rete è piccola e ogni nodo rappresenti variabili che possono assumere solo pochi valori.
Per risolvere questo problema, a seconda del tipo di struttura assunta dalla rete, sono stati sviluppati in letteratura algoritmi che permettono di eseguire inferenza esatta o approssimata. Nel nostro caso, data la semplicità della rete, l’inferenza è stata calcolata manualmente, per ogni patologia interessata dal nostro studio mediante foglio Excel.
Sulla base delle teoria descritta sono state sviluppati reti, applicate al concetto di co-registrazioni deformabili e sulle ROI da esse ottenute. La rete è costituita semplicemente da due nodi, che costituiscono le variabili del nostro modello. Queste variabili sono:
1. Le valutazioni del medico radioterapista delle ROI deformate automaticamente su ogni singola frazione di trattamento, con valutazione compresa tra [1-10]
Figura 90: Esempio di nodi e legame delle variabili
La struttura semplice della rete creata, dove A è la variabile corrispondente ai voti espressi dall’esperienza del medico radioterapista, mentre B corrisponde alla percentuale di variazione dei volumi delle ROI considerate, durante il ciclo di terapia, ci consente di valutare la qualità delle trasformate non rigide e quindi di assumere che lo spostamento dei voxel e la conservazione del loro numero sia soddisfatta.
Nel caso delle patologie esaminate si è focalizzato lo studio considerando in particolare volumi di grande dimensioni quali polmoni e di piccole dimensioni quali parotidi o midollo.
La stima delle percentuali per ogni stato della variabile A (voti) è stata calcolata mediante i conteggi delle frequenze in cui sia stato dato voto positivo al volume contornato automaticamente mediante la trasformata non rigida e la co-registrazione non rigida delle immagini. Stabilita la soglia di divisione degli stati, si possono ricavare le percentuali di voti per ogni stato della variabile A per la patologia d’interesse. Nel nostro caso sono state individuate due soglie significative:
1. Il voto della ROI deve essere ≥ 6
2. La variazione di volume della ROI tra le immagini deve essere ± 5% Nella tabella sono riassunti i dati della patologia testa e collo.
P(A) MEDICO (A) VOTO Mandibola Midollo Parotide Dx Parotide Sx
1 Voti ≥ 6 175 137 161 157
2 Voti < 6 0 0 14 18
Probabilità 1 100% 100% 92% 90%
Probabilità 2 0% 0% 8% 10%
Totale 100% 100% 100% 100%
P(B) VOLUME % (B) Mandibola Midollo Parotide Dx Parotide Sx
1 95% ≤ B ≤ 105% 119 67 67 68
2 95% > B > 105% 56 70 108 107
Probabilità 3 68% 49% 38% 39%
Probabilità 4 32% 51% 62% 61%
Totale 100% 100% 100% 100%
Tabella 8: Calcolo delle probabilità nel caso della Testa e collo
Sono stati calcolati P(A,B), P(B), P(A|B), P(B|A) per ogni ROI. P(A,B) rappresenta la probabilità congiunta che A e B si verifichino contemporaneamente: per esempio, la probabilità che il medico abbia dato un voto ≥ 6 ed il volume presenti una variazione compresa tra ± 5% rispetto al volume nella prima seduta di terapia. P(A,B) è stata calcolata mediante conteggi. Da queste sono estrapolabili le tabelle, di cui si riporta alcuni a titolo di esempio il caso della parotide sinistra e destra.
P(A,B) - Parotide Sx