Reti Bayesiane per la valutazione di profili genici
Quasi trent’anni fa, le reti Bayesiane o “Bayesian Network (BNs)” si sono sviluppate nel campo dell’intelligenza artificiale come uno strumento che avrebbe dovuto aiutare i ricercatori e i professionisti nell’applicare la teoria della probabilità per risolvere problemi di significativa complessità, rendendoli più pratici e realistici. Sin dalla fine degli anni ’80, le reti Bayesiane hanno anche attratto i ricercatori nella genetica forense e questa tendenza si è intensificata in maniera considerevole nel corso dell’ultima decade. Le reti Bayesiane si basano su elementi grafici e teorie probabilistiche. Possono essere definite in maniera semplice come una rappresentazione figurata del rapporto di dipendenza e influenza (rappresentati da frecce) tra diverse variabili (rappresentate da nodi) ritenute particolarmente rilevanti per la risoluzione di un particolare problema di natura probabilistica. Sin dai primi anni ’80 le reti Bayesiane hanno ottenuto successo nel campo della tecnologia dei “sistemi esperti”. Secondo Cowell et al. Un sistema esperto consiste in una conoscenza di base e in una macchina di deduzione. La conoscenza di base permette di codificare una conoscenza dominio-specifica di un determinato problema, mentre il meccanismo di deduzione fornisce uno strumento per processare ed analizzare i contenuti della conoscenza di base, in particolare attraverso la loro abilità a coordinare inferenze probabilistiche bidirezionali. Il termine “bidirezionale” fa riferimento a frecce di un grafico e viene interpretato come la capacità di affrontare sia i processi di valutazione della probabilità di ottenere particolari evidenze data la veridicità di certe proposizioni d’interesse, e sia di disegnare inferenze su proposizioni d’interesse, basata su una particolare evidenza. Questa caratteristica ha suscitato particolare interesse nelle reti Bayesiane nelle aree che studiano deduzione e induzione attraverso la probabilità. Le reti Bayesiane sono oggi considerate come uno schema di rappresentazione generale di conoscenze incerte. La letteratura scientifica riporta un vasto numero di applicazioni per le reti bayesiane, virtualmente in tutti i campi in cui l’analisi di dati probabilistici gioca un ruolo centrale.
Sin dai primi anni novanta sia avvocati sia scienziati forensi hanno mostrato un interesse sempre crescente nelle reti Bayesiane per studiare quei problemi correlati alla valutazione dell’evidenza. Le reti Bayesiane sono state utilizzate inizialmente come metodo per l’analisi retrospettiva di complesse e storiche cause giudiziarie, come per esempio nel caso di Sacco e Vanzetti. In questo caso Bartolomeo Vanzetti e Nicola Sacco furono giudicati colpevoli nella rapina che portò alla morte di Frederick Parmenter e Alessandro Berardelli il 15 Aprile del 1920 a South Braintree, Massachusetts. Furono giustiziati ingiustamente sulla sedia elettrica il 23 agosto 1927 nel penitenziario di Charlestown, presso Dedham. Più recentemente sono state proposte delle analisi probabilistiche nel caso di O. J. Simpson. L’uomo era stato accusato dell’omicidio dell’ex moglie, Nicole Brown e dell’amico di lei Ron Goldman. Il 3 ottobre 1995, dopo 253 giorni di processo, la giuria emise il verdetto in meno di quattro ore, sentenziando l'innocenza di O.J. Simpson Elementi di questo caso, in particolare una macchia contenente una mistura di DNA è stata esaminata in un lavoro di Julia Mortera.
Nelle reti Bayesiane la teoria dei grafici viene utilizzata per fornire un modello qualitativo, mentre la teoria della probabilità viene utilizzata per caratterizzare la natura e la forza delle relazioni che dominano all’interno di un modello. Questo aspetto è stato formulato brevemente
nell’introduzione del lavoro di M.I. Jordan (Ed.), Learning in Graphical Models, The MIT Press, London, 1999, dove i modelli grafici sono stati descritti come il matrimonio tra la teoria dei grafici e quella della probabilità. In maniera formale, una rete Bayesiana copre i seguenti elementi:
• Una raccolta limitata di variabili random che sono rappresentate da nodi. Ognuno di questi
nodi presenta una serie finita di stati (condizioni) mutualmente esclusive.
• Una serie di collegamenti diretti che collegano coppie di nodi
• Le variabili e i vari collegamenti sono combinati in un determinato modo in maniera tale da
ottenere un grafico aciclico diretto, un grafico in cui non sono permessi dei nodi interni.
• Tabelle riguardanti la probabilità dei nodi sono associate con ogni variabile della rete: la tabella di probabilità di una variabile A che riceve collegamenti entranti dalle variabili B1 ,…, Bn contiene probabilità condizionali Pr (A|B1, … , Bn ), mentre una variabile A che non presenta collegamenti provenienti da altre variabili contiene probabilità incondizionali Pr (A).
E’ molto comune affermare che, se c’è un link dal nodo A al nodo B, A è un genitore di B, mentre B verrà definito come figlio di A.
Le reti Bayesiane oggetto orientate (OOBNs) rappresentano uno sviluppo recente delle reti Bayesiane e prendono visivamente la forma di blocchi di reti Bayesiane organizzate in modo gerarchico. Una rete Bayesiana è essa stessa una struttura grafica e gerarchica con proprietà qualitative (che specificano la natura delle relazioni tra certe variabili random) e una struttura quantitativa ( che determina la probabilità di distribuzione delle variabili). Per la costruzione di una rete Bayesiana normalmente sono necessari tre passi. Il primo prevede la necessità di individuare le variabili rilevanti nel modello e specificare le relazioni di dipendenza o indipendenza tra loro. Successivamente vengono specificate le relazioni numeriche tra le variabili. Nell’ultimo passo vengono tratte le conclusioni attraverso l’inserimento delle evidenze sperimentali nel dominio grafico e aggiornando le probabilità delle altre variabili. Per esprimere relazioni di tipo qualitativo (rapporto di dipendenza e indipendenza tra le variabili), le reti Bayesiane adottano delle frecce e nodi di collegamento che rappresentano variabili random. Le frecce rappresentano dipendenze probabilistiche condizionali tra i nodi genitori e quelli figli. Per ogni variabile random e i suoi genitori viene specificata una funzione di probabilità condizionale.
Questa figura rappresenta un esempio di reti Bayesiane. E’, inoltre, un esempio di Grafico Aciclio Diretto, generato da una serie di nodi e collegamenti, definiti rispettivamente come V ed E. Ogni nodo v ϵ V rappresenta una variabile random Xv che può assumere una serie xv di valori distinti
chiamati anche stati. Successivamente, la funzione completa comune di tutte le variabili Xv nel
p (x) =
Π
p (xv | xpa(v))dove pa(v) rappresenta l’insieme dei genitori del nodo v.
Quando si suppone che un profilo genetico sia presente all’interno di una mistura, è fondamentale, per prima cosa, elencare tutte le possibili combinazioni genotipiche. Questo approccio prende il nome di deconvoluzione combinatoria. Ogni combinazione presenta una certa probabilità di esistenza all’interno della mistura e viene definita come probabilità combinatoria. Questa viene assegnata utilizzando delle regole elementari, dal momento che ogni combinazione viene rappresentata come una partizione di un diagramma di Venn. Quando sono state elencate le combinazioni e sono state assegnate le probabilità combinatorie, possono essere formulate delle ipotesi su quali combinazioni possono contenere un dato genotipo appartenente a sospettati esterni, presi dalla popolazione generale. Per valutare se un determinato candidato possa essere un contribuente alla mistura, può essere assegnato un rapporto di verosimiglianza tra quelle combinazioni che contengono l’indiziato e quelle che non lo contengono.
Per poter eseguire una deconvoluzione della mistura, è necessario lavorare sotto determinate restrizioni. La prima restrizione da adottare è quella di lavorare su un numero finito e piccolo di contribuenti alla mistura. La vera restrizione basica diventa quindi “no more no less than two
contributors”, non più non meno di due contribuenti, che viene assunta come scelta predefinita in
diversi casi, secondo informazioni che riguardano la scena del crimine e non quelle di tipo genetico. In un caso di violenza sessuale, ad esempio, nella maggior parte dei casi è più probabile che ci siano due contribuenti (la vittima e il sospettato) a meno che dalle ricostruzioni effettuate dall’autorità giudiziaria risultino più persone coinvolte. Questa ipotesi dovrebbe soddisfare l’evidenza genetica emergente, che viene verificata in maniera empirica dal numero e dall’altezza dei picchi ad ogni locus.
Partendo da questa restrizione, vengono ricavate coppie di genotipi in base al numero di alleli presenti ad ogni locus e in base alle leggi Mendeliane. Per esempio, se vengono osservati quattro alleli 1, 2, 3, 4 allora saranno possibili tre differenti combinazioni: 1-2 + 3-4; 1-3 + 2-4; 1-4 + 2-3 insieme con altre tre combinazioni speculari con le precedenti: 3-4 + 1-2; 2-4 + 1-3; 2-3 + 1-4. La loro probabilità di esistenza è uniforme e per ogni coppia speculare di combinazioni la probabilità è P = 0,3333.
Una vera restrizione drastica da adottare insieme a quella di “non più non meno di due contribuenti” è quella di assumere attraverso criteri arbitrari che una coppia di combinazioni compatibili sia presente con certezza all’interno della mistura, per esempio 1-2 + 3-4. Questa situazione risolve completamente l’incertezza di combinazioni possibili, infatti (P1-2 + 3-4 = 1; P1-3 + 2-4 = P1-4 + 2-3 = 0). Questa restrizione drastica viene formulata, il più delle volte, dalla conoscenza del profilo genetico di una persona presente con certezza nella mistura, ad esempio la vittima e da un pregiudizio contro uno o più sospettati. Questa non rappresenta una predizione.
In alcune circostanze, assumendo che sia presente all’interno della mistura un genotipo obbligato, questo si sottrae alla mistura. Si può successivamente predire il secondo contribuente e questa
viene considerata una restrizione ragionevole. Da un punto di vista tecnico viene definita come una restrizione puramente combinatoria. Questo tipo di restrizione viene tipicamente applicata ad evidenze genetiche di tipo non quantitativo, quando per esempio vengono analizzati come marker i classici gruppi sanguigni all’interno di misture. Questo tipo di restrizione dovrebbe evitare pregiudizi legati alla conoscenza del genotipo del possibile sospettato e permette di elencare e valutare tutte le combinazioni logiche implicate. Così, per esempio, se si suppone che una traccia mista di due individui con gli alleli 1, 2, 3 all’interno di un locus contenga con certezza il genotipo 1-2, allora l’altro genotipo della coppia può essere indifferentemente 3-3, 1-3 o 2-3. Il quesito successivo e l’analisi Bayesiana relativa sono piuttosto paragonabili all’atto di assumere la madre come certa nei test di paternità, senza calcolare la probabilità di maternità.
Quando i dati di tipo quantitativo sulle sequenze STR sono disponibili, come le aree dei picchi, selezionare le varie combinazioni all’interno della mistura attraverso la distribuzione dell’area dei picchi, quella che viene definita restrizione dell’area di picco, viene considerata la più ovvia restrizione combinatoria.
Le restrizioni dell’area dei picchi implica due livelli di coerenza:
1) Coerenza tra le varie combinazioni logiche e l’area dei picchi ad ogni dato locus. Per esempio se una mistura con quattro picchi in un locus chiamati 1, 2, 3, 4 appartenente ad una traccia mista di due persone con rapporto 2:1 all’interno della mistura, dove 1 può soltanto legare 2 in base al dosaggio allelico equivalente, allora soltanto una combinazione (1-2 + 3-4) delle tre combinazioni logiche (1-2 + 3-4; 1-3 + 2-4; 1-4 + 2-3) può di fatto esistere, dato il dosaggio allelico e il rapporto della mistura. Tale restrizione è possibile sotto la condizione minima che il rapporto della mistura pre- PCR risulta ancora valido nell’analisi dei picchi post-PCR. In questo caso la combinazione 1-2 + 3-4 risulterà certa con probabilità P= 1, mentre le altre combinazioni genotipiche saranno impossibili. Sotto distribuzioni ideali dell’area dei picchi, rilevare una perfetta corrispondenza tra una combinazione e la sua area di picco elimina ogni incertezza. Questa situazione è lontana dall’interpretazione legata al criterio RMNE, Persona Random Non Esclusa, perché fa riferimento ad una evidenza sperimentale senza considerare il genotipo del sospettato.
Condizioni intermedie, viceversa, con corrispondenza incerta delle varie aree di picco, potrebbe giovare di un’analisi Bayesiana di tipo quantitativo.
2) Coerenza di dosaggio per ogni aplotipo individuale. Quando risulta evidente uno squilibrio tra i contribuenti all’interno di una mistura, due varianti quantitative della stessa combinazione scelta diventano possibili.
D’altro canto quando si prova a classificare le varie combinazioni logiche e le combinazioni delle aree dei picchi, viene fuori un numero di combinazioni ambigue dal semplice fatto che più di una combinazione cade sotto lo stesso profilo dell’area di picco. L’ambiguità risulta più pronunciata, e potenzialmente imprevedibile, quando si verifica un’amplificazione preferenziale della PCR.
Si può comprendere meglio il concetto facendo riferimento a due situazioni differenti. Nel primo caso viene adottata una restrizione combinatoria, scegliendo un primo contribuente come certo
per definizione, senza riferimento iniziale all’area di picco. Le probabilità del secondo contribuente saranno condizionate dalle premesse iniziali e dalle distribuzioni dell’area dei picchi.
Si parlerà, invece, di predizione non ristretta quando si considerano le aeree di picco senza nessuna restrizione legata ad un contribuente obbligatorio.
Sotto la condizione ristretta, l’evidenza è rappresentata da: E = {A, vgt = p1gt}
dove A è tutta l’evidenza legata alla mistura di DNA per ogni esperimento, considerando gli alleli osservati, la misura dell’area di picco e le frequenze geniche, vgt è il genotipo di un contribuente obbligato, ad esempio la vittima e p1gt è il genotipo del vero primo contribuente alla mistura. Si potrebbe d’altra parte rifiutare di considerare il primo contribuente come obbligato all’interno della mistura e trovarsi di fronte ad una condizione non ristretta. In questa circostanza, l’evidenza diventa:
E = {A}.
Vengono prodotte due serie di predizioni e probabilità a posteriori, una per il primo contribuente e l’altra per il secondo contribuente.
Se consideriamo due amplificazioni separate, riferite però sempre alla stessa traccia mista, l’evidenza per lo scenario di tipo ristretto sarà rappresentato da:
E1 = {A1, vgt = p1gt} e E2 = {A2, vgt = p1gt}
Dove A1 e A2 sono, rispettivamente, tutte le evidenze che riguardano l’amplificazione della mistura di DNA per ogni esperimento. In questo caso nuovamente vengono formulate due serie di predizioni e probabilità a posteriori per l’altro contribuente, uno per ogni esperimento.
Per la condizione non ristretta, l’evidenza è E1 = {A1} ed E2 = {A2}.
In questo scenario vengono prodotte quattro serie di predizioni e probabilità a posteriori, una per il primo contribuente e l’altro contribuente nel primo esperimento. Una per il primo contribuente e l’altro contribuente nel secondo esperimento.
Sia per la circostanza ristretta, sia per quella non ristretta si può utilizzare una rete Bayesiana. Questo permette di produrre delle predizioni sui genotipi in maniera separata, analizzando i dati sperimentali uno alla volta.
The OOBN used to produce separate genotype predictions at the two case examples: the ‘instable mixture’. (A) The potentially ‘related traces’. (B) The same OOBN is used, but nodes have different names to help understanding the two examples. (A) Nodes vgt, sgt, u1gt and u2gt, represent, respectively, the ‘victim’, the suspect and two unknown. Boolean nodes are: v in mix? and s in mix?; they address the question whether the genotypes of the victim and the suspect match those of individuals p1 and p2 (having donor1 and donor2 assets as specified in Table 1). If one assumes that the victim is by default in the trace, then the genotype of the first contributor p1 will be the same as the victim’s; otherwise, if v in mix? is false, p1gt will be selected from u1gt. The same applies to the case of the ‘suspect’ and of the second contributor p2. The predicted profiles are read in the node separated profiles. Information about the alleles observed in the mixture (presence/absence; peak areas) are in the nodes Ainmix, Binmix, Cinmix and xinmix (only three alleles, A, B, C, are individually considered, with x representing all unobserved alleles). Node frac takes into account the mixture ratio. Finally, population gene frequencies are allocated in the nodes vpg, vmg, u1pg, u1mg, spg, smg, u2pg and, u2 mg, where, for example vpg represents the victim’s paternal gene, while vmg is the victim’s maternal gene. The evidence is propagated from node to node (nodes colored in red) throughout the network. Posterior probabilities are downloaded into the Boolean query nodes and in the node where the profiles of p1 and p2 are predicted (all colored in blue). This network is designed to represent a single marker only. Since, with reference to the peak area ratios, one cannot regard markers as if they were one another independent, a master network accounting for peak area dependence is then to build across all markers of the experiment. Details about the network are in Ref. [7]. (B) Same as above, except for the following name alterations: vgt ! s1gt; sgt ! s2gt; v in mix? ! s1 in mix?; s in mix? ! s2 in mix?; p1gt ! contr1 gt; p2gt ! contr2 gt. (For interpretation of the references to color in this figure legend, the reader is referred to the web version of the article.)
In realtà, se si dovessero considerare i due esperimenti come entità separate, si trascurerebbe il fatto che fanno riferimento alla stessa evidenza e, di conseguenza, parte del loro valore andrebbe perso. Un’analisi congiunta permette, invece, di prendere in considerazione tutta l’evidenza introducendo una dipendenza grafica e computazionale tra i due gruppi di dati. In questo caso per la condizione ristretta l’evidenza è:
E1+2 = {A1, A2, vgt = p1gt}
E vengono prodotte una serie di predizioni e probabilità a posteriori per il secondo contribuente. In questo caso, però, l’evidenza verrà analizzata in maniera congiunta per i due esperimenti. Sotto la condizione non ristretta, l’evidenza è:
E1+2 = {A1, A2}
Vengono prodotte due serie di predizioni e probabilità a posteriori, una per il primo contribuente e una per l’altro.
L’obiettivo è quello di combinare tutte le informazioni rilevanti, legate essenzialmente alle aree dei picchi, in un’analisi Bayesiana congiunta.
An OOBN enabling joint Bayesian analysis in the case of ‘instable mixture’. Two evidence datasets (observed alleles, their peak areas) concur to assign the same genotype. The duplicate nodes AinmixAmpl2, BinmixAmpl2, CinmixAmpl2 and xinmixAmpl2 contain information about the second amplification. They are children nodes to p1gt and p2gt as well as to the other (same structure) nodes referring to the first amplification. This reflects the fact that the two amplifications come from the same sample/extract and they concur to answer the same question (with identical a priori assumptions). Peak areas across several loci give general information about the ‘mixture ratio’, which is precious to reconstruct the original assets. To take into account the mixture ratio effect across the experiments, we have added node frac Ampl2. The other objects and prior/ conditional probabilities in the network are the same as Fig. 2A. The same conditional probabilities apply for the first amplification (Ainmix Ampl1, Binmix Ampl1, Cinmix Ampl1 and xinmix Ampl1) and the second amplification (AinmixAmpl2, BinmixAmpl2, CinmixAmpl2 and xinmixAmpl2) nodes. The same prior probabilities apply to node frac Ampl1 and to node frac Ampl2.
Vista la dipendenza nell’interpretazione dei dati di laboratorio, considerando anche il fatto che i dati dei vari esperimenti condotti sulla stessa traccia vengono interpretati alla fine dallo stesso esperto di genetica forense, in ambito Bayesiano dal punto di vista prettamente teorico è ritenuto più robusto e affidabile considerare i dati ottenuti in maniera congiunta. Da un punto di vista pratico, tuttavia, gli errori di laboratorio, legati ad esempio all’amplificazione preferenziale della PCR, potrebbero influire significativamente anche nel caso in cui vengano interpretati i dati in maniera congiunta.