• Non ci sono risultati.

L’IMPORTANZA DEL DNA ANTICO NEL RICOSTRUIRE LA STORIA DEMOGRAFICA DELLE POPOLAZION

Passaggio 2: la ricostruzione della funzione demografica

Tutti i metodi definiti nella classe degli “Skyline Plot” prevedono due passaggi distinti e separabili. La genealogia degli individui analizzati deve essere ricostruita a partire dai dati genetici ed include non solo la stima delle relazioni tra gli individui (topologia dell’albero) ma anche i loro tempi di divergenza (età dei nodi). Questo passaggio può essere compiuto utilizzando i metodi filogenetici standard Bayesiani o di massima-verosimiglianza. Una condizione essenziale è che le lunghezze dei rami dell’albero siano proporzionali con il tempo, perciò il tempo deve essere scalato in mutazioni, anni o generazioni. La genealogia, essendo una stima basata su un campione di sequenze di DNA, porta con se un errore, chiamato “errore filogenetico”, che può essere di notevole entità quando la genealogia contiene rami interni corti. Inoltre, molti organismi sono caratterizzati da una bassa variabilità genetica intraspecifica che provoca un aumento della varianza stocastica nella lunghezza dei rami. Nonostante questi fattori, se vogliamo ricostruire la storia demografica di una popolazione, non serve che la genealogia sia ben risolta, soprattutto quando le stime sono pesate tra un grande numero di alberi come nel framework Bayesiano (Drummond et al. 2005).

51

Il secondo passaggio prevede la stima della storia demografica basata sulla genealogia stimata. Una caratteristica molto utile di questa fase è che dipende solamente dal tempo degli eventi di coalescenza e non dal fatto di ricostruire la genealogia esatta delle sequenze del campione (Pybus et al. 2000). Per esempio, osservare eventi di coalescenza molto vicini tra loro è indicativo di una dimensione effettiva piccola, e questo principio può essere sfruttato per stimare la dinamica della dimensione effettiva. Più precisamente, i metodi “Skyline Plot” si basano sulla semplice relazione tra la dimensione effettiva della popolazione e la lunghezza attesa degli intervalli di coalescenza secondo il modello Coalescente: la dimensione effettiva media in ogni intervallo tra due eventi di coalescenza può essere stimata dal prodotto della lunghezza dell’intervallo (γi) e i(i-1)/2, dove i

rappresenta il numero di linee dell’albero presenti nell’intervallo (Figura2.2a). In questo modo è possibile ottenere una stima della dimensione effettiva in ogni intervallo (definito da ogni evento di coalescenza) della genealogia stimata (Figura2.2b) e così ricostruire la storia demografica tramite la dinamica della dimensione effettiva intervallo dopo intervallo. La ricostruzione demografica include una considerevole parte di incertezza dovuta alla natura stocastica del Coalescente. Infatti, ogni genealogia considerata è solo una singola realizzazione casuale di questo processo e questo comporta che, ad esempio, la stima della dimensione effettiva in ogni intervallo di coalescenza incorpori una notevole quantità di errore. L’errore dovuto al Coalescente è inversamente proporzionale al numero di linee genealogiche presenti in ogni intervallo di coalescenza e quindi non è uniforme lungo la genealogia: più ci avviciniamo alla radice dell’albero, più aumenta l’errore nella stima della dimensione effettiva. Ad esempio, l’ultimo intervallo di coalescenza (γ2 in

Figura2.2) viene stimato a partire da sole due linee ed è perciò l’intervallo con più errore associato. Questo fatto diventa perciò di notevole importanza ad esempio quando si sta considerando una popolazione costante dove, in media, l’ultimo intervallo di coalescenza occupa metà della genealogia.

52

Figura2.8: Stima della storia demografica da una genealogia. (a) Una genealogia stimata a partire dai dati genetici, dove la lunghezza di ogni ramo è proporzionale al tempo. Gli intervalli di coalescenza sono indicati con ϒi. (b) La dimensione effettiva della popolazione stimata in ogni intervallo di coalescenza.

Una volta ottenuta la stima della dimensione effettiva in ogni intervallo, la dinamica della dimensione effettiva nel tempo viene ricostruita in principalmente due modi (vedi review Ho e Shapiro 2011 per i dettagli dei metodi): i) partendo dall’intervallo più recente, la dimensione effettiva viene unita con quella dell’intervallo adiacente assumendo che sia rimasta costante all’interno dell’intervallo, producendo un grafico a “scalini” simile a quello rappresentato in Figura2.2b; ii) la dimensione effettiva non rimane costante all’interno dell’intervallo, ma varia in

53

maniera lineare tra due intervalli, rappresentando in maniera più realistica come una popolazione aumenta o si riduce rispetto a un cambiamento istantaneo. Nei metodi “Skyline Plot” bayesiani, la dimensione effettiva in ogni intervallo non è descritta da un singolo valore ma bensì da una distribuzione, detta distribuzione a posteriori. Perciò, per ogni intervallo di coalescenza viene utilizzato un indice di tendenza centrale come la media, moda o mediana come stima della dimensione effettiva. Insieme alla stima viene riportato anche l’ “High Posterior Density Interval” (HPD, o intervallo di credibilità) che descrive qual è l’intervallo più piccolo che contiene il 90% o il 95% dei valori a maggior frequenza (vedi Figura2.3).

Figura2.9: Rappresentazione grafica di uno skyline plot. La dimensione effettiva (in ordinata) è visualizzata in funzione del tempo (in ascissa). Il tempo è misurato dal presente (0) fino al tempo dell’antenato comune più recente (TMRCA). La dimensione effettiva La linea tratteggiata rappresenta la mediana della ricostruzione mentre in grigio è evidenziato l’HPD.

In questo studio la dinamica della dimensione effettiva nel tempo è stata stimata con il metodo “Extended Bayesian Skyline Plot” implementato nel software BEASTv1.6.1 (Drummond et al. 2002; Heled e Drummond 2008). Questo metodo, basato su un framework bayesiano accoppiato a Monte Carlo Markov Chain (MCMC), permette di stimare la genalogia degli individui simulati a partire dai dati di variabilità molecolare e ricostuire la funzione demografica nel tempo in un singolo passaggio. Inoltre, a differenza degli altri “Skyline Plot”, si possono analizzare

54

contemporaneamente più loci indipendenti per stimare la storia demografica di una popolazione, riducendo in questo modo l’errore associato al Coalescente e, di conseguenza, l’errore nella stima (si riduce l’ampiezza del HPD). Ad ogni locus impiegato nell’analisi è possibile associare un fattore che tenga in considerazione la sua ploidia ed ereditabilità. In questo modo, ad esempio, è possibile tenere in considerazione che la dimensione effettiva di un locus autosomale trasmesso in maniera biparentale è quattro volte maggiore rispetto ad un locus aploide mitocondriale. Inoltre, solo utilizzando l’”Extended Bayesian Skyline Plot” è possibile stimare il numero di cambiamenti demografici tramite “Bayesian Stochastic Variable Selection” (BSVS, Kuo e Mallick 1998). La presenza di molti intervalli di coalescenza corti può portare a un notevole aumento del “rumore di fondo” nella ricostruzione demografica perciò Strimmer e Pybus (2001) proposero di eliminare gli intervalli troppo corti raggruppandoli con i loro vicini in un numero n di gruppi specificato a priori. Con il BSVS è possibile selezionare l’n maggiormente supportato dai dati senza doverlo necessariamente specificare arbitrariamente a priori. Se un solo gruppo viene selezionato, significa che i dati supportano uno scenario di popolazione costante nel tempo.

Ognuno dei 37 800 dataset genetici è stato convertito in un input file leggibile da BEAST creando un modello con il software BEAUTI (Drummond e Rambaut 2007) e inserendo nel modello i dati molecolari attraverso uno script per l’ambiente per l’analisi statistica R (R Development Core Team 2010) sviluppato ad hoc. Lo stesso modello mutazionale utilizzato per la generazione dei dati genetici simulati è stato impiegato nell’analisi (HKY85, tasso di mutazione fissato a 1x10-6 mutazioni per sito per generazione, frequenza delle basi uguale e rapporto transizioni su trasversioni uguale a uno) in modo che i risultati non risentano dell’incertezza della stima dei parametri mutazionali. Il tasso di mutazione è stato scalato in generazioni (1 generazione = 2 anni) in modo da stimare il tempo in generazioni e la dimensione effettiva della popolazione in numero di individui aploidi. La distribuzione a priori del numero di cambiamenti demografici è stata definita come una distribuzione di Poisson con media ln(2) in modo da favorire nel 50% dei casi uno scenario di popolazione costante e nel restante 50% dei casi almeno un cambiamento demografico. La lunghezza della catena ha previsto 20 milioni di iterazioni con un campionamento dei parametri del modello ogni 10.000 iterazioni ed è stato scartato il primo 10% della lunghezza totale della catena perché non informativo (burn-in). I valori degli operatori che regolano il campionamento MCMC sono stati mantenuti invariati rispetto a quelli di default. Alla fine di ogni analisi è stato valutato se la convergenza è stata raggiunta, cioè se l’algoritmo ha campionato dalla distribuzione a posteriori di ogni parametro. A questo scopo sono state calcolate due misure di convergenza per i parametri più importanti del modello: la likelihood, la distribuzione a priori globale (indica il campionamento complessivo da tutte le distribuzioni a priori di tutti i parametri),

55

la distribuzione a posteriori complessiva (indica il campionamento complessivo da tutte le distribuzioni a posteriori di tutti i parametri) e numero di cambiamenti demografici. Come primo indice è stato calcolato il valore di “Effective sample size” (ESS) che rappresenta il numero di campionamenti indipendenti dalla distribuzione a posteriori stimata. L’algoritmo di campionamento di tipo MCMC, per sua natura, effettua dei campionamenti che sono correlati tra loro per cui il valore di ESS indica la qualità della stima della distribuzione a posteriori. Un ESS minore di 100 è considerato in genere un valore basso e indicativo di problemi durante l’analisi. Come seconda indicazione di convergenza, è stato eseguito il test di Geweke. Questo test si basa sul principio che se la catena ha raggiunto la convergenza, la prima parte e l’ultima parte della catena avranno la stessa media e la loro differenza sarà distribuita in modo normale. Il comando “geweke.diag” disponibile nel package CODA per l’ambiente statistico R (R Development Core Team 2010) è stato utilizzato per condurre il test e ottenere il p-value associato.

Per ogni scenario di simulazione studiato, sono stati riassunti i dati di convergenza dei 100 dataset simulati calcolando per i quattro parametri considerati: la media di ESS, il numero di dataset che hanno un valore di ESS minore di 100 e la percentuale di dataset che hanno mostrato un p-value del Geweke test non significativo per un valore di α=0.05. Le analisi dei dataset che hanno raggiunto la convergenza sono state utilizzate per ricostruire la dinamica demografica della popolazione nel tempo. Ogni ricostruzione effettuata con BEAST può essere immaginata come una distribuzione di funzioni demogafiche campionate via MCMC (Heled e Drummond 2008). La mediana dei valori di N in n punti, dove n corrisponde alla media dei tempi di coalescenza ordinati in tutte le genealogie campionate, è stata utilizzata per costruire la funzione demografica mediana denominata N’50(t) . Lo stesso procedimento è stato usato per calcolare la funzione demografica

N’2.5(t) e N’97.5(t) (i limiti dell’HPD95%).

Passaggio 3: il confronto tra la dinamica ricostruita e simulata, e il confronto tra gli schemi di