• Non ci sono risultati.

I dati trascrittomici in questo organismo, ottenuti da studi di RNA-seq eseguiti con tecnologia Illumina, provengono da campioni di fegato e testicoli e sono il frutto di una collaborazione tra l'Università di Trieste, Ancona e Viterbo.

Questa lavoro ci ha inoltre offerto l'opportunità di collaborare anche con il Broad Institute e di entrare a far parte del progetto di sequenziamento del genoma di Latimeria chalumnae.

Data l'eccezionalità dell'organismo, il nostro è stato il quinto esemplare mai pescato di questa specie, i dati trascrittomici sono derivati da un unico individuo.

Lo studio, inoltre, a differenza degli altri, è stato esplicitamente pensato per creare il trascrittoma di questo organismo i cui campioni disponibili sono così rari.

Il sequenziamento dei due tessuti di L. menadoensis ha permesso di ottenere 145.435.156 reads paired-end.

Oltre ad essere state rimosse le sequenze originate dall’RNA ribosomale, anche in questo caso le sequenze sono state filtrate per eliminare adattatori e basi a bassa qualità Il set di sequenze è stato così ridotto a un totale di 88.872.414 reads.

Il Broad Instituite, grazie alla collaborazione in corso, ci ha offerto la possibilità di assemblare le nostre reads con Trinity, software di assemblaggio da loro sviluppato, permettendoci così di elaborare dati provenienti da diversi metodi di assemblaggio.

La combinazione di differenti metodi e algoritmi di assemblaggio può essere considerata come la strategia migliore per l'ottenimento di trascritti di alta qualità.

Poiché i contig ottenibili con Trinity presentano spesso un elevata ridondanza, a causa della tendenza del software di creare contig diversi per ogni splicing alternativo, abbiamo cercato di limitare questa ridondanza utilizzando l'assembler MIRA e il software CLC Genomic Workbench.

Innanzitutto le sequenze sono state assemblate con Trinity creando, così, 306.882 contig che sono stati successivamente utilizzati come sequenze di input per il programma di assemblaggio MIRA. Questo programma si basa sull'uso interattivo di strategie multipass, utilizzando regioni ad alta similarità e strategie fallback per usare regioni a bassa similarità.

157

Questo metodo di assemblaggio nonostante richieda molta più RAM e tempi più lunghi rispetto a programmi di assemblaggio che utilizzano l'algoritmo de Brujin, permette di assemblare tra loro sequenze che altri assembler non riescono ad allineare.

Le sequenze ottenute sono state filtrate per lunghezza, mantenendo un cut-off di 250 pb, riducendo l'assemblaggio a 105.653 trascritti, riducendo così del 19.21% la ridondanza nei contig creati da Trinity.

Contemporaneamente le reads sono state assemblate utilizzando il CLC Genomic Workbench, generando 149.339 contig.

All'interno delle sequenze contigue create sono state ricercate le open reading frame (ORF) e solamente quelle che presentavano almeno una ORF di almeno 70 codoni sono stati mantenute. I trascritti derivanti dai diversi assemblaggi sono stati quindi allineati tramite BLASTn utilizzando parametri molto restrittivi.

Mediamente Trinity utilizza per l'assemblaggio un maggior numero di reads rispetto al CLC Genomic Workbench. Per questo motivo, nel caso in cui fossero presenti sequenze molto simili tra quelle create dalla coppia Trinity/MIRA e CLC Genomic Workbench, si è preferito scartare i contig creati da quest'ultimo. Sono stati, infine, mantenuti i contig generati da CLC solo nel caso in cui non ci fosse similarità di sequenza oppure, nel caso ci fosse una similarità significativa, questi fossero di almeno 200pb più lunghi.

Anche in questo caso, l'opera di filtraggio e selezione è stata fatta utilizzando uno script in Python creato appositamente. I contig risultanti sono stati filtrati per lunghezza e i trascritti con bassa copertura sono stati scartati ottenendo un set di 66.308 sequenze di alta qualità.

Anche in questo caso è stata effettuata l'analisi per il calcolo dell' Ortholog Hit Ratio utilizzando il BLASTx contro NR. Le successive fasi di annotazione sono state effettuate utilizzando il software di annotazione BLAST2GO (Conesa et al., 2005) che ha permesso di annotare le sequenze con Gene Ontology, BLASTx ed Interpro.

Un’ulteriore analisi è stata fatta per ricercare eventuali elementi trasponibili utilizzando il software Repeatmasker. (http://www.repeatmasker.org)

Avendo a disposizione sequenze provenienti da due tessuti diversi è stata effettuata un'analisi di RNA-seq utilizzando le metodiche descritte precedentemente per M. galloprovincialis per identificare i trascritti maggiormente espressi nei due tessuti.

158

I contig creati sono stati inoltre confrontati con i trascritti ottenuti dal Broad Institute dall'assemblaggio di sequenze trascrittomiche di muscolo di L. chalumnae.

Il muscolo è un tessuto molto specializzato che esprime un numero di geni molto minore rispetto ai nostri tessuti ed infatti il 50% dell'espressione genica totale in muscolo è data da solo 12 geni. Dal confronto è emerso come i tessuti da noi analizzati esprimano un range di trascritti molto maggiore, e ha permesso di valutare quanto divergente sia il contributo nell'espressione genica dei tre tessuti.

Facendo parte del progetto di sequenziamento del genoma abbiamo potuto anche mappare, a livello nucleotidico, le reads di L. menadoensis a nostra disposizione all’interno delle regioni codificanti del genoma annotato da Ensembl di L. chalumnae.

Questa analisi è stata svolta utilizzando il programma CLC Genomic Workbench.

Questo ha permesso a noi di avere delle statistiche sulla profondità di sequenziamento e a loro di testare la qualità delle annotazioni.

I risultati hanno dimostrato che la profondità dei dati di RNA-seq di liver e testis a nostra disposizione può essere considerata un fondamentale strumento per l'identificazione di nuovi geni e in particolare dei trascritti non codificati non annotati.

Inoltre, grazie a questo confronto, è stato possibile stimare a 99,73% la similarità tra L. menadoensis e L. chalumnae.

Per avere una stima della divergenza evolutiva tra le due specie, inoltre, abbiamo selezionato un set di 25 geni ortologhi altamente conservati, con identità di sequenza superiore all'80%, le cui sequenze fossero disponibili per L. menadoensis, L. chalumnae, Takifugu rubripes e Tetraodon nigroviridis. Il tasso di sostituzione nelle due specie di Latimeria è risultato essere parti a 0.49/100pb mentre è risultato essere circa 16 volta più alta nella coppia Takifugu/Tetraodon (8,25/100).

Poiché il tempo stimato di divergenza tra Tetraodon e Takifugu, basato su evidenze paleolitiche, è tra i 32,25 e i 56 milioni di anni (Benton and Donoghue, 2007), abbiamo ipotizzato che la datazione della divergenza tra il celacanto africano e indonesiano potrebbe essere stimata tra 1,9 e 3,3 milioni di anni.

Questo lavoro ha portato alla scrittura di diversi pubblicazioni derivanti direttamente dal lavoro di analisi e assemblaggio dei dati trascrittomici e ha posto le basi per eventuali lavori futuri.

159

Documenti correlati