114
S
TUDIO DELLA MODULAZIONE
DELLO SPLICING ALTERNATIVO TRAMITE DATI NGS
Lo splicing è il processo molecolare di rimozione delle regioni non codificanti (introni) dai trascritti primari nel corso della loro maturazione. Questo processo non è univoco e gli introni possono essere escissi in diversi modi (splicing alternativo) contribuendo a incrementare la complessità del trascrittoma e proteoma eucariotico. La re-golazione dello splicing è un meccanismo fondamentale per modulare l’espressione del gene e il suo malfun-zionamento è spesso correlato con l’insorgenza di malattie come i tumori.Diversi strumenti computazionali sono stati sviluppati per predire e investigare lo splicing alternativo a livello ge-nomico, tra questi è possibile citare i software: ASPIC [1] (basato su un algoritmo di predizione della struttura esone-introne basato sul multiallineamento di sequenze espresse sul genoma di riferimento) e Pintron [2] (basato su un algoritmo di predizione più avanzato del precedente e con una maggiore accuratezza ed efficienza). I risultati ottenuti dall’esecuzione di entrambi i software sui geni noti di interi genomi sono raccolti in ASPicDB [3,4], un da-tabase specializzato che annota per ciascun gene i trascritti alternativi e gli eventi che li caratterizzano.
Offerta
L’avvento del NGS (Next Generation Sequencing) ha comportato l’apertura di nuovi fronti di ricerca, im-pensabili fino a pochi anni fa. Queste nuove tecnologie estendono in modo considerevole gli orizzonti delle analisi sperimentali generando enormi quantità di dati da una grande varietà di campioni relativi a tessuti, tipi cellulari e diverse condizioni fisiologiche e patologiche.
Investigare il fenomeno dello splicing alternativo su vasta scala, analizzando e confrontando molteplici tra-scrittomi richiede grandi sforzi computazionali e risorse hardware considerevoli. L’obiettivo è duplice: da un lato, la creazione un database sufficientemente completo da offrire un quadro chiaro dei fenomeni di splicing alternativo da un punto di vista qualitativo e quantitativo; dall’altro il desiderio di utilizzare tale database per l’analisi comparativa di successivi esperimenti di sequenziamento.
Collaborazioni
Lo studio è stato realizzato con la collaborazione e la supervisione scientifica del Prof. Graziano Pesole e del Dott. Ernesto Picardi dell’Università degli Studi di Bari. Inoltre, numerosi gruppi di ricerca hanno collaborato a più livelli su tutto il territorio italiano, soprattutto dall’Università degli Studi di Milano, Università degli Studi di Milano Bicocca, Università degli Studi di Bologna e Università degli Studi di Ancona.
Risultati
I dati di sequenziamento sono stati analizzati mediante una pipeline progettata e realizzata con lo scopo di creare un insieme di dati confrontabili con le informazioni contenute in ASPicDB. Questo ha permesso un ap-proccio comparativo tra le predizioni basate su dati tradizionali (sequenze espresse retrotrascritte e frammenti di mRNA) e campioni ottenuti mediante tecniche di sequenziamento massivo. L’utilizzo di database ottimizzati ha consentito la realizzazione di interfacce web per la visualizzazione dei dati e dunque un riscontro grafico (Figura 1) delle informazioni estrapolate dagli esperimenti analizzati. È attualmente in corso una valutazione dei risultati ottenuti da vari esperimenti al fine di attribuire a ogni predizione presente in ASPicDB una quan-tificazione del livello di espressione e una correlazione con i diversi tessuti e condizioni sperimentali che sono state analizzate. È infatti noto che la maggioranza dei geni multiesonici esprime più di una isoforma, ma sol-tanto pochissime vengono espresse in modo significativo. Altre sono espresse solsol-tanto in determinati tessuti o in condizioni patologiche. Molte altre sono espresse in percentuali bassissime e contribuiscono alla variabilità
ANNU
AL REPOR
T
115 genetica degli individui. Quantificare e annotare le isoforme note e predette diviene quindi
un passaggio essenziale per riuscire a comprendere realmente il fenomeno dello splicing alternativo e dell’espressione genica.
Bibliografia essenziale
[1] Castrignanò, T., Rizzi, R., Talamo, I.G., D’Onorio De Meo, P., Anselmo, A., Bonizzoni, P., Pesole, G. (2006). ASPIC: a web resource for alternative splicing prediction and transcript isoforms characte-rization. Nucleic Acids Res. 34(suppl 2):W440-3.
[2] Bonizzoni, P., Della Vedova, G., Pirola, Y., Rizzi, R. (2011). PIntron: A fast method for gene structure prediction via maximal pairings of a pattern and a text. ICCABS, IEEE, 33-9.
[3] Castrignanò, T., D’Antonio, M., Anselmo, A., Carrabino, D., D’Onorio De Meo, P., D’Erchia, M., Licciulli, F., Mangiulli, M., Mignone, F., Pavesi, G., Picardi, E., Riva, A., Rizzi, R., Pesole, P. (2008). ASPicDB: A database resource for alternative splicing analysis. Bioinformatics. 24(10), 1300-04.
[4] Martelli, PL., D’Antonio, M., Bonizzoni, P., Castrignanò, T., D’Erchia, AM., D’Onorio De Meo, P., Fariselli, P., Finelli, M., Licciulli, F., Mangiulli, M., Mignone, F., Pavesi, G., Picardi, E., Rizzi, R., Rossi, I., Valletti, A., Zauli, A., Zambelli, F., Casadio, R., Pesole, G. (2011). ASPicDB: a database of annotated transcript and protein variants generated by alternative splicing. Nucleic Acids Res. 39(1):D80-5.
Gruppo HPC Chimica Computazionale e Bioinformatica Tiziana Castrignanò [email protected] Mattia D’Antonio [email protected]
Paolo D’Onorio De Meo