112
L
A FACILITY DI CALCOLO TELETHON:
VERSO UNA MEDICINA PERSONALIZZATA
Negli ultimi 10 anni, da quando è stata pubblicata la sequenza del genoma umano, la velocità con cui si raggiungono gli obiettivi nella ricerca biomedica è cambiata considerevolmente. Le nuove tecnologie di se-quenziamento (Next Generation Sequencing – NGS) permettono un’analisi rapida, accurata ed economica dell’informazione contenuta nel genoma e nel trascrittoma di un organismo. Il trattamento dell’enorme produzione di dati di sequenze (Short Reads, SR) associate a ogni esperimento – in termini di data transfer, storage e controllo di qualità, analisi computazionale per assemblare e allineare le SR, sistemi di information management per tracciare i campioni e gestire i processi – costituisce una sfida per la ricerca HPC. La bioin-formatica ha ormai assunto un ruolo cruciale nell’ambito della ricerca biomedica e diviene sempre più es-senziale per l’analisi e la gestione dei dati prodotti dai nuovi sequenziatori che hanno aperto prospettive di ricerca impensabili fino a pochi anni fa.
Offerta
La facility Telethon offerta dal CASPUR ha compiuto il suo primo anno di vita concentrando gli sforzi su tre principali campi di applicazione NGS: Whole-exome Sequencing (WES)1; RNA-Seq2e Chip-Seq3. La ricerca
bio-medica è il principale motore di questo tipo di analisi, in particolar modo per lo studio delle malattie rare e dei tumori. Per comprendere la causa delle malattie rare, tipicamente ereditarie, è importante analizzare le mu-tazioni del DNA codificante (WES). Per capire, invece, il ruolo degli attivatori e dei soppressori tumorali nello studio dei tumori è essenziale analizzare l’interazione tra DNA e proteine (Chip-Seq). In entrambi i casi lo studio dell’espressione genica (RNA-Seq) può fornire importanti risposte sugli equilibri che vengono destabi-lizzati da queste malattie.
Per questi motivi l’offerta del CASPUR, inizialmente concentrata su questi tre campi di applicazione, ora sta rispondendo ad altre numerose richieste di applicazioni (in particolare l’epigenomica, la metagenomica, lo splicing alternativo e l’RNA Editing).
Collaborazioni
Le pipelines di analisi implementate nella core facility NGS sono state studiate e ottimizzate in collaborazione con il CNR e le Università di Bari e Milano. Il CASPUR collabora con l’Università di Ferrara per l’analisi di dati Whole
Fig. 1 Ambiente computazionale per l’analisi dei dati NGS.
ANNU
AL REPOR
T
113 Exome ed RNA-Seq di pazienti affetti da malattie rare, in particolare le distrofie muscolari
(miopatia di Bethlem, distrofia di Duchenne), e lavora da tempo con l’Istituto Nazionale dei Tumori del “Regina Elena” per l’analisi di dati Chip-Seq ed RNA-Seq di cellule tumorali.
Gruppo HPC Chimica Computazionale e Bioinformatica Tiziana Castrignanò tiziana.castrignano@caspur.it Mattia D’Antonio m.dantonio@caspur.it Paolo D’Onorio De Meo donorio@caspur.it Daniele Paoletti paoletti@caspur.it Nico Sanna sanna@caspur.it
Bibliografia essenziale
[1] Horner, D.S., Pavesi, G., Castrignanò, T., De Meo, P.D., Liuni, S., Sammeth, M., Picardi, E., Pesole, G. (2010). Bioinformatics approaches for genomics and post genomics applications of nextgeneration sequencing. Brief Bioinform. 11(2), 181-97.
[2] Picardi, E., D’Antonio, M., Carrabino, D., Castrignanò, T., Pesole, G. (2011). ExpEdit: a webserver to explore human RNA editing in RNA-Seq experiments. Bioinformatics 27(9), 1311-2.
[3] Botti, E., Spallone, G., Moretti, F., Marinari, B., Pinetti, V., Galanti, S., De Meo, P.D., De Nicola, F., Ganci, F., Castrignanò, T., Pesole, G., Chimenti, S., Guerrini, L., Fanciulli, M., Blandino, G., Karin, M., Costanzo, A. (2011). Developmental factor IRF6 exhibits tumor suppressor activity in squamous cell carcinomas. Proc Natl Acad Sci USA 108(33), 13710-5.
Risultati
Le pipelines della facility sono state costantemente aggiornate e raffinate per far fronte a nuovi problemi (come la mole di dati in rapida crescita con l’evolversi delle tecnologie di sequenziamento) e ai recenti interrogativi cui dare risposta tramite le analisi. Sono stati im-plementati anche nuovi strumenti computazionali per le analisi NGS, ad esempio il software Expedit per lo studio dei fenomeni di RNA Editing [2]. I dati Chip-Seq, analizzati in collabo-razione con l’Istituto Nazionale dei Tumori Regina Elena, sono serviti per comprendere a fondo il funzionamento del soppressore tumorale IRF6 [3]. La facility sta, inoltre, raffinando la propria offerta nella direzione dell’epigenomica e della metagenomica.
Note
1 Whole Exome Sequencing (WES): questa tecnica permette di sequenziare in modo mirato le regioni
codificanti di un genoma (esoni). Essendo gli esoni tradotti in proteina, mutazioni in queste regioni hanno un impatto particolarmente significativo e possono causare numerose malattie.
2 RNA-Seq: consiste nel sequenziamento massivo dell’RNA per conoscere i geni espressi e il loro
livello di espressione. Nello specifico vengono sequenziati frammenti di cDNA, ovvero DNA ottenuto per retrotrascrizione da trascritti espressi (tipicamente mRNA).
3 Chip-Seq: è una tecnica utilizzata per studiare l’interazione di proteine con il DNA. Basata
sull’im-munoprecipitazione della cromatina, consiste nel sequenziare i tratti di DNA legati da proteine di interesse e riconosciute tramite l’utilizzo di specifici anticorpi.