CASPUR 2011
110S
ISTEMA AD ALTE PRESTAZIONI PER DATABASE:
APPLICAZIONE NELLA RICERCA BIOMEDICA
L’alta disponibilità dei dati è un obiettivo essenziale da raggiungere per i sistemi ad alte prestazioni. Questo è particolarmente vero per le applicazioni web che possono smettere di funzionare in caso di indisponibilità dei dati. Attualmente nell’area biomedica le informazioni sono spesso organizzate in database che hanno assunto dimensioni inimmaginabili in passato; anche le tradizionali applicazioni di calcolo intensivo, quali ad esempio i diversi codici per l’allineamento di sequenze, hanno bisogno di leggere e scrivere in maniera intensiva dati opportunamente organizzati in database. Realizzare l’alta disponibilità dei dati è un argomento cruciale della ricerca computazionale. Più in generale diventa importante mettere a fattor comune con altre aree scientifiche e tecnologiche l’esperienza sui database ad alte prestazioni maturata al CASPUR nella ricerca biomedica.
Offerta
Il modello di accesso ai dati sperimentato al CASPUR è orientato alla lettura; si basa sul me-todo del “Database Sharding” attraverso un parti-zionamento orizzontale delle tabelle. Tale approccio è altamente scalabile, orientato ad in-crementare le perfomance globali delle applica-zioni che si basano su grandi banche dati e un vasto volume di transazioni in lettura.
Al CASPUR questo modello viene implemen-tato tramite una struttura Master/Slave che assi-cura il servizio di lettura ad alte prestazioni e l’high availability per le applicazioni di calcolo scientifico.
Alcuni gruppi dell’area di ricerca biomedica che stanno collaborando con il CASPUR per lo sviluppo di database di sequenze di DNA e proteine usu-fruiscono di questo ambiente per l’organizzazione dei dati ad alta affidabilità, congiunta a velocità di accesso in lettura e robustezza del sistema.
HPC
Fig. 1 Schema del funzionamento di un’applicazione web tramite il modello orientato alla lettura.
Collaborazioni
Da molti anni l’attività di collaborazione con diversi gruppi dell’area biomedica sul panorama nazionale ha condotto allo sviluppo e mantenimento di diversi database pubblicati su riviste internazionali.
PMDB [1]: Protein Model Database è una risorsa pubblica progettata per fornire accesso ai modelli 3d di proteine pubblicati in letteratura. Tale database è stato realizzato nell’ambito di un progetto AIRC del gruppo della Pro-fessoressa Anna Tramontano (Università La Sapienza, Roma).
ANNU
AL REPOR
T
111
Risultati
L’area biomedica ha tratto particolare beneficio da questo modello di database e con il recente avvento delle nuove piattaforme di sequenziamento questa necessità è diventata cruciale dovendo gestire migliaia di miliardi di bytes per esperimento e gestire le corrispon-denti applicazioni di calcolo intensivo, come ad esempio i diversi codici per l’allineamento di sequenze. Con il conseguimento dell’alta disponibilità dei dati e l’efficienza nel loro utilizzo il CASPUR ha permesso ai suoi utenti di area biomedica di risolvere problemi nei settori della biologia molecolare quali ad esempio la predizione dello splicing alternativo, lo studio com-parativo dei genomi mitocondriali e l’analisi del trascrittoma.
Bibliografia essenziale
Castrignanò, T., D’Onorio De Meo, P., Cozzetto, D., Talamo, I.G., Tramontano, A. (2006). Nucleic Acids Res., January, 1; 34 (Database issue), D306-9.
Chiani, F., Iannone, C., Negri, R., Paoletti, D., D’Antonio, M., D’Onorio De Meo, P., Castrignanò, T. (2009). Database: The Journal of Biological Databases and Curation, doi:10.1093/database/bap007 pub-lished on July 28.
Martelli, P.L., D’Antonio, M., Bonizzoni, P., Castrignanò, T., D’Erchia, A.M., D’Onorio De Meo, P., Fariselli, P., Finelli, M., Licciulli, F., Mangiulli, M., Mignone, F., Pavesi, G., Picardi, E., Rizzi, R., Rossi, I., Valletti, A., Zauli, A., Zambelli, F., Casadio, R., Pesole, G. (2011). Nucleic Acids Res., January, 39 (Database issue), D80-5. Epub 2010 November 4.
Lupi, R., D’Onorio De Meo, P., Picardi, E., D’Antonio, Paoletti, D., Castrignanò, T., Pesole, G., Gissi, C. (2010). Mitochondrion 0, March, 10 (2), 192-199. Epub 2010 January 18.
Castrignanò, T., Orsini, M., Paoletti, D., Santoni, D., Romano-Spica, V. (2010). Biostatistics, Bioinformatics and Biomathematics, 1 (1), 1-8.
Fig. 2Database pubblicati e mantenuti dal CASPUR sulla piattaforma presentata.
Gruppo di Chimica Computazionale e Bioinformatica Tiziana Castrignanò [email protected] Mattia D’Antonio [email protected] Paolo D’Onorio [email protected] Nico Sanna [email protected]
AspicDB [3]: colleziona dati derivati dall’analisi di Alternative Splicing. Questo database è stato sovvenzionato da un grant Telethon coordinato dal Professor Graziano Pesole (Università di Bari). MitoZoa [4]: insieme curato di dati dei genomi mitocondriali dei metazoi corredato di tool per le analisi comparative. Questo strumento è stato sviluppato in collaborazione con la Dot-toressa Carmela Gissi (Università Statale di Milano).