BASI DI DATI BIOLOGICHE - 3
Principali Basi di Dati Biologiche
Alcune delle principali Basi di Dati Alcune delle principali Basi di Dati
Biologiche:
Biologiche:
Di sequenze:
Di sequenze:
NCBI.
NCBI.
Di proteine:
Di proteine:
Protein Data Bank.
Protein Data Bank.
Di annotazioni:
Di annotazioni:
Ensembl.
Ensembl.
Di analisi:
Di analisi:
microarray.
microarray.
Protein Data Bank (PDB)
Archivio globale di dati strutturali Archivio globale di dati strutturali
relativi a macromolecole biologiche.
relativi a macromolecole biologiche.
Istituita nel 1971.
Istituita nel 1971.
Dal 1980 esplosione del numero di Dal 1980 esplosione del numero di
strutture grazie ai progressi nell’ambito strutture grazie ai progressi nell’ambito delle tecniche utilizzate (principalmente delle tecniche utilizzate (principalmente
NMR).
NMR).
Dai primi anni 90 deposito ed accesso Dai primi anni 90 deposito ed accesso
ai dati via www.
ai dati via www.
PDB – Il deposito dei dati (1)
Il deposito dei dati avviene attraverso ADIT Il deposito dei dati avviene attraverso ADIT
(AutoDep Input Tool); i dati devono (AutoDep Input Tool); i dati devono
rispettare un dizionario (mmCIF) di 1700 rispettare un dizionario (mmCIF) di 1700
termini.
termini.
Appena ricevuti, i dati entrano a far parte Appena ricevuti, i dati entrano a far parte
del “core database”.
del “core database”.
Successivamente, vengono controllati Successivamente, vengono controllati
attraverso un certo insieme di interazioni attraverso un certo insieme di interazioni
con i submitter.
con i submitter.
PDB – Il deposito dei dati (2)
Vengono registrate:
Vengono registrate:
le coordinate della struttura;
le coordinate della struttura;
informazioni generali sulla struttura informazioni generali sulla struttura
(pubblicazioni, organismi, ...);
(pubblicazioni, organismi, ...);
informazioni specifiche (
informazioni specifiche (
dati della NMR, dati della NMR, processo di acquisizione del dato, ...).
processo di acquisizione del dato, ...).
Interazione con PDB
PDB – La base di dati (1)
Le basi di ati che costituiscono PDB sono:
Le basi di ati che costituiscono PDB sono:
Il “core relational database” (Sybase), che Il “core relational database” (Sybase), che contiene i dati sperimentali primari e i dati contiene i dati sperimentali primari e i dati
relativi alle coordinate.
relativi alle coordinate.
I dati finali (curati) presenti come file di I dati finali (curati) presenti come file di
testo (ASCII).
testo (ASCII).
La “base di dati” POM (Property Object La “base di dati” POM (Property Object
Model), che comprende oggetti indicizzati Model), che comprende oggetti indicizzati
che descrivono proprietà native (coordinate che descrivono proprietà native (coordinate
atomiche) o derivate (strutture secondarie atomiche) o derivate (strutture secondarie
calcolate).
calcolate).
PDB – La base di dati (2)
Il “Biological Macromolecule Il “Biological Macromolecule
Crystallization Database” (Sybase), che Crystallization Database” (Sybase), che
contiene informazioni ricavate dalla contiene informazioni ricavate dalla
letteratura.
letteratura.
La base di dati LDAP usata per La base di dati LDAP usata per
indicizzare i campi testuali del PDB in indicizzare i campi testuali del PDB in
formato strutturato.
formato strutturato.
PDB – La base di dati (3)
PDB - Un esempio
http://www.rcsb.org/pdb/
http://www.rcsb.org/pdb/
Cercare cyclin.
Cercare cyclin.
Scaricare il risultato.
Scaricare il risultato.
Ensembl - Caratteristiche generali
Scopo del progetto Ensembl è mettere Scopo del progetto Ensembl è mettere
assieme il mosaico dei segmenti di DNA assieme il mosaico dei segmenti di DNA
creati dal sequenziamento del genoma creati dal sequenziamento del genoma
umano.
umano.
Utilizza sequenze ricavate dalle basi di dati Utilizza sequenze ricavate dalle basi di dati
pubbliche per alimentare una pipeline di pubbliche per alimentare una pipeline di
analisi.
analisi.
Determina in maniera semi-automatica geni Determina in maniera semi-automatica geni
e caratteristiche rilevanti delle sequenze e caratteristiche rilevanti delle sequenze
Presenta i risultati attraverso il www.
Presenta i risultati attraverso il www.
Ensembl - L’architettura
Ensembl - Contenuto
GeniGeni
Noti da altri esperimenti;
Noti da altri esperimenti;
Predetti da Ensembl.
Predetti da Ensembl.
Altre caratteristiche:
Altre caratteristiche:
SNPs;
SNPs;
Repeats;
Repeats;
Homologies.
Homologies.
Ensembl - Identificatori
In progetti di questo tipo è essenziale In progetti di questo tipo è essenziale
definire un vocabolario di nomi comuni definire un vocabolario di nomi comuni
affinché un dato elemento possa essere affinché un dato elemento possa essere
identificato univocamente (i.e., nomi dei identificato univocamente (i.e., nomi dei
geni).
geni).
E’, inoltre, di fondamentale importanza E’, inoltre, di fondamentale importanza
disporre di identificatori stabili per le disporre di identificatori stabili per le
sequenze (pur riconoscendo la necessità sequenze (pur riconoscendo la necessità
della gestione delle versioni).
della gestione delle versioni).
Gli identificatori specifici di Ensembl sono del Gli identificatori specifici di Ensembl sono del
tipo: ENSG0000XXXX , ENST00000XXXX, ...
tipo: ENSG0000XXXX , ENST00000XXXX, ...
Ensembl – La base di dati (1)
Le singole basi di dati vengono Le singole basi di dati vengono
costruite in più passi costruite in più passi
Creazione dello schema;
Creazione dello schema;
Caricamento dei dati di sequenza (DNA, Caricamento dei dati di sequenza (DNA,
clone, ...);
clone, ...);
Costruzione di geni;
Costruzione di geni;
Analisi dei geni.
Analisi dei geni.
Ensembl – La base di dati (2)
Viene utilizzato MySQL. Le basi di dati Viene utilizzato MySQL. Le basi di dati
possono essere scaricate dal sito di possono essere scaricate dal sito di
Ensembl.
Ensembl.
Ogni organismo ha più basi di dati:
Ogni organismo ha più basi di dati:
Core;
Core;
Desease;
Desease;
......
Il Core mantiene le informazioni Il Core mantiene le informazioni
d'interesse.
d'interesse.
Ensembl -Le tabelle della base di dati
Dividiamo le tabelle in 3 gruppi:
Dividiamo le tabelle in 3 gruppi:
tabelle fondamentali;
tabelle fondamentali;
caratteristiche ed analisi;
caratteristiche ed analisi;
ID mapping.
ID mapping.
Le tabelle fondamentali - 1
assembly: Descrive come i contig si assembly: Descrive come i contig si
uniscono per creare la sequenza del uniscono per creare la sequenza del
cromosoma. Mantiene un mapping tra cromosoma. Mantiene un mapping tra
le locazioni sul cromosoma e locazioni le locazioni sul cromosoma e locazioni
sui contig.
sui contig.
assembly_exception: Fornisce assembly_exception: Fornisce
informazioni aggiuntive su una data informazioni aggiuntive su una data
sezione della precedente tabella.
sezione della precedente tabella.
attrib_type: Mantiene gli attributi attrib_type: Mantiene gli attributi
riconducibili ad una sequenza.
riconducibili ad una sequenza.
Tabelle fondamentali - 2
dna: Contiene le sequenze di DNA; è in dna: Contiene le sequenze di DNA; è in
rapporto 1:1 con i Contig.
rapporto 1:1 con i Contig.
exon: Mantiene informazioni sugli esoni, exon: Mantiene informazioni sugli esoni,
è associato ai trascritti mediante una è associato ai trascritti mediante una
chiave esterna.
chiave esterna.
exon_stable_id: Identificatori stabili.
exon_stable_id: Identificatori stabili.
exon_transcript: Mantiene la relazione exon_transcript: Mantiene la relazione
tra trascritti ed esoni.
tra trascritti ed esoni.
Tabelle fondamentali - 3
gene: Permette di creare una relazione tra gene: Permette di creare una relazione tra
geni e trascritti.
geni e trascritti.
prediction_exon, prediction transcript:
prediction_exon, prediction transcript:
Informazione su esoni e trascritti predetti.
Informazione su esoni e trascritti predetti.
seq_region: Informazioni sulle regioni seq_region: Informazioni sulle regioni
delle sequenze; fa riferimento al DNA e al delle sequenze; fa riferimento al DNA e al
sistema di coordinate.
sistema di coordinate.
seq_region_attrib: Informazioni sugli seq_region_attrib: Informazioni sugli
attributi di una data regione; mantiene attributi di una data regione; mantiene
riferimenti a attib_type.
riferimenti a attib_type.
Tabelle fondamentali - 4
supporting_feature: giustifica il supporting_feature: giustifica il
processo di predizione con collegamenti processo di predizione con collegamenti
ad allineamenti della sequenza con ad allineamenti della sequenza con
DNA o proteine.
DNA o proteine.
transcripts: Informazioni sui trascritti.
transcripts: Informazioni sui trascritti.
translation: Descrive quale parte degli translation: Descrive quale parte degli
esoni viene usate nella traduzione.
esoni viene usate nella traduzione.
Caratteristiche ed Analisi - 1
analysis: Descrive programmi e basi di analysis: Descrive programmi e basi di dati utilizzati per creare una feature su dati utilizzati per creare una feature su
un dato pezzo di una sequenza.
un dato pezzo di una sequenza.
dna_align_feature: Descrive un dna_align_feature: Descrive un
allineamento rispetto ad una sequenza allineamento rispetto ad una sequenza
ottenuto attraverso un BLAST.
ottenuto attraverso un BLAST.
map: Registra nomi di mappe per le map: Registra nomi di mappe per le
quali sono disponibili informazioni sui quali sono disponibili informazioni sui
marker.
marker.
marker: Le informazioni sul Marker.
marker: Le informazioni sul Marker.
Caratteristiche ed Analisi - 2
marker_feature: Descrive le posizioni marker_feature: Descrive le posizioni
dei marker.
dei marker.
marker_map_location: Mette in marker_map_location: Mette in
Relazione i marker e la mappa.
Relazione i marker e la mappa.
misc_attrib: Lega attributi a feature.
misc_attrib: Lega attributi a feature.
misc_feature: Mette in relazione misc_feature: Mette in relazione
l'attributo e la sequenza.
l'attributo e la sequenza.
misc_set: Definisce insiemi di feature.
misc_set: Definisce insiemi di feature.
Caratteristiche ed Analisi - 3
prediction_transcript: Trascritti predetti prediction_transcript: Trascritti predetti
(genscan, SNAP).
(genscan, SNAP).
protein_align_feature: Come per gli protein_align_feature: Come per gli
allineamenti di DNA.
allineamenti di DNA.
protein_feature: Descrive le protein_feature: Descrive le
caratteristiche delle traduzioni caratteristiche delle traduzioni
ID mapping
gene_archive: Mantiene l'elenco dei geni gene_archive: Mantiene l'elenco dei geni
modificati o cancellati tra una release e modificati o cancellati tra una release e
l'altra.
l'altra.
mapping_session: Mappa gli stable ID tra mapping_session: Mappa gli stable ID tra
le varie basi di dati.
le varie basi di dati.
peptide_archive: Contiene i peptidi per peptide_archive: Contiene i peptidi per
traduzioni cancellate o modificate.
traduzioni cancellate o modificate.
stable_id_event: Stabilisce cosa sia stable_id_event: Stabilisce cosa sia
accaduto ad uno stable ID (cancellazioni, accaduto ad uno stable ID (cancellazioni,
creazioni, relazioni tra stable ID).
creazioni, relazioni tra stable ID).
Altre Basi di Dati Biologiche
TRANSFOG: una base di dati “limite”, in TRANSFOG: una base di dati “limite”, in
cui tutto è basato sul programma di cui tutto è basato sul programma di
ricerca dei fattori trascrizionali.
ricerca dei fattori trascrizionali.
BASE: una base di dati per la gestione BASE: una base di dati per la gestione
di analisi di MicroArray (una descrizione di analisi di MicroArray (una descrizione
completa dell'esperimento completa dell'esperimento
dall'estrazione all'immagine).
dall'estrazione all'immagine).
Quanti e quali sono i DB biologici?
http://www3.oup.co.uk/nar/database/
http://www3.oup.co.uk/nar/database/
per la lista in ordine alfabetico:
per la lista in ordine alfabetico:
http://www3.oup.co.uk/nar/database/a/
http://www3.oup.co.uk/nar/database/a/