BASI DI DATI BIOLOGICHE - 3

(1)

BASI DI DATI BIOLOGICHE - 3

(2)

Principali Basi di Dati Biologiche

Alcune delle principali Basi di Dati Alcune delle principali Basi di Dati

Biologiche:

Di sequenze:

NCBI.

Di proteine:

Protein Data Bank.

Di annotazioni:

Ensembl.

Di analisi:

microarray.

(3)

Protein Data Bank (PDB)

Archivio globale di dati strutturali Archivio globale di dati strutturali

relativi a macromolecole biologiche.

Istituita nel 1971.

Dal 1980 esplosione del numero di Dal 1980 esplosione del numero di

strutture grazie ai progressi nell’ambito strutture grazie ai progressi nell’ambito delle tecniche utilizzate (principalmente delle tecniche utilizzate (principalmente

NMR).

Dai primi anni 90 deposito ed accesso Dai primi anni 90 deposito ed accesso

ai dati via www.

(4)

PDB – Il deposito dei dati (1)

Il deposito dei dati avviene attraverso ADIT Il deposito dei dati avviene attraverso ADIT

(AutoDep Input Tool); i dati devono (AutoDep Input Tool); i dati devono

rispettare un dizionario (mmCIF) di 1700 rispettare un dizionario (mmCIF) di 1700

termini.

Appena ricevuti, i dati entrano a far parte Appena ricevuti, i dati entrano a far parte

del “core database”.

Successivamente, vengono controllati Successivamente, vengono controllati

attraverso un certo insieme di interazioni attraverso un certo insieme di interazioni

con i submitter.

(5)

PDB – Il deposito dei dati (2)

Vengono registrate:

le coordinate della struttura;

informazioni generali sulla struttura informazioni generali sulla struttura

(pubblicazioni, organismi, ...);

informazioni specifiche (

dati della NMR, dati della NMR, processo di acquisizione del dato, ...).

processo di acquisizione del dato, ...).

(6)

Interazione con PDB

(7)

PDB – La base di dati (1)

Le basi di ati che costituiscono PDB sono:

Il “core relational database” (Sybase), che Il “core relational database” (Sybase), che contiene i dati sperimentali primari e i dati contiene i dati sperimentali primari e i dati

relativi alle coordinate.

I dati finali (curati) presenti come file di I dati finali (curati) presenti come file di

testo (ASCII).

La “base di dati” POM (Property Object La “base di dati” POM (Property Object

Model), che comprende oggetti indicizzati Model), che comprende oggetti indicizzati

che descrivono proprietà native (coordinate che descrivono proprietà native (coordinate

atomiche) o derivate (strutture secondarie atomiche) o derivate (strutture secondarie

calcolate).

(8)

PDB – La base di dati (2)

Il “Biological Macromolecule Il “Biological Macromolecule

Crystallization Database” (Sybase), che Crystallization Database” (Sybase), che

contiene informazioni ricavate dalla contiene informazioni ricavate dalla

letteratura.

La base di dati LDAP usata per La base di dati LDAP usata per

indicizzare i campi testuali del PDB in indicizzare i campi testuali del PDB in

formato strutturato.

(9)

PDB – La base di dati (3)

(10)

PDB - Un esempio

http://www.rcsb.org/pdb/

Cercare cyclin.

Scaricare il risultato.

(11)

Ensembl - Caratteristiche generali

Scopo del progetto Ensembl è mettere Scopo del progetto Ensembl è mettere

assieme il mosaico dei segmenti di DNA assieme il mosaico dei segmenti di DNA

creati dal sequenziamento del genoma creati dal sequenziamento del genoma

umano.

Utilizza sequenze ricavate dalle basi di dati Utilizza sequenze ricavate dalle basi di dati

pubbliche per alimentare una pipeline di pubbliche per alimentare una pipeline di

analisi.

Determina in maniera semi-automatica geni Determina in maniera semi-automatica geni

e caratteristiche rilevanti delle sequenze e caratteristiche rilevanti delle sequenze

Presenta i risultati attraverso il www.

(12)

Ensembl - L’architettura

(13)

Ensembl - Contenuto

GeniGeni

Noti da altri esperimenti;

Predetti da Ensembl.

Altre caratteristiche:

SNPs;

Repeats;

Homologies.

(14)

Ensembl - Identificatori

In progetti di questo tipo è essenziale In progetti di questo tipo è essenziale

definire un vocabolario di nomi comuni definire un vocabolario di nomi comuni

affinché un dato elemento possa essere affinché un dato elemento possa essere

identificato univocamente (i.e., nomi dei identificato univocamente (i.e., nomi dei

geni).

E’, inoltre, di fondamentale importanza E’, inoltre, di fondamentale importanza

disporre di identificatori stabili per le disporre di identificatori stabili per le

sequenze (pur riconoscendo la necessità sequenze (pur riconoscendo la necessità

della gestione delle versioni).

Gli identificatori specifici di Ensembl sono del Gli identificatori specifici di Ensembl sono del

tipo: ENSG0000XXXX , ENST00000XXXX, ...

(15)

Ensembl – La base di dati (1)

Le singole basi di dati vengono Le singole basi di dati vengono

costruite in più passi costruite in più passi

Creazione dello schema;

Caricamento dei dati di sequenza (DNA, Caricamento dei dati di sequenza (DNA,

clone, ...);

Costruzione di geni;

Analisi dei geni.

(16)

Ensembl – La base di dati (2)

Viene utilizzato MySQL. Le basi di dati Viene utilizzato MySQL. Le basi di dati

possono essere scaricate dal sito di possono essere scaricate dal sito di

Ensembl.

Ogni organismo ha più basi di dati:

Core;

Desease;

......

Il Core mantiene le informazioni Il Core mantiene le informazioni

d'interesse.

(17)

Ensembl -Le tabelle della base di dati

Dividiamo le tabelle in 3 gruppi:

tabelle fondamentali;

caratteristiche ed analisi;

ID mapping.

(18)

Le tabelle fondamentali - 1

assembly: Descrive come i contig si assembly: Descrive come i contig si

uniscono per creare la sequenza del uniscono per creare la sequenza del

cromosoma. Mantiene un mapping tra cromosoma. Mantiene un mapping tra

le locazioni sul cromosoma e locazioni le locazioni sul cromosoma e locazioni

sui contig.

assembly_exception: Fornisce assembly_exception: Fornisce

informazioni aggiuntive su una data informazioni aggiuntive su una data

sezione della precedente tabella.

attrib_type: Mantiene gli attributi attrib_type: Mantiene gli attributi

riconducibili ad una sequenza.

(19)

Tabelle fondamentali - 2

dna: Contiene le sequenze di DNA; è in dna: Contiene le sequenze di DNA; è in

rapporto 1:1 con i Contig.

exon: Mantiene informazioni sugli esoni, exon: Mantiene informazioni sugli esoni,

è associato ai trascritti mediante una è associato ai trascritti mediante una

chiave esterna.

exon_stable_id: Identificatori stabili.

exon_transcript: Mantiene la relazione exon_transcript: Mantiene la relazione

tra trascritti ed esoni.

(20)

Tabelle fondamentali - 3

gene: Permette di creare una relazione tra gene: Permette di creare una relazione tra

geni e trascritti.

prediction_exon, prediction transcript:

Informazione su esoni e trascritti predetti.

seq_region: Informazioni sulle regioni seq_region: Informazioni sulle regioni

delle sequenze; fa riferimento al DNA e al delle sequenze; fa riferimento al DNA e al

sistema di coordinate.

seq_region_attrib: Informazioni sugli seq_region_attrib: Informazioni sugli

attributi di una data regione; mantiene attributi di una data regione; mantiene

riferimenti a attib_type.

(21)

Tabelle fondamentali - 4

supporting_feature: giustifica il supporting_feature: giustifica il

processo di predizione con collegamenti processo di predizione con collegamenti

ad allineamenti della sequenza con ad allineamenti della sequenza con

DNA o proteine.

transcripts: Informazioni sui trascritti.

translation: Descrive quale parte degli translation: Descrive quale parte degli

esoni viene usate nella traduzione.

(22)

Caratteristiche ed Analisi - 1

analysis: Descrive programmi e basi di analysis: Descrive programmi e basi di dati utilizzati per creare una feature su dati utilizzati per creare una feature su

un dato pezzo di una sequenza.

dna_align_feature: Descrive un dna_align_feature: Descrive un

allineamento rispetto ad una sequenza allineamento rispetto ad una sequenza

ottenuto attraverso un BLAST.

map: Registra nomi di mappe per le map: Registra nomi di mappe per le

quali sono disponibili informazioni sui quali sono disponibili informazioni sui

marker.

marker: Le informazioni sul Marker.

(23)

Caratteristiche ed Analisi - 2

marker_feature: Descrive le posizioni marker_feature: Descrive le posizioni

dei marker.

marker_map_location: Mette in marker_map_location: Mette in

Relazione i marker e la mappa.

misc_attrib: Lega attributi a feature.

misc_feature: Mette in relazione misc_feature: Mette in relazione

l'attributo e la sequenza.

misc_set: Definisce insiemi di feature.

(24)

Caratteristiche ed Analisi - 3

prediction_transcript: Trascritti predetti prediction_transcript: Trascritti predetti

(genscan, SNAP).

protein_align_feature: Come per gli protein_align_feature: Come per gli

allineamenti di DNA.

protein_feature: Descrive le protein_feature: Descrive le

caratteristiche delle traduzioni caratteristiche delle traduzioni

(25)

ID mapping

gene_archive: Mantiene l'elenco dei geni gene_archive: Mantiene l'elenco dei geni

modificati o cancellati tra una release e modificati o cancellati tra una release e

l'altra.

mapping_session: Mappa gli stable ID tra mapping_session: Mappa gli stable ID tra

le varie basi di dati.

peptide_archive: Contiene i peptidi per peptide_archive: Contiene i peptidi per

traduzioni cancellate o modificate.

stable_id_event: Stabilisce cosa sia stable_id_event: Stabilisce cosa sia

accaduto ad uno stable ID (cancellazioni, accaduto ad uno stable ID (cancellazioni,

creazioni, relazioni tra stable ID).

(26)

Altre Basi di Dati Biologiche

TRANSFOG: una base di dati “limite”, in TRANSFOG: una base di dati “limite”, in

cui tutto è basato sul programma di cui tutto è basato sul programma di

ricerca dei fattori trascrizionali.

BASE: una base di dati per la gestione BASE: una base di dati per la gestione

di analisi di MicroArray (una descrizione di analisi di MicroArray (una descrizione

completa dell'esperimento completa dell'esperimento

dall'estrazione all'immagine).

(27)

Quanti e quali sono i DB biologici?

http://www3.oup.co.uk/nar/database/

per la lista in ordine alfabetico:

http://www3.oup.co.uk/nar/database/a/