BASI DI DATI BIOLOGICHE - 2
Basi di Dati Biologiche
Tipi principali di Basi di Dati Biologiche:
Tipi principali di Basi di Dati Biologiche:
Di sequenze Di sequenze : :
NCBI NCBI . .
Di annotazioni:
Di annotazioni:
Ensembl.
Ensembl.
Specifiche:
Specifiche:
Transfac.
Transfac.
Di analisi:
Di analisi:
Microarray.
Microarray.
Basi di dati di sequenze (1)
Basi di dati pubbliche:
Basi di dati pubbliche:
NCBI;
NCBI;
DDBJ;
DDBJ;
EBI. EBI.
Mantengono dati sul sequenziamento Mantengono dati sul sequenziamento
(sequenza FASTA) e sulle caratteristiche (sequenza FASTA) e sulle caratteristiche
conosciute riconducibili a tali sequenze conosciute riconducibili a tali sequenze
(regioni codificanti, regioni di legame, inizio (regioni codificanti, regioni di legame, inizio
della replicazione, ...).
della replicazione, ...).
Basi di dati di sequenze (2)
Deposito di sequenze provenienti da Deposito di sequenze provenienti da
sottomissioni dirette.
sottomissioni dirette.
Le tre le organizzazioni utilizzano DBMS diversi.
Le tre le organizzazioni utilizzano DBMS diversi.
NCBI – personalizzato;
NCBI – personalizzato;
EBI – SRS Oracle.
EBI – SRS Oracle.
Si scambiano dati quotidianamente.
Si scambiano dati quotidianamente.
Basi di dati di sequenze - Interazione
L'interazione con gli utenti è diversa per L'interazione con gli utenti è diversa per
ognuna delle organizzazioni.
ognuna delle organizzazioni.
NCBI:
NCBI:
Entrez;
Entrez;
EBI/DDBJ:
EBI/DDBJ:
SRS. SRS.
In tutti i casi, la struttura delle basi di dati In tutti i casi, la struttura delle basi di dati
è nascosta agli utenti.
è nascosta agli utenti.
Basi Di Dati di Sequenze – Flat File
L'interazione fra le tre organizzazioni è L'interazione fra le tre organizzazioni è organizzata attraverso un “protocollo”.
organizzata attraverso un “protocollo”.
Tale “protocollo” definisce il formato dei Tale “protocollo” definisce il formato dei
dati che vengono scambiati.
dati che vengono scambiati.
In modo indiretto fornisce delle In modo indiretto fornisce delle
informazioni sull'organizzazione dei dati.
informazioni sull'organizzazione dei dati.
Flat File - Introduzione
L'obiettivo dei flat file è di definire delle L'obiettivo dei flat file è di definire delle
regole che permettano alle tre basi di dati regole che permettano alle tre basi di dati
di scambiarsi informazioni.
di scambiarsi informazioni.
Le informazioni scambiate possono essere Le informazioni scambiate possono essere
di natura diversa:
di natura diversa:
informazioni sulla sequenza;
informazioni sulla sequenza;
caratteristiche (feature):
caratteristiche (feature):
funzioni biologiche;
interazioni fra molecole;
risultato dell'espressione di una funzione biologica.
Flat File - Struttura
Insieme di coppie chiave/valore.
Insieme di coppie chiave/valore.
Il valore può essere, a sua volta, una insieme Il valore può essere, a sua volta, una insieme
di coppie chiave/valore.
di coppie chiave/valore.
La chiave è stabilita dallo standad.
La chiave è stabilita dallo standad.
Del valore viene a volte definita la struttura.
Del valore viene a volte definita la struttura.
Flat File - Esempio.
LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION U49845
VERSION U49845.1 GI:1293613 KEYWORDS .
SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE 1 (bases 1 to 5028)
AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae
JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709
PUBMED 7871890
REFERENCE 2 (bases 1 to 5028)
AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.
TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein
JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260
PUBMED 8846915
REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T.
TITLE Direct Submission
JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA
Flat File - LOCUS
Il primo attributo (LOCUS) è strutturato:
Il primo attributo (LOCUS) è strutturato:
locus name – nell'esempio, SCU49845;
locus name – nell'esempio, SCU49845;
sequence length – 5028 bp;
sequence length – 5028 bp;
molecule type – DNA;
molecule type – DNA;
GenBank division – PLN = plant, fungal, GenBank division – PLN = plant, fungal,
and algal sequences;
and algal sequences;
modification date.
modification date.
Flat File - DEFINITION
Breve descrizione della sequenza, che Breve descrizione della sequenza, che
include informazioni quali l'organismo include informazioni quali l'organismo
di provenienza, il nome del gene, o di provenienza, il nome del gene, o
della proteina, e una qualche della proteina, e una qualche
descrizione delle funzioni della descrizione delle funzioni della
sequenza qualora essa non sia sequenza qualora essa non sia
codificante;
codificante;
E’ un campo poveramente strutturato, E’ un campo poveramente strutturato,
denominato
denominato annotazione annotazione della della sequenza.
sequenza.
Flat File - SOURCE
Informazioni non strutturate Informazioni non strutturate
sull'organismo e, talvolta, sul tipo della sull'organismo e, talvolta, sul tipo della
molecola di provenienza della molecola di provenienza della
sequenza;
sequenza;
Contiene la sotto-specificazione Contiene la sotto-specificazione
ORGANISM:
ORGANISM:
Nome scientifico formale (genere e specie) Nome scientifico formale (genere e specie)
dell'organismo di provenienza.
dell'organismo di provenienza.
Flat File – IDENTIFICATORI
ACCESSION: è l'identificatore stabile del ACCESSION: è l'identificatore stabile del
record della sequenza, costituito da una record della sequenza, costituito da una
combinazione di lettere e numeri.
combinazione di lettere e numeri.
VERSION: è l'identificatore di una VERSION: è l'identificatore di una
singola, specifica sequenza all'interno singola, specifica sequenza all'interno
della genbank.
della genbank.
GI: è un numero, equivalente a GI: è un numero, equivalente a
VERSION, attribuito ad ogni sequenza.
VERSION, attribuito ad ogni sequenza.
Flat File – REFERENCE
Pubblicazioni scientifiche relative alla Pubblicazioni scientifiche relative alla
sequenza, che hanno per oggetto dati sequenza, che hanno per oggetto dati
riportati nel record (sia sulla sequenza riportati nel record (sia sulla sequenza
che sull'annotazione);
che sull'annotazione);
E' costituito da un insieme di coppie E' costituito da un insieme di coppie
chiave/valore.
chiave/valore.
Flat File – REFERENCE sottocampi
AUTHORS – elenco degli autori;
AUTHORS – elenco degli autori;
TITLE – titolo del documento;
TITLE – titolo del documento;
JOURNAL – dove è stato pubblicato;
JOURNAL – dove è stato pubblicato;
MEDLINE – MedLine unique identifier (UID);
MEDLINE – MedLine unique identifier (UID);
PUBMED – PubMed Identifier (PMID).
PUBMED – PubMed Identifier (PMID).
Direct Submission – Informazioni su chi ha inviato Direct Submission – Informazioni su chi ha inviato
la sequenza.
la sequenza.
Flat File – FEATURES
Oltre ai dati sulla sequenza, sono presenti, Oltre ai dati sulla sequenza, sono presenti,
organizzati in maniera diversa, dati relativi a organizzati in maniera diversa, dati relativi a
caratteristiche associabili alla sequenza;
caratteristiche associabili alla sequenza;
Tali dati, detti anche Feature Table, constano Tali dati, detti anche Feature Table, constano
dei seguenti elementi:
dei seguenti elementi:
Feature Key: singola parola indicante il gruppo Feature Key: singola parola indicante il gruppo funzionale;
funzionale;
Location: informazione utile per reperire la Location: informazione utile per reperire la feature;
feature;
Qualificazioni: informazioni ausiliarie sulla feature.
Qualificazioni: informazioni ausiliarie sulla feature.
FEATURES – Peculiarità
Alcuni caratteristiche interessanti delle features Alcuni caratteristiche interessanti delle features
sono:
sono:
Si possono definire gerarchie di features;
Si possono definire gerarchie di features;
Le localizzazioni possono essere complesse;
Le localizzazioni possono essere complesse;
Possono essere disposte in maniera ordinata;
Possono essere disposte in maniera ordinata;
L'evidenza sperimentale può essere fornita in L'evidenza sperimentale può essere fornita in
modo esplicito;
modo esplicito;
La sintassi si presta ad un parsing automatico.
La sintassi si presta ad un parsing automatico.
FEATURES – Esempio (1)
Key Location/Qualifiers Key Location/Qualifiers
CDS 23..400 CDS 23..400
/product="alcohol dehydrogenase"
/gene="adhI"
LA feature CDS è una sequenza codificante che LA feature CDS è una sequenza codificante che
inizia alla base 23 e finisce alla base 400, ha un inizia alla base 23 e finisce alla base 400, ha un
prodotto detto 'alcohol dehydrogenase' e prodotto detto 'alcohol dehydrogenase' e
codifica per un gene detto 'adhI'
codifica per un gene detto 'adhI'
FEATURES – Esempio (2)
Key Location/Qualifiers Key Location/Qualifiers
CDS join(544..589,688..>1032) CDS join(544..589,688..>1032)
/product="T-cell receptor beta-chain"
Questa feature è una sequenza parzialmente Questa feature è una sequenza parzialmente
codificante formata unendo gli elementi indicati codificante formata unendo gli elementi indicati
a formare un'unica sequenza contigua che a formare un'unica sequenza contigua che
codifica un prodotto detto 'T-cell receptor beta- codifica un prodotto detto 'T-cell receptor beta-
chain'.
chain'.
FEATURES – Esempio (3)
FEATURES Location/Qualifiers source 1..5028
/organism="Saccharomyces cerevisiae"
/db_xref="taxon:4932"
/chromosome="IX"
/map="9"
CDS <1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM"
gene 687..3158 /gene="AXL2"
CDS 687..3158 /gene="AXL2"
/note="plasma membrane glycoprotein"
/codon_start=1
/function="required for axial budding pattern of S.
cerevisiae"
/product="Axl2p"
/protein_id="AAA98666.1"
/db_xref="GI:1293615"
/translation="MTQLQIS...PEML"
gene complement(3300..4037) /gene="REV7"
CDS complement(3300..4037) /gene="REV7"
/codon_start=1 /product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLR...SLF"
FEATURES - source
E' una feature particolare che riassume E' una feature particolare che riassume
quanto si sa sull'elemento sulla base quanto si sa sull'elemento sulla base
del solo sequenziamento:
del solo sequenziamento:
lunghezza;
lunghezza;
organismo;
organismo;
locazione genomica;
locazione genomica;
ecc...
ecc...
FEATURES - CDS
Regione di nucleotidi che corrisponde Regione di nucleotidi che corrisponde
ad una sequenza di aminoacidi in una ad una sequenza di aminoacidi in una
proteina (sequenza codificante):
proteina (sequenza codificante):
La prima riga è la locazione;
La prima riga è la locazione;
Seguono dati accessori:
Seguono dati accessori:
product;
protein_id;
translation.
FEATURES - Gene
Una regione di interesse biologico Una regione di interesse biologico
identificata come un gene e alla quale è identificata come un gene e alla quale è
stato assegnato un nome.
stato assegnato un nome.
Locazione;
Locazione;
Nome del Gene.
Nome del Gene.
FLAT FILE
Alla fine del flat file vengono riportati:
Alla fine del flat file vengono riportati:
BASE COUNT – il numero di A, C, T e G nella BASE COUNT – il numero di A, C, T e G nella
sequenza;
sequenza;
Last but not list, la sequenza.
Last but not list, la sequenza.
FEATURES – Esempio (3)
BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc
...
4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc