• Non ci sono risultati.

BASI DI DATI BIOLOGICHE - 2

N/A
N/A
Protected

Academic year: 2021

Condividi "BASI DI DATI BIOLOGICHE - 2"

Copied!
26
0
0

Testo completo

(1)

BASI DI DATI BIOLOGICHE - 2

(2)

Basi di Dati Biologiche

Tipi principali di Basi di Dati Biologiche:

Tipi principali di Basi di Dati Biologiche:

Di sequenze Di sequenze : :

NCBI NCBI . .

Di annotazioni:

Di annotazioni:

Ensembl.

Ensembl.

Specifiche:

Specifiche:

Transfac.

Transfac.

Di analisi:

Di analisi:

Microarray.

Microarray.

(3)

Basi di dati di sequenze (1)

Basi di dati pubbliche:

Basi di dati pubbliche:

NCBI;

NCBI;

DDBJ;

DDBJ;

EBI. EBI.

Mantengono dati sul sequenziamento Mantengono dati sul sequenziamento

(sequenza FASTA) e sulle caratteristiche (sequenza FASTA) e sulle caratteristiche

conosciute riconducibili a tali sequenze conosciute riconducibili a tali sequenze

(regioni codificanti, regioni di legame, inizio (regioni codificanti, regioni di legame, inizio

della replicazione, ...).

della replicazione, ...).

(4)

Basi di dati di sequenze (2)

Deposito di sequenze provenienti da Deposito di sequenze provenienti da

sottomissioni dirette.

sottomissioni dirette.

Le tre le organizzazioni utilizzano DBMS diversi.

Le tre le organizzazioni utilizzano DBMS diversi.

NCBI – personalizzato;

NCBI – personalizzato;

EBI – SRS Oracle.

EBI – SRS Oracle.

Si scambiano dati quotidianamente.

Si scambiano dati quotidianamente.

(5)

Basi di dati di sequenze - Interazione

L'interazione con gli utenti è diversa per L'interazione con gli utenti è diversa per

ognuna delle organizzazioni.

ognuna delle organizzazioni.

NCBI:

NCBI:

Entrez;

Entrez;

EBI/DDBJ:

EBI/DDBJ:

SRS. SRS.

In tutti i casi, la struttura delle basi di dati In tutti i casi, la struttura delle basi di dati

è nascosta agli utenti.

è nascosta agli utenti.

(6)

Basi Di Dati di Sequenze – Flat File

L'interazione fra le tre organizzazioni è L'interazione fra le tre organizzazioni è organizzata attraverso un “protocollo”.

organizzata attraverso un “protocollo”.

Tale “protocollo” definisce il formato dei Tale “protocollo” definisce il formato dei

dati che vengono scambiati.

dati che vengono scambiati.

In modo indiretto fornisce delle In modo indiretto fornisce delle

informazioni sull'organizzazione dei dati.

informazioni sull'organizzazione dei dati.

(7)

Flat File - Introduzione

L'obiettivo dei flat file è di definire delle L'obiettivo dei flat file è di definire delle

regole che permettano alle tre basi di dati regole che permettano alle tre basi di dati

di scambiarsi informazioni.

di scambiarsi informazioni.

Le informazioni scambiate possono essere Le informazioni scambiate possono essere

di natura diversa:

di natura diversa:

informazioni sulla sequenza;

informazioni sulla sequenza;

caratteristiche (feature):

caratteristiche (feature):

funzioni biologiche;

interazioni fra molecole;

risultato dell'espressione di una funzione biologica.

(8)

Flat File - Struttura

Insieme di coppie chiave/valore.

Insieme di coppie chiave/valore.

Il valore può essere, a sua volta, una insieme Il valore può essere, a sua volta, una insieme

di coppie chiave/valore.

di coppie chiave/valore.

La chiave è stabilita dallo standad.

La chiave è stabilita dallo standad.

Del valore viene a volte definita la struttura.

Del valore viene a volte definita la struttura.

(9)

Flat File - Esempio.

LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.

ACCESSION U49845

VERSION U49845.1 GI:1293613 KEYWORDS .

SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae

Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;

Saccharomycetales; Saccharomycetaceae; Saccharomyces.

REFERENCE 1 (bases 1 to 5028)

AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.

TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae

JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709

PUBMED 7871890

REFERENCE 2 (bases 1 to 5028)

AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M.

TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein

JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260

PUBMED 8846915

REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T.

TITLE Direct Submission

JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA

(10)

Flat File - LOCUS

Il primo attributo (LOCUS) è strutturato:

Il primo attributo (LOCUS) è strutturato:

locus name – nell'esempio, SCU49845;

locus name – nell'esempio, SCU49845;

sequence length – 5028 bp;

sequence length – 5028 bp;

molecule type – DNA;

molecule type – DNA;

GenBank division – PLN = plant, fungal, GenBank division – PLN = plant, fungal,

and algal sequences;

and algal sequences;

modification date.

modification date.

(11)

Flat File - DEFINITION

Breve descrizione della sequenza, che Breve descrizione della sequenza, che

include informazioni quali l'organismo include informazioni quali l'organismo

di provenienza, il nome del gene, o di provenienza, il nome del gene, o

della proteina, e una qualche della proteina, e una qualche

descrizione delle funzioni della descrizione delle funzioni della

sequenza qualora essa non sia sequenza qualora essa non sia

codificante;

codificante;

E’ un campo poveramente strutturato, E’ un campo poveramente strutturato,

denominato

denominato annotazione annotazione della della sequenza.

sequenza.

(12)

Flat File - SOURCE

Informazioni non strutturate Informazioni non strutturate

sull'organismo e, talvolta, sul tipo della sull'organismo e, talvolta, sul tipo della

molecola di provenienza della molecola di provenienza della

sequenza;

sequenza;

Contiene la sotto-specificazione Contiene la sotto-specificazione

ORGANISM:

ORGANISM:

Nome scientifico formale (genere e specie) Nome scientifico formale (genere e specie)

dell'organismo di provenienza.

dell'organismo di provenienza.

(13)

Flat File – IDENTIFICATORI

ACCESSION: è l'identificatore stabile del ACCESSION: è l'identificatore stabile del

record della sequenza, costituito da una record della sequenza, costituito da una

combinazione di lettere e numeri.

combinazione di lettere e numeri.

VERSION: è l'identificatore di una VERSION: è l'identificatore di una

singola, specifica sequenza all'interno singola, specifica sequenza all'interno

della genbank.

della genbank.

GI: è un numero, equivalente a GI: è un numero, equivalente a

VERSION, attribuito ad ogni sequenza.

VERSION, attribuito ad ogni sequenza.

(14)

Flat File – REFERENCE

Pubblicazioni scientifiche relative alla Pubblicazioni scientifiche relative alla

sequenza, che hanno per oggetto dati sequenza, che hanno per oggetto dati

riportati nel record (sia sulla sequenza riportati nel record (sia sulla sequenza

che sull'annotazione);

che sull'annotazione);

E' costituito da un insieme di coppie E' costituito da un insieme di coppie

chiave/valore.

chiave/valore.

(15)

Flat File – REFERENCE sottocampi

AUTHORS – elenco degli autori;

AUTHORS – elenco degli autori;

TITLE – titolo del documento;

TITLE – titolo del documento;

JOURNAL – dove è stato pubblicato;

JOURNAL – dove è stato pubblicato;

MEDLINE – MedLine unique identifier (UID);

MEDLINE – MedLine unique identifier (UID);

PUBMED – PubMed Identifier (PMID).

PUBMED – PubMed Identifier (PMID).

Direct Submission – Informazioni su chi ha inviato Direct Submission – Informazioni su chi ha inviato

la sequenza.

la sequenza.

(16)

Flat File – FEATURES

Oltre ai dati sulla sequenza, sono presenti, Oltre ai dati sulla sequenza, sono presenti,

organizzati in maniera diversa, dati relativi a organizzati in maniera diversa, dati relativi a

caratteristiche associabili alla sequenza;

caratteristiche associabili alla sequenza;

Tali dati, detti anche Feature Table, constano Tali dati, detti anche Feature Table, constano

dei seguenti elementi:

dei seguenti elementi:

Feature Key: singola parola indicante il gruppo Feature Key: singola parola indicante il gruppo funzionale;

funzionale;

Location: informazione utile per reperire la Location: informazione utile per reperire la feature;

feature;

Qualificazioni: informazioni ausiliarie sulla feature.

Qualificazioni: informazioni ausiliarie sulla feature.

(17)

FEATURES – Peculiarità

Alcuni caratteristiche interessanti delle features Alcuni caratteristiche interessanti delle features

sono:

sono:

Si possono definire gerarchie di features;

Si possono definire gerarchie di features;

Le localizzazioni possono essere complesse;

Le localizzazioni possono essere complesse;

Possono essere disposte in maniera ordinata;

Possono essere disposte in maniera ordinata;

L'evidenza sperimentale può essere fornita in L'evidenza sperimentale può essere fornita in

modo esplicito;

modo esplicito;

La sintassi si presta ad un parsing automatico.

La sintassi si presta ad un parsing automatico.

(18)

FEATURES – Esempio (1)

Key Location/Qualifiers Key Location/Qualifiers

CDS 23..400 CDS 23..400

/product="alcohol dehydrogenase"

/gene="adhI"

LA feature CDS è una sequenza codificante che LA feature CDS è una sequenza codificante che

inizia alla base 23 e finisce alla base 400, ha un inizia alla base 23 e finisce alla base 400, ha un

prodotto detto 'alcohol dehydrogenase' e prodotto detto 'alcohol dehydrogenase' e

codifica per un gene detto 'adhI'

codifica per un gene detto 'adhI'

(19)

FEATURES – Esempio (2)

Key Location/Qualifiers Key Location/Qualifiers

CDS join(544..589,688..>1032) CDS join(544..589,688..>1032)

/product="T-cell receptor beta-chain"

Questa feature è una sequenza parzialmente Questa feature è una sequenza parzialmente

codificante formata unendo gli elementi indicati codificante formata unendo gli elementi indicati

a formare un'unica sequenza contigua che a formare un'unica sequenza contigua che

codifica un prodotto detto 'T-cell receptor beta- codifica un prodotto detto 'T-cell receptor beta-

chain'.

chain'.

(20)

FEATURES – Esempio (3)

FEATURES Location/Qualifiers source 1..5028

/organism="Saccharomyces cerevisiae"

/db_xref="taxon:4932"

/chromosome="IX"

/map="9"

CDS <1..206

/codon_start=3

/product="TCP1-beta"

/protein_id="AAA98665.1"

/db_xref="GI:1293614"

/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM"

gene 687..3158 /gene="AXL2"

CDS 687..3158 /gene="AXL2"

/note="plasma membrane glycoprotein"

/codon_start=1

/function="required for axial budding pattern of S.

cerevisiae"

/product="Axl2p"

/protein_id="AAA98666.1"

/db_xref="GI:1293615"

/translation="MTQLQIS...PEML"

gene complement(3300..4037) /gene="REV7"

CDS complement(3300..4037) /gene="REV7"

/codon_start=1 /product="Rev7p"

/protein_id="AAA98667.1"

/db_xref="GI:1293616"

/translation="MNRWVEKWLR...SLF"

(21)

FEATURES - source

E' una feature particolare che riassume E' una feature particolare che riassume

quanto si sa sull'elemento sulla base quanto si sa sull'elemento sulla base

del solo sequenziamento:

del solo sequenziamento:

lunghezza;

lunghezza;

organismo;

organismo;

locazione genomica;

locazione genomica;

ecc...

ecc...

(22)

FEATURES - CDS

Regione di nucleotidi che corrisponde Regione di nucleotidi che corrisponde

ad una sequenza di aminoacidi in una ad una sequenza di aminoacidi in una

proteina (sequenza codificante):

proteina (sequenza codificante):

La prima riga è la locazione;

La prima riga è la locazione;

Seguono dati accessori:

Seguono dati accessori:

product;

protein_id;

translation.

(23)

FEATURES - Gene

Una regione di interesse biologico Una regione di interesse biologico

identificata come un gene e alla quale è identificata come un gene e alla quale è

stato assegnato un nome.

stato assegnato un nome.

Locazione;

Locazione;

Nome del Gene.

Nome del Gene.

(24)

FLAT FILE

Alla fine del flat file vengono riportati:

Alla fine del flat file vengono riportati:

BASE COUNT – il numero di A, C, T e G nella BASE COUNT – il numero di A, C, T e G nella

sequenza;

sequenza;

Last but not list, la sequenza.

Last but not list, la sequenza.

(25)

FEATURES – Esempio (3)

BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN

1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc

...

4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

(26)

ESERCIZIO

Sulla base del file di esempio, si Sulla base del file di esempio, si

costruisca una base di dati che costruisca una base di dati che

mantenga le informazioni in esso mantenga le informazioni in esso

riportate, ovvero:

riportate, ovvero:

Informazioni sulle sequenze:

Informazioni sulle sequenze:

descrizione;

source;

reference.

Features relative alle varie sequenze.

Features relative alle varie sequenze.

Riferimenti

Documenti correlati

Risultato matr cognome nome ciclo anno relatore.

DISTINCT ( π (Studenti))) ElencoNomi =  ORDER BY cognome, nome

tipo CHAR(10) qualifica CHAR(15) facolta CHAR(10) nome CHAR(20) cognome CHAR(20) codice CHAR(4) Docente.

¤ Tecnologie emergenti: Data Warehouse, Sistemi di Business Intelligence, Basi di Dati multimediali, Big

¨ Tali schemi di relazione hanno anch'essi una semantica chiara, però entrambe contravvengono la linea guida 1, contenendo attributi di entità distinte... Riduzione dei

¨ La progettazione fisica di un db si propone non solo di fornire delle strutture dati appropriate, ma anche di garantire delle buone performance del database system. ¨

¨ Se ogni record ha esattamente la stessa dimensione (in byte), il file è detto essere costituito da record a lunghezza fissa.. ¨ Se record diversi hanno dimensioni diverse, il file

Il campo di indicizzazione è un campo chiave, detto chiave secondaria, contenente un valore distinto per ogni record nel file dati.. Il campo di indicizzazione è un campo non