• Non ci sono risultati.

Banche dati biologiche

N/A
N/A
Protected

Academic year: 2021

Condividi "Banche dati biologiche"

Copied!
59
0
0

Testo completo

(1)

BIOINFORMATICA

BIOINFORMATICA

La

La

Bioinformatica

Bioinformatica

nasce come “disciplina” agli inizi degli anni ‘80 con

nasce come “disciplina” agli inizi degli anni ‘80 con

l’applicazione dei metodi di

l’applicazione dei metodi di

sequenziamento

sequenziamento

rapido degli acidi nucleici.

rapido degli acidi nucleici.

Apparve subito evidente l’indispensabilità dell’utilizzo degli s

Apparve subito evidente l’indispensabilità dell’utilizzo degli strumenti

trumenti

informatici per l’immagazzinamento e alla caratterizzazione di

(2)

Strumenti

Strumenti

Bioinformatici

Bioinformatici

Banche Dati

Banche Dati

Programmi di Analisi

Programmi di Analisi

• Primarie

• Specializzate

• Genomiche

• Acidi Nucleici

• Proteine

(3)

Una quantità enorme di strumenti Bioinformatici sulle

biosequenze (acidi nucleici e proteine) sono attualmente

disponibili ai ricercatori come risorse telematiche.

Individuare il programma o la risorsa giusta per l’analisi delle

sequenze e poi interpretarne il risultato può essere alquanto

frustrante.

Risorse

(4)

Toxicology Physiology Sequencing Information Genetics Structural Biology Gene Expression Medicine Molecular Biology

La Giungla dei Dati

La Giungla dei Dati

(5)

Se i programmi di analisi rappresentano i

Se i programmi di analisi rappresentano i metodi sperimentali

metodi sperimentali

della

della

bioinformatica le banche dati rappresentano il

bioinformatica le banche dati rappresentano il materiale sperimentale.

materiale sperimentale.

Banche Dati di biosequenze

Banche Dati di biosequenze

Banche Dati genomiche

Banche Dati genomiche

Banche dati di espressione genica

Banche dati di espressione genica

Banche dati di proteomica

Banche dati di proteomica

Banche Dati Biologiche

Banche Dati Biologiche

Le banche dati possono essere classificate in quattro grosse

Le banche dati possono essere classificate in quattro grosse

categorie :

categorie :

(6)

Le banche dati sono distribuite un po’ in tutto il mondo ma

Le banche dati sono distribuite un po’ in tutto il mondo ma

ci sono due

ci sono due

repository

repository

particolarmente importanti:

particolarmente importanti:

EBI (Europa)

EBI (Europa)

NCBI (USA)

NCBI (USA)

Banche Dati Biologiche

Banche Dati Biologiche

Le banche dati sono il punto di partenza per la creazione

Le banche dati sono il punto di partenza per la creazione

di interfacce utente che permettono un accesso personale

di interfacce utente che permettono un accesso personale

senza alcun specifico training informatico.

senza alcun specifico training informatico.

In altre parole le interfacce utente rendono invisibili

In altre parole le interfacce utente rendono invisibili

all’utente finale le operazioni, talvolta complesse, necessarie

all’utente finale le operazioni, talvolta complesse, necessarie

ad esempio a scrivere una

(7)

Banche Dati Biologiche

Banche Dati Biologiche

Sebbene l’uso delle interfacce utente semplifichi la vita

Sebbene l’uso delle interfacce utente semplifichi la vita

dell’utente di base hanno di conseguenza delle funzionalità

dell’utente di base hanno di conseguenza delle funzionalità

limitate.

limitate.

Per tale motivo qualora si sia interessati ad analizzare

Per tale motivo qualora si sia interessati ad analizzare

un singolo gene con una moltitudine di approcci, le interfacce

un singolo gene con una moltitudine di approcci, le interfacce

permettono, con un numero limitato di “click”, di spaziare

permettono, con un numero limitato di “click”, di spaziare

attraverso le informazioni associate al gene in esame.

attraverso le informazioni associate al gene in esame.

Il problema sorge quando invece si intende fare “data mining”

Il problema sorge quando invece si intende fare “data mining”

di alcune centinaia di geni contemporaneamente.

di alcune centinaia di geni contemporaneamente.

Per tale motivo la possibilità di lavorare sui

Per tale motivo la possibilità di lavorare sui

dataset

dataset

di partenza

di partenza

permette una maggiore flessibilità d’uso anche se a scapito

permette una maggiore flessibilità d’uso anche se a scapito

di una maggiore difficoltà di utilizzo.

(8)

Banche Dati Biologiche

Banche Dati Biologiche

Sia l’EBI che NCBI oltre a fornire una serie di servizi alla

Sia l’EBI che NCBI oltre a fornire una serie di servizi alla

comunità biologica sono tra i principali depositari dei dati di

comunità biologica sono tra i principali depositari dei dati di

partenza di svariati database.

partenza di svariati database.

Nelle prossime diapositive analizzeremo a grandi linee

Nelle prossime diapositive analizzeremo a grandi linee

alcuni tra i database particolarmente utili per estrarre

alcuni tra i database particolarmente utili per estrarre

informazione funzionale

(9)
(10)

La ricerca in banca dati può essere attuata mediante due modalit

La ricerca in banca dati può essere attuata mediante due modalit

à:

à:

Utilizzo di parole chiavi con la ricerca in una banca dati infor

Utilizzo di parole chiavi con la ricerca in una banca dati infor

mativa

mativa

.

.

Gli strumenti bioinformatici attualmente disponibili sono:

Gli strumenti bioinformatici attualmente disponibili sono:

Utilizzo di sequenze con la ricerca in una banca dati di sequenza

Gli strumenti bioinformatici sono i programmi di Database

Gli strumenti bioinformatici sono i programmi di Database

searching:

searching

:

SRS :

SRS :

Sequence Retrieval

Sequence Retrieval

System

System

Entrez

Entrez

DBGET

DBGET

I tre sistemi differiscono tra di loro, per il numero e il tipo

I tre sistemi differiscono tra di loro, per il numero e il tipo di banche

di banche

dati e

dati e links

links

ad altre sorgenti informative.

ad altre sorgenti informative.

blast

blast

fasta

fasta

Sistemi di Interrogazione

Sistemi di Interrogazione

Banche Dati

Banche Dati

(11)

SRS :

SRS :

Sequence Retrieval

Sequence Retrieval

System

System

SRS è una interfaccia omogenea che copre molte banche dati biolo

SRS è una interfaccia omogenea che copre molte banche dati biolo

giche

giche

e distribuito dalla LION

e distribuito dalla LION

Bioscience

Bioscience

, AG -

, AG

-

UK .

UK .

Le banche dati rappresentate in questo sistema sono di varia nat

Le banche dati rappresentate in questo sistema sono di varia natura:

ura:

Sequenze nucleotidiche e proteiche

Sequenze nucleotidiche e proteiche

Strutture proteiche

Strutture proteiche

Mutazioni

Mutazioni

ed altre

(12)
(13)

http://

http://

srs

srs

.

.

ebi

ebi

.

.

ac

ac

.

.

uk

uk

/

/

Banca Dati Banca Dati

(14)

Ascorbate oxidase Ascorbate oxidase

(15)

Link

Link

(16)

Link

Link

(17)
(18)

Entrez

Entrez

Entrez

Entrez

è un sistema di interrogazione che integra le banche dati dell’N

è un sistema di interrogazione che integra le banche dati dell’N

CBI

CBI

(

(

national Biotechnology

national Biotechnology

Information).

Information).

Le banche dati gestite ed integrate nel sistema sono:

Le banche dati gestite ed integrate nel sistema sono:

PubMed

PubMed

Sequenze nucleotidiche

Sequenze nucleotidiche

Sequenze proteiche

Sequenze proteiche

Strutture macromolecolari

Strutture macromolecolari

Genomi completi

Genomi completi

Dati di popolazioni

Dati di popolazioni

Malattie genetiche

Malattie genetiche

Tassonomia

Tassonomia

Espressione genica

Espressione genica

Marcatori e STS

Marcatori e STS

Polimorfismo

Polimorfismo

(19)

Entrez

Entrez

-

-

PubMed

PubMed

http://www.

http://www.

ncbi

ncbi

.

.

nlm

nlm

.

.

nih

nih

.

.

gov

gov

/

/

entrez

entrez

/

/

query

query

.

.

fcgi

fcgi

?db=

?db=

PubMed

PubMed

Collezione della letteratura biomedica

(20)

Entrez

Entrez -

-

Sequenze Nucleotidiche

Sequenze Nucleotidiche

http://www.

(21)

Entrez

Entrez -

-

Sequenze Nucleotidiche

Sequenze Nucleotidiche

Esempio di applicazione:

Esempio di applicazione:

Molti batteri si sono evoluti acquisendo una resistenza agli ant

Molti batteri si sono evoluti acquisendo una resistenza agli ant

ibiotici. Un esempio

ibiotici. Un esempio

è il

è il

Mycobacterium Tubercolosis

Mycobacterium Tubercolosis

, agente responsabile della tubercolosi. La domanda

, agente responsabile della tubercolosi. La domanda

che ci si pone è:

che ci si pone è:

Ci sono geni che presentano nel M.

Ci sono geni che presentano nel M.

Tubercolosis

Tubercolosis

un “

un “

Penicillin

Penicillin

-

-

binding

binding

” ?

” ?

Passi:

Passi:

1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per

1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per

Penicillin

Penicillin

-

-

binding

binding

2. Cerchiamo solo le sequenze di M.

2. Cerchiamo solo le sequenze di M.

Tubercolosis

Tubercolosis

.

.

3. Combiniamo i due criteri di selezione.

(22)

Penicillin-binding Criterio di selezioneCriterio di selezione

Selezionare il termine Limits Selezionare il termine Limits

Numero sequenze

(23)

Ricerca limitata solo al campo:

Ricerca limitata solo al campo: OrganismOrganism

Mycobacterium Tuberculosis

Organismo da ricercare

(24)

Sequenze di M.

Sequenze di M.

Tuberculosis

Tuberculosis

Numero di Sequenze Numero di Sequenze

Scegliere

Scegliere HistoryHistory per combinare i criteri

(25)

Unione dei due criteri di selezione

Unione dei due criteri di selezione

#2 and #1 #2 and #1

Sintassi di unione criteri

Sintassi di unione criteri

(26)

Risultato Finale

Risultato Finale

Numero di Sequenze totali

(27)

Entrez

Entrez

-

-

Strutture macromolecolari

Strutture macromolecolari

http://www.

http://www.ncbincbi..nlmnlm..nihnih..govgov//entrezentrez//queryquery..fcgifcgi?db=?db=StructureStructure

Aconitase Aconitase

Parola da cercare

(28)

Sequenze trovate

(29)

Entrez

Entrez

-

-

Genomi Completi

Genomi Completi

Sono presenti più di 800 genomi, alcuni in fase di conclusione.

Sono presenti più di 800 genomi, alcuni in fase di conclusione. I genomi rappresentatiI genomi rappresentati nel sistema appartengono ai: Batteri,

nel sistema appartengono ai: Batteri, ArcheabatteriArcheabatteri, Eucarioti, Virus e , Eucarioti, Virus e OrganelliOrganelli

http://www.

(30)

Entrez

Entrez

-

-

Dati di Popolazione

Dati di Popolazione

La collezione contiene un insieme di sequenze di DNA , utilizzat

La collezione contiene un insieme di sequenze di DNA , utilizzat

e per studi

e per studi

evolutivi di popolazione.

evolutivi di popolazione.

Esempio di Scheda

Esempio di Scheda

http://www.

(31)

Entrez

Entrez

-

-

Malattie Genetiche

Malattie Genetiche

http://www.

http://www.ncbincbi..nlmnlm..nihnih..govgov//entrezentrez//queryquery..fcgifcgi?db=OMIM?db=OMIM

Catalogo di geni umani e disordini genetici

Catalogo di geni umani e disordini genetici

(32)

Esempio di Scheda

Esempio di Scheda

(33)

Entrez

Entrez

-

-

Tassonomia

Tassonomia

La collezione contiene i nomi di tutti gli organismi rappresenta

La collezione contiene i nomi di tutti gli organismi rappresentati nelle ti nelle banche dati di biosequenze con almeno una sequenza nucleotidica

banche dati di biosequenze con almeno una sequenza nucleotidica o proteica.o proteica.

http://www.

(34)

Entrez

Entrez

-

-

Polimorfismo

Polimorfismo

SNP (Single of

SNP (Single of

Nucleotide Polymorphism

Nucleotide Polymorphism

)

)

http://www.

(35)

Entrez

Entrez

-

-

Domini Conservati

Domini Conservati

La collezione contiene domini funzionali depositati dai ricercat

La collezione contiene domini funzionali depositati dai ricercat

ori,come

ori,come

risultato di un multiallineamento.

risultato di un multiallineamento.

http://www.

http://www.ncbincbi..nlmnlm..nihnih..govgov//entrezentrez//queryquery..fcgifcgi?db=?db=cddcdd

Visualizzazione Struttura

Visualizzazione Struttura

Multiallineamento

Multiallineamento

(36)

DBGET

DBGET

Integrated

Integrated database

database retrieval

retrieval

system

system

http://www.

http://www.

genome

genome

.ad.

.ad.

jp

jp

/

/

dbget

dbget

/

/

dbget

dbget

.

.

html

html

Elenco delle banche disponibile

Elenco delle banche disponibile

(37)

Human Genome Sequencing Centers

Human Genome Sequencing Centers

http://www-shgc.stanford.edu/

http://www.sanger.ac.uk/

http://www.hgsc.bcm.tmc.edu/

http://www.jgi.doe.gov/

http://www.tigr.org/

(38)

I dati ottenuti mediante il processo di annotazione genomica, so

I dati ottenuti mediante il processo di annotazione genomica, so

no a loro volta

no a loro volta

organizzati e messi a disposizione della comunità scientifica me

organizzati e messi a disposizione della comunità scientifica me

diante i sistemi

diante i sistemi

chiamati "

chiamati "

Genome

Genome

Browser

Browser

" . I Portali Web più organizzati sui dati genomici sono:

" . I Portali Web più organizzati sui dati genomici sono:

National

National

Center

Center

Biotechnology

Biotechnology

Information

Information

-

-

MapViewer

MapViewer

http://www.

http://www.

ncbi

ncbi

.

.

nlm

nlm

.

.

nih

nih

.

.

gov

gov

/

/

genome

genome

/guide/human

/guide/human

University of California, Santa

University of California, Santa

Cruz

Cruz

http://

http://

genome

genome

.

.

ucsc

ucsc

.

.

edu

edu

/

/

Ensembl

Ensembl

System

System

-

-

EBI

EBI

-

-

Sanger

Sanger

Center (UK)

Center (UK)

http://www.ensemble.

http://www.ensemble.

org

org

/

/

Genome

(39)

Map

Map

Viewer

Viewer

-

-

NCBI

NCBI

Numero di geni sul

Numero di geni sul Ch Ch 1313 Cromosomi

Cromosomi

Sistema interattivo per la

Sistema interattivo per la visualizazzione visualizazzione delle mappe genomiche, sequenze e geni.delle mappe genomiche, sequenze e geni. http://www.

http://www.ncbincbi..nlmnlm..nihnih..govgov//genomegenome/guide/human/guide/human

Mostra la posizione del gene nel

Mostra la posizione del gene nel

contesto del contig genomico con

contesto del contig genomico con

la sequenza nucleotidica e proteica

la sequenza nucleotidica e proteica

Visualizza la struttura del gene

(40)

University of California, Santa

University of California, Santa CruzCruz http://

http://genomegenome..ucscucsc..eduedu//

Genome

(41)

Visualizzazione del contesto

Visualizzazione del contesto

genomico del ADM2 mRNA

genomico del ADM2 mRNA

Regione cromosomica Regione cromosomica

(42)

Genome

Genome

Browser

Browser

Ensembl

Ensembl System System http://www.

(43)

DNA Sequence

DNA Genomic

Protein Sequence

Structure

RNA Structure Comparion

RNA Structure

Motif Search

Databank Search

Multiple Sequence

alignment

Evolutionary Analysis

Gene Prediction

Structural Similarity

Search

Including Known

Motifs

Structural prediction

Bioinformatica

Bioinformatica

Analisi delle Biosequenze

Analisi delle Biosequenze

(44)
(45)
(46)

http://

(47)

Esempio esecuzione programma

Esempio esecuzione programma

Sequenza d’analizzare

Sequenza d’analizzare

(48)
(49)

Allineamento

Allineamento

-

-

Multiallineamento

Multiallineamento

L’allineamento delle sequenze è una procedura di confronto a cop

L’allineamento delle sequenze è una procedura di confronto a coppie o con più sequenze.pie o con più sequenze. Le finalità di queste procedure sono la ricerca di caratteri ind

Le finalità di queste procedure sono la ricerca di caratteri individuali o patterns, ividuali o patterns, nello stesso ordine tra le sequenze. Le procedure di allineament

nello stesso ordine tra le sequenze. Le procedure di allineamento sono importanti per o sono importanti per l’individuazione di informazioni funzionali, strutturali ed evol

l’individuazione di informazioni funzionali, strutturali ed evolutive tra le sequenze.utive tra le sequenze.

Ci sono due tipi di allineamento di sequenze : Globale e Locale

Ci sono due tipi di allineamento di sequenze : Globale e Locale

LGPSSKQTGKGS LGPSSKQTGKGS--SRIWDNSRIWDN | | |||| | | | | |||| | | LN LN--ITKSAGKGAIMRLGDAITKSAGKGAIMRLGDA Allineamento Globale Allineamento Globale ---TGKGTGKG--- ---|||| |||| ---TGKGTGKG--- ---Allineamento Locale Allineamento Locale

(50)

Prima Sequenza

Prima Sequenza

Seconda Sequenza

Seconda Sequenza

Esempio di Programma di allineamento

Esempio di Programma di allineamento

(51)
(52)

LALIGN/PLALIGN

LALIGN/PLALIGN

-

-

Allineamento Locale

Allineamento Locale

http://fasta.

(53)

LALIGN/PLALIGN

(54)

Multiallineamento

Multiallineamento

-

-

Clustalw

Clustalw

http://www.

http://www.ebiebi..acac..ukuk//clustalwclustalw//indexindex..htmlhtml

Sequenze

Sequenze

Parametri

(55)

Multiallineamento

Multiallineamento

-

-

Clustalw

Clustalw

Output

(56)

RICERCA PER SIMILARITA’ IN BANCA DATI

RICERCA PER SIMILARITA’ IN BANCA DATI

I sistemi di ricerca per similarità in banca dati sono diventati

I sistemi di ricerca per similarità in banca dati sono diventati gli strumenti più gli strumenti più utilizzati in bioinformatica.

utilizzati in bioinformatica.

Le risorse WEB per questo tipo di analisi sono:

Le risorse WEB per questo tipo di analisi sono:

BLAST

BLAST

-

-

Basic

Basic

Local Alignment

Local Alignment

WU-

WU

-BLAST

BLAST

(57)

BLAST

BLAST

http://www.

(58)

BLAST

BLAST

Sequenza

(59)

BLAST

BLAST

-

-

OUTPUT

OUTPUT

Sequenze della banca dati Sequenze della banca dati simile alla

Riferimenti

Documenti correlati

– le variazioni di felicità degli stessi individui nel tempo (analisi panel tipo German.

Considerato che le cartografie della vegetazione disponibili per il territorio della Provincia di Roma, erano per la maggior parte cartografie cartacee prodotte per aree molto

Il progetto mira pertanto a facilitare e velocizzare le attività dell’utente interno, Ufficio di Vigilanza Stradale, mediante l’utilizzo della banca dati del Catasto Strade ai

96/9/CE, da un lato le banche dati sono state formalmente inserite fra le categorie di opere dell'ingegno previste dalla legge sul diritto d'autore (si veda il citato art.

Articolo di rivista: Cognome e nome degli autori, Titolo dell’articolo, Titolo della rivista, Volume, Numero della rivista, Anno, Pagina iniziale e finale dell’articolo.. Pagina

Di fronte al proliferare dei dati di ricerca sperimentali, solo lo strumento informatico garantisce la loro conoscibilità immediata ed in for- ma sintetica; solo così le

Questo ci aiuta a capire il motivo per cui le banche dati biologiche non sono mai costituite solamente dalla collezione di dati che contengono ma anche da un insieme di

n  DBMS (Database Management System = Sistema di gestione della Base di Dati): componente software che interagisce con la Base di Dati e con i programmi applicativi degli utenti..