Elementi di Bioinformatica Introduzione
Corso di Elementi di Bioinformatica Ingegneria Biomedica
AA 2019-20
Obiettivi
Fornire una panoramica di alto livello
sulla bioinformatica come scienza che
si pone all'intersezione tra biologia e
informatica
Obiettivi
Focalizzare l'attenzione sui principali concetti relativi:
all'analisi di sequenze geniche
all'analisi di sequenze proteiche
all'uso dei principali repository di dati riguardanti informazioni biologiche
Scienze biologiche - Definizioni
Cominciamo con una definizione sommaria su:
Biologia
Biologia molecolare
Biologia computazionale
Biologia dei sistemi (systems biology)
Biomedicina
Biologia
È la scienza che studia la vita (in greco:
bios = vita, logo = discorso, studio)
Si pone come obiettivo generale la
descrizione del mondo in relazione alle
specie viventi
Biologia Molecolare
Studia gli esseri viventi a livello dei
meccanismi molecolari alla base della loro fisiologia
Si concentra in particolare sulle interazioni tra le macromolecole, ovvero proteine e acidi nucleici (sia DNA che RNA)
Include tecniche che consentono la rilevazione, l'analisi, la manipolazione, l'amplificazione (PCR
Biologia Computazionale
Riguarda lo sviluppo e l'applicazione di
metodi sperimentali e teorici, modelli
matematici e tecniche di simulazione
per lo studio di sistemi biologici
Biologia dei Sistemi (*)
Riguarda lo studio delle interazioni tra i componenti di un sistema biologico e
come queste interazioni danno origine alla funzione e al comportamento di
quel sistema
Biomedicina
Studia i meccanismi biologici di base
che guidano i processi fisiologici e quelli patologici, spesso avvalendosi della
biologia molecolare
Bioinformatica
Scienze Matematiche
✔ Matematica
✔ Statistica
✔ ...
Informatica
✔ Basi di Dati
➢
Si pone all'intersezione di aree diverse:
Scienze della vita
✔ Biochimica
✔ Biologia Molecolare
✔ ...
Scienze Mediche
✔ Farmacia
Bioinformatica - Definizione
Definizione [dal sito WEB di NCBI]
Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline.
The ultimate goal of the field is to enable the
discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.
NCBI = National Center for Biotechnology Information
Bioinformatica – Attività Principali
Una definizione orientata alle attività principali:
La bioinformatica si occupa della ricerca, dello sviluppo o dell'applicazione di strumenti e metodi per acquisire, analizzare, organizzare e conservare dati di tipo biologico o medico
La bioinformatica costituisce dunque il supporto naturale per varie discipline che si collocano
Bioinformatica e ...
... biologia computazionale
Anche se la cosa è controversa, assumiamo che la bioinformatica INCLUDA la biologia computazionale poiché, oltre allo sviluppo di
tecniche e algoritmi, la bioinformatica si occupa anche della gestione di dati di tipo biologico
Bioinformatica e ...
... biologia molecolare
La moderna biologia molecolare NON può fare a meno della bioinformatica poiché in pratica non è più possibile effettuare ricerche e
sperimentazioni in tale ambito senza utilizzare opportuni supporti informatici
Bioinformatica e Tassonomia
“omica”
Semplificando possiamo focalizzare l'attenzione sui seguenti aspetti:
Genomica
Proteomica
Trascrittomica
https://en.wikipedia.org/wiki/Omics
Bioinformatica e Tassonomia
“omica”
Bioinformatica
Proteomica Genomica
Trascrittomica
Genomica
Genomica (genomics)
Riguarda lo studio del genoma degli organismi viventi e, per ogni organismo, l'espressione dei geni codificati all'interno del genoma
Principali concetti informativi
basi, DNA, RNA, geni, cromosomi
mRNA, tRNA, rRNA, cDNA, EST
Polimorfismo, alleli e mutazioni di sequenze geniche
...
Genomica
Differenti tipi di RNA ...
Genomica
cDNA ed EST ...
cDNA = complementary DNA
✔ sono ottenuti dalla retrotrascrizione della
popolazione di mRNA contenuta nelle cellule di un tessuto
EST = Expressed Sequence Tags
✔ sono brevi sequenze di DNA corrispondenti alle regioni terminali di sequenze di cDNA più lunghe
✔ rappresentano quindi porzioni di mRNA
✔ permettono di individuare geni espressi tramite analisi del trascrittoma
Genomica
cDNA ed EST ...
Genomica
Polimorfismo, Alleli e Mutazioni Geniche
Polimorfismo in biologia si verifica quando sono presenti chiaramente due o più fenotipi (forme) differenti nella stessa popolazione di una specie
Perché si abbia polimorfismo, differenti forme devono occupare lo stesso habitat allo stesso tempo e appartenere a popolazioni panmittiche
Panmissìa - sistema di incroci in cui, nella riproduzione sessuale degli individui di una popolazione, gli accoppiamenti avvengono
completamente a caso
Genomica
Polimorfismo, Alleli e Mutazioni Geniche
Gli alleli sono forme alternative dello stesso gene
Le mutazioni sono modificazioni ereditabili del materiale genetico (dovuta ad agenti esterni o al caso, ma non alla ricombinazione genetica)
Proteomica
Proteomica (proteomics)
Riguarda lo studio delle proteine codificate dai genomi degli organismi viventi
Principali concetti informativi
Amminoacidi
Livelli strutturali: primario, secondario, ecc.
Concetti di omologia, ortologia, paralogia
Rapporto tra similarità strutturale e funzionalità
...
Proteomica
Proteomica (proteomics)
Riguarda lo studio delle proteine codificate dai genomi degli organismi viventi
Principali concetti informativi
Amminoacidi
Livelli strutturali: primario, secondario, ecc.
Concetti di omologia, ortologia, paralogia
Proteomica
Amminoacidi
Proteomica
Livelli strutturali:
primario
secondario
terziario
quaternario
Trascrittomica
Trascrittomica (transcriptomics)
Studia le modalità di “trascrizione” di un gene, cioé i meccanismi che governano la produzione di proteine a partire dall'informazione contenuta nel DNA
Principali concetti informativi
RNA (mRNA, tRNA, rRNA, ...)
Ribosomi
Espressioni geniche
...
Trascrittomica
Analisi di espressioni geniche (tramite
microarray)
Trascrittomica
Analisi di espressioni geniche (tramite
microarray)
Bioinformatica – Analisi di Sequenze
Sequenze nucleotidiche
Allineamento di sequenze nucleotidiche
Identificazione genica
Analisi di espressioni geniche (tramite microarray)
...
Bioinformatica – Analisi di Sequenze
Allineamento di sequenze nucleotidiche
ATTTACGGGGATATATTT.
ATTTACGGGGATATATTT.
ATTTACGGGGATATATTT.
ATTTACGGGGATATATTT.
ATTTACGGGGATATATTT.
..TTACGGGGATATATTTA ..TTACGGGGATATATTTA
Bioinformatica – Analisi di Sequenze
Identificazione genica
Bioinformatica - Analisi di Sequenze
Sequenze proteiche
Allineamento di sequenze proteiche
Predizione di strutture secondarie
Predizione di strutture terziarie (problema del
“folding” di proteine)
Predizione dei punti di contatto
Bioinformatica - Analisi di Sequenze
Allineamento di sequenze proteiche
Bioinformatica - Analisi di Sequenze
Predizione di strutture secondarie
Bioinformatica - Analisi di Sequenze
Predizione di strutture terziarie
Bioinformatica - Analisi di Sequenze
Predizione dei punti di contatto
(contact map prediction)
Bioinformatica e Infrastrutture
Obiettivi
Mettere a punto sistemi idonei per collezionare e interrogare l'enorme mole di dati biologici che vengono continuamente prodotti
Oggetti
Banche dati biologiche con accesso via Internet
Bioinformatica e Infrastrutture
Problemi tipici
Come integrare informazioni contenute in (provenienti da) banche dati diverse
Come navigare tra banche dati
Strumenti
Strumenti per il recupero dell'informazione
memorizzata in / per la navigazione in banche dati biologiche
Strumenti per la visualizzazione di dati biologici
Gestione Dati Biologici – Focus
Sequenze
Nucleotidiche
Amminoacidiche
Strutture
Strutture secondarie
Strutture terziarie (folding di proteine)
Funzioni biologiche
Gestione Dati Biologici – Organismi
EMBL-EBI
European Molecular Biology Laboratory (linked to the European Bioinformatics Institute),
Heidelberg, Germany
NCBI
National Center for Biotechnology Information, Bethesda, MD, USA
NIG
National Institute of Genetics, Mishima, Japan
Gestione Dati Biologici – Banche Dati
Banche dati primarie
Nucleotidiche
Proteiche
Banche Dati
Principali banche dati di sequenze nucleotidiche
EMBL data library (EMBL - Europe)
GenBank (NCBI - USA)
DDBJ (NIG - Japan)
EMBL datalibrary + GenBank + DDBJ INSDC
INSDC = Int. Nucleotide Sequence Database Collaboration
Banche Dati
Principali banche dati di sequenze amminoacidiche
GenPept (NCBI)
SWISSPROT (Swiss Inst. of Bioinformatics)
TrEMBL (EMBL)
PIR-PSD (Swiss Inst. of Bioinformatics)
SWISSPROT + TrEMBL + PIR-PSD UniProt
Banche Dati
Riferimento unico per tutti gli studi strutturali
PDB (Protein Data Bank)
Banche Dati
Oltre alle primarie, ci sono banche dati con informazioni derivate
Qualche esempio:
DSSP (assegnamenti di strutture secondarie)
HSSP (allineamenti)
FSSP, SCOP, CATH (classificazione strutturale) 3Dee (domini proteici)
Banche Dati
Altri esempi:
GO (Gene Ontology)
FUNCAT (Functional Categorization of proteins)
Banche Dati
Strumenti di interrogazione e
navigazione in banche dati biologiche
SRS - Sequence Retrieval System (EBI)
ENTREZ (NCBI)
Strumenti per la
Visualizzazione di Dati Biologici
Visualizzazione di molecole
Pymol
RasMol
ICMLite
Protein Explorer
...