• Non ci sono risultati.

Elementi di Bioinformatica. Introduzione

N/A
N/A
Protected

Academic year: 2022

Condividi "Elementi di Bioinformatica. Introduzione"

Copied!
58
0
0

Testo completo

(1)

Elementi di Bioinformatica Introduzione

Corso di Elementi di Bioinformatica Ingegneria Biomedica

AA 2019-20

(2)

Obiettivi

 Fornire una panoramica di alto livello

sulla bioinformatica come scienza che

si pone all'intersezione tra biologia e

informatica

(3)

Obiettivi

 Focalizzare l'attenzione sui principali concetti relativi:

all'analisi di sequenze geniche

all'analisi di sequenze proteiche

all'uso dei principali repository di dati riguardanti informazioni biologiche

(4)

Scienze biologiche - Definizioni

 Cominciamo con una definizione sommaria su:

Biologia

Biologia molecolare

Biologia computazionale

Biologia dei sistemi (systems biology)

Biomedicina

(5)

Biologia

 È la scienza che studia la vita (in greco:

bios = vita, logo = discorso, studio)

 Si pone come obiettivo generale la

descrizione del mondo in relazione alle

specie viventi

(6)

Biologia Molecolare

 Studia gli esseri viventi a livello dei

meccanismi molecolari alla base della loro fisiologia

Si concentra in particolare sulle interazioni tra le macromolecole, ovvero proteine e acidi nucleici (sia DNA che RNA)

Include tecniche che consentono la rilevazione, l'analisi, la manipolazione, l'amplificazione (PCR

(7)

Biologia Computazionale

 Riguarda lo sviluppo e l'applicazione di

metodi sperimentali e teorici, modelli

matematici e tecniche di simulazione

per lo studio di sistemi biologici

(8)

Biologia dei Sistemi (*)‏

 Riguarda lo studio delle interazioni tra i componenti di un sistema biologico e

come queste interazioni danno origine alla funzione e al comportamento di

quel sistema

(9)

Biomedicina

 Studia i meccanismi biologici di base

che guidano i processi fisiologici e quelli patologici, spesso avvalendosi della

biologia molecolare

(10)

Bioinformatica

Scienze Matematiche

Matematica

Statistica

...

Informatica

Basi di Dati

Si pone all'intersezione di aree diverse:

Scienze della vita

Biochimica

Biologia Molecolare

...

Scienze Mediche

Farmacia

(11)

Bioinformatica - Definizione

 Definizione [dal sito WEB di NCBI]

Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline.

The ultimate goal of the field is to enable the

discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.

NCBI = National Center for Biotechnology Information

(12)

Bioinformatica – Attività Principali

 Una definizione orientata alle attività principali:

La bioinformatica si occupa della ricerca, dello sviluppo o dell'applicazione di strumenti e metodi per acquisire, analizzare, organizzare e conservare dati di tipo biologico o medico

La bioinformatica costituisce dunque il supporto naturale per varie discipline che si collocano

(13)

Bioinformatica e ...

 ... biologia computazionale

Anche se la cosa è controversa, assumiamo che la bioinformatica INCLUDA la biologia computazionale poiché, oltre allo sviluppo di

tecniche e algoritmi, la bioinformatica si occupa anche della gestione di dati di tipo biologico

(14)

Bioinformatica e ...

 ... biologia molecolare

La moderna biologia molecolare NON può fare a meno della bioinformatica poiché in pratica non è più possibile effettuare ricerche e

sperimentazioni in tale ambito senza utilizzare opportuni supporti informatici

(15)

Bioinformatica e Tassonomia

“omica”

 Semplificando possiamo focalizzare l'attenzione sui seguenti aspetti:

Genomica

Proteomica

Trascrittomica

https://en.wikipedia.org/wiki/Omics

(16)

Bioinformatica e Tassonomia

“omica”

Bioinformatica

Proteomica Genomica

Trascrittomica

(17)

Genomica

 Genomica (genomics)

Riguarda lo studio del genoma degli organismi viventi e, per ogni organismo, l'espressione dei geni codificati all'interno del genoma

 Principali concetti informativi

basi, DNA, RNA, geni, cromosomi

mRNA, tRNA, rRNA, cDNA, EST

Polimorfismo, alleli e mutazioni di sequenze geniche

...

(18)

Genomica

 Differenti tipi di RNA ...

(19)

Genomica

 cDNA ed EST ...

cDNA = complementary DNA

sono ottenuti dalla retrotrascrizione della

popolazione di mRNA contenuta nelle cellule di un tessuto

EST = Expressed Sequence Tags

sono brevi sequenze di DNA corrispondenti alle regioni terminali di sequenze di cDNA più lunghe

rappresentano quindi porzioni di mRNA

permettono di individuare geni espressi tramite analisi del trascrittoma

(20)

Genomica

 cDNA ed EST ...

(21)

Genomica

 Polimorfismo, Alleli e Mutazioni Geniche

Polimorfismo in biologia si verifica quando sono presenti chiaramente due o più fenotipi (forme) differenti nella stessa popolazione di una specie

Perché si abbia polimorfismo, differenti forme devono occupare lo stesso habitat allo stesso tempo e appartenere a popolazioni panmittiche

Panmissìa - sistema di incroci in cui, nella riproduzione sessuale degli individui di una popolazione, gli accoppiamenti avvengono

completamente a caso

(22)

Genomica

 Polimorfismo, Alleli e Mutazioni Geniche

Gli alleli sono forme alternative dello stesso gene

Le mutazioni sono modificazioni ereditabili del materiale genetico (dovuta ad agenti esterni o al caso, ma non alla ricombinazione genetica)

(23)

Proteomica

 Proteomica (proteomics)

Riguarda lo studio delle proteine codificate dai genomi degli organismi viventi

 Principali concetti informativi

Amminoacidi

Livelli strutturali: primario, secondario, ecc.

Concetti di omologia, ortologia, paralogia

Rapporto tra similarità strutturale e funzionalità

...

(24)

Proteomica

 Proteomica (proteomics)

Riguarda lo studio delle proteine codificate dai genomi degli organismi viventi

 Principali concetti informativi

Amminoacidi

Livelli strutturali: primario, secondario, ecc.

Concetti di omologia, ortologia, paralogia

(25)

Proteomica

 Amminoacidi

(26)

Proteomica

 Livelli strutturali:

primario

secondario

terziario

quaternario

(27)

Trascrittomica

 Trascrittomica (transcriptomics)

Studia le modalità di “trascrizione” di un gene, cioé i meccanismi che governano la produzione di proteine a partire dall'informazione contenuta nel DNA

 Principali concetti informativi

RNA (mRNA, tRNA, rRNA, ...)

Ribosomi

Espressioni geniche

...

(28)

Trascrittomica

 Analisi di espressioni geniche (tramite

microarray)

(29)

Trascrittomica

 Analisi di espressioni geniche (tramite

microarray)

(30)

Bioinformatica – Analisi di Sequenze

 Sequenze nucleotidiche

Allineamento di sequenze nucleotidiche

Identificazione genica

Analisi di espressioni geniche (tramite microarray)

...

(31)

Bioinformatica – Analisi di Sequenze

 Allineamento di sequenze nucleotidiche

ATTTACGGGGATATATTT.

ATTTACGGGGATATATTT.

ATTTACGGGGATATATTT.

ATTTACGGGGATATATTT.

ATTTACGGGGATATATTT.

..TTACGGGGATATATTTA ..TTACGGGGATATATTTA

(32)

Bioinformatica – Analisi di Sequenze

 Identificazione genica

(33)

Bioinformatica - Analisi di Sequenze

 Sequenze proteiche

Allineamento di sequenze proteiche

Predizione di strutture secondarie

Predizione di strutture terziarie (problema del

“folding” di proteine)

Predizione dei punti di contatto

(34)

Bioinformatica - Analisi di Sequenze

 Allineamento di sequenze proteiche

(35)

Bioinformatica - Analisi di Sequenze

 Predizione di strutture secondarie

(36)

Bioinformatica - Analisi di Sequenze

 Predizione di strutture terziarie

(37)

Bioinformatica - Analisi di Sequenze

 Predizione dei punti di contatto

(contact map prediction)

(38)

Bioinformatica e Infrastrutture

 Obiettivi

Mettere a punto sistemi idonei per collezionare e interrogare l'enorme mole di dati biologici che vengono continuamente prodotti

 Oggetti

Banche dati biologiche con accesso via Internet

(39)

Bioinformatica e Infrastrutture

 Problemi tipici

Come integrare informazioni contenute in (provenienti da) banche dati diverse

Come navigare tra banche dati

 Strumenti

Strumenti per il recupero dell'informazione

memorizzata in / per la navigazione in banche dati biologiche

Strumenti per la visualizzazione di dati biologici

(40)

Gestione Dati Biologici – Focus

 Sequenze

Nucleotidiche

Amminoacidiche

 Strutture

Strutture secondarie

Strutture terziarie (folding di proteine)

 Funzioni biologiche

(41)

Gestione Dati Biologici – Organismi

 EMBL-EBI

European Molecular Biology Laboratory (linked to the European Bioinformatics Institute),

Heidelberg, Germany

 NCBI

National Center for Biotechnology Information, Bethesda, MD, USA

 NIG

National Institute of Genetics, Mishima, Japan

(42)

Gestione Dati Biologici – Banche Dati

 Banche dati primarie

Nucleotidiche

Proteiche

(43)

Banche Dati

 Principali banche dati di sequenze nucleotidiche

EMBL data library (EMBL - Europe)

GenBank (NCBI - USA)

DDBJ (NIG - Japan)

EMBL datalibrary + GenBank + DDBJ  INSDC

INSDC = Int. Nucleotide Sequence Database Collaboration

(44)
(45)
(46)
(47)

Banche Dati

 Principali banche dati di sequenze amminoacidiche

GenPept (NCBI)

SWISSPROT (Swiss Inst. of Bioinformatics)

TrEMBL (EMBL)

PIR-PSD (Swiss Inst. of Bioinformatics)

SWISSPROT + TrEMBL + PIR-PSD  UniProt

(48)
(49)
(50)

Banche Dati

 Riferimento unico per tutti gli studi strutturali

PDB (Protein Data Bank)

(51)
(52)

Banche Dati

 Oltre alle primarie, ci sono banche dati con informazioni derivate

 Qualche esempio:

DSSP (assegnamenti di strutture secondarie)

HSSP (allineamenti)

FSSP, SCOP, CATH (classificazione strutturale) 3Dee (domini proteici)

(53)

Banche Dati

 Altri esempi:

GO (Gene Ontology)

FUNCAT (Functional Categorization of proteins)

(54)

Banche Dati

 Strumenti di interrogazione e

navigazione in banche dati biologiche

SRS - Sequence Retrieval System (EBI)

ENTREZ (NCBI)

(55)
(56)
(57)

Strumenti per la

Visualizzazione di Dati Biologici

 Visualizzazione di molecole

Pymol

RasMol

ICMLite

Protein Explorer

...

(58)

Riferimenti

Documenti correlati

Ricerca (I) : Ogni SUBJECT della banca dati viene consultata allo stesso modo (anche queste sono indicizzate) e si confronta l’indice della ktup della query con l’indice della

L’interprete PERL si occupa di tradurre una istruzione scritta in un linguaggio comprensibile per un essere umano in una corrispondente istruzione scritta in un linguaggio

L’ultima cosa che resta da fare prima di passare alla cella successiva è verificare se lo score appena salvato è il MASSIMO che abbiamo visto fino a questo momento (se è così

del gruppo e le altre sequenze... Ripetere l’intero ciclo partendo dalla nuova distanza minore.. Le nuove distanze sono valori medi per ogni possibile distanza pairwise tra i

Sembra tutto relativamente semplice … quindi dov’è la difficoltà? La difficoltà sta nella costruzione delle stringhe che contengono le query SQL. Noi abbiamo

BLAST (Basic Local Alignment Search Tool) questo tool puo' eseguire numerosi confronti nell'unita' di tempo, e quindi permette di fare una ricerca per similarita' nell'intero

L’industria farmaceutica, sempre di più utiliz- za i dati, le metodologie e le conoscenze pro- dotte nei progetti di ricerca nazionali e inter- nazionali al fine di accelerare

Si scriva una classe ContaDispari che si serve di un metodo public static int[] leggi() per l’immissione dei dati di un array, e di un metodo public static int nDispari(int[] h)