Elementi di Bioinformatica Proteomica
- Introduzione -
Corso di Elementi di Bioinformatica Ingegneria Biomedica
AA 2016-17
Proteomica
Proteomica (proteomics)
Riguarda lo studio delle proteine codificate dai genomi degli organismi viventi
Principali concetti informativi
Amminoacidi
Livelli strutturali: primario, secondario, ecc.
Concetti di omologia, ortologia, paralogia
Rapporto tra similarità strutturale e funzionalità
...
4
Proteine - Sintesi
Acidi nucleici
4 basi nucleotidiche
Proteine
20 amminoacidi
Amminoacidi
A Alanine R aRginine N asparagiNe D aspartate C Cysteine Q glutamine
E glutamate G Glycine
H Histidine I Isoleucine
L Leucine K lysine
M Methionine
F PHenylalanine P Proline
S Serine
T Threonine W tryptophan Y Tyrosine V Valine
6
Proteine
Una proteina, nel caso più semplice, è
costituita da una sequenza di amminoacidi uniti tra loro da un legame peptidico
covalente
Amminoacido Il legame peptidico 7
Legame Peptidico Covalente
Mioglobina 8
Proteine
Alcune proteine, più complesse, possono essere costituite da diverse sequenze amminoacidiche (“protein subunit”) che
interagiscono a formare un unico complesso macromolecolare (“protein complex”)
10
Proteine
Ruoli delle proteine
Catalizzatori in reazioni chimiche
Formazione di strutture sub-cellulari
Risposta a stimoli esterni
Trasmissione di segnali
Legami con acidi nucleici
...
Emoglobina 11
Proteine - Struttura
La struttura delle proteine può essere studiata a diversi livelli
Struttura primaria: la sequenza di amminoacidi che costituisce la proteina
Struttura secondaria: la capacità di formare sottostrutture tipiche e ricorrenti nelle proteine
Struttura terziaria: la conformazione nello spazio di una proteina
Struttura quaternaria: la struttura che risulta dai complessi molecolari
Livelli strutturali delle Proteine
14
Struttura Primaria
La sequenza degli amminoacidi costituisce la struttura primaria di una proteina
15
Ribonucleasi: Mr 17000 da, 1 2 4 a a . , s e c r e t a d a l pancreas.
Catalizza l’idrolisi di acidi nucleici ingeriti con la dieta
Ogni pallina corrisponde a un amminoacido
16
Struttura Secondaria
Le strutture secondarie sono caratteriz- zate da conformazioni invarianti rispetto alle proteine che le “ospitano”
La più semplice (e la più diffusa)
classificazione di strutture secondarie
α-eliche (α-helix)
β-foglietti (β-sheet)
... altro (coil)
Struttura Secondaria: a-eliche
α-elica (α-helix)
struttura ripetitiva fondata su legami vicini che formano una spirale di lunghezza
variabile (lunghezza: 3-40 aa)
18
α-eliche
Struttura Secondaria: a-eliche
Nelle proteine la spirale è destrorsa (oraria)
Ogni “giro” della spirale contiene 3.6 aa (ogni aa è quindi ruotato di 100 gradi
rispetto al precedente e il passo dell'elica è di 5.4 Ä)
Poiché la distanza assiale tra due aa è 1.5 Ä si formano ponti idrogeno tra i due aa
20
α -eliche
Struttura Secondaria: β-struttura
β-struttura (β-strand)
struttura ripetitiva fondata su legami vicini che formano una spirale molto allungata di lunghezza variabile
La distanza assiale tra due aa adiacenti è di 3.5 Ä
22
Struttura Secondaria: β-foglietti
β-foglietto (β-sheet)
è una composizione di β-strutture allineate le une con le altre per effetto di legami
idrogeno che intercorrono tra una struttura e l'altra
β-foglietti
[insieme ad a-eliche]24
Struttura Secondaria: β-foglietti
Le β-strutture adiacenti possono correre nella stessa direzione (parallela) o in
direzione opposta (anti-parallela)
β-strutture adiacenti possono anche essere lontane nella sequenza
amminoacidica
25
β-foglietti
catene antiparallele catene parallele
26
Struttura Secondaria: coil
Coil
sono etichettati come “coil” gli aa che non si configurano né come α-eliche nè come β- foglietti
Struttura Terziaria
Le proteine si ripiegano nello spazio dando origine alla vera e propria struttura in tre dimensioni
28
Struttura terziaria delle Proteine
Proteine con predominanza
di α-elica
Proteine con predominanza di β-foglietti
Proteine miste
29
Struttura Quaternaria delle Proteine
La struttura quaternaria riguarda proteine costituite da più catene polipeptidiche o da più domini
strutturali (es. proteine regolatrici)
Esempio: emoglobina
30
Proteine - Analisi
La struttura delle proteine è un argomento di grande interesse per molti settori della ricerca di base e applicativa
STRUTTURA
Funzione
Meccanismo
Origine/Evoluzione
Proteine - Analisi
Lo studio delle proteine avviene
principalmente sulla base della similarità riscontrata tra proteine note e proteine la cui funzione è ancora da determinare
32
Proteine - Analisi
Illustreremo brevemente le tecniche per effettuare
L'allineamento di sequenze di amminoacidi
La predizione di strutture secondarie
La predizione di strutture terziarie (“folding”)
Proteine - Analisi
Assunzione di base:
SE due proteine hanno un elevato grado di similarità ALLORA (con grande probabilità)
svolgono la stessa funzione e si sono sviluppate a partire da un antenato comune (omologia)
Il grado di similarità tra due proteine è un
concetto quantitativo, bisogna soltanto definire le modalità con cui va misurato
La funzione svolta da una proteina può quindi essere evidenziata da una studio quantitativo ...
34
Proteine - Analisi
Nel caso in cui lo studio di similarità non abbia fornito risultati adeguati possiamo riformulare il problema chiedendoci qual'è la probabilità che la sequenza allo studio
assuma una delle conformazioni già note (*) per effetto di una analogia
(*) ... ovvero memorizzate in una banca dati
Proteine - Analisi
Il tentativo di evidenziare la funzione di una proteina passa quindi (tipicamente) attraverso il rilevamento di omologie
... e le omologie vengono tipicamente
evidenziate tramite un'analisi di similarità (homology through similarity)
similarità omologia funzione
36
Omologia
Si dicono omologhe due sequenze che
condividono un antenato comune, e quindi svolgono la stessa funzione (o apparten- gono alla stessa classe funzionale)
Omologia
Due sottoclassi:
Ortologia o speciazione: si riferisce agli “stessi”
geni (geni con identica o simile funzionalità) in differenti specie
Paralogia o duplicazione: si riferisce al risultato di una duplicazione genica all'interno di uno
stesso organismo (geni con identica o simile funzionalità)
38
Analogia
Si dicono analoghe sequenze che non condividono un antenato comune, ma
svolgono la stessa funzione (o apparten- gono alla stessa classe funzionale)
per es. molti enzimi possono avere lo stesso
sito catalitico ma sequenze anche molto diverse tra loro (pur svolgendo la stessa funzione)
Omologia e Analogia – Confronto
Omologia
Assume l'esistenza di un'origine filogenetica comune
Analogia
Non assume l'esistenza di un'origine filogenetica comune
40
Similarità
Si dicono simili proteine “poco” distanti tra loro a seguito di misure effettuate
applicando un criterio di distanza selezionato
La similarità tra proteine NON può prescindere da un criterio quantitativo per misurarne la
distanza
La similarità rappresenta un parametro
quantitativo che consente di inferire la presenza o meno di omologia tra due sequenze
(homology through similarity)
Omologia e Similarità – Confronto
Omologia
caratteristica qualitativa, che indica l'origine
filogenetica comune e si determina per mezzo di una analisi evolutiva
Similarità
caratteristica quantitativa, che, sulla base di
qualche criterio comparativo, indica un livello di somiglianza