• Non ci sono risultati.

Evoluzione Evoluzione divergente

7. Risultati sperimental

7.1. Dataset utilizzat

7.1.1. Proteine conformi

Il primo dataset utilizzato per testare l’intero approccio alla classificazione è formato da due insiemi di proteine. Ogni insieme è stato creato prendendo una proteina seme e generando tanti modelli a lei conformi.

La generazione di modelli conformi si basa sul concetto che la proteina, in natura, non ha una conformazione rigida ma la sua struttura risulta essere leggermente elastica, questo offre la possibilità alla proteina di modificare leggermente la propria struttura, e conseguentemente la propria superficie, rimanendo in un basso stato di energia. In più le catene laterali degli aminoacidi presentano una libertà di movimento che va ad aumentare le possibili conformazioni della proteina nel suo ambiente.

Il file PDB descrive strutturalmente la proteina in uno dei sui tanti stati possibili, un po’ come fornirne una fotografia; l’analisi dei modelli conformi restituisce un insieme di file PDB dove ognuno di essi descrive la proteina in uno stato energicamente stabile.

Fig 7.1: esempi di proteine conformi.

La proteina di riferimento, chiamata anche seme, e l’insieme dei suoi conformi, rappresentano un insieme del dataset utilizzato. Tali insiemi sono generati dalle proteine descritte in tab. 7.1 e da 20 proteine conformi al proprio seme. L’intero dataset conta quindi 42 proteine totali.

Tab. 7.1: descrizione dei semi dei conformi

Proteina Superfamiglia famiglia #Modelli

1CLL EF-Hand Calmodulin-like 20 1QR0 Phosphopantetheinyl transferase Phosphopantetheinyl Transferase SFP 20

Fig 7.2: distanze tra conformi e seme

In fig. 7.2 viene schematizzata la distanza delle proteine interne ad un insieme, il seme è rappresentato al centro in quanto genera ogni altro modello. La distanza di ogni modello dal seme viene riscontrata solo tramite piccole differenze di forma tra le due superfici. Le proprietà fisico-chimiche di superficie non presentano assolutamente delle variazioni e questo rende, naturalmente, tutti i conformi biologicamente uguali. In fig. 7.1 viene mostrato un seme (1CLL) e un sottoinsieme dei conformi da lui generati.

7.1.2. Proteine mutate

Il secondo dataset adottato è stato ottenuto da quattro differenti proteine (fig. 7.3) che sono state sottoposte, in maniera progressiva, a delle mutazioni allo scopo di ottenere 98 modelli che sono via via differenti dal seme che le ha generate.

Tab. 7.2: descrizione dei semi dei mutanti

Proteina Superfamiglia famiglia #Mutazioni

1CLL EF-Hand Calmodulin-like 12 1IRJ EF-Hand S100 13 2PVB EF-Hand Parvalbumin 11 1QR0 Phosphopantetheinyl transferase Phosphopantetheinyl Transferase SFP 13

Fig 7.3: potenziale elettrostatico per i quattro semi

Le caratteristiche dei semi sono riportate in tab. 7.2, tutti sono simili per dimensione e tre di questi provengono dalla stessa superfamiglia secondo la classificazione SCOP .

Fig 7.4: distanze tra mutanti e seme

Una singola classificazione consiste nel rimpiazzare cinque aminoacidi contemporaneamente che sono vicini sulla superficie proteica fino a quando tutti gli aminoacidi di superficie sono stati rimpiazzati. Le mutazioni sono state effettuate secondo la tecnica dell’homology modelling che garantisce di ottenere modelli con una configurazione stabile, il controllo delle strutture molecolari ottenute è stato effettuato con il tool PROSA II . Si noti che le 98 proteine di questo dataset non sono rappresentative, in termini di struttura, dell’intero PDB (sez. 2.1.4) ma

risultano rappresentative dal punto di vista delle proprietà di superficie in quanto presentano naturalmente l’intero insieme di aminoacidi in superficie e quindi coprono l’intera gamme di valori per le proprietà fisico-chimiche considerate in questa ricerca.

Nel dataset dei mutanti, in maniera più dettagliata, ogni proteina-seme genera un gruppo di modelli di proteine-mutanti distribuiti lungo due catene: una è generata utilizzando delle mutazioni conservative, l’altra utilizzando mutazioni non- conservative. Le mutazioni conservative portano delle piccole modifiche in termini di forma, mentre conservano le proprietà fisico-chimiche; ad esempio rimpiazzando l’acido aspartico con l’acido glutammico, che presentano entrambi una carica negativa, viene effettuata una mutazione conservativa. Differentemente, tramite le mutazioni non conservative vengono effettuate comunque delle piccole modifiche nella forma della superficie ma principalmente vengono modificate in maniera rilevante le proprietà di superficie; sostituendo l’acido aspartico con la treonina il potenziale elettrostatico in superficie viene pesantemente modificato in quanto il primo aminoacido è carico negativamente mentre il secondo lo è positivamente. Il numero di mutanti lungo la stessa catena varia da 11 a 13 in base alla lunghezza della catena polipeptidica del seme.

All’interno delle stesso gruppo di mutanti generate da un unico seme è possibile definire una funzione di distanza tra coppie di proteine.

Definizione: Sia data una proteina Di∈ e una sua catena di mutazioni D } ,..., { 1i ni i m m

MC = , la distanza tra due modelli mijMCi e mkiMCi è definita come il numero di mutazioni effettuate ad un modello per ottenere il secondo:

| - | ) , (m m j k dist ik i j = .

Fig 7.5: potenziale elettrostatico per sei mutanti, tre conservativi e tre non conservativi

In fig. 7.5 è mostrata la distribuzione del potenziale elettrostatico sulla superficie di 6 delle 24 mutazioni per il seme 1CLL. Si può notare che, dal punto di vista strutturale, tutti i mutanti derivanti dallo stesso seme sono fortemente correlati in quanto le mutazioni, conservative e non conservative, impattano in maniera limitata la forma della superficie. Differentemente, analizzando le proprietà di superficie, le mutazioni non conservative impattano pesantemente le proprietà fisico-chimiche a differenza delle mutazioni conservative che non alterano in maniera consistente queste proprietà. Questo porta la catena dei mutanti conservativi ad essere molto simile all’insieme dei modelli conformi definiti precedentemente in sez. 7.1.1. Considerando nuovamente i differenti tipi di mutazioni risulta evidente che la distanza tra due mutanti contigui nella catena conservativa è molto inferiore dal punto di vista biochimico alla distanza tra due modelli nella catena non conservativa, ciò significa anche che l’ultimo mutante nella catena conservativa, anche avendo avuto gli aminoacidi di superficie completamente sostituiti, presenta delle similarità con il seme a differenza dell’ultimo mutante non conservativo che si ritrova ad avere l’intera superficie completamente compromessa nelle proprietà di superficie. In fig. 7.6a viene mostrato che gli atomi di superficie delle due catene vengono modificati in maniera costante nel susseguirsi delle mutazioni.

Fig 7.6: (a) percentuale degli atomi conservati in superficie, (b) percentuale degli atomi di

superficie che mantengono invariata la proprietà di potenziale.

Questo significa che entrambi i tipi di mutazioni modificano un numero pari di atomi di superficie. In fig. 7.6b viene invece mostrato come varia la proprietà di potenziale elettrostatico lungo la catena. Risulta evidente che l’impatto su questa proprietà dato dalle mutazioni non conservative è maggiore di quello dato dalle conservative, infatti il numero di atomi che mantengono la stesso potenziale decrementa maggiormente per i mutanti non-conservativi.

7.1.3. Proteine reali

Il terzo dataset di proteine utilizzato è formato da tutte proteine reali. Questo dataset conta 25 proteine estratte dal PDB ed è stato scelto in quanto già utilizzato per testare l’approccio alla classificazione di proteine basato sulla superficie

introdotto in . La scelta di queste proteine è stata suggerita da considerazioni sulla classificazione SCOP. Infatti si sono scelte proteine appartenenti a 5 famiglie estremamente diverse in modo da inserire nel dataset proteine rappresentative anche dal punto di vista strutturale a differenza dei due dataset descritti in sez. 7.1.1 e 7.1.2. Le proteine scelte appartengono alle famiglie: hemoglobins; ureases; crambin- like; seryl-tRNA synthetases e hydrolases.