• Non ci sono risultati.

INTRODUZIONE: LE PROTEINE HMGA

N/A
N/A
Protected

Academic year: 2021

Condividi "INTRODUZIONE: LE PROTEINE HMGA"

Copied!
13
0
0

Testo completo

(1)

INTRODUZIONE: LE PROTEINE HMGA Le proteine HMG

Le HMG (High Mobility Group) sono proteine non istoniche coinvolte in processi nucleari di rimodellamento della cromatina e di regolazione dell’espressione genica. L’espressione delle HMG è finemente regolata ed influenzata da fattori di crescita e ambientali, principalmente durante lo sviluppo embrionale, mentre una loro disregolazione nell’adulto comporta un’alterazione nel fenotipo cellulare e porta a gravi alterazioni dello sviluppo e gravi stati patologici, in particolare in associazione ad eventi di progressione tumorale (Chiappetta et al. 1995; Berlingieri et al.,1995).

Tutte le proteine HMG hanno caratteristiche biochimiche e biofisiche simili; infatti ogni membro della famiglia presenta una lunga coda acida (quindi carica negativamente) all’estremità carbossiterminale, che è coinvolta nelle sue funzioni regolatorie.

Le HMG, quindi hanno un ruolo fondamentale nella biologia cellulare, poiché sono coinvolte in molti processi biologici nello sviluppo, nella regolazione della trascrizione e nella modulazione della riparazione del DNA (Bustin e Reeves, 1996 ;Gerlitz et al., 2009).

Le proteine HMGA

La caratteristica principale delle HMGA è la presenza di un dominio di legame al DNA (Binding Domain) costituito da un motivo palindromico amminoacidico denominato “AT-hook”, che si lega prevalentemente nel solco minore della doppia elica del DNA, in corrispondenza di sequenze ricche in AT. Tutte le HMGA hanno in corrispondenza del C-terminale una coda acida formata da serie di residui ammnoacidici acidi, che sembra essere coinvolta nel legame con partners molecolari per l'esplicazione delle loro funzioni regolatorie a livello nucleare (Bustin e Reeves, 1996 ;Gerlitz et al., 2009).

Nei mammiferi sono state individuate due famiglie di HMGA: HMGA1 e HMGA2.

Le HMGA1 constano di tre varianti, HMGA1a, HMGA1b e HMGA1c, che sono il prodotto del processo di traduzione di mRNA risultanti dallo splicing alternativo di un mRNA trascritto da uno stesso gene. Le HMGA2 presentano solo un’unica proteina vengono invece tradotte da un unico mRNA, che è trascritto da un gene distinto (Reeves, 2010).

Le HMGA canoniche presentano 3 gruppi AT-hook, ma esistono eccezioni, come la variante HMGA1c, che ne presentano solo 2. Le HMGA hanno una lunghezza che varia da i 90 ai 120 amminoacidi, anche se sono state individuate proteine HMGA atipiche con più di 3 AT-hook, che raggiungono i 300 residui amminoacidi e sono quindi definite multi-AT-hook (Reeves, 2010).

Un ruolo biologico delle HMGA è quello di mediare la formazione di complessi multiproteici stereospecifici, denominati enhanceosomi, sulle sequenze ricche in AT di alcuni geni inducibili: queste proteine possono quindi legare, svolgere e superavvolgere il DNA senza spesa energetica, facilitando la formazione dell’enhanceosoma e di conseguenza contribuendo a regolare l’espressione genica. Tramite esperimenti di domain swapping è stato dimostrato, che le regioni coinvolte nella formazione degli enhanceosomi sono gli AT-hook (Bourachot et al.,1999).

I motivi AT-hook sono largamente conservati nell’evoluzione dai batteri all’uomo e si trovano in una o più copie anche in proteine non HMGA, molte delle quali sono fattori di trascrizione o sono coinvolti nella rimodellazione della cromatina. Ad esempio esperimenti di mutagenesi sito-specifica hanno messo in evidenza, che, quando i motivi AT-hook della proteina umana BRG1 (Brahma-Related Gene 1), un altro rimodellatore della cromatina,

(2)

sono deleti o mutati, sia l’attività di legame del nucleosoma, sia il rimodellamento della cromatina ATP-dipendente del complesso SWI/SNF vengono soppressi o gravemente attenuati (Bourachot et al.1999). Questi risultati fanno pensare che la maggior parte dei complessi di rimodellazione della cromatina nelle cellule eucariotiche contengano proteine con motivi AT-hook, che sono coinvolte nel legare nucleosomi in una maniera molto simile a quella delle HMGA (Reeves, 2010).

In molti casi le proteine HMGA sono state associate a cambiamenti localizzati della struttura della cromatina che determinano alterazioni fenotipiche nelle cellule. Un esempio ben documentato è rappresentato dal meccanismo cellulare che guida i cambiamenti fenotipici dopo infezione virale. Le cellule infettate, a differenza delle cellule sane, producono interferone di tipo I (INF-α, INF-β), che contrasta la replicazione virale, bloccando il corso dell’infezione; dopo un’abbondante produzione iniziale di INF-β, le cellule smettono di produrre interferone (Yie, 1999). Il DNA a doppio filamento, intermedio del processo di replicazione virale, induce l’assemblaggio di un enhanceosoma contenente HMGA sul promotore del gene INF-β e la sua conseguente trascrizione. L’HMGA1 sembra giocare un ruolo fondamentale nell’assemblaggio e disassembalggio dell’enhanceosoma e nell’inizio della trascrizione genica, attraverso il legame con una regione di DNA ricco in AT, situata tra due nucleosomi nel promotore dell’interferone-β. Il legame dell’HMGA1 risulta fondamentale per reclutare sul promotore alcuni fattori di trascrizioni (IRF-1, p50, p65, e ATF-2/c-Jun). Nell’HMGA1 sono stati individuati residui amminoacidici target di acetilasi (K71) e di deacetilasi (K65) e la loro consecutiva acetilazione e deacetilazione portano al disassemblaggio dell’enhanceosoma e al termine della trascrizione (Yie, 1999).

Un altro fenomeno biologico in cui le HMGA sembrano essere implicate è l’apoptosi. L’apoptosi è caratterizzata da alterazioni della funzione della membrana mitocondriale e della membrana plasmatica, seguita da cambiamenti sostanziali nella morfologia e nella condensazione della cromatina, da frammentazione del DNA e da altri cambiamenti drammatici nel fenotipo cellulare. La concentrazione delle proteine HMGA nelle cellule è massima durante l’embriogenesi e decade a valori minimi nelle cellule somatiche differenziate. Molte cellule immortalizzate pre-tumorali e cellule tumorali presentano una sovraespressione costitutiva delle HMGA; l’incremento di concentrazione di tali proteine è in effetti correlato con il grado di progressione del tumore ed incrementa particolarmente nel processo di progressione tumorale (Fusco et al., 2007).

L’aumento di concentrazione di HMGA nelle cellule normali è tossico e induce apoptosi; infatti la sovraespressione forzata di tali proteine nel ratto determina apoptosi, come risultato della deregolazione della fase S nel ciclo cellulare, ritardando l’entrata delle cellule in fase G2 e in mitosi ed attivando il pathway della caspasi-3 (Fedele et al., 2001). Le HMGA risultano implicate nell’apoptosi in quanto sono coinvolte nell’attivazione trascrizionale di alcuni geni come CyclinA (Tessari et al., 2003) e AP-1 (Vallone et al., 1997); inoltre le HMGA , quando si è già innescato il processo apoptotico, inducono cambiamenti post-traduzionali. Ad esempio nelle fasi iniziali dell’apoptosi, caratterizzata da un’attività di iperfosforilazione globale, le HMGA vengono fosforilate e ciò ne riduce l’affinità con le regioni ricche in AT del DNA, determinando una minore condensazione della cromatina; ciò facilita la digestione del DNA da parte delle nucleasi. D’altra parte nella fase tardiva dell’apoptosi si ha uno stato di ipofosforilazione. Tale ipofosforilazione delle HMGA porta ad un aumento dell’affinità con le regioni ricche in AT, e ad una maggiore condensazione della cromatina nella formazione dei corpi apoptotici (Diana et al., 2001).

Nelle cellule immortalizzate, che hanno superato la barriera della senescenza, le HMGA sono tuttavia coinvolte in un processo antiapoptotico e spesso inducono transformazioni

(3)

cancerose. Vari meccanismi determinano l’effetto antiapoptotico:

1) Il legame di HMGA con HIPK2 Kinasi, un attivatore pro-apoptotico di p53, permette l’attività di chaperone per il trasporto di HIPK2 dal nucleo al citoplasma, cui consegue una diminuzione della morte cellulare innescata da p53 (Pierantoni et al., 2007).

2) L’interazione di HMGA con p53 determina l’interruzione della trascrizione di effettori pro-apoptotici e di arresto del ciclo cellulare (Pierantoni et al., 2006; Frasca et al, 2006). 3) La cooperazione di HMGA e altri fattori nell’attivazione trascrizionale di MDM2, un

inibitore di p53 (Pierantoni et al., 2006).

Le HMGA sono state associate recentemente anche al processo della senescenza cellulare. Nella senescenza le cellule vanno in contro ad un arresto irreversibile del ciclo cellulare, a cambiamenti nella struttura della cromatina e cambiamenti globali cellulari programmati associati con alterazioni fenotipo sia della cellula sia dell’intero organismo.

Vari meccanismi sono ritenuti responsabili dell’induzione alla senescenza, come l’acquisizione di un oncogene attivo, l’accorciamento dei telomeri, la derepressione del locus INK4a/ARF e l’attivazione di pRB (tumor suppressor pathways). Tali processi limitano una proliferazione cellulare eccessiva o aberrante e probabilmente rappresentano anche un meccanismo protettivo contro l’insorgenza di tumori (Collado et al.,2007).

I fibroblasti umani, quando entrano in senescenza mostrano una marcata condensazione della cromatina in cui si evidenziano domini strutturali, chiamati senescence-associated heterochromatic focus (SAHF). Il core degli istoni dei dominii SAHF sono deacetilati da delle istone deacetilasi (HDACs) e i SAHFs sono arricchiti di proteine HMGA1 e HMGA2 negli istoni H1 (Funayama et al., 2006; Narita et al., 2007). Le proteine HMGA competono per il legame con gli istoni H1 con una notevole varietà di substrati, determinando una condensazione della cromatina.

Le HMGA durante l’embriogenesi

Le proteine HMGA sono espresse abbondantemente durante l’embriogenesi, mentre nelle cellule somatiche differenziate dei tessuti adulti la loro espressione è ridotta al minimo o addirittura assente (Reeves, 2010). Dopo trasformazione neoplastica le HMGA tornano ad essere espresse ad alti livelli.

Durante l’embriogenesi del topo i geni Hmga1 e Hmga2 sono altamente espressi in tessuti derivati da tutti e tre i foglietti embrionali, mentre negli stadi tardivi dello sviluppo la loro espressione viene attenuata, fino a diventare nulla negli stadi adulti (Chiappetta et al., 1996; Hinring-Foltz et al.,1998). In topo una riduzione dell’espressione di HMGA1 causa ipertrofia cardiaca e disordini mieloproliferativi. HMGA1 è inoltre necessario per uno sviluppo normale degli spermatozoi e sia HMGA1 che HMGA2 sono necessari per l’adipogenesi (Nishino et al., 2008).

Topi knock-out per Hmga2 mostrano un fenotipo caratterizzato da dimensioni corporee ridotte, dovuto ad una diminuzione della proliferazione cellulare (Zhou et al., 1995). HMGA2 regola l’espressione della ciclina A ed interagisce con pRb e p53, modulando l’espressione dei loro geni target. Inoltre questi topi presentano una riduzione del tessuto adiposo e sterilità, a causa di una defezione nella maturazione dei testicoli e presentano un alterato self-renewal delle cellule staminali neurali (Anand A. e Chada K.;2000).

In Xenopus laevis il gene XLHMGA2βa è espresso in vivo durante lo sviluppo e le proprietà biochimiche della corrispondente proteina sono molto simili a quelle di HMGA2 dei mammiferi, che ha un ruolo fondamentale in embriogenesi (Sgarra et al., 2012).

In Xenopus laevis HMGA2 regola l’espressione di Nkx2.2, un fattore di trascrizione fondamentale per lo sviluppo del cuore; il knock-down di HMGA2 inibisce la cardiogenesi

(4)

(Monzen et al., 2008). Attualmente nel nostro laboratorio sono in corso esperimenti volti a chiarire la funzione di HMGA2 nelle creste neurali.

Interazioni biochimiche delle HMGA

Dal punto di vista biochimico le HMGA possiedono particolari capacità di interazione con il DNA. Infatti queste proteine tramite i loro dominii AT-hook legano il solco minore in alcune regioni ricche in basi AT, mentre attraverso le regioni C-terminali (code acide) stabiliscono interazioni con altre proteine nucleari (Sgarra et al., 2010).

Attraverso esperimenti di GST pull down per XLHMGA2βa e la proteina umana XHMGA2 tradotte in vitro, si è potuto constatare le interazioni di tali proteine con partner nucleari come pRB(PR), PTB, PRMT6, NPM, p53(CT), SpI(ZnF) e hnRNPK. Inoltre da questi esperimenti si è potuto osservare che la proteina umana e quella di Xenopus hanno uguali caratteristiche interattive (Sgarra et al., 2012).

Il coinvolgimento delle HMGA in diverse attività cellulari implica una notevole plasticità di queste proteine, necessaria per cooperare con un numero elevato di partner molecolari; infatti, esperimenti di interattomica stanno rilevando per esse un network di interazione molto complesso.

Sgarra e collaboratori (2010) hanno descritto questo scenario, creando un database, contenente tutte le informazioni inerenti le loro interazioni con altri partner proteici. Questo network può essere suddiviso in 5 reti principali: 1) Regolazione trascrizionale; 2) Rimodellazione della cromatina e riparazione del DNA; 3) Processamento dell'RNA, 4) Modificazioni enzimatiche ed 5) altre attività biologiche.

Per quanto riguarda il ruolo regolatorio nella trascrizione genica, HMGA1, attraverso il legame con il DNA, influenza il piegamento (bending) del DNA facilitando il reclutamento di altri fattori trascrizionali e stabilizza la formazione del complesso di trascrizione attraverso interazione diretta proteina-proteina con fattori come NF-kB, ATF-2, c-JUN e IRF1. Infine la stabilità del complesso trascrizionale può essere modulata attraverso specifiche modificazioni post-traduzionali della proteina HMGA1 (Munshi et al., 2001). In generale circa 40 differenti fattori di trascrizione interagiscono con le proteine HMGA. Uno di questi è p53. L'attività di p53 nell'arresto del ciclo cellulare, in risposta a stress

cellulare o a danno al DNA sembra essere correlata con l'attività di HMGA1. Infatti, interagendo con il dominio di oligomerizzazione di p53, HMGA1 interferisce con il processo di oligomerizzazione, che è essenziale per promuovere l'attivazione di p53 stessa (Frasca et al., 2006). Quindi HMGA1 interferisce con l'espressione genica dipendente da p53 dei geni p21, Bax e Mdm2.

Le HMGA interagiscono con pRb, una proteina fondamentale coinvolta nel controllo del ciclo cellure, nel differenziamento e nel mantenimento della stabilità cromosomica. L'attività principale di pRb è quella di inattivare l'attività trascrizionale di E2F attraverso l'azione di istone deacetilasi (HDAC1); il legame di HMGA con pRb induce il displacement di HDAC1 da parte di pRb, riducendo l'attività inibitoria di questo enzima (Fedele et al., 2006).

Considerando la connessione funzionale di HMGA, p53 e pRb, si può osservare come HMGA abbia un ruolo fondamentale nello sviluppo embrionale. HMGA è espressa altamente nello sviluppo embrionale allo scopo di modulare propriamente le attività di p53 e pRb, per permettere la proliferazione e il differenziamento cellulare nell'embrione.

La proteina HMGA2 interagisce con le proteine Smad, effettori del pathway delle TGF-beta. Tale interazione ha effetto sull'attività delle Smads nella modulazione della

(5)

trascrizione di Nkx2.5 durante la cardiogenesi (Monzen et al., 2008). Inoltre, in un diverso contesto, l'associazione HMGA2-Smads sembra essere importante per regolare il network trascrizionale necessario per la transizione epitelio-mesenchima (EMT); HMGA e Smads regolano l'espressione di SNAIL1, un forte repressore delle E-caderine, la cui diminuzione di espressione è un evento chiave nella conversione delle cellule epiteliali in cellule mesenchimali (Thuault et al., 2008).

Le HMGA interagiscono con molti Recettori nucleari (NRs) come i recettori dell'Acido Retinoico (RAR), i recettori dei Retinoidi (RXR-alfa), i peroxisome proliferator-activated receptors (PPAR-gamma1) e gli estrogen receptors (ER). Il legame con HMGA1 determina un aumento della capacità degli ER di legare il DNA a livello degli Estrogen Response Elements (ERE) (Massaad-Massade et al., 2002). ER è il principale regolatore trascrizionale del cancro al seno e un'aumentata attività di ER può essere correlata con un aumento sia nell'intensità che nella durata dell'attività trascrizionale (Carrol et al., 2006). E' stato dimostrato che le HMGA sono implicate anche in un network di proteine che legano l'RNA; infatti attraverso l’interazione di HMGA1 con U1 avviene lo splicing di di mRNA aberranti. Le proteine HMGA sembrano partecipare alla formazione di complessi macromolecolari con funzioni al confine tra la trascrizione del DNA e il processamento dell'RNA (Manabe et al., 2003).

Infine, un'altra interazione delle HMGA è quella che avviene con le proteine istoniche; tale legame sembra essere fondamentale nella formazione di complessi macromolecolari coinvolti nel docking della cromatina, quindi nella rimodellazione dell'architettura della cromatina. Tale processo risulta fondamentale non solo nella regolazione dell'espressione genica, ma anche nella riparazione dei danni al DNA. Nel processo di riparo del DNA sono coinvolte numerose molecole come Ku70(XRCC6) e Ku80(XRCC5) del complesso NHEJ (Non Homolougos End Joining), APEX1 (AP-endonucleasi 1/REF-1) nel BER (Base Exission Repair) e ATM (Ataxia Telangiectasia Mutated) a livello della risposta di attivazione al danno al DNA (upstream DNA damage response activation). Molte evidenze sperimentali indicano un'attività delle proteine HMGA che interferisce con il processo di riparazione del DNA e ciò risulta in accordo con l'attività oncogenetica di queste proteine (Baldassarre et al., 2005; Li, 2009).

(6)

INTRODUZIONE: LA FILOGENOMICA

L’analisi filogenetica

Con lo sviluppo della biologia molecolare e della tecnologia informatica è cresciuto esponenzialmente l’interesse dei biologi verso studi filogenetici volti a caratterizzare e studiare l’evoluzione dei genomi e dei loro prodotti genetici. L’inferenza filogenetica si basa su tecniche statistiche che permettono il confronto tra caratteri di diversi taxa. Per caratteri si possono considerare sia parametri morfologici, sia sequenze nucleotidiche o proteiche. Naturalmente l’era dalla genomica e della post-genomica aprono il campo all’analisi filogenetica molecolare, un fondamentale strumento per la comprensione sia dei fenomeni evolutivi, che delle strutture molecolari e della loro funzione cellulare.

Il punto d’inizio di un’analisi filogenetica su sequenze nucleotidiche o amminoacidiche è la raccolta dei dati, cioè la collezione delle sequenze che saranno confrontate per creare degli alberi filogenetici; questi sono delle rappresentazioni delle relazioni esistenti tra di loro e con la loro sequenza ancestrale. Esistono diversi modelli statistici per costruire alberi filogenetici e la lettura di tali alberi fornisce informazioni sulla direzione dell’evoluzione di un certo carattere (Hall, 2011). Nel mio lavoro di tesi mi sono occupato di cercare di chiarire le relazioni filetiche tra le varie proteine HMGA dei cordati riportate in banca dati.

Ricerca in banca dati

La prima fase nella mia analisi è stata quindi caratterizzata dalla ricerca di sequenze proteiche e nucleotidiche in banche dati come NCBI, EMBL, JJI, Ensembl e Sanger del Sanger Institute. Le analisi sono state effettuate utilizzando il tool bioinformatico BLAST (Basic Local Alignment Search Tool), basato da un algoritmo euristico per la ricerca di omologie locali di sequenze.

BLAST è costituito da 5 programmi: BLASTP paragona una sequenza amminoacidica ad un database di sequenze proteiche; BLASTN paragona una sequenza nucleotidica ad un database di sequenze nucleotidiche; BLASTX paragona una sequenza nucleotidica traducendola in tutti i sei possibili frame di lettura ad un database di proteine; TBLASTN paragona una sequenza amminoacidica ad un database di acidi nucleici tradotto

dinamicamente nelle 6 possibili sequenze di amminoacidi che possono derivarne; infine TBLASTX paragona una sequenza nucleotidica letta secondo tutti i 6 possibili frame di lettura con un database di acidi nucleici anch’esso letto secondo tutti i possibili 6 possibili frame di lettura (Lemey et al., 2009).

In BLAST la valutazione dell’omologia comincia con l’analisi della sequenza che deve essere sottoposta a confronto. Si crea un elenco di tratti di una lunghezza stabilita (words, w, in genere 3 amminoacidi per le proteine o 11 nucleotidi per il DNA), che rappresentano uno dei cardini sui quali si fonda l’algoritmo di BLAST. Il numero totale di word presenti in una sequenza da sottoporre a confronto risulta:

n = l - w + 1

dove w è il numero degli amminoacidi che compongono una word ed l è la lunghezza della sequenza in esame. Per ogni sequenza da esaminare viene costruita una lista delle possibili

(7)

word (tratti oligonucleotidici o oligopeptidici della medesima sequenza) che vengono confrontate con le sequenze presenti nel database. Quando una word comune è stata trovata, BLAST estende questo tratto di sequenza aggiungendo progressivamente ulteriori unità. L’allineamento rinvenuto riceve un punteggio attraverso una matrice di sostituzione (normalmente PAM 120 o BLOSUM 62) (Lemey et al., 2009).

Le matrici di sostituzione assegnano un punteggio positivo per ogni identità o per una sola sostituzione con aminoacido dello stesso tipo (idrofobici con idrofobici, carichi positivamente con carichi positivamente, etc.). L’estensione dell’allineamento prosegue fino a che il punteggio attribuito non scende al disotto di un valore soglia T (compreso tra 11 e 15) calcolato di volta in volta in base alla composizione e alla lunghezza della sequenza in esame.

Nel caso di BLASTN il punteggio è di più semplice valutazione: viene assegnato un punteggio di +5 ad una identità, e di -4 per una mancata identità. Si può stabilire empiricamente che il miglior compromesso tra sensibilità, specificità del metodo e velocità di esecuzione del confronto tra le sequenze, è quella con w = 3 e T =11-15. Utilizzando questi valori, si ottengono delle liste di circa 50 word di confronto denominate neighbor per ogni word della sequenza da testare, cioè circa 12500 word nel caso di una sequenza di 250 amminoacidi (Lemey et al., 2009).

In questa fase ciascuna delle word della lista compilata viene confrontata con il database di sequenze; quando viene riscontrata una corrispondenza (hit), essa viene estesa a monte e a valle per vedere se è possibile definire un tratto di sequenza in grado di raggiungere un punteggio superiore ad un valore soglia, detto S. Tale valore S è in funzione di un altro valore, detto E, che è il numero atteso (Expected) di tratti di sequenze casualmente omologhi, aventi punteggio superiore ad S, che ci dà una stima dei falsi positivi (Lemey et al., 2009).

I tratti di sequenza omologhi aventi un punteggio superiore al valore soglia, vengono denominati HSP (High Score Segment Pair). Essi possono essere anche più di uno all’interno di una medesima sequenza e definiscono una zona locale di omologia. Le regioni di similarità trovate estendendo a valle e a monte dalle regioni HSP vengono dette MSP (Maximal Segment Pairs).

Nella fase iniziale del mio lavoro di tesi, ho effettuato ricerche in database sia con BLASTP, BLASTN, TBLASTN, che TBLASTX, accettando hit che rispettavano determinati parametri:

-E-Value (Expectation value): è un parametro che descrive il numero di hit con score così alto che ci si aspetterebbe di trovare cercando a caso nel database una particolare sequenza di una data dimensione. Tale parametro deve essere il più possibile vicino allo zero.

-Max score (Maximum score): è il valore del più alto score per il segmento con punteggio più alto della sequenza subject (quella trovata).

-Max identity (Maximum identity)(%): è il parametro che descrive l’identità tra la sequenza query (quella di partenza) e quella sequenza subject che è più identica alla query. Maggiore è tale valore, più viene tenuta in considerazione

-Query coverage (%): è la percentuale del rapporto tra la lunghezza della sequenza subject e la lunghezza della sequenza query. Maggiore è tale valore, più viene tenuta in considerazione (Hall, 2011).

(8)

Gli Alberi Filogenetici

Da un punto di vista matematico un albero filogenetico è un concetto astratto descritto da uno speciale tipo di di grafo diretto o indiretto. Per i sistemisti e molti biologi evoluzionisti un albero è la rappresentazione di una relazione di un gene o di una proteina con la loro sequenza ancestrale. Ciò che accomuna queste due visioni è il fatto che un albero è costituito da nodi a cui si collegano rami. La cima dei rami viene definita dalle foglie, che per un biologo assumono il significato di taxa esistenti. I nodi esterni o foglie possono quindi rappresentare le specie oppure semplicemente sequenze proteiche o amminoacidiche. In modo generico, i nodi esterni vengono definiti unità tassonomiche operazionali (Operational Taxonomic Units, OTUs) (Lemey et al., 2009).

I nodi interni dell’albero rappresentano ipotetici ancestori, dei quali solitamente non si hanno informazioni, mentre gli unici dati in nostro possesso sono rappresentati dalle informazioni dei taxa (nel nostro caso, dalle sequenze).

Attraverso le informazioni delle foglie dell’albero è possibile effettuare inferenze filogenetiche, quindi ipotizzare i nodi interni e le relazioni tra di loro, e ricostruire i nodi più ancestrali.

Per costruire alberi filogenetici di sequenze proteiche o nucleotidiche si seguono una serie di passaggi:

1) acquisizione delle sequenze tramite ricerche in database o da sequenziamento di campioni biologici.

2) allineamento delle sequenze con algoritmi di allineamento multiplo, come clustalW (utilizzato prevalentemente per le sequenze nucleotidiche) e MUSCLE (utilizzato per le proteine), dei quali si avvalgono diversi programmi informatici.

3) Stima dell’attendibilità dell’albero in base a numerosi metodi, come ad esempio il bootstrap method, il quale è basato sulla formazioni di alberi con un numero più alto possibile di ripetizioni (di solito tra le 100 e 1000).

4) disegnare l’albero ottenuto mediante software dedicati (Hall, 2011).

Concettualmente esistono due tipi di approcci per creare e stimare un albero filogenetico: metodi basati sui caratteri e metodi basati sulle distanze.

Metodi basati sulle distanze

Nei distance method le distanze sono espresse come frazioni di siti differenti tra due sequenze in un allineamento multiplo. Si può facilmente capire che un paio di sequenze che differiscono per il 10% dei loro siti sono più strettamente correlate rispetto ad altre due sequenze che differiscono per il 30%. Dato che due sequenze divergono da un comune ancestore, ogni sostituzione nucleotidica inizialmente incrementerà il numero di differenze tra i due lineage. Possono esserci però retromutazioni che complicano la situazione. Ad esempio, su un dato sito due successive mutazioni possono prima cambiare e poi restaurare l’iniziale sequenza (da A a G, e quindi da G ad A); in questo caso il metodo delle distanze non registra differenza; queste situazioni fanno sottostimare la distanza reale tra due sequenze (Lemey et al., 2009).

Diversi metodi quindi cercano di valutare l’attendibilità di un albero secondo la distanza, tenendo conto della sottostima delle differenze osservate.

(9)

cosa trova il paio di taxa con la più piccola distanza tra loro e assegna ai rami tra loro la metà di quella distanza, quindi combina i due taxa in un cluster e, partendo da questo, riscrive la matrice stabilendo le distanze di ogni taxa rimanente dal cluster. Il processo si ripete fino a quando la matrice consiste di una sola entrata. Il set di matrici che si ottengono è usato per costruire l’albero partendo dalla radice e muovendosi verso l’esterno fino ai primi due nodi, rappresentati dagli ultimi due cluster. UPGMA è stato programmato sull’assunzione che l’albero è additivo e ultramerico, cioè che tutti i taxa sono equamente distanti dalla radice. Ciò naturalmente non è del tutto corretto (Lemey et al., 2009).

Il Metodo Neighbor Joining (NJ) fu sviluppato da Saitou e Nei (1987) e modificato da Studier e Keppler (1988). Il metodo si basa sul concetto di Minimum Evolution (ME); l’albero dalla minore lunghezza complessiva, data dalla somma della lunghezza dei suoi rami, è considerato come la migliore stima filogenetica:

con n = numero di taxa nell’albero υi = numero dei rami

In più, il NJ combina un paio di sequenze minimizzando il valore di S in ogni step di clusterizzazione di un paio di OTUs.

NJ differisce principalmente dall’UPGMA perché calcola direttamente le distanze dai nodi interni. Per ogni OTU, NJ calcola, per prima cosa, la sua divergenza dagli altri taxa. Quindi usa questa divergenza per calcolare una matrice di distanza dopo apposita correzione statistica.

NJ trova il paio di taxa con la più bassa distanza corretta e calcola le distanze di tutti gli altri taxa dal nodo che unisce il paio iniziale. Viene così creata una nuova matrice, nella quale il nuovo nodo è sostituito da quei due OTUs. NJ a differenza di UMPGA non assume che tutti i taxa siano equidistanti dalla radice (Lemey et al., 2009).

Metodi basati sui caratteri

I metodi basati su un criterio di ottimizzazione cercano l'albero che al meglio soddisfa i criteri di valutazione dei singoli alberi. Finché il numero di taxa rimane piccolo è possibile valutare tutti i possibili alberi, cioè condurre un’analisi esaustiva che garantisca di trovare il migliore albero, dopo che sono stati valutati tutti i possibili alberi. Già con 10 taxa ci sono più di 34 milioni di alberi possibili ed una ricerca esaustiva non è più pratica. I primi 3 taxa sono connessi nella sola maniera possibile, mentre il quarto taxon si aggiunge attraverso un nuovo ramo al centro di ogni ramo già esistente per creare i tre possibili alberi formati da 4 taxa. Aggiungendo il quinto taxon si aggiunge un ulteriore ramo al centro di ogni ramo per generare 15 possibili alberi con 5 taxa. Così con passaggi successivi il metodo calcola il miglior albero tra tutti quelli possibili (Hall, 2011).

Maximum Likelihood (ML) è un metodo statistico che seleziona l’albero che rende i dati più verosimili, quindi tenta di inferire un albero trovando quello che massimizza la probabilità dei dati osservati. Per le sequenze, i dati sono gli allineamenti di nucleotidi o amminoacidi. Facendo ciò ML applica un criterio esplicito per comparare i modelli vari di sostituzione nucleotidica per un particolare dataset (Lemey et al., 2009).

(10)

Parsimony è un metodo basato sull’assunzione che l’albero più probabile è quello che richiede il minor numero di cambiamenti per giustificare i dati (sequenze proteiche o nucleotidiche) nell’allineamento. La premessa di base di Parsimony è che i taxa condividano una caratteristica comune, dato che tale caratteristica l’hanno ereditata da un ancestore comune. Quando questa assunzione viene violata, ciò può essere spiegato da alcuni fenomeni come retromutazioni, convergenza, cioè dei taxa non correlati che evolvono nello stesso carattere; oppure da fenomeni di parallelismo, cioè differenti taxa hanno proprietà che fanno sì che una caratteristica si sviluppi in una certa direzione. Tutti questi eventi vengono definiti collettivamente con il nome di omoplasia (Lemey et al., 2009).

Il metodo dell’Inferenza Bayesiana (BI) è basata sulla probabilità a posteriori, cioè la probabilità che viene stimata su di un modello di attese a priori, conoscendo qualche cosa in più dei dati. L’Inferenza Bayesiana è concettualmente diversa dai metodi ML e parsimony, in quanto BI cerca l’albero che è più probabile a partire da quei dati e con quel modello di sostituzione, mentre ML cerca l’albero che rende i dati più verosimili possibili (Hall, 2011).

Le probabilità a posteriori sono ottenute esplorando lo spazio degli eventi dell’albero usando una tecnica di campionamento, chiamata Markov chain Monte Carlo (MCMC). Tale metodo inizia simulando un set di parametri random; introducendo dei cambiamenti nei valori dei dati viene quindi proposto un nuovo stato, che rappresenta un nuovo set di parametri. In ogni step della catena viene calcolato il rapporto (r) tra la probabilità a posteriori del nuovo stato e quella dello stato corrente. Se tale rapporto è maggiore di 1 (r>1) significa che la probabilità del nuovo stato sta aumentando e quindi questo viene accettato; si prosegue quindi con lo step successivo. Se invece r è minore di 1, il nuovo stato viene accettato con una probabilità proporzionale alla grandezza del rapporto: se il nuovo stato è rifiutato viene mantenuto lo stato precedente (Ronquist, 2004).

I programmi di BI inferiscono alberi filogenetici scegliendo qualche albero come punto d’inizio, calcolano la probabilità di quell’albero, e quindi cambiano l’albero operando qualche modifica alla topologia o modificando le lunghezze dei rami. Successivamente calcolano la probabilità del nuovo albero. Questo tipo di di processo a 5 step costituisce una generazione e viene ripetuto fino a che le ulteriori modificazioni non alterano più le probabilità in modo significativo, cioè fino a che si raggiunge un punto in cui le somiglianze degli alberi non sono significativamente diverse. A questo punto si dice che il programma converge verso il set degli alberi più probabili e quindi calcola e riporta un albero consensus (Ronquist, 2004).

Stimare l’attendibilità di un albero

Il principale problema che si incontra in filogenetica è il fatto che esista un’alta probabilità di dare credibilità ad un albero sbagliato, che rappresenti relazioni tra taxa non reali. Considerando soltanto la topologia dell’albero, trascurando la lunghezza dei rami, esistono 2 x 10128 possibili topologie per un albero di 100 sequenze (Hall, 2011).

Il metodo NJ seleziona l’albero che più accuratamente rappresenta l’ordine dei rami e le relazioni tra le sequenze; l’albero ottenuto ha un’altissima probabilità di non essere l’albero corretto. L’albero corretto non si conosce e quindi c’è bisogno di un metodo statistico che permetta di avvicinarsi il più possibile alla situazione reale con una probabilità di attendibilità il più alta possibile.

Il Bootstrap method e l’Inferenza Bayesiana rappresentano i metodi più usati per valuare l’attendibilità di un albero. Entrambi valutano la riproducibilità dell’albero, ma non l’accuratezza dei dati (Lemey et al., 2009).

(11)

Il bootstrap method in statistica valuta la riproducibilità dell’esperimento ripetendo la procedura, con lo stesso metodo, un numero N di volte. In filogenetica il bootstrap può essere applicato sia a metodi per distanza come NJ, sia a metodi per caratteri come il ML e parsimony. Il software per costruire gli alberi filogenetici nell’analisi di bootstrap costruisce un N numero di volte l’albero secondo il metodo prestabilito e attribuisce ad ogni nodo un valore di attendibilità (da 1 a 100), che corrisponde alla frequenza con cui tale nodo si presenta in quella posizione in tutti gli alberi generati (Hall, 2011).

Generalmente il numero di N varia a seconda del metodo: per NJ si utilizzano circa 1000-2000 ripetizioni bootstrap, per parsimony 1000 ripetizioni, mentre per ML, dati i tempi elevati nella generazione di un albero, si usa un numero di ripetizioni tra 500 e 1000 (Hall, 2011).

Il software quindi genera un numero di alberi uguale al numero di ripetizioni e genera un albero consensus che consideri tutti gli alberi. Tale albero ha indicato nei nodi interni il suo valore di bootstrap (Lemey et al., 2009). Un albero viene considerato più attendibile, quanto più alti sono i valori di bootstrap nei nodi interni; di norma, i valori inferiori a 50 vengono scartati e considerati non attendibili, anche se in genere si considerano attendibili nodi con valori superiori a 70 (Hall, 2011).

Per testare l'attendibilità (reliability) dell'albero, oltre al metodo Bootstrap, ci si può avvalere dell'inferenza bayesiana (Lemey et al., 2009), come spiegato nel paragrafo precedente.

Alberi Rooted e Unrooted

Il nodo interiore dal quale tutte le sequenze o taxa discendono è detto radice (root). La radice può essere conosciuta o non conosciuta. Se si conosce la radice di un albero si conosce la direzione dell’evoluzione, cioè l’ordine della discendenza delle sequenze.

Si può tracciare un unico pathway dalla radice ad ogni sequenza data. Se non si conosce la radice dell’albero si può risalire ad essa cercando di capire l’ordine di ogni discendente. Si definisce così un albero rooted quando tutte le sequenze discendono da un comune ancestore, che è rappresentato dal nodo più interno. Un albero unrooted non ha una direzione intrinseca e quindi per esso non si può dire che un nodo è discendente da un altro, poiché non si sa niente dell’ordine dei discendenti (Hall, 2011).

L’Outgroup

Un taxon viene usato per fornire una radice ad un albero filogenetico e così provvede a fornire una direzione evolutiva all’albero. Un outgroup non è considerato parte del gruppo di taxa in analisi (ingroup), ma preferibilmente è strettamente correlato con l’ingroup. Si definisce outgroup un gruppo di taxa strettamente correlati con gli ingroup, ma più lontani filogeneticamente dagli ingroup stessi; cioè le relazioni all’interno dell’ingroup sono più strette tra loro, che le relazioni tra uno dei qualsiasi taxon dell’ingroup e il gruppo degli outgroup (Hall, 2011).

La ricerca dell’outgroup è una fase fondamentale nell’analisi filogenetica in quanto stabilizza la struttura stessa dell’albero. La scelta dell’outgroup generalmente si svolge seguendo criteri filogenetici, ma nonostante ciò l’analisi avviene spesso per tentativi fino a che non si ottiene un albero con relazioni filogenetiche accettabili e con alti valori di attendibilità. Il risultato di questa operazione è quello di fornire una radice all’albero e quindi stabilizza l’intera struttura: si tratta quindi di una fase molto delicata dell’analisi filogenetica; infatti i valori di attendibilità dipendono oltre che dagli allineamenti delle sequenze, anche dalle sequenze degli outgroup (Hall, 2011).

(12)

Il problema della Saturazione

L'accuratezza della ricostruzione filogenetica sulla base di sequenze nucleotidiche dipende da diversi fattori: la qualità delle sequenze, l'identificazione di siti omologhi nell'allineamento, la regolarità del processo di saturazione, la consistenza del metodo di stima della saturazione e la divergenza tra le sequenze. La saturazione delle sostituizioni nucleotidiche è un fenomeno che influenza fortemente la ricostruzione filogenetica; infatti tale fenomeno diminuisce l'informazione filogenetica contenuta nelle sequenze ed in casi estremi, come nella completa saturazione, la somiglianza tra le sequenze viene stimata interamente sulla base della frequenza nucleotidica, che spesso non riflette le relazioni filogenetiche (Lemey et al., 2009).

Esistono diversi approcci per analizzare questo fenomeno, ma principalmente due metodi sono quelli più utilizzati, il metodo di Steel et al. (1993) ed il metodo di Xia et al. (2003). Il metodo di Steel e collaboratori (1993) si basa sulle relazioni di 4 OTUs (quartetti). Normalmente, queste relazioni sono descritte da 3 topologie di alberi diverse, definite come T1, T2 e T3. Soltanto una tra queste è necessariamente la topologia reale, mentre le altre sono false. Il problema principale in questa situazione è che si verifica un fenomeno denominato Long-branch attraction, che favorisce i raggruppamenti tra gruppi di taxa altamente divergenti in sister taxa (Lemey et al., 2009).

Il metodo comunque, si propone di calcolare il numero dei siti informativi nelle sequenze e il loro valore atteso. Un test statistico Chi-quadro descrive la distribuzione dei siti informativi, che differiscono dagli attesi in topologie di alberi generate a caso. L'ipotesi nulla prevede che non esista qualche informazione filogenetica insita nelle sequenze e rifiutando tale ipotesi si procede a valutare il supporto statistico relativo per le tre topologie alternative (Lemey et al., 2009).

Un limite del metodo di Steel è che l'analisi avviene per 4 OTUs e quindi per un numero maggiore il problema viene superato con un approccio euristico, campionando tutte le possibili combinazioni di 4 OTUs. Per ogni quartetto si calcola il Chi-quadro e se si rifiuta l'ipotesi nulla in tutti i test, si conclude che le sequenze non hanno sperimentato una significativa saturazione. Se qualche quartetto non rifiuta l'ipotesi nulla del test allora si verifica la combinazione di OTUs nel quartetto per risalire a quali di queste sequenze è attribuibile il fallimento del test (Lemey et al., 2009).

Il metodo di Xia e collaboratori (2003) si basa sul concetto di entropia dell'informazione e valuta la perdita dell'informazione sulla base dell'indice di saturazione di sostituzione, Iss. Se Iss assume valori intorno ad 1, le sequenze sotto analisi hanno incontrato saturazione. Il valore deve essere confrontato con un valore critico Iss.c. Se Iss non è molto più piccolo di Iss.c, si ha una situazione di saturazione, mentre se Iss è molto minore di Iss.c allora si è in presenza di bassa saturazione. I valori vengono confrontati in due situazioni topologiche differenti: nel caso di una distribuzione totalmente simmetrica e nel caso opposto di una distribuzione completamente asimmetrica.

L'analisi viene effettuata in gruppi di sequenze con numerosità multipla di 4: 4, 8, 16, 32. Se troviamo Iss < Iss.c. in tutte e quattro i cluster di 4, 8, 16, 32 sequenze si è in presenza di scarsa saturazione (Xia et al., 2003).

(13)

Likelihood-mapping analysis

Il Likelihood-mapping method rappresenta la capacità informativa di un dataset di sequenze codificanti con un triangolo equilatero ripartito in 7 aree: i tre trapezoidi agli angoli riportano le percentuali che corrispondono ai quartetti risolti; i tre rettangoli laterali rappresentano le regioni dove la decisione tra due topologie non è ovvia (parzialmente risolta), ed il triangolo equilatero centrale rappresenta l'area dove tutte e tre le topologie sono equamente supportate, cioè l'area dei quartetti irrisolti (Lemey et al., 2009).

Da un punto di vista biologico, un valore maggiore del 20% dell'area centrale dei quartetti irrisolti, è indice che i dati delle sequenze non sono attendibili per l'analisi filogenetica. Questa analisi di saturazione viene effettuata con Tree-PUZZLE, sia considerando tutte le posizioni dei codoni, la prima e la seconda posizione, e solo la terza posizione (Lemey et al., 2009).

Riferimenti

Documenti correlati

Nella  diagnostica  cardiaca  l’ECG  permette  di  rilevare  alterazioni  nell’eccitamento  che  a  loro  volta  possono  essere  causa  o  conseguenza  di 

I percorsi realizzati consentono di conoscere le caratteristiche di oltre 20 specie arboree presenti nelle aree verdi ferraresi, attraverso l’utilizzo della tecnologia QR code..

Given to the wide prevalence of this disease, it is therefore necessary a deeper understanding of the normal physiology of β cells and a complete characterization of

Sintaxina, che mediano la fusione e l’esocitosi delle vescicole d’insulina alla membrana plasmatica.In particolare BAG3 sembra regolare l’assemblaggio del complesso

A wide range of psychiatric disorders was found in association with IED including mood, anxiety, impulse control and substance use disorders (Kessler et al., 2006).. Among

comunità di ranchers utilizzava strumenti di controllo sociale ben diversi da quelli imposti tradizionalmente dal diritto, vale a dire un insieme di norme sociali

37 All four current members of EFTA participate in the EU’s single market: Iceland, Liechtenstein and Norway through the Agreement on a European Economic Area (EEA) and

Questi ultimi vengono descritti come «interpretazioni generali o applicative di norme organizzative, di programmazione finanziaria, di previsione, di gestione, di