• Non ci sono risultati.

MATERIALI E METODI

N/A
N/A
Protected

Academic year: 2021

Condividi "MATERIALI E METODI"

Copied!
8
0
0

Testo completo

(1)

MATERIALI E METODI

Ricerca in banca dati

Attraverso vari motori di ricerca sono state ricercate in banche dati le sequenze HMGA di vertebrati ed invertebrati. La strategia di ricerca consisteva nell'utilizzare sequenze di partenza già note come quelle di Xenopus laevis, Homo sapiens, Mus musculus e Danio

rerio come sequenza query con l'algoritmo BLAST di NCBI per interrogare i database di

nucleotidi NCBI, ESTs NCBI e proteine NCBI. In questa direzione, sono stati utilizzati i programmi BLASTP per ricercare sequenze amminoacidiche da una query amminoacidica, e BLASTN per ricercare sequenze nucleotidiche da una query nucleotidica; inoltre è stato molto utile il tool TBLASTN per ottenere sequenze object amminoacidiche da una query nucleotidica.

Inoltre sono stati interrogati database genomici come Ensembl per aumentare il numero di sequenze da utilizzare nella nostra analisi. In Ensembl le sequenze sono presentate attraverso un interfaccia grafica che permette di navigare nel genoma dell'organismo e trovare le sequenze nucleotidiche e/o proteiche corrispondenti alla sequenza di nostro interesse. Non sempre è stato possibile rintracciare le intere sequenze nucleotidiche per le nostre HMGA, in quanto molte sequenze sono state annotate in maniera incompleta e pur riconoscendo che si tratta di una tipica HMGA, non è stato possibile trovare nel database l’intera sequenza. La ricerca su Ensembl avviene come su NCBI, con i tool di BLASTP, BLASTN e TBLASTN, per la ricerca sia di sequenze amminoacidiche sia di sequenze nucleotidiche dei geni delle proteine HMGA.

Utilizzando questo approccio ho collezionato le sequenze proteiche e nucleotidiche di HMGA1 e HMGA2 di cordati ed emicordati, e sequenze di HMGA di altri invertebrati. Alcune sequenze proteiche, come HMGA2 di Gorilla gorilla, HMGA2 di Tursiops

truncatus e HMGA2 di Taenyopigia guttata, pur non essendo state annotate correttamente,

sono state ricostruite attraverso l'informazione trovata a livello genomico; in effetti, in questi casi, l’intera sequenza nucleotidica codificante è riconoscibile nel genoma di queste specie, e l’errata annotazione è dovuta a mancato riconoscimento dei siti corretti di

splicing. Il Dataset

Le sequenze selezionate nel mio dataset sono 93 e sono costituite dalle sequenze HMGA di vertebrati ed invertebrati; di queste 85 sono ingroup, tutte di deuterostomi, mentre le 8 sequenze di insetti (protostomi) fanno parte dell'outgroup.

Allineamento proteico

La ricerca dell'allineamento ottimale è avvenuta secondo due livelli successivi, uno proteico ed uno nucleotidico. Le sequenze proteiche sono state inizialmente allineate mediante il tool MUSCLE (Edgar, 2004) e manualmente ho cercato di ottimizzare tale allineamento di default tenendo fede a dei criteri ben precisi. Prima di tutto mi sono affidato ad un criterio che minimizza i cambiamenti amminoacidici e che favorisce cambiamenti tra amminoacidi con caratteristiche chimico-fisiche simili. In secondo luogo ho cercato di rispettare i blocchi altamente conservati, come i domini AT-hook , le regioni N-terminali e la coda acida nella porzione C-terminale della proteina. In terzo luogo ho cercato di rispettare i motivi amminoacidici conservati nelle proteine HMGA utilizzate

(2)

nella mia analisi.

Allineamento nucleotidico

Lo studio sull'allineamento è proseguito anche a livello nucleotidico. Partendo dall’allineamento amminoacidico, in questa fase ho allineato le sequenze nucleotidiche considerando il registro dei codoni, seguendo anche qui un principio di parsimonia, cioè che minimizzi i cambiamenti nucleotidici. Ho considerato sfavoriti allineamenti tra codoni con più di una sostituizione ed allineamenti con sostituizioni in prima e in seconda posizione rispetto a sostituizioni in terza base. Naturalmente anche qui è risultato agevole allineare le regioni che codificano per domini altamente conservati come gli AT-hook e le code acide C-terminali, oltre alle regioni N-terminali come utili punti di riferimento.

L'allineamento risulta così ottimizzato sia per un livello amminoacidico, che per uno nucleotidico e sintetizza in ultima analisi un unico dataset completo di tutti e due i tipi di informazione.

Siti di splicing

Attraverso l'ausilio di un database genomico come Ensembl è stato possibile ricostruire la situazione della composizione in esoni delle sequenze nucleotidiche e delle corrispettive amminoacidiche. Per ogni gene codificante per proteine in Ensembl è presente anche la sequenza codificante con annotati i siti di splicing. Ciò è stato utile per osservare la conservazione dei siti di splicing nelle varie specie, soprattutto per quelle sequenze che presentano splicing alternativi, come nelle due varianti di HMGA1 (HMGA1a e HMGA1b) nei mammiferi.

Studio sull'allineamento amminoacidico (ricerca dei caratteri diagnostici)

Il mio dataset comprende più forme di proteine HMGA. Le HMGA1 e HMGA2 sono state già descritte in alcuni sistemi modello dei vertebrati e nell'uomo, e sono state classificate con relativa semplicità, sulla base di alcuni motivi facilmente riconoscibili. Per le sequenze dei ciclostomi, cefalocordati, emicordati ed echinodermi non esiste una classificazione esaustiva; quindi ho ritenuto necessario uno studio più approfondito sull'allineamento amminoacidico allo scopo di individuare residui e motivi conservati o modificati, e di definire caratteri diagnostici delle forme di HMGA.

Il procedimento è costituito nel percorrere l'allineamento sul file .mas del programma MEGA5 (Tamura K et al., 2011) e, aiutandomi con i riferimenti noti dei gruppi AT-hook, la porzione N-terminale e C-terminale, ho confrontato visivamente le sequenze nelle posizioni amminoacidiche corrispondenti, focalizzandomi preferenzialmente nelle regioni in cui l'allineamento presenta chiari motivi conservati; ho quindi annotato le modifiche o la mancanza di tali motivi.

Selezione delle sequenze identiche

Prima di effettuare qualsiasi generazione di alberi con i relativi software, è stato necessario eliminare le sequenze identiche nell'allineamento finale. Per fare ciò mi sono avvalso del

Software DAMBE (sviluppato dall'Università di Ottawa, Canada,

http://dambe.bio.uottawa.ca/dambe.asp; Xia X. e Xie Z., 2001) il quale legge i file Fasta

(3)

effettuata sia per l'allineamento nucleotidico, sia per l'allineamento proteico.

Le Sequenze nucleotidiche identiche sono risultate: Homo sapiens HMGA2:

Hs_U28749 = Hs_NM003483= Hs_X92518 = Hs_Z31595

Callithrix jacchus HMGA2:

Cj_XM002752713 = Cj_ENCJAT00000025121

Mus musculus HMGA2:

Mm_ENSMUST00000072777 = Mm_AK028346 = Mm_AK142059 = Mm_BC052158 = Mm_BC085085 = Mm_NM010441

Xenopus laevis HMGA2:

Xl_NM001094371 = Xl_ BC082363 = Xl_BJ047331 Xl= NM001127835 = Xl_BC124962 = Xl_AW646221

Danio rerio HMGA2:

Dr_CF348628 = Dr_NM212680

Callithrix jacchus HMGA1:

Cj_ENSCJAT00000029675 = Cj_ENSCJAT00000061775

Homo sapiens HMGA1:

Hs_NM145899 = Hs_ ENST00000447654 = Hs_ ENST00000357318 = Hs_ ENST00000311487 = Pan troglodites_NM001246496

Hs_NM002131 = Pan troglodytes_AK305375

Cavia porcellus HMGA1:

Cp_XM003473909 = Cp_ENSCPOT00000019605

Mus musculus HMGA1:

Mm_NM0010254275 = Mm_ENSMMT00000117254 = Mm_ENSMMT00000117600 = Mm_ENSMMT00000118599 = Mm_ENSMMT00000119486

Oryzias latipes HMGA1:

Ol_BJ005854 = Ol_DK012568

Le sequenze proteiche identiche sono risultate: Homo sapiens HMGA2:

Hs_AAA68613 = Hs_ NP003474 = Hs_CAA63295 = Hs_ CAA83472 = Pongo abelii_XP002823531 =Gorilla

gorilla_ENSGGOP00000023432

= Macaca mulatta_ XP001117025 = Capra hircus_BAB64331 =Bos taurus_ENSBTAP000000533883 = Tursiups

truncatus_ENSTTRP00000002655 Callithrix jacchus HMGA2:

Cj_ENSCJAP00000026810 = Cj_XP002752759

Mus musculus HMGA2:

Mm_NP034571 = Mm_ BAC25896 = Mm_ BAE24928 = Mm_ AAH52158 =Mm_ AAH85085 =Mm_P52927

Xenopus laevis HMGA2:

Xl_NP001087840.1 = Xl_ AAH82363.1= Xl_BJ047331 Xl_NP001121307 = Xl_AAI24963.1 = Xl_AW646221

Danio rerio HMGA2:

Dr_ CF348628 = Dr_ NP997845

Callithrix jacchus HMGA1:

Cj_ENCJAP00000028083 = Cj_ENCJAP00000047145

Homo sapiens HMGA1:

(4)

Loxodonta africana HMGA1:

La_ENSLAFG00000028445 = Sus scrofa_NP001172084 =La_XP003421081 = Sus scrofa_NP001172083

Homo sapiens HMGA1:

Hs_NP665906 = Hs_ENSP00000349871 = Hs_ENSP00000308227 = Hs_ENSP00000751918

= Pan troglodites_NP001233425 = Canis lupus familiaris_NP001003387 Cavia porcellus HMGA1:

Cp_XP003473957caviaHMGA1= Cp_ENSCPOP00000019605

Mus musculus HMGA1:

Mm_NP001020598= Mm_ENSMUSP00000100667= Mm_ENSMUSP00000113011= Mm_ENSMUSP00000113068= Mm_ENSMUSP00000113015= Mm_ENSMUSP00000113916

Oryzias latipes HMGA1:

Ol_BJ005854 = Ol_DK012568

Strongylocentrotus purpuratus HMGA:

Sp_XM001176723 = Sp_XP800800

Bombus spp HMGA:

Bombus impatiens_XP003493657 = Bombus terrestris_XP003401548

Dato che una sequenza identica in un allineamento non aggiunge alcuna informazione, eliminando le sequenze duplicate si ottiene il risultato di semplificare il calcolo eseguito dagli algoritmi dei programmi di generazione degli alberi filogenetici. Le sequenze eliminate, se necessario, potranno essere collocate sull’albero dopo la fine della sua elaborazione.

Il test di saturazione

La prima fase da effettuare per analizzare un allineamento nucleotidico perfezionato manualmente è quella di analizzare le sequenze con il test di saturazione, per verificare se è avvenuta saturazione o no.

Con Tree-PUZZLE 5.2 (Schmidt et al., 2002) ho eseguito il test likelihood mapping utilizzando le seguenti opzioni:

GENERAL OPTIONS

b Type of analysis? Likelihood mapping g Group sequences in clusters? No

n Number of quartets? 10000 (random choice) e Parameter estimates? Exact (slow)

x Parameter estimation uses? Quartet sampling + NJ tree SUBSTITUTION PROCESS

d Type of sequence input data? Auto: Nucleotides h Codon positions selected? Use all positions m Model of substitution? TN (Tamura-Nei 1993) p Constrain TN model to F84 model? No

t Transition/transversion parameter? Estimate from data set r Y/R transition parameter? Estimate from data set f Nucleotide frequencies? Estimate from data set RATE HETEROGENEITY

w Model of rate heterogeneity? Gamma distributed rates a Gamma distribution parameter alpha? Estimate from data set c Number of Gamma rate categories? 5

Come modello di sostituzione è stato utilizzato Tamura Nei (1993) con distribuzione Gamma (0.65), come indicato dal test del Modello (v. paragrafo successivo).

Il calcolo delle proporzioni di quartetti risolti è stato eseguito separatamente sia considerando tutte le posizioni dei codoni della sequenza codificante (opzione use all

positions), che solo le posizioni 1e 2 (use 1st and 2nd position), che solo la terza posizione (use only 3rd position).

(5)

Ho eseguito il test di saturazione secondo Xia e collaboratori (Xia et al., 2003), con il

software DAMBE.

Per prima cosa ho calcolato il valore di Pinv, cioè la proporzione dei siti invarianti (invariant sites), un parametro importante soprattutto nel caso di sequenze con un tasso di sostituzione molto divergente tra di loro, quindi un parametro che permette di analizzare lo stato della saturazione (Xia et al.,2003).

A questo punto è stato effettuato il test di saturazione secondo Xia et al. selezionando le opzioni Sequence analysis, Measure substitution saturation, Test by Xia et al.(2003).

Il test del Modello

Per effettuare un'analisi filogenetica su sequenze nucleotidiche è necessario scegliere il modello di sostituzione ottimale; questo viene determinato tramite l'uso di un programma denominato ModelTest. Nel mio lavoro ho utilizzato una versione ottimizzata in ambiente

java, jModelTest (Posada, 2008), che permette di saggiare l'allineamento delle sequenze

nucleotidiche con 88 modelli diversi. Per ogni modello vengono calcolati i valori degli indici Akaike Information Criterion (AIC) e Bayesian Information Criterion (BIC), gli indici che permettono di valutare la bontà di un modello. Il programma indica il modello di sostituzione migliore e presenta una lista dei risultati ottenuti con tutti i modelli, elencati in ordine decrescente di efficienza.

Il Modello consigliato nel nostro caso è il Tamura-Nei con parametri G=0.95.

Per il modello di sostituzione Tamura-Nei sono qui elencati i valori per i vari parametri: Maximum likelihod estimation for the TrN+G model.

ML optimized tree topology Model = TrN+G partition = 010020 -lnL = 11400.8903 K = 190 freqA = 0.3636 freqC = 0.2168 freqG = 0.2887 freqT = 0.1309 R(a) [AC] = 1.0000 R(b) [AG] = 1.6842 R(c) [AT] = 1.0000 R(d) [CG] = 1.0000 R(e) [CT] = 3.3011 R(f) [GT] = 1.0000 gamma shape = 0.9480

Per il dataset proteico ho utilizzato il tool Find best protein model del programma MEGA5 (Tamura K et al., 2011). I modelli vengono classificati, come in modeltest, attraverso i valori di Akaike Information Criterion (AIC) e Bayesian Information Criterion (BIC). Il programma ha indicato come modello migliore Dayhoff con parametro Gamma uguale a 2.99.

(6)

Alberi Maximum Likelihood (ML)

Gli alberi ML sono stati generati con il software Tree-PUZZLE 5.2 (Schmidt et al., 2002), sia per gli allineamenti nucleotidici, che per quelli proteici.

Per gli allineamenti nucleotidici ho impostato i parametri:

GENERAL OPTIONS

b Type of analysis? Tree reconstruction k Tree search procedure? Quartet puzzling v Approximate quartet likelihood? Yes u List unresolved quartets? No n Number of puzzling steps? 150000 j List puzzling step trees? No

o Display as outgroup? DanausHMGA (88) z Compute clocklike branch lengths? No e Parameter estimates? Exact (slow)

x Parameter estimation uses? Quartet sampling + NJ tree SUBSTITUTION PROCESS

d Type of sequence input data? Auto: Nucleotides h Codon positions selected? Use all positions m Model of substitution? TN (Tamura-Nei 1993) p Constrain TN model to F84 model? No

t Transition/transversion parameter? Estimate from data set r Y/R transition parameter? Estimate from data set f Nucleotide frequencies? Estimate from data set RATE HETEROGENEITY

w Model of rate heterogeneity? Gamma distributed rates

a Gamma distribution parameter alpha? 0.95 (strong rate heterogeneity) c Number of Gamma rate categories? 5

Per gli allineamenti proteici ho impostato i parametri:

b Type of analysis? Tree reconstruction k Tree search procedure? Quartet puzzling v Approximate quartet likelihood? Yes u List unresolved quartets? No n Number of puzzling steps? 100000 j List puzzling step trees? No

o Display as outgroup? DanausHMGA (77) z Compute clocklike branch lengths? No e Parameter estimates? Exact (slow)

x Parameter estimation uses? Quartet sampling + NJ tree SUBSTITUTION PROCESS

d Type of sequence input data? Auto: Amino acids

m Model of substitution? Auto: Dayhoff (Dayhoff et al. 1978) f Amino acid frequencies? Estimate from data set

RATE HETEROGENEITY

w Model of rate heterogeneity? Gamma distributed rates

a Gamma distribution parameter alpha? 2.99 (weak rate heterogeneity) c Number of Gamma rate categories? 8

Alberi con Inferenza Bayesiana (BI)

Gli alberi generati con il metodo dell'inferenza Bayesiana sono stati ottenuti con il programma MrBayes v3.2.1 (Ronquist et al., 2011).

Per gli allineamenti di sequenze nucleotidiche ho utilizzato questi parametri:

>lset nst=1 rates=gamma Nuncmodel=4by4 >mcmc ngen=100000 samplefreq=100

Il parametro Nst=1 indica il modello di sostituzione F81 con distribuzione Gamma nel tasso di sostituzione nucleotidica.

(7)

Per generare l'albero sono stati necessarie 3'000'0000 generazioni per una deviazione standard di 0,008705.

Per gli allineamenti di sequenze proteiche ho utilizzato questi parametri:

>prset aamodelpr=mixed Nuncmodel=Protein >mcmc nchains=1 ngen=100000 samplefreq=100

Il comando mixed fa eseguire al programma tutti modelli di sostituizione previsti per gli amminoacidi ed adatta all'analisi il modello migliore per il dato allineamento.

Per generare l'albero sono stati necessarie 7'200'0000 generazioni per una deviazione standard di 0,008340.

Analisi di un secondo dataset

Le analisi effettuate con il primo dataset (v. Risultati) hanno evidenziato incongruenze tra gli alberi generati dall'allineamento nucleotidico e da quello proteico, soprattutto per quanto riguarda l'Analisi Bayesiana. Tali discordanze sono molto probabilmente dovute al fenomeno del Long-branch attraction, dovuto sia alla notevole distanza tra le sequenze HMGA degli insetti (outgroup) e quelle dei deuterostomi (ingroup), ma anche alla distanza tra le HMGA degli echinodermi e quelle dei vertebrati.

Per cercare di ottenere una migliore definizione nelle HMGA1 e anche nelle HMGA2 ho quindi allestito un secondo dataset costituito da tutte le sequenze HMGA1 e HMGA2 dei cordati utilizzando come outgroup le sequenze HMGA2 di Saccoglossus kowalevskii ed eliminando le sequenze HMGA degli insetti e degli echinodermi. Inoltre, in questo dataset, sono state eliminate le porzioni di splicing alternativo dalle varianti lunghe delle sequenze HMGA1 dei mammiferi e delle varianti di splicing delle sequenze di Anolis carolinensins. Il modello indicato da jmodeltest (Posada, 2008) per il dataset nucleotidico è GTR con G = 0.777 Model selected: Model = GTR+G partition = 012345 -lnL = 7631.6099 K = 149 freqA = 0.3213 freqC = 0.2345 freqG = 0.3308 freqT = 0.1134 R(a) [AC] = 1.2220 R(b) [AG] = 1.9655 R(c) [AT] = 1.0351 R(d) [CG] = 0.5734 R(e) [CT] = 3.8244 R(f) [GT] = 1.0000 gamma shape = 0.7770

Il modello indicato da MEGA5 (Tamura K et al., 2011) per il dataset proteico è JTT con G=0.71.

Il dataset così ottenuto è stato ulteriormente modificato eliminando le sequenze uguali che sono risultate dall'analisi con DAMBE.

(8)

Per le sequenze nucleotidiche sono risultate uguali: Homo sapiens HMGA1

Hs_NM145899 = Hs_NM002131.3

Callithrix jacchus HMGA1

Cj_XM0027571871 = Cj_XM0027571872

Pongo abelii

Pab_ XM002814852.1 = Pab_ XM002814852.1

Loxodonta africana HMGA1

La_XM0034421033 = La_ENSLAFG00000028445

Sus scrofa HMGA1

Ss_NM001185154 = Ss_NM001185155

Mus musculus HMGA1

Mm_ NM001166477 = Mm_NM001166545 = Mm_AF285780

Monodelphis domestica HHMGA1

Md_XM001369644.1 = Md_001369515

Anolis carolinensis HMGA1

Ac_XM003220345 = Ac_ENSACAT00000015947 = Ac_ENSACAT00000023698

Una volta eliminate le sequenze uguali nel dataset nucleotidico, dal dataset risultante sono state individuate le sequenze che risultavano identiche a livello amminoacidico:

Homo sapiens HMGA2

Hs_ NP003474 = Pongo abelii_XP002823531 = Gorilla gorilla_ENSGGOP00000023432 = Macaca mulatta_XP001117025 = Capra hircus_BAB64331 =Bos taurus_ENSBTAP000000533883 = Tursiops truncatus_ENSTTRP00000002655

Loxodonta africana HMGA1

La_ENSLAFG00000028445 = Sus scrofa_NP001172084.1

Homo sapiens HMGA1

Hs_NM145899 = Ailuropoda melanoleuca_XP002914361 = Canis lupus familiaris_NP001003387 = Myotis lucifugus _ENSMLUG00000010085

Anolis carolinensis HMGA1

Ac_XP003220393.1 = Ac_FG716035

L'analisi in ML è stata effettuata con Tree-puzzle 5.2 (Schmidt et al., 2002) per

l'allineamento nucleotidico con il modello GTR con G = 0.777, mentre per l'allineamento proteico è stato utilizzato il modello JTT con G=0.71.

L'analisi Bayesiana è stata effettuata con MrBayes 3.2.1. (Ronquist et al., 2011). Per l'allineamento nucleotidico sono stati impostati i parametri:

>lset nst=6 rates=gamma Nuncmodel=4by4

>mcmc ngen=1000000 samplefreq=100

Per l'allineamento amminoacidico sono stati impostati i parametri : > prset aamodelpr=mixed Nuncmodel=Protein

Riferimenti

Documenti correlati

Building on the initiatives associated with this anniversary, the High Level Policy Dialogue (HLPD) on In- ternational Displacement at the European University Insti- tute aimed

There was no legal entitlement to be granted citizenship; 4 by reacquisition: This applied to the acquisition of citizenship by the ‘homeless’ persons of German and

In principle, the Schengen Borders Code does not provide for measures such as travel bans, nor for the closure of the Member States’ external borders; in contrast, the Chapter II

La frontera come problema politico, sia per il tema del traffico di droga che per quello dell'ingresso degli immigrati clandestini, emerse con più forza solamente negli anni

The paper looked at four crucial moments, and maintained that the 1989 ‘anti-bureaucratic’ revolutions and the 2000 fall of Milošev ić gave rise to structural

Ethnic diversity is only tolerated in Greek school life: Greek majority parents, children and teachers argue that migrant children have a negative impact on the

Therefore, we hypothesized that after HMGA1 silencing the increased amount of p27 protein could be able to bind stathmin, inhibiting its activity on microtubules

Moreover, we demonstrated the involvement of HMGA2-AS1 in cancer cell motility using PC3 cell line silenced with both siRNAs (Supplemental Figure 6A) and overexpressing