• Non ci sono risultati.

Analisi comparativa dei tre geni in primati e non-primati

Partendo dai presupposti delineati finora, abbiamo concentrato la nostra attenzione di linguisti e genetisti sull’analisi dei tre geni descritti, FOXP2,

ASPM e HAR1, direttamente collegati alla cognizione, allo sviluppo cerebrale e

del linguaggio umano. Allo scopo di identificare le regioni geniche maggiormente mutate lungo la scala evolutiva, abbiamo sottoposto le sequenze nucleotidiche di tutti e tre i geni e aminoacidiche degli ultimi due, in quanto codificanti proteine, ad un processo di allineamento multiplo, considerando 5 organismi oltre all’uomo: quattro primati (Pan troglodytes, Gorilla gorilla,

Pongo abelii, Macaca mulatta), e un altro mammifero vertebrato, il Mus musculus (Rattus norvegicus, in alcuni casi). In seguito all’allineamento, le

sequenze sono state utilizzate per la costruzione di alberi filogenetici, che ci consentono di confrontare il tasso di mutazione delle sequenze sia all’interno dei primati, che dei mammiferi come Rattus norvegicus e Mus musculus con

l’uomo, ed infine con un organismo evolutivamente più distante, come il

Gallus gallus.

Nei prossimi paragrafi sono presentati i metodi utilizzati per l’allineamento delle sequenze e i risultati ottenuti per ognuna delle sequenze analizzate.

3.1 Metodologie usate per l’analisi bioinformatica delle sequenze genomiche

Il primo passo per lo studio dei geni prescelti è rappresentato dal retrieval, ovvero il recupero delle sequenze dai database:

i. Download della sequenza genomica – Il punto di partenza è Ensembl, il

database costruito all’interno dell’Ensembl Project nella versione della sua ultima release, Ensembl 20162. Ensembl è un sistema per l’annotazione, l’analisi e lo storage di genomi, continuamente ampliato e aggiornato, corredato di strumenti bioinformatici per l’allineamento e l’analisi genomica in generale (Yates at al., 2015). Nella sequenza di riferimento umana (ultima release: GRCh38)3 sono state ricercate e selezionate le sequenze d’interesse.

ii. Analisi di omologia in BLAST – In questa fase, la sequenza genomica

umana, scaricata da Ensembl in formato FASTA, viene sottoposta ad analisi di omologia in BLAST (Basic Local Alignment Search Tool), direttamente dal sito dell’NCBI4, “The National Center for Biotechnology Information” (NCBI Resource Coordinators, 2016). BLAST è un programma che ricerca regioni di similarità tra sequenze genomiche (Johnson et al. 2008); basato sull'algoritmo sviluppato da Altschul e collaboratori (Altschul et al. 1990), BLAST si basa sull'assunto che in sequenze omologhe - anche notevolmente divergenti - possono essere individuate regioni che mostrano una similarità statisticamente significativa. Nel confronto tra sequenze nucleotidiche è attribuito punteggio positivo alle identità e negativo alle non identità. Per l’analisi delle sequenze nucleotidiche si può utilizzare l’algoritmo più comune, blastn, oppure gli algoritmi megablast e discontiguous megablast, ottimizzati per l’allineamento

2 Sito uffciale dell’Ensembl Project: www.ensembl.org

3Tutte le informazioni tecniche sullo Human assembly sono consultabili online su:

http://www.ensembl.org/Homo_sapiens/Info/Annotation

di lunghe sequenze non particolarmente divergenti. Nel nostro caso, sono state scelte le sequenze genomiche di 4 organismi modello: Pan troglodytes (scimpanzé), Gorilla gorilla (gorilla), Macaca mulatta (macaco) e Mus

musculus (topo) o Rattus norvegicus (ratto), a seconda della disponibilità

all’interno del database, e sono state paragonate tramite allineamento globale mediante discontinuous megablast con la sequenza di Homo sapiens. Discontinous megablast è più sensibile di blastn, e ultilizzato particolarmente per confronti cosiddetti cross-species. Per ciascun organismo analizzato, fin dallo scaricamento in formato FASTA delle sequenze dal sito di Ensembl si è dovuto scegliere di analizzare tutto il gene o un blocco di esso, scegliendo in quest’ultimo caso il frammento genico più lungo.

iii. Allineamento multiplo delle sequenze aminoacidiche – Quest’analisi è

stata condotta per le sequenze geniche codificanti proteine, quali FOXP2 e

ASPM. Lo stesso sito NCBI contiene al link di HomoloGene5 sia allineamenti pairwise che multipli di sequenze aminoacidiche. Sebbene molto utile, il sito tuttavia analizza solo una variante proteica di tutte quelle determinate da un singolo gene; per questo, al fine di analizzare l’allineamento e successivamente costruire gli alberi filogenetici, le sequenze aminoacidiche corrispondenti ad una specifica variante, la più lunga di norma, sono state scaricate in formato FASTA dal sito di NCBI, e sottoposte ad allineamento mediante ClustalW2. Questo algoritmo, sviluppato tra gli altri sul modello dell’EBI6, è una risorsa che consente il Multiple Sequence Alignment (MSA) di tre o più sequenze di lunghezza similare. Dai risultati dell’allineamento si deducono le regioni contenenti i cambiamenti aminoacidici rispetto alla sequenza di riferimento, nel nostro caso la sequenza umana.

iv. Alberi filogenetici – Al fine di rappresentare mediante un albero di tipo

filogenetico la distanza tra i genomi dei diversi organismi analizzati, le sequenze aminoacidiche scelte e allineate sono state quindi caricate e analizzate in Geneious 107 (Kearse et al. 2012), una suite bioinformatica che

5 HomoloGene database su NCBI: https://www.ncbi.nlm.nih.gov/homologene 6 Sito ufficiale: http://www.ebi.ac.uk/Tools/msa/

raccoglie numerosi strumenti analitici per la biologia molecolare. Nel nostro caso, l’analisi filogenetica è usata come supporto analitico per una comprensione più rigorosa dell’evoluzione dei geni/proteine presi in esami, coinvolti nello sviluppo cognitivo. L’albero è un grafo bidimensionale che mostra le relazioni evolutive esistenti tra diverse entità (geni, sequenze, organismi) e rappresenta uno strumento utile a mostrare la distanza tra organismi rispetto alla sequenza genetica analizzata, quantificando e riportando la divergenza tra due nodi sulla lunghezza degli archi (Branch Lenght), che normalmente rispecchia la lontananza tra organismi in termini di evoluzione. Un albero si compone di nodi terminali, che rappresentano oggetti esistenti; nodi interni o punti di divergenza o biforcazioni, che rappresentano ipotetici ancestori; un nodo iniziale o radice che rappresenta l’ancestore di tutti braccie linee che congiungono i vari nodi. Per la costruzione degli alberi filogenetici delle proteine FOXP2 e ASPM, il programma costruisce una matrice di distanza tra sequenze, che misura il numero di sostituzioni per sito: in questo modo le distanze nell’albero possono essere interpetate come il numero medio di caratteristiche che differiscono su tutti i siti analizzati in una regione allineata. Il modello di distanza (o modello di evoluzione molecolare) sul quale si basa la costruzione degli alberi per le sequenze aminoacidiche è il Jukes Cantor (Jukes & Cantor 1969), che assume che tutti gli aminoacidi della sequenza abbiano la stessa frequenza (0,05) e che per ogni elemento il tasso di sostituzioni sia eguale. Il metodo di clustering scelto per la ricostruzione degli alberi è UPGMA, un sistema di clustering basato su “Unweighted Pair Group Method using aritmetic Average” (Michener & Sokal 1957). L’algoritmo raggruppa le sequenze a partire dalle più simili ed aggiungendo successivamente un nodo all’albero, producendo alla fine alberi con radice ed ultrametrici.

Documenti correlati