• Non ci sono risultati.

1. INTRODUZIONE

1.4. ANALISI MOLECOLARI APPLICATE ALLA SISTEMATICA

1.4.2. ANALISI FILOGENETICA

Passo preliminare per lo studio dei geni oggetto dell’analisi filogenetica, è la reazione di amplificazione del DNA, la Polymerase Chain Reaction (PCR; Mullis et al., 1986), un processo in grado di amplificare un miliardo di volte il DNA di una regione selezionata. Una volta amplificato, il prodotto di reazione viene sequenziato per la determinazione dell’ordine, o sequenza, dei suoi nucleotidi. Le sequenze vengono ricostruite utilizzando

programmi dedicati che consentano di leggere ed eventualmente correggere i cromatogrammi ottenuti con il sequenziamento. Viene poi effettuata una ricerca nelle Banche Dati dedicate per similarità di sequenza.

Esistono vari programmi che permettono di confrontare la sequenza fornita con quelle depositate nelle Banche Dati. Tra i diversi algoritmi disponibili in rete, BLAST permette di effettuare ricerche nella Banca Dati NCBI (National Center for Biothecnology Information). Per determinare il grado di distanza filogenetica tra gli organismi studiati, si procede con l’allineamento delle sequenze di interesse, con quelle scaricate dalla Banca Dati. Il concetto alla base è di trovare l’allineamento ottimale, il migliore tra tutti quelli possibili. Allineare le sequenze spesso non è un’operazione semplice a causa di delezioni o inserzioni che fanno slittare la posizione di alcune basi tra le sequenze a confronto. Esistono programmi che effettuano tali allineamenti automaticamente ma in genere è necessario correggerli manualmente.

Il fine dell’analisi filogenetica è di rappresentare le relazioni evolutive tra gruppi attraverso la produzione di un albero filogenetico (Figura 1.12). L’albero filogenetico è la rappresentazione grafica del percorso evolutivo che ha riguardato un gruppo di organismi e si configura come un grafico bidimensionale costituito da nodi, rami e nodi terminali o foglie, in un albero risolto ogni ramo mette in relazione tra loro due soli nodi. I nodi terminali rappresentano le unità tassonomiche ovvero le specie in esame e sono detti anche Operational Taxonomic

Units (OTU). I rami definiscono le relazioni tra queste in termini di discendenza e di

progenitore e la lunghezza è proporzionale al numero di mutazioni che ha avuto luogo, mentre gli internodi rappresentano la specie ancestrale, il progenitore comune di due stirpi.

Possiamo distinguere tre tipi di alberi filogenetici: il cladogramma, l’albero additivo o filogramma e l’albero ultrametrico (Figura 1.13). Il cladogramma dà solo una indicazione delle condivisioni dell’ancestore comune più recente. L’albero additivo o filogramma contiene informazioni aggiuntive riguardo alla quantità di cambiamenti evolutivi mentre l’albero ultrametrico esprime il tempo relativo al processo evolutivo usando l’orologio molecolare.

Fig.1.13. Tipi di alberi filogenetici

I metodi principalmente utilizzati per la costruzione di alberi filogenetici possono essere distinti in due categorie: i metodi basati sulla matrice delle distanze (distance methods) e quelli basati sull’uso di caratteri discreti (discrete methods) (Salemi &Vandamme, 2003). Nei distance methods la distanza tra le specie viene misurata semplicemente come “quantità di differenza” nelle sequenze esaminate tra i più usati vi sono il Neighbour-Joining (NJ) e l’UPGMA. Il metodo Neighbour-Joining (NJ) analizza il numero di differenze tra le sequenze a confronto paragonandole a due a due; la coppia di sequenze con il minor numero di cambiamenti è denominata neighbors e le coppie di neighbors condividono un nodo in un sottoalbero risultante. Ogni confronto viene quindi trasformato in una misura di distanza e ad ogni passaggio vengono uniti i sottoalberi fino ad ottenere l’albero completo.

L’UPGMA (acronimo di Unweighted Pair Group with Arithmetic Means) è il metodo più semplice fra quelli basati sul clustering. Esso assume come valida l’ipotesi dell’orologio molecolare, cioè che la velocità di evoluzione delle sequenze sia costante lungo tutti i rami degli alberi. Per questo motivo tale metodo viene definito ultrametrico, cioè impone che la lunghezza di tutti i rami discendenti da un nodo interno fino ai nodi più esterni sia la stessa. Il metodo lavora utilizzando un algoritmo interattivo che raggruppa due unità tassonomiche o gruppi di unità ad ogni interazione, partendo da quelle che inizialmente appaiono come le più simili e proseguendo fino a determinare una radice dell’albero.

La caratteristica saliente dei distance methods, ovvero la traduzione delle sequenze in misure di distanze, rappresenta allo stesso tempo anche un difetto in quanto determinala perdita dell’informazione relativa alle sequenze stesse.

I discrete methods operano invece direttamente sulle sequenze piuttosto che su misure di distanza. Ogni posizione nelle sequenze allineate viene considerata un “carattere” ed inucleotidi o gli amminoacidi in quella posizione sono detti “stati”. Tutti i caratteri vengono di norma analizzati separatamente ed indipendentemente dagli altri. Tra i discrete methods ricordiamo i metodi Massima parsimonia e Massima verosimiglianza (Salemi & Vandamme, 2003; Baxevanis & Oullette, 2005).

La Massima parsimonia (MP) parte dal principio che la migliore spiegazione dei dati è anche la più semplice e quindi tende a ricercare quell’albero la cui topologia può essere spiegata con il più piccolo numero di mutazioni (cioè cambiamenti di carattere).

Nella Massima verosimiglianza (ML, Maximum likelihood) l’esame di ogni possibile topologia dell’albero viene fatta valutando ogni posizione della sequenza e porta alla creazione dell’albero filogenetico che più verosimilmente è in grado di produrre i dati osservati.

Al fine di determinare la robustezza dell’albero è necessario utilizzare dei metodi statistici, quali per esempio l’analisi di bootstrap. Utilizzato per la prima volta da Felsenstein (1985) in applicazione all’analisi filogenetica è un sistema di ricampionamento casuale di sequenze a cui vengono applicate le stesse procedure applicate alle sequenze vere. In questo modo ottengo due risultati: uno effettivo, quello delle sequenze in analisi e uno che rappresenta il valore che otterrei con un campione casuale. Dal loro confronto è possibile ottenere una stima della veridicità del risultato. Maggiore è il numero di operazione di bootstrapping, maggiore è l’attendibilità dei valori. Di seguito è stato riportato lo schema che viene di norma seguito per la costruzione di un albero filogenetico (Figura 1.14).