• Non ci sono risultati.

DELL’ADATTAMENTO GENETICO UMANO ALL’ALTA QUOTA

6.1 Identificazione dei geni candidat

Lo studio di fenotipi o patologie complesse mediante l’approccio dei geni candidati risulta efficace se la selezione a priori dei geni e delle regione genomiche da analizzare viene effettuata attraverso metodi accurati.

Il metodo classico è rappresentato dalla ricerca in letteratura, tuttavia tale metodo comporta problematiche legate all’accuratezza della selezione, data la vastità del database “letteratura” e la necessità di trovare indicazioni e suggerimenti per indirizzare il proprio lavoro verso una strada nuova, originale e non già percorsa.

Recentemente sono stati sviluppati metodi bioinformatici in grado di integrare le informazioni provenienti dalla letteratura con quelle provenienti da più banche dati biologiche (Rzhetsky et al. 2004, Kent et al. 2005, Aerts et al. 2006, Jensen et al. 2009) per creare una scala di priorità basata su dei p-value che definiscono l’importanza di un determinato gene in relazione alla patologia o al fenotipo oggetto di studio. Questi metodi vengono appunto definiti “prioritization methods”.

Uno dei software bioinformatici che integra le informazioni provenienti dalla maggior parte dei database biologici attualmente disponibili è rappresentato da ENDEAVOUR (Aerts et al. 2006, Tranchevent et al. 2008).

82

6.1.1 Endeavour

Endeavour (http://homes.esat.kuleuven.be/~bioiuser/endeavour) è un software che sfrutta i “prioritization methods” basandosi principalmente sulla stima dei livelli di similarità tra un potenziale gene candidato e alcuni geni già noti per essere coinvolti nel fenotipo o nella patologia oggetto di studio (Fig.22).

Questi geni, definiti “training genes”, devono essere forniti al programma prima di procedere alla fasi successive. Per identificarli si possono sfruttare le informazioni presenti in letteratura inserendo direttamente nel programma l’identificativo dei geni o la regione cromosomica.

In alternativa si possono sfruttare le informazioni provenienti dai database: Gene Ontology (http://www.geneontology.org) ,

KEGG (http://www.genome.jp/kegg/)

OMIM (http://www.ncbi.nlm.nih.gov/omim) .

Nel caso di Gene Ontology o KEGG saranno inseriti tutti i geni annotati in banca dati in relazione ad una parola chiave fornita dall’utente (ad esempio “hypoxia”) mentre nel caso di OMIM tutti i geni che contengono quella parola chiave, nella loro descrizione.

A questo punto è necessario selezionare le banche dati che il programma dovrà utilizzare per estrapolare le caratteristiche riguardanti i geni noti. Queste banche dati vengono definite sottomodelli (pezzi del puzzle) e andranno a definire un modello generale (il puzzle) costituito dall’insieme di tutti i database. Per ogni sottomodello i geni noti si arricchiscono di molte informazioni che andranno tutte insieme a comporre il file definito “Training genes”.

Le banche dati utilizzate da Endeavour sono le seguenti:

letteratura (EntrezGene, http://www.ncbi.nlm.nih.gov/gene),

informazioni funzionali (Gene Ontology, http://www.geneontology.org), dati di espressione (Atlas gene expression, http://www.ebi.ac.uk/gxa/), dati EST (Ensembl, http://www.ensembl.org),

domini proteici (InterPro, http://www.ebi.ac.uk/interpro/),

interazioni interproteiche (Biomolecular Interaction Network Database – BIND, http://bond.unleashedinformatics.com),

83 pathways (Kyoto enciclopedia of Genes and Genomes – KEGG,

http://www.genome.jp/kegg), domini cis-regolatori (TOUCAN),

motivi trascrizionali (TRANSFAC, http://www.gene-81regulation.com) similarità di sequenza (BLAST, http://blast.ncbi.nlm.nih.gov/Blast.cgi)

Separatamente si crea il secondo file di input, “Test genes”, in cui si inseriscono i geni candidati da testare. Il programma, per ogni sottomodello, confronta i geni noti con i geni candidati per testare la similarità. In output viene fornito un ranking per ogni sottomodello in cui si può osservare la posizione dei geni candidati rispetto ai geni noti. Successivamente tutti i diversi rankings vengono fusi insieme per creare una classifica

84 unica del modello completo (Aerts et al. 2006, Tranchevent et al. 2008). Accanto alla visualizzazione grafica, è presente anche una tabella che associa ad ogni gene un p-value sia per ogni sottomodello analizzato sia per il modello completo.

I geni candidati selezionati tramite lo studio della letteratura (Hochachka and Rupert 2003, Hagg and Wennstrom 2005, Appenzeller et al. 2006, Brown et al. 2006, Rajput et al. 2006, Semenza 2007a, Breen et al. 2008, Leon-Velarde and Mejia 2008, Stobdan et al. 2008, Strohl 2008) sono stati testati con questo approccio per verificare la similarità con gruppi di geni noti tipici dei processi ipossici.

I risultati hanno confermato le aspettative collocando i geni di nostro interesse sempre nei primi posti della classifica.

Tali geni, elencati in tabella 7, fanno parte in modo diretto o indiretto della via metabolica di HIF descritta nel paragrafo 1.4.

Locus Cromosoma Funzione della proteina

HIF1A 14q21-q24 Fattori di trascrizione. Regolano la trascrizione di geni coinvolti nella

risposta all’ipossia.

HIF2A 2p21-p16

EPO 7q22 Target di HIF. Promuove la differenziazione degli eritrociti e la sintesi di emoglobina

VHL 3p26-p25 Coinvolto nella degradazione di HIF.

NOS3 7q36 Responsabile della sintesi di ossido nitrico (vasodilatatore) insieme a iNOS (NOS2A) e nNOS.

VEGFA 6p12 Target di HIF. Fattore di crescita coinvolto nella angiogenesi e nella crescita delle cellule endoteliali.

EDN1 6p24.1 Target di HIF. Codifica per una proteina che una volta processata

proteoliticamente dà origine a dei peptide con funzione di vasocostrittori.

EGLN1 1q42.1

Codificano per le prolil idrossilasi che favoriscono la degradazione di HIF.

EGLN2 19q13.2 EGLN3 14q13

85

7. EVOLUZIONE MOLECOLARE DEI GENI CANDIDATI

“[…] But if variations useful to any organic being do occur, assuredly individuals thus characterized will have the best chance of being preserved in the struggle for life; and from the strong principle of inheritance they will tend to produce offspring similarly characterized. This principle of preservation, I have called, for the sake of brevity, Natural Selection.”

Charles Darwin, L’origine delle specie (1859), capitolo 4.

La principale opera di Charles Darwin in cui viene descritta per la prima volta la teoria dell’evoluzione degli organismi viventi nasce dall’osservazione e dal confronto di diverse specie in relazione a fattori ambientali. Questo metodo comparativo rappresenta ancora oggi il metodo più utilizzato per studiare i processi di adattamento per selezione naturale. Alla base dei processi evolutivi ci sono cambiamenti che avvengono a livello della sequenza del DNA. Tali cambiamenti possono portare all’acquisizione di nuove caratteristiche morfologiche o fisiologiche che potranno diffondersi nella popolazione per effetto della selezione naturale e/o della deriva genetica. Ciò che maggiormente influisce nel determinare una o l’altra cosa è l’ambiente.

Pertanto confrontare le sequenze di DNA di specie o popolazioni che si sono evolute in ambienti che differiscono per un determinato fattore (ad esempio specie che vivono in ambienti a basse pressioni di ossigeno e specie che vivono in ambienti a normali pressioni di ossigeno) permette di identificare la presenza di differenze genetiche che possono aver influito sull’adattamento di quella specie (o popolazione) alle specifiche condizioni ambientali in cui si trova. A maggior ragione ciò sarà possibile se le sequenze di DNA che si confrontano appartengono a geni noti per svolgere un ruolo importante nel processo di adattamento al fattore ambientale in studio.

In questa tesi il metodo comparativo è stato applicato allo studio dei geni candidati all’adattamento alle basse pressioni di ossigeno. Tuttavia prima di procedere al confronto delle sequenze dei geni candidati a livello popolazionistico abbiamo effettuato uno studio a livello interspecifico. Questa analisi preliminare ha permesso di capire sotto quali

86 pressioni selettive si sono evoluti questi geni e se esistono differenze a livello interspecifico imputabili all’adattamento ad ambienti che differiscono per pressione di ossigeno nell’aria. Tutto ciò allo scopo di indirizzare le analisi successive, a livello intra- popolazionistico, verso specifiche regioni dei geni candidati.