• Non ci sono risultati.

Il DNA e la famiglia Alu

N/A
N/A
Protected

Academic year: 2021

Condividi "Il DNA e la famiglia Alu"

Copied!
94
0
0

Testo completo

(1)

INTRODUZIONE

All'inizio degli anni '90 si e iniziato a porre le basi per la creazione di una banca dati che cercasse di contenere tutte le informazioni riguardanti il genoma umano. Questo ambizioso progetto, con il nome human genome project[1], coinvolge piu di venti istituti di ricerca situati in diversi stati, tra i quali USA, Inghilterra e Giappone. Con il passare degli anni e con lo sviluppo di tecniche per il campionamento del DNA sempre piu accurate e veloci, si

e resa disponibile una enorme quantita di dati che sono stati adeguatamente archiviati nel data base e successivamente analizzati.

I dati derivanti da esperimenti di sequenziamento genomico hanno posto il problema della loro analisi con tecniche automatizzate. Per questo motivo da qualche anno ricercatori con una area di formazione diversa da quella biologica hanno iniziato a sviluppare questo tipo di metodologie. Alcuni sici (Mantegna [2][3], Arneodo [4-7]), ingeneri e matematici (Waterman [8]) hanno applicato tecniche di analisi delle serie temporali a sequenze di nucleotidi o amminoacidi, codi cate in un linguaggio adatto a questo tipo di trattazione. Gli approcci correntemente utilizzati spaziano dagli algo- ritmi di allineamento di stringhe a vari tipi di trasformate del segnale che fanno ricorso a tecniche di raggruppamento e classi cazione degli insiemi di dati. Se ne possono trovare esempi nei lavori di Mantegna et al. sulle cor- relazioni a lungo raggio nelle regioni genomiche codi canti e non-codi canti, nell'analisi multifrattale eseguita da Arneodo su genomi di varie specie e in- ne nell'applicazione di trasformate simili a quella di Fourier a gruppi di sequenze codi canti. Questo tipo di indagini si focalizzano sulla ricerca di caratteristiche atte a distinguere i diversi tipi di dati analizzati e gettino luce sul problema della composizione e della formazione del genoma su di erenti scale di lunghezza.

Come si puo facilmente comprendere dall'osservazione delle politiche di se- quenziamento che le compagnie private hanno adottato in questi ultimi dieci anni di lavoro sul genoma umano, risulta evidente che la spinta per questo tipo di ricerche viene dalla volonta di decodi care quella parte del nostro DNA che viene tradotta in proteine, cioe la parte codi cante. Basti pen- sare che l'annuncio di avvenuto sequenziamento che la Celera Genomics ha dato tempo addietro si riferiva solamente a questa porzione genomica,

1

(2)

rappresentante una sua parte minoritaria. A di erenza di queste politiche, spesso mirate alla ricerca di informazioni utili per la creazione di nuovi far- maci da immettere sul mercato, i biologi si pongono anche degli interrogativi di base riguardanti il ruolo e le interazioni fondamentali che coinvolgono la maggior parte del nostro genoma, quello non-codi cante. Per molti anni queste regioni sono state considerate, a causa della loro non funzionalita, solamente come DNA fossile, contenente la strati cazione di sequenze che hanno, in tempi passati, perso la propria funzione, per cui sono state studi- ate solamente in ambito evoluzionistico.

Un particolare tipo di sequenze non-codi canti sono quelle appartenenti alla famiglia Alu, comprendenti circa il 10% dell'intero genoma umano [9]. Le Alu sono caratterizzate da una consensus sequence di circa venti nucleotidi e hanno una lunghezza che varia dalle 100 alle 300 paia di basi. Esse non vengono tradotte in proteine, ma vengono trascritte come RNA messaggero ed hanno la possibilita di retrotrascriversi all'interno del genoma, distribuen- dosi in maniera disomogenea. L'attivita di retrotrascrizione non e autonoma e quindi deve essere mediata da altri tipi di sequenze che incorporano questa caratteristica. Il ruolo delle Alu all'interno del genoma e ancora avvolto nel mistero, anche se alcune ricerche condotte su cellule in vitro hanno eviden- ziato una loro attivita come mediatrici nei meccanismi che coinvolgono la risposta allo stress cellulare di vario tipo, come ad esempio lo shock termico e l'infezione virale [10] [11].

Alcuni autori hanno proposto le sequenze Alu come marcatori di polimor smi utili nell'indagine genetica. Batzer et al.[12] le hanno proposte come ottime candidate per una caratterizzazione delle diverse popolazioni umane, mentre Franceschi et al. [13] le hanno utilizzate in uno studio volto a evidenziare polimor smi presenti solamente in individui centenari.

Le caratteristiche del genoma su cui abbiamo eseguito l'analisi sono state le distanze che separano due sequenze di tipo Alu con orientazione invertita, interesse scaturito dalla constatazione che questo tipo di accoppiamenti puo generare eventi di ricombinazione illecita nel processo di crossover, spesso causa di malattie genetiche. Si sono analizzati segnali ottenuti dal campi- onamento di questi frammenti inter-Alu, misurandone la lunghezza tramite la tecnica di separazione dell'elettroforesi capillare e applicando un metodo di classi cazione non supervisionato per l'individuazione delle caratteristiche contenute nei pattern sperimentali. Questo tipo di analisi viene normalmente

2

(3)

eseguito tramite un software di analisi genetica, ad esempio il GeneScan della Perkin-Elmer, confrontando simultaneamente da due a quattro pattern di caratteristiche che si sono volute evidenziare nel campionamento del DNA.

Naturalmente questo tipo di confronti viene eseguito registrando la presenza o assenza di queste caratteristiche in un determinato sito del pattern. Le limitate possibilita di indagine dovute a questo tipo di approccio, pongono severi problemi quando si voglia correlare un grande numero di siti a pro- prieta di livello piu globale, come ad esempio caratteristiche fenotipiche degli individui analizzati, tra le quali le lunghezze inter-Alu nei centenari [13] op- pure malattie genetiche dovute ad un certo tipo di sequenze [14].

Nel presente lavoro di tesi ci si e posto il problema di automatizzare questo tipo di confronti, cercando le correlazioni dei siti all'interno dei pattern anal- izzati; il risultato a cui si e cercato di giungere e la veri ca della possibilita di sviluppare un algoritmo anche questi tipi di pattern potessero essere utilizzati come marcatori di polimor smi genomici. Con tale termine si in- dicano le varianti genetiche di un certo sito nei genomi di individui della stessa specie, che sono utili per capire come la genetica di un soggetto in- uenza l'espressione fenotipica, cioe quali parti del genoma sono correlate ad un tratto che viene espresso. La grande dicolta di queste analisi risiede nella non conoscenza dell'ubicazione dei siti di interesse. Considerando che abitualmente si indaga sulla presenza o meno di una sequenza genomica con lunghezza e composizione nota, isolandola dal resto del DNA, si possono considerare tutte le dicolta sperimentali che sorgono quando i siti devono essere considerati simultaneamente ed e nota solamente la loro composizione in acidi nucleici.

Per a rontare il problema si sono inizialmente sviluppate le procedure nec- essarie per la corretta trattazione dei pattern, quali il ltraggio del rumore e la rimozione delle proprieta non riproducibili su esperimenti ripetuti a causa della forte dipendenza dalle condizioni sperimentali, come la temperatura, il tempo di replicazione della PCR e altri parametri dicilmente controllabili.

L'analisi dati e stata compiuta grazie allo sviluppo e all'utilizzo di algoritmi basati sulla trasformata wavelet [15] e i pacchetti di wavelet [16-18], map- pando i pattern dallo spazio delle lunghezze inter-Alu a quello rappresentato dalle basi wavelet. Si e sviluppata una procedura che potesse implementare diverse tipologie di basi wavelet, come le basi Haar, le Daubechies e le CDF, ma nell'analisi si sono utilizzate solamente le prime, in quanto risulta sem-

3

(4)

plice e immediata l'interpretazione di un segnale proiettato su questo tipo di basi. Se si considera che le funzioni di Haar sono una combinazione lineare di funzioni caratteristiche di intervalli chiusi con coecienti di combinazione uguali a1 oppure 0, si puo pensare che ogni base, o anche ogni suo elemento, consideri in maniera positiva o negativa solamente le distanze inter-Alu che sono contenute in questi intervalli.

L'utilizzo dei pacchetti di wavelet, che generalizzano il concetto della trasfor- mata wavelet discreta, e stato necessario per aumentare notevolmente il nu- mero di basi su cui poter proiettare il segnale inter-Alu, avendo cos un maggior numero di elementi su cui compiere la classi cazione, data la grande ridondanza di queto tipo di rappresentazione. Dopo aver proiettato i segnali su queste basi, l'algoritmo di classi cazione esegue la ricerca delle basi che meglio raggruppano i pattern appartenenti allo stesso insieme di dati e nel contempo massimizzano la separazione dei bordi di questi raggruppamenti.

Individuate queste basi e possibile risalire alle lunghezze inter-Alu discrimi- nanti, eseguendo un confronto tra i pattern e il segnale ottenuto grazie alla traformata wavelet inversa di ogni particolare base.

Le procedure sviluppate in questa tesi sono state implementate in un soft- ware che utilizza in ingresso i risultati del GeneScan della Perkin-Elmer, permettendo un tipo di analisi dei segnali che prima non era possibile es- eguire ed una espandibilita svincolata dal progetto commerciale originario.

In ne il software e stato testato e calibrato grazie a campioni derivanti da sei coppie di gemelli omozigoti e da quattro famiglie comprendenti ciascuna tre generazioni di individui.

Il lavoro di tesi si e svolto in collaborazione con il Dott. Maurizio Cardelli dell'INRCA di Ancona, con Massimiliano Bonafe e il Prof. Claudio France- schi del Dipartimento di Patologia Sperimentale, che hanno curato la parte sperimentale e discusso i risultati dell'analisi.

4

(5)

Capitolo I

Il DNA e la famiglia Alu

1.1 Introduzione

Il seguente paragrafo intende dare una breve introduzione ella biologia molecolare che riguarda il DNA e le proteine, rimandando il lettore che cerca chiarimenti e approfondimenti ai libri consigliati nelle referenze alla ne del capitolo.

Nel 1865 Mendel diede un modello matematico astratto delle leggi che go- vernano l'eredita biologica che i genitori lasciano alla propria prole, nel quale l'unita di base fu chiamata

gene

. Il suo lavoro venne dimenticato no al 1900, e all'inizio del nuovo secolo venne riscoperto e sub un forte sviluppo matematico. Fino a quel tempo la natura del gene era comunque ancora sconosciuta. Solamente nel 1944 si scopr che il gene era composto da DNA e nel 1953 James Watson e Francis Crick proposero la famosa struttura a

doppia elica

per il DNA. Questa grande scoperta permise di comprendere come una molecola di DNA si puo dividere per generare una molecola identica all'originale. Il meccanismo di copia del materiale genetico e alla base della genetica molecolare moderna. Nel modello di Mendel il gene era un'entita astratta, mentre il modello di Watson e Crick descrive il gene, fondando le basi per una profonda conoscenza delle leggi dell'eredita biologica.

Figura 1.1 Forma elicoidale del DNA e l'appaiamento delle basi AT e GC

Le molecole di tutte le cellule si possono suddividere in due principali classi:

quelle grandi e quelle piccole. Le grandi molecole, chiamate macromolecole, sono di tre tipi:

DNA

,

RNA

e

proteine

. Il DNA e un polimero formato da un grande numero di piccole molecole chiamate

nucleotidi

. Esistono quattro

5

(6)

tipi di nucleotidi che vengono discriminati dalle quattro basi: adenina (A), citosina (C), guanina (G), timina (T).

o P

5’

3’

o P

5’

3’

Purine

Pirimidine

o P

5’

3’

o P

5’

3’

Timina

Adenina Guanina

Citosina A

C G

T

deossiribosio deossiribosio

deossiribosio deossiribosio

Figura 1.2 Struttura delle quattro basi

Quindi una molecola di DNA puo essere vista come una parola formata da lettere di un alfabeto a quattro simboli A=fA,C,G,Tg. Il DNA e un acido nucleico, proprio come l'RNA. Una molecola di RNA viene costruita da un alfabeto anche esso di quattro lettere, ma con la timina (T) trasformata in uracile (U) A = fA,C,G,Ug. In queste molecole si puo distinguere una direzione, con un capo chiamato 5' e l'altro 3'.

N

N N

N

H H O

HN CH3

O N

N N

N H H

O

H N

O H N

H N

N

N 5’

P

P

P

base

3’ 5’

3’ 5’

3’

base

base

Molecola di DNA

Ponti idrogeno

Timina Adenina

Citosina

Guanina

Figura 1.3 Catena di DNA e legami ad idrogeno

La struttura del DNA ha un'importante caratteristica che ci evidenzia come 6

(7)

avviene il processo di copia, l'accoppiamento complementare delle basi: ad ogni A viene accoppiata una T, ad ogni G viene accoppiata una C e vice- versa. Questo tipo di accoppiamento e dovuto ai legami ad idrogeno che si instaurano fra la coppia AT o quella GC. Quindi dato un lamento singolo della doppia elica, si puo dedurre facilmente l'altro lamento.

I legami che sono indicati dalle linee tratteggiate tra GC e AT corrispondono ai legami ad idrogeno, e data la struttura chimica delle diversi basi, si hanno 2 legami tra AT e 3 tra GC. Data questa regola di accoppiamento, la lunghezza di una macromolecola di DNA o RNA si misura in paia di basi, o in inglese

base pairs

(bp).

Le proteine sono anche esse dei polimeri, costituite da amminoacidi aventi una direzionalita. L'alfabeto delle proteine e piu esteso di quello degli acidi nucleici, infatti si possono contare 20 diversi amminoacidi. Il DNA contenuto all'interno di una cellula di un organismo e detto

genoma

, ed ogni cellula ha copie identiche di questa macromolecola. Sia l'RNA che le proteine vengono assemblati tramite le informazioni che risiedono nella sequenza del DNA, e inoltre le nuove molecole di DNA sono costruite a partire da quelle gia esistenti.

Quanto DNA si trova in un genoma? Dipende dell'organismo considerato, per molti batteri ogni cellula ha circa 106 nucleotidi, mentre l'uomo ne ha 3109. Nella (Fig 1.4) si possono osservare le lunghezze genomiche di diverse specie.

Specie Lunghezza del genoma in base pair Uccelli

Mammiferi Rettili Anfibi Insetti Molluschi Vermi Alghe Funghi Batteri

10 10 10 10 10 10 6 7 8 9 10 11

Figura 1.4 Variazione di lunghezza dei genomi di alcune specie 7

(8)

Come si puo osservare, c'e una certa tendenza ad associare un genoma lungo a organismi complessi, ma si riscontra che molti an bi hanno un genoma piu lungo dei mammiferi, e l'organismo che vince il primo premio e una particolare ameba. Quindi non e possibile associare la lunghezza del genoma alla complessita dell'organismo, e i biologi hanno chiamato questa anomalia

paradosso C

.

Il DNA e quindi il portatore dell'informazione genetica che serve ad un or- ganismo per funzionare, ed inoltre rappresenta l'eredita biologica che viene trasferita ai propri discendenti. Negli organismi con nucleo, detti

euca- rioti

, il DNA risiede all'interno della membrana nucleare, mentre le proteine vengono assemblate al di fuori di questa regione. La molecola che porta l'informazione al di fuori del nucleo e l'RNA. Le regole che governano il usso dell'informazione biologica sono sintetizzate nel

dogma centrale

, enunciato da Francis Crick nel 1958:

Dogma Centrale.

Una volta che l'informazione si e trasformata in proteina non puo piu ritornare indietro. Il trasferimento dell'informazione da acido nucleico a acido nucleico, oppure da acido nucleico a proteina e possibile, ma il trasferimento da proteina a proteina, oppure da proteina ad acido nucleico e impossibile. Quello che si intende per informazione e una precisa e ben determinata sequenza, che sia, di basi negli acidi nucleici oppure di amminoacidi nelle proteine.

DNA RNA proteina

Figura 1.5 Dogma Centrale

La freccia da DNA a DNA signi ca che esso puo essere copiato tramite la sua

replicazione

, la freccia all'RNA sottintende il processo chiamato

trascrizione

e quella da RNA a proteina il processo di

traduzione

. La sequenza di frecce signi ca che la costruzione di ogni macromolecola e gui- data dalla sequenza di quella precedentemente esistente. Questo meccanismo

e un processo basilare per la vita, e comprendere come avviene e motivo di grande interesse per ogni biologo. Al giorno d'oggi il dogma centrale e stato esteso, in quanto si sono scoperti sistemi genetici nel quale l'RNA guida la costruzione di altro RNA, e altri nel quale copie di RNA vengono reintegrate

8

(9)

nel DNA tramite un meccanismo di

retrotrascrizione

. Il processo di

sin- tesi

e quel meccanismo che permette la creazione di nuove molecole, e se lo si studia dettagliatamente si veri ca che alcune proteine sono necessarie per la sintesi sia dell'RNA che del DNA, rendendo tutto ancora piu complesso.

Figura 1.6 Processo di trascrizione DNA ! RNA

Considerando che l'RNA e formato da un unico lamento, si hanno due di erenti processi per la creazione dell'RNA e del DNA. Nel processo di trascrizione e necessario che i lamenti della doppia elica di DNA vengano separati nella regione da cui si vuole ottenere l'RNA. La separazione e ot- tenuta tramite la rottura dei legami ad idrogeno, poi un lamento di DNA viene usato come matrice per creare l'RNA. Nella genesi della nuova macro- molecola si osserva uno slittamento del nuovo RNA sul lamento di DNA, ed alla ne del processo di trascrizione di ottiene la doppia elica intatta e un nuovo lamento di RNA complementare alla sequenza desiderata (Fig. 1.6).

L'unica di erenza tra il DNA del lamento complementare e il nuovo RNA

e la base uracile al posto della timina.

La sintesi di nuovo DNA e chiamata

replicazione

, ed inizia con la sepa- razione della doppia elica, per poi utilizzare ogni lamento come matrice per

9

(10)

creare due nuovi lamenti, ottenendo due copie identiche della macromolecola (Fig 1.7).

Figura 1.7 Processo di duplicazione del DNA

Da quando Watson e Crick proposero la doppia elica come struttura del DNA, gli scienziati iniziarono a studiare il problema di come una molecola lineare o elicoidale di DNA potesse produrre una molecola lineare come una proteina. Crick propose un modello nel quale il codice genetico dovesse essere costituito da blocchi e esente da punteggiatura. Questi blocchi costituenti dovevano essere almento di 3 lettere, dato che 42 = 16<20, mentre 43 = 64 un numero suciente per codi care tutti i 20 amminoacidi. Probabilmente questo modello scatur dall'osservazione che se un unico lamento era neces- sario per creare una nuova doppia elica, doveva essere suciente per creare le proteine. Cos se gli amminoacidi sono codi cati in triplette di nucleo- tidi (chiamate

codoni

) e se il codice e esente da punteggiatura, esistono tre diversi schemi di lettura consecutivi:

 R1 R2 R3 

 x1dx2x3 x4dx5x6 x7dx8x9 

 R1 R2 R3 

 x1 x2dx3x4 x5dx6x7 x8dx9x10 

 R1 R2 R3 

 x1x2 x3dx4x5 x6dx7x8 x9xd10x11 

ed uno solo deve essere quello giusto che decodi ca R1R2R3. Chiaramente 10

(11)

considerando questo modello i codoni AAA, TTT, CCC e GGG sono da e- scludere in quanto hanno una lettura ambigua, infatti considerando AAAA- AA non si puo avere uno schema di lettura univoco. Togliendo questi quattro codoni rimangono 43 ?4 = 64?4 = 60 altre possibilita. Dei rimanenti si considerino i codoni XYZ, allora XYZXYZ deve essere letto in modo unico, per cui se XYZ e un codone YZX e ZXY non lo devono essere. Il numero di codoni ammessi passa da 60 a 60 13 = 20, proprio il numero degli ammi- noacidi.

Comunque la natura ha trovato un modo matematicamente meno elegante, ma piu eciente. Il codice genetico viene letto da un lamento di RNA dal 5' al 3' capo, ed e formato da triplette e senza punteggiatura. Esistono tre triplette associate al segnale di terminazione della sequenza e sono UAA, UAG e UGA, mentre le altre sono associate ai venti di erenti amminoacidi, come mostrato nella (Fig. 1.8).

secondo U C A G

primo terzo

Phe Ser Tyr Cys Phe Ser Tyr Cys Leu Ser TC TC Leu Ser TC Trp Leu Pro His Arg Leu Pro His Arg Leu Pro Gln Arg Leu Pro Gln Arg Ile Thr Asn Ser Ile Thr Asn Ser Ile Thr Lys Arg Met Thr Lys Arg Val Ala Asp Gly Val Ala Asp Gly Val Ala Glu Gly Val Ala Glu Gly

U

C

A

G

U C A G U C A G

U C A G U C A G

Figura 1.8 Tabella amminoacidi e rispettiva traduzione in proteine Come si puo osservare il cambio di una base nella terza posizione del codone da come risultato quasi sempre lo stesso amminoacido non mutato: il codice genetico e eciente rispetto a questo tipo di mutazioni puntuali.

L'RNA che viene tradotto in proteine e chiamato RNA messaggero, o breve- 11

(12)

mente

mRNA

. Per esempio:

mRNA UUU UAC UGC GGC C proteina Phed Tyrd Cysd Glyd 

uno spostamento di una stessa lettera nello schema di lettura, ci traduce una sequenza di amminoacidi molto diversa:

mRNA U UUU ACU GCG GCC  proteina  Phed Thrd Alad Alad 

quindi lo schema di lettura e una caratteristica che deve essere conservata anche la proteina sia quella desiderata.

De nizione.

Sia

N

= fA,C,G,Ug, un insieme di acidi nucleici, sia

C

=

f(x1x2x3)jxi 2

N

g, l'insieme dei codoni e sia

A

l'insieme degli amminoacidi con i codoni di stop, allora la parte codi cante del genetico e una mappa g :

C

!

A

.

1.2 Il genoma codi cante

1.2.1 I geni

Il processo che porta alla creazione delle proteine e costituito da svariati passi intermedi: il DNA genera tramite la trascrizione l'mRNA, successiva- mente una molecola chiamata RNA di trasferimento o

tRNA

interagisce con i codoni dell'mRNA. Il tRNA e una macromolecola di circa 80 basi a forma di croce, nella cui sommita c'e una tripletta di nucleotidi a cui e ancorato un particolare tipo di amminoacido. Questa reazione e molto speci ca, e si hanno tanti tipi diversi di tRNA quanti sono gli amminoacidi. Il processo di interazione tra mRNA e tRNA avviene nei

ribosomi

, che leggono l'mRNA e creano la corrispondente proteina lineare. Successivamente la proteina as- sume la sua forma tipica tramite il processo di

ripiegamento

, che avviene spontaneamente, o per via di altri costituenti della cellula.

Nel codice genetico si e detto che esistono tre codoni indicanti la ne della traduzione, e quindi la ne del gene. Non si e ancora menzionato il fatto che i geni iniziano con un codone di inizio, AUG che viene sempre tradotto nell'amminoacido Met. Come spesso avviene in biologia non esiste un prin- cipio unico dal quale si possono desumere tutti i processi della cellula, ma

12

(13)

spesso bisogna considerare degli organismi semplici, presi a modello per evi- denziare delle caratteristiche comuni ad organismi piu complessi. Per questa ragione un sistema molto studiato e il batterio Escherichia coli, piu breve- mente E. coli, sul quale possono essere fatti ogni tipo di esperimenti. Un com- plesso molecolare formato da svariate proteine, chiamato RNA

polimerasi

,

e necessario per trascrivere l'RNA dal DNA. Per ragioni di ecienza e con- trollo ci sono nel DNA segnali di inizio e ne per la trascrizione dell'RNA.

Un motivo che spesso indica l'inizio della trascrizione e dato da due sequenze speci che di DNA, come si puo osservare in (Fig. 1.9).

5’ TTGACA TATAAT M e t gene 3’stop −35 −10 −1 +1

Figura 1.9 Motivo che accompagna i geni nel batterio E. coli

L'aggregato della polimerasi si lega con le due sequenze di DNA, trovan- dosi cos nella giusta posizione per scivolare lungo il DNA e trascriverlo nell'mRNA. Le sequenze a cui si lega la polimerasi vengono chiamate

se- quenze promotrici

. Questo motivo spesso varia, sia nel contenuto che nelle posizioni relative. L'espressione dei geni puo essere controllata in due punti di erenti: DNA ! RNA oppure RNA ! proteina. Un modo comune per regolare l'espressione genica e tramite un soppressore, che modi ca il processo DNA ! RNA. Supponendo che un gene serva per metabolizzare una molecola come puo essere il lattosio, quando il lattosio e assente una molecola repressore si lega al DNA, inibendo il processo DNA ! RNA. In- vece quando il lattosio e presente, si lega al repressore prevenendo che si leghi al DNA e quindi annullando la sua funzione inibitrice. Questo utile meccanismo permette all'organismo di produrre le proteine che metaboliz- zano il lattosio solamente quando e presente, limitando lo spreco di risorse della cellula. Questo semplice esempio e solamente una parte microscopica di tutti i complicati meccanismi di controllo che consentono alla cellula di adattarsi alle piu svariate condizioni esterne.

Il primo sequenziamento del genoma venne eseguito per E. coli, un apparte- nente alla famiglia dei

procarioti

, cioe quegli organismi le cui cellule non possiedono un nucleo. Quando le tecniche di sequenziamento divennero piu rapide, si inizio a sequenziare i genomi eucariotici. Una novita si presento im- mediatamente: il DNA che codi cava le proteine era interrotto da DNA non

13

(14)

codi cante, che scompariva nell'mRNA corrispondente. I biologi si aspetta- vano che le regioni codi canti E1E2E3 apparissero una di seguito all'altra, e non fossero interrotte da altre regioni non codi cantiI1 eI2. Nel processo di trascrizione, gli

esoni

E1E2E3 divenivano una sequenza ininterrotta, mentre gli

introni

I1I2 venivano rimossi (Fig. 1.10).

DNA

RNA

E1 1 2 2 3I E I E

mRNA

Figura 1.10 Processo di splicing: rimozione degli in- troni e assemblamento degli esoni nell'mRNA

Il risultato e che un gene di 6000 bp si trova sparso in una regione di 10000 basi di DNA. Nel lievito c'e' un gene tRNA di 76 bp interrotto da un introne di 14 bp, mentre il gene umano della tiroglobina e di 8500 bp interrotto da piu di 40 introni di 100000 bp. Rimane comunque ancora molto da chiarire riguardo al ruolo degli introni, in quanto non si comprende ancora appieno la loro dinamica e come possano in uenzare il processo di creazione delle pro- teine. Originariamente si penso che la maggior parte del DNA nel genoma codi casse i geni, ed e ettivamente lo si veri ca in organismi estremamante semplici, come ad esempio i virus. La caratteristica saliente di questi or- ganismi e la loro speci cita e compattezza, mentre negli organismi complessi

e sicuramente piu predominante la versatilita e adattabilita alle varie con- dizioni esterne. Il genoma umano e composto da solamente un 5% di DNA che serve per codi care proteine, e la funzione del rimanente 95% rimane ancora oggi non del tutto chiarita, anzi a volte sconosciuta. I biologi pensa- vano fosse spazzatura fossile, che si era depositata durante l'arco evolutivo del genoma, ma oggigiorno si attribuiscono a questo tipo di DNA svariate funzioni regolatrici che sono molto importanti per la sopravvivenza della cel- lula. Il paradosso C viene risolto se si associa alla complessita dell'organismo la percentuale di genoma non codi cante, evidenziando cosun'utilita ancora

14

(15)

sconosciuta di questo tipo di DNA.

1.2.2 I geni saltanti e i trasposoni

Una caratteristica dell'evoluzione molecolare e che procede a piccoli passi localizzati. Un concetto molto importante e che un genoma e un'impronta digitale di un organismo, ma ci si e dovuti ricredere quando nei genomi sia procariotici che eucariotici si sono scoperte sequenze di DNA che si muovono da una posizione ad un'altra. Queste sequenze sono state chiamate

trasposoni

, e se al loro interno contengono un gene vengono detti

geni saltanti

. Vengono fatte molte speculazioni riguardanti il ruolo di queste se- quenze, e sperimentalmente si e osservato che esse riescono a propagarsi e proliferare all'interno del genoma in cui si trovano. Quando avvengono questi meccanismi di trasposizione, spesso si hanno copie o cancellazioni di DNA tra le sequenze trasponibili.

Si e attribuito ai trasposoni il marchio di DNA egoista, che esiste e si prolifera solamente per la propria sopravvivenza, vedendoli come dei mini-organismi che vivono in un ambiente vasto, rappresentato dal genoma. Il fatto che i trasposoni si trovino sia nei batteri che nell'uomo, suggerisce che essi devono avere un ruolo all'interno del genoma, in quanto sono un tipo di sequenze evolutivamente conservate, e quindi non utili solo a se stesse.

1.3 La composizione del genoma

Alcune informazioni biologicamente interessanti che si possono ottenere dal sequenziamento completo del genoma umano possono essere trovate in questo paragrafo e rappresentano le caratteristiche su larga scala della se- quenza nucleotidica completa: la distribuzione di nucleotidi GC, le isole CpG e il grado di ricombinazione, il contenuto genico e di sequenze ripetute nel genoma.

L'esistenza di regioni ricche o povere di nucleotidi G/C fu rivelata da studi sperimentali inerenti la densita del gradiente di separazione della doppia elica, indicanti una sostanziale variazione nel contenuto medio di GC tra frammenti di DNA molto lunghi. Si riscontra che esistono 3 legami idrogeno tra la coppia GC nei due lamenti di DNA, mentre ne esistono solamente 2 tra le coppie AT, creando cos una maggiore resistenza alla separazione dei due lamenti nelle zone ricche di nucleotidi GC. Studi successivi hanno

15

(16)

evidenziato il signi cato biologico di queste zone ad alto e a basso contenuto GC, mettendo in relazione la concentrazione di nucleotidi GC con la densita di geni, di sequenze ripetute e con il grado di ricombinazione.

Figura 1.11 Contenuto di nucleotidi G o C in nestre di 20 Kb nel genoma umano (in %)

Come si puo osservare nella (Fig. 1.11), il contenuto locale di GC ha larghe escursioni attorno a un valor medio del 41%. Bernadi e i colleghi proposero che le larghe escursioni nel contenuto GC indichino che il genoma e un mo- saico nel quale si tassellano regioni composizionalmente omogenee, che sono state chiamate

isocore

. Queste isocore corrispondono a zone con diverso contenuto medio di nucleotidi GC le cui uttuazioni sono date da una di- stribuzione normale. Le cinque isocore sono date dalle sigle (L1,L2,H1,H2,- H3) con una media di GC (<38%;38?42%;42?47%;47?52%;>52%). A volte l'etereogeneita nel contenuto locale di GC e attribuibile alle inserzioni degli elementi trasponibili. Questi elementi ripetuti hanno tipicamente un alto contenuto di GC rispetto alle sequenze che li circondano, con un e etto maggiore se si considerano le loro inserzioni recenti. In ne l'alto contenuto di GC e sempre presente in zone nelle quali si riscontra una forte densita di geni.

Un'altra interessante caratteristica riguardante il genoma e la bassa perecen- 16

(17)

tuale di

isole CpG

. I dinucleotidi CpG sono veramente rari, e si ritrovano con una frequenza che e 15 di quella che ci si aspetta moltiplicando le frazioni di Citosina e quella di Guanina presenti nel genoma (0:210:214%). Questa grande di erenza si deve al processo di metilazione della base citosina, che trasforma C in metil-C, e alla spontanea deaminazione del residuo metil-C nel residuo T. Come risultato di questi due processi si ottiene che il dinucleotide CpG si trasforma in TpG. Comunque il genoma contiene varie isole CpG che non si sono metilate e si ritrovano con una frequenza molto simile a quella predetta se consideriamo il contenuto locale dei nucleotidi GC. Biologica- mente le isole CpG sono di grande interesse in quanto molte si trovano nella 5' ne dei geni. Analizzando l'intero genoma umano si possono riscontrare 50267 isole CpG nella sequenza nucleotidica completa, mentre se ne riscon- trano 28890 se si escludono le zone formate da sequenze ripetute. Questa di erenza e dovuta alla grande abbondanza di zone GC in molti elementi ripetuti (spesso in sequenze Alu). Molti di questi elementi ripetuti possono funzionare come regioni di controllo, e sembra che le apparenti isole CpG nelle sequenze ripetute siano funzionali.

Se si analizzano le sequenze ripetute, si possono distinguere cinque classi diverse: (1) ripetizioni derivate da trasposoni; (2) copie di geni cellulari retroposte nel genoma ed ora trovantesi in uno stato di inattivita (o parziale inattivita), normalmente chiamati pseudogeni espressi; (3) semplici sequenze ripetute, consistenti in ripetizioni dirette di sequenze relativamente corte, come ad esempio (A)n, (CA)n oppure (CGG)n; (4) duplicazioni, consistenti in blocchi di circa 10-300 Kb che sono state copiate da una regione all'altra del genoma; (5) blocchi di sequenze ripetutute a coppie, come i centromeri, i telomeri e le corte braccia dei cromosomi arcocentrici. Le ripetizioni sono sempre state considerate come spazzatura fossile all'interno del genoma, e sono state etichettate come di scarso interesse da parte dei biologi, ma at- tualmente esse rappresentano una grande fonte di informazioni circa i processi biologici che lo coinvolgono, essendo la strati cazione paleontologica di tutti i processi che coinvolgono gli elementi genomici. Come marcatori passivi e geneticamente neutri sono utilissimi per lo studio dei processi di mutazione e selezione ed e possibile riconoscere insiemi di sequenze ripetute nate nello stesso istante e seguire il loro destino nelle diverse zone del genoma o nelle di erenti specie. Come agenti attivi le sequenze ripetute hanno rimodellato il genoma causando riarrangiamenti, creando nuovi geni, modi cando e mi-

17

(18)

schiando i geni gia esistenti e in ne modulando il contenuto generale di GC.

Esse hanno permesso di chiarire vari aspetti della struttura dei cromosomi e della loro dinamica, e si sono rivelate un prezioso strumento per la medicina genetica e gli studi di popolazioni genetiche.

1.3.1 Sequenze ripetute derivate da trasposoni

Molte sequenze ripetute sono dei derivati del processo di trasposizione dei trasposoni, e si puo attualmente a ermare che circa il 45% del genoma appartiene a questa classe. Nei mammiferi praticamente tutti gli elementi trasponibili appartengono ad uno dei quattro tipi che si possono riscontrare nella seguente tabella, tre dei quali proliferano all'interno del genoma diven- tando RNA e poi reintegrandosi, mentre uno si traspone direttamente via DNA.

Figura 1.12 Famiglie di sequenze ripetute all'interno del genoma umano Alle prime tre classi appartengono gli elementi interdispersi lunghi (LINE:

long interspersed nuclear element), gli elementi interdispersi corti (SINE:

short interspersed nuclear element), i retrotrasposoni LTR e nell'ultima classe i trasposoni DNA. Gli elementi LINE sono una delle piu antiche e ecaci in- venzioni nei genomi eucariotici, nel genoma umano sono tipicamente sequenze nucleotidiche lunghe 6 Kb, contenenti un promotore per la polimerasi II e codi canti con due schemi di lettura aperti. A causa di queste caratteristiche gli elementi LINE sono attivi, cioe possono proliferare ed espandersi libera- mente nel genoma, e nella loro gliazione sono spesso responsabili della retro- trascrizione di altri elementi non autonomi, come le SINE, e della creazione di pseudogeni. Nel genoma umano si possono trovare tre famiglie di LINE:

18

(19)

LINE1, l'unica attiva, e le due famiglie inattive LINE2 e LINE3. Le SINE, invece si trovano spesso nella parte nale degli elementi LINE, e sono rap- presentati da una sequenza nucleotidica che puo variare da 100 a 400 bp che contiene un promotore per la polimerasi III ma non producono proteine.

Queste sequenze utilizzano le LINE per retrotrasporsi nel genoma. Il genoma umano contiene tre famiglie SINE: le Alu, che sono a volte attive, e le inat- tive MIR e Ther2/MIR3. I retrotrasposoni LTR sono aancati da sequenze ripetute che contengono tutti gli elementi necessari per la regolazione della trascrizione. Gli elementi autonomi (retrotrasposoni) contengono i geni gag e pol, necessari per la proteasi, la trascrittasi inversa, l'RNAasi e l'integrasi.

In ne i trasposoni DNA sono molto simili a trasposoni batterici, aventi delle sequenze ripetute invertite nella parte terminale e possono utilizzare un mec- canismo taglia e incolla per muoversi all'interno del genoma. Il genoma umano contiene almeno sette diverse famiglie di trasposoni DNA che pos- sono essere suddivise in molte sottofamiglie con origini di erenti. Si veri ca che la vita di questi elementi mobili e molto corta all'interno di una specie.

Se si analizza il contenuto di sequenze ripetute presenti nel genoma, si pos- sono trovare alcune zone che ne sono straordinariamente dense, con la mag- gior concentrazione in una regione di 525 Kb nel cromosoma Xp11 che rag- giunge una densita dell'89%. In contrasto a queste zone ne esistono alcune nelle quali queste sequenze sono praticamente assenti, e si riscontra che con- tengono molti elementi regolatori che non possono tollerare delle inserzioni da parte di sequenze estranee. Le quattro regioni con la densita minore di sequenze ripetute sono i quattro aggolomerati di geni HOXA, HOXB, HOXC e HOXD, contenenti in regioni di circa 100 Kb on una densita minore del 2%

(Fig. 1.13).

Figura 1.13 Sopra: cromosoma 22, sotto: cromosoma 2 con agglomerato genico HoxD. Le barre rosse rappresentano le sequenze ripetute mentre le blu sono i geni.

19

(20)

Si riscontra una grande di erenza se si osservano le zone nelle quali si incon- trano preferenzialmente le diverse classi di sequenze ripetute, evidenziando due tendenze di inserzione opposte. Le LINE sono preferenzialmente lo- calizzate in zone ricche di nucleotidi AT, mentre le SINE (Alu e MIR) si riscontrano con maggiore frequenza in zone ad alto contenuto di GC. Per quanto riguarda i retrotrasposoni LTR e i trasposoni DNA, non si evidenzia una particolare preferenza per l'inserzione, ritrovandoli con una distribuzione uniforme all'interno delle varie zone del genoma. La preferenza delle LINE rispetto alle zone ricche di Adenina e Timina sembra una strategia anche un parassita del genoma si possa facilmente inserire nel suo ospite, in quanto le inserzioni in queste zone con bassa densita di geni dicilmente arrecano danni al genoma. Il comportamento di erente delle SINE e molto dicile da spiegare, dato che il loro addensamento in zone ricche di nucleotidi GC non e facilmente ipotizzabile sapendo che utilizzano il meccanismo di retro- trasposizione delle LINE. La stessa tendenza la si puo riscontrare anche per altre SINE presenti in specie diverse da quella umana, come ad esempio le simil-Alu B1 e le sequenze derivate dal tRNA nei topi. Le varie ipotesi che possono spiegare questo comportamento sono molto di erenti tra loro: la prima e che le SINE individuino come sito di inserzione una zona ricca in GC, mentre una seconda possibilita e che inizialmente si integrino in zone ad alta densita AT e successivamente la loro distribuzione venga rimodellata da forze evoluzionistiche esterne.

I trasposoni sono una specie di sequenze conservate a causa della loro grande abilita nel creare progenie e perche che costituiscano un vantaggio per il genoma. Comunque questo tipo di DNA egoista e responsabile di molte inno- vazioni nel genoma, come la modi cazione di regioni regolatrici o la creazione di nuovi geni. Con un'analisi approfondita di tutta la sequenza nucleotidica si possono riconoscere venti geni che sono stati probabilmente derivati dalle sequenze trasponibili.

Un'altra componente del genoma umano sono le sequenze ripetute semplici (SSR), costituite da piu o meno perfette coppie di n-ripetizioni di nucleotidi.

Le SSR costituite da blocchi ripetuti corti (n = 113 basi) sono spesso chiamate

microsatelliti

, mentre quelle con unita costituenti piu lunghe (n= 14500 basi) sono dette

minisatelliti

. Le SSR rappresentano circa il 3% del genoma umano con un grande contributo derivante dalle ripetizioni di dinucleotidi (0.5%) e sono di grande importanza nello studio della genetica

20

(21)

umana a causa del loro alto grado di polimor smo nelle diverse popolazioni.

I marcatori genetici basati sulle SSR, sopratutto quelli costituiti dalle ripe- tizioni (CA)n, sono stati uno strumento di grande utilita per gli studi di mappatura delle malattie genetiche umane.

Una caratteristica notevole del genoma e la sua possibilita di duplicare seg- menti della propria sequenza nucleotidica. Queste duplicazioni coinvolgono il trasferimento di blocchi lunghi 1-200 Kb di sequenza nucleotidica in uno o piu diversi punti all'interno del genoma. Questo meccanismo chiamato di duplicazione segmentale si puo dividere in due categorie. Il primo, detto duplicazione intercromosomica, permette di copiare segmenti di DNA tra cromosomi non omologhi, come ad esempio una regione di 9.5 Kb del cro- mosoma Xq28 che e stata duplicata nelle regioni vicine ai centromeri dei cromosomi 2, 10, 16 e 22. Il secondo meccanismo viene chiamato dupli- cazione intercromosomica, ed avviene in un particolare cromosoma opprure in un suo braccio. In questa categoria si possono annoverare svariati segmenti duplicati che si riscontrano con bassa frequenza nel genoma e mediano i ri- correnti rearrangiamenti della struttura cromosomica che vengono associati alle malattie genetiche.

21

(22)

1.4 Le sequenze Alu

Come appartenenti alla famiglia delle SINE, le sequenze Alu sono carat- terizzate da una lunghezza media di circa 300 paia di basi e rappresentano circa il 10% dell'intero genoma umano. Vennero identi cate trenta anni fa ed il loro curioso nome deriva dalla sequenza nucleotidica di cui sono composte:

essa contiene un sito riconosciuto dall'enzima di restrizione AluI. Oramai si conta un numero sterminato di appartenenti alla famiglia Alu, circa 1:2106 elementi, rappresentando cosla sequenza ripetuta piu abbondante nel nostro genoma.

Figura 1.14 Densita media di sequenze Alu in funzione al contenuto di GC. Le diverse curve rappresentano Alu con di erente eta (Myr = 106 anni).

Analizzando la loro distribuzione al variare dell'eta si riscontra che le Alu piu giovani si trovano in regioni preferenzialmente ricche di nucleotidi AT, mentre le vecchie si accumulano in zone ricche di geni, le zone ad alto contenuto di GC (Fig. 1.14). Questa di erenza di comportamento indica che inizialmente le Alu si comportano come le LINE, mentre una forte pressione evoluzionistica tende a spostare la loro concentrazione nelle zone ricche di GC. Quale sia

22

(23)

questo meccanismo e una grande fonte di speculazione, una spiegazione puo essere che le zone ricche di AT tollerano piu facilmente le mutazioni rispetto a quelle dense di GC, con il risultato che gli elementi piu anziani si trovano nelle zone preferenzialmente GC. Questo tipo di e etto sembra troppo lento e debole per rimodellare la distribuzione delle Alu, ed eseguendo un tipo di analisi simile per le LINE non si evidenzia una tendenza simile a quella delle Alu (Fig 1.15).

Figura 1.15 Densita media di sequenze LINE in funzione al contenuto di GC. Le diverse curve rappresentano LINE con di erente eta (Myr = 106 anni).

Questi risultati mostrano come esista una forza particolarmente attiva sulle Alu, che si manifesta come una selezione positiva nei confronti di quelle che si sono inserite nelle zone GC, motivo per cui si ipotizza che le Alu rientrino in qualche meccanismo di regolazione utile per l'organismo. Schmid ha proposto una funzionalita per le SINE, in quanto ha evidenziato una grande trascrizione sotto condizioni di stress cellulare,[ref] Comunque le Alu si possono trovare praticamente ovunque: negli introni, nelle zone 3` non

23

(24)

tradotte dei geni e nelle regioni intergeniche.

Un'analisi dettagliata della loro struttura, ha evidenziato la loro ancestrale origine come derivanti dal gene 7SL RNA, facente parte del complesso ri- bosomico. Il loro proliferare all'interno del genoma e dovuto ad un mec- canismo chiamato

retrotrasposizione

, dovuto essenzialmente ad un RNA derivato dalla sequenza Alu e reintegrato nel genoma tramite un processo che non e ancora stato ben chiarito. Dato che le sequenze non contengono uno schema di lettura aperto, devono sopperire ai fattori che ne consentono l'ampli cazione, appoggiandosi alle sequenze LINE, che hanno la possibilita di eseguire autonomamente la trascrittasi inversa. Comunque le Alu con- tengono un promotore per l'RNA-polimerasi III, che non e suciente per la loro trascrizione in vivo, in quanto necessita del ancheggiamento di se- quenze speci che per l'attivazione di questo tipo di polimerasi. Si riscontra che normalmente le copie Alu sono dei fossili rispetto al meccanismo della retrotrascrizione, tranne quelle che si integrano in un sito nel quale esistono queste sequenze ancheggiatrici. La frequenza di retrotrasposizione delle Alu attive e fortemente in uenzata dalla lunghezza della coda poli-A, come si riscontra nel recente modello proposto da Roy-Engel.[ref] Anche queste Alu fortuitamente attive hanno una vita breve, in quanto contengono 24 o piu dinucleotidi CpG, che sono molto inclini a mutare.

Dalle mutazioni che si accumulano nella sequenza nucleotidica, si puo facil- mente risalire alla eta dell'Alu presa in considerazione. Infatti se una di esse avviene in una Alu che ha la possibilita di replicarsi, allora la si ritrovera in tutte le sue future copie. Quindi la famiglia Alu e composta da svariate sottofamiglie di eta diversa che sono caratterizzate da una gerarchia di mu- tazioni. Nella seguente gura si possono individuare le famiglie, la loro eta e l'associazione ai diversi primati (Fig. 1.16).

La maggior parte delle Alu fossili si sono duplicate piu di 40 milioni di anni fa, con una frequenza di una nuova inserzione ad ogni nascita di un primate.

In contrasto con questo risultato, oggi si stima che l'attuale frequenza di in- serzioni e di 1 ogni 200 nascite, decrescendo cos di due ordini di grandezza dall'inizio dell'espansione della famiglia. Le motivazioni di questa tendenza sono ancora oggi non chiare, anche se si imputano alla attuale scarsita di siti di inserzione vuoti, oppure all'evoluzione del genoma verso una confor- mazione che tende a ridurre la loro espansione, come avviene in altri orga- nismi per altre sequenze ripetute.

24

(25)

Galago Scimmia gufo Scimmia verde Orangutang

Gorilla Scimpanze’

381 copie Yc1 uomo

35 copie Ya5a2 79 copie Yb9

2.640 copie Ya5 1.852 copie Yb8

>200.000 copie Y

40.000 copie Sg1

>850.000 copie Sx,J

5M anni

15M anni

25M anni

35M anni

~55M anni

Figura 1.16 Famiglie Alu e associazione alle diverse specie di primati.

La grande maggioranza di Alu che si sono integrate recentemente, non hanno apparentemente un impatto negativo sul genoma ospitante, rappresentando delle mutazioni neutre e quindi soggette a deriva genetica. Una particolare Alu si puo trovare in una sola popolazione, una singola famiglia, oppure nel caso di una nuova inserzione, in un singolo individuo. La sottofamiglia delle Alu giovani Y (young) e composta da circa 5000 elementi che si sono integrati nel genoma umano nei passati 4-6 milioni di anni, successivamente alla divergenza della specie umana dalle scimmie africane, ma la maggior parte delle Alu si e integrata prima dell'espansione dell'uomo nell'Africa.

Queste Alu sono monomor che rispetto al loro sito di inserzione tra i diversi genomi umani, mentre circa il 25% delle nuove Alu (quasi 1200 copie) si sono integrate cosrecentemente che sono dimor che, in quanto possono essere sia assenti che presenti in un particolare genoma, rappresentando cos una utile fonte di polimor smo genomico.

Considerando l'impatto della retrotrasposizione di una sequenza Alu nel 25

(26)

genoma, si possono riscontrare sia e etti disastrosi, associati a malattie ge- netiche, sia e etti positivi dovuti a mutazioni nella struttura del genoma.

AluAlu AluAlu AluAlu AluAlu

a b c d

:Alterazione dell’espressione genica :Distruzione dello schema di lettura :Distruzione del processo di splicing :Nessun effeto

a b

c

Inserzioni Alu in regioni genomiche

d

Figura 1.17 Inserzioni Alu in di erenti siti, e loro impatto sul genoma.

Come si puo osservare in (Fig. 1.17), si possono presentare diverse tipologie di inserzioni Alu in prossimita di una zona densa di geni: se la sequenza si integra in un sito antecedente alla zona codi cante del gene, c'e la pos- sibilita che ne alteri l'espressione, oppure se era inattivo, lo renda attivo, rappresentando un evento positivo per la funzionalita dell'intero genoma.

Ricombinazione

Figura 1.18 Ricombinazione tra due lamenti di DNA. Sopra: i due lamenti identici si ricombinano in due diversi siti. Sotto:

risultato della ricombinazione, si ha una delezione e una dupli- cazione di una regione genica.

Normalmente si veri ca che se l'Alu si retrotraspone all'interno oppure nella zona iniziale del gene si ha la cancellazione dello schema di lettura, generando una sequenza senza senso, oppure si ha la distruzione del

processo di splic- ing

, essenziale per la separazione degli esoni dagli introni (Fig. 1.18). Tutte

26

(27)

queste inserzioni costituiscono la maggior parte degli e etti negativi del pro- cesso di retrotrasposizione delle Alu, causando circa lo 0:1% delle malattie genetiche nell'uomo.

Considerando che le sequenze Alu rappresentano la piu grande famiglia multi- gene nel genoma umano, esse possono costituire punti di nucleazione per il processo di ricombinazione.

La ricombinazione tra elementi Alu dispersi puo produrre vari scambi ge- netici, introducendo duplicazioni, cancellazioni e traslocazioni. Questi tipi di eventi rappresentano probabilmente i meccanismi che nel tempo hanno creato le diversita genetiche nel genoma. Svariati autori hanno studiato i fattori che in uenzano gli eventi di retrotrasposizione e ricombinazione degli elementi Alu attivi. Le Alu giovani, cioe quelle che hanno una divergenza d'allineamento nella sequenza nucleotidica < 1%, sono molto piu propense alla ricombinazione rispetto agli elementi anziani della famiglia, avendo una divergenza di circa il 1520%. Per questo motivo gli elementi Alu fossili, cioe quelli con una grande divergenza, sono tollerati dal genoma, che a sua volta cerca di tutelarsi cercando di degradare tramite meccanismi biochimici gli elementi attivi in elementi fossili. Ci sono anche prove che mettono in evidenza come elementi Alu con orientazione inversa sono piu inclini degli altri ai meccanismi di ricombinazione illecita.

Piu del 25% di tutte le sequenze ripetute semplici nei genomi dei primati, in- clusi i microsatelliti, sono associate agli elementi Alu. In qualche caso questa associazione puo risultare da un'integrazione casuale di una sequenza Alu vi- cino a un microsatellite gia presente. Alternativamente e piu comunemente, risulta che gli elementi Alu generano dei motivi riconducibili a microsatelliti a causa di eventi mutazionali. L'analisi delle varie sottofamiglie Alu ha indi- cato che la sequenza poli-A nell'elemento Alu e una fonte dei microsatelliti nei primati.

27

(28)

Capitolo II

Dati sperimentali

2.1 Introduzione

Scopo di questo capitolo e di esporre le problematiche relative all'approc- cio ai dati sperimentali e la teoria di featuresextr actionutilizzata per costru- ire gli algoritmi di classi cazione implementati. Esso comprende una trat- tazione iniziale del problema tramite l'introduzione di alcune norme nello spazio dei segnali, i cui risultati e le problematiche insolute verranno pre- sentate nei prossimi paragra , e successivamente un'estensione di esse allo spazio delle wavelet packet, permettendo di superare le loro limitazioni.

Infatti avendo automatizzato tramite un software "ad hoc" tutte le proce- dure riguardanti la trattazione dei dati sperimentali, ci si e trovati di fronte a vari quesiti che nascevano in maniera spontanea da questa nuova disponi- bilita di informazioni. Se si considera che il software utilizzato in questo tipo di analisi, il GeneScan della Perkin-Elmer, permette solamente un con- fronto incrociato di pochi segnali, tipicamente in numero non soddisfacente le esigenze di una analisi statistica, e tramite metodi rigidi, non adattabili alle esigenze dell'utente, in quanto software non open-source, ci si e trovati di fronte alla necessita di sviluppare nuove metodologie per l'estrazione di informazione dai segnali in nostro possesso.

Come si puo osservare dal lavoro di Franceschi et al, il programma GeneScan

e stato usato per confrontare i dati in maniera "verticale", cioe eseguendo una discriminazione relativa alla presenza o meno di alcuni picchi, ritenuti biologicamente "interessanti", in ben determinate posizioni dei campioni, ri- conducendo i risultati a interpretazioni fenotipiche della genetica sottostante l'esperimento. In maniera piu facilmente comprensibile, si puo a ermare di voler

classi care

i campioni in gruppi assegnati a priori, come ad esempio

centenari e non centenari, tramite un'analisi locale di alcune caratteristiche presenti nei segnali. Estrarre l'infomazione essenziale in un segnale e un com- pito che sicuramente va oltre ad una analisi compiuta dal singolo individuo senza alcun strumento che gli permetta di ridurre la complessita del problema in maniera ad egli trasparente.

28

(29)

2.2 Presa dati

Si sono analizzate le lunghezze dei segmenti di DNA trovantesi tra due elementi Alu con orientazione invertita, derivanti dai genomi di 6 coppie di gemelli omozigoti e dai componenti di 4 famiglie. Come si e accennato nel precedente capitolo, questi segmenti, che chiameremo

inter-Alu

, sono legati a eventi di ricombinazione e traslocazione durante i processi di duplicazione del DNA. Si e scelto di analizzare solamente i segmenti inter-Alu che sono compresi tra due sequenze con orientazione opposta, data la loro maggiore frequenza di ricombinazione illecita rispetto alle Alu con il medesimo verso.

Si e utilizzato un apparato sperimentale per la produzione e la presa dei dati costituito da un insieme di

primer

, adatti per l'appaiamento con le sequenze Alu, uno strumento per realizzare la

PCR

(polymerase chain reaction) e un

campionatore di DNA

producente un segnale digitale tramite separazione

elettroforetica

dei vari frammenti.

I primer, o marcatori, sono frammenti di DNA costituiti dalla sequenza com- plementare a cui li si vuole far aggangiare, ad esempio se si vuole marcare la sequenza AAAGCT, il primer deve essere il seguente: TTTCGA. Nel nostro caso si sono scelti primer che interagissero con una sequenza contenuta in qualsiasi elemento della famiglia Alu, costituiti dalle due seguenti sequenze:

5'-AGCGAGACTCCG-3' 5'-CAGAGCGAGACTCT-3'

In questi primer si e inserito un nucleotide nale uorescente, con un co- lore caratteristico per ognuno di essi, ottenendo frammenti con uorescenza blu e altri con uorescenza verde. Dopo che si sono realizzate le condizioni sico-chimiche anche i primer si appaiano alle sequenze Alu nel genoma, si possono replicare le sequenze ottenute tramite la PCR (Fig. 2.1). Questa tecnica permette di ampli care, cioe duplicare, i frammenti di DNA che sono contenuti tra due primer, ottenendo il corrispondente segmento inter-Alu du- plicato un numero di volte suciente per essere analizzato dal campionatore di DNA. Queste procedure sperimentali ci hanno permesso di ampli care le inter-Alu con una lunghezza compresa tra le 10 e le 1000 paia di basi. Le inter-Alu cos ottenute sono state separate in base alla lunghezza grazie alla tecnica dell'elettroforesi capillare.

29

(30)

1Kbp ::::::

::::::

::::::

::::::

::::::

::::::

::::::::

::::::::

::::::::

::::::::

::::::::::

::::::

::::::

::::::

:::

?????

?????

?????

?????

????????

????????

????????

????????

?????

?????

?????

?????

????????

????????

????????

????????

?????

?????

?????

?????

?????

?????

?????

?????

?????

?????

?????

?????

??????

??????

??????

??????

??????

??????

??????

??????

????????

????????

????????

????????

?????

?????

?????

?????

????????

????????

: primer con nucleotide fluorescente : sequenza Alu con relativa orientazione

::::::::

::::: prodotto della PCR

Figura 2.1 Meccanismo della PCR

Come si puo osservare in (Fig. 2.2), la tecnica sfrutta la polarita negativa del DNA per far migrare i frammenti lungo il capillare. Quando il primo nucleotide uorescente del frammento passa attraverso il rilevatore, il campi- onatore lo registra producendo un picco del colore corrispondente. Successi- vamente si otterra un secondo picco grazie al secondo nucleotide uorescente;

la distanza tra questi due picchi e la distanza inter-Alu. Naturalmente si ha che non tutti i frammenti migrano con la stessa velocita ottenendo cos un picco di uorescenza iniziale con una certa incertezza.

V +

t

t

data point = f(t) fotorivelatore

Figura 2.2 Migrazione di un ampli cato della PCR nel capillare Per ovviare a questo problema si e fatto migrare anche un campione di fram- menti di riferimento di lunghezza nota. Grazie a questo campione, con u- orescenza rossa, e stato possibile avere in maniera diretta le lunghezze dei

30

(31)

frammenti blu e verdi, ed eseguire immediatamente, la trasformazione del seg- nale discretizzato in unita di misura del campionatore di DNA (data point) alle unita e ettive: le paia di basi. In ne si e analizzata l'uscita del campi- onatore di DNA, avente una forma che e stata schematizzata in (Fig. 2.3):

: Campione di allineamento

: Segnale del primer a fluorescenza blu

bp fluorescenza

0 100 200 300 400 500 600

2000

1000

0

Figura 2.3 Esempio di uscita video del software GeneScan.

e in una tabella contenente varie informazioni riguardanti i picchi di uo- rescenza.

Color Time bp heigth area dp

R,1 1.21 19.38 297 2896 2045 R,2 2.13 36.00 592 4785 2285 R,3 6.12 48.00 572 7893 2498 ...

...

B,1 0.34 4.18 1285 20045 1896 B,2 1.78 25.52 1740 18583 2173 B,3 1.98 33.92 294 1856 2212 B,4 4.34 40.39 349 5982 2345 ...

...

G,1 0.45 6.39 1395 18954 1940 G,2 0.72 13.95 1962 34501 1989 G,3 3.81 38.29 825 14082 2301 ...

...

Figura 2.4 Esempio di tabella di output del software GeneScan.

31

(32)

2.3 Trattamento dei dati sperimentali

Avendo ottenuto le lunghezze inter-Alu nella forma di tabella o di gura di picchi di uorescenza, si e immediatamente evidenziata la necessita di eseguire varie procedure per separare il segnale dal rumore dovuto ad ef- fetti legati all'apparato sperimentale. Evidenziando che la gura di uo- rescenza non si presta a buona trattazione, in quanto l'uscita del software GeneScan non permette di avere un campionamento punto per punto, ma fornisce solamente una schermata video non esportabile, si e utilizzata la tabella per ricostruire il segnale in una forma adeguata alle trasformate che si volevano applicare. Fondamentalmente le lunghezze inter-Alu sono state ottenute tramite i seguenti passaggi:

1) presa dati

2) esportazione dei dati tramite tabella

3) ricostruzione della gura contenente i picchi di uorescenza 4) separazione del segnale dal rumore

5) trasformazione dell'ascissa del segnale da data point a bp

Degli svariati campi che formano la tabella dei picchi di uorescenza, si sono considerati solamente i seguenti: colore, posizione del picco (bp), posizione del picco (dp), area del picco, altezza del picco. Si e lasciato vuoto il campo 'posizione del picco (base pair)', in quanto non si sono volute sfruttare le pro- cedure di allineamento manuali del GeneScan, implementando un algoritmo di allineamento automatico che verra descritto in seguito.

La ricostruzione della gura dei picchi di uorescenza e stata eseguita con- siderando come si presentavano i segnali, cioe tramite una tabella di picchi con tre caratteristiche principali per ogni picco. Infatti si e dovuto assegnare ad ognuno di essi una forma scelta a priori, in base alle caratteristiche che si sono volute mettere in evidenza. Analizzando diverse corse dello stesso cam- pione, si e constatato che le uniche caratteristiche che venivano riprodotte correttamente erano la posizione e la larghezza dei picchi. Per questo motivo si e scelto di associare ad ogni picco una altezza unitaria. Da queste diverse corse si e evidenziato che si sono sommati svariati errori dovuti alla tec- nica della PCR e all'elettroforesi capillare, generanti e etti indesiderati sulla gura di uorescenza: la cancellazione o un piccolo spostamento di alcuni picchi. Ad ogni picco sono quindi state assegnate tre caratteristiche:

xp  posizione del picco, xi  il suo inizio, xf  la sua ne, tramite le 32

Riferimenti

Documenti correlati

Nelle successive figure, oltre alla rappresentazio- ne dello spettro di Ampiezza e Potenza Assoluta e Relativa al variare della frequenza, viene indicato il valore medio di queste

Questa possibilit` a nasce dal fatto che le wavelet, essendo funzioni a media zero, nello spazio di Fourier appaiono come filtri “passa-banda”, che possono essere sintonizzati

In sostanza, l’attività giudiziaria, in forza della disciplina del licenziamento per motivo oggettivo dettata dalla Riforma Fornero, consterebbe di due fasi:

Inoltre, se la ricorrenza della figura della prostituta in numerosi romanzi e racconti a partire dagli ultimi due decenni dell’Ottocento può essere considerata una naturale

Di seguito (da fig. 4.8) sono riportate le master curves e gli shift factors per i materiali testati.. 4.9 a 4.13 sono riportati i confronti tra le master curves dei moduli elastico

While Froidmont doubted the power of rarefaction, Mersenne ’s and Boyle ’s experiments that showed the degree to which heat caused air and water vapor to expand made it easier to