Come si sequenzia un genoma?

(1)

Come si sequenzia un genoma?

(2)

Genomica

Il sequenziamento massivo

Sequenziamento BAC (Bacterial Artificial Chromosome) Sequenziamento WGS (Whole Genome Shotgun)

Negli ultimi anni, la disponibilià di eleboratori ad alta velocità di calcolo e delle nanotecnologie ha consentito di analizzare enormi volumi di sequenze parziali per comporre sequenze estremamente lunge e sequenziare interi genomi.

Due sono le tecniche più comuni:

Ma il principio basilare è lo stesso.

(3)

Sequenziamento BAC ( Bacterial Artificial Chromosome )

Il genoma viene tagliato in

frammenti casuali di circa 150.000 coppie di basi

Ciascun frammento viene poi inserito in un cromosoma artificiale batterico (BAC) in modo che possa replicarsi all’interno della cellula batterica

L’ordine sequenziale dei frammenti BAC è ottenuto mappando la loro posizione lungo il cromosoma

mediante analisi di

restrizione e comparazione delle regioni comuni

1

2

3

(4)

Ogni singolo BAC è poi frammentato in pezzi di DNA di circa 1500 coppie di basi che vengono inseriti in vettori plasmidici (ad esempio, in M13) in modo che possa replicarsi all’interno della cellula batterica

Tutti i vettori M13 sono sequenziati partendo da una estremità

Le sequenze ottenute sono poi analizzate con specifici software (ad esempio, Phrap) che cercano le regioni di identità tra le sequenze per unire assieme i frammenti successivi e ricostruire l’intera sequenza del BAC.

5

6 4

(5)

Il genoma è tagliato meccanicamente in frammenti di circa 2000 coppie di basi mediante passaggio in un ago di siringa sottoposta ad alta pressione. La stessa operazione è effettuata utilizzando un ago che genera frammenti più grandi, di circa 10.000 coppie di basi

Sequenziamento WGS ( Whole Genome Shotgun )

1

Ciascun frammento (sia quelli di 2000 sia quelli di 10.000 coppie di basi) è inserito in un vettore plasmidico in modo che possa replicarsi all’interno della cellula batterica

2

(6)

Algoritmi specifici allineano tutte le sequenze ottenute ricostruendo la sequenza dell’intero cromosoma.

I frammenti (sia quelli di 2000 sia quelli di 10.000 coppie di basi) sono sequenziati

partendo da entrambe le estremità, generando così milioni di sequenze

Sequenziamento WGS ( Whole Genome Shotgun )

3

4

(7)

(8)

(9)

(10)

(11)

Sequenziamento del DNA Metodi tradizionali ed odierni

Generazione 0 – Sequenziamento chimico Generazione 1 – Dye Terminator

Generazione 2 – NGS con preamplificazione Generazione 3 – NGS su singola molecola

Introduzione al sequenziamento di

nuova generazione

(12)

(13)

Si basano sul principio del sequenziamento di ' cluster ' clonali Il processo, che incomincia con una singola molecola target, prevede la creazione di targets clonali durante un processo intermedio di amplificazione. Copie multiple identiche sono infatti necessarie per avere un alto rapporto segnale-rumore

Sequenziamento mediante sintesi (SBS)

Sequenziamento

mediante ligazione (SBL)

Solid Chimica con

terminatori SOLEXA

Chimica del pirosequenziamento

454

SEQUENZIAMENO DI NUOVA GENERAZIONE

(14)

Tecnologia 454

La quantità ottimale di DNA (trasformata da ng/ul in n. di molecole) necessaria per la PCR in emulsione viene determinata tramite una corsa di taratura sul sequenziatore

300-800 bp

(15)

Tecnologia 454

(16)

Tecnolgia 454

(17)

Tecnologia 454

Il sequenziamento inizia con la preparazione della piastra PicoTiter. Durante questo passaggio una miscela di beads, enzimi per il sequenziamento e la libreria sstDNA vengono depositati nei pozzetti di 44um

Il processo di deposizione delle beads massimizza il numero di pozzetti che contengono un frammento individuale della libreria sstDNA

La piastra PicoTiter viene caricata sul sequenziatore

(18)

Le biglie vengono inserite in micro-piastre provviste di piccoli pozzetti. Ogni pozzetto ha la dimensione adatta per accogliere una singola biglia alla quale viene aggiunta la miscela per la reazione di pirosequenziamento.

In tal modo, centinaia di migliaia di biglie, ciascuna recante milioni di copie del singolo frammento legato, vengono sequenziate in parallelo.

Il lettore ottico raccoglie per ogni pozzetto i segnali luminosi emessi da ogni singola reazione di sequenza ottenuta dal singolo frammento di DNA legato alla biglia.

(19)

Tecnologia 454

APS=adenosine 5´phosphosulfate PPi=pyrophosphate

(20)

(21)

(22)

(23)

For each cycle four pictures are captured (one picture per nucleotide); FLX standard run: 100 Cycles; FLX Titanium run: 200 Cycles

Extraction,

Qualification/Quantification and Normalization of wells data

Read data are converted into

"flowgrams".

(24)

(25)

Bridge PCR

• I frammenti di DNA sono dotati di adattatori.

• Una superficie piana viene ricoperta con due tipi di oligo, complementari agli adattatori di cui I frammenti sono legati.

• L’amplificazione procede in cicli, con un’estremità di ogni “ponte” legata alla superficie.

(26)

Technology Overview: Solexa/Illumina Sequencing

http://www.illumina.com/

Tecnologia Solexa

(27)

Immobilize DNA to Surface

Source: www.illumina.com

Tecnologia Solexa

(28)

Technology Overview: Solexa Sequencing

Tecnologia Solexa

(29)

Sequence Colonies

Tecnologia Solexa

(30)

Sequence Colonies

Tecnologia Solexa

(31)

Call Sequence

Tecnologia Solexa

(32)

Cyclic-array

Tecnologia Solexa

(33)

Tecnologia ABI Solid System

(34)

Sequenziamento Sanger ad alta processività

PREPARAZIONE DELLA LIBRERIA

Frammentazione casuale del DNA genomico clonazione e trasformazione in batteri

Raccolta delle colonie

Purificazione del DNA dalle colonie Sequenziamento Sanger

Elettroforesi capillare

Whole genome de novo assembly or mapping to a reference (re-sequencing)

7-10 giorni

assumendo di possedere una piattaforma robotica

per alta processività

Settimane-anni (!),

dipendentemente dalla dimensione del genoma (e copertura richiesta) , dal numero di

sequenziatori capillari

Per sequenziare l’intero genoma umano ci sono voluti 10 anni e 3 miliardi di dollari

Per sequenziare l’intero genoma umano ci sono voluti 10 anni e 3

miliardi di dollari

(35)

PREPARAZIONE DELLA LIBRERIA

Frammentazione casuale del DNA genomico Ligazione degli adattatori

Amplificazione clonale dei frammenti Sequenziamento mediante sintesi o ligazione

Processamento delle immagini

Mappatura delle reads su un genoma di riferimento (o assemblaggio de novo)

1 – 3 giorni

1 – 6 giorni

Sequenziamento di nuova generazione

(36)

VERSO IL GENOMA DA MILLE DOLLARI....

• Costo 1 anno Sanger, reads 700bp:

– 1 anno, 1 sequenziatore a pieno regime=260 Mbp – 260 Mbp=circa 370.000 sequenze (lunghezza media

700bp)=370.000 EUR – EUR/base=0,0014

– Sequenziamento di un genoma batterico (es E. coli, 4.5Mbp) con copertura 10x=64.000 EUR

– 1 genoma umano (dimensione 3.6 Gbp), copertura 1x=60 anni (!) =5M EUR

• Costo 1 corsa, Illumina 2x75bp:

– 10 giorni, 1 sequenziatore=fino a 18 Gbp – 18 Gbp=10,000 EUR

– EUR/base= 0,00000055

– Sequenziamento di un genoma batterico con copertura 10x= 25 EUR

– 1 genoma umano (dimensione 3.6 Gbp), copertura 10x=2 corse=20K EUR

(37)

VERSO IL GENOMA DA MILLE DOLLARI....

• Costo 1 corsa 454, reads 300-400bp:

– 10 ore, 1 sequenziatore=fino a 0.6 Gbp – 0.6 Gbp=10.000 EUR

– EUR/base= 0,000016

– Sequenziamento di un genoma batterico (es E. coli, 4.5Mbp) con copertura 10x= 9.600 EUR

– 1 genoma umano (dimensione 3.6 Gbp), copertura 10x=almeno 60 corse (più di 1 mese)=576K EUR

• Costo 1 corsa Solid, reads 2x50bp:

– 12 giorni, 1 sequenziatore= 20 Gbp – 20 Gbp = 8.000 EUR

– EUR/base=0,00000044

– Sequenziamento di un genoma batterico con copertura 10x= 18 EUR

– 1 genoma umano (dimensione 3.6 Gbp), copertura 10x= circa 2 corse (1 mese) = 16K EUR

(38)

Vantaggi delle piattaforme di nuova generazione

• Non sub-clonazione, non utilizzo di cellule batteriche E. coli - abolizione di bias di clonazione

- rapidità nel preparare le librerie (non c’e’ colony picking!)

• Ciascuna sequenza proviene da una molecola di DNA unica.

- quantificazione attraverso 'conta' digitale - aumento del range dinamico

- rilevazione di varianti rare

• Fornisce una eccezionale risoluzione per molti tipi di esperimenti (es. analisi di espressione, sequenziamento di DNA immunoprecipitato, di RNA piccoli, analisi di medie/grandi inserzioni-delezioni nei genomi….)

• Rivoluzionaria diminuzione del costo e del tempo per generare dati di sequenza (lavorano in multi-parallelo)

• Richiesta meno robotica nelle fasi precedenti al caricamento sul sequenziatore

(39)

Svantaggi delle piattaforme next-gen

• Sono prodotte sequenze più corte

- relativamente alle sequenze da sequenziatori capillari (metodo Sanger) - è necessario ri-parametrizzare l’accuratezza della procedura di

chiamata delle basi

- enorme difficoltà nell’analisi dei dati; richiesto un grande sforzo di programmazione per costruire nuovi algoritmi.

• La mole enorme di dati ‘traumatizza’ le infrastrutture informatiche.

- da 10 Gb a diversi Tb di dati grezzi prodotti per corsa (dipende dalla piattaforma)

- il processamento delle read tramite pipeline informatiche richiede molta capacità di calcolo (CPU)

- è necessario prendere accurate decisioni su cosa salvare e cosa cancellare

(40)

Sequenze corte

• Sequenze corte, ma tecnologia in continua evoluzione:

• 454: 100 basi → 200 → 400-500 → ?

• Solid: 25 basi → 35 → 50 → 100 → ?

• Illumina: 32 → 36 → 75-100 → 125 → 150 → ?

• Difficoltà di assemblare sequenze corte de novo, soprattutto per il problema delle sequenze ripetute complicato ancora di più rispetto a Sanger (lunghezza media 700-750bp)

(41)

Risequenziamento

• In presenza di un genoma di riferimento di buona qualità posso

effettuare un ri-sequenziamento e allineare tutte le reads ottenute:

• Non solo del genoma, ma anche del trascrittoma

Genomic DNA

Introns

Exons

(42)

Paired-end (PE)

• Tutte le piattaforme next-gen offrono la possibilità di produrre

‘paired-end read’, cioè la sequenza può essere derivata da ciascuna delle due estremità di ogni frammento della libreria

• Esistono differenze nella distanza tra le due read pair-end, basate su un diverso approccio/piattaforma.

• In generale, le reads paired-end offrono vantaggi che dipendono dalla complessità del genoma e dall’applicazione/tipo di

esperimento

(43)

Il problema (!) della enorme mole di dati prodotta

• E’ un problema chiave che limita una più ampia adozione di questi strumenti da parte dei laboratori

• 1 ABI3730xl genera fino un max di 260 milioni di paia di basi di sequenza all’anno

• Quando nel 2004-2005 è stato lanciato il primo 454 produceva una quantità di dati in un anno superiore a quella prodotta da più di 50 ABI3730xl

• Il problema dell’ ‘indigestione’ di dati è dal 2005 ulteriormente peggiorato sia per il 454 che a causa della possibilità di scelta anche delle altre due

piattaforme (Illumina/Solexa lanciata sul mercato nel 2006 e Solid nel 2007)

• Produzione una decina di gigabytes di dati per corsa per 454, 1-4 terabytes di dati per corsa per Illumina e Solid

(44)

Come si sequenzia un genoma?