• Non ci sono risultati.

L’approccio all’analisi dei dati che descriverò è interamente tratto da [30]. Gli ideatori sostengono che non è necessario portare a termine il difficile compito di riassemblare l’intera molecola, ponendo l’accento sul fatto che identificare SNP ed ASE è già fattibile solo per mezzo di una attenta analisi dei dati ed in particolare osservando e distinguendo alcune determinate strutture che assume il DBG proprio in tali regioni. Il modello di analisi mira quindi ad identificare e quantificare queste particolari strutture a partire dai dati RNA-seq, senza la necessità di nessun genoma di riferimento e senza dover riassemblare l’intero trascrittoma. Si tratta quindi di un processo differente, rispetto a quelli che tipicamente subiscono i dati provenienti da un NGS (descritti nel cap.2.2.2). Per facilitare la trattazione, le considerazioni sul modello di analisi verranno fatte su un cDBG associato al modello Pevzner, e cioè su un grafo direzionato

G = (V, E) con le caratteristiche ampiamente descritte nel capitolo 3.1.1 ed

i path lineari compressi come descritto nel capitolo 3.1.4. Rimarco però il fatto che le stesse considerazioni sono riportabili, con i dovuti adattamenti, a qualsiasi modello di DBG si decida di trattare, sia esso compresso o meno. Al termine del capitolo vedremo di analizzare anche quelli che sono i limiti derivanti dal modello descritto.

3.2.1

Caratterizzazione polimorfismi ed ASE nel DBG

Forniremo un modello in grado di catturare:

1. Single Nucleotide Polimorphysm SNP (cap. 2.1.4) 2. Approximate Tandem Repeat ATR (cap. 2.1.4) 3. Alternative Splicing Events ASE (cap. 2.1.5)

Di seguito la prima importante osservazione che ci permette di separare polimorfismi ed ASE dal resto dei dati, preceduta da alcune definizioni:

Definizione 8 ((s,t)-path) Dati due vertici sv, tv ∈ V un (sv, tv)-path è un

path da sv(source) a tv(target).

Definizione 9 (bubble) Una (sv, tv)-bubble sono due vertex-disjoint (sv, tv)-

3.2 Modello di analisi dei dati RNA-seq 33

Definizione 10 (switching node) Chiamiamo i nodi sv, tv di una bubble

rispettivamente switching node sinistro e destro di una (sv, tv)-bubble.

Per vertex-disjoint path intendiamo due cammini che non hanno in comune nessun nodo eccetto i due switching sinistro e destro.

Osservazione: Polimorfismi ed ASE nel trascrittoma, così come nel geno-

ma, corrispondono a dei pattern particolari in un DBG/cDBG chiamati bubble.

Figura 3.4: In figura, l’esempio della particolare struttura, detta bubble, che assume un DBG nei pressi di polimorfismi o ASE.

Intuitivamente, le regioni polimorfiche e quelle di splicing corrisponderanno a path alternativi nel grafo mentre le parti comuni saranno l’inizio e la fine di entrambi. In generale, ogni processo che genera due path alternativi sxt e

syt nella sequenza, con s, t, x, y ∈ Σed i corrispondenti nodi sv, tv, xv, yv

V, crea delle bubble in un cDBG. Infatti, tutte le k-mer contenute in sv/tv

corrispondono all’inizio/fine comune del cammino e, dal momento che x 6= y, esiste almeno una coppia di k-mer, una in sx l’altra in sy, che condividono il prefisso k − 1 e differiscono dall’ultima lettera. In questo modo si crea una diramazione a partire dal nodo sv da cui nascono i due path alternativi. Lo

stesso discorso si può fare per xt, yt dove essi convergono.

Conosciamo ora una caratterizzazione che distingue le regioni polimorfi- che e quelle di splicing dalle restanti, ma come fare per distinguere fra i vari polimorfismi e gli ASE resta ancora da spiegare. Le prossime considerazioni chiariranno anche questo aspetto, ma anticipo che il principio di fondo sta nell’analizzare e confrontare le lunghezze fra i path delle varie bubble.

3.2.2

Eventi di Alternative Splicing

Un evento di splicing corrisponde a variazioni locali tra diversi trascrittomi, è caratterizzato da due parti (stringhe) comuni, s e t per usare la notazione precedente, e una parte variabile z.

Proposizione 1 Il path più corto di una bubble generata da un ASE del tipo

exon skipping ha lunghezza 2k − 2 ⇐⇒

(i) l’ultimo nucleotide della parte variabile z è diverso dall’ultimo nucleotide di sv ∧ (ii)il primo nucleotide della parte variabile z è diverso dal primo nu-

cleotide di tv.

Nel caso la (i)/(ii) non valgano i due path convergono/divergono prima ed il path più corto avrà lunghezza <2k − 2

Nel cDBG le parti comuni corrispondono ai nodi sv, tv. Dato che ci sono

k − 1 k-mer nella concatenazione st, fra i due path alternativi della bubble

senza contare s il path più corto sarà composto al massimo da k − 1 k-mers, che corrisponde ad una sequenza lunga 2k − 2. Come riportato in [30], a questa considerazione va aggiunto che nel genoma umano il 99% dei casi di ASE del tipo exon skipping conosciuti, generano bubble con cammino più corto mai inferiore a 2k − 8. In tale contesto abbiamo quindi anche la possibilità di imporre un limite inferiore per la lunghezza, nella fase di ricerca dei bubble.

Figura 3.5: Da un esperimento di RNA-seq vengono generate 2 stringhe s1 =

AAT GT T, s2 = AAT T CGCGT T . In s1 si ha un evento di exon skipping che

genera, in un cDBG con k = 3, due vertex disjoint path da s a t (path in alto e

pathin basso). Si noti che sono veri entrambi i predicati della Proposizione 1:(i)

( s[3]=T 6= z[4]=C) e (ii) (z[1]=T 6= t[1]=G); come conseguenza la sequenza più corta ha lunghezza esattamente 2k − 2 = 4.

3.2 Modello di analisi dei dati RNA-seq 35

Figura 3.6: Esempio di violazione del predicato (i) in Proposizione 1. La bubble risultante converge prima rispetto all’esempio 3.5, generando un path più corto di lunghezza minore a 2k − 2 (k = 3).

Figura 3.7: Esempio di violazione del predicato (ii) in Proposizione 1. La

bubble risultante diverge posticipatamente rispetto all’esempio 3.5, generando

un path più corto di lunghezza minorre a 2k − 2 (k = 3).

3.2.3

Single Nucleotide Polimorphism

Il polimorfismo a livello genomico, abbiamo detto (cap.2.1.4) e ripetuto nell’in- troduzione a questo capitolo, è presente anche a livello di trascrittoma quando interessa regioni codificanti (esoni). In particolare a livello genomico vediamo cosa accade per un evento SNP causato da sostituzione.

Proposizione 2 Una bubble generata da SNP di sostituzione presenta due

path alternativi di lunghezza identica pari a 2k-1.

La lunghezza del path più corto (uno dei due path essendo di pari lunghezza) di una bubble generata da SNP di sostituzione è 2k − 1, valore certamente maggiore rispetto alla lunghezza del massimo path corto generato da un ASE

Figura 3.8: Due stringhe s1 = AAT CT CG, s2 = AAT T T CG in cui si registra un evento di sostituzione: s1[3] 6= s2[3]. In un DBG (k = 3) generano una bubble con due path di lunghezza identica 2k − 1.

che abbiamo visto essere 2k − 2. Abbiamo quindi modo di differenziare questi particolari SNP dagli ASE.

Per quanto riguarda invece gli SNP causati da Indel la loro struttura è simile a quella degli ASE e le due bubble sono indistinguibili. Se però il modello di analisi lo applichiamo a dati provenienti dal genoma umano, la differenza di lunghezza tra i due path della stessa bubble ci può dare delle grandi indicazioni. Infatti alcuni studi [32] ci assicurano che nell’85% dei casi in cui tali eventi si manifestano, tale differenza è minore di 3 nucleotidi, mentre negli ASE nel 99% dei casi è maggiore di 3. Nel modello di analisi si può sfruttare questa sottile differenza, che inevitabilmente provocherà il rilevamento di una piccola percentuale di falsi positivi tra gli ASE/Indel classificati.

3.2.4

Approximate Tandem Repeat

Le bubble generate da ATR presentano una struttura simile a quelle generate da ASE nel DBG, ma la sequenza dei path consente di identificare facilmente la presenza di un pattern approssimato allineando il path più corto con la fine del path più lungo.

3.2.5

Limiti del modello

Il modello di analisi fin qui descritto presenta alcuni limiti. Innanzitutto, i vincoli sulla distinzione fra SNP Indel ed ASE di tipo exon skipping sono pensati per specializzare il modello all’analisi di dati provenienti dal genoma umano; perciò, se si volesse adottare lo stesso modello per effettuare analisi su

Documenti correlati