Simulazione non parametrica - Confronto di metodi statistici per la rilevazione della differenz

si vogliono simulare, la percentuale di differenzialmente espressi desiderata, così come la distribuzione tra up e down regolati.

L’algoritmo definisce casualmente la posizione dei geni differenzialmente espressi nella matrice finale delle conte simulate e per ogni trascritto seleziona casualmente una coppia media-dispersione da quelle fornite in input. Ad ogni elemento della matrice delle conte, Kij, vengono quindi associati due

parametri (µi e αi) che dipendono da quale coppia media-varianza è associa-

ta a quel trascritto i. La media dipende inoltre dallo stato di espressione del gene. Per quei geni che saranno differenzialmente espressi la media dei campioni corrispondenti al secondo gruppo di trattamento viene moltiplicata o divisa per il fold change a seconda se il gene è up o down regolato, generando così una nuova media µij. Successivamente per ogni elemento della matrice

viene creato un valore casuale a partire da una distribuzione N B(µij, αi). Il

processo viene ripetuto per quei trascritti che non soddisfano la condizione di controllo: alle conte viene applicata la trasformazione Counts per Million (cpm) e i trascritti che devono essere ricreati sono quelli per cui la somma del numero dei campioni che presentano valore di cpm superiore a 2 è inferiore a 3.

4.2 Simulazione non parametrica

Per la simulazione non parametrica si è utilizzato il pacchetto SimSeq di Bioconductor [58] che simula una matrice di conte di un esperimento di RNA-Seq campionando le colonne da un data set di partenza sufficientemente grande, scambiando poi le conte individuali all’interno di ogni gene e infine aggiustando per un fattore di correzione per creare la differenziale espressione. In questo caso si sono scelti due diversi data sets reali da cui simulare le conte poiché, essendo SimSeq un metodo non parametrico è possibile che le matrici simulate siano influenzate molto dalle caratteristiche dei data sets reali. Si è operata un’analisi esplorativa applicando uno dei metodi conside- rati più stabili (DESeq2) ai data sets reali al fine di comprenderne, in linea generale, le peculiarità. Il primo data set, Ovary, risulta poco eterogeneo con pochi geni differenzialmente espressi (64 su 6193 geni testati), viceversa il secondo data set, Kidney, mostra molta eterogeneità al suo interno con più della metà dei geni DE (14145 su 20531 geni testati).

La scelta di questi due tipi di data sets risulta fondamentale in fase di valida- zione e confronto dei metodi di differenziale espressione al fine di capire quali sono quelli che danno risultati affidabili anche in condizioni difficili, ovvero quando c’è poca differenziale espressione o in condizioni anomale, ovvero

quando la maggior parte dei geni è differenzialmente espressa. Per maggiori dettagli sui data sets di partenza si rimanda al Capitolo 5.

4.2.1 Notazione

Sia Y la matrice delle conte delle reads di un esperimento di RNA-Seq, e sia yijr una singola conta in Y , dove i = 1, ..., G è l’indicatore dei geni,

j = 1, ..., mr indica i campioni all’interno di ciascun gruppo di trattamento

e r = 1, 2 indica i due gruppi di trattamento. Si assuma che sia m1 che m2

siano relativamente grandi e si consideri Y come il data set di partenza.

4.2.2 Scelta dei fattori di normalizzazione

Per simulare uno sbilanciamento nella profondità di sequenziamento, si modellano le medie dei livelli di espressione, dato un certo gene i e un certo trattamento r, come se avessero una media comune qir che è alterata da un

fattore di normalizzazione moltiplicativo specifico per ciascun campione sjr

tale che,

E[yijr] = qirsjr

Ci sono molti metodi proposti per il calcolo dei fattori di normalizzazione moltiplicativi, in questo elaborato si è scelto la TMM.

4.2.3 Algoritmo di simulazione dei dati

L’algoritmo vuole i seguenti input: un data set di dati di RNA-Seq di partenza Y con due gruppi di trattamento indipendenti; un vettore s di fattori di normalizzazione calcolati con un elemento per ciascuna colonna del data set sorgente; il numero di geni non differenzialmente espressi (EE) G0 e

il numero di DE G1 nella matrice simulata dove G0+ G1 ≤ G e il numero di

colonne m in ciascuno dei due gruppi di trattamento nella matrice simulata dove m ≤ min{m1, bm2c} dove b·c è la funzione parte intera.

L’output dell’algoritmo SimSeq è una matrice di conte di RNA-Seq, K, con G0 geni EE e G1 geni DE con m colonne per ciascuno dei due gruppi

indipendenti di trattamento.

Sia G ≡ {1, 2, ..., G} l’insieme degli indici di tutti i geni in Y . Il seguente algoritmo descrive la procedura di simulazione:

1. Per ciascun gene i ∈ G, si calcola un p-value dal Wilcoxon Rank Sum test, ovvero un test per la differenziale espressione.

2. Dato l’insieme dei p-value calcolati, si calcola il local false discovery rate (lfdr) per ciascun gene [59, 60] usando il pacchetto fdrtool.

4.2 Simulazione non parametrica 63

3. Un vettore di pesi di probabilità di campionamento w viene calcolato come uno meno il lfdr per ciascun gene i riscalati per sommare a uno. 4. Si selezionano casualmente G1 geni per essere DE da G senza reinseri-

mento in base al vettore dei pesi di probabilità di campionamento w e si denota questo insieme come G1.

5. Si selezionano casualmente G0 geni per essere EE da G \ G1 senza rein-

serimento in base ai pesi di campionamento e si denota questo insieme come G0. Sia G∗ ≡ G0∪ G1 l’insieme di tutti i geni EE e DE scelti nel

passi 1 e 2.

6. Si seleziona casualmente una colonna di y senza reinserimento dal primo gruppo di trattamento di Y . Si seleziona y in base all’insieme G∗ _{per creare la colonna k}

1. Si assegna k1 al gruppo di trattamento

simulato 1.

7. Si seleziona casualmente una colonna senza reinserimento da entrambi i gruppi di trattamento in Y e si denotano queste due colonne come y1 e y2. Siano s1 e s2 i loro corrispondenti fattori di normalizzazioni

moltiplicativi da s.

8. Si selezionano le due colonne y1 e y2 in base all’insieme di geni G∗.

9. Si crea la colonna k2 nel modo seguente. Per ciascun gene i ∈ G∗ sia

k2i =

(

y1i se i ∈ G0

by2i∗ s1/s2+ 0.5c se i ∈ G1

dove b·c è la funzione parte intera, in modo che y2i∗s1/s2 è arrotondato

all’intero più vicino. Sia k2 il vettore le cui entrate sono {k2i: i ∈ G∗}.

Si assegna k2 al gruppo di trattamento simulato 2.

10. Si ripetono i passi 6-9 un numero totale di m volte con le colonne campionate senza reinserimento tra ciascuna iterazione.

È possibile operare una modifica all’algoritmo che permette di lavorare con un data set di partenza con un disegno di trattamento appaiato, come in Kidney (si veda Figura 4.1). In questo caso si richiede che 2m ≤ min{m1, m2}. Nel

passo 1 si usa il Wilcoxon Signed Rank test invece del Wilcoxon Rank Sum test. Si modifica il passo 6 in modo che una coppia di colonne derivanti da una stessa unità sperimentale sia selezionata senza reinserimento, e si fa in modo che la prima colonna della coppia sia y. Poi al passo 7, una coppia

Figura 4.1: Illustrazione dell’algoritmo SimSeq per un data set di RNA- Seq di partenza con disegno di trattamento appaiato. Viene creato un data set simulato con m campioni per ciascuno dei due gruppi di trattamento indipendenti.

di colonne derivanti da un’altra unità sperimentale viene selezionata senza reinserimento e si fa in modo che la prima colonna nella coppia sia y1 e la

Capitolo 5

Dati

In questo capitolo si riportano i dettagli riguardo i data sets utilizzazi per le simulazioni, gli esperimenti di simulazione e un excursus sulla malattia oggetto di studio.

5.1 Kidney

Una parte degli esperimenti di simulazione si basa sul data set di dati di RNA-Seq KIRC ottenuto dal progetto The Cancer Genome Atlas [55] e disponibile nel pacchetto SimSeq di Bioconductor [58]. I dati sono stati se- quenziati usando la piattaforma di analisi Illumina HiSeq 2000 RNA Sequen- cing Version 2 e la stima delle conte grezze per ciascun gene è stata calcolata usando il software RSEM [61]. I dati sono scaricabili da The Cancer Genome Atlas: https://tcga-data.nci.nih.gov/tcga/. La versione del data set KIRC usata è unc.edu_KIRC.IlluminaHiSeq_RNASeqV2.Level_3.1.5.0.

Il data set KIRC include 20531 geni e 72 coppie di colonne appaiate per ciascun individuo affetto da carcinoma a cellule renali (Kidney Renal Clear Cell Carcinoma (KIRC)): una proveniente da una regione tumorale del corpo e l’altro da una regione circostante non tumorale. Come già ricor- dato nel capitolo precedente, da un’analisi esplorativa condotta sull’intero data set utilizzando DESeq2 è risultato che 14145 geni su 20531 sono rile- vati come differenzialmente espressi. Questo numero non ha validità in sé, ma ci permette di trarre alcune conclusioni sulle caratteristiche del data set che sembra essere molto eterogeneo, considerando che DESeq2 è un metodo piuttosto stabile [62]. In questo elaborato ci si riferisce al data set KIRC con il nome Kidney e viene usato unicamente come base per le simulazioni sia parametriche che non.

Nel documento Confronto di metodi statistici per la rilevazione della differenziale espressione in studi di RNA-SEQ (pagine 63-68)