L’Indice di Correlazione di Gini (GC) - Collezione di interazioni validate

2.5 Collezione di interazioni validate

3.2.2 L’Indice di Correlazione di Gini (GC)

Il coefficiente di Correlazione di Gini è un membro della famiglia delle metodologie di Gini, ampliamente utilizzato nelle più disparate discipline, prima fra tutte l’economia, ma anche in sociologia, psicologia, ingegneria, informa- tica e ovviamente anche in biologia. Come la Mutua Informazione permette di catturare relazioni anche non lineari, ma al suo contrario, il range di va- riazione è l’intervallo [−1, 1], rendendo cos`ı possibile distinguere la direzione della relazione: mentre 0 indica l’assoluta indipendenza delle variabili, -1 e 1 indicano l’assoluta relazione monotonica decrescente o crescente.

L’aspetto principale che distingue l’indice di Gini dagli altri metodi (Cor- relazione di Perason, Mutua Informazione, ma anche correlazione dei ranghi di Spearman o di Kendall) è l’integrazione non solo del profilo di espressione ma anche del rank, definito come la posizione del singolo valore nel profilo ordinato in senso crescente. In questo modo, il coefficiente di correlazione di Gini è più robusto ai dati non distribuiti normalmente permettendo di slegarsi dalle assunzioni sulla forma della distribuzione dei dati[60]_{. E’ stato}

Figura 10: Esempio del calcolo delle misure x(i, X), x(i, Y ), y(i, X) e y(i, Y ), per due generiche variabili X e Y di dimensione Nc, pari a 4.

dimostrato anche, che l’introduzione del rank, ha molti altri vantaggi tra i quali una maggiore robustezza, con un aumento della tolleranza degli ouliers e una minore dipendenza dalla numerosit`a campionaria[61]_.

Queste buone propriet`a, dimostrate in recenti studi sui network regolato- ri, lo rendono un candidato ideale per essere inserito tra le “nuove proposte” di questo lavoro di tesi. La formulazione adottata `e stata tratta da uno studio sui dati di espressione genica nell’Arabidopis e Maize[62] _{e riproposta in}

un’articolo di confronto di quattro diversi metodi di correlazione utilizzati nelle analisi di microarray[63]_.

Dati i profili di espressione di due variabili G e M , di cui sono stati os- servati Ncvalori, il metodo utilizza reciprocamente l’informazione del valore di una variabile e l’informazione del rank dell’altra, producendo due diversi coefficienti di correlazione. Formalmente, definiamo questi due coefficienti come:

GC(G, M ) = PNc

i=1(2i − Nc− 1) · g(i, M ) PNc

i=1(2i − Nc− 1) · g(i, G)

(17)

GC(M, G) = PNc

i=1(2i − Nc− 1) · m(i, G) PNc

i=1(2i − Nc− 1) · m(i, M )

(18)

dove x(i, X) rappresenta l’i-esimo valore della generica variabile X ordinata in senso crescente, e x(i, Y ) rappresenta il corrispondente valore della gene-

Figura 11: Sono rappresentate le curve relative ai profili simulati di due variabili X e Y , provenienti da una distribuzione Normale Standard, contenenti 76 valori ciascuna. Le tre curve rappresentano rispettivamente il caso di alta relazione lineare positiva, negativa, e di indipendenza. Il valore di x(i, Y ) `e raffigurato con una curva nera, mentre il valore di x(i, X) con una curva tratteggiata di colore arancione.

rica variabile X ordinato in senso crescente rispetto ai valori della generica variabile Y . Una esempio per il calcolo di queste misure `e rappresentato in Figura(10). I due coefficienti GC cos`ı ottenuti sono solitamente simili, come il loro p-value.

Secondo le equazioni (20) e (21), possiamo interpretare il metodo GC come la differenza tra due curve pesate per l’informazione derivata dal- l’ordine del rank dei dati di espressione. In Figura(11) sono rappresentati alcuni esempi nel caso di relazione positiva, negativa o indipendenza, di due generiche variabili estratte da una distribuzione Normale Standard.

Uno svantaggio del GC è l’assenza di una distribuzione nulla di riferimento per vagliare l’ipotesi di significatività dei coefficienti. Come è uso comune in questo contesto, anche Wang e collega, propongono di calcolare il p-value attraverso l’utilizzo della procedura Boostrap (Algoritmo), rando- mizzando casualmente i dati di espressione della coppia di geni analizzata.

Il coefficiente di Correlazione di Gini, assieme agli altri quattro coefficienti analizzati nell’articolo di riferimento, sono stati implementati con lin-

guaggio R in un pacchetto liberamente scaricabile all’indirizzo http://cran.r- project.org/web/packages/rsgcc, denomintao rsgcc11. A causa di problemi di compatibilit`a tra la libreria rsgcc, la versione di R disponibile (R 1.15.1) e il sistema operativo utilizzato (Mac OS X - versione 10.5.8), `e stato necessario installarla e implementarla su sistema operativo Linux.

Attenzione: per utilizzare la libreria rsgcc `e necessario scaricare GTK+: un insieme di strumenti per la creazione di interfacce grafiche.

4 Implementazione & Risultati

Allo scopo di identificare un pannello di microRNA che dimostrino di avere un effetto di regolazione nei confronti del loro gene target, in modo tale da ricondurci al significato biologico, abbiamo utilizzato i dati di espressione ottenuti attraverso piattaforme di microarray su pazienti al primo stadio del cancro ovarico. Il nostro studio `e volto a quantificare in maniera contempo- ranea tutte le relazioni esisteni tra coppie di mRNA e miRNA, attraverso diverse metodologie che utilizzano i profili di espressione.

Partiremo da un set di intereazioni iniziali ottenuti dai database di pre- dizione bioinformatica basati sulla complementarietà delle sequenze. Questa scelta, oltre ad essere in accordo con l’unico meccanismo molecolare noto, risolve anche alcune limitazioni intrinseche dei dati di microarry. Infatti, le tecnologie high-throughput forniscono un numero di trascritti nell’ordine delle decine di migliaia per ciascun esperimento: se da un lato la possibi- lità di monitorare l’intero trascrittoma permette di considerare il sistema nella sua globalità, dall’altro, il dover esaminare un cos`ı elevato numero di possibili combinazioni di appaiamenti miRNA-mRNA, complica notevole- mente il problema sopratutto per i tempi di calcolo. Quindi, per ridurre il numero di accoppiamenti da analizzare, utilizzeremo distintamente le predizioni dei databases TargetScan (TS) e microRNA.org (SVR); ma, quando la complessità dell’algoritmo del metodo ce lo permetterà, proveremo ad analizzare ogni possibile combinazione per confermare la correttezza della scelta.

I metodi applicati al caso in esame sono gli stessi precedentemente espo- sti, ma per rendere agevole l’esposizione da un punto di vista implementa- tivo, in questo capitolo preferiamo suddiverli sulla base del tipo di relazione espressa: per i confronti “pair-wise” utilizzeremo le due matrici principali dei valori di espressione di mRNA e miRNA da cui, attraverso la lista di

predizioni, estrarremo di volta in volta i due profili da computare; per i confronti “multivariati”, saremo costretti a costruire una matrice per ciascun mRNA a cui verranno aggiunti tutti i valori dei miRNA che individuano il gene come un possibile target, secondo una qualche lista (Figura 12).

Nel terzo capitolo, sono contenuti i risultati relativi ai metodi per cui ci siamo affidati ad un web tool: per questi non siamo in grado di stabilire come vengano processati i dati, ma verranno descritti i passaggi necessari per l’utilizzazione degli strumenti e l’elaborazione dei risultati ottenuti. In ogni caso, a qualunque categoria appartenga la formulazione che decidiamo di utilizzare, quello che otterremo sar`a una lista ordinata di appaiamenti definiti come reali deregolazioni tra un microRNA e il suo gene target, e la misura di questa forza.

Per valutare le prestazioni delle diverse misure proposte ci avvarremo dell’insieme di quelle interazioni validate ottenute dall’unione dei databases mirWalk, TarBase, mirTarBase e miRecord, per un totale di 16.951 interazioni (Paragrafo 2.5). Ad ogni lista restituita dai diversi metodi verr`a poi applicata la funzione ValidaLista(4): dopo aver ordinato le associazioni fornite rispetto alla direzione decisa dal metodo (crescente/decrescente), la funzione restituisce una variabile indicatrice TRUE o FALSE (validata/non validata), e nel primo caso ulteriori informazioni accessorie, come il database in cui `e contenuta la validazione e un’id identificativo da noi definito.

La sintassi del metodo pu`o essere riepilogata nel seguente modo:

ValidaLista(Associazioni, listaValidati, nome.salvataggio=Associazione.txt, opzioneGe- ne=1,

opzioneOrdina1=list(attivo=FALSE,colonna=0,metodo=0), opzioneOrdina2=list(attivo=FALSE,colonna=0,metodo=0), opzioneLasso=FALSE, nome.salvataggio.Lasso=“)

Figura 12: E’ rappresentata schematicamente la procedura di preparazione dei dati nel caso di modelli pair-wise (a) e nel caso di modelli multivariati (b).

(a) Pair-Wise

Input:

Associazioni : matrice in cui ogni riga rappresenta un’associazione; sulla prima colonna devono esserci gli identificativi dei geni e sulla seconda colonna i nomi dei microRNA

listaValidati : matrice in cui ogni riga rappresenta una associazione sperimental- mente validata; nell’ordine le colonne devono contenere un id proprio della validazione; il nome, l’id Entrez, l’Id Ensebl dell’mRNA; una variabile indicatrice (presente/assente) per ciascun databases da cui le validazioni sono state estratte

opzioneGene: codice per scegliere il formato con cui l’identificativo del gene `e stato salvato; 1 per il nome GO, 2 per l’id Entrez, 3 per l’id Ensembl

opzioneOrdina1-opzioneOrdina2 : insieme di opzioni per l’ordinamento della lista di associazioni fornite; la variabile colonna deve indicare l’indice di colonna dei dati numerici da ordinare; la variabile metodo assume il valore -1 per un ordinamento decrescente e 1 per un ordinamento crescente

opzioneLasso: TRUE o FALSE

Output:

a schermo: viene stampato un riepilogo sulle principali informazioni della lista file: viene salvato un file .txt denominato con il nome scelto nelle opzioni della

funzione, contenente l’intera matrice passata e l’indicazione della validazione di ciascuna associazione; Nel caso di interazione validata viene fornito anche il suo id e le rispettive variabili indicatrici del databases di provenienza. file: se l’opzioneLasso `e uguale a TRUE viene restituito anche un file .Rdata

contenente le sole associazioni validate.

Nel seguito, in maniera indipendente per ciascun metodo, riportiamo il procedimento con cui i risultati sono stati ottenuti, le scelte effettuate riguardo ai parametri ed eventuali altre misure di selezione e sintetizziamo attraverso degli indici la performance finale.

Nel documento Cancro all'ovaio di stadio I: uno studio comparativo per l'identificazione bioinformatica delle interazioni tra microRNA e mRNA (pagine 50-59)