• Non ci sono risultati.

77 CCOONNCCLLUUSSIIOONNII EE SSVVIILLUUPPPPII FFUUTTUURRII

N/A
N/A
Protected

Academic year: 2021

Condividi "77 CCOONNCCLLUUSSIIOONNII EE SSVVIILLUUPPPPII FFUUTTUURRII"

Copied!
3
0
0

Testo completo

(1)

CONCLUSIONI E SVILUPPI FUTURI

7

7

C

C

O

O

N

N

C

C

L

L

U

U

S

S

I

I

O

O

N

N

I

I

E

E

S

S

V

V

I

I

L

L

U

U

P

P

P

P

I

I

F

F

U

U

T

T

U

U

R

R

I

I

L’obiettivo di questo lavoro di tesi è stato lo sviluppo di un algoritmo per il calcolo della numerosità campionaria in esperimenti di “class comparison” condotti con i microarray.

La determinazione dell’ampiezza campionaria costituisce un passaggio cruciale nella fase di progettazione di qualsiasi tipo di indagine di laboratorio o clinica non soltanto in vista di un impiego ottimale delle risorse e dei tempi, ma soprattutto per garantire una corretta interpretazione dei dati.

Negli studi realizzati con i microarray, il problema della valutazione a priori della numerosità campionaria è stato spesso trascurato a causa della sua complessità che può essere attribuita a 3 fattori principali:

- la grande varietà di disegni sperimentali che si possono adottare; - l’enorme quantità di geni coinvolti in un singolo esperimento;

- la difficoltà di fornire una stima adeguata dei parametri da cui dipende l’ampiezza del campione.

Rispetto alle funzioni attualmente disponibili in R, l’algoritmo ideato in questa tesi ha indubbiamente il merito di poter essere utilizzato senza grandi difficoltà anche dai “non addetti ai lavori”. Tuttavia per rendere la funzione il più possibile indipendente dalle conoscenze dell’utente è necessario prevedere una casistica piuttosto ampia di disegni sperimentali con le relative matrici del disegno e dei contrasti. Come illustrato nel capitolo 6, la funzione è stata sviluppata prendendo in considerazione, tra gli innumerevoli casi possibili, quelli che si presentano con maggiore frequenza nell’ambito della ricerca con i microarray, vale a dire gli esperimenti in cui si è interessati al confronto fra 2, 3 o 4 trattamenti o condizioni sperimentali. Per uno stesso esperimento sono stati considerati 3 disegni alternativi: il “reference design”, il “loop design” e il “balanced block design”. La numerosità campionaria è stata quindi valutata in termini del numero di array e del numero di repliche biologiche richiesti per ogni tipo di disegno, in modo da consentire all’utente un confronto immediato.

(2)

CONCLUSIONI E SVILUPPI FUTURI

Un miglioramento della funzione in questa direzione potrebbe essere la sua generalizzazione per renderla applicabile anche agli studi di “class comparison” con più di 4 classi o varietà a confronto, realizzati considerando disegni più complessi di quelli analizzati, come per esempio il disegno ad anelli inter-allacciati proposto da Kerr e Churchill (Kerr e Churchill , 2001) o i disegni fattoriali.

In realtà, però, l’aspetto più critico nel quale ci si è imbattuti nella realizzazione della funzione è rappresentato dalla difficoltà di fornire una stima adeguata delle grandezze che determinano la numerosità del campione. In particolare, il parametro che più di ogni altro incide sull’ampiezza campionaria è la variabilità dei dati di espressione misurata dalla varianza o equivalentemente dalla sua radice quadrata, la deviazione standard. Descrivendo la tecnologia dei microarray è stata più volte sottolineata la scarsa riproducibilità dei dati dovuta alle molteplici sorgenti di variabilità che caratterizzano la metodica. Per ottenere una stima attendibile della numerosità campionaria necessaria per poter rilevare una data differenza di espressione con la confidenza e la potenza desiderate, si dovrebbero quantificare separatamente le diverse fonti di variabilità, come viene fatto, a posteriori, nel metodo di analisi della varianza. Purtroppo allo stato attuale, i dati disponibili in letteratura sull’entità delle diverse componenti della varianza sono pochi e nella maggior parte dei casi si riferiscono ad esperimenti basati sul “reference design”. Inoltre, poiché il valore della deviazione standard dipende anche dal tipo di disegno sperimentale utilizzato, non è possibile applicare direttamente le stime ottenute nel caso del “reference design” agli altri disegni, ad eccezione di pochi casi per i quali sono state ricavate delle apposite formule di conversione (Dobbin et al., 2003).

Un’analisi di potenza basata su una non adeguata conoscenza dell’entità delle componenti della varianza non consente allo sperimentatore di avere piena fiducia nei risultati ottenuti. Un’alternativa alla soluzione adottata nell’algoritmo (per quanto riguarda la stima della deviazione standard) potrebbe essere quella di chiedere all’utente di inserire l’intero set di dati relativo ad uno studio analogo a quello che si vuole realizzare, in luogo dei valori della deviazione standard e del rapporto tra varianza biologica e varianza tecnica desunti dalla letteratura. In questo caso l’algoritmo dovrebbe prevedere due parti: una prima parte in cui viene eseguita l’analisi dei dati immessi dall’utente al fine di ricavare una stima della deviazione standard e del rapporto tra le varianze, e una seconda parte che utilizza questi dati, insieme agli altri parametri forniti dall’utente, per calcolare la numerosità campionaria, in maniera analoga a quanto avviene con la funzione sviluppata nella tesi.

Per l’analisi dei dati si possono utilizzare i modelli additivi ANOVA che consentono di valutare separatamente le diverse componenti della varianza. In R è disponibile un pacchetto chiamato “maanova” (http://cran.r-project.org/web/packages/maanova/index.html) creato a questo scopo. Le funzioni interne definite nel pacchetto possono essere quindi inserite nel corpo di una funzione più generale per effettuare l’analisi e produrre i dati necessari per il calcolo dell’ampiezza campionaria.

Allo stato attuale, la determinazione della numerosità campionaria rimane comunque un problema aperto e ancora troppo spesso sottovalutato nella pianificazione di un

(3)

CONCLUSIONI E SVILUPPI FUTURI

esperimento microarray, nonostante i profondi risvolti economici e il rischio di ottenere risultati completamente errati derivanti da una sua valutazione sommaria e priva di fondamenti statistici.

Riferimenti

Documenti correlati

i) (3 pt) Visualizza un istogramma dei valori relativi a 25 giorni e decide inizialmente di usare una v.a. esponenziale di parametro per il prezzo gior- naliero. Utilizza i valori

(4 pt) Scrivere la formula di integrazione per parti per l’integrale di Riemann (integrale

[r]

[r]

[r]

[r]

[r]

Esercizio: Scrivere un programma per la stampa di figure geometriche a livello (4), utilizzando una funzione per la stampa di una sequenza di caratteri (con lunghezza e carattere