• Non ci sono risultati.

IN I NT TR RO OD DU UZ Z IO I O NE N E

N/A
N/A
Protected

Academic year: 2021

Condividi "IN I NT TR RO OD DU UZ Z IO I O NE N E "

Copied!
4
0
0

Testo completo

(1)

INTRODUZIONE

IN I NT TR RO OD DU UZ Z IO I O NE N E

Le ricerche svolte negli ultimi anni nel campo della biologia molecolare e della genetica hanno reso possibile lo sviluppo e la commercializzazione di molteplici tecnologie per l’analisi delle molecole costituenti gli organismi viventi. In particolare, la messa a punto delle tecniche di amplificazione e sequenziamento del DNA ha aperto la strada ai progetti di mappatura del genoma, culminati nel 2003 con il sequenziamento completo del DNA umano nell’ambito dell’ambizioso Progetto Genoma Umano (Collins et al., 2003).

Il risultato di questo progetto è stato la creazione di enormi banche dati che contengono le sequenze di tutti i geni e le informazioni ad esse correlate di molti organismi viventi e che possono essere utilizzate come vere e proprie mappe utili per lo studio e la comprensione dei processi cellulari. Questa immensa quantità di informazioni rappresenta la nuova, avvincente sfida dell’attuale era post-genomica. Infatti, il sequenziamento del genoma umano segna il passaggio dall’era pre-genomica, caratterizzata prevalentemente da studi di genomica strutturale (sequenziamento del genoma e mappaggio fisico dei geni) all’era post- genomica, i cui sforzi principali si stanno focalizzando sempre più sull’individuazione della funzione che singoli geni o gruppi di geni svolgono nello sviluppo e nella vita degli organismi in generale e dell’uomo in particolare (genomica funzionale).

La complessità e il volume di dati generati dai diversi progetti di sequenziamento hanno posto tuttavia serie limitazioni al tradizionale approccio di analisi, che prevedeva lo studio di un gene alla volta e ha richiesto lo sviluppo di metodiche di analisi simultanea di tutti (o quasi) i componenti di un sistema biologico. I microarray rappresentano un metodo per esaminare contemporaneamente e in maniera sistematica decine di migliaia di geni e in alcuni casi l’intero genoma di un organismo e promettono di diventare uno strumento di uso comune nella ricerca biologica e medica.

I microarray per la valutazione dell’espressione genica permettono infatti di osservare come variano i profili di espressione di popolazioni di cellule o di tessuti biologici in diversi stadi di sviluppo, di malattia o di trattamento e di correlare tali osservazioni con i processi biologici esaminati.

(2)

INTRODUZIONE

I microarray per studi di genotipizzazione consentono, invece, di determinare, in campioni di DNA provenienti da diversi soggetti, il profilo genetico relativo a un numero elevato di polimorfismi o addirittura, nel caso degli studi Genome Wide, a tutti i polimorfismi noti. Diventano quindi ottimi strumenti da utilizzare negli studi di associazione “casi- controlli” in cui si va a confrontare la variazione della frequenza di polimorfismi genetici in due popolazioni a confronto, una con e l’altra senza un particolare fenotipo di interesse, al fine di correlare tali variazioni al fenotipo stesso (ad es. una malattia o la diversa risposta ad un trattamento farmacologico).

I microarray, dunque, rappresentano la risposta ideale non solo alla crescente richiesta di saggi capaci di interrogare migliaia di geni in parallelo, ma soprattutto alla necessità di comprendere le reti di interazioni molecolari su scala globale.

Si intravede facilmente l’immenso potenziale che questa tecnologia offre per rispondere a quesiti sia di tipo diagnostico/prognostico, relativi ad esempio alla classificazione dei tessuti o delle malattie su base genetica, che di indagine funzionale, ad esempio per lo studio delle caratteristiche funzionali, strutturali o di regolazione di geni sconosciuti o solo parzialmente noti.

Tuttavia, per sfruttare l’enorme quantità di dati generata da queste tecnologie è fondamentale disporre di metodi di analisi efficaci. Questa necessità ha favorito la nascita di una nuova branca di ricerca, la bioinformatica, che oggi sta assumendo le caratteristiche di una vera e propria disciplina dopo quasi venti anni dai suoi albori negli anni ’80.

0 100 200 300 400 500 600 700 800 900

2005 2004 2003 2002 2001 2000

Year

Articles

Bioinformatics BMC Bioinformatics

Journal of Computational Biology Computational Biology and Chemistry Briefings in Bioinformatics IEEE Trans. Comp. Biol. And Bioinformatics Applied Bioinformatics PLoS Computational Biology

Int.J.of Bioinf. Res.& Appl. (IJBRA)

Fig. 1: Aumento negli ultimi sei anni del numero di articoli nelle principali riviste di bioinformatica

La bioinformatica si occupa dello sviluppo di strumenti informatici idonei alla gestione dei dati biologici (banche dati) e studia metodi e algoritmi per il trattamento e l’estrazione dell’informazione dagli stessi (programmi di analisi).

Con l’avvento della tecnologia dei microarray, la genomica si avvia a diventare uno dei più importanti settori di applicazione della bioinformatica. Come vedremo meglio in

(3)

INTRODUZIONE

seguito, illustrando le fasi di un esperimento microarray, conoscenze di bioinformatica entrano in gioco a tutti i livelli: dalla fase di progettazione, a quella di acquisizione e analisi dell’immagine, dal processo di estrazione dei dati alla loro analisi statistica ed interpretazione.

Fig. 2: Fasi di un esperimento microarray

Scopo della tesi

Scopo della presente tesi è stato lo sviluppo di un algoritmo, in linguaggio R, per il calcolo della numerosità campionaria in un esperimento di class comparison per uno studio di espressione genica.

La tesi si articola in sei capitoli.

Il primo capitolo fornisce un’introduzione alla tecnologia dei microarray, illustrando brevemente le differenti piattaforme tecnologiche disponibili per la caratterizzazione dei profili di espressione genica (microarray a cDNA, microarray ad oligonucleotidi). Infatti, sebbene i microarray possano essere utilizzati anche per scopi diversi come la genotipizzazione, l’applicazione negli studi di espressione genica rimane quella attualmente più diffusa.

Nel secondo capitolo vengono discussi alcuni importanti aspetti riguardanti la progettazione degli esperimenti che utilizzano i microarray, in relazione a quelli che sono gli obiettivi dello studio che si vuole realizzare.

Il terzo e il quarto capitolo presentano le problematiche di natura statistica coinvolte nell’analisi dei dati generati dai microarray, con particolare riferimento agli esperimenti di

(4)

INTRODUZIONE

“class comparison” in cui i microarray sono utilizzati per identificare quali geni risultano differenzialmente espressi in differenti condizioni sperimentali.

Nel quinto capitolo viene esaminato uno dei problemi principali che si deve affrontare nella fase di progettazione di un esperimento microarray, vale a dire la scelta del numero di campioni o del numero di array necessari per poter osservare determinati risultati e i parametri statistici da cui essa dipende. Tale scelta è subordinata a quello che è riconosciuto come fattore limitante nell’esperimento; in particolare se il vincolo è rappresentato dal budget a disposizione, ciò che viene fissato è il numero massimo di array che si possono acquistare e da esso deriva il numero di campioni da collezionare. Viceversa, se il fattore limitante è dato dalla quantità di materiale biologico disponibile, si cerca di stabilire il numero di campioni minimo per conferire solidità statistica all’esperimento e da questo si ricava il numero di array da utilizzare.

Nel sesto capitolo, dopo una breve descrizione delle funzioni che R (www.r- project.org) e Bioconductor (www.bioconductor.org) mettono attualmente a disposizione degli utenti per il calcolo della numerosità campionaria, viene presentata la funzione appositamente ideata durante lo sviluppo di questa tesi. A differenza delle funzioni integrate nei vari pacchetti presenti sul mercato, che propongono una ristretta e rigida casistica di disegni sperimentali e un’interfaccia non facilmente gestibile da chi non ha sufficiente familiarità con il linguaggio di programmazione utilizzato, questa funzione è stata sviluppata nell’ottica di fornire uno strumento statisticamente robusto e fruibile anche da parte dei non

“addetti ai lavori”.

Infine, il settimo capitolo contiene le conclusioni e i possibili sviluppi futuri nella direzione di un miglioramento della funzione proposta per il calcolo della numerosità campionaria. Le eventuali modifiche cui si può pensare dovrebbero puntare in particolare ad una generalizzazione della funzione per renderla applicabile anche agli studi di “class comparison” con più di 4 classi o varietà a confronto e ad una quantificazione separata delle sorgenti di variabilità che indirettamente influiscono sul calcolo dell’ampiezza campionaria.

Riferimenti

Documenti correlati

Se infatti N è multiplo pari di 3, e quindi anche di 6, ed ecco la forma di N = 6n, nella formazione delle coppie di Goldbach tali multipli dispari di 3 si accoppiano tra

- comunicazione del bilancio sociale. Per ciascuna di esse vengono forniti indicazioni e requisiti specifici da rispettare. a) Definizione del sistema di rendicontazione sociale La

Il tema della lotta ai cambiamenti climatici si sta rivelando uno degli argomenti di CR prioritari da affrontare. Anche con riferimento alla crisi economica,

25 Ciò fa sì che alcune informazioni compaiano con una diversa chiave interpretativa nei due report. Prendiamo ad esempio le informazioni riguardanti le risorse umane, il

Definizione: un desossinucleotide che manca del gruppo idrossilico in 3’OH ed è perciò incapace di formare un legame 3’-5’ fosfodiesterico necessario per l’allungamento

Alcune fasi della strategia funzionale sono rese più semplici dalla possibilità di analizzare elettronicamente nelle banche dati (es. www.ncbi.nlm.nih.gov),

L'alloploidia è la condizione in cui un organismo è composto da tre o più serie di cromosomi ricevuti da una specie diversa con genomi diversi. La differenza chiave

✔ Possibilità di confrontare secondo matching approssimato una sequenza nucleotidica con quelle delle uc presenti nel database ed ottenere una lista di possibili risultati