BASI DI DATI BIOLOGICHE - 1
Sommario
Introduzione.
Introduzione.
La analisi biologiche e i dati che producono.
La analisi biologiche e i dati che producono.
Organizzazione dei dati.
Organizzazione dei dati.
Esempi.
Esempi.
Tipi di dati
Le analisi biologiche producono dati di Le analisi biologiche producono dati di
diverso tipo:
diverso tipo:
Stringhe.
Stringhe.
Numeri.
Numeri.
Immagini.
Immagini.
Tipi di dati – le stringhe
Stringhe che forniscono una Stringhe che forniscono una
“descrizione” degli oggetti.
“descrizione” degli oggetti.
Stringhe ottenute come risultato di Stringhe ottenute come risultato di
analisi (ad esempio, sequenziamento).
analisi (ad esempio, sequenziamento).
Tipi di dati – i numeri
I numeri posso essere di diverso tipo:
I numeri posso essere di diverso tipo:
Interi.
Interi.
Decimali.
Decimali.
Reali.
Reali.
Tipi di dati – le immagini
Esempi di ananlisi che generano Esempi di ananlisi che generano
immagini.
immagini.
Microarray.
Microarray.
Blot.
Blot.
...
Tipi di dati – altri tipi
Vi sono, inoltre, tipi di dati derivati dai Vi sono, inoltre, tipi di dati derivati dai
precedenti:
precedenti:
Intervalli numerici.
Intervalli numerici.
Sottoinsiemi di elementi (enumerativi).
Sottoinsiemi di elementi (enumerativi).
Dati temporali (Data/Ora).
Dati temporali (Data/Ora).
Dati Multimediali.
Dati Multimediali.
Organizzazione dei dati
Il problema di organizzare i dati prodotti è Il problema di organizzare i dati prodotti è
un problema fondamentale.
un problema fondamentale.
Digitalizzazione.
Digitalizzazione.
File system.
File system.
Fogli di Calcolo.
Fogli di Calcolo.
Basi di dati.
Basi di dati.
Organizzazione dei dati – File system
Vantaggi:
Vantaggi:
Semplicità.
Semplicità.
Nessun carico Nessun carico
aggiuntivo di aggiuntivo di
informazione.
informazione.
Svantaggi:
Svantaggi:
Nessuna Nessuna
strutturazione dei strutturazione dei
dati.
dati.
Organizzazione Organizzazione
delegata delegata
all'utente.
all'utente.
Organizzazione dei dati – Fogli di calcolo
Vantaggi:
Vantaggi:
Elaborazioni Elaborazioni
complesse dei complesse dei
dati.
dati.
Ordinamento dei Ordinamento dei
dati.
dati.
Svantaggi:
Svantaggi:
Nessuna Nessuna
connessione tra connessione tra
dati di diverse dati di diverse
analisi.
analisi.
Gestione della Gestione della
ridondaza dei dati ridondaza dei dati
delegata delegata
all'utente.
all'utente.
Organizzazione dei dati – Le basi di dati
Vantaggi:
Vantaggi:
Organizzazione e Organizzazione e
strutturazione dei strutturazione dei
dati.
dati.
Possibilità di Possibilità di
interrogazioni interrogazioni
complesse.
complesse.
Svantaggi:
Svantaggi:
Complessità della Complessità della
progettazione progettazione
della base di dati.
della base di dati.
Conoscenza dei Conoscenza dei
linguaggi per basi linguaggi per basi
di dati.
di dati.
Esempio – sequenziamento del DNA (1)
Tale esempio metterà in evidenza:
Tale esempio metterà in evidenza:
i tipi di dati prodotti da un esperimento;
i tipi di dati prodotti da un esperimento;
le diverse forme di organizzazione dei le diverse forme di organizzazione dei
dati.
dati.
Esempio – sequenziamento del DNA (2)
Un singolo cromatogramma raccoglie i Un singolo cromatogramma raccoglie i
seguenti dati:
seguenti dati:
Numerici (qualità).
Numerici (qualità).
Stringhe (la sequenza).
Stringhe (la sequenza).
Grafici (il cromatogramma).
Grafici (il cromatogramma).
Vari:
Vari:
Nome della sequenza;
Nome della sequenza;
Data di produzione;
Data di produzione;
......
Esempio – sequenziamento del DNA (3)
Per poter mantenere i dati nel file system, Per poter mantenere i dati nel file system,
occorre:
occorre:
Creare un cartella.
Creare un cartella.
Creare un file per il cromatogramma e uno o Creare un file per il cromatogramma e uno o
più file per la sequenza e le informazioni più file per la sequenza e le informazioni
sulla qualità.
sulla qualità.
Dare un nome univoco al file (nella cartella).
Dare un nome univoco al file (nella cartella).
Tutto ciò comporta problemi di accesso ed Tutto ciò comporta problemi di accesso ed
organizzazione dei dati. In particolare, non si organizzazione dei dati. In particolare, non si
è in grado di effettuare facilmente è in grado di effettuare facilmente
elaborazioni significative dei dati, né di elaborazioni significative dei dati, né di
confrontare i dati fra loro.
confrontare i dati fra loro.
Esempio – sequenziamento di DNA (4)
Qualora si utilizzi un foglio di calcolo:
Qualora si utilizzi un foglio di calcolo:
Procedura simile a quella vista in precedenza.
Procedura simile a quella vista in precedenza.
I file creati sono di tipo particolare.
I file creati sono di tipo particolare.
Principale vantaggio: i dati sono strutturati. In Principale vantaggio: i dati sono strutturati. In
particolare, ad ogni colonna può essere particolare, ad ogni colonna può essere associato un tipo; inoltre, i dati possono associato un tipo; inoltre, i dati possono
essere facilmente ordinati.
essere facilmente ordinati.
Principali problemi: non vi sono strumenti per Principali problemi: non vi sono strumenti per
la gestione della ridondanza dei dati; risulta la gestione della ridondanza dei dati; risulta difficile rappresentare alcuni tipi di dati; non difficile rappresentare alcuni tipi di dati; non
vi è modo di “incrociare” i dati.
vi è modo di “incrociare” i dati.
Esempio – sequenziamento di DNA (5)
L’uso delle basi di dati consente di:
L’uso delle basi di dati consente di:
Strutturare, ordinare ed elaborare i dati.
Strutturare, ordinare ed elaborare i dati.
Disporre di un linguaggio di interrogazione Disporre di un linguaggio di interrogazione
dei dati.
dei dati.
Principali problemi: padronanza dei linguaggi Principali problemi: padronanza dei linguaggi
di interrogazione delle basi di dati e delle di interrogazione delle basi di dati e delle
metodologie e tecniche di progettazione e metodologie e tecniche di progettazione e
sviluppo di una base di dati.
sviluppo di una base di dati.
Esempio – Blast
Nel caso si voglia registrare il risultato di Nel caso si voglia registrare il risultato di
blast effettuati su una sequenza:
blast effettuati su una sequenza:
Si deve tenere conto di numeri (e- Si deve tenere conto di numeri (e-
value) e stringhe (annotazione).
value) e stringhe (annotazione).
Potenzialmente si possono ottenere più Potenzialmente si possono ottenere più
(risultati di) blast per ogni sequenza.
(risultati di) blast per ogni sequenza.
Esempio – Microarray
Ogni esperimento produce:
Due immagini.
Una matrice di 37 colonne con 32256 elementi.
Moltissime informazioni correlate (protocolli, biomateriali, programmi e strumenti utilizzati).