• Non ci sono risultati.

SCALABLE DATA SCIENCE AND TECHNOLOGIES FOR COPY NUMBER VARIATIONS STUDIES

N/A
N/A
Protected

Academic year: 2021

Condividi "SCALABLE DATA SCIENCE AND TECHNOLOGIES FOR COPY NUMBER VARIATIONS STUDIES"

Copied!
16
0
0

Testo completo

(1)

SCALABLE DATA SCIENCE AND TECHNOLOGIES FOR COPY

NUMBER VARIATIONS STUDIES

Candidato: Valentino Pisi

Relatore: Prof.ssa Federica Mandreoli Co-relatore: Dott. Riccardo Martoglia Co-relatore: Prof. Cristian Taccioli

Co-relatore: Dott.ssa. Chiara Vischioni

(2)

SCALABLE DATA ANALYSIS

Andando a distribuire geograficamente i database e delegandone il loro aggiornamento a dei laboratori possiamo ottenere:

• Un unico database condiviso dalla comunità

• Possibilità di effettuare analisi su un insieme più dettagliato di informazioni in costante sviluppo

Tale strategia è stata implementata mediante l’utilizzo, dal lato backend, di:

• Form per la restituzione dei dati

• Cache per la memorizzazione e unione dei dati

(3)

STRUTTURA SDA

HOME ORGANISM

GENES EXPLORATION ANALYSIS

Database

• Memorizzazione dati Backend

• Calcolo dati statistici

• Elaborazione query

Frontend

• Ordinamento dati

• Creazione tabelle

Forms

(4)

FORM

• Permettono:

• Ricerca dei dati nel database

• Scrittura guidata della query

• Permettono un controllo maggiore sui dati immessi dall’utente

• Difficoltà esecuzione dovute a:

• Esecuzione query ed ordinamento dei dati

• Quantità di dati da restituire

• Grafici da costruire a run-time

(5)

FORM

• Riduzione latenza fra invio della ricercara restituzione dei dati

• Separazione della preparazione dei dati della risposta:

• Dati

• Grafico

• Miglioramento implementato mediante I threads

(6)

BENEFICI FORM

Senza Thread Con Thread

0 2 4 6 8 10 12 14 16 18

Tempo medio per restituzione della risposta (s)

Tempo medio per restituzione della risposta (s)

(7)

FORM

(8)

FULL TEXT SEARCH

Infinite possibili combinazioni di ricerca

Possibilità di selezionare solo i dati necessari

Ordinamento automatico dei dati a seconda del campo di appartenenza

Grafici diversi a seconda della query

(9)

SINTASSI

Show: per selezionare i campi da visualizzare

Filter: per impostare i vincoli che il risultato dovrà rispettare

Exclude: per indicare i valori da non Includere

(10)

GRAFICI AD-HOC

Ricerca delle specie che contengono il gene TP53:

show:(specie_name, gene_name, copy_number_qta) filter:

(gene_name=TP53)

Ricerca dei geni contenuti nella specie Homo Sapiens:

show:(specie_name, gene_name, copy_number_qta) filter:

(specie_name=HOMO SAPIENS)

(11)

CACHE

Necessità di minore latenza fra domanda e risposta

Evitare il ricalcolo di query comuni

Possibilità di restituire dati statistici

(12)

Cache

• File contenenti:

• Dataframe di dati

• Campi tipizzati

• Predisposti alla combinazione con i Dataframe degli altri file

• Altamente modulare

• Funzioni per calcoli statistici integrate

(13)

BENEFICI CACHE

Senza cache Con cache

0 5 10 15 20 25 30

Tempo medio per la restituzione di una risposta (s)

Tempo medio per la restituzione di una risposta (s)

(14)

RISULTATI

Individuati nuovi geni da studiare in laboratorio

Modifica e creazione di farmaci per il trattamento del cancro

Scoperte in ambito scientifico del funzionamento di alcuni geni

Dati che verranno utilizzati per analizzare altri geni a questi collegati

Predisposizione di un meccanismo di Scalable Data Analysis

(15)

CONCLUSIO NI

Settore in continua evoluzione e che richiede un adeguamento del

comparto informatico

Possibilità di molteplici implementazioni per la piattaforma:

Aggiunta grafi per

identificazione di pattern di famiglie cancer prone e non

Aggiunta di metodi statistici più complessi per ulteriore classificazione Aggiunta di meccansimo di machine learning

(16)

GRAZIE PER

L’ATTENZIONE

Riferimenti

Documenti correlati

• Incassi e numero di chiamate effettuate su base mensile in funzione della provincia e della regione nella quale si trova l'apparecchio del chiamante.. • Incassi e numero

Cambiare l’attributo di classe all’interno tra le “Data set metadata information” da “Service Class” a “Native Country” (altrimenti, rieseguire l’intero processo di

Verificare il funzionamento del trigger inserendo dei record nella tabella TICKETS in modo da far cambiare status a un cliente. • inserire uno o più biglietti per

Il comando per visualizzare il piano di esecuzione esegue delle query alla tabella PLAN_TABLE.. Se questa esiste già verrà mostrato un errore (“Nome colonna

Un ulteriore indice su emp(deptno) non aiuterebbe la join, poiché prima della join viene eseguito un filtro su Job, che richiede l’indice su Job ed un access by

Le statistiche verranno e↵ettuate sul numero di voti e↵ettuati, sul voto medio assegnato e sugli incassi ottenuti dalla produzione tramite l’introduzione di pubblicit` a

Analizzare l’impatto del minimal gain (considerando il gain ratio come criterio di splitting) e del maximal depth sulle caratteristiche dell’albero di decisione generato

Per motivi di gestione della rete di telefonia cellulare pu`o essere necessario diminuire il numero massimo di chiamate gestibili da una cella (diminuzione del valore