• Non ci sono risultati.

The Role of Distributed Computing in Big Data Science: Case Studies

N/A
N/A
Protected

Academic year: 2021

Condividi "The Role of Distributed Computing in Big Data Science: Case Studies"

Copied!
4
0
0

Testo completo

(1)

Università degli Studi di Salerno

Dipartimento di Informatica

Dottorato di Ricerca in Informatica (Ciclo XIV - Nuova Serie)

Tesi di Dottorato in Informatica

The Role of Distributed Computing in Big Data Science: Case Studies

in Forensics and Bioinformatics Abstract

Candidato:

Gianluca Roscigno Matr.: 8880900108

Tutor:

Prof. Giuseppe Cattaneo Coordinatore: Prof. Gennaro Costagliola

A.A. 2014/2015

(2)

Sommario

L'era dei Big Data sta dando vita alla generazione di grandi quan- tità di dati, che richiedono capacità di memorizzazione e di analisi le quali possono essere indirizzate solo dai sistemi di computazione distribuita. Per facilitare la computazione distribuita su larga scala, sono stati proposti molti paradigmi di programmazione e soluzioni, come MapReduce e Apache Hadoop, che in modo trasparente risolvo- no alcuni problemi relativi ai sistemi distribuiti e nascondono molti dei loro dettagli tecnici.

Hadoop è attualmente il più popolare e maturo framework che sup- porta il paradigma MapReduce, ed è ampiamente usato per memo- rizzare e processare grosse quantità di dati adoperando un insieme di computer. Le soluzioni come Hadoop sono attraenti poiché sem- plicano la trasformazione di un'applicazione non parallela a quella distribuita, adoperando strumenti generali e senza richiedere molte competenze. Tuttavia, senza qualsiasi attività di ingegnerizzazione degli algoritmi, alcune applicazioni realizzate non sono del tutto velo- ci ed ecienti, e possono sorire di diversi problemi ed inconvenienti quando sono eseguite su un sistema distribuito. Infatti, un'implemen- tazione distribuita è una condizione necessaria ma non suciente per ottenere prestazioni notevoli rispetto ad una controparte non paralle- la. Quindi, è necessario valutare come le soluzioni distribuite vengono eseguite su un cluster Hadoop, e/o come le loro prestazioni posso- no essere migliorate per ridurre il consumo delle risorse e i tempi di completamento.

In questa tesi mostreremo come le implementazioni basate su Hadoop possono essere migliorate utilizzando attentamente le attività di in- gegnerizzazione degli algoritmi, di messa a punto, di prolazione e i

i

(3)

miglioramenti al codice. È anche analizzato come è possibile raggiun- gere questi obiettivi lavorando su alcuni punti cruciali, tali come: la computazione locale ai dati, la dimensione della partizione di input, il numero e la granularità dei sotto-problemi, la congurazione del cluster, la rappresentazione dell'input/output, etc.

In particolare, per indirizzare queste questioni, noi scegliamo alcuni casi di studio provenienti da due aree di ricerca dove il problema del grande ammontare dei dati sta crescendo, ossia Digital Image Foren- sics e Bioinformatica. Noi descriviamo principalmente vere e proprie implementazioni per mostrare come progettare, ingegnerizzare, mi- gliorare e valutare soluzioni basate su Hadoop per il problema della Source Camera Identication, cioè il riconoscimento della fotocamera usata per scattare una data immagine digitale, utilizzando l'algoritmo di Fridrich et al., e per due dei principali problemi in Bioinformatica, ovverosia il confronto senza allineamento delle sequenze e l'estrazione delle statistiche globali o locali dei k-meri.

I risultati ottenuti dalle nostre implementazioni migliorate mostrano che esse sono sostanzialmente più veloci delle corrispondenti applica- zioni non parallele, e notevolmente più veloci rispetto alle corrispon- denti semplici implementazioni basate su Hadoop. In alcuni casi, per esempio, la nostra soluzione per le statistiche dei k-meri è all'incir- ca 30 volte più veloce rispetto alla nostra semplice implementazione basata su Hadoop, e circa 40 volte più veloce rispetto ad un analogo strumento costruito su Hadoop. Inoltre, le nostre applicazioni sono anche scalabili, ossia i tempi d'esecuzione sono (approssimativamen- te) dimezzati quando si raddoppiano le unità di computazione. In- fatti, le attività di ingegnerizzazione degli algoritmi basate sull'imple- mentazione di miglioramenti astuti, e coadiuvate da accurate attività di prolazione e messa a punto, possono portare a migliori risultati sperimentali, evitando possibili problemi.

Noi anche evidenziamo come i miglioramenti, i consigli, gli stratagem- mi e gli approfondimenti proposti possono essere adoperatati in altre

ii

(4)

aree di ricerca e problemi.

Sebbene Hadoop semplica alcune attività degli ambienti distribui- ti, dobbiamo accuratamente conoscerlo per raggiungere prestazioni degne di nota. Non è suciente essere un esperto del dominio ap- plicativo per costruire implementazioni basate su Hadoop, infatti, al

ne di ottenere buone prestazioni, un esperto di sistemi distribuiti, d'ingegneria degli algoritmi, di messa a punto, di prolazione, etc. è anche richiesto. Quindi, le migliori prestazioni dipendono pesante- mente dal grado di cooperazione tra l'esperto di dominio e l'ingegnere degli algoritmi distribuiti.

iii

Riferimenti

Documenti correlati

], such as stationary harmonic maps (cp.. Application to Q-valued functions. In order to estimate the size of the singular set of a minimizing current it is essential to bound

The Trieste ALICE and CMS computing groups, in collaboration with other Italian groups, aim to overcome the limitations of existing solutions using two approaches: sharing the

Sulla base di queste valutazioni, è legittimo pensare che, il documento in questione possa essere una falsificazione, realizzata nella seconda metà del XII secolo utilizzando

If a process invokes the join() operation and does not leave the system for at least 3δ time units, or invokes the read() operation, or invokes the write () operation and does not

The mutagenesis study supported the hypothesis of independent binding of RMNC6 in both pockets, since the mutation of amino acid residues in the pocket located in the RNase

The activity of each enzyme in the FOCM network as predicted by the current model indicates that accumula- tion of 10fTHF resulting from decreased MTHFR activity is due to two

All five studies compared the active intervention to a placebo con- trol group ( Brousseau 2015 ; CHAMPS 2011 ; De Montalembert 2003 ; Goldman 2013 ; Mueller 2005 ); one

The percentage of females that responded to the male calling signal (total column height) is divided according to the subsequent male behavioral response: mating duet, followed