ASSIST - Caratteristiche della programmazione di applicazioni context-aware e una proposta di m

ASSIST (A Software development System based on Integrated Skeleton Tech- nology) nasce all’interno del Dipartimento di Informatica dell’Università di Pisa, come proposta di un nuovo ambiente di programmazione orientato allo sviluppo di applicazioni parallele e distribuite con un approccio unificato. L’obiettivo principale è la creazione di un sistema di programmazione ad alto livello per applicazioni complesse e multidisciplinari, che garantisca elevate prestazioni e scalabilità su differenti piattaforme (da singole macchine parallele a cluster eterogenei fino a griglie computazionali) e il riuso di software parallelo preesistente.

Lo sviluppo di ASSIST deriva dall’esperienza maturata nei precedenti ambienti P3L e SkIE, bastati su un modello a skeleton, che hanno mostrato i benefici degli skeleton ma anche le loro maggiori limitazioni:

• gli skeleton sono composti tramite interfacce ben definite, e separano l’implementazione dalla definizione del programma;

• le parti sequenziali degli skeleton possono essere scritte in qualsiasi lin- guaggio di programmazione, aumentando la produttivit`a degli svilup- patori di applicazioni che non devono riscrivere il codice gi`a prodotto;

• l’adozione di linguaggi standard permette anche di utilizzare i compila- tori preesistenti, che garantiscono la creazione di un codice sequenziale ottimizzato;

• con alcune restrizioni, anche del codice binario pu`o essere utilizza- to per le parti sequenziali degli skeleton, garantendo quindi anche la portabilit`a di applicazioni chiuse e non modificabili;

• la portabilit`a delle performance risulta soddisfacente, soprattutto su piattaforme omogenee, in quanto la conoscenza dei modelli dei costi permette di ricompilare i programmi per utilizzare efficientemente l’ambiente di esecuzione.

In certi casi per`o l’espressivit`a degli skeleton non basta per sviluppare applicazioni complesse, ed ASSIST si propone di superare alcuni di questi problemi, in particolare:

• oltre alla capacità di esprimere alcuni schemi paralleli tipici, si vuole offrire la possibilità di descrivere strutture più generiche, in modo da favorire applicazioni con pattern di comunicazioni particolari non supportate dagli skeleton classici;

• i modelli a skeleton offrono spesso una semantica funzionale e determi- nistica, che pu`o limitarne l’uso in applicazioni complesse;

• si vuole migliorare il concetto di composizione di skeleton, e superare le inefficienze indotte in alcune forme che mischiano i concetti di parallelismo su dati e su stream;

• in molte applicazioni `e necessaria la presenza di uno stato condiviso, o meglio una Distributed Shared Memory per lavorare efficientemente con grandi quantit`a di dati e semplificare la programmazione di problemi dinamici o irregolari;

• infine, progetti precedenti hanno dimostrato che il modello a skeleton non `e spesso sufficiente per riusare applicazioni parallele scritte in differenti formalismi, in quanto si riesce ad ottenere un buon grado di riuso solo per le parti interamente sequenziali; si vogliono quindi sviluppare tecniche per aumentare il riuso del codice parallelo preesistente.

Tutte queste considerazioni hanno portato allo sviluppo di ASSIST, che cerca di superare tutte le limitazioni sopra descritte:

1. permette di esprimere programmi paralleli e distribuiti tramite grafi generici, che si sono rivelati abbastanza potenti per modellare la mag- gior parte delle applicazioni parallele; al tempo stesso, per`o, supporta il riconoscimento di strutture note, di cui sono conosciute informazioni aggiuntive (ad esempio il modello di costi);

2. i nodi del grafo sono moduli paralleli (parmod) o sequenziali, facilmente sostituibili con nuove versioni senza modificare il resto dell’applicazione;

3. i moduli comunicano tra loro attraverso stream con tipo, rappresentanti nel grafo come archi;

4. il codice sequenziale contenuto nei moduli pu`o essere sorgente scrit- to nei linguaggi pi`u comuni (C, C++, Fortran) oppure, con alcune limitazioni, un binario precompilato;

5. il concetto di skeleton non appare più in modo evidente nel modello, ma è stato sostituito da quello di “modulo parallelo”, che può essere considerato una sorta di skeleton generico, programmabile per emulare sia le forme di parallelismo più comuni e normalmente rappresentate dagli skeleton, sia forme differenti (composizione di parallelismo su dati e su stream, non determinismo, etc);

6. i moduli paralleli introducono il concetto di “stato interno” per sopperire alla semantica funzionale degli skeleton, e la possibilit`a di gestire il non determinismo sugli stream in ingresso;

7. permette di condividere dati tra i moduli tramite “oggetti condivisi” implementati con DSM, per sopperire ai tipici problemi degli stream nel caso di moduli che lavorano con grandi moli di dati.

Ovviamente la maggiore generalità si paga; nel caso particolare di ASSIST la struttura a grafo generico e il modulo parallelo che racchiude differenti tipo- logie di skeleton potrebbero limitare l’applicabilità dei modelli di costo e di conseguenza le ottimizzazioni possibili. In realtà la computazione mantiene una struttura ben precisa che, seppur più complicata da analizzare rispetto alla semplice composizione di skeleton, si può formalizzare grazie ad elementi di teoria delle code; per quanto riguarda il parmod, con esso si riesce comun- que a realizzare solo forme di parallelismo note (esattamente come con gli skeleton) di cui conosciamo tutte le informazioni.

L’evoluzione di ASSIST La bont`a e la generalit`a del modello di ASSIST sono state poi dimostrate nel tempo, grazie a successivi progetti.

Innanzitutto la caratteristica principale derivata dal modello `e che i moduli ASSIST possono essere compilati in una versione parametrica sul grado di parallelismo in modo trasparente al programmatore; in questo modo il grado di parallelismo viene scelto al momento dell’esecuzione, in base alle caratteristiche della piattaforma scelta o delle prestazioni desiderate.

Un successivo progetto[79] ha permesso l’introduzione di meccanismi a run time per la modifica del grado di parallelismo dell’applicazione, esten- dendo cos`ı le potenzialità dell’ambiente; a questo è stato poi affiancato un sistema di gestione automatica del grado di parallelismo che, in base ad un contratto di QoS specificato dal programmatore e variabile nel tempo, decide autonomamente se aggiungere o rimuovere processi all’interno dei moduli paralleli. Questo ha portato ad una prima forma di Adattività delle applicazioni ASSIST.

La tipizzazione degli stream ha permesso la realizzazione di meccanismi automatici di conversione dei tipi tra piattaforme differenti, per permettere l’esecuzione di applicazioni parallele su piattaforme eterogenee.

Tutte queste funzionalità sono poi confluite in una versione di ASSIST che supporta griglie computazionali tramite il middleware Globus[6], e sfrutta le tecniche per eterogeneità ed adattività di cui abbiamo parlato sopra per supportare le caratteristiche intrinseche del grid computing.

Infine, nell’ambito del progetto GRID.it[11] i moduli e le applicazioni ASSIST sono state incapsulate in componenti e web-service, al loro interno paralleli, per fornire componenti e servizi ad alte prestazioni.

Tutte le modifiche di cui abbiamo parlato sono state apportate tramite modifiche al supporto e all’implementazione. Non abbiamo toccato il modello, che si `e rivelato molto flessibile e potente.

Al fine di dimostrare l’effettiva programmabilit`a di ASSIST sono state poi realizzate molte applicazioni complesse, ad esempio:

• algoritmi di data mining irregolari e difficilmente implementabili tramite skeleton, come il C4.5[78];

• algoritmi di simulazione, come il Barnes-Hut N-Body[7];

• un sistema di Knowledge Discovery parallelo su Database, integrato con altre applicazioni, per il progetto SAIB (System for Internet Banking Applications)[32];

• un algoritmo di “isosurface extraction” applicato alla bioinformatica[59]. ASSIST si `e quindi dimostrato un modello di programmazione parallela molto espressivo, e al tempo stesso adatto per delegare la gestione di gran parte dei dettagli al supporto.

Nel documento Caratteristiche della programmazione di applicazioni context-aware e una proposta di modello ad alte prestazioni (pagine 85-88)