StefanoCimmino Implementazioneeanalisidiunprotocolloperlareplicazioneattiva IngegneriaInformatica Universit`adegliStudidiRoma“LaSapienza”Facolt`adiIngegneria

(1)

Universit` a degli Studi di Roma “La Sapienza”

Facolt` a di Ingegneria

Tesi di Laurea in

Ingegneria Informatica

Dicembre, 2002

Implementazione e analisi di un protocollo per la

replicazione attiva

Stefano Cimmino

(2)

(3)

Universit` a degli Studi di Roma “La Sapienza”

Facolt` a di Ingegneria

Tesi di Laurea in Ingegneria Informatica Sessione Autunnale – Dicembre, 2002

Implementazione e analisi di un protocollo per la

replicazione attiva

Stefano Cimmino

Relatore Prof. Roberto Baldoni . . . . Co-Relatore Ing. Carlo Marchetti

. . . .

Revisore Ing. Andrea Vitaletti . . . .

(4)

Viale Spagna, Cond. Sagittario 03100 Frosinone, ITALIA

e-mail: [email protected]

(5)

Indice

1 Introduzione 1

2 Il problema della replicazione 7

2.1 Modelli di sistema . . . 7

2.1.1 Sincronia . . . 8

2.1.2 Modelli di guasto . . . 8

2.2 Replicazione software . . . 10

2.2.1 Criteri di consistenza . . . 10

2.2.2 Tecniche di replicazione . . . 11

2.3 Comunicazioni di gruppo . . . 13

2.3.1 Servizi di group membership . . . 13

2.3.2 Servizi di multicast . . . 15

2.3.3 Servizi di state transfer . . . 17

2.4 Consenso e problemi di agreement . . . 18

2.4.1 Il problema del consenso . . . 18

2.4.2 Risolvere il consenso . . . 19

3 Replicazione attiva a tre livelli 23 3.1 Motivazioni . . . 24

3.1.1 Architetture a due livelli per la replicazione software . . . 24

3.1.2 Replicazione software nei sistemi a larga scala . . . 25

3.2 Una architettura a tre livelli per la replicazione software . . . 27

3.3 Replicazione attiva a tre livelli . . . . 30

3.3.1 Specifica . . . 30

3.3.2 Panoramica sull’architettura . . . 31

3.3.3 Modello di sistema . . . 33

3.3.4 Il Sequencer Service . . . 34

3.3.5 Il protocollo del middle-tier . . . 36

3.3.6 Discussione . . . 39 i

(6)

4 Il total order multicast nei group toolkit 41

4.1 Il total order multicast . . . 41

4.1.1 Specifiche alternative . . . 42

4.1.2 Algoritmi di total order . . . 46

4.2 I group toolkit . . . 49

4.2.1 Classificazione rispetto all’architettura . . . 50

4.2.2 Classificazione rispetto al total order multicast . . . 53

4.2.3 Analisi delle prestazioni . . . 55

4.2.4 Discussione . . . 60

5 Interoperable Replication Logic 63 5.1 Una panoramica su CORBA . . . 64

5.1.1 La Common Object Request Broker Architecture . . . 64

5.1.2 Fault Tolerant CORBA . . . 68

5.2 Panoramica sull’architettura di IRL . . . 70

5.3 Il prototipo di IRL . . . 73

5.3.1 Una interazione client/server in IRL . . . 74

5.3.2 Outgoing Request GateWay . . . 76

5.3.3 Object Group Handler . . . 78

5.3.4 Incoming Request GateWay . . . 82

5.4 Analisi delle prestazioni . . . 84

5.4.1 Piattaforma di test ed esperimenti preliminari . . . 84

5.4.2 Parametri degli esperimenti . . . 85

5.4.3 Prestazioni dell’ORGW e della replicazione stateless . . . . 85

5.4.4 Prestazioni della replicazione stateful . . . 86

5.4.5 Osservazioni rilevanti . . . 93

5.5 Discussione . . . 94

6 Conclusioni 97 6.1 Contributi . . . 97

6.2 Sviluppi futuri . . . 98

(7)

Elenco delle figure

2.1 La tecnica di replicazione attiva . . . 11

2.2 La tecnica di replicazione passiva . . . 12

2.3 Spiegazione del view synchronous multicast . . . 16

3.1 Una architettura a due livelli per la replicazione software . . . 25

3.2 Una architettura a tre livelli per la replicazione software. . . 28

3.3 Una architettura a tre livelli per la replicazione software attiva . . 32

3.4 Una esecuzione priva di guasti del protocollo per la replicazione attiva a tre livelli . . . 37

3.5 Una esecuzione in presenza di guasti del protocollo per la replicazione attiva a tre livelli . . . 38

4.1 Scenari che violano la propriet`a di Uniform Agreement . . . 43

4.2 Problemi dovuti ad un indebolimento della proriet`a di Order nella specifica del total order multicast . . . 44

4.3 Gerarchia delle specifiche per il total order multicast . . . 45

4.4 Varianti comuni degli algoritmi basati su sequencer . . . 47

4.5 Varianti degli algoritmi basati sul protocollo di Skeen . . . 49

4.6 Architettura dei group toolkit . . . 51

4.7 Schema di interazione usato nei test dei group toolkit . . . 56

4.8 Prestazioni dei group toolkit in funzione di R e C . . . 57

4.9 Prestazioni dei group toolkit in funzione di C per R=2 . . . 59

5.1 Componenti principali dell’architettura CORBA . . . 65

5.2 Operazioni one way e callback . . . 66

5.3 Client e Server Portable Request Interceptor . . . 67

5.4 L’architettura di IRL . . . 71

5.5 Un esempio di distribuzione dei componenti di IRL . . . 73

5.6 Una interazione client/server priva di guasti in IRL . . . 75

5.7 Confronto tra un client CORBA standard e un client IRL . . . 76

5.8 Architettura del componente Object Group Handler . . . 78 iii

(8)

5.9 Passi principali della computazione di una replica OGH . . . 80 5.10 Architettura interna di un membro di un object group . . . 83 5.11 Prestazioni della replicazione stateless (C=1, M=2) . . . 86 5.12 Prestazioni della replicazione stateful in funzione di M (C=1, H=2) 87 5.13 Prestazioni della replicazione stateful in funzione di H (C=1, M=2) 88 5.14 Latenza introdotta dal Sequencer in funzione di H (C=1, M=2) . 89 5.15 Prestazioni della replicazione stateful in funzione di C (M=2, H=2) 90 5.16 Latenza dovuta al Sequencer in funzione di C (M=2, H=2) . . . . 92

(9)

Elenco delle tabelle

2.1 Classi di failure detector . . . 21

4.1 Specifiche per il total order multicast . . . 45

4.2 Classificazione dei group toolkit rispetto alla loro architettura . . 53

4.3 Specifica del total order multicast supportata dai group toolkit . . 55

5.1 Replicazione dei componenti di IRL . . . 74

5.2 Prestazioni di una interazione client/server base . . . 85

5.3 Parametri degli esperimenti . . . 85

5.4 Prestazioni di IRL in funzione di M . . . 87

5.5 Prestazioni di IRL in funzione di H . . . 88

5.6 Tempo impiegato dal Sequencer in funzione di H . . . 89

5.7 Prestazioni di IRL in funzione di C (approccio primary) . . . 90

5.8 Prestazioni di IRL in funzione di C (approccio active) . . . 91

5.9 Latenza del Sequencer in funzione di C . . . 92

v

(10)

(11)

Capitolo 1

Introduzione

L’utilizzo di servizi automatizzati è aumentato sensibilmente negli ultimi anni. Basti pensare per esempio ai servizi di commercio elettronico, ai servizi per transazioni bancarie, al controllo industriale, ecc. Data questa diffusione, si ri- tiene ormai inaccettabile che un servizio sia reso indisponibile a causa di un guasto. In particolare, qualità come affidabilità e disponibilità sono considerate fondamentali per qualsiasi sistema. L’affidabilità è definita come il tempo medio tra due guasti consecutivi, mentre la disponibilità rappresenta la probabilità che, in un qualsiasi momento, il sistema sia funzionante. Esistono diverse tecniche che consentono di raggiungere tali qualità. Una di esse è la tolleranza ai guasti, la quale, basandosi sull’assunzione che i guasti possono sempre verificarsi nonos- tante il tentativo di prevenirli, propone soluzioni che permettono la continuità del servizio anche in presenza di tali eventi indesiderati.

Tolleranza ai guasti tramite replicazione software. La replicazione software è una delle possibili soluzioni per ottenere tolleranza ai guasti. L’idea è quella di replicare i componenti software di un sistema, ossia creare diverse copie dello stesso componente, allo scopo di aumentarne il grado di affidabilità e disponi- bilità. Il modello di interazione considerato è il modello client/server, secondo il quale un programma client, per usufruire di un determinato servizio, invia una richiesta verso una applicazione remota, il server, che implementa tale servizio. Il server si fa carico di processare la richiesta, eventualmente modificando il proprio stato interno, ed invia poi il corrispondente risultato al client. In questo contesto, per aumentare affidabilità e disponibilità, il servizio viene replicato, creando varie copie dell’applicazione server, chiamate repliche, le quali vengono distribuite su diversi host. Il sistema deve assicurare che lo stato di ciascuna replica rimanga consistente con quello delle altre, in modo da consentire al client di accedere ad una replica qualsiasi per usufruire del servizio. In particolare, si parla di consis-

1

(12)

tenza forte quando il sistema fornisce al client l’illusione di comunicare con una singola entit`a logica.

Tecniche di replicazione. Le tecniche di replicazione consentono di garantire consistenza tra le repliche di un servizio. Negli ultimi venti anni sono state proposte varie tecniche di replicazione che consentono di ottenere consistenza forte delle repliche, come per esempio la tecnica di replicazione attiva (chiamata anche approccio state-machine) [Lam78, Sch93], quella passiva (chiamata anche approccio primary-backup) [BSTM93], la semi-passiva [DSS98] e la semi-attiva [Pow91]. Le tecniche principali sono quella attiva e quella passiva.

• Replicazione attiva. Nella replicazione attiva, tutte le repliche effettuano le stesse operazioni nello stesso ordine, mantenendo perciò identico il loro stato. Il vantaggio principale di questa tecnica di replicazione consiste nel basso tempo di risposta, anche in presenza di guasti. Tuttavia le repliche devono necessariamente essere deterministiche: il risultato di una richiesta deve dipendere solo dalla richiesta stessa e dallo stato corrente della replica che la processa. In altre parole, ciò significa che la replica si comporta come una macchina a stati finiti deterministica. Questa condizione è necessaria per fare in modo che tutte le repliche producano lo stesso risultato per una data richiesta.

• Replicazione passiva. Nella replicazione passiva, una particolare repli- ca (chiamata primary) riceve tutte le richieste dei client, definisce l’ordine della loro esecuzione e aggiorna le altre repliche (chiamate backup), per mantenere consistente il loro stato. In caso di guasto del primary, il processamento delle richieste si arresta fino all’elezione di un nuovo primary, che viene scelto tra le repliche backup. Per questa ragione, la replicazione passiva può comportare un tempo di risposta più basso in caso di guasti del primary. Tuttavia questa tecnica richiede una quantità minore di risorse di calcolo rispetto alla replicazione attiva e consente di avere repliche non- deterministiche, in quanto solo il primary processa le richieste, inviando i corrispondenti aggiornamenti dello stato alle repliche backup.

I group communication toolkit. L’implementazione delle tecniche di replicazione pone diverse difficolt`a, legate soprattutto alla necessit`a di mantenere la consistenza delle repliche. I group communication toolkit rappresentano un con- veniente strumento per risolvere questo tipo di problemi: utilizzando l’astrazione di gruppo, ossia un insieme di processi cooperanti, detti membri, essi forniscono un insieme di servizi e primitive di comunicazione che semplificano l’implemen- tazione delle tecniche di replicazione software. Per esempio, il servizio di group

(13)

3

membership permette a ciascun membro del gruppo di sapere l’attuale compo- sizione della vista (view ), ossia l’insieme dei membri attivi e partecipanti alla com- putazione, mentre varie primitive di comunicazione uno-a-molti (cioè multicast) permettono ai membri di scambiarsi messaggi con varie garanzie di ordinamento e affidabilità. In particolare, la primitiva di total order multicast assicura che tutti i membri consegneranno lo stesso insieme di messaggi nello stesso ordine, e può quindi essere utilizzata per implementare la replicazione attiva. Allo stesso modo, la replicazione passiva necessita di (i) un servizio di group membership, che permetta alle repliche backup di individuare il guasto del primary ed eleg- gerne uno nuovo, e (ii) una primitiva di view synchronous multicast, che assicura che un messaggio inviato all’interno di una vista verrà consegnato nel contesto della stessa vista da tutti o da nessun membro, evitando quindi che un vecchio primary aggiorni erroneamente una replica backup dopo che un nuovo primary è già stato eletto.

Il problema del consenso. In generale, ogni tecnica di replicazione che deve assicurare consistenza forte delle repliche, richiede di risolvere un problema di agreement, cioè di accordo, come il total order multicast o il view synchronous multicast. Si può dimostrare (vedi [CT96, GS97b, GS01]) che risolvere il problema di ottenere un total order multicast o un view synchronous multicast, necessari per l’implementazione della replicazione attiva e passiva, rispettivamente, equiv- ale a risolvere il problema del consenso. Nel problema del consenso, ogni processo propone un valore e tutti i processi non guasti devono essere d’accordo nel decidere uno stesso valore, che deve essere scelto tra quelli proposti. Tuttavia il risultato di impossibilità, noto come “FLP”, stabilisce che se si considera un sistema in cui i processi possono guastarsi e in cui non si possono fare assunzioni sui tempi di (i) trasmissione dei messaggi scambiati tra diverse entità distribuite, e di (ii) es- ecuzione delle richieste, il problema del consenso non può essere risolto [FLP85].

Ciò significa che per poter implementare una qualsiasi tecnica di replicazione che richieda consistenza forte, le entità coinvolte nella soluzione del problema di agreement devono necessariamente essere distribuite in un sistema che presenti un qualche livello di sincronia, come ad esempio una LAN. In particolare, se le uniche entità presenti sono i client e le repliche del servizio, come accade nelle architetture a due livelli, non è possibile distribuire entrambi su una rete WAN, come Internet, in cui i tempi di ritardo dei messaggi e di esecuzione delle richieste sono finiti ma non predicibili. Esistono diverse soluzioni per la replicazione software che assumono un sistema asincrono, ma possono però essere utilizzate solo per applicazioni che richiedono minori garanzie di consistenza. Per esempio, i group toolkit basati su un servizio di group membership partizionabile consentono il partizionamento del gruppo e il progresso della computazione in ciascun sot-

(14)

togruppo, aumentando la disponibilit`a di varie applicazioni che non richiedono consistenza forte.

Architetture a tre livelli per la replicazione software. Le architetture a tre livelli per la replicazione software consentono di distribuire i client e le repliche anche su una WAN con basse garanzie di predicibilità riguardo i ritardi nella trasmissione e nel processamento dei messaggi. Ciò è reso possibile evitando che i client e le repliche partecipino ad algoritmi per la soluzione di problemi di agreement. In una architettura a tre livelli per la replicazione software, i client e le repliche sono disaccoppiati, cioè non interagiscono direttamente tra di loro, ma piuttosto comunicano attraverso uno strato software intermedio (middle-tier ) altamente affidabile e tollerante ai guasti. In particolare il middle-tier riceve le richieste dei client (client-tier ) e le inoltra verso le repliche (end-tier ), insieme ad altre informazioni che consentono a ciascuna replica di eseguire le richieste indipendentemente dalle altre repliche, ma in modo tale da garantire consistenza forte. Le repliche inviano poi il risultato al middle-tier, che lo inoltra verso i client. In questo modo, né i client né le repliche prendono parte ad algoritmi per la soluzione di problemi di agreement. Al contrario, è il middle-tier a risolvere tali problemi, per esempio stabilendo un ordine totale sulle richieste, nell’ambito di una tecnica di replicazione attiva, oppure definendo il primary tra le repliche, nell’ambito di una tecnica di replicazione passiva. Ciò significa che solamente il middle-tier deve quindi essere distribuito in un sistema con qualche livello di sincronia, mentre invece i client e le repliche possono essere distribuiti anche in sistemi asincroni, come Internet, preservando comunque le garanzie di consistenza forte.

Contributo. Il contributo di questa tesi consiste (i) nell’aver effettuato una classificazione ed una valutazione delle prestazioni di alcuni tra i group toolkit attualmente disponibili, e (ii) nell’aver utilizzato il pi`u adatto di tali group toolkit per la realizzazione di un prototipo di una infrastruttura software per la tolleranza ai guasti denominata Interoperable Replication Logic (IRL), che adotta una architettura a tre livelli per la replicazione software.

Più in dettaglio, i group toolkit sono stati classificati rispetto alle caratteristiche architetturali e al servizio di total order multicast offerto, su cui si è poi basata l’analisi delle loro prestazioni. Inoltre è stato definito il design di alcuni componenti di IRL, la cui implementazione ha poi consentito di esaminare, tramite una accurata analisi prestazionale, le caratteristiche del protocollo per la replicazione attiva a tre livelli adottato dal prototipo.

(15)

5

Organizzazione della tesi. La tesi `e strutturata come segue. Il Capitolo 2 introduce i concetti generali usati nel seguito della dissertazione. Il Capitolo 3 mo- tiva e introduce le architetture a tre livelli per la replicazione software, illustrando in particolare un protocollo per la replicazione attiva a tre livelli. Il Capitolo 4 tratta il problema del total order multicast, e fornisce una classificazione rispetto a tale servizio di alcuni tra i group toolkit attualmente disponibili, sui quali viene eseguita una analisi delle prestazioni. Il Capitolo 5 descrive una infrastruttura per la tolleranza ai guasti, chiamata Interoperable Replication Logic, che adotta una architettura a tre livelli per la replicazione software. In particolare viene illustrato il design del prototipo attuale, del quale viene riportata una accurata analisi delle prestazioni. Infine il Capitolo 6 conclude la dissertazione, mettendo in luce i principali risultati del lavoro svolto.

(16)

(17)

Capitolo 2

Il problema della replicazione

Negli ultimi anni c’`e stata una notevole diffusione di servizi “on-line”. Diversi settori, come la finanza, le telecomunicazioni, booking-reservation ecc, forniscono servizi attraverso Internet, ai quali accedono un numero sempre crescente di client.

Ciò ovviamente comporta un aumento dei requisiti di alta disponibilità e affid- abilità di tali servizi. Una soluzione per raggiungere questi obiettivi consiste nello sviluppare software su hardware replicato tollerante ai guasti. Sebbene questa soluzione sia adatta per alcune classi di applicazioni e sia stata perseguita con successo da alcune compagnie come Tandem e Stratus, fattori economici hanno spinto a cercare una soluzione meno costosa basata sul software. L’idea è quella di creare più copie del servizio, chiamate repliche, distribuite su diversi host. Il sistema deve assicurare che lo stato delle repliche rimanga consistente, in modo da consentire al client di accedere ad una replica qualsiasi per ottenere una risposta.

Questo capitolo introduce vari concetti legati al problema della replicazione software. In particolare, la Sezione 2.1 introduce i modelli di sistema per i sistemi distribuiti e i modelli di guasto. La Sezione 2.2 tratta il problema della replicazione, descrivendo i criteri di consistenza e le due tecniche principali per la replicazione software, ossia quella attiva e quella passiva. La Sezione 2.3 descrive alcuni servizi utili per la replicazione, offerti dai sistemi per la comunicazione di gruppo (i group toolkit). Infine la Sezione 2.4 tratta il problema del consenso e la sua relazione con i problemi di agreement, legati alla replicazione software.

2.1 Modelli di sistema

Un sistema distribuito basato su scambio di messaggi `e definito come un insieme finito di processi Π = {p1. . . pn}. I processi possono comunicare inviando e ricevendo messaggi attraverso dei canali di comunicazione (o link). I processi e

7

(18)

i canali possono essere modellati rispetto (i) alle “garanzie di sincronia” che essi forniscono e (ii) ai tipi di guasto che possono essere osservati nel sistema.

2.1.1 Sincronia

La sincronia di un modello di sistema distribuito `e espressa in termini di assun- zioni temporali (o assunzioni di sincronia) che caratterizzano il comportamento dei processi e dei canali rispetto al tempo da essi impiegato per completare i loro compiti.

In un sistema sincrono le assunzioni temporali definiscono un limite massimo noto sia sul tempo impiegato da un processo per completare un proprio compito, sia sul ritardo di trasmissione dei messaggi. Si assume che il sistema soddisfi sempre questi vincoli.

Al contrario, in un sistema asincrono non esiste alcun limite noto (e di con- seguenza nessuna assunzione temporale) sul tempo impiegato dai processi e dai canali per effettuare le proprie azioni. Si assume solo che il sistema alla fine completer`a i compiti che sono stati richiesti.

I modelli di sistema sincrono e asincrono rappresentano i due estremi di una collezione di modelli, che possono essere ottenuti indebolendo le assunzioni tem- porali di un modello di sistema sincrono. Questi sistemi vengono chiamati parzial- mente sincroni. Per esempio, è possibile assumere che esistano dei limiti massimi non noti sulle velocità relative dei processori e sul tempo di trasmissione dei mes- saggi, che valgono in ogni istante, oppure che questi limiti alla fine saranno per sempre validi. I sistemi parzialmente sincroni sono particolarmente adatti per la soluzione di problemi che non possono essere risolti nei sistemi asincroni. Noti- amo inoltre che molti approcci pratici di solito assumono un sistema parzialmente sincrono nel quale la maggior parte dei messaggi verosimilmente viene trasmessa entro una durata δ nota, e la maggior parte dei processi verosimilmente completa il proprio compito entro un tempo τ noto [CMA97, FC99a, FC99b]. In questi sistemi, i processi e i canali alternano periodi di stabilità, cioè periodi durante i quali i processi e i canali si comportano in accordo ai vincoli temporali, e periodi di instabilità, cioè periodi in cui i vincoli temporali non sono rispettati da qualche processo o canale.

2.1.2 Modelli di guasto

In generale, sia i processi che i canali di un sistema distribuito possono esibire guasti, cio`e possono iniziare ad avere un comportamento non conforme alla loro specifica.

(19)

2.1. MODELLI DI SISTEMA 9

Un processo si dice guasto se il suo comportamento si discosta da quello prescritto dall’algoritmo che sta eseguendo; altrimenti si dice corretto. Un modello di guasto specifica il modo in cui un processo guasto si pu`o discostare dal proprio algoritmo. I modelli di guasto sono i seguenti [HT93]:

• Crash: un processo guasto smette per sempre di funzionare, cio`e termina l’esecuzione di ogni attivit`a e in particolare smette di inviare e ricevere messaggi;

• Send omission: un processo guasto termina prematuramente, oppure omet- te occasionalmente di inviare messaggi che era supposto inviare;

• Receive omission: un processo guasto termina prematuramente, oppure omette occasionalmente di ricevere messaggi che gli sono stati inviati;

• General omission: un processo guasto termina prematuramente, oppure omette occasionalmente di inviare e ricevere messaggi;

• Arbitrary (detto anche Byzantine o malicious): un processo guasto pu`o esi- bire un comportamento arbitrario, per esempio pu`o inviare messaggi caotici agli altri processi;

• Arbitrary con message authentication: un processo guasto pu`o esibire un comportamento arbitrario, ma `e disponibile un meccanismo di autenti- cazione dei messaggi (per esempio la firma digitale). Questo consente ai processi corretti di validare le asserzioni di altri processi riguardo alla attuale ricezione di messaggi inviati da processi corretti.

I modelli di guasto che vanno dal modello crash al modello general omission vengono comunemente chiamati modelli di guasto benigni. Inoltre i processi di un sistema sincrono possono essere soggetti anche al seguente modello di guasto:

• Timing failure: un processo guasto si discosta dalla propria specifica tem- porale, per esempio eccedendo il tempo massimo predefinito per eseguire uno step (nel qual caso si ha una performance failure).

Allo stesso modo, i canali di comunicazione possono esibire guasti, per esempio scartando ogni messaggio (guasti di tipo crash), oppure omettendo il trasporto di qualche messaggio (guasti di tipo omission), o comportandosi maliziosamente alterando il contenuto di qualche messaggio (guasti di tipo arbitrary).

(20)

2.2 Replicazione software

L’idea alla base della replicazione software è quella di mettere in esecuzione di- verse repliche di un dato servizio in processi differenti di un sistema distribuito, consentendo a un processo client di accedere ad ognuna di esse, aumentando cos`ı la probabilità di ottenere una risposta. Un servizio può mantenere uno stato interno (servizio stateful) o meno (servizio stateless). Nell’ultimo caso il risul- tato di una richiesta dipende solo dal contenuto della richiesta stessa, per cui per incrementare la disponibilità del servizio è sufficiente consentire al client di accedere al più elevato numero possibile di repliche. Nel caso più generale, cioè quando si ha un servizio stateful, nasce il problema di mantenere la consistenza delle repliche.

2.2.1 Criteri di consistenza

Mantenere la consistenza tra un insieme di repliche di un dato servizio richiede di definire un criterio di consistenza. Un criterio di consistenza definisce il comportamento di un insieme di processi interagenti attraverso oggetti concorrenti condivisi [HW90], per esempio definisce i risultati restituiti dalle repliche di un servizio a fronte di una richiesta di un client. Sono stati proposti diversi criteri di consistenza nella letteratura, come ad esempio la consistenza causale [AHN⁺94], la consistenza sequenziale [Lam79], la serializzabilità [BHG87], e la linearizzabilità [HW90]. Questi criteri possono essere suddivisi in forti e deboli. I criteri di con- sistenza forte consentono di fornire al client l’illusione di interagire con un servizio non replicato. Al contrario, i criteri di consistenza debole richiedono ai client di conoscere l’esatta semantica del servizio replicato, riducendo quindi la trasparen- za della replicazione del servizio. La consistenza sequenziale, la serializzabilità e la linearizzabilità sono criteri di consistenza forte¹. Nel seguito considereremo la linearizzabilità come nostro criterio di consistenza forte, essenzialmente per mo- tivi pratici. La linearizzabilità è infatti più facile da implementare rispetto agli altri criteri di consistenza.

Per essere in grado di progettare tecniche generiche di replicazione che assicuri- no consistenza forte, è quindi necessario definire delle condizioni sufficienti che assicurino la linearizzabilità per un generico servizio stateful replicato. È possibile mostrare che per assicurare linearizzabilità di un servizio replicato è sufficiente che le repliche siano d’accordo sul loro stato interno quando viene restituito un

1Si può dimostrare che assicurare linearizzabilità implica anche assicurare consistenza se- quenziale e causale, per cui la linearizzabilità è un criterio più forte degli altri due. Al contrario, la linearizzabilità e la serializzabilità sono difficili da confrontare a causa del loro diverso campo di applicazione [HW90, AW94].

(21)

2.2. REPLICAZIONE SOFTWARE 11

risultato per una richiesta di un client. Informalmente, ciò si può ottenere facendo in modo che le repliche aggiornino il loro stato in una maniera (i) ordinata e (ii) atomica. Atomicità significa che tutte o nessuna delle repliche corrette esegue un aggiornamento dello stato, mentre ordinamento significa che ciascuna replica esegue gli aggiornamenti del proprio stato nello stesso ordine prima di guastarsi.

Queste condizioni saranno formalizzate nel contesto della replicazione attiva nella Sezione 3.3.1.

2.2.2 Tecniche di replicazione

Negli ultimi venti anni sono state proposte diverse tecniche di replicazione in grado di assicurare consistenza forte delle repliche. Esempi sono la replicazione attiva (o approccio state-machine) [Lam78, Sch93], passiva (o primary-backup) [BSTM93], coordinator-cohort [BJRA85], semi-passiva [DSS98], e semi-attiva [Pow91].

Nel seguito descriveremo le tecniche di replicazione attiva e passiva, che sono quelle pi`u utilizzate.

Replicazione attiva. Nella replicazione attiva tutte le repliche eseguono lo stesso insieme di richieste nello stesso ordine prima di guastarsi. In particolare, ogni richiesta `e eseguita da ogni replica, la quale restituisce un risultato per essa (Figura 2.1). Per assicurare consistenza forte `e necessario che (i) ogni replica processi ciascuna richiesta dei client nello stesso ordine delle altre repliche prima di guastarsi, e che (ii) le repliche siano deterministiche. Il determinismo delle repliche assicura che le repliche abbiano uno stato identico dopo aver completato il processamento di una richiesta, senza richiedere ulteriori comunicazioni tra di esse.

servizio replicato

processamento deterministico client

replica

servizio replicato

processamento deterministico client

replica

Figura 2.1: La tecnica di replicazione attiva

Il vantaggio principale di questa tecnica di replicazione consiste nel basso tempo di risposta in caso di guasti. Inoltre la replicazione attiva permette di

(22)

tollerare guasti arbitrari. Infatti, se il servizio è replicato da n repliche, e si assume che esistano almeno dⁿ⁺¹₂ e repliche corrette, è sufficiente che il client aspetti dⁿ⁺¹₂ e risposte identiche per tollerare guasti arbitrari. Lo svantaggio di questa tecnica riguarda invece la necessità di un numero elevato di risorse di calcolo, dal momento che tutte le repliche processano ogni richiesta. Inoltre può essere utilizzata solo se le repliche sono deterministiche.

Replicazione passiva. Nella replicazione passiva (Figura 2.2) una particolare replica (chiamata primary) riceve tutte le richieste dei client e definisce l’ordine della loro esecuzione. In particolare, nel momento in cui riceve una richiesta di un client, il primary processa la richiesta, raggiungendo un nuovo stato interno, e successivamente invia dei messaggi di aggiornamento alle altre repliche (chiamate backup), per imporre la consistenza. `E facile vedere che se il primary è corretto la replicazione passiva garantisce consistenza forte. Per preservare la consistenza anche in presenza di guasti del primary, il primary stesso deve eseguire gli aggiornamenti assicurando atomicità, cioè che nessuna o tutte le repliche backup ricevano l’aggiornamento dello stato corrispondente al processamento di una richiesta di un client. Il primary deve inoltre restituire un risultato al client solo se tutte le repliche backup sono state aggiornate. In questo modo, nel caso in cui il primary si guasti, il nuovo primary può evitare di eseguire una seconda volta la computazione relativa ad una richiesta, cosa che avrebbe condotto ad una violazione della consistenza. Nel momento in cui il primary si guasta, le repliche backup devono eleggere un nuovo primary tra di esse. A questo scopo, le repliche backup devono monitorare il primary per individuarne i guasti. Inoltre, quando viene individuato un guasto del primary, si deve assicurare che una sola replica venga eletta nuovo primary. In altre parole, in ogni istante di tempo deve esistere al più un primary.

client

replica primary

replica backup

servizio replicato replica

backup

aggiornamento atomico client

replica primary

replica backup

servizio replicato replica

backup

aggiornamento atomico

Figura 2.2: La tecnica di replicazione passiva

La necessit`a di eleggere un nuovo primary pu`o comportare un tempo di risposta lento in caso di guasti del primary. Tuttavia, siccome solo il primary processa

(23)

2.3. COMUNICAZIONI DI GRUPPO 13

le richieste dei client e invia aggiornamenti alle repliche backup, la replicazione passiva richiede una quantit`a inferiore di risorse di calcolo rispetto alla replicazione attiva, e inoltre tollera repliche non-deterministiche. Infine, a differenza della replicazione attiva, la replicazione passiva non `e in grado di tollerare guasti arbitrari.

2.3 Comunicazioni di gruppo

Varie esperienze [KT91, Bir93, Pow96, GS97a, CKV01] hanno dimostrato che il paradigma delle comunicazioni di gruppo rappresenta un potente strumento per la implementazione di servizi replicati. La nozione alla base di questo paradig- ma è quella di gruppo, cioè una collezione di processi di un sistema distribuito (chiamati membri) che in qualche modo cooperano tra di loro. Grazie all’as- trazione di gruppo, un processo può inviare un messaggio ad un gruppo, senza dover nominare esplicitamente tutti i membri che lo compongono.

Esistono due diversi tipi di gruppi: gruppi statici e gruppi dinamici. Un gruppo è statico se l’insieme dei suoi membri (cioè la membership) non cambia nel tempo. Ciò implica che anche se un membro si guasta, da un punto di vista logico esso rimane sempre un membro del gruppo. In un gruppo dinamico invece, la membership evolve nel tempo, per esempio modificandosi a causa di guasti. Inoltre tipicamente i gruppi dinamici offrono la possibilità di aggregarsi al gruppo o di abbandonarlo, permettendo quindi di gestire dinamicamente l’insieme dei processi che prendono parte al gruppo stesso.

Un’altra distinzione riguarda i gruppi aperti e i gruppi chiusi. In un gruppo chiuso, solo i membri del gruppo possono inviare messaggi ad altri membri del gruppo, mentre invece in un gruppo aperto qualsiasi processo del sistema pu`o inviare messaggi ai membri del gruppo.

Nel seguito di questa sezione verranno brevemente descritti alcuni dei servizi pi`u importanti messi a disposizione dai sistemi per la comunicazione di gruppo (group communication toolkit). Per una descrizione pi`u formale di questi ed altri aspetti riguardanti i group toolkit si rimanda a [CKV01].

2.3.1 Servizi di group membership

Il servizio di group membership è alla base dei sistemi di comunicazione di grup- po che supportano gruppi dinamici (detti anche view-oriented). Esso consente infatti di tenere traccia dei membri del gruppo, che sono rappresentati tramite una vista (view), cioè una collezione univocamente identificata degli identificatori dei membri del gruppo. Una vista può cambiare perché un processo si aggrega

(24)

al gruppo, o perch´e un membro abbandona il gruppo, o infine perch´e un membro

è escluso dal gruppo. Nei primi due casi c’è una richiesta esplicita del processo, mentre il terzo caso è determinato dal servizio stesso, che si fa carico di monitorare i membri per individuarne i guasti, e in tal caso escluderli dal gruppo. I membri ricevono notifica del cambiamento della membership tramite un evento di cambiamento di vista. Alla ricezione di tale evento, i membri installano una nuova vista.

Un servizio di membership pu`o essere partitionable oppure primary compo- nent:

Primary component membership service. In questo tipo di servizi, per esempio [BvR93, MFSW95], gli identificatori delle viste installate da tutti i membri di un gruppo sono totalmente ordinate. In altre parole, tutti i membri di un gruppo installano la stessa sequenza di viste. Questo implica che tutti i membri devono essere d’accordo sulla composizione del gruppo per ciascun cambiamento di vista.

Partitionable membership service. In questo tipo di servizi, per esempio [ADKM92a, BDMS98, DMS95, MAMSA94, BDM01], gli identificatori delle viste installate dai processi di un gruppo sono parzialmente ordinati. In al- tre parole, i membri possono partizionarsi in sottogruppi (un sottogruppo per ogni partizione). Solo i membri dello stesso sottogruppo devono essere d’accordo sulla composizione del sottogruppo stesso.

Notiamo che anche in un servizio di group membership di tipo primary par- tition i membri possono partizionarsi, per esempio a causa di un partizionamento fisico della rete. Tuttavia, in questo tipo di servizi, solo un sottogrup- po, cioè la partizione primaria, può continuare la propria esecuzione, mentre i membri degli altri sottogruppi o si “suicidano” (come accade in Isis [BvR93]) oppure rimangono bloccati in attesa di una fusione delle partizioni (come ac- cade in Phoenix [MFSW95]). Notiamo inoltre che la necessità di imporre con- sistenza forte delle repliche richiede un servizio di group membership di tipo pri- mary component, poiché consentire il progresso in due o più sottogruppi può causare la violazione delle proprietà di ordinamento e atomicità. Di conseguen- za, le applicazioni che richiedono consistenza forte delle repliche (per esempio [ADMSM94, GS95, GS97a, Kem02]) comunemente assumono un servizio di tipo primary component. In particolare, un servizio di membership primary component può essere utilizzato per implementare la replicazione passiva: per esempio se si assume che i membri siano ordinati all’interno di una vista in accordo ad una regola deterministica, le repliche possono eleggere un primary semplicemente scegliendo il primo membro che compare nella vista.

(25)

2.3.2 Servizi di multicast

I group toolkit forniscono diversi servizi di multicast con differenti garanzie di affidabilit`a e ordinamento. Si va infatti dal semplice multicast non affidabile al multicast affidabile con ordinamento causale e totale [HT93, BvR93, CKV01]. Nel seguito ci concentreremo sulle primitive di total order multicast e view synchronous multicast.

View Synchronous multicast. Le comunicazioni di tipo “view synchronous”

sono state introdotte in Isis [BJ87, BvR93]. Considerando group toolkit view- oriented, un messaggio viene consegnato a un membro nel contesto di una vista.

L’idea alla base delle comunicazioni view synchronous è quella di ordinare la consegna dei messaggi rispetto alla installazione di una vista. Rispetto a questa idea, sono state proposte diverse specifiche per il view synchronous multicast (o VScast). Tra di esse, la più restrittiva richiede che un messaggio inviato usando un VScast sia ricevuto da tutti o nessuno dei membri nel contesto della vista in cui è stato inviato [CKV01]. Questa proprietà è stata indicata in diversi modi, per esempio sending view delivery in [CKV01], view synchrony in [BDGS95, MS95]

e strong virtual synchrony in [FvR95]. La Figura 2.3 illustra alcuni scenari per spiegare questa definizione. Questi scenari mostrano un gruppo di tre processi p1, p2, p3, ciascuno dei quali ha ricevuto dal servizio di membership la vista vi = {p₁, p₂, p₃}. p₁invia poi un messaggio m al gruppo, tramite un VScast nel contesto della vista v_i. Successivamente il servizio di membership informa p₂ e p₃ che p₁ ha lasciato il gruppo², cosicch´e p2 e p3 installano una nuova vista vi+1= {p2, p3}.

Lo Scenario 1 soddisfa la definizione data di VScast, poiché tutti i membri di v_i consegnano m nel contesto di v_i. Al contrario, p₂ consegna m nel contesto di vi+1 nello Scenario 2, mentre omette di ricevere m nello Scenario 3, per cui entrambi questi scenari non soddisfano la definizione. Infine, anche lo Scenario 4 non soddisfa la definizione, poiché p₂ e p₃ consegnano m nel contesto di una vista diversa rispetto a quella in cui m era stato inviato. Notiamo che anche uno scenario in cui m non è consegnato da nessun processo soddisfa la definizione.

Il view synchronous multicast garantisce atomicità per quanto riguarda la consegna dei messaggi nel contesto di una vista. Questa proprietà è necessaria nella replicazione passiva per garantire atomicità nella consegna degli aggiornamenti inviati dal primary alle repliche backup, ossia per imporre consistenza forte.

Siccome il soddisfacimento della proprietà di view synchrony richiede di bloccare l’invio e la ricezione dei messaggi durante i cambiamenti di vista, diversi group toolkit implementano proprietà più deboli, come per esempio la same view delivery³ [CKV01], evitando di dover bloccare l’invio e la ricezione di messaggi e

2La ragione per cui p1 non fa pi`u parte del gruppo non `e influente in questi esempi.

(26)

gruppo p₁

p₂

p₃