Il modello dei dati - Cloud Computing: analisi dei modelli architetturali e delle tecnologie pe

Bigtable è in realtà una mappa distribuita, persistente, multidimensionale e ordinata. Il dominio di tale mappa è la tripla costituita da due stringhe,

che rappresentano il nome della riga e della colonna della tabella, e da un numero intero a 64 bit che rappresenta un istante di tempo (timestamp). Questo particolare modello `e stato dedotto dagli sviluppatori di Google dopo aver analizzato una serie di potenziali usi che avrebbero potuto essere stati fatti del sistema Bigtable. Come esempio essi riportano Webtable, la tabella usata per l’indicizzazione delle pagine Web da parte del motore di ricerca. In tal caso essi usano l’URL della pagina (invertendo l’ordine dei componenti, nella prossima sezione verr`a illustrato il motivo di questa scelta) come indice di riga e nella colonna dei contenuti, contents:, inseriscono i contenuti della pagina Web nei vari istanti di tempo in cui sono state analizzate. La figura 4.1 mostra quanto fin qui esposto.

Figura 4.1: Vista parziale di una riga della tabella Webtable, in cui si nota come indice di riga l’URL rovesciato della pagina ed i suoi vari contenuti in istanti di tempo diversi.

4.3.1 Righe

La chiave di riga in una tabella è costituita da una stringa arbitraria, di lunghezza massima di 64KB (sperimentalmente hanno osservato che in realtà la lunghezza della chiave di riga, per la maggior parte dei client che usano Bigtable, si assesta attorno ai valori dai 10 ai 100 byte). Ogni lettura o scrittura effettuata tramite un’unica chiave di riga è atomica, a prescindere dal numero di colonne coinvolte nell’operazione. Questa scelta architettura-

le permette agli utenti di comprendere meglio il comportamento del sistema a fronte di pi`u letture e scritture concorrenti effettuate sulla stessa riga.

L’insieme delle righe di una tabella è automaticamente e dinamicamente partizionato, quindi l’utente non ha un controllo diretto sulla distribuzione dei dati. Tuttavia le righe vengono ordinate alfabiticamente in base al loro indice di riga: questo permette un controllo, seppur non totale, su come i dati vengono sparsi sulla rete. Ciò significa che letture su piccoli insiemi di righe adiacenti tipicamente richiedono la comunicazione di poche macchine e sono quindi più efficienti. I client possono sfruttare questa proprietà per ottimizzare l’esecuzione dei propri programmi. I partizionamenti di righe che vengono creati dal sistema sono detti tablet, e sono quella che viene chiamata unità di distribuzione e di bilanciamento del carico.

In base alla proprietà di ordinamento delle righe, si può ora capire anche perché, nella figura 4.1 la chiave di riga in realtà non è esattamente l’URL della pagina, che, trattandosi della home page della CNN dovrebbe essere www.cnn.com, bens`ı la stringa ottenuta invertendo l’ordine delle componenti di tale URL: com.cnn.www : in tal modo infatti le pagine appartenenti agli stessi domini sono raggruppate in righe contigue. Cos`ı facendo l’analisi dei domini e delle pagine è molto più efficiente.

4.3.2 Famiglie di colonne

Le chiavi di colonna sono raggruppate in insiemi chiamati famiglie di colonne, o column families, che formano l’unità di base per gestire il controllo degli accessi. Tutti i dati contenuti in una column family sono generalmente dello stesso tipo. Prima di poter inserire dati in una qualunque chiave di colonna è necessario creare la famiglia di colonne a cui tale chiave ap- partiene. Una volta creata, qualunque chiave appartenente a tale famiglia può essere usata. Generalmente il numero di column families distine in una tabella dovrebbe essere abbastanza ridotto, aggirandosi attorno all’ordine delle centinaia. Inoltre le famiglie di colonne dovrebbero cambiare rara- mente durante il ciclo di vita di un’applicazione. Al contrario invece, una tabella può avere un numero arbitrariamente grande di colonne.

La chiave di colonna viene costruita seguendo la sintassi famiglia:colonna. Esistono in realtà delle restrizioni riguardanti la stringa che identifica la column family, sulle quali tuttavia sorvoliamo poiché non è nostra intenzio-

ne concentrarci sui dettagli del sistema, quanto invece su una sua visione globale.

Come esempio di identificatore per una famiglia di colonne, sempre per quanto riguarda Webtable, possiamo citare language, che contiene le lingue nelle quali una pagina Web è scritta. Tale famiglia di colonne avrà al suo interno una sola colonna, nella quale verranno scritti gli identificatori delle lingue (si noti la non atomicità del contenuto di una singola cella, che contrasta con le ipotesi tipicamente associate al modello relazionale, in particolare con la prima forma normale generalmente applicata ai Database di questo tipo). Un altro esempio potrebbe invece essere la famiglia di colonne anchor, che contiene i riferimenti alla pagina. Ogni singola colonna di tale famiglia contiene il testo del riferimento, mentre la sua chiave è composta dall’URL della pagina da cui il riferimento proviene. Questo esempio viene rappresentato nella figura 4.2.

Figura 4.2: Vista parziale di una riga della tabella Webtable, in cui si pu`o os- servare come vengono gestite le colonne e le column families per i riferimenti (anchor ).

Il controllo degli accessi e l’accounting dei dischi e della memoria vengono entrambi effettuati a livello di column families. Nell’esempio di Webtable, ci`o permette di realizzare varie applicazioni: alcune di esse che raccolgono dati dal Web e li aggiungono alla tabella, altre che invece leggono tali dati senza poterli modificare e creano, derivandoli da essi, delle nuove famiglie di colonne ed altre ancora che invece sono solo autorizzate a leggere alcuni dei dati esistenti, senza inserirne di nuovi.

4.3.3 Timestamp

Ogni cella in Bigtable può contenere più versioni di uno stesso dato; tali versioni sono indicizzate in base al loro timestamp, che, come già detto, è un intero a 64 bit. I timestamp possono essere assegnati automaticamente da Bigtable oppure esplicitamente dalle applicazioni client. Nel primo caso il timestamp rappresenta, in microsecondi, l’istante reale in cui il dato è stato inserito, nella migliore approssimazione possibile, tenendo conto che nei sistemi distribuiti è molto difficile, se non impossibile, oltre che spesso inutile, raggiungere una nozione univocamente condivisa da tutti i suoi componenti di tempo assoluto. Applicazioni che necessitino di evitare conflitti infatti devono inserire autonomamente il valore di timestamp, al quale possono pervenire utilizzando specifici protocolli, la cui complessità può variare molto in base alle loro esigenze.

Le diverse versioni del contenuto di una cella sono ordinate in maniera decrescente di timestamp, in modo che le versioni pi`u aggiornate possano essere lette per prime.

Per rendere meno onerosa la gestione delle versioni dei dati, Bigtable supporta due parametri di configurazione specifici, a livello di column family per poter automaticamente eliminare le versioni più vecchie. I client possono infatti specificare sia di mantenere in memoria solo un certo numero di versioni, ovviamente le più aggiornate, oppure di mantenere quelle abbastanza aggiornate, in base alle loro esigenze. Per esempio è possibile specificare di eliminare le versioni dei dati che sono state inserite da più di un giorno o di una settimana.

Nel caso di Webtable il timestamp delle pagine memorizzate nella colonna contents: `e settato esplicitamente come tempo in cui le pagine sono state effettivamente visitate dai crawler e vengono tenute in memoria solamente le ultime tre versioni pi`u aggiornate.

Nel documento Cloud Computing: analisi dei modelli architetturali e delle tecnologie per lo sviluppo di applicazioni (pagine 71-75)