Nuove architetture per sistemi di integrazione dati

5.2 Data Integration

5.2.3 Nuove architetture per sistemi di integrazione dati

I recenti sviluppi nell’ambito di infrastrutture e algoritmi per sistemi distribuiti, unitamente alla rapida crescita del numero di sorgenti informative eterogenee sul Web, hanno ampiamente influenzato la ricerca nel campo della integrazione dati ed incoraggiato lo sviluppo di sistemi idonei. Oltre a sottolineare l’inadeguatez- za delle soluzioni architetturali di tipo centralizzato, tali studi hanno evidenziato come in uno scenario dinamico, in cui sorgenti dati possono essere distaccate o agganciate ad un contesto pre-esistente, il design ed il mantenimento di uno schema globale e l’aggiornamento dei mapping diventano dei task particolar- mente onerosi dal punto di vista computazionale. In questa sezione si presenta

5.2. DATA INTEGRATION 97 una nuova direzione di sviluppo nel contesto dei sistemi per l’integrazione dati dove gli obiettivo sono il dinamismo e la flessibilit`a.

Sistemi di Data Management di tipo peer-to-peer (PDMS ) Il paradigma P2P (peer-to-peer) [106, 109, 110, 111] riflette uno scenario in cui i diversi nodi di una rete sono risorse computazionali “alla pari”, o nodi informativi, che cooperano tra di loro scambiandosi servizi e/o informazioni. I vantaggi di questa architettura logica sono certamente la scalabilità, la robustezza e il fatto che non necessita di una gestione amministrativa centralizzata. La bontà di questi sistemi tipicamente cresce col crescere del numero di nodi partecipanti, giacché con essi aumentano la memoria a disposizione e la potenza computazionale del- l’intero sistema. Tuttavia, come noto, spesso i sistemi P2P non si preoccupano di preservare la semantica dei dati scambiati. Ciò potrebbe costituire un reale problema quando, al crescere delle dimensioni della rete, diventa sempre più difficile poter predire la locazione e la qualità dei dati forniti dal sistema.

Un sistema cosiddetto P2P Data Management System si pone l’obiettivo di superare proprio tali limitazioni, offrendo una semantica di interoperabilit`a in assenza di uno schema globale dell’informazione. Tutta la conoscenza circa la topologia e l’estensione della rete risiede presso i peer stessi. Infatti, ciascun peer `e interconnesso con gli altri peer mediante formule di coordinazione che consentono a ciascun singolo nodo di sfruttare le conoscenze (acquaintances) che provengono dagli altri peer.

Un sistema P2P decompone una query utente applicando ricorsivamente le formule di coordinazione, che possono agire come una sorta di vincolo per la propagazione degli aggiornamenti sulla rete.

Un esempio di modello dati per questi sistemi, è quello conosciuto come Local Relational Model (LRM) [112, 113] che è specificamente pensato per sistemi di gestione dati P2P. Ciascun nodo ha uno schema di database locale la cui semantica è definita su un dominio locale. L’informazione si propaga tra i peer grazie alle regole di coordinazione e alle relazioni tra i domini dei diversi peer.

Tali relazioni sono in grado di esprimere overlapping tra i database locali di diversi peer, ad esempio, costanti differenti che rappresentano in realtà lo stesso oggetto. Le formule di coordinazione, servono perciò per fornire in maniera dichiarativa le inter-dipendenze semantiche tra diversi database locali. Non è presente una idea di consistenza globale, ma piuttosto di consistenza locale, a livello di peer.

Diversi lavori di ricerca sono stati condotti in merito alla applicabilit`a dell’approccio P2P in ambienti distribuiti [114]. Un interessante argomento riguarda come esprimere le interconnessioni logiche tra i peer. Ad esempio, molte risorse Web possono essere descritte come un grafo diretto in cui i nodi sono i dati del Web ed i link tra di essi sono gli archi. Una possibile formalizzazione dell’architettura dello schema dati del Web (a supporto di tecniche di query answering) prevede di poter interrogare dati Web nel momento in cui esiste un entry point per essi e se i link tra i dati possono essere usati per navigare tramite lo schema. A partire dalla query utente, la tecnica proposta produce un piano di naviga- zione che viene trasformato in una estensione dell’algebra relazionale tramite l’operatore traverse che consente di attraversare i link tra differenti dati Web. Questa soluzione fa uso del paradigma GLAV, una generalizzazione di GAV e LAV in cui i mapping sono costituiti da una coppia di query, una espressa sullo

schema globale ed una espressa sullo schema sorgente. Questo tipo di mapping GLAV definisce il limite di tradeoff tra la potenza espressiva e la trattabilit`a nel query answering.

Integrazione dati nel modello peer-to-peer In generale gli approcci de- scritti non si adattano a qualsivoglia topologia di interconnessione dei peer, e ci`o `

e dovuto alla particolare semantica adottata nella definizione delle tecniche di query answering. Tuttavia, imporre delle limitazioni sulle interconnessioni dei peer non `e un approccio praticabile, dal momento che in un ambiente dinamico la topologia della rete potrebbe essere essa stessa fuori dal controllo del sistema stesso.

E noto che il tentativo di poter assegnare una semantica globale ad un ambiente distribuito può condurre a indecidibilità del query answering. La soluzione in tal caso potrebbe essere quella di adottare una semantica epistemica per il sistema invece della semantica basata sulla logica del primo ordine. Sotto questa assunzione le asserzioni di mapping espresse in GLAV sono interpretate in modo che solo la conoscenza del peer è trasferita ad altri peer. In questo approccio, è possibile utilizzare algoritmi distribuiti per il query answering basati sul meccanismo delle transazioni per garantire la correttezza semantica dell’intero processo rispetto alla semantica epistemica.

Questa visione è stata estesa con l’intento di sviluppare una infrastruttura P2P di data integration, implementata come Data Grids. Questo nuovo sviluppo si propone di modellare un sistema P2P come un set di data peer e hyper peer. I primi sono sistemi che offrono dati in termini di uno schema esportato, mentre i secondi non esportano dati ma sono interconnessi sia con data che hyper peer, costruendo la topologia della rete. Un hyper peer connesso ad altri data peer corrisponde al modello GAV classico, e la sua semantica è definita mediante la logica epistemica. Il query answering nel hyper framework è effet- tuato suddividendo ogni mapping GLAV in due parti: una asserzione LAV ed una GAV, collegate per mezzo di un nuovo simbolo relazionale. Le asserzioni LAV sono usate per produrre un programma logico che sfrutta algoritmi per il query answering tramite l’utilizzo di viste, mentre le asserzioni GAV sono usate dal sistema per generare le estensioni su cui il programma logico può essere valutato.

Altri approcci di Data Integration Il problema noto come what-to-ask (WTA) [115] è quello di rispondere a query poste su un sistema P2P facendo affidamento solo sui servizi di query answering disponibili presso i diversi peer. In particolare, uno scenario tipico prende in considerazione due peer: un peer remoto e un peer locale. Una possibile soluzione al problema WTA (quando si utilizza un linguaggio ontologico per esprimere la base di conoscenza dei due peer) consiste nel calcolare le query che il peer locale deve sottoporre al peer remoto per poter rispondere alla interrogazione posta sul peer locale. È interessante sottolineare che, quando si arricchisce la potenza espressiva del linguaggio ontologico utilizzato per descrivere la base di conoscenza dei peer, il problema WTA potrebbe essere non più risolubile.

In generale, gli approcci fin qui discussi alla integrazione dati mirano a rispondere alle interrogazioni sfruttando tecniche di riscrittura: ovvero, i dati sono

5.3. VALUTAZIONE PARALLELA DI PROGRAMMI LOGICI 99

Nel documento Tecniche per la valutazione distribuita di programmi logici (pagine 112-115)