MOMIS - RiscritturadiinterrogazioniXML:unapprocciobasatosull’analisisemanticadeglischemi M ODEN

Il progetto MOMIS (Mediator envirOnment for Multiple information Sources)[5, 4, 6] è basato sulla proposta del progetti I₃per l’integrazione intelligente delli informazioni. MOMIS è, dunque, un progetto rivolto all’integrazione di sorgenti di dati di tipo strut-turato e semistrutstrut-turato, con l’obiettivo di fornire un accesso il più possibile integrato a sorgenti informative eterogenee. Il generico utente deve essere in grado, ponendo una singola query, di ottenere informazioni significative provenienti da diverse fonti. L’approccio architetturale scelto per questo progetto è, essendo orientato sull’idea dell’ARPA-I₃, formato da tre livelli principali:

• Utente: l’utente deve essere in grado, tramite l’aiuto di un’interfaccia

grafi-ca, di porre query sul sistema globale ricevendo un’unica risposta. Questa risposta deve contenere informazioni integrate appartenenti a tutte le sorgenti locali ritenute interessanti. L’intero procedimento deve essere, possibilmente, trasparente agli occhi dell’utente ed il pi`u automatico possibile.

• Mediatore: il mediatore, come gi`a descritto in precedenza, `e il modulo che

si occupa, data una query da parte di un utente, di combinare ed integrare le informazioni estratte dai Wrappers (e poste in un modello comune) per fornire la risposta desiderata.

• Wrapper: ad ogni wrapper `e collegata una singola fonte. Questo modulo si

occupa di fornire i metadati richiesti per la specifica sorgente, di tradurre le query ottenute dal mediatore in modo opportuno per interrogarla e di fornire le informazioni reperite.

All’interno del sistema MOMIS si `e scelto di adottare un modello comune di rappresentazione (il modello ODMi3, Object Data Model) ed un linguaggio object-oriented di descrizione comune per i dati ottenuti dalle varie sorgenti (il linguaggio ODL_I3, Object Data Language). Lo strumento (o tool) grafico in grado di supportare

il progettista durante l’integrazione semi-automatica di schemi apparteneti a sorgen-ti eterogenee (di sorgen-tipo relazionale, ad oggetsorgen-ti o semistrutturato) si chiama

SIDesign-er[2, 42] (Source Integrator Designer). SIDesigner esegue l’integrazione basandosi

su un approccio semantico (quindi tramite l’apporto di metadati) che sfrutta tecniche intelligenti basate sulla logica descrittiva OLCD[3] (Object Language with Comple-ments allowing Descriptive cycles). Il punto di partenza dell’intero processo di inte-grazione sono gli schemi, ottenuti dai wrappers e convertiti in formato ODL_I3, rapp-resentanti le sorgenti locali. A partire da queste informazioni SIDesigner, tramite il supporto attivo di un progettista, crea una vista integrata dell’intero sistema (compren-dente quindi più sorgenti di dati) sempre in formato ODL_I3. Tale vista viene definita uno schema globale. Lo schema integrato viene ottenuto per fasi successive tramite la creazione di un dizionario comune (common thesaurus) indicante le possibili relazioni inter ed intra-schema. Le relazioni che formano il common thesaurus vengono rica-vate tramite tecniche di inferenza basate sulla logica OLCD ed arricchite per mezzo dei sistemi ARTEMIS[7] e WordNet[33]. Sarà ora descritta più a fondo l’architettura del sistema MOMIS per l’integrazione dei dati provenienti da sorgenti eterogenee.

2.5.1 Architettura del sistema MOMIS

Il sistema MOMIS permette di integrare informazioni provenienti da fonti del tipo di database tradizionali (sia relazionali che object-oriented), provenienti oltremodo da file systems e da fonti semistrutturate come, ad esempio, l’HTML o l’XML. Come si `e gi`a citato in precedenza, MOMIS segue l’architettura di riferimento per sistemi I₃ proposta dall’ARPA, ente di difesa americano.

Come rappresentato in Figura( 2.1) si possono distinguere cinque componenti principali, eccone un elenco:

1. Wrapper: i wrappers sono i moduli che forniscono l’interfaccia fra le sorgenti di dati locali ed il modulo mediatore. Ad ogni fonte diversa `e associato un di-verso wrapper. Questi moduli hanno due distinte funzioni, una svolta durante la fase di integrazione del sistema ed una durante la fase di risposta alle richieste (query) dell’utente. La prima di queste due funzione comporta la creazione del-lo schema ODL_I3 della fonte associata al wrapper, mentre la seconda prevede la traduzione della richiesta ottenuta dal mediatore (in formato OQL, Object

Figura 2.1: Schemi di due documenti XML in archivio

Query Language, compatibile con gli schemi ODL_I3) in un formato che perme-tta la risoluzione della query sulla specifica sorgente (ad esempio, se un wrapper è collegato ad un database relazionale e riceve una query in OQL dal mediatore, dovrà tradurre ed eseguire la query in SQL). Ulteriore compito di un wrapper è quello di raccogliere i dati ricevuti in risposta ad una query (posta su una sorgente locale) e presentarli nel modello di dati comune al mediatore.

2. Mediatore: si tratta indubbiamente del modulo fondamentale dell’intero sis-tema di integrazione. Il mediatore è composto da due moduli distinti: il Global Schema Builder (GSB) ed il Query Manager (QM). Il Global Schema Builder è responsabile per l’integrazione degli schemi locali presentati dai wrappers. Il prodotto del GSB è uno schema globale integrato sempre in formato ODL_I3. Il secondo modulo componente il mediatore è il Query Manager che ha il compito di gestire le interrogazioni poste dall’utente: ogni singola query sullo schema globale deve essere espressa (o tradotta) in OQL e divisa nelle query da inviare ai diversi wrappers. Servendosi delle tecniche di Logica Descrittiva, il QM

genera automaticamente le query da inviare alle singole sorgenti locali.

3. ODB-Tools Engine: sviluppato al dipartimento di Scienze dell’Ingegneria del-l’Università di Modena[15]. ODB-Tools è un software che permette la vali-dazione di schemi e l’ottimizzazione di interrogazioni. ODB-Tools è dotato di un nucleo che interpreta e supporta la logica descrittiva OLCD ed è in grado, oltre che di controllare la coerenza delle descrizioni OLCD, anche di effettuare il calcolo della sussunzione e dell’espansione semantica di un tipo[14]. Un utente può inserire in ingresso schemi in formato ODL_I3 o query in formato OQL ed ottiene come risultato la validazione dello schema (verifica dell’assenza di classi incoerenti e riclassificazione di gerarchie di specializzazione implicite nello schema) o l’ottimizzazione semantica della query .

4. ARTEMIS-Tool Environment: il modulo ARTEMIS[7] compie analisi sugli sche-mi ODL_I3per verificare il grado di affinità delle classi contenute al loro interno. 5. WordNet: si tratta di un database lessicale, in lingua inglese, che è anche in grado di individuare relazioni fra termini. WordNet viene sfruttato nel processo di creazione del thesaurus di relazioni e sarà trattato in maniera più approfondita nel prossimo capitolo.

Fra i cinque moduli presentati in precedenza il ’corpo’ centrale `e costituito dal mediatore che prende le informazioni iniziali dalla sezione wrapper e sfrutta la col-laborazione di ODB-Tool, ARTEMIS e WordNet durante il processo di integrazione delle fonti spiegato nel prossimo paragrafo.

2.5.2 Il processo di integrazione delle fonti

La prima operazione da compiere come atto preliminare la processo di integrazione delle fonti di informazione eterogenee, è l’acqusizione delle sorgenti. Durante questa fase l’utente può, tramite l’interazione con SIDesigner, ed in particolare col modulo SAM (Source Acquisition Module), indicare quali sorgenti desidera integrare. Per og-ni sorgente locale cos`ı selezionata, un wrapper ne forog-nisce la traduzione dello schema nel modello ODL_I3. A questo punto inizia il vero è proprio processo di integrazione, suddiviso nei seguenti punti fondamentali:

1. Creazione di un Common Thesaurus: Il common thesaurus `e un insieme di relazioni terminologiche intensionali ed estensionali. Le relazioni

intra che inter-schema (all’interno dello stesso schema o fra schemi differen-ti) tra attributi o classi ODL_I3. Vi sono quattro differenti tipologie di relazioni intensionali:

• SYN (Synonym-of): definita fra due termini considerati sinonimo in ogni

singola fonte

• BT (Broader Term): definita fra due termini in cui il primo `e ritenuto

possedere un significato pi`u generico del secondo

• NT (Narrow Term): relazione che rappresenta l’opposto rispetto ad una

relazione di tipo BT; il primo termine risulta avere un significato pi`u speci-fico rispetto al primo

• RT (Related Term): relazione fra due termini usati di solito insieme nello

stesso contesto

Le relazioni estensionali, invece, pur avendo le quattro medesime tipologie di quelle intensionali, sono riferite fra due classi C1 e C2 e ne rappresentano un rafforzamento. Consideriamo, ad esempio, una relazione di tipo SYN fra due classi, essa afferma che tutte le istanze della prima classe sono anche istanze della seconda, e viceversa. Una relazione estensionale di tipo BT, invece, affer-ma che tutte le istanze della seconda classe sono anche istanze della priaffer-ma, affer-ma non `e vero il contrario. Le relazioni intensionali di tipo intra-schema vengono ricavate dal modulo SIM di SIDesigner (per mezzo dell’ausilio di ODB-Tools) ed ampliate tramite le relazioni inter-schema trovate dal modulo SLIM (coa-diuvato dal programma esterno wordNet, database lessicale in grado anche di fornire relazioni fra le parole).

2. Analisi dell’affinità fra le classi: in questa seconda fase le relazioni del common thesaurus sono utilizzate per calcolare un grado di affinità fra le classi. Anche in questo caso le classi possono appartenere allo stesso schema o a schemi differ-enti. Il concetto di affinità è stato introdotto in modo da formalizzare il tipo di relazione che esiste fra due classi, dal punto di vista dell’integrazione. Il grado di affinità tra classi viene stabilito per mezzo di coefficienti basati sulla simi-larità fra i nomi delle classi, sulle similitudini fra le strutture delle due classi ( come ad esempio la presenza di attributi uguali) ed, ovviamente, sulle relazioni presenti nel common thesaurus.

3. Clustering delle classi: in base al grado di reciproca affinità ritrovato al pun-to precedente, le classi vengono raggruppate in clusters usando tecniche di clusterizzazione gerarchica (questa fase del processo è coadiuvata dal software ARTEMIS). Lo scopo di questo procedimento è individuare le classi che pos-sono essere integrate perch ritenute concernenti il medesimo concetto.

4. Generazione dello schema globale: Partendo dai risultati ottenuti durante la fase di clustering, viene ora generata, per ogni cluster, una classe globale. Ogni classe globale rappresenta una vista mediata di tutte le classi comprendenti il cluster originario e possiede un insieme di attributi globali ottenuti tramite la fusione degli attributi simili appartenenti alle classi locali. Per ogni classe glob-ale, inoltre, è mantenuta una mapping-table il cui scopo è quello di permettere il mapping fra gli attributi globali della classe e gli attributi appartenenti alle classi locali. Lo schema globale, rappresentante il risultato finale del processo di mediazione, è formato dall’unione di tutte le classi globali cos`ı ottenute.

Nel documento RiscritturadiinterrogazioniXML:unapprocciobasatosull’analisisemanticadeglischemi M ODENAE R EGGIO E MILIA U NIVERSIT ADEGLISTUDIDI ` (pagine 50-55)