Ontologie Xml - RiscritturadiinterrogazioniXML:unapprocciobasatosull’analisisemanticadeglischem

In questo paragrafo si introduce il metodo sviluppato in questa tesi per la risoluzione di query poste su un archivio di documenti XML. Un simile archivio pu`o essere rappresentato dal repository di una biblioteca digitale.

Un aspetto fondamentale nella realizzazione di una biblioteca digitale è la modalità di organizzazione dell’enorme quantità di informazione relativa al suo contenuto. Im-portantissimo, a questo proposito, è l’impiego di schemi (per documenti XML si pro-pone di usare Xml-Schema) che descrivono il contenuto dell’archivio. Per rappre-sentare in maniera caratterizzante la conoscenza offerta dai metadati presenti negli schemi, è possibile impiegare ontologie e tecniche di ragionamento basate su di esse. Una ontologia può essere vista come un insieme di termini (vocaboli) in grado di definire in modo univoco un determinato concetto (per una definizione più comple-ta di ontologia ed una classificazione dei vari livelli di ontologie si veda il capitolo trattante WordNet). Tramite l’utilizzo di ontologie, dunque, è possibile associare un concetto ad ogni elemento espresso dallo schema (o vista) rappresentante un insieme di documenti in un archivio. Risulta quindi evidente come l’impiego di ontologie, e di tecniche di ragionamento basate su di esse, possa fornire uno strumento efficace per un accesso selettivo ed efficiente alla enorme quantità di informazioni che

pos-sono essere immagazzinate all’interno di una biblioteca digitale. Inoltre, utilizzando ontologie assieme ai metadati ed agli schemi degli oggetti contenuti in archivio `e pos-sibile, esprimendo i concetti collegati alle viste, risolvere il problema della riscrittura delle query su schemi differenti (problema descritto nel paragrafo precedente).

Il punto di partenza del progetto ECD su questo tema di ricerca è rappresentato dal sistema MOMIS. MOMIS[] (Mediating system Environment for Multiple Infor-mation Sources) è un sistema progettato e realizzato presso l’Università di Modena e Reggio Emilia nell’ambito del progetto MURST INTERDATA 97/98. MOMIS è un mediatore che permette la costruzione di una vista (schema) globale ed integrata su un insieme di sorgenti di informazione eterogenee e distribuite. La vista globale virtuale (GVV) è ottenuta a partire dalla rappresentazione, tramite l’impiego di on-tologie, dei metadati, che descrivono lo schema di ogni fonte locale. Ogni schema può essere, tramite l’impiego di un interfaccia grafica, annotato, cioè, ad ogni oggetto rappresentato in uno schema può essere associato un significato. Questo procedimen-to viene eseguiprocedimen-to da MOMIS tramite l’impiego di WordNet, un database lessicale che rappresenta la più importante risorsa lessicale utilizzabile sia nel campo della linguis-tica computazionale che in quello dell’analisi testuale. WordNet è stato sviluppato dal Cognitive Science Laboratory della Università di Princeton dal professor George A. Miller. Tramite l’interazione con questo sistema, MOMIS è in grado di scoprire relazioni fra gli oggetti, basandosi sui concetti che esprimono, descritti nei vari meta-dati rappresentanti gli schemi delle sorgenti locali. Tali relazioni, trovate oltre che per mezzo di WordNet anche tramite l’impiego di tecniche basate sulle logiche descrit-tive, vengono raccolte in un thesaurus (dizionario) per mezzo del quale è possibile pro-durre la GVV. Il thesaurus di relazioni potrà essere impiegato con successo, come sarà mostrato in questa tesi, anche per la riscrittura di query su più schemi rappresentanti concetti compatibili fra loro.

Tramite l’impiego di MOMIS, unitamente a biblioteche digitali aventi una strut-tura aperta, come ad esempio OPEN-DLIB descritta in precedenza, sarà possibile ge-stire le interrogazioni poste dagli utenti su di un archivio di documenti digitali. In prat-ica, ciò che si vuole ottenere è una Ontologia di Biblioteca Digitale XML, che rap-presenta l’insieme delle relazioni semantiche fra i concetti degli schemi XML. L’on-tologia costituirà la strumento principale per mezzo del quale interrogare documenti XML con schemi differenti.

su cui si basa la riscrittura delle query per differenti documenti di un archivio XML: come prima cosa gli schemi dei documenti devono essere tradotti (tramite appositi wrapper), in schemi ODL_I3 (un linguaggio che verr`a descritto nel proseguo della tesi), che possono essere usati da MOMIS ed annotati tramite l’impiego di WordNet. Il prodotto dei questa prima fase (Figura 1.4) `e un insieme, o thesaurus, di relazioni semantiche che costituiscono l’ontologia di biblioteca digitale.

Figura 1.4: Estrazione di relazioni semantiche da schemi XML

Tramite il thesaurus di relazioni sar`a possibile confrontare semanticamente i path degli schemi dell’archivio ed anche i path delle query con essi. Una volta individuati i path degli schemi maggiormente simili a quelli della query, essi potranno essere impiegati per la riscrittura della richiesta su ogni singolo schema di interesse(e quindi anche sull’insieme di documenti XML che rappresenta)(Figura 1.5).

In Figura 1.6 `e rappresentata graficamente la parte del progetto ECD concernente l’impiego di MOMIS e al sua relazione con OPEN-DLIB.

Il sistema MOMIS

2.1 Introduzione all’integrazione delle informazioni

Al giorno d’oggi un problema cui devono far fronte numerose imprese ed organiz-zazioni è quello della dispersione del loro patrimonio informativo. Si pensi ai nu-merosissimi metodi di immagazzinamento di informazioni presenti sul mercato o uti-lizzabili gratuitamente: DBMS, pagine HTML, pagine XML, sistemi di Information Retrieval, File Systems e cos`ı via. Nel caso in cui un utente voglia reperire infor-mazioni da sorgenti diverse, fatto che accade sempre più frequentemente oggigiorno, si trova di fronte a problemi di non facile soluzione: le sorgenti di conoscenza, infatti, sfrutteranno tecnologie differenti, difficilmente uniformabili, senza contare le possi-bili contraddizioni ed inconsistenze fra i dati ottenuti da diverse fonti. Un grande aiuto , per quanto concerne il problema dello sfruttamento di tecnologie differenti, viene dato dagli standard oggi esistenti (come l’ODBC, CORBA ed il TCP/IP) che risolvono il problema delle comunicazioni fra moduli diversi. Ciò che rimane irrisolta è la questione della modellazione delle informazioni: i modelli dei dati (e gli schemi in cui vengono sfruttati) possono differenziarsi gli uni dagli altri a tal punto da fornire, ognuno, una propria struttura logica di rappresentazione dei dati da immagazzinare. Tutto ciò crea una eterogeneità semantica non risolvibile dagli attuali standard. Altri problemi, di tipologia differente ma sempre concernenti lo stesso campo, sono l’in-formation overload (sovraccarico di informazioni) dovuto all’utilizzo di un numero sempre maggiore di fonti, l’incremento del tempo di accesso e gli elevati costi di man-tenimento per eliminare o aggiungere una nuova sorgente. Dalle problematiche sopra elencate si evincono le difficoltà che sorgono nel creare un sistema di integrazione e mediazione di informazioni eterogenee che sia affidabile, flessibile, modulare (in

modo da permettere il riuso di diverse parti all’evolvere delle tecnologie) e capace di interagire altri sistemi esistenti. Vi sono numerosi approcci all’integrazione de-scritti in letteratura o realizzati nella realtà come la reingegnerizzazione delle sorgenti mediante la standardizzazione degli schemi o l’utilizza di datawarehouse (sistemi in grado di fornire all’utente finale viste consistenti di porzioni di dati eterogenei, tali tecnologie sfruttano la replicazione fisica dei dati e pesanti algoritmi di riallineamen-to nel caso di modifiche nelle informazioni originali). Nel seguiriallineamen-to verrà descritta una proposta dell’ARPA (Advanced Reserch Project Agency) per una architettura di inte-grazione di informazioni flessibile e riusabile. L’approccio descritto dall’ARPA[25] è stato seguito anche nel progetto MOMIS, ambito di lavoro per questa tesi.

Nel documento RiscritturadiinterrogazioniXML:unapprocciobasatosull’analisisemanticadeglischemi M ODENAE R EGGIO E MILIA U NIVERSIT ADEGLISTUDIDI ` (pagine 35-41)