• Non ci sono risultati.

Cosa significa esattamente estendere WordNet?

Tramite l’espressione -estendere WordNet- ci riferiamo alla possibilit`a di poter aggiungere nuovi termini, nuovi concetti e nuove relazioni a quelli contenuti nelle originali versioni di WordNet. L’interfaccia MOMIS-WordNet progettata ed imple-mentata da Giovanni Malvezzi[30] (si tratta del modulo SLIM) reperisce le infor-mazioni necessarie alla costruzione del common thesaurus direttamente dai files pro-pri di WordNet. Ovviamente WordNet non `e in grado di fornire la conoscenza richi-esta in qualsiasi ambito (basti pensare al desiderio di annotare schemi trattanti campi specialistici come la medicina o l’elettronica) e si potrebbero cos`ı verificare perdite di informazioni anche molto importanti. Supponiamo, infatti, di voler annotare un elemento (classe o attributo) il cui nome non `e presente all’interno dei files originali di WordNet; si hanno, in questo caso, due possibilit`a per poter assegnare all’elemento un significato:

• Scegliere una forma base presente all’interno di WordNet ma differente dal

nome originale (se i due termini non sono esattamente sinonimi si verifica una perdita parziale di conoscenza)

• Decidere di non annotare l’elemento (si verifica una perdita totale di conoscenza

per quanto riguarda l’oggetto considerato)

Proprio per rendere estensibile WordNet ed evitare perdite di conoscenza durante la fase di annotazione degli oggetti presenti nei vari schemi, `e stato implementato

da Veronica Guidetti[24] il modulo WordNetEditor. WordNetEditor (o pi`u semplice-mente WNEditor) `e un browser capace di navigare all’interno di WordNet e di modi-ficarne la struttura creando nuovi lemmi, nuovi synsets e nuove relazioni. WNEditor, comunque, non modifica direttamente i files di WordNet, ma utilizza un database re-lazionale chiamato MOMISWN (attualmente `e implementato tramite MySql) ottenuto a partire dai medesimi files. In pratica, considerando che SLIM crea il theraurus di relazioni a partire dai files originali di WordNet, e non dal database MOMISWN, WNEditor e SLIM sono due moduli non integrati.

Parte del lavoro svolto in questa tesi `e stato modificare il modulo SLIM, gli algorit-mi utilizzati al suo interno, ed alcune parti di WNEditor al fine di integrare pienamente i due moduli, permettendo cos`ı ad un eventuale utente di estendere la conoscenza contenuta in WordNet direttamente durante la fase di annotazione.

Modifiche al modulo SLIM

7.1 Introduzione

Il primo passo che porta il sistema MOMIS alla realizzazione di uno schema comune partendo da un insieme di sorgenti eterogenee, `e la creazione di un dizionario di re-lazioni (common thesaurus) ricavato dall’analisi di tali fonti. La parte del sistema MOMIS che attua questo processo `e il Global Schema Builder (GSB). Il GSB, a sua volta, `e composto da due moduli in grado di collaborare al fine della creazione del thesaurus:

• SIM(Source Integrator Module): il modulo SIM `e in grado di estrarre relazioni

intensionali intra-schema (ottenute, quindi, fra operandi appartenenti allo stesso schema), analizzando la struttura delle classi ODLI3 componeneti lo schema. Questo modulo sfrutta l’interazione con il componenete esterno ODB-Tools in grado di validare le relazioni ottenute e di inferirne di nuove.

• SLIM(Schemata Lessical Integrator Module): modulo in grado di estrarre

re-lazioni intensionali inter-schema (quindi `e in grado di ricavare rere-lazioni fra componenti appartenenti a schemi differernti) tramite l’interazione con il database lessicale WordNet.

Attualmente, tramite il componente software SIDesigner `e offerta al progettista una interfaccia grafica per interagire con i moduli SLIM e SIM.

7.1.1 Come funziona attualmente SLIM?

Il modulo SLIM progettato da Giovanni Malvezzi[] svolge il compito di estrarre re-lazioni intensionali inter-schema dall’analisi delle viste espresse in ODLI3 delle varie sorgenti locali. Tali relazioni possono essere espresse fra due attributi, due interfacce oppure anche tra un attributo ed una interfaccia. Si ricorda che il common thesaurus prevede l’utilizzo di quattro tipi di relazioni:

• SYN: synonym-of • BT: broader-term • NT: narrow-term • RT: related-term

L’estrazione di queste relazioni prevede una fase preliminare (affidata al proget-tista), chiamata fase di annotazione, formata da due operazioni distinte:

• Scelta della forma base: per ogni nome di classe ed attributo in ogni sorgente

selezionata per l’integrazione, SLIM propone una forma base (word form). Tale forma base `e lo stesso nome dell’oggetto trattato eliminati i suffissi dovuti a declinazioni o coniugazioni. Il progettista `e, comunque, sempre libero si cam-biare a piacimento la forma base di qualsiasi oggetto per cancellare eventuali ambiguit`a o selezionare differenti significati.

• Scelta del significato: per ogni forma base SLIM propone al progettista una

serie di significati fra cui scegliere quello desiderato (o, in alcuni casi, quel-li desiderati). Tutti i significati proposti sono ottenuti dal database lessicale WordNet.

In pratica, tramite la fase di annotazione, si puo associare un significato (quindi un synset) ad ogni oggetto (classe o attributo) di ogni sorgente da integrare. Il common

thesaurus di relazioni inter-schema viene generato proprio a partire da questi synsets

(e, ovviamente, dalle relazioni che, all’interno di WordNet, li legano). Le relazioni di WordNet utilizzate al fine di raggiungere tale scopo sono:

• Sinonimia mappata in una relazione di tipo SYN • Ipernimia mappata in una relazione di tipo BT

• Iponimia mappata in una relazione di tipo NT • Meronimia mappata in una relazione di tipo RT • Olonimia mappata in una relazione di tipo RT • Correlazione mappata in una relazione di tipo RT

Si supponga, ad esempio, di avere in una sorgente A una classe di nome student (studente) ; si supponga anche che esista, in una sorgente B, una classe chiamata

law student (studente in legge). Durante la scelta della forma base i nomi delle due

classi non vengono variati ed i significati scelti nel passo successivo sono:

per student: pupil,student,educatee — ’a learner who is enrolled in a educational institution’

e per law student: {law student} — ’a student in a law school’

(il formato in cui vengono espressi i synsets contiene fra parentesi graffe i lemmi collegati al synset, seguiti, dopo il simbolo —, dalla Gloss)

All’interno del database lessicale di WordNet fra questi due synset `e definita una relazione di iponimia ( law student `e un iponimo di student); seguendo il mapping utilizzato fra relazioni semantiche e relazioni prodotte da SLIM otteniamo:

B.law student NT A.student