• Non ci sono risultati.

Reti semantiche (Semantic Networks)

in quanto il principio è il medesimo adottano nel sistema di espansione delle query su base concettuale).

4.2

Reti semantiche (Semantic Networks)

Le reti semantiche sono basate sull’idea che la conoscenza possa essere Concetti base

rappresentata attraverso concetti correlati per mezzo di varie relazioni. Un network semantico, dunque, a differenza di un thesaurus, pone l’accento sulla creazione di una struttura indipendente dall’espressione e che possa modelliz- zare i rapporti a livello di contenuto: una rete semantica è quindi composta da un insieme di nodi e archi. Gli archi sono etichettati in base al tipo di relazioni che rappresentano; i dati di fatto relativi ad un determinato nodo, come le sue caratteristiche (colore, dimensione ecc.), sono spesso inseriti in una struttura di dati chiamata cornice (ingl. frame). Ciascuna voce di un frame è chiamata zoccolo (ingl. slot )6. Il frame di una rosa può essere così

schematizzato: (rosa (ha-colore rosso) (altezza 60 cm) (è-un fiore) )

In questo caso il frame rosa è un singolo nodo di una rete semantica che mostra una relazione IS-A (è-un) con il nodo fiore. Gli slot ha-colore e altezza contengono proprietà individuali della rosa7.

Fino ad ora sono stati sviluppati numerosi sistemi per la comprensione Caratteristiche e limiti

del linguaggio naturale e per la costruzione automatica di network semantici per la rappresentazione della conoscenza presente in un testo8. I problemi

più frequenti sono legati alla rappresentazione dei argomenti riguardanti lo

6cfr.Minsky (1975)

7In questo contesto è d’obbligo il richiamo alla teoria dei database relazionali che uti-

lizzano una modellizzazione molto simile per descrivere i dati trattati. Le reti seman- tiche specializzano il modello relazionale orientandolo alla rappresentazione dei sistemi linguistici

spazio o il tempo: per esempio risulta difficile immagazzinare le informazioni presenti in una frase come “lunedì scorso la rosa è cresciuta di trenta cen- timetri ed è diventata più alta di tutto nel giardino”. Le informazioni che riguardano una caratteristica presente in tempi diversi o la posizione relativa di un oggetto sono difficilmente registrabili in una rete semantica9.

Nonostante i problemi di rappresentazione sino ad ora discussi, le reti

Reti semantiche

e IR semantiche aprono la possibilità di un concreto utilizzo nell’ambito dei sistemi

di IR. In particolare, l’impiego di questi strumenti può risultare utile per affrontare i problemi di richiamo dei risultati di una query introducendo un livello di astrazione che permetta di superare i limiti delle delle comparazioni operate su stringhe di caratteri: anziché operare un confronto tra i caratteri dei termini di una querye quelli presenti in un documento, viene misurata la distanza semantica tra i termini. L’idea portante è che i termini che condividono lo stesso significato appaiano relativamente vicini all’interno di una rete semantica.

Senza dubbio esiste una stretta relazione tra i thesauri e le reti semantiche: dal punto di vista di un sistema di IR, un thesaurus può essere usato per espandere una query utente con i termini correlati; una rete semantica ingloba un thesaurus in quanto può rappresentare le relazioni di sinonimia, ma si presenta come un insieme in grado di rappresentare una maggiore complessità di relazioni tra gli elementi collegati.

Uno degli esempi più completi di rete semantica10è costituito da WordNet11, WordNet

un sistema disponibile pubblicamente che contiene frame specificamente orien- tati alla rappresentazione delle parole: a partire dal riconoscimento della na- tura del tutto accidentale dell’ordinamento dei dizionari attraverso spelling, nel modello di WordNet le parole sono organizzate per blocchi di significato, denominati synset, che raccolgono tutti i lemmi che lessicalizzano lo stesso concetto; i synset sono collegati tra loro per mezzo di relazioni che includono, assieme alla sinonimia, anche l’iponimia, la meronimia e l’antinomia. L’ipo-

Relazioni descritte

iperonimia mette in relazione significati subordinati e superordinati fornendo

9A tale problema, in Lenat e Guha (1989) è dedicata la sezione “Representational

Thorns”, dove viene descritto Cyc, un vasto progetto di rapprentazione della conoscenza

10Più avanti si sottolineeranno le analogie con le ontologie fondazionali

4.2 Reti semantiche (Semantic Networks) 59

così una struttura gerarchica di concetti. La relazione meronimica induce una gerarchia delle parti sull’insieme dei significati. In questo modo il livello les- sicale è chiaramente separato da quello concettuale e questa distinzione è rappresentata dal medium semantico-concettuale e dalla relazione semantica che uniscono rispettivamente synset e parole. Le relazioni presenti tra i verbi permettono di mettere in luce relazioni di implicazione (ingl. entailment ) e di troponimia. Due verbi sono correlati dall’implicazione nel momento in cui il primo verbo implichi il secondo: per esempio la coppia comprare-pagare. La troponimia è la relazione presente nel momento in cui due attività col- legate da implicazione avvengono allo stesso tempo: un esempio è la coppia zoppicare-camminare. Il lavoro di Voorhees (1993a) ha mostrato come nel caso dell’espansione delle query attraverso l’utilizzo di WordNet l’ostacolo maggiore sia legato alla specificità delle possibili ricerche, inoltre l’aggiun- ta di termini aventi un numero elevato di significati può degradare in modo significativo l’efficacia. In Liu et al. (2004) è possibile trovare una recente ap- plicazione che ha mostrato attraverso l’utilizzo di WordNet un miglioramento dell’efficacia del 5%.

4.2.1

Formalismi per operazioni sulle reti semantiche

Per il calcolo della distanza semantica tra i singoli nodi di una rete viene Distanza fra nodi

usato un algoritmo di spreading activation: un puntatore parte da ciascuno dei nodi iniziali e vengono seguiti i collegamenti finché non si incontra un punto di intersezione; il percorso più breve tra i due nodi viene usato per calcolare la distanza. L’algoritmo semplice del percorso più breve non si applica in questo caso perché potrebbero esserci numerosi collegamenti tra gli stessi due nodi. La distanza tra il nodo a e il nodo b è quindi costituita dal numero minimo di segmenti che separa a e b.

Il calcolo della distanza fra set di nodi si presenta come un problema più Distanza fra set di nodi

complesso. Prendiamo ad esempio le due coppie, formate da un aggettivo e da un sostantivo, “rosa alta” e “fiore grande” in questa situazione alto può essere comparato con grande e rosa con fiore. La difficoltà sta nell’allineare i

concetti in modo tale che i concetti correlati siano comparati. Una possibile R-distance

4.2.2

Sviluppare query basate su concetti

Anziché computare la distanza tra i termini di una query e quelli presenti

Distanza fra nodi

in un documento attraverso la rete semantica e, successivamente, incorporare la distanza nel sistema di misurazione della rilevanza, una rete semantica può essere utilizzata come un thesaurus, con la semplice sostituzione delle parole nella query con quei termini che risultano correlati nella rete semantica. Per rappresentare la query, quindi, al posto di vettori basati sulle parole possono essere generati dei vettori di “concetti”. Un algoritmo improntato a questo tipo di approccio è stato descritto da Giger (1988) per migliorare i risultati di un preesistente sistema ricerca booleano. Le parole nel sistema di ricerca originale venivano sostituite dai concetti: questi concetti vengono individuati all’interno di una rete semantica che contiene collegamenti alle parole. A testimoniare la confusione tra i termini thesaurus e rete semantica, Giger nell’articolo si riferisce al sistema con il termine thesaurus, ma le tipologie di relazioni gerarchiche presenti nel modello descritto fanno riportare gli esempi all’ambito delle reti semantiche.

In Chen e Lynch (1992) e Chen et al. (1993) viene presentato un altro

Metodi di confronto

tipo di approccio che risulta di particolare interesse in quanto basato su una rete generata automaticamente attraverso due algoritmi di raggruppamento (clustering): il primo è il consueto algoritmo basato sul calcolo del coseno, mentre il secondo è stato sviluppato dagli autori e si serve di legami asim- metrici tra i nodi della rete semantica. Gli utenti sono in grado di scorrere manualmente la rete per ottenere le parole adatte alla query e, allo stesso tempo, la rete semantica viene usata per trovare termini adatti per indicizzare manualmente nuovi documenti.