• Non ci sono risultati.

Sistemi per il recupero delle informazioni

N/A
N/A
Protected

Academic year: 2021

Condividi "Sistemi per il recupero delle informazioni"

Copied!
145
0
0

Testo completo

(1)

Sistemi per il recupero delle informazioni

SISTEMI PER IL RECUPERO

DELL’INFORMAZIONE

(2)

Information Retrieval

L’Information Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell’informazione, al fine di rendere agevole all’utente il soddisfacimento dei propri bisogni informativi.

le informazioni devono essere rappresentate ed organizzate in modo da fornire all'utente un facile accesso all'informazione cui è interessato.

le richieste di informazione dell'utente vengono tradotte in queries che vengono elaborate da un motore di ricerca o sistema di IR. Nella forma più comune le queries sono espresse come insiemi di parole chiave (keywords o termini indice) che riassumono l'informazione desiderata.

Data una collezione di documenti e un bisogno informativo dell’utente, obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti.

rispetto alla teoria classica delle basi di dati, l’enfasi non è sulla ricerca di dati ma sulla ricerca di informazioni.

(3)

Rilevanza

Per essere efficace nel suo intento di soddisfare il bisogno di informazione dell'utente, un sistema di IR deve in qualche modo interpretare il contenuto dei documenti ed ordinarli a seconda del grado di rilevanza rispetto a ciascuna query.

Per ottenere l'interpretazione del contenuto del documento è necessario estrarre l'informazione sintattica e semantica dal testo. La difficoltà non sta solo nella scelta del modo in cui estrarre tali informazioni, ma anche in come utilizzarle per stabilirne la rilevanza.

Pertanto la nozione di rilevanza è fondamentale per l'IR.

Lo scopo principale di un sistema di IR è di recuperare tutti i documenti rilevanti per la query dell'utente cercando di recuperare il minor numero possibile di documenti non rilevanti.

(4)

IRS: descrizione funzionale

(5)

I vari passi

(6)

IL PROBLEMA INFORMATIVO

Il problema informativo corrisponde ad un particolare bisogno di informazione dell’utente. Tramite un processo di rappresentazione, il problema informativo viene tradotto in una richiesta espressa nel linguaggio di interrogazione dell’IRS.

Analogamente, dai documenti, tramite un altro processo di rappresentazione, spesso chiamato di classificazione o indicizzazione, si passa al surrogato dei documenti, cioè alla loro rappresentazione nell’IRS.

Sia nella classificazione di un documento da parte di un esperto che nella formulazione della richiesta da parte di un utente può essere usato un vocabolario controllato organizzato in un thesaurus.

(7)

IL PROBLEMA INFORMATIVO

I metodi di rappresentazione dei documenti si possono separare in due categorie: quelli che danno una rappresentazione diretta del contenuto dei documenti e quelli che ne danno una rappresentazione indiretta. Nel primo caso il documento è rappresentato dalle parole in esso contenute mentre nel secondo il documento è rappresentato da termini di indicizzazione derivati manualmente o automaticamente e che ne descrivono in modo sintetico e completo il contenuto

Rappresentazione dei documenti in forma sintetica:

indicizzazione: l’idea è quella di associare a ciascun documento un insieme di termini significativi che saranno utilizzati per selezionare il documento.

(8)

IL PROBLEMA INFORMATIVO

Possiamo pensare ad un IRS come ad un sistema in cui da un lato entrano documenti che vengono sottoposti ad un processo di indicizzazione, per ottenerne una rappresentazione sintetica, dall’altro entrano le richieste dell’utente che devono essere codificate in modo analogo, cioè come un insieme di termini.

In fase di recupero:

formalizzazione delle richieste

confronto tra richieste e rappresentazione di documenti

(9)

IL PROBLEMA INFORMATIVO

Si definisce tecnica di recupero (retrieval technique) di un IRS la tecnica adottata dal sistema per confrontare l’interrogazione utente con il surrogato dei documenti.

La tecnica di recupero adottata da un IRS, è il meccanismo interno del sistema che lo guida nel giudicare come rilevanti o non rilevanti i documenti di una raccolta, in rapporto ad una specifica interrogazione.

Le tecniche di recupero sono di due tipi:

per corrispondenza esatta (exact match)

per similitudine o corrispondenza parziale (partial match)

Risultato

Binario (si/no) – il risultato soddisfa o non soddisfa la richiesta (corrispondenza esatta)

Probabilistico – il risultato soddisfa la richiesta in una qualche misura (corrispondenza parziale)

(10)

Polisemia

Il fatto che l'informazione all'interno dei documenti e le queries siano rappresentate da espressioni del linguaggio umano costituisce un'ulteriore complicazione del task dell‘ Information Retrieval.

Un primo problema è quello della polisemia: a differenza dei linguaggi formali, dove alle parole del linguaggio corrisponde un unico significato, nel caso dei linguaggi naturali le parole possono avere più di un significato (in questo caso si dice che la parola è polisemica), col risultato che l'ambiguità di una singola parola può venire propagata al resto della frase.

per esempio l'aggettivo vecchio può avere sia il significato di vecchio utilizzato per descrivere qualcosa come appartenente ad un periodo od un'epoca precedente, sia quello di vecchio nel senso di usato, logoro;

mentre pellicola può essere sia un film che il supporto su cui vengono registrate le immagini in una macchina fotografica. Quindi dicendo una vecchia pellicola ci si può riferire sia ad un film d'annata, sia ad un rullino rovinato.

(11)

Sinonimia

La sinonimia, ovvero l'esistenza di parole con significato equivalente od identico (ad esempio convegno e riunione), ha per certi versi un effetto contrario: infatti in questo caso, in risposta ad una query che contenga una parola con sinonimi, la probabilità che l'insieme dei documenti ritornati sia incompleto rispetto all'insieme dei documenti rilevanti per la query è sicuramente superiore al caso in cui la query non contenga parole con sinonimi.

(12)

Polisemia e Sinonimia

Il problema della sinonimia può essere risolto facendo ricorso a risorse lessicali come i thesauri, i quali, data una certa parola, permettono di trovarne i sinonimi.

Invece la risoluzione della polisemia avviene attraverso il processo di disambiguazione semantica (in inglese Word Sense Disambiguation WSD).

La realizzazione di un algoritmo efficiente per la disambiguazione semantica è tuttora un problema aperto nel campo dell'elaborazione del linguaggio naturale.

(13)

Descriviamo ora il processo di indicizzazione

(14)

Processo di indicizzazione

Manuale: è una persona che sceglie quali termini meglio caratterizzano il contenuto di un documento

Più “semantico” e quindi migliore

Soggettivo, costoso

Linguaggio controllato

Automatico: fatto da un programma

Più sintattico, su base statistica e quindi “peggiore”

Economico, scalabile

Linguaggio libero

(15)

Indicizzazione: controllata versus non controllata

Controllata:

controllabilità del dizionario, quindi possibilità di decidere a priori quali descrittori utilizzare per indicizzare una collezione di documenti; l’insieme di descrittori che forma il dizionario è prefissato

ma, interrogazioni e documenti sono indicizzati con descrittori che devono appartenere al dizionario

indicizzazione manuale di solito controllata per ridurre l’incoerenza tra gli indicizzatori

precisa, ma può essere incompleta e le interrogazioni potrebbero non essere soddisfatte

(16)

Indicizzazione: controllata versus non controllata

Incontrollata o non controllata:

forma il dizionario man mano che i documenti sono elaborati

il dizionario è costituito da tutti i descrittori che appaiono almeno una volta in almeno un documento

può essere imprecisa, ma le interrogazioni sono soddisfatte con maggiore successo

(17)

Qualità dell’indicizzazione

Finalità: rappresentare il contenuto semantico di un documento con due obbiettivi:

Esaustività: assegnare un grande numero di termini indice

Specificità: il grado di specificità del linguaggio utilizzato

termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti

termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi è rilevante

Modalità:

estrazione diretta dal documento intero (full text) o mediante l’utilizzo di fonti esterne (es: dizionari controllati)

tecniche associative (tesauri, pseudo-tesauri, clustering)

(18)

Esaustività

E’ la capacità dell’indice di rappresentare il contenuto informativo della collezione

L’esaustività dipende dal numero di descrittori assegnati a ciascun documento e dal numero di documenti a cui è stato assegnato un descrittore

Se si rappresentasse un indice con una matrice in cui le righe sono i documenti, le colonne sono i descrittori e un elemento è la frequenza del descrittore nel documento, un’indicizzazione ad elevata esaustività sarebbe rappresentata da una matrice densa, ovvero un indice in cui un descrittore è assegnato a molti documenti e un documento è descritto da molti descrittori

(19)

Specificità

Capacità dell’indice di discriminare i documenti tra loro sulla base del contenuto informativo

Se l’indice è in grado di discriminare i documenti, allora la collezione viene indirettamente organizzata in sottocollezioni in cui i documenti condividono aspetti comuni del proprio contenuto informativo

Nell’indicizzazione ad elevata specificità, un descrittore è assegnato a pochi documenti e, se il descrittore è utilizzato nell’interrogazione, il numero di documenti reperiti è più basso del numero di documenti reperiti nel caso di un’indicizzazione esaustiva

(20)

Esaustività versus Specificità

In generale la decisione principale che deve essere presa da un indicizzatore, sia esso manuale che automatico, è relativa all’assegnazione di un descrittore ad un documento

Se la decisione è quella d’assegnare il descrittore, allora aumenta l’esaustività e diminuisce la specificità; ciò comporta un maggiore richiamo ed una minore precisione

Se si decide di non assegnare il descrittore, diminuisce l’esaustività e aumenta la specificità, avendo un minore richiamo ed una maggiore precisione

Ogni decisione comporta, quindi, un costo che si riflette sull’efficacia del reperimento; assegnare il descrittore al documento con un peso aiuta

(21)

Indicizzazione manuale

L’indicizzazione manuale può essere fatta usando parole estratte dal testo o termini controllati, o descrittori, estratti da un thesaurus preesistente.

In generale viene utilizzato un linguaggio controllato; questa scelta presenta diversi vantaggi:

semplificazione del processo di indicizzazione

indipendenza, o minor dipendenza, dal soggetto che effettua l’indicizzazione

semplificazione dell’ uso da parte degli utenti ( se conoscono il linguaggio di indicizzazione)

(22)

Indicizzazione manuale: pro e contro

Vantaggio: permette una rappresentazione indiretta del contenuto dei documenti con termini che evidenziano i concetti in essi trattati

Svantaggio: può portare a rappresentazioni non accurate né consistenti se non è fatta da persone con una buona conoscenza dell’argomento trattato nel documento.

Una rappresentazione è accurata quando viene fatta usando un numero adeguato di termini; contrariamente si pregiudica il richiamo del sistema.

Una rappresentazione è consistente se documenti che trattano lo stesso argomento vengono rappresentati, anche da persone diverse, con gli stessi termini; contrariamente si pregiudica la precisione del sistema.

In generale, comunque, con l’indicizzazione manuale è difficile garantire rappresentazioni accurate e consistenti.

(23)

Indicizzazione automatica

L’indicizzazione automatica (automatic indexing) di un documento testuale è il processo che esamina automaticamente gli oggetti informativi che compongono il documento e, utilizzando degli algoritmi appositi, produce una lista di termini indici (index terms).

Questa lista può essere utilizzata per una rappresentazione più compatta del contenuto informativo del documento di partenza. Tipicamente: indicizzazione full- text.

I termini indice sono utilizzati come surrogati per la rappresentazione del documento originale e quindi possono essere utilizzati al suo posto durante la fase di recupero

L’uso del thesaurus è previsto anche per l’indicizzazione automatica per sostituire termini estratti automaticamente con termini più specifici o più generali.

(24)

Schema del processo di indicizzazione

automatica di documenti testuali

(25)

Indicizzazione automatica

L’indicizzazione automatica si basa su tecniche statistiche, partendo dal presupposto che la frequenza di occorrenza delle parole in un testo in linguaggio naturale sia correlata con l’importanza di queste parole nel rappresentare il suo contenuto.

Se invece che un singolo documento si considera una raccolta di documenti, per stabilire quali parole chiave scegliere nell’indicizzazione, si tiene conto anche di come esse siano distribuite nella raccolta: se una parola appare con una frequenza alta in tutti i documenti, allora diminuisce la sua importanza.

Si pensi alla parola “calcolatore” in una raccolta di testi di informatica.

(26)

Considerazioni sulla frequenza dei termini

Termini funzionali

avverbi, articoli, preposizioni ecc.

es., "and", "or", "of", "but", …

la frequenza di questi termini è alta in tutti i documenti

le parole in assoluto più frequenti sono anche poco significative

le 250 parole più comuni coprono in media il 40- 50% di un testo

Quello che conta non è la frequenza assoluta ma la frequenza relativa

Termini indicatori del contenuto

parole che identificano i contenuti del documento

hanno frequenza variabile da un documento all’altro della collezione

la loro frequenza è indicativa dell’importanza nel rappresentare il contenuto del documento

(27)
(28)

Analisi lessicale e selezione della parole

E’ il processo di trasformazione di un flusso di caratteri di input (il testo originario del documento) in un flusso di parole (token) ovvero una sequenza di caratteri portatore di uno specifico significato

Nel testo le parole possono essere facilmente identificate grazie alla presenza di spazi, a capo, segni di interruzione, etc…

(29)
(30)
(31)

Esempio

Eliminazione delle parole comuni

Stralcio di una lista di esclusione per la lingua inglese:

A ALMOST AMONGST ANYWHERE

ABOUT ALONE AN ARE

ACROSS ALONG AND AROUND

AFTER ALREADY ANOTHER AS

AFTERWORDS ALSO ANY AT

AGAIN ALTHOUGH ANYHOW BE

AGAINST ALWAYS ANYONE BECAME

ALL AMONG ANYTHING BECAUSE

(32)
(33)

Esempio

Riduzione delle parole alla radice

Si utilizzano liste di suffissi:

Es. calcol[are]

calcol[atore]

calcol[atrice]

calcol[abilità]

calcol[o]

(34)
(35)
(36)
(37)
(38)
(39)
(40)
(41)
(42)
(43)
(44)
(45)
(46)
(47)
(48)
(49)

Termini pesati

L’efficacia dell’indicizzazione aumenta se ai termini che caratterizzano un documento si assegna un peso che rifletta l’importanza del termine per il documento.

Se n sono i termini usati per l’indicizzazione, il documento D della raccolta viene rappresentato dal vettore D = (T1, …, Tn), dove ogni Ti è il peso del termine nel documento.

Una raccolta di documenti si riduce cosi ad una matrice di termini con tante righe quanto sono i documenti e tante colonne quanti sono i termini usati per l’indicizzazione.

(50)

Termini pesati

Fra le funzioni proposte per il calcolo del peso di un termine la più usata tiene conto sia della sua rappresentatività considerando la frequenza di occorrenza in un documento sia della capacità del termine di discriminare un documento dagli altri

Se ad es il linguaggio di indicizzazione è:

{Arbusto, Architettura, botanica, coltivazione, colonna, pianta, Rinascimento, Roma, ....},

il vettore rappresenta un documento in cui ‘arbusto’ ha peso 0,

‘architettura’ ha peso 4, ‘botanica’ ha peso 0, ...

(51)

Termini pesati

I pesi w possono essere binari o valori reali o interi positivi: sono calcolati in fase di indicizzazione

(52)

Indicizzazione automatica: un algoritmo

(53)

Indicizzazione automatica: i problemi

Identificare le soglie di frequenza minima e massima

eliminare i termini molto frequenti abbassa il Richiamo

eliminare i termini poco frequenti abbassa la Precisione

Un buon termine indice:

deve rendere reperibile il documento (Richiamo)

deve essere in grado di distinguere il documento all’ interno dell’

intera collezione (Precisione)

non può essere un termine presente in tutti i documenti

è molto frequente in alcuni documenti (ipotesi del minimo sforzo)

non è molto frequente nell’ intera collezione di documenti

(54)

Osservazioni

Sono stati effettuati numerosi esperimenti per valutare le prestazioni dei sistemi che adottano l’indicizzazione automatica.

Esperimenti eseguiti su piccole collezioni (meno di 1.000 documenti) hanno mostrato che non sempre l’indicizzazione manuale porta a risultati migliori dell’indicizzazione automatica, totale o incompleta.

L’approccio manuale, anche se qualitativamente superiore, non è scalabile

In certi domini (es. Web) l’indicizzazione automatica è l’unica possibile

(55)
(56)
(57)

Sistemi per il recupero delle informazioni

RECUPERO

(58)

Processo di ricerca di informazioni

1. L’utente specifica un bisogno informativo...

2. che viene analizzato e trasformato utilizzando le stesse operazioni sul testo applicate alla collezione;

3. la query viene eventualmente trasformata …

4. per poi essere eseguita, utilizzando indici precedentemente costruiti, al fine di trovare documenti rilevanti;

5. i documenti trovati vengono ordinati in base alla probabilità che siano rilevanti e ritornati in tale ordine all’utente;

6. l’utente esamina i documenti ritornati ed eventualmente raffina la query, dando il via ad un nuovo ciclo.

(59)

TECNICA DI RECUPERO

All’interno dell’IRS, l’esecuzione di una richiesta utente di una ricerca di documenti avviene confrontando la rappresentazione del contenuto dei documenti (surrogato) con la rappresentazione della richiesta utente (interrogazione).

In questo processo di confronto, l’IRS adotta una particolare tecnica di recupero dei documenti, che serve per giudicare quali documenti sono rilevanti, e in che misura, rispetto all’interrogazione.

La presenza di documenti non rilevanti come risultato di una richiesta utente e, contemporaneamente, l’assenza di alcuni documenti rilevanti, è da imputare sia al processo di trasformazione dal problema informativo all’interrogazione, sia al processo di trasformazione dal contenuto dei documenti al loro surrogato.

DEFINIZIONE

Si definisce tecnica di recupero (retrieval technique) di un IRS la tecnica adottata dal sistema per confrontare l’interrogazione utente con il surrogato dei documenti.

(60)

TIPI DI TECNICHE DI RECUPERO

La tecnica di recupero adottata da un IRS è il meccanismo interno del sistema che lo guida nel giudicare come rilevanti o non rilevanti i documenti di una raccolta, in rapporto ad una specifica interrogazione.

Le tecniche di recupero sono di due tipi:

per corrispondenza esatta (exact match)

per similitudine o corrispondenza parziale (partial match)

(61)

TECNICHE DI RECUPERO ESATTE

Le tecniche di recupero per corrispondenza esatta sono quelle basate sull’assunzione che le informazioni specificate nella richiesta siano esattamente contenute nella componente testuale del documento.

Presenta tuttavia alcuni svantaggi:

molti documenti rilevanti sono ignorati, se il testo corrisponde solo parzialmente all’interrogazione;

i documenti ritrovati non sono ordinati per rilevanza rispetto all’interrogazione;

non è possibile tenere in considerazione l’importanza relativa di concetti sia nell’interrogazione che nei documenti;

la logica del linguaggio di interrogazione risulta spesso complicata;

 l’efficacia dipende dalla misura in cui le due rappresentazioni da confrontare siano basate o meno sullo stesso vocabolario

(62)

TECNICHE DI RECUPERO

RECUPERO PER CORRISPONDENZA ESATTA

La richiesta è formulata specificando una condizione sui termini che devono essere presenti nel surrogato del testo da recuperare.

Una condizione può essere:

semplice, cioè riguardare un solo termine

composta, cioè una composizione di condizioni semplici con gli operatori logici AND, OR, NOT.

Di solito lettere minuscole e maiuscole vengono trattate allo stesso modo.

Il modello booleano è il modello più semplice; si basa sulla teoria degli insiemi e l’algebra booleana.

Storicamente, è stato il primo ed il più utilizzato per decenni.

(63)

TECNICHE DI RECUPERO

RECUPERO PER CORRISPONDENZA ESATTA

Il recupero per corrispondenza esatta ha due svantaggi.

1. documenti attinenti all’argomento, ma privi di termini nella

relazione specificata, non sono recuperati e, viceversa, è possibile che siano recuperati documenti contenenti i termini nella relazione specificata ma che in realtà non hanno niente in comune con

l’argomento a cui ci si interessa.

2. il recupero basato sulla coincidenza fra quanto espresso nella richiesta e quanto contenuto nella rappresentazione del testo trascura i documenti la cui rappresentazione corrisponde solo parzialmente alla richiesta, ma che trattano ugualmente l’argomento voluto.

(64)

TECNICHE DI RECUPERO PARZIALI

Le tecniche di recupero per corrispondenza parziale sono basate sull’assunzione che le informazioni specificate nella richiesta possano essere contenute parzialmente nel documento e che i documenti ritrovati possano essere ordinati per valori decrescenti di rilevanza.

Queste tecniche consentono una maggiore flessibilità, rispetto alle tecniche per corrispondenza esatta, e sono quelle su cui si concentra, attualmente, il maggiore sforzo di ricerca.

(65)

TECNICHE DI RECUPERO

RECUPERO PER SIMILITUDINE

Le richieste vengono di solito formulate elencando alcuni termini che si ritiene descrivano il contenuto dei testi voluti

Se il sistema prevede un thesaurus, questo può essere anche usato per sostituire un termine con un suo sinonimo usato per indicizzare i documenti oppure per sostituire termini troppo specialistici, e quindi poco frequenti, con termini più generali, per ridurre il fenomeno del silenzio.

Per decidere se un documento debba essere recuperato, il sistema fa una valutazione del grado di similitudine dei documenti presenti con la descrizione di quelli richiesti.

(66)

COME VALUTARE IL GRADO DI SIMILITUDINE

Modo più semplice: contare i termini della richiesta presenti nel documento.

Un altro modo è di sommare il numero delle occorrenze nel documento di ogni termine della richiesta: se Di =(Ti1, Ti2, …, Tin) rappresenta il documento e Q = (q1,q2, …, qn) la richiesta, in cui

qi = 1 se il termine corrispondente è nell’interrogazione, qi = 0 altrimenti,

oppure, se si usano termini pesati, qi = “peso del termine”

Si calcola la similitudine fra il vettore dell’interrogazione e il vettore di ogni documento come il coseno dell’angolo fra i due vettori e si recuperano tutti i documenti con una similitudine superiore ad una soglia stabilita dall’utente:

TECNICHE DI RECUPERO

RECUPERO PER SIMILITUDINE

||||Q||

||D

Q D

i i

 NE SIMILITUDI

(67)

OSSERVAZIONI

 Le tecniche di recupero dei documenti per corrispondenza parziale, basate sul calcolo di un coefficiente di similitudine di un documento rispetto alla richiesta, sono da preferire alle tecniche per corrispondenza esatta.

La migliore strategia di ordinamento dei documenti è risultata quella basata sul calcolo della correlazione del coseno, assegnando ai termini associati ad un documento un peso pari alla loro frequenza nel documento e ai termini nella richiesta un peso pari all’inversa della loro frequenza nella raccolta.

(68)

Modelli di IR

Uno dei problemi principali dei sistemi di IR è quello di predire quali documenti siano rilevanti e quali no; la rilevanza si ottiene a partire da un algoritmo di ranking, il quale tenta di stabilire, sulla base di una misura di similarità, un ordinamento dei documenti recuperati

I documenti in cima alla lista hanno una probabilità maggiore di essere rilevanti.

Un tale algoritmo opera secondo dei criteri di rilevanza dei documenti, ossia insiemi di regole che permettono di stabilire quali documenti siano rilevanti e quali no

criteri diversi producono differenti modelli di IR.

Il modello definisce la filosofia di fondo di un IRS, ovvero attorno a quali principi generali si è sviluppato il sistema.

L'uso di un modello concettuale influenza o determina il linguaggio di interrogazione, la rappresentazione dei documenti, la struttura dei file ed i criteri di recupero dei documenti.

(69)

Modelli: sviluppo temporale

Modello booleano – anni: 1950

ancora usato in sistemi industriali e motori di ricerca su documenti Web

Modello vettoriale – anni: 1960

sistemi industriali e era il modello utilizzato inizialmente dai motori di ricerca Web

Modello probabilistico – anni: 1970

sistemi sperimentali e prototipi di ricerca

Modello di analisi della semantica latente – fine anni 1980

Modello statistico della lingua – fine anni 1990

Modello basati su reti ipermediali – fine anni 1980/anni 1990

(70)

Modello booleano

Rappresentazione dei documenti

I documenti vengono rappresentati come insiemi di termini che ne rappresentano il contenuto (scelti durante l’indicizzazione)

Interrogazioni

Le query vengono specificate come espressioni booleane, cioè come un elenco di termini connessi dagli operatori booleani AND, OR e NOT.

Criterio di corrispondenza

La strategia di ricerca è basata su un criterio di decisione binario, senza alcuna nozione di grado di rilevanza: un documento viene considerato rilevante o non rilevante.

AND: i termini sono entrambi presenti

OR: almeno uno dei due termini è presente

NOT: il termine non è presente

(71)

Esempio

(film AND amore)

documenti che contengono “film” e “amore”

(dramma OR drammatico)

documenti che contengono “dramma” o “drammatico”

NOT (dramma OR drammatico)

… che non contengono “dramma” o “drammatico”

((film AND amore) AND NOT (dramma OR drammatico))

(72)

Modello booleano: indicizzazione

I concetti sono rappresentati da descrittori estratti mediante un processo di indicizzazione

L’indicizzazione perde dell’informazione e descrive i concetti in modo parziale

Se l’indicizzazione non conserva informazione su sinonimia e polisemia, i descrittori sono trattati dal modello come espressioni univoche di concetti.

Di conseguenza un descrittore t è l’insieme di tutti e solo i documenti in cui è presente il concetto espresso da t.

(73)

Modello booleano

Un sistema basato sul modello booleano “chiede” all’utente di:

esprimere le proprie esigenze informative utilizzando i descrittori presenti nell’indice e

costruire nuovi insiemi mediante operatori booleani che allora vengono utilizzati per esprimere nuovi concetti

I termini sinonimi sono raggruppati mediante l’operatore OR:

espressioni disgiuntive del tipo

(A OR B) dove A e B sono termini o espressioni disgiuntive

Le espressioni disgiuntive si concatenano mediante l’operatore AND

Il risultato: espressione in forma normale congiuntiva, come, ad esempio: (A OR B) AND (C)

Operatore di negazione che si esprime solitamente con NOT

esempio: NOT A

(74)

Analisi lessicale e/o selezione delle parole

Doc. Contenuto/testo del documento

A carico di carbone danneggiato in un incendio

B consegna di gasolio trasportato da un veicolo a gasolio

C carico di carbone trasportato da un veicolo a gasolio

Rimozione delle stop-words o delle parole molto comuni

Lista o dizionario delle stop-words = {a, da, di, in, un}

A carico carbone danneggiato incendio

B consegna gasolio trasportato veicolo gasolio

C carico carbone trasportato veicolo gasolio

(75)

Ordinamento lessicografico delle parole

Doc. Parole che vengono considerate in ordine

A carbone carico danneggiato incendio

B consegna gasolio(2) trasportato veicolo

C carbone carico gasolio trasportato veicolo

Eventuale riduzione alle radici

(76)
(77)

Osservazioni

Il modello booleano ha il vantaggio di essere efficace in ambienti controllati e con utenti bene addestrati ma per contro vi è poco controllo sul numero dei documenti recuperati.

E’ impossibile

l’ordinamento per una qualche misura di similarità

la pesatura dei termini

Manifesta limitazioni dovute alla bassa amichevolezza della logica booleana.

Richiede agli utenti di sapere precisamente cosa cercano.

In tale logica un documento è ritenuto rilevante da IRS e quindi recuperato se i termini indice sono elementi semantici e quindi se il documento ha subito quella mappatura necessaria che porta alla sua evidenza semantica.

(78)

Il modello vettoriale

Idea: invece di cercare di predire se un documento è rilevante o no, ordiniamo i documenti secondo il loro grado di similarità rispetto alla query

Dobbiamo quindi assegnare uno score (ad esempio compreso tra 0 e 1) ad ogni documento della collezione rispetto alla query formulata

Successivamente ritorneremo un elenco di documenti ordinato in base alla probabilità che siano di interesse per l'utente.

(79)

Modello vettoriale: documenti

Rappresentazione dei documenti

una sequenza di numeri lunga quanto il numero di tutti i termini utilizzati per rappresentare i documenti nella collezione, un vettore appunto.

D = (t1, t2, …, tn) n numero di termini

tk=0 se il termine non è presente altrimenti tk è il peso del termine k-esimo nel documento, una misura di importanza

(80)

Il modello vettoriale: interrogazione

Interrogazione: un insieme di termini

Rappresentazione dell’interrogazione:

un vettore, simile ai documenti

(con moltissimi 0 e qualche 1 in corrispondenza dei termini specificati dall’utente)

Q(t1, t2, … tn)

(81)

Il modello vettoriale: confronto

Una misura di similitudine tra documenti e richiesta.

Esempio

Di(ti1, ti2, ti3, …, tin)

Q(q1, q2, q3, …, qn)

S(Q, Di) = q1*ti1 + q2*ti2 + ... + qn*tin = Σj qj * tij con 0<j <=n

(82)

Esempio

Due documenti che trattano di Messina, Stretto e Pilone … Vettori:

D1 = [… 0.1, …, 0.1, … , 0.2, …]

D2 = [… 0.1, …, 0.9, … , 0.9, …]

Interrogazione

Q=[… 1, …, 1, …, 1, …]

Similitudine

Sim(D1, Q)=0,1+0,1+0,2=0,4 Sim(D2,Q)=0,1+0,9+0,9=1,9

(83)

Sistemi per il recupero delle informazioni

Cataloghi

(84)

Cataloghi

Cataloghi e bibliografie come sistemi IR

Catalogo

Elenco ordinato e sistematico di una o più serie di oggetti, con le indicazioni ad essi relative (tra cui, anche, l’indicazione della collocazione di almeno 1 esemplare)

Bibliografia

Elenco sistematico di opere, saggi e articoli relativi a un determinato autore o argomento

Cataloghi online

accessibili da ogni punto dove sia collocato un terminale

Possono mostrare i dati anche di stato

Ricerca flessibile e “postcoordinata”

Gli utenti “giocano” col catalogo

http://www.laterza.it/bibliotecheinrete/index.htm

http://www.aib.it/aib/opac/repertorio.htm

Repertorio OPAC italiani

(85)

Cataloghi

Online Public Access Catalog (OPAC)

catalogo in rete ad accesso pubblico

è il catalogo informatizzato delle biblioteche che ha sostituito i vecchi cataloghi cartacei

a partire dagli anni ’80 hanno man mano sostituito la maggior parte dei cataloghi a schede

i primi OPAC erano accessibili solo da terminali dedicati oppure via telnet

gli OPAC oggi sono consultabili da tutti tramite Internet all'interno del proprio browser.

Trasferire i cataloghi in banche dati digitali in linea è però un lavoro che richiede molto tempo: in Italia le prime biblioteche hanno cominciato a catalogare in modo automatizzato solo dal 1981 e i volumi acquisiti prima spesso non sono compresi: per cercare queste opere, quindi, l'unica possibilità è recarsi sul posto a consultare i cataloghi a schede.

(86)

OPAC

La prima generazione dei cataloghi in linea è la traduzione compiuta dalla macchina delle schede catalografiche cartacee

il loro impiego nelle biblioteche non sfrutta la potenzialità dei DB per cui non apportano sostanziali vantaggi rispetto al catalogo cartaceo

il recupero delle informazioni da questi OPAC è possibile solo introducendo nel form l’esatto termine nell’esatta forma di linguaggio comprensibile dalla macchina

non sono disponibili ricerche per parole chiave

non è possibile raffinare la query

(87)

OPAC

Lo sviluppo dell’informatica si fa sentire con la seconda generazione di OPAC in quanto tale scienza rende possibile la configurazione di un sistema più sofisticato di recupero dell’informazione

S’introduce la ricerca per parola chiave, la ricerca con operatori booleani, la ricerca incrociata con diversi indici (es. autore e titolo)

L’aggiornamento informatico della gestione delle banche dati attraverso software di ricerca rende possibile alla seconda generazione di OPAC di arricchire le notizie bibliografiche con sommari, note, links, abstracts.

L’interfaccia è resa più immediata dalla presenza di strumenti come l’help on line.

(88)

OPAC

Gli OPAC di terza generazione aggiungono la possibilità di compiere interrogazioni con linguaggio naturale

A partire dagli anni ottanta si sviluppano le WIMP (windows, icons, mouse and pointers) interfaces (GUI) che semplificano e rendono la ricerca molto più veloce (quarta generazione)

Con queste interfacce l’utente ha la possibilità di accedere all’informazione bibliografica da punti diversi dell’interfaccia ognuno dei quali attiva una diversa funzione.

Questi sistemi aumentano l’accesso per parola chiave

Le possibilità di ricerca sono di gran lunga superiori rispetto alle vecchie generazioni.

Viene introdotta la funzione ipertesto in base alla quale l’utente digitando il termine accede ai richiami correlati trovati all’interno del DB. In questo modo l’utente può navigare per la base dati e raggiungere nuove informazioni.

(89)

OPAC

L'OPAC offre molte opportunità in più rispetto ai vecchi cataloghi a schede:

fra i criteri di ricerca di solito ci sono l'autore, il titolo, il soggetto, la classificazione, l'ISBN, l'editore, l'abstract, la lingua, l'anno di pubblicazione e la parole chiave (campo ricerca libera);

si può filtrare la ricerca con vari criteri o sottocataloghi (ad esempio: Libro moderno, Libro antico, Audio-Video-PC, Grafica, Materiale sonoro e musicale);

si possono ricercare libri anche da casa.

(90)

OPAC

Compilando uno o più campi di ricerca, l'utente ottiene l'elenco delle notizie corrispondenti ai parametri di ricerca inseriti: da qui è possibile raffinare la ricerca inserendo ulteriori filtri, oppure esaminare le informazioni recuperate e restituite in un formato sintetico (spesso una lista comprendente pochi campi principali, quali titolo, autore e anno).

L'esame analitico dei record permette all'utente di esaminare l'intera descrizione bibliografica della notizia, e da qui navigare, attraverso i link interni, fra i vari campi della descrizione.

(91)

OPAC

L'Opac consente, a partire dalla notizia recuperata, di visualizzare le sue localizzazioni, ossia le informazioni relative alla biblioteca che possiede quel documento e ai dati gestionali che ne permettono la richiesta (numero d'inventario, collocazione) oltre ad altre informazioni di servizio quali le condizioni di circolazione dell'opera (disponibile per il prestito, attualmente in prestito, ecc.).

Molti Opac consentono servizi aggiuntivi quali la prenotazione dei documenti attualmente in prestito, la richiesta di prenotazione, il salvataggio delle ricerche effettuate su spazi personali accessibili con login.

Sono sempre più frequenti le integrazioni degli Opac con altri strumenti di recupero dell'informazione, quali il collegamento con altri motori di ricerca, siti di e-commerce, risorse elettroniche on-line, servizi di accesso all full-text attraverso il protocollo Open-URL.

(92)

Sistemi per il recupero delle informazioni

Information Retrieval su web

(93)

L’informazione bibliografica sul web

Siti espressamente bibliografici

PubMed

Editori commerciali

SpringerLink

Editori commerciali specializzati

IEEE Xplore

(94)

PUBMED

www.ncbi.nlm.nih.gov/pubmed

Ambito scientifico: medicina, biologia

copertura: dalla metà degli anni ’50 tutte le più importanti testate in materia

Lingua: Inglese

Modalità di interrogazione assai varie

abstracts (quasi sempre)

link al full text (dove possibile)

(95)

PUBMED - Modalità di interrogazione

Ricerca semplice in tutti i campi: AND

Key words scelte dall’utente

Default AND

Tutti i campi

Troncamento (*)

Stopwords ignorate (preposizioni, ecc.)

Raffinazione (p.e. data o lingua)

Campi, Tipologia di articolo, Data di pubblicazione, Lingua, Periodico, Subset

Ricerca in uno specifico campo

Ricerca in più campi scelti dall’utente

Related articles

Ricerca per soggetto MeSH

(96)

Editori commerciali

Gratis

search / Advanced search

Abstracts

A pagamento

Full text

Spesso sample copy gratuita

Springer www.springerlink.com

Wiley www3.interscience.wiley.com

Elsevier www.scirus.com

Kluwer journals.kluweronline.com

NPG www.nature.com

(97)

Editori commerciali – Modalità di ricerca

Ricerca semplice (default AND)

Ricerca avanzata

Citation matcher

Per key words

Books

Ambito disciplinare (p.e. Wiley)

CrossRef search (p.e. Wiley)

Scirus (www.scirus.com)

Motore basato sul full text dei periodici Elsevier + altre basi dati + web

Basic search: default AND

Exact match

Advanced search

Abstracts/full text/documentazione scientifica

(98)

Enti/Editori commerciali –Modalità di ricerca

IEEE (www.ieee.org): ingegneria elettronica

BMJ (www.bmj.com): medicina, biologia

APS (www.aps.org): fisica

RSC (www.rsc.org): chimica

APA (www.psycinfo.com): psicologia

ASCE (www.asce.org): ingegneria civile

Modalità di ricerca

IEEE Xplore

TOC (periodici, conferences, standard)

Search (autore/base/avanzata)

Full text search

BMJ.com

Search (base/avanzata)

High Wire hosted journals

(99)

Information Retrieval su Web

L’Information Retrieval è nata per gestire collezioni statiche e ben conosciute: testi di legge, enciclopedie ecc.

Quando la collezione di riferimento diventa il Web, le cose cambiano completamente. Per IR su Web si intende la ricerca di pagine Web

la collezione che si considera è la parte pubblica del web.

Operazione base: un client (browser) invia a un WEB server una richiesta di una pagina web tramite il protocollo HTTP:

(100)

Information Retrieval su Web

Per IR su Web si intende la ricerca di pagine Web

L’IR su Web considera come collezione di documenti la parte del Web che è pubblicamente indicizzabile

esclude le pagine che richiedono autorizzazioni, (es. intranets) e le pagine dinamiche ecc.

Tassonomie o direttori

Yahoo (+ di 1000 nodi) About.com, Open Directory project DMOZ

Nel 2000 Google fu il primo Search Engine (SE) su Web a indicizzare più di 1 miliardo di Pagine Web

(101)

Information Retrieval su Web

Le principali differenze tra Information Retrieval classico e Web Information Retrieval possono essere riassunte nei seguenti punti:

dinamicità

la dimensione del Web non è costante, a differenza delle collezioni testuali;

dimensioni

la dimensione del Web era di 4 miliardi di pagine ad Aprile 2001

eterogeneità

Internet contiene un'ampia varietà di tipi di documenti: immagini, file audio, testuali, etc.;

linguaggi

sul Web è possibile incontrare quasi ogni linguaggio parlato sulla superficie del pianeta, mentre le collezioni utilizzate nell'Information Retrieval tradizionale sono spesso scritte in una sola lingua;

ridondanza

si stima che sul Web il 30% delle pagine siano duplicate;

(102)

Information Retrieval su Web

ipertesto

i documenti nel Web sono collegati tra loro: si stima che una pagina Web abbia in media più di 8 links ad altre pagine;

query formulation

le query sul Web sono in genere più corte e non particolarmente strutturate;

varietà degli utenti

gli utenti del Web variano sensibilmente in conoscenze, necessità ed aspettative, mentre, ad esempio,un utente di una biblioteca digitale avrà bisogni ed aspettative costanti;

pigrizia degli utenti

si stima che l'85% degli utenti del Web si fermano alla prima schermata di risultati ritornati dal motore di ricerca. Il 78% non riformula la query iniziale.

(103)

Caratteristiche del Web

Può essere visto come una collezione non-strutturata e distribuita molto grande

+3 milioni di servers interconnessi su internet (gestiti da circa 1,5 milioni di istituzioni diverse)

800 milioni di pagine pubbliche (Lawrence and Giles, Nature, 1999)

tasso di crescita biennale pari al 100% per il Web.

Contiene diversi tipi di dati (testi, immagini, suoni, video)

molte pagine non sono accessibili ai motori di ricerca

Una pagina Web corrisponde a un documento nell’IR tradizionale

(104)

DATI Web

Pagine Web

struttura delle singole pagine (Intra-page)

disomogenea per genere, struttura, tipo, formato, lingua, qualità, veridicità/affidabilità contenuto

Struttura del Web (Inter-page)

numero medio di in-link e out-link a una pagina è tra 8 e 15,

i link non sono distribuiti in modo casuale,

Dati sull’Utilizzo delle pagine (#accessi)

Dati supplementari

User Profile, Informazioni di Registrazione, Cookies

(105)

RICERCHE SU WEB

Problematiche relative ai dati:

grandi quantità (miliardi di pagine )

scalabilità

i dati sono distribuiti

affidabilità/appropriatezza delle sorgenti e delle connessioni

volatilità dei dati ( Garcia e Molina 2002 hanno stimato che il 40% delle pagine nei domini .com e il 23% in media cambia giornalmente)

aggiornamento dei dati e degli indirizzi

ridondanza dei dati (circa il 40% dei dati è duplicato) e ridondanza semantica

eliminazione duplicati

qualità dei dati (dati non validi, obsoleti, con errori)

stima dell’affidabilità (trust)

eterogeneità dei dati (media, formati, strutture, lingue, alfabeti diversi)

Le pagine Web differiscono in: dimensione, struttura, tipo (testo, grafici, suoni, immagini, video), formato (HTML, GIF, JPEG, ASCII, PDF, ecc), lingua, alfabeto, genere

Problematiche relative all’interazione con utente:

Utenti non esperti (query media 2 –3 termini)

come specificare le richieste?

Come presentare grandi quantità di documenti reperiti?

(106)

RICERCHE SU WEB

Esistono varie modalità di ricerca:

ricerca diretta dato URL o navigazione (browsing) percorrendo la struttura definita dai link

Sistemi di filtering

utilizzo di servizi WEB per la ricerca:

motori di ricerca che indicizzano una porzione di pagine Web e permettono all’utente di formulare query e reperire indirizzi di pagine web pertinenti (Altavista, Google)

portali Web (directory) che oltre a mettere a disposizione un motore di ricerca, classificano per argomento le pagine Web di qualità e forniscono un’interfaccia per la navigazione del catalogo delle pagine (Yahoo, infoseek, Virgilio)

Meta-motori di ricerca utilizzano diversi motori di ricerca per valutare la query e fondono le liste (MetaCrawler, Mamma, Dogpile)

(107)

Riferimenti

Documenti correlati

 un documento che descrive come i dati devono essere elaborati per la presentazione, chiamato foglio di stile XSLT.  un componente software, chiamato processore XSLT,

Si definiscono tre relazioni RA(XA), RB(KA*, XB), RC(KA*, XC), dove RA contiene tutti gli elementi della classe A, anche se stanno in qualche sottoclasse,

Le caratteristiche delle basi di dati sono garantite da un sistema per la gestione di basi di dati (DBMS, Data Base Management System), che ha il controllo dei dati e

ABITA BRAVO CRLINI DECCA ESTERLE FUNDARI GIANI ABITA BACCO CARLINI DINI ESTERLE FALCONI GIANI. Sono incluse tutte

quando si inserisce un’ennupla nella tabella Studenti, o quando si modifica il campo chiave esterna, il valore della chiave esterna deve essere presente

 Data una collezione di documenti e un bisogno informativo dell’utente, obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i

 un documento che descrive come i dati devono essere elaborati per la presentazione, chiamato foglio di stile XSLT.  un componente software, chiamato processore XSLT,

 Afferisce è multivalore da Dipartimenti a Docenti: ad un oggetto della classe Dipartimenti possono essere associati più oggetti della classe Docenti; si modella