Information retrieval, strategie di ricerca e operatori logic

CAPITOLO SECONDO LA BIBLIOTECA DIGITALE

2.5 Opac e biblioteca virtuale

2.5.3 Information retrieval, strategie di ricerca e operatori logic

Per poter utilizzare con successo cataloghi, bibliografie e banche dati elettroniche, è indispensabile conoscere il cosiddetto information retrieval, che può essere definito, in senso ampio, come quel vasto insieme di tecniche utilizzate per il recupero mirato dell'informazione elettronica. In senso più stretto, si utilizza spesso tale termine per indicare i linguaggi di interrogazione basati sui comandi testuali tipici delle banche dati commerciali on line e spesso impiegati anche in altri contesti (banche dati su Cd-Rom, cataloghi automatizzati di biblioteche, motori di ricerca e via dicendo). La distinzione fondamentale alla base dell'information retrieval, che troppo spesso viene dimenticata nell'era di Google, è quella fra la ricerca di una o più parole all'interno dell'intero testo (full text) di un documento primario come un libro, un articolo o una pagina Web, scritto da un autore con finalità ben diverse (o comunque ben più vaste) da quelle del successivo recupero dell'informazione, e la ricerca delle medesime parole all'interno di testi più brevi e normalizzati (l'abstract, le intestazioni per autore, titolo, soggetto, ecc.) creati dall'autore stesso o da tecnici specializzati proprio per facilitare l'individuazione e la selezione a posteriori del documento stesso. Un altro dei concetti fondamentali dell'information retrieval, che è bene tenere sempre presente per scacciare la ricorrente chimera di una ricerca «automagical» in grado di sfruttare le miracolose capacità del computer per restituire senza sforzo tutti e soltanto i documenti cercati, è quello del rapporto inverso fra richiamo e precisione. Il richiamo misura la capacità di recuperare tutti i documenti pertinenti (ovvero considerati rilevanti rispetto all'obiettivo della ricerca) presenti

nell'archivio interrogato, mentre la precisione misura la capacità di recuperare

soltanto i documenti pertinenti.

Tra richiamo, precisione e documenti trovati vale il seguente schema:

Un esempio può aiutare a capire meglio. Si supponga di trovarsi di fronte a una banca dati bibliografica contenente 1.000 record (ovvero mille «schede elettroniche»), ciascuna delle quali corrisponde a un libro, e che solo 100 di tali libri, e quindi di tali record, siano rilevanti rispetto all'argomento su cui si sta indagando. Si supponga anche che la prima ricerca che si effettua sulla banca dati produca come risultato 200 record, che si analizzeranno uno ad uno, scoprendo che solo 80 di essi descrivono libri rilevanti per gli scopi della ricerca.

In questo caso si potrà dire che la ricerca ha avuto un richiamo molto alto, pari a 80/100, perché si è riusciti a recuperare i quattro quinti dei libri utili; invece la precisione della ricerca è stata piuttosto bassa, pari a 80/200, perché solo due quinti dei record che sono stati individuati corrispondevano a libri utili, mentre gli altri tre quinti (pari a 120/200) che si sono comunque dovuti verificare uno ad uno hanno costituito solo del fastidioso «rumore». Dal momento che aumentando il

Richiamo = documenti pertinenti recuperati nella ricerca

documenti pertinenti esistenti nella banca dati interrogata

Precisione = documenti pertinenti recuperati nella ricerca documenti (pertinenti o no) recuperati nella ricerca

richiamo diminuisce la precisione e viceversa, risulta chiaro che una strategia di ricerca che permetta di recuperare in un sol colpo tutti e soltanto i documenti pertinenti contenuti in una determinata banca dati (ovvero quel Sacro Graal costituito dal 100% di richiamo e dal 100% di precisione) è quasi sempre impossibile. Le strategie di ricerca che aumentano la precisione diminuiscono il richiamo e viceversa; quindi occorre, caso per caso, operare delle scelte e utilizzare con attenzione gli strumenti disponibili per ottenere ciò che è più utile in quello specifico contesto. In genere si privilegia più spesso il richiamo, rassegnandosi a una precisione non ottimale, cioè al «rumore» costituito da una serie più o meno ampia di documenti non pertinenti. Dal punto di vista dei costi, in una ricerca in linea, è spesso conveniente accettare una risposta ampia ma non precisa, da riesaminare poi a tavolino, piuttosto che cercare complessi raffinamenti nel corso della ricerca. Al contrario, le ricerche che si svolgono sui cataloghi delle biblioteche sono generalmente finalizzate all'individuazione di pochi testi sull'argomento che interessa. Esistono numerosi linguaggi di interrogazione, ma nonostante alcuni lodevoli sforzi per diffondere linguaggi standard (ad esempio il Ccl, Common command language, dell'Unione Europea), ci si deve rassegnare ad imparare di volta in volta quello necessario per ricercare in una singola banca dati o spesso, per fortuna, in una intera «famiglia» di archivi prodotti o distribuiti dallo stesso soggetto. Molte funzionalità restano comunque costanti, benché chiamate in modi diversi, nella maggior parte delle banche dati, e fra queste il posto d'onore va assegnato ai cosiddetti operatori logici (o booleani), che sono illustrati nelle Figure 1-4.

Figura 1. Intersezione (AND o +): per rintracciare i record che soddisfano entrambi i criteri richiesti. Ad esempio, specificando «promessi AND sposi», si ottengono tutti i record che contengono sia la parola promessi sia quella sposi. Più AND si immettono in fase di ricerca, più si restringe il numero dei risultati. La maggioranza dei sistemi utilizza attualmente l'AND come operatore logico di default.

Figura 2. Unione (OR): per rintracciare i record che soddisfano almeno uno dei criteri richiesti. Ad esempio, specificando «promessi OR sposi», si ottengono tutti i record della banca dati che contengono la parola promessi, tutti quelli che contengono la parola sposi e tutti quelli che le contengono entrambe. Più OR si

immettono in fase di ricerca, più si amplia il numero dei risultati. Solo una minoranza di sistemi utilizza attualmente l'OR come operatore logico di default.

Figura 3. Complemento (NOT oppure AND NOT): per rintracciare i record che soddisfano un determinato criterio escludendo quelli che però ne soddisfano un altro. Ad esempio, specificando «promessi NOT sposi», si ottengono tutti i record che contengono la parola promessi tranne quelli che contengono anche la parola

Figura 4. Esclusione (XOR): per rintracciare i record che soddisfano esclusivamente uno solo dei criteri richiesti. Ad esempio, specificando «promessi XOR sposi», si ottengono tutti i record che contengono la sola parola promessi e tutti quelli che contengono la sola parola sposi, ma non quelli che le contengono entrambe. In realtà l'espressione «A XOR B» è riconducibile alla forma «(A OR B) NOT (A AND B)». In assenza di parentesi l'ordine con cui vengono applicati gli operatori logici è in genere NOT, AND, OR, XOR, ma dato che alcuni sistemi seguono un ordine diverso è meglio, in caso di dubbio, usare le parentesi, come illustrato nel paragrafo successivo. Esistono anche numerosi altri operatori, non sempre presenti in tutti i sistemi, utilizzabili per effettuare ricerche più sofisticate. Tra i più importanti vanno citati gli operatori relazionali e di prossimità: i primi rintracciano valori maggiori (>), minori (<) o uguali (=) a quello cercato; i secondi rintracciano i termini cercati solo se presenti (in qualsiasi ordine e a qualsiasi distanza fra loro) nello stesso campo o sottocampo (SAME) oppure solo se presenti (sempre se nel medesimo campo) uno accanto all'altro o a una determinata distanza fra loro, in qualsiasi ordine (NEAR) o nell'ordine dato (ADJ o WITH). SAME, NEAR e ADJ/WITH possono in un certo senso essere considerati dei veri e propri «super-and» di potenza crescente, che non si accontentano di individuare i record contenenti determinati termini, ma che richiedono in aggiunta delle condizioni supplementari. Solo molto di rado tali operatori vengono utilizzati per default. Per esempio, se si cerca semplicemente «promessi AND sposi» senza specificare i campi in cui effettuare la ricerca, si rintraccia, fra gli altri, anche un documento dal titolo Gli sposi in Italia scritto da Gino Promessi. Col comando «promessi SAME sposi» si aggiunge la condizione

supplementare che entrambi i termini debbano trovarsi all'interno del medesimo campo, mentre con quello «promessi ADJ sposi» si rintracciano tutte le occorrenze all'interno del medesimo campo della frase «promessi sposi» escludendo invece quelle di «sposi promessi». Con una interfaccia grafica (tipo Web) l'operatore SAME viene utilizzato, implicitamente, ogni volta che si effettua una ricerca in AND all'interno della mascherina relativa a uno specifico campo. Più in generale, la ricerca di determinati termini esclusivamente all'interno di specifici campi (autore, titolo, soggetto e via dicendo), che con le interfacce testuali (tipo Telnet) deve essere esplicitata mediante specifici comandi, diventa implicita con le interfacce grafiche, inserendo l'interrogazione nella mascherina dedicata al campo stesso. In tal caso, volendo invece ricercare un termine contemporaneamente in tutti i campi disponibili, l'interfaccia grafica dovrà prevedere una ulteriore mascherina aggiuntiva ad hoc. Le banche dati più sofisticate permettono perfino di indicare fino a che distanza reciproca possono essere presenti i termini ricercati. Per esempio, col comando «promessi NEAR2

sposi» si rintracciano tutti i record in cui «promessi» e «sposi» sono presenti nel

medesimo campo separati da 0, 1 o 2 parole qualsiasi, ovvero vengono rintracciate le frasi «promessi sposi», «sposi promessi», «promessi e sposi», «sposi e

promessi», «promessi e poi sposi» ma non «promessi e non ancora sposi», in cui

la distanza fra i due termini è di tre parole.

2.5.4 Metadati

Fondamentale, parlando di catalogazione, è il concetto di metadato. Tutte le informazioni inserite, seguendo il Dc o altri standard, dentro i tag <Meta> delle

pagine Web sono «metadati», ovvero «dati sui dati», cioè informazioni, generalmente strutturate e scandite in campi, relative a documenti primari «a testo pieno» (full text), che ne permettono una più efficiente organizzazione e recupero. Non si tratta in realtà di niente di più o di diverso da quanto, da tempo immemorabile, viene garantito, per esempio, dalle canoniche schede catalografiche bibliotecarie, veri e propri «metadati» rispetto ai «dati» costituiti dai libri e dai periodici conservati sugli scaffali delle biblioteche, cui tali schede si riferiscono. Cataloghi, bibliografie e repertori bibliografici vari, sia in formato cartaceo sia elettronico, non sono altro che insiemi organizzati di metadati costruiti e mantenuti da professionisti dell'informazione per individuare, selezionare, localizzare e permettere il recupero di documenti primari più ingombranti e meno maneggevoli delle loro «immagini» o «surrogati» sintetici, ovvero delle schede, dei record, degli item bibliografici17.

Mettere in ordine alfabetico di autore mille piccoli record elettronici (o anche mille schede cartacee) scanditi in campi riempiti con valori normalizzati è infinitamente più semplice e meno faticoso che effettuare la stessa operazione con mille voluminosi libri o mille articoli fisicamente legati ai periodici che li contengono; per non parlare dei documenti prodotti da più autori, magari indicati di volta in volta con forme e in modi diversi. Il lavoro necessario per estrarre i metadati dai dati è ricompensato dalla loro maggiore maneggevolezza e manipolabilità rispetto ai data originari. L'autore produce i dati; l'indicizzatore ne estrae i metadati e li organizza; il lettore interroga i metadati e individua quello

De Robbio A. , Metadati: parola chiave per l’accesso alla biblioteca ibrida, in Foglieni O. (a cura di), La biblioteca ibrida: verso un servizio informativo integrato, Editrice Bibliografica, Milano, 2003.

che fa per lui più velocemente ed efficacemente di quanto riuscirebbe a fare manipolando direttamente i data. Il costo degli indicizzatori è sostenuto in parte dai lettori e in parte dalla società nel suo complesso. Nell'ambito dei documenti primari digitali, specialmente di quelli disponibili in Rete, si è inizialmente trascurata l'importanza dei metadati. Essi invece sono ancora più indispensabili nel ciberspazio che nelle tradizionali biblioteche, dove un utente sciaguratamente privato del catalogo potrebbe comunque scandagliare «a vista» gli scaffali. Molti dei progetti relativi ai metadati attualmente in corso sono condotti da persone provenienti da ambienti informatici o comunque non bibliotecari, preoccupate soprattutto di individuare il metodo per associare i data ai relativi metadati e di stabilire lo schema da seguire nella loro creazione. Solo nei casi in cui l'influenza bibliotecaria si fa sentire maggiormente (per esempio nel progetto Dublin core) emerge una maggiore attenzione per gli aspetti del controllo terminologico delle stringhe da utilizzare. Semplificando, gli informatici, stabiliti i campi necessari insieme ai bibliotecari, si preoccupano di prepararli e di mettere a punto la loro gestione, mentre devono essere i bibliotecari a decidere come riempirli. La presenza di appropriati metadati nelle pagine Web contribuirebbe in maniera determinante a ridurre quell'information overload di cui molti si lamentano. Un grosso problema è però quello della individuazione della figura preposta alla loro creazione, che in ambiente cartaceo o anche di supporti elettronici portatili è tipicamente un professionista che svolge un ruolo di intermediario fra autore e lettore, o fra docuverso e utenti, ottimizzando così l'incontro fra domanda e offerta informativa.

CAPITOLO TERZO

Nel documento Dalla biblioteca alla mediateca : indagine sul patrimonio e sulle attività delle mediateche in Calabria (pagine 80-89)