Come già approfondito, la gestione dei sinonimi come input di ricerca è un problema attualmente ancora piuttosto dibattuto nel campo dell'information retrieval. Fra le solu- zioni più dispendiose ma anche più precise, vi è quella suggerita dalla global analysis, l'arricchimento del vocabolario dei termini della collezione con i sinonimi non preferiti [Manning-Raghavan-Schütze 2008, p. 174]. Si tratta di un'operazione che difficilmente può prescindere dall'intervento umano e perciò può rivelarsi lunga e non sempre ogget- tiva. Tuttavia, il mondo delle biblioteche potrebbe forse risultare avvantaggiato e co- minciare questa impresa con una marcia in più. La gestione dei sinonimi, infatti, risulta particolarmente utile nei casi in cui l'utente inserisca termini che, nelle sue intenzioni, corrispondono a soggetti: se infatti l'input fosse “sei personaggi in cerca d'autore” l'espansione della ricerca ai sinonimi sarebbe uno sforzo inutile, mentre invece dato l'input “storia degli aerei” è indispensabile che il termine “aerei” venga collegato a “ae- roplani” e a “aeromobili”. È dal 1956 che le biblioteche italiane possono fare riferimento a un unico vocabolario controllato per assegnare i soggetti delle risorse che catalogano, grazie dal Soggettario implementato dalla Biblioteca Nazionale Centrale di Firenze (Sog- gettario BNCF); da poco più di un decennio, inoltre, il Soggettario è stato rinnovato e il suo Thesaurus è stato pubblicato online, in una struttura gerarchica e reticolare che permette una navigazione approfondita dei collegamenti fra termini83. Alcuni termini presentano già un rimando alle voci non preferite o alle proprie varianti storiche; que- sto genere di collegamenti potrebbe forse essere implementato per tutti i termini e comprendere, a quel punto, non solo le varianti scartate già esistenti nel Thesaurus, ma
più in generale tutti i sinonimi ricollegabili al termine preferito. Il Thesaurus si trasfor- merebbe quindi in un vocabolario di termini controllati accompagnati dai loro sinonimi non preferiti. Se quei sinonimi fossero ricercabili e potessero puntare al proprio termi- ne preferito, a quel punto le risorse collegate al termine preferito sarebbero raggiungi- bili sia usando quest'ultimo sia usando i suoi sinonimi.
Una struttura simile, seppure molto più in piccolo, è stata ricreata nel database di CataloGo., grazie alla tabella postings. La tabella prevede una colonna con i termini pre- feriti usati per delineare sinteticamente i soggetti delle risorse contenute nell'applica- zione; i termini sono stati scelti dal Thesaurus della BNCF e sono stati assegnati a ciascu- na opera, nella tabella work, tramite una semplice elencazione di concetti, senza la crea- zione di vere e proprie stringhe di soggetto. Dopo la colonna dei termini di soggetto, la tabella postings presenta la colonna delle forme non preferite: per ciascun termine ven- gono elencati i sinonimi, separati da un punto e virgola. Infine la tabella si chiude con le due colonne che giustificano il suo nome: gli identificativi delle opere e quelli dei crea- tori che hanno a che fare con il termine specificato. Si tratta dunque di una sorta di sog - gettazione al contrario in cui, partendo da un termine, si può giungere alle opere o agli autori a esso collegati. Il meccanismo è quello delle postings lists tipiche dei motori di ri- cerca in information retrieval84.
Grazie alla tabella postings, CataloGo. è in grado di ricercare un termine non solo nel vocabolario controllato, ma anche fra le forme non preferite: se il termine viene trovato fra queste ultime, l'applicazione individua il termine preferito di riferimento e ripete la ricerca partendo da quello. In questo modo la ricerca viene allargata ai sinonimi e agli altri vocaboli collegati senza che l'utente se ne renda conto o sia costretto a compiere un passaggio in più.
Approfittando delle dimensioni ridotte del vocabolario controllato presente nel da- tabase di CataloGo., è stato tentato un ulteriore esperimento volto a permettere l'utiliz- zo di un linguaggio più libero in fase di ricerca. I termini preferiti sono stati collegati
84 In un motore di ricerca, la postings list è l'elenco degli indirizzi dei documenti contenenti una determinata parola. Ciascun termine del vocabolario controllato, perciò, ha la sua postings list, che elenca i documenti in cui lo si trova [Manning-Raghavan-Schütze 2008, p. 6].
non solo ai propri diretti sinonimi ma anche alla propria declinazione: “musica”, per esempio, è stato collegato anche con “musiche”, in modo tale che il sistema sia in grado di ricollegare anche le forme plurali alla semantica del proprio termine preferito al sin- golare, o viceversa. I termini che nel Thesaurus figurano nella categoria Azioni, come per esempio “addestramento”, sono stati collegati ai rispettivi verbi all'infinito.
Per apprezzare appieno questo stratagemma, proviamo a considerare l'input “adde- strare un cane”: come già illustrato, CataloGo. considererà inizialmente la frase come un tutt'uno inscindibile, ponendo in cima alla lista dei risultati le risorse che conterranno, nel titolo o nella descrizione, la frase esatta. In un secondo momento, l'input verrà spez- zato e la stop word “un” eliminata; resteranno dunque i termini “addestrare” e “cane”, ciascuno dei quali non è in effetti un termine preferito dal Thesaurus della BNCF. I voca- boli verranno dapprima ricercati così come sono, nel caso appaiano separatamente nelle descrizioni; solo dopo questo passaggio, CataloGo. procederà con la ricerca nella tabella postings, dove i due vocaboli verranno identificati come forme non preferite rispettiva- mente di Addestramento e di Cani, permettendo così di recuperare tutte le risorse colle- gate a entrambi questi termini preferiti (Figura 6).
Un altro vantaggio apportato dalla tabella postings è quello di poter ricercare agil- mente fra le opere e gli autori di narrativa, anche in base alla forma letteraria e alla pro- venienza geografica. Per esempio, il termine Francia è presente nel vocabolario control- lato di CataloGo., collegato alle forme secondarie “francesi” e “francese” e agli identifi- cativi di opere e creatori afferenti in vario modo alla Francia. Il termine Romanzi, a sua volta, figura nel vocabolario, collegato a “romanzo” e a “narrativa”, oltre che a tutti gli identificativi di opere che possano dirsi romanzi. Così, se un utente cerca una lista dei romanzi francesi contenuti in CataloGo. può inserire come input proprio “romanzi fran- cesi” e il sistema restituirà tutte le risorse collegate a Francia e a Romanzi. In questo caso, è evidente il rischio di rumore che si può incontrare quando svariate opere di sag- gistica (quindi non utili per il nostro utente) trattano di romanzi francesi; tuttavia la possibilità di estrarre facilmente una simile lista di risultati, per quanto contaminata dal
rumore, sembra comunque degna di valore se confrontata con le complesse funzionalità offerte dagli OPAC italiani nel rispondere a questo specifico bisogno informativo.
Uscire dall'ambito del prototipo e implementare una tabella simile a postings in un reale servizio OPAC sarebbe sicuramente un'impresa dai costi non irrisori: questi, tutta- via, potrebbero forse essere significativamente controbilanciati dal netto miglioramen- to del rapporto fra l'utente e il vocabolario con cui deve confrontarsi in fase di ricerca, determinando un sensibile aumento della soddisfazione e della piacevolezza di utilizzo.