La gestione delle stop words - Esplorare la biblioteca

Provate a cercare su Google “enciclopedie dei pesci” e poi solo “enciclopedie pesci”. Pur differenziandosi nella sintassi, i due enunciati sembrano voler esprimere lo stesso contenuto semantico. Certo, potremmo considerare il remoto caso in cui la seconda ricerca voglia trovare un'enciclopedia curata dal signor Pesci… Il più delle volte, tuttavia, le due ricerche avranno alle spalle lo stesso bisogno informativo. Google ne è piuttosto convinto, tanto da dare per entrambe gli stessi risultati, con qualche lieve variazione di ranking.

Se dunque il motore di ricerca più utilizzato sembra ignorare le stop words digitate in input, questo approccio non è del tutto ideale per gli OPAC, almeno in linea di princi- pio57_{. La completa eliminazione di una parola dalla stringa di ricerca, per quanto poco} pregna di significato, comporta il rischio di restituire dei risultati distanti rispetto a quanto effettivamente richiesto dall'utente. Se infatti l'utente, senza ricordare bene il titolo del romanzo Le lettere segrete di Jo di Gabrielle Donnelly, cerca “le lettere di jo” in un sistema che ignora del tutto le stop words, la stringa ricercata sarebbe semplicemente “lettere + jo”. Verrebbero quindi restituite tutte le risorse in cui compaiano queste due parole, del resto piuttosto comuni. Toccherebbe poi alla funzione di ranking, non sempre

56 Nel sistema di DM Cultura, le ricerche “addestramento canni” e “addestramento cni” restituiscono sempre il suggerimento corretto.

57 In effetti, neanche i motori di ricerca web ignorano davvero le stop words, anche se per motivi diversi da- gli OPAC. Ignorare questi termini in fase di ricerca vuol dire infatti implementare una lista di parole co- muni ed eliminarle da ogni query inserita. Nel corso dell'evoluzione dei sistemi di ranked retrieval, è stato notato che creare questa stop list costituiva uno sforzo inutile, poiché gli indicatori matematici che stabi- liscono l'effettivo peso di un termine di ricerca tengono opportunamente conto non solo della frequenza assoluta del termine nella collezione, ma anche del numero di documenti in cui è presente, controbilan- ciando l'importanza di termini molto diffusi. Per questi termini, quindi, il peso calcolato è estremamente basso e dunque irrilevante [Manning-Raghavan-Schütze 2008, pp. 25-26 e 116-121].

brillante nei sistemi italiani [Deana 2019b], il compito di riuscire a portare in cima il ri- sultato relativo a Le lettere segrete di Jo, lasciando gli altri sul fondo della lista. D'altra parte anche l'approccio opposto, ossia quello di restituire solo i risultati che contengono anche la stop word immessa in input, appare piuttosto anacronistico nell'epoca di Goo- gle.

Probabilmente, la soluzione più interessante a questo problema sarebbe che gli OPAC fossero in grado di valutare le stop words per recuperare risultati il più possibile identici alla stringa cercata (nel caso dei pesci, tutte le risorse che si intitolano esattamente “Enciclopedia dei pesci”) ma che poi potessero anche estendere la ricerca alle ri- sorse che contengono le parole significative, una volta eliminate le stop words (magari, un'enciclopedia che si intitola semplicemente “Pesci”).

Per valutare la gestione delle stop words è stato preso in considerazione il numero dei risultati ottenuti con la ricerca “storia dell'informatica”, in rapporto a quello otte- nuto per “storia informatica”. Oltre al numero, è stato verificato se nella seconda ricerca compaiono risultati rilevanti per il bisogno informativo che non erano comparsi nella prima.

Anche in questo caso, la maggior parte dei software nelle biblioteche pubbliche non sembra gestire al meglio il problema: l’utente che inserisce nella propria stringa di ri- cerca una stop word articolata come “dell” ottiene solo i risultati che contengono anche la stop word, incidendo negativamente sulla percentuale di richiamo del sistema. Solo per citare alcuni numeri, DM Cultura presenta circa una dozzina di risultati per la prima ricerca (in entrambi i sistemi ScopriRete e Biblioest) e circa 90 per la seconda; CSI Pie- monte conta 16 risultati con la stop word e 137 senza; lo stesso fa Lombardia Informatica (10 con “dell”, 74 senza). Chiaramente le ricerche senza stop word sono più generali e contengono quindi una maggiore percentuale di rumore; in tutti i casi, però, in queste ricerche sono comparsi risultati rilevanti che erano invece assenti dalle ricerche con la stop word58_.

58 Questa situazione è lampante specialmente nei sistemi di CSI Piemonte e Lombardia Informatica, dove il livello di precisione di entrambe le ricerche, con e senza stop word, è estremamente alto.

Gli unici due sistemi che affrontano la questione delle stop words in modo alquanto risoluto sono Primo di Ex Libris e Bibliowin di CG Soluzioni Informatiche, gestendo la si- tuazione agli antipodi. Bibliowin infatti si limita a ignorare completamente la stop word, estromettendola apparentemente dai termini di ricerca: la conseguenza è dunque che le due liste di risultati per “storia dell'informatica” e “storia informatica” sono perfetta- mente identiche. Questa una situazione potrebbe avere tratti positivi per l'utente ma si trasforma in una difficoltà in assenza di un ottimo algoritmo di ranking59_{. Se infatti} l'utente lanciasse la ricerca “storia dell'informatica” avendo in mente un testo che for- nisca un'infarinatura sull'argomento (qualcosa, insomma, che s'intitoli proprio “Storia dell'informatica” o simili) dovrebbe scorrere i risultati fino a pagina 6 per trovare una poco promettente Storia dei computer. Dall'abaco ai calcolatori elettronici (pubblicato nel 1989!); in alternativa dovrebbe armarsi di pazienza e scorrere tutti i risultati per scova- re, fra la moltitudine di testi monografici su Steve Jobs, Alan Turing, Bill Gates e il sim- bolo della chiocciola (@), un libro che possa raccontargli la storia dell'informatica in ge- nerale. L'elevato richiamo fornito dal sistema Bibliowin grazie all'eliminazione della stop word si rivela in definitiva un pregio secondario, se messo a confronto con la scomo- dità di un ordinamento dei risultati che non considera la qualità degli stessi.

Primo di Ex Libris, invece, sembra considerare inizialmente la presenza della stop word nella ricerca, restituendo quei risultati che corrispondono precisamente alla strin- ga “storia dell'informatica”, per poi accantonarla e proseguire la lista dei risultati corri- spondenti ai termini “storia” e “informatica”. Un comportamento che sembra ispirarsi a Google, insomma, e che dà i suoi frutti: in cima alla lista dei risultati abbiamo due testi intitolati Storia dell'informatica ossia, con tutta probabilità, esattamente ciò che l'utente stava cercando quando ha lanciato la ricerca. Il fatto però che la lista non si esaurisca solo con questo paio di risultati permette all'utente di esplorare, se lo desidera, tutte le declinazioni di “storia” e “informatica” nel catalogo della sua biblioteca. Questo approc- cio alla stop word fa sì che, in sua assenza, i risultati non cambino: Primo infatti propone

59 Cosa di cui il sistema di CG è privo, poiché ordina i risultati solo in base ad alcuni metadati specificati dall'utente (Titolo, Autore, Data, ID Scheda) e non in base a un ranking qualitativo basato su un algoritmo di rilevanza.

la stessa lista di risorse, ordinata in modo leggermente differente. Poiché l'ordinamento sembra basarsi sulla vicinanza dei termini ricercati, anche per la ricerca “storia infor- matica” i testi intitolati Storia dell'informatica si trovano in cima alla lista, rendendo il si- stema di Ex Libris particolarmente efficiente nella gestione delle stop word.

Una nota a parte merita il software Discovery NG di Comperio, usato dalle bibliote- che civiche torinesi: il sistema restituisce ben 79 risultati per la ricerca con la stop word, contro i 142 risultati senza, segno che non abbraccia in toto l'approccio, se vogliamo un po' riduttivo, degli altri sistemi che pure presentano numeri diversi con o senza stop word. Apparentemente, dopo aver restituito le risorse che contengono precisamente la stringa “storia dell'informatica” e quindi le risorse che ne contengono dei pezzi separati (“storia” + “dell'informatica” oppure “storia dell” + “informatica”), Dicovery NG proce- de con la ricerca di tutte le risorse che contengono i tre termini separati, a prescindere da dove si trovino. La diversità di peso a seconda della posizione del termine (nella de- scrizione, dell'abstract, nei termini di soggetto…) o la popolarità di una risorsa (conteg- giata in numero di prestiti) potrebbero forse spiegare perché, già nella prima pagina dei risultati, compaia Storia della bambina perduta. L'amica geniale: un romanzo in cui “storia” appare nel titolo, “dell” risulta svariate volte nell'abstract e una delle protagoniste fa l'informatica di mestiere (termine citato anch'esso nell'abstract). Al di là di questi in- toppi, il sistema di Comperio riesce comunque a presentare in cima alla lista risultati convincenti sia con che senza stop word, pur non presentando lo stesso set di risultati; l'algoritmo scelto per il ranking, tuttavia, non garantisce sempre la possibilità di godere appieno della capacità di richiamo delle due ricerche.

Nel documento Esplorare la biblioteca (pagine 51-54)