• Non ci sono risultati.

2. Realizzazione del sistema di organizzazione della conoscenza

2.1 Definizione del concetto di thesaurus

La scelta dello strumento attraverso il quale organizzare la conoscenza del dominio di riferimento è ricaduta sul thesaurus in ragione dei risultati che lo stesso permette di raggiungere in termini di controllo terminologico, recupero e strutturazione dell’informazione e della varietà dei contesti che possono prevederne e richiederne l’utilizzo. Per tali motivi, esso risponde agli obiettivi propri dell’attività di che trattasi, che prevedono la sua applicazione tanto per la sistematizzazione della conoscenza di dominio, quanto per l’organizzazione e il recupero di informazione e documenti in un centro di documentazione. La diversità di obiettivi nei due potenziali contesti d’uso ha messo chiaramente in evidenza come talune scelte compiute per finalità di indicizzazione o ricerca dell’informazione siano differenti rispetto a quelle compiute per scopi di classificazione, ma ha reso anche evidente il notevole supporto che una tale risorsa può fornire nella gestione dell’informazione e della conoscenza.

L’attenzione normativa rivolta ai sistemi di organizzazione della conoscenza in generale, e al thesaurus in particolare, e gli sforzi per garantire l’interoperabilità tra gli stessi compiuti dal W3C - World Wide Web

Consortium87 - con la raccomandazione SKOS (Simple Knowledge

Organization System)88 testimoniano dell’importanza che tali strumenti hanno assunto e stanno assumendo in ambiente digitale.

Il concetto di thesaurus e le operazioni necessarie alla sua realizzazione sono oggetto di una normativa tecnica aggiornata molto recentemente: la ISO 25964-1:2011, Information and documentation – Thesauri and interoperability

with other vocabularies, Part 1: Thesauri for information retrieval, sostituisce

infatti le precedenti norme in materia, ormai piuttosto datate, ovvero la ISO 2788:1986, Documentation – Guidelines for the establishment and

development of monolingual thesauri, la ISO 5964:1985, Documentation – Guidelines for the establishment and development of multilingual thesauri89.

87 Il W3C è una comunità internazionale che, attraverso l’emanazione di standard, si propone di contribuire alla crescita del Web.

<http://www.w3.org/>.

88 SKOS è un’area di lavoro per lo sviluppo di specifiche e di standard di supporto all’utilizzo dei KOS all’interno del Semantic Web.

<http://www.w3.org/2004/02/skos/>.

89 Di conseguenza vengono sostituite anche le norme nazionali francesi definite dall’ente di normazione AFNOR (Association française de Normalisation), ovvero la NF Z 47-100-1981-

43

Il panorama normativo è caratterizzato anche dalla presenza degli standard ANSI/NISO Z39-19 2005, Guidelines for the construction, format, and

management of monolingual controlled vocabularies, che si interessa anche ad

altri tipi di vocabolari controllati e si apre a problematiche di interoperabilità tra i vocabolari stessi attraverso la definizione di un modello basato su XML (eXtensible Markup Language)90 e detto Zthes91, e dalla BS 8723, Structured

vocabularies for information retrievial – Guide.

Dalle definizioni di thesaurus esplicitate si evince come l’utilizzo di tale strumento si sia evoluto nel corso del tempo per rispondere alle mutate esigenze di recupero e gestione dell’informazione a seguito dell’avvento del web e dell’aumento della quantità di informazione disponibile in ambienti prevalentemente digitali, che hanno indubbiamente contribuito alla valorizzazione delle potenzialità del thesaurus stesso.

Secondo la ISO 2788:1985

il thesaurus è un vocabolario di un linguaggio di indicizzazione controllato, organizzato formalmente in maniera da rendere esplicite le relazioni “a priori” 92 fra i concetti,

mentre la definizione fornita dalla ISO 25964:2011 è la seguente:

controlled and structured vocabulary in which concepts are represented by terms, organized so that relationships between concepts are made explicit, and preferred terms are accompanied by lead-in entries for synonyms or quasi-synonyms.

Negli anni Ottanta il thesaurus era uno strumento utilizzato per lo più da professionisti dell’informazione per l’indicizzazione e la ricerca di documenti prevalentemente in ambiente cartaceo, mentre oggi esso è utilizzato anche dagli utenti come strumento di accesso all’informazione, tramite navigazione o ricerca per parola chiave. Si è ritenuto perciò necessario aggiornare e adattare i contenuti delle norme esistenti ad un ambiente digitale, nel quale i thesauri sono concepiti soprattutto come strumenti di information retrieval. La definizione fornita dalla ISO 25964:2011 introduce la differenza tra termini preferiti e non preferiti e il fatto che i sinonimi e i quasi sinonimi siano legati tra di loro per mezzo di rinvii, non riferendosi esclusivamente alla pratica

Règles d’établissement des thésaurus monolingues e la NF Z 47-101-1990 - Principes directeurs pour l’établissement des thésaurus multilingues.

90 <http://www.w3.org/XML/>. 91 <http://zthes.z3950.org/>.

92 Le relazioni paradigmatiche o “a priori” tra i concetti sono così definite dalla ISO 25964:2011: “Relationship between concepts which is inherent in the concepts themselves”. Si tratta cioè di relazioni che, contrariamente a quelle sintagmatiche, sono sempre valide indipendentemente dai contesti specifici di indicizzazione o di definizione del thesaurus. Le relazioni sintagmatiche sono perciò sconsigliate all’interno dei thesauri.

44

dell’indicizzazione, ma anche al recupero dell’informazione, che può avvenire a partire da tutti i termini appartenenti al vocabolario d’accesso93. In questo senso, obiettivo del thesaurus è quello di far sì che sia il professionista dell’informazione, che l’utente utilizzino lo stesso termine preferito per individuare un dato concetto o che l’utente arrivi al recupero dell’informazione pur utilizzando una chiave di ricerca diversa da quella preferita.

Pur garantendo continuità con il panorama normativo precedente, la ISO 25964:2011 introduce delle modifiche e delle novità legate al nuovo ruolo che si riconosce al thesaurus in ambiente digitale. Rispetto, ad esempio, alla norma ISO 2788:1896, focalizzata principalmente sul controllo terminologico, e quindi sulla scelta della forma dei termini da inserire nel thesaurus, sulle tipologie di relazioni che possono essere stabilite tra un termine e l’altro e sulla presentazione delle due modalità di visualizzazione del thesaurus stesso, alfabetica e sistematica, la nuova norma prevede: regole e raccomandazioni riguardo ai software per la costruzione e la gestione di un thesaurus; modelli di dati per il thesaurus monolingue e per quello multilingue; attenzione rivolta verso l’interoperabilità tra sistemi basati sull’uso di thesauri, sistemi di indicizzazione e di IR, con le conseguenti raccomandazioni relative ai formati94 e ai protocolli di scambio delle informazioni e ai modelli per le operazioni di importazione ed esportazione dei dati; maggiore rilevanza attribuita alla ricerca di informazione con scelte più accurate anche nell’inserimento dei termini composti e nella scelta dei quasi sinonimi; introduzione della differenza tra concetto e termine, quest’ultimo inteso come forma linguistica per rappresentare il primo; possibilità di specificare la generica relazione RT precisando se si tratta di causa/effetto, processi/prodotti, ecc.

Nella norma stessa, infatti, si precisa che, oltre ad essere strumenti elettronici, realizzati con l’ausilio di software dedicati, i thesauri vengono sempre più spesso integrati con altre applicazioni web, quali motori di ricerca, centri di documentazione e sistemi di content management in generale.

La nuova norma, quindi, si occupa della realizzazione e dell’utilizzo dei thesauri in contesti di information retrieval. Le indicazioni fornite, dunque, sono perfettamente coerenti con l’utilizzo del thesaurus nell’ambito della sperimentazione sul centro di documentazione. Scelte differenti, tuttavia, possono presentarsi per la costruzione di questo strumento come sistema per l’organizzazione della conoscenza di dominio. Tali differenze saranno

93 “Costituito sia dai termini preferiti che dai termini non preferiti, cioè dai termini che non possono essere utilizzati per l'indicizzazione e che rimandano a termini preferiti”

SERAFINA SPINELLI, Introduzione all’indicizzazione, 2006 < http://biocfarm.unibo.it/~spinelli/indicizzazione/>.

94 Tra i formati disponibili vengono citati: MARC (MAchine-Readable Cataloguing), SKOS (Simple Knowledge Organisation Systems), Zthes, DD 8723-5.

45

sottolineate di volta in volta e risulteranno più evidenti nella parte relativa al centro di documentazione (3).