• Non ci sono risultati.

Indicizzazione per soggetto

A. Principi generali

Scopo dell’indicizzazione per soggetto è identificare, per ogni opera, uno o più soggetti che ne riflettano il contenuto concettuale nella misura il più possibile esaustiva e rappresentarli in forme idonee mediante l’impiego di un linguaggio detto linguaggio di indicizzazione, così da facilitare il recupero dell’informazione. Tale linguaggio è un particolare tipo, verbale e controllato, di sistema per l’organizzazione della conoscenza (KOS).

Nel Nuovo soggettario le unità di base del linguaggio di indicizzazione sono i termini del Thesaurus, collegati fra loro da due tipi di relazioni: le relazioni semantiche, attraverso le quali si costruisce fra i termini una rete semantica, e le relazioni sintattiche, attraverso le quali si costruiscono con i termini unità complesse, le stringhe di soggetto assegnate alle risorse. Termini e stringhe hanno la funzione di descrivere i soggetti delle opere, ossia i temi in esse trattati, e di facilitarne il recupero in fase di ricerca.

Il linguaggio di indicizzazione è parte di un sistema informativo che mira a descrivere chiaramente e univocamente le risorse, a mettere a disposizione dell’utente strumenti e

modalità di ricerca efficaci che gli consentano di trovare e selezionare le più appropriate, di esplorare quelle che hanno fra loro relazioni significative, di scoprire nuove risorse, di accedere a quelle selezionate. Nel modello concettuale per le informazioni bibliografiche IFLA LRM25 queste esigenze dell’utente sono ricondotte a cinque funzioni principali:

trovare, identificare, selezionare, ottenere, esplorare. Le funzioni e i modi in cui il Nuovo soggettario ne agevola lo svolgimento da parte dell’utente sono descritti in 1.3 e 1.4.

I principali parametri di valutazione dei risultati di una ricerca in cataloghi e altri strumenti di recupero dell’informazione sono il richiamo e la precisione. Il richiamo indica il numero di risorse pertinenti e rilevanti recuperate sul totale delle risorse pertinenti e rilevanti disponibili; la precisione indica il numero di risorse pertinenti e rilevanti sul totale delle risorse recuperate. La misura ottimale consiste nel recupero di tutte e soltanto le risorse pertinenti e rilevanti.

Pertinenza significa attinenza di una risorsa a un determinato tema. Rilevanza significa importanza o utilità di una risorsa per l’utente in un determinato contesto o per un particolare fine26. Al termine del processo di recupero dell’informazione spetta all’utente giudicare se le risorse trovate siano effettivamente rilevanti e in quale misura, ovvero se siano rispondenti alle sue intenzioni di ricerca e se forniscano l’informazione desiderata.

Tuttavia, nell’interazione con il catalogo, i criteri e i modi con cui i soggetti delle opere sono individuati, selezionati, rappresentati nel linguaggio di indicizzazione e reperibili in fase di ricerca favoriscono il giudizio presuntivo di rilevanza da parte dell’utente.

Le nozioni di pertinenza e rilevanza sono precisate in vari punti di questa Guida: in relazione ai principi che governano l’indicizzazione per soggetto (A.1-A.3), ai criteri per l’individuazione e la selezione dei soggetti di un’opera (B), alle procedure di analisi concettuale dei documenti (D.1), alle funzioni per l’utente e alle modalità di ricerca nel catalogo (1.4).

Come detto, il risultato ottimale di una ricerca per soggetto consiste nel recupero di risorse pertinenti e rilevanti. Per tendere a questo risultato l’indicizzazione per soggetto risponde ad alcuni principi generali che mirano alla completezza e alla precisione, alla coerenza e alla chiarezza nel processo di identificazione, selezione e rappresentazione dei soggetti delle opere.

Questi principi sono riconducibili alle nozioni di esaustività dell’enunciato di soggetto, di

25 International Federation of Library Associations and Institutions, IFLA Library Reference Model (LRM): a conceptual model for bibliographic information, Pat Riva, Patrick Le Bœuf, and Maja Žumer. IFLA, December 2017, <https://www.ifla.org/publications/node/11412>, di seguito citato come IFLA LRM (edizione italiana a cura dell’Istituto centrale per il catalogo unico delle biblioteche italiane e per le informazioni bibliografiche.

Roma: ICCU, 2020, <https://www.iccu.sbn.it/export/sites/iccu/documenti/2020/IFLA_LRM_ITA.pdf>).

26 Il significato delle nozioni di pertinenza e di rilevanza non è costante nella letteratura professionale: in qualche caso i due termini sono usati con significato inverso, in altri il loro significato è ricondotto a differenti proprietà di un’unica nozione, la rilevanza. Inoltre, queste nozioni sono state considerate da differenti punti di vista e possono essere applicate ai risultati delle diverse fasi del processo di indicizzazione e di recupero dell’informazione. Qui sono impiegate nel loro uso corrente (vedi in proposito i lemmi pertinenza e rilevanza nel Vocabolario Treccani; vedi anche il lemma relevance in The Merriam-Webster Dictionary).

specificità dei termini di indicizzazione, di coestensione della stringa di soggetto, di uniformità e univocità nella rappresentazione dei soggetti. I principi di esaustività, specificità e coestensione puntano a una descrizione accurata dei soggetti delle opere, il più possibile fedele al loro contenuto concettuale; quelli di uniformità e univocità puntano alla coerenza e alla chiarezza del linguaggio di indicizzazione impiegato per rappresentare i soggetti. Nel loro insieme, concorrono a ottenere un rapporto ottimale fra richiamo e precisione nel recupero delle risorse pertinenti e rilevanti.

Questi principi si applicano a entrambe le forme di indicizzazione, pre-coordinata e post-coordinata (vedi F.1), ad eccezione del principio di coestensione che opera solo nell’ambito di un’indicizzazione pre-coordinata (vedi A.3).

Nell’indicizzazione per soggetto si enucleano e rappresentano i contenuti concettuali delle opere: le unità di base sono i concetti (‘unità di pensiero’27).

Come in ogni linguaggio, al piano concettuale corrisponde in modo inscindibile il piano linguistico: per nominare un concetto si ricorre a un termine che lo esprime, in una sorta di sovrapposizione dei due piani. Ne è prova il fatto che, per la scelta del termine più adatto a esprimere un concetto, sia necessario vagliare il significato dei termini candidati, cioè il loro valore concettuale, in un rispecchiamento fra significato e significante. Nel Thesaurus ad ogni concetto corrisponde un termine, che lo designa in modo uniforme e univoco.

Nella presente Guida si rispetta l’impiego distinto delle due parole, concetto o termine, a seconda che ci si riferisca al piano concettuale o a quello linguistico.

Nell’intreccio dei due piani si evita di ripetere ogni volta formule come ‘il concetto e il termine che lo rappresenta’ o ‘il termine che rappresenta il concetto’, dando per sottintesa la relazione fra i due: si impiega ‘concetto’ o

‘termine’ secondo la maggior attinenza del discorso al piano del pensiero o a quello della lingua. Tuttavia, l’uso consolidato e persistente delle sigle BT, NT, RT (per termine più generale, termine più specifico, termine associato) fa sì che siano riferite ai termini anche relazioni che in realtà sono ancor prima relazioni fra concetti.

Questa distinzione, correlazione e semplificazione trova riscontro nella relazione stabilita in IFLA LRM fra l’entità res e il suo appellativo nomen e nel modo in cui a volte vi sono praticate ‘scorciatoie’, che riferiscono direttamente ai nomen relazioni che coinvolgono le rispettive res.

Distinguere chiaramente l’entità concettuale e quella linguistica risulta inoltre funzionale alla mappatura e all’interoperabilità con altri sistemi di organizzazione della conoscenza (KOS); per esempio, permette di dichiarare l’equivalenza fra termini di diversi vocabolari in quanto rappresentativi dello stesso concetto.

Nella presente Guida si impiegano in modo sostanzialmente equivalente i termini documento e risorsa per indicare l’oggetto al quale si applicano le operazioni di

27 «Concept: a unit of thought» (International Organization for Standardization, ISO 25964-1:2011 – Information and documentation. Thesauri and interoperability with other vocabularies. Part 1: Thesauri for information retrieval, current version, reviewed and confirmed in 2017. Geneva: ISO, 2011, p. 3, di seguito citato come ISO 25964-1:2011).

analisi e indicizzazione per soggetto, ossia ogni entità, di qualsiasi forma e in qualsiasi supporto, contenente informazioni da recuperare. Il primo, documento, è il termine impiegato tradizionalmente nell’indicizzazione e negli standard che ne raccomandano le procedure e i metodi28; il secondo, risorsa, è andato diffondendosi negli ultimi anni per la sua familiarità nell’ambito del web semantico29 e per la preminente attenzione della catalogazione alla descrizione di risorse prodotte e disseminate con le tecnologie digitali30. Con analogo significato si usano anche i termini risorsa bibliografica31, risorsa documentaria e risorsa di biblioteca.

In base al modello concettuale IFLA LRM, una risorsa è analizzabile secondo aspetti distinti, che la caratterizzano come opera (il contenuto intellettuale o artistico di una determinata creazione), espressione (la specifica forma intellettuale e/o artistica in cui è espresso), manifestazione (il supporto e la forma fisica in cui si realizza), item (uno o più oggetti fisici che costituiscono esemplari o istanze della manifestazione). Questi aspetti di una creazione intellettuale o artistica sono dichiarati nel modello come entità distinte, che rappresentano sottoclassi di una classe più generale (res). Le istanze di ciascuna entità sono caratterizzate da specifici attributi e collegate alle istanze delle altre entità da determinate relazioni.

Sulla base di queste considerazioni, possiamo definire i termini

28 «Document: any resource that can be classified or indexed in order that the data or information in it can be retrieved. Note: This definition refers not only to written and printed materials in paper or microform versions (for exemple, conventional books, journals, diagrams, maps), but also to non-printed media such as machine-readable and digitized records, Internet and intranet resources, films, sound recordings, people and organizations as knowledge resources, buildings, sites, monuments, three-dimensional objects or realia; and to collections of such items or parts of such items» (ISO 25964-1:2011 cit., p. 3). La medesima definizione compare in International Organization for Standardization, ISO 25964-2:2013 – Information and documentation. Thesauri and interoperability with other vocabularies. Part 2: Interoperability with other vocabularies, current version, reviewed and confirmed in 2018. Geneva: ISO, 2013, p. 4, di seguito citato come ISO 25964-2:2013.

29 Per il sito ufficiale dedicato al semantic web, il «Web of data», vedi

<https://www.w3.org/standards/semanticweb/>.

30 «Risorsa (Resource): Opera, espressione, manifestazione o item. Il termine include non solo un’entità individuale ma anche aggregati e componenti di tali entità (per esempio, tre fogli di carte geografiche, una diapositiva singola pubblicata come parte di un insieme di venti diapositive, l’articolo di un fascicolo di un giornale accademico). Può indicare un’entità tangibile (per esempio, un’audiocassetta) o un’entità intangibile (per esempio un sito web)» (RDA: resource description & access, developed in a collaborative process led by the Joint Steering Committee for Development of RDA (JSC) representing the American Library Association ...

[et. al.], version April 2014, edizione italiana a cura dell’Istituto centrale per il catalogo unico delle biblioteche Italiane e per le informazioni bibliografiche. Roma: ICCU, 2015, <https://www.iccu.sbn.it/it/eventi-novita/novita/Resource-Description-Access-RDA/>.

31 «Bibliographic resource: An entity, tangible or intangible, that comprises intellectual and/or artistic content» (International Federation of Library Associations and Institutions, Statement of international cataloguing principles (ICP), by IFLA Cataloguing Section and IFLA Meetings of Experts on an International

Cataloguing Code. IFLA, December 2016, p. 14,

<https://www.ifla.org/files/assets/cataloguing/icp/icp_2016-en.pdf> (traduzione italiana a cura del Gruppo di lavoro tecnico per la traduzione degli ICP 2016. Maggio 2017,

<https://www.ifla.org/files/assets/cataloguing/icp/icp_2016-it.pdf>: «Risorsa bibliografica (Bibliographic resource): Entità, tangibile o intangibile, che comprende un contenuto intellettuale e/o artistico», p. 17).

risorsa/documento nel modo seguente: entrambi i termini denotano un’entità, tangibile o intangibile, concepita, prodotta e pubblicata come un’unità distinta, che comprende un’opera, un’espressione, una manifestazione, un item. Questa definizione include tutte le possibili forme e mezzi di registrazione e trasmissione della conoscenza, tutti i tipi di materiale trattati nelle biblioteche e nelle altre istituzioni della memoria registrata (archivi e musei): manoscritti, libri antichi e moderni, ebook, periodici, musica notata ed eseguita, immagini fisse e in movimento, carte geografiche, fotografie, registrazioni sonore, documenti d’archivio, oggetti d’arte e reperti di ogni tipo, risorse online, siti web; raccolte, singoli esemplari o parti di tali prodotti.

Questa definizione non include, invece, altre entità dell’universo bibliografico di natura diversa da quelle sopra indicate (per esempio una persona come autore;

oppure, nell’ambito dell’indicizzazione per soggetto, un concetto o un’entità individuale come soggetto), sebbene anch’esse possano essere genericamente identificate come risorse. Occorre, inoltre, avvertire che nell’ambito del web il termine risorsa è impiegato con un’accezione ancora più ampia, a indicare qualunque cosa identificata da un URI (Uniform Resource Identifier).

L’articolazione della risorsa/documento nei diversi aspetti che ne caratterizzano l’unità (opera, espressione, manifestazione, item), secondo il modello concettuale IFLA LRM, fornisce una base adeguata alle operazioni di indicizzazione per soggetto. Si considera ora l’uno ora l’altro aspetto a seconda della relazione stabilita fra un dato e la risorsa stessa: per esempio il soggetto si riferisce all’opera, ossia al contenuto concettuale, attraverso le specifiche forme intellettuali o artistiche delle espressioni che la realizzano, mentre un concetto nel ruolo di forma fisica si riferisce alla manifestazione. Con la formulazione di un soggetto si fornisce un’informazione a livello di opera, valida nelle sue varie espressioni; con l’indicazione di una forma fisica si forniscono informazioni a livello di manifestazione. Queste distinzioni e la loro applicazione nell’indicizzazione per soggetto sono spiegate in C.

Coerentemente con il modello concettuale IFLA LRM, la pertinenza e la rilevanza – che determinano il richiamo e la precisione – appartengono all’opera indicizzata e non alle manifestazioni che la incorporano. Tuttavia, poiché spesso i sistemi di registrazione dei dati legano gli indici semantici alle sue manifestazioni, è inevitabile riferire a queste anche i parametri di valutazione della pertinenza e della rilevanza32.

A.1 Esaustività

Il principio di esaustività raccomanda di identificare e selezionare, nella fase di analisi concettuale del documento, tutti i concetti pertinenti e rilevanti per l’utente, cosicché il risultato del processo di indicizzazione – i singoli termini di indicizzazione o le stringhe di

32 Nel contesto del Servizio bibliotecario nazionale (SBN) e dei suoi strumenti catalografici è in corso un progetto dell’Istituto centrale per il catalogo unico delle biblioteche italiane e per le informazioni bibliografiche (ICCU) volto a collegare soggetti e classi non più alle manifestazioni ma alle opere, tramite il titolo che le identifica.

soggetto – rappresenti nel modo più completo i principali e più importanti contenuti concettuali dell’opera. La nozione di esaustività, infatti, si riferisce alla quantità di elementi (concetti e loro relazioni) identificati e selezionati durante l’analisi del documento, nonché alla loro completezza ai fini di una rappresentazione esauriente del soggetto o dei soggetti di un’opera. Questi elementi trovano espressione, a conclusione delle operazioni di analisi, in uno o più enunciati di soggetto (vedi D.1.4) da tradurre nel linguaggio di indicizzazione.

Nell’indicizzazione di un’opera, il principio di esaustività è soddisfatto nella misura in cui sono individuati, selezionati e rappresentati:

i concetti attinenti al suo tema di base, ossia idonei a identificarne il soggetto complessivo o centrale;

i concetti attinenti a temi particolari ritenuti importanti ai fini del recupero del documento;

− altre caratteristiche o aspetti rilevanti, espressivi del contenuto dell’opera o della sua forma.

L’esaustività è influenzata, in primo luogo, da una corretta analisi concettuale del documento ed è strettamente legata alla nozione di ‘soggetto’ illustrata nel paragrafo B.

Il grado di esaustività, ossia la quantità degli elementi selezionati e rappresentati nell’indicizzazione, può dipendere da molteplici fattori: particolari scopi dell’indicizzazione, esigenze degli utenti, tipologia delle opere da indicizzare, raggio di interesse del catalogo, caratteristiche e limiti degli strumenti di indicizzazione impiegati.

Per esempio, quando si indicizzano risorse iconografiche o letterarie può essere necessario identificare e selezionare uno o più soggetti per ciascun livello di analisi dell’opera. Per questo tipo di opere, viene generalmente creato un numero di accessi per soggetto mediamente più alto rispetto ad altre tipologie.

Nel caso delle opere antiche (vedi C.2), la loro natura peculiare e spesso eterogenea (in relazione a temi, forme editoriali, ecc.) e la dimensione temporale della loro fruizione possono influenzare il giudizio di rilevanza, rendendo opportuna la segnalazione di più temi specifici.

In base al numero e alla tipologia di concetti identificati, selezionati e rappresentati nell’indicizzazione, si distinguono due procedimenti, noti come sommarizzazione e indicizzazione spinta: con il primo s’intende un livello di analisi finalizzato prevalentemente all’indicizzazione del tema di base di un’opera, con il secondo anche di temi particolari e di altre caratteristiche o aspetti del suo contenuto valutati come meritevoli di essere segnalati.

A.2 Specificità

Il principio di specificità raccomanda che ogni concetto identificato e selezionato durante l’analisi concettuale del documento sia espresso dal termine che lo rappresenta nel modo più preciso. La nozione di specificità, infatti, si riferisce all’esattezza con cui un

concetto è specificato dal linguaggio di indicizzazione. Il principio può essere soddisfatto nel modo seguente: per ogni concetto, impiegare il termine che lo esprime con maggiore precisione.

Se un concetto è rappresentato da un termine con un significato più generale si ha una perdita di specificità, con una conseguente diminuzione del grado di precisione nel recupero dei documenti. Per questo motivo i concetti dovrebbero essere espressi nel modo più specifico possibile. Eccezionalmente, un concetto può essere rappresentato da un termine più generale se si ritiene che il termine corrispondente sia così specifico da non essere utilizzato nella ricerca (per esempio perché il concetto appartiene a un’area marginale del campo coperto dall’indicizzazione), oppure perché non supportato da adeguata garanzia bibliografica. Tuttavia, se un linguaggio di indicizzazione, come il Nuovo soggettario, dispone di un thesaurus che garantisce l’accesso ai termini specifici anche da termini più generali, si dovrebbe scegliere sempre il termine più specifico per rappresentare un concetto.

A.3 Coestensione

Il principio di coestensione raccomanda che, quando il soggetto di un’opera è rappresentato nel linguaggio di indicizzazione in forma pre-coordinata, la stringa di soggetto sia coestesa con il soggetto, ossia contenga tutti gli elementi (concetti e loro relazioni) idonei a esprimerlo nel modo più completo. La nozione di coestensione, infatti, si riferisce al grado completezza con cui un soggetto è rappresentato nella relativa stringa. Il principio può essere soddisfatto nel modo seguente: per ogni soggetto, costruire una stringa di soggetto coestesa, ossia ad esso esattamente corrispondente.

Se di un’opera sono identificati e selezionati più soggetti, si costruiscono altrettante stringhe di soggetto coestese.

Il principio di coestensione opera nell’ambito di un’indicizzazione pre-coordinata, che prevede la costruzione di sequenze ordinate di termini di indicizzazione (stringhe di soggetto) per rappresentare soggetti complessi, ossia composti da due o più concetti interrelati. È una misura relativa al grado di coordinazione dei concetti nella stringa di soggetto. Nel Nuovo soggettario la capacità del linguaggio di indicizzazione di combinare in modo logico i concetti in una stringa di soggetto è determinata dalle relazioni di ruolo comprese nello schema dei ruoli (vedi il cap. 3 e in particolare 3.6). Naturalmente è da considerare coestesa anche una stringa formata da un solo termine, quando il soggetto è espresso appropriatamente da un solo concetto.

Il principio di coestensione non si applica nell’indicizzazione post-coordinata, che impiega i termini di indicizzazione singolarmente, in modo indipendente l’uno dall’altro (vedi F.1).

La nozione di coestensione non va confusa con quella di esaustività. L’esaustività mette in relazione gli elementi identificati e selezionati mediante l’analisi concettuale (da tradurre poi nel linguaggio di indicizzazione) con i contenuti

dell’opera. Le domande da porsi sono: questi elementi esprimono in modo esauriente i temi ritenuti pertinenti e rilevanti? Oltre al tema di base è opportuno selezionare e segnalare altri temi? La coestensione mette in relazione la stringa di soggetto con il soggetto stesso, ossia con un tema selezionato, sia esso il tema di base o altro tema rilevante. In questo caso le domande sono: la stringa di soggetto contiene tutti gli elementi necessari e sufficienti a esprimere in modo completo il soggetto? È opportuno rappresentare nella stringa altri concetti, in quanto elementi utili a identificarlo con maggior esattezza?

La coestensione è una nozione distinta anche da quella di specificità. La specificità mette in relazione un concetto con il termine scelto per rappresentarlo. In questo caso la domanda da porsi, per ciascun concetto identificato e selezionato, è la seguente: il termine esprime con adeguata precisione il concetto che deve rappresentare?

Tutti e tre i principi illustrati sopra (esaustività, specificità e coestensione) concorrono a realizzare l’obiettivo della precisione lungo la catena sequenziale delle operazioni che costituiscono il processo di indicizzazione: dall’analisi concettuale alla scelta dei termini, alla costruzione delle stringhe di soggetto (vedi D). La precisione, infatti, è determinata sia dalla completezza con cui gli

Tutti e tre i principi illustrati sopra (esaustività, specificità e coestensione) concorrono a realizzare l’obiettivo della precisione lungo la catena sequenziale delle operazioni che costituiscono il processo di indicizzazione: dall’analisi concettuale alla scelta dei termini, alla costruzione delle stringhe di soggetto (vedi D). La precisione, infatti, è determinata sia dalla completezza con cui gli