• Non ci sono risultati.

Prime sperimentazioni di indicizzazione automatica

IL CATALOGO E I LINGUAGGI DI INDICIZZAZIONE SEMANTICA: IL NUOVO SOGGETTARIO

3.2 Il Nuovo Soggettario e i linked open data

3.2.2 Prime sperimentazioni di indicizzazione automatica

Le prime sperimentazioni di indicizzazione semantica, risalenti agli anni cinquanta del Novecento, non nascono in ambito biblioteconomico ma in quello della linguistica computazionale e dei primi sviluppi di intelligenza artificiale. Si concentrano inizialmente su uno dei problemi più sentiti nel campo dell’informazione: la sempre maggiore proposta editoriale di riviste scientifiche di tutti gli ambiti disciplinari ma, in particolare, del settore delle cosiddette scienze dure. I primi prototipi si concentrano quindi sull’estrazione automatica, tramite rilevazioni statistiche, di parole chiave dai titoli e dagli abstract di articoli scientifici (sono in un secondo momento si passerà all’intero testo).

Dato il maggior impegno intellettuale richiesto al catalogatore, l’indicizzazione semantica è una parte particolarmente costosa della catalogazione e, per questo motivo, anche a fronte di una sempre maggiore proposta editoriale, molte biblioteche sono costrette a rinunciarvi. Per questa ragione si sta sempre più diffondendo a livello internazionale l’idea di sostituire l’indicizzazione

110

intellettuale con delle procedure di tipo automatico o semi-automatico molto più sostenibili soprattutto per la descrizione di tipologie particolari di risorse come quelle digitali.

Esistono varie modalità per automatizzare l’indicizzazione, ancora in fase di sperimentazione e sviluppo, che si caratterizzano per diversi livelli di automatismo e per l’uso o meno di vocabolari controllati.

In linea generale questi sistemi permettono l’indicizzazione di un gran numero di risorse ma, senza l’intervento di una capacità umana di comprensione del testo, i termini vengono estratti in modo automatico basandosi su sistemi probabilistici più o meno raffinati. Questo comporta necessariamente un più basso livello di precisione e un più alto richiamo in fase di ricerca.

Per ottenere dei risultati migliori i termini estratti automaticamente possono essere comparati con dei vocabolari controllati o altri strumenti di controllo terminologico.

Anche la nazionale fiorentina, che per compito istituzionale è chiamata a «conservare la memoria della cultura e della vita sociale»105 registrata «su

qualsiasi supporto sia analogico che digitale»106, si trova a dover gestire un corpus

di risorse digitali sempre più grande. Per questo motivo ha avviato nel 2011 un progetto di indicizzazione automatica di risorse digitali acquisite per deposito legale avvalendosi di due partner privati esperti nel settore: Casalini libri e @Cult.107

105 Legge n.106/2004 Norme relative al deposito legale dei documenti di interesse culturale destinati

all’uso pubblico, art. 1.

106 D.P.R. 30 maggio 2006, n. 252 Regolamento recante norme in materia di deposito legale dei

documenti di interesse culturale destinati all'uso pubblico, art. 2.

107 Il progetto è stato descritto in dettaglio nella tesi di dottorato di Elisabetta Viti, Interoperabilità

fra thesauri generali e thesauri specialistici, cit.

Si veda anche Elisabetta Viti, Indicizzazione automatica di risorse digitali: metodologie ed esperienze. In: Viaggi a bordo di una parola. Scritti sull'indicizzazione semantica in onore di

Alberto Cheti, a cura di Anna Lucarelli, Alberto Petrucciani, Elisabetta Viti; presentazione di Rosa

111

In un primo momento si è reso necessario definire chiaramente le procedure ed effettuare la scelta del set di documenti digitali su cui lavorare. Per l’estrazione di frasi chiave dai testi è stato scelto un algoritmo neozelandese molto diffuso in associazione a thesauri: il Keyphrase extraction algorithm (KEA). Il KEA utilizza un sistema di estrazione basato sul rapporto tra la frequenza di un termine all’interno di un documento e quella del termine in un set di documenti controllati. Si è passati quindi alla creazione di “modelli di apprendimento”, una sorta di programmazione iniziale in cui si prepara una “conoscenza base” attribuendo un “peso” a dei documenti di controllo di un determinato dominio in funzione di alcuni parametri specifici; ciò permette di misurare frequenza e significatività dei termini estratti dal set documentale. I modelli vengono poi utilizzati come base di controllo e confronto con i termini estratti dalle risorse da indicizzare. Nella loro creazione, inoltre, si possono anche associare manualmente dei set di metadati come parole chiave o classificazioni e si possono specificare alcuni parametri come la lingua o, cosa più importante, il vocabolario utilizzato.

Per il “modello di apprendimento” della BNCF è stato scelto un campione di tesi di dottorato in lingua italiana e in formato PDF contenute nei repository universitari e ottenute tramite una procedura di harvesting con protocollo OAI- PMH.

Per facilitare la riuscita dell’esperimento sono state scelte tesi corredate da abstract e dai corrispondenti record descrittivi e prive di elementi grafici e formule matematiche.

Si è deciso quindi di non assegnare dei descrittori in modo manuale ma di acquisire automaticamente i dati semantici assegnati dalla classificazione disciplinare del MIUR e di convertirli tramite una tabella di mappatura con i corrispettivi termini del Thesaurus.

I modelli hanno permesso di indicizzare in modo automatico e semi-automatico un corpus di fascicoli scientifici in lingua italiana pubblicati da Firenze University

112

Press, alcuni papers dell’Università Carlo Cattaneo e alcuni ebook provenienti dalla teca della BNCF e da altre istituzioni. Come spiegano nel 2016 le due bibliotecarie della nazionale fiorentina coinvolte nel progetto Anna Lucarelli e Elisabetta Viti: «I risultati ottenuti non sono ancora soddisfacenti e per questo il nostro percorso di sperimentazioni non è affatto concluso. Vorremmo continuare i lavori, partendo da un'analisi degli aspetti da approfondire»,108 tra questi

sicuramente vi sono elementi di carattere tecnologico come l’efficacia dei software impiegati ma anche aspetti più concettuali come il tipo di intervento intellettuale necessario e le modalità di impiego ottimale del Thesaurus.

3.2.3 L'interoperabilità del Nuovo soggettario: gli equivalenti in altri