• Non ci sono risultati.

Importanza dell’uso di vocabolari controllati e schemi semantic

Sviluppo di uno schema di metadati a supporto descrittivo dei contenuti di ricerca nei Repository Istituzionali alla luce delle

4.1 Importanza dell’uso di vocabolari controllati e schemi semantic

Vocabolari controllati e schemi semantici come, ad esempio, le liste di controllo di autorità dei nomi in forma normalizzata, sistemi di classificazione, Thesauri, mappe topiche, Ontologie, sono noti genericamente come Sistemi di Organizzazione della Conoscenza (Knowledge Organisation Systems, KOSs). Questi sistemi, tramite le voci di autorità, sinonimi, varianti ortografiche, gerarchie tesaurale, strumenti concettuali analoghi (classi, associazioni), offrono un modo sistematico per organizzare, normalizzare, arricchire semanticamente, potenziare l’accesso e il recupero dei contenuti digitali (Guerrini M., Tillett B., Sardo L. 2003, p.11; Salo D. 2009).

Diversi KOS sono mantenuti da un’autorità (es. NACO della Library of Congress) che assicura che tutti i termini siano definiti in modo coerente e abbiano relazioni ben definite. In teoria, qualsiasi pezzo di informazione è suscettibile al controllo d'autorità come, ad esempio, Nomi personali e di Enti, Titoli uniformi, Serie e Soggetti. Intestazioni uniche (termini espressi da una stringa o un identificatore dell’indirizzo web) assegnate, per esempio, ai valori dei pezzi di informazione come Autore, Soggetto, Titolo e utilizzate poi in modo coerente, univoco e senza ambiguità, possono diventare parte di database chiamate file di autorità (Authority Files). Questi file, così come i loro legami logici ad altri file collegati, devono essere mantenuti e aggiornati in continuazione dai professionisti di metadati e altri professionisti dell'informazione.

Repository Istituzionali Open Access e strategie Linked Open Data

184

Molti KOS vengono espressi con i formalismi SKOS (Simple Knowledge Organization Systems) e pubblicati come LOD (vedi sito Library Linked Data Incubator Group: Datasets, Value Vocabularies), per essere facilmente comprensibili, condivisi e riutilizzati sul Web Semantico da diverse comunità di utenti. Nonostante questa felice proliferazione di KOS in SKOS/LOD, per una loro consistente implementazione negli IR vi sono ancora diverse questioni aperte. Ad esempio, non esistono KOS che possano essere universalmente applicabili in tutti i Repository, al fine di qualificare/normalizzare i Nomi degli Autori. Ad esempio, l’implementazione del file internazionale di autorità VIAF (Virtual International Authority File) LOD, che contiene i nomi normalizzati una enorme quantità di autori, potrebbe essere molto limitato a questo scopo. In questo caso serve:

• sviluppare i database (per file di autorità) locali con le voci normalizzate e identificate con gli indirizzi web persistenti URI, al fine di contribuire ad una risoluzione univoca del controllo dei Nomi sul web a lungo termine; • pubblicare le entità di tali database come LOD e distribuirli sotto le

Licenze Aperte, che consentirebbe diversi agenti web di conoscerli e di creare i derivati (es. versioni multilingue, collegamenti con altri database di autorità e file semantici in LOD).

Gli investimenti in tal senso risulteranno di sicuro di molto vantaggio (vedi sito NISO Framework Working Group), sia per l’organizzazione delle risorse che per gli utenti di Repository, in termini di una migliore ricerca, navigazione, accesso e recupero dell’informazione.

In Tabella 13 vengono presentati alcuni KOS con le voci (valori non letterali) identificate tramite URI (valori non letterali). L’implementazione di tali KOS negli IR sarebbe di grande beneficio, non solo per quanto riguarda il controllo di autorità e l’arricchimento semantico delle proprietà di metadati, ma anche per la creazione degli accessi multifocali ovvero degli accessi univoci e universali (es. la voce dal servizio LOD dewey.info - 000 Computer science, information & general works) proiettati, nello stesso tempo, in modo trasversale su diversi dataset e risorse distribuite sul web.

Authority file per qualificare il metadato Responsible Body Virtual International

Authority (VIAF)

È un Progetto congiunto di diverse Biblioteche nazionali più alcune Agenzie di biblioteche regionali e trans-nazionali, sostenuto dall’OCLC (Online Computer Library Center). L'obiettivo del file VIAF è quello di ridurre i costi e aumentare l'utilità di Authority File per le piattaforme digitali (es. Biblioteche e Archivi digitali) sul web tramite i corrispondenti collegamenti agli Authority Name Files per

185

l’uso normalizzato dei Nomi degli Autori identificati con i valori “non letterali“ URIs e pubblicati sul web come entità LOD.

MARC Code List for Relators

È una lista di termini che descrivono i ruoli di Autori, Relatori, più i loro codici associati per creare le relazioni tra i Nomi propri e le risorse bibliografiche.

ORCID (Open Researcher and Contributor ID)

È un registro avviato nel 2010 come iniziativa no-profit. Consente la registrazione di identificatori univoci (alfa-numerici) per i ricercatori. ORCID: (1) risponde al problema, condiviso da molti ricercatori singoli oltre che dalle istituzioni, di collegare in modo attendibile gli autori alle pubblicazioni; (2)è più di un semplice registro, è la collaborazione di una comunità per integrare questi identificatori nel workflow della ricerca; (3) prevede due modalità di registrazione degli ID: gli utenti singoli possono registrare e aggiornare il proprio ID gratuitamente, e utilizzarlo in tutte le situazioni in cui possa essere integrato nei workflow tradizionali della ricerca.

FOAF (Friend Of A Friend)

È un'ontologia comprensibile dal computer atta a descrivere persone, con le loro attività e le relazioni con altre persone e oggetti. Chiunque può usare FOAF per descriversi. FOAF permette a gruppi di persone di descrivere quel fenomeno noto come Social Network senza la necessità di accedere a un database centralizzato. FOAF è un vocabolario descrittivo espresso tramite il modello dei dati RDF e Web Ontology Language OWL. I computer possono usare FOAF, ad esempio, per cercare tutte le persone che vivono in Europa, o tutte le persone che hanno un amico in comune, questo appunto perché permette di definire le relazioni tra persone. Ogni profilo ha un identificativo univoco (come ad esempio l'indirizzo email, l'URI dell'homepage o del blog della persona) che viene utilizzato quando vengono definite le relazioni.

Authority file per qualificare il metadato Subject

Dewey Decimal

Classification (DDC)

OCLC (Online Computer Library Center) ha rilasciato il set completo di DDC 23 come Linked Open Data attraverso il servizio Dewey.info, uno spazio online di sperimentazione per DDC in Linked Data (più di 25.000 numeri assegnabili e didascalie in inglese).

Library of Congress (LC) Classification (LCC)

È un sistema di classificazione bibliografica sviluppato dalla Library of Congress. È utilizzato da gran parte delle biblioteche degli istituti di ricerca e universitari degli Stati Uniti e da molte biblioteche simili in altri paesi, anche se numerose biblioteche pubbliche di dimensioni medio-grandi continuano a servirsi della Classificazione decimale Dewey.

Essa essenzialmente è di natura enumerativa, ma suddivide i Soggetti in categorie estese contraddistinguendole con lettere maiuscole. È disponibile anche come Linked data tramite il servizio LC’s Linked Data Service (ID.LOC.GOV)

Repository Istituzionali Open Access e strategie Linked Open Data

186

Library of Congress (LC)

Subject Headings

(LCSH)

La versione SKOS di LCSH, disponibile anche come LOD tramite il servizio LC’s Linked Data Service (ID.LOC.GOV), è costituita da 30.000 concetti monolingue (inglese) per definire intestazioni di Soggetto. In confronto con Thesauri, intestazioni si riferiscono alle voci pre-coordinate (es. children and terrorism), mentre Thesauri tendono ad utilizzare termini diretti singolari.

The UNESCO Thesaurus La versione del Thesaurus espressa con i formalismi per il Web SKOS

(Simple Knowledge Organization System) è disponibile in quattro lingue (inglese, spagnolo, francese e russo). UNESCO Thesaurus è strutturato in sette settori principali suddivisi in micro-thesauri che consentono all'utente di ottenere una rapida panoramica della materia. Può essere utilizzato per descrivere le risorse nei domini di istruzione, cultura, scienze naturali, scienze umane e sociali, comunicazione e informazione.

Il Thesaurus del Nuovo Soggettario

È lo strumento realizzato dalla Biblioteca nazionale centrale di Firenze (BNCF) per l'indicizzazione per soggetto in Biblioteche, Archivi, Mediateche e Centri di documentazione. È costituito da un sistema a più componenti di cui le principali sono: un insieme di Norme sintattiche e semantiche finalizzate all'elaborazione di intestazione di Soggetto; un Thesaurus multidisciplinare in lingua italiana contenente la terminologia impiegabile nell'indicizzazione e nella ricerca per Soggetto dagli utenti di cataloghi online e altre basedati.

Il Nuovo Soggettario, in quanto strumento di ricerca in rete, si pone nella prospettiva di sviluppare ancora questo versante, per consentire il collegamento tra il thesaurus e altri tipi di vocabolari ma anche, in senso tecnico, per adottare protocolli Standard e formati adeguati allo scambio di dati, nell’ottica di un’apertura verso domini non librari e nella previsione di integrazione fra diversi Repository.

Per far questo, l'insieme dei metadati del Thesaurus del Nuovo soggettario è stato reso disponibile nel formato SKOS/RDF (mappatura in SKOS v. 0.1 del giugno 2010) ed è accessibile anche attraverso il protocollo Zthes: ciò rientra nell’intenzione della BNCF di promuovere l'uso dei metadati bibliografici anche al di là del tradizionale ambito bibliotecario. Su questo versante, essa ha in corso collaborazioni e contatti a livello nazionale e internazionale per definire le modalità di pubblicazione in rete, come LOD, dei metadati elaborati.

EuroVoc Thesaurus È un Thesaurus multilingue (23 lingue ufficiali dell'Unione europea)

e pluridisciplinare che comprende la terminologia dei settori d'attività dell'Unione europea, con un'attenzione particolare per l'attività parlamentare. È passato ad una gestione del Thesaurus basata sull'Ontologia e sulle tecnologie del Web Semantico, in linea con le

187

raccomandazioni del W3C e con gli ultimi sviluppi negli Standard di classificazione.

AGROVOC Thesaurus È un thesaurus strutturato multilingue (22 lingue) che riguarda (con

oltre di oltre 30.000 concetti) tutti i campi tematici di agricoltura, silvicoltura, pesca, sicurezza alimentare e settori affini.

L'obiettivo principale del dizionario AGROVOC è quello di standardizzare i processi di indicizzazione al fine di facilitare la ricerca all'interno dei sistemi informativi, renderla più efficace e fornire agli utenti i risultati più rilevanti.

AGROVOC in linea come LOD (essendo per anche collegato con tanti altri vocabolari e schemi LOD) risulta molto appetibile per diversi IR managers, per creare le connessioni con i contenuti di altri IR e sistemi di autorità sul web. Inoltre, gli aggiornamenti al Thesaurus sono disponibili immediatamente, riducendo il tempo e lo sforzo necessari per scaricare regolarmente ed incorporare l’ultima versione del Thesaurus nell’ applicazione.

Library of Congress' Thesaurus for Graphic Materials

È uno strumento in LOD per l'indicizzazione (più di 7.000 termini di soggetto) dei contenutivisivi (fotografie, stampe, disegni di progettazione ecc.). Sono aggiunti regolarmente i nuovi termini.

STW (Standard- Thesaurus Wirtschaft): Thesaurus for

Economics

È un Thesaurus bi-lingue (inglese, tedesco), che fornisce il vocabolario su qualsiasi argomento nel campo di economia: circa 6.500 intestazioni per soggetto standardizzati e circa 18.000 termini per definire l’accesso semantico e normalizzato alle risorse.

GEMET (the GEneral

Multilingual Environmental Thesaurus)

È un Thesaurus LOD che copre il dominio di ambiente, ed è disponibile in 29 lingue. La sua versione SKOS è costituita da oltre 5.000 concetti.

Getty Thesaurus of

Geographic Names

(TGN)

È un vocabolario strutturato di nomi geografici e di altre informazioni per l'indicizzazione delle risorse nell’arte e nell’architettura.

ONTOLOGIE

Documenti correlati