• Non ci sono risultati.

“Name Authority control is only one piece of the metadata-quality puzzle, but a piece worth examining“[Salo, 2009, p.1].

Analogamente alle lingue naturali, anche i linguaggi artificiali con i quali viene realizzata la mediazione tra una raccolta di documenti ed i suoi potenziali utenti sono costituiti […] da quattro componenti necessarie:

il VOCABOLARIO, cioè l’insieme delle espressioni elementari utilizzate per denominare le singole entità, i singoli attributi e le singole relazioni;

la SEMANTICA, che concerne il significato per il quale una determinata espressione è inclusa nel vocabolario ed impiegata nel linguaggio, e quindi le relazioni a priori che derivano da quel significato e lo definiscono;

la SINTASSI, che concerne la formazione, mediante ordinamento di singoli elementi tratti dal vocabolario, di espressioni più complesse;

la PRAGMATICA, che attiene alle condizioni e modalità di applicazione del linguaggio […]

La semantica referenziale concerne l’unicità di significato (univocità) di ciascuna delle espressioni elementari comprese nel vocabolario: è compito del Controllo d’Autorità garantire questa unicità, corredando ogni espressione di tutti gli elementi formali strettamente indispensabili e sufficienti ad impedire qualsiasi equivoco, di uso e di interpretazione” [Tartaglia, 2003, p.4].

Il linguaggio di indicizzazione controllato che l’indicizzatore usa per interpretare e rappresentare tematiche e concetti:

e’ un corpus di conoscenze rappresentate da un linguaggio specifico di un particolare argomento o area disciplinare [definiti da] collezioni di parole e di frasi, chiamate Terminologie, strutturate in modo da mostrare un ricco insieme di relazioni semantiche tra termini e concetti;

deve servire allo scopo di ridurre le distanze tra le domande degli uomini e le risposte dei sistemi, facilitando l’analisi dei documenti e il loro conseguente recupero.

Il processo che conduce al Vocabolario controllato permette sia all’indicizzatore che a chi cerca di accedere ai medesimi concetti attraverso termini autorizzati, noto come ‘descrittori’.

Il Vocabulary Control può essere supportato da una diversità di sistemi di organizzazione della conoscenza (Knowledge Organization Systems, KOSs)7 come Thesauri, Terminologie, Classificazioni, Schemi a intestazione di soggetto, Registri dell’autorità dei nomi ampiamente riconosciuti e condivisi, raccordando cosi anche diversi sistemi nelle operazioni di descrizione e di percorsi di ricerca e browsing delle risorse informative.

Nell’ottica di condivisione dei dati si deve cercare di promuovere e condividere le LISTE di AUTORITÀ con i termini controllati e altri KOS tra più sistemi e utenti nel contesto della Rete, caratterizzato dall’apertura e dalla necessità di convivenza con molti sistemi diversi, realizzando la tanto agognata interoperabilità sia tra diversi sistemi informativi digitali che tra i contenuti che essi ospitano [Gnolli, 2010 , presentazione].

Le procedure che hanno largamente beneficiato dell’informatizzazione e del Web sono le seguenti: Liste d’autorità (AUTHORITY FILE): compilazione di termini o di intestazioni autorizzate utilizzate da una singola organizzazione o da un consorzio per la catalogazione, l’indicizzazione o la documentazione […]

Controllo d’autorità (AUTHORITY CONTROL): un sistema di procedure che conserva informazioni consistenti nel RECORD di un database. Le procedure includono la registrazione dei termini e la loro validazione utilizzando Liste dì autorità, con l’obiettivo di consentire a chi cerca di collegare tra loro termini simili […] Questo lavoro può includere: verifica dei termini o dei nomi proposti in fonti autorevoli come dizionari, monografie o fonti storiche; ricerca di sinonimi come varianti fonetiche;

7

Dei KOS e degli approcci semantici all'informazione si occupa un'associazione internazionale International Society for Knowledge Organization (ISKO). ISKO Italia è un capitolo nazionale dell'associazione: <http://www.iskoi.org/>

134 definizione di relazioni tra termini o nomi; creazione di record di autorità [AUTHORITY RECORD] da

poter essere inseriti nella base di dati […]

L’intestazione è costituita da una registrazione, non solo da un nome, chiamata AUTHORITY RECORD, comprensiva della FORMA STANDARD, delle FORME VARIANTI e delle forme correlate in altre lingue […] Ciascun AUTHORITY RECORD è abbinato a uno o a più record bibliografici“ [schede descrittivi]: in tal modo il Catalogo digitale consente di accedere alle registrazioni delle opere di un Autore da qualsiasi forma correlata e da qualsiasi ordine di combinazione”

[Innocenti, pp.107-108].

L’uso di una forma controllata permette

all’utente di risparmiare tempo e fatica grazie alla esplicitazione dei RINVII alle FORME CONTROLLATE delle intestazioni e al raggruppamento delle opere sotto una sola forma [...]

a partire dall’esistenza di AUTHORITY FILE internazionali, reali o virtuali, in cui siano registrate le varianti del NOME di ciascuna entità e le forme parallele nelle diverse lingue e nei diversi alfabeti, si possono sviluppare delle interfacce adatte alle esigenze e alle scelte di ciascun utente

[Innocenti, 2004, pp.106-107, 109].

Un sistema di AUTHORITY CONTROL, i cui record siano in grado di accogliere tutti i dati occorrenti a far sì che essi possano fungere da punto di accesso agli altri sistemi collegati, potrà consentire la NAVIGAZIONE TRASVERSALE. Per realizzare questo sistema, occorrerà che l’AUTHORITY FILE venga alimentato dall’attività di catalogazione delle istituzioni coinvolte, prelevando, per così dire, da ciascuna determinati segmenti di informazione, che poi troveranno nella notizia del sistema di AUTHORITY CONTROL una ricomposizione funzionale [Weston, Galeffi, 2003, p.8]

Nei sistemi informativi digitali

L’autorevolezza della fonte diventa l’elemento discriminante, la selezione avviene a monte, preferendo scegliere la risorsa sulla base dell’autorevolezza di chi l’ha creata, anziché a valle, scegliendo acriticamente sulla base del ranking [dei risultati] che appaiono sulla pagina. La qualità della fonte, la certezza della provenienza diventano, dunque, elementi determinanti nel percorso esplorativo del ricercatore [Guerrini, Possemato, 2013, pp.9-10].

Gli IR nascono senza perseguire l’obiettivo di gestire forme di controllo di autorità sui metadati dei contributi depositati, ma è evidente che, per esempio, l’assenza del Controllo della forma del Nome dell’Autore rende difficoltoso il reperimento degli item prodotti da un singolo Autore e ostacola l’aggregazione delle opere. È sufficiente compiere una ricerca in Internet per avere un’idea delle difficoltà che possono incontrare gli utenti. Le cause sono diverse […] auto-archiviazione e auto- inserimento dei metadati da parte degli autori; procedure di inserimento dei dati in modalità automatizzata (batch); procedure di inserimento di dati archiviati (backfiles) per i quali non sono state controllate le eventuali forme varianti del nome dell’autore [Guerrini, 2010 a, p.46].

Il processo dell'AUTHORITY CONTROL deve essere posto al servizio del Repository: per assicurare l'omogeneità formale di ciascuna voce scelta come accesso (Autore, Titolo, Ente, Soggetto);

per evitare la proliferazione di errori (ambiguità a cascata);

per risolvere il problema degli omonimi e dei sinonimi, con ricaduta apprezzabile sull’attendibilità dei dati citazionali;

per facilitare la scoperta, l'identificazione, la selezione e l'uso delle risorse digitali da parte degli utenti finali;

per agevolare i processi amministrativi, cosi come l’identificazione della provenienza, la gestione dei diritti, e la conservazione delle risorse.

In seguito saranno esposte informazioni, elencate fonti, e forniti rimandi di approfondimento relativamente al tema del presente paragrafo.

”Dichiarazione di Principi Internazionali di Catalogazione (IFLA)”: <http://www.ifla.org/files/assets/cataloguing/icp/icp_2009-it.pdf>

135 concettuale di Functional Requirements for Bibliographic Records (FRBR) dell’IFLA […]

È auspicabile che la Dichiarazione possa incrementare la condivisione internazionale di dati bibliografici e di Autorità e guidare gli estensori di regole di catalogazione nel loro impegno per l’elaborazione di un Codice di catalogazione internazionale” […]

Possono essere rappresentate con dati bibliografici e di Autorità le seguenti entità: Opera – Espressione – Manifestazione - Esemplare - Persona – Famiglia – Ente – Concetto – Oggetto – Evento – Luogo […]

I Punti di ACCESSO CONTROLLATI forniscono la coerenza necessaria per raggruppare le registrazioni bibliografiche per insiemi di risorse.

“Linee Guida per gli Archivi Istituzionali” (CRUI, Italia):

<http://www.crui.it/HomePage.aspx?ref=1781>

La ricerca può avvenire tramite LINGUAGGI CONTROLLATI (secondo le notazioni di vocabolario/i controllato/i e altri sistema/i di organizzazione della conoscenza, e/o Banche di Dati di autorità scelto/i) e tramite parole o espressioni libere.

L’integrazione dell’Archivio tramite interfacce Standard e Web Services con Banche Dati Certificate d’Ateneo (es. Anagrafe della Ricerca; Sistema di autenticazione/autorizzazione centralizzata via LDAP, CAS, Shibboleth dell’Ateneo; Sito Docente del Ministero) e con Server su cui vengono caricati i vocabolari controllati e altri KOS è un passo importante per:

la validazione della qualità dei Metadati al suo interno; pulizia degli indici di ricerca;

potenziare l’interoperabilità dell’Archivio con altre applicazioni;

incentivare il radicamento dell’Archivio nelle abitudini di studio e ricerca degli utenti autori.

Virtual International Authority File (VIAF): <http://viaf.org/> È un File di Authority internazionale mantenuto da OCLC.

VIAF è disponibile in modalità Linked Open Data (Figura 31) ha una grande importanza per la gestione e la rappresentazione dei Nomi controllati di autori (di libri) in diversi lingue. Linked Open Data aumenta l'utilità delle informazioni sul web incrociando riferimenti a persone, luoghi, cose, più consistenti e collegabili attraverso domini.

Figura 31. Pagina online del Virtual International Authority File (VIAF)

VIAF è concepito per un accesso paritario multilinguistico, laddove a confronto non sono tanto lingue diverse, ma convenzioni nomenclatorie particolari, consolidate e, nei differenti abiti, ugualmente pertinenti.

VIAF “permette di collegare tra loro le registrazioni di autorità relative a una medesima entità usate nei vari paesi e dunque di realizzare la funzione di raggruppamento. Esso potrebbe rivelarsi moto utile anche per i Repositories” [Guerrini, 2010 b, pp. 6, 7].

136 <http://www.getty.edu/research/tools/vocabularies/ulan/index.html>

È un File di Authority internazionale con più di 225.000 Nomi (incluso pseudonimi, varianti e varianti linguistiche) con le informazioni biografiche su artisti e architetti. È incluso nel VIAF. “Author Service” dell’aggregatore degli Archivi digitali in Economia RePEc:

<http://authors.repec.org/about>

Questo servizio fornisce le voci di autorità per i Nomi di ricercatori in scienze economiche registrati nel RePec.

Servizi per l`identificazione e il controllo dei Nomi propri di Autori

CrossRef: article-linking consortium

<http://www.crossref.org/CrossTech/2007/02/crossref_author_id_meeting.html>Questo servizio attribuisce gli identificatori univoci (“Author IDs”) agli autori che pubblicano presso alcuni editori.

Research Crossroads: <http://www.researchcrossroads.org/>

Questo servizio attribuisce ad ogni autore/ricercatore registrato nel sistema un identificatore univoco "ResearchCrossroads ID”.

ISNI (International Standard Name Identifier): <http://www.isni.org/ > Questo servizio identifica creatori di opere con un unico numero a 16 cifre.

ORCID (Open Researcher and Contributor ID): <http://www.orcid.org>

Questo servizio ha lo scopo di risolvere l'ambiguità sistemica dei Nomi e - mediante l'assegnazione di identificatori unici abbinabili ai risultati della ricerca di un ricercatore - di migliorare il processo di scoperta dell’informazione scientifica e di migliorare l'efficienza del finanziamento e la collaborazione.

International Registry of Authors Links to Identify Scientists (IRALIS):<http://www.iralis.org/>

Il progetto IraLIS è stato avviato per risolvere il problema di disambiguazione dei Nomi in paesi di lingua spagnola. Analoghi problemi di identificazione dell'Autore appaiono in tutte le lingue a causa delle forme varianti di voci dei Nomi.

Qualsiasi persona che opera in un campo della ricerca scientifica può registrarsi in IraLIS creando un Record per il proprio Nome, a prescindere se ha già pubblicato qualche lavoro scientifico o prevede di farlo in futuro.

IraLis è basato su un'ontologia (disponibile sul web come Linked Open Data) comprensibile dal computer atta a descrivere persone, con le loro attività e le relazioni definite dal vocabolario FOAF (Friend of a Friend - Amico di un amico). I record IRALIS vengono indicizzati da Google, Google Scholar, OAIster, Recolecta.

Elenco di alcuni importanti Sistemi per l`identificazione e il controllo dei Nomi propri di Autori:

<https://repinf.pbworks.com/w/page/13779410/Author%20identification > Disambiguazione dei Nomi degli Autori e dei Titoli delle Riviste

offerta dal Software Eprints: <http://www.eprints.org/software/v3 > Le ultime versioni di EPrints incorporano i moduli che permettono:

compiere sondaggi nella Lista degli Autori caricati nel sistema (Repository) da Database dell'Anagrafica del personale dell'Istituzione;

suggerire un Nome dell’Autore (Autore, Curatore, Autore di prefazioni) al depositante del materiale nel sistema per il completamento automatico di qualità dei valori del metadato “Autore”;

137 derivato da SHERPA/RoMEO (la banca dati delle politiche sul Copyright e l’archiviazione dei diversi Editori) [V. sito].

Suite di servizi applicativi per il governo (governance) degli Atenei e degli Enti di ricerca

SURplus (il Sistema Universitario Ricerca plus): <http://surplus-unibic.cilea.it/>;

U-GOV: <http://www.cineca.it/it/content/il-sistema-u-gov>

Una volta sono integrati con gli Archivi Istituzionali, questi servizi di governance permettono alle piattaforme degli Archivi di collegarsi dinamicamente con vari sistemi gestionali dei rispettivi Atenei, consentendo in fase di inserimento di metadati di reperire i Nomi (di Enti, di Persone) dalle Anagrafi ufficiali, con indubbi vantaggi per la qualità di ricerca dell’informazione. L'utilizzo delle Anagrafiche comuni a tutto lo strato applicativo (struttura condivisa delle informazioni) consente di condividere i dati attraverso diversi processi, evitando la duplicazione di informazioni.

I metadati sviluppati sui moduli SURplus Open Archive (OA) e UGOV-Ricerca, tramite il protocollo dell’interoperabilità OAI-PMH hanno uscite per il “Sito Docenti” del MiUR. Ciò è possibile grazie all’associazione di determinati metadati (es. “Soggetto”, “Disciplina”, “Classificazione”) con valori della Classificazione MiUR - Settori Scientifico- Disciplinari (SSD).

Schemi di Classificazione

le Classificazioni di Soggetto possono dar vita a strumenti per l’organizzazione della conoscenza per collezioni lessicali estratte da database di metadati o documenti a testo completo, per Terminologie, Glossari, Dizionari o Enciclopedie, Rassegne, fin anche a biblioteche distribuite di documenti digitali nativi o digitalizzati da supporto analogico. L’insieme delle descrizioni di uno Schema di Classificazione costituisce già di per sé una importante risorsa Terminologica [De Robbio, 2007, p.189]

Classificazione MiUR - Settori Scientifico-Disciplinari (SSD):

<http://cercauniversita.cineca.it/php5/settori/index.php>

È’ una Classificazione che raggruppa le discipline definite dal MIUR in 28 classi (Figura 32). Ad ogni Settore Disciplinare appartengono tutte le materie riconducibili alla medesima declaratoria, cioè quella sezione del Decreto che descrive sinteticamente i contenuti di ogni singolo Settore Scientifico.

138 Disciplinari)

Una gran parte degli Archivi Istituzionali si serve di questi descrittori, utili più alle statistiche (per il MiUR) e ai processi di valutazione, a livello d’Ateneo e su scala nazionale, che a favorire il reperimento delle risorse documentarie, tanto più che spesso sono riferiti al Docente piuttosto che alle risorse che dovrebbero descrivere. Sono significativi, inoltre solo per una parte della comunità degli Autori italiani, gli universitari, e sono assolutamente incomprensibili per qualunque straniero. In un ambiente globale ciò è ovviamente insostenibile […]

Di converso, è certo che per la comunità accademica italiana si tratti di dati fondamentali, soprattutto all’interno di analisi su base nazionale. Sono, forse, l’unico dato veramente condiviso, tanto è vero che vengono usati per la ricerca per argomento dal Service Provider di PLEIADI [Guerrini, 2010 b, p. 10]

Classificazione Decimale Dewey (DDC): <http://www.oclc.org/dewey/webservices.en.html>

È un sistema (pubblicato online anche in modalità Linked Open Data:

<http://dewey.info/> per la divisione del sapere in dieci Classi (attraverso le cifre decimali secondo i principi della disciplina e della gerarchia) maggiormente usato a livello internazionale (Figura 33).

Le Classi si dividono a loro volta in dieci divisioni anch’esse numerate da 0 a 9, e ogni divisione in dieci sezioni ancora numerate da 0 a 9.

Figura 33. Pagina online della Classificazione Decimale Dewey Universal Decimal Classification (UDC):

<http://www.udcc.org/index.php/site/page?view=factsheet>

È uno schema di Classificazione multilingue ispirato da DDC, ma è molto più potente (Figura 34).

139

UDC si serve di segni ausiliari per indicare vari aspetti particolari di un Soggetto e delle Relazioni fra soggetti. In tal modo contiene un elemento significativo faccettato o analitico-sintetico che la rende adatta soprattutto nelle Biblioteche Specialistiche.

UDC consente di classificare documenti di ogni genere: innanzi tutto documenti della letteratura, cioè documenti scritti, ma anche su altri media come registrazioni su pellicola, video, registrazioni sonore, illustrazioni, mappe e artefatti (realia) come pezzi da museo.

La CDU per gli identificatori dei soggetti si serve della numerali arabi e di notazioni del sistema decimale.

Il dataset “UDC Summary” rappresenta una selezione di circa 2000 classi estratti dallo schema UDC e pubblicati come Linked Open Data:

<http://www.udcc.org/udcsummary/php/index.php>

Classificazione della Library of Congress (LCC): <http://www.loc.gov/catdir/cpso/lcc.html>

È un sistema di 21 classi di organizzazione della conoscenza che assegna ad ogni Classe una lettera dell'alfabeto in cui potrebbe trovare la collocazione un Soggetto (tema) che descrive una risorsa (Figura 35).

È utilizzato da gran parte delle Biblioteche degli istituti di ricerca e universitari degli Stati Uniti e da molte biblioteche simili in altri paesi, anche se numerose biblioteche pubbliche di dimensioni medio-grandi continuano a servirsi della Classificazione decimale Dewey (DDC).

Figura 35. Pagina online della Classificazione di Library of Congress COLON Classification: <http://www.aib.it/aib/contr/lavazza1.htm>

È uno schema molto diffuso in India per Biblioteche pubbliche e di ricerca. Molti sistemi di classificazione hanno tentato di recepirne gli insegnamenti.

Racchiude l’intero universo di conoscenze in 40 discipline o campi di studio, corrispondenti alle Classi principali dello schema.

La notazione è mista di numeri, lettere latine o greche e speciali operatori di calcolo (ad esempio z =generalia, 2 =library science, AZ =mathematics, NX =literature and languages, Σ =social science).

In ognuna delle Classi della colon classification, hanno notazione propria solo i soggetti isolati, semplici, uniti tra loro in gruppi omogenei.

I soggetti composti non vengono enumerati.

I nuclei di concetti affini, individuati all’interno di ciascuna classe, sono denominati faccette; all’interno di ogni faccetta, tutti i concetti isolati (foci) avranno in comune una particolare caratteristica.

Per classificare un soggetto composto occorre, individuata la Classe principale, analizzarlo in parti elementari, ricercare attraverso gli indici delle tavole le

140 notazioni dei singoli elementi e, infine, ricombinarli, in base alle reciproche relazioni, per riformare il Soggetto Composto espresso in linguaggio notazionale Colon Classification.

Per evitare una "fuga all’infinito" del numero delle possibili relazioni, Colon Classification e’ ridotta a cinque categorie fondamentali di concetti isolati, applicabili a qualsiasi area del sapere. La formula di combinazione di tali categorie è riassunta nell’abbreviazione PMEST (PERSONALITY: personalità o entità o cosa; MATTER: materia o materiale o proprietà; ENERGY: energia o processo, operazione, azione; SPACE: spazio); TIME: tempo).

JITA Classification of Library and Information Science (LIS): <http://datahub.io/dataset/jita>

Attualmente è disponibile in Inglese e in altre 14 lingue (Arabic, Catalan, Czech, Dutch, English, French, Greek Modern (1453-), Italian, Polish, Portuguese, Romanian, Russian, Spanish, Swedish, Turkish);

È anche accessibile come Linked Open Data;

Rappresenta le voci di “Soggetto” nell’Archivio internazionale aperto per i documenti scientifici in biblioteconomia e scienza dell'informazione “E-LIS” [V.sito]

La ricerca per Classe permette di rintracciare opere che presentano proprietà o caratteristiche comuni secondo un ordine logico sistematico stabilito in precedenza da schemi di Classificazione.

BLISS Bibliographic Classication (a Classication for the 21st century): <http://www.aib.it/aib/contr/broughton1.htm> [Broughton, 2004].

E’ una Classificazione bibliografica interamente basata su uno schema a faccette. Library Congress Subject Headings (LCSH): <http://id.loc.gov/search/>

È un sistema (disponibile online anche in modalità Linked Open Data) dell’intestazione di Soggetto attraverso le voci gerarchiche predefinite a monte.

Mappatura dei valori di LCSH con i numeri della DDC: <http://www.oclc.org/dewey/updates/numbers.en.html>

FAST (Faceted Application of Subject Terminology): <http://fast.oclc.org>

FAST nell’OCLC Terminologies Service: <http://tspilot.oclc.org/resources>

FAST rappresenta un vocabolario controllato molto ricco di termini del sistema LCSH con l’obiettivo di renderli facilmente comprensibili, applicati e utilizzati in diversi sistemi di gestione dell’informazione, sia allo scopo del Controllo d’autorità dei valori di metadati che qualificano l’intestazione di Soggetto (tramite 1.600.000 Record di autorità), che per contribuire ad una migliore interoperabilità semantica tra i medesimi valori.

Tutte le intestazioni di Soggetto sono opportunamente raccordate da Record di Autorità eliminando la necessità di sintetizzare le intestazioni insieme alle regole sintattiche.

I singoli termini del vocabolario FAST sono distribuiti in 8 categorie distinte (faccette): Nomi personali, Nomi aziendali, Nomi geografici, Eventi, Titoli, Periodi di tempo, Tematiche, Forma /Genere.

FAST è disponibile online anche come Linked Open Data:<http://id.worldcat.org/fast/> (attraverso la Open Data Commons Attribution Licence ODC-By v1.0): <http://www.oclc.org/research/activities/fast/download.html>

141

Thesaurus del NUOVO SOGGETTARIO della Biblioteca Nazionale Centrale di Firenze (BNCF): <http://thes.bncf.firenze.sbn.it/>