• Non ci sono risultati.

CAPITOLO TERZO

N/A
N/A
Protected

Academic year: 2021

Condividi "CAPITOLO TERZO"

Copied!
28
0
0

Testo completo

(1)

1

CAPITOLO TERZO

Metadati, Ontologie e Thesauri in Archeologia

“La cosa meravigliosa degli standard è che ce ne sono molti tra cui scegliere” Grace Hopper

3.1 Introduzione

Nel capitolo precedente abbiamo introdotto il Semantic Web e gli standard raccomandati dal W3C. In poche parole, sono stati esposti i formalismi basilari (XML, RDF, OWL) su cui lavorare a livello informatico per concettualizzare i dati e le informazioni e introdurli nel complesso mondo del Web 3.0. In questo capitolo daremo risalto a metadati, ontologie e thesauri che rientrano tra i pilastri del Semantic Web come standard alla base dell’interoperabilità.

Imprescindibile quindi per raggiungere un livello di interscambio di dati e di informazioni che si adotti un livello di standard condiviso, nel cosiddetto universo degli archivi digitali condivisi e delle Digital Libraries (DL)1. La

questione della codifica è stata già affrontata in questo elaborato (cap. 1) e nonostante talvolta in ambito umanistico possa diventare una spauracchio perché vista come forma di “riduzionismo” nell’ambito dei data diventa necessaria.

(2)

2 Per comprendere come lasciare traccia in termini di documentazione archeologica, come organizzare tali informazioni in relazioni codificate e quali linguaggi adoperare necessitiamo dei suddetti strumenti. In ambito specificamente archeologico sono state numerose le iniziative fino ad ora sperimentate per la costruzione di un sistema di uno standard condiviso e internazionale, che andremo ora dettagliatamente ad analizzare.

3.2 Metadati

Il termine metadato, deriva dall’inglese metadata (l’etimologia greco-latina: preposizione greca metà “al di sopra” e il plurale neutro latino data “i dati”)2.

I metadati, quindi letteralmente “dati sui dati”, sono largamente utilizzati in vari settori: archivistica, biblioteconomia, informatica, entrando nel vocabolario comune di tutte quelle figure professionali che si occupano di creazione, descrizione, conservazione nell’ambito dei sistemi di informazione.

Metadata provides a means of indexing, accessing, preserving, and discovering digital resources (Gill et al., 2008).

E’ evidente che essi rappresentano uno strumento di fondamentale importanza non solo per l’indicizzazione e per la ricerca delle risorse digitali, ma anche per la cosiddetta long-term preservation.

A livello tecnico i metadati si suddividono in tre categorie:

Metadati descrittivi: relativi al contenuto dell’oggetto digitale, rappresentano la descrizione intrinseca dell’information object.

Metadati amministrativi: relativi alle informazioni tecniche dell’oggetto digitale, ad esempio chi lo ha prodotto, la localizzazione, i diritti di accesso ecc.

2

(3)

3  Metadati strutturali: fanno riferimento soprattutto al codice identificativo (ID), permettendo la localizzazione nel Web, l’indirizzo dell’archivio nativo ecc. (D’Andrea, 2006).

I metadati sono fondamentali per rendere un oggetto digitale, un oggetto di qualità, perché grazie ad essi è possibile fornire una parte di informazione arricchita che altrimenti andrebbe perduta. Riferendoci ad una fotografia di una US archeologica, ad esempio, oppure ad una pianta, risulta di fondamentale importanza lasciare una traccia relativa a quale operatore ha effettuato la foto/disegno, con quale strumentazione, in che data e con quali condizioni climatiche.

Anche a distanza di anni in questo modo i suddetti oggetti digitali potranno avere un valore “per sé” che sia totalmente scevro dal contesto di un database che le contiene, perché possiederanno tutto il bagaglio informativo e un codice ID, con collegamenti esterni relativi ad altri archivi e oggetti digitali “simili” che li renderanno contenitori di informazioni di qualità.

In questo caso ci stiamo riferendo alla cosiddetta provenance e paradata. (D’Andrea & Fernie, 2013) Il W3C ci fornisce una descrizione formale:

Provenance is information about entities, activities, and people involved in producing a piece of data or thing, which can be used to form assessments about its quality, reliability or trustworthiness.3

Possiamo quindi affermare che la provenance è un record sui processi tecnici che portano alla creazione dell’oggetto digitale, mentre i paradata rientrano già nella fase metodologica e interpretativa, lasciando traccia sulle motivazioni che hanno portato l’operatore ad agire in quel modo.(D’Andrea & Fernie 2013). Ad esempio nell’ambito di una acquisizione con un laser scanner, relativa alla

(4)

4 realizzazione di un modello 3D, è importante sottolineare quale tipologia di laser scanner è stato utilizzato e perché, in quali condizioni di luce ci si trovava al momento dell’acquisizione ecc.

La definizione dei dati si ottiene utilizzando schemi di metadati espressi attraverso i linguaggi del W3C (XML, XMLs, RDF. RDFs), permettendo negli anni il recupero delle informazioni al di là di software e applicazioni.

Numerosi sono gli standard rilasciati a livello internazionale, si rende infatti indispensabile avere uno schema strutturato di informazioni4 da fornire che possa

garantire l’interoperabilità. In tal modo si è giunti ad una gamma di schemi -più o meno recommended- unanimemente utilizzati dagli addetti ai lavori.

Nel 2001 è stato rilasciato un protocollo sviluppato dall’Open Archives

Initiative, il cosiddetto Open Archives Initiative for Metadata Harvesting (OAI-PMH)5. L'OAI-PMH fornisce un modello di interoperabilità, indipendente dalle applicazioni. Nel protocollo si distinguono:

I fornitori di dati (data providers) amministrano i sistemi che supportano l'OAI-PMH come un mezzo per poter esporre i metadati e permettere in questo modo il metadata harvesting agli aggregatori.

I fornitori di servizi (service providers) usano i metadati raccolti attraverso l'OAI-PMH come base per costruire servizi di valore aggiunto (Lagoze & Van De Sompel, 2001) che permettano l'integrazione e l’esposizione dei metadati in terze parti6

Gli schemi maggiormente utilizzati nell’ambito della catalogazione, archivi e DL sono diversi:

EAD7: Encoded Archival Description realizzato dal Encoded

Archival Description Working Group of the Society of American

4 Meta-modello

5 https://www.openarchives.org/OAI/openarchivesprotocol.html

6 Ne abbiamo un esempio nella digital library italiana Cultura Italia www.culturaitalia.it, aggregatore

nazionale e, a sua volta, content provider della digital library europea Europeana www.europeana.eu

(5)

5 Archivists e dal Network Development and MARC Standards Office of the Library of Congress nel 2002. L’EAD è uno schema riferibile alla codifica di documenti come inventari, indici, registri.

MARC: Machine Readable Cataloguing, sviluppato dal Network Development and MARC Standars Office of the Library Congress nel 2002. E’ uno standard per la rappresentazione e la comunicazione di informazioni bibliografiche.

METS8: Metadata Encoding and Trasmission Standard, pubblicato

dalla Digital Library Federation nel 2007. E’ uno schema per la codifica di metadati descrittivi, amministrativi e strutturali di oggetti all’interno di DL.

MODS: Metadata Object Description Schema sviluppato anch’esso dalla Library of Congress nel 2008 è uno schema per un set di dati bibliografici.

TEI: Test Encoding Initiative, realizzato dal Text Encoding Initative Consortium nel 2007, definisce i tags per l’inserimento di un documento di testo in un formato digitale.

VRA: Visual Resources Association, realizzato dal Visual Resources Association’s Data Standards Committee nel 2007 è un metadata element set che fornisce una organizzazione categorica per la descrizione di lavori di “visual culture”(McKenna, 2009).

Tra gli schemi più utilizzati a livello internazione e in differenti ambiti, è il Dublin Core che vedremo ora dettagliatamente. Analogamente analizzeremo anche altri due schemi: il LIDO e il CARARE 2.0.

(6)

6

3.2.1 Dublin Core

Il Dublin Core Metadata Initiative (DCMI) è uno schema di metadati elaborato nel 1995 dall’On line Computer Library Center. Il nome proviene dalla città di Dublin in Ohio dove si tenne una conferenza internazionale che ispirò la creazione di tale schema.

Il Dublin Core consta di 15 elementi: Titolo (Title)

Il titolo da assegnare alla risorsa digitale.  Autore (Creator)

L’autore che produce la risorsa, che può riferirsi ad un singolo ma anche ad un organizzazione.

Soggetto (Subject)

Il soggetto/i che qualificano la risorsa in termine di keyword, che può essere attinto anche da vocabolari controllati.

Descrizione (Description)

Un testo libero di descrizione della risorsa.  Editore (Publisher)

Persona e/o organizzazione che si occupa della pubblicazione della risorsa.

Autore di contributo subordinato (Contributor)

Colui, persona e/o organizzazione, che ha contribuito alla realizzazione della risorsa.

Data (Date)

Data che indica solitamente il momento della creazione della risorsa. Secondo lo standard ISO8601 deve essere espressa sottoforma di stringa YYYY-MM-DD.

Tipo (Type)

Natura o genere del contenuto della risorsa. Include termini che descrivono categorie generali, funzioni, generi, o livelli di

(7)

7 aggregazione per contenuto, utilizzando come fonte vocabolari controllati.

Formato (Format)

Formato fisico o digitale di come appare la risorsa. Importante soprattutto per determinare quali software sono necessari per la sua visualizzazione.

Identificatore (Identifier)

Il cosiddetto codice identificativo che caratterizza univocamente la risorsa. Esempi di tali sistemi di identificazione possono essere l’Uniform Resource Identifier (URI) (incluso l’Uniform Resource Locator- URL), il Digital Object Identifier (DOI) e l’International Standard Book Number (ISBN).

Fonte (Source)

La fonte dal quale la risorsa in esame proviene.  Lingua (Language)

La lingua nel quale la risorsa e i relativi metadati sono espressi.  Relazione (Relation)

Riferimento ad una risorsa correlata.  Copertura (Coverage)

Include la localizzazione spaziale (il nome o le coordinate geografiche di un luogo), il periodo temporale (l’indicazione di un periodo, una data o una serie di date) o una giurisdizione (ad esempio il nome di un’entità amministrativa).

Gestione dei diritti (Rights Management)

Informazioni sulla tipologia di “diritti” collegati alla risorsa in esame.

(8)

8

Figura 1:

diagramma esplicativo delle relazioni del DC. (http://dublincore.org/documents/dcq-rdf-xml/)

Un’estensione del DC “standard” è stata rilasciata come Qualified Dublin Core ed include:

33 element-refinement (26 dei quali recommended e 7 conforming) 18 encoding-scheme, ossia schemi di codifica per interpretare il

valore dei singoli elementi (Buonazia & Masci, 2007)

In questa tabella è possibile visualizzare la lista dei terms.

coverage created creator date dateAccepted dateCopyrighted dateSubmitted description educationLevel extent format hasFormat hasPart hasVersion identifier instructionalMethod isFormatOf isPartOf isReferencedBy isReplacedBy isRequiredBy issued isVersionOf language license mediator medium modified provenance publisher references relation replaces requires rights rightsHolder source spatial subject tableOfContents temporal title type valid

(9)

9

Tabella 1: lista dei terms del DCMI

L’importanza del Dublin Core come schema di metadati è dovuto alla possibilità, come è possibile vedere anche grazie all’estensione dello schema qualificato, di creare dei profili applicativi che opportunamente mappati possono però permettere ai catalogatori di personalizzare i tag e utilizzare gli elementi di cui hanno bisogno per la descrizione della risorsa. Essendo uno schema molto generale applicabile a risorse eterogenee è sicuramente diventato uno degli schemi più utilizzati in vari ambiti, tra cui anche quello museale/archeologico. Il DB è uno standard ISO 15836 ed è stato tradotto in 20 lingue, la versione italiana è stata rilasciata dall’Istituto Centrale per il Catalogo Unico ICCU9.

(D’Andrea, 2006).

3.2.2 LIDO

LIDO (Lightweight Information Describing Objects) è uno standard rilasciato dall’International Council of Museum. Implementato nell’ambito di ATHENA10,

un progetto aggregatore di contenuti per Europeana. LIDO è uno schema di metadati, fruibile per differenti tipologie di on-line services, dai repository di istituti e organizzazioni ai portali aggregatori di risorse, per l'esposizione, la condivisione e il collegamento dei dati sul Web. La sua forza è che supporta una gamma completa di informazioni relative agli oggetti museali. Può essere utilizzato per tutti i tipi di oggetti , ad esempio arte, architettura, storia culturale, storia della tecnologia e storia naturale.

Un record di LIDO è concettualmente organizzato in 7 “aree” chiamate Wrappers:

Object Identification: grazie al quale è possibile identificare l’oggetto.

9http://www.iccu.sbn.it/opencms/opencms/it/ 10http://www.athenaeurope.org/

(10)

10  Object Classification: che include informazioni relative alla

tipologia dell’oggetto.

Relation: riferibile alle relazioni dell’oggetto con oggetti simili. Events: descrive gli eventi durante i quali l’oggetto è stato generato Rights: relativo ai diritti dell’oggetto.

Record: relativo ai record information.

Resource: contiene informazioni relative alla rappresentazione digitale dell’oggetto. (Pitzalis et al., 2010).

LIDO definisce 14 gruppi di informazioni di cui solo tre sono obbligatori, (mandatory). Ciò consente la completezza delle informazioni, lasciando però completa libertà decisionale circa i dati che si desiderano fornire durante la pubblicazione.

Figura 2: schema degli elementi di LIDO.

(11)

11

3.2.3 CARARE metadata schema

Il CARARE metadata schema è stato realizzato per gestire metadati relativi al patrimonio archeologico e architettonico in Europa, elaborato durante il CARARE project11, che come numerosi progetti (tra cui il già citato progetto ATHENA) è stato un provider ufficiale di dati per Europeana. La versione 2.0 dello schema è stata prodotta durante la lavorazione di un altro importante progetto finanziato dall’UE: 3D-Icons12.

L’importanza di questo schema è dato dalla possibilità di poter esprimere meta-informazioni relative a oggetti digitali di particolare tipologia, ossia i modelli 3D che nel panorama del ambito archeologico stanno acquisendo un ruolo di primo ordine per la ricerca e la fruizione.

Figura 3: screenshot della homepage di Carare Project (http://www.carare.eu/eng)

11http://www.carare.eu/

(12)

12 La versione 1.0 ha la peculiarità di poter supportare le informazioni descrittive relative ai monumenti, edilizia, aree paesaggistiche e le loro rappresentazioni. Lo schema è un’estensione del MIDAS Heritage13, lo standard britannico per i beni

archeologici, paesaggistici, architettonici. I wrappers principali sono:

Heritage asset: include monumenti archeologici, edifici storici, monumenti industriali, aree paesaggistiche, artefatti, ecofatti, materiali stampati, archivi e oggetti nativi digitali.

Digital resource: fornisce informazioni relative al tipo, formato e localizzazione della risorsa digitale.

Collection information: fornisce informazioni relative alla collezione digitale.

Activity: si riferisce alle attività che hanno prodotto gli oggetti digitali descritti.

Gli elementi di arricchimento inseriti all’interno del version 2.0 si riferiscono ai dati relativi alla provenance e paradata.

Gli schemi LIDO e CARARE, nati nell’ambito dei numerosi progetti europei che possiamo definire “satellite” rispetto ad Europeana, sono mappati e conformi all’Europeana Data Model (EDM).14

3.3 Ontologie

Ontologia è un termine utilizzato in discipline differenti, in ambito filosofico è la scienza che studia l’essere in quanto tale 15, in Informatica è ormai ricorrente il

suo uso nelle branche dell’Intelligenza Artificiale, Teoria della Conoscenza e database (D’Andrea, 2006). Una definizione pienamente condivisa del termine

13 http://www.dcc.ac.uk/resources/metadata-standards/midas-heritage 14Che vedremo nel capitolo 4.

(13)

13 non è ancora stata unanimamente approvata, così per parlare di ontologie possiamo fare riferimento a 2 fondamentali aspetti:

Metodo: per la fase metodologica si ricollega non sono alla filosofia ma anche alla linguistica, in quanto l’analisi della realtà e delle relazioni avviene attraverso la strutturazione di un vocabolario. Architettura: in questa fase avviene la formulazione di un

ontology-driven information system (Guarino, 2008).

Attraverso la relazioni tra concetti è possibile la creazione di una rete complessa, che graficamente è accostabile alle cosiddette mappe concettuali. Grazie alle ontologie quindi è possibile:

 Definire concetti appartenenti ad uno specifico dominio.

 Definire le relazioni esistenti tra diversi concetti. (Felicetti, 2009)

L’ontologia è riferibile ad un modello concettuale formalizzato, in cui la concettualizzazione può essere definita come:

a conceptualization has been defined in a well-known AI textbook as a structure <D,R>, where D is a domain and R is a set or relevant relations on D (Guarino, 1998).

Mentre l’ontologia:

An ontology is a logical theory accounting for the intended meaning of a formal vocabulary, i.e. its ontological commitment to a particular conceptualization of the world. The intended models of a logical language using such a vocabulary are constrained by its ontological commitment. An ontology indirectly reflects this commitment (and the underlying conceptualization) by approximating these intended models (Gruber, 1995).

Se la concettualizzazione è indipendent, l’ontologia è invece language-dependent.

(14)

14  Top-level ontologies: descrivono concetti come lo spazio, il tempo,

l’oggetto, il soggetto, l’evento e l’azione. Tutto questo avviene indipendentemente dal domain.

Domain ontologies e task ontologies: le prime descrivono il vocabolario di un dominio generico, le seconde si focalizzano su attività generiche, andando a specializzare i termini che sono introdotti nelle top-level ontologies.

Application ontologies: descrivono concetti che appartengono sia a specifici domini che attività, ossia le specializzazioni di entrambe le ontologie appena citate.

Per comprendere più chiaramente le differenze tra un’ontologia e una knowledge base ci si riferisce ai propositi dell’ontologia stessa che è una particolare strutturazione della conoscenza relativa ad un dominio e che descrive “fatti” ritenuti sempre “veri” da una comunità di addetti ai lavori, in virtù dell’assunto che una concettualizzazione di base sia stata preventivamente concordata e approvata.

L’importanza dell’ontologia è data dal fatto che in esse le relazioni si registrano in maniera formale e quindi trattabile in maniera automatica, utilizzando un linguaggio di rappresentazione della conoscenza. Sono utilizzate nell’ambito dell’Intelligenza Artificiale proprio perchè in questo ambito un cosiddetto “agente intelligente” software le elabora secondo delle specifiche regole, riuscendo ad inferire nuove relazioni. Per inferenza, direttamente dalla statistica, intendiamo il processo secondo il quale da una proposizione accolta come vera si passa a una seconda proposizione la cui verità è derivata dal contenuto della prima.16Tale processo di asserzione si basa sulla definizione di assiomi.

A questo proposito, nella “famiglia” dei formalismi della Rappresentazione della Conoscenza (Knowledge Rapresentation – KR) la Description Logic rappresenta

(15)

15 la conoscenza di un determinato dominio di applicazione (definito mondo) partendo dapprima dalla definizione dei concetti fondamentali del dominio (la sua terminologia) e successivamente utilizzando questi concetti per specificare oggetti e proprietà appartenenti al dominio (Baader et. al., 2003).

Dall’input:

cane IS-A carnivoro

carnivoro IS-A mammifero

Il sistema produce un output del tipo: cane IS-A mammifero.

Descrivendo i dati alla macchina è possibile fornirle una sorta di “memoria storica” che le permette di ragionare e di darci risposte complesse e soddifacenti, attraverso proprio il processo di inferenza. (Felicetti, 2009).

La pubblicazione on-line delle ontologie permette l’integrazione e la moltiplicazione della conoscenza formalizzata e trattabile in automatico, da qui l’importanza degli standard rilasciati dal W3C e di OWL che abbiamo visto nel Cap. 2. (Gnoli & Marino & Rosati, 2006).

(16)

16

3.3.1 CIDOC CRM

Il CIDOC CRM17 è stato creato per catturare la ricchezza e complessità delle

informazioni relative al Cultural Heritage. E’ uno standard ISO internazionale (dal 9/12/2006) sviluppato dall' International Committee for Documentation dell'International Council of Museums (CIDOC/ICOM). Una nuova versione è stata rilasciata nel dicembre del 2014.

Il CIDOC CRM è un’ontologia formale intesa per facilitare, integrare e interscambiare dati eterogenei legati al patrimonio culturale. Questa ontologia è stata prodotta dopo numerosi anni di ricerca – circa 10 anni – dal CIDOC

Documentation Standards Working Group e dal CIDOC CRM SIG, che

rappresentano i working groups ufficiali del CIDOC. Lo sforzo di questo lavoro proviene da ambiti diversi: informatica, archeologia, documentazione museale, storia dell’arte, storia naturale, archivistica, fisica, filosofia.

Il CIDOC CRM è un formalismo “object oriented” e anche “event centric” in quanto attori , posti e oggetti sono connessi attraverso eventi. (Eide et. al., 2008). Può essere definito una core ontology, poiché a differenza di un Thesaurus con migliaia di concetti, il modello non si pone di definire gli specifici termini, ma presenta una release “compatta” con 86 classi e 137 proprietà18.

Specifichiamo di seguito i termini maggiormente utilizzati all’interno del CIDOC CRM.

Class: categoria di oggetti che condividono uno o più aspetti.

Domain: classe per la quale una proprietà viene formalmente definita.

Extension: set di tutte le possibili istanze di una classe.

Inheritance: duplicazione di proprietà da una classe alle sue sottoclassi.

17http://www.cidoc-crm.org/#

(17)

17  Instance: elemento con proprietà che soddisfazione l’intension della

classe.

Intension: il significato inteso della classe.

Property: caratteristica di una classe alla quale possono essere assegnati valori.

Range: classe che contiene tutti i potenziali valori di una proprietà. Scope note: descrizione testuale delle intensioni di una classe o di

una proprietà.

Subclass: specializzazione di un’altra classe.

Subproperty: specializzazione di un’altra proprietà. Superclass: generalizzazione di una o più classi.

Superproperty: generalizzazione di una o più proprietà.

All’interno del CIDOC CRM le classi sono identificate con la lettera E (entities) mentre le proprietà con la lettera P.

(18)

18 Come è possibile intuire dal diagramma (Fig. 2) le entità fondamentali Actors, Conceptual Objects, Physical Stuff, Places, sono tutte collegate alla Temporal Entity, relazionandosi a vicenda attraverso degli eventi.

Dal momento della sua realizzazione numerosi sono stati i cosiddetti mappings con gli standard nazionali di catalogazione. In Italia in particolare, lo sforzo del MiBACT19 assieme ad ICCD20 E ICCU21 ha portato ai primi tentativi di

allineamento delle schede rilasciate dall’ICCD – per la catalogazione dello scavo archeologico - con il CIDOC CRM.

All’interno del progetto ARIADNE22, è stato realizzato un mapping tra la scheda

RA23 (Reperto Archeologico) e il CIDOC CRM. Il lavoro, che ha coinvolto non solamente il Ministero ma anche il VASTLAB-PIN (Polo Universitario Città di Prato), ha visto la produzione di una prima fase di mappatura sull’ontologia dell’ICOM. La scheda RA è una delle più utilizzate in ambito archeologico, in quanto prevede l’invetariazione degli oggetti rinvenuti durante la fase di scavo. E’, pertanto, facilmente intuibile che la mole di reperti durante lo scavo è sempre in continua crescita, quindi lo strumento della Scheda RA è di fondamentale

19 http://www.beniculturali.it/mibac/export/MiBAC/index.html#&panel1-1 20http://www.iccd.beniculturali.it/ 21http://www.iccu.sbn.it/opencms/opencms/it/ 22http://www.ariadne-infrastructure.eu/ 23 http://www.iccd.beniculturali.it/index.php?it/251/beni-archeologici

(19)

19 importanza.

(20)

20

Figura 5: esempio di scheda RA (da http://ceur-ws.org/Vol-1117/paper2_slides.pdf)

Nella fig. 3 è fornito l’esempio di una scheda RA. Durante la lavorazione del mapping, con il tentativo di compiere un lavoro che potesse fornire standard catalografici nazionali ad un “contenitore” europeo (obiettivo del progetto

(21)

21 ARIADNE), sono stati analizzati i vari campi della scheda ed espressi con il linguaggio del CIDOC CRM (Felicetti et. al., 2013).

Nella tabella sottostante è possibile visualizzare la mappatura in maniera chiara.

Figura 6: tabella mapping Scheda RA-CIDOC CRM (da Felicetti et. al., 2013)

Il campo OGTD che definisce l’oggetto del ritrovamento, ad esempio, viene mappato come un E33 Man_Made_Object che ha una proprietà P2 has_type che lo lega alla classe E55 Type che caratterizza il range. In questo modo la sequenza sarebbe: un oggetto prodotto dall’uomo che ha un tipologia particolare, l’istanza di questa sequenza è l’ “olpe”.

Sono in fase di realizzazione e arricchimento le estensioni del CIDOC CRM: CRMarchaeo24 e CRMsci25.

L’obiettivo di CRMarchaeo (The Excavation Model) è fornire i mezzi per documentare scavi:

 Massimizzare la capacità di interpretazione dopo lo scavo o per continuare lo scavo.

24http://www.ics.forth.gr/isl/index_main.php?l=e&c=711 25http://www.ics.forth.gr/isl/index_main.php?l=e&c=663

(22)

22  Esplicitare le motivazioni dello scavo archeologico.

 Possibilità di revisione della conoscenza dopo lo scavo.  Confrontare diversi scavi avvenuti nello stesso sito.  Implementare statistiche.

CRMsci (The Scientific Observation Model) è una ontologia formale destinata ad essere utilizzata come uno schema globale per l'integrazione di metadati relativi all’osservazione scientifica, misure e dati trattati nelle scienze descrittive e empiriche come la biodiversità, geologia, geografia, archeologia, conservazione dei beni culturali, information technology, archivistica. Il suo scopo è facilitare la gestione, l'integrazione, la mediazione, l'interscambio e l'accesso ai dati di ricerca per descrizione di relazioni semantiche, in particolare quelle causali.

3.4 Tesauri, soggettari e tassonomie

Un tesauro, o thesaurus, è una raccolta di termini – utilizzati per l’indicizzazione e categorizzazione di documenti e risorse digitali- che può essere considerato un vocabolario controllato. A differenza quindi del vocabolario delle lingue naturali, con il thesaurus è possibile riferirsi solamente a un set di espressioni possibili. Come stabilito dagli standard internazionali che regolano la redazione di un tesauro monolingue (ISO 2788:1986. Guidelines for the establishment and development of monolingual thesauri. Traduzione italiana UNI/ISO 2788:1993.) si fa riferimento ad un “vocabolario di un linguaggio di indicizzazione controllato” in cui sono stabiliti i termini preferiti (descrittori) e termini non preferiti (non descrittori) (Gnoli & Marino & Rosati, 2006).

All’interno di essi è possibile circoscrivere 3 tipi di relazioni semantiche:

Relazione sinonimica: il tipo di relazione in questo caso è appunto per sinonimi, quindi un termine preferito sarà associato ad un termine non preferito che può essere considerato come secondario ma portatore dello stesso significato. Le relazioni sono rappresentate

(23)

23 dai simboli USE, che rimanda da un termine non preferito ad uno preferito, e UF (use for) che rimanda invece da un termine preferito ad uno non preferito.

Esempio:

anforetta USE anfora

anfora UF anforetta

Relazione gerarchica: le relazioni in questo caso sono tra genere e specie, intero e parte. Queste relazioni sono introdotte dai simboli BT (broader term), riferito ad un termine più generale e NT (narrower term), riferito ad un termine più specifico.

Esempio:

anfora BT contenitori e recipienti

strumenti, utensili, oggetti d’uso NT contenitori e recipienti26

Relazione associativa: questa relazione associa due concetti affini tra loro ed è espressa attraverso il simbolo RT (related term).

Esempio: anfora RT olpe

In termini di rappresentazione un tesauro parte quindi da un TT (top term) che vede poi la gerarchizzazione con i vari BT, NT, RT ecc. La loro importanza in informatica è dovuta alla facilitazione della ricerca, in quanto rispetto alla ricerca per parole-chiave che può rivelarsi ridondante perchè utilizza un linguaggio naturale, il tesauro facilita la ricerca perchè permette di individuare i termini più appropriati per un concetto, visualizzabili anche attraverso un albero gerarchico. (Gnoli & Marino & Rosati, 2006).

26 Strumenti terminologici Scheda RA Reperti Archeologici Thesaurus per la definizione del

(24)

24 Un soggettario è uno strumento per il controllo terminologico, in cui sono presenti elenchi alfabetici di voci ammesse e anche le norme sintattiche utili per la loro combinazione, andando così a creare delle stringhe di soggetto.

Le tassonomie sono invece delle voci di un indice organizzate in un albero gerarchico che ne mostra intuitivamente le relazioni. Le voci generali sono denominate “categorie”. Per gli archivi digitali sono utili per creare menu attraverso le quali accedere a specifiche parti. Ad esempio per l’indicizzazione grossi siti come Yahoo! utilizzano questa tipologia di strumento (ivi).

3.4.1 SKOS (Simple Knowledge Organization System)

SKOS (Simple Knowledge Organization System)27 si inserisce nel quadro degli

standard proposti dal W3C come modello per la codifica di tesauri, soggettari, tassonomie ecc.

SKOS is an area of work developing specifications and standards to support the use of knowledge organization systems (KOS) such as thesauri, classification schemes, subject heading systems and taxonomies within the framework of the Semantic Web.28

La TT (top class) in SKOS è lo skos:Concept, da esso si sviluppano tutte le relazioni tra i termini. Le cosiddette etichette (label) definite da SKOS si suddividono in gruppi tematici.

Le etichette che definiscono i termini che rappresentano un concetto sono tre:  skos:prefLabel: etichetta preferenziale, indica il termine preferito per

definire un concetto.

skos:altLabel: etichetta alternativa, indica il termine non preferenziale per definire un concetto.

skos:hiddenLabel: etichetta nascosta, relativa a termini che non appaiono ufficialmente ma sono nelle ricerche per applicazioni e motori di ricerca.

27 http://www.w3.org/2004/02/skos/ 28 http://www.w3.org/2004/02/skos/intro

(25)

25 Le etichette che definiscono le gerarchie e le relazioni semantiche tra i termini sono:

skos:broader: indica il concetto più generico skos:narrower: indica il concetto più specifico skos:related: indica il concetto correlato

Attraverso altre etichette (skos:exactMatch, skos:closeMatch, skos:broadMatch) è possibile invece creare delle relazioni tra schemi differenti,

per garantire ad esempio l’interoperabilità tra due thesauri sviluppati da enti differenti, ma che possiedono dei concetti in comune, magari espressi in lingue differenti. (Di Noia et.al., 2013)

3.4.2 I thesauri del Getty

Il Getty Research Institute29 ha elaborato una serie di vocabolari che sono

divenuti poi standard ISO e NISO:

 The Art & Architecture Thesaurus (AAT)

 The Getty Thesaurus of Geographic Names (TGN)  The Union List of Artist Names (ULAN)

Questi vocabolari sono stati elaborati per fornire delle guidelines negli ambiti dell’arte, architettura e cultura materiale. Possono essere utilizzati come standard per la documentazione e catalogazione, come vocabolari controllati per l’indicizzazione, come search assistant nei sistema di data retrieval all’interno dei database. 30

Grazie all’utilizzo dei formalismi propri del Semantic Web, i Thesauri del Getty favoriscono la realizzazione dei Linked Open Data e dell’interoperabilità.

29 http://www.getty.edu/

(26)

26

Figura 7: screenshot della ricerca del termine “anfora” all’interno dell’AAT

(http://www.getty.edu/vow/AATServlet?english=N&find=anfora&logic=AND&page=1&note=)

3.4.3 PICO Thesaurus

Nell’ambito del progetto del portale “Cultura Italia – Un Patrimonio da Esplorare” 31, promosso e gestito dal MiBACT, è stato realizzato il PICO

Thesaurus.

(27)

27

Figura 8: screenshot del portale Cultura Italia (http://www.culturaitalia.it/)

Il vocabolario controllato è stato pensato per la soggettazione e classificazione dell’immenso ed eterogeneo patrimonio culturale italiano, proveniente da data provider molto differenti tra loro. E’ stato realizzato utilizzando gli standard SKOS e RDF, con licenza aperta Creative Commons32, in lingua italia ed inglese,

in formato text e XML.

La sua struttura gerarchica vede la suddivisione per topConcept in : CHI/COSA/DOVE/QUANDO

Il CHI è rappresentato dai protagonisti della vita culturale:  Persone

 Famiglie

 Enti pubblici e privati

Il COSA è rappresentato dai beni culturali, risorse documentarie, servizi, aree disciplinari:

 Giacimenti culturali

 Opere d’arte in tutti i settori  Arte applicata

(28)

28  Ricerca scientifica e formazione

 Eventi, servizi, normativa

Il DOVE si riferisce ai luoghi, il QUANDO alla periodizzazione formale.(Di Giorgio, 2013)

Figura 9: visualizzazione del Pico Thesaurus

(http://www.culturaitalia.it/pico/thesaurus/4.3/thesaurus_4.3.0.skos.xml)

3.5 Conclusioni

In questo capitolo abbiamo affrontato tematiche fondamentali per capire lo stato dell’arte nell’ambito della realizzazione della famigerata standardizzazione nel settore dei Beni Culturali e Archeologia. Partendo dalle basi informatiche esposte nel capitolo precedente, abbiamo toccato argomenti quali metadati, ontologie, thesauri ecc. andando ad analizzare nello specifico quali sono i formalismi implementati ad hoc per la disciplina in questione. E’ evidente come il mondo del Digital Cultural Heritage si stia affermando a livello accademico, con numerosi ricercatori in tutto il mondo che si adoperano per la realizzazione di progetti e standard condivisi che possano facilitare l’interscambio e il riuso dei dati. Nel capitolo successivo infatti analizzeremo quali sono in Italia, in Europa e nel mondo le best practices per DL e archivi.

Riferimenti

Documenti correlati

Ci sono persone in cui, durante l’ascolto della musica, tali immagini insorgono in modo del tutto spontaneo – anche se il loro atteggiamento è interamente volto all’opera

To summarize this discussion, in the following model firms choose a profit-sharing scheme subject to the constraint that the induced last-stage Cournot equilibrium

Il supporto fisso non si muove e per la terza legge di newton esercita sulla corda una forza di uguale intensità, ma diretta verso il basso.!.

Il committente si riserva altresì la facoltà di risolvere il presente atto, ai sensi dell'art. 1454 del Codice Civile, mediante idoneo provvedimento, in ogni altro caso di grave

Le risorse proposte in formato PDF sono visualizzabili sul monitor, oppure scaricabili e stampabili in

IL NOME può essere COMUNE. cane PROPRIO Fido

L’aria è fondamentale per la vita sulla Terra: essa infatti contiene l’ossigeno, necessario per la respirazione degli esseri viventi e l’anidride carbonica, necessaria per la

Il clima prende in esame le condizioni atmosferiche nell'arco di più decenni, mentre il tempo meteorologico - o tempo atmosferico - considera queste condizioni nel breve