Metadati descrittivi?

Finora abbiamo avuto modo di analizzare abbastanza da vicino le varie possibilità per produrre, organizzare e gestire i metadati relativi alla conservazione e agli aspetti tecnici e amministrativi, quelli che in un linguaggio informatico potremmo chiamare i dati di

backend

, quelli necessari al conservatore per tutte le procedure e le operazioni di mantenimento dei file, ma non quelli di

frontend

, visibili e necessari all’utente per comprendere, consultare e avere accesso ai documenti presentati – se ci rifacciamo al primo principio del DSA, per cui

i dati

devono essere resi disponibili su Internet

95_{; se invece i dati sono}

destinati esclusivamente ad uso e consumo interno potrebbe essere

sufficiente acquisire i metadati per la gestione interna: ma questo risulterebbe in un approccio volutamente non conforme con OAIS. Se queste informazioni sono inevitabilmente necessarie, e ci si può anche interrogare – come abbiamo fatto – sulle modalità tecniche con cui possono essere fornite o acquisite, per quanto riguarda i metadati descrittivi sarà più importante attivare una riflessione su cosa si vuole o è opportuno fornire piuttosto che sugli strumenti tecnici per farlo. Relativamente alla descrizione archivistica ci sono una serie di standard internazionali relativi a vari aspetti come la descrizione degli archivi (ISAD(G)), dei record d’autorità (ISAAR(CPF)), dei soggetti conservatori (ISDIAH) e dei soggetti produttori (ISDF); inoltre esistono le applicazioni informatiche di ISAD(G) e ISAAR(CPF) che sono rispettivamente EAD ed EAC-CPF: questi sono gli standard principali in ambito internazionale per la descrizione degli archivi “tradizionali”, destinati agli archivisti che quotidianamente si impegnano nell’ordinamento di un fondo. Il lavoro archivistico però, oltre a essere esercitato principalmente su materiali analogici, è un lavoro impegnativo e che richiede tempi piuttosto lunghi per essere portato a termine: questo potrebbe essere anche parzialmente accettabile o – almeno – gestibile in un contesto analogico ma, se invece lo rapportiamo in un contesto digitale con l’acquisizione di decine o centinaia di migliaia di file per ogni conferimento, formerebbe un “collo di bottiglia” in cui tutte le operazioni seguenti non potrebbero procedere a causa della descrizione in corso. L’alternativa più rapida sarebbe evitare la fase scientifica della descrizione, dare un’indicazione generica del tipo «

Archivio dell’autore

Nome Cognome, dal gg/mm/aaaa al gg/mm/aaaa

», dando come indicazione di base la struttura delle

...e oltre?

In conclusione rispetto a quanto ci siamo detti finora, prima di trattare in maniera approfondita il progetto PAD – Pavia Archivi Digitali, che è il primo esempio in Italia di un archivio istituito allo scopo di conservare i documenti (nativi digitali) degli scrittori (per così dire, pure loro) nativi digitali96_{, accennerò piuttosto brevemente ad alcune di}

quelle che – ad oggi – sembrano poter essere delle innovazioni tecnologiche capaci di offrire un servizio migliore nel trattamento dei dati, ovvero alcune applicazioni degli strumenti offerti dal web

96_{Ed ecco qui spiegata la voluta ambiguità del titolo: se naturalmente ci si occupa dei} born digital archives, si parla anche di quegli autori che stanno affrontando questa transizione dall’analogico al digitale e che quindi sono i soggetti produttori di archivi ibridi (in un qualsiasi rapporto tra le due forme) e, specialmente, di quegli autori che – in quanto, essi stessi, “nativi digitali” – non lasceranno nessun archivio cartaceo ai posteri, poiché tutto il loro lavoro è svolto in ambiente digitale.

semantico su queste tipologie di progetti. C’è da premettere subito che le evidenze scientifiche di questi strumenti, tra cui i

Linked

(

Open

)

Data

(LOD), sono ancora tutte da dimostrare, o per meglio dire: non facciamoci prendere da entusiasmi eccessivi. In realtà ci sono alcune applicazioni che utilizzano LOD e che funzionano anche molto bene97_,

se si sa come utilizzarle. In estrema sintesi i LOD sono uno strumento che permette di inserire dati (ridotti a livello granulare) all’interno dello spazio informativo del web consentendo, non solo collegarli ad altri dati (il meccanismo del

link

è sempre esistito nel web), ma anche di far capire ai computer quale tipo di relazione collega tra loro dei dati o quale pattern di relazioni può ripetersi tra gruppi di dati, in modo che un ampio insieme di dati possa essere processato in modo automatico estraendo i dati richiesti (e talvolta, attraverso la possibilità di inserire pattern di relazione, consentendo anche la scoperta di relazioni fino a quel momento non esplicitate). Concettualmente, si potrebbe pensare che non si tratti di una novità così rilevante rispetto a come potevano essere trattati precedentemente i dati con altri sistemi, tuttavia bisogna notare come questo sistema permetta di esprimere le relazioni in un modo standard per tutti, e di conseguenza estrarre informazioni (potenzialmente) da tutto l’insieme di dati presenti sul web. La questione più rilevante – al di là del fatto che possa essere o meno una moda – è che nell’ambito dei beni culturali, in genere, non si capisce ancora molto bene quali vantaggi darebbero98_{rispetto ad altri strumenti}

che sono già disponibili: per fare un esempio molto banale quando una persona effettua una ricerca nel catalogo di una biblioteca, viene restituita una scheda catalografica, che è l’unità informativa minima, in quanto contiene tutti i dati necessari a identificare inequivocabilmente un determinato esemplare di un determinato titolo. Nel caso dei LOD,

97_{Dbpedia (http://wiki.dbpedia.org/), nato come versione semantica di Wikipedia, a} cui ha fatto seguito Wikidata (https://www.wikidata.org/); Linked Jazz (https://linkedjazz.org/), il progetto semantico della Bibliothèque nationale de Fran- ce (http://data.bnf.fr/), solo per citarne qualcuno.

98_{Anche perché sono relativamente ancora poco diffusi o mediamente non indirizzati} all’utente medio: se metto a disposizione i miei dati attraverso un endpoint SPARQL, questo potrà essere interrogato solo da chi ha un minimo di dimestichezza con il linguaggio SPARQL e potrà capire la documentazione relativa alla struttura dei dati per poter porre le query in modo appropriato.

l’unità informativa minima è ciascuno dei singoli elementi che vengono riaggregati in un secondo momento a comporre l’unità della scheda: ci si potrebbe giustamente domandare quale vantaggio si possa ottenere dall’investire una buona quantità di risorse per convertire il catalogo, se si possono ottenere risultati analoghi con altri strumenti (come i

discovery tool

che non fanno necessariamente uso dei LOD, pur offrendo funzionalità aggiuntive) e senza dover modificare in maniera così radicale il catalogo. Proprio a questo proposito, in una discussione avuta con Sara Di Giorgio (ICCU), si evidenziava come – ad oggi – l’assenza di applicazioni che possano giustificare, con esiti decisivi, la scelta di utilizzare i LOD, rimanga uno dei principali deterrenti alla loro applicazione. Se però ci sono alcuni inevitabili dubbi su queste tecnologie, ci sono anche alcune esperienze positive, o alcune applicazioni, che ne dimostrano alcuni usi stimolanti; al di là del lavoro molto articolato e complesso della Bibliothèque Nationale de France con il progetto data.bnf.fr, che non è evidentemente alla portata di tutti, rispetto alle necessità che abbiamo relativamente agli archivi d’autore che stiamo analizzando, possono esserci alcuni strumenti che, se non direttamente applicabili, senz’altro possono dare alcuni spunti almeno di riflessione su come vorremmo poter utilizzare i nostri dati nel futuro e cosa vorremmo che facessero i nostri dati per noi.

Nel documento Gli archivi degli scrittori nativi digitali: verso la conservazione e oltre (pagine 95-99)