Università di Bologna, Italia - [email protected] 2
Università di Bologna, Italia - [email protected] 3
Università di Bologna, Italia - [email protected]
1. INTRODUZIONE
Tra le varie lezioni che l’universo dei Linked Open Data (LOD) sta contribuendo ad impartire, la necessità di un approccio data-centrico alla rappresentazione del sapere è l’insegnamento principe. Il passaggio al Web 3.0, ovvero all’altrimenti detto Web semantico, ha determinato una ridefinizione del concetto di risorsa informativa, che costringe a pensare alla rete globale come ad una collezione di entità, identificate in modo univoco e interconnesse attraverso link tipizzati, e non più solo rete di documenti. Partendo da questo assunto, il presente contributo intende muovere in una triplice direzione: riflettere sul passaggio delle edizioni scientifiche digitali al modello Linked Open Data; descrivere le fasi del processo di transizione; analizzare l’edizione digitale del Quaderno di appunti di Paolo Bufalini quale esempio di questo processo e delle complessità insite nell’attività di trasformazione.
2. DALLE EDIZIONI SCIENTIFICHE DIGITALI AI LINKED OPEN DATA
Le edizioni scientifiche digitali tradizionalmente lavorano su fonti che individuano gli oggetti della ricerca nei documenti. Tali documenti assumono i connotati di risorse semi-strutturate, ottenute attraverso l’adozione di un modello di markup, tipicamente a base XML1, che trova nello schema TEI un vocabolario condiviso.
Una collezione di testi digitali marcati in XML manca però della nozione di struttura che è insita, ad esempio, nei database, modello naturaliter di rappresentazione data-centrico. Il passaggio dal database al dataset LOD risulta più lineare, seppure non scevro di insidie, per la natura stessa dei dati e per la presenza di un modello concettuale di riferimento.
Il processo di transizione da una collezione di documenti XML/TEI ad un dataset LOD2 è invece più complesso e merita una
riflessione importante, in quanto significa tradurre il concetto di documento da entità non strutturata, o semi-strutturata, in dato strutturato. Tale assunto costringe ad abbracciare il principio di decostruzione del concetto di documento, adottando quello di dato: dalla dimensione di risorsa informativa a testo pieno, il documento diventa tanto un oggetto (soggetto), quanto una potenziale collezione di oggetti (soggetti). Questi soggetti sono caratterizzati da una serie di proprietà che consentono la creazione di relazioni con altri oggetti, siano essi altri documenti o entità reali (e.g. opere, persone, luoghi, eventi e periodi storici). Acquisendo questo processo come un modello di riferimento, le numerose edizioni digitali su Web, che adottano XML/TEI3, ad oggi standard de facto nella comunità filologica4, si vedono incentivate ad una riorganizzazione del proprio
sapere in una forma tale da garantire l’ingresso nella LOD cloud delle (semantic) scholarly editions5, ovvero nel sistema di interconnessioni del cultural heritage (texts).
3. IL WORKFLOW: GLI STEP DEL PROCESSO DI TRANSIZIONE
Il processo di transizione al modello LOD, prima di essere un’operazione tecnica, è innanzitutto attività concettuale. Fondamentale è l’analisi del modello di markup adottato nell’edizione, attività necessaria per riconoscere e qualificare le scelte di descrizione delle caratteristiche della fonte da parte dell’interprete. Potenzialmente ogni elemento del markup diventa un soggetto, un oggetto o un asserto relazionato all’entità documento. Pertanto lo studio del modello di markup è rilevante ai fini delle possibilità descrittive finali secondo il nuovo modello di rappresentazione.
Da ciò consegue la definizione delle suite delle relazioni che è possibile costruire. La scelta dei predicati ontologici deve sostare ad una consapevolezza: aumentare l’espressività della base di conoscenza fornita dal testo, senza però disperdere il potenziale informativo in nome della, pur necessaria, semplificazione. La scelta dei più opportuni modelli ontologici è dunque
1 Tipicamente, ma non sempre. Varie soluzioni alternative al markup embedded sono state proposte. Si veda una rassegna in [12] in particolare pp. 138-142.
2 Si vuole qui proporre qualcosa di diverso dunque da soluzioni che hanno riflettuto sull’uso del markup stand-off, come [11], in particolare a base RDF, come in [13].
3 Corposo il numero di edizioni menzionate nella sezione Projects Using the TEI del sito ufficiale del progetto, http://www.teic.org/Activities/Projects/
4 Una rapida disamina può essere effettuata analizzando il catalogo delle edizioni digitali in [9]. Non sarà irrilevante notare come le Linee Guida di MLA [10] individuino nell’uso di XML/TEI un criterio per la valutazione della qualità delle edizioni digitali.
il momento centrale di questa fase. Infine, la costruzione del grafo della conoscenza è dirimente. I dati sono linked quando sono capaci di dialogare con quel sapere disseminato nel web, in grado di arricchire il testo digitale e capace di espandere l’esperienza informativa dell’utente finale oltre i confini del testo stesso.
Calare questo processo nel contesto delle edizioni scientifiche digitali, significa porsi una serie di interrogativi:
1. il passaggio dal markup embedded al dataset. Ovvero: come trasformare XML/TEI in RDF? Non si tratta di un mero esercizio meccanico, ma di una presa di coscienza della funzione dei sistemi di marcatura embedded o inline. Sarà allora necessario distinguere le entità reali dalle loro occorrenze all’interno del testo (i.e., le stringhe di caratteri) e preservare i fenomeni registrati nel testo per la sua visualizzazione e fruizione (e.g., aspetti grafici, impaginazione). 2. il passaggio dagli elementi TEI all’ontologia (per cui cfr. [8]). Ovvero: quali modelli ontologici riusare? E’ necessario creare nuove classi e proprietà? Si deve invece ‘ontologizzare’ lo Schema (per cui cfr. [1], [2])? I modelli concettuali scelti per il mapping su TEI sono determinanti per stabilire la capacità comunicative della base di conoscenza e svelare concetti latenti.
3. la creazione dei collegamenti con i sistemi di controllo delle autorità. Ovvero: quali collegamenti istituire? Come dare consistenza alla rete del sapere? Alla base della scelta dei dataset relazionati, così come per la scelta dei modelli, è di nuovo la necessità di aprire i dati al dialogo con altre risorse in grado di arricchire la base di conoscenza così da soddisfare i bisogni informativi di varie tipologie di utenti, anche specializzati.
Questi interrogativi sollevano una riflessione sul senso del processo stesso. Una strategia di valorizzazione delle edizioni digitali quale patrimonio culturale che si avvale delle tecnologie del Semantic Web richiede:
• pianificazione: la definizione del modello di markup in previsione della trasformazione dei dati è la fase più dispendiosa in termini di tempo;
• know how interdisciplinare, per la ridefinizione del modello del testo e l'estrazione dei dati; • maggior numero di risorse tecnologiche, per la pubblicazione e la manutenzione.
Ciò significa, in termini di costi, una maggiore domanda di expertise, intesa come consapevolezza e capacità di gestione dei vari momenti del processo – che una solida formazione in Digital Humanities dovrebbe assolvere. I costi legati all'infrastruttura tecnologica non variano significativamente: ci si avvale di software open source e la dimensione dei dati creati permane di medio-bassa scala – ben diverso è il ragionamento in caso di Digital Libraries. In ultima analisi, ai tempi e le risorse impiegate per la realizzazione di una edizione scientifica digitale “tradizionale” si aggiunge qui il costo della “destrutturazione dell'edizione” in vista della modellazione della conoscenza.
I benefici immediati sono evidenti quando le tematiche sollevate dal testo (e.g., la rete di personalità, testi, eventi o altri oggetti culturali veicolati dal testo pieno) trovano riscontro e ampliamento in fonti di dati esterne, che possono essere integrate, arricchire la base di conoscenza e ridurre i tempi di ricerca e approfondimento scientifico – a cui però si sostituiscono tempi e risorse impiegate per la riconciliazione dei dati. D'altro canto, la condivisione della conoscenza estratta dal testo stesso, consente una maggiore condivisione del proprio lavoro scientifico in ambiti diversi da quello accademico, quindi una maggiore possibilità di riutilizzo e aumento di impatto della cultura nella società dell'informazione. Il lavoro condotto sul
Quaderno di appunti di Paolo Bufalini aiuterà ad affrontare la dimensione epistemica del processo qui illustrato.
4. UN ESEMPIO: IL QUADERNO DI APPUNTI DI PAOLO BUFALINI
Il lavoro condotto sul Quaderno di appunti manoscritti di Paolo Bufalini, membro del PCI e Senatore della Repubblica dal 1963 al 1992, latinista e raffinato traduttore di Orazio, offre un esempio di processo di transizione da documenti XML/TEI a LOD. Fra il 1981 e il 1991 Bufalini tenne un quaderno di appunti privati composto da 145 pagine rilegate e 2 carte sciolte. Il
Quaderno contiene frammenti testuali relativi a momenti significativi della vita intellettuale e sociale dell’autore: citazioni
tratte da testi letterari, note personali e commenti, narrazioni di eventi, prove di traduzione dal latino all’italiano. In particolare, data la natura privata del Quaderno, le relazioni fra i frammenti testuali (testo-testo, testo-nota, testo-traduzione e traduzione- traduzione) non sono rese esplicite da Bufalini, così come non sempre viene dichiarata la fonte dei testi citati.
Il Quaderno veicola dunque una complessità significativa in termini di concettualizzazione. Quali frammenti testuali sono presenti nel Quaderno? Le traduzioni sono inedite o si basano su edizioni esistenti? Quale edizione (se una ne aveva) Bufalini teneva sotto mano mentre trascriveva un appunto? A quale frammento testuale si riferisce una particolare annotazione? Qual è la paternità di un frammento testuale non attribuito, sia esso testo primo o traduzione? Una serie di interrogativi importanti per rispondere ai quali è stato necessario uno studio del testo del manoscritto, finalizzato in prima battuta a garantire la qualificazione, la tipizzazione e l’identificazione dei frammenti.
Alla morte di Paolo Bufalini, il Quaderno fu donato dagli eredi al Dipartimento di Filologia Classica e Italianistica dell’Università di Bologna, che si è occupato di trascrivere gli appunti e di identificare le fonti delle 196 citazioni presenti (cf. [3] e [4]). I testi, accompagnati da traduzioni e annotazioni, provengono dai classici della letteratura italiana e latina (Dante, Manzoni, Petrarca, Carducci, Virgilio, Orazio, Tacito, Cicerone, Ennio, Marziale, etc.) e delle letterature europee (Flaubert, Hegel, Shakespeare, Mann, Yourcenar, etc.).
I frammenti che compongono il Quaderno formano dunque un complesso network di relazioni che suggerisce la necessità di una lettura non lineare del testo rispetto al supporto documentario.
Il modello di codifica XML/TEI, elaborato per l’annotazione, ha consentito la marcatura, fra gli altri, degli elementi portatori di relazioni (in particolare testi citati, riferimenti bibliografici, persone, rispettivamente marcati tramite gli elementi tei:cit, tei:bibl, tei:persName), mentre nell’intestazione del documento XML/TEI, tali frammenti, identificati univocamente, sono stati collegati agli authority file di riferimento ed è stata fornita una prima descrizione della natura delle relazioni (tramite l’elemento tei:relation).
Ma la complessità del sistema di interconnessioni rende difficile il solo utilizzo di XML/TEI per esprimere compiutamente le relazioni6.
Fig. 1 Facsimile del Quaderno di appunti di P. Bufalini, pp. 34-35
Per esemplificare un caso di annotazione complessa, può essere d’ausilio analizzare una circostanza ricorrente nel Quaderno: le relazioni fra i testi e gli autori citati. Le pagine 34-35 (Fig. 1) contengono riflessioni complesse su Nietzsche: secondo Bufalini (o meglio secondo la nostra ipotesi di interpretazione del pensiero di Bufalini – e ciò aggiunge un’ulteriore dimensione al modello di rappresentazione dei dati), il pensiero di Schopenhauer influenza l’idea di individualismo e di impossibilità della felicità sviluppata da Nietzsche. Bufalini riporta un commento di Thomas Mann su Nietzsche e lo espande con considerazioni personali.
La Fig. 2 mostra la codifica XML/TEI di elementi e relazioni coinvolti in questo esempio. Il commento di Thomas Mann su Nietzsche è identificato attraverso il riferimento #bibl074f. Le persone coinvolte (Friedrich Nietzsche e Arthur Schopenhauer)
sono identificate univocamente, collegate a fonti esterne riconosciute e ampiamente utilizzate quali VIAF7 e DBpedia8
(nell’intestazione del file XML/TEI), mentre l’occorrenza dei loro nomi è registrata nel frammento interessato nel corpo del documento (key=”FN” e key=”AS”).
Fig. 2 Esempio di markup XML di: riferimenti bibliografici (tei:quote + @source), persone (tei:person per la qualificazione + tei:persName per l’annotazione inline) e influenze tra persone citate (tei:relation + attributes)
Da questo sistema di rappresentazione delle citazioni è possibile estrarre le entità (qualificandole attraverso URI come soggetti/oggetti) e relazioni RDF (predicati sulla base delle ontologie scelte). Per rappresentare in RDF queste situazioni articolate, si è optato per il maggior riuso possibile di modelli esistenti, in quanto buona pratica nella comunità del Semantic Web. La scelta delle ontologie ha dovuto sottostare a tre requisiti descrittivi fondamentali, corrispondenti a tre differenti approcci nella rappresentazione della conoscenza e, nello specifico, a diverse ontologie:
• l’articolazione dei diversi livelli che compongono l’oggetto testuale (il contenuto del testo, l’edizione specifica citata, l’esemplare posseduto dall’autore - quando noto). FRBR è il modello scelto per la destrutturazione del testo, un approccio data-driven di scomposizione dell’entità documento in quattro livelli descrittivi. Nello specifico è stata utilizzata l’ontologia FaBiO9, la formalizzazione OWL di FRBR offerta delle SPAR Ontologies.
• la specificità delle relazioni: i ruoli (persone citate, autori), tra opere (opere citate da Bufalini, citazioni tra opere terze registrate da Bufalini), influenze tra autori (accordo, disaccordo, disputa, citazione generica). La descrizione di tali situazioni ha richiesto un approccio situation/event-driven, così da poter ulteriormente annotare l’eventocitazione con tutti gli elementi di contesto (persone coinvolte, ruoli, testi citati). A tal fine sono state utilizzate le ontologie CiTO10 e PROV Ontology11.
• la provenance delle asserzioni fatte dall’autore e dagli autori citati. Un approccio interpretation-driven è indispensabile per preservare il processo di analisi sia dell’autore, che rileva i fenomeni descritti, sia dell’editore, il quale esplicita le relazioni sulla base di una propria interpretazione soggettiva della volontà di Bufalini. Per la rappresentazione dell’atto interpretativo si è scelto di utilizzare il modello delle nanoPublication12, che prevede la
7 The Virtual International Authority File, http://viaf.org/, authority file per l'identificazione di personalità storiche, i cui dati sono pubblicati come Linked Open Data.
8 DBPedia, http://wiki.dbpedia.org/; http://it.dbpedia.org/, Linked Open Data estratti dalle voci di Wikipedia 9 FRBR-Aligned Bibliographic Ontology (FABiO), http://www.sparontologies.net/ontologies/fabio 10 Citation Typing Ontology (CiTO), http://www.sparontologies.net/ontologies/cito
11 Provenance Ontology (PROV-O), https://www.w3.org/TR/prov-o/ 12 NanoPublication, http://nanopub.org/guidelines/working_draft/
formalizzazione di due livelli di provenance (inerente gli asserti estratti dal testo pieno e inerenti la pubblicazione dell'edizione) mediante l'utilizzo di named graphs.
Infine, una volta acquisito il modello di markup e stabilite le relazioni da estrarre dal testo pieno, la scelta degli authority file e dei dataset da collegare è fondamentale per completare la base di conoscenza e fornire una migliore esperienza informativa all’utente. Sia il riferimento all’identificativo VIAF, sia il link alla rispettiva entità in DBpedia sono stati creati per estendere le informazioni biografiche delle personalità citate. Quando è stato possibile decifrare la specifica edizione di un testo citato è stato creato un link a Worldcat e VIAF; nei casi in cui è nota l’opera, ma non l’edizione citata, è stato creato il solo link a VIAF.
La base di conoscenza, così arricchita grazie all’integrazione di risorse esterne, verrà ulteriormente arricchita con la versione integrale dei frammenti testuali riportati nel Quaderno, il che consentirà di ricostruire, anche virtualmente, una parte della biblioteca di Paolo Bufalini.
5. CONCLUSIONI
In questo contributo abbiamo sollevato l’attenzione sulle problematiche veicolate dall’adozione dei Linked Open Data nel mondo delle edizioni scientifiche digitali. Per sfruttare a pieno le possibilità offerte dal medium tecnologico (i.e., la possibilità di rappresentare in modo più espressivo i fenomeni estratti dal testo e l’integrazione di dati con fonti esterne) è necessario ripensare l’oggetto testo e le sue forme sulla base del nuovo modello di rappresentazione. Il caso d’uso del Quaderno di
appunti di Paolo Bufalini è un esempio di come tali problematiche vadano risolte avendo piena coscienza delle fasi di tale
processo. Il modello LOD ha consentito di esplicitare le relazioni intra-testuali e inter-testuali tra frammenti di appunti, persone, luoghi, opere citate e il quaderno inteso come documento. Inoltre, ha permesso di esplicitare interpretazioni divergenti su di uno stesso fenomeno testuale, offrendo al lettore-utente la possibilità di accedere al Quaderno attraverso molteplici entry-points, permettendo di ‘svincolare’ le informazioni dall’edizione-documento ed integrare il testo del
Quaderno con altri ambienti di valorizzazione del patrimonio culturale presenti nel web.
Con la definizione di questo workflow, e le relative specifiche di processo, si sono dunque poste la basi per una modellazione sufficiente scalabile in ogni contesto di trasformazione di edizioni digitali in ambienti di conoscenza a base semantica.
6. BIBLIOGRAFIA
[1] Ciotti, F. and Tomasi, F. 2016. Formal ontologies, Linked Data and TEI Semantics. «Journal of the Text Encoding Initiative» 9. http://jtei.revues.org/1480.
[2] Ciotti, F., Daquino, M., and Tomasi, F. 2016. Text Encoding Initiative semantic modeling. A conceptual workflow proposal. In: Digital Libraries on the Move. «Communications in Computer and Information Science» 612. Berlin, Springer Verlag, pp 48-60. [3] Citti, F. 2008. Paolo Bufalini and the Classics: towards a digital edition of his “Note-book”. «Conservation Science in Cultural
Heritage» 8, pp. 65-87.
[4] Citti, F. 2010. I classici nelle carte di un politico. Traduzioni e appunti di Paolo Bufalini. «Aufidus» 70, pp. 7-32.
[5] Ciula, A., Spence, P. and Vieira, J.M. 2008. Expressing complex associations in medieval historical documents: the Henry III Fine Rolls Project. «Literary and Linguistic Computing» 23, 3, pp. 311-325.
[6] Daquino, M., and Tomasi, F. 2015. Historical Context Ontology (HiCO): a conceptual model for describing context information of cultural heritage objects. In: Research Conference on Metadata and Semantics Research. Springer, Cham, pp. 424-436.
[7] Eide, Ø. and Ore, C.-E. 2007. From TEI to a CIDOC-CRM Conforming Model: Towards a Better Integration between Text Collections and Other Sources of Cultural Historical Documentation. Paper presented at the DH conference 2007.
[8] Eide, Ø. 2015. Ontologies, Data Modeling, and TEI. «Journal of the Text Encoding Initiative» 8. http://jtei.revues.org/1191. [9] Franzini, G. 2012-. Catalogue of Digital Editions. https://dig-ed-cat.acdh.oeaw.ac.at/
[10] MLA - Modern Language Association. 2011. Guidelines for Editors of Scholaly Editions. http://www.mla.org/resources/documents/rep_scholarly/cse_guidelines
[11] Schmidt, D. 2010. The inadequacy of embedded markup for cultural heritage texts. «Literary and Linguistic Computing» April 16, 2010.
[12] Schmidt, D. 2012. The role of markup in the digital humanities. «Historical Social Research» 37, 3, pp. 125-146.
[13] Tummarello G., Morbidoni C., Pierazzo E. 2005. Toward textual encoding based on RDF. In: Proceedings ELPUB2005 Conference on Electronic Publishing. Kath. Univ. Leuven, June 2005.