• Non ci sono risultati.

Proposta di un modello formale per il caso di studio

In questo articolo ci concentriamo sulle attestazioni delle forme lessicali, che sono fornite come prova testuale per ogni senso delle voce. Per poter fare ciò, è necessario dotare il modello di classi e proprietà che permettano di collegare il lessico ai corpora di riferimento. Partendo dal contesto sopra

3 Una sua versione riveduta, denominata ONTOLEX, è stata recentemente pubblicata dal W3C. 4 https://lov.okfn.org/dataset/lov/

122 descritto e dai requisiti definiti precedentemente, in questo lavoro viene presentato un modello che estende lemonDia, che permette di rappresentare le attestazioni delle forme lessicali in un corpus e di giustificare, tramite la letteratura secondaria, l’associazione del senso a tali forme.

In figura 1(d) viene mostrata l’estensione proposta. Ogni senso o psenso5

21 è associato con un

elemento della classe Attestation tramite la relazione hasAttestation, che rappresenta l’attestazione di uno specifico senso6.

22

Figura 1. (a) modello lemon (b) polylemon (c) estensione diacronica (d) estensione citazionale

Tali elementi hanno una proprietà explanation che permette di specificare l’eventuale glossa, una proprietà textValue che permette di rappresentare, come stringa, il contesto della forma lessicale e una proprietà hasURN che permette di specificare, se esiste, l’urn dell’architettura CITE-CTS7

23 (Canonical

Text Service) che identifica, univocamente e globalmente, il frammento di testo relativo all’attestazione. Inoltre è possibile associare l’elemento attestazione con il record bibliografico dell’opera a cui esso appartiene tramite la proprietà foundIn. Infine ogni senso può essere associato con un elemento della classe AttestationRange che permette di specificare un intervallo temporale (Khan 2014) (chiuso o aperto) tramite l’utilizzo del vocabolario OWL-Time (Hobbs and Pan 2004).

A titolo di esempio, mostriamo come il caso d’uso riportato all’inizio del contributo può essere rappresentato nel nostro modello. La figura 2 mostra come i relativi datasets, le entrate parziali di

5 Un psenso rappresenta un significato di un’entrata lessicale in un certo intervallo di tempo, come descritto in (Khan 2014).

6 È possibile codificare le attestazioni di un’entrata lessicale alla stregua di quanto viene fatto nell’ambito degli studi di opere frammentarie attraverso le “quotation” e il “text reuse” (Büchler et al 2014). Nello specifico, si rappresentano le attestazioni nel modello come “porzioni di testo citato” collegate alle fonti primarie che veicolano il “frammento” in oggetto attraverso il paradigma dei LOD e un sistema di identificazione globale ed univoco. Si veda (Berti 2011) e (Berti 2012).

7 L’architettura CITE, sviluppata nel progetto Homer Multitext, fornisce, da un lato, una modalità di identificazione standard e valida semanticamente per mezzo di URN, dall’altro lato, un protocollo di recupero dei passaggi testuali all’interno di oggetti citabili chiamato CTS (Smith and Weaver 2009). Gli URN, essendo un tipo di URI, possono essere inclusi all’interno della descrizione RDF della risorsa lessicografica e quindi perfettamente aderenti alle specifiche LOD.

123 Treccani e di Battaglia, sono rappresentate tramite lemonDia. Ambedue i dizionari riportano i due significati della parola “riprovare” come entrate separate (omonimi riprovare1 e riprovare2) aventi lo

stesso significato nei due dizionari. La figura 3 riporta l’entrata della voce riprovare2 della Treccani.

Il modello permette di rappresentare la struttura gerarchica dell’entrata di riprovare2 della Treccani

tramite la proprietà senseSibling, come mostrato in figura 2. Il senso di interesse è 1b. ed è codificato come un psense, S21b, che riporta la glossa “Dimostrare falso, confutare” e un’attestazione dal III

Canto del Paradiso della Divina Commedia. In particolare tale attestazione è collegata all’URN CTS che identifica la specifica citazione nel testo. L’attestazione è collegata anche a un record che rappresenta il Paradiso (il record proviene dal dataset RDF della Library of Congress8

24), che fornisce

anche una data relativa all’anno di composizione che è utilizzata dal modello come data dell’elemento attestazione.

Figura 2. Modello proposto. Rappresentazione delle citazioni: esempio “provare e riprovare”.

In questo caso, come in molti altri, c'è la necessità di fare riferimento alla letteratura secondaria per determinare le evidenze a supporto di ogni ipotesi. Anche in questo senso, il paradigma dei LOD fornisce un formato ideale per rappresentare questo tipo di situazione grazie sia alla possibilità di rappresentare formalmente tali fenomeni, sia alla disponibilità di vocabolari già esistenti. La Figura 4 mostra questa caratteristica del modello proposto. In questo caso è possibile rappresentare che l’articolo di Tucciarone9

25 in “Quaderni di Storia” rifiuta l’interpretazione dell’attestazione di Dante

8 http://id.loc.gov/authorities/names/

9 Per la descrizione di schede e riferimenti bibliografici è stato utilizzato il vocabolario ontologico denominato Bibliographic Ontology (BIBO) (http://bibliontology.com/specification). BIBO fa uso dei termini Dublin Core per la definizione e la pubblicazione linked data della descrizione di documenti. Una versione più accurata per la descrizione catalografica delle attestazioni farà uso del modello FRBR (Le Boeuf 2005) e di alcuni moduli delle

124 data dal dizionario di Battaglia, a supporto del significato rappresentato dal psenso S12. Inoltre è

possibile specificare che tale articolo supporta invece l’interpretazione della Treccani.

Le relazioni che rappresentano tali fenomeni, rispettivamente refutes e confirms, appartengono al vocabolario Linked Science Core Vocabulary (LSC) che definisce uno schema grazie al quale è possibile descrivere relazioni temporali, spaziali e altro, tra oggetti scientifici.

Figura 3. Entrata della voce riprovare2 di Treccani.

In base al vocabolario LSC, le opportune classi del modello sono state tipizzate in accordo con i campi di esistenza di refutes e confirms: l’oggetto dell’interpretazione è diventato l’ipotesi (classe lsc:Hypothesis) e i sensi che lo confutano o lo supportano diventano rappresentazioni di oggetti scientifici (classe lsc:Research), in quanto assumono una connotazione più di ricerca lessicografica che di una rappresentazione dell’uso di una parola.

Figura 4. Rappresentazione della letteratura secondaria: “provare e riprovare”.

SPAR ontologies (Peroni 2014).

125

Conclusioni

La lessicografia italiana, che vanta una storia molto gloriosa, sta raggiungendo la maturità anche nel mondo digitale, per qualità e numero di opere disponibili, dalle diverse edizioni del Vocabolario della Crusca (http://www.lessicografia.it), al Tommaseo-Bellini (http://www.tommaseobellini.it), al Vocabolario Treccani (http://www.treccani.it/vocabolario). Abbiamo cercato di dimostrare l’importanza di collegare le risorse lessicografiche non solo con le risorse testuali citate, ma anche con le risorse bibliografiche (possibilmente in full text) che criticano e interpretano tali risorse. Se un vocabolario senza citazioni è un corpo senz’anima, una citazione senza interpretazioni è un’anima senza spirito.

Riferimenti Bibliografici

Berti, Monica. 2011. “Citazioni E Dinamiche Testuali. L’intertestualità E La Storiografia Greca Frammentaria.” In Tradizione E Trasmissione Degli Storici Greci Frammentari II. Atti Del Terzo Workshop Internazionale, 439–58. Roma.

Berti, Monica. 2012. “Collecting Quotations by Topic: Degrees of Preservation and Transtextual Relations among Genres.” Ancient Society 43: 269–88.

Büchler, Marco, Philip R Burns, Martin Müller, Emily Franzini, and Greta Franzini. 2014. “Towards a Historical Text Re-Use Detection.” In Text Mining, 221–38. Springer International Publishing. Ciotti, Fabio. 2012. “Web Semantico, Linked Data E Studi Letterari: Verso Una Nuova Convergenza.” Quaderni DigiLab 2 (1): 243–76.

Ciotti, Fabio, and Francesca Tomasi. 2016. “Formal Ontologies, Linked Data, and TEI Semantics.” Journal of the Text Encoding Initiative, no. 9: 1–23. doi:10.4000/jtei.1480.

Daquino, Marilena, and Francesca Tomasi. 2014. “Ontological Approaches to Information Description and Extraction in the Cultural Heritage Domain.” In AIUCD2014 Proceedings, 8. Bologna: ACM.

Hobbs, Jerry R., and Feng Pan. 2004. “An Ontology of Time for the Semantic Web.” ACM Transactions on Asian Language Processing, Issue on Temporal Information Processing, 3 (1): 66– 85.

Khan, Fahad, Andrea Bellandi, and Monica Monachini. 2016. “Tools and Instruments for Building and Querying Diachronic Computational Lexica.” In LT4DH2016 Proceedings, 164–71. Osaka. Khan, Fahad, Federico Boschetti, and Francesca Frontini. 2014. “Using Lemon to Model Lexical Semantic Shift in Diachronic Lexical Resources.” In LDL2014 Proceedings, 50–54. Reykjavik. Khan, Fahad, Javier E. Díaz-Vera, and Monica Monachini. 2016. “Representing Polysemy and Diachronic Lexico-Semantic Data on the Semantic Web.” In SWASH2016 Proceedings, 37–45. Heraklion, Greece.

Le Boeuf, Patrick. 2005. Functional Requirements for Bibliographic Records (FRBR): Hype or Cure- All? New York: The Haworth Information Press.

Peroni, Silvio. 2014. “The Semantic Publishing and Referencing Ontologies.” Semantic Web Technologies and Legal Scholarly Publishing, 121–93.

Smith, D Neel, and Gabriel Weaver. 2009. “Applying Domain Knowledge from Structured Citation Formats to Text and Data Mining: Examples Using the CITE Architecture.” Text Mining Services, 129–39.

Tuccione, Aldo. 1998. “Provando E Riprovando: Beatrice E L’accademia Del Cimento.” Quaderni Di Storia 47: 103–12.

126

Linked Open Data per l’analisi dei dati e lo sviluppo

della ricerca sulle vittime della Shoah in Italia

Laura Brazzo, Fondazione CDEC, [email protected]

Silvia Mazzini, Regesta.exe, [email protected]

Introduzione

Il progetto della Fondazione Centro di Documentazione Ebraica Contemporanea per la pubblicazione in Linked Open Data dei dati sulle vittime della Shoah in Italia rappresenta per molti aspetti un momento di svolta per la ricerca su questo tema.

Tale pubblicazione, eseguita secondo i paradigmi dei Linked Open Data e sfruttando le tecnologie standard proposte dal W3C per il Semantic Web, consente oggi di svolgere analisi sui dati che prima erano riservate ai soli autori/produttori della banca dati.

A complemento di ciò vanno sottolineati i principali benefici derivanti da questo tipo di pubblicazione: le attività di reasoning e interlinking – naturale sviluppo della pubblicazione LOD – per l’arricchimento dell’informazione relativa ai dati esposti - altrimenti demandata a lunghe e onerose ricerche manuali; la riconciliazione dei dati, per un’efficace attività di data-cleaning sui dati stessi.