Proposta di un modello formale per il caso di studio

In questo articolo ci concentriamo sulle attestazioni delle forme lessicali, che sono fornite come prova testuale per ogni senso delle voce. Per poter fare ciò, è necessario dotare il modello di classi e proprietà che permettano di collegare il lessico ai corpora di riferimento. Partendo dal contesto sopra descritto e dai requisiti definiti precedentemente, in questo lavoro viene presentato un modello che estende lemonDia, che permette di rappresentare le attestazioni delle forme lessicali in un corpus e di giustificare, tramite la letteratura secondaria, l’associazione del senso a tali forme.

In figura 1(d) viene mostrata l’estensione proposta. Ogni senso o psenso5

25 è associato con un

elemento della classe Attestation tramite la relazione hasAttestation, che rappresenta l’attestazione di

uno specifico senso6_.

Figura 1. (a) modello lemon (b) polylemon (c) estensione diacronica (d) estensione citazionale

4 https://lov.okfn.org/dataset/lov/

5 Un psenso rappresenta un significato di un’entrata lessicale in un certo intervallo di tempo, come descritto in (Khan 2014).

6 È possibile codificare le attestazioni di un’entrata lessicale alla stregua di quanto viene fatto nell’ambito degli studi di opere frammentarie attraverso le “quotation” e il “text reuse” (Büchler et al 2014). Nello specifico, si rappresentano le attestazioni nel modello come “porzioni di testo citato” collegate alle fonti primarie che veicolano il “frammento” in oggetto attraverso il paradigma dei LOD e un sistema di identificazione globale ed univoco. Si veda (Berti 2011) e (Berti 2012).

AIUCD – SHORT PAPERS

112

Tali elementi hanno una proprietà explanation che permette di specificare l’eventuale glossa, una proprietà textValue che permette di rappresentare, come stringa, il contesto della forma lessicale e una

proprietà hasURN che permette di specificare, se esiste, l’urn dell’architettura CITE-CTS7

27 (Canonical

Text Service) che identifica, univocamente e globalmente, il frammento di testo relativo all’attestazione. Inoltre è possibile associare l’elemento attestazione con il record bibliografico dell’opera a cui esso appartiene tramite la proprietà foundIn. Infine ogni senso può essere associato con un elemento della classe AttestationRange che permette di specificare un intervallo temporale (Khan 2014) (chiuso o aperto) tramite l’utilizzo del vocabolario OWL-Time (Hobbs and Pan 2004).

A titolo di esempio, mostriamo come il caso d’uso riportato all’inizio del contributo può essere rappresentato nel nostro modello. La figura 2 mostra come i relativi datasets, le entrate parziali di Treccani e di Battaglia, sono rappresentate tramite lemonDia. Ambedue i dizionari riportano i due

significati della parola “riprovare” come entrate separate (omonimi riprovare1 e riprovare2) aventi lo

stesso significato nei due dizionari. La figura 3 riporta l’entrata della voce riprovare2 della Treccani.

Il modello permette di rappresentare la struttura gerarchica dell’entrata di riprovare2 della Treccani

tramite la proprietà senseSibling, come mostrato in figura 2. Il senso di interesse è 1b. ed è codificato

come un psense, S21b, che riporta la glossa “Dimostrare falso, confutare” e un’attestazione dal III

Canto del Paradiso della Divina Commedia. In particolare tale attestazione è collegata all’URN CTS che identifica la specifica citazione nel testo. L’attestazione è collegata anche a un record che

rappresenta il Paradiso (il record proviene dal dataset RDF della Library of Congress8

28), che fornisce

anche una data relativa all’anno di composizione che è utilizzata dal modello come data dell’elemento attestazione.

Figura 2. Modello proposto. Rappresentazione delle citazioni: esempio “provare e riprovare”.

7 L’architettura CITE, sviluppata nel progetto Homer Multitext, fornisce, da un lato, una modalità di identificazione standard e valida semanticamente per mezzo di URN, dall’altro lato, un protocollo di recupero dei passaggi testuali all’interno di oggetti citabili chiamato CTS (Smith and Weaver 2009). Gli URN, essendo un tipo di URI, possono essere inclusi all’interno della descrizione RDF della risorsa lessicografica e quindi perfettamente aderenti alle specifiche LOD.

AIUCD – SHORT PAPERS

113

In questo caso, come in molti altri, c'è la necessità di fare riferimento alla letteratura secondaria per determinare le evidenze a supporto di ogni ipotesi. Anche in questo senso, il paradigma dei LOD fornisce un formato ideale per rappresentare questo tipo di situazione grazie sia alla possibilità di rappresentare formalmente tali fenomeni, sia alla disponibilità di vocabolari già esistenti. La Figura 4 mostra questa caratteristica del modello proposto. In questo caso è possibile rappresentare che

l’articolo di Tucciarone9

29 in “Quaderni di Storia” rifiuta l’interpretazione dell’attestazione di Dante

data dal dizionario di Battaglia, a supporto del significato rappresentato dal psenso S12. Inoltre è

possibile specificare che tale articolo supporta invece l’interpretazione della Treccani.

Le relazioni che rappresentano tali fenomeni, rispettivamente refutes e confirms, appartengono al vocabolario Linked Science Core Vocabulary (LSC) che definisce uno schema grazie al quale è possibile descrivere relazioni temporali, spaziali e altro, tra oggetti scientifici.

Figura 3. Entrata della voce riprovare2 di Treccani.

In base al vocabolario LSC, le opportune classi del modello sono state tipizzate in accordo con i campi di esistenza di refutes e confirms: l’oggetto dell’interpretazione è diventato l’ipotesi (classe lsc:Hypothesis) e i sensi che lo confutano o lo supportano diventano rappresentazioni di oggetti scientifici (classe lsc:Research), in quanto assumono una connotazione più di ricerca lessicografica che di una rappresentazione dell’uso di una parola.

Figura 4. Rappresentazione della letteratura secondaria: “provare e riprovare”.

9 Per la descrizione di schede e riferimenti bibliografici è stato utilizzato il vocabolario ontologico denominato Bibliographic Ontology (BIBO) (http://bibliontology.com/specification). BIBO fa uso dei termini Dublin Core per la definizione e la pubblicazione linked data della descrizione di documenti. Una versione più accurata per la descrizione catalografica delle attestazioni farà uso del modello FRBR (Le Boeuf 2005) e di alcuni moduli delle SPAR ontologies (Peroni 2014).

AIUCD – SHORT PAPERS

114

Conclusioni

La lessicografia italiana, che vanta una storia molto gloriosa, sta raggiungendo la maturità anche nel mondo digitale, per qualità e numero di opere disponibili, dalle diverse edizioni del Vocabolario

della Crusca (http://www.lessicografia.it), al Tommaseo-Bellini (http://www.tommaseobellini.it), al

Vocabolario Treccani (http://www.treccani.it/vocabolario). Abbiamo cercato di dimostrare

l’importanza di collegare le risorse lessicografiche non solo con le risorse testuali citate, ma anche con le risorse bibliografiche (possibilmente in full text) che criticano e interpretano tali risorse. Se un vocabolario senza citazioni è un corpo senz’anima, una citazione senza interpretazioni è un’anima senza spirito.

Riferimenti Bibliografici

Berti, Monica. 2011. “Citazioni E Dinamiche Testuali. L’intertestualità E La Storiografia Greca Frammentaria.” In Tradizione E Trasmissione Degli Storici Greci Frammentari II. Atti Del Terzo Workshop Internazionale, 439–58. Roma.

Berti, Monica. 2012. “Collecting Quotations by Topic: Degrees of Preservation and Transtextual Relations among Genres.” Ancient Society 43: 269–88.

Büchler, Marco, Philip R Burns, Martin Müller, Emily Franzini, and Greta Franzini. 2014. “Towards a Historical Text Re-Use Detection.” In Text Mining, 221–38. Springer International Publishing. Ciotti, Fabio. 2012. “Web Semantico, Linked Data E Studi Letterari: Verso Una Nuova Convergenza.” Quaderni DigiLab 2 (1): 243–76.

Ciotti, Fabio, and Francesca Tomasi. 2016. “Formal Ontologies, Linked Data, and TEI Semantics.” Journal of the Text Encoding Initiative, no. 9: 1–23. doi:10.4000/jtei.1480.

Daquino, Marilena, and Francesca Tomasi. 2014. “Ontological Approaches to Information Description and Extraction in the Cultural Heritage Domain.” In AIUCD2014 Proceedings, 8. Bologna: ACM.

Hobbs, Jerry R., and Feng Pan. 2004. “An Ontology of Time for the Semantic Web.” ACM Transactions on Asian Language Processing, Issue on Temporal Information Processing, 3 (1): 66– 85.

Khan, Fahad, Andrea Bellandi, and Monica Monachini. 2016. “Tools and Instruments for Building and Querying Diachronic Computational Lexica.” In LT4DH2016 Proceedings, 164–71. Osaka. Khan, Fahad, Federico Boschetti, and Francesca Frontini. 2014. “Using Lemon to Model Lexical Semantic Shift in Diachronic Lexical Resources.” In LDL2014 Proceedings, 50–54. Reykjavik. Khan, Fahad, Javier E. Díaz-Vera, and Monica Monachini. 2016. “Representing Polysemy and Diachronic Lexico-Semantic Data on the Semantic Web.” In SWASH2016 Proceedings, 37–45. Heraklion, Greece.

Le Boeuf, Patrick. 2005. Functional Requirements for Bibliographic Records (FRBR): Hype or Cure- All? New York: The Haworth Information Press.

Peroni, Silvio. 2014. “The Semantic Publishing and Referencing Ontologies.” Semantic Web Technologies and Legal Scholarly Publishing, 121–93.

Smith, D Neel, and Gabriel Weaver. 2009. “Applying Domain Knowledge from Structured Citation Formats to Text and Data Mining: Examples Using the CITE Architecture.” Text Mining Services, 129–39.

Tuccione, Aldo. 1998. “Provando E Riprovando: Beatrice E L’accademia Del Cimento.” Quaderni Di Storia 47: 103–12.

AIUCD – SHORT PAPERS

115

Linked Open Data per l’analisi dei dati e lo sviluppo

Nel documento Ripensare i formati, ripensare i metadati: prove “tecniche” di conservazione digitale (pagine 117-121)