• Non ci sono risultati.

Nell’attività di redazione delle voci biografiche si è deciso di inserire una annotazione semantica ad opera di un gruppo di lavoro costituito da umanisti. Nel contesto del World Wide Web, un’annotazione semantica esprime informazioni sul significato di una risorsa ed è finalizzata a esprimere in modo formale il suo contenuto informativo, permettendo così di renderlo processabile

dalle macchine che possono creare delle relazioni tra documenti presenti nel Web9, al fine di

raggiungere uno degli scopi del web semantico10. L’annotazione automatica delle risorse è un

problema irrisolto e solitamente si ricorre ad un’annotazione ad opera di esseri umani con il supporto

9 Si veda “What are Semantic Annotations?”, http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf. 10 Si veda “The Semantic Web”, https://pdfs.semanticscholar.org/566c/ 1c6bd366b4c9e07fc37eb372771690d5ba31.pdf.

AIUCD – SHORT PAPERS

102

di strumenti informatici. Nel presente progetto la soluzione adottata prevede di realizzare delle annotazioni associate (attached) a tutte le schede biografiche nella forma di triple RDF, partendo da informazioni inserite da un team di umanisti all’interno del testo (intext) e in etichette esterne (meta

tag)11. Le triple RDF, memorizzate in un triplestore accessibile dalle risorse del server che espone il

portale, potranno essere interrogate anche mediante SPARQL, avendo realizzato un punto di accesso

(endpoint SPARQL) raggiungibile all’indirizzo http://www.dizionariobiograficodeifriulani.it/sparql.

Oltre a rappresentare una delle condizioni necessarie per rendere disponibili le schede biografiche e i loro contenuti come linked data, la struttura realizzata consente di eseguire interrogazioni anche molto complesse (ad esempio: quali sono gli organisti che hanno lavorato nel periodo 1820-1840 nella città di Aquileia? oppure: quali sono gli uomini illustri che la città di San Daniele del Friuli deve celebrare nell’anno 2018?)

Uno degli obiettivi del progetto è stato anche quello di consentire l’inserimento delle annotazioni da team di umanisti comunque organizzati, senza limiti geografici e senza la necessità di saper utilizzare a priori alcun strumento informatico. Per raggiungere tale obiettivo sono stati sviluppati

strumenti appositi integrati su una piattaforma di facile utilizzo e estremamente diffusa, Wordpress12,

in maniera che chiunque possa usarla facilmente e trovare assistenza per farlo.

Allo stato attuale il progetto di trova in fase di avanzata realizzazione: buona parte delle oltre 2700 voci biografiche sono state riviste per adattarle allo strumento informatico ed annotate semanticamente utilizzando un tool appositamente sviluppato.

Come primo passo è stata operata la migrazione delle 2700 voci biografiche, disponibili nel formato di descrizione di pagina PDF utilizzato per l’edizione a stampa, in un formato ipertestuale con riconoscimento automatico della posizione delle immagini e dei riferimenti bibliografici all’interno della struttura. Il risultato è stato raggiunto utilizzando uno strumento open source (pdf2html) che ha generato dei file XML in cui erano riportati, utilizzando opportuni attributi, le indicazioni sulla formattazione del testo; elaborando i file XML è stato possibile evidenziare dei pattern comuni che hanno consentito di associare ad essi l’aspetto semantico e ricostruire così gli articoli nella loro struttura (titolo, sottotitolo, corpo, bibliografia) originaria; inoltre è stato possibile estrarre i primi metadati esterni (ad esempio, l’autore della voce biografica). I file così prodotti sono stati letti e importati nel database della piattaforma Wordpress opportunamente configurata e adattata. Lo strumento che abbiamo ritenuto potesse agevolare particolarmente l’attività del gruppo di lavoro addetto alla revisione e annotazione, è un’applicazione che permettesse di selezionare e inserire i valori degli elementi RDF con il mouse, limitando al massimo l’inserimento di termini da tastiera. Abbiamo realizzato quindi un plugin per Wordpress che permette di selezionare il soggetto e indicare la proprietà di esso scegliendola da un menu a tendina che elenca quelle applicabili.

L’utilizzo è risultato veramente agevole e l’interfaccia grafica di Wordpress, semplice ed immediata, ha fatto il resto, permettendo di arrivare all’annotazione quasi completa in tempi minori di quelli previsti inizialmente, con grande soddisfazione del gruppo di lavoro. I metadati necessari alla notazione semantica sono stati inseriti così in modo estremamente intuitivo; è stato infatti sufficiente selezionare l’elemento oggetto ed attribuirgli il tag appropriato (che rappresenta la proprietà) scegliendolo da un elenco a discesa di tipo contestuale. È stata predisposta anche una sezione per l’inserimento dell’annotazione semantica fuori dal testo, lasciando ai redattori la possibilità di inserire metadati e rimandando a una fase successiva a quella della revisione dei testi la creazione di un vocabolario controllato per gli oggetti dei predicati. Questa soluzione è stata scelta

11 Si veda http://ontotext.com/knowledgehub/fundamentals/semantic-annotation.

AIUCD – SHORT PAPERS

103

per evitare le il lunghi tempi necessari per la creazione di una ontologia interna e per ridurre al minimo il tempo di apprendimento di una esterna. Anche la bibliografia è stata annotata ed utilizzata per creare delle strutture RDF che descrivono le risorse esterne. Il testo elaborato viene quindi letto dinamicamente da un parser che crea gli elementi RDF, i quali possono tenere conto delle annotazioni sia in text che esterne. I termini da inserire si basano su un lessico controllato e per quanto questo sia per ora locale all’applicazione, è presente una sezione di configurazione (per ora accessibile dal codice) grazie alla quale sarà possibile scegliere l’ontologia da utilizzare per rappresentare i dati all’esterno e creare le corrispondenze tra il vocabolario e quello interno. La disponibilità di un triplestore interrogabile in SPARQL ha permesso di offrire strumenti di ricerca e navigazione avanzata del portale. È stato possibile creare delle ricerche preimpostate per l’utente e un form di ricerca che propone le proprietà e oggetti per l’interrogazione, associando alle richieste una interrogazione SPARQL e restituendo le risposte all’utente.

In sintesi

Il progetto Dizionario biografico dei Friulani (“Nuovo Liruti on-line”) si pone l’ambizioso obiettivo di essere non solamente la “versione” digitale dell’edizione a stampa del “Nuovo Liruti” ma uno dei più ricchi e strutturati depositi di informazione culturale e storica del web italiano − con la possibilità di raggiungere un pubblico molto più ampio e potenzialmente illimitato rispetto all’edizione cartacea − caratterizzandosi così come una delle iniziative più importanti sul piano culturale nell’ambito del più vasto progetto su “L’Identità Culturale del Friuli (ICF)”. La conclusione del lavoro è prevista per la prima metà del 2017.

Riferimenti Bibliografici

Scalon, Cesare, Claudio Griggio, Ugo Rozzo e Giuseppe Bergamini (a cura di). 2006-2011. Nuovo Liruti. Opera completa. Udine: Editrice Forum

Di Iorio, Angelo, et. al. Describing bibliographic references in RDF, 2014, 11th ESWC 2014

(ESWC2014), http://ceur-ws.org/Vol-1155/paper-05.pdf

Schrott Maximilian, et.al From Biographies to Data Curation – the Making of www.deutsche-

biographie.de. 2015. http://ceur-ws.org/Vol-1399/paper3.pdf

L’impatto culturale e sociale dei dati archeologici nella