• Non ci sono risultati.

CAPITOLO IV – PROGETTI DI RICERCA PER L’INTEROPERABILITÀ SEMANTICA DI IATE

4.1 Il web semantico e i Linked Data

Il World Wide Web ha totalmente cambiato il modo in cui condividiamo la conoscenza, abbattendo le barriere geografiche e fornendo la possibilità di pubblicare documenti e di accedervi in ambito globale. I collegamenti ipertestuali permettono agli utenti di traversare i documenti grazie all’impiego di Web browser, mentre i motori di ricerca li indicizzano ed analizzano la struttura dei link per ricavare un ranking di rilevanza rispetto ad una determinata query di ricerca. Tali funzionalità hanno rappresentato la chiave di volta per una crescita esponenziale del Web.

Tuttavia, gli stessi principi che hanno permesso al Web dei documenti di prosperare non sono adatti per rappresentare con accuratezza le relazioni tra gli elementi del mondo. In altre parole, nel web convenzionale, le modalità di rappresentazione della relazione tra documenti non risultano essere sufficienti se applicate a quella tra entità. Si esige quindi un nuovo tipo di approccio, in cui sussistano dati strutturati e non strutturati che sostengano forme di interconnessione più proficue e semanticamente più espressive. Tale evoluzione va sotto il nome di Web Semantico, ovvero l’evoluzione del World Wide Web e un nuovo ambiente dove, associando dati ed informazioni ad altri dati (che

101

prendono il nome di metadati) se ne migliora la specificazione semantica, permettendone l’interrogazione da parte di macchine e umani (Berners-Lee, 2009). Nel contesto del web semantico è stata introdotta una nuova modalità di pubblicazione di dati strutturati, che permette che questi siano collegati fra loro e quindi utilizzabili attraverso interrogazioni semantiche. Questa nuova modalità prende il nome di Linked Data139 con cui, tramite l’utilizzo di tecnologie e standard web e stringhe di

identificazione univoche come gli URI (Uniform Resource Identifier), si rappresentano informazioni che possano essere lette e comprese da computer, rendendo così possibile collegare e utilizzare dati provenienti da diverse sorgenti (Heat e Bizer, 2011).

A formalizzare queste condizioni fu Berners-Lee (2006) con i suoi quattro principi dei Linked Data:

1. «Use URIs as names for things;

2. Use HTTP URIs so that people can look up those names;

3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL);

4. Include links to other URIs. so that they can discover more things»140.

Con i quattro principi, Berners-Lee voleva promuovere l’aumento dei dati linkati, che fino ad allora non lo erano, e in «quantità sorprendenti»141.

139 http://linkeddata.org/.

140 Berners-Lee, T., (2006), “Design Issues”, W3C in https://www.w3.org/DesignIssues/LinkedData.html 141 Ibidem. Berners-Lee non ha mai imposto, de facto, i quattro principi, definendoli più che come regole,

«expectations of behavior». È utile ricordare, inoltre, la celebre presentazione di Berners-Lee in occasione del TED Talk (2009), in cui incoraggiava il pubblico alla pubblicazione di dati non adulterati: «OK, we have to ask for raw data now. And I’m going to ask you to practice that, OK? Can you say “raw”?» http://www.ted.com/talks/tim_berners_lee_on_the_next_web/transcript?language=en#t-640180.

102

Signore (2002), definisce RDF come «lo strumento base per la codifica, lo scambio e il

riutilizzo di metadati strutturati, e che consente l’interoperabilità tra applicazioni che si scambiano sul Web informazioni machine-understandable»142. SPARQL è definito, nei

documenti del W3C, come «a query language and protocol for RDF»143 e quindi «the

query language for the Semantic Web»144 (Herman, 2008).

Una categoria specifica di Linked Data è quella dei Linked Open Data145, ovvero dati

pubblicati secondo i principi dei contenuti aperti, meglio conosciuti semplicemente come open, che vengono così definiti quando vengono pubblicati sotto libera licenza e dietro autorizzazione per il riuso, la copia e la modifica da parte di terzi, a condizione che questi ne citino la fonte (Wiley, 1998). Il progetto che sostiene il principio di Linked Open Data, patrocinato dal W3C146, ha appunto l’obiettivo di estendere il Web tramite

la pubblicazione di dataset open e impostando collegamenti tra di essi. Una celebre rappresentazione dei Linked Open Data è il Linked Open Data cloud147, un diagramma

che mostra i collegamenti tra i diversi dataset che lo compongono.

In questo contesto si inserisce un ulteriore movimento concentrato sulla condivisione e il riutilizzo di risorse linguistiche in accordo con i principi dei Linked Data, ovvero quello

142 Signore O., (2002), “RDF per la rappresentazione della conoscenza”, p. 3. Per la definizione, le

specifiche e la sintassi complete di RDF si rimanda a Lassila O., e Swick R. R. (1997), https://www.w3.org/TR/WD-rdf-syntax-971002/.

143 Grant Clark K., et al., (2008), “SPARQL Protocol for RDF”.

144 Per specifiche tecniche e sintassi di SPARQL si rimanda a Prud’hommeaux E., e Seaborn A., (2008)

https://www.w3.org/TR/rdf-sparql-query/.

145 Il cui portale di riferimento è reperibile presso

https://www.w3c.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData.

146 World Wide Web Consortium.

147 Linking Open Data cloud diagram (2017), di Andrejs Abele, John P. McCrae, Paul Buitelaar, Anja Jentzsch

103

che fa capo ai Linguistic Linked Open Data (LLOD)148. Ideato dall’Open Linguistics

Working Group (OWLG) della Open Knowledge Foundation, il movimento ha l’obiettivo di sviluppare un subcloud popolato di risorse linguistiche. Chiarcos (et al., 2001), definiscono il cloud LLOD come un sistema dove

«linguistic resources (lexical semantic resources, corpora, metadata repositories)

are not only provided in an interoperable way (using RDF), but also freely accessible (under an open license) and linked with each other (so that applications can combine information from different knowledge sources)»149.

I LLOD sono impiegati ampiamente per collegare risorse eterogenee come ad esempio WordNet e Wikipedia, per tendere alla creazione di forme di standardizzazione di informazioni di risorse linguistiche e soprattutto per rispondere alla sfida dell’interoperabilità semantica.