Il web semantico e i Linked Data - – PROGETTI DI RICERCA PER L’INTEROPERABILITÀ SEMANTICA DI IA

CAPITOLO IV – PROGETTI DI RICERCA PER L’INTEROPERABILITÀ SEMANTICA DI IATE

4.1 Il web semantico e i Linked Data

Il World Wide Web ha totalmente cambiato il modo in cui condividiamo la conoscenza, abbattendo le barriere geografiche e fornendo la possibilità di pubblicare documenti e di accedervi in ambito globale. I collegamenti ipertestuali permettono agli utenti di traversare i documenti grazie all’impiego di Web browser, mentre i motori di ricerca li indicizzano ed analizzano la struttura dei link per ricavare un ranking di rilevanza rispetto ad una determinata query di ricerca. Tali funzionalità hanno rappresentato la chiave di volta per una crescita esponenziale del Web.

Tuttavia, gli stessi principi che hanno permesso al Web dei documenti di prosperare non sono adatti per rappresentare con accuratezza le relazioni tra gli elementi del mondo. In altre parole, nel web convenzionale, le modalità di rappresentazione della relazione tra documenti non risultano essere sufficienti se applicate a quella tra entità. Si esige quindi un nuovo tipo di approccio, in cui sussistano dati strutturati e non strutturati che sostengano forme di interconnessione più proficue e semanticamente più espressive. Tale evoluzione va sotto il nome di Web Semantico, ovvero l’evoluzione del World Wide Web e un nuovo ambiente dove, associando dati ed informazioni ad altri dati (che

101

prendono il nome di metadati) se ne migliora la specificazione semantica, permettendone l’interrogazione da parte di macchine e umani (Berners-Lee, 2009). Nel contesto del web semantico è stata introdotta una nuova modalità di pubblicazione di dati strutturati, che permette che questi siano collegati fra loro e quindi utilizzabili attraverso interrogazioni semantiche. Questa nuova modalità prende il nome di Linked Data139_{con cui, tramite l’utilizzo di tecnologie e standard web e stringhe di}

identificazione univoche come gli URI (Uniform Resource Identifier), si rappresentano informazioni che possano essere lette e comprese da computer, rendendo così possibile collegare e utilizzare dati provenienti da diverse sorgenti (Heat e Bizer, 2011).

A formalizzare queste condizioni fu Berners-Lee (2006) con i suoi quattro principi dei Linked Data:

1. «Use URIs as names for things;

2. Use HTTP URIs so that people can look up those names;

3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL);

4. Include links to other URIs. so that they can discover more things»140_.

Con i quattro principi, Berners-Lee voleva promuovere l’aumento dei dati linkati, che fino ad allora non lo erano, e in «quantità sorprendenti»141_.

139_{http://linkeddata.org/.}

140_{Berners-Lee, T., (2006), “Design Issues”, W3C in https://www.w3.org/DesignIssues/LinkedData.html} 141_{Ibidem. Berners-Lee non ha mai imposto, de facto, i quattro principi, definendoli più che come regole,}

«expectations of behavior». È utile ricordare, inoltre, la celebre presentazione di Berners-Lee in occasione del TED Talk (2009), in cui incoraggiava il pubblico alla pubblicazione di dati non adulterati: «OK, we have to ask for raw data now. And I’m going to ask you to practice that, OK? Can you say “raw”?» http://www.ted.com/talks/tim_berners_lee_on_the_next_web/transcript?language=en#t-640180.

102

Signore (2002), definisce RDF come «lo strumento base per la codifica, lo scambio e il

riutilizzo di metadati strutturati, e che consente l’interoperabilità tra applicazioni che si scambiano sul Web informazioni machine-understandable»142_{. SPARQL è definito, nei}

documenti del W3C, come «a query language and protocol for RDF»143_{e quindi «the}

query language for the Semantic Web»144_{(Herman, 2008).}

Una categoria specifica di Linked Data è quella dei Linked Open Data145_{, ovvero dati}

pubblicati secondo i principi dei contenuti aperti, meglio conosciuti semplicemente come open, che vengono così definiti quando vengono pubblicati sotto libera licenza e dietro autorizzazione per il riuso, la copia e la modifica da parte di terzi, a condizione che questi ne citino la fonte (Wiley, 1998). Il progetto che sostiene il principio di Linked Open Data, patrocinato dal W3C146_{, ha appunto l’obiettivo di estendere il Web tramite}

la pubblicazione di dataset open e impostando collegamenti tra di essi. Una celebre rappresentazione dei Linked Open Data è il Linked Open Data cloud147_{, un diagramma}

che mostra i collegamenti tra i diversi dataset che lo compongono.

In questo contesto si inserisce un ulteriore movimento concentrato sulla condivisione e il riutilizzo di risorse linguistiche in accordo con i principi dei Linked Data, ovvero quello

142_{Signore O., (2002), “RDF per la rappresentazione della conoscenza”, p. 3. Per la definizione, le}

specifiche e la sintassi complete di RDF si rimanda a Lassila O., e Swick R. R. (1997), https://www.w3.org/TR/WD-rdf-syntax-971002/.

143_{Grant Clark K., et al., (2008), “SPARQL Protocol for RDF”.}

144_{Per specifiche tecniche e sintassi di SPARQL si rimanda a Prud’hommeaux E., e Seaborn A., (2008)}

https://www.w3.org/TR/rdf-sparql-query/.

145_{Il cui portale di riferimento è reperibile presso}

https://www.w3c.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData.

146_{World Wide Web Consortium.}

147_{Linking Open Data cloud diagram (2017), di Andrejs Abele, John P. McCrae, Paul Buitelaar, Anja Jentzsch}

103

che fa capo ai Linguistic Linked Open Data (LLOD)148_{. Ideato dall’Open Linguistics}

Working Group (OWLG) della Open Knowledge Foundation, il movimento ha l’obiettivo di sviluppare un subcloud popolato di risorse linguistiche. Chiarcos (et al., 2001), definiscono il cloud LLOD come un sistema dove

«linguistic resources (lexical semantic resources, corpora, metadata repositories)

are not only provided in an interoperable way (using RDF), but also freely accessible (under an open license) and linked with each other (so that applications can combine information from different knowledge sources)»149_.

I LLOD sono impiegati ampiamente per collegare risorse eterogenee come ad esempio WordNet e Wikipedia, per tendere alla creazione di forme di standardizzazione di informazioni di risorse linguistiche e soprattutto per rispondere alla sfida dell’interoperabilità semantica.

Nel documento Information Technology per IATE, la banca dati terminologica multilingue dell’Unione Europea (pagine 108-111)