• Non ci sono risultati.

Perché Linked Open Data

La panoramica appena descritta ci indica che il web di dati è costituito dalla relazione che si instaurano tra differenti dataset attraverso dei collegamenti, i link, che vengono realizzati

«Monotonic reasoning is a term from knowledge representation. A reasoning form is monotonic if an addition 129

to the set of propositions making up the knowledge base never determines a decrement in the set of conclusions that may be derived from the knowledge base via inference rules. In practical terms, if experts enter subsequently correct statements to an information system, the system should not regard any results from those statements as invalid, when a new one is entered. The CRM is designed for monotonic reasoning and so enables conflict-free merging of huge stores of knowledge» <http://www.cidoc-crm.org/>

«The “Open World Assumption” is a term from knowledge base systems. It characterizes knowledge base 130

systems that assume the information stored is incomplete relative to the universe of discourse they intend to describe. This incompleteness may be due to the inability of the maintainer to provide sufficient information or due to more fundamental problems of cognition in the system’s domain. Such problems are characteristic of cultural information systems. Our records about the past are necessarily incomplete. In addition, there may be items that cannot be clearly assigned to a given class. In particular, absence of a certain property for an item described in the system does not mean that this item does not have this property. For example, if one item is described as Biological Object and another as Physical Object, this does not imply that the latter may not be a Biological Object as well. Therefore complements of a class with respect to a superclass cannot be concluded in general from an information system using the Open World Assumption. For example, one cannot list “all Physical Objects known to the system that are not Biological Objects in the real world”, but one may of course list “all items known to the system as Physical Objects but that are not known to the system as Biological Objects”» < http://www.cidoc-crm.org/>. 

attraverso i dati in essi contenuti. La modalità di pubblicazione dei questi dati diviene fondamentale, ma negare i primi vent’anni di storia del web e di creazione di contenuti costituirebbe uno svantaggio piuttosto che un avanzamento. Le metodologie di condivisione delle conoscenze divengono in questa fase indispensabili: il modello è ancora una volta il bottom-up, ma risulta indispensabile che vengano seguite le raccomandazioni del consorzio W3C per la pubblicazione o l’integrazione dei documenti esistenti . Aprire i dati e renderli 131

disponibili è la nuova frontiera di Internet per una maggior partecipazione e un maggiore accesso alle risorse culturali disponibili in rete . 132

Il collegamento è dato dalla connessione della metadatazione, uno per il namespace e gli altri esterni, interlink che permettono il deferenziamento delle URI, creando così i linked o linking data in RDF. La componente delle comunità caratterizzata per la tendenza fortemente collaborativa e partecipativa che ha preso parte al progetto ha fatto sì che i dati venissero rilasciati aperti, ovvero liberi dalle licenze d’uso commerciale per il loro utilizzo. Nel 2007 viene lanciato il progetto Linked Open Data Project con l’obiettivo di stabilire regole per la condivisione dei dataset aperti in RDF (Bizer, Heath, Berners-Lee, 2009). Dal 2007 ad oggi la famosa nuvola (Figura 1.3.8) che rappresenta il linked open data si è allargata a dismisura accogliendo diverse categorie di dataset:

É possibile procedere all’annotazione delle pagine web attraverso tagging semantico o tramite un vocabolario 131

o un’ontologia come nel caso di RDFa tra cui la più famosa delle applicazioni è senza dubbio l’Open Graph

Protocol sviluppata da Facebook per la notazione semantica dei dati sviluppati dai social network (Iacono,

2014).

Ne “The Memorandum on Transparency and Open Government” tenuto da Barack Obama nel gennaio del 132

2009 , il presidente degli Stati Uniti introdusse il tema dell’Open Government ovvero la quality della trasparenza legata ai dati aperti delle istituzioni governative americane: «My Administration is committed to creating an

unprecedented level of openness in Government. We will work together to ensure the public trust and establish a system of transparency, public participation, and collaboration. Openness will strengthen our democracy and promote efficiency and effectiveness in Government.» (Bauer, Kaltenböck, 2011)

– Cultura: l’adesione è di molte istituzioni culturali soprattutto in campo bibliotecario anche per la naturale propensione alla produzione di dataset contenenti record bibliografici. Le iniziative come LIBRIS o la pubblicazione degli element set di RDA e di British National Bibliography rientrano all’interno del progetto. É stato già menzionato il dataset del catalogo on line del British Museum. 


– Geografia: il più autorevole oltre che più noto tra i dataset di luoghi geografici è senza dubbio Geonanames; 


– Commercio e industria: è il raggruppamento destinato al settore delle aziende in cui vengono valorizzate le risorse relative ai servizi, agli orari, ai prezzi, alle modalità di consegna dei prodotti presenti on line. Tra i più importanti, bisogna menzionare RDF Books Mashup che ha messo a disposizione i dati relativi ai prodotti di Amazon e Google;


– Social Network e Social Media: La UGC ha generato la creazione di contenuti che vengono custodite su piattaforme specifiche; nel caso di Flickr, celebre piattaforma di condivisione di immagini fotografiche destinate prevalentemente ai professionisti il dataset è FlickrWrapp. Anche Dbpedia può essere considerato un dataset legato ai socialmedia avendo come

Figura 1.3.8 LodCloud Diagram aggiornato al 2014 Fonte: < http://lod-cloud.net/>

provenienza dei propri dati strutturati Wikipedia che è per struttura della sua community ed output un social network sites.

– Governo: i dataset governativi costituiscono il più vasto repertorio di collezioni per il LOD cloud.

– Contenuti interdisciplinari: si costituisce di dataset generici tra cui il più famoso e posto al centro della nuvola è senza dubbio DBpedia che trae le proprie informazioni strutturate da Wikipedia.

– Scienze della vita: di particolare interesse perché permette la condivisione di dataset di archivi di genetica, analisi farmaceutiche, chimiche e mediche permettendo una cooperazione mondiale e interdisciplinare.

Secondo la visione del consorzio W3C esistono cinque livelli (Figura 1.3.9) per la pubblicazione all’incremento dei dati “nel web” definito “the 5 Stars Model” in quanto può essere un sistema di valutazione per verificare il grado si apertura e collegamento dei dati.

Figura 1.3.9 5-star Linked Data

1. La prima stella è relativa alle licenze d’uso. L’indicazione è di pubblicare in qualsiasi formato purché la licenza sia aperta come nel caso delle Creative Commons. Grazie alle indicazioni sulle licenze d’uso, di cui si parlerà subito di seguito, l’utente può sapere come usare i dati di cui dispone per eventuali pubblicazioni, modifiche, riusi creativi ecc. 2. La seconda stella si riferisce alla strutturazione dei dati in fase di condivisione. Si

prediliga il formato in tabelle di excel o CSV anziché scansioni di immagini per una maggiore leggibilità da parte delle macchine; grazie a questa opzione sarà più semplice eseguire ad esempio operazioni sui dati perché subito disponibili;

3. La terza stella viene assegnata allorquando la scelta del formato della tabella anziché ricadere su excel, ricada su CSV, ovvero un formato non proprietario. Questa stella oltre che rappresentare una questione ideologica, in quanto CSV è un open source che esprime direttamente i valori del web, garantisce una maggiore sicurezza in termini di mantenimento della risorsa perché la presenza di una comunità di sviluppatori del software open source dovrebbe garantire una minore dipendenza dalla società proprietaria del software commerciale e maggiori possibilità che il software continui a essere supportato e migliorato nel tempo.

4. La quarta stella è relativa all’utilizzo degli standard raccomandati da W3C come RDF e SPARQL che garantiscono l’identificazione delle risorse in rete in maniera inequivocabile e stabile.

5. La quinta stella è relativa alla qualità dei link esterni ed interni e quindi allo scambio dei dati prodotto. Il passaggio semantico da link a link permette di recuperare nuove porzioni di conoscenza aprendo nuovi confini di interesse.

Il workflow (Figura 1.3.10) indicato dal consorzio W3C schematizza quali passaggi risultano fondamentali per la pubblicazione dei propri linked data:

1. identificazione delle fonti dalla quale si estrarranno i dati e di conseguenza delle URI che a differenza delle URL devono risultare particolarmente significativi per le macchine; 2. La modellazione o riuso di un ontologia o vocabolario per la rappresentazione di una parte

di universo di nostro interesse;

3. La generazione di dati in RDF che può consistere anche nella riconversione o nella mappatura di quanto già esistente; In questa fase di solito si procede anche alla pulizia dei dataset per evitare la generazione di errori anche attraverso software specifici come Apache Jena Fuseki o come il più famoso Virtuoso;

4. La creazione di relazione con altre dateset stabilendo opportune equivalenze validare tramite programmi. L’esempio contenuto nella tripla (Figura 1.3.6) «http://sitoweb/ J._R._R._Tolkien same as http://dbpedia.org/page/J._R._R._Tolkien»

5. La pubblicazione del dataset nel web semantico per il web semantico rendendolo disponibile all’utilizzo e con interrogazione di dati tramite SPARQL endpoint.

Seppur l’argomento non può dirsi completamente esaurito, ma avendone tratteggiato - nelle linee generali - le sue caratteristiche principali, prima di avviarci alla conclusione ci pare necessario fare cenno ad un ultimo aspetto che a nostro avviso è significativo sia nella prassi della pubblicazione dei linked data ma anche nelle ideologie sottese al web, ovvero le licenze d’uso che di fatto regalano la qualità e la possibilità d’accesso ai dati degli utenti. Nel contesto del web e del con più forza dei linked data le licenze più diffuse sono quelle rilasciate da Creative Commons (CC)133 seppur non uniche naturalmente. Le Creative Commons posseggono sei livelli di licenze che sulla base delle combinazioni favoriscono i creatori d’opera e gli utenti nell’acquisizione di diritti sui dati o sulle “cose” .134

Erroneamente si pensa che le CC siano relative solo alle opere intellettuali, in vero il gruppo di lavoro ha 133

sviluppato ontologie per la descrizione dei diritti d’autore e per i diritti sui dati e le “Attribuzioni” fanno riferimento non solo ai documenti ma anche ai dati in esso contenuti.

«Le licenze CC considerate compatibili con la open definition < http://opendefinition.org/od/2.1/en/> adottata

134

dalla Open Knowledge Foundation (OKFn) sono CC0, CC-BY e CC-BY-SA» (Guerrini, Possemato, 2015). La CC0 (Licenza Creative Commons Zero) consente qualsiasi tipo di utilizzazione comprese quelle commerciali in quanto il titolare rinuncia a qualsiasi tipo di diritto. La CC-BY (Licenza Creative Commons Attribuzione) permette a terzi di distribuire, modificare, ottimizzare ed utilizzare la tua opera come base, anche commercialmente, ma riconoscendo al suo creatore la titolarità dell’opera. «il licenziatario deve provvedere alla citazione di:

a. autore originale o titolare dei diritti;
 b. terze parti designate, se esistenti;
 c. titolo del documento;


d. Uniform Resource Identifier (URI) che il licenziante specifichi dover essere associato con il documento;
 e. nel caso di documenti rielaborati o di opere derivate, l’attribuzione dovrà essere esplicita, così da non ingenerare confusione rispetto all’origine del documento.» (Guerrini, Possemato, 2015)

Attraverso la CC-BY-SA (Licenza Creative Commons ShareAlike) è permesso modificare, ottimizzare ed utilizzare un’opera come base, anche commercialmente, purché venga sempre citata l’originale.

L’Open Knowledge Foundation (OKF) ha ad esempio rilasciato la Open Database License - ODbL oltre che fornire le indicazioni per garantire la massima apertura ma senza compromissione o un errato utilizzo dei dati bibliografici (Iacono, 2014).

In Italia a livello della pubblica amministrazione FormezPA ha sviluppato e rilasciato le licenze aperte Italian Open Data License (IODL) con strutture del tutto simili a quelle delle Creative Commons:

- IODL 2.0: permette di consultare, estrarre, copiare e pubblicare i dati liberamente, anche a scopo commerciale, a condizione di citare la fonte; offre, inoltre, la possibilità di creare un’opera derivata integrando dataset diversi;

- IODL 1.0: simile alla prima, ma con l’obbligo di pubblicare o condividere le opere derivate con la stessa licenza o con una licenza compatibile. (Guerrini, Possemato, 2015)