Linked data come linguaggio della comunicazione globale
Carlo Bianchini
Summer School «Linked Data per i Beni Culturali»
Ravenna, 11 giugno 2018
Premessa
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 2
Le biblioteche in crisi
• La diffusione del web e l’enorme disponibilità di contenuti in rete sembra rendere marginale e forse obsoleto il ruolo delle biblioteche
• Le nuove abitudini degli utenti hanno creato distanza tra i desideri percepiti e i servizi offerti, tra i modelli di ricerca di informazioni seguiti dai lettori e gli strumenti messi a disposizione dal servizio bibliotecario
• Si è creato squilibrio tra raccolte, strumenti di mediazione e utenti
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 3
I dati delle biblioteche
• Milioni di dati bibliografici conservati negli opac delle biblioteche di tutto il mondo non sono raggiungibili dai motori di ricerca;
• I dati delle biblioteche rimangono invisibili alla maggior parte degli utenti (84%) che cercano informazioni sulla rete a partire dai motori di ricerca
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 4
I dati delle biblioteche
Se oggi cerchiamo un’opera tramite un motore otteniamo risposte dai cataloghi di vendita di libri in commercio e di antiquariato.
I cataloghi delle biblioteche, invece, la cui redazione ha richiesto l’elaborazione di normative,
competenze professionali e consistenti
finanziamenti pubblici, non forniscono risposte ai motori di ricerca.
I dati della PA
• Lo sviluppo del web non ha lasciato indietro solo il mondo delle biblioteche
• Moltissimi dati delle istituzioni che hanno sviluppato banche dati con formati specifici (archivi
anagrafici, geografici, statistici, giuridici ecc.) sono invisibili dai motori e dalla rete
• Ciò accade perché gli archivi sono prodotti con modelli e formati di dati specifici (silos) e non secondo standard interoperabili con il web.
I dati delle biblioteche 3
Ci sono eccezioni, anche italiane, come il catalogo delle Biblioteche Civiche Torinesi
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 7 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 12/06/2018 8
Il mercato di Google
Secondo il sito Searchenginewatch.com i primi tre siti elencati nelle risposte di una ricerca su Google ricevono una media del 58,4% delle visite (click- through rate – CRT) da parte di chi ha fatto la ricerca:
o36,4% primo classificato
o12,5% visite al secondo classificato o9,5% visite al terzo classificato
9 12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
I dati delle biblioteche 3
Ci sono eccezioni, anche italiane, come il catalogo delle Biblioteche Civiche Torinesi.
Queste eccezioni si basano su applicazioni specifiche costruite su misura per alcuni silos
ma si può (e si deve) fare MOLTO di più
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 10
Interoperabilità
• È necessario rendere i dati interoperabili, non solo tra istituzioni culturali (MAB), ma tra i silos culturali e qualsiasi altro produttore di dati esterno – pubblico e privato – attraverso il web aperto.
• Per riuscirci, è necessario registrare e pubblicare i dati (bibliografici e non) con modalità che consentano agli elaboratori
odi individuarli,
odi comprendere che tra di essi esistono relazioni e odi stabilire che tipo di relazioni sono
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 11
Descrivere le risorse
• Malgrado molti detrattori, il catalogo – inteso come complesso di dati per l’accesso e la gestione delle risorse – rimane il core business delle biblioteche
• Senza i dati non funzionano la ricerca, la consultazione, la circolazione, il reference, le acquisizioni, la conservazione, l’aggiornamento …
• Ma soprattutto: i lettori, non trovando i nostri dati con i motori di ricerca, ignorano semplicemente le biblioteche e tutti i loro servizi.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 12
Come superare la crisi?
Le biblioteche non sono rimaste immobili nel corso del tempo. Hanno cercato di adeguare il proprio servizio seguendo (almeno) due percorsi:
1. Rinnovamento di principi, modelli, standard e regole di descrizione e accesso
2. Rinnovamento degli strumenti di ricerca e navigazione bibliografica
Le nuove regole e i nuovi strumenti di ricerca si sono rivelati efficienti ed efficaci?
Esistono altri percorsi?
Se si, come si conciliano con quanto è stato realizzato finora?
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 13
Indice generale
1. Breve storia dei metadati
2. Rinnovamento di principi, modelli, standard e codici di catalogazione 3. Evoluzione degli opac
4. Linked data. Definizione e principi 5. Pubblicare i dati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 14
Parte 1
Storia (breve) dei metadati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 15
I metadati
• La comune definizione di metadati è «dati sui dati», cioè dati che servono a fornire il contesto o ulteriori informazioni su altri dati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 16
Metadati. Definizione
Karen Coyle offre una definizione di metadati più chiara e più utile nel nostro contesto:
“Dati costruiti per risolvere un problema o per svolgere una funzione.”
(Coyle 2010)
Dati e tecnologia
• Ipotesi: le trasformazioni tecnologiche del catalogo sono state determinate dalla necessità di svolgere nuove funzioni?
• Nel tempo, per realizzare nuove funzioni si è progressivamente modificata la struttura del catalogo e, di conseguenza, è stato necessario rendere sempre più espliciti i metadati.
‘Nascita’ dei metadati
• L’espressione metadati nasce e diventa di uso comune in biblioteca quando si passa dal loro uso implicito alla loro formalizzazione logica, per disporre di un modello concettuale necessario alla realizzazione di programmi di gestione dei dati bibliografici.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 19
Catalogo a libro
• Nel catalogo a libro i metadati erano di norma impliciti: in quel contesto tecnologico semplice, i dati svolgono una funzione di base, ovvero rappresentare, surrogare, i documenti.
• Nel catalogo manoscritto e nel catalogo a stampa, non c’è alcun bisogno di rendere espliciti i
metadati.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 20
Catalogo a libro
In questi due esempi
MILL, JOHNS.. On liberty; 3rd Ed. Boston; 1864, 16mo.
la tecnologia utilizzata per esplicitare il tipo e la funzione dei dati consiste nella sequenza ordinata e nella presentazione tipografica utilizzate.
I metadati sono nel contesto (e nel lettore).
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 21
Seconda funzione.
Interpolazione dei dati
• I metadati cambiano quando alla funzione originaria (la rappresentazione dei documenti) si aggiunge una seconda funzione: l’interpolazione e lo scambio dei dati bibliografici.
• L’unità di descrizione della raccolta, rappresentata fino a quel momento dal catalogo nel suo
complesso (catalogo a libro), deve essere spezzata in sottounità (schede), che in cambio possono essere scambiate, riordinate, sostituite, interpolate.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 22
Seconda funzione.
Interpolazione dei dati 2
• Nel passaggio dal catalogo a libro al catalogo a schede, p. es., il trattino lungo che indicava la medesima intestazione è sostituito dal dato esplicito dell’intestazione della scheda.
• Infatti il contesto non è più sufficientemente chiaro per usare il trattino lungo
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 23
Catalogo a libro
MILL, JOHNS.. Utilitarianism. London; 1863, 8vo.
--- . On liberty; 3d Ed. Boston; 1864, 16mo.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 24
Catalogo a schede
MILL, JOHNS.. Utilitarianism. London; 1863, 8vo.
MILL, JOHNS.. On liberty; 3d Ed. Boston; 1864, 16mo.
Utilitarismo
MILL, JOHNS.. Utilitarianism. London; 1863, 8vo.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 25
Granularità
• La maggiore articolazione dei dati (registrati su schede) richiede perciò una maggiore esplicitazione dei metadati, cioè una maggiore granularità.
• Il termine granularità indica il livello di dettaglio logico e tecnico con il quale si registrano i dati all’interno del sistema.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 26
Granularità 2
• È possibile formulare un principio che governa la granularità dei dati del catalogo?
Ipotesi
In ogni contesto tecnologico ciascuna unità informativa deve essere
completa e autoesplicativa
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 27
Terza funzione.
Normalizzazione dei dati
• Nel passaggio al catalogo elettronico si aggiunge la funzione di normalizzazionedei dati:
•Riduzione della ridondanza dei dati
•Authority control
•Scambio internazionale dei dati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 28
Terza funzione.
Normalizzazione dei dati
• Si creano archivi separati per ole descrizioni bibliografiche ole registrazioni di autorità e oi dati gestionali (di copia)
• Inoltre per le descrizioni bibliografiche si crea una sintassi che sostituisce il contesto del catalogo cartaceo per i dati oggetto di scambio (ISBD)
Utilitarianism / by John Stuart Mill. – London : Parker, son, and Bourn, 1863. – 95 p. ; 22 cm
Terza funzione.
Normalizzazione dei dati
• In questo passaggio, aumenta la granularità dei cataloghi, cioè il dettaglio logico e tecnico di registrazione dei dati (in archivi separati)
• Di conseguenza aumenta la necessità di esplicitare i metadati, per consentire allo strumento
tecnologico in uso (software) di riconoscere i dati e ricostruire correttamente l’unità di ciascuna descrizione bibliografica.
• Si conferma il principio: ogni unità deve essere completa e autoesplicativa
Terza funzione.
Struttura delle relazioni
• In questa fase, devono essere rese esplicite anche le relazioni tra i dati che fanno parte di un’unica descrizione e sono registrati in archivi diversi
• La sintassi del linguaggio documentario, utile per la comprensione da parte del lettore, non è più sufficiente perché tali relazioni siano gestite anche dalle macchine
• Anche per le relazioni sono necessari i metadati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 31
Terza funzione.
Struttura delle relazioni
• È questo il livello logico dei DB relazionali oggi esistenti e in uso, a partire da SBN.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 32
Attuali cataloghi (dal ’70 a oggi)
Descrizione bibliografica:
(Pubblicazioni e documenti d’altro genere)
Registr. copia/localizzaz.
Registr. copia/localizzaz.
Intestazione/i uniforme/i Persona/Ente
Intestazione/i uniforme/i Soggetto/Classe Intestazione/i
uniforme/i Persona/Ente
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 33
Terza funzione.
Struttura delle relazioni
• È questo il livello logico dei DB relazionali oggi esistenti e in uso, a partire da SBN
• Ciascuna registrazione richiede l’esplicitazione e l’uso di metadati appropriati
• È valido il principio che ogni unità deve essere completa e autoesplicativa
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 34
Crisi dei cataloghi attuali
La struttura dei cataloghi attuali non è soddisfacente:
• dal punto di vista dell’efficienza, perché i costi di produzione dei cataloghi sono troppo alti (FRBR e modelli derivati)
• dal punto di vista dei lettori, perché non garantisce in modo adeguato la funzione di navigazione (Svenonius, 2000)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 35
Parte 2
Rinnovamento di principi, modelli, standard e codici
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 36
37
ICP dell’IFLA
I Principi internazionali di Catalogazione dell’IFLA
• Pubblicati da Saur nel 2009
• Traduzione italiana a cura dell’ICCU e di un gruppo di esperti
• Nuova edizione nel 2016 (prima traduzione: italiana)
• Disponibili in linea e a stampa
12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Principi internazionali di catalogazione
https://www.ifla.org/files/assets/cat aloguing/icp/icp_2016-it.pdf
http://www.ifla.org/files/assets/cataloguing/icp/icp_2009-it.pdf
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 38
Elementi di novità
• ICP recepisce il modello FRBR e adatta i principi al nuovo contesto: p. es. un paragrafo (§ 3) è dedicato a Entità, Attributi e Relazioni
• Introduce la funzione di navigare, nuova anche rispetto a FRBR
• ICP si concentra sui dati piuttosto che sulle
registrazioni bibliografiche, che sono considerate un insieme di dati.
• Anche le “intestazioni” diventano dati che
assumono un ruolo particolare (fungono da punti di accesso)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 39
Elementi di novità
ICP contiene importanti novità terminologiche, che hanno rilevanza concettuale:
oUnità bibliografica Manifestazione oIntestazione Punto di accesso
autorizzato/controllato
oRinvio Forma variante del nome
oTitolo uniforme Punto di accesso autorizzato, Forma autorizzata del nome, Nome
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 40
Elementi di novità
ICP contiene importanti novità terminologiche, che hanno rilevanza concettuale:
oUnità bibliografica Manifestazione (istanza) oIntestazione Punto di accesso
autorizzato/controllato
oRinvio Forma variante del nome
oTitolo uniforme Punto di accesso autorizzato, Forma autorizzata del nome, Nome
Il focus si sposta dalla tecnologia alla funzione
VIAF
• Il Virtual International Authority File costituisce una soluzione pratica a un problema teorico irrisolto:
l’uniformità degli accessi a livello internazionale (Principi di Parigi, 1961)
• Nel VIAF non esiste una forma unica del nome di un’entità, ma molte forme equivalenti
• Nel VIAF esistono intestazioni “a grappolo”: un insieme di punti di accesso, privo di una forma principale
Esempio
• http://viaf.org/viaf/32197206/
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 43
FRBR e modelli derivati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 44
Evoluzione concettuale
• IFLA Study Group on the Functional Requirements for Bibliographic Records. 1998. Functional Requirements for Bibliographic Records : Final Report. München: K.G. Saur
• IFLA Working Group on Functional Requirements and Numbering of Authority Records (FRANAR). 2009.
Functional Requirements for Authority Data : a Conceptual Model : Final Report, December 2008.
München: K. G. Saur
• Zeng, ML, M Žumer, and A Salaba. 2011. Functional Requirements for Subject Authority Data (FRSAD): A Conceptual Model. Berlin: De Gruiter Saur
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 45
Evoluzione concettuale
• IFLA Study Group on the Functional Requirements for Bibliographic Records. 1998. Functional Requirements for Bibliographic Records : Final Report. München: K.G. Saur
• IFLA Working Group on Functional Requirements and Numbering of Authority Records (FRANAR). 2009.
Functional Requirements for Authority Data : a Conceptual Model : Final Report, December 2008.
München: K. G. Saur
• Zeng, ML, M Žumer, and A Salaba. 2011. Functional Requirements for Subject Authority Data (FRSAD): A Conceptual Model. Berlin: De Gruiter Saur
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 46
IFLA LRM
• IFLA LRM (2017) è un modello concettuale di riferimento ad alto livello sviluppato in un quadro di modellazione Entità-Relazione
• È il modello consolidato di tre modelli concettuali sviluppati separatamente dall’IFLA: FRBR, FRAD e FRSAD.
• IFLA LRM è stato sviluppato per risolvere le incongruenze tra I tre modelli separati
• Ogni funzione utente, entità, attributo e relazione dei modelli originali è stata esaminata e, ne è stata rivista la definizione, ma in alcuni casi è stato necessario intervenire sul modello
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 47
REICAT e RDA
• FRBR ha ispirato la redazione di nuove regole di catalogazione: REICAT e RDA.
• I due codici riflettono la necessità – espressa da FRBR – di rappresentare un maggior numero di entità e di relazioni
• RDA è in continuo aggiornamento ed è maggiormente orientata a FRBR e al web semantico
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 48
Flessibilità di RDA
• Tra i principi alla base di RDA, è inserita la flessibilità
• Flessibilità significa che i dati dovrebbero funzionare indipendentemente dal formato, dal medium e dal sistema usato per immagazzinare o comunicare i dati
• I dati dovrebbero essere adatti all’utilizzo in qualsiasi ambiente (o scenario)
Perciò RDA è uno “standard di contenuto”
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 12/06/201849
Standard di contenuto
• Come standard di contenuto, RDA risponde esclusivamente alla domanda «Quali dati devo registrare?»
• Con RDA si producono dati che possono essere registrati utilizzando schemi di codifica diversi (per es. MARC 21, MODS, Dublin Core …)
• I dati RDA possono essere visualizzati utilizzando convenzioni di visualizzazione diverse (per es. ISBD, formato a bandiera …)
• I dati RDA possono essere registrati negli attuali database o in strutture di database di nuova generazione
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 50
Granularità in RDA
RDA ha un modello di dati (data model) con una maggiore granularità rispetto ai precedenti codici;
Ciò significa che RDA prevede:
• un element set più esteso, cioè un insieme maggiore di elementi di dati da riconoscere e da registrare
• un maggiore dettaglio e precisione nella rappresentazione delle relazioni, che assumono valori prestabiliti registrati nei Vocabularies
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 51
Element sets e Vocabularies
• È opportuno chiarire la distinzione tra Element sets e Vocabularies
• Esempio
(a) Opera – CreataDa – Persona
(b) Manifestazione – RegistrataSu – Tipo di supporto
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 52
Element set
Nella relazione (tripla)
(a) Opera – CreataDa – Persona
gli elementi Opera e Persona possono assumere qualsiasi valore
Il valore assunto dagli elementi quindi è aperto
Vocabularies
Nella relazione (tripla)
(b) Manifestazione – RegistrataSu – Tipo di Supporto
i valori dell’elemento Tipo di supporto (Carrier type) possono variare, ma solo all’interno di un elenco chiuso ed esaustivo, che fornisce tutti e soltanto i tipi di supporto esplicitamente esistenti e quindi previsti.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 55 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 12/06/2018 56
Vocabulary Element
Element sets e vocabularies
• La distinzione è utile perché i vocabolari consentono di mantenere un maggiore controllo sulla coerenza e sulla affidabilità dei dati
• I vocabolari hanno lo svantaggio di richiedere un aggiornamento costante.
• Per esempio l’Appendice D – Designazioni specifiche del materiale delle REICAT non prevede come supporto le chiavette USB o le MicroSD
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 57
Entità di RDA
• In tutti gli scenari che abbiamo visto, il tipo e gli attributi delle entità e che si possono/devono descrivere sono stabilite dalle regole che si applicano.
• L’insieme degli elementi previsti da RDA è definito in appositi registri chiamati RDA element sets.
Per esempio:
• FRBR entities for RDA (14 entità)
• RDA Group 1: 469 elementi
• RDA Group 2: 62 elementi
• RDA Group 3: 19 elementi
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 58
Relazioni di RDA
• Anche il valore delle relazioni deve essere definito in modo esplicito.
• RDA ha inserito in un apposito registro RDA 508 elementi, cioè possibili valori delle RDA Relationships for Works, Expressions, Manifestations, Items.
Per esempio sono state previste le relazioni:
• «basato su» (Opera-Opera)
• «adattamento di» (Opera-Opera)
• «adattamento radiofonico di» (Opera-Opera)
• «commento di» (Opera-Opera)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 59
RDA: dal record ai dati
• Due parti principali organizzate in 10 sezioni
• Sezione 1. Registrare gli attributi delle manifestazioni e degli item
• Sezione 2. Registrare gli attributi delle opere e delle espressioni
• Sezione 3. Registrare gli attributi di persone, famiglie ed enti
• Sezione 4. Registrare gli attributi di concetto, oggetto, evento e luogo
• Sezione 5. Registrare le relazioni primarie tra opera, espressione, manifestazione e item
• Sezione 6. Registrare le relazioni con persone, famiglie ed enti
• Sezione 7. Registrare le relazioni con concetti, oggetti, eventi e luoghi
• Sezione 8. Registrare le relazioni tra opere, espressioni, manifestazioni e item
• Sezione 9. Registrare le relazioni tra persone, famiglie ed enti
• Sezione 10. Registrare le relazioni tra concetti, oggetti, eventi e luoghi
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 60
RDA: dal record ai dati
• Due parti principali organizzate in 10 sezioni
• Sezione 1. Registrare gli attributi delle manifestazioni e degli item
• Sezione 2. Registrare gli attributi delle opere e delle espressioni
• Sezione 3. Registrare gli attributi di persone, famiglie ed enti
• Sezione 4. Registrare gli attributi di concetto, oggetto, evento e luogo
• Sezione 5. Registrare le relazioni primarie tra opera, espressione, manifestazione e item
• Sezione 6. Registrare le relazioni con persone, famiglie ed enti
• Sezione 7. Registrare le relazioni con concetti, oggetti, eventi e luoghi
• Sezione 8. Registrare le relazioni tra opere, espressioni, manifestazioni e item
• Sezione 9. Registrare le relazioni tra persone, famiglie ed enti
• Sezione 10. Registrare le relazioni tra concetti, oggetti, eventi e luoghi
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 61
RDA: dal record ai dati
• Due parti principali organizzate in 10 sezioni
• Sezione 1. Registrare gli attributi delle manifestazioni e degli item
• Sezione 2. Registrare gli attributi delle opere e delle espressioni
• Sezione 3. Registrare gli attributi di persone, famiglie ed enti
• Sezione 4. Registrare gli attributi di concetto, oggetto, evento e luogo
• Sezione 5. Registrare le relazioni primarie tra opera, espressione, manifestazione e item
• Sezione 6. Registrare le relazioni con persone, famiglie ed enti
• Sezione 7. Registrare le relazioni con concetti, oggetti, eventi e luoghi
• Sezione 8. Registrare le relazioni tra opere, espressioni, manifestazioni e item
• Sezione 9. Registrare le relazioni tra persone, famiglie ed enti
• Sezione 10. Registrare le relazioni tra concetti, oggetti, eventi e luoghi
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 62
Parte 3
Evoluzione degli opac
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 63
Tipi di ricerche di informazioni
• Ricerca esplorativa (Exploratory Search) oHa per scopo ottenere informazioni generali oNon si hanno preferenze relative ad aspetti del tema oNon si ha familiarità con le parole chiave
oIn genere il lettore ha bisogno di aiuto
• Ricerca consapevole (Known Item research) oSi ha familiarità con parole chiave o termini della ricerca oSi ha una specifica risorsa in mente (rivista, libro ecc.) oSi sa da dove partire (sito web, database ecc.)
(Sweet, 2012)
64 12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Comportamento degli utenti
OCLC 2008, 2005
L’84% degli utenti non sa da dove iniziare la ricerca
L’84% degli utenti inizia la propria ricerca da un motore di ricerca
[Quale risposta forniscono i motori di ricerca?]
Quale risposta forniscono le biblioteche?
Le ricerche in biblioteca ieri
• Il catalogo (soprattutto in passato) risponde bene a ricerche di oggetti conosciuti
• Il catalogo in passato era sempre utilizzato nel contesto della biblioteca, nella quale il bibliotecario soddisfaceva direttamente le esigenze delle ricerche esplorative (con gli strumenti di reference o con il servizio di reference) e aiutava a superare il momento critico iniziale della ricerca
Opac tradizionale
67 12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Evoluzione dell’opac
La complessità d’uso dell’interfacce semplici e avanzate degli opac tradizionali ha spinto a sviluppare interfacce più amichevoli
Negli opac ‘arricchiti’, al software si sono aggiunte nuove funzioni orientate a rendere più semplici ed efficaci:
1. l’interazione dell’utente con il catalogo; e 2. l’interazione degli utenti tra loro
68 12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
69
Opac arricchiti
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 12/06/2018 70
Problemi aperti
Opac tradizionali e opac arricchiti presentano tre importanti problemi dal punto di vista dell’utente:
1. La necessità di ripetere l’interrogazione tante volte quante sono le banche dati (silos) di interesse per la ricerca
2. La scarsa navigabilità dei dati bibliografici 3. La separazione dei dati dell’universo
bibliografico (MARC) dai dati del web
71 12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Problema 1
Ricerche separate per silos
72
Catalogo
Ebooks
Indici e Abstract
Full Text
OAI Harverster
Sito/Deposito Istituzionale LIBRI PERIODICI CONTENUTI
LOCALI
12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Ricerche uniche ‘federate’
73
Catalogo
Ebooks
Indici e Abstract
Full Text
OAI Harverster
Deposito Istituzionale LIBRI PERIODICI CONTENUTI
LOCALI
NEXT GENERATION CATALOGUES
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 12/06/2018 74
Ricerche uniche indicizzate
75
Catalogo
Ebooks
Indici e Abstract
Full Text
OAI Harverster
Deposito Istituzionale LIBRI PERIODICI CONTENUTI
LOCALI
DISCOVERY TOOLS INDICE
12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Problema 2
Cataloghi FRBR-izzati
76 12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Problema 2
Cataloghi FRBR-izzati Cataloghi FRBR-izzati
(link)La struttura degli opac
79
Indici e Abstract
Full Text
BANCA DATI BIBLIOGRAFICA
(MARC)
NGC E DISCOVERY TOOLS
OPAC TRADIZIONALE OPAC ARRICCHITI
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 80
LIBRI
PERIODICI
CONTENUTI LOCALI
SITI WEB BLOGOSFERA E-COMMERCE
OPEN ACCESS
Problema 3
Separazione biblioteche vs web
12/06/2018 C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA
Soluzioni?
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 81
Parte 4 Linked data
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 82
Il web dei documenti
Non solo i dati di MAB hanno problemi di visibilità sul web. Anche i siti web hanno bisogno di un modello diverso da quello attuale per almeno due esigenze:
1. Collegare le informazioni del web in modo più stretto
2. Creare servizi di informazione che si aggiornino in modo automatico
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 83
Creare servizi
d’informazione aggiornati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 84
Aggiornamento del sito
Esistono tre possibili modelli di aggiornamento del sito di esempio; i curatori:
A. cercano le notizie sul web e aggiornano il proprio sito manualmente;
B. cercano le notizie sul web, scrivono un programma per estrarre i dati e poi li inseriscono nel proprio sito;
C. tramite apposite API (Application Program Interface), cercano sul web, interpretano e raccolgono i dati rilevanti e inseriscono i dati ottenuti in modo automatico nel proprio sito
Tutti questi sistemi richiedono comunque un intervento umano.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 85
Il modello BBC
• Utilizza insiemi di dati esterni e pubblici
•Per esempio Wikipedia, MusicBrainz …
• Questi siti rendono le proprie informazioni accessibili direttamente in forma di dati
oSui siti non ci sono API per l’estrazione dei dati oI dati possono essere estratti utilizzando richieste
con standard o tramite il protocollo HTTP
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 86
Il modello BBC
In pratica, la BBC ha scelto di
1. utilizzare i dati distribuiti sul web come un sistema di gestione dei contenuti (Content Management System)
2. avvalersi della comunità della rete, nel suo insieme, come curatrice dei contenuti
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 87
Il modello BBC
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 88
Creare il web dei dati
In conclusione, il sito della BBC è un esempio del passaggio dal web dei documenti al web semantico.
Affinché ciò avvenga, è necessaria una infrastruttura adatta a costruire una rete di dati (anziché di documenti), nella quale
oI dati siano accessibili sul web, tramite tecnologie web standard
oI dati siano interconnessi sul web, ovvero possano essere completamente integrati nel web.
Qui entrano in gioco i linked data
Esempio
Wikidata
Dalle triple
http://www.wikidata.org/wiki/Q1339 Al testo
http://tools.wmflabs.org/reasonator/?q=Q1339
4.1
Definizione di linked data
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 91
I linked data
• Sono un insieme di principi e di tecnologie per consentire la pubblicazione di dati modulari, condivisibili e riutilizzabili (nel web)
• L’espressione linked data si riferisce a dati pubblicati sul web in una modalità leggibile, interpretabile e, soprattutto, utilizzabile (anche) da un elaboratore
• Nel web semantico i data pubblicati devono avere un significato esplicito e devono essere collegati ad altri insiemi di dati esterni.
• Ogni dato deve essere completo e autoesplicativo
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 92
Dai documenti ai dati
• Tim Berners Lee ha pensato che si potesse creare per i dati la medesima struttura con cui è stato creato il World Wide Web, inteso come docuverso, allo scopo di condividere i dati su scala globale (es.
BBC)
• Il World Wide Web oggi disponibile, inteso come spazio unico di pubblicazione di documenti, è cresciuto e si è sviluppato grazie a tre strumenti fondamentali
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 93
Dai documenti ai dati
Uno strumento di identificazione globale URI – Uniform Resource Identificator
Uno strumento di accesso globale HTTP – HyperText Transfer Protocol
Uno strumento di formattazione dei contenuti HTML – HyperText Markup Language
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 94
• URI
http://www.anaiveneto.org
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 95
Dai documenti ai dati
Lo sviluppo e l’uso di standard (HTTP e HTML) consente di superare le differenze tra le architetture
tecnologiche con le quali vengono prodotti i documenti
I link (HyperLink) che si intrecciano tra i diversi documenti consentono agli utenti di navigare nella rete.
I link sono determinanti per la creazione e il mantenimento di un unico spazio di informazioni globale (il docuverso)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 96
4.2
I principi dei linked data
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 97
Principi per i linked data
Tim Berners-Lee (2006) ha definito quali devono essere i requisiti dei linked data; questi sono noti come Principi dei linked data
1. Usare gli URI come nome per le cose
2. Usare degli URI HTTP, in modo che i nomi delle cose si possano cercare
3. Fornire informazioni utili in forma standard (RDF) in risposta alle richieste HTTP
4. Inserire collegamenti ad altri URI, in modo che si possano scoprire cose collegate tra loro
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 98
Definizione di URI
• URI sta per Uniform Resource Identifier e indica una sequenza sintetica di caratteri che identifica una risorsa fisica o astratta.
Esempi
• mailto:John.Doe@example.com
• news:comp.infosystems.www.servers.unix
• tel:+1-816-5551212
• http://dbpedia.org/resource/Karlsruhe
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 99
Principi dei linked data
1. Usare gli URI come nome per le cose
2. Usare URI HTTP, in modo che quei nomi si possano cercare
3. Fornire informazioni utili in forma standard (RDF) in risposta alle richieste HTTP
4. Inserire collegamenti ad altri URI, in modo che si possano scoprire altre cose collegate
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 100
URI per l’identificazione
• Nel primo principio, l’accento è posto sul termine
«cose», per indicare che è necessario identificare non solo documenti o contenuti digitali, ma anche oggetti del mondo reale e concetti astratti
oPersone (es. Leonardo da Vinci, Virgilio) oLuoghi (es. Venezia, Genova, Monte Bianco) oOggetti (es. il film Casablanca, una Ditta) oRelazioni (es. èRegistaDi, èNatoA, HaComeTitolo)
• L’ambito del web si allarga per includere anche oggetti, persone o concetti, non solo documenti
• Il termine utilizzato nell’architettura del web per indicare questi oggetti di interesse è risorse.
Gli URI: un nome
Esempi
Daniel Defoe Berlino
«haComeTitolo Proprio»
http://dbpedia.org/page/Daniel_Defoe http://it.dbpedia.org/resource/Berlino
http://iflastandards.info/ns/isbd/elements /P1004
http://dbpedia.org/resource/Category:166 0_births
«NatiNel1660»
Principi dei linked data
1. Usare gli URI come nome per le cose
2. Usare URI HTTP, in modo che quei nomi si possano cercare
3. Fornire informazioni utili in forma standard (RDF) in risposta alle richieste HTTP
4. Inserire collegamenti ad altri URI, in modo che si possano scoprire altre cose collegate
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 103
HTTP per l’accesso
• Il protocollo HTTP è il meccanismo di accesso universale del web; gli URI HTTP garantiscono un meccanismo di recupero semplice, trasparente e universale delle risorse che hanno un URI
• Il secondo principio dei LD richiede l’uso di URI HTTP per consentire agli utenti di essere dereferenziati, cioè reindirizzati a una descrizione dell’oggetto o del concetto identificato, attraverso il protocollo HTTP
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 104
Dereferenziazione
• Tutti gli URI HTTP devono essere dereferenziabili, cioè devono consentire che un client HTTP (p. es. un browser) possa cercare l’URI attraverso il protocollo HTTP e trovare dati su (descrizione) la risorsa identificata da quell’URI
Esempio
• http://dbpedia.org/page/Italo_Svevo
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 105
URI dereferenziabili
• Creare nomi attraverso gli URI presenta due vantaggi notevoli:
1) È un modo semplice per creare nomi univoci (su scala globale) in modo decentralizzato, dato che qualsiasi proprietario di un sito web può creare nuovi riferimenti URI.
2) Gli URI non sono solo il nome di un oggetto; se sono di tipo HTTP costituiscono anche un punto di accesso alla risorsa e alle relative informazioni
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 106
URI dereferenziabili 2
• Nella catalogazione classica conosciamo da sempre un dispositivo che costituisce il nome di una risorsa e funge da strumento di accesso alla risorsa stessa:
L’INTESTAZIONE
• Un URI HTTP e un’intestazione sono equiparabili dal punto di vista funzionale
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 107
Principi dei linked data
1. Usare gli URI come nome per le cose
2. Usare URI HTTP, in modo che quei nomi si possano cercare
3. Fornire informazioni utili in forma standard (RDF) in risposta alle richieste HTTP
4. Inserire collegamenti ad altri URI, in modo che si possano scoprire altre cose collegate
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 108
Fornire informazioni standard
• Per garantire che una vasta gamma di applicazioni (architetture h/w e s/w) sia in grado di utilizzare il contenuto del web, è necessario utilizzare formati di contenuto standard.
• Perciò, il terzo principio dei LD richiede l’uso di un unico modello di dati per pubblicare sul web dati strutturati in modo standard
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 109
RDF per il contenuto
• Per pubblicare linked data è necessario esprimere i dati secondo il modello Resource Description Framework (RDF)
• RDF è un modello di dati estremamente semplice e fortemente orientato al web
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 110
Il modello di dati RDF
• L’essenza di RDF è registrare dati e definire relazioni tra gli oggetti sotto forma di triple, cioè affermazioni semplici
Esempi
Un Maglione – èDiColore – Rosso
Una Persona – LavoraPresso – una Ditta
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 111
Il modello di dati RDF 2
• Nei linked data si usa lo stesso modello che è alla base della logica aristotelica
• L’interpretazione logica di una tripla RDF consiste nel considerarla una frase del tipo:
soggetto – predicato – oggetto
?s ?p ?o
I promessi sposi – scrittiDa – Alessandro Manzoni Gioconda – èConservataDa – Museo del Louvre
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 112
Il modello di dati RDF 3
• Il modo più semplice e intuitivo per rappresentare graficamente una tripla è un grafo (orientato)
Gioconda – èConservataDa – Museo del Louvre
èConservataDa
Gioconda Museo del
Louvre
Arco Nodi
Le triple
• Una tripla è una dichiarazione, nella quale si asserisce che una risorsa (o classe) possiede una certa proprietà
• In termini FRBR, equivale a dire che una tripla afferma che un’entità ha un certo attributo o relazione
Esempi?
Un’Opera – HaPerTitolo – De bello Gallico Un’espressione – HaPerTitolo – La guerra gallica Caio Giulio Cesare – èCreatoreDi – De bello Gallico
A che servono le triple?
• Mediante una concatenazione di triple è possibile esprimere dati molto complessi, in modo che siano leggibili, modulari e riutilizzabili anche da una macchina.
Esempio
Robinson Crusoe / Daniel Defoe
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 115
Linked Data
Linguaggio naturale
Robinson Crusoe / Daniel Defoe
Triple
«Defoe, Daniel» «èUn» «FRBRPersona»
«Defoe, Daniel» «èConosciutoCome»
«Daniel Defoe»
«Defoe, Daniel» «èCreatoreDi» «OperaX»
«OperaX» «èConosciutoCome» «Robinson Crusoe»
«OperaX» «èUn» «RDAWork»
…. ??
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 116
A che servono le triple?
• In base alle triple esistenti, un elaboratore può
‘dedurre’ molti dati. Per esempio, è in grado di inferire nuove triple corrette
Esempio:
«Alberto» «èFiglioDi» «Andrea»
«Agata» «èFigliaDi» «Andrea»
«Alberto» ?
«Alberto» «èFratelloDi» «Agata»
N.B. Tra le triple fornite sul web dovranno esserci anche quelle che spiegano l’ontologia «Famiglia»
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 117
Composizione delle triple
Nelle triple RDF:
• Il soggetto della tripla è l’URI che identifica la risorsa; l’URI corrisponde infatti al ‘nome univoco’
della risorsa;
• Il predicato, al centro, è l’URI che indica un tipo di relazione o una proprietà del soggetto
• L’oggetto è un URI che corrisponde a un’altra risorsa in relazione con il soggetto, oppure è un semplice dato.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 118
Tipi di triple
Per comprendere meglio il modello logico che si ottiene con RDF, è opportuno distinguere diversi tipi di triple in base al loro:
a) Soggetto b) Oggetto c) URI
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 119
Triple in base al soggetto
La distinzione delle triple in base al soggetto consente di rappresentare un insieme di triple con due grafi (rappresentazioni) diversi.
Un insieme di triple che hanno il medesimo soggetto si può rappresentare con un grafo a grappolo (cluster).
Un insieme di triple che hanno per soggetto l’oggetto della tripla precedente forma un grafo a catena.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 120
Grappoli di triple
• Un grappolo è un insieme di affermazioni sulla stessa risorsa, ovvero nel quale ogni tripla ha per soggetto lo stesso URI
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 121
Biblioteca
Ugo Foscolo 1952
Roma
Piazza Garibaldi
02 555666777 biblio@foscolo.it
http://www.foscolo.it 10.000
volumi
HaPerNome HaPerData HaPerLuogo
Ecc.
Catene di triple
• Oltre ai grappoli, un altro modo semplice per collegare le triple tra loro è la catena.
• Una catena di triple si può sviluppare se l’URI oggetto della prima tripla diventa soggetto della seconda tripla
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 122
Catene di triple
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 123
Daniel Defoe
HaPerAutore
Robinson Crusoe
ÈNatoA
Londra
Gran Bretagna ÈCapitaleDi Ecc.
Triple in base all’oggetto
Si possono distinguere le triple anche dal punto di vista dell’oggetto, che può essere costituito da
A. Un URI di un’altra risorsa collegata in qualche modo al soggetto; o
B. Un valore letterale (una stringa alfanumerica, un numero, o una data)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 124
A. Tripla Link RDF
• Nel primo caso, gli URI del soggetto e dell’oggetto della tripla identificano due risorse che sono in relazione
• L’URI in posizione di predicato definisce il tipo di relazione sussiste tra le risorse
• Nastassia Kinsky – HaRecitatoIn – Paris, Texas (film)
• N.B. Tutti e tre gli elementi sono identificati da un URI univoco; perciò il grafo della tripla diventa:
A. Triple link RDF
<http://dbpedia.org/pag e/Nastassja_Kinski>
<http://dbpedia.org/page/
Paris,_Texas_(film)>
<http://dbpedia.org/property/starring>
B. Tripla letterale
• Le triple letterali sono utilizzate per descrivere le risorse, per esempio per indicare il nome, o la data di nascita di una persona, un numero …
• Nastassia Kinsky – haPerNome – «Nastassja»
• I primi due elementi della tripla sono identificati da un URI univoco; perciò il grafo della tripla diventa:
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 127
B. Tripla letterale
Esempio
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 128
<http://dbpedia.org/pag
e/Nastassja_Kinski> <Nastassja>
< http://xmlns.com/foaf/spec/
#term_givenName>
Domanda
• Quando l’oggetto di una tripla è un valore letterale (literal), la tripla farà parte di una catena o di un grappolo?
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 129
<http://dbpedia.or g/page/Nastassja_
Kinski>
<Nastassja>
< http://xmlns.com/foaf/spec/
#term_givenName>
Risposta
• Il primo principio dei Linked Data afferma che si deve assegnare un URI a ogni cosa.
• I valori letterali non hanno un URI; perciò non rispettano un principio dei LD e non possono essere in posizione di soggetto di una tripla.
• Perciò se una tripla contiene un literal (una stringa alfanumerica, un numero o una data), la catena si interrompe e la tripla fa parte di un grappolo
• Questa limitazione garantisce la coerenza del web semantico, perché la corrispondenza dei valori letterali può essere ambigua (p.es. «Chicago»)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 130
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 131
http://dbpedia.org/page/Chicago
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 132
http://dbpedia.org/page/Chicago_(band)
Triple in base all’URI
Si possono raggruppare le triple anche in base alla provenienza degli URI delle risorse che fanno parte della tripla (soggetto, predicato e oggetto); gli URI possono essere stati
A. Definiti all’interno di un unico dominio, cioè un’unica fonte di dati (link RDF interni)
B. Definiti all’interno di domini diversi, per esempio da diversi produttori di dati (link RDF esterni)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 133
Link RDF interni
• I Link RDF interni connettono risorse all’interno di un’unica fonte di linked data (p. es. il medesimo silos). Si dice che le risorse si trovano all’interno dello stesso namespace.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 134
<http://dbpedia.org/pa ge/Nastassja_Kinski>
<http://dbpedia.org/pag e/Paris,_Texas_(film)>
<http://dbpedia.org/property/starring>
Definizione di namespace
• Per namespace si intende un insieme di URI assegnati a specifiche risorse RDF che usano lo stesso dominio (la stessa infrastruttura di gestione).
• Esempio
ohttp://dbpedia.org/page/Nastassja_Kinski ohttp://dbpedia.org/property/starring ohttp://dbpedia.org/page/Paris,_Texas_(film) ohttp://dbpedia.org/...
ohttp://dbpedia.org/... etc.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 135
La semantica di RDF
• Il terzo principio dei LD richiede che siano fornite informazioni utili in risposta alle richieste di URI HTTP.
• In un namespace si devono trovare le descrizioni [metadati] delle risorse (classi e proprietà) che ne fanno parte.
• Le descrizioni sono raccolte in Element Sets (classes) e in Vocabularies (properties), come abbiamo visto succede in RDA.
Esempio
• http://dbpedia.org/page/Italo_Svevo [Person; birthDate]
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 136
Namespace dell’IFLA
Anche l’IFLA ha provveduto alla creazione di namespaces per i propri standard, come ISBD, FRBR, FRAD, FRSAD ecc.
• http://iflastandards.info/ns
• http://iflastandards.info/ns/isbd/elements/
• http://iflastandards.info/ns/fr/
• http://iflastandards.info/ns/fr/frbr/frbrer/
• http://iflastandards.info/ns/fr/frad/
• http://iflastandards.info/ns/fr/frsad/
Namespace dell’IFLA 2
• Per identificare gli elementi l’IFLA ha scelto di utilizzare degli URI opachi. Questo garantisce:
• Neutralità linguistica
• Riconoscimento e promozione del multilinguismo (in linea con la strategia dell’IFLA)
Esempio
http://iflastandards.info/ns/isbd/elements/P1004
• È l’URI della proprietà (predicato) ISBD “has title proper” (Eng) ed è la stessa URI per “tiene título propiamente dicho” (Spa)
Element sets: FRBRer
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 139
Vocabularies: ISBD
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 140
Esempio
• Proviamo a costruire una tripla utilizzando Element Sets e Vocabularies pubblicati dall’IFLA, in particolare ISBD. Dobbiamo esprimere questa relazione:
Una risorsa ha per titolo «Robinson Crusoe»
s p o
• http://iflastandards.info/ns/isbd/elements/C2001 [Resource]
• http://iflastandards.info/ns/isbd/elements/P1012 [Has title]
• «Robinson Crusoe»
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 141
Grafo dell’esempio
Esempio
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 142
<http://iflastandards.info/
ns/isbd/elements/C2001> <Robinson Crusoe>
<http://iflastandards.info/ns/isbd/elemen ts/P1012 >
I vantaggi di RDF
• Il modello logico RDF presenta numerosi vantaggi, alcuni dei quali già messi in evidenza.
• I principali benefici che si hanno nell’utilizzare il modello di dati RDF nel contesto dei linked data sono:
1. RDF può essere usato su scala globale e consente a chiunque di creare un legame con qualsiasi oggetto
2. Qualsiasi URI consente di ottenere ulteriori informazioni (catene) e quindi qualsiasi tripla RDF costituisce un punto di partenza per navigare.
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 143
I vantaggi di RDF
3. Il modello di dati consente di creare link RDF tra dati provenienti da fonti diverse
4. È possibile creare un grafo unico a partire da due insiemi di triple diverse
5. RDF consente di rappresentare in un unico grafo informazioni in origine espresse mediante diversi modelli, mescolando termini da vocabolari diversi 6. In combinazione con linguaggi di schemi (p.e. RDF-
Schema e OWL) il modello di dati lascia liberi di impiegare a preferenza molti o pochi dati
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 144
Un esempio
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 145
Unire linked data diversi
Agenzia A
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 146
<http://xmlns.c om/foaf/spec/#
term_Person>
<http://bibliontolo gy.com/bibo/bibo.
php#Book>
<http://dbpedia.org/ontology/author>
http://xmlns.com/foaf/spec/#term_name http://purl.org/dc/terms/title
«Daniel Defoe»
«Robinson Crusoe»
<isbn:9780789436252>
http://dbpedia.org/ontology/isbn
Unire linked data diversi
Agenzia B
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 147
<http://bibliontolo gy.com/bibo/bibo.
php#Book>
<http://purl.org/dc/terms/date>
http://dbpedia.org/property/publisher
«DK Publishing»
<isbn:9780789436252>
http://dbpedia.org/ontology/isbn
«1998»
I dati visti dal web
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 148
<http://xmlns.c om/foaf/spec/#
term_Person>
<http://bibliontolo gy.com/bibo/bibo.
php#Book>
<http://dbpedia.org/ontology/author>
http://xmlns.com/foaf/spec/#term_name
http://purl.org/dc/terms/title
«Daniel Defoe»
« Robinson Crusoe»
<isbn:9780789436252>
http://dbpedia.org/ontology/isbn
<http://purl.org/dc/t erms/date>
«1998»
http://dbpedia.org/property/publisher
«DK Publishing»
<isbn:9780789436252>
Web semantico
• Nel web semantico, i computer hanno accesso a raccolte strutturate di informazioni (triple store) e a insiemi di regole di inferenza (ontologie) da potere utilizzare per sviluppare un ragionamento
automatico.
• Se i dati sono pubblicati come linked data, i computer sono in grado di recuperare dati prodotti da agenzie diverse, interpretarli (cioè riconoscere identità e relazioni) e riutilizzarli
Esempio
RelFinder
http://www.visualdataweb.org/relfinder.php
Esempio
Wikidata
Dalle triple
http://www.wikidata.org/wiki/Q1339 Al testo
http://tools.wmflabs.org/reasonator/?q=Q1339
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 151
Creazione delle triple
• Una caratteristica fondamentale dei linked data è che sono modulari.
• Modularità significa che è possibile creare nuove triple e aggiungerle alle triple esistenti con la certezza che si integrino perfettamente.
• Per la creazione delle triple esistono due assunti di base del web semantico
oOpen world assumption oAAA principle
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 152
Open World Assumption
• Il web semantico si basa sull’assunto che l’assenza di una tripla RDF è una prova che la relativa affermazione non è ancora stata fatta (non che è falsa)
• In pratica, si ritiene che l’insieme delle triple relative a un soggetto (cluster) è sempre aperto, cioè incompleto, e nuove triple possono sempre essere aggiunte
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 153
AAA principle
• AAA sta per «Anyone can say anything about anything» (Chiunque può affermare qualsiasi cosa su qualsiasi cosa)
• È un principio complementare al Open World Assumption
• RDF non impedisce a nessuno di creare affermazioni (triple) in conflitto con affermazioni esistenti, o che appaiano prive di significato per qualcuno. RDF accetta tutti i punti di vista e non costituisce un test di veridicità o di qualità
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 154
Da RDF a RDF/XML
• RDF è un modello di dati per descrivere le risorse nella forma soggetto-predicato-oggetto,
rappresentata da un grafo, ma non è un formato di dati.
• Il terzo principio dei Linked data stabilisce che i dati devono essere pubblicati in un formato standard.
• Il processo di trasformazione dei dati in triple prende il nome di serializzazione
• Il W3C ha creato due formati standard per la serializzazione: RDF/XML e RDFa (ma esistono molti altri formati)
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 155
Tripla letterale
Esempio
12/06/2018
C. Bianchini - Dai met adat i ai LD – Licenza CC-BY-SA 156
<http://dbpedia.org/pag
e/Nastassja_Kinski> <Nastassja>
< http://xmlns.com/foaf/spec/
#term_givenName>