• Non ci sono risultati.

2.2 Semiotica per l’informatica e semantic Web

2.2.1 Il Web semantico

Negli ultimi quindici anni abbiamo assistito al passaggio da un Web inteso come “universo di informazione accessibile via rete fatto dalle persone per le persone” a “un web su cui operano sempre più le macchine”, che comunicano tra di loro per darci risposte utili e corrette (Della Valle et al. 2009, p. 3).

L’idea di Web semantico 59 si è sviluppata e diffusa grazie ad alcune

caratteristiche del Web recente. Negli ultimi anni esso ha infatti visto crescere vertiginosamente il numero delle informazioni che contiene, il che ha reso le risorse sempre più disorganizzate, frammentate, caotiche e quindi difficilmente raggiungibili dagli utenti che ne hanno bisogno. Oggi quindi il Web non deve essere visto come un archivio dotato di una struttura, ma come un insieme confuso di informazioni difficilmente esplorabili. Le strategie a disposizione degli utenti per trovare le informazioni che cercano sono fondamentalmente due, vale a dire la navigazione tra pagine web per mezzo dei link e la ricerca di parole chiave con i motori di ricerca, ma nessuna delle due è in grado di garantire risultati davvero completi ed efficaci. La navigazione web che si fa passando da un link all’altro richiede molto tempo e non è una pratica né puntuale, perché può richiedere di consultare molti siti web prima di raggiungere la meta sperata, né facilmente ripetibile, perché il percorso necessario per raggiungere una risorsa può essere dimenticato. In questo senso, ricorrere ai motori di ricerca è la strategia migliore per cercare informazioni in rete, ma nemmeno questo metodo è infallibile per alcuni limiti importanti dei motori di ricerca più diffusi (Google in primis, cfr. Ippolita 2007, 2014), che ad esempio sono influenzati

59 Per approfondire, cfr. Antoniou, van Harmelen (2004); Della Valle et al. (2009); Szeredi, Lukàcsy, Benko (2014); Laufer (2015).

102 dall’ambiguità delle lingue naturali60 e non coprono tutta la profondità della rete (ad

esempio non indicizzano il cosiddetto Deep Web61).

Questo quadro chiarisce subito il ruolo fondamentale svolto dal semantic Web e dalle tecnologie sviluppate in questo ambito, intese come strumenti attenti al significato delle risorse e capaci di “comprendere” sia ciò che vuole l’utente, sia ciò che è presente sul Web. Ma come è concretamente possibile tutto ciò?

Il World Wide Web Consortium (W3C)62, consorzio che sviluppa tecnologie e

linee guida per portare il Web al massimo del suo potenziale nel senso dell’interoperabilità semantica, definisce il Web semantico come “Web of data”, ovvero un ambiente web che contiene dati collegati tra di loro (i cosiddetti linked

data63). In questo senso, sono state sviluppate tecnologie che “consentono alle persone

di realizzare archivi di dati sul Web, creare vocabolari e scrivere regole per la gestione

60Le lingue umane sono ambigue perché i lessemi che contengono possono avere più di un

significato. Pensiamo ad esempio all’omonimia, cioè a parole che presentano più significati che non c’entrano nulla tra loro (per esempio “letto” che identifica sia il pezzo di arredamento sul quale si dorme sia il participio passato del verbo leggere) o alla polisemia, ovvero termini dotati di più significati che le parole hanno iniziato ad assumere per estensione del significato originario (per esempio il termine “penna” descrive il piumaggio degli uccelli ma, considerando che in passato serviva per scrivere, è usato anche per indicare la biro).

61 Il Deep Web, detto anche “Web sommerso”, contiene tutte le risorse non indicizzate dai motori di ricerca. Queste, secondo la definizione di Wikipedia, comprendono fra l’altro siti non ancora indicizzati, pagine web a contenuto dinamico, web software e siti privati aziendali.

62Il W3C Consortium è un’organizzazione non governativa internazionale diretta da Tim

Berners Lee che intende “guidare il Web fino al massimo del suo potenziale”. Per fare ciò stabilisce standard tecnici per il Web che, tra le altre cose, semplificano l’interazione uomo- informazioni e il modo di connettersi al Web (Wikipedia, pagina dedicata al W3C disponibile al link: https://it.wikipedia.org/wiki/World_Wide_Web_Consortium, consultato in data 12 settembre 2018.

63 I linked data rientrano tra le “buone pratiche” per pubblicare e collegare dati strutturati sul

Web e sono strettamente connessi al concetto di Web semantico in quanto tecnologia fondamentale per la sua realizzazione (Guerrini, Possemato 2012). Essi sono dati leggibili dalle macchine, il cui significato è definito da una stringa di parole, e marcatori (la cosiddetta “tripla”, composta da un concetto univoco che ricopre il ruolo del soggetto, da un predicato che ne descrive alcune proprietà e da un oggetto che può essere il soggetto di un’altra tripla o un valore descritto da stringhe letterali e numeri). Ciò che rende i linked data così importanti è la possibilità di “costituire un reticolo di dati collegati appartenenti a un dominio e collegabili ad altri dataset relativi ad altri domini presenti sul Web” (Iacono 2014, p. 13).

103 dei dati”64, tra le quali troviamo ad esempio il modello RDF e il linguaggio di markup

OWL che supportano i linked data. Da un punto di vista pratico, infatti, il Web semantico è stato fin dall'inizio inteso come “un insieme di linguaggi, schemi e strumenti finalizzati alla marcatura e all'organizzazione dei contenuti del Web in un'ottica di rete”, in modo tale che “le informazioni semantiche localizzate sui server di molte parti del mondo possano interagire per produrre dinamicamente una selezione “intelligente” di contenuti a seconda delle necessità del momento” (Gnoli, Marino, Rosati 2006, p. 61).

Una delle nozioni fondamentali per comprendere cosa sia il semantic Web è quella di metadato. Quando navighiamo sul Web, seguiamo link che portano a risorse identificate univocamente da un URI (Uniform Resource Identifier)65. Le risorse, che sono

chiamate sia “documenti”, in quanto comprensibili da un interprete umano, sia “oggetti” per sottolineare il loro essere leggibili dalle macchine, sono accompagnate da informazioni che le descrivono: i cosiddetti metadati, ovvero le “informazioni, comprensibili dalla macchina, relative a una risorsa web o a qualche altra cosa” che “servono ai software agent per fare un uso appropriato delle risorse, rendendo più semplice e veloce il funzionamento del Web [e] aumentando la nostra fiducia in esso” (Signore 2002, p. 2). È proprio l’esistenza di queste descrizioni, che automatizzano la nozione di metalinguaggio derivata dalla logica russelliana (Rastier 2013, p. 251), a rendere i dati comprensibili dalle macchine. Il loro obiettivo è descrivere le risorse in funzione di un dominio semantico strutturato logicamente in classi o concetti (come ontologie, tassonomie e tesauri) (Lastrucci 2014) e possono comprendere titoli, autori, topic, ma anche informazioni bibliografiche o relative all’organizzazione del testo (ad esempio la sua suddivisione in porzioni separate). Queste informazioni machine-

understandable consentono agli agenti software di gestire la conoscenza sul Web,

creando e organizzando relazioni tra concetti tramite regole di inferenza: l’agente intelligente definisce i rapporti tra i concetti attraverso modelli di rappresentazione come alberi o catene e, così facendo, “risponde alla necessità di eliminare l’instabilità

64 Definizione di Web semantico consultabile nella sezione dedicata agli standard del W3C italiano: http://www.w3c.it/standard.html#semanticWeb, consultato il 12 settembre 2018. 65 Gli URI sono definiti come generici insiemi di tutti i nomi e gli indirizzi che compongono le sequenze di caratteri che fanno riferimento a una risorsa (Signore 2002).

104 dei fenomeni di polisemia, neosemia e ambiguità presenti nelle lingue naturali” (ivi, p. 10).

Il semantic Web, quindi, tenta di dare una struttura al contenuto delle pagine web, creando le condizioni per cui agenti e programmi software possano attraversarle e portare a termine task più o meno sofisticati per gli utenti. Molte volte si dice che, con l'impiego delle tecnologie del semantic Web, le macchine possono arrivare a “capire il significato dell'informazione” (Della Valle et al. 2009, p. 30), anche se ovviamente non si può parlare di processi interpretativi paragonabili a quelli umani. Quando in questo ambito, dunque, parliamo di “significato” delle informazioni distribuite in rete, stiamo parlando di metodologie e strumenti che permettono ai computer di elaborare informazioni in modo più efficace e simile al ragionamento umano. Questi strumenti potenziano il Web in due modi: da un lato agevolano il recupero di informazioni da parte degli esseri umani in termini di precisione e velocità, dall'altro permettono a programmi software, tra cui i motori di ricerca, di comprendere e condividere con altri programmi software il significato dei documenti (Tomasi 2008). Attualmente, la ricerca in questo ambito spazia dalle tecniche di estrazione, strutturazione e riuso delle informazioni in un ambiente semantico (cfr. Ristoski P. et al. 2016; Ismayilov et al. 2018), allo studio delle relazioni semantiche e delle query più efficaci per i database strutturati (Mella et al. 2019), fino ad arrivare allo sviluppo di lingue naturali controllate (CNLs) utili per l’acquisizione della conoscenza e il successivo ragionamento automatico (Gao 2018).