Dal web of documents al web of data - Studiare il patrimonio culturale nella contemporaneità

Nel 2001 Tim Berners-Lee annunciò il cambiamento di filosofia e quindi anche di struttura del web come lo si era conosciuto fino al quel momento, cioè prefigurava un processo di innovazione sullo spazio reticolare in cui i documenti già esistenti, e quelli che sarebbero nati nel futuro, e collezionati nel grande archivio di Internet, sarebbero stati legati da rapporti semantici, ovvero attraverso il loro contenuto. «The Semantic Web provides a common framework that allow data to be shared an reused across application» (Berners-Lee, 2001): si intraprese così un viaggio destinato ad estendere le capacità del Web of Documents, caratterizzato dall’hypertext, trasformandolo in Web of Data, in cui le informazioni contenute nei documenti “non sono sul web ma nel web”.

La nascita del web105 come lo conosciamo oggi risale al 1989 Berners-Lee, ricercatore del

La storia delle reti internet è molto simile a quella della nascita dei computer ad uso domestico: entrambe le 105

tecnologie infatti, derivano da necessità burocratiche-militari che hanno, nel caso specifico, caratterizzato la prima metà del XX secolo. Nel 1957, con il lancio del satellite russo Sputnik, che rappresentò la conquista dello spazio da parte del blocco sovietico, negli Stati Uniti si fece strada l’idea di doversi dotare di un sistema di comunicazione in grado di resistere ad un eventuale attacco nucleare che avrebbe inginocchiato il sistema militare americano, interrompendo anche tutte gli scambi di informazioni. L’idea era quella di utilizzare i computer non solo come mezzi di calcolo, ma anche come nodi di comunicazione, in modo tale che se fosse stato interrotto un nodo gli altri avrebbero potuto sopperire alla sua assenza. Nel 1958 fu creata ARPA (Advanced

Research Projects Agency) con il compito strettamente militare di «aiutare a mantenere la superiorità strategica

degli Stati Uniti e vigilare contro i progressi tecnologici non previsti dei potenziali avversari»(Roversi, 2004) . Lo sviluppo di ARPANET, la rete di comunicazione militare, si deve però a ricercatori e ingegneri di ambito accademico che ne intuirono le grandi potenzialità per lo scambio di informazioni legate alla ricerca scientifica. L’implementazione di ARPANET, che ancora oggi persiste nella rete Internet, si basava sulla “ridondanza della rete”, ovvero la possibilità che le comunicazioni attraversino differenti nodi rendendo stabile lo scambio; la “commutazione a pacchetto”, ovvero la suddivisione e il viaggio di “pezzi” di informazione; le modalità di time

sharing, ovvero la possibilità di condividere il tempo tra più utenti; infine il “protocollo di trasmissione”. Nel

1974 viene istituito il Tcp/Ip, un protocollo libero di non «egocentrismo intrinseco» dei computer, ovvero un insieme di regole che permettono ai computer di dialogare tra di loro. Insieme ad ARPANET, in ambito civile, nel ‘78 nasce anche Bbs (Bulletin Board System) una banca dati di messaggi e contenuti residenti in personal computer individuali messi in comunicazione tramite Modem. (Castells, 2001; Roversi, 2004; Numerico, 2003; Arvidsson e Delfanti, 2013)

CERN di Ginevra, che ipotizzò e creò una rete che potesse permettere lo scambio di documenti e informazioni per i ricercatori di tutto il mondo, tale da rendere più rapido la modalità di condivisione della conoscenza scientifica, attraverso Internet, con lo scopo di amplificarne la portata. Nacque il Word Wide Web (WWW) cioè “la rete delle reti”106 basata su un sistema semplice ma potente di unificazioni di reti di computer e di meccanismi di ipertesto (Guerrini, Possemato, 2014). Il sistema si caratterizza per il linguaggio di marcatura del testo che consente una visualizzazione comprensibile all’uomo, cioè l’HTML che struttura le informazioni in tag, ovvero i metadati (dati su dati) e in testo; i collegamenti tra documenti non sono tipizzati, untyped link (Figura 1.3.1), ciò vuol dire che non ne è esplicitata la natura del collegamento, ma è l’uomo a desumerla una volta effettuata una ricerca; attraverso le WEB-API, application programming interface, è possibile realizzare pagine HTML, trasferibili tramite protocollo HTTP. Nasce così il Web di prima generazione, la tecnologia più rapida in termini di diffusione e di innovazione della storia dell’uomo, una risorsa indispensabile dal punto di vista della formazione, civica e culturale, ma che non consente alla macchina di comprendere gli elementi e la natura dei loro rapporti.

Nel 1991 il ricercatore del CERN di Ginevra, Tim Berners Lee, introduce nel mondo di Internet i linguaggi e 106

gli standard che costituiscono il World Wide Web, con l’obiettivo che i ricercatori potessero scambiare le proprie informazioni utilizzando messe in comunicazione tramite “testi”, ovvero usando documenti ipertestuali attraverso l’HTML (Hyper Text Mark-up Language). Il web di Berners Lee si basa sull'HTTP, ovvero il protocollo di trasmissione delle informazioni, e sull’URL, ovvero l’identificatore univoco della risorsa che risiede nel web. Berners-Lee, in accordo con il CERN, ha rilasciato la sua innovazione e in poco tempo, per mano di alcuni giovani ricercatori dell’Illinois venne introdotto Mosaic, il browser che permetteva la navigazione all’interno del web in maniera intuitiva grazie all’uso di interfacce grafiche userfriendly. Mosaic verrà sostituito da Netscape. Il successo di Netscape fu la chiave di volta per accendere l’interesse da parte dei maggiori produttori di tecnologia, quali ad esempio Bill Gates. Nella sua fase iniziale il web così immaginato da Tim Berners-Lee doveva offrire un modello di comunicazione rapida di servizi per il tempo libero, di informazione e di scambio di conoscenze scientifiche, ma con la sua diffusione capillare iniziò a costituire una vera e propria industria su cui investire. Per la ricostruzione della storia della nascita del web si veda il libro dello stesso Tim Berners-Lee “L’architettura del nuovo web”.

Nel 2001 fu Tim Berners-Lee, avendo intuito le grandi potenzialità ancora inespresse della rete, teorizzò ed indicò la strada per la nascita di un sistema, attraverso un processo di innovazione tecnologico sul precedente, che avesse la capacità di comprensione degli oggetti presenti on line, immaginando di poterlo dotare di agenti software intelligenti. Si tratta dunque di convertire le machine-representable in machine – understandable . L’idea era di 107 usare i linguaggi formali e le rappresentazioni concettuali dei significati, esplicitando le relazioni tra i dati, in modo da permettere al computer di comprendere la semantica degli oggetti residenti sul web. Si tratta dunque di convertire l’esistente in qualcosa di chiaramente comprensibile dalla macchina, di avvicinarsi sempre più all’idea che possa esistere un sistema di simbiosi uomo-macchina come era stato immaginato Licklider.

Tra la prima generazione del web, il web dei documenti, e la terza, il web dei dati, esiste una fase intermedia ancora in corso, la fase del cosiddetto web 2.0. La grande cerniera tra nascita del web 1.0108 e il web 2.0 è rintracciabile intorno al 2001, dopo la bolla delle dot-com, con la nascita di un nuovo web basato sullo scambio sociale e relazionale, ma che è non caratterizzato da una vera e propria evoluzione tecnologica in termini di infrastruttura. Come è stato già anticipato nelle premesse al Primo Capitolo, si basa sui principi dell’architettura della partecipazione e l’intelligenza collettiva che apre la via all’intervento più attivo degli utenti come produttori di contenuti: a determinarla è la crescita impetuosa del cosiddetto ‘User Generated Content’ (UGC), il contenuto generato dagli utenti. Di questa fase è il fenomeno della nascita dei blog e social network specifici come Myspace, e proseguita negli anni successivi con lo sviluppo di strumenti che facilitano l’immissione in rete e la condivisione anche di contenuti non testuali: il podcast per l’audio, e piattaforme come Flickr per le immagini e YouTube per il video. Una seconda fase del Web 2.0 è quella più propriamente relazionale che inizia con il 2004 circa con la fondazione di Social Network Sites generalisti quali Facebook, seguito poi dai più specifici Twitter, Pinterest, Instagram e social network sites simili ha riconfigurato i modelli di marketing e di produzioni dei

«The concept of machine-understandable documents does not imply some magical artificial intelligence

107

which allows machines to comprehend human mumblings. It only indicates a machine's ability to solve a well- defined problem by performing well-defined operations on existing well-defined data. Instead of asking machines to understand people's language, it involves asking people to make the extra effort» (Berbers-Lee, 1998)

Si usa questa nomenclatura in questo caso solo per distinguere il web di prima generazione dal web 108

contenuti delle industrie culturali, ma anche le interazioni personale . 109

Il Web 2.0 non costituisce, dunque, un avanzamento in termini di tecnologia, quanto piuttosto un avanzamento relativo all’usabilità, all’accesso a sistemi di produzione, di espressività, creatività e soprattutto la rivoluzione del 2.0 sta nella rete delle persone che sostengono i progetti on line, come nel caso di Wikipedia. Dalla nascita del web ad oggi, infatti, i creatori di contenuti sono aumentati in maniera esponenziale e con essi la portata delle informazioni contenute nel WWW.

Il passaggio dal web of document al web of data (Figura 1.3.2) diviene quindi necessario in primo luogo per la conservazione ottimale delle produzioni, troppo sensibili all’oblio, rispondendo alla domanda su cosa e come dovremmo conservare la memoria per le generazioni future vista la grande produzione di testi, video ed immagini che caratterizza la nostra contemporaneità.

In secondo luogo, per permettere la facile reperibilità dei documenti immersi nel rumore di fondo della rete, da parte degli utenti, consentita dall’uso di linguaggi formali, vocabolari controllati ed ontologie. Fare ordine nel grande marasma dell’archivio del web è divenuta un’esigenza primaria per le necessità contingenti degli utenti, ed un miglioramento delle loro condizioni di fruizione, ma soprattutto per una visione sul futuro, da intendersi legata al bisogno di conservare quanti più dati possibili.

Per una analisi sui media digitali ed in modo particolare sui social network si rimanda al volume Sociologia 109

dei Media Digitali di Davide Bennato che illustra i cambiamenti dell’audience, le teorie di diffusione, le

relazioni tra le persone e alcuni casi studio di particolare interesse con la diffusione del web partecipativo. Figura 1.3.2 Evoluzione del web

«Il progetto prevede l’etichettatura di ciascuna risorsa secondo “categorie” semantiche, tale da permettere una piena utilizzabilità dei motori di ricerca. In altre parole una risorsa (video, suoni e immagini incluse) esisterebbe in funzione di una metadescrizione testuale (come in una biblioteca). In questo tentativo di purificazione della babele di Internet si legge un po’ di nostalgia per l’ “oggettività” del dato, che si identifica nei valori di categorizzazione, ricercabilità, rintracciabilità» (Fiormonte, 2003). Il nucleo della questione è dunque la capacità del computer di comprendere gli oggetti e le relazioni che essi intrecciano tra di loro. Attualmente il web di documenti si caratterizza per la debolezza della ricerca di informazioni: infatti, «nonostante il gran numero di motori di ricerca esistenti, che sono poveri di semantica sia in fase di indicizzazione che in fase di ricerca» (Signore, 2003) esso non consente all’utente altro che la restituzione di documenti e informazioni che girano attorno alle “parole chiave” digitate nella “campo ricerca” del browser. «In fase di indicizzazione, essi [i motori di ricerca] utilizzano o moduli compilati dai fornitori di informazioni, che spesso non consentono di specificare metainformazioni […]. In fase di ricerca, viene consentito di combinare le parole con operatori di contesto (“tutte le parole”, “una parola qualunque”, “nel titolo”) […]» (Signore, 2003).

Questo significa che spesso buona parte dei documenti realmente attinenti ad una determinata ricerca si trova esclusa dai risultati delle prime tre pagine Web. Spesso i cataloghi di biblioteche, archivi, e musei vengono esclusi. «L’ipotesi di base è che le macchine possano accedere ad un insieme strutturato di informazioni e ad un insieme di regole di inferenza da utilizzare per il ragionamento automatico. Occorre quindi un linguaggio per esprimere dati e regole per ragionare sui dati, che consenta l’esportazione sul web delle regole da qualunque sistema di rappresentazione della conoscenza, con l’obiettivo di consentire alle macchine di estrarre la conoscenza disponibile sul Web, spesso disponibile in formati eterogenei, e combinarla per poter estrarre nuova conoscenza» (Signore, 2011).

Figura 1.3.3 Rappresentazione del web of data

Nel documento Studiare il patrimonio culturale nella contemporaneità (pagine 102-107)