• Non ci sono risultati.

Sfogliando le “pagine” di Google

«La pratica della lettura è uno dei motori e regolatori dello sviluppo sociale»

Michele Rak,

Per un Manifesto europeo per la lettura98 3.1 Gli anni del crowdsourcing e delle piattaforme online.

La progressiva affermazione della società mediale ha favorito il perpetuarsi di riflessioni sulle nuove forme di trasmissione della cultura: al centro dell’interesse di editori e filologi, vi è inevitabilmente la presa di coscienza del venir meno della tradizionale solidità del testo cartaceo, a favore della fluidità di quello digitale. Alla mutata dimensione del testo letterario si aggiunge la consapevolezza di una crescita esponenziale di nuove forme di “testi del sapere” in rete, la forte disomogeneità tra la quantità di testi

online e la loro qualità e la nascita di una nuova categoria di lettori, che chiameremo i lettori Google99, richiamando il titolo di un interessante saggio Paola Italia. Questa serie

concatenata di cambiamenti sono stati scatenati dall’irresistibile fascinazione generata dalla nascita di Internet sulle nuove e vecchie generazioni di lettori, i quali prediligono le ricerche in rete e la comoda lettura di un libro on line.

Grazie alla nascita dei nuovi supporti dotati di schermi con innovativi touch-screen, il lettore può con il proprio dito scorrere il testo di un saggio, un articolo o un romanzo, inserire un segnalibro, evidenziare porzioni di testo o inserire delle note… tutto all’insegna della praticità e del confort. Tralasciando qualunque forma di indiscussa comodità, agevolata anche dai costi troppo elevati delle edizioni a stampa di maggior rilievo, che tipo di testi trova oggi in rete il lettore?

98 M.RAK, Sistema e tendenze della lettura in Osservatorio Permanente Europeo sulla Lettura, Torino,

Rete Grinzane Europa, 2003)

99 P.ITALIA, Il lettore Google, in Prassi ecdotiche della Modernità Letteraria, 2016, https://riviste.unimi.it/index.php/PEML/article/view/6971

73

La maggior parte dei testi letti e scaricati da lettori più o meno esperti, sono quelli gratuitamente offerti dalle piattaforme open source, cioè dei software in cui l’utente può accedere al file sorgente, modificarne i contenuti o correggere eventuali errori e ridistribuire la nuova versione da lui personalmente elaborata. Negli ultimi vent’anni è stato messo in luce un altro angoscioso cambiamento: l’utente-lettore ha radicalmente cambiato il suo atteggiamento e la sua predisposizione alla lettura. Oggi si tende non più a leggere integralmente un testo, contestualizzarlo e interpretarlo, ma si preferisce cercare le informazioni in modo frettoloso e distratto: alla lettura attenta, si sostituisce una rapida consultazione. Dunque la legge dei grandi numeri di Google ha prodotto un lettore spesso disattento a cui corrisponde un testo molte volte impreciso, di cui non ne vengono colti nemmeno gli errori, i quali si trasmettono e si moltiplicano silenziosamente da una piattaforma digitale all’altra.

La situazione diventa ancor più articolata se si tiene in considerazione non solo il proliferare di edizioni figlie delle mass digitization, anche la nascita dei più recenti progetti crowdsourcing (“crowd” folla, in relazione al numero di persone che partecipano all’iniziativa, e “outsourcing”, parola composta che letteralmente vuol dire “approvvigionamento esterno”, riferito ad alcune fasi che caratterizzano il processo produttivo del software). Con il termine crowdsourcing si indicano generalmente delle tipologie di piatteforme on line a carattere partecipativo, in cui una persona, un’istituzione, un’organizzazione, non a scopo di lucro, si occupa dell’organizzazione e dello sviluppo di un progetto, il cui obiettivo è la diffusione d’informazioni attraverso i mezzi forniti dal Web. Il crowdsourcing spesso nasce da iniziative di semplici volontari, persone non qualificate: un esempio noto di crowdsourcing volontario è Wikipedia,

Wikisource.o YouTube…

I fattori che hanno indotto la “la folla” a prediligere questi nuovi sistemi di ricerca per reperire qualunque forma di informazione, dall’attualità alla politica, dall’ambito scientifico o addirittura medico a quello sportivo, dal cinematografico al letterario, sono essenzialmente due. Il primo è legato all’ipertestualità del Web, che permette al singolo, senza troppe ristrettezze, di diventare attivamente scrittore, creatore, innovatore e mediatore del sapere, e questa opportunità alletta e incuriosisce quanto l’utente più giovane, quanto quello più maturo; la seconda è legata alla possibilità reale e istantanea di promuovere un’immensa rete di aggregazione e flussi di idee, che stimolano costantemente l’innovazione.

74

La studiosa Elena Pierazzo in Digital Scholarly Editing: Teories, Models and Method100,

spiega dettagliatamente come negli ultimi anni siano nate interessanti collaborazioni tra i progetti crodwsourcing e i centri di ricerca scientifico – accademica. I progetti di maggior successo, anche dal punto di vista qualitativo, riguardano la trascrizione di epistolari o antichi manoscritti.

Crowdsourcing has been very successfully employed in a number of scientific, academic endeavours, but it still seems to struggle to affirm itself for scholarly editions. […] One of the most successful crowdsourcing initiatives is represented by the Zooniverse ‘the internet’s largest, most popular and most successful citizen science projects’17, which features, among others, projects like Old Weather and Ancient Lives which have involved about 600,000 people each in transcribing manuscripts.101

Il crowdsourcing è stato impiegato con grande successo in una serie di tentativi scientifici, accademici, ma sembra ancora lottare per affermarsi per le edizioni accademiche. [...] Una delle iniziative di crowdsourcing di maggior successo è rappresentata dai Zooniverse102il più grande,

popolare e di maggior successo dei progetti Internet 2017, che con altri progetti come Old

Weather 103e Ancient Lives104, ha coinvolto circa 600.000 persone nella trascrizione di manoscritti.

La trascrizione dei manoscritti di cui parla la Pierazzo in alcuni casi non si è rivelata una soluzione sempre economica, veloce e semplice, a causa delle difficoltà riscontrate proprio durante il processo di trascrizione stesso, in cui sono stati generati errori di varia natura. Infatti la studiosa pur essendo a favore e sostenendo l’innovativa combinazione tra progetti crodwsourcing e iniziative accademiche-scientifiche, sottolinea più volte come questa opportunità ancora molto allettante, risulterà produttiva solo se attentamente controllata.

100http://hal.univ-grenoble-alpes.fr/hal-01182162/document

101 D.PiERAZZO,Digital Scholarly Editing: Teories, Models and Method, Université de Grenoble ‘Stendhal’,

p.28, 2014; http://hal.univ-grenoble-alpes.fr/hal-01182162/document

102https://www.zooniverse.org/projects?discipline=arts&page=1&status=live 103https://www.oldweather.org/

75

3.2 Breve lemmario del Web

Prima di iniziare l’analisi e la valutazione degli e-text del libello dantesco, per evitare di creare confusione nel capitolo successivo, riporto di seguito un breve lemmario formato da tutti i termini che ricorreranno con una certa frequenza.

1. Libro elettronico o ebook: si intende qualsiasi testo digitalizzato e accessibile, conservato in un archivio digitale.

2. Libro elettronico digitalizzato o ebook digitalizzato: ci si riferisce a una versione

online di un libro stampato. Vengono creati con trascrizioni immesse

manualmente o con pagine scansionate o attraverso la combinazione di quest’ultime insieme a un testo derivato automaticamente attraverso la scansione per mezzo di software OCR.

3. Testo Online: ci si riferisce a una categoria molto eterogenea che include i testi

fruibili in rete e letti su supporti diversi.

4. Layout: espressione che significa in genere, schema generale o disposizione

grafica. Nel nostro caso il termine indica l’impaginazione di un libro, di un giornale o di un documento in rete.

Tra le differenze sostanziali che hanno segnato il passaggio dal cartaceo al digitale, oltre al passaggio dalla materialità all’immaterialità del supporto, non bisogna tralasciare quella dell’impaginazione del testo, l’impaginazione appunto. Il formato standard utilizzato oggi per la pubblicazione di un libro digitale è il formato ePub (Elettronic Publication), creato dalla International Digital

Publishing Forum, un’organizzazione no profit. Uno dei formati più diffusi in rete

è quello PDF, il più prediletto al mondo poiché mantiene fisso il disegn dell’impaginazione e i caratteri del file selezionato; mentre l’ePub si adatta agevolmente al dispositivo di lettura utilizzato, garantendo l’interattività con l’utente. Per questa ragione è stata creata l’espressione layout liquido, cioè mutevole in base al motore di ricerca selezionato, al formato scelto o al dispositivo di lettura; questa variabilità potrebbe rivelarsi un problema nel caso delle versioni

76

online di alcune opere letterarie dove l’impaginazione deve rispettare e riprodurre la fissità della fonte cartacea di riferimento.105

5. Markup: il processo di marcatura di un documento digitale, comunemente chiamato annotazione, consiste nell’aggiungere dell’etichette descrittive a porzioni del documento. Tali etichette hanno il compito di creare un modello di file specifico, in cui è possibile rendere leggibili gli elementi del layout o della struttura.

6. Archivio digitale: si intende una biblioteca o un archivio di conservazione, il quale

ospita al suo interno oggetti digitali (ebook, e-text, raccolta multimediale di fotografie, immagini, mappe, audio, video…).

7. OA e-book (Open Access): ci si riferisce a ebook gratuitamente accessibili e

scaricabili.

Un altro dei vocaboli che è entrato comunemente a far parte del nostro linguaggio è la parola metadati, ai quali verrà dedicata una sezione più approfondita, data l’importanza che rivestono nel mio lavoro di ricerca.

3.2.1 I metadati:

Una delle parole che ricorrerà più spesso nel corso del processo di analisi e valutazione degli e-text del libello dantesco sarà la parola metadati, di cui sarà necessario dare una definizione chiare e fornire una descrizione.

Il termine metadati deriva dall’inglese metadata, costruito con il prefisso meta- (dalla preposizione greca metà “al di sopra”) e il plurale neutro latino data, cioè “i dati”.106 Il termine comparve per la prima volta nel 1996, in un articolo del Corriere della Sera di Donato Speroni in cui si legge: «Attenzione, la lavagna elettronica non conterrà i numeri,

105 Per maggiori approfondimenti https://digitalpublishingnews.it/2014/12/come-fare-un-ebook-quale- formato-scegliere/.html

106 La definizione è tratta dal sito online dell’Accademia della Crusca:

http://www.accademiadellacrusca.it/it/lingua-italiana/consulenza-linguistica/domande- risposte/metadati-metadata

77

ma i cosiddetti metadati, cioè notizie sui criteri con cui le statistiche sono redatte, sulla libertà d’accesso alle informazioni da parte di tutti gli utenti…».107 Secondo l’Accademia della Crusca a partire dagli Duemila la parola metadati è entrata a far parte regolarmente del linguaggio tecnico-informatico, parallelamente alla diffusione e affermazione dei

digital media.

La creazione di qualunque oggetto digitale è accompagnata dalla realizzazione di unità informative, conservabili in modo durevole e identificabili univocamente; ognuna di queste unità è dotata da uno specifico contenuto, il quale comprende il dato stesso e le informazioni relative ad esso. Le unità informative con il compito di descrivere un documento digitale prendono nome di metadati.

I metadati sono informazioni strutturate appartenenti a diverse tipologie, utilizzate per effettuare un insieme di operazioni su insieme di risorse.108

Nel nostro caso specifico i metadati possono essere paragonati a i dati che ci vengono forniti leggendo il catalogo di una biblioteca: i libri sono i nostri oggetti digitali, le voci dell’edizione catalografica sono i metadati (autore, titolo dell’opera, editore, anno di produzione, genere di appartenenza…). In base alla precisione e alla quantità delle informazioni fornite sarà più o meno agevole consentire il reperimento e la gestione del documento elettronico preso in analisi.

Convenzionalmente i metadati vengono divisi in tre diversi livelli:

1. Metadati descrittivi

Essi si occupano della descrizione bibliografica di una risorsa elettronica; il loro compito è quello di agevolare l’identificazione e il recupero degli oggetti digitali.

Come vedremo la maggior parte degli archivi digitali in rete non rispettano gli standard stabiliti dal progetto Dublin Core cioè un progetto nato grazie all’iniziativa di archivisti, bibliotecari e fornitori esperti di markup nel 1995 a Dublino, da cui appunto prende il nome. L’obiettivo dell’iniziativa è quello di fornire delle metainformazioni per descrivere e rendere ricercabili le risorse elettroniche. Tale descrizione avviene attraverso un

107 Corriere della Sera, 15 Aprile 1996.

108 Tratto dalle dispende del corso di Informatica Umanistica (2005), Le Biblioteche Digitali, di P. Savino e

78

vocabolario costituito da quindi punti, che permettono di catalogare tutti i testi elettronici in rete. L’obiettivo del Dublin Core è quello di garantire l’interscambio e l’interoperabilità di sistemi diversi.

2. Metadati amministrativi e gestionali:

Il loro compito è quello di occuparsi delle svariate operazioni di gestione degli oggetti digitali all’interno di un archivio online. A loro interno si dividono in tre categorie:

- Metadati tecnici: forniscono informazioni su i formati utilizzati e i parametri di digitalizzazione.

- Metadati di preservazione: informano sulle procedure e sulle varie tecnologie adottate per garantire la digitalizzazione e il mantenimento dei documenti digitali. - Metadati di gestione dei diritti: si occupano della proprietà intellettuale, dei diritti

di accesso e di riproduzione di un’opera letteraria.

3. Metadati strutturali

Come indica lo stesso nome, questa categoria di metadati si occupa della descrizione della struttura di una risorsa digitale (ad esempio le diverse versioni o manifestazioni dello stesso file). Questo livello di metadati ha anche il compito di collegare materiali diversi di una stessa risorsa: in una biblioteca digitale il loro compito è quello di descrivere la struttura del documento, segnalando e distinguendo i capitoli, i paragrafi, le citazioni… oppure ad esempio di specificare che una miniatura è inserita in un determinato codice.

La tripartizione sopra elencata è quella che convenzionalmente viene adottata per la creazione di archivi e biblioteche digitali o per tutto ciò che riguarda il mondo della letteratura; questo set di metadati potrebbe variare sulla base della risorsa da analizzare. A prescindere dalla tipologia della fonte da descrivere, i metadati svolgono il compito di fornire indicazioni circa la provenienza del dato, il contesto di produzione e la stabilità, assicurandone l’autenticità.

In base alle modalità di generazione dei metadati descrittivi (quelli che più interessano da vicino), è possibile fare una distinzione:

79 - Metadati estratti automaticamente - Metadati inseriti manualmente

La differenza essenziale tra le due forme di metadati sta nella presenza o meno dell’intervento umano: la prima categoria fa esclusivo affidamento ai nuovi software informatici appositamente sviluppati per l’estrazione automatica delle informazioni; i secondi prevedono invece l’intervento umano quando, data la complessità del documento da analizzare, il calcolo automatico non risulta così semplice.

Alcuni degli errori che emergeranno durante il confronto tra l’edizione cartacea e quella

online dell’opera dantesca vedremo come sono dipesi proprio dalla mancata precisione

del processo di automazione dei metadati. Per ogni tipologia di documento preso in analisi è previsto un set fisso di metadati da estrarre; l’estrazione viene eseguita sulla base di determinate tecniche che sfruttano le informazioni disposte sul layout del documento stesso. Il desing è una componente fondamentale per la corretta estrazione dei metadati, finalizzati a fornire la descrizione dell’e-text, poiché le regole dell’estrazione si basano sul concetto di posizione o posizione-relativa dei metadati. Con il primo termine si fa riferimento alla posizione fissa e costante di specifiche informazioni, mentre il secondo va a indicare delle piccole variazioni di posizione dovute a una differente impaginazione del layout. Per ovviare ai problemi sorti dalla confusione generata da un desing poco “standard” sono stati creati dei sistemi di metadatazione automatica assistista in cui è prevista un’iniziale fase di addestramento da parte dell’utente, il cui compito è quello di selezionare la posizione dei metadati ogni volta che viene selezionato un documento con un layout differente da quelli analizzati e catalogati. In tal modo viene ridotta la percentuale di imprecisione dovuta a un’errata selezione dei metadati descrittivi corretti. Negli ultimi anni è in crescita il numero di programmi in grado di riconoscere una quantità sempre crescente di metadati, marginalizzando progressivamente l’intervento manuale e riducendo notevolmente i costi di produzione. Ancora una volta l’ottimizzazione in termini di tempo e costi non sempre garantisce un esito impeccabile, generando confusione nella catalogazione di celebri opere della Letteratura Italiana e mondiale e nella fruizione delle informazioni essenziali per un’inquadratura generale dell’e-text scelto.

80

3.3 Il Prosimetro dantesco nell’Era Digitale

Terminata questa breve introduzione, vediamo cosa accade concretamente quando un utente decide di consultare Google per effettuare una ricerca nell’ambito letterario. Restringiamo per praticità il campo d’azione e analizziamo i risultati della ricerca effettuata sul libello dantesco, la Vita Nuova appunto, al centro del mio progetto di tesi. Digitando sul motore di ricerca Google il titolo dell’opera seguito dal nome Dante Alighieri, in soli 0,50 secondi ci vengono offerti ben 3.210.000 risultati. La varietà e la quantità di materiale sul libello dantesco è davvero straordinaria: presentazione dell’opera, riassunto della trama, notizie biografiche sull’autore, immagini e illustrazioni delle varie edizioni stampa del libello e addirittura la video-lettura di alcuni dei più celebri passi raccontati da Dante.

Non tutti i siti però garantiscono al lettore una lettura integrale dell’opera, la maggior parte riportano solo pochi passi affiancati dalla parafrasi e seguiti da un breve commento; la finalità di molte di queste piattaforme e offrire un’idea generale del libello, focalizzandosi con maggiore interesse sull’impostazione grafica del sito, valorizzandone il “valore estetico” e non il contenuto. La strategia del web punta sulla creazione di interfaccia grafiche definite con l’espressione inglese, user friendly, cioè realizzate in modo tale da rendere il loro uso sempre più facile e intuitivo. Molti dei portali on line vengono arricchiti con icone, didascalie, tutorial tutti creati su misura dell’utente inesperto o alla ricerca di una risposta comprensibile e immediata. Il requisito “facilità d’uso” non è né trascurabile né irrilevante per chi ha l’oneroso compito di trasmettere, come in questo caso, un’opera di estremo rilievo nel panorama letterario, ma è doveroso precisare che la “semplicità” non deve essere sinonimo di superficialità.

Nella prima pagina di Google oltre alle tipologie di siti sopra elencati, ve ne sono altri che permettono una lettura completa, o quasi, della Vita Nuova, in ordine di apparizione troviamo:

1. Vita Nova- Biblioteca della Letteratura Italiana 2. Vita nuova- Dante Alighieri- Testo: Liber Liber 3. Vita Nuova- Classici Italiani

4. Vita Nuova- Dante Medieval Archive 5. Vita nuova- Wikisource

81

I siti Wikipedia, Biblioteca della Letteratura Italiana e Liber Liber compaiono nella prima pagina Google, precisamente in prima, quinta e sesta posizione; Classici Italiani ricoprono la nona posizione della seconda pagina, mentre il Dante Medieval Archive è l’ottavo sito consultabile della terza pagina di Google, infine per consultare le sole liriche offerte da Wikisource bisogna procedere fino alla quarta pagina in quarta posizione. Per leggere il testo offerto da Wikisource occorre giungere fino alla quarta pagina, mentre il sito fratello Wikipedia presentando solo una generica introduzione del libello, allega in fondo alla pagina un link che permette all’utente un’immediata consultazione di

Wikisource.

Effettuando un secondo tentativo finalizzato alla lettura integrale del testo, digitando

Vita Nuova PDF, la situazione subisce una lieve variazione rispetto a quella presentata

nel paragrafo precedente:

1. Vita Nova – Biblioteca della Letteratura Italiana 2. Dante Alighieri, Vita Nuova- Liber Liber

3. Vita Nuova (edizione Barbera 1965) - Liber Liber

4. Dante Alighieri- Vita Nuova- Classici stranieri.com

In 0,52 secondi i risultati totalizzati sono 44.600.000. Oltre alle versioni italiane, scorrendo fino alla seconda pagina di Google, si trovano anche versioni in lingua straniera dell’opera dantesca. La versione inglese, francese, finlandese e tedesca della Vita Nuova è resa disponibile dal Progetto Gutenberg, dove è possibile o leggere il testo completo

online o scaricarlo in formato E-PUB o Kindle.

Oggi il Progetto Gutenberg offre la possibilità di leggere e scaricare gratuitamente 59.000 testi in formato eBook. Nella home del progetto si dichiara che l’iniziativa è gestita da semplici volontari che per diletto o per interesse, si sono prodigati nel digitalizzare le opere della letteratura mondiale. Nel nostro caso scrivendo nella barra Search: Vita Nuova il progetto mostra all’utente quattro possibilità diverse:

1 The New life (versione inglese) 2 La Vie Nuovelle (versione francese) 3 Het Nieuwe Leven (versione tedesca)

82 4 Usi elämä (versione finlandese)

Ognuna delle versioni sopra elencate, presentano sia nella forma Kindle che E-PUB la possibilità di leggere il testo con o senza immagini.

Se volessimo effettuare una ricerca più dettagliata e affidarci esclusivamente al materiale fornito dalle biblioteche digitali o a recenti siti web creati appositamente per valorizzare la figura di Dante, le possibilità a nostra disposizione sono quattro:

Documenti correlati