• Non ci sono risultati.

Valutazione finale degli e-text del libello dantesco

Sezione I Edizioni cartacea

III) Che va chiamando Morte

2 Scrittori d’Italia: in questa sezione è possibile consultare l’omonima collana dell’editore Laterza in formato digitale Il corpus raccoglie 87 volumi, i cui testi e

3.5 Valutazione finale degli e-text del libello dantesco

Dall’analisi delle ricerche effettuate in rete è emerso che:

1. Nove siti online forniscono una versione e-text (integrale o quasi) della Vita

Nuova/Nova di Dante

2. Soltanto I Classici Stranieri.com diffonde la medesima versione PDF dell’e-text proposto da LiberLiber (precisamente quello che adotta come edizione cartacea di riferimento V.n 1932 di Michele Barbi)

3. Due siti, Classici italiani.it (attualmente inattivo) e Wikisource forniscono la lettura solo delle liriche del libello.

Complessivamente gli errori rilevati dal confronto tra l’edizione cartacea e quella digitale, sono suddivisibili in sei tipologie, ordinati in base alla frequenza con cui sono stati rilevati:

1. Uso non corretto dei segni diacritici: l’inversione costante tra l’accento acuto e l’accento grave, la mancata distinzione tra l’apostrofo e l’accento, l’uso

improprio del segno di dieresi

2. Errori di punteggiatura

3. Errori ortografici: l’uso improprio delle maiuscole e/o minuscole, a cui si aggiunge un solo caso di mancata geminazione di una consonante interna intervocalica (pallido > palido)

4. Mancato riconoscimento ed errori di trascrizione:

- < m > reso con < rn > - < L’ > reso con < I’ > - < l > reso con < [ >

150 - < ì > reso con < l >

5. Lacune ed errori nella morfologia: sono stati rilevati in una delle edizioni diffuse da LiberLiber, con edizione cartacea di riferimento V.n 1932 di Michele Barbi (I frammenti di testo con questa tipologia di errori sono stati riportati nella sezione in basso, relativa alla gravità dell’errore)143

6. Errori di contenuto, riscontrati esclusivamente in Wikisource, che introduce nell’elenco delle liriche del libello altre otto liriche scritte da poeti diversi da Dante Alighieri.

7. Mancato riconoscimento della lingua di origine: l’unico caso rilevato è quello del portale DaMA, in cui si verifica sistematicamente la sostituzione della parola < sonetto > con < sonnet >.

143 Vd. p. 151 0 10 20 30 40 50 60 70

Tipologia di errore

151

Il maggior numero degli errori rilevati si concentra nei file dei siti online che vengono consultati con una maggiore frequenza, i quali si trovano in cima alla classifica di Google

Search. Le versioni e-text più affidabili e di miglior qualità sono quelle dei portali: Dante Medieval Archive, Danteonline.it e la Biblioteca Italiana.

Sulla base della classificazione realizzata dallo studioso Paul Conway144 in cui stabilisce la gravità degli errori generati dal software OCR, è possibile fare una distinzione tra:

1. Gli e-text che raggiungono il livello 2 di gravità (errori di ortografia, punteggiatura/ segni diacritici):

- Due delle tre versioni online diffuse da LiberLiber: (LiberLiber – Vita

Nuova, Edizione Barbera 1965, LiberLiber- Vita Nuova, Edizione Newton

Compton 1993. In quest’ultima oltre agli errori riscontrati all’interno del

corpus del libello, questa versione presenta anche una scorrettezza,

individuata tra i metadati proposti dal portale: alla voce “Genere” si legge

Fiction, che è un chiarissimo errore.

- Biblioteca della Letteratura Italiana - Wikisource

2. Gli e-text che raggiungono un livello 3 di gravità:

- LiberLiber- Vita Nuova, Edizione Michele Barbi 1932 - ClassiciSstranieri.com

Il livello di gravità 3, secondo Conway, prevede tutti quegli errori che alterano chiaramente il contenuto originale del testo e hanno un effetto negativo sulle capacità di lettura del lettore: dall’analisi è emerso un solo caso di lacuna e tre casi in cui compaiono errori nella morfologia del testo.

152

Vita Nuova- LiberLiber Vita Nuova – Michele Barbi, 1932

Pagina

La seconda parte comincia

e hanno in loro; la terza quivi: e sol s’accordano; la quarta quivi: "Ond 'io non

so". (la parte in grassetto manca)

La seconda parte comincia e hanno in loro; la terza quivi: e sol s’accordano; la quarta quivi: "Ond 'io non so".

Cap XIV, p.12

Lo viso mostra lo color del core, che, tramortendo, ovunque po’ s’appoia;

Lo viso mostra lo color del core, che, tramortendo, ovunque può s’appoia

Cap XV, p.14

O Beatrice”, quando riscotendomi apersi li occhi, e vidi che ero ingannato.

O Beatrice”, quando riscotendomi apersi li occhi, e vidi che era ingannato

Cap XXIII, p.20

“ Tuus, o regina, quid optes explorare labor; mich jussa capessere fa es”

“ Tuus, o regina, quid optes explorare labor; mich jussa capessere fa est”

Cap XXV, p.24

Tutti i portali, rispettando la legge dell’efficacia immediata e dell’accessibilità, presentano dei livelli di usability e user friendly molto alti, che oscillano tra i valori 4/5. Questo dato, che potrebbe apparire insignificante, è indice di un atteggiamento ampiamente diffuso tra chi ha il compito di progettare e realizzare i siti web, cioè la tendenza a prestare una costante attenzione alla grafica della pagina online, che spesso non rispecchia fedelmente quella del testo cartaceo di riferimento, per agevolare e ottimizzare i tempi della ricerca in rete.

153

4.4 Il Futuro dell’OCR: possibili soluzioni

È quasi impossibile scrivere la storia dell’informazione senza attenzione agli errori, incidenti, varianti e cambiamenti… […] La storia dell’informazione è una storia di corruzione e correzione.145

Per concludere quest’ultima sezione relativa alle soluzioni future per il miglioramento del

software OCR, ho scelto come incipit una citazione tratta da un saggio di Paul Fyfe, il

quale a sua volta ha tratto spunto dal libro dello scrittore tedesco Walter Benjamin,

Charles Baudelaire: un poeta lirico nell’era dell’alto capitalismo, in cui si legge: «È

quasi impossibile scrivere una storia di informazioni separatamente da una storia di corruzione della stampa». La storia si ripete, sebbene i mezzi siano cambiati.

Leggendo il saggio di Fyfe, si nota come l’autore parla più volte dell’esigenza d’introdurre anche nell’Era digitale, la figura professionista del correttore che dall’Era della stampa, di cui parla Walter Benjamin, approda nel mondo del testo online, affiancando e perfezionando il lavoro svolto dall’OCR. Come sappiamo quella del correttore di bozze è una storia plurisecolare, che ha avuto origine nel XV secolo, e risulta essere ancora intramontabile: ogni corruzione deve essere sanata con una correzione. Uno studio approfondito sull’arte del correggere è quello di Paolo Trovato in Con ogni

diligenza corretto, dove l’autore raccogliendo sia notizie biografiche sui primi correttori

d’Italia sia sul loro modus operandi (le scelte linguistiche, gli interventi ortografici, le modifiche apportate alla punteggiatura …)146, tenta di ricostruire le antiche dinamiche “dell’officina del libro”. È chiaro come dietro all’instancabile caccia all’errore, vero o semplicemente presunto, di cui parla Trovato si cela il lavoro svolto dai maestri di scuola, ecclesiastici, docenti, intellettuali, che ricoprivano un tempo il ruolo dello stampatore, dell’editore, del tipografo o appunto del correttore di bozze. I riflessi di questo mondo antico sono in parte rimasti anche nell’Era dell’automazione digitale.

145 La citazione è tratta dal saggio di Paul Fyfe, Electronic Errata: Digital Publishing, Open Review, and the Future of Correction, in Debates in Digital Humanities a cura di Matthew K. Gold, Minnesota, 2012. https://minnesota.universitypressscholarship.com/view/10.5749/minnesota/9780816677948.001.0001 /upso-9780816677948-chapter-27 e http://dhdebates.gc.cuny.edu/debates/text/4

146 P.TROVATO, Con ogni diligenza corretto, La stampa e le revisioni editoriali dei testi letterari italiani

154

Sulla base di quanto è emerso nel capitolo precedente, possiamo affermare con sicurezza che sebbene i nuovi software OCR abbiano raggiunto un livello elevato di accuratezza, purtroppo in rete circolano testi dal valore inestimabile ma ricchi di imperfezioni. Questo dato di fatto avvalora la tesi la necessità di creare la figura di un “correttore di bozze 2.0”, il cui ruolo ha cambiato aspetto ma non è ancora scomparso del tutto. Da circa vent’anni si parla della nascita dei proofreaders.

Il primo progetto volto al miglioramento della qualità dei testi digitali, diffusi tra gli utenti attraverso siti Open Access, nasce negli anni 2000 e prende nome di Distributed

Proofreaders147 (DP): l’intento è quello di affrontare e risolvere il problema degli errori

generati dal sistema OCR, per preservare accuratamente il patrimonio librario universale. Il ruolo dei proofreaders è quello dunque di eliminare gli “errata elettronici”, cioè errori grammaticali, ortografici e sintattici rilevati in un testo elettronico. L’introduzione degli

human proofreaders nei progetti di digitalizzazione libraria di massa ha riscontrato delle

difficoltà, soprattutto a livello di costi economici. Non è un caso che il compito dei nuovi correttori di bozze sia svolto da semplici volontari: un chiaro esempio è proprio il DP, il quale dal 2000 al 2008 ha sì ampliato il proprio personale di lavoro e inglobato nel progetto ben 52.000 nuovi membri, ma tutti non retribuiti. Secondo Paul Fyfe molte delle difficoltà riscontrate nello sviluppare o ampliare iniziative come quella della Distributed

Proofreaders, sono dovute non alla poca importanza attribuita all’errore in sè, ma a quella

attribuita all’esigenza di correggerlo. Quello di Fyfe non è un pensiero che nasce dalla pedanteria o pignoleria di cui tradizionalmente gli accademici sono accusati, ma dalla presa di coscienza che anche gli errori apparentemente irrilevanti hanno un effetto potenziato se dilagano in rete.

Tra le iniziative nate con l’intento di correggere le imperfezioni generate dal software OCR, vi è quella più recente del Early Modern OCR Project (eMOP). Il progetto ha inizio ufficialmente il 1˚ Ottobre 2012, diretto d’iniziativa Digital Humanities, Media and

Culture (IDHMC) della Texas A&M University. L’eMOP mira alla creazione di nuovi

strumenti all’avanguardia per perfezionare il processo di trascrizione automatica dei primi testi moderni, agevolando la creazione di testi con un maggior grado di affidabilità. Spesso i testi a stampa, prodotti dal 1475 al 1800, presentano caratteri poco chiari e “trasparenti” a causa della variabile concentrazione d’inchiostro, a cui si aggiungono il

155

precario stato di conservazione del testo stesso, spesso usurato o lacerato, e impostazioni tipografiche e decorative inusuali e difficilmente codificabili. La combinazione di questi fattori ha generato delle pecche nel sistema di riconoscimento ottico, generando errori di diversa natura. Per questa ragione il progetto punta a una progressiva ottimizzazione della qualità delle immagini dei testi a stampa sottoposti al processo di riconoscimento ottico, attraverso la creazione di nuovi strumenti di correzione crowd- sourced. Una delle innovazioni adottate dall’eMOP è Ocular, uno strumento di trascrizione automatica, nato nel 2015 e reso, dopo una fase di addestramento durata circa tre mesi, «intuitivo e user friendly», facilitando l’interpretazione e il riconoscimento di più caratteri e lingue possibili.148

Per completare il quadro della situazione facciamo un accenno anche ad altre due iniziative, affini a quelle precedenti. La prima è l’Australian Newspaper Digitisation

Program149 (ANDP), si tratta di un progetto crowdsourcing nato circa dieci anni fa con

l’obiettivo di garantire l’accesso pubblico online e gratuito a oltre 720.000 pagine di giornali (quotidiani australiani o giornali storici pubblicati tra il 1803 e 1954). Sebbene questo progetto agisca su un campo d’azione più ristretto, quello strettamente giornalistico, ciò su cui è interessante spostare l’attenzione è che anche in questo caso molte delle correzioni, volte a migliorare il testo di partenza, sono state promosse dal pubblico che «ha aggiunto 166.000 etichette e 42.000 commenti». Il ANDP oltre richiedere caldamente l’aiuto del pubblico australiano, per raggiungere un livello sempre crescente d’accuratezza ha provveduto a un aggiornamento del software OCR, puntando al miglioramento dei file-immagine e correzione automatica degli errori.

Sfortunatamente, come ho già accennato all’inizio del paragrafo, molti di questi progetti non hanno i finanziamenti sufficienti o comunque sono davvero esigui, rimanendo spesso in una fase di stagnazione o sospensione, limitando pesantemente il processo di evoluzione a cui dovrebbero essere costantemente sottoposti. Per questa ragione ancora oggi persistono seri dubbi sull’effettiva qualità dei progetti di digitalizzazione avviati negli ultimi vent’anni, compresi quelli accademici. Dall’analisi effettuata sul testo del libello dantesco è emerso a chiare lettere come il problema dell’affidabilità del testo digitale abbia carenze sotto diversi punti di vista: dalla mancata

148 Per maggiori informazioni è possibile consultare questi link: http://emop.tamu.edu/presentations , https://sites.utexas.edu/firstbooks/2016/08/24/reading-the-first-books-joins-the-early-modern-ocr- project/

156

completezza dei metadati alla totale assenza di informazioni bibliografiche o sui linguaggi di marcatura, a cui si aggiungono gli errori rilevati all’interno del corpus dell’opera. Tra i fattori che destano una certa preoccupazione tra i più scettici vi è soprattutto il poco interesse riscontrato in molti dei progetti di digitalizzazione libraria, di aggiornare la fonte di riferimento non procedendo di pari passo con la ricerca accademica. La negligenza ha però notevolmente abbassato il livello di alcuni dei portali più usati dagli utenti del Web, i quali non hanno più provveduto ad approfondire e migliorare nel tempo la qualità dell’informazioni offerte.

Per giungere a una conclusione, seppur provvisoria, si può affermare che lo sviluppo e il costante aggiornamento a cui è stato ed è ancora sottoposto il sistema di riconoscimento ottico, rappresenta una componente fondamentale per garantire un risultato qualitativamente crescente del testo digitalizzato. Ma d’altro canto è anche vero che il progresso tecnologico non è ancora riuscito a raggiungere un livello di perfezione assoluto, e questo aspetto dà nuovamente credito alle tesi di coloro che sostengono la necessità di affiancare al software OCR, la mente umana. La collaborazione tra uomo e

Web, ripercorrendo le orme tracciate da quella uomo e stampa, potrebbe di gran lunga

assottigliare quelle barriere che ancora mettono in discussione l’esito del dilagante processo della mass digitization. Attraverso l’introduzione di figure specializzate nella correzione e revisione delle opere del nostro patrimonio culturale, si potrebbe trovare una possibile via di mezzo tra la velocità con cui la quantità d’informazione viene generata in rete e l’esigenza di garantire qualità e affidabilità ai mille volti di un lettore-web.

157

Conclusioni:

L’incontro tra l’universo Umanistico e quello Digitale è stata senza dubbio la Rivoluzione più originale degli ultimi trent’anni, avvicinando due mondi storicamente distinti.Il progresso e le mutate condizioni storico-sociali in cui vive l’uomo della «società fluida», hanno innescato un processo per certi versi rischioso: trovare un anello di congiunzione tra gli Studi Umanistici, per loro natura tendenzialmente tradizionalisti e radicati alle origini, e gli Studi più strettamente Informatici, contrariamente ai primi in costante fermento e in perenne cambiamento, non è stato e non è tutt’ora semplice.

Il mondo accademico sull’onda inarrestabile della Quarta Rivoluzione ha prima gettato i semi in un campo ben fertile per poi tardare a raccogliere i frutti, soprattutto in Italia dove spesso si è sprecata energia in dibattiti anziché esaltare le potenzialità di questo nuovo progetto. Nel nostro territorio, a differenza di quello Anglosassone o Americano, il dibattito tra scettici e sostenitori è ancora aperto ed è trovare una linea guida in grado di delineare con chiarezza una scala di valori della Filologia Digitale, spesso confusa con un’altra disciplina, a essa ancillare ma di natura diversa, ossia l’Informatica Umanistica. Quello delle Digital Humanities è un mondo ancora tutto da scoprire o per certi aspetti da creare dove poco producente e insensato il solo tentativo di stabilire chi ha ragione o torto. La soluzione più razionale sarebbe quella di delineare i campi d’azione di ognuna di queste discipline: da una parte l’esigenza di conservare online il patrimonio letterario, garantendone la diffusione globale, dall’altra quella di preservare l’integrità della volontà autoriale e delle opere letterarie grazie all’ausilio dell’Informatica.

In Inghilterra, a Londra con la precisione, la fusione delle due culture si è concretizzata in modo totalizzante attraverso la futura nascita nel 2020 di un corso di laurea finalizzato alla formazione di una nuova figura professionale, quella del problem solving, cioè un intellettuale “onnivoro e versatile”, come lo definisce Lorenzo Tomasin. Al desiderio Anglosassone di sperimentare e creare una nuova dimensione dell’umanista, sapiente dei grandi classici ma al passo con le più moderne tecnologie, seguono i dubbi di un accademismo tutto made in Italy sulla professionalità dell’Umanista Anglosassone 2.0. Al termine del mio lavoro di ricerca, oltre a prendere coscienza della situazione a tratti confusa, in cui ancora oggi riversa la Filologia digitale in Italia, ritengo che il lavoro minuzioso che da secoli contraddistingue il mestiere del filologo è ancora oggi

158

indispensabile in una società in cui la dimensione digitale è stata silenziosamente e totalmente introiettata nella quotidianità. Le generazioni del secondo Millennio percepiscono sempre meno la distinzione tra l’analogico e il digitale, numerose delle attività che svolgono quotidianamente sono frutto della macchina Informatica: la comunicazione, la ricerca del sapere, la lettura, le informazioni sono born digital e da questo punto d’arrivo non è possibile retrocedere. Dunque prendendo coscienza di quella che è una realtà dei fatti, ritengo che la mutata natura del mezzo da cui storicamente veniva attinto il sapere, non esime la Filologia dal suo compito: garantire la correttezza delle opere della nostra Letteratura Italiana, al di là della tipologia di lettore a cui saranno destinate. Si potrà forse ancora discutere sugli effetti della fusione tra Scienza e Humanae

litterae, o sul rischio che comporta l’introduzione del principio di Interdisciplinarietà

sulla formazione dell’umanista o ancora su a chi spetta il compito di conservare il sapere e a chi quello di garantirlo integro… ma l’esigenza di diffondere il patrimonio della cultura mondiale in modo affidabile e corretto, ritengo che superi qualunque forma di titubanza.

Documenti correlati