• Non ci sono risultati.

5. Una proposta metodologica: fasi preliminari

5.2 Acquisizione delle lettere

Prima di iniziare ad acquisire le lettere (cioè a trasferire i carteggi dal supporto cartaceo a quello digitale), è necessario sapere se si dispone dei manoscritti originali, se si hanno pubblicazioni cartacee dei carteggi, se si è in possesso della strumentazione necessaria.

Nel caso in cui si posseggano i manoscritti e si debba procedere alla loro digitalizzazione (ovvero alla loro trasformazione in immagini digitali) è necessario scegliere quale tipo di strumento utilizzare per poter ottenere le copie digitali dei manoscritti.

Innanzitutto è bene precisare che un'immagine elettronica non è altro che un insieme di

pixel (picture elements: sono le unità minime dell'immagine, assimilabili a dei piccoli

puntini): maggiore è il numero di pixel, maggiore è la risoluzione (assimilabile alla qualità) dell'immagine. Durante la trasformazione della fonte cartacea in formato digitale, gli strumenti per la digitalizzazione eseguono “mappe di bit”, ovvero creano una sorta di “griglia” dei pixel che rappresentano l'immagine, e a ognuno di essi viene assegnato un certo numero di bit per ottenere il colore (per esempio, un'immagine a sedici colori avrà bisogno di quattro bit per ogni pixel, perché ogni bit può assumere due valori, cioè 0 o 1, e il logaritmo in

5. Una proposta metodologica: fasi preliminari

base due di sedici è proprio quattro).

Per avere un'idea di cosa sia una “mappa di bit” (bitmap) è possibile pensare a un mosaico: ogni tessera rappresenta un pixel dell'immagine.

In genere ci sono due modi per digitalizzare manoscritti: o si esegue una scansione attraverso uno scanner, o si opta per l'utilizzo di fotocamere digitali. Prima di procedere all'acquisizione delle immagini però è necessario seguire alcune regole precise:

– i manoscritti devono essere maneggiati con cura (gli operatori dovrebbero indossare guanti di lattice);

– è necessario verificare che i manoscritti si trovino in uno stato di conservazione che possa consentire la digitalizzazione;

– i manoscritti devono essere preparati nel migliore dei modi per due ragioni, ovvero per far sì che l'intervento possa essere meno invasivo possibile e per ottenere un risultato di alta qualità;

– è necessario valutare la qualità degli strumenti che si possiedono in modo che i manoscritti non vengano danneggiati.

Se i manoscritti sono facilmente deperibili, si dovrà escludere l'utilizzo di uno scanner piatto, perché prevede la pressione sui fogli, e si dovrà ricorrere a uno scanner planetario oppure a una fotocamera digitale.

Lo scanner piatto permette di acquisire l'immagine del documento facendo scorrere una matrice (sulla quale sono posti dei sensori ottici che permettono di rilevare la mappa dell'immagine) sulla superficie da acquisire. Con questo strumento, il foglio da digitalizzare deve essere posizionato “a faccia in giù” e pressato sul piano d'appoggio dello scanner in modo da ridurre gli effetti di ombra e di curvatura delle immagini.

Lo scanner planetario è uno strumento molto più sofisticato dei normali scanner piatti e permette di digitalizzare manoscritti e volumi anche molto spessi in modo molto meno invasivo rispetto agli scanner piatti. Lo scanner planetario infatti esegue la scansione dall'alto, per cui non c'è bisogno di fare pressione sui documenti. Inoltre, le componenti di uno scanner planetario sono soggette a una minore usura rispetto a quelle di uno scanner piatto: questo fa sì che gli interventi di manutenzione siano ridotti al minimo e la vita dello scanner si allunghi in maniera consistente.

Altrimenti è possibile acquisire le immagini con l'utilizzo di fotocamere digitali ad alta qualità: sarà sufficiente riprendere i manoscritti con l'obiettivo per ottenere le immagini

5. Una proposta metodologica: fasi preliminari

digitali.

Gli originali, una volta acquisiti, dovranno essere opportunamente catalogati e inseriti nella cartella che ospiterà il progetto. Più in dettaglio, saranno inseriti in una sottocartella che sarà chiamata “immagini”. Nel caso in cui il corpus contenga carteggi di più artisti, sarà necessario creare una cartella diversa per ogni artista, denominata “NomeCognome”. I fogli andranno numerati tenendo conto dell'id (identificatore) progressivo della lettera e del numero del foglio. L'id può essere assegnato secondo diverse ragioni: per Carlo Finelli Corpus gli id sono stati assegnati in ordine cronologico (la lettera contrassegnata dal numero uno è quella più antica). Quindi, le immagini dei manoscritti avranno come nome del file, per esempio, 1-3.jpg (lettera 1, foglio 3), 6-2.jpg (lettera 6, foglio 2), 12-5.jpg (lettera 12, foglio 5) e così via.

Il percorso dei file quindi dovrà essere il seguente: “immagini/NomeCognome/idlettera- idfoglio.jpg”, per esempio “immagini/CarloFinelli/1-1.jpg” o “immagini/AntonioCanova/3- 6.jpg”.

Anche qualora il corpus sia composto da lettere di più artisti, l'identificatore dovrà essere

univoco, ovvero non ci dovranno essere due lettere con lo stesso numero (quindi non sarà

possibile avere una lettera numero 1 di Carlo Finelli e una lettera numero 1 di Antonio Canova). Questo aspetto è particolarmente importante affinché il computer possa evitare fraintendimenti. Per esempio, come si vedrà in seguito161, in fase di ricerca il sistema

restituisce i contesti basandosi non solo sui pattern cercati dall'utente, ma anche sugli id delle lettere: se ci fossero due lettere con lo stesso id, i risultati della ricerca sarebbero falsati in quanto verrebbero restituiti anche contesti errati.

Si potrebbe obiettare dicendo che è possibile assegnare id non univoci pur garantendo l'assenza di fraintendimenti, per esempio associando a ogni id il nome dell'autore. Si è deciso invece di assegnare id univoci per rendere più semplici le operazioni: la restituzione del contesto in fase di ricerca, in caso di id univoco, avviene controllando soltanto l'id della lettera, mentre in altri casi bisognerebbe controllare non solo l'id ma anche, per esempio, l'autore. In questo esempio quindi l'id univoco consente di risparmiare tempo prezioso durante le fasi di ricerca.

Dopo aver catalogato in modo opportuno le immagini, sarà necessario eseguire la trascrizione delle lettere. Per questo è importante disporre anche di un'edizione a stampa dei carteggi: ciò consentirà di rendere le operazioni più automatiche e quindi più veloci. Infatti ci 161 Cfr. infra PAR. 6.2.

5. Una proposta metodologica: fasi preliminari

sono in commercio programmi di OCR (Optical Character Recognition, “riconoscimento ottico dei caratteri”), che permettono di eseguire la trascrizione automatica dei caratteri presenti in un'opera stampata e di “ottenere buoni risultati su pagine stampate di recente, uniformemente inchiostrate e senza danneggiamenti al supporto cartaceo”162. Ovviamente

però anche tali programmi sono soggetti a errori, e sarà quindi necessario un controllo finale per correggere i caratteri riconosciuti in modo errato dal programma. Nel caso in cui si disponga soltanto dei manoscritti, sarà necessario procedere a una trascrizione manuale. La trascrizione manuale è preferibile soprattutto se il numero di lettere da acquisire è esiguo: si evita l'utilizzo dello scanner (con conseguente preparazione delle impostazioni e dei testi da sottoporre a digitalizzazione) e si evitano le fasi di controllo delle trascrizioni automatiche.

Le trascrizioni saranno salvate in file di tipo txt, ai quali sarà dato come nome l'id della lettera, e saranno inserite in una cartella chiamata “lettere”. Anche in questo caso, se si vuole creare un corpus con lettere di più artisti, sarà necessario creare apposite cartelle.