( Digital Record Object IDentification ) e il registro tecnico di PRONOM

• La Normalization Policy, ovvero quella che potremmo

definire la procedura di conversione, è in sostanza una tabella di conversione tra l’identificatore (in PRONOM) del tipo di file e l’applicativo da utilizzare per la conversione, o le eventuali procedure più complesse da attivare: attraverso queste corrispondenze il sistema potrebbe automaticamente valutare in maniera ben più rapida le procedure da attivare per arrivare alla conversione (in TXT, PDF/A-1 e ODF) e alla trascrizione con OCR (il procedimento dall’ID all’applicativo, è uguale a quello per la conversione).

Nel luglio 2016, all’avvio del lavoro di descrizione del fondo Pecoraro ci si è resi conto che mancava la normalizzazione per alcuni tipi di file, che ne impediva quindi la visualizzazione in anteprima (in formato TXT). Il problema era stato generato dall’aggiornamento di una libreria che aveva cambiato un metadato, portando conseguentemente alcuni errori nell’identificazione; benché questo errore sia stato riconosciuto e risolto abbastanza rapidamente, è stato causa di un notevole stress, e si è voluto migliorare il controllo sulla fase di normalizzazione: non potendo, ad ogni aggiornamento, simulare la conversione di tutti i fondi, si è pensato di creare il PAD

File Format

Machine Learning

(ML) e tecniche di

Data Mining

(DM) all’interno di questa specifica procedura, in modo tale da migliorare l’approccio alla classificazione dei file. Per testare questa funzione si è scelto di utilizzare il sistema di ML MatLab con gli algoritmi e i modelli di classificazione forniti già nel sistema, oltre ai sistemi di DM Weka, Rapidminer e Knime.

156

Dopo un primo periodo in cui è necessario “allenare” l’algoritmo con un set di dati noti, il risultato che ci si attenderebbe è quello di fare in modo che in automatico la procedura di ML riesca a classificare i vari file: se il tipo di file è noto ed esiste nel fondo PFFA (combaciano tuti i metadati individuati come significativi a stabilire che sia effettivamente lo stesso tipo di file); se solo alcuni dei metadati individuati come significativi combaciano, e quindi il file si può ritenere simile, il file viene copiato nel vecchio fondo di prova di PAD e si avvia il test automatico di verifica; se invece il file non esiste nel fondo PFFA viene copiato ne fondo di prova e vengono effettuati alcuni controlli manuali.

157

Dalla figura seguente possiamo vedere schematizzata la procedura per il trattamento dei dati, nelle varie fasi, attraverso questi sistemi automatici: dall’acquisizione iniziale, passando per l’estrazione dei metadati, poi la selezione dei metadati utili per la caratterizzazione e il DM, organizzazione e il controllo dei dati nella fase di

preprocessing

volta all’integrazione dei dati in PAD e, infine, il passaggio dei dati attraverso algoritmi di trasformazione rispetto agli obiettivi (ML, DM, normalizzazione).

Rispetto ai risultati attesti, tuttavia, le performance ottenute finora non sembrano essere abbastanza soddisfacenti, ma si sta ancora lavorando per migliorarne la resa: uno dei problemi principali riguarda la significatività dei metadati, cioè il fatto che un metadato o un insieme di metadati garantiscano che quel file è proprio in quel formato; naturalmente è da escludere che un vaglio di questo tipo possa essere fatto da un operatore, poiché vengono estratti più di quattrocento diversi metadati dalle librerie di estrazione, e un utente si limiterebbe a guardarne appena qualcuno. Un importante vantaggio dell’integrazione di questi due sistemi, cioè il fondo PFFA e il sistema di ML e DM è che nel momento in cui si cambiassero o si aggiornassero librerie o

158

convertitori, basterebbe provare a convertire e controllare il fondo di test per verificarne il corretto funzionamento. È preferibile non convertire i documenti in tempo reale e solo quando vengono richiesti, ma già da subito, perché di volta in volta bisognerebbe attendere il termine del processo di conversione e il relativo trasferimento di dati e in alcuni casi, dovendo controllare molti testi quest’operazione appesantirebbe troppo il carico di lavoro; inoltre convertendo i documenti fin da subito si ha tutto il tempo di verificare la qualità della conversione ottenuta. In ogni caso è sempre opportuno ripetere le conversioni a distanza di tempo e ne abbiamo già potuto valutare alcuni benefici (come la disponibilità di strumenti adatti alla conversione che prima non c’erano): i convertitori, infatti, non sono perfetti, e la stessa conversione non sarà mai identica all’originale. PAD cerca continuamente il meglio della tecnologia disponibile, che è in continua evoluzione, e avere una conversione più accurata a distanza di qualche tempo può aiutare l’operatore, oltre al fatto che font, grafici, immagini mettono a dura prova i convertitori e avendo decine di migliaia di file è impensabile un intervento manuale per ogni conversione. Con questi sistemi la possibilità di generare procedure di classificazione e descrizione del fondo con all’interno tutti i testi da analizzare è un sistema che, una volta messone a punto il funzionamento, è completamente automatico. Tra gli sviluppi, almeno ipotetici e presi in considerazione, una volta messo a punto il sistema, si possono facilmente generare altri modelli di classificazione che consentano ulteriori elaborazioni che non riguardano la parte di caratterizzazione, ad esempio: la semplificazione della struttura del conferimento o l’individuazione versioni.

Nel documento Gli archivi degli scrittori nativi digitali: verso la conservazione e oltre (pagine 154-158)

( Digital Record Object IDentification ) e il registro tecnico di PRONOM

File Format

Archive

Machine Learning

Data Mining

preprocessing