2.2 La planimetria in Autocad e le sue problematiche.
2.3. La ripulitura dei dati grezzi: procedimento, problematiche e soluzion
Il secondo passo necessario alle analisi GIS è stato individuato nella ripulitura dei dati grezzi contenuti nei database. Per ripulitura si intende il processo di correzione di errori di data entry (normalizzazione) e di selezione delle informazioni . Gli errori di data entry comprendono 7 tutte le mancanze grammaticali effettuate in fase di creazione del database e i caratteri speciali inseriti con errate formattazioni. La selezione delle informazioni rappresenta una fase molto delicata da compiersi dopo un’attenta disamina dei dati, nel nostro caso è stata effettuata in base all’utilità del dato alle analisi spaziali che si è deciso di compiere in seguito in ambiente GIS (vedi cap.3). Tale scelta, per quanto riguarda la tabella delle schede US (Scheda US/USM) contenuta nel database (MVMdefinitivo.mdb), ha portato a una perdita di dati in
favore, però, di una migliore operabilità. Infatti, come si vedrà in seguito, è stato preferito lasciare i campi di sintesi delle varie unità stratigrafiche affinché il contesto in cui esse erano inseriti fosse più evidente (tab. Scheda_US_Ripulita.csv). Anche per quanto concerne la tabella delle quantificazioni dei materiali (Quantificazioni), contenuta in MVMreperti.mdb, è stata effettuata una selezione dei dati. Si è voluto prediligere le classi ceramiche al posto delle forme o delle forme dei frammenti.
Nella banca dati riguardante le quantificazioni si è deciso di mantenere solamente i campi riguardanti le classi, i frammenti ritrovati nelle varie unità stratigrafiche per ciascuna di esse e ovviamente i numeri di US. Sono stati quindi eliminati i campi che riguardavano la produzione, le forme, i frammenti diagnostici, le datazioni e il numero inventariale di cassetta (tab. Quantificazione_Classe.csv). Tale eliminazione è giustificata dalla nostra scelta di utilizzare solamente le classi ceramiche per le analisi spaziali condotte in ambiente GIS.
Campi database MVMdefinito.mdb Scheda_US_Ripulita.csv US Unità Tipo Località Sigla Anno Area Saggio Settore Ambiente Quota min Quota max Piante Sezioni Prospetti Foto Reperti
RA N Descrizione e posizione Sottotipo Criteri di distinzione Modo di formazione Inorganici Organici Consistenza Colore Misure Stato di conservazione Descrizione Uguale a Si lega a Gli si appoggia Si appoggia a Coperta da Copre Tagliato da Taglia Riempito da Riempie Trasformato in Trasforma Posteriore Anteriore
Coeva Note
Interpretazione
Interpretazione sintetica Elementi datanti osservati in fase di scavo Attività Fase Periodo Campionatura Flottazione Setacciatura Affidabilità stratigrafica Direttore Responsabile
Nella banca dati delle schede US, ad esempio, alcuni campi come la descrizione dello strato, il nome del responsabile della scheda e del revisore, la consistenza dello strato, ecc. sono stati eliminati in quanto non conformi in termini di utilità. Come si può notare dalla tabella precedente, i campi lasciati nel dataset ripulito (Scheda_US_Ripulita.csv) corrispondono alle informazione essenziali per l’inquadramento sia topografico, sia stratigrafico dello strato. Sono stati quindi scelti quei record che sintetizzano l’interpretazione e la descrizione dell’unità stratigrafica. Questo processo di ripulitura è stato possibile grazie all'utilizzo di OpenRefine (in origine chiamato GoogleRefine), una standalone open source desktop8
application che funziona tramite un qualsiasi browser, il quale permette, tramite l'utilizzo di script in linguaggio GREL (General Refine Expression Language), di effettuare operazioni (come ad es. l’eliminazione e la modifica) su una grande mole di dati complessi e confusi (messy) consentendo inoltre l'esportazione in diversi formati , tra cui .csv ( comma-separated value ). In questo formato, ogni riga della tabella è rappresentata da una linea di testo, i cui9 campi (colonne) sono separati da un apposito carattere separatore (in genere una virgola). E’
8 https://o-date.github.io/draft/book/cleaning-data.html(Par. 2.3.1; visualizzato il 09/06/2019) 9https://en.wikipedia.org/wiki/Comma-separated_values (visualizzato il 10/06/2019)
leggibile da qualsiasi programma tra cui QGIS. Tale software infatti non permette il diretto collegamento con il formato di MS Access® , mentre permette il join delle tabelle in fomato .csv (vedi 2.4).
Fig. 23 Il database delle schede US non ripulito (MVMdefinitivo.mdb).
Prima dell'importazione in OpenRefine è stato necessario esportare la tabella Microsoft Access in formato Microsoft Excel (.xls). Per compiere questa operazione è stato eseguito il seguente procedimento all’interno del software di database: comando “dati esterni” → “esporta dati in formato Excel”. Successivamente è stato possibile caricare su OpenRefine la banca dati da ripulire (fig. 23). Il primo passo è consistito nell'eliminazione delle colonne non utili alle analisi. Questo è stato possibile semplicemente rimuovendo manualmente ciò che era indesiderato grazie al menù a tendina sopra ogni colonna seguendo tale procedimento: “ edit column” → “remove column”. In seguito è stato necessario sostituire i caratteri con formattazioni speciali con lettere e risolvere gli errori grammaticali del data entry. Lo scopo di tale procedura consiste nell’ottenere un risultato standardizzato in ogni campo al fine di rendere i valori ricercabili. Ciò è stato reso possibile grazie all'utilizzo di una particolare stringa di codice.
L'immissione di tale codice:
è stata effettuata tramite tale procedura: “edit cell” → “transform” contenuta nel menù a tendina sopra la colonna da modificare. w è il carattere o il termine da sostituire e x è il termine o il carattere con cui viene sostituito . 10
Il problema riscontrato a questo punto è stato individuato nella mancanza, in alcune unità stratigrafiche e in alcune murature, dei periodi e delle fasi corrispondenti. È stato perciò necessario effettuare un controllo incrociato con i matrix di attività di tutti i settori inserendo manualmente le informazioni nelle celle del dataset. Dopo questa serie di operazioni è stato possibile avere un file (Scheda_US_ripulita.csv) consono alle analisi da effettuarsi in ambiente GIS (fig. 24).
Fig. 24 La tabella delle schede US ripulito (Scheda_US_Ripulita.csv).
Per quanto riguarda la banca dati delle quantificazioni dei materiali il lavoro di ripulitura svolto è risultato più complesso.
Campi database MVMreperti.mdb Quantificazione_classe_def. csv Settore Sigla Cod_US N°US 10 https://github.com/OpenRefine/OpenRefine/wiki/GREL-String-Functions (visualizzato il 18/06/2019)
Classe Produzione Forma Decoro orli fondi anse colli pareti becchi vasche dischi prese tot frr datazione iniziale datazione finale foto cassetta note
I dati utili al lavoro di analisi si sono limitati al numero di US con codice annesso (da utilizzarsi come chiave primaria), la classe, la produzione, la forma, il numero totale dei frammenti e le datazioni.
La scelta del dato quantitativo da utilizzare è stata complessa. Avendo deciso di lavorare a livello di classe ceramica, sia per gli scopi del nostro lavoro, sia per la scarsità delle informazioni relative alle singole forme e allo sbilanciamento delle informazioni tra classe e classe, si è dovuto stabilire quale dato quantitativo meglio descrivesse le classi ceramiche. Orton e Hughes (2013: 207) analizzano le quattro misure utilizzate per la comparazione dei frammenti all’interno di una unità stratigrafica. Esse sono: il conteggio dei frammenti, il peso, il numero di individui e la estimated vessel equivalents (stima del numero equivalente di individui). La prima di queste, basata sulla frammentazione di un tipo ceramico, riflette la
proporzione di un determinato tipo o classe rispetto agli altri tipi presenti in una US. Questa misura però è soggetta a errori dovuti all’indice di frammentazione il quale varia non solo da classe a classe e da tipo a tipo, ma anche tra strato e strato poiché è legato ai processi di formazione. Infatti, più alto è il numero di frammenti di una classe che rispecchiano solamente un individuo e più saranno rappresentativi rispetto a un minor numero di frammenti che però costituiscono un maggior numero di entità. Anche il peso è una unità di misura delle comparazioni parziale in quanto classi con pesi più alti saranno sovrarappresentate rispetto a quelle con pesi più bassi. Ma a differenza degli esempi precedenti, il peso relativo alle singole classi rimane lo stesso e non varia a seconda degli strati.
Il conteggio dei numero degli individui rappresenta la stima del numero di entità presenti in un’US (EVREP: Estimated Vessels REPresented; Orton, Hughes 2013: 172). La complessità di questa operazione consiste nel riconoscimento di ogni singolo frammento con uno specifico contenitore. Se grazie a orli o fondi l’individuazione è più semplice, con le pareti è decisamente più complicato il che altera la stima. Per ovviare al problema sono stati proposti tre approcci:
● il conteggio minimo degli individui basato sulla presunta appartenenza di un frammento a un individuo a meno che non si provi che appartenga a un altro.
● il conteggio massimo degli individui in cui ogni frammento conta come un individuo tranne se può essere collegato ad un altro.
● la media tra il conteggio massimo e minimo. (Kampel, Sarkisjan 2018: 1398)
Questo metodo è però legato alla soggettività di chi compie tale procedura. Infatti, il riconoscimento di un frammento facente parte di un individuo, è legato alle conoscenze e alle esperienze della persona che se ne occupa.
Per quanto riguarda l’estimated vessel equivalent (EVE) è considerata la più imparziale delle misure (Orton, hughes 2013: 207) in quanto ogni frammento vale come elemento a sé stante. Questa stima suppone che ogni ritrovamento ceramico rappresenti una porzione dell’intero individuo. È possibile dare a questa porzione un valore percentuale che permetta di trovare il numero totale degli individui di una classe. Questo metodo è applicabile solamente con i frammenti diagnostici (orli, fondi) in quanto possono essere misurati in termini di proporzione alla singola entità. Tali frammenti consentono di stimare la circonferenza di un individuo dando un indice di completezza in un range percentuale compreso tra 0 e 100. Tramite un procedimento matematico (Orton, Tyers 1990: 90), è possibile trasformare EVE in un numero (denominato PIE, pottery information equivalent) il quale possiede le stesse proprietà statistiche del conteggio di un oggetto. Questo numero quindi contiene tante informazioni
quante un singolo individuo. I valori PIE permettono una stima imparziale della quantità relativa di ogni classe ceramica in un contesto.
La decisione di operare, in questo progetto, con il numero totale dei frammenti pone le sue basi sulla considerazione che questo numero sia una misura comparabile in quanto dipendente dalle densità delle classi ceramiche nelle singole fasi. Questa permette di presumere un indice di frammentazione simile poiché compariamo tra loro le stesse classi. Lavorando inoltre per fase, possiamo supporre che tali indici siano simili in quanto i processi formativi degli strati siano relativamente omogenei. Infine confrontiamo tra loro, a livello spaziale, le stime delle densità della stessa classe in US diverse attenuando così il rischio di indici di frammentazione diversi.
Un ulteriore operazione di ripulitura è consistita nel congiungere le colonne delle forme e della produzione per ovviare ad un errore di data entryprovocato dall’inserimento di valori collegati alle forme nelle colonna colonna “produzione”. Prima di eseguire il merge(unione) delle colonne è stato necessario rinominare con il codice replace, visto in precedenza, ogni cella vuota con il valore 0. Senza questa operazione preliminare il programma avrebbe consentito l'unione solo alle righe in cui comparivano dei valori in entrambe le celle. Come per il caso precedente è stata utilizzata una stringa di codice in linguaggio GREL:
cells["Column 1"].value + cells["Column 2"].value
inserita però tramite il seguente passaggio: “ edit column” → “add column based on this column” presente sempre nel menù a tendina in cui “column 1” e “column 2” indicano le due 11 colonne da unire. Successivamente sono state unite anche le colonne che comprendevano la classe e la forma al fine di ottenere una sola colonna con le due informazioni rendendo così i valori del dataset più ricercabili (fig.25). Tra i valori di quest'ultima unione è stato lasciato un simbolo divisorio al fine di permettere la separazione delle colonne ( split) utile per le operazioni di ripulitura successive.
Fig. 25 Il database delle quantificazioni dei materiali ripulito (Quantificazione_classe_ripulita.csv).
Affinché nel software GIS, ogni unità stratigrafica sia collegata al numero di frammenti delle varie classi ceramiche presenti al suo interno, è necessario che il database delle quantificazioni dei materiali sia suddiviso per unità stratigrafica. La tabella da noi ripulita, però, non possedeva una tale formattazione, risultando inutile per le nostre analisi, poiché ogni US era ripetuta tante volte quante erano le classi e le forme ceramiche presenti al suo interno. Ciò comportava quindi l'impossibilità di collegare su QGIS i frammenti ceramici ad una singola unità stratigrafica. La soluzione a tale problematica è stata individuata attraverso l'utilizzo di Microsoft Excel. Il programma permette, tramite lo strumento “tabella pivot”, di trasformare le righe della tabella in colonne e viceversa. Grazie a ciò è stato possibile creare una tabella (Quantificazione_classe_pivot.csv) in cui in ogni riga è contenuta una sola US, in
ogni colonna una sola classe ceramica e nelle celle il numero di frammenti di ogni classe ritrovati in ogni singola unità stratigrafica (fig.26).
L’ultimo step è consistito nel collegare i valori del campo “layer”, che rappresentano i nomi dei layer del file .dwg, al campo US delle schede (tab. Scheda_US_Ripulita.csv) con lo scopo di creare una chiave primaria che consenta il join tabellare in ambiente GIS. E’ stato quindi scaricato l'elenco dei layer dal file CAD_def.dwg in formato di testo (.txt). Il file di testo è stato successivamente caricato su Openrefine, creando così un nuovo file denominato “Layer_rip.csv”, eliminando le righe superflue come le quote, le caratterizzazioni e tutto ciò che non è stato considerato un limite di US. Il risultato dell'operazione ha portato alla creazione di una colonna (denominata “layer”) caratterizzata dal numero di unità stratigrafica con l’aggiunta della sigla “_lm” (es. 10020_lm). Per permettere l'aggancio del database a questa colonna si è optato per creare un ulteriore colonna in cui fossero presenti esclusivamente i numeri delle US equivalenti ai valori presenti nella colonna “layer” del file “Layer_rip.csv”. Il procedimento utilizzato è già stato illustrato precedentemente tramite il processo di “ add column based on this column” + “replace”. Come ultimo passaggio è stato fondamentale collegare le due colonne con la colonna “Cod_US” presente nel file “Scheda_US_Ripulita.csv”. Openrefine permette di importare da un altro progetto, aperto nel browser con lo stesso software, una o più colonne. Il procedimento comporta, come nei precedenti casi, l'utilizzo di un codice di programmazione GREL. Il metodo è il seguente: dal menù a tendina sopra la colonna alla quale si vogliono collegare i dati del secondo progetto cliccare su edit column → add column based on this column. Il codice da immettere è il seguente:
cell.cross("Project 1","Column 1").cells["Column 2"].value[0]
dove conProject 1 si intende il dataset da cui si estrae (Layer_rip.csv), column 1 è la colonna
uguale nei due dataset (US) ed infine Column 2 (Cod_US) indica il nome della colonna che si
vuole aggiungere.
Ultimate tutte queste operazioni, i nuovi datasets ottenuti sono completamente utilizzabili e
operabili nel programma QGIS. Per effettuare queste operazioni è stato necessario un mese di
Nome Estensione Creatore Licenza
Scheda_US_Ripulita .csv Filippo Sala CC BY
Descrizione
-Tabella
-Righe: numeri US
-Colonne: US, Unità, Tipo, Anno, Settore, Descrizione e posizione, Sottotipo, Criteri di distinzione, Modo di formazione, Inorganici, Organici, Consistenza, Anteriore, Posteriore, Coeva, Interpretazione sintetica, Attività, Fase, Periodo
Nome Estensione Creatore Licenza
Quantificazione_clas se_pivot .csv Filippo Sala CC BY Descrizione -Tabella -Righe: numero US
-Colonne: Cod_US, Acroma grezza, Africana da cucina, Anfora, Balsamari, Bande brune, Bronzo, Bucchero, Comune da fuoco, Comune da mensa africana, Comune da
mensa-dispensa,Ferro, Ferro, Scoria, Fritilli, Grandi contenitori, Grigia, Impasto a scisti, Impasto grezzo, Laterizi tubuli, Lucerne, Mortai, Non determinabile, Pareti sottili grigia, Pareti sottili rosata, Piombo, Reperti faunistici, Reperti litici, Rivestimento nero,
Semidepurata, T.S.A. A, T.S.A. A2, T.S.I., T.S.Sud-Gallica,T.S.T.I., Vacuolare, Vaso miniaturistico, Vernice nera.
2.4. Procedure di preparazione del software Qgis 3.4 alle analisi
spaziali.
In ambito archeologico il GIS è considerato “un sistema di informazione georeferenziato
dedicato in prima istanza all’archiviazione ragionata e, successivamente, all’elaborazione
spaziale e multifattoriale dei dati” (Forte 2002: 24). La decisione di utilizzare un software GIS
è individuata nella volontà di rendere l’informazione archeologica un oggetto di ricerca e un
elemento base per ogni genere di analisi (Valenti, Nardini 2004: 347). L’impiego di tali
software nell’archeologia italiana è un’acquisizione abbastanza recente. Le prime esperienze
di utilizzo risalgono ai primi anni Novanta grazie all’Università di Siena (Francovich 1990:
15-26). Negli anni si è sviluppato sempre di più l’utilizzo di questi sistemi informativi
utilizzare il software QGIS. QGIS è un’applicazione desktop open source realizzata da un
gruppo di programmatori volontari . La scelta è stata effettuata sulla base della possibilità di 12
utilizzarlo in maniera gratuita e dal fatto che rispecchia l’interfaccia e le potenzialità di altri
Fig. 27 La planimetria poligonale e la Carta Tecnica Regionale.
software GIS proprietari come ad esempio ArcGis® . Il primo passo compiuto è stato la13
creazione del progetto QGIS con l’impostazione del sistema di riferimento e la successiva
l’importazione della Carta Tecnica Regionale (vedi cap. 2.2). A questo punto è necessario
inserire l'URL del sito della regione e selezionare i dati utili alla ricerca. La planimetria
(CAD_def.dwg) è stata caricata successivamente nel formato .dxf impostando lo stesso
sistema di riferimento di coordinate della CTR. Successivamente la planimetria, creata con
grafi lineari, è stata trasformata in una mappa con grafi poligonali tramite lo strumento di
geometria line to polygon presente di default nel software GIS (vedi 2.2; fig.27). L'intera
planimetria ottenuta è stata salvata con l'estensione denominata shapefile (MVM.shp),
formato vettoriale esclusivo dei programmi di informazione geografica. Come descritto in
precedenza (vedi 2.2), sono state rilevate una serie di US denominate con lo stesso numero le
quali rendevano impossibile il collegamento del dataset delle quantificazioni e delle schede
US. È stato necessario selezionare le varie ripetizioni manualmente e fonderle insieme
(attraverso lo strumento “fondi elementi selezionati” presente nell’interfaccia del programma)
creando così un solo elemento univoco. Il risultato ottenuto vede ogni layer della planimetria
associato a una sola US corrispondente alla propria scheda.
12https://qgis.org/it/site/ (visualizzato il 01/06/2019)
La pianta così ottenuta non conteneva nessun tipo di informazione circa le schede US o le
quantificazioni dei materiali. Negli attributi dello shapefile sono indicati solamente i nome dei
layer (US) del formato .dwg. È stato necessario, quindi, collegare i vari datasets ripuliti in
precedenza. La prima tabella impiegata per l'operazione di unione (o join) è stato individuato
nelle schede US (Scheda_US_Ripulita.csv). Il fattore fondamentale per l'azione di join
consiste nell'avere, sia negli attributi della pianta, sia nel dataset, una colonna contenente
valori univoci, in questo caso le US (“Cod_US”, precedentemente creato). Lo svolgimento per
tale operazione è il seguente: tasto destro sul layer della planimetria → proprietà → join.
Utilizzando lo stesso procedimento è stato unito attraverso campi univoci ( “US” e “Cod_US)
anche il dataset delle quantificazioni delle classi dei materiali. Il risultato così ottenuto è
rappresentato da una planimetria poligonale georeferita su una Carta Tecnica Regionale in cui
è possibile selezionare una determinata unità stratigrafica collegata alla tabella contente i dati
dell’US e dei materiali ritrovati in essa.(fig.28).
Fig.28 La planimetria con il dataset delle schede US associato.
Le procedure svolte fino ad ora hanno portato alla creazione di un GIS di scavo. Tale
strumento, partendo da una planimetria georeferita associata a database, permette la
consultazione integrata di tutti i dati raccolti durante le fasi di lavoro in situ (Francovich,
Valenti 2001: 14) e apre la possibilità di compiere analisi spaziali sui dati stessi. Tali procedure hanno richiesto circa un mese per essere effettuate.
Nome Estensione Creatore Licenza
MVM .shp Filippo Sala CC BY
Descrizione
-Planimetria poligonale con agganciati i dati delle tabelle Scheda_US_Ripulita.csv e Quantificazione_Classe_Pivot.csv