Pulizia dei dati e Analisi Automatica dei Testi (AAT)

2.3 Metodologia e strumenti

2.3.5 Pulizia dei dati e Analisi Automatica dei Testi (AAT)

L'analisi lessicale e testuale degli scambi comunicativi è stata condotta tramite strumenti di text mining per l’Analisi Automatica dei Testi (AAT)50_._{Come afferma De Mauro (2013): “Il text mining viene incontro} al bisogno di acquisire conoscenze ben fondate a partire dai testi ed è il nucleo duro della nuova "ingegneria della conoscenza” (...) applicando a un insieme di testi le tecniche linguistiche per renderli adatti ad analisi automatiche e le tecniche di reperimento automatico di informazioni ricorrenti, è possibile scavare nei testi ed estrarre informazioni di secondo ordine su modalità di organizzazione linguistica dei testi e sui loro contenuti.”

L’analisi ha consentito di effettuare una ricerca quali-quantitativa sul

49_{Qui inteso come contenuto testuale.}

50_{Si definisce text mining "l'attività di esplorazione e scavo in un giacimento di} materiali testuali (corpus) per il recupero e l'estrazione di informazioni; per text mining si intende inoltre l'insieme di procedure complesse per estrarre conoscenza, finalizzata a creare valore, da vastissime basi documentali di aziende o istituzioni". L’analisi automatica dei testi è il risultato dell'evoluzione dei rapporti tra la statistica e i testi, sviluppata in un percorso che attraversa diversi modelli di indagine: la statistica linguistica, la statistica lessicale, la statistica testuale e infine l’analisi lessico-testuale e il text mining.

materiale testuale, attraverso la estrazione, comparazione e mappatura dei suoi contenuti.

Ai fini di questa ricerca è stato utilizzato il software TaLTaC (mentre il precedente lavoro sui forum learning community del Tirocinio Formativo Attivo è stato condotto con TLAB)51_.

51_{Nel 2004, nell'ambito del progetto di ricerca europeo NEMIS (Network of} Excellence in Text Mining and its applications in Statistics) sono stati censiti a livello internazionale oltre 150 software di analisi automatica dei testi. È possibile differenziare gli strumenti a seconda delle logiche di studio sottese al loro utilizzo, in: piattaforme linguistiche per il trattamento del linguaggio naturale; software per l'AAT di tipo statistico in ambito metrico; software per l'analisi qualitativa. Al primo tipo di programmi fanno riferimento i software volti all'information retrieval (ricerca sui testi), alla categorizzazione sintattica, lessico-grammaticale e morfologica, alla lemmatizzazione, all'analisi delle concordanze e all'analisi dei dizionari elettronici. Tra questi si può citare NOOJ, completo di un modulo di dizionari in italiano elaborati da Simona Vietri (Università di Salerno) e la piattaforma EULOGOS, di Nicola Mastidoro, che consente di utilizzare strumenti di lemmatizzazione e annotazione per estrarre informazioni strutturate e farne elemento di correlazione. Tra i software di AAT di tipo statistico in ambito metrico, possiamo citare: LEXICO (Salem, 1990) dispone delle funzioni di ricerca e analisi statistica lessicometrica, analizza le forme grafiche semplici, individua i segmenti ripetuti e lancia ricerche di co-occorrenze, specificità, analisi fattoriale); SPAD (Lebart et al., 1989) lavora su forme grafiche, consente tra le altre funzioni, di associare al testo dati strutturati attraverso una matrice di dati esterna); Alceste (Reinert, 1986) particolarmente indicato per l'analisi di contenuto, prevede una riduzione lessematica dei termini che facilita la costruzione di campi semantici); T-LAB (Lancia, 2001) applica pre- trattamenti quali la segmentazione del testo, la lemmatizzazione automatica e la selezione automatica delle parole chiave, inoltre consente di effettuare analisi delle co-occorrenze, analisi tematiche   e analisi comparative; TaLTaC (Bolasco, 2010) propone un'analisi di documenti e dati testuali, avvalendosi di strumenti e risorse di tipo statistico e linguistico, in particolare consente di selezionare segmenti, creare multiword, lavorare con lessie, estrarre entità di interesse e keywords, mettere in atto soluzioni di text mining). All'ultima categoria di software, ovvero ai programmi per l'analisi qualitativa, fanno riferimento ATLAS.TI – software per l'analisi di dati qualitativi che può trattare in modalità semiautomatica dati testuali, immagini, audio e video – e NVIVO – che consente di codificare e organizzare le informazioni, in modo da poterne esplorare il contenuto o costruire e testare teorie sui dati testuali (Giuliano & La Rocca, 2008). È possibile inoltre reperire sul web alcuni strumenti di analisi statistica e visualizzazione dei dati testuali e linguistici completamente gratuiti e facilmente utilizzabili. Alcuni strumenti sono suggeriti dal laboratorio online della IBM Many Eyes, che mette a disposizione degli autenti alcuni strumenti

L’analisi è stata preceduta da un importante lavoro di pulizia dei dati necessario all’importazione all’interno del software per lo studio dei contenuti testuali e lessicali, lavoro articolato nelle seguenti fasi:

• pulizia del testo dovuta al passaggio della codifica digitale UTF 8 in codifica ANSI, consistente nella riconversione di tutte le vocali accentate e nell’esclusione delle citazioni di link e delle parole in essi contenute

• organizzazione del testo in forma tabellare per l’importazione del file strutturato in campi con selezione dei soli campi: id frammento, id autore, sesso autore, thread o comment, type.

Prima di procedere con la descrizione del metodo seguito per l’analisi, è opportuno introdurre alcuni termini (si tratta di accezioni tecnico specialistiche, relative all'AAT):

• corpus: collezione di unità di contesto (documenti/frammenti) con associate informazioni codificate52

di analisi e visualizzazione di dati testuali e numerici. Gli utenti possono utilizzare, elaborare e visualizzare testi e file già caricati sul database del sito o caricare il proprio corpus. Tra gli strumenti di Many Eyes, possiamo citare World Cloud Generator (rappresenta graficamente la frequenza delle parole del testo, attraverso una "nuvola" di parole mettendo in evidenza le più frequenti con un carattere più grande) e Word Tree (permette un'analisi più approfondita delle concordanze, rappresentando il concetto di concordanza come "albero di parole" in cui la parola pivot costituisce il tronco e le concordanze le diramazioni). Da citare infine un prodotto di Google: Ngram Viewer (sviluppato da Orwant e Brockman nel 2008) che consente di confrontare la variazione nell'uso di singole parole nel tempo, verificando la loro presenza in un corpus di 500 bilioni di parole (in inglese, cinese, francese, russo, tedesco e spagnolo) distribuite in più di 5 milioni di libri pubblicati tra il 1500 e il 2008.

52_{Un corpus può essere rappresentato da un unico documento o da svariate} centinaia o migliaia di documenti brevi (abstract, articoli, risposte, messaggi, sms), raggruppati in alcuni testi secondo le informazioni codificate. È possibile distinguere due tipi di corpora a seconda degli obiettivi di analisi: corpus per studi specifici oppure corpus come lessici finalizzati a studi di linguistica dei corpora. Al

• discorso: indica lo sviluppo del testo

• parlante: indica l'autore del testo (sia esso testo scritto, parlato)

• parola: unità lessicale per l'analisi del contenuto

• testo (o sub-testo): parte del corpus ottenuta per raggruppamento di unità di contesto secondo le modalità di una variabile codificata

• sezione: parte del frammento (o documento)

• occorrenza: ogni apparizione (token) di una parola (type) nel corpus

• concordanza: collezione di "contesti locali" di una stessa parola "pivot"

• vocabolario: insieme di occorrenze del discorso attualizzato • lessico: insieme teorico delle radici lessematiche del discorso

potenziale

• dizionario: inventario di una lingua, insieme di lessici

Definito il corpus, la prima operazione condotta tramite il software è consistita nell'individuazione delle unità di analisi del testo. Questa è definita parsing e consiste nella indicizzazione (o tokenizzazione) del corpus.

primo tipo di corpus, si possono ricondurre: un campione ISTAT di 50.000 diari per misurare l'uso del tempo nella giornata (ISTAT, 2012); una survey Censis (con un campione di 1.230 individui) con domande aperte per conoscere l'opinione degli italiani su otto diversi mezzi di comunicazione (CENSIS, 2004). Al secondo tipo di corpora fanno riferimento le collezioni di unità di contesto finalizzate a disporre di frequenze attese di riferimento di un certo dominio: si può citare ad esempio il corpus del linguaggio standard contenente quattro milioni di occorrenze o quello del linguaggio comune contenente dieci annate del quotidiano "La Repubblica", per un totale di 250 milioni di occorrenze (Bolasco, 2013). È possibile "scavare" in questi corpus e cercare caratteristiche lessicali, come ad esempio caratteristiche relative al ciclo di vita delle parole (neologismi, obsoleti) o verbi idiomatici.

Si tratta di un processo che associa ad ogni parola diversa (type) un codice numerico e a ogni sua occorrenza (token) un altro codice o indirizzo che ne fissa la sua posizione nel testo. Si riporta di seguito un esempio:

Nell'esempio, il type <stress> è la parola tradotta nel codice numerico 1 che appare in due tokens allocati agli indirizzi delle occorrenze numero 1 e 4. Il separatore (il punto) è anch'esso una occorrenza con il suo ID_token, ma il suo ID_type è annullato poiché generalmente è considerato equivalente a uno spazio.

Uno strumento fondamentale utilizzato per il pre-trattamento del testo è il normalizzatore, tramite cui sono state uniformate le varianti grafiche non significative (maiuscole, minuscole, accenti) e riconosciuti nomi, locuzioni o polirematiche.

Dopo il pre-trattamento si è proceduto con l'analisi lessicale indagando nel vocabolario (ovvero nella tabella con la lista dei type e le loro relative occorrenze) con diversi strumenti: un motore di ricerche, ovvero uno strumento di text mining che consente di elaborare query di ricerca per trovare nel testo un singolo elemento (o più d'uno se utilizzato a livello di analisi testuale); un tagger (annotatore) che consente di etichettare le forme (attingendo a opportuni dizionari) sia a livello grammaticale per l'attribuzione della categoria grammaticale, del lemma e delle caratteristiche morfologiche di ciascuna forma grafica, sia a livello semantico (a partire da liste intese come dizionari tematici); uno strumento per l'individuazione di sequenze di parole (segmenti ripetuti) che ha evidenziato anche segmenti di senso compiuto (poliformi) in

testo stress . lo stress causa mal di testa

ID_type 1 2 1 3 4 5 6

vista di una loro lessicalizzazione (ovvero di una trasformazione dei segmenti in atomi di significato assimilabili ad una sola occorrenza).

Per l'analisi testuale, dunque per lo sviluppo di operazioni volte a conoscere informazioni localizzate nel testo sono stati utilizzati: un navigatore o browser del testo che ha consentito di visualizzare il corpus nella sua interezza o nelle sue sub-parti (sezioni) utilizzando filtri derivanti da variabili codificate o query testuali; un visualizzatore di concordanze ossia dei co-testi destro e sinistro di tutte le occorrenze di un'unità lessicale utile a discernere il significato di un termine o per procedere con la sua disambiguazione.

Parte terza

Capitolo terzo

3.1 Analisi del tasso di partecipazione degli iscritti alla comunità

Nel documento Formazione e sviluppo professionale online degli insegnanti. Studio di un gruppo di insegnanti su Facebook (pagine 100-108)