L’approccio quantitativo: l’analisi automatica dei testi.

L’analisi automatica dei testi (AAT) ha dotato la tradizionale analisi testuale di criteri statistici, oggettivi e misurabili105, permettendole, inoltre, di avere

una rappresentazione di produzioni discorsive molto ampie in tempi brevi106_.

La procedura per l’AAT prevede la collezione dei testi oggetto di analisi in un corpus secondo criteri di omogeneità e di rappresentatività del fenomeno che si intende osservare. Quando i documenti che lo compongono non sono disponibili in formato digitale è necessario prima scansionarli e poi sottoporli all’OCR, Optical Character Recognition, che riconosce i componenti grafici e converte il file immagine in un documento testuale107_.

Una volta costruito il corpus questo viene caricato nel software di analisi automatica che attribuisce ad ogni forma grafica riscontrata un codice di riferimento e ne indica la posizione nel testo. Le forme così individuate vanno a costituire l’insieme dei tokens, ovvero le occorrenze, a cui sono associati i type, tutte le forme grafiche che si presentano nel corpus. L’insieme dei types e delle rispettive occorrenze forma il vocabolario (o lista di frequenza),

105_{Bolasco 2005.} 106_{Cfr. Bolasco 2004: 27.}

107_{Molto spesso la scansione non riconosce alcuni caratteri ed è fondamentale rivedere il testo}

46 composto solitamente da almeno tre colonne, una con la posizione (rango)

rispetto all’elenco di tutte le forme grafiche che compongono il vocabolario, una che contiene la forma grafica, l’altra con il numero di occorrenze totali108_.

La lista è ordinata secondo valore decrescente, per cui al rango più basso corrisponde la forma con numero di occorrenze più alto.

Talvolta risulta utile alle intenzioni del ricercatore distinguere la collezione di documenti in porzioni più piccole, come frammenti e parti109_{: i primi sono}

unità di analisi formate da un intero testo, da sue porzioni o proposizioni, mentre le seconde sono raccolte di frammenti secondo criteri di somiglianza. I frammenti possono a loro volta essere distinti in sezioni, unità di analisi più piccole, come capitoli, paragrafi, risposte di sondaggi su argomenti diversi.

Alcuni dei software più sviluppati permettono di operare attraverso processi di normalizzazione, tagging e lessicalizzazione che procedono a disambiguare le forme grafiche, rendendole disponibili ad analisi qualitativamente migliori: con il processo di normalizzazione si distingue tra nomi, verbi, locuzioni, etc.; con il tagging grammaticale alle forme vengono associate le categorie grammaticali; con il processo di lemmatizzazione invece si riducono le forme flesse ai lemmi di appartenenza (la prima persona presente del congiuntivo di un verbo sarà ricondotta al modo infinito, un aggettivo al maschile plurale sarà ricondotto al maschile singolare e così via). In questo modo sono eliminati eventuali dubbi nell’interpretazione di una forma a livello di frequenza: la macchina sarà in grado di distinguere forme omografe attribuendo il numero esatto delle volte in cui esse occorrono con due valori grammaticali e semantici diversi; inoltre possono svolgersi ricerche automatiche di tipo grammaticale e lessicale senza andare ogni volta a rivedere il contesto di occorrenza.

Le operazioni analitiche che l’AAT permette sono di tipo unidimensionale, con rappresentazione del testo quale bag of words110_{, e multidimensionale,}

ovvero di confronto tra testi o sue porzioni111_.

108_{Chiari 2007: 67-70.} 109_{Bolasco 2004: 32.} 110_{Harris 1954: 146-162.} 111_{Cfr. Bolasco 2004: 31-32.}

47 Nel primo caso è possibile osservare il corpus secondo lista di frequenza,

considerandolo come un unico oggetto, sia in una visione globale, paradigmatica dell’insieme lessicale e grammaticale, sia in una visione sintagmatica, attraverso l’analisi delle concordanze, che permette di richiamare una parola (keyword) e indicizzarne i contesti linguistici di occorrenza112_{, così da esaminare gli usi e le accezioni che assume nel testo.}

L’analisi multidimensionale prevede invece un confronto tra le diverse sezioni o i diversi frammenti di un corpus o anche tra corpora diversi. Si possono così mettere in evidenza caratteristiche specifiche delle diverse unità testuali, individuate ad esempio tramite l’indice di keyness, un valore numerico ottenuto dalla differenza tra le frequenze normalizzate del corpus in esame e le frequenze normalizzate del corpus preso come modello di riferimento113_{, da}

cui deriva il linguaggio peculiare, inteso come l’insieme delle parole sovra o sotto utilizzate secondo il valore di scarto. Il concetto di keyness è fortemente collegato a quello di aboutness (ciò di cui si parla nella collezione): le parole con indice di scarto normalizzato sono anche un indizio (comunque da verificare) delle tematiche principali delle produzioni collezionate114_{. Il valore}

minimo di scarto con una certa significatività è 3,84115_.

In questo lavoro è stato necessario digitalizzare il corpus, sottoporlo ad OCR e correggere gli errori dovuti alla trasformazione dal formato immagine a quello testuale. Come software OCR è stato utilizzato FreeOCR di R. Richardson, che prevede il riconoscimento di undici lingue diverse, tra cui anche l’italiano116_.

L’analisi ha adottato soprattutto un punto di vista unidimensionale, relativo all’estrazione di occorrenze e concordanze, attuando un confronto tra testi diversi solo attraverso l’indicatore di keyness per tarare lo scarto e la somiglianza d’uso linguistico tra di essi e derivarne il lessico peculiare.

112_{Il Keyword In Context (KWIC) è il modo tipico in cui vengono presentate: la parola, definita}

nodo o anima, si trova al centro e a destra e sinistra compaiono le parole che formano il suo contesto linguistico (cfr. Chiari 2007: 73).

113_{Per ottenere un confronto adeguato è preferibile che i due corpora abbiano una stessa}

grandezza in termini di tokens.

114_{Gabrielatos 2018: 225-238.} 115_{Bolasco 2013: 134.}

116_{L’OCR utilizzato è disponibile e scaricabile gratuitamente dal sito seguente:}

48 Per entrambi i tipi di analisi si è optato per l’utilizzo del software

AntConc117_{. La scelta è stata dovuta a diversi motivi: è risultato essere il}

software più rapido nell’estrazione dei dati; permette di osservare immediatamente l’intero contesto di occorrenza della forma grafica già a partire dal vocabolario, attraverso un rinvio attivabile per mezzo di un click sulla forma, mostrando di essere il più utile, veloce ed efficace al riconoscimento delle attribuzioni semantiche per comprendere le modalità di negoziazione del significato e di costruzione delle rappresentazioni mentali attraverso il riferimento a concetti specifici, obiettivi della ricerca.

AntConc è un prodotto open source, completamente gratuito, sviluppato da L. Anthony, che permette misurazioni di text analysis, produce una lista di frequenza, rende possibili l’esame delle concordanze a partire da parole chiave, di espressioni regolari, n-gramm e calcola il valore di keyness118_.

L’unico lato negativo è la mancanza di una versione per la lingua italiana, che ha comportato l’impossibilità di disambiguare automaticamente il testo applicando procedimenti di normalizzazione, tagging e lessicalizzazione; ciò ha influito anche sull’identificazione di alcuni caratteri speciali come accenti, virgolette caporali, etc. Abbiamo comunque tenuto debitamente conto di tali problematiche e abbiamo provato a superarle, attraverso una verifica continua dei dati119_.

L’analisi quantitativa è stata introdotta per avere dei criteri oggettivi nella selezione dell’informazione rilevante (di cui pure il rumore non è stato del

117_{Si aveva a disposizione anche TalTaC}2_{ma solo nella versione student che consente un’analisi}

di corpora non più estesi di 75000 tokens, inferiore rispetto alla quantità di tokens di cui è costituito il corpus. Per questo motivo non sono stati riportati nel lavoro risultati come quello della percentuale d’uso di aggettivi, sostantivi e verbi, dal momento che tali operazioni sarebbero state possibili solo tramite TaLTaC2_{, limitato nel numero dei tokens e quindi}

sfruttabile per l’analisi sul linguaggio qualunquista solo attraverso un continuo intervento nel sommare ogni volta i risultati di porzioni di corpus di 75000 tokens. Si devono aggiungere poi gli errori di riconoscimento: nonostante la normalizzazione e il trattamento tramite Treetagger, molte forme verbali e aggettivali sono risultate essere errate alla verifica dell’analista (per esempio nuovo risulta tra gli aggettivi ma compare in Giannini quasi sempre nella locuzione di nuovo, divenendo così un avverbio). La consapevolezza dell’inesperienza sulle potenzialità di tali strumenti analitici, il margine di errore del riconoscimento automatico sulle categorie grammaticali e il fine stesso della ricerca hanno spinto ad abbandonare tale genere di dati (per un approfondimento sul software TalTaC2_{si rinvia a Giuliano 2008 e}

Bolasco 2013). AntConc è disponibile online all’indirizzo http://www.antlab.sci.waseda.ac.jp/antconc_index.html.

118_{I valori che si noteranno nel lavoro sono dovuti proprio alla formula adottata dal software.} 119_{Per dare una misura concreta delle occorrenze lessicali abbiamo perciò indicato per ogni}

49 tutto scartato ma valutato attentamente) e per validare le osservazioni

qualitative derivate dalla lettura tradizionale del testo. A sua volta, i dati estratti dall’interrogazione informatica sono stati comunque verificati sulla base della coerenza con il sistema concettuale esaminato tramite l’approccio qualitativo, cercando di mantenere il più possibile una visione di insieme che considerasse anche molti altri aspetti linguistici non direttamente osservabili dall’interrogazione del testo tramite software (per esempio tutta la parte del contenuto implicito).

Infatti, come già accennato, il linguaggio politico è per natura controverso e l’informazione quantitativa dei suoi dati porta a risultati accettabili solo se si mantiene una costante attenzione alle dinamiche sociali nelle quali è fortemente calato. L’adozione di uno solo dei due approcci potrebbe risultare limitativa. Si è optato perciò per una loro collaborazione.

Nel documento Il linguaggio politico di Guglielmo Giannini: insiemi lessicali e processi cognitivi del messaggio qualunquista (pagine 45-49)