3. Corpus linguistics
3.2 Strumenti per l‘analisi dei testi
Le tecniche che abbiamo impiegato per la nostra analisi sono essenzialmente quattro: le liste di frequenza; le concordance line; le collocazioni; le liste di parole chiave.
Le liste di frequenza non sono altro che il calcolo delle occorrenze di ogni singola parola presente nel nostro corpus, ordinate, appunto, per frequenza o in ordine alfabetico o in virtù del loro rilievo statistico e dell‘incidenza sull‘intero insieme di lemmi nei nostri testi. In prima battuta è necessario ricordare che le voci più frequenti sono, in linea di massima, tutte parole grammaticali; considerata la natura del nostro studio, abbiamo optato per rimuoverle interamente dai risultati esposti nell‘analisi. Prendendo in esame solo le parole piene, i semplici dati delle frequenze possono rivelarsi subito preziosi per individuare quali referenti caratterizzino il nostro corpus e aiutarci a orientare la ricerca. Quando, come nel nostro caso, ci si trova a confrontarsi con una produzione (relativamente) estesa temporalmente, è importante tenere a mente che una data espressione può apparire e concentrarsi con più insistenza in un periodo o a intervalli regolari o in concomitanza di fatti e circostanze simili a distanza di anni. I software di analisi dei corpus ci vengono in soccorso rendendo possibile l‘osservazione della distribuzione di ogni singola parola all‘interno dei nostri testi; i cosiddetti
dispersion plot (fig. 1.1), infatti, mostrano graficamente la posizione di ogni occorrenza in
ogni singolo testo permettendoci così di indagare più precisamente il contesto di un determinato fenomeno o stabilirne l‘esatta salienza nel corso degli anni.
Razzismo quotidiano
41
Figura 1.1 Esempio di dispersion plot
Sempre in merito alle liste di frequenza, un ulteriore elemento utile per comprendere il contesto in cui viene utilizzato ogni vocabolo è l‘analisi dei cluster linguistici; ovverosia una lista di occorrenze non di una singola entrata ma di combinazioni di più parole ricorrenti insieme. Ciò consente chiaramente di andare oltre il dato crudo del semplice vocabolo e verificare, ad esempio, associazioni di parole più complesse che possono rivelare con maggiore precisione gli attori sociali presenti negli articoli, i luoghi, gli elementi descrittivi ecc.
Ma per comprendere a pieno gli usi reali di ogni unità lessicale è necessario indagare le sue concordance line. Una concordance non è altro che una lista di tutte le occorrenze di una specifica parola, ricercata attraverso l‘intero corpus e presentata nel suo contesto immediato, corrispondente a un dato numero di parole alla sua destra e alla sua sinistra. Lo scopo è quello di trovare all‘interno delle linee, ordinandole e scorrendole, quanto più possibile una per una, dei motivi ricorrenti, comuni e, pertanto, possibilmente indicativi di una tendenza, di un tema, di una strategia discorsiva. Nella nostra analisi vedremo, ad esempio, il ruolo fondamentale della quantificazione nella descrizione degli sbarchi di migranti sulle coste italiane; ciò è stato possibile scorrendo graficamente le occorrenze della parola sbarchi e osservandola ripetutamente affiancata a cifre e altri quantificatori.
La celebre citazione di Firth «You shall know a lot about a word from the company it keeps» (1957: 11) è sempre un efficace punto di partenza per comprendere il concetto di collocazione. Con esso si intende la capacità di alcune parole di ricorrere frequentemente assieme, tanto che la loro combinazione può arrivare a formare connotazioni addizionali per
Approcci metodologici all‘analisi del discorso
42
entrambe30. Il suo ruolo è centrale nell‘analisi del discorso; poiché la ricorrenza sistematica tra alcuni vocaboli può indicare sia i contesti d‘uso di una voce sia l‘eventualità che le sue associazioni siano portatrici di particolari valori ideologici. L‘analisi delle collocazioni, o co- occorrenze, può fornire indicazioni decisive sugli aggettivi usati per descrivere gli attori sociali, i verbi in cui essi possono essere agenti o pazienti, espressioni di quantificazione ecc. Certo, non può essere sufficiente esaminare un semplice inventario di combinazioni di parole, è necessario verificare costantemente nei reali contesti di uso come tali associazioni si sviluppino; tuttavia, quando le co-occorrenze appaiono sufficientemente forti da un punto di vista quantitativo, esse consentono se non altro di risparmiare moltissimo tempo all‘analista che potrà indagare selettivamente tali risultati. In un‘elencazione di collocazioni le parole che ricorrono con maggiore consistenza sono spesso articoli e altre parole vuote dallo scarso valore semantico e quindi poco interessanti; sono due le vie per ovviare a tale problema: saltare o eliminare direttamente tali parole dalla propria lista o usufruire dei calcoli statistici per verificare la reale forza delle co-occorrenze31.
Infine, lo strumento che più di tutti ha aiutato a guidare, verificare e correggere le intuizioni e le ipotesi alla base delle nostre indagini è quello della keyword analysis. Esso consiste in una serie di parole considerate rilevanti all‘interno del corpus; si ottiene essenzialmente mettendo a confronto due corpora: ad esempio, da una parte abbiamo i nostri articoli di giornale e dall‘altra parte un corpus generale di riferimento dell‘italiano. Il software misura la dimensione e il numero di occorrenze di ogni parola all‘interno dei due insiemi e mette in relazione i dati attraverso degli algoritmi statistici in grado di verificare il livello di probabilità che una parola appaia con una certa frequenza all‘interno del materiale. A ogni parola viene assegnato un valore p indicante il grado di probabilità che un vocabolo sia rilevante solo per motivi casuali. Il valore p è calcolato tra zero e uno; più ci si avvicina allo zero e più è probabile che la rilevanza della parola sia dovuta a precise scelte autoriali o sia indicativa del contenuto dei testi. Tuttavia, il valore di p può tendere molto facilmente allo zero, data la vastità del vocabolario di una lingua; per questo motivo, valutare la percentuale di incidenza di una parola all‘interno del proprio corpus e di quello di riferimento può dare una misura forse più efficace della sua effettiva salienza. Allo stesso tempo, software come
30 Si vedano anche Sinclair (1996) e Stubbs (2001).
31 I principali e più usati sono lo z-score (Berry-Rogghe 1973); MI3 (Oakes 1998); log-log (Kilgarriff and
Tugwell 2001) e il log-likelihood (Dunning 1993). Ogni algoritmo statistico può privilegiare differenti classi di parole; ad esempio, sia Log-likelihood sia il MI3 tendono a dare più rilevanza alle parole grammaticali, mentre il log-log mette maggiormente in evidenza le parole piene.
Razzismo quotidiano
43
WordSmith (Scott 2012), da noi largamente impiegato, elaborano automaticamente un valore, definito keyness, che aiuta a interpretare la centralità di un singolo vocabolo tra i tanti.