Analisi di un corpus - L’uso dei corpora nell’insegnamento di Lingua serba e croata come lingua

Le caratteristiche tecniche delle piattaforme che gestiscono i corpora sono in continuo sviluppo e le loro versioni sottoposte a continui aggiornamenti.

All’inizio la componente tecnologica di un corpus aveva reso la ricerca corpus-based accessibile solo ai professionisti e agli esperti del settore informatico. Oggi i software sono più semplici da utilizzare (user-friendly), caratteristica che permette a insegnanti, studenti, lessicografi, traduttori e a chiunque nutra interesse per il settore di apprenderne l’utilizzo senza particolari e specifiche preconoscenze informatiche. Analogamente ogni studioso ha ora la possibilità di assemblare un proprio corpus caricando i file che ha a disposizione oppure scaricando il materiale dal Web. L’analisi quantitativa dei dati così come le complesse elaborazioni statistiche sono passaggi che vengono ormai compiuti in automatico, con risultati di semplice consultazione (LancsBox, Sketch Engine ecc.).

Gli strumenti base che si hanno a disposizione nella consultazione di un corpus sono: le liste di frequenza, le concordanze e le collocazioni.

3.1.1. Liste di frequenza

Nell’estrapolare una serie di parole isolate e fuori dal contesto i software per le analisi di un corpus permettono di disporre di liste di frequenza e di word lists. In una word list si trovano tutte le parole di un corpus ordinate in base alle loro occorrenze. Se tale particolarità rende fattibili da un lato analisi non solo quantitative, dall’altro è il punto di partenza per analisi qualitative. Nella preparazione del materiale didattico si può dare la precedenza al lessico più frequente, un passaggio, questo, di grande utilità in vista di un approccio comunicativo che prepari lo studente alle situazioni autentiche che dovrà affrontare. Nell’ambito della glottodidattica settoriale le liste di frequenza agevolano l’apprendimento

del lessico specializzato e lo sviluppo delle competenze settoriali utili soprattutto nelle traduzioni.

Le word list forniscono inoltre indicazioni aggiuntive sulla tipologia dei testi che fanno parte di un dato corpus: grazie alla frequenza relativa esse permettono di istituire raffronti anche con corpora di diversa dimensione. La frequenza assoluta può fornire un’informazione rilevante per le parole all’interno di un solo corpus o di due corpora di uguale grandezza. Se i corpora o i subcorpora che si stanno analizzando presentano un diverso numero di parole, è preferibile consultare la frequenza relativa.

3.1.2. Concordanze

Visto che il significato delle parole dipende dal contesto, nell’analisi dei corpora le concordanze svolgono un ruolo notevole. Il formato KWIC (key word in context) ci permette di evidenziare la parola ricercata (node) e osservarne il contesto a destra e a sinistra che può essere facilmente visualizzato in ordine alfabetico. A differenza del programma utilizzato il contesto si può estendere (span) e si può anche scegliere quanti risultati visualizzare per pagina. I programmi per le concordanze consentono spesso di visualizzare o nascondere il markup, cioè gli elementi riferiti alla struttura del testo, oppure i tag morfologici. Alcuni software permettono di ordinare i risultati anche per categoria grammaticale (pos) oppure per metadata (tipologia dei testi, fonte, anno, sesso del parlante ecc.). Sketch Engine consente per esempio di osservare le frequenze per lemma, word form o tag. Per disporre i dati si può inoltre ricorrere a più criteri, come ad esempio la scelta del contesto a destra o altri ancora. Una simile modalità di visualizzare i risultati che via via si restringono è particolarmente adatta quando si osserva un numero elevato di concordanze, soprattutto nei corpora di grandi dimensioni.

Attraverso le concordanze è possibile osservare le parole in quel dato contesto e i pattern d’uso più frequenti, passaggio che permette a chi effettua la ricerca di ottenere informazioni a livello morfosintattico, ma anche semantico e socioculturale. Se la visualizzazione dei dati è automatica, è l’utente che interpreta i risultati e ne ricava un significato. Il contesto di una parola può mettere in luce le collocazioni più tipiche e ricorrenti, ma anche le associazioni cognitive tra le parole. In questo modo chi studia una lingua può migliorare la fluidità

espressiva e acquistare scioltezza naturale nella comunicazione nella prospettiva di avvicinarsi ai parlanti madrelingua.

3.1.3. Collocazioni

Le collocazioni, definite come «significant co-occurrence of lexical units» (OSTI 2004: 5) secondo i principi della lexicogrammar (Halliday 1992b) o lexical grammar (Sinclair 2000), rendono possibile uno sguardo unico su due aspetti: quello lessicale e quello grammaticale. Le collocazioni sono inoltre la prova empirica che le parole acquistano diverse sfumature di significato quando si legano a determinate altre parole. Il significato in base alle collocazioni va tenuto distinto da quello che le parole assumono nei contesti più vasti come quello testuale: «It must be pointed out that meaning by collocation is not at all the same thing as contextual meaning, which is the functional relation of the sentence to the processes of a context of situation in the context of culture» (Firth 1957a: 195).

Alcuni software come Sketch Engine mettono a disposizione strumenti di analisi automatica (Word Sketch) in grado di estrarre le collocazioni suddivise secondo la loro funzione grammaticale (complemento oggetto, costruzione con il genitivo ecc.). Le collocazioni possono essere motivate (la parola gioco appare più comunemente associata alla parola bambino e meno con un’altra connessa al mondo degli adulti) e immotivate («strong tea» e non «powerful tea») (Hunston 2002).

Firth (1957a) assegna alle collocazioni un posto chiave nelle sue ricerche sul significato, inoltre, come ha osservato, «You shall know a word by the company it keeps!» (Firth 1957b: 11). Lo studioso distingue le collocazioni significanti (significant) da quelle casuali (casual): nelle prime la frequenza è più alta rispetto alla frequenza di ogni singolo lessema in posizione isolata. L’opera di Firth è stata oggetto di approfondimento nelle ricerche di Halliday e Sinclair durante gli anni ’60 (Halliday 1966, 1976a, 1976b; Sinclair 1987, 1991). Ken Church (1991) insieme a Patrick Hanks, responsabile del progetto COBUILD, ha introdotto l’approccio statistico per le collocazioni. Attraverso i suoi studi successivi, che si ricollegano al lavoro iniziale (Krishnamurthy 1987, 1995, 1997, 2000, 2002; Clear 1993; Stubbs 1995), si può determinare se una collocazione è statisticamente significativa, anche se in questo caso è necessario un corpus di grandi dimensioni per avere risultati rilevanti: «it is exceptionally

difficult to relate statistical measures to meaning» (Sinclair et al. 2004, intervista: p. XXIII). Talvolta anche un’unione statisticamente significativa tra due parole non costituisce una collocazione («previous night»). Nell’ipotesi in cui nessuna delle due parole restringa/specifichi il significato dell’altra, il risultato non è rilevante sotto il profilo semantico. Attenendosi al criterio di restrizione del significato l’espressione «harsh criticism» è una collocazione mentre «previous night» non lo è (Sinclair 2004, intervista: p. XXII).

Sinclair distingue inoltre tra upward collocation (i collocati sono più frequenti della parola nodo) e downward collocation (i collocati sono meno frequenti della parola nodo). Un’ulteriore distinzione è quella che si può fare tra position-dependent collocates, se il collocato si trova in una posizione precisa, e position-free collocates, se ricade all’interno di uno span of collocation predefinito senza tuttavia avere un posto preciso. Già a partire dal progetto OSTI fu stabilito che 4 parole rappresentavano uno span ideale, «the wider the span, the lower is the significance in general» (Sinclair 2004, intervista: p. XXVII).

Nel documento L’uso dei corpora nell’insegnamento di Lingua serba e croata come lingua straniera (pagine 41-44)