4. Studio di caso: uso delle funzioni lessicali nell’annotazione di corpora
4.3 Il corpus EPTIC
4.3.2 Selezione del materiale linguistico da annotare
Come già affermato nella sezione 4.2, il presente studio di caso è una proposta metodologica riguardante una possibile applicazione delle funzioni lessicali nell’annotazione di corpora. Per questo motivo, anziché realizzare un’annotazione completa delle collocazioni del corpus EPTIC, che va oltre gli scopi dello studio di caso, abbiamo scelto di restringere il campo concentrandoci su una sola lingua e un solo lessema.
L’annotazione riguarda i quattro sottocorpora in lingua italiana, includendo sia testi originali che traduzioni e interpretazioni. La scelta della lingua italiana è motivata dal fatto che il tipo di annotazione che si intende realizzare presuppone un’eccellente competenza linguistica, perché per una corretta annotazione dei collocati è necessario saper operare alcune distinzioni semantiche molto sottili. L’italiano è la lingua in cui chi scrive sente di essere più competente per operare tali distinzioni.
I sottocorpora in lingua italiana non sono stati annotati per intero: il presente studio di caso è limitato alle collocazioni che riguardano il lessema DIRITTO. La possibile situazione d’uso dell’annotazione immaginata per questo studio di caso è la situazione in cui uno studente non madrelingua voglia usare il corpus EPTIC per osservare alcuni esempi d’uso dei collocati del sostantivo DIRITTO in testi istituzionali in lingua italiana.
Il motivo per cui si è scelto il lessema DIRITTO per lo studio di caso è che si tratta di un sostantivo relativamente frequente nei sottocorpora italiani di EPTIC e che presenta collocati interessanti ai fini dell’annotazione. La selezione del lessema DIRITTO è stata condotta in base ai criteri illustrati di seguito.
Innanzitutto sono stati definiti due criteri di selezione globale delle collocazioni annotabili, in modo che lo studio di caso potesse presentare un campione di funzioni lessicali interessanti: ▪ la base della collocazione deve essere un lessema e nello specifico un sostantivo, poiché molte funzioni lessicali interessanti corrispondono a collocazioni che hanno come base un sostantivo (Mel’čuk, 1998);
▪ per assicurarsi di lavorare su un campione sufficientemente ampio, la base della collocazione deve essere relativamente frequente in ciascun sottocorpus. Sinclair (2005) suggerisce che “A word which is not specially ambiguous will require at least twenty instances for even an outline description of its behaviour to be compiled by trained lexicographers”, tuttavia in ragione delle dimensioni ridotte del corpus si è deciso di fissare due soglie arbitrarie di frequenza minima: ≥10 occorrenze in almeno uno dei sottocorpora e ≥40 occorrenze totali.
Si è quindi proceduto all’esplorazione dei sottocorpora e all’individuazione di sostantivi (cioè le potenziali basi delle collocazioni) tramite lo strumento wordlist del software AntConc, il quale fornisce una lista in ordine decrescente dei token più frequenti. I sostantivi più frequenti sono stati raccolti in una tabella, corredati delle rispettive occorrenze (calcolate sulle occorrenze del lessema, sommando cioè le occorrenze delle forme singolari e plurali). Alla luce di questa prima selezione sono emersi come possibili candidati i sostantivi riportati in Tabella 2:
Sostantivo N. occorrenze totali nei sottocorpora di italiano commissione 320 unione 310 presidente 302 accordo 269 diritto 179 parte 145 mercato 106 problema 97 obiettivo 67 impegno 61 esempio 56 libertà 51 discussione 50 norma 49 integrazione 42
Tabella 2: lessemi (sostantivi) risultanti dalla prima selezione del materiale linguistico.
Attraverso lo strumento concordances di AntConc sono state osservate le concordanze di ciascun sostantivo precedentemente selezionato ed è stata operata un’ulteriore selezione sulla base di criteri qualitativi come:
▪ varietà di contesti: ciascun sostantivo dovrebbe presentare una certa varietà di collocati, in modo da riflettere un’ampia varietà di funzioni lessicali. Per questo motivo sono stati scartati i sostantivi che occorrono in una piccola varietà di contesti ripetitivi, come ad esempio unione (di cui si contano 259 co-occorreze con europea su 320 occorrenze totali, pari all’80,93%) o presidente (nel 39% dei casi associato al collocato
Signor) e che pertanto non sono interessanti per i nostri scopi;
▪ presenza di collocati verbali: i collocati verbali spesso corrispondono a funzioni lessicali interessanti, ad esempio i verbi di supporto o i cosiddetti verbi di realizzazione (cfr. cap. 2 sez. 2.5.1 e sez. 2.5.2). Per questo motivo sono stati selezionati in via preferenziale i sostantivi che presentano almeno un 50% di collocati verbali sul totale dei collocati;
▪ presenza di collocazioni nel senso inteso da Mel’čuk: sono stati scartati i sostantivi che presentano un elevato numero di co-occorrenze che non sono collocazioni nel
senso definito da Mel’čuk ma libere associazioni tra parole (per questa distinzione si veda cap. 2 sez. 2.3.2);
▪ corrispondenza con FL standard: le collocazioni, per poter essere annotate, devono essere rappresentabili in termini di funzioni lessicali standard (cfr. cap. 2 sez. 2.4.2.1); per questo motivo sono stati scartati i sostantivi che presentano una maggioranza di collocazioni che non corrispondono a funzioni lessicali standard (ad esempio accordo
bilaterale è una collocazione, ma non corrisponde ad alcuna FL standard).
Alla luce di questa ulteriore selezione abbiamo infine optato per il sostantivo DIRITTO, che presenta tutte le caratteristiche appena elencate (v. Tabella 3 relativamente alla frequenza del sostantivo nei quattro sottocorpora). Occorre specificare che, data l’assenza di annotazione semantica, è stato necessario realizzare una disambiguazione manuale tra le due principali accezioni di DIRITTO e di conseguenza un affinamento del calcolo delle occorrenze, che ha dato come esito 26 occorrenze dell’accezione “insieme di norme” e 153 occorrenze del lessema nell’accezione “facoltà, prerogativa”. Si èquindi deciso di incentrare lo studio di caso sul lessema DIRITTO nella sua seconda accezione, indicata da ora in poi come DIRITTO2, che possiede 73 occorrenze di collocati corrispondenti a funzioni lessicali
standard.
sottocorpus st-tr-it st-in-it tt-tr-it_from-en tt-in-it_from-en
n. occorrenze 38 38 42 35
Tabella 3: frequenze di DIRITTO2 nei sottocorpora di EPTIC
La prossima sezione illustra come i collocati così individuati sono stati annotati.