• Non ci sono risultati.

E STRAZIONE DELLA TERMINOLOGIA SPECIALISTICA

La notevole ampiezza dei corpora considerati43 rende impossibile una loro lettura dettagliata e approfondita: si è pertanto imposto come propedeutico a un efficace studio dei dati testuali lo sviluppo di strumenti atti a individuare e isolare, in maniera semi-automatica, i vocaboli rilevanti, ossia i tecnicismi della Linguistica, sui quali poter concentrare le osservazioni qualitative.

L’estrazione automatica della terminologia tecnica da corpora rientra in un ambito di ricerca ben affermato le cui prime espressioni, sorte nel campo del Natural Language Processing, risalgono alla fine degli anni ’90 (Heylen & De Hertog, 2015: 204); le sue declinazioni sono molteplici, e le metodologie spaziano dagli approcci linguistici a quelli statistici, non di rado assumendo forme ibride44. A nostro avviso, però, queste procedure non garantiscono risultati pienamente soddisfacenti rispetto a quelle che sono le esigenze della nostra ricerca45: non possono risolvere pienamente il complesso problema della sovrapposizione e dei continui interscambi tra lessico settoriale e lessico comune (Cabré, 1999: 65 e sgg.), e ciò è ovviamente assai problematico per uno studio che si prefigge di tracciare, in maniera dettagliata, diffusione e distribuzione della terminologia tecnica. Si consideri inoltre che i testi studiati, pur non presentando una variabilità verticale (Rovere 1989; Cortelazzo 1994), sono complessi a causa della forte interdisciplinarietà e dal loro essere intrisi di lingua comune, portata con sé dalla necessaria attenzione ai referenti extralinguistici; a tali difficoltà, proprie di tutte le lingue speciali, e che nella Linguistica si manifestano con particolare forza, si sommano ulteriori problematiche specifiche del corpus di riferimento, problematiche connesse alla invasiva presenza della variazione diacronica, la quale si concretizza in risemantizzazioni e sostituzioni, oltre che nei frequenti innesti di neologismi e nella scomparsa di non pochi vocaboli. Tutti fenomeni difficili da cogliere nella loro pienezza anche attraverso metodologie di analisi “manuale” (De Luca, 2014: 50). Pur riconoscendo valore e utilità delle metodologie di estrazione automatica, alla luce di quanto sin qui affermato si è deciso di optare per una procedura che prevede un’ampia, preponderante, componente manuale, dispendiosa ma, ci auguriamo, efficace: è stata compilata una lista lessicale di

43 Cfr. i capitoli 3 e 4, dedicati rispettivamente ad AGI e LN, per indicazioni dettagliate circa dimensione e composizione dei due corpora.

44 Per una esauriente panoramica dei principali approcci all’estrazione della terminologia tecnica si possono consultare Pazienza et al. (2005) e Heylen & De Hertog (2015).

45 I dati presentati in Bonin et al. (2012) consentono di stimare l’affidabilità dei processi di estrazione automatica tra il 61% e il 79% (65-73% per i poliformi). Bisogna inoltre considerare che, mentre possono essere conteggiate le forme erroneamente etichettate come “tecnicismo”, è difficile valutare il numero di usi specialistici che sfuggono al riconoscimento degli strumenti automatizzati.

riferimento, adattata alla fisionomia del corpus con costanti aggiustamenti46, che, confrontata con il prodotto della tokenizzazione delle due riviste, ha consentito di riconoscere e taggare tramite software i tecnicismi rilevanti47. Tale lista è stata compilata innanzi tutto attingendo alle voci contenute in nove vocabolari terminologici della Linguistica, scelti per la loro capacità di garantire una buona copertura cronologica della disciplina48 (Beccaria 2004; Cardona 1969, 198849; Casadei 2011; De Felice 1954; Dubois et al. 1979; Ducrot & Todorov 1972; Gentile 1963; Severino 1937); i lemmi documentati non sono però stati ripresi nella loro totalità in quanto alcuni sono eccessivamente ambigui, mentre altri risultano attestati nei loro valori specialistici solo occasionalmente. Ogni vocabolario è frutto di una selezione, non si prefigge di cogliere la terminologia nella sua interezza; pertanto, per catturare una più ampia porzione dei tecnicismi specifici del campione studiato, si è deciso di sommare al lessico da essi ripreso un considerevole insieme di forme rilevanti estrapolate dal corpus attraverso il suo spoglio e con l’ausilio di filtri basati sul calcolo delle specificità che, mettendo in risalto le variazioni rispetto alla normale distribuzione, sono stati utili al riconoscimento delle parole che hanno posseduto un significativo valore specialistico in una certa fase storica50.

Altrettanto articolata è stata la procedura di individuazione delle multiword expression, rispetto alle quali i vocabolari sono risultati poco informativi ma il cui riconoscimento è di grande importanza per la notevole precisione dei significati espressi e per la loro frequente associazione con specifiche correnti o tematiche. Ai poliformi ripresi dalle opere lessicografiche consultate si sono aggiunti quelli suggeriti dell’analisi dei segmenti ripetuti (cfr. Giuliano & La Rocca 2008), una procedura che consente di riconoscere le combinazioni di parole ricorrenti in un certo testo; queste combinazioni sono state successivamente ordinate secondo il loro indice di significatività e sottoposte a una

46 Vi è stato un lungo processo di scrematura che ha portato a una progressiva eliminazione di quei termini le cui occorrenze con significato tecnico sono risultate insignificanti o del tutto assenti. Tale selezione si è basata su una sistematica verifica delle concordanze di tutte le voci ambigue.

47 Più nel dettaglio: la lista compilata ha permesso di associare tre variabili categoriali al vocabolario del

corpus, attraverso le quali ogni unità lessicale è stata taggata come tecnicismo (sì/no), nome di lingua (sì/no)

e tecnicismo di una disciplina contigua (sì/no).

48 Per un interessante inquadramento storico di alcuni dei vocabolari consultati cfr. Iacobini (1997).

49 Si è scelto di analizzare due edizioni del dizionario di G. R. Cardona in quanto le differenze tra di esse sono così numerose e profonde da poterle considerare opere a sé stanti (Cfr. Cardona, 1988: 5-8).

50 Rimandiamo a Lebart et al. (1998) per una dettagliata disamina del calcolo delle specificità. Ci limitiamo qui a esplicitare che, nell’ambito della ricerca condotta, tale elaborazione è servita a misurare, per ogni unità lessicale, lo scarto della frequenza relativa nei vari sub corpora rispetto al valore registrato nella totalità del

corpus; in altri termini, il dato ha descritto, per ciascuna annata, le variazioni rispetto alla normale distribuzione

delle parole. Ciò è stato assai utile al fine di individuare i tecnicismi caratterizzanti un arco temporale ristretto in quanto ha permesso di eseguire uno spoglio delle sole forme con specificità positiva (p-value ≥ 0,25), ossia quelle le cui occorrenze si concentrano, in maniera statisticamente significativa, in un numero limitato di volumi.

scrematura manuale finalizzata alla individuazione dei soli segmenti rilevanti51. Successivamente i poliformi raccolti sono stati impiegati per lessicalizzare i due corpora tramite il software TalTaC2. Nella lessicalizzazione del corpus non ci si è però basati su tutte le multiword expressions rilevate bensì su una loro porzione, con una selezione motivata dalla necessità di evitare la dispersione delle singole parole in un numero eccessivo di unità di analisi52.

V

OCI TOTALI

7.939

Glottonimi 448

Prestiti non adattati 372

Tecnicismi della linguistica 6.807

Tecnicismi di discipline contigue 685

P

ROVENIENZA DELLE VOCI

Lemmi dei vocabolari terminologici 4.867

Definizioni dei vocabolari terminologici 1.528

Corpus 1.135 (369 poliformi)

Altre fonti 409 glottonimi

Figura 2 – Composizione della lista di riferimento impiegata per l ’estrazione della terminologia tecnica.

A margine della descrizione delle procedure semi-automatiche impiegate per estrapolare la terminologia tecnica è necessario riconoscere anche le carenze del sistema adottato; in particolare permane un considerevole insieme di termini ambigui (706), etichettati come tecnici ma che in realtà non occorrono come tali in tutti i contesti – in alcuni casi l’accezione tecnica è persino minoritaria. Tuttavia, riteniamo che ciò non infici i risultati delle analisi condotte perché non ci siamo affidati ciecamente ai dati elaborati dai software ma, prima di avanzare qualsiasi considerazione, prima di considerare una o più forme come indizi, specialmente nel caso dei termini etichettati come “ambigui”, se ne è verificato l’uso effettivo attraverso l’esame delle concordanze, e ci si è serviti della 51 Nello specifico, ci si è serviti dell’IS relativo. Pur senza entrare nello specifico della formula applicata, per la quale rimandiamo a Morrone (1993), segnaliamo che tale misura si basa essenzialmente sul rapporto tra le occorrenze del segmento testuale su quelle di ciascuna delle forme grafiche che lo compongono; pertanto, se un segmento è costituito da parole che occorrono in prevalenza all’interno di quella specifica sequenza, e dunque se lo scarto tra nominatore e denominatore è ridotto, esso farà registrare un indice di significatività molto elevato, e sarà probabile si tratti di un lessema polirematico e non di una combinazione casuale di parole. A livello operativo, l’ordinamento dei segmenti ripetuti secondo il loro IS relativo ha facilitato il lavoro di scrematura consentendo l’immediata messa in evidenza di quelli potenzialmente più rilevanti. Segnaliamo infine che non si è potuta realizzare una cernita basata sulla struttura morfo-sintattica dei poliformi (Pavone 2018) a causa della imprecisione dei risultati del tagging grammaticale, problematica che ha reso impossibile anche una efficace lemmatizzazione del corpus.

conoscenza della disciplina per poterne valutare il ruolo in un determinato periodo e in uno specifico contesto tematico: la ricerca dell’equilibrio tra analisi quantitativa e osservazione qualitativa è un elemento fondamentale della ricerca.