• Non ci sono risultati.

5. Il campione rappresentativo dell'analisi.

5.2. Il campione rappresentativo.

I concetti di corpus e di campione rappresentativo appartengono a due branche specifiche della linguistica: la linguistica dei corpora e la statistica lessicale.

Il primo utilizzo del termine corpus applicato a un insieme di dati di una lingua è relativamente recente: "Le Trésor de la Langue Française [le] date de 1961"241 ci ricorda Claire Blanche-Benveniste, che prosegue asserendo che tali corpora linguistici non mirano all'esaustività, ma a qualcosa che se ne avvicina: una buona rappresentatività della lingua.

Il Trésor è quindi il primo grande dizionario della storia della lessicografia francese il cui lemmario risulti da uno spoglio di un vasto corpus scritto cui sono stati applicati criteri statistici.

Lavorare su un dizionario il cui lemmario è composto da 54 280 entrate principali che, nella versione cartacea, si estendono su 16 volumi, richiede una scelta ragionata di lemmi che approdi alla costituzione di un campione rappresentativo.

Per scelta ragionata si intende il fatto di stabilire criteri oggettivi ai fini del tipo di studio da condurre: nella fattispecie, trattasi dello studio della microstruttura dal punto di vista tipologico e metalinguistico.

Come ci asserisce Charles Muller,

tout le monde connaît aujourd'hui le principe des sondages d'opinion : pour se faire une idée de l'attitude d'une population […] sur une question quelconque, on interroge non point tous les individus qui la composent, mais un certain nombre d'entre eux, qui constituent alors un échantillon […]. L'expérience a prouvé l'efficacité de la méthode, dont les rares échecs sont dus plutôt à des revirements de l'opinion (sur laquelle la publication des sondages exerce parfois une action) qu'à des erreurs de méthode ou d'interprétation242

Gli studi di statistica lessicale condotti da Charles Muller243 riguardano la costituzione di campioni rappresentativi a partire da corpora prevalentemente letterari.

241 C. BLANCHE-BENVENISTE, Types de corpus. Introduction in Corpus. Méthodologie et applications

linguistiques. Edité Par Mireille Bilger, Paris, Honoré Champion - Presses Universitaires de Perpignan, 2000, p. 11.

242 C. MULLER, Initiation aux méthodes de la statistique linguistique, Paris, Hachette, 1973, p. 12. 243 Oltre a ibidem, cfr. C. MULLER, Initiation à la statistique linguistique, Paris, Larousse, 1968 ; Essais

Nessuno studio di linguistica computazionale o di statistica lessicale ha rilevato metodi propri alla costituzione di campioni a partire da un corpus rappresentato da un'opera lessicografica.

Il problema relativo alla costituzione di tali campioni consiste nella segmentazione del testo in questione, nella suddivisione in unità e nella rilevazione degli individui rispetto alla totalità della popolazione244.

Possiamo individuare due criteri possibili rispetto alla costituzione di un campione rappresentativo di un dizionario : il numero totale delle pagine e il numero totale dei lemmi.

Per quanto riguarda il primo criterio, sarebbe sufficiente stabilire una percentuale di pagine rispetto al totale. Ottenuto il numero di pagine che rappresentano tale percentuale, viene stabilito un criterio per la scelta: quello più oggettivo consisterebbe nell'individuare un intervallo regolare di pagine a partire dal quale estrarne di volta in volta una fino a al raggiungimento della percentuale stabilita245. Un primo inconveniente nell'addottare un tale criterio consiste nel fatto che alcuni articoli di dizionario potrebbero essere troncati dall'estrazione di una pagina ad intervalli regolari. Un secondo inconveniente consiste nel fatto che non si è sicuri che tutte le categorie grammaticali siano rappresentate.

Ai fini del presente lavoro non è possibile esulare né dal primo né dal secondo inconveniente ai quali si incorrerebbe se si adottasse il primo criterio.

Il secondo criterio risulta, a questo punto, più adeguato: non solamente perché esso permette di ovviare i suddetti ostacoli, ma perché, al tempo stesso, permette una scelta mirata di lemmi.

Sebbene sarebbe possibile, a partire dal lemmario, avere un elevato grado di oggettività stabilendo un intervallo di lemmi a partire dal quale scegliere un lemma rappresentativo,

244 "La statistique a gardé l'habitude de nommer population tout ensemble d'objets quelconques soumis à son analyse, et individu chacun de ces objets, chacun des éléments de l'ensemble. De ce point de vue, on peut considérer un texte comme une "population" de phrases, ou de mots, ou de phonèmes, etc." (C. MULLER, Initiation aux méthodes..., cit., p. 11).

245 Tale operazione è chiamata, in statistica lessicale, 'estrazione a sorte'. Sulla base di tale modalità di costituzione di un campione, viene eliminata ogni influenza relativa alla volontà o alle preferenze dell'operatore e, relativamente al corpus da cui estrarre il campione rappresentativo, ogni singolo segmento o unità ha la medesima probabilità di essere estratto. Tale operazione risulta estremamente complicata quando si tratta di estrarre a sorte una pagina di un libro poiché è necessario che ogni singola pagina abbia la stessa probabilità di tutte le altre di essere estratta, il che non è ovvio visto che, generalmente, le prime e le ultime pagine hanno una scarsa probabilità. Il metodo che garantirebbe la massima oggettività sarebbe quello di attribuire ad ogni pagina un numero ed estrarre a sorte tali numeri fino a raggiungere quantitativamente il campione desiderato (per i criteri dell'estrazione a sorte cfr.

si è preferito introdurre un certo grado di soggettività nella scelta dei lemmi che costituiranno il campione d'analisi.

Si è ritenuto che il 5% dell'intera popolazione fosse una porzione d'individui sufficientemente rappresentativa. Tale percentuale è generalmente una consuetudine diffusa nello stabilire campioni rappresentativi a partire da corpora lessicografici.

La storia del Trésor de la Langue Française necessita della presa in considerazione della globalità del dizionario e le finalità del presente lavoro non permettono di inserire nel campione rappresentativo articoli di dizionario incompleti. Si è deciso, così, di effettuare il calcolo del 5% a partire da ogni lettera, il che permette di stabilire un campione rappresentativo per ogni singola lettera: la somma di tutti i campioni rappresentativi è identica al 5% della totalità dei lemmi del dizionario. Una volta ottenuta la quantità di lemmi da estrarre per ogni lettera, si è proceduto a una scelta arbitraria e mirata degli stessi, combinando maggiormente i seguenti criteri :

1. tutte le categorie grammaticali dovevano essere rappresentate; 2. il campione doveva includere delle 'familles de mots';

3. il campione doveva includere termini del lessico specialistico afferente soprattutto al campo tecnico-scientifico;

4. il campione doveva tenere conto delle modalità stabilite per la costituzione del lemmario: era necessario, cioè, che fossero presenti termini storici, neologismi, articoli che contenessero derivati, termini metalinguistici, elementi formanti, termini latini o greci, derivati di nomi propri di persona, nazioni, popolazioni, città e nomi di etnie.

Il 5% di 54.280 corrisponde a 2.714. Qui di seguito riportiamo la quantità di lemmi che, per ogni singola lettera, andranno a far parte del campione rappresentativo d'analisi e la cui somma corrisponde a 2.714 :

Lettera Totale entrate principali Campione rappresentativo (5% delle entrate principali) A 6532 326 B 3526 176 C 6248 312 D 3467 173 E 3389 169 F 1997 100 G 1888 94 H 1259 63 I 2299 115 J 493 25 K 216 11 L 1533 77 M 3136 156 N 965 48 O 1133 57 P 5055 253 Q 274 14 R 2934 147 S 3632 182 T 2524 126 U 244 12 V 1235 63 W 71 4 X 27 1 Y 54 3 Z 149 7

Sulla base dei criteri sopraccitati, riportiamo l'elenco dei lemmi scelti che costituiscono il campione rappresentativo sul corpus costituito dal Trésor de la Langue Française :

LETTERA

A

(6530 lemmi)