• Non ci sono risultati.

La procedura di individuazione dei gap lessicali

sinonimi. Se uno dei traducenti equivalenti è ambiguo, possiamo usare gli altri traducenti equivalenti per disambiguare. In pratica la regola prende i differenti gruppi di candidati che sono accessibili attraverso diversi traducenti equivalenti e li interseca. I synset che sono nell’in- tersezione ottengono un PC. Per esempio la parola italiana pilastro è tradotta nel suo senso metaforico come pillar, mainstay. La parola pil- lar appartiene a 5 synset di PWN, mentre mainstay appartiene a tre synset. C’è però un solo synset che li contiene entrambi.

Per evidenziare la performance dell’algoritmo si è operata una valutazione Valutazione

basata sui nomi presenti sotto la lettera D del dizionario latino-inglese (la lettera è stata scelta a caso). I gruppi di traduzione sono stati presi in esame come come stima del numero dei significati presenti per i quali l’algoritmo dovrebbe essere in grado di trovare alcuni synset candidati. Abbiamo sele- zionato i candidati con un PC più alto di una determinata soglia, cioè quei candidati che vengono proposti al giudizio del lessicografo. Il numero di tali candidati è 89% del numero di sensi presenti nel dizionario. Dopo il con- trollo da parte del lessicografo abbiamo calcolato precisione e richiamo dei candidati selezionati dall’algoritmo. La precisione è del 70% calcolata come rapporto tra il numero di candidati accettati e numero di candidati proposti dall’algoritmo. Il richiamo ammonta al 63% calcolato come rapporto tra il numero di candidati accettati e numero dei significati listati nel dizionario.

5.2

La procedura di individuazione dei gap les-

sicali

La letteratura sull’analisi contrastiva mostra che, dati un linguaggio sor- Gap lessicali e analisi contrastiva

gente e un linguaggio bersaglio, posso sussistere vari tipi di idiosincrasie al livello lessicale. Tra le varie idiosincrasie che possono verificarsi nel livello lessicale solo alcune sono rilevanti per il tipo di informazione codificato al- l’interno di MWN, che segue strettamente il criterio di costruzione di PWN. In MWN, un synset di un linguaggio L1 contenente unità lessicali p1, . . . pn

ha un corrispondente in un altro linguaggio L2 se esistono una o più unità lessicali in L2 che sono sinonimi translinguistici di p1, . . . pn. Ne consegue

che solo due tipi di idiosincrasie implicano la mancanza di corrispondenza translinguistica in MWN5:

• differenze denotative

• gap lessicali

Le differenze denotative si hanno nel momento in cui un traducente equiva- lente della lingua sorgente esiste ma è più generale o più specifico rispetto al senso della parola nella lingua bersaglio.

Il significato di gap lessicale necessita di una spiegazione più estesa, per- tanto, di seguito descriveremo la nozione di unità lessicale e di gap lessicale, successivamente mostreremo i passi di una procedura che automaticamen- te classifica i traducenti di un dizionario elettronico bilingue in tre gruppi: unità lessicali, gap lessicali e traducenti equivalenti che necessitano di essere classificati manualmente come unità lessicali o gap lessicali.

5.2.1

Che cos’è un gap lessicale

Una delle idiosincrasie più comuni, particolarmente rilevante dati i criteri di costruzione di PWN, sono i gap lessicali.

Un gap lessicale si manifesta ogni volta che una lingua esprime un concetto con una unità lessicale laddove l’altra lingua esprime lo stesso concetto con una libera combinazione di parole (Hutchins e Somers, 1992). Seguendo il criterio di costruzione di PWN una unità lessicale può essere costituita da una parola singola, o da un idiotismo o da una collocazione ristretta (Cowie, 1981):

• un idiotismo è una frase fatta il cui significato non può essere ricavato attraverso la composizione di dei significati delle parole che la compon- gono. Inoltre le parole componenti non possono essere sostituite da sinonimi.

• una collocazione ristretta è una sequenza di parole che abitualmente co-occorrono e i cui significati possono essere derivati in modo compo- sitivo. Le collocazioni ristrette hanno una coesione semantica dovuta

5.2 La procedura di individuazione dei gap lessicali 73

principalmente all’uso, perciò la sostituzione delle parole componen- ti è fortemente limitata. Di solito le collocazioni ristrette non hanno una traduzione letterale in altri linguaggi. Per esempio l’italiano senso unico corrisponde all’inglese one way.

• una combinazione libera è una combinazione di parole che seguono sola- mente le regole generali della sintassi: gli elementi non sono legati spe- cificamente gli uni agli altri e per questo possono ricorrere liberamente con altri elementi lessicali.

5.2.2

Individuare i gap lessicali

Nella costruzione della rete semantica LWN è stata introdotta una pro- cedura per identificare i gap lessicali in modo semi-automatico: su questo modello è stata realizzata una procedura analoga per la costruzione della rete semantica latina. Tale procedura si basa sull’utilizzo di un dizionario bilingue di medie dimensioni che include circa 38.000 lemmi e 55.000 traducenti.

La procedura distingue tra idiotismi, collocazioni e libere combinazioni Idiotismi e collocazioni

(che implicano gap lessicali). Nella pratica i confini tra idiotismi, collocazioni ristrette e combinazioni libere non sono nettamente delineati. Comunque, in molti casi può essere operata una distinzione in base alla conoscenza con- tenuta nei dizionari che marcano in modo esplicito idiotismi e collocazioni. Inoltre, tutti e tre i gruppi mostrano determinate regolarità strutturali che possono essere sfruttate automaticamente per distinguere gli uni dagli altri con un buon grado di affidabilità.

La procedura di ricerca dei gap lessicali classifica tutti i gruppi di tradu- centi del dizionario bilingue in tre classi: unità lessicali, gap lessicali e gruppi di traducenti che devono essere controllati manualmente.

L’informazione riguardante i gap lessicali può essere usata in due modi, Uso dei gap

a seconda se si abbia a che fare con gap dal Latino all’Inglese o vice versa. I gap Latino-a-Inglese mostrano una serie di synset latini che devono esse- re aggiunti manualmente a LWN: si è certi che questi synset non possono essere costruiti in corrispondenza di nessun synset inglese e quindi la loro costruzione non può essere affidata ai risultati della procedura-assegnazione. Vice versa le informazioni relative a gap Inglese-a-Latino mostrano synset

specifici di PWN che possono essere esclusi a priori da quelli scelti dalla procedura-assegnazione.

Si deve sottolineare che tale procedura è rilevante anche da un punto di vista teoretico. Infatti essa fornisce una ulteriore stima quantitativa dei gap lessicali, mostrando quanto le due lingue siano compatibili e fornendo una base empirica al modello della rete semantica multilingue.