• Non ci sono risultati.

L’arabo come lingua esocentrica: misure quantitative del lessico verbale nell’ontologia

Capitolo 2 Il CBE Light e l’implementazione del verbo arabo in IMAGACT

4. L’arabo come lingua esocentrica: misure quantitative del lessico verbale nell’ontologia

Implementare una lingua in IMAGACT definisce il lessico verbale di quella lingua adatto a predicare di ciascuno dei 1010 prototipi nell’ontologia e permette di confrontare l’ambito di variazione di questo lessico rispetto al lessico delle altre lingue implementate. I verbi arabi considerati sono riportati in dettaglio a fronte dei traducenti possibili in italiano in Appendice.

In questo paragrafo vedremo come si configura quantitativamente il lessico arabo rispetto al lessico delle principali lingue sviluppate in IMAGACT e in particolare le lingue romanze, slave, germaniche, il giapponese, il cinese e l’hindi. Da questo confronto si evidenziano per l’arabo i caratteri di una lingua esocentrica, ovvero di una lingua che, in modo simile alle lingue romanze e contrariamente alle lingue slave, germaniche, cinese, giapponese e anche all’ hindi, dal punto di vista del lessico verbale azionale, si caratterizza per avere molti predicati generali.

Come è noto dai lavori di Iørn Korzen (2005a, 2005b), la distinzione tipologica tra lingue endocentriche ed esocentriche si basa su una differente modalità di distribuzione dell’informazione nella lessicalizzazione di nomi e verbi. In particolare, dal punto di vista del tratto di generalità referenziale, le lingue endocentriche (nell’esemplificazione di Korzen, quelle germaniche e il danese in particolare) si caratterizzano per la presenza di verbi più specifici e nomi più generici, mentre nelle lingue esocentriche (e in particolare nelle lingue romanze) si nota una tendenza opposta: i verbi sono più generali, e il lessico nominale è solitamente più specializzato e articolato.

La tabella sottostante sintetizza i risultati del lavoro sull’interfaccia CBE delle lingue che si aggiungono alle lingue Corpus-Based (italiano e inglese) 9.

Il numero di verbi utilizzati nelle varie lingue per coprire il riferimento alle 1010 azioni in IMAGACT, riportato nel primo campo della tabella, ha una variazione notevole, dovuta a fattori di varia natura, uno dei quali può essere collegato alla natura esocentrica o endocentrica della lingua. Tanto maggiore è il numero di verbi, tanto più specifici e meno generali questi risulteranno. Nel caso delle

9

I dati delle tabelle seguenti sono stati presentati parzialmente da Alessandro Panunzi nel corso della comunicazione

Demonstration of the achievements in the IMAGACT Cross linguistic Query Interface durante il “LABLITA Workshop in

honor of Iørn Korzen: The Annotation of Nordic Languages in IMAGACT4ALL”, tenutosi presso l’Università di Firenze nei giorni 15-17 aprile 2015 e pubblicati poi nella tesi dottorale di Pan Yi e in Panunzi et al. 2018. Qui aggiungiamo a tali presentazioni i dati su arabo, hindi e giapponese.

61

lingue slave (polacco e serbo), però, l’alto numero dei lemmi è anche dovuto al fatto che, n’accordo alla pratica lessicografica di queste lingue, sono stati indicate le forme lessicali perfettive e imperfettive dei verbi di azione come lemmi distinti. Non è quindi possibile derivare dal solo numero di verbi necessari a coprire l’insieme di scene in IMAGACT la tendenza ad avere verbi più specifici (maggior numero di verbi necessari) o al contrario generali (minor numero di verbi).

Tabella 2.5. Dati generali relativi all’annotazione in IMAGACT.

Nella tabella è anche presente il dato relativo al numero di relazioni instaurate nell’ontologia, ovvero al numero dei collegamenti verbo-scena. Per calcolare questa misura, occorre considerare che un verbo che si collega ad un’unica scena instaura una sola relazione nell’ontologia, mentre un verbo che, poniamo, si collega a 30 scene ne instaura 30. In questa tabella viene riportata unicamente la somma del numero di relazioni prodotte. Questo numero sarà utile per sviluppare i commenti ai dati quantitativi delle tabelle seguenti.

Per una valutazione più puntuale della tendenza delle lingue ad essere esocentriche, ovvero a identificare l’azione con verbi generali piuttosto che con verbi specifici, i verbi utilizzati dalle varie lingue per riferirsi alle azioni sono stati ripartiti in 5 macro-classi, sulla base del numero di scene a cui sono collegati; è stata così creata una tassonomia di verbi in cui si considerano, in ordine decrescente di generalità, le seguenti categorie:

• Verbi con oltre 20 scene collegate, quindi molto generali; • Verbi con 11-20 scene collegate;

• Verbi con 5-10 scene collegate; • Verbi con 2-4 scene collegate;

62

Nella tabella 2.6 è riportato, per ogni lingua, il numero di lemmi di ciascuna classe. La tabella 2.7 riporta lo stesso dato in percentuale, rispetto al numero di lemmi totale di ciascuna lingua.

Tabella 2.6. Numero di lemmi per lingua per ogni classe.

Tabella 2.7. Percentuale di lemmi per lingua per ogni classe.

Le lingue romanze e l’inglese (una lingua germanica fortemente “romanizzata”, in particolar modo nella componente lessicale) hanno la tendenza ad avere più verbi azionali generali rispetto alle lingue germaniche e slave, le quali hanno invece un maggiore percentuale di verbi strettamente di attività (collegati ad una sola scena). Il cinese è la lingua che ha in assoluto il numero maggiore di verbi con una sola scena collegata (65%) (e quindi mono-referenziali rispetto all’ontologia dell’azione), e il numero minore di verbi con più di 10 scene collegate (1,03% sul totale dei lemmi azionali). Anche l’hindi e il giapponese evidenziano in IMAGACT un comportamento simile, mentre l’Arabo ha evidentemente l’andamento opposto e si allinea all’italiano, allo spagnolo e al portoghese, avendo da un lato il 6,6 % di verbi con più di 10 scene e la percentuale minore in assoluto di verbi collegati ad una sola scena (38,64%) Il quadro diventa ancora più evidente se non consideriamo il solo numero di lemmi per classe, ma il numero delle relazioni prodotte da questi lemmi. In questo modo è possibile apprezzare il peso di ogni singola classe rispetto alla struttura dell’ontologia.

63

Tabella 2.8. Numero di relazioni verbo-scena per lingua per ogni classe.

Tabella 2.9. Percentuale di relazioni per lingua per ogni classe.

Dalla tabella 2.9 si può notare che nelle lingue romanze e in inglese dal 30% a più del 40% delle relazioni sono prodotte dal ridotto numero dei verbi più generali, mentre nelle lingue germaniche, in quelle slave e nel giapponese questa classe di verbi proietta in ogni caso solo dal 10% al 15% delle relazioni presenti nell’ontologia. Al contrario, mentre per le lingue romanze e l’inglese i verbi con una sola scena assommano meno del 14% delle relazioni totali, per le lingue germaniche, slave e per il giapponese questi verbi producono oltre il 23% delle relazioni. Il cinese è la lingua con il maggior numero di relazioni prodotte da verbi collegati a una sola scena (34,19%), ed insieme la lingua con il minor numero di relazioni proiettate dai verbi più generali, con più di 10 scene collegate (9,16%).

L’arabo si dimostra dunque una lingua esocentrica anche dal questo punto di vista e si allinea alla prima classe, con circa il 35% delle relazioni instaurate da verbi generali e con meno del 10% delle relazioni instaurate da verbi collegati ad una sola scena.

Per fare un esempio concreto del significato di queste statistiche possiamo pensare che il verbo arabo più generale è َﻊﺿو (wada3a) [mettere] si riferisce a 113 scene. Molto diverso dal tedesco (Gartig in stampa) in cui il verbo più generale, öffnen [aprire] ha solo 24 scene.

Se si considerano tutti i verbi tedeschi che coprono porzioni della variazione di َﻊﺿو (wada3a), ossia quelli che si riferiscono ad almeno una scena delle 113, otteniamo ben 139 verbi. Se questi sono ordinati per il numero di scene comuni con َﻊﺿو (wada3a), otteniamo che tun [mettere/collocare] è il verbo più generale, ma copre solo 20 scene sulle 113 di َﻊﺿو (wada3a). Complessivamente possiamo vedere che i vari verbi tedeschi coprono un diverso spazio semantico, e il verbo tun non identifica ad esempio le

64

azioni coperte da َﻊﺿو (wada3a), identificate di seguito. Il tedesco necessita di verbi specifici in ogni caso: stecken [infilare/inserire] stellen [mettere dritto] legen [mettere sdraiato] hangen [mettere/appendere] laden [mettere/caricare]

65

Documenti correlati