• Non ci sono risultati.

(ANCORA LONTANO) CHE MUOVE

4 Spunti di riflessione

Nel presente paragrafo verranno esemplificati alcuni dei punti nevralgici relativi sia alla fase di pre-processamento sia a quella di processamento dei dati, attraverso esempi relativi al settore industriale del materiale elettrico, dove le risorse risultano insufficienti, in particolare in lingua italiana6. Tali considerazioni

pervadono tutti gli aspetti della metodologia e tutti i livelli della lingua, come tenteremo di mostrare.

Uno dei primi dilemmi riguarda necessariamente la costruzione o la scelta del corpus, che è indissolubilmente legato al dominio specifico che si sceglie

6 Per posizioni simili cfr. Giannone et al., 2019. In generale, si rileva una forte disparità di risorse a disposizione per le lingue del mondo con una ovvia preponderanza di librerie disponibili per l’inglese.

di trattare e alla tipologia dei testi che fungono da base dati, nonché alla loro strutturazione in vista dell’obiettivo atteso. Infatti, come è noto anche al parlante e non solo allo specialista, il sistema lingua è governato, tanto nella struttura quanto nella sua forma, da peculiarità dipendenti dal particolare contesto di utilizzo. Per questo motivo, le medesime espressioni linguistiche possono avere referenti diversi (polisemia e omonimia) o possono essere combinate in modo non composizionale e fortemente domain-specific — questione che, come si vedrà in seguito, si ripresenta in fasi di analisi successive.

In questo senso, la mancanza di corpora di dominio è spesso un problema fondamentale che ostacola quando non impedisce del tutto la comprensione del testo, a maggior ragione nei casi in cui l’obiettivo è ricavare dati funzionali a scopi industriali (Giannone et al., 2019), e che diventa spesso fonte di problemi nel tagging automatico anche per quelle classi della lingua che si è portati a considerare “stabili”, come le parti del discorso (v. sotto). Questo perché gli algoritmi (per esempio nei cooperative workspaces) si basano su risorse che sono sì tra le più consistenti in termini quantitativi, ma dal punto di vista qualitativo sono in realtà rappresentative solo di una minima parte della realtà della lingua7.

Inoltre, anche all’interno dello stesso dominio, possono esistere molte problematiche che rendono necessaria una ulteriore specializzazione corpus, la quale tenga conto dei differenti utilizzi della lingua sulla base di variabili legate, ad esempio, al canale (a questo proposito, vedi il recente contributo di Dominutti et al., 2019 per approfondire lo studio relativo alla creazione di corpora di relazioni tra linguaggio scritto e orale) o alla mancata esplicitazione di forme linguistiche nei testi — forme espresse a livello sovra-testuale e comunicativamente rilevanti — in presenza di un vasto background condiviso dai partecipanti, al quale spesso rilevatore, automatico o umano, ha difficilmente accesso8.

Ritornando alle problematiche derivanti dalla specificità della terminologia di dominio, una delle linee di ricerca sulle quali ci si sta focalizzando maggiormente negli ultimi anni è quella della Word-Sense Disambiguation in fase di processamento (si veda, tra gli altri, Ravelli et al., 2019). Esempio centrale nell’esperimento condotto era il caso del “quadro elettrico”, oggetto centrale dell’addestramento, a cui nel linguaggio specialistico si faceva spesso

7 A questo proposito reputiamo importante menzionare D4Science (https://www.d4science. org/about-us), un’organizzazione che mette a disposizione ambienti virtuali di ricerca e strumenti Open Source.

8 È importante precisare che le osservazioni qui avanzate altro non fanno che dare testimonianza pratica, con strumenti altamente tecnologici, di concetti elaborati nel campo della linguistica teorica da autori come Saussure, Bloomfield, Jacobson, Gross, Coseriu, etc., solo per citarne alcuni dei più importanti negli ultimi due secoli.

riferimento con la sola forma “quadro”. Per risolvere l’ambiguità generata dal fatto che molto spesso la terminologia di settore sfrutta medesimo lessico del linguaggio non specialistico — ambiguità che si somma inoltre ad altre forme di ambiguità presenti su più livelli della lingua — vengono utilizzati sistemi che misurano diverse proprietà del contesto sintagmatico (nel testo) e paradigmatico (knowledge-based) che aiutano a carpire il senso specifico associato all’espressione in questione. Queste proprietà, secondo Alfano et al. (2019), possono essere raggruppate per:

∆ collocations e n-grams;

∆ dipendenze sintattiche tra termini appartenenti all’intorno linguistico della

parola target;

∆ contesto linguistico dal quale vengono estratte singole parole analizzate

attraverso un approccio bag-of-words;

∆ informazioni knowledge-based ricavate, tra gli altri, da database come WordNet

o FrameNet.

Al fine di stabilire il livello di vicinanza semantica dei termini (word em-

beddings), un’altissima percentuale di studi recenti impiega, inoltre, rappresen-

tazioni vettoriali per determinare l’appartenenza di una forma ad uno specifico dominio (vd., tra gli altri, Esposito et al., 2016 e O et al., 2018). Molti studi con- centrano l’attenzione, in particolare, sulla categorizzazione semantica del verbo (Verb Sense Disambiguation), interpretato come punto nodale della frase (per gli approfondimenti più recenti si rimanda ancora a Alfano et al., 2019).

Naturalmente, per tutti questi aspetti, fondamentale è la scelta delle tecni- che di text mining che più si adattano al caso specifico, tanto in fase di pre-pro- cessamento che di processamento del corpus. Gli strumenti a disposizione sono numerosi e svolgono molteplici attività (language identification, tokenizzazione, PoS tagging, dependency parsing, NER9, etc.), ma in determinati contesti alcuni

risultano più funzionali di altri.

Un caso tipico di adattamento dell’interpretazione dei segni linguistici in fase di pre-processing è quello relativo alla segmentazione delle frasi che può avvenire in base a diversi criteri, sia teorici (cosa intendiamo per frase?) sia pra-

9 Un interessante strumento — per di più accessibile online — che raggruppa diversi programmi di text mining e librerie di dati, combinandoli in funzione del testo inserito e del tipo di analisi che si vuole effettuare, è NLPHub (Coro et al., 2019). Il NER (Named Entity Recognition) è una tecnica oggi molto diffusa per l'annotazione automatica di entità più o meno note e costituisce un aspetto centrale quando si lavora con terminologie specialistiche. A questo proposito va però rilevato che anche strumenti di NER addestrati su corpora standard comprendenti liste di entità specifiche (es. luoghi) spesso non soddisfano i risultati attesi (es. non riconoscendo il comune di Giugliano in Campania, ma solo la regione Campania, data l’occorrenza “Giugliano in Campania”).

tici (come individuiamo una costante, nel linguaggio scritto dei testi non strut- turati, che identifichi i limiti della frase?). Tale questione ci pone nuovamente di fronte alla problematica del “punto di vista” — questa volta relativamente alla dimensione testuale della lingua — e delle operazioni tecniche che, nella prassi, ne scaturiscono.

Nel caso del suddetto POC, ad esempio, l’assunto sotteso all’interpreta- zione della frase (e del periodo, v. sotto) con cui era stato addestrato l’algoritmo del bot utilizzato dalla suite, non sembrava trovare fondamento in una teoria linguistica (come può essere quella delle dipendenze sintattiche o della valen- za) ma pareva basarsi meramente su una serie di calcoli statistici per i quali la punteggiatura assumeva un ruolo relativo all’uso che se ne faceva nel corpus con cui lo stesso era stato addestrato10. Per questo motivo, la presenza di sigle e

acronimi in cui erano presenti segni di punteggiatura in forme diverse (come la sequenza “punto-spazio”; “punto-spazio-spazio”) — caso altamente frequente non solo nel dominio del materiale elettrico, ma del settore industriale in genera- le — provocava spesso un’interruzione del testo non sempre in corrispondenza della fine di una frase, causando problemi anche nella fase successiva di anno- tazione delle relazioni (vd. sotto) che potevano essere tracciate solo a livello intrafrastico. In questi casi, a seconda della tipologia e, soprattutto, della mole di dati a disposizione, si sceglie se correggere o normalizzare (manualmente o in maniera semi-automatica) i testi affinché possano essere elaborati con gli algorit- mi a disposizione, oppure se impostare delle regular expressions per individuare le combinazioni di caratteri che identificano una particolare stringa (come una frase). Naturalmente, anche qui, avere a disposizione risorse settoriali (dizionari, siglari, thesauri, ontologie, etc.) potrebbe far moltiplicare il numero di opzioni per risolvere task del genere attraverso, ad esempio, un confronto su tali basi di conoscenza esterne, e facilitare anche il riconoscimento di entità.

Una simile difficoltà, infatti, può essere riscontrata nel tentativo di dare conto dei sintagmi o delle frequenti formule altamente ricorrenti nel- le terminologie di settore che, nel caso del nostro POC, dovevano essere co- struite ex novo con l’ausilio dello strumento di tagging manuale messo a di- sposizione dalla suite11. La difficoltà è emersa relativamente al compito di 10 Non possiamo sapere di preciso su quali corpora vengono costruiti i vari algoritmi messi a disposizione dalla suite, ma di sicuro gli stessi riguardano il linguaggio comune, per il quale lo strumento sembra essere anche piuttosto affidabile. Si pensi, comunque, che anche le librerie che Spacy mette a disposizione per il pre-processamento dell’italiano (sulle quali si basano la maggior parte degli algoritmi oggi a disposizione per questa lingua), sono basate su un corpus di WikiNews che ne restringe, naturalmente, le tipologie testuali.

11 Il modello prevedeva, infatti, la possibilità di inserire dizionari di entità che avrebbero dovuto fungere da base per la NER, ma i limiti imposti dall'algoritmo per il PoS tagging usato dalla

annotare manualmente un set di entità costituite da multiword, legandole a un’entrata del dizionario che, per sua natura, doveva essere un unico lem- ma. Dall’altro lato, si riscontrava una problematica opposta in seno alla mor- fosintassi del linguaggio specialistico preso in esame, laddove era necessario annotare l’occorrenza di multiword o sintagmi che però si manifestavano, nel testo, con uno solo degli elementi del composto/del sintagma, ovvero qual- volta uno degli elementi della “formula” veniva omesso nel testo originale:

Con il termine di apparecchiatura si intende la combinazione di uno o più apparecchi di protezione e di manovra [...]

Per poter processare il testo con gli strumenti a disposizione del POC (ma anche con altri strumenti, come mostrato di seguito), sarebbe stato ne- cessario riscrivere il testo aggiungendo una seconda occorrenza di “apparec- chi” prima di “di manovra” per consentire poi di etichettare l’intera formula come manifestazione dell’entità “apparecchi di manovra”, un’entità altamen- te significativa nel dominio di settore con valore iperonimico capace di iden- tificare tutta una serie di componenti elettrici e la loro specifica interazione. D’altro canto, lo stesso fenomeno dà vita a un problema simile in tema di par-

sing, quando si tratta di analizzare le dipendenze sintattiche della stessa frase che

possono sottendere a relazioni di tipo concettuale12. La seguente figura mostra,

infatti, due alberi diversi generati con Tint (piattaforma open source per l’NLP) l’uno con la frase originale di uno dei manuali utilizzati nel POC, l’altro con la

piattaforma per il trattamento dell'italiano hanno fatto sì che per avere uno strumento veramente in grado di lemmatizzare e riconoscere tutte le forme (flessive e derivate) del dizionario, le entrate fossero inserite corredate di tutte le loro possibili declinazioni. Inoltre, non c'era la possibilità di inserire (e dunque annotare automaticamente) multiword e composti, di cui è tanto ricca la terminologia del settore in esame.

Il dizionario di entità individuate nei testi usati per l'addestramento contava ca. 900 unità (e il numero di entità avrebbe meritato di essere anche più ampio ma era stato limitato per favorire prestazioni ottimali durante la fase di test) ed erano state inserite almeno 2-3 fino ad un massimo di 8 occorrenze diverse come “surface” dell’entità a cui erano collegate (es. N-grammi costituiti da X-di-Y in cui X è spesso oggetto o caratteristica e Y è funzione? apparecchio-di-protezione, grado-di-protezione, etc.)

12 Nell’esempio, le relazioni tra gli elementi erano di diverso tipo: mentre tutti i dispositivi hanno una relazione con gli apparecchi del tipo “è componente di”, con direzione dal dispositivo all’apparecchio, gli stessi apparecchi hanno con l’apparecchiatura una relazione di direzione opposta, in cui quest’ultima “è composta da”. La prima relazione identifica un elemento che appartiene ad un più ampio elemento, indipendentemente dalla compresenza degli altri elementi necessari. La seconda relazione invece identifica ciò di cui un elemento ha bisogno per essere definito tale, considerando quindi necessariamente tutte le sue componenti.

frase arricchita con gli elementi

“sottintesi”

13

:

Con il termine di apparecchiatura si intende la combinazione di uno o più

apparecchi di protezione e apparecchi di manovra, con i relativi dispositivi

di comando, dispositivi di protezione, dispositivi di segnalazione, dispositivi di misura, dispositivi di regolazione

Figura 2: Dependency trees

Sempre nel nostro POC, le operazioni di parsing e la costruzione di depen-

dency trees presentavano spesso limitazioni nel momento in cui, come abbiamo

accennato sopra, le relazioni erano spalmate su più proposizioni mal segmentate.

5. Conclusioni

Alla luce di quanto osservato, le attuali tecniche di ML e NLP e gli algoritmi che ne modellano la struttura, permettono di processare con relativa precisione grandi quantità di dati linguistici per la costruzione di dispositivi di comprensio- ne ed elaborazione del linguaggio naturale umano. Tuttavia, e proprio in virtù del crescente interesse per il tema e del rapido sviluppo che si sta osservando nel settore delle intelligenze artificiali, tanti sono i limiti da evidenziare nelle diverse fasi di manipolazione dei dati che non possono essere basate su criteri “univer- sali” (scelta del corpus, lemmatizzazione, tagging sintattico, parsing semantico,

13 In questo secondo esempio oltre ad “apparecchi” anche “dispositivi” è stato aggiunto manualmente per consentire allo strumento di tracciare le relazioni.

estrazione di entità, concetti e relazioni — con i relativi contributi al trattamento di multiwords e word-sense disambiguation, elementi contestuali e di inferenza linguistica), in un’ottica positivamente diretta al potenziamento degli strumenti a disposizione — dati gli ampi margini di miglioramento che la vastità e comples- sità del campo permettono.

In questo senso, pubblicazioni sullo stato dell’arte in materia di costruzione automatica di basi di conoscenza ed ontologie come quella di Asim et al. (2018) o le ricerche del gruppo di Diana Maynard a Sheffield sono di grande ispirazione, mostrando quanto sia fertile il terreno in questo campo e quanto ancora ci sia da indagare, soprattutto per il tema, molto attuale, di recuperare e mettere insieme l’enorme mole di dati che ogni giorno si produce in Rete e che viene però tagga- ta, classificata e conservata con tecnologie differenti, in lingue differenti.

Dal punto di vista del NLP, studi come quelli di Kim (2014), Kalchbrenner

et al. (2014, 2016) di Bastings et al. (2017) sull’applicazione di reti neurali di

tipo convoluzionale allo studio delle strutture sintattiche e alla loro classificazio- ne, così come quelli Levy e Goldberg (2014) — solo per citarne alcuni — sul rilevamento di word-embeddings dimostrano come tale linea di ricerca sia asso- lutamente attuale e innovativa. Un grande contributo alla ricerca in questo senso, però, deve venire dalla ricerca prettamente di stampo linguistico, poiché siamo fermamente — e sempre più — convinti del fatto che una profonda conoscenza di come funzioni il linguaggio naturale umano possa fare la differenza in un ambito di ricerca che oggigiorno, quasi paradossalmente, coinvolge ancora molti più ingegneri, matematici e data scientists che linguisti (basti confrontare, per l’Italia, l’elenco di istituzioni facenti parte del CINI!)14.

Inoltre — per citare solo alcuni degli elementi chiave per progetti di ricerca in corso e futuri(bili) — la possibilità di fare inferenze attraverso le relazioni tracciate nella conoscenza di dominio applicativo e l’innesto di algoritmi di NLU che tengano conto degli operatori grammaticali e di quelli pragmatici per com- prendere tali inferenze (NLI) e implementare la base di conoscenze rappresenta una sfida verso cui si sta muovendo la comunità scientifica internazionale e che produrrà, nel prossimo decennio, nuove aperture nel mondo del lavoro, a partire dalla ricerca, fino all’industrializzazione e alla commercializzazione di tali pro- dotti innovativi.

14 A questo proposito, è interessante osservare che la maggior parte dei risultati provenienti dal mondo del NLP scaturiscono da analisi quasi completamente statistiche dei corpora processati, mentre la parte linguistica passa in secondo piano. Infatti gli strumenti con architetture di matrice cognitiva, costituiti da relazioni ontologiche tra concetti sono ancora secondari rispetto ad associazioni di matrice statistica, che non necessariamente si adattano ad un contesto meno comune o comunque non riscontrato nel corpus di allenamento, ma che può comunque presentarsi in fase di post-produzione (cfr. Preissner e Herbelot, 2019).

BiBliografia

Alfano, D., Abruzzese, R., & Cappetta, D. (2019). Neural Semantic Role Labeling using Verb Sense Disambiguation. In R. Bernardi, R. Navigli & G. Semeraro (Eds.), Proceedings of the Sixth Italian Conference on Computational

Linguistics CLiC-it 2019: 13-15 Novembre 2019. Retrieved from http://ceur-ws.

org/Vol-2481/.

Algergawy, A., Cheatham, M., Faria, D., Ferrara, A., Fundulaki, I., Har- row, I., Hertling, S., Jiménez-Ruiz, E., Karam, N., Khiat, A., Lambrix, P., Li, H., Montanelli, S., Paulheim, H., Pesquita, C., Saveta, T., Schmidt, D., Shvaiko, P., Splendiani, A., Thiéblin, E., Trojahn, C., Vataščinová, J., Zamazal, O., & Zhou, L. (2018). Results of the Ontology Alignment Evaluation Initiative 2018. In On-

tology Matching OM-2018, Proceedings of the ISWC Workshop (pp. 76-116).

Retrieved from http://ceur-ws.org/Vol-2288/.

Alvarado-Pérez, J. C., Peluffo-Ordóñez, D. H., & Therón, R. (2015). Bridging the gap between human knowledge and machine learning. ADCAIJ

ADCAIJ: Advances in Distributed Computing and Artificial Intelligence Journal 4(1), 54-64.

Asim, M. N., Wasim, M., Khan, M. U. G., Mahmood, W., Abbasi, H. M. (2018). A survey of ontology learning techniques and applications. Database Vol. 2018: article ID bay101; doi:10.1093/database/bay101

Bastings, J., Titov, I., Aziz, W., Marcheggiani, D., & Sima’an, K. (2017). Graph Convolutional Encoders for Syntax-aware Neural Machine Translation.

EMNLP’17. Copenhagen, Denmark.

Basile, V., & Mazzei, A. (2018). Neural Surface Realization for Italian. In E. Cabrio, A. Mazzei & F. Tamburini (Eds.), Proceedings of the Fifth Italian

Conference on Computational Linguistics CLiC-it 2018: 10-12 December 2018, Torino, 46-50.

Bengio, Y., Ducharme, R., Vincent, P., Jauvin, C., & Kandola, J., Hofmann, T., Poggio, T., & Shawe-Taylor, J. (Eds.). (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3(6), 1137-1155.

Bondielli, A., Passaro, L.C., & Lenci, A. (2018). CoreNLP-it: A UD pi- peline for Italian based on Stanford CoreNLP. In E. Cabrio, A. Mazzei & F. Tamburini (Eds.), Proceedings of the Fifth Italian Conference on Computational

Linguistics CLiC-it 2018: 10-12 December 2018, Torino, 57-61.

Bradbury, J., Merity, S., Xiong, C., & Socher, R. (2017). Quasi-Recurrent Neural Networks. In ICLR 2017. Retrieved from http://arxiv.org/abs/1611.01576.

Capozzi, A. T. E., Lai, M., Basile, V., Poletto, F., Sanguinetti, M., Bosco, C., Patti, V., Ruffo, G., Musto, C., Polignano, M., Semeraro, G., & Stranisci, M. (2019). Computational Linguistics Against Hate: Hate Speech Detection and

Visualization on Social Media in the “Contro L’Odio” Project. In R. Bernardi, R. Navigli & G. Semeraro (Eds.), Proceedings of the Sixth Italian Conference on

Computational Linguistics CLiC-it 2019: 13-15 Novembre 2019. Retrieved from

http://ceur-ws.org/Vol-2481/.

Chingacham, A., & Paperno, D. (2018). Generalizing Representations of Lexical Semantic Relations. In E. Cabrio, A. Mazzei & F. Tamburini (Eds.), Pro-

ceedings of the Fifth Italian Conference on Computational Linguistics CLiC-it 2018: 10-12 December 2018, Torino, 128-134.

Corazza, M., Menini, S., Cabrio, E., Tonelli, S., & Villata, S. (2019). Cross-Platform Evaluation for Italian Hate Speech Detection. In R. Bernardi, R. Navigli & G. Semeraro (Eds.), Proceedings of the Sixth Italian Conference on

Computational Linguistics CLiC-it 2019: 13-15 Novembre 2019. Retrieved from

http://ceur-ws.org/Vol-2481/.

Coro, G., Panichi, G. & Pagano, P. (2019). An Open Science System for Text Mining. In R. Bernardi, R. Navigli & G. Semeraro (Eds.), Proceedings of

the Sixth Italian Conference on Computational Linguistics CLiC-it 2019: 13-15 Novembre 2019. Retrieved from http://ceur-ws.org/Vol-2481/.

Dominutti, E., Pifferi, L., Dell’Orletta, F., Montemagni, S., & Quochi, V. (2019). Building an Italian Written-Spoken Parallel Corpus: a Pilot Study. In R. Bernardi, R. Navigli & G. Semeraro (Eds.), Proceedings of the Sixth Italian

Conference on Computational Linguistics CLiC-it 2019: 13-15 Novembre 2019.

Retrieved from http://ceur-ws.org/Vol-2481/.

Dyer, C., Kuncoro, A., Ballesteros, M., & Smith, N. A. (2016). Recur- rent Neural Network Grammars. In NAACL. Retrieved from http://arxiv.org/ abs/1602.07776.

Esposito, F., Corazza, A., & Cutugno, F. (2016). Topic Modelling with Word Embeddings. In A. Corazza, S. Montemagni & G. Semeraro (Eds.), Pro-

ceedings of the Third Italian Conference on Computational Linguistics CLiC-it 2016: 5-6 December 2016, Napoli, 111-117.

Fraga, A. L., Vegetti, M., & Leone, H. P. (2017). Semi-Automated Onto- logy Generation Process from Industrial Product Data Standards. In Simposio

Argentino de Ontologías y sus Aplicaciones (SAOA) XLIII CLEI - 46 JAIIO,

53-66.

Frantzi, K., Ananiadou, S., & Mima, H. (2000). Automatic recognition of multi-word terms:. the C-value/NC-value method. In International Journal on

Digital Libraries, 3(2), 115–130. doi: 10.1007/s007999900023.

Gajbhiye, A., Jaf, S., Moubayed, N. A., McGough, A. S., & Bradley, S. (2018). An Exploration of Dropout with RNNs for Natural Language Inference. Retrieved from https://arxiv.org/abs/1810.08606.

deR: an Industrial Perspective on Production Grade End To End Dialog System. In R. Bernardi, R. Navigli & G. Semeraro (Eds.), Proceedings of the Sixth Italian

Conference on Computational Linguistics CLiC-it 2019: 13-15 Novembre 2019.

Retrieved from http://ceur-ws.org/Vol-2481/.