Comunicazione e Predizione
La comunicazione, cos`ı come molti altri aspetti, `e una qualit` a che caratte- rizza gli essere umani. Il continuo bisogno di comunicare con altre persone `e sempre pi` u importante ed `e una delle basi su cui poggia la societ` a moderna.
La capacit` a di comunicare `e innata negli esseri umani che acquisiscono alla nascita propriet` a verbali e non, che serviranno a esprimere concetti, reperire informazioni utili ed arricchire il proprio bagaglio culturale ed interiore.
La naturalezza con cui le persone sono capaci di comunicare e di inte- ragire con gli altri `e importante e ci` o deve avvenire in modo costruttivo.
Comunicare significa, dunque, essere umani e per questo la comunicazione deve essere garantita soprattutto laddove vi siano impedimenti di qualun- que genere. Il linguaggio accompagna qualsiasi istante della vita di ogni individuo nelle relazioni con gli altri e con la propria interiorit` a. Per gli es- seri umani il linguaggio sembra qualcosa di ovvio e banale, come il respiro;
15
infatti non si pu` o non comunicare e lo facciamo tutti senza accorgercene.
1.1 La Linguistica Computazionale
La linguistica `e la disciplina che si interessa al linguaggio naturale visto come un sistema di simboli governato da regole. Questa materia di studio presuppone una descrizione del linguaggio affinch´e si possa comprendere;
per far questo `e necessario associare ad ogni frase una rappresentazione non ambigua del suo significato. La Linguistica Computazionale si occupa, dunque, dell’analisi e dell’elaborazione del linguaggio naturale sfruttando le potenzialit` a di un computer. La teoria dell’informazione pu` o essere applicata al linguaggio naturale in modo da:
• analizzare i “dati linguistici” con strumenti informatici;
• elaborare modelli e simulazioni delle competenze linguistiche umane;
• sviluppare dei sistemi informatici dotati di conoscenze linguistiche e quindi in grado di acquisire ed esibire capacit` a linguistiche simili a quelle umane.
L’informatica applicata alla linguistica rappresenta uno strumento molto
potente poich´e permette di affrontare velocemente tutta una serie di opera-
zioni altrimenti macchinose per essere trattate manualmente, data la grossa
mole di dati. La gestione di un’ampia quantit` a di dati (ad esempio testi
letterari digitalizzati) viene effettuata rapidamente ed efficientemente sfrut- tando le potenzialit` a di un calcolatore e di metodi matematici e statistici.
Ma anche questo meccanismo presenta dei limiti in quanto un computer non conosce il linguaggio naturale e non possiede informazioni sulla sua strut- tura. A tal proposito viene in aiuto il Natural Language Processing (NLP, noto anche come Trattamento Automatico del Linguaggio Naturale) che cerca di dotare il computer di conoscenze adeguate allo scopo di svolgere compiti linguistici, generalmente programmi che possano assistere l’uomo, ad esempio, nella traduzione di testo da una lingua ad un’altra oppure nella gestione automatica delle informazioni e della conoscenza estratta da testi o altri media. Alcune applicazioni del NLP possono essere:
• traduzione automatica di testi;
• analisi grammaticale e ortografica;
• classificazione di documenti;
• riconoscimento automatico del parlato (speech recognition);
• sintesi vocale;
• question-answering;
• recupero delle informazioni (information extraction);
• riconoscimento di testi cartacei (OCR, Optical Character Recognition);
• sistemi di supporto alle decisioni e di data mining ;
Fino a pochi anni fa i meccanismi nel campo del NLP erano caratterizzati da un approccio cosiddetto rule-based, basato cio`e sullo studio delle varie re- gole che descrivono le espressioni linguistiche. Queste regole, per` o, risultano essere troppo restrittive per rappresentare i bisogni linguistici e comunica- tivi delle persone. Quindi sono necessari metodi diversi che consentano una modellazione del linguaggio pi` u accurata. L’approccio moderno vede coin- volgere la statistica e la teoria della probabilit` a che sembrano fornire risultati soddisfacenti e sufficientemente stabili.
1.1.1 Il Trattamento Automatico del Linguaggio Naturale
Storicamente la branca principale del Natural Language Processing si `e rivol- ta all’analisi, al riconoscimento e all’interpretazione del linguaggio naturale, svolto su tre diversi livelli:
• morfologico: analisi della struttura dei termini;
• sintattico: analisi della struttura delle frasi;
• semantico: analisi del significato a livello di frase o dell’intero docu- mento.
Attraverso l’elaborazione automatica del linguaggio naturale si vogliono
sviluppare modelli ed algoritmi per la simulazione e la comprensione del
processo linguistico umano.
In Figura 1.1 vengono schematizzati i suddetti livelli di analisi in un processo di estrazione delle informazioni a partire da testo (cartaceo o in forma elettronica) oppure attraverso la trascrizione di materiale acustico.
Figura 1.1: Fasi di analisi per il trattamento del linguaggio naturale.
Uno dei principali problemi connessi all’analisi del linguaggio naturale
`e l’ambiguit` a nei suoi diversi livelli: lessicale, strutturale e semantico (si veda in seguito per una migliore descrizione). Inoltre, poich´e il linguaggio naturale possiede una maggiore espressivit` a di un consueto linguaggio for- male, `e sostanzialmente complicata l’elaborazione automatica da parte di un computer.
Nello studio condotto per questa tesi, siamo interessati alla predizione a
livello di parola. Per questo analizzeremo il linguaggio in modo da riconosce-
re le forme al fine di individuare tutte le possibili interpretazioni delle parole grazie a competenze morfologiche. Successivamente verranno eseguite fasi di categorizzazione, attraverso studi sintattici, in modo da disambiguare le pos- sibili interpretazioni di una frase. Utilizzando infine competenze semantiche e pragmatiche sar` a possibile ricavare ulteriori informazioni strutturali.
Mediante l’analisi della frase siamo interessati ad effettuare il Part-of- Speech Tagging (Sezione 2.4). Per ricavare tali informazioni utilizzeremo ca- pacit` a sintattiche, semantiche e pragmatiche. I principali fattori per risolvere il problema dell’ambiguit` a per l’assegnamento della categoria sintattica ad ogni unit` a lessicale, sono la probabilit` a lessicale e la probabilit` a contestuale (come mostrato nelle equazioni (2.22) e (2.23) nella Sezione 2.4.4).
1.1.2 Linguaggio Naturale e Ambiguit` a
Il trattamento automatico del linguaggio naturale `e particolarmente diffici-
le a causa dell’ambiguit` a, specialmente per una lingua con una morfologia
ricca come l’italiano. Si pensi, per esempio, alla frase “ la vecchia porta la
sbarra” oppure consideriamo che il parsing della frase inglese “List the sales
of the products produced in 1973 with the products produced in 1972 ” pro-
duce 455 risultati diversi [16]. Quindi un sistema NLP deve essere capace di
eseguire un processo di disambiguazione poich´e le parole possono assumere
significati differenti a seconda del contesto. Le parole, dunque, devono essere
interpretate e diversificate nel significato.
Le lingue sono, per loro natura, fortemente ambigue [6]. L’italiano, in particolare, possiede molti casi di parole ambigue (omografe, per la lingua scritta) che possono avere pi` u di un significato. Ne sono esempi “ancora”
(sostantivo, 3 a persona presente del verbo “ancorare” o avverbio) o “la”
(pronome, articolo o sostantivo).
L’omografia pu` o generare ambiguit` a grammaticale, funzionale o lessica- le. L’ambiguit` a grammaticale si ha nel momento in cui le forme di un lemma possono indicare pi` u funzioni morfologiche come nel caso di genere o numero per i sostantivi o aggettivi (ad esempio “elegante” `e sia maschile che femmi- nile, mentre “libert` a” `e sia singolare che plurale) oppure nel caso di modo, tempo o persona per i verbi (“venga” indica le tre persone del congiuntivo presente del verbo “venire”).
L’ambiguit` a funzionale si verifica nel momento in cui alcune parole ac-
quisiscono una funzione grammaticale diversa nella frase. Ne `e un esempio
la parola “letto” che pu` o essere verbo, aggettivo o sostantivo. Il diverso si-
gnificato delle parole `e considerato ambiguit` a lessicale : “faccia” pu` o essere
inteso come viso o come una delle superfici di un poliedro. Un altro esempio
pu` o essere “ala” considerata come una parte di un aereo, un ruolo nel gioco
del calcio o l’organo del volo degli uccelli.
1.2 Gli Studi Statistici
La linguistica ha ottenuto una maggiore validit` a grazie all’introduzione degli strumenti informatici e dei metodi statistici. Le moderne ricerche di analisi quantitativa del linguaggio sono tutte basate su corpora, ovvero materiale su cui modellare la descrizione della lingua.
1.2.1 I Corpora
Nell’ambito dell’elaborazione del linguaggio naturale `e sempre pi` u diffusa l’o- pinione che sia possibile ottenere importanti risultati attraverso l’estrazione di informazioni da corpora 1 di dimensioni elevate. Il corpus costituisce una risorsa particolarmente adatta per ricavare informazioni sul lessico e sulla grammatica di una lingua. Strumenti di questo genere sono tipicamente ap- plicati nel campo del NLP per l’addestramento e la valutazione dei sistemi automatici.
I testi contenuti in un corpus fanno riferimento a dati linguistici (frasi, parole, ecc.) che sono raccolti e memorizzati in un database. La raccolta di questo materiale pu` o essere fatta da elementi gi` a esistenti, come pagine web o e-mail, registrando e trascrivendo conversazioni orali oppure utilizzando materiale cartaceo (libri, riviste, articoli e via dicendo). Come `e ovvio pen- sare, un corpus ha la necessit` a di garantire un’effettiva rappresentativit` a della lingua, perci` o deve soddisfare alcune caratteristiche fondamentali:
1
plurale di corpus. Con il termine corpus, dal latino “corpo”, viene indicato un insieme
di testi su cui si fonda la descrizione grammaticale di una lingua.
• dimensioni : per una copertura adeguata, un corpus deve contenere un numero sufficientemente elevato di testi;
• autenticit` a: i testi raccolti devono rappresentare la reale produzione linguistica e non una riproduzione artificiale;
• bilanciamento: un corpus deve contenere un’ampia caratterizzazio- ne di testi, bilanciando i diversi parametri come l’origine (linguaggio scritto o parlato), il dominio o la tipologia (per rappresentare in egual misura il linguaggio).
Di consuetudine, i corpora possono essere annotati o meno: mentre quel- li del secondo tipo sono formati da semplici raccolte testuali, i primi con- tengono informazioni di vario genere (sull’origine del testo, caratteristiche linguistiche, trascrizione fonetica, ecc.). Inoltre i corpora annotati sono utili per addestrare sistemi NLP basati su algoritmi di apprendimento automa- tico. L’annotazione pi` u comune `e la classificazione della parte del discorso o Part-of-Speech tagging. Attraverso questo tipo di annotazione, ogni unit` a lessicale viene associata con la propria categoria sintattica. Questo tipo di operazione, come vedremo nella Sezione 2.4, risulta di particolare interesse nell’ambito scientifico per l’estrazione delle informazioni, per operazioni di predizione e di disambiguazione.
Tra i pi` u famosi corpora elettronici esistenti, il Brown Corpus `e consi-
derato il primo “sample corpus” della lingua inglese (americano contempora-
neo), formato da un milione di parole, 500 campioni di testi che descrivono generi omogeneamente rappresentati. Il Brown Corpus `e stato creato nel 1967 da due ricercatori, W.N. Francis e H. Kuˇcera, della Brown University, ed `e considerato da numerosi studiosi un valido modello 2 .
1.2.2 Chomsky e la Rinascita della Linguistica dei Corpora
Pesanti critiche all’uso dei corpora e ai metodi ad essi legati, sono state sollevate dal linguista americano Noam Chomsky 3 . Chomsky sosteneva che un tale meccanismo era insufficiente per modellare la competenza linguistica poich´e si basava su due ipotesi essenziali ma errate:
• le frasi di una lingua naturale sono finite;
• tutte le frasi di una lingua possono essere raccolte e numerate.
Nonostante ci` o molti linguisti non hanno abbandonato gli studi sui cor- pora, ma hanno rivisitato le loro teorie fornendo la base alla moderna lin- guistica dei corpora. Ne `e un esempio la creazione del sopra citato Brown Corpus di Francis e Kuˇcera.
2
Il Brown Corpus `e spesso definito come “a standard sample of present-day English for use with digital computers”.
3
Noam Chomsky (ebreo americano di origine russa) nasce a Filadelfia nel 1928. Studia
filosofia, matematica e linguistica alla Pennsylvania University. Insegna presso il Massa-
chussets Institute of Technology (MIT), dove forma un gruppo di allievi e collaboratori. ` E
autore di molti scritti di linguistica teorica ed `e il fondatore del “generativismo”, un’inter-
pretazione della linguistica che intende spiegare le leggi che governano la produzione del
linguaggio. L’obiettivo di questa teoria `e sviluppare una grammatica in grado di generare
frasi.
1.3 La Predizione
La predizione della parola (word prediction) `e la capacit` a di suggerire quale sar` a la parola che un utente intende inserire in un testo. Un predittore lin- guistico rappresenta un potente strumento capace di velocizzare il processo di scrittura oppure, laddove vi sono utenti disabili, di facilitare l’inserimento delle frasi qualora questo risulti particolarmente scomodo o lento.
I sistemi di word prediction esistono dagli anni ’80 quando furono pensati per assistere le persone fisicamente disabili e successivamente coloro che soffrono di disturbi linguistici. L’uso di uno strumento di predizione assicura, infatti, la corretta composizione del testo, senza errori ortografici, e permette un risparmio in termini di tasti necessari alla scrittura, comportando un minor numero di sforzi per l’utente.
Recentemente le tecniche di predizione sono state considerate per essere introdotte in nuovi domini applicativi. In particolare sono state studiate per diventare parti integrate di telefoni cellulari come aiuto assistito per il ser- vizio di messaggi di testo (SMS, Short Message Service). In questo contesto lo strumento per l’inserimento del testo `e legato a nove tasti, quelli utilizzati per comporre i numeri telefonici. Cos`ı ogni tasto rappresenta, oltre ad un numero, una serie di tre o pi` u caratteri. Senza l’ausilio di tecniche linguisti- che l’utente `e costretto a disambiguare manualmente i caratteri premendo pi` u volte lo stesso tasto. Il sistema T9 della Tegic 4 svolge automaticamen-
4