• Non ci sono risultati.

La naturalezza con cui le persone sono capaci di comunicare e di inte- ragire con gli altri `e importante e ci` o deve avvenire in modo costruttivo.

N/A
N/A
Protected

Academic year: 2021

Condividi "La naturalezza con cui le persone sono capaci di comunicare e di inte- ragire con gli altri `e importante e ci` o deve avvenire in modo costruttivo."

Copied!
20
0
0

Testo completo

(1)

Comunicazione e Predizione

La comunicazione, cos`ı come molti altri aspetti, `e una qualit` a che caratte- rizza gli essere umani. Il continuo bisogno di comunicare con altre persone `e sempre pi` u importante ed `e una delle basi su cui poggia la societ` a moderna.

La capacit` a di comunicare `e innata negli esseri umani che acquisiscono alla nascita propriet` a verbali e non, che serviranno a esprimere concetti, reperire informazioni utili ed arricchire il proprio bagaglio culturale ed interiore.

La naturalezza con cui le persone sono capaci di comunicare e di inte- ragire con gli altri `e importante e ci` o deve avvenire in modo costruttivo.

Comunicare significa, dunque, essere umani e per questo la comunicazione deve essere garantita soprattutto laddove vi siano impedimenti di qualun- que genere. Il linguaggio accompagna qualsiasi istante della vita di ogni individuo nelle relazioni con gli altri e con la propria interiorit` a. Per gli es- seri umani il linguaggio sembra qualcosa di ovvio e banale, come il respiro;

15

(2)

infatti non si pu` o non comunicare e lo facciamo tutti senza accorgercene.

1.1 La Linguistica Computazionale

La linguistica `e la disciplina che si interessa al linguaggio naturale visto come un sistema di simboli governato da regole. Questa materia di studio presuppone una descrizione del linguaggio affinch´e si possa comprendere;

per far questo `e necessario associare ad ogni frase una rappresentazione non ambigua del suo significato. La Linguistica Computazionale si occupa, dunque, dell’analisi e dell’elaborazione del linguaggio naturale sfruttando le potenzialit` a di un computer. La teoria dell’informazione pu` o essere applicata al linguaggio naturale in modo da:

• analizzare i “dati linguistici” con strumenti informatici;

• elaborare modelli e simulazioni delle competenze linguistiche umane;

• sviluppare dei sistemi informatici dotati di conoscenze linguistiche e quindi in grado di acquisire ed esibire capacit` a linguistiche simili a quelle umane.

L’informatica applicata alla linguistica rappresenta uno strumento molto

potente poich´e permette di affrontare velocemente tutta una serie di opera-

zioni altrimenti macchinose per essere trattate manualmente, data la grossa

mole di dati. La gestione di un’ampia quantit` a di dati (ad esempio testi

(3)

letterari digitalizzati) viene effettuata rapidamente ed efficientemente sfrut- tando le potenzialit` a di un calcolatore e di metodi matematici e statistici.

Ma anche questo meccanismo presenta dei limiti in quanto un computer non conosce il linguaggio naturale e non possiede informazioni sulla sua strut- tura. A tal proposito viene in aiuto il Natural Language Processing (NLP, noto anche come Trattamento Automatico del Linguaggio Naturale) che cerca di dotare il computer di conoscenze adeguate allo scopo di svolgere compiti linguistici, generalmente programmi che possano assistere l’uomo, ad esempio, nella traduzione di testo da una lingua ad un’altra oppure nella gestione automatica delle informazioni e della conoscenza estratta da testi o altri media. Alcune applicazioni del NLP possono essere:

• traduzione automatica di testi;

• analisi grammaticale e ortografica;

• classificazione di documenti;

• riconoscimento automatico del parlato (speech recognition);

• sintesi vocale;

• question-answering;

• recupero delle informazioni (information extraction);

• riconoscimento di testi cartacei (OCR, Optical Character Recognition);

• sistemi di supporto alle decisioni e di data mining ;

(4)

Fino a pochi anni fa i meccanismi nel campo del NLP erano caratterizzati da un approccio cosiddetto rule-based, basato cio`e sullo studio delle varie re- gole che descrivono le espressioni linguistiche. Queste regole, per` o, risultano essere troppo restrittive per rappresentare i bisogni linguistici e comunica- tivi delle persone. Quindi sono necessari metodi diversi che consentano una modellazione del linguaggio pi` u accurata. L’approccio moderno vede coin- volgere la statistica e la teoria della probabilit` a che sembrano fornire risultati soddisfacenti e sufficientemente stabili.

1.1.1 Il Trattamento Automatico del Linguaggio Naturale

Storicamente la branca principale del Natural Language Processing si `e rivol- ta all’analisi, al riconoscimento e all’interpretazione del linguaggio naturale, svolto su tre diversi livelli:

• morfologico: analisi della struttura dei termini;

• sintattico: analisi della struttura delle frasi;

• semantico: analisi del significato a livello di frase o dell’intero docu- mento.

Attraverso l’elaborazione automatica del linguaggio naturale si vogliono

sviluppare modelli ed algoritmi per la simulazione e la comprensione del

processo linguistico umano.

(5)

In Figura 1.1 vengono schematizzati i suddetti livelli di analisi in un processo di estrazione delle informazioni a partire da testo (cartaceo o in forma elettronica) oppure attraverso la trascrizione di materiale acustico.

Figura 1.1: Fasi di analisi per il trattamento del linguaggio naturale.

Uno dei principali problemi connessi all’analisi del linguaggio naturale

`e l’ambiguit` a nei suoi diversi livelli: lessicale, strutturale e semantico (si veda in seguito per una migliore descrizione). Inoltre, poich´e il linguaggio naturale possiede una maggiore espressivit` a di un consueto linguaggio for- male, `e sostanzialmente complicata l’elaborazione automatica da parte di un computer.

Nello studio condotto per questa tesi, siamo interessati alla predizione a

livello di parola. Per questo analizzeremo il linguaggio in modo da riconosce-

(6)

re le forme al fine di individuare tutte le possibili interpretazioni delle parole grazie a competenze morfologiche. Successivamente verranno eseguite fasi di categorizzazione, attraverso studi sintattici, in modo da disambiguare le pos- sibili interpretazioni di una frase. Utilizzando infine competenze semantiche e pragmatiche sar` a possibile ricavare ulteriori informazioni strutturali.

Mediante l’analisi della frase siamo interessati ad effettuare il Part-of- Speech Tagging (Sezione 2.4). Per ricavare tali informazioni utilizzeremo ca- pacit` a sintattiche, semantiche e pragmatiche. I principali fattori per risolvere il problema dell’ambiguit` a per l’assegnamento della categoria sintattica ad ogni unit` a lessicale, sono la probabilit` a lessicale e la probabilit` a contestuale (come mostrato nelle equazioni (2.22) e (2.23) nella Sezione 2.4.4).

1.1.2 Linguaggio Naturale e Ambiguit` a

Il trattamento automatico del linguaggio naturale `e particolarmente diffici-

le a causa dell’ambiguit` a, specialmente per una lingua con una morfologia

ricca come l’italiano. Si pensi, per esempio, alla frase “ la vecchia porta la

sbarra” oppure consideriamo che il parsing della frase inglese “List the sales

of the products produced in 1973 with the products produced in 1972 ” pro-

duce 455 risultati diversi [16]. Quindi un sistema NLP deve essere capace di

eseguire un processo di disambiguazione poich´e le parole possono assumere

significati differenti a seconda del contesto. Le parole, dunque, devono essere

interpretate e diversificate nel significato.

(7)

Le lingue sono, per loro natura, fortemente ambigue [6]. L’italiano, in particolare, possiede molti casi di parole ambigue (omografe, per la lingua scritta) che possono avere pi` u di un significato. Ne sono esempi “ancora”

(sostantivo, 3 a persona presente del verbo “ancorare” o avverbio) o “la”

(pronome, articolo o sostantivo).

L’omografia pu` o generare ambiguit` a grammaticale, funzionale o lessica- le. L’ambiguit` a grammaticale si ha nel momento in cui le forme di un lemma possono indicare pi` u funzioni morfologiche come nel caso di genere o numero per i sostantivi o aggettivi (ad esempio “elegante” `e sia maschile che femmi- nile, mentre “libert` a” `e sia singolare che plurale) oppure nel caso di modo, tempo o persona per i verbi (“venga” indica le tre persone del congiuntivo presente del verbo “venire”).

L’ambiguit` a funzionale si verifica nel momento in cui alcune parole ac-

quisiscono una funzione grammaticale diversa nella frase. Ne `e un esempio

la parola “letto” che pu` o essere verbo, aggettivo o sostantivo. Il diverso si-

gnificato delle parole `e considerato ambiguit` a lessicale : “faccia” pu` o essere

inteso come viso o come una delle superfici di un poliedro. Un altro esempio

pu` o essere “ala” considerata come una parte di un aereo, un ruolo nel gioco

del calcio o l’organo del volo degli uccelli.

(8)

1.2 Gli Studi Statistici

La linguistica ha ottenuto una maggiore validit` a grazie all’introduzione degli strumenti informatici e dei metodi statistici. Le moderne ricerche di analisi quantitativa del linguaggio sono tutte basate su corpora, ovvero materiale su cui modellare la descrizione della lingua.

1.2.1 I Corpora

Nell’ambito dell’elaborazione del linguaggio naturale `e sempre pi` u diffusa l’o- pinione che sia possibile ottenere importanti risultati attraverso l’estrazione di informazioni da corpora 1 di dimensioni elevate. Il corpus costituisce una risorsa particolarmente adatta per ricavare informazioni sul lessico e sulla grammatica di una lingua. Strumenti di questo genere sono tipicamente ap- plicati nel campo del NLP per l’addestramento e la valutazione dei sistemi automatici.

I testi contenuti in un corpus fanno riferimento a dati linguistici (frasi, parole, ecc.) che sono raccolti e memorizzati in un database. La raccolta di questo materiale pu` o essere fatta da elementi gi` a esistenti, come pagine web o e-mail, registrando e trascrivendo conversazioni orali oppure utilizzando materiale cartaceo (libri, riviste, articoli e via dicendo). Come `e ovvio pen- sare, un corpus ha la necessit` a di garantire un’effettiva rappresentativit` a della lingua, perci` o deve soddisfare alcune caratteristiche fondamentali:

1

plurale di corpus. Con il termine corpus, dal latino “corpo”, viene indicato un insieme

di testi su cui si fonda la descrizione grammaticale di una lingua.

(9)

• dimensioni : per una copertura adeguata, un corpus deve contenere un numero sufficientemente elevato di testi;

• autenticit` a: i testi raccolti devono rappresentare la reale produzione linguistica e non una riproduzione artificiale;

• bilanciamento: un corpus deve contenere un’ampia caratterizzazio- ne di testi, bilanciando i diversi parametri come l’origine (linguaggio scritto o parlato), il dominio o la tipologia (per rappresentare in egual misura il linguaggio).

Di consuetudine, i corpora possono essere annotati o meno: mentre quel- li del secondo tipo sono formati da semplici raccolte testuali, i primi con- tengono informazioni di vario genere (sull’origine del testo, caratteristiche linguistiche, trascrizione fonetica, ecc.). Inoltre i corpora annotati sono utili per addestrare sistemi NLP basati su algoritmi di apprendimento automa- tico. L’annotazione pi` u comune `e la classificazione della parte del discorso o Part-of-Speech tagging. Attraverso questo tipo di annotazione, ogni unit` a lessicale viene associata con la propria categoria sintattica. Questo tipo di operazione, come vedremo nella Sezione 2.4, risulta di particolare interesse nell’ambito scientifico per l’estrazione delle informazioni, per operazioni di predizione e di disambiguazione.

Tra i pi` u famosi corpora elettronici esistenti, il Brown Corpus `e consi-

derato il primo “sample corpus” della lingua inglese (americano contempora-

(10)

neo), formato da un milione di parole, 500 campioni di testi che descrivono generi omogeneamente rappresentati. Il Brown Corpus `e stato creato nel 1967 da due ricercatori, W.N. Francis e H. Kuˇcera, della Brown University, ed `e considerato da numerosi studiosi un valido modello 2 .

1.2.2 Chomsky e la Rinascita della Linguistica dei Corpora

Pesanti critiche all’uso dei corpora e ai metodi ad essi legati, sono state sollevate dal linguista americano Noam Chomsky 3 . Chomsky sosteneva che un tale meccanismo era insufficiente per modellare la competenza linguistica poich´e si basava su due ipotesi essenziali ma errate:

• le frasi di una lingua naturale sono finite;

• tutte le frasi di una lingua possono essere raccolte e numerate.

Nonostante ci` o molti linguisti non hanno abbandonato gli studi sui cor- pora, ma hanno rivisitato le loro teorie fornendo la base alla moderna lin- guistica dei corpora. Ne `e un esempio la creazione del sopra citato Brown Corpus di Francis e Kuˇcera.

2

Il Brown Corpus `e spesso definito come “a standard sample of present-day English for use with digital computers”.

3

Noam Chomsky (ebreo americano di origine russa) nasce a Filadelfia nel 1928. Studia

filosofia, matematica e linguistica alla Pennsylvania University. Insegna presso il Massa-

chussets Institute of Technology (MIT), dove forma un gruppo di allievi e collaboratori. ` E

autore di molti scritti di linguistica teorica ed `e il fondatore del “generativismo”, un’inter-

pretazione della linguistica che intende spiegare le leggi che governano la produzione del

linguaggio. L’obiettivo di questa teoria `e sviluppare una grammatica in grado di generare

frasi.

(11)

1.3 La Predizione

La predizione della parola (word prediction) `e la capacit` a di suggerire quale sar` a la parola che un utente intende inserire in un testo. Un predittore lin- guistico rappresenta un potente strumento capace di velocizzare il processo di scrittura oppure, laddove vi sono utenti disabili, di facilitare l’inserimento delle frasi qualora questo risulti particolarmente scomodo o lento.

I sistemi di word prediction esistono dagli anni ’80 quando furono pensati per assistere le persone fisicamente disabili e successivamente coloro che soffrono di disturbi linguistici. L’uso di uno strumento di predizione assicura, infatti, la corretta composizione del testo, senza errori ortografici, e permette un risparmio in termini di tasti necessari alla scrittura, comportando un minor numero di sforzi per l’utente.

Recentemente le tecniche di predizione sono state considerate per essere introdotte in nuovi domini applicativi. In particolare sono state studiate per diventare parti integrate di telefoni cellulari come aiuto assistito per il ser- vizio di messaggi di testo (SMS, Short Message Service). In questo contesto lo strumento per l’inserimento del testo `e legato a nove tasti, quelli utilizzati per comporre i numeri telefonici. Cos`ı ogni tasto rappresenta, oltre ad un numero, una serie di tre o pi` u caratteri. Senza l’ausilio di tecniche linguisti- che l’utente `e costretto a disambiguare manualmente i caratteri premendo pi` u volte lo stesso tasto. Il sistema T9 della Tegic 4 svolge automaticamen-

4

Per maggiori informazioni visitare il sito http://www.T9.com .

(12)

te le funzioni per disambiguare le sequenze di caratteri, cos`ı l’utente pu` o premere il tasto una sola volta per lettera e successivamente pu` o scorrere le diverse combinazioni per trovare la parola desiderata. Tuttavia T9 non `e un sistema di word prediction in quanto non predice termini sulla base del contesto precedente. Di maggiore interesse sono le applicazioni di moduli predittivi a componenti di piccole dimensioni con tastiere limitate come i palmari ed altri PDA (Personal Digital Assistant).

1.3.1 La Word Prediction

L’obiettivo della word prediction `e riuscire a “capire” quale termine pu` o

essere il successivo dato un segmento di testo. Un programma che imple-

menta un meccanismo di word prediction viene detto predittore (in inglese

word predictor). La caratteristica di riuscire a suggerire la parola che l’utente

vuole usare pu` o essere sfruttata per facilitare lo stesso processo di scrittura

soprattutto dove la comunicazione `e rallentata o difficoltosa. Queste diffi-

colt` a comunicative le possiamo ritrovare nelle persone afflitte da disabilit` a

motorie o da disturbi linguistici (come per esempio la dislessia), ma non

sono solo queste: si pensi anche al rallentamento della scrittura ove non vi

siano sistemi tradizionali come le tastiere standard. Un caso particolare `e

dato dall’uso sempre pi` u frequente di sistemi palmari i quali hanno un in-

sieme limitato di tasti per l’inserimento del testo; per questo un modulo di

predizione si pu` o presentare utile anche a persone non disabili.

(13)

E necessario precisare che la word prediction si distingue dalla word `

completion: mentre il secondo caso si tratta di un sistema di completa- mento della parola con l’ausilio di un solo dizionario, il primo strumento sfrutta competenze ed informazioni morfosintattiche per suggerire la paro- la a seconda della categoria grammaticale dei termini che compongono la frase corrente. Quindi nel nostro sistema predire la parola non equivale a completare la parola.

Ulteriori impieghi di tecniche di word prediction le possiamo ritrovare in applicazioni fondate sul linguaggio naturale come il Part-of-Speech tagging, la correzione automatica del testo o i sistemi che fanno uso di word-sense disambiguation.

1.3.2 Il Word Predictor

Un sistema di predizione `e un meccanismo in grado di suggerire una serie

di parole concordi al discorso nel momento in cui l’utente digiti una o pi` u

lettere. Quando viene scelto uno dei suggerimenti, tale sistema aggiorner` a

il proprio stato in modo da mantenere allineato il contesto del discorso con

la propria predizione. La dimensione e la natura dell’ambito su cui `e basata

la predizione pu` o variare a seconda dei sistemi. Infatti alcuni ambienti

considerano esclusivamente la frequenza delle singole parole, quindi senza

tener conto del contesto nel quale esse sono inserite, mentre altri sistemi

pi` u complessi analizzano le parole e/o le categorie grammaticali precedenti.

(14)

Con meccanismi ancora pi` u complessi `e possibile combinare questi metodi cos`ı da ottenere strategie di predizione migliori.

Costruire un buon predittore `e, dunque, alquanto difficile vista la com- plessit` a della gestione del linguaggio naturale che non si presta ad essere modellato con semplici regole. Ne consegue che i migliori predittori restano gli stessi esseri umani.

1.3.3 Gli Utenti di un Word Predictor

Come precedentemente accennato, l’utente originario di un sistema di pre- dizione `e stato tradizionalmente la persona disabile. Coloro che hanno im- pedimenti motori hanno anche difficolt` a nel comporre testo utilizzando una comune tastiera. Un sistema di word prediction pu` o essere in grado dunque di ridurre sia i tempi che gli sforzi necessari alla scrittura di un qualsiasi testo misurati come la diminuzione del numero di tasti premuti (altrimenti detto keystroke saving).

E possibile fare una distinzione grossolana degli utenti che possono bene- ` ficiare dell’uso di un modulo di predizione. Un primo gruppo `e formato da persone affette da disturbi fisici e motori che precludono normali interazioni con i tradizionali devices di scrittura (come ad esempio le comuni tastiere).

Un secondo gruppo `e formato dalle persone con difficolt` a di tipo linguistico ovvero con problemi legati alla composizione e alla sillabazione del testo.

Naturalmente il livello di deficienza varia indipendentemente dal gruppo di

(15)

appartenenza in quanto alcuni individui possono comparire in entrambe le parti.

L’uso di un modulo di predizione, tuttavia, impone un elevato carico percettivo e cognitivo dovuto all’alternanza del punto di osservazione del- l’utente dal testo in via di scrittura alla lista dei suggerimenti da leggere e scegliere. Per quanto, `e stato studiato che l’uso frequente di questi sistemi migliora la performance dell’utente e diminuisce l’onere cognitivo.

Utenti Fisicamente Disabili

Una persona che non `e in grado di utilizzare efficientemente una comune tastiera standard e che deve fare affidamento a devices alternativi specifici per l’input (tastiere virtuali via headstick o sistemi di eyetracking), possiede una capacit` a di scrittura minore rispetto ad una persona non disabile. Al fine di incrementare la velocit` a di composizione di un simile individuo, vengono suggerite dal predittore le parole candidate ad essere le pi` u probabili ad apparire in un testo.

Utenti Linguisticamente Disabili

Un sistema di predizione pu` o rappresentare un immenso sostegno in tutte

quelle situazioni dove l’inserimento di testo risulta problematico. Spesso

questa difficolt` a `e legata alle capacit` a linguistiche dell’utente stesso poich´e

(16)

esso pu` o essere, ad esempio, straniero oppure pu` o soffrire di disturbi specifici connessi alla scrittura, come la dislessia.

Una persona dislessica, ad esempio, pu` o utilizzare un predittore come mezzo per la produzione di testo corretto. Dato che un utente pu` o inserire prefissi scorretti, un predittore pu` o essere uno strumento di aiuto per elabo- rare frasi senza alcun errore ortografico. A tal proposito, negli ultimi anni `e stato dimostrato l’uso benefico di word predictor su persone con disturbi di dislessia. Questo `e dovuto al fatto che l’utente pu` o riconoscere una parola tra i suggerimenti anche se non `e capace di scriverla interamente [15].

1.4 Il Progetto Precedente e il Nuovo Modulo di Predizione

Il lavoro svolto per questa tesi `e da considerare come la continuazione del pro- getto ASA (Ambiente di Scrittura Assistita), sistema sviluppato da Daniele Barsocchi [3] nella tesi di laurea coordinata da Synthema e dal Dipartimento di Informatica dell’Universit` a di Pisa e nei suoi sviluppi successivi [28].

L’obiettivo del progetto ASA `e fornire un procedimento di scrittura velo-

ce, facilitando la composizione grazie ad un meccanismo di predizione. Uno

strumento di questo genere `e principalmente rivolto a persone disabili al fine

di aumentare l’indipendenza e la capacit` a di espressione. Per svolgere il lavo-

ro di predizione, sono state sfruttate risorse linguistiche e statistiche (come i

(17)

dizionari e le grammatiche a triple, presentati nel dettaglio nel Capitolo 3), in modo da mantenere i suggerimenti concordi al contesto. ASA `e da consi- derarsi un prototipo di ricerca nel campo della predizione e nell’applicazione di un tale strumento alle persone disabili.

L’intento principale del progetto realizzato con questa tesi, `e stato il mi- gliorare il processo di predizione rispetto al primo sistema. A tale scopo sono state aggiunte nuove funzionalit` a le quali, affiancate alle informazioni grammaticali, semantiche e sulla struttura della frase, aumentano l’affida- bilit` a della predizione. Le caratteristiche aggiuntive riguardano tre aspetti fondamentali di un word predictor:

• un sistema di predizione del singolo carattere;

• un meccanismo di backtracking della predizione non concorde;

• una migliore gestione della cancellazione del testo appena inserito.

La predizione del singolo carattere, oltre che dell’intera parola, pu` o ri- sultare utile qualora l’utente venga interfacciato da una tastiera virtuale.

Cos`ı facendo una porzione della tastiera sar` a dedicata ai singoli caratteri

pi` u probabili agevolando, cos`ı, l’utente disabile, il quale non `e costretto a

spostare il puntatore da una parte all’altra dell’intera tastiera per comporre

la parola. Quindi l’utente, “sostando” nell’area riservata alle lettere predet-

te, compone la prima porzione di parola e quando si accorge che il termine

desiderato compare nella lista dei suggerimenti, si sposta per selezionarlo.

(18)

La predizione `e altres`ı utilizzata dove l’immissione del testo appare lento e difficoltoso. Infatti, per alcuni utenti ogni movimento compiuto per digita- re testo, non solo risulta lento, ma appare stancante e a volte doloroso; per questo un sistema di risparmio sulla sequenza di tasti necessari si manifesta alquanto vantaggioso. Inoltre la predizione ha la capacit` a di correggere il processo di scrittura riducendo la produzione di errori di ortografia.

Un’altra importante miglioria rispetto al primo sistema `e stata la trasfor- mazione della sua architettura da prodotto a se stante a libreria di moduli, in grado quindi di essere sfruttato e interrogato da una qualunque applica- zione che ne richiede le funzionalit` a. In questo modo `e stato possibile con- centrare la nostra ricerca sulla funzione di predizione e tralasciare tutti gli altri aspetti riguardanti l’interfaccia grafica nonch´e le funzionalit` a dell’intera applicazione di scrittura o di editing del testo.

Il sistema di predizione pu` o essere combinato con qualsiasi word proces-

sor o tastiera virtuale, permettendo di velocizzare il processo di scrittura in

modo da risparmiare tempo. Mentre l’utente inserisce i caratteri, il word

processor chiamer` a gli opportuni metodi del predittore il quale, a sua volta,

fornir` a una lista di parole concordi con il contesto che dovranno essere vi-

sualizzate all’utente. Il principale beneficio di un modulo cos`ı strutturato `e

indubbiamente l’indipendenza da particolari architetture e l’interfacciamen-

to con molte altre applicazioni che desiderano utilizzare un sistema di word

prediction.

(19)

1.5 Organizzazione della Tesi

Dopo una breve introduzione al lavoro, verranno presentati gli aspetti teorici su cui si fonda il processo di predizione e dei connessi problemi di gestio- ne del linguaggio naturale. Quindi saranno introdotte le tecniche adottate per lo sviluppo del progetto e saranno confrontate con lo stato dell’arte in materia di predizione. Verr` a fatto riferimento ai fondamenti statistici che agiscono dietro questi meccanismi e alle risorse linguistiche che permettono la generazione del testo predetto.

Nel Capitolo 2 viene presentata una descrizione generale dello stato del- l’arte dei modelli di rappresentazione e di analisi del linguaggio naturale e dei moderni metodi statistici usati per la predizione e per il problema del Part-of-Speech Tagging.

Nel Capitolo 3 daremo una presentazione delle risorse messe a dispo- sizione da Synthema per la realizzazione di questo progetto e dunque del modulo di predizione. Le risorse qui presentate saranno strutturate in modo da comprendere l’organizzazione generale, la metodologia di applicazione e il fuonzionamento.

Il Capitolo 4 `e incentrato sul lavoro di tesi realizzato, prestando atten- zione agli algoritmi e alle scelte effettuate. In particolare saranno esposte le differenze rispetto al prototipo esistente sviluppato nel progetto precedente.

Inoltre daremo alcune valutazioni dei risultati dei test effettuati sul nostro

predittore.

(20)

Infine, nel Capitolo 5 vedremo le principali conclusioni del lavoro e concentreremo una discussione sui possibili ambienti di applicazione del predittore e sugli eventuali sviluppi futuri.

Nelle due appendici che seguono sono riportati alcuni richiami fondamen-

tali del calcolo delle probabilit` a e alcuni concetti basilari della linguistica.

Riferimenti

Documenti correlati

La classe formata da 26 alunni,di cui iscritto,che non ha frequentato finora, in questa fase iniziale evidenzia un comportamento, generalmente ,rispettoso delle

206 Anche se abbiamo osservato come non vi sia una disciplina ad hoc ma solo delle interpretazioni interpretative. 207 Chiaramente ci sono le disposizioni dell’art. 2501 quater

“Machine learning and natural language processing are being used to sort through the research data available, which can then be given to oncologists to create the most effect

Per comunicare efficacemente, il rappresentante del Servizio clienti (CSR, Customer Service Representative) deve capire come adeguarsi a questi diversi stili ed emozioni prima

Analisi sintattica: sintagmi.. Analisi sintattica: sintagmi.. L’albero di derivazione corrisponde alla seguente interpretazione della frase ambigua:. Giorgio vide l’uomo, Giorgio

Se per l’analisi del linguaggio naturale, tema principale di questo articolo, l’input del problema è sempre qualche tipo di espressione linguistica e l’output è qualche

E nella costruzione di questa retorica, vestigia diventa anche la storia dei luoghi nelle pagine delle descrizioni di Benedetto Di Falco e di Giovanni Tarcagnota, pubblicate nella

We aimed to retrieve all studies describing health promotion interventions designed for increasing awareness of stroke symptoms and appropriate response (i.e., calling EMS) in BME