• Non ci sono risultati.

indipendenti e consistenti con i livelli di analisi

N/A
N/A
Protected

Academic year: 2021

Condividi "indipendenti e consistenti con i livelli di analisi "

Copied!
45
0
0

Testo completo

(1)

E sottoproblemi

Per gestire le difficoltà che la comprensione del linguaggio nel suo complesso comporta, si

scompone il compito (task) del NLP in vari sottoproblemi (subtasks) relativamente

indipendenti e consistenti con i livelli di analisi

identificati a livello teorico.

(2)

Analisi morfologica

Si analizza ogni parola PRESA SINGOLARMENTE e se ne esplicitano le caratteristiche

grammaticali:

- categoria grammaticale della parola (Part of Speech tagging), come nome, verbo,

aggettivo, ecc.

- Lemmatizzazione o ricerca delle radici, come

“vedere” per “vidi”, “rosso” per “rossi”, ecc.

(3)

Analisi morfologica

Deve essere chiarito cosa si intende per parola PRESA SINGOLARMENTE ovvero si deve

affrontare la tokenizzazione del testo:

- mangiamelo è una singola parola o sono tre?

- della è una singola parola o sono due?

- e la punteggiatura?

(4)

• Es.: la morfologia di CANI è

CANE (lemma), NOME COMUNE (categoria grammaticale), MASCHILE (genere),

SINGOLARE (numero)

• Es.: la morfologia di DORMÌ è

DORMIRE (lemma), VERBO (categoria

grammaticale), INDICATIVO (modo), PASSATO

REMOTO (tempo), 3 (persona), SINGOLARE

(numero)

(5)

Analisi morfologica

Un esempio di analisi morfologica di una frase 1. la (IL ART DEF F SING)

2. storia (STORIA NOUN COMMON F SING) 3. non (NON ADV NEG)

4. educa (EDUCARE VERB MAIN IND PRES 3 SING) 5. a (A PREP MONO)

6. nulla (NULLA NOUN COMMON M SING)

(6)

E se la parola è ambigua? Un esempio di analisi possibile:

1. la (IL ART DEF F SING)

2. pesca (PESCA NOUN COMMON F SING)

pesca (PESCARE VERB MAIN IND PRES 3 SING) pesca (PESCARE VERB MAIN IMP PRES 2 SING) 3. non (NON ADV NEG)

4. è (ESSERE VERB MAIN IND PRES 3 SING) 5. un (UN ART INDEF M SING)

6. frutto (FRUTTO NOUN COMMON M SING)

(7)

Analisi sintattica

Riguarda le informazioni a livello dell’intera frase e si può impostare secondo due modelli teorici:

- riconoscimento della struttura sintagmatica della frase, cioè dei sintagmi e del modo in cui si compongono tra di loro

- riconoscimento della struttura relazionale della

frase in cui gli interi sintagmi o le singole parole

sono legate tra di loro

(8)

Analisi sintattica

La struttura sintagmatica:

- in cosa consiste

- come si rappresenta

(9)

Analisi sintattica: sintagmi

La struttura sintagmatica della frase, detta anche struttura a costituenti rappresenta la suddivisione della frase in sottounità più piccole e così via

procedendo in ordine gerarchico:

La frase è un sintagma composto (e.g.) da sintagma nominale + sintagma verbale.

Il sintagma verbale è composto (e.g.) da verbo + sintagma nominale.

Il sintagma nominale è composto da articolo +

sintagma nominale … ecc.

(10)

Analisi sintattica: sintagmi

La struttura sintagmatica della frase si

rappresenta tradizionalmente con degli alberi, perchè sono le strutture che meglio consentono di mostrare un ordinamento gerarchico di

elementi.

Quindi il risultato prodotto su una frase da un

sistema di analisi sintattica, detto PARSER, è un

albero sintattico o albero di derivazione.

(11)

Analisi sintattica: sintagmi

(12)

E se la frase contiene ambiguità sintattiche?

Una frase ambigua permette più di una analisi sintattica, quindi verranno costruite più

strutture per la stessa frase.

Esempio: “Giorgio vide l’uomo dentro il parco con il telescopio”

Analisi sintattica: sintagmi

(13)

Analisi sintattica: sintagmi

(14)

L’albero di derivazione corrisponde alla seguente interpretazione della frase ambigua:

Giorgio vide l’uomo, Giorgio lo vide dentro il parco, Giorgio lo vide utilizzando il telescopio

Analisi sintattica: sintagmi

(15)

Analisi sintattica: sintagmi

(16)

L’albero di derivazione corrisponde alla seguente interpretazione della frase ambigua:

Giorgio vide l’uomo, Giorgio lo vide dentro il parco, il parco che ha il telescopio

Analisi sintattica: sintagmi

(17)

Analisi sintattica: sintagmi

(18)

L’albero di derivazione corrisponde alla seguente interpretazione della frase ambigua:

Giorgio vide l’uomo, l’uomo che stava dentro il parco, e Giorgio lo vide utilizzando il

telescopio

Analisi sintattica: sintagmi

(19)

Analisi sintattica: sintagmi

(20)

L’albero di derivazione corrisponde alla seguente interpretazione della frase ambigua:

Giorgio vide l’uomo, l’uomo che stava dentro il parco, il parco che ha il telescopio

Analisi sintattica: sintagmi

(21)

I quattro alberi di derivazione non esauriscono tutte le possibili strutture che si possono

costruire per la frase.

In questo esempio l’ambiguità è determinata dalla presenza di sintagmi preposizionali che possono essere agganciati praticamente a

qualunque altro sintagma.

Analisi sintattica: sintagmi

(22)

Analisi sintattica

La struttura relazionale:

- in cosa consiste

- come si rappresenta

(23)

Analisi sintattica: relazioni

La struttura relazionale, detta anche struttura a dipendenze, mostra in che rapporto stanno tra loro le parole della frase tramite le cosiddette relazioni grammaticali o di dipendenza.

In “il cane dorme” cane è il SOGGETTO del verbo dorme.

In “Mario sovente mangia banane” sovente è un

modificatore del verbo mangia, mentre banane è

l’oggetto del verbo mangia.

(24)

Analisi sintattica: relazioni

La struttura a dipendenze della frase si

rappresenta tradizionalmente con degli alberi, perchè sono le strutture che meglio consentono di mostrare le relazioni sugli archi che legano le parole.

Quindi il risultato prodotto su una frase da un

sistema di analisi sintattica, detto PARSER, è un

albero sintattico a dipendenze.

(25)

Es.: la sintassi della frase “Giorgio ama Maria”

Giorgio

ama

Maria

SUBJ OBJ

Analisi sintattica: relazioni

(26)

Es.: la sintassi della frase “Balzac non perse mai la sua inclinazione per la speculazione.”

Analisi sintattica: relazioni

(27)

Es.: la sintassi della frase “Galli laeti in castra pergunt”

Analisi sintattica: relazioni

(28)

Es.: la sintassi della frase

“Cicero consul coniurationem Catilinae

detexit”

Analisi sintattica: relazioni

(29)

Qualunque sia la rappresentazione adottata per la sintassi, non si risolve il problema dell’ambiguità.

Molto sovente le ambiguità del linguaggio

naturale non sono percepite dagli esseri umani.

Questo ha indotto gli studiosi di NLP a credere che trattare il linguaggio naturale fosse molto più semplice di quello che si è poi rivelato.

Analisi sintattica

(30)

Un esempio concreto di come l’ambiguità sintattica non viene percepita?

Io mangio le fragole con la panna.

Quante diverse strutture sintattiche posso costruire?

Analisi sintattica

(31)

mangio

le fragole

con la panna Io

mangio

le fragole con la panna Io

?

A)

B)

(32)

Io mangio le fragole con la panna.

Nessun essere umano sceglierebbe la B ed

aggancerebbe il sintagma preposizionale con la panna al sintagma verbale mangio, invece che al sintagma nominale le fragole.

Eppure la struttura B è assolutamente sensata

dal punto di vista sintattico se si prescinde da

qualunque considerazione semantica.

(33)

mangio

le fragole

con il cucchiaio Io

mangio

le fragole

con il cucchiaio Io

?

A)

B)

(34)

Infatti, in altri casi, come

Io mangio le fragole con il cucchiaino.

la struttura B verrebbe naturalmente scelta,

agganciando il sintagma preposizionale con il

cucchiaino al sintagma verbale mangio, invece

che al sintagma nominale le fragole.

(35)

Inoltre, la presenza di ambiguità é

proporzionale alla lunghezza della frase.

3 (7): List the sales of products in 1973

10 (8): List the sales of products produced in 1973 28 (13): List the sales of products produced in

1973 with the products in 1972

455 (14): List the sales of products produced in

1973 with the products produced in 1972

(36)

Il problema dell’ambiguità provocata dalla presenza dei sintagmi preposizionali è uno dei più classici e difficili per i sistemi di NLP.

Alcuni esperimenti hanno dimostrato che scegliere dove agganciare il sintagma

preposizionale è un compito difficile anche per gli esseri umani.

Sicuramente i risultati dimostrano che lo è

molto di più per i sistemi di NLP.

(37)

Un esperimento sull’ambiguità sintattica provocata dall’aggancio del sintagma preposizionale

- applicazione di un analizzatore sintattico (parser) ad un corpus di 13 milioni di parole

- rilevazione delle associazioni lessicali, i.e. co- occorrenze di nomi o verbi con determinate

preposizioni, ES. “to” in abbinamento con “send”

nel contesto “send NP to …”

NB: il parser, non può risolvere le ambiguità

strutturali e produce parti sconnesse di strutture

sintattiche da cui è estratta l’associazione lessicale

(38)

Vengono estratte 2.500.000 associazioni lessicali, di cui oltre 200.000 ambigue

Si applica il modello probabilistico Lexical

Association score:

LA(v,n,p) = log

2

x (P(verb_attach p | v,n)/P(noun_attach p | v,n))

cioè si cattura la frequenza con cui certi nomi

e verbi co-occorrono con certe preposizioni

e la si rappresentata con il modello LA

(39)

Lo stesso task di aggancio del sintagma preposizionale viene svolto:

automaticamente con l’approccio corpus-

based lessicalizzato (modello LA) >>> errore del 20%

separatamente da 2 giudici umani >>> errore del 12-15%

automaticamente con approcci strutturali:

right association >>> errore del 33%

minimal attachment >>> errore del 67%

(40)

L’esperimento dimostra che

1)Il task dell’aggancio del sintagma preposizionale è difficile

2)Il task non può essere affrontato con

successo grazie a regolarità di tipo morfologico e sintattico, quindi non esiste una regola che ci consenta di risolverlo

3)Una certa regolarità esiste, ma solo a livello

statistico e probabilmente legata alla semantica

delle parole coinvolte nella struttura

(41)

Questo esperimento è stato determinante per la definizione degli approcci basati su corpora Se le regolarità del linguaggio non possono

essere formalizzate in regole, non vuol dire che non esistono.

Come il linguaggio stesso, le regole che lo governano sono complesse e hanno molte varianti, per cui diventa molto difficile

descriverle e il metodo più sensato per farlo

sembra essere la statistica.

(42)

NLP: approcci

Mettendo insieme la definizione di Informatica (= scienza che studia gli algoritmi per risolvere problemi) con quella di NLP, risulta chiaro che NLP si occupa di progettare gli algoritmi

necessari a trattare in modo automatico il linguaggio naturale.

Nel corso degli anni si sono studiati algoritmi che seguono approcci diversi ai problemi di NLP, e in particolare approcci basati su regole e

approcci basati su corpora di dati linguistici.

(43)

NLP: approcci

L’applicazione di un algoritmo che segue

l’approccio basato su regole anziché quello basato su corpora ha degli effetti significativi su:

- come si costruisce il sistema di NLP - quale conoscenza serve al sistema

- come deve essere acquisita la conoscenza

- come deve essere valutato il risultato prodotto

dal sistema

(44)

NLP: riassumendo

Ci concentreremo su:

- cosa significa comprendere il linguaggio

- cosa è l’ambiguità e perché ci interessa

- come si può rappresentare il linguaggio

- come si può trattare il linguaggio

(45)

Riferimenti

Documenti correlati

Un'ulteriore analogia tra le due opere è costituita dalla presenza per ciascuno dei due testi di una versione latina anonima redatta a breve distanza dalla

Third, note that the high-type ex interim individual rationality constraint must be binding in the relaxed program’s solution, or else one could decrease b and make the low-type

Dissento poi dalla posizione di chi considera la rete come uno spazio troppo generico e indifferenziato perché ne emergano bravi poeti (la posizione di recente assunta da Aldo

Ma se tutti i termini del nostro documento sono comuni con quelli del thesaurus (li abbiamo aggiunti al thesaurus prima di cominciare) come faremo per mettere in evidenza quelli

definisco il nome della funzione di parsing generata il tipo dei Token in input calc :: [Token] -> T. definisco il nome della funzione da chiamare in caso

Una frase può essere suddivisa in tanti mattoncini, detti sintagmi ciascuno dei quali ha un significato e risponde ad una domanda precisa.. Osserva la

Ogni frase si può dividere in tanti mattoncini che hanno un significato preciso.. I mattoncini si

Ipotesi di accordo rinnovo CCNL Elettrici Aziende elettriche italiane, OO.SS., 25 gennaio 2017. Ipotesi di accordo rinnovo CCNL Energia