Linguis’ca computazionale e approcci corpus-‐based

(1)

Linguis'ca computazionale e approcci corpus-‐based

Cris%na Bosco

Corso di Informa%ca applicata alla comunicazione mul%mediale

2014-‐2015

(2)

Per deﬁnire un sistema di NLP occorre conoscerne i seguen% aspeA:

-‐  Input

-‐  Algoritmi

-‐  Conoscenza linguis%ca -‐  Output

Sistemi di NLP

(3)

INPUT: modalità

Il sistema riceve in ingresso un input in linguaggio naturale

L’input può assumere diverse modalità: scriLo,

parlato, gestuale o una mescolanza di queste tre modalità, che possono anche interagire tra loro.

Noi ci occuperemo speciﬁcamente di linguaggio scriLo, ma non va dimen%cata la complessità

derivante dalle altre, come la sintesi del parlato e i

problemi derivan% dal “rumore”, la percezione ed

interpretazione della gestualità.

(4)

Un esempio: l’input nelle lingue dei segni e nel parlato

Nel caso delle lingue dei segni, l’input è gestuale e si deve tenere conto della gestualità delle mani,

principale strumento per “segnare”, ma anche

delle espressioni del viso, della posizione del capo, delle spalle, braccia, ecc.

Queste stesso componen% possono entrare in gioco anche quando il linguaggio è parlato …

l’espressione del viso in mol% casi è una

fondamentale chiave di interpretazione del

signiﬁcato del testo enunciato.

(5)

INPUT: lingua e genere

Il sistema riceve in ingresso un input in linguaggio naturale

L’input può contenere tes% di natura molto diversa tra loro a seconda di:

-‐ Lingua (francese, giapponese, swahili …)

-‐  Genere testuale (prosa giornalis%ca, TwiLer,

poesia, romanzi, prosa scien%ﬁca, manualis%ca

tecnica, previsioni meteo …)

(6)

Il sistema deve anche avere gli algoritmi adegua' a u'lizzare la conoscenza e a produrre un determinato output.

Si deve pertanto assumere che le operazioni da fare sull’input siano ben deﬁnibili, e

trovare un modo per deﬁnirle.

ALGORITMI

(7)

Quali sono le operazioni da fare sull’input?

Potrebbero essere le stesse che fanno gli

esseri umani (intelligenza ar%ficiale forte) oppure differen% (intelligenza ar%ficiale debole).

In entrambi i casi possono esserci vari modi di produrre uno stesso output e il modo

migliore può dipendere anche dall’input o dalla conoscenza.

ALGORITMI

(8)

I sistemi che traducono in modo automa%co adoLano approcci diversi, traducono

direLamente dalla lingua target alla lingua sorgente oppure tramite la mediazione di interlingue.

Essi u%lizzano %pi di conoscenza diversa,

dizionari, ontologie ecc. (e non tuLe queste basi di conoscenza sono disponibili per tuLe le lingue).

ALGORITMI: un esempio, la

traduzione

(9)

Assumiamo che una lingua sia traLabile da un sistema che con%ene la conoscenza

posseduta da un parlante di quella lingua.

Occorre equipaggiare il sistema con tale conoscenza.

CONOSCENZA LINGUISTICA

(10)

Il primo problema consiste nel delimitare la conoscenza necessaria alla comprensione del linguaggio.

Essa deve essere rappresentata in modo opportuno (dizionari, ontologie, corpora,

memorie di traduzione, basi terminologiche

…).

CONOSCENZA LINGUISTICA

(11)

Inoltre la conoscenza deve essere fornita al sistema in una forma adeguata.

Questo è un problema che è stato molto discusso e che è determinante per chi progeLa un sistema di NLP.

CONOSCENZA LINGUISTICA

(12)

Acquisizione della conoscenza

Un sistema che traLa il linguaggio deve avere a disposizione la conoscenza

linguis%ca necessaria.

Ma come si meLe la conoscenza dentro un

sistema?

(13)

Acquisizione della conoscenza

Esempio: che conoscenza occorre a un PoS tagger (analizzatore morfologico) per

prendere in input

“il cane dorme in giardino”

e res%tuire in output

“il ART, cane NOUN, dorme VERB, in PREP,

giardino NOUN” ?

(14)

Acquisizione della conoscenza

output = il ART, cane NOUN, dorme VERB, in PREP, giardino NOUN

conoscenza =

ART (il), NOUN (cane, giardino), VERB

(dorme), PREP (in)

(15)

Acquisizione della conoscenza

Esempio: che conoscenza occorre a un parser (analizzatore sintaAco) per

prendere in input

“il cane dorme in giardino”

e res%tuire in output

“[S [NP (il – cane)]

[VP (dorme) [PP (in – giardino)]]]” ?

(16)

Acquisizione della conoscenza

output = [S [NP (il – cane)] [VP (dorme) [PP (in – giardino)]]]

conoscenza = art + noun = NP verb + PP = VP

prep + noun = PP

NP + VP = S

(17)

Acquisizione della conoscenza

Dove si trova la conoscenza?

Le soluzioni sono 2:

1)  conoscenza dentro il sistema – rule-‐

based

2)  conoscenza dentro un corpus di da%

linguis%ci – corpus-‐based

(18)

Corpus versus rule-‐based

gramma%ca lessico

…

SISTEMA

(19)

Corpus versus rule-‐based

gramma%ca lessico

…

CORPUS SISTEMA

apprendimento

(20)

Corpus versus rule-‐based

In entrambi i casi si presuppone che il linguaggio sia governato da regole (da conoscere per traLarlo)

MA:

•  nei sistemi corpus-‐based le regole sono apprese, nei rule-‐based sono date

•  nei sistemi corpus-‐based le regole sono probabilis%che, nei rule-‐based sono

determinis%che

(21)

Corpus versus rule-‐based

Se le regole variano, ad es. da una

lingua all’altra, da un genere testuale

ad un altro, devono essere riscriLe in

un sistema rule-‐based, ma non in uno

corpus-‐based.

(22)

Approccio corpus-‐based

• U%lizzato dai linguis% dalla ﬁne dell’800 e oggi molto diﬀuso

• Consiste nell’apprendere dal linguaggio le

regole ed irregolarità del linguaggio

(23)

Approccio corpus-‐based

• A causa delle cri%che di Chomsky

l’approccio corpus-‐based non è stato

adoLato dalla linguis%ca computazionale che negli ul%mi 20 anni.

• Le cri%che che Chomsky porta a questo

approccio sono riducibili a 2.

(24)

Approccio corpus-‐based

• Prima cri%ca:

Un corpus può adeguatamente rappresentare un linguaggio?

Il numero di frasi di un linguaggio è inﬁnito,

mentre un corpus ne con%ene comunque

un numero ﬁnito, non tuLe, e distribuite in

modo casuale.

(25)

Approccio corpus-‐based

• Risposta alla Prima cri%ca:

Un corpus può adeguatamente

rappresentare un linguaggio se con%ene

un campione sta%s%camente signiﬁca%vo

di esso. Non occorre che contenga tuLe le

frasi di un linguaggio, ma una sua porzione

abbastanza ampia da contenere esempi di

tuLe le struLure di tale linguaggio.

(26)

Approccio corpus-‐based

• Seconda cri%ca:

Perché studiare il linguaggio tramite osservazione direLa invece che

introspezione?

Nella nostra mente (grazie alla competence) sono presen% tuLe le struLure correLe del linguaggio, mentre lo stesso non può

accadere in un corpus per quanto grande.

(27)

Approccio corpus-‐based

• Risposta alla Seconda cri%ca:

Solo l’osservazione direLa ci può dare conto di come il linguaggio è realmente usato,

del faLo che i parlan% riescono a

comunicare tra loro nonostante errori e

rumore.

(28)

Approccio corpus-‐based

La posizione di Chomsky è razionalis%ca e fondata su da% ar%ﬁciali e giudizi introspeAvi che sono espressione della nostra conoscenza

interiorizzata del linguaggio (competence).

Al contrario l’approccio corpus-‐based è

empiricista e fondato sull’osservazione di da%

naturali che sono espressione empirica della

conoscenza del linguaggio (performance).

(29)

Approccio corpus-‐based

• Il suo principale vantaggio è di oﬀrire un concreto supporto alla soluzione del

problema dell’ambiguità.

• Se una frase è ambigua, il sistema che la traLa ne costruisce più struLure

alterna%ve. Analizzando un corpus

possiamo scoprire quale ordine di

preferenza dare alle alterna%ve.

(30)

Approccio corpus-‐based

• Si basa sull’idea che le co-‐occorrenze sono fon% importan% di informazioni sulla

lingua

• Si ispira all’idea di apprendimento

linguis%co umano, tramite esposizione a

esempi e basato su criteri sta%s%ci

(31)

Approccio corpus-‐based

Esempio:

Nell’analisi sintaAca (parsing), di fronte

all’ambiguità e quindi generazione di più struLure, per una singola frase, si

ricavano dai da% linguis%ci i CRITERI per scegliere la migliore delle struLure

generate

(32)

Approccio corpus-‐based

L’approccio corpus-‐based assume che

buona parte del successo del linguaggio umano nella comunicazione dipende

dall’abilità che gli esseri umani hanno

nel ges%re ambiguità ed imprecisione in

modo eﬃciente.

(33)

Approccio corpus-‐based

Gli esseri umani riescono infaA a cogliere la correLa interpretazione di un

messaggio da un insieme di s%moli di varia natura (ad es. contestuali ed

emo%vi) oltre che dalle parole e

struLure che compongono il messaggio

stesso.

(34)

Approccio corpus-‐based

L’approccio corpus-‐based oﬀre inoltre la possibilità di sfruLare la conoscenza che va al di là delle parole e delle struLure che compongono il linguaggio.

È quindi un modo eﬃciente di acquisire la

conoscenza sul linguaggio.

(35)

Approccio corpus-‐based

Si assume che un CORPUS C di un

linguaggio L possa contenere (~tuLa) la

conoscenza necessaria a traLare L, e si

acquisisce la conoscenza da esso

(36)

Approccio corpus-‐based

Il processo di apprendimento oﬀre come risultato

• la conoscenza delle regole ed irregolarità del linguaggio (non-‐ristreLo)

• MA SOPRATTUTTO la percezione della

frequenza delle struLure linguis%che

(37)

Approccio corpus-‐based

In pra%ca per acquisire la conoscenza:

si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS

si cercano nel corpus le struLure linguis%che e

le loro probabilità = BASE di CONOSCENZA

(38)

Approccio corpus-‐based

In pra%ca un sistema corpus-‐based:

se incontra una struLura ambigua cerca

nella base di conoscenza l’informazione

u%le per costruire la rappresentazione

più probabile della struLura

(39)

Approccio corpus-‐based

Ma come funziona un sistema sta%s%co?

ad ogni struLura S del linguaggio il sistema associa un valore di probabilità

il valore di probabilità di S è dato dalla

composizione delle probabilità delle par% di

S

(40)

Approccio corpus-‐based

Esempio:

“il cane dorme in giardino”

P(il–cane: NP) = 95%

P(in-‐giardino: PP) = 95%

P(cane-‐dorme: VP) = 5%

…

(41)

Approccio corpus-‐based

Ma come funziona un sistema sta%s%co?

la probabilità di ogni parte di una frase analizzata dipende dalla sua frequenza in un CORPUS di riferimento e dal

modello sta%s%co u%lizzato

(42)

Approccio corpus-‐based

Ma come funziona un sistema sta%s%co?

Cosa è un modello probabilis%co ?

Serve a determinare come calcolare la

probabilità di ogni risultato oLenuto

dal sistema

(43)

Approccio corpus-‐based

Ma come funziona un sistema sta%s%co?

Esempio di un modello probabilis%co molto usato:

i bi-‐grammi:-‐ per ogni coppia <a,b> di parole avremo una s%ma della probabilità che a e b siano associate sintaAcamente (a=il e

b=cane ha maggiore probabilità di occorrere

che a=il e b=gaLa)

(44)

Approccio corpus-‐based

i bi-‐grammi di “il cane dorme in giardino”:

1-‐il cane

2-‐cane dorme 3-‐dorme in

4-‐in giardino

La probabilità di 1 sarà maggiore di quella di 2,

quindi il sistema propone la costruzione di 1

invece che di 2.

(45)

Approccio corpus-‐based

A par%re dagli anni ‘90 si sono sviluppa%

sistemi che apprendono la conoscenza da corpora di da% linguis%ci per mol%ssimi linguaggi.

Si è progressivamente aﬀermata anche la

necessità di ANNOTARE i da% linguis%ci e si

sono costrui% i TREEBANK.

(46)

Approccio corpus-‐based

ALualmente i TREEBANK sono le

risorse linguis%che più u%lizzate

nel NLP.

(47)

Approccio corpus-‐based

Perché annotare i da% ?

L’informazione è presente in forma implicita anche nei da% non annota%.

Ma introdurre l’informazione in forma esplicita sempliﬁca il processo di apprendimento,

inoltre rende possibile la correzione.

(48)

Annotazione e treebank

Come annotare i da% ?

Solitamente si annotano le

informazioni di %po morfologico e sintaAco, più raramente quelle

seman%che

(49)

Annotazione e treebank

Come annotare i da% ?

Per ogni livello di annotazione vengono faLe delle scelte sia sulla teoria

linguis%ca da prendere come

riferimento sia sul modo in cui

ﬁsicamente mostrare i da%.

(50)

Annotazione e treebank

Quali da% annotare ?

Occorre scegliere i tes% da introdurre nel

corpus in modo che siano rappresenta%vi

del linguaggio che si vuole traLare.

(51)

Annotazione e treebank

Quali da% annotare ?

un corpus é un campione signiﬁca%vo e rappresenta%vo di un linguaggio SE:

• con%ene frasi non ristreLe

• è “bilanciato” rispeLo al genere, alla

collocazione geograﬁca e sociale, al tempo

• MA non rappresenta mai TUTTO il linguaggio

nel suo complesso

(52)

Un progeLo reale: Turin University Treebank

• ObieAvo:

sviluppare una risorsa linguis%ca,

una banca di alberi sintaAci per

l’italiano

(53)

Fasi di sviluppo del progeLo

• Selezione dei tes% da annotare

• Deﬁnizione dello schema di annotazione

• Applicazione dello schema al corpus di

tes% (validità e consistenza)

(54)

Selezione di tes' in TUT

•  Giornali quo%diani (1.100 frasi = 18,044 tokens)

•  Codice civile (1.100 frasi = 28,048 tokens)

•  Acquis (201 frasi = 7,455 tokens)

•  Wikipedia (459 frasi = 14,746 tokens)

•  Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)

•  Totale 3.452 frasi = 102.000 token

(55)

TEXTS from PRAGUE newspapers, scientific and economic

journals

NEGRA ^newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes,

newspapers (Wall Street Journal), telephone conversations

Selezione in altri treebank

(56)

Deﬁnizione dello schema di annotazione

• Scelta del formalismo

• Scelta delle informazioni e

struLure da rappresentare

(57)

StruLura sintaAca: scelta tra 2 aspeA

• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)

• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal

structure)

(58)

Rela%onal structure

• Le parole della frase svolgono funzioni diverse

• Le funzioni sono espresse in

termini di relazioni gramma%cali

(59)

Giorgio

ama

Maria

SUBJ OBJ

Rela'onal structure

(60)

Cons%tuent structure

Le parole della frase sono organizzate

in unità (cos%tuen%) che a loro volta

sono oggeLo di una organizzazione

(cons%tuent structure) in unità più

grandi

(61)

ES: cons'tuents

Giorgio ama Maria

Nome-‐pr Verbo Nome-‐pr

VP S

NP NP

(62)

Cons%tuent structure

(S

(NP ( NOME Giorgio)) (VP (VERBO ama)

(NP (NOME Maria) )

)

(63)

Cons%tuent structure

Le relazioni tra le parole non sono tuLe uguali:

“Maria leggeva un libro in biblioteca”

(64)

ES: Penn annota'on

( S

( NP -‐ SBJ (PRP I) )

( ADVP -‐ TMP ( RB never) ) ( VP (VBD had)

( NP (JJ many) (NNS clients) ) ( NP -‐ ADV (DT a) ( NN day) )) ))

NP

VP

NP ADVP

NP S

SBJ

TMP

PRP

RB VBD

NNS DT

NN DT

ADV

(65)

ES: NEGRA annota'on

S VP

HD SB NG

MO HD OA

OC

ADV VVPP VAFIN NE NE ADV

(66)

Cos%tuen% e relazioni

• La struLura relazionale include le informazioni rela%ve all’

organizzazione della frase in unità

• La struLura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole

• La struLura relazionale è più compaLa

(67)

• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle

diverse lingue

• La struLura relazionale include la struLura argomentale

Cos%tuen% e relazioni

(68)

La struLura argomentale

• relazioni gramma%cali

• ruoli seman%ci

• uguali o dis%n%?

(69)

Le relazioni gramma%cali

• Iden%ﬁcabili da varie proprietà

• Diverse nelle varie lingue

(70)

Le relazioni gramma%cali

• Le relazioni sono realizzate

diversamente nelle varie lingue, a seconda dell’uso di casi, inﬂessioni

give someone something

dare a qualcuno qualcosa

(71)

MORPHO SYNT SEM PRAGUE ^semi-

automatic semi-

automatic

NEGRA ^automatic interactive

(probabilistic)

PENN automatic automatic (skeletal)

Processo di annotazione

(72)

Processo di annotazione in TUT

• Part Of Speech tagging automa%co

• Correzione manuale del tagging

• Parsing interaAvo

• Veriﬁca e revisione

(73)

Costruire un treebank

Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.

InfaA è dimostrato che i sistemi di NLP

che oLengono i migliori risulta% sono

quelli che prendono le informazioni da

treebank)

(74)

Costruire un treebank

Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.

È impossibile costruire treebank in modo esclusivamente manuale per mo%vi di

tempo e di correLezza.

(75)

Costruire un treebank

In pra%ca l’annotazione dei treebank è prodoLa da

sistemi automa%ci di analisi morfologica (-‐4%) e sintaAca (-‐10%)

+

annotatori umani che correggono le analisi

prodoLe in modo automa%co

(76)

(77)

(78)

Ogni relazione di TUT può essere composta di 3 elemen%:

•  Morfo-‐sintaAco: features che esprimono la categoria gramma%cale Verb, Noun, …

•  Funzionale-‐sintaAco: relazioni sintaAche come Subject, Object

•  Seman%co: relazioni seman%che come Loca%on, Time, Cause

Turin University Treebank (2)

(79)

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐

ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET +DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING

FALLIRE INTRANS) [8;DET+DEF-‐ARG]

(80)

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce VERB-‐SUBJ

NOUN-‐OBJ NOUN-‐SUBJ VERB-‐OBJ

VERB

NOUN

ADV-‐role ADV-‐role

TUT Componente

morfo-‐sinta`ca

(81)

TUT Componente

morfo-‐sinta`ca

(82)

•  Da% 944 diﬀeren% Verbi per un totale di 4.169 occorrenze nel corpus di TUT

•  Il 30% di ques% Verbi (e le struLure predica%ve argomentali ad essi associate) risulta presente anche in forma nominale

TUT Componente

morfo-‐sinta`ca

(83)

Egli non è stato visto da nessuno Egli non è stato visto da ieri

ARG MOD

TUT Componente

funzionale-‐sinta`ca

(84)

TUT Componente

funzionale-‐sinta`ca

(85)

Da qui è par%to l’assalto

Succedeva dall’altra parte del mondo I miliardi stanzia% dal 1991

Era impazzito dal dolore

Trarrà beneﬁcio dalla boniﬁca LOC+FROM

LOC+IN

TIME

REASONCAUSE SOURCE

TUT Componente

seman'ca

(86)

TUT Componente

seman'ca

(87)

•  Da% 600 sintagmi preposizionali introdoA dalla preposizione DA e che svolgono il ruolo di

modiﬁcatori

•  È stato rilevato che essi possono assumere i seguen% 7 diﬀeren% valori seman%ci: LOC

+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

TUT Componente

seman'ca

(88)

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐

ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET +DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING

FALLIRE INTRANS) [8;DET+DEF-‐ARG]

(89)

Applicare lo schema di annotazione a TUT signiﬁca che ogni sua frase:

• viene parsiﬁcata in modo automa%co dal parser TULE, sviluppato in parallelo con TUT

• correLa da almeno 2 annotatori umani

• veriﬁcata da tool automa%ci apposi%

• soLoposta a conversioni e applicazione di

altri sistemi

(90)

Ricadute del progeao TUT

U%lizzo in 3 diverse direzioni:

•  Come raccolta di da% linguis%ci

•  Come banco di prova per sistemi di NLP

•  Come modello per lo sviluppo di altre

risorse

(91)

•  Come raccolta di da% linguis%ci TUT ha consen%to

•  Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)

•  Studio dell’ordine delle parole nella lingua italiana

Ricadute del progeao TUT

(92)

(in 3500 sentences)

Ricadute del progeao TUT

(93)

•  Come banco di prova per sistemi di NLP

TUT ha consen%to di raggiungere i risulta%

allo stato dell’arte per il parsing

dell’italiano, errore intorno al 10%

•  TUT è il treebank di riferimento nelle

compe%zioni per parser di italiano (Evalita 07, 09, 11, 14)

Ricadute del progeao TUT

(94)

•  Come modello per lo sviluppo di altre risorse, TUT è u%lizzato in:

•  in prospeAva cross-‐linguis%ca, è in corso di sviluppo un treebank parallelo per le lingue italiano, francese e inglese (ParTUT)

•  per lo studio di fenomeni lega% all’espressione di sen%men%, opinioni ed emozioni, è in corso di

sviluppo un corpus di tes% di TwiLer annotato morfologicamente (Sen%TUT)

Ricadute del progeao TUT

(95)

•  INOLTRE: TUT è stato tradoLo in forma% di altri treebank grazie a tool di conversione

automa%ca

•  Questo ha reso possibile l’applicazione di strumen% sviluppa% per tali forma% ed il

confronto tra paradigmi e modelli linguis%ci diﬀeren% nell’ambito del dibaAto su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Linguis’ca computazionale e approcci corpus-­‐based

Linguis'ca computazionale e approcci corpus-­‐based

Cris%na Bosco

Corso di Informa%ca applicata alla comunicazione mul%mediale

2014-­‐2015

Per deﬁnire un sistema di NLP occorre conoscerne i seguen% aspeA:

-­‐ Input

-­‐ Algoritmi

-­‐ Conoscenza linguis%ca -­‐ Output

Sistemi di NLP

INPUT: modalità

Il sistema riceve in ingresso un input in linguaggio naturale

L’input può assumere diverse modalità: scriLo,

parlato, gestuale o una mescolanza di queste tre modalità, che possono anche interagire tra loro.

Noi ci occuperemo speciﬁcamente di linguaggio scriLo, ma non va dimen%cata la complessità

derivante dalle altre, come la sintesi del parlato e i

problemi derivan% dal “rumore”, la percezione ed

interpretazione della gestualità.

Un esempio: l’input nelle lingue dei segni e nel parlato

Nel caso delle lingue dei segni, l’input è gestuale e si deve tenere conto della gestualità delle mani,

principale strumento per “segnare”, ma anche

delle espressioni del viso, della posizione del capo, delle spalle, braccia, ecc.

Queste stesso componen% possono entrare in gioco anche quando il linguaggio è parlato …

l’espressione del viso in mol% casi è una

fondamentale chiave di interpretazione del

signiﬁcato del testo enunciato.

INPUT: lingua e genere

Il sistema riceve in ingresso un input in linguaggio naturale

L’input può contenere tes% di natura molto diversa tra loro a seconda di:

-­‐ Lingua (francese, giapponese, swahili …)

-­‐ Genere testuale (prosa giornalis%ca, TwiLer,

poesia, romanzi, prosa scien%ﬁca, manualis%ca

tecnica, previsioni meteo …)

Il sistema deve anche avere gli algoritmi adegua' a u'lizzare la conoscenza e a produrre un determinato output.

Si deve pertanto assumere che le operazioni da fare sull’input siano ben deﬁnibili, e

trovare un modo per deﬁnirle.

ALGORITMI

Quali sono le operazioni da fare sull’input?

Potrebbero essere le stesse che fanno gli

esseri umani (intelligenza ar%ficiale forte) oppure differen% (intelligenza ar%ficiale debole).

In entrambi i casi possono esserci vari modi di produrre uno stesso output e il modo

migliore può dipendere anche dall’input o dalla conoscenza.

ALGORITMI

I sistemi che traducono in modo automa%co adoLano approcci diversi, traducono

direLamente dalla lingua target alla lingua sorgente oppure tramite la mediazione di interlingue.

Essi u%lizzano %pi di conoscenza diversa,

dizionari, ontologie ecc. (e non tuLe queste basi di conoscenza sono disponibili per tuLe le lingue).

ALGORITMI: un esempio, la

traduzione

Assumiamo che una lingua sia traLabile da un sistema che con%ene la conoscenza

posseduta da un parlante di quella lingua.

Occorre equipaggiare il sistema con tale conoscenza.

CONOSCENZA LINGUISTICA

Il primo problema consiste nel delimitare la conoscenza necessaria alla comprensione del linguaggio.

Essa deve essere rappresentata in modo opportuno (dizionari, ontologie, corpora,

memorie di traduzione, basi terminologiche

…).

CONOSCENZA LINGUISTICA

Inoltre la conoscenza deve essere fornita al sistema in una forma adeguata.

Questo è un problema che è stato molto discusso e che è determinante per chi progeLa un sistema di NLP.

CONOSCENZA LINGUISTICA

Acquisizione della conoscenza

Un sistema che traLa il linguaggio deve avere a disposizione la conoscenza

linguis%ca necessaria.

Ma come si meLe la conoscenza dentro un

sistema?

Acquisizione della conoscenza

Esempio: che conoscenza occorre a un PoS tagger (analizzatore morfologico) per

prendere in input

“il cane dorme in giardino”

e res%tuire in output

“il ART, cane NOUN, dorme VERB, in PREP,

giardino NOUN” ?

Acquisizione della conoscenza

output = il ART, cane NOUN, dorme VERB, in PREP, giardino NOUN

conoscenza =

ART (il), NOUN (cane, giardino), VERB

(dorme), PREP (in)

Acquisizione della conoscenza

Esempio: che conoscenza occorre a un parser (analizzatore sintaAco) per

Linguis’ca computazionale e approcci corpus-‐based

Linguis'ca computazionale e approcci corpus-‐based

2014-‐2015

-‐  Input

-‐  Algoritmi

-‐  Conoscenza linguis%ca -‐  Output

-‐ Lingua (francese, giapponese, swahili …)

-‐  Genere testuale (prosa giornalis%ca, TwiLer,

1)  conoscenza dentro il sistema – rule-‐

2)  conoscenza dentro un corpus di da%

linguis%ci – corpus-‐based

Corpus versus rule-‐based

Corpus versus rule-‐based

Corpus versus rule-‐based

•  nei sistemi corpus-‐based le regole sono apprese, nei rule-‐based sono date

•  nei sistemi corpus-‐based le regole sono probabilis%che, nei rule-‐based sono

Corpus versus rule-‐based

un sistema rule-‐based, ma non in uno

corpus-‐based.

Approccio corpus-‐based

• U%lizzato dai linguis% dalla ﬁne dell’800 e oggi molto diﬀuso

• Consiste nell’apprendere dal linguaggio le

Approccio corpus-‐based

• A causa delle cri%che di Chomsky

l’approccio corpus-‐based non è stato

• Le cri%che che Chomsky porta a questo

Approccio corpus-‐based

• Prima cri%ca:

Approccio corpus-‐based

• Risposta alla Prima cri%ca:

Approccio corpus-‐based

• Seconda cri%ca: