LINGUISTICA
COMPUTAZIONALE (1)
Cris%na Bosco
Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
Di cosa parleremo
-‐ definizione di LinguisEca Computazionale (LC)
-‐ origini della LC
-‐ il problema centrale della LC -‐ alcuni problemi di fondo:
-‐ la grammaEca universale
-‐ competence e performance-‐ approcci a regole e basaE su corpora
-‐ LC e livelli di astrazione
Definizione di LC
Con Tra=amento Automa%co del Linguaggio Naturale (TAL) o il suo equivalente inglese Natural Language Processing (NLP) o
Linguis%ca Computazionale (LC)
si indica quella parte dell’Intelligenza ArEficiale che si occupa specificamente del linguaggio umano disEnguendolo, grazie al termine
NATURALE, dai linguaggi di programmazione o della logica
Definizione di LC
• L'espressione Ar#ficial Intelligence (AI) fu coniata nel 1956 dal matemaEco americano John McCarthy, durante uno storico seminario interdisciplinare svoltosi nel New Hampshire
• Secondo le parole di Marvin Minsky, uno dei
"pionieri" della AI, lo scopo di questa nuova
disciplina sarebbe stato quello di "far fare alle macchine delle cose che richiederebbero
l'intelligenza se fossero fa8e dagli uomini"
Definizione di LC
Lo scopo della LC è la simulazione del
comportamento linguisEco degli esseri umani.
Se questo scopo fosse raggiunto in modo
completo, si avrebbero dei computer in grado di dialogare, comprendendo il significato di
domande e fornendo risposte, di tradurre un testo in una lingua differente, di estrarre
informazioni da tesE, di produrre tesE nuovi.
Origini di LC
Il problema di simulare il comportamento linguisEco è stato centrale fin dalle origini per l’intelligenza arEficiale, perché esso è la più evidente e tangibile espressione dell’intelligenza umana.
Origini di LC
Il problema viene posto esplicitamente in un arEcolo del 1950 di Alan Turing (CompuEng machinery and intelligence) che anEcipa la nascita dell’AI:
“I propose to consider the ques1on, “Can machines think? … the problem can be described in terms of a game which we call imita1on game ... ”
Origini di LC
ImitaEon game:
A – uomo B – donna
C – interrogatore che deve scoprire chi è l’uomo e chi la donna ponendo domande
C si trova in una stanza diversa da A e B e interagisce con loro in forma scriba, cioè tramite un
disposiEvo che impedisce a C di idenEficare A e B tramite la voce o l’aspebo fisico
Origini di LC
Nel gioco l’intelligenza viene rilevata prescindendo totalmente dalle caraberisEche fisiche degli esseri umani e a parEre dalle capacità linguisEche della macchina. Quindi le condizioni sono adabe a
sosEtuire uno degli umani con una macchina.
“What will happen if a machine takes the place of A in this game? ... “
Origini di LC
“May not machines carry out something which ought to be described as thinking but which is very
different from what a man does?
This objec1on is a very strong one, but at least we can say that if, nevertheless, a machine can be constructed to play the imita1on game
sa1sfactorily, we need not to be troubled by this objec1on.”
Se una macchina pensa, forse lo fa in modo diverso da un essere umano ... AI debole o forte?
Origini di LC
Uno dei primi problemi che si è cercato di trabare con il computer è quello della traduzione
automaEca da una lingua ad un’altra, Machine Transla%on (MT).
Ma a causa delle difficoltà emerse nello sviluppo dei sistemi di MT, ci si è rivolE ad approfondire i
problemi del linguaggio naturale anche in modo indipendente dalla MT, dando origine alla LC.
Origini di LC
Riassumendo:
-‐ l’obiegvo della AI è simulare il comportamento umano intelligente
-‐ l’obiegvo della LC è simulare il comportamento linguisEco
-‐ la simulazione prescinde da correlaE fisici
-‐ la simulazione può avvenire in termini di input/
output o anche di processi interni
Il Problema centrale della LC
La costruzione di un qualunque sistema che simula un comportamento richiede una
conoscenza completa ed approfondita di quel comportamento.
Nonostante secoli di scienza linguisEca e di praEca tradugva, la costruzione dei sistemi di MT ha
mostrato quanto limitata fosse la nostra
conoscenza e consapevolezza del linguaggio umano.
E che il saper fare (=competenza) %pico degli esseri umani non è sinonimo di conoscenza.
Il Problema centrale della LC
I principali scopi della LC sono quindi:
-‐ la scoperta dei meccanismi che regolano il nostro linguaggio ed il nostro comportamento linguisEco -‐ la costruzione di teorie che mebano insieme
queste scoperte, cioè trovare nei daE linguisEci e nel comportamento linguisEco il/i livello/i di
astrazione adabo/i a trovare delle regolarità che siano formalizzabili
-‐ la costruzione di sistemi che simulino il
comportamento linguisEco umano (o qualche sua parte) usando i modelli stessi, per testare le teorie e per sviluppare applicazioni
CONOSCENZA del LINGUAGGIO MODELLAZIONE del LINGUAGGIO
SVILUPPO di SISTEMI
Brevissima storia di NLP e MT
-‐ Anni ’30: si costruiscono le 2 prime macchine di MT
-‐ 1949: memorandum “On TranslaEon”
-‐ Anni ‘50-‐’60: si sviluppano i primi sistemi di MT -‐ Anni ‘60: la MT riceve molte criEche
-‐ 1966: viene sElato il rapporto ALPAC -‐ Dopo il 1966: nascono NLP e CAT
-‐ Fine ‘900: si ricomincia a lavorare a MT
Alcuni problemi di fondo
L’approfondimento dello studio del linguaggio ha portato i ricercatori a scoprire una grande varietà di problemi ad esso sobostanE, ad esempio:
-‐ ambiguità nel linguaggio naturale
-‐ variabilità e costante evoluzione del linguaggio naturale
-‐ differenze tra lingue e generi testuali
QuesE problemi hanno un forte impabo sui sistemi di NLP e possono richiedere algoritmi e strubure daE in tubo o in parte diverse tra loro.
Alcuni problemi di fondo.1
Ci sono almeno due domande fondamentali a cui occorre rispondere per decidere come affrontare lo studio del linguaggio umano:
-‐ Il linguaggio è quello che sta nella nostra testa e nelle grammaEche o quello che usiamo per
comunicare? perché non sono affabo la stessa cosa
-‐ in che considerazione dobbiamo tenere le
somiglianze/differenze tra le lingue naturali? le lingue hanno molto o poco in comune?
Competence o performance?
• In Aspects of the Theory of Syntax (1965) Noham Chomsky introduce la disEnzione tra
competence e performance:
• la competence è la capacità linguisEca
idealizzata, collocata tra le proprietà mentali e psicologiche umane
• la performance è l’uso del linguaggio nella
produzione di frasi nell’ambito del processo di comunicazione quoEdiano
Competence o performance?
• Nell’elaborazione della sua teoria linguisEca Chomsky si focalizza sempre sulla competence ed esprime delle criEche nei confronE delle
teorie che mebono al centro la performance.
• A causa dell’importanza e della centralità delle teorie chomskiane nella LC, fin quasi alla fine del XX secolo nessun approccio di NLP si basa sui
daE derivanE dalla performance.
Le criEche di Chomsky
• Prima criEca:
D: Un corpus (insieme di daE linguisEci prodog dai parlanE) può adeguatamente rappresentare un linguaggio?
R: NO, perché il numero di frasi di un linguaggio è infinito, mentre un corpus ne conEene
comunque un numero finito, quindi non tube, e distribuite in modo casuale.
Le criEche di Chomsky
• Risposta alla Prima criEca:
Un corpus può adeguatamente
rappresentare un linguaggio se conEene
un campione staEsEcamente significaEvo
di esso. Non occorre che contenga tube le
frasi di un linguaggio, ma una sua porzione
abbastanza ampia da contenere esempi di
tube le strubure di tale linguaggio.
Le criEche di Chomsky
• Seconda criEca:
D: Perché studiare il linguaggio tramite
osservazione direba invece che introspezione?
R: Nella nostra mente (grazie alla competence) sono presenE tube le strubure correbe del
linguaggio, mentre lo stesso non può accadere in un corpus per quanto grande.
Le criEche di Chomsky
• Risposta alla Seconda criEca:
Solo l’osservazione direba ci può dare conto di come il linguaggio è realmente usato,
del fabo che i parlanE riescono a
comunicare tra loro nonostante errori e
rumore.
razionalismo vs empirismo
La posizione di Chomsky è razionalis%ca e fondata su daE arEficiali e giudizi introspegvi che sono
espressione della nostra conoscenza interiorizzata del linguaggio (competence).
Al contrario l’approccio empiricista e fondato sull’osservazione di daE naturali che sono espressione empirica della conoscenza del linguaggio (performance).
Da queste due posizioni teoriche dipendono i due approcci uElizzaE in NLP: rule-‐based e corpus-‐
based.
razionalismo vs empirismo
I primi sistemi e molE di quelli sviluppaE prima
della fine del XX secolo preferivano approcci che privilegiavano la competence (rule-‐based), che si fondano su un insieme di regole fornito al
sistema in forma struburata.
Oggi nella LC prevalgono invece gli approcci basaE sulla performance (corpus-‐based), che
obengono le regole operando astrazioni da ampie raccolte di esempi e valutandone la frequenza.
Alcuni problemi di fondo.2
Se fosse possibile ritrovare, al di là delle
differenze, una condivisione di principi tra le diverse lingue ed una strubura basilare
comune a tug i linguaggi, allora si potrebbero trabare tube le lingue con approcci e sistemi simili.
Ma esistono principi comuni a tube le lingue?
Secondo la teoria della GrammaEca Universale (GU) proposta da Noham Chomsky, quesE
principi esistono.
NLP: esiste una GU?
La GU è una teoria linguisEca secondo la quale i principi della grammaEca sono condivisi da tube le lingue, e sono innaE in tug gli esseri umani.
Chomsky propose questa teoria per spiegare l’acquisizione del linguaggio in presenza di sEmoli limitaE (povertà dello s1molo): il
bambino può imparare bene e in freba la sua lingua madre perché ha già innata parte della conoscenza necessaria a usare il linguaggio.
Chi parla fluentemente una lingua sa quali espressioni sono accebabili nella propria
lingua e quali espressioni sono inaccebabili.
L'enigma chiave è capire come chi parla riesce a comprendere le restrizioni del proprio
linguaggio, dal momento che le espressioni che violano tali restrizioni non vengono
percepite durante l'apprendimento, né vengono indicate come tali.
NLP: esiste una GU?
Lo sEmolo offerto a chi apprende non conEene prove che un'espressione appartenga alla
classe di frasi grammaEcalmente scorrebe e le espressioni scorrebe non vengono proposte a chi apprende la lingua.
La GU conterrebbe le restrizioni su come è fabo il linguaggio che portano chi apprende a non poter generalizzare le regole in modo illecito.
NLP: esiste una GU?
L'idea di regole universali è presente già nel
pensiero di Fancesco Bacone e dei grammaEci speculaEvi che postulavano regole universali alla base di tube le grammaEche, e sta alla base di molte teorie filosofiche sul linguaggio elaborate nel XVII secolo.
NLP: esiste una GU?
Secondo G. Sampson le teorie sulla GU non sono refutabili in quanto le generalizzazioni
grammaEcali alla base della GU sono
speculazioni sulle lingue esistenE, e non
valutazioni predigve sulle possibilità di una lingua.
La povertà dello s1molo si spiega osservando
che chi apprende un linguaggio può ipoEzzare da solo le restrizioni grammaEcali notando
l'assenza di una certa classe di espressioni.
NLP: esiste una GU?
Alcuni approcci alla MT presuppongono
l’esistenza di una sorta di GU, ma si sono
rivelaE in praEca non realizzabili perché la GU non è facile da descrivere.
Si è rivelato in generale molto difficile descrivere completamente una lingua tramite regole.
MA dobbiamo considerare queste delle prove empiriche del fabo che non esiste una GU?
NLP: esiste una GU?
La soluzione per quesE problemi non è certa e la storia della LC mostra che sono staE causa di differenE paradigmi.
La disEnzione competence/performance è alla base della disEnzione rule-‐based/corpus-‐
based.
La credenza o rifiuto della GU è alla base degli approcci di MT basaE su forme di interlingua.
Alcuni problemi di fondo. Conclusione
LC e livelli di astrazione
Il compito che NLP deve affrontare è quello di COMPRENDERE IL LINGUAGGIO NATURALE.
Si traba di un compito estremamente
complesso, anche se non percepito come tale dagli esseri umani. La LC, per affrontarlo,
tradizionalmente opera astrazioni in due modi:
• suddividendo tale compito in sobocompiE più semplici
• considerando separatamente aspeg diversi del linguaggio
LC e suddivisione in soboproblemi
Il compito di COMPRENDERE IL LINGUAGGIO
NATURALE viene suddiviso in sobocompiE più semplici in cui occorre solo una parziale
comprensione del linguaggio:
-‐ InformaEon ExtracEon -‐ InformaEon Retrieval -‐ Machine TranslaEon
-‐ SenEment Analysis e Opinion Mining -‐ …
LC e livelli di astrazione
Per COMPRENDERE IL LINGUAGGIO NATURALE se ne possono osservare separatamente
aspeg diversi:
-‐ morfologia -‐ sintassi
-‐ semanEca -‐ pragmaEca
LC e livelli di astrazione
Ad ogni livello di astrazione si risolvono diversi problemi ed in parEcolare:
-‐ trabamento delle ambiguità
-‐ rappresentazione adaba ai sistemi di NLP
-‐ acquisizione e uElizzo di conoscenza linguisEca nei sistemi di NLP
Cosa significa comprendere il linguaggio naturale?
Comprendere un linguaggio naturale significa essere in grado di associare UNA SOLA
interpretazione ad ogni espressione di tale linguaggio.
Dove con espressione si intende: parola, sintagma, frase …
Human Language Understanding
• Si basa su una complessa conoscenza grammaEcale e lessicale
• È supportata da una almeno altrebanto ampia conoscenza del mondo
• Insomma ... comprendere l’informazione
codificata nel linguaggio richiede una quanEtà di conoscenza e competenza
Livelli di strubura linguisEca
• foneEco: suoni del parlato, come vengono prodog, come vengono percepiE
• fonologico: la strubura grammaEcale dei suoni e del sistema sonoro
Ogni lingua ha delle convenzioni in base alle
quali cerE suoni e certe composizioni di lebere sono accebabili ed altri no:
ca / tcha / ça taogt / gabo
Livelli di strubura linguisEca
Livello morfologico: come le sobo-‐unità delle parole si combinano per formare la parola
* remangia vs mangiare silavare vs lavarsi
RIGUARDA LA SINGOLA PAROLA PRESA IN
ISOLAMENTO, quindi non dipende in alcun modo dal contesto (sintagco o semanEco)
Livelli di strubura linguisEca
Livello sintagco: come le parole si combinano per formare la frase
In italiano: * bianco Giorgio il vuole pane * Vuole bianco Giorgio pane il Giorgio vuole il pane bianco In toba batak: Manjaha buku guru i
legge libro maestro il
RIGUARDA LA FRASE, e dipende dall’ordine delle parole in essa, ma non solo
Livelli di strubura linguisEca
Livello semanEco (lessicale e proposizionale): che cosa significa ogni parola e come i significaE delle parole si combinano per formare il significato della frase
* la macchia invisibile crede nel cielo
* idee verdi senza colore sognano furiosamente
Livelli di strubura linguisEca
Livello pragmaEco: in che modo i significaE delle frasi sono uElizzaE per manifestare gli scopi
comunicaEvi degli esseri umani all’interno del contesto e della situazione di enunciazione
-‐ La casa è la prima che trovi svoltando a destra dopo il teatro
-‐ La prima nobe di San Silvestro del nuovo millennio
-‐ Questo è bello
Livelli di strubura linguisEca
Ogni livello ha le sue peculiarità, comporta
determinate conoscenze e rappresenta un modo diverso di vedere i daE linguisEci.
Ma tug i livelli sono fondamentali per la
comprensione del linguaggio, in cui I livelli sono organizzaE gerarchicamente: si parte dai livelli più bassi per arrivare alla morfologia, alla sintassi, alla semanEca e alla pragmaEca.
Problemi
Oltre alla molta conoscenza che la
comprensione del linguaggio richiede, il
principale problema del NLP è la pervasiva ambiguità del linguaggio a tuP i livelli di analisi.
Noi vedremo in modo specifico i livelli morfologico e sintagco, che sono quelli
maggiormente interessanE dal punto di vista della traduzione.
Cosa è l’ambiguità?
Quando una frase conEene una ambiguità non è possibile darne una (SOLA) interpretazione.
Questo è un grosso problema per un sistema di NLP.
Perchè ci interessa l’ambiguità?
Gli esseri umani hanno una quanEtà di conoscenza grazie alla quale
non percepiscono
molte delle ambiguità che invece una macchina trova nel linguaggio.
Ambiguità morfologica
Trans-‐categoriale:
-‐ “Tug hanno un TELEFONINO e a chi TELEFONINO non si capisce”
-‐ PESCA nome (il frubo, lo sport) verbo (lo sport, l’estrazione, ...)
aggegvo (il colore)
Ambiguità semanEca lessicale
brucia (bruciare, 3a persona, ind. pres., intr.):
-‐ La carta brucia (“è un combusEbile”)
-‐ La casa di Mario brucia (“ha preso fuoco”) -‐ Il peperoncino brucia (“è piccante”)
-‐ La minestra brucia (“è troppo calda”) -‐ La gola brucia (“causa dolore fisico”)
-‐ La condanna brucia (“causa dolore mentale”)
Ambiguità sintagca
Può essere indipendente dall’ambiguità morfologica: “Giorgio vide un uomo nel parco con il telescopio”
Può causare ambiguità semanEca: “Giorgio vide un uomo con un telescopio”
Può essere relaEva alle relazioni
grammaEcali: “Chi uccise il poliziobo?”
Ambiguità sintagca
Può essere locale, nel senso che una parte della frase ammebe diverse analisi, ma solo una di queste analisi è valida per la frase intera:
“I soldaE, avverEE del pericolo ...
..., condussero il raid di mezzanobe.”
“I soldaE, avverEE del pericolo ...
... i cibadini, condussero il raid di mezzanobe.”
Ambiguità sintagca
Può essere globale ed anche irrisolvibile se la frase completa ammebe più analisi tube
valide:
“La vecchia porta la sbarra”
Ambiguità semanEca
Può essere determinata dall’ambiguità presente ad altri livelli, e può dipendere dai
quanEficatori:
-‐ Ogni uomo ama una donna
= per ogni singolo uomo, esiste una singola donna che egli ama
= esiste una sola singola donna che ognuno degli uomini (preso singolarmente) ama
Ambiguità e LC
In sostanza l’organizzazione in categorie di
conoscenza linguisEca ci consente di vedere il trabamento del linguaggio come il lavoro di risolvere l’ambiguità ad ognuno dei livelli di astrazione separatamente.
Anche una frase molto semplice può contenere un gran numero di ambiguità.
Ambiguità e LC
I made her duck
Io ho cucinato un’anitra per lei
Io ho cucinato un’anitra che apparteneva a lei
Io ho creato l’anitra (di qualche materiale) che lei possiede
Io ho fabo si che lei abbassasse rapidamente la testa
Io ho trasformato lei in un’anitra (con la mia baccheba magica)
Ambiguità e LC
I made her duck
duck: nome e verbo
her: pronome daEvo o aggegvo possessivo
make: creare e cucinare, transiEvo e ditransiEvo, prende oggebo e verbo