Annotazione pragmati..>

(1)

AVIP

ANNOTAZIONE MORFOSINTATTICA E

TESTUALE-PRAGMATICA

Giacomo Ferrari*

Claudia Soria°

Elisa Milos*

* Dipartimento di Studi Umanistici

Università Piemonte Orientale "A.Avogadro"

Via G.Ferraris 109

13100 Vercelli

e-mail:

[email protected]

° Istituto di Linguistica Computazionale

CNR – Area di Ricerca

56100 Pisa

e-mail:

[email protected]

(2)

1 IL TESTO ANNOTATO: PERCHE'

1.1 Storia del problema

Negli ultimi dieci anni si è diffuso sempre più l'interesse per la costruzione e la diffusione di raccolte di materiale linguistico empirico, come raccolte di testi di varia provenienza, materiale lessicale, campioni di linguaggio parlato. Senza pretendere di scrivere un capitolo nuovo della storia della linguistica, riconosceremo facilmente le motivazioni di una simile tendenza da un lato nella crisi di certi modelli linguistici teorici, dall'altro nell'imporsi di certe necessità di natura ingegneristica.

Da un lato, infatti, i modelli della competenza, pur fornendo spiegazioni precise ed approfondite per numerosi fenomeni linguistici, non riescono a soddisfare le esigenze di descrizione esaustiva di un sottoinsieme di lingua sufficientemente significativo (ad es. Graffi[6]). Riprendono forza, quindi, i modelli dell'esecuzione, fondati sulla ricognizione di materiale effettivamente prodotto, così come accadeva negli anni 70 (cfr. Alisova [1], LIF [2]).

La spinta maggiore deriva tuttavia dagli approcci computazionali ingegneristici che mirano al duplice obiettivo di:

- raccogliere dati preclassificati in modo tale da poter dedurre automaticamente le strutture linguistiche al momento in cui sia necessario dedurle; il legame di questo approccio con la tecnologia dei sistemi che apprendono automaticamente dai dati è evidente.

-

definire una tecnologia stabile per l'acquisizione, la classificazione e l'utilizzazione automatica di dati linguistici. La nozione di apprendimento automatico si estende, qui, alla totale automazione del ciclo di acquisizione-apprendimento-utilizzazione.

La diffusione attuale dell'interesse per questo genere di approccio si motiva anche con l'attuale facilità di accesso a risorse di calcolo a basso costo e all'uso sempre più diffuso della rete telematica, che rende facilmente reperibile ed utilizzabile il materiale, anche a distanza. Esiste, tuttavia, una lunga tradizione in questo senso, che ha prodotto, anche nel passato, raccolte illustri come il Trésor de la Langue Française (TLF), il British National Corpus, la PennTreeBank (cfr. [9]), il MapTask (cfr. [7]).

Oggi esistono numerose iniziative di ulteriore raccolta, circolazione ( come ELRA [4], SIGDIAL [10]), standardizzazione ed uniformazione dei dati (come EAGLES [3]). Esistono ricerche per la costruzione di sistemi più o meno automatici di acquisizione e registrazione dei dati (come, ad esempio, GATE [5]).

Ad oggi, la quantità di materiale linguistico raccolto e predisposto con gradi diversi di sofisticazione è immensa, anche se si lamentano continuamente lacune in singoli settori specialistici o per specifiche lingue. E' diventato costume corrente promuovere l'acquisizione e fare uso di

corpora che costituiscono, in quanto materiale empirico disponibile all'indagine scientifica come

(3)

1.2

Requisiti di un corpus

Raccogliere materiale linguistico, sia che provenga da fonti testuali edite che da raccolte specifiche finalizzate a qualche obiettivo puntuale, non è sufficiente a formare un corpus. Un corpus deve, infatti, essere predisposto in modo tale che se ne possa estrarre “conoscenza” linguistica nuova. Per conseguire questo scopo è necessario che le unità linguistiche principali siano evidenziate. Questo è il compito fondamentale di chi acquisisce dati e li costituisce in “risorsa linguistica”, ma è anche il paradosso principale della “corpus-based linguistics”. Da un lato, infatti, nel predisporre un metodo di segnalazione delle principali unità linguistiche si fa necessariamente ricorso a nozioni teoricamente delimitate, dall'altro, le unità segnalate devono corrispondere a criteri di genericità e preteoricità, tanto da permettere un utilizzo del dato empirico il meno teoricamente preconcetto possibile.

Quindi, lo sforzo di chi costruisce corpora linguistici è quello di trovare un equilibrio tra l'utilizzo di nozioni teoricamente determinate e l'impianto preteorico del progetto. Questo sforzo costituisce anche il fulcro delle operazioni di standardizzazione ed uniformazione menzionati nella sezione precedente.

Facendo ricorso, quindi, ad un massimo comun denominatore di concetti linguistici, si identificano, al di là dei livelli fonetici, fonologici e prosodici, almeno quattro livelli di analisi dell'espressione linguistica: a) quello lessicale e morfologico, che consiste nell'identificare le parole e le rispettive proprietà morfo-sintattiche, b) quello sintattico, che consiste nel delimitare le unità sintattiche di base (i costituenti), c) il livello coreferenziale, riferito alle catene anaforiche o altri mezzi di coreferenza, e d) le unità di discorso, cioè le unità comunicative minime al di sotto o al di sopra della frase.

Non è il caso, in questa sede, di esaminare nel dettaglio le diverse posizioni teoriche che emergono. Basta dire che, per ognuno di questi livelli esistono diversi sistemi di classificazione che si realizzano, in ogni caso, con insiemi chiusi di etichette. Così, ad esempio, a livello morfo-sintattico, si può accettare il sistema tradizionale delle parti del discorso (nome, verbo ecc.) oppure la distinzione tra funzione e funtore, se si accetta, ad esempio, un modello categoriale; in ogni caso le etichette formano degli insiemi chiusi tra cui scegliere per classificare ciascuna parola.

Una volta compiuta questa scelta e fissato il sistema di etichette, non resta che attribuire un'etichetta a ciascuna unità linguistica selezionata a ciascun livello. Si dovranno, quindi, etichettare le parole, i sintagmi, gli elementi coreferenziali o le unità di discorso. Tuttavia, la stessa definizione delle unità di base che devono essere classificate secondo un determinato insieme di categorie non è di immediata soluzione. Se, per esempio, esiste un determinato grado di consenso relativamente a “che cosa” rappresenti una parola, la determinazione di che cosa rappresenti un sintagma, un elemento coreferenziale o una unità di discorso è altamente dipendente dalla teoria di riferimento, e quindi varia parallelamente al variare delle categorie di classificazione delle stesse unità in tipi.

Tutto questo processo è noto come “annotazione del testo” ed il risultato sarà un testo annotato. Anche se l'obiettivo finale di un lavoro di annotazione è quello di avere un testo dal quale sia possibile estrarre il massimo della conoscenza linguistica, i casi di testi annotati a tutti i livelli linguistici citati sono abbastanza rari; viceversa, sono molto più frequenti corpora annotati solo per alcuni aspetti, come la PennTreeBank (cfr. [9]), che è annotata a livello morfo-sintattico, o il corpus TRAINS (cfr. [13] ), annotato a livello di discorso. In ogni caso, ciascun livello di annotazione costituisce un universo teorico autonomo, nell'ambito del quale l'ideatore del sistema di annotazione cerca di far convivere una visione precisa delle unità da etichettare con un approccio il più possibile preteorico.

(4)

2 IL

CORPUS

AVIP

Il lavoro compiuto sul corpus di AVIP ha costituito una sorta di studio di fattibilità sull'annotazione estensiva del corpus stesso. Gli obiettivi prefissati erano:

1. l’identificazione dei problemi relativi alla costituzione di un corpus annotato a tutti i livelli, dal segnale acustico al livello pragmatico delle unità di discorso, passando attraverso una interfaccia complessa e, talora, ingannevole, come la trascrizione ortografica;

2. l’identificazione dei problemi specifici di annotazione di linguaggio parlato (i lavori sul parlato non sono frequentissimi) a diversi livelli di analisi;

3. l’utilizzo di tecniche di annotazione in linea con la ricerca più avanzata nel campo della standardizzazione e l'integrazione dei metodi;

4. la verifica della facile utilizzabilità delle tecniche scelte, in vista di un lavoro più estensivo e ripetitivo, da poter affidare in parte a metodi automatici ed in parte a personale non specificamente qualificato.

Le risposte a queste quattro quesiti appariranno nel seguito del presente rapporto. Per compiere la sperimentazione si è proceduto all'etichettatura dei seguenti tre dialoghi ai livelli di seguito descritti:

Napoli A01 annotazione

pragmatica

Napoli C02 annotazione

pragmatica1

Pisa C03 annotazione

pragmatica2

ann. coreferenza ann. Morfosintattica

Bari B02 annotazione

pragmatica2

Per quanto concerne l’annotazione pragmatica relativa alle cosiddette “mosse dialogiche” (moves) o “atti dialogici”, si è adottata come guida quella propria del MapTask originale (cfr. sotto e anche [7]). Il motivo di questa scelta risiede principalmente nel fatto che lo schema di annotazione a cui ci si riferisce con “MapTask” è stato sviluppato per la stessa tipologia di dialoghi che è rappresentata nel corpus AVIP, ovvero dialoghi uomo-uomo finalizzati all’esecuzione del compito di ripercorrere un determinato percorso in base ad una mappa. Per questo motivo le categorie usate nello schema di annotazione sono altamente significative e specializzate per cogliere le peculiarità degli atti linguistici che verosimilmente occorrono in questo tipo di dialoghi. Si è inoltre tenuto conto del fatto che usare le stesse categorie, e per di più con la stessa etichetta inglese, facilita eventuali confronti fra i due corpora. Si fornisce, tuttavia, un campione minore annotato secondo lo schema DAMSL (cfr.[10]) per confronto.

(5)

Per quanto concerne l'annotazione morfo-sintattica si sono attribuite solo le etichette di parte del discorso (Part of Speech, POS), utilizzando lo schema elaborato dal progetto MATE (cfr. [8]), che a sua volta rappresenta un'estensione delle raccomandazioni di EAGLES (cfr.[3]). Non sono state apposte etichette di sottocategorizzazione né morfologica (genere, numero, persona ecc.) né classificatoria (pronomi personali, possessivi, indefiniti ecc.).

L'annotazione delle coreferenza si è conformata anch'essa allo schema del progetto MATE, segnalando le catene coreferenziali, ma senza segnalare le tipologie. Infatti, mentre i collegamenti coreferenziali sono in generale universalmente accettabili, esistono numerose teorie diverse sulla classificazione del tipo di ripresa.

L'annotazione è stata condotta per lo più in modo puramente manuale. Solo per l'annotazione delle unità dialogiche secondo lo schema MapTask ci si è avvalsi di un sistema di annotazione semiautomatica, utilizzando lo strumento TATOE (cfr . [12]).

3 DALLA

TRASCRIZIONE

ALL'ANNOTAZIONE

La trascrizione, ovvero la rappresentazione in forma testuale dello scambio vocale, si conforma tradizionalmente ad alcuni standard di rappresentazione suoi propri che, tuttavia, possono creare dei problemi durante l'annotazione. Per questo motivo si è intervenuti sulla trascrizione con alcuni interventi di editing, secondo i principi seguenti:

1.- tutte le unità grafiche sono considerate parole e, come tali, dotate di una numerazione propria. Sono stati inoltre inclusi i seguenti fenomeni:

- le parole interrotte e le false partenze, eliminando segni di interruzione come + o / ; - le ripetizioni, contate ciascuna come una parola autonoma;

- le parole che formano locuzioni sono considerate come unità distinte; anche espressioni come "va be'", che è chiaramente un unico discourse marker, è trattato come due parole separate e codificate come DM (appunto discourse marker);

- le varie vocalizzazioni (mh, eeeh ecc.);

2.- i commenti alla trascrizione sono stati trattati in modi diversi. Le note dei trascrittori, di solito alcune righe di testo esplicativo, sono state trattate come commenti; le indicazioni sulla forma della singola parola (es.: "dialettale") o sull'articolazione (es.: "sussurrato", "ipoarticolato" ecc.) sono state attribuite come proprietà alle singole parole. Rumori ("RUMORE"), schiocchi di lingua, inspirazioni, sospiri e pause vuote sono stati categorizzati a parte.

3.- sono stati rimossi tutti i segni di interpunzione, inclusi punti interrogativi ed esclamativi, che a nostro parere devono essere considerati come sostituti provvisori di una più accurata annotazione intonativa.

4.- in alcuni casi, le trascrizioni includono delle pause tra la fine di un turno e l'inizio del turno successivo; nell'annotazione la pausa viene invece inglobata alla fine del turno precedente, considerando che, in molti casi, può essere proprio la pausa che induce l'autoselezione del turno successivo.

(6)

4 GLI SCHEMI DI ANNOTAZIONE

Qui di seguito illustriamo i diversi schemi di annotazione, cioè l'insieme delle etichette adottate per ciascun livello, con un minimo di spiegazione e giustificazione. I livelli annotati sono stati tre, quello morfosintattico, quello coreferenziale e quello pragmatico-dialogico, per il quale sono stati usati, per confronto, due schemi diversi.

4.1 Livello morfosintattico (PoS tagging)

Per quanto concerne il POS-tagging, è stato adottato il sistema MATE. Lo schema MATE, che rielabora, perfezionandola, le raccomandazioni di EAGLES, riconosce le seguenti categorie:

Simbolo Categoria Esempio

N Nome cane, Liolà

V Verbo vai, hai, è, visto, …

AJ Aggettivo anomalo, verde, …

PD pronome/determinatore te, questo, ‘sto, lo, …

AT Articolo un, la, …

AV Avverbio molto, lontano, …

AP Adposizione di, per, con, …

AP/AT preposizione articolata dello, sulla, …

C Congiunzione e, ma, perché, …

NU Numerale due, quattro, primo, …

I Interiezione ah!, dai!, …

DM “discourse marker”2 _{perché, allora, ora, …}

F filler3 _{eeh, mm, …}

U unico4 _{negazione, “ci” esistenziale}

R Residuo materiale non classificabile

La categoria PU, usata in MATE per annotare i segni di punteggiatura, non è stata usata in

quanto tutti i segni di punteggiatura sono stati rimossi.

La categoria morfosintattica è stata specificata come valore dell’attributo "pos", anziché "type" come in MATE, come illustrato nell’esempio che segue (per i dettagli del formato di rappresentazione vedi oltre, cap. 5):

<w id="w_02" pos="U">ce</w> <w id="w_03" pos="PD">l'</w> <w id="w_04" pos="V">hai</w> <w id="w_05" pos="AT">un</w> <w id="w_06" pos="N">bar</w> <w id="w_07" pos="AP">da</w> <w id="w_08" pos="N">Liolà</w>

2_{Categoria riferita ad avverbi, congiunzioni e piccole frasi che segnano passaggi all'interno di un discorso; data la}

scelta di isolare le singole parole, l'etichetta è stata attribuita alle parole va e be' separatamente, nell'espressione "va be'”.

3_{Classifica i cosiddetti “riempitivi di pause” o “segnali di esitazione”.}

(7)

Le etichette sono state attribuite una per ciascuna parola ortografica e nessuna locuzione o espressione formata da più di una parola è stata etichettata come elemento unico. Questo ha, come conseguenza, che alcune espressioni hanno richiesto che ciascun elemento abbia ricevuto una sua etichetta, spesso identica all'altro elemento. Così, nel marcatore "va be'" ciascun elemento è stato etichettato DM. Ugualmente, nelle locuzioni preposizionali "sopra a", "sotto a" ecc., entrambi gli elementi sono stati marcati AP.

Sono state classificate U (unico), le parole "sì, no, non, ci/ce (esistenziale)"; N (nome) le parole "sinistra, destra ecc." in espressioni come "a destra, a sinistra".

4.1.1 Problemi emersi

L'etichettatura delle parti del discorso non ha presentato particolari problemi nel caso di parole intere e ben inserite nel contesto. Più complesso è invece il trattamento degli enunciati interrotti. Questi si configurano secondo due tipologie fondamentali:

1. l'interruzione occorre nel corpo di una parola; in questo caso confliggono due interessi, quello di segnalare l'interruzione anche a livello morfo-sintattico e quello di indicare la categoria (spesso facilmente identificabile) dell'elemento interrotto. Si è scelta una via intermedia di classificare come R (residual) quei frammenti che risultano troppo ridotti per essere classificati in modo inequivocabile, e di assegnare una categoria piena ai frammenti facilmente identificabili.

2. l'interruzione lascia in ultima posizione una parola chiaramente categorizzabile in un modo se la frase fosse stata terminata, ma categorizzabile diversamente in finale assoluta; questo è il caso di parole come "sopra, sotto", avverbi in isolamento, preposizioni se appoggiate al sostantivo caduto con la sospensione. Si è preferito categorizzarli secondo la "categoria intesa" piuttosto che in base a quella "constatabile".

4.1.2 Altre unità

Sono state trattate come unità autonome e diverse dalle parole:

- le vocalizzazioni (vocal) prodotte dai parlanti come inspirazione, f.vocale, risata ecc. Esempio:

<vocal id="v_002" desc="inspirazione"/> <pause id="p_002" type="l"/>

<w id="w_009">scendi(ii)</w> <pause id="p_003" type="b"/> <w id="w_010">eeh</w>

<pause id="p_004" type="b"/> <w id="w_011">da</w> <w id="w_012">eeh</w> <w id="w_013">dal</w> <w id="w_014">punto</w> <w id="w_015">di</w> <w id="w_016">partenza</w> <pause id="p_005" type="l"/> <w id="w_017">eeh</w>

(8)

- le pause vuote (pause), sottocategorizzate come da trascrizione (l = lunga, b = breve, P) Esempio:

<w id="w_009">scendi(ii)</w> <pause id="p_003" type="b"/> <w id="w_010">eeh</w>

<pause id="p_004" type="b"/> <w id="w_011">da</w> <w id="w_012">eeh</w> <w id="w_013">dal</w> <w id="w_014">punto</w> <w id="w_015">di</w> <w id="w_016">partenza</w> <pause id="p_005" type="l"/> <w id="w_017">eeh</w>

<pause id="p_006" type="b"/> <w id="w_019">a(aa)</w> <w id="w_020">ehm</w>

- rumori ed altri eventi "fuori campo" (event) Esempio:

<event id="e_002" desc="rumore"/>

<w id="w_415" artic="sussurrato">sopra</w> <w id="w_416" artic="sussurrato">a</w> <event id="e_003" desc="rumore"/>

<w id="w_417" artic="sussurrato">stagno</w> <event id="e_004" desc="RUMORE"/>

<pause id="p_086" type="P"/> <w id="w_418">molto</w> <w id="w_419">sopra</w> </turn>

Ciascuno di questi elementi fa parte integrante della sequenza del messaggio e, ad eccezione delle pause, è riconducibile al fenomeno di sovrapposizione (overlap). Per quanto riguarda quest'ultimo fenomeno, sono state esplicitate solo la sovrapposizione effettiva di due porzioni di messaggi. Al contrario, indicazioni come "dialettale", espresse nella trascrizione come le sovrapposizioni (#----#) sono state associate alle singole parole come proprietà (form).

Esempio:

<pause id="p_170" type="l"/> <w id="w_880">allora(aa)</w>

(9)

<w id="w_882" form="dialettale">voglio</w> <w id="w_883" form="dialettale">sape'</w> <w id="w_884"> se</w> <w id="w_885">sta</w> <w id="w_886">alla</w> <w id="w_887">mia</w> <w id="w_888">sinistra</w> <w id="w_889">non</w> <w id="w_890">alla</w> <w id="w_891">mia</w> <w id="w_892">destra</w> <pause id="p_171" type="b"/> </turn>

4.2 Coreferenza

Anche l'annotazione della coreferenza è stata condotta utilizzando una versione semplificata dello schema MATE. L'annotazione di questo livello, anche se tecnicamente non presenta difficoltà estreme, è concettualmente complessa e si articola in più fasi.

La prima fase consiste nell'identificazione delle "discourse entities", cioè delle unità che costituiscono effettivamente elementi referenziali puri. In questo senso, interpretando le indicazioni alquanto restrittive del MAPTASK originale abbiamo considerato i riferimenti ai "landmarks" sulla

mappa (“il bar da liolà”, “il lago anomalo” ecc.) ed eventuali riferimenti a parti di tali "landmarks" (“la curva intorno al lago”, “la sponda” ecc.). Non sono stati considerati, invece, le espressioni referenziali "automatiche", cioè esterne al discorso ed accessibili per "default" a causa della natura del "task" da svolgere (“il foglio”, “la partenza”, “l'arrivo”) in quanto l'antecedente deve essere ricercato al di fuori della realtà linguistica.

La seconda fase consiste nell'identificare il "capo-catena" ed i suoi collegati, ovvero l’antecedente e le espressioni coreferenziali. Il capo-catena diventa un numero di riferimento cui collegare tutti i successori. Il collegamento avviene utilizzando una coppia di elementi dedicati, ovvero l’elemento "coref-link", che identifica l'elemento o gli elementi da collegare, e l’elemento "coref-anchor", che identifica il "capo-catena". Si è considerato sempre un unico capo-catena per testo, trascurando eventuali casi di riapertura a distanza di uno spazio coreferenziale.

Il tipo "coref-seg" che serve, in alternativa con l'identificatore "coref-de" ad identificare quelle espressioni coreferenziali implicite (come ad es. le marche verbali), viene esteso, nello schema MATE, su interi sintagmi, mentre noi abbiamo preferito riferirlo al singolo elemento portatore di marca morfologica.

Pur con queste differenze, il sistema di annotazione ha dato prova di robustezza e facilità di utilizzazione.

4.3 Annotazione pragmatica

L’annotazione pragmatica consiste nell’identificare la funzione che un segmento ha nei confronti del contesto, inteso come contesto verbale (le enunciazioni che precedono e seguono) o contesto situazionale (le azioni che i partecipanti al dialogo compiono, le credenze che un determinato messaggio induce nell’ascoltatore e manifesta come possedute dall’emittente). L’annotazione pragmatica di un segmento come “Vai a destra” può, ad esempio, esplicitare che quella frase, in quel contesto, rappresenta l’emissione di un ordine, e/o rappresenta una risposta ad una domanda precedente, o ancora, a seconda del contesto e/o della particolare intonazione con cui compare, una chiarificazione o una richiesta di conferma. Per l’estrema varietà degli aspetti pragmatici che possono voler essere esplicitati da uno schema di annotazione, le categorie possibili sono virtualmente infinite: esistono pertanto tanti schemi di annotazione quante sono le teorie, scopi

(10)

applicativi e orientamenti scientifici che motivano un tale tipo di annotazione. Per l’annotazione del corpus AVIP sono stati scelti due schemi di annotazione: lo schema MapTask e lo schema DAMSL. I motivi alla base di questa scelta sono, per il primo, il fatto che si tratta di uno schema sviluppato per una tipologia di dialogo analoga a quella rappresentata nel corpus AVIP; Damsl rappresenta invece uno schema originariamente progettato per essere applicabile ad una vasta tipologia di dialoghi, attraverso un ricca ed esaustiva caratterizzazione dei possibili diversi aspetti pragmatici che un’enunciato può ricoprire.

4.3.1 Lo schema di annotazione MapTask

Nello schema di annotazione MapTask l’unità minima di analisi dei dialoghi è rappresentata dalla mossa (move). Una mossa corrisponde in modo biunivoco ad un segmento (enunciazione), mentre un turno è composto da una o più mosse; le etichette usate per denominare le mosse corrispondono all’intenzione comunicativa che motiva l’enunciazione.

Le mosse si distinguono in mosse di inizio e mosse di risposta, a seconda della funzione principale che una certa enunciazione sembra assolvere. Caratteristica comune di tutte le mosse di inizio è il fatto che esse attivano l’attesa di un’altra mossa. Mosse di inizio tipiche sono le domande, la cui enunciazione da parte di un partecipante determina l’attesa di una risposta da parte dell’altro. Le mosse di risposta, viceversa, sono quelle mosse che soddisfano l’attesa creata da una mossa di inizio.

4.3.1.1 Mosse di Inizio

•

INSTRUCT

Mediante una mossa INSTRUCT si ordina al partner di eseguire un’azione qualsiasi, purché

diversa da quella implicita nelle domande (per es., “dimmi la risposta a questa domanda”). L’ordine può essere piuttosto indiretto, purché sia evidente che vi è un’azione specifica che colui che ordina vuole stimolare. Nel map task, le mosse INSTRUCT sono in genere quelle in cui il giver spiega al

follower la strada da seguire.

Esempio:

o G: vai verso il banano <....> [instruct]

o G: però ti tieni <..> al di sotto del banano <....> [instruct] o G: giri intorno al banano [instruct]

o G: vai su a sinistra <....> alla tua sinistra [instruct] o G: devi passare accanto al bar di Dodò <...> [instruct]

o G: però prima di arrivare al bar da Dodò devi passare vicino ai mobili Elena poi al bar da Nanà alla roulotte al

ponte di alluminio al banano [instruct]

•

EXPLAIN

Per mezzo di una mossa EXPLAIN viene affermata dell’informazione che non è stata richiesta dal

partner. (Se l’informazione è richiesta, la mossa è allora una risposta, come nel caso di una risposta ad una domanda). L’informazione può essere relativa ad un qualche fatto che riguarda il dominio, lo stato del piano o del compito.

Esempio:

o G: aallora il banano più o meno dove ce l’hai

rispetto <..> all’aia e rispetto ai mobili di Elena ? F: non ce #<risata> l’ho il banano#

G: allora all#<F021>ora#

(11)

o G: vai verso il banano <....>

però ti tieni <..> al di sotto del banano <....> giri intorno al banano

F: #<risata> ma io non ce l’ho il banano#(p) [explain]

•

CHECK

Se un parlante compie una mossa CHECK, egli richiede al partner di confermare una qualche

informazione che ha qualche motivo di credere, senza esserne completamente certo. In genere l’informazione che deve essere confermata è qualcosa che il partner ha cercato di convogliare esplicitamente o qualcosa che colui che fa la mossa crede dovesse essere inferita da ciò che il partner ha detto. Una mossa CHECK, per esempio, può coprire degli eventi dialogici passati o

qualsiasi altra informazione per la quale il partner è nella posizione di dare conferma. Esempio:

• G: no

hai già sbagliato

perché<ee> <....> ehm per arrivare all’arrivo <....> devi seguire un percorso diverso <....>

allora te sei all’aia [check]

• G041: vai in su fino alla miniera [instruct] ce l'hai la miniera ? [check]

•

ALIGN

Una mossa ALIGN controlla l’attenzione o l’accordo del partner, o il suo essere pronto per la

prossima mossa. In un dialogo task-oriented, è molto frequente il caso in cui c’è qualche informazione che uno dei partecipanti (l’emittente) cerca di trasferire all’altro partecipante (il destinatario). Lo scopo del tipo di ALIGN più comune consiste nel far sapere all’emittente che

l’informazione è stata trasferita con successo, così che è possibile chiudere quella parte di dialogo e andare avanti. Se il destinatario ha dato sufficiente segno di aver ricevuto l’informazione, una mossa ALIGN non è necessaria. Se l’emittente ha necessità di un maggior segno di avvenuto

trasferimento, allora l’allineamento può essere raggiunto in due modi. Se l’emittente è abbastanza sicuro che il trasferimento di informazione ha avuto successo, una domanda come “OK?” oppure “no?” è sufficiente. Alcuni partecipanti chiedono questo tipo di conferma immediatamente dopo aver emesso un ordine, forse allo scopo di forzare una risposta più esplicita a quello che dicono. Gli emittenti che sono meno sicuri sul trasferimento di informazione possono chiedere conferma di qualche fatto che il destinatario dovrebbe essere capace di inferire dall’informazione trasferita, poiché questo fornisce una prova più evidente di successo. Anche se le mosse ALIGN in genere

occorrono nel contesto di un trasferimento di informazione non confermato, i partecipanti le usano anche in punti di cesura del dialogo per controllare che “tutto va bene” (cioè, che il partner è pronto per andare avanti) senza chiedere niente in particolare.

•

QUERY

-

YN

Una mossa QUERY-YN è una domanda che richiede una risposta “sì” o “no” e non conta come un CHECK o un ALIGN. Nel map task, queste domande sono il più delle volte relative a ciò che il partner

ha sulla mappa. Spesso si tratta anche di domande che servono a focalizzare l’attenzione del partner su una parte particolare della mappa o che richiedono informazione sul dominio o sul compito; in

(12)

ogni caso, il parlante non pensa che questa informazione possa essere inferita dal contesto del dialogo.

Esempio:

o F: prendo il ponte di alluminio ? [query-yn]

o G: allora te / <mm> / hai presente l’aia ? [query-yn]

o F: devo prendere il / devo andare verso il bar / da Dodò ? [query-yn] o G: ti risultano queste cose ? [query-yn]

o G: la limonaia ce l’hai ? [query-yn] o G: il Viale dei Lillà ? [query-yn]

•

QUERY

-

W

Un QUERY-W è una domanda che non è coperta dalle altre categorie. Anche se la maggior parte

delle mosse classificate come QUERY-W sono domande-K5, questa categoria comprende anche

domande non altrimenti classificabili. La categoria include domande che chiedono al partner di scegliere un’alternativa da un insieme, a patto che questo insieme non sia “sì” e “no”. Anche se tecnicamente l’albero delle distinzioni di codifica permette ad un CHECK o ad un ALIGN di prendere

la forma di una domanda-k, questo è piuttosto infrequente. Nelle mosse CHECK e ALIGN, il parlante

tende ad avere una risposta in mente, ed è più naturale formularle come domande sì/no. Quindi, tutte le domande-k tendono ad essere categorizzate come QUERY-W.

Esempi:

o G: vai su a sinistra <....> alla tua sinistra dell’aia <....> <mm> arrivi a che cosa ? [query-w]

o F: alcune

il bar da Nanà no i mobili di Elena sì

quindi devo passare vicino ai mobili di Elena poi ? [query-w]

o G: aallora il banano più o meno dove ce l’hai

rispetto <..> all’aia e rispetto ai mobili di Elena ? [query-w]

4.3.1.2 Mosse di Risposta

•

ACKNOWLEDGE

Una mossa ACKNOWLEDGE è una risposta verbale che mostra in modo minimo che il parlante ha

udito la mossa a cui risponde, e spesso dimostra anche che la mossa è stata capita e accettata. Contano come mosse ACKNOWLEDGE un’espressione vocale di accettazione (“mhmm”), una

parafrasi dell’enunciazione precedente, e una ripetizione totale o parziale dell’enunciazione precedente.

Esempio:

(13)

• G: all’arrivo <....> devi seguire un percorso diverso <....> allora te sei all’aia

F: mhm [acknowledge]

•

REPLY

-

Y

Un REPLY-Y è una risposta a una domanda di qualsiasi tipo, purché abbia una forma di superficie

che significhi “sì”, in qualunque forma sia espresso questo significato. Poiché le mosse REPLY-Y

sono mosse richieste, di norma appaiono dopo mosse QUERY-YN, ALIGN, e CHECK.

Esempi:

o G: allora te <mm> hai presente l’aia ? F: sì [reply-y]

o G: ti risultano queste cose ? F: alcune.

il bar da Nanà no

i mobili di Elena sì [reply-y] o G: la limonaia ce l’hai ?

F: nemmeno

G: il Viale dei Lillà ? F: sì [reply-y]

•

REPLY

-

N

Simile alla mossa precedente, una REPLY-N è una risposta ad una domanda con forma sì-no che

significhi “no”. Esempi:

o F: <eeh> prendo (?) il viale dei lillà G: no [reply-n]

o G: come non c’hai il banano ? F: no [reply-n]

o G: ti risultano queste cose ? F: alcune

il bar da Nanà no [reply-n] o G: la limonaia ce l’hai ?

F: nemmeno [reply-n]

•

REPLY

-

W

Una REPLY-W è qualsiasi risposta a qualsiasi tipo di domanda che non significhi semplicemente

“sì” o “no”. Esempi:

o G: ti risultano queste cose ? F: alcune [reply-w]

(14)

o G: arrivi a che cosa ?

F: alla roulotte <....> [reply-w]

o G: aallora il banano più o meno dove ce l’hai rispetto <..> all’aia e rispetto ai mobili di Elena ?]

F: non ce #<risata> l’ho il banano# [reply-w]

•

CLARIFY

Una mossa CLARIFY è una risposta a qualche tipo di domanda in cui il parlante dice al partner

qualcosa al di là di quello che era stato strettamente richiesto. Se la nuova informazione è abbastanza sostanziale, allora l’enunciazione è codificata come due mosse, una risposta seguita da un EXPLAIN, ma in molti casi l’informazione aggiunta non è abbastanza sostanziale per poterla

codificare come una mossa a parte. I givers tendono a fare delle mosse CLARIFY quando il follower

sembra incerto sul da farsi, ma non c’è un problema specifico in questione. Esempi:

o G041: vai in su fino alla miniera [instruct] ce l'hai la miniera ? [check]

F042: <ss>sì [reply-y]

però<oo> nel mezzo<oo> al tragitto c'è prima lo stagno dele[dialettale] libellule <pb> la miniera è più o meno verso il centro der [dialettale] foglio [clarify]

• READY

In aggiunta alle mosse di inizio e di risposta, lo schema di codifica identifica delle mosse READY

come mosse che occorrono dopo la chiusura di un game (ovvero un insieme coerente di mosse) e preparano la conversazione per l’inizio di un nuovo game. I parlanti spesso usano delle enunciazioni come “ok” e “va bene” per questo scopo. E’ un punto da discutere se le mosse READY

debbano formare una classe di mosse a parte o debbano essere trattate come discourse markers che si annettono alla mossa seguente, ma non si tratta di una distinzione critica, poiché entrambe le interpretazioni possono essere aggiunte alla codifica. E’ spesso appropriato considerare le mosse

READY come mosse separate e complete allo scopo di enfatizzare il confronto con le mosse ACKNOWLEDGE, che spesso sono altrettanto brevi e sono espresse con le stesse parole delle mosse READY.

4.3.1.3 Sommario

Tutte le mosse di risposta per così dire “muovono in avanti” verso lo scopo proposto dalle mosse di inizio a cui seguono. E’ anche teoricamente possibile in qualsiasi punto del dialogo rifiutare di assumere lo scopo proposto, sia perché colui che risponde sente che esiste un modo migliore di servire qualche scopo dialogico di più alto livello o perché colui che risponde non condivide gli stessi scopi dell’iniziatore. Spesso il rifiuto prende la forma di ignorare la mossa di inizio e di iniziare un’altra mossa. Comunque, è anche possibile rendere espliciti questi rifiuti; per esempio, un partecipante potrebbe respingere una domanda con “No, parliamo di...”, un inizio con “Cosa dici! ”, o una spiegazione sulla collocazione di un oggetto con “sì?”, detto con un’intonazione appropriata di incredulità. Questi casi potrebbero essere considerati come mosse

ACKNOWLEDGE, ma con un taglio negativo. Questi casi erano abbastanza rari nel corpus map task

(15)

possibile che in altre lingue o in situazioni comunicative diverse questo comportamento sia più frequente. Grice e Savino, per esempio, hanno trovato il fenomeno tanto frequente da motivare l’aggiunta di una categoria apposita, la mossa OBJECT.

4.3.1.4 Alcuni problemi

La fase di annotazione di questo livello è stata condotta utilizzando lo strumento di annotazione TATOE (cfr. [12]), che fornisce un editore per l'assegnazione di etichette. Nel caso specifico, una volta definito lo schema MapTask, si assegna un etichetta ad ogni enunciato corrispondente ad una

mossa, utilizzando un "Manuale di annotazione" che esplicita i diversi tipi di mosse con esempi e

schemi di decisione. Il risultato di questo lavoro viene poi esportato in un file esterno a TATOE, contenente un dialogo, diviso in segmenti numerati che corrispondono ad una categoria o dialogue

act, all'interno del quale ogni parola viene a sua volta numerata. L'intestazione (header) del dialogo

contiene invece le informazioni generali relative ai due "protagonisti" della mappa: nome, età, sesso, località in cui si svolge l'azione, durata della conversazione e qualche generico commento.

Tutte e quattro le mappe analizzate, le due pisane-livornesi e le due napoletane, hanno presentato due tipi di mosse predominanti costituite dalla coppia"instruct-acknowledge" e ciò pare del tutto naturale se si pensa alla finalità del dialogo, ovvero quella di suggerire un percorso che conducesse il follower al "traguardo", attraverso un percorso conosciuto solo dal giver.

Non mancano tuttavia alcune difficoltà nell'assegnazione delle etichette. Esse sono rappresentate soprattutto dell'imbarazzo di attribuzione di alcune categorie o atti di dialogo.

Innanzitutto si è presentato molte volte il caso di frasi, formalmente costruite come dichiarative, che avessero, invece, una palese funzione interrogativa. In questo frangente ci si è spesso chiesti se fosse dunque giusto catalogare il segmento come una query, o se invece andasse inteso come un'affermazione. Siamo, quindi, nell'imbarazzo di scelta fra due coppie di mosse: si tratta di

explain-acknowledge o di query y/n-reply y? Non sempre è facile ovviare a tale problema per cui la

maggior parte delle volte si è ricorso al significato e alla finalità della frase e si è "trascurata" la forma, proprio perché sembrava più rispondente alle finalità del lavoro l'adeguarsi al significato e non alla forma.

Un'ulteriore ambiguità alla quale spesso si è dovuto far fronte è stata quella esistente tra altri due tipi di mosse, ovvero la mossa reply-w e la mossa instruct. Frequentemente, infatti, una risposta ad una query-w, che secondo il manuale doveva essere definita un qualche tipo di reply, si trovava ad essere costituita da un ordine e quindi da un'instruct. Ancora una volta si è ovviato a questo dubbio privilegiando la finalità del lavoro e si è quindi preferito usare, nella maggioranza dei casi, la categoria di instruct, più rispondente al tipo di testo proposto. Si sono invece classificate come

reply-w, tutte quelle risposte aperte a domande generiche del tipo wh-questions, mentre avevano

come risposta un'instruct tutte le reply-w espresse con frasi del tipo "Poi?/ E quindi?, ecc."

Ulteriori osservazioni si potrebbero fare sulle mosse decisamente poco utilizzate come le mosse

align e ready. Mentre per le seconde lo scarso utilizzo è facilmente attribuibile alla loro funzione di

condurre verso la fine del percorso e quindi la loro presenza è riscontrabile solo in mappe molto lunghe, le prime, cioè le mosse align, creano delle difficoltà di entità maggiore. Probabilmente esse sono scarsamente utilizzate anche in considerazione della loro funzione: di solito si usa una mossa

align per indicare al giver che l'informazione è stata trasferita con successo, per cui in molti casi

questa fase viene semplicemente superata da una richiesta di informazione successiva.

Per quanto riguarda le altre categorie, non vi sono considerazioni particolari da fare: esse corrispondono chiaramente agli intenti espressi dalla frase che le rappresentava e non mostravano nessun elemento che potesse in qualche modo inficiarne la sostanzialità ed il significato.

(16)

4.3.1.5 Lo schema di annotazione DAMSL

Lo schema di annotazione DAMSL (Dialog Act Markup in Several Layers, cfr. [10]) si articola in quattro dimensioni ortogonali, ciascuna delle quali codifica un particolare aspetto della funzione pragmatica globale del segmento. Ciascuna dimensione è a sua volta articolata in etichette mutuamente esclusive. Diamo qui di seguito l'elenco delle dimensioni e delle etichette.

1) Communicative Status: registra se l’enunciato è intelligibile e se è stato completato con successo. Si applica a quei segmenti che non hanno valore comunicativo e che quindi non ricevono etichette nelle altre dimensioni. Si possono attribuire le seguenti etichette:

1.1) Uninterpretable: segnala i segmenti non interpretabili

1.2) Abandoned: segnala un enunciato appena iniziato e interrotto prima di assumere un valore comunicativo

Esempio:

G019: due barche , sì perfetto , allora <pl> [abandoned]

e non c'è una figura tra barche e colibrì <pb> in mezzo f+ / che sta scritto fiume

1.3) Self-talk: segnala enunciati in cui il parlante non ha scopi comunicativi.

2) Information Level: caratterizzazione del contenuto semantico dell’enunciato. Si possono attribuire le seguenti etichette:

2.1) Task: segnala segmenti direttamente riferiti all'esecuzione del compito

Esempio:

G003: #<F002> <inspirazione># descrivigli un ce+ / un mezzo cerchio <pl> dove c'è scritto partenza fai un mezzo cerchio andando verso sinistra <pl> la devi circumnavigare questa figura [task]

2.2) Task-management: segnala gli enunciati che trattano esplicitamente del raggiungimento del task e dei problemi ad esso connessi.

2.3) Communication-management: segnala gli enunciati la cui funzione è gestire il

processo di comunicazione, mantenendo il contatto e assicurando la comprensione tra i parlanti.

3) Forward Looking Function: segnala il modo in cui l’enunciato in esame influenza i pensieri e le azioni dei partecipanti e quale effetto ha sull'enunciato successivo. Le etichette sono articolate in più livelli, in modo tale che se risulta troppo difficile attribuire un'etichetta specifica si ricorre a quella di livello superiore (più generica).

3.1) Statement: l'enunciato realizza un'asserzione.

3.1.1) Assert: segnala gli enunciati per mezzo dei quali il parlante esprime una constatazione a proposito del mondo in generale o a proposito di qualcosa/qualcuno che è parte del dominio del discorso. In particolare, con questa etichetta vengono annotati quegli enunciati il cui obiettivo è cambiare le credenze/l’opinione dell’ascoltatore.

(17)

Esempio:

F004: <f.vocale> sì [task, assert, accept] #<G005> <pb> poi# ? [task, info-request]

3.1.2) Reassert: segnala gli enunciati per mezzo dei quali il parlante ribadisce una constatazione già espressa in precedenza a proposito del mondo in generale o a proposito di qualcosa/qualcuno che è parte del dominio del discorso.

Esempio:

G011: sei sicura ? [task, info-request]

vedi bene <pl> [task, action-directive]

c'è scritto fiume [task, reassert]

3.2) Influencing-addressee-future-action: segnala un enunciato che influenza l'azione

successiva del destinatario.

3.2.1) Suggestion: segnala gli enunciati che suggeriscono un’azione senza obbligare in nessun modo il ricevente.

3.2.2) Action-directive: segnala un enunciato che obbliga il ricevente ad eseguire una determinata azione o a comunicare un rifiuto esplicito o l'impossibilità di svolgere l'azione richiesta.

Esempio:

G011: sei sicura ? [task, info-request]

vedi bene <pl> [task, action-directive]

c'è scritto fiume [task, reassert]

3.2.3) Info-Request: segnala gli enunciati di richiesta di informazione. Un suo caso specifico è Check.

Esempio:

F004: <f.vocale> sì [task, assert, accept]

#<G005> <pb> poi# ? [task, info-request]

3.2.4) Check: segnala gli enunciati per mezzo dei quali il parlante cerca di accertarsi di aver correttamente inteso quello che l’interlocutore gli ha comunicato, ad esempio ripetendo quanto precedentemente pronunciato da quest’ultimo ed esortandolo a confermare ciò che ha recepito e di cui non è sicuro.

3.3) Committing-speaker-future-action: segnala un enunciato che impegna il parlante

all'esecuzione di un'azione successiva.

3.3.1) Offer: segnala gli enunciati per mezzo dei quali il parlante indica la sua disponibilità a compiere una determinata azione se il suo interlocutore è d’accordo. Il fatto che

(18)

l’impegno da parte del parlante sia condizionato dalla volontà dell’interlocutore è l’elemento che differenzia l’etichetta Offer dall’etichetta Commit.

Esempio:

F040: la prima però , la prima figura barche[assert, offer/ hold,

correct-misspeaking]

3.3.2) Commit: segnala gli enunciati per mezzo dei quali il parlante si impegna a compiere una qualche azione futura. In particolare, la tag “commit” si differenzia dalla tag “offer” (con la quale ha molti punti in comune) per il fatto che l’impegno del parlante non è condizionato in alcun modo dall’atteggiamento o dall’accordo dell’ascoltatore Esempio:

F028: #<G027> s+# sono arrivata dove sta scritto colle delle

rondini

[assert, commit]

3.4) Conventional: segnala gli enunciati con cui, convenzionalmente, si apre o si chiude un

dialogo, si ringrazia, si porgono delle scuse. A questa tag possono essere associate le sottocategorizzazioni Conventional-opening, Conventional-closing.

3.5) Explicit-performative: segnala gli enunciati contenenti un performativo esplicito

(Dichiaro la seduta aperta; l'imputato è giudicato colpevole)

3.6) Exclamation: con questa etichetta vengono annotate le esclamazioni.

Esempio:

G131: perfetto ![exclamation / accept, acknowledge]

4) Backward-Looking-Function: segnala il modo in cui l’enunciato in esame è coerente con le aspettative poste da un enunciato precedente. Le etichette sono articolate in più livelli, in modo tale che se risulta troppo difficile attribuire un'etichetta specifica si ricorre a quella di livello superiore (più generica).

4.1) Agreement: segnala accordo o disaccordo

4.1.1) Accept: etichetta l’accettazione da parte del parlante di una proposta o di un’offerta effettuata dall’altro partecipante al dialogo, o per segnalare l’accordo con l’opinione espressa dall’altro partner conversazionale.

Esempio:

F004: <f.vocale> sì [task, assert, accept]

#<G005> <pb> poi# ? [task, info-request]

4.1.2) Accept-part: etichettare la parziale accettazione di un’offerta o una proposta o la parziale condivisione dell’opinione espressa dall’altro partner del dialogo.

(19)

4.1.3) Reject-part: segnala gli enunciati per mezzo dei quali il parlante rifiuta parzialmente una proposta o un’offerta del suo interlocutore o risponde negativamente a parte di una sua richiesta.

4.1.4) Reject: segnala gli enunciati per mezzo dei quali il parlante rifiuta una proposta o un’offerta del suo interlocutore o risponde negativamente ad una sua richiesta.

4.1.5) Hold: segnala quegli enunciati in cui il parlante non reagisce direttamente all'enunciato precedente ma frappone un intervento di ritardo.

4.2) Understanding: con questa etichetta vengono annotati gli enunciati che hanno la

funzione di assicurare la comprensione tra i parlanti man mano che il dialogo procede. 4.2.1) Backchanneling: etichetta gli enunciati contenenti vocalizzazioni mediante le quali

si controlla l'apertura del canale comunicativo.

4.2.2) Signal-non-understanding: segnala un problema nella comprensione dell’antecedente

4.2.3) Signal-understanding: segnala esplicitamente che l’enunciato precedente è stato correttamente compreso

4.2.3.1) Acknowledge: segnala la positiva ricezione del messaggio Esempio:

G131: perfetto ![exclamation / accept, acknowledge]

4.2.3.2) Repeat-rephrase: segnala la positiva ricezione del messaggio mediante

riformulazione dell'enunciato prodotto dall'altro parlante

4.2.3.3) Completion: segnala la positiva ricezione del messaggio mediante

completamento dell'enunciato prodotto dall'altro parlante.

4.2.4) Correct-misspeaking: quegli enunciati per mezzo dei quali un parlante segnala che, secondo lui, il suo interlocutore non detto quello che veramente intendeva dire. Esempio:

F040: la prima però , la prima figura barche[assert, info-request,

offer/ hold, correct-misspeaking]

4.3) Answer: etichetta la risposta ad una domanda precedentemente effettuata dall’altro

partecipante al dialogo.

Il sistema di annotazione DAMSL è molto più sofisticato e barocco di quello originario MapTask e, inoltre, risponde all'esigenza di generalità. Per questo non può considerarsi un sistema stabile; quelle che abbiamo elencato sopra sono solo le etichette più comunemente accettate e non sono state utilizzate tutte nell’annotazione dei nostri dialoghi.

5 Mark-up

Per un accesso automatico flessibile e proficuo al materiale linguistico, è essenziale che l'annotazione descritta sopra sia espressa in modo da essere elettronicamente leggibile, ovvero analizzabile da computer. Un corpus in formato machine-readable può essere manipolato, se ne

(20)

possono visualizzare in modo evidente i segmenti dei diversi livelli, vi si possono applicare programmi statistici ecc. Al momento non esistono modalità standard di rappresentazione dell’annotazione linguistica. Del resto, vi sono molti scopi diversi per i quali si vuole annotare un testo, e molti tipi diversi di informazione che si vuole rendere disponibile.

Pertanto, oltre ad alcuni sforzi di vera e propria standardizzazione dell’informazione codificata nei testi (cfr. TEI [11] e EAGLES [3]), il trend attuale consiste nell’utilizzare dei

linguaggi di markup per codificare dell’informazione definita arbitrariamente. In tal modo, si offre

la massima flessibilità relativamente al contenuto che si vuole esprimere, coniugata con la massima portabilità.

5.1 Linguaggi di markup

In generale, con markup si intende un metodo per identificare e caratterizzare nel testo tutto ciò che ha un significato speciale o che deve essere trattato in maniera particolare, come, ad esempio, il grassetto o il sottolineato, la specifica di autore, titolo e anno di pubblicazione di un libro ecc.

I linguaggi di markup servono per specificare una sintassi dell'annotazione, mentre il contenuto o la semantica di quei linguaggi viene definito dall’utente. E’ quindi possibile esprimere qualsiasi contenuto si voglia, purché venga rispettata una certa sintassi, che determina la possibilità o meno che un certo documento possa essere letto, ad esempio da un browser, e analizzato automaticamente.

Il linguaggio generale di mark-up più conosciuto è certamente HTML; per quello che riguarda l'annotazione di testi, invece, i principali linguaggi di markup attualmente in uso sono SGML e XML.

5.2 SGML

SGML (Standard Generalized Markup Language) è il linguaggio più generico e, storicamente, il linguaggio da cui sono stati derivati tutti gli altri, HTML incluso. I principi cui si conforma sono pochi e semplici.

In SGML tutte le porzioni di testo da descrivere in qualche modo sono evidenziate da etichette (tags) che le delimitano. Le etichette SGML, da non confondere con le stringhe di codice a cui si fa spesso riferimento con lo stesso termine nell’annotazione linguistica, sono indicate da coppie di parentesi uncinate (es., <paragrafo>). Una tale etichetta segnala l'inizio di una porzione di testo che si vuole identificare in qualche modo. Per esempio, se si vuole indicare che una certa sequenza di caratteri in un testo costituisce un titolo, all’inizio della sequenza verrà posta un’etichetta del tipo <titolo>. Si noti che il testo all’interno delle parentesi uncinate può essere arbitrariamente definito dall’utente, mentre i caratteri che segnalano che si tratta di un’etichetta (le parentesi uncinate) costituiscono una sintassi fissa e non modificabile dell’SGML. Per segnalare il punto nel testo in cui l’etichetta cessa di essere applicata, è necessario inserire la stessa etichetta preceduta da una barra obliqua, ad esempio </titolo>. Un testo annotato in SGML, dunque, mantiene il suo aspetto originario ad eccezione delle etichette (aperte e chiuse) che ne evidenziano le sezioni. Ad una etichetta possono essere assegnate anche degli attributi con dei valori specifici, ad esempio l'espressione <titolo font="Times" dim="18pt"> può identificare il carattere in cui il titolo è scritto e le sue dimensioni. L'utilizzazione di queste etichette, e quindi la loro semantica, nonché la struttura gerarchica e l'eventuale lista diattributi, sono specificate dall'utente in una "dichiarazione" detta DTD (Document Type Definition, per cui vedi il paragrafo successivo). I file SGML, prima della loro utilizzazione, vengono scanditi da un programma (parser) che ne verifica la coerenza con la DTD, e nel corso del quale possono essere risolte certe convenzioni semplificatorie. Una di queste, ad esempio, è l'omissione del tag finale, che può essere inferito dalla presenza di un nuovo tag iniziale.

(21)

5.3 XML

XML, eXtensible Markup Language, è un linguaggio estensibile realizzato per poter utilizzare in modo semplice i documenti strutturati, studiato per il Web e per superare i limiti di HTML (HyperText Markup Language), ma con possibilità di utilizzo in ambienti differenti.

Sviluppato dal W3C, il World Wide Web Consortium, XML si configura come un sottoinsieme di SGML (Standard Generalized Markup Language) e uno standard internazionale che definisce le regole per scrivere dei linguaggi di markup. Come tale, è spesso definito come un linguaggio di “meta-markup”, e volutamente non comprende alcune funzionalità complesse di SGML difficilmente implementabili su Web. XML è un metalinguaggio e, contrariamente ad HTML che è un linguaggio predefinito, non ha tags predefinite ma consente di definire nuovi metalinguaggi (esiste oggi la versione HTML in XML), ed è estensibile.

I files XML segnalano sempre chiaramente dove si collocano l’inizio e la fine delle parti logiche (dette elementi) di un documento di interscambio.

Definendo il ruolo di ogni elemento di un testo in un modello formale, detto Document Type Definition (DTD), gli utenti di XML possono controllare che ogni componente di un documento occorra in una posizione valida all’interno del corpo dei dati scambiati. Una DTD in XML consente al computer di controllare, per esempio, che gli utenti non inseriscano accidentalmente un titolo di terzo livello senza aver inserito un titolo di secondo livello, cosa che non può essere controllata usando HTML, che è lo standard usato per codificare i documenti WWW.

Tuttavia, a differenza di SGML, XML non richiede la presenza di una DTD. Se una DTD non è disponibile, o perché non è disponibile in Internet o perché l’utente non l’ha creata, un sistema XML può assegnarne una di default per i componenti di markup non dichiarati.

5.3.1 Le componenti di XML

Uno dei problemi attuali più comuni è quello di scambiare documenti: ogni programma salva i propri dati in uno o più formati proprietari difficilmente scambiabili con altri programmi. L'assunto su cui si base l'utilizzo di XML, invece, è che il formato di un documento sia espresso mediante un linguaggio tale che, se lo vogliamo utilizzare come formato di scambio, sia sempre possibile utilizzare una soluzione aperta non proprietaria; in sostanza dobbiamo dichiarare il significato delle estensioni che abbiamo effettuato, rendendo pubblico la DTD.

XML è stato studiato per consentire e facilitare scambi di dati anche tra applicazioni di tipo diverso, come ad esempio i database e i word processor (Oracle, Microsoft, Adobe prevedono di utilizzare il formato XML nelle prossime versioni dei loro programmi).

Per ottenere un documento facilmente interpretabile vi sono tre parti fondamentali che ogni documento dovrebbe tenere distinte:

- il contenuto;

- le specifiche relative agli elementi, la struttura (DTD);

- le specifiche relative alla visualizzazione, lo stile (Stylesheet). L’importanza di queste tre componenti può essere illustrata dal seguente esempio.

5.3.2 Come si presenta un documento XML

Supponiamo di voler rappresentare, in un formato standard espresso in XML, una ricetta di cucina. Il documento apparirà, in una versione estremamente semplificata, come

<?xml version = "1.0"?>

<titolo>Torta ai carciofi</titolo> <preparazione>

(22)

<tempo>20 minuti</tempo> <cottura>25 minuti</cottura> </preparazione>

25 gr. di pasta sfoglia, 4 carciofi, 5 uova, 1 dl. di latte, 100 gr. di gorgonzola o taleggio, sale, pepe, uno spicchio d'aglio, prezzemolo tritato

</ingredienti> <body>

In una padella imbiondite lo spicchio d'aglio……Cuocete in forno a 200 gradi per 25 minuti circa

</body> </ricetta>

Ogni documento XML inizia con un prologo che contiene una dichiarazione di versione <?xml version="1.0"?>, il nome del tipo di documento, nel nostro esempio "ricetta", il cui formato deve essere cercato nella omonima DTD. Dopo queste dichiarazioni, il nostro documento risulta formato di quattro parti, un "titolo", "ingredienti", una "preparazione", a sua volta articolata in "tempo" e "cottura", e un "body". Ogni tag di apertura deve avere una corrispondente tag di chiusura; se l’elemento non ha contenuto, come nel caso di BR in HTML, invece di è consentito l'uso della forma più concisa .

Le maiuscole e le minuscole sono interpretate differentemente, pertanto il tag <nome> è diverso da <Nome> e da <NOME>; per convenzione i tag HTML si scrivono in maiuscolo, quelli XML in minuscolo. Alcuni caratteri e sequenze di caratteri sono riservati, pertanto non si possono utilizzare nei nomi di tag (%, xml, ...).

5.3.3 DTD - Document Type Definition

La DTD contiene le regole di definizione delle tags e indica gli elementi e il loro ordine all’interno del documento XML; contrariamente a SGML il suo uso non è obbligatorio, poiché XML ha regole più vincolanti, ma ne è comunque consigliato l'utilizzo per verificare la validità e la congruità del documento. Una DTD è costituita da una serie di dichiarazioni della forma

<!ELEMENT nome_elemento (nomi_degli_elementi_permessi)>

Nel nostro esempio, la dichiarazione potrebbe essere la seguente:

<!ELEMENT ricetta (titolo, preparazione, ingredienti, body)> <!ELEMENT titolo (#PCDATA)>

<!ELEMENT preparazione (tempo, cottura)> <!ELEMENT ingredienti (#PCDATA)>

<!ELEMENT body (#PCDATA)>

Ogni istruzione ELEMENT introduce e descrive un elemento nei termini degli elementi che lo costituiscono. <!ELEMENT titolo (#PCDATA)> significa che l'elemento "titolo" potrà essere composto da qualsiasi testo o altro carattere che non sia markup.

Mediante l'uso di attributi è possibile specificare gli elementi nella forma seguente:

<!ATTRIBUTE nome_elemento nome_attributo tipo_di_attributo valore_di_default>

Una DTD, dunque, è una descrizione delle categorie usate per descrivere il tipo di documento corrente. Un documento si dice "valido" quando contiene una DTD e rispetta le regole che essa definisce.

(23)

5.3.4 Fogli di stile

Le specifiche di XML non fanno alcun riferimento al metodo di visualizzazione e di stile da applicare; è necessario, pertanto, predisporre una "traduzione" del documento che renda possibile effettuarne la visualizzazione su Web o mediante altri sistemi di browsing. Un'interfaccia abbastanza diffusa è CSS (Cascade Style Sheet), che trasforma l'output del documento in HTML. Le specifiche di questa traduzione sono contenute in un file detto stylesheet. Un linguaggio per l'implementazione di stylesheets, più flessibile di CSS, è XSL (eXtensible Stylesheet Language), basato sul DSSL (Document Style Semantics and Specification Language), quest'ultimo è utilizzato in particolar modo con i documenti SGML.

Uno stylesheet per il nostro esempio, espresso in CSS per visualizzare il documento ricetta.xml con Internet Explorer 5 beta 2 potrebbe essere:

titolo { display: block; text-align: center; background: blue; color: white; font-family: Arial; font-size: 20pt }

preparazione { display: block; margin-left: 10%; text-align: left; color: red; font-family: Arial; font-style: italic; font-size: 14pt }

ingredienti { display: block; margin-left: 15%; color: green;

font-family: Arial; font-size: 10pt }

body { display: block;

margin-left: 5%; color: black;

font-family: "Times New Roman"; text-align: justify

font-size: 12pt }

Questo stylesheet specifica che il colore di sfondo sia il blu, che il titolo appaia in bianco in caratteri Arial di font 20, centrato, che la preparazione sia allineata a sinistra, in Arial rosso di font 14 ecc.

5.3.5 Perché scegliere XML

Qui di seguito sono in sintesi indicate le motivazioni generiche, riportate nella letteratura specialistica, per scegliere XML:

• consente di utilizzare documenti strutturati;

• è estensibile, permette di aggiungere sempre nuovi marcatori;

• offre un ottimo formato di scambio di dati, inoltre è un formato che probabilmente durerà a lungo poiché strutturato, estensibile, non ambiguo e completamente leggibile (non binario) e sarà comunque riutilizzabile, considerando anche che i programmi ad ogni nuova versione cambiano formato;

(24)

• la strutturazione e l’utilizzo di un linguaggio estensibile basato su tags consente una più semplice interazione con altri programmi, compresi i data base, e quindi un trattamento dei dati più semplice ed efficace;

• i link offrono nuove possibilità;

• portabilità (indipendente dalla piattaforma e dal processore;

• permette un semplice utilizzo di metadati, come Dublin Core, Warwick Framework, RDF; • ricerche più semplici e più efficaci, prendiamo ad esempio una interrogazione effettuata tramite

un motore di ricerca: attraverso il controllo sui tag sarà più inerente a ciò che realmente stiamo cercando;

• offre un buon meccanismo di rappresentazione, una ottima capacità di rappresentare dati complessi (notazioni matematiche, interfacce grafiche);

• offre possibilità di presentazioni superiori a quelle di HTML, per ottenere risultati simili con HTML è necessario utilizzare Javascript, Java o altri linguaggi;

• è semplice ma potente.

A questi motivi, piuttosto generici anche se accettabili, dobbiamo aggiungere altri motivi più specifici al progetto AVIP. Come si è già detto, uno degli obiettivi di questa fase di annotazione dei dialoghi è l'utilizzazione e la valutazione di strumenti automatici o semiautomatici di annotazione e la ricerca della confrontabilità dei dati con quelli raccolti in altri progetti. Entrambi gli obiettivi hanno indirizzato la scelta del formato di rappresentazione dell’annotazione verso XML in quanto molti dei dati disponibili sono già codificati in XML e molte interfacce di annotazione utilizzano XML come formato di base. XML risulta, quindi, una scelta quasi obbligata per chi voglia inserire la propria ricerca in un contesto internazionale6_.

6 Un

Esempio

Riportiamo, qui di seguito, un turno intero completamente annotato, che commentiamo a scopo illustrativo.

<turn id="G001"> inizio del turno, numerato progressivamente e con l'indicazione di chi parla (G)

<segment id="s_001" type="ready"> inizio del primo segmento del turno, numerato e classificato, come dialogue act, "ready"

<vocal id="v_001" desc="inspirazione"/> "vocal" indica una produzione non verbale

<w id="w_01" pos="F">eh</w> la prima parola è un "filler", cioè un riempitore di pausa

</segment> termina il primo segmento

<segment id="s_002" type="query_yn"> il secondo segmento è un "query-yn"

<w id="w_02" pos="U">ce</w> il "ce" esistenziale è caraterizzato come Unique (cfr.4.3.1) <coref:de id="de_001"> il pronome "l'" è indicato come primo "discourse element" <w id="w_03" pos="PD">l'</w> </coref:de> <w id="w_04" pos="V">hai</w> <coref:de id="de_002"> <w id="w_05" pos="AT">un</w> <w id="w_06" pos="N">bar</w>

6 _{E’ da notare, tuttavia, che molti dei sistemi di annotazione (tools) e di visualizzatori}

specializzati sono ancora in fase sperimentale, per cui l'effettiva circolazione dei materiali (passaggio da un tool all'altro o da un visualizzatore all'altro) risulta piuttosto laboriosa e, certamente, non automatica, per cui, alla fine, la prima utilizzazione che si fa di un testo annotato è quella di leggerlo così come è.

(25)

<w id="w_07" pos="AP">da</w> <w id="w_08" pos="N">Liolà</w> </coref:de>

<coref:link href="#id(de_001)"> …riferito al secondo DE "un bar da liolà" <coref:anchor href="#id(de_002)">

</coref:link> </segment> </turn>

L’unità primaria è il turno (<turn> </turn>) che può consistere di uno o più segmenti. All’interno dei segmenti, le unità di riferimento sono le parole, alle quali si riferiscono tutti gli altri fenomeni evidenziati, cioè la coreferenza e la sovrapposizione, vengono riferiti alle parole mediante il link “href”. Tutte le unità sono a loro volta numerate con numerazione specifica.

RIFERIMENTI

[1] Alisova, T., Strutture semantiche e sintattiche della proposizione semplice in italiano, Sansoni, Firenze 1972.

[2] Bortolini, U., Tagliavini, C., Zampolli, A., Lessico di frequenza della lingua italiana

contemporanea, IBM Italia 1971.

[3] EAGLES: http://www.ilc.pi.cnr.it/EAGLES/

[4] ELRA: http://www.icp.grenet.fr/ELRA/home.html

[5] GATE: http://www.dcs.shef.ac.uk/research/groups/nlp/gate/ [6] Graffi, G., Sintassi, Il Mulino, Bologna 1994.

[7] MapTask: http://www.hcrc.ed.ac.uk/dialogue/maptask.html

[8] MATE: http://mate.nis.sdu.dk/

[9] Penn-Tree Bank: http://www.ldc.upenn.edu/ldc/online/treebank/

[10] SIGDIAL: http://www.georgetown.edu/luperfoy/Discorse-Treebank/dri-home.htm

[11] Sperberg-McQueen, C.M., "The Text Encoding Initiative: Electronic Text Markup for research", in Literary Texts in an Electronic Age: Scholarly Implications and Library Services, Univ.of Illinois 1994, pp. 35-56.

[12] TATOE: http://www.darmstadt.gmd.de/ rostek/tatoe.hml [13] TRAINS: http://www.cs.rochester.edu:80/research/trains/annotation/