Annotazione morfosin..>

(1)

API

L’annotazione morfosintattica

del Corpus AVIP/API

(2)

0. INTRODUZIONE

Il piano di attività globali del progetto prevedeva le seguenti realizzazioni complessive volte all’annotazione morfosintattica che è essenzialmente organizzato in due livelli: quello del tagging in POS (part-of-speech) e quello dei costituenti sintattici. Per finire, un livello di annotazione funzionale, vicino alla semantica, inteso a servire da interfaccia al livello prosodico.

Il progetto ha operato per la realizzazione della prima parte di attività, e in particolare ha completato le seguenti fasi:

1. FILE TOKENIZZATI IN FORMATO XML

Traslitterazione del testo dei dialoghi. I dialoghi erano stati trascritti manualmente in una forma ortografica che ne rendesse tutto il contenuto parlato in varie forme:

- forma linguistica - parole della lingua e dialettali; - quasi linguistica - quasi parole e interiezioni di vario tipo; - non linguistica - non parole, pause, e altri fenomeni di disfluenza.

Inoltre abbiamo dovuto in questa fase prendere decisioni riguardo al problema spinoso della sovrapposizione di turni, che nella attuale organizzazione delle trascrizioni ortografiche ha mantenuto l’integrità pragmatica dei turni stessi - cioè, una sovrapposizione da parte di uno dei due interlocutore appartiene al turno successivo o comunque al turno appartenente all’interlocutore che ha messo in atto la sovrapposizione. Nel nostro caso, invece si trattava di mantenere l’integrità dell’allineamento temporale delle unità linguistiche, quindi abbiamo deciso che in tutte le rappresentazioni successive, sintattiche e semantico-funzionale, si manterrà l’allineamente temporale e le sovrapposizioni appariranno effettivamente dove sono state realizzate. Per poterle individuare come tali, sono state incluse tra parentesi angolate. In questo modo saremo in grado di collegare nel successivo formato XML le parti di testo appartenenti a l’uno o l’altro dei due interlocutori e interfacciare adeguatamente la rappresentazione pragmatica.

Il testo traslitterato è stato tokenizzato.

Tokenizzazione dei testi traslitterati, con il seguente risultato: - tokens totali = 56337 di cui:

- punteggiatura e marcatori di turno = 18710 tokens - parole, interiezioni, quasi parole ecc. = 37627 tokens

La tokenizzazione è stata quindi tradotta in formato XML assegnando a ciascun token – parola o punteggiatura – la feature con l’attributo case che può assumere uno dei seguenti valori:

<w id=" w_40496 " case="cap"> Sara </w> <w id=" w_40497 " case="punt"> , </w> <w id=" w_40498 " case="low"> allora </w>

dove ”cap”, sta per iniziale con lettera maiuscola, “low” iniziale con lettera minuscola, e “punt” punteggiatura. Il file contiene anche le separazioni in turni, delimitando ciascun turno come segue

all’inizio di ciascun turno dove il valore di “id” corrisponde all’etichetta del turno.

I files tokenizzati sono relativi a ciascun dialogo presente nel corpus e sono allocati nella cartella del dialogo corrispondente. Il nome del file tokenizzato fa riferimento al dialogo corrispondente. Ad esempio: A01_n.xml è il file tokenizzato del dialogo A01 di Napoli.

2. FILE TAGGATO CHIAMATO TAGGED_TEXT.TXT

Tagging, cioè assegnazione ridondante di parti del discorso utilizzando il tagger disponibile a Venezia, lo stesso che serve al lavoro di Treebank nel progetto nazionale SI-TAL. Il tagset di riferimento a Venezia ha la caratteristica di utilizzare una etichettatura di tipo fine, includendo al proprio interno tipi sintattici e semantici per un totale di 100 tags diversi. Il motivo di questa scelta è legato principalmente alla necessità di utilizzare

(3)

poi l’etichettatura ottenuta per l’analisi sintattica con lo “shallow parser” disponibile sempre a Venezia per il quale sono indispensabili certi tipi di informazioni sintattiche e semantiche allo scopo di ottenere una strutturazione più vicina possibile alla sua interpretazione semantico-funzionale.

Il tagger produce inoltre una lista di tutte le frasi individuate per mezzo della punteggiatura. In un file separato vengono memorizzati tutti i tratti associati a ciascun token analizzato. In tutto quindi si tratta di 3 files, il file tagged_text.txt, il file frasi.txt e il file feats.txt che discutiamo più in basso.

I files tagged_text.txt, frasi.txt e feats.txt sono contenuti nella cartella “tagger”.

Il Testo taggato è il testo traslitterato che è stato fatto oggetto di tagging, cioè assegnazione ridondante di parti del discorso utilizzando il tagger disponibile a Venezia, lo stesso che è servito al lavoro di Treebank nel progetto nazionale SITAL. Il tagset di riferimento a Venezia – riportato più in basso sotto la voce SFEATS -ha la caratteristica di utilizzare una etichettatura di tipo fine, includendo al proprio interno tipi sintattici e semantici per un totale di 100 tags diversi. Il motivo di questa scelta è legato principalmente alla necessità di utilizzare poi l’etichettatura ottenuta per l’analisi sintattica con lo “shallow parser” disponibile sempre a Venezia per il quale sono indispensabili certi tipi di informazioni sintattiche e semantiche allo scopo di ottenere una strutturazione più vicina possibile alla sua interpretazione semantico-funzionale.

Il prodotto del tagger è una classificazione ridondante di tutti i 60mila tokens del testo traslitterato che è stata ottenuta grazie anche alla costruzione di dizionari specializzati per tutte le forme dialettali, le quasi-parole e le non-parole a cui il tagger associa un lemma esplicitamente indicato oltre alla classe morfosintattica di appartenenza se trattasi di parola flessa.

Il tagger è anche fornito di una lista di forme polirematiche comuni o “multiwords” che vengono applicate ai tokens ottenendo quindi automaticamente una nuova riorganizzazione del testo e dei tokens originali, accorpando due o più tokens in un’unica multiword. Al contrario, il tagger è in grado di decomporre forme amalgamate come i verbi cliticizzati in due o più componenti individuali, allo scopo di permetterne l’analisi sintattica.

Un esempio tratto dal tagged_text.txt è il seguente, in cui ogni elemento ha un indice nella prima posizione a sinistra, un indice di frase nella seconda posizione – in questo caso 4, che serve a identificare la frase di riferimento nel file frasi.txt; poi la lista dei tags e degli SFEATS assegnati automaticamente dal tagger in forma ridondante, e che in alcuni casi sono costituiti da una sola possibile categorie, come “avv” per la parola “praticamente”, che non permette nessun altra interpretazione. Per finire c’è un numero che indica quante categorie sono state assegnate alla parola in esame, e quindi per finire il numero che serve al programma per la disambiguazione per ritrovare i tratti semantici e morfologici nel file feats.txt:

tl(39, 4, e, [cong, congf], 2, 2577). tl(40, 4, quindi, [congf, in], 2, 2648). tl(41, 4, praticamente, [avv], 1, 2823). tl(42, 4, io, [pron], 1, 1957).

tl(43, 4, ho, [ausa, vc], 2, 2019). tl(44, 4, un, [num, art], 2, 2945).

tl(45, 4, percorso, [n, vppin, vppt, agn], 4, 3045).

3. FILES CHIAMATI FRASI.TXT E FEATS.TXT

Il tagger produce inoltre una lista di tutte le frasi individuate per mezzo della punteggiatura. Queste frasi sono memorizzate nel file frasi.txt che ha una frase per ogni linea o record. All’interno della riga, la frase viene individuata per numero progressivo, il secondo numero partendo da sinistra,

f(1,1,11,[g001, senti, che_cosa, c, hai, ',', la, mappa, senza, il, tracciato, ?]).

da un numero indicante il paragrafo o turno, il primo numero partendo da sinistra, per cui due o più frasi potrebbero appartenere allo stesso turno, come mostrato in basso,

f(21,21,13,[g021, 'Poi', lo, aggiri, a, sinistra, ',', sempre, guardando, la, mappa, ',', eh, ?]). f(21,22,4,['A', sinistra, ',', okay, ?]).

(4)

Il file feats.txt contiene la descrizione in tratti delle caratteristiche morfologiche, sintattiche e semantiche della parola analizzata. Il file feats.txt e’ organizzato per “tipi”, cioè una voce corrisponde a una forma di parola che può apparire nel testo anche più volte, ma viene riportata nel file feats.txt una volta sola. Alla forma di parola viene associata la sua radice e le informazioni morfologiche, sintattiche e semantiche che verranno poi trasferite opportunamente nella traduzione XML dei files taggati di ciascun dialogo. Le entrate del file feats.txt sono organizzate per record, una parola per riga, con le seguenti informazioni:

- un numero che indica la posizione in bytes nel file del record corrente; - un numero progressivo per ogni tipo;

- la forma di parola o tipo;

- una categoria grammaticale o POS presa dal tagset riportato più in basso;

- un numero indicante il grado di ambiguità della forma: (1 sta per non ambigua, 2 per ambigua con due possibili interpretazioni, 3 ecc.)

- una lista di tratti preceduta dalla radice della forma di parola Riportiamo qui in basso un esempio per una forma non ambigua, 2466-sw(15-partenza-[n]-1-[n-partenz-[type=com, gen=f, num=s]]). E un esempio per una forma ambigua,

1272-sw(5-la-[art, clitac]-2-[art-il-[type=def, pred=il, gen=f, num=s], [clitac]-la-[case=acc, pers=3, num=s, gen=f]]).

In questo caso, il grado di ambiguità corrisponde a 2. All’interno della lista dei tratti vi sono le due interpretazioni per la parola “la”, come clitico e come articolo, con i relativi tratti.

Le classi che costituiscono la base della classificazione elaborata nel file feats.txt e del tagger sono le seguenti, raggruppate per categoria lessicale principale:

1. AGG aggettivo

agg:a adj classe -a focaia agg:alt adj "other" altro agg:co adj classe -co antico agg:c adj colore giallo agg:comp adj comparativo miglior agg:dim adj dimostrativo quello agg:e adj classe -e temibile agg:escl adj esclamativo quale agg:go adj classe -go sacrilego agg:ico adj classe -ico sarcastico agg:ind adj indef troppo agg:ind:min adj indef minoranza pochino agg:ind:sup adj indef superlativo pochissimo agg:int adj interrogativo quanto agg:io adj classe -io refrattario agg:num:car adj numerale cardinale dodici agg:num:ord adj numerale ordinale ventesimo agg:num:ord:ind adj numerale ordinale indef ennesimo agg:o adj classe -o bello agg:ore adj classe -ore fotorecettore agg:poss adj possessivo mio

agg:rel adj relativo quale agg:sup adj superlativo ottimo

agg:z adj invar video

(5)

agg:z:min adj minoranza minor agg:z:neg adj negativo nessun agg:z:qd adj distrib quantificatore ogni agg:z:rel:ind adj relativo indef qualsiasi aggpp:o ppas participio passato moderato aggpr:e ppre participio presente mortificante an:comp adj+nome maggioranza maggiore an:e adj+nome classe -e folle an:ico adj+nome classe -ico generico an:ind adj+nome indef diverso an:io adj+nome classe -io medio an:min adj+nome minoranza minore an:num:car adj+nome numerale cardinale novanta an:num:ord adj+nome numerale ordinale novantesimo an:o adj+nome classe -o novello an:sup adj+nome superlativo massimo an:sup:min adj+nome superlativo minoranza, minimo an:sup:ord adj+nome superlativo ordinale, ultimo an:sup:t adj+nome superlativo temporale, postumo an:z adj+nome invar pop

2. ART articolo

art:def def il

art:ind indef una

3. AVV avverbio

avv:l locativo qua

avv:mn maniera piano

avv:neg negativo affatto avv:q quantificato poco avv:r relazionale simile avv:mn:min maniera minoranza adagino avv:mn:sup maniera superlativo adagissimo

avv:t temporale presto

avv:t:min temporale minoranza prestino avv:t:sup temporale superlativo prestissimo avv:td temporale deittivo stanotte avv:ti temporale iterativo spesso

4.CONG congiunzione

cong:av conj avversativa bensì cong:caus conj causale perché cong:comp conj comparativa come cong:conc conj concessiva comunque cong:dis conj disgiuntiva o

cong:ecc conj eccettuativa fuorché cong:exp conj esplicativa ossia cong:l conj locativa dove cong:neg conj negativa nemmeno cong:ott conj ottativa almeno cong:par conj parallela mentre

cong:pk conj k- che

cong:pri conj privativa senza cong:qt conj quantificata temporale ogniqualvolta

(6)

cong:sum conj sommativa oltreché cong:t conj temporale finché cong:tdur conj temporale durativa sinché cong:ts conj temporale successione dopodiché cong:tt conj temporale telica appena

5. CONGF congiunzione frasale

congf:av conj avversativa viceversa congf:caus conj causale stanteché congf:conc conj concessiva tuttavia congf:cons conj consecutiva così congf:ecc conj eccettuativa tranneché congf:exp conj esplicativa infatti congf:ott conj ottativa magari congf:par conj parallela intanto congf:pres conj presentativa ecco congf:ra conj finale perciò congf:sum conj sommativa inoltre congf:t conj temporale frattanto congf:tp conj temporale precedenza prima congf:ts conj temporale successione poi

6. COSU congiunzione subordinante

cosu:av conj subord avversativa anziché cosu:caus conj subord causale perché cosu:conc conj subord concessiva sebbene cosu:cond conj subord condizionale se

cosu:par conj subord parallela allorquando cosu:ra conj subord finale poiché

7. INTER interiezione (può essere usata per costruire una ellissi)

inter interiezione diamine

8. LOC locuzione

loc:avv avverbio inintermediari loc:avv:P avverbio insaputa (all) loc:prep preposizione attorno (a) loc:cong:av conj avversativa piuttosto che loc:cong:caus conj causale supposto che loc:cong:cond conj condizionale patto (a patto che) loc:cong:cons conj consecutiva tale che

loc:cong:ecc conj eccettuativa tranne che loc:cong:par conj parallela intanto che loc:cong:pres conj presentativa ecco che loc:cong:pri conj privativa senza che loc:cong:sum conj summativa pur che loc:cong:t conj temporale fintanto che loc:cong:tdur conj temporale durativa sintanto che loc:cong:tp conj temporale precedenza prima che loc:cong:ts conj temporale successione dopo che loc:cosu:pre conj subord precondizione ammesso che

(7)

9. N nome

n:a2:f fem classe -a2 ala n:a:f fem classe -a alabarda n:a:m masc classe -a automa n:a:m:f masc fem classe -a borsista n:ca:f fem classe -ca amica n:ca:m masc classe -ca arciduca n:co:m masc classe -co mammalucco n:e:f fem classe -e bronchite n:e:m masc classe -e clone n:e:m:f masc fem classe -e commediante n:ga:f fem classe -ga carlinga n:ga:m:f masc fem classe -ga collega n:go:m masc classe -go castigo n:ia:f fem classe -ia coscia n:ie:f fem classe -ie moglie n:io:m masc classe -io monopolio n:o:m masc classe -o monoplano n:ore:m masc classe -ore motocoltivatore n:c:f fem classe c(olore) ambra

n:c:m masc classe c(olore) arancio n:geo:f fem classe geo(grafico) carrara n:geo:f:pl fem plurale classe geo(grafico) alpi n:geo:f:sg fem plurale classe geo(grafico) murgia n:geo:m masc classe geo(grafico) nord n:p:f fem classe p(ropio) raffaella n:p:m masc classe p(ropio) poseidone n:p:m:pl masc plurale classe p(ropio) dioscuri n:ab:f fem classe abbreviazione agip n:ab:m masc classe abbreviazione centotredici n:tg:f:pl fem plurale classe t(empo)-giorno ceneri n:tg:f:sg fem singol classe t(empo)-giorno pasqua n:tg:m masc classe t(empo)-giorno capodanno n:tg:m:pl masc plurale classe t(empo)-giorno sabati n:tg:m:sg masc singol classe t(empo)-giorno ferragosto n:tm:m masc classe t(empo)-mese dicembre n:ts:f:pl fem plurale classe

t(empo)-stagione estati n:ts:f:sg fem singol classe t(empo)-stagione estate n:ts:m:pl masc plurale classe

t(empo)-stagione autunni n:ts:m:sg masc singol classe

t(empo)-stagione autunno n:z:f fem invar estraneità n:z:f.pl fem plurale invar fauci n:z:f:sg fem singolare invar atrazina n:z:m masc invar iogurt, iter n:z:m:f masc fem invar groviera n:z:m:f:pl masc fem plurale invar idi n:z:m:f:sg masc fem singol invar capobanda n:z:m:pl masc plurale invar convenevoli n:z:m:sg masc singol invar fiele

(8)

10. NA nome+aggettivo predicativo

na:a:f nome+adj fem classe -a femmina na:a:m nome+adj masc classe -a erbicida na:a:m:f nome+adj masc/fem classe -a estremista na:ca:f nome+adj fem classe -ca scarica na:co:m nome+adj masc classe -co sciocco na:e:f nome+adj fem classe -e sciupone na:e:m nome+adj masc classe -e plantare na:e:m:f nome+adj masc fem possidente na:ga:f nome+adj fem classe -ga centrifuga na:ga:m:f nome+adj masc fem classe -ga belga na:go:m nome+adj masc classe -go coprofago na:go:m:sg nome+adj masc only/sing class/go gallego na:ia:f nome+adj fem classe -ia greggia na:io:m nome+adj masc classe -io grigio na:io:m:sg nome+adj masc solo/sing class/io romancio na:o:m nome+adj masc classe -o guasto na:o:m:sg nome+adj masc solo/sing class/o ridicolo na:ore nome+adj classe -ore roditore na:z:m nome+adj masc invar standard na:z:m:f nome+adj masc fem invar snob

11. NAPR nome+aggettivo participio presente

napr:e:f nome+adj fem classe -e stimolante napr:e:m nome+adj masc classe -e spiovente napr:e:m:f nome+adj masc fem classe -e richiedente

12. PREP preposizione

prep preposizione di

prep:art preposizione articolo dal

13. PRON pronome

pron:an pron anaforico stesso pron:alt pron "other" altro pron:cl pron clitico li pron:dim pron dimostrativo quegli pron:escl pron esclamativo quanto pron:ind pron indef troppo pron:int pron interrogativo quale pron:loc:cong pron locuzione congiunzione cui pron:neg pron negazione nessuno pron:pers pron personale io pron:poss pron possessivo tuo pron:qd pron quantificatore distributive ciascuno pron:qp pron quantificatore partitive molto pron:rel pron relativo quale pron:z:an pron invar anaforico sé pron:z:def pron invar def tutto pron:z:ind pron invar indef chicchessia pron:z:int pron invar interrogativo chi

pron:z:escl pron invar esclamativo che pron:z:min pron invar minoranza minore pron:z:num pron invar numerale entrambi

(9)

pron:z:qd pron quantificatore distributivo ognuno pron:z:qp pron quantificatore partitivo molto pron:z:rel:ind pron relativo indef qualunque

14. V verbo

v:1:cop copulativo 1. sembrare v:1:intr intrans. 1. serpeggiare v:1:intr:imp intrans. impersonale 1. sgelare v:1:intr:pron intrans. pronominale 1. sgolare v:1:rifl riflessivo 1. slacciare v:1:rifl:rec riflessivo reciproco 1. somigliare v:1:tr trans. 1. somministrare v:1:tr:erg trans. ergativo 1. ammosciare v:2:intr intrans. 2. ripetere v:2:intr:imp intrans. impersonale 2. calere v:2:intr:pron intrans. pronominale 2. compiere v:2:rifl riflessivo 2. credere v:2:rifl:rec riflessivo reciproco 2. sfottere v:2:tr trans. 2. spremere v:2:tr:erg trans. ergativo 2. scotere v:3:intr intrans. 3. applaudire v:3:intr:pron intrans. pronominale 3. scucire v:3:rifl riflessivo 3. sentire v:3:rifl:rec riflessivo reciproco 3. susseguire v:3:tr trans. 3. vestire v:3:tr:erg trans. ergativo 3. adempire v:a3:intr intrans. 3. incoativo avvizzire v:a3:intr:imp intrans. impers. 3. incoat. imbrunire v:a3:intr:pron intrans. pronom. 3. incoat. avvilire v:a3:rifl riflessivo 3. incoat. istruire v:a3:rifl:rec riflessivo recipr. 3. incoativo riunire v:a3:tr trans. 3. incoativo riverire v:a3:tr:erg trans. ergativo 3. incoat. aggrinzire v:i-v:1:cop copulative 1. irreg. stare v:i-v:1:intr intrans. 1. irreg. andare v:i-v:1:intr: imp intrans. impers. 1. irreg. dare v:i-v:1:intr: pron intrans. pronom. 1. irreg. liquefare v:i-v:1:rifl riflessivo 1. irreg. disfare v:i-v:1:tr trans. 1. irreg. contraffare v:i-v:2:aux ausiliare 2. irreg. essere v:i-v:2:cop copulativo 2. irreg. corrispondere v:i-v:2:intr intrans. 2. irreg. compiacere v:i-v:2:intr:imp intrans. impers. 2. irreg. parere v:i-v:2:intr:pron intrans. pronom. 2. irreg. perdere v:i-v:2:rifl riflessivo 2. irreg. ritrarre v:i-v:2:rifl:rec riflessivo recipr 2. irreg. reggere v:i-v:2:tr trans. 2. irreg. rendere v:i-v:3:cop copulativo 2. irreg. apparire v:i-v:3:intr intrans. 2. irreg. aprire v:i-v:3:intr:imp intrans. impers 2. irreg. convenire v:i-v:3:intr:pron intrans. pronom. 2. irreg. imbiondire v:i-v:3:rifl riflessivo 3. irreg. rioffrire v:i-v:3:rifl:rec riflessivo reciproco 2. irreg. contraddire v:i-v:3:tr trans. 2. irreg. dire

(10)

v:i-v:a3:intr intrans. 3. incoat. irreg. impallidire v:i-v:a3:intr:pron intr pronom. 3. incoat. irreg. inacidire v:i-v:a3:rifl riflessivo 3. incoat. irreg. profferire v:i-v:a3:tr trans. 3. incoat. irreg. inaridire

4. I FILES MFEATS.XML

Etichettatura morfo-sintattica e semantica in formato MFEATS del corpus AVIP, e attraverso strumenti adeguati la trascrizione XML dell’analisi in modo da poterla accoppiare con quella compiuta a Vercelli. I files mfeats.xml sono indicati con il nome del dialogo corrispondente (ad es.: A01mfeats_xml, per il dialogo A01 di Napoli) e sono allocati nella cartella del dialogo relativo.

Questo nuovo corpus rappresenta un'esperienza avanzata di collegamento tra la prospettiva più strettamente fonetica e prosodica con quella pragmatica e morfosintattica sviluppate sullo stesso materiale. La disponibilità di un corpus di parlato etichettato dal punto di vista morfosintattico è importante per lo sviluppo di sistemi di interfaccia automatica tra scritto e parlato.

L’etichettatura MFEATS prodotta da Venezia per ciascun token del corpus AVIP integra le seguenti informazioni

linguistiche:-1. Un indice assegnato all’interno di ciascun file xml corrispondente all’attributo ID, indice che verra’ utilizzato per il collegamento con il file contenente la struttura sintattica.

2. una POS, part of speech, etichetta grammaticale per ciascun token del corpus tra le dieci elencato piu’ in basso, valore dell’attributo POS;

3. un cluster di etichette per i tratti morfologici, di genere e numero per le categorie nominali, e di genere numero persona e tempo e modo per le categorie verbali scelte tra le 21 riportate in basso, valore dell’attributo MFEATS;

4. un lemma associato a ciascuna forma di parola, flessa oppure invariabile, in forma di citazione, valore dell’attributo LEMMA;

5. una etichetta sintattica-grammaticale, scelta tra le 101 riportate in basso, il valore dell’attributo SFEATS; 6. una tra le 59 etichette semantiche riportate in basso come valore dell’attributo SEMS.

7. Gli hrefs, cioe’ gli indici del file contenente le parole corrispondenti alla sequenza del file testo dei dialoghi traslitterati;

8. La parola ortografica inclusa tra parentesi uncinate;

Riportiamo qui in basso un esempio illustrativo, per la parola “sento”:

<mw id="mw_8" pos="V" mfeats="KL1s" lemma="sentire" sfeats="vt" sems="tr" href="c02_n.xml#id(w_38192)"> sento</mw>

che scomponiamo nelle parti illustrate piu’ sopra come segue: 1 id="mw_8" 2 pos="V" 3 mfeats="KL1s" 4 lemma="sentire" 5 sfeats="vt" sems="tr" 6 href="c02_n.xml#id(w_38192)" 7 > sento<

Questo file in formato xml e’ indipendentemente visibile in un qualsiasi browser – tipo Explorer o Netscape – oppure in forma strutturata all’interno di un qualsiasi parser XML.

Nella relazione predisposta da Giacomo Ferrari per l’annotazione in POS e in categorie pragmatiche(cfr. file

analisi testuale.pdf nella cartella doc_app, contenente il documento sull’annotazione morfosintattica e testuale

pragmatica a cura di G. Ferrari, C. Soria e E. Milos,) viene adottato il sistema MATE, introdotto per la lingua inglese, che prevede le seguenti categorie:

(11)

N nome (es.: cane, Giovanni, Liolà) V verbo (es.: vai, hai, è, visto ecc.) AJ aggettivo (es.: anomalo)

PD pronome/determinante (l', te, questo, 'sto ecc.) AT articolo (es.: un, la ecc.) AV avverbio (es.: molto, lontano)

AP (adposizione) per l'italiano equivale e preposizione, si è inoltre creata la categoria AP/AT per la preposizione articolata

C congiunzione NU numerale I interiezione

U unico, riferito a categorie estremamente ridotte e "specializzate" come la negazione o il "ci" esistenziale R residuo, riferito al materiale non

classificabile

F filler, per indicare i riempitori di pausa DM discourse marker, riferito ad avverbi, congiunzioni e

piccole frasi che segnano passaggi all'interno di un discorso; data la scelta di isolare le singole parole, l'etichetta è stata attribuita alle parole va e be' separatamente, nell'espressione "va be'.

PU segno d'interpunzione, Non è stato usato in quanto sono stati rimossi tutti.

Nel nostro caso, la categoria PU viene mantenuta in quanto la punteggiatura è una componente essenziale della descrizione del corpus basato appunto sulla trascrizione traslitterata. Inoltre vi sono due categorie a cui vengono assegnate categorie diverse: la categoria NU che nel nostro caso viene trattata all’interno degli aggettivi e non come categoria separata, e la categoria AT, articolo, che nella nostra classificazione viene trattata come parte dei determinanti. Non utilizziamo né la categoria U, unico, in quanto la negazione viene trattata come avverbio, né le categorie R, residuo, DM, discourse marker, e F, filler utili alla classificazione pragmatica. D’altro canto, la nostra classificazione prevede un secondo insieme di etichette con la classificazione fine a livello morfosintattico, e in aggiunta a questa la feature SEMS che contiene informazioni semantiche anche e soprattutto su quelle che nel corpus etichettato da Ferrari vengono trattate genericamente come DM e che invece nel nostro riceverebbero una marca semantica ben definita.

Nella lista di POS in basso indichiamo a lato la corrispondenza o meno con una delle etichette previste nella classificazione di Ferrari.

POS

A aggettivi e numerali AJ + NU B avverbi e negazione AV + U C congiunzioni C D determinati, quantificatori, articoli AT + PD E pronomi, clitici, possessivi, deittici PD I abbreviazioni, interiezioni I N nomi N P preposizioni, particelle verbali AP PU punteggiatura --V verbi e ausiliari V W relativi, interrogativi PD

(12)

MFEAT S H congiuntivo F infinito G gerundio K indicativo M imperativo R condizionale T participio J imperfetto L presente S passato U futuro 1 prima persona 2 seconda persona 3 terza persona m maschile f femminile s singolare p plurale

N genere non specificato

NN genere e numero non specificato+ *N numero non specificato

SFEATS

abbr abbreviations ag adjective

agn nominal adjective art article def/indef

auag auxiliary "avere" gerundive auair auxiliary "avere" mood irrealis aueg auxiliary "essere" gerundive aueir auxiliary "essere" mood irrealis ausa auxiliary "avere" tensed ausai auxiliary "avere" infinitival ause auxiliary "essere" tensed ausei auxiliary "essere" infinitival ausep auxiliary "essere" past participle avv adverb

avvl adverbial locution

ccom conjunction "like" comparative ccong conjunction comparative subordinate clit clitic pronoun

clitabl clitic pronoun ablative(locative) clitac clitic pronoun accusative clitdat clitic pronoun dative cong conjunction

congf conjunction sentential conjl conjunction locution cosu conjunction subordinate

(13)

da_riemp

ire suspension dots ... date date number deit deictic pronoun dim demonstrative adjective

dirs cue direct/indirect discourse ( " : ) equal segno di uguale

exc exclamation pronoun fw foreign word noun in intensifier

ind adjective indef int interrogative pronoun intj interjection n noun nc noun colour neg negation nf noun factive nh noun human

np noun proper geographic/institution

npro proper noun for upper case ovw(out of vocabulary words) nt noun temporal

num numeral p preposition par parenthetical '(' ')' -part preposition plus article partd preposition "di" plus article partda preposition "da" plus article pd preposition "di"

pda preposition "da" php preposition locution pk complementizer poss possessive adjective ppas past participle absolute ppre present participle absolute pron pronoun

pt verbal particle

punt sentence internal (, - = § ) puntint punctuation non declarative ( ? ! ) punto sentence final (. ;)

q quantifier

qc quantifier collective qd quantifier distributive rel relative

relin relative indefinite relob relative oblique relq relative quantifier

sect lettera o numero indicatore di sezione slash segno "/"

titl titolo

vc verb copulative

vci verb copulative infinitive vcir verb copulative mood irrealis vcl verbo con enclitico

(14)

vgin verb intrans gerundive

vgprog verbo intransitivo progressivo gerundio vgs verb modal gerundive

vgsf verb reconstruction gerundive vgt verb trans gerundive

viin verb intrans infinitival vin verb intrans tensed virin verb intrans mood irrealis virt verb trans mood irrealis vit verb trans infinitive

vppc verb copulative past participle vppin verb intrans past participle vppt verb trans past participle

vprc verbo copulativo participio presente vprin verb intrans present participle vprog verb progressive

vprogir verb progressive mood irrealis vprt verb trans present participle vsf verb "fare" periphrastic vsup verb modal

vsupir verb modal mood irrealis vt verb trans tensed

SEMS abl ablativo acc accusativo adj predicativo attr attributivo aux ausiliare av avversativa c colore caus causale com comune comp comparativo conc concessiva cond condizionale cons consecutiva coor coordinante cop copulativo dat dativo def definito dim dimostrativo dis disgiuntiva e valutativa ecc eccettuativa exp esplicativa geo geografico hum umano ind indefinito intr intransitivo invar invariante l locativo mn maniera

(15)

mod modale neg negazione nom nominativo nom ottativa

p proprio (non umano) par parallela pers personale pk complementatore pri privativa q quantificato q2 quantificato collettivo qp quantificato partitivo qt quantificato temporale r relazionale ra finale rifl riflessivo sum sommativa sup superlativo t temporale td temporale definito tdur temporale durativo ti temporale iterato tiny diminutivo tg temporale giornata tm temporale mese tp temporale precedenza tr transitivo ts temporale stagione tsc temporale successione tt temporale telica 5.1. LINGUAGGI DI MARKUP

In generale, con markup si intende un metodo per identificare e caratterizzare nel testo tutto ciò che ha un significato speciale, che deve essere trattato in maniera particolare, come, ad esempio, il grassetto o il sottolineato, la specifica di autore, titolo e anno di pubblicazione di un libro ecc.

I linguaggi di markup servono per specificare una sintassi dell'annotazione, mentre il contenuto o la semantica di quei linguaggi viene definito dall’utente. E’ quindi possibile esprimere qualsiasi contenuto si voglia, purché venga rispettata una certa sintassi, che determina la possibilità o meno che un certo documento possa essere letto, ad esempio da un browser, e analizzato automaticamente.

Il linguaggio generale di mark-up più conosciuto è certamente HTML; per quello che riguarda l'annotazione di testi, invece, i principali linguaggi di markup attualmente in uso: SGML e XML.

5.2 SGML

SGML (Standard Generalized Markup Language) è il più generico e, storicamente, il linguaggio da cui sono stati derivati tutti gli altri, HTML incluso. I principi cui si conforma sono pochi e semplici.

In SGML tutte le porzioni di testo da descrivere in qualche modo sono evidenziate daetichette (tags) che le delimitano. Le etichette SGML, da non confondere con le stringhe di codice a cui si fa spesso riferimento con lo stesso termine nell’annotazione linguistica, sono indicate da coppie di parentesi uncinate (es., <paragrafo>). Una tale etichetta segnala l'inizio di una porzione di testo che si vuole identificare in

(16)

qualche modo. Per esempio, se si vuole indicare che una certa sequenza di caratteri in un testo costituisce un titolo, all’inizio della sequenza verrà posta un’etichetta del tipo <titolo>. Si noti che il testo all’interno delle parentesi uncinate può essere arbitrariamente definito dall’utente, mentre i caratteri che segnalano che si tratta di un’etichetta (le parentesi uncinate) costituiscono una sintassi fissa e non modificabile dell’SGML. Per segnalare il punto nel testo in cui l’etichetta cessa di essere applicata, è necessario inserire la stessa etichetta preceduta da una barra obliqua, ad esempio </titolo>. Un testo annotato in SGML, dunque, mantiene il suo aspetto originario ad eccezione delle etichette (aperte e chiuse) che ne evidenziano le sezioni. Ad una etichetta possono essere assegnate anche degli attributi con dei valori specifici, ad esempio l'espressione <titolo font="Times" dim="18pt"> può identificare il carattere in cui il titolo è scritto e le sue dimensioni. L'utilizzazione di queste etichette, e quindi la loro semantica, nonché la struttura gerarchica e l'eventuale lista diattributi, sono specificate dall'utente in una "dichiarazione" detta DTD (Document Type Definition, per cui vedi il paragrafo successivo). I file SGML, prima della loro utilizzazione, vengono scanditi da un programma (parser) che ne verifica la coerenza con la DTD, e nel corso del quale possono essere risolte certe convenzioni semplificatorie. Una di queste, ad esempio, è l'omissione del tag finale, che può essere inferito dalla presenza di un nuovo tag iniziale.

5.3 XML

XML, eXtensible Markup Language, è un linguaggio estensibile realizzato per poter utilizzare in modo semplice i documenti strutturati, studiato per il Web e per superare i limiti di HTML (HyperText Markup Language), ma con possibilità di utilizzo in ambienti differenti.

Sviluppato dal W3C, il World Wide Web Consortium, XML è un sottoinsieme di SGML (Standard Generalized Markup Language), uno standard internazionale che definisce le regole per scrivere markup language, volutamente non comprende alcune funzionalità complesse di SGML difficilmente implementabili su Web.

I files XML segnalano sempre chiaramente dove si collocano l’inizio e la fine delle parti logiche (dette elementi) di un documento di interscambio. XML restringe l’uso dei costrutti SGML per assicurare la disponibilità di opzioni di fall back quando l’accesso ad alcune componenti del documento non è correntemente possibile su Internet. Definisce anche il modo in cui Internet Uniform Resource Locators possono essere usati per identificare le parti componenti delle streams di dati in XML.

Definendo il ruolo di ogni elemento di un testo in un modello formale, detto Document Type Definition (DTD), gli utenti di XML possono controllare che ogni componente di un documento occorra in una posizione valida all’interno della stream dei dati scambiati. Una DTD in XML consente al computer di controllare, per esempio, che gli utenti non inseriscano accidentalmente un titolo di terzo livello senza aver inserito un titolo di secondo livello, cosa che non può essere controllata usando HTML, che è lo standard usato per codificare i documenti WWW.

Tuttavia, a differenza di SGML, XML non richiede la presenza di una DTD. Se una DTD non è disponibile, o perché non è disponibile in Internet o perché l’utente non l’ha creata, un sistema XML può assegnarne una di default per i componenti di markup non dichiarati.

XML è un metalinguaggio e, contrariamente ad HTML che è un linguaggio predefinito, non ha tag predefiniti ma consente di definire nuovi metalinguaggi (esiste oggi la versione HTML in XML), è estensibile. Anche HTML è un markup language, un linguaggio basato sui markup, ed è stato inizialmente definito in SGML. L’insieme delle regole di HTML sono contenute in un documento (separato dal file .html) chiamato DTD HTML (Document Type Definition).

5.3.1. LE COMPONENTI DI XML

Uno dei problemi attuali più comuni è quello di scambiare documenti: ogni programma salva i propri dati in uno o più formati proprietari difficilmente scambiabili con altri programmi. L'assunto su cui si base l'utilizzo di XML, invece, è che il formato di un documento sia espresso mediante un

(17)

linguaggio tale che, se lo vogliamo utilizzare come formato di scambio, sia sempre possibile utilizzare una soluzione aperta non proprietaria; in sostanza dobbiamo dichiarare il significato delle estensioni che abbiamo effettuato, rendendo pubblico il DTD.

XML è stato studiato per consentire e facilitare scambi di dati anche tra applicazioni di tipo diverso, come ad esempio i database e i word processor (Oracle, Microsoft, Adobe prevedono di utilizzare il formato XML nelle prossime versioni dei loro programmi).

Per ottenere un documento facilmente interpretabile vi sono tre parti fondamentali che ogni documento dovrebbe tenere distinte:

- il contenuto;

- le specifiche relative agli elementi, la struttura (DTD); - le specifiche relative alla visualizzazione, lo stile (Stylesheet).

L’importanza di queste tre componenti può essere illustrata dal seguente esempio.

5.3.2. COME SI PRESENTA UN DOCUMENTO XML

Supponiamo di voler rappresentare, in un formato standard espresso in XML, una ricetta di cucina. Il documento apparirà, in una versione estremamente semplificata, come

<?xml version = "1.0"?>

<DOCTYPE ricetta standalone="no" SYSTEM="ricetta.dtd"> <ricetta> <titolo>Torta ai carciofi</titolo> <preparazione> <tempo>20 minuti</tempo> <cottura>25 minuti</cottura> </preparazione> <ingredienti>

25 gr. di pasta sfoglia, 4 carciofi, 5 uova, 1 dl. di latte, 100 gr. di gorgonzola o taleggio, sale, pepe, uno spicchio d'aglio, prezzemolo tritato

</ingredienti> <body>

In una padella imbiondite lo spicchio d'aglio……Cuocete in forno a 200 gradi per 25 minuti circa

</body> </ricetta>

Ogni documento XML inizia con un prologo che contiene una dichiarazione di versione <?xml version="1.0"?>, il nome del tipo di documento, nel nostro esempio "ricetta", il cui formato deve essere cercato nella omonima DTD. Dopo queste dichiarazioni, il nostro documento risulta formato di quattro parti, un "titolo", "ingredienti", una "preparazione", a sua volta articolata in "tempo" e "cottura", e un "body". Ogni tag di apertura deve avere un corrispondente tag di chiusura; se l’elemento non ha contenuto, come nel caso di BR in HTML, invece di <BR></BR> è consentito l'uso della forma più concisa <BR/>.

Le maiuscole e le minuscole sono interpretate differentemente, pertanto il tag <nome> è diverso da <Nome> e da <NOME>; per convenzione i tag HTML si scrivono in maiuscolo, quelli XML in minuscolo. Alcuni caratteri e sequenze di caratteri sono riservati, pertanto non si possono utilizzare nei nomi di tag (%, xml, ...).

(18)

5.3.3. DTD - Document Type Definition

La DTD contiene le regole di definizione dei tag, indica gli elementi e il loro ordine all’interno del documento XML, contrariamente a SGML il suo uso non è obbligatorio, poiché XML ha regole più vincolanti, ne è comunque consigliato l'utilizzo per verificare la validità, la congruità del documento. Una DTD è costituita da una serie di dichiarazioni della forma

<!ELEMENT nome_elemento (nomi_degli_elementi_permessi)> Nel nostro esempio, la dichiarazione potrebbe essere la seguente:

<!- ELEMENT ricetta (titolo, preparazione, ingredienti, body)> <!- ELEMENT titolo (#PCDATA)>

<!- ELEMENT preparazione (tempo, cottura)> <!- ELEMENT ingredienti (#PCDATA)>

<!- ELEMENT body (#PCDATA)>

Ogni istruzione ELEMENT introduce e descrive un attributo in termini degli attributi che lo costituiscono. <!ELEMENT titolo (#PCDATA)> significa che l'elemento "titolo" potrà essere composto da qualsiasi testo o altro carattere che non sia un markup o una limitata lista di segni speciali (PCDATA = Parsed Character Data).

Mediante l'uso di attributi è possibile specificare gli elementi nella forma seguente: <!ATTRIBUTE nome_elemento nome_attributo tipo_di_attributo valore_di_default>

Una DTD, dunque, è una descrizione delle categorie usate per descrivere il tipo di documento corrente, secondo un formalismo molto prossimo alla Backhus-notation. Un documento si dice "valido" quando contiene una DTD e rispetta le regole che essa definisce.

Le DTD (mwordapi.dtd, orthotrans.dtd, trans.dtd) necessarie all’apertura dei files XML sono state inserite in ognuna delle cartelle contenenti i dialoghi.

5.3.4. STYLESHEET

Le specifiche di XML non fanno riferimento ad alcun metodo di visualizzazione e di stile da applicare; è necessario, pertanto, predisporre una "traduzione" del documento che renda possibile effettuare la visualizzazione su Web o mediante altri sistemi di browsing. Un'interfaccia abbastanza diffusa è CSS (Cascade Style Sheet), che trasforma l'output del documento in HTML.

Le specifiche di questa traduzione sono contenute in un file detto stylesheet. Un linguaggio per l'implementazione di stylesheets, più flessibile di CSS, è XSL (eXtensible Stylesheet Language), basato sul DSSL (Document Style Semantics and Specification Language), quest'ultimo è utilizzato in particolar modo con i documenti SGML.

Uno stylesheet per il nostro esempio, espresso in CSS per visualizzare il documento ricetta.xml con Internet Explorer 5 beta 2 potrebbe essere:

titolo { display: block; text-align: center; background: blue; color: white; font-family: Arial; font-size: 20pt }

(19)

margin-left: 10%; text-align: left; color: red; font-family: Arial; font-style: italic; font-size: 14pt }

ingredienti { display: block; margin-left: 15%; color: green;

font-family: Arial; font-size: 10pt }

body { display: block;

margin-left: 5%; color: black;

font-family: "Times New Roman"; text-align: justify

font-size: 12pt }

Questo stylesheet specifica che il colore di sfondo sia il blu, che il titolo appaia in bianco in caratteri Arial di font 20, centrato, che la preparazione sia allineata a sinistra, in Arial rosso di font 14 ecc.

5.3.5. PERCHÉ SCEGLIERE XML

Qui di seguito sono indicati, in sintesi, le motivazioni generiche, riportate nella letteratura specialistica, per scegliere XML:

• consente di utilizzare documenti strutturati;

• è estensibile, permette di aggiungere sempre nuovi marcatori;

• offre un ottimo formato di scambio di dati, inoltre è un formato che probabilmente durerà a lungo poiché strutturato, estensibile, non ambiguo e completamente leggibile (non binario) e sarà comunque riutilizzabile, considerando anche che i programmi ad ogni nuova versione cambiano formato;

• la strutturazione e l’utilizzo di un linguaggio estensibile basato su tag consente una più semplice interazione con altri programmi, compresi i data base, e quindi un trattamento dei dati più semplice ed efficace;

• i link offrono nuove possibilità;

• portabilità (indipendente dalla piattaforma e dal processore;

• permette un semplice utilizzo di metadati, come Dublin Core, Warwick Framework, RDF;

• ricerche più semplici e più efficaci, prendiamo ad esempio una interrogazione effettuata tramite un motore di ricerca: attraverso il controllo sui tag sarà più inerente a ciò che realmente stiamo cercando; • offre un buon meccanismo di rappresentazione, una ottima capacità di rappresentare dati complessi

(notazioni matematiche, interfacce grafiche);

• offre possibilità di presentazioni superiori a quelle di HTML, per ottenere risultati simili con HTML è necessario utilizzare Javascript, Java o altri linguaggi;

• è semplice ma potente.

A questi motivi, piuttosto generici anche se accettabili, dobbiamo aggiungere altri motivi più specifici al progetto AVIP. Come si è già detto, uno degli obiettivi di questa fase di annotazione dei dialoghi è l'utilizzazione e la valutazione di strumenti automatici o semiautomatici di annotazione e la ricerca della confrontabilità dei dati con quelli raccolti in altri progetti. Entrambi gli obiettivi ci hanno portato all'XML in quanto molti dei dati disponibili sono già codificati in XML e molte interfacce di annotazione utilizzano XML

(20)

come formato di base. XML risulta, quindi, una scelta quasi obbligata per chi voglia inserire la propria ricerca in un contesto internazionale.

C'è, tuttavia, un rovescio della medaglia che ci ha fatto adottare una posizione più flessibile. Molti dei sistemi di annotazione (tools) e di visualizzatori specializzati sono ancora in fase sperimentale, per cui l'effettiva circolazione dei materiali (passaggio da un tool all'altro o da un visualizzatore all'altro) risulta piuttosto laboriosa e, certamente, non automatica, per cui, alla fine, la prima utilizzazione che si fa di un testo annotato è quella di leggerlo così come è. Si è, perciò, adottata una notazione perfettamente coerente con l'XML più puro, ma, laddove il tecnicismo del formato comprometteva la leggibilità, abbiamo mescolato forme SGML, che risultano più facilmente leggibili.

RIFERIMENTI [1] http://www.icp.grenet.fr/ELRA/home.html [2] http://www.iet [3] http://www.ilc.pi.cnr.it/EAGLES/ [4] GATE [5] Penn-Tree Bank [6] http://www.cs.rochester.edu:80/research/trains/annotation/ [7] http://www.hcrc.ed.ac.uk/dialogue/maptask.html [8] http://mate.nis.sdu.dk/ [9] http://www.darmstadt.gmd.de/ rostek/tatoe.hml