3. LA CODIFICA IN XML DEI FENOMENI PARALINGUISTICI

(1)

3. LA CODIFICA IN XML DEI FENOMENI PARALINGUISTICI

3.1. Introduzione

3.1.1. La codifica dei fenomeni paralinguistici

Nel precedente capitolo si sono elencati i principali problemi relativi alla trascrizione, nel presente andremo ad esporre le modalità con cui si è codificato il nostro corpus di analisi per quanto riguarda i fenomeni paralinguistici.

Per fenomeni paralinguistici si intendono principalmente quei fenomeni che riguardano le caratteristiche di disfluenza e di frammentarietà, tipiche del parlato.

In conseguenza all’immediatezza nella produzione orale si verificano fenomeni che disturbano la fluenza della locuzione e che riguardano sia gli aspetti lessicali, quindi parole incomplete, frammenti, enunciati dubbi, parlato inintelleggibile; sia aspetti semi-lessicali, come le interiezioni. Altri fenomeni legati alla difficoltà di realizzare il discorso in tempo reale sono la pausa, sia piena che vuota, e l’allungamento dell’ultima sillaba di una parola.

Per quanto riguarda invece la frammentarietà del testo parlato, è dovuta al fatto che nell’interazione faccia a faccia non vi è una successione regolare di turni, ma ci sono interruzioni e sovrapposizioni, causate spesso dalla concitazione. Possono capitare

(2)

delle sospensioni da parte del parlante, che sospende il proprio enunciato per poi eventualmente riprenderlo. Ci sono infine casi, molto frequenti di retracing: ripetizioni, autocorrezioni, riformulazioni, false partenze.

Nel nostro lavoro, tutti questi fenomeni, ampiamente presenti nel corpus di riferimento, sono stati codificati utilizzando il linguaggio XML (eXtensible Markup Language), secondo gli standard del consorzio TEI (Text Encoding Iniziative).

La scelta di questo linguaggio è stata dettata da una duplice esigenza: di standardizzazione da una parte e di portabilità dall’altra.

XML è uno standard, ovvero “un insieme di norme relative a una particolare tecnologia emesse da un ente istituzionale nazionale o internazionale deputato a tale scopo”1 (Pierazzo 2005: 11).

E’ inoltre portabile, ovvero è dotato di caratteristiche tecniche articolate su quattro distinti livelli di indipendenza (Pierazzo 2005: 10 – 11):

a) Indipendenza dall’hardware, ovvero da una particolare architettura elaborativa fisica (un processore, PC, Apple Machintosh, ecc.), da un particolare supporto digitale (floppy disk, CD Rom, ecc.), o da un particolare dispositivo o sistema di output (video, stampa).

b) Indipendenza dal software, sia dai sistemi operativi (Windows, Linux, Unix, ecc.), sia dalle applicazioni deputate alla creazione, analisi, manipolazione e visualizzazione di testi elettronici (editor testuali); i software commerciali usano infatti, nella maggior parte dei casi, formati di dati proprietari reciprocamente incompatibili (e a volte incompatibili anche fra le diverse versioni dello stesso software).

1_{L’ente internazionale deputato alla definizione di standard formali è la International}

(3)

c) Indipendenza dai sistemi di codifica dei caratteri, che possono divenire obsoleti con lo sviluppo della tecnologia.

d) Indipendenza logica dalle tipologie di elaborazione: il documento XML può essere usato per diversi fini e in diversi ambiti di applicazione.

Nei paragrafi seguenti verranno descritti lo standard XML, il progetto TEI e i tag set, resi disponibili dalla TEI per il parlato, ma opportunamente ampliati, adattati e utilizzati per il presente lavoro.

3.1.2. XML

XML è la sigla di eXtensible Markup Language. Si tratta di un linguaggio sviluppato dal W3C2 (World Wide Web Consortium), con lo scopo di semplificare SGML3.

E’ un metalinguaggio, utilizzato per descrivere e gestire documenti strutturati, consente la creazione di markup personalizzati in modo molto semplice e intuitivo.

L’unità base di XML è l’elemento, ovvero un’unità testuale considerata in quanto componente strutturale di un documento: tutti gli elementi, in una sequenza organizzata e racchiusi da un elemento radice (root element), costituiscono il documento XML.

Gli elementi sono nominati con un generic identifier (o GI) e definiti dalle relazioni che hanno con gli altri elementi, relazioni essenzialmente gerarchiche e ordinali: non possono sovrapporsi tra loro.

2_{Il W3C è l’organizzazione che si occupa dello sviluppo e della conservazione degli standard} Web. Per maggiori informazioni, v. il sito internet, all’indirizzo www.w3.org

(4)

I documenti XML ben-formati avranno quindi una struttura che potrebbe essere rappresentata con un grafo ad albero in cui a ciascun nodo corrisponde un elemento e a ogni ramo verso il basso uscente da un nodo una relazione di inclusione (Pierazzo 2005: 36).

Agli elementi si possono aggiungere degli attributi e dare un valore a questi attributi, allo scopo di descrivere uno stato particolare dell’elemento o per darne maggiori informazioni.

Il documento XML è definito dalla Document Type Definition (DTD), una particolare struttura dati che può essere contenuta nell’elemento stesso o in un file separato.

E’ costituita da un elenco di dichiarazioni specificate in base alla sintassi XML che identificano gli elementi di un testo attraverso un identificatore generico (il nome, costituito da una stringa di caratteri), ed il loro contenuto, ovvero l’insieme di sotto-elementi o caratteri che un elemento può contenere e i relativi rapporti di ordine e ricorrenza. Per ogni elemento inoltre possono essere definiti uno o più attributi che ne specificano ulteriori caratteristiche o funzioni non strutturali. I documenti XML sono detti validi se rispettano i vincoli espressi nella propria DTD.

3.1.3. La TEI

La Text Encoding Iniziative è nata nel 1986 in seno a tre associazioni accademiche che si occupano del rapporto tra studi umanistici e informatica: la Association for Computers and the Humanities (ACH), la Association for Computational Linguistics (ACL), e la Association for Literary and Linguistic Computing (ALLC).

(5)

Nel 1994 ha pubblicato la prima versione delle sue Guidelines for Text Encoding and Interchange (TEI p3).

Nel 2000 si è trasformata in un consorzio e nel 2001 ha pubblicato la nuova versione delle Guidelines (TEI p4), compatibile con il linguaggio XML4.

I principi che hanno orientato la commissione di sviluppo della TEI nel definire la struttura della DTD TEI sono basati sui fondamenti teorici dello SGML/XML, ovvero sulla predilezione per un markup di tipo dichiarativo-strutturale, piuttosto che di tipo specifico-procedurale.

Tuttavia lo schema prevede anche dei marcatori più specifici e procedurali, utilizzabili quando la scelta del markup descrittivo non è praticabile senza introdurre problemi o quando le esigenze di ricerca richiedono una forte aderenza del testo elettronico al suo originale. La TEI infatti fornisce uno schema di tipo generale, orientato al dominio umanistico, ma non rigidamente determinato: gli elementi definiti nella DTD sono oltre quattrocento e molte caratteristiche strutturali di un testo sono provviste di molteplici possibilità di codifica. Inoltre lo schema della DTD prevede ampie possibilità di modifiche locali e di estensioni per adattarsi ad esigenze particolari.

Solo alcuni elementi devono essere obbligatoriamente presenti in un testo codificato TEI e si concentrano quasi tutte nell’header.

Poiché si propone di fornire una metodologia standard di codifica testuale, la TEI ha dovuto contemperare le esigenze di formalità e di rigore dello SGML/XML con le diverse esigenze di codifica proposte dai vari settori della ricerca umanistica. Questo risultato è stato ottenuto attraverso un’architettura modulare della DTD, che permette al codificatore di adattare lo schema alle sue esigenze di ricerca.

(6)

La DTD della TEI infatti non si limita a definire un unico e singolo tipo di documento, ma piuttosto una serie di elementi specializzati, divisi in quattro gruppi (Pierazzo 2005: 73):

a) Insieme di elementi generici che possono comparire in ogni tipo di testo (core tag set).

b) Insieme di elementi specifici per vari tipi fondamentali di documenti: testo in prosa, testo in versi, testo drammatico, dizionari o trascrizione di registrazioni verbali (base tag sets).

c) Insieme di elementi per le rappresentazioni di caratteristiche evidenziate da particolari prospettive analitiche ed applicazioni specializzate: codifica di fonti primarie e di apparati di varianti, codifica di strutture morfosintattiche, rappresentazione di strutture interpretative profonde, rappresentazione di strutture ipertestuali (additional tag sets).

d) Insieme di elementi per esigenze di codifica ausiliarie e specializzate, come la documentazione dello schema di codifica, o la dichiarazione di particolari sistemi di scrittura (auxiliary DTD).

Il codificatore può costruire la propria “vista” della DTD combinando l’insieme degli elementi che ritiene utili e, una volta creata la DTD che definisca lo standard, controllare che il documento sia conforme allo standard attraverso un’analisi sintattica automatica (parsing). Nei seguenti paragrafi approfondiremo queste tematiche, esponendo la loro applicazione al nostro corpus di analisi.

Per comodità abbiamo codificato in due distinti documenti XML le trascrizioni delle due puntate, in modo da disporre di corpora separati al momento dell’interrogazione con il motore di ricerca: questo ci ha permesso un immediato confronto tra le due puntate.

(7)

3.2. Codifica del corpus di analisi

3.2.1. La DTD

La DTD utilizzata per entrambi i documenti è la seguente:

<?xml version="1.0"?>

<!DOCTYPE teiCorpus.2 PUBLIC "-//TEI Consortium//DTD TEI P4//EN" "c:/tei/dtd/tei/tei2.dtd" [

<!ENTITY % TEI.corpus 'INCLUDE'> <!ENTITY % TEI.linking 'INCLUDE'> <!ENTITY % TEI.spoken 'INCLUDE'> <!ENTITY % TEI.analysis 'INCLUDE'> <!ENTITY % TEI.names.dates 'INCLUDE'> <!ENTITY % TEI.transcr 'INCLUDE'> <!ENTITY % TEI.XML 'INCLUDE'>

<!ENTITY % ISOlat1 SYSTEM "c:/tei/dtd/tei/iso-lat1.ent"> %ISOlat1;

<!ENTITY % ISOnum SYSTEM "c:/tei/dtd/tei/iso-num.ent"> %ISOnum;

<!ENTITY % ISOpub SYSTEM "c:/tei/dtd/tei/iso-pub.ent"> %ISOpub;

<!ENTITY % TEI.extensions.ent SYSTEM 'c:/tei/estensioni/parlato.ent' >

<!ENTITY % TEI.extensions.dtd SYSTEM 'c:/tei/estensioni/parlato.dtd' >

]>

La prima riga rappresenta la dichiarazione che identifica il documento come XML ed indica anche la versione XML utilizzata nel documento, nel nostro caso la versione 1.0:

<?xml version="1.0"?>

In più contiene la dichiarazione del tipo di documento:

(8)

"c:/tei/dtd/tei/tei2.dtd"

Questa dichiarazione, che assegna al documento la sua DTD, è composta da: markup (<!DOCTYPE), nome dell’elemento di massimo

livello (teiCorpus.2) e identificatore pubblico (PUBLIC "-//TEI Consortium//DTD TEI P4//EN"):

a) TEI indica il proprietario

b) EN è il codice che indica il linguaggio ISO in cui è scritta

l’entity

c) PUBLIC è un identificatore che aiuta a rendere i documenti XML

meno dipendenti da un particolare sistema di computer;

Seguono le dichiarazioni delle entità, aperte tutte dalla parola chiave

ENTITY seguita dal nome dell’entità da dichiarare: <!ENTITY % TEI.corpus 'INCLUDE'>

In questo caso l’entità è stata usata per controllare l’inclusione nella DTD della dichiarazione di elementi e di attributi per la descrizione di corpora. Per rendere possibile ciò è stato necessario dichiarare questa entità e le seguenti con il valore 'INCLUDE'.

<!ENTITY % TEI.linking 'INCLUDE'>

E’ un frammento della DTD TEI: controlla l’inclusione nella DTD delle dichiarazioni degli elementi e degli attributi per legami e segmentazioni. E’ stato usato per collegare tra loro le varie parti del testo.

<!ENTITY % TEI.spoken 'INCLUDE'>

Questo frammento è stato attivato per controllare l’inclusione nella DTD delle dichiarazioni degli elementi e degli attributi per testi parlati.

(9)

Questo frammento controlla l’inclusione, nella DTD, delle dichiarazioni degli elementi e degli attributi per semplici meccanismi di analisi.

<!ENTITY % TEI.names.dates 'INCLUDE'>

Questo frammento di DTD controlla l’inclusione delle dichiarazioni degli elementi e degli attributi per analisi dettagliate di nomi e date.

<!ENTITY % TEI.transcr 'INCLUDE'>

E’ un frammento DTD TEI per la trascrizione di fonti primarie.

<!ENTITY % TEI.XML 'INCLUDE'>

E’ un frammento DTD che controlla se la DTD generata deve essere in XML o SGML.

Seguono poi le dichiarazioni di entità che richiamano il set di caratteri utilizzati da XML, ossia ISOlat1:

a) ISO significa che l’insieme proviene dagli standard ufficiali internazionali dell’ISO;

b) Latin significa che l’insieme deriva dall’alfabeto romano utilizzato per scriver in molte lingue in tutto il mondo;

c) Il numero 1 indica il numero dell’insieme di caratteri per questo standard, di conseguenza l’alfabeto romano rappresenta il primo insieme di caratteri per questa serie.

Infine le entità che attivano i numeri e le parole pubbliche:

<!ENTITY % ISOnum SYSTEM "c:/tei/dtd/tei/iso-num.ent"> %ISOnum;

<!ENTITY % ISOpub SYSTEM "c:/tei/dtd/tei/iso-pub.ent"> %ISOpub;

(10)

Chiudono la DTD le dichiarazioni delle estensioni:

<!ENTITY % TEI.extensions.ent SYSTEM 'c:/tei/estensioni/parlato.ent' >

<!ENTITY % TEI.extensions.dtd SYSTEM 'c:/tei/estensioni/parlato.dtd' >

In queste sono specificati i nomi dei due file in cui sono raggruppate le modifiche locali alla DTD, permesse dalle regole della DTD stessa5: uno contiene modifiche all’entità e l’altro contiene dichiarazioni nuove o modificate degli elementi e dei loro attributi.

3.2.2. Il TEI Header

Il TEI Header, marcato <teiHeader>, è un frontespizio elettronico che

raccoglie informazioni di carattere generale sul corpus: il tipo di testo codificato, la fonte, il tipo di codifica adottato, il responsabile della codifica, le successive revisioni del testo.

Generalmente è costituito da quattro parti principali, secondo questo modello6 : <teiHeader> <fileDesc>  </fileDesc> <encodingDesc>  </encodingDesc> <profileDesc>  </profileDesc> <revisionDesc>  </revisionDesc> </teiHeader>

Di seguito riporteremo le varie parti che compongono i TEI Header dei nostri due documenti.

5_{cfr. GUIDELINES (P4), Modifying and Customizing the TEI DTD (Cap. 29).} 6_{cfr. GUIDELINES (P4), The TEI Header (Cap. 5)}

(11)

3.2.2.1. Il <fileDesc>

Il <fileDesc> è l’unico elenco obbligatorio del TEI Header econtiene

una descrizione bibliografica del file. Nel presente lavoro questa parte contiene:

a) Titolo

<teiCorpus.2>

<title type="main">Puntata 1</title>

b) Nome file

<title type="file">parlato.xml</title>

c) Sponsor

<sponsor>Università degli Studi di Pisa</sponsor>

d) Relatore

<principal><name>Mirko Tavoni</name></principal>

e) Responsabilità del lavoro

<resp>Trascrizione e codifica a cura di <name>Chiara Fattori</name></resp> </respStmt> </titleStmt> f) Edizione <editionStmt> <edition>Tesi di Laurea</edition>

(12)

</editionStmt>

g) Pubblicazione

<publisher>Università degli Studi di Pisa</publisher> <availability status="restricted">

Tesi consultabile previo consenso dell'autrice </availability>

<date>Anno accademico 2004-2005</date> </publicationStmt>

h) Descrizione delle fonti, nome del trascrittore, nome del conduttore, titolo della trasmissione

<resp>Registrazione effettuata da <name>Chiara Fattori</name></resp>

</respStmt> <equipment>

registrata con videoregistratore disponibile in cassette VHS presso <name>Chiara Fattori</name>

</equipment> <broadcast> <bibl>

<respStmt><resp>conduttore <name>Bruno Vespa</name></resp> <resp>regista <name>Marco Aleotti</name></resp>

</respStmt> <series><title>Porta a porta</title></series> </bibl> </broadcast> </recording> </recordingStmt> </sourceDesc> </fileDesc>

(13)

3.2.2.2. L’<encodingDesc>

L’<encodingDesc> documenta le relazioni tra il testo e le fonti da cui deriva.

Contiene:

a) Descrizione del progetto e dichiarazione dei criteri di selezione del materiale:

Studio dei fenomeni paralinguistici e morfosintattici dell'italiano parlato all'interno di due puntate di Porta a porta, attraverso l'uso di strumenti di codifica e di analisi computazionali

</projectDesc> <samplingDecl>

Sono state scelte due puntate di diverso argomento: una politica e una di costume

</samplingDecl> <editorialDecl> <segmentation>

Il testo è stato segmentato in enunciati che non corrispondono necessariamente ai turni. Infatti un turno può essere costituito da più enunciati

</segmentation> </editorialDecl>

b) Definizione degli elementi utilizzati nel documento e loro descrizione con precisazione degli attributi e dei relativi valori:

<tagUsage gi="u">Questo elemento è stato usato per individuare l'enunciato. E' seguito dall'attributo who che assume come valore l'identificativo del partecipante che di volta in volta pronuncia l'enunciato.

(14)

Per i casi in cui l'enunciato è rivolto ad una persona diversa dall'interlocutore principale, è stato appositamente creato l'attributo to </tagUsage>

<tagUsage gi="seg"> Costituisce un ulteriore livello di suddivisione dell'enunciato, può essere usato a discrezione del codificatore per marcare ogni tipo di segmento a cui si è interessati. Nel presente lavoro tramite l'attributo subtype è stata possibile una sottocategorizzazione del segmento marcato, in segmenti interrogativi e esclamativi</tagUsage>

<tagUsage gi="anchor"> Questo elemento è stato usato per delimitare l'inizio e la fine della porzione di enunciato cui si sovrappone un secondo enunciato di un altro interlocutore. Presenta l'attributo id il cui valore alfanumerico definisce l'identificativo. La battuta sovrapposta è stata racchiusa all'interno dell'elemento u, in cui gli attributi start e end definiscono l'inizio e la fine della sovrapposizione. </tagUsage>

<tagUsage gi="q"> Questo elemento è stato usato per indicare il discorso diretto riportato</tagUsage>

<tagUsage gi="quote"> Queto elemento è stato usato per indicare la citazione</tagUsage>

<tagUsage gi="kinesic"> Questo elemento è stato usato per contenere ogni fenomeno comunicativo non necessariamente vocalizzato per esempio un gesto, o un atteggiamento di silenzio. Presenta l'attributo desc che è una rappresentazione convenzionale del fenomeno</tagUsage>

<tagUsage gi="pause"> Questo elemento è stato usato per rappresentare una pausa tra due enunciati o all'interno di un enunciato</tagUsage>

<tagUsage gi="emph"> E' stato usato per marcare parole o frasi che sono enfatizzate o sottolineate per effetti linguistici </tagUsage>

(15)

<tagUsage gi="vocal"> Con questo elemento sono stati segnalati i fenomeni vocali.

Per indicare i frammenti è stato usato l'attributo type con il valore fragment.

Per indicare le interiezioni è stato usato l'attributo type con valore semi-lexical e l'attributo desc per descrivere l'interiezione, sia affermativa, esclamativa e interrogativa.

Per indicare suoni non linguistici è stato usato l'attributo type non-lexical e l'attributo desc per descrivere il tipo di suono. Dell'elemento vocal è stata ridefinita la DTD in modo tale che potesse contenere l'attributo type. </tagUsage>

<tagUsage gi="gap"> E' stato usato per indicare un punto dove il materiale è stato omesso nella trascrizione in quanto incomprensibile. Puòcontenere l'attributo reason che da le ragioni delle omissioni. Quando è stato possibile capire quante parole sono state omesse è stato usato l'attributo extent</tagUsage>

<tagUsage gi="unclear"> Questo elemento à stato usato per indicare una parola o una frase che non è stata compresa con certezza perchè poco udibile </tagUsage>

<tagUsage gi="foreign">E' stato usato per identificare una parola o frase che appartiene a qualche lingua diversa da quella del testo. L'attributo lang serve per identificare la lingua della frase marcata. </tagUsage>

<tagUsage gi="distinct">E' stato usato per identificare ogni parola o frase che è considerata come distinta linguisticamente, nel nostro caso il dialetto. Può contenere l'attributo type che specifica il tipo di distinzione e space che indica come la parola è distinta diatopicamente.</tagUsage>

<tagUsage gi="event"> E' stato usato per indicare ogni fenomeno, non necessariamente vocale o comunicativo. Tramite l'attributo desc esprime il tipo di evento, come per esempio un applauso o altro. </tagUsage>

(16)

<tagUsage gi="long"> Questo elemento è stato appositamente creato per indicare l'allungamento della sillaba di una parola. All'attributo type è stato dato come valore "simple" in tutti i casi di allungamento di sillaba di una parola. Nei casi particolari di allungamento di suoni come eh, ah che diventano suoni di appoggio e consentono al locutore di prendere tempo per la prosecuzione della verbalizzazione, è stato dato come valore "support". </tagUsage>

<tagUsage gi="retracing"> Il retracing è un fenomeno caratteristico del parlato che consiste nel fatto che chi parla, ad un certo momento ha un'esitazione, per cui può ripetere l'ultima parola detta, può correggerla o può cambiare totalmente discorso.Per distinguere ognuno di questi casi è stato creato l'elemento retracing dotandolo dell'attributo type che può avere i diversi valori (nocorr / corr / reform / fstart) </tagUsage>

<tagUsage gi="interruption"> Questo elemento è stato creato. E' stato usato per indicare quando l'enunciato è interrotto. Tramite l'attributo type si distinguono i vari tipi: suspended / others. Entrambe le interruzioni possono avere delle riprese che sono state indicate tramite gli attributi id / next / prev . Id identifica la frase sospesa o interrotta, next la frase successiva e prev la frase precedente.</tagUsage>

</tagsDecl> </encodingDesc>

3.2.2.3. Il <profileDesc>

Il <profileDesc> contiene una descrizione dettagliata degli aspetti non bibliografici del testo: la lingua, la situazione in cui il testo è prodotto, I partecipanti alla conversazione e l’ambientazione.

Contiene:

a) Data della trascrizione:

(17)

</creation>

b) Lingue presenti nel documento:

<language id="it">Italiano</language> <language id="en">Inglese</language> <language id="fr">Francese</language> <language id="ja">Giapponese</language>

Il testo contiene forme dialettali, opportunamente marcate </langUsage>

c) Derivazione:

<channel>video</channel>

<constitution>Trascrizione completa di trasmissioni televisive</constitution>

<derivation>Il testo è originale</derivation>

d) Dominio:

<domain>Pubblico</domain> <factuality type="fact"/>

<interaction type="complete" passive="world">Interazione totale, ogni partecipante può intervenire nel dibattito in qualsiasi momento, pur seguendo certe regole stabilite dal conduttore</interaction>

<preparedness type="formulaic">La conversazione è spontanea ma segue un argomento centrale e il conduttore segue una scaletta predefinita di domande</preparedness>

e) Scopo della trasmissione:

f) Identità del conduttore:

(18)

<person id="VES" role="conductor" sex="m"><name>Bruno Vespa</name>

</person> <personGrp>

Gli altri partecipanti cambiano di volta in volta e sono definiti nell'header di ogni trasmissione

</personGrp> </particDesc>

g) Ambientazione:

<settingDesc><setting>L'interazione tra i diversi ospiti ha luogo all'interno degli studi Rai </setting>

<setting> <name type="city">Roma</name> <locale>Studi Rai</locale> </setting> </settingDesc> </profileDesc> 3.2.2.4. La <revisionDesc>

La <revisionDesc> registra la revisione di un file. Non è obbligatorio ma raccomandabile.

Contiene la data della codifica:

<date>Gennaio 2005 </date>

<resp>Codificatore</resp> <name>Chiara Fattori</name> </respStmt>

<item>Codifica e digitalizzazione sulla base del formato TEI</item>

</change>

</revisionDesc> </teiHeader>

In questo punto si conclude l’header relativo al corpus ed inizia un header più specifico per ciascun testo di cui si compone il corpus.

(19)

Di seguito riportiamo i due TEI Header relativi alle due puntate da noi codificate.

Ognuno presenta una dicitura come questa:

All’attributo id viene associato un identificativo per ogni testo del

corpus e il valore "text" all’attributo type.

La struttura è la stessa dell’header del corpus, vengono aggiunte delle informazioni all’interno del <fileDesc> e del <profileDesc>.

3.2.2.5. TEI Header della Puntata 1 <TEI.2>

a) Titolo e data della puntata

<title>Trascrizione trasmissione del 19_11_2004</title> </titleStmt>

Si vedano i dati relativi al corpus </publicationStmt>

</recording> </recordingStmt> </sourceDesc>

</fileDesc>

b) Identità dei partecipanti

(20)

<person> che è costituito da un attributo id che ha come valore

le prime tre lettere maiuscole del cognome del partecipante, seguito dall’attributo role che nel nostro caso assume i valori "guest" e "spectator", dall’attributo sex che ha come valori

maschile/femminile;

<persName> contiene il nome per esteso del personaggio; <occupation> contiene l’occupazione del personaggio.

<persName>Annamaria Bernardini de Pace</persName> <occupation>Avvocato divorzista</occupation> </person>

<person id="PAS" role="guest" sex="m"> <persName>Willy Pasini</persName>

<occupation>Docente di psichiatria e psicologia medica</occupation>

</person>

<person id="IZZ" role="guest" sex="f"> <persName>Simona Izzo</persName>

<occupation>Attrice</occupation> </person>

<person id="TOG" role="guest" sex="m"> <persName>Ricky Tognazzi</persName> <occupation>Attore</occupation> </person>

<person id="BAS" role="guest" sex="f"> <persName>Maria Piera Bassino</persName> <occupation>Regista</occupation>

</person>

<person id="FRA" role="guest" sex="m"> <persName>Pippo Franco</persName> <occupation>Comico</occupation> </person>

<person id="LAN" role="guest" sex="f"> <persName>Roberta Lanfranchi</persName> <occupation>Show-girl</occupation>

(21)

</person>

<person id="INS" role="guest" sex="m"> <persName>Pino Insegno</persName> <occupation>Attore</occupation> </person>

<persName>Renato Mannhaimer</persName> <occupation>Sociologo</occupation> </person> </particDesc> <settingDesc> <setting> <date>19_11_2004</date> </setting> </settingDesc> </profileDesc> </teiHeader>

3.2.2.6. TEI Header della Puntata 2 <TEI.2>

<title>Trascrizione trasmissione del 30_11_2004</title> </titleStmt>

Si vedano i dati relativi al corpus </publicationStmt>

(22)

<person id="LAR" role="guest" sex="m"> <persName>Ignazio La Russa</persName>

<occupation>Vice Presidente Vicario AN</occupation> </person>

<person id="BER" role="guest" sex="m"> <persName>Pierluigi Bersani</persName>

<occupation>Responsabile Economico DS</occupation> </person>

<person id="BRU" role="guest" sex="m"> <persName>Renato Brunetta</persName>

<occupation>Consigliere economico del Presidente del Consiglio</occupation>

</person>

<person id="LET" role="guest" sex="m"> <persName>Enrico Letta</persName>

<occupation>Responsabile economico Margherita</occupation> </person>

<person id="PIR" role="guest" sex="m"> <persName>Mario Pirani</persName> <occupation>Giornalista</occupation> </person>

<person id="MAZ" role="guest" sex="m"> <persName>Giancarlo Mazzucca</persName> <occupation>Giornalista</occupation> </person>

<person id="CRI" role="spectator" sex="m"> <persName>Fabio Cristofari</persName> <occupation>Ingegnere</occupation> </person>

<person id="GIO" role="spectator" sex="m"> <persName>Walter Giovarelli</persName> <occupation>Pensionato</occupation> </person> </particDesc> <settingDesc> <setting> <date>30_11_2004</date> </setting> </settingDesc>

(23)

</profileDesc> </teiHeader>

3.2.3. Macrostruttura e microstruttura

Dopo il TEI Header inizia il testo vero e proprio. L’organizzazione è sempre ad albero, dove i livelli gerarchicamente superiori prendono il nome di macrostruttura, che si articola nei seguenti livelli, annidati l’uno nell’altro:

<TEI.2>

<body>

<div1> ... MICROSTRUTTURA ... </div1> </body>

</text>

</TEI.2>

Il primo livello è costituito da <TEI.2> che contiene un singolo

documento conforme alle norme TEI e comprende a sua volta un Header e un testo.

L’elemento <text> può contenere o un testo unitario o un testo

composito. Nel nostro caso un testo unitario e contiene il <body> che è

costituito dall’intero corpo del testo.

Segue nella struttura <div1> che contiene un ulteriore livello di

suddivisione del body. Questa fa parte della microstruttura, insieme a tutti gli elementi che sono stati usati nella marcatura del corpus.

(24)

3.2.4. Tag set per la marcatura dei fenomeni paralinguistici

Si riportano di seguito tutti i fenomeni individuati nel corpus e i relativi tag di codifica7.

a) Enunciato 

Questo elemento è stato usato per individuare l'enunciato. E' seguito dall'attributo who che assume come valore l'identificativo del

partecipante che di volta in volta pronuncia l'enunciato.

Ogni identificativo è costituito dalle prime tre lettere maiuscole del cognome del parlante.

Nel seguente esempio, l’identificativo VES sta per Bruno Vespa:

...

Per i casi in cui l'enunciato è rivolto ad una persona diversa dall'interlocutore principale, è stato appositamente creato l'attributo to,

come nel seguente esempio:

...

Per fare ciò è stata modificata la DTD, disattivando nel file

parlato.ent la definizione dell’elemento fornita dalla TEI,

attraverso la parola IGNORE: <!ENTITY % u 'IGNORE' >

In seguito, nel file parlato.dtd è stata ridefinita la DTD in modo da

permettere che l’elemento , oltre all’attributo who (previsto dalla

DTD TEI) potesse contenere anche l’attributo to: <!ATTLIST u

%a.global; %a.timed; %a.declaring;

trans (smooth | latching | overlap | pause) "smooth" who IDREFS #IMPLIED

to IDREFS #IMPLIED >

(25)

L’elemento costituisce il primo livello gerarchicamente superiore

della microstruttura. Contiene quindi tutti gli elementi presenti nella marcatura.

L’identificatore del parlante deve essere presente nell’elemento

<partecipants> del teiHeader.

L’elemento viene abilitato includendo TEI.spoken nella DTD del

documento.

b) Segmento <seg>

Costituisce un ulteriore livello di suddivisione dell'enunciato, può essere usato a discrezione del codificatore per marcare ogni tipo di segmento a cui si è interessati. Nel presente lavoro tramite l'attributo

subtype è stata possibile una sottocategorizzazione del segmento

marcato, in segmenti interrogativi e esclamativi.

Per rendere disponibile l’elemento <seg> è necessario abilitare l’entità

TEI.analysis nella DTD del documento.

c) Sovrapposizione <anchor>

L’elemento <anchor> è un elemento vuoto8 che è stato usato come

identificativo in un punto del testo per delimitare l'inizio e la fine della porzione di enunciato cui si sovrappone un secondo enunciato di un altro interlocutore. Presenta l'attributo id il cui valore alfanumerico

definisce l'identificativo. La battuta sovrapposta è stata racchiusa all'interno dell'elemento , in cui gli attributi start e end definiscono

l'inizio e la fine della sovrapposizione.

8_{Gli elementi vuoti, o milestone secondo la terminologia TEI, sono elementi che servono a} marcare determinati punti di riferimento all’interno di un testo. Non hanno alcun contenuto e si presentano con questa fisionomia: <anchor />.

(26)

Ad esempio:

... <anchor id="a1" /> ... <anchor id="b1" /> ...

...

Questo elemento viene reso disponibile abilitando l’entità TEI.linking nella DTD.

d) Discorso diretto riportato <q>

L’elemento <q> è stato usato per indicare una parte del testo in cui

qualcuno riporta un discorso detto da un altro. Nel presente lavoro è stato utilizzato esclusivamente per marcare il discorso diretto riportato.

Fa parte del core tag set.

e) Citazione <quote>

Nel presente lavoro questo elemento contiene una frase attribuita da chi parla a qualcuno che è esterno alla conversazione.

Anche questo fa parte del core tag set.

f) Battuta silenziosa <kinesic>

Contiene ogni fenomeno comunicativo, non necessariamente vocalizzato, per esempio un gesto o un atteggiamento di silenzio che indica imbarazzo.

Contiene l’attributo descrizione che è una rappresentazione convenzionale del fenomeno.

Questo elemento viene reso disponibile attivando il tag set TEI.spoken.

(27)

g) Pausa <pause />

Questo elemento vuoto è stato usato per rappresentare una pausa tra due enunciati o all'interno di un enunciato.

Viene reso disponibile attivando il tag set TEI.spoken.

h) Focalizzazione <emph>

Questo elemento è stato usato per marcare parole o frasi che sono enfatizzate o sottolineate per effetti linguistici o retorici, come un volume più alto, un cambio di intonazione o di ritmo.

i) Vocalizzazioni <vocal />

Con questo elemento sono stati segnalati i fenomeni vocali ma non necessariamente lessicali.

Nell’estensione della DTD TEI, l’elemento vocal è stato adattato a

contenere l’attributo type.

Per fare ciò è stata modificata la DTD, disattivando nel file

parlato.ent la definizione dell’elemento <vocal> fornita dalla TEI,

attraverso la parola chiave IGNORE: <!ENTITY % vocal 'IGNORE' >

In seguito nel file parlato.dtd è stata ridefinita la DTD in modo da

permettere che l’elemento <vocal>, oltre all’attributo desc (previsto

dalla DTD TEI) potesse contenere anche l’attributo type: <!ELEMENT vocal %om.RO; EMPTY>

<!ATTLIST vocal %a.global; %a.timed;

who IDREF #IMPLIED

iterated ( y | n | u ) "n" desc CDATA #IMPLIED

(28)

L’inclusione dell’attributo type nella DTD ha reso possibile una

suddivisione delle vocalizzazioni in:

frammenti <vocal type="fragment" />

Contiene una parola che non viene realizzata completamente, è possibile aggiungere l’attributo desc per dare una descrizione,

quando si è in grado di farlo, della realizzazione.

interiezione <vocal type="semi-lexical" desc="eh" />

Oltre all’attributo type che può assumere il valore semi-lexical, è

presente l’attributo desc che descrive l’interiezione. Questa può

essere interrogativa o esclamativa:

suoni non linguistici <vocal type="non-lexical" desc="ride" />

L’elemento vocal fa parte del tag set base TEI.spoken. j) Materiale omesso <gap>

E’ stato usato per indicare un punto dove il materiale è stato omesso nella trascrizione in quanto incomprensibile. Può contenere l’attributo

reason che indica le ragioni delle omissioni.

Si possono avere dei casi di incomprensione totale in cui comunque è possibile individuare nel continuum fonico di tale incomprensione, ossia in maniera approssimativa il numero di parole che vengono pronunciate. In questo caso si aggiunge l’attributo extent che indica

quante parole sono state omesse:

Mentre nel caso in cui non è possibile misurare l’estensione di ciò che è incomprensibile si è usato l’elemento gap senza l’attributo extent: <gap reason="inaudible" />

(29)

k) Incertezza <unclear>

Nel presente lavoro questo elemento è usato per marcare una parola o una frase non compresa con certezza:

l) Lingua straniera <foreign>

Questo elemento è stato usato per identificare una parola o una frase che appartiene a una lingua diversa da quella del testo.

L’attributo lang serve per identificare la lingua e va specificato per

tutti gli elementi foreign.

Nel nostro caso le parole straniere sono state l’inglese, il francese e il giapponese per quanto riguarda la Puntata 1, il francese, il latino e l’inglese per quanto riguarda la Puntata 2.

<foreign lang="en">inglese</language>

Questo elemento fa parte del core tag set.

m) Dialetto <distinct>

Identifica ogni parola che è considerata come distinta linguisticamente, nel nostro caso il dialetto.

Può contenere l’attributo type che specifica il tipo di distinzione e space che indica come la parola è distinta diatopicamente.

n) Tecnicismi <term>

Nel presente lavoro questo elemento identifica un tecnicismo. Può contenere l’attributo type che specifica a quale lingua settoriale o

speciale appartiene. Ad esempio:

(30)

o) Eventi <event>

E’ stato usato per indicare ogni fenomeno, non necessariamente vocale o comunicativo, come un applauso, il suono del campanello, la sigla. Tramite l’attributo desc esprime il tipo di evento, ed esempio: <event desc="applauso" />

Fa parte del tag set base TEI.spoken.

p) Allungamento <long>

Questo elemento è stato usato per indicare l’allungamento della sillaba di una parola.

Può contenere due attributi: type e rend.

L’attributo type prende il valore di “support” quando ha una funzione

di appoggio e consente al locutore di prendere tempo per formulare il proprio discorso, negli altri casi prende il valore di “simple”.

L’attributo rend definisce la resa ed stato usato per indicare quale

delle sillabe della parola è stata allungata, prende il valore di centrale, iniziale o finale.

Esempio:

<long type="support" rend="centrale">separati</long>

Questo elemento non è presente nella DTD della TEI ma è stato introdotto nel file parlato.ent all’interno della classe di elementi seg: <!ENTITY % x.seg 'interruption | retracing | long |'>

Successivamente è stato definito in parlato.dtd fornendolo dell’attributo type con i valori ammessi:

<!ELEMENT long %om.RO; %paraContent;> <!ATTLIST long

%a.global;

(31)

q) Retracing

Il retracing è un fenomeno caratteristico del parlato che consiste in un’esitazione di chi sta parlando, il quale può ripetere l’ultima parola detta, può correggerla o può cambiare totalmente discorso.

Ad ogni fenomeno corrisponde uno specifico tag che è composto dall’elemento retracing e dall’attributo type.

Retracing without correction9

E’ stato usato per marcare i casi in cui c’è un ripensamento senza auto-correzione del materiale e contiene il materiale ripetuto.

Esempio:

<retracing type="nocorr">per</retracing> per poterla gestire

Retracing with correction

E’ stato usato nei casi in cui il parlante comincia a dire qualcosa, si ferma e cambia la struttura frasale di quello che diceva ma non l’idea. Esempio:

e mi sono <retracing type="corr">innamorata</retracing> innamorato di una ragazza

Retracing with reformulation

Quando c’è una completa riformulazione del messaggio senza una specifica correzione.

Esempio:

<retracing type="reform">Voi avete</retracing> voi siete sposati da sedici anni

False start without retracing

Quando un parlante lascia un enunciato incompleto e poi continua in modo totalmente diverso.

Ad esempio:

Noi abbiamo cominciato separando i bagni <retracing type="fstart">che però</retracing> dal primo giorno

9_{I termini in inglese sono stati tratti direttamente da Mac Whinney (1995: 75).} E’ possibile tradurlo in italiano come “ripensamento” (Pizzuto, Bortolini 1997).

(32)

Questo elemento non è presente nella DTD TEI ma è stato creato con lo stesso meccanismo di long:

<!ENTITY % x.seg 'interruption | retracing | long |'>

Segue la definizione creata per questo fenomeno dove vengono specificati i possibili valori richiesti per l’attributo type:

<!ELEMENT retracing %om.RO; (#PCDATA | %m.phrase; | %m.comp.spoken; | %m.Incl;)*> <!ATTLIST retracing

%a.global;

type (nocorr | corr | reform | fstart ) #REQUIRED >

r) Interruzioni di enunciato <interruption>

Nemmeno l’elemento interruption è presente nella DTD TEI, ma è

stato creato per rispondere alle esigenze della presente analisi.

Nel file parlato.ent è stato definito l’elemento interruption all’interno

della classe di elementi seg:

<!ENTITY % x.seg 'interruption | retracing | long |'>

Quindi in parlato.dtd è stata definita la DTD dell’elemento

fornendolo dell’attributo type e dei previsti valori: <!ELEMENT interruption %om.RO; EMPTY>

<!ATTLIST interruption %a.global;

type (suspended | self | others ) #REQUIRED >

Si distinguono diversi tipi di interruzione: Sospensione

Questo elemento è stato usato nei casi in cui un enunciato è stato lasciato in sospeso e non viene concluso ciò che si stava dicendo. Esempio:

questo sarebbe carino questa del letto unico <interruption type="suspended" />

Sospensione con ripresa

Alle volte può succedere che l’enunciato sia seguito da una pausa nella conversazione e un nuovo enunciato viene poi prodotto dallo

(33)

stesso parlante che si era interrotto. In questo caso si può avere una ripresa che viene segnalata da l’elemento interruption, seguito

dall’attributo type con valore “suspended” e dagli attributi id e next

che hanno come valore degli identificatori che indicano l’enunciato appena pronunciato “c1” e il successivo “d1”:

no perché bisogna precisare qua <interruption type="suspended" id="c1" next="d1" />

Il completamento dell’enunciato viene racchiuso in un segmento in cui il valore degli attributi indica l’enunciato pronunciato “d1” e il

precedente “c1”:

<vocal type="non-lexical" desc="ride" /> <seg id="d1" prev="c1"> lei vuole separare</seg>

Interruzione senza ripresa

In questo caso l’enunciato interrotto non viene ripreso nel turno successivo. Può essere un enunciato interrotto dal locutore stesso, per cui abbiamo come valore dell’attributo “self” :

Oppure l’enunciato è stato interrotto da altri per cui il valore è “others”:

Interruzione da parte di altri con ripresa

Nel caso in cui il locutore venga interrotto da un altro partecipante nella conversazione, ma poi completa l’enunciato, si può marcare l’enunciato ripreso e quello interrotto, tramite gli identificativi di enunciato.

Esempio:

... quando poi è l'uomo a chiedere una donna è perché c'è l'altra donna dietro che spinge a chiedere la separazione l'uomo di sua iniziativa <interruption type="others" id="v3" next="z3" />

quindi l'uomo <vocal type="fragment" desc="pr"/> niente

(34)

<seg id="z3" prev="v3">non la chiederebbe mai</seg> ...

L’enunciato interrotto viene identificato come “v3” e il successivo

come “z3”.