Codifica prosodica

(1)

AVIP

Trascrizione prosodica

(2)

1. INTRODUZIONE

In questo documento, dopo una breve rassegna delle principali caratteristiche di alcuni tra i più significativi sistemi di trascrizione prosodica, forniremo le specifiche di annotazione per il corpus AVIP.

Quando si effettua la trascrizione prosodica di un corpus di parlato regionale semi-spontaneo, come quello raccolto in AVIP, ci si trova di fronte ad una serie di difficoltà di ordine sia teorico che operativo:

• la scarsa disponibilità di descrizioni sistematiche per quanto riguarda l'intonazione dell'italiano;

• il fatto che la varietà di lingua cui la maggior parte degli studi disponibili fa riferimento sia il cosiddetto 'italiano standard';

• il frequente riferimento al parlato letto, che costituisce una tipologia molto diversa dai dialoghi semi-spontanei raccolti in AVIP.

Si aggiunga che il nostro data base è stato concepito sia per studi linguistici, sia per indagini orientate all'applicazione in settori tecnologici. Questa doppia finalità va tenuta in considerazione in rapporto ai fenomeni da annotare, ed alla modalità di trascrizione da adottarsi.

Date queste difficoltà, abbiamo preso in considerazione un certo numero di sistemi di trascrizione, tra i più completi che siano stati proposti in ambito internazionale. Tuttavia, poiché il tipo di trascrizione dipende dai modelli teorici di riferimento e dalle finalità specifiche degli studi, non è stato possibile limitarsi a scegliere un sistema di annotazione, ma è stato necessario adattarlo ai nostri scopi.

2. SISTEMI DI TRASCRIZIONE ESISTENTI

Come è noto, esiste una vasta gamma di sistemi per la codifica prosodica [Llisterri, 1994; Garrido & Quazza, 1999], alcuni dei quali sviluppati specificamente per la trascrizione di corpora di parlato.

Nelle sezioni che seguono, sono descritti brevemente tre sistemi (IntSint, PROLAB e ToBI), che esemplificano altrettante strategie di trascrizione, caratterizzate dalla diversa attenzione per gli aspetti fonetici e fonologici nell'annotazione prosodica.

2.1 IL SISTEMA 'INTSINT'

Il sistema IntSint (INternational Trascription System for INTonation) [Hirst & Di Cristo, 1998] si basa su un approccio esclusivamente fonetico. Esso permette di codificare ipotesi su variazioni prosodiche, indipendentemente dalla lingua. In questo senso, si differenzia radicalmente da qualsiasi altro sistema di trascrizione che, facendo riferimento (anche solo parziale) ad un modello fonologico, è strettamente legato alla lingua per cui è stato sviluppato o adattato. Poiché questo sistema è stato scelto per essere adottato in una fase della trascrizione di AVIP, verrà descritto con maggiori dettagli nel seguito del documento. Per evitare ridondanza, in questo paragrafo ne forniremo solo una descrizione sommaria, mentre rimandiamo al paragrafo 3.2.2 (e, naturalmente, ai testi citati in bibliografia), per una spiegazione più puntuale dei

(3)

simboli1.

Il sistema IntSint prevede che la trascrizione venga effettuata su una versione stilizzata della curva di F0. La stilizzazione permette di rimuovere gli errori di calcolo dei valori di frequenza fondamentale, ed i punti irrilevanti del tracciato, in modo che gli autentici bersagli tonali risultino ben evidenti. La curva stilizzata di F0 viene infatti descritta come una sequenza di bersagli legati tra loro da particolari funzioni di transizione.

Nel sistema IntSint, i simboli descrivono il tracciato di F0 sulla base di:

1) considerazioni relative all'altezza del bersaglio tonale rispetto al precedente. Ad esempio, 'H' (Higher) e 'L' (Lower) per bersagli, rispettivamente, più alti e più bassi rispetto ai precedenti; 'S' (Same) qualora il bersaglio sia allo stesso livello del precedente, e 'D' (Downstep) e 'U' (Upset) per variazioni di minore entità, che spesso corrispondono a livellamenti della curva di F0 in tratti discendenti o ascendenti.

2) considerazioni relative al range del parlante. Le etichette vengono definite in relazione alle singole unità tonali, non rispetto alla gamma melodica potenziale del locutore. Ad esempio, 'T' (Top) indica il valore più alto dell'intera unità tonale, 'B' (Bottom) quello più basso.

La suddivisione degli enunciati in unità tonali, è indicata per mezzo di parentesi quadre: '[' per segnalare l'inizio dell'unità prosodica, e ']' per il suo confine destro. Le parentesi possono accompagnarsi ai simboli descritti sopra, in modo da fornire una descrizione del tracciato di F0 anche in corrispondenza dei confini. Ad esempio, 'L]' per indicare un valore basso di F0 al termine dell'unità prosodica. Inoltre, anche se non è prevista la possibilità di annotare l'abbassamento di F0 tra unità prosodiche, è possibile trascrivere il reset di F0 per mezzo del simbolo '[['.

2.2 IL SISTEMA DI ETICHETTATURA PROSODICA 'PROLAB'

Il sistema di trascrizione utilizzato da Klaus Kohler e colleghi per l'annotazione del 'Kiel Corpus of Read Speech' e del 'Kiel Corpus of Spontaneous Speech' [Kohler et al., 1995], PROLAB, si basa su un preciso modello fonologico della lingua tedesca (KIM, Kiel Intonation Model [Kohler, 1991]), con l'aggiunta di altre informazioni di tipo più strettamente fonetico.

Innanzitutto, occorre precisare che, diversamente da quanto previsto in AVIP, la modalità di etichettatura del corpus di Kiel prevede la trascrizione di tutti gli eventi rilevanti, sia relativi al piano segmentale che sovrasegmentale, su un unico livello. L'annotazione segmentale, sulla quale non ci soffermiamo in questa sede, precede necessariamente la fase di etichettatura prosodica, durante la quale è quindi possibile avere a disposizione informazioni su un buon numero di eventi, tra cui la presenza di pause, esitazioni o eventi non verbali, i confini delle vocali e la posizione dell'accento lessicale. Data la struttura dell' (unico) livello in cui sono inserite etichette per gli eventi sia segmentali che soprasegmentali, è impossibile registare le informazioni temporali relative agli eventi prosodici, quando essi si presentino simultaneamente ad altri sul piano segmentale. Questo è dovuto al fatto che le etichette prosodiche sono poste in corrispondenza di quelle segmentali che indicano gli eventi fisicamente, o logicamente, più vicini all'evento prosodico. Questo tipo di strutturazione non genera tuttavia ambiguità in quanto le etichette prosodiche sono distinte da quelle segmentali grazie alla presenza del simbolo iniziale

1_{L'insieme di etichette presentato in 3.2.2 è quello utilizzato per l'annotazione del corpus AVIP, e rappresenta un}

(4)

'&' (a sua volta preceduto da '#', se posto al confine di parola).

L'annotazione prosodica si articola in diverse fasi, attraverso le quali l'annotazione viene progressivamente dettagliata:

1. delimitazione dei sintagmi prosodici

2. individuazione e caratterizzazione degli accenti

3. determinazione dell'andamento intonativo in corrispondenza dei confini prosodici e tra gli accenti individuati

4. sincronizzazione delle configurazioni accentuali (valli e picchi)

5. annotazione dei fenomeni di downstep, reset di F0, upstep e ritmo di locuzione. Così, per esempio, gli accenti (punto 2) sono trascritti solo se sono già stati delimitati i sintagmi prosodici (punto 1), e così via, in una sorta di procedimento per approssimazioni successive, dove le informazioni immesse ad ogni livello costituiscono la base di partenza per l'etichettatura del livello successivo.

2.2.1 Sintagmi prosodici

Il sistema prevede 2 categorie di base (la corrispondente etichetta è segnalata tra parentesi): a. confine prosodico coincidente con confine sintattico-semantico (#&PG1);

b. confine prosodico che non coincide con confine sintattico-semantico (#&PG2) Sono inoltre previste le seguenti varianti:

c. parentetici (#&PG1< e #&PG1>)

d. sintagma prosodico generato da una falsa partenza o da un troncamento (#&PG/) e. turno interrotto (#&PG;).

2.2.2 Livelli di accentazione

Il modello prevede quattro livelli di accento: a. assenza di accento (&0)

b. accento parzialmente realizzato (&1) c. accento di default (&2)

d. accento rinforzato (&3)

La posizione dell'accento lessicale è resa esplicita dall'annotazione a livello segmentale (dove viene segnalata con il simbolo ' ' ', davanti alla vocale interessata). Quando un accento lessicale acquisisce il valore fonetico/funzionale di una delle prominenze accentuali previste, si inserisce uno dei simboli sopra elencati (preceduto da #) davanti alla parola che contiene l'accento.

Un esempio della diversa realizzazione, in termini di prominenze accentuali, in corrispondenza della stessa stringa segmentale è il seguente:

#&2 Max #&0 hat+ #&0 einen+ #&2 Brief #&2 geschrieben. #&2 Max #&0 hat+ #&0 einen+ #&2 Brief #&1 geschrieben. #&2 Max #&0 hat+ #&0 einen+ #&3 Brief #&0 geschrieben.

Se sono presenti più accenti all'interno di una parola - tipicamente nei composti - le etichette possono essere inserite all'interno della parola stessa (precedute dal simbolo $), al confine tra i membri del composto.

(5)

2.2.3 Andamenti intonativi

Il sistema prevede l'etichettatura di alcuni andamenti intonativi, individuati tra accenti successivi all'interno del sintagma prosodico, così come alla fine del sintagma prosodico nel caso in cui contenga un solo accento. Gli andamenti intonativi individuati sono i seguenti:

a. falling (#&.), per un abbassamento di F0 dopo un picco (o un 'hat pattern', si veda dopo); b. low, narrow rising (#&,), nel caso in cui una valle sia seguita da lieve innalzamento di F0; c. high, wide rising (#&?), nel caso in cui una valle sia seguita da un consistente

innalzamento di F0;

Se i contorni sono di tipo complesso, è possibile concatenare i precedenti simboli:

es. fall-(low)rise (#&.,), per un abbassamento di F0 seguito da mediocre innalzamento; es. fall-(high)rise (#&.?), per un abbassamento seguito da rilevante innalzamento di F0; Per le categorie low, narrow rising contour (b) e high, wide rising contour (c), sono previste suddivisioni in due livelli, che, tuttavia, non esemplifichiamo. Ci soffermiamo, invece, sul contorno discendente (a. #&.), che è suddiviso in tre sotto-tipi:

a1. 'terminale' (#&2.), se raggiunge il limite inferiore dell'estensione melodica (pitch range) del parlante;

a2. 'medio' (#&1.), se il movimento discendente non raggiunge tale limite inferiore, ma si ferma ad un livello medio;

a3. 'invariato' (#&0), quando l'andamento non è discendente, ma si mantiene sullo stesso livello fino alla successiva prominenza accentuale (ad esempio, nel caso di un 'hat pattern').

2.2.4 Sincronizzazione delle configurazioni accentuali

Come già accennato, il modello intonativo per il tedesco standard, KIM, è alla base dell'inventario di possibili configurazioni accentuali previste nella fase di etichettatura. Questo modello prevede che un picco di F0 possa assumere tre posizioni fonologicamente rilevanti rispetto alla sillaba con prominenza accentuale.

a. mediana ( '^' ), se il picco è sincronizzato con il centro del nucleo sillabico; b. anticipata ( ')' ), se realizzato prima del nucleo sillabico;

c. ritardata ( '(' ), se realizzato nella parte finale del nucleo sillabico o nella sillaba seguente. Nel caso in cui la configurazione sia una valle, si distinguono solamente due categorie, in termini di posizione rispetto al nucleo sillabico:

d. anticipata ( ']' ); e. ritardata ( '[' ).

Questi simboli sono posti a destra di quelli relativi alla tipologia accentuale, con i quali formano un'unica etichetta.

2.2.5 Annotazione di altri fenomeni prosodici

Forniamo in questo paragrafo una veloce rassegna degli altri fenomeni prosodici che vengono etichettati nel sistema PROLAB.

Il 'reset' della frequenza fondamentale, osservabile all'inizio di ogni sintagma prosodico (quindi in corrispondenza dell'etichetta #&PG), non viene etichettato in quanto considerato sempre fenomeno non-marcato. Al contrario, sono considerati casi marcati, e quindi annotati:

a. la mancanza di reset, segnalata con il simbolo '=' posizionato davanti all'etichetta relativa al confine di sintagma prosodico (#&=PG);

(6)

b. la realizzazione del reset all'interno di un sintagma prosodico, segnalata con il simbolo '+' posto davanti al numero che indica il livello di prominenza accentuale.

'Upstep'. Nel caso in cui si verifichi un progressivo aumento del livello di F0 in sequenze di picchi e valli, si inserisce il simbolo '|' davanti alla cifra che segnala la prominenza accentuale rilevante, corrispondente ad un picco, o una valle, più alta della precedente.

Il fenomeno speculare rispetto all'upstep, il downstep, non viene etichettato perché considerato fenomeno non marcato.

'Pre-head'. L'andamento in corrispondenza delle sillabe che precedono la prima prominenza accentuale, all'interno di un sintagma prosodico, viene etichettato con il simbolo '#&HP' (posto all'inizio del sintagma prosodico) solo se le sillabe sono realizzate ad un livello di F0 più alto rispetto alla prima prominenza accentuale. Il caso contrario viene considerato non marcato e quindi non viene etichettato.

'Register' e 'Speech rate'. Le due etichette 'LR' (Low Register) e 'HR' (High Register) sono utilizzate per evidenziare la presenza, rispettivamente, di un registro basso oppure particolarmente alto.

I simboli '#&RP' (Rate Plus) e '#&RM' (Rate Minus) indicano, invece, cambiamenti della velocità d'eloquio rispetto al sintagma prosodico precedente.

Un'ultima considerazione di carattere generale, che ci sembra rilevante, concerne il trattamento dei casi di incertezza. Per l'annotazione prosodica, così come per quella segmentale, l'incertezza nella trascrizione viene segnalata con il simbolo '%', posto a destra dell'etichetta che indica il fenomeno prosodico della cui trascrizione non si è sicuri.

2.3 IL SISTEMA DI TRASCRIZIONE 'ToBI' (Tone and Break Indices)

Il sistema di annotazione ToBI [Silverman et al., 1992] è stato sviluppato per la trascrizione prosodica di un buon numero di varietà della lingua inglese. Poiché si tratta di un sistema fonologicamente orientato, non può essere utilizzato per la descrizione di altre lingue se non viene adattato alle caratterisiche fonologiche delle stesse, che devono quindi essere state preventivamente delineate in modo piuttosto dettagliato. Attualmente, sono in corso di definizione versioni di ToBI per lingue diverse, come il tedesco, il giapponese, il greco, il serbo-croato, il coreano e lo svedese.

L'approccio su cui si basa il ToBI è quello 'autosegmentale-metrico' [Ladd, 1996], che prevede una descrizione fonologica degli andamenti di F0 in termini di sequenze di eventi discreti, individuabili su un piano indipendente rispetto a quello segmentale, ma 'associabili' ad entità quali, ad esempio, le sillabe. Tali eventi sono, sostanzialmente, di due tipi2: pitch accents (accenti intonativi), associati a sillabe prominenti, ed edge tones (toni di confine), associati a confini di unità e sotto-unità prosodiche. Il modello autosegmentale-metrico permette di definire regole di associazione tra il piano tonale (tone tier) e quello prosodico (prosodic tier), per cui in ToBI vengono etichettati esplicitamente solo gli eventi tonali, pitch accents ed edge tones, che individuano indirettamente anche quelli sul piano prosodico, cioè prominenze accentuali e confini di unità e sotto-unità prosodiche.

Per fornire una panoramica generale del sistema ToBI, faremo riferimento alla versione

(7)

sviluppata per l'inglese, che si basa principalmente sul lavoro di Pierrehumbert [1980] e sui successivi sviluppi [Beckman & Pierrehumbert, 1986; Pierrehumbert & Beckman, 1988]. Per una descrizione più dettagliata delle convenzioni di trascrizione di ToBI per l'inglese, si rimanda a Beckman & Ayers Elam [1997] e Hirschberg & Beckman [1994].

Il sistema per la lingua inglese prevede quattro livelli di trascrizione paralleli, che sono allineati temporalmente. Il numero dei livelli può comunque essere modificato a seconda delle esigenze di trascrizione e del grado di dettaglio del modello fonologico di riferimento. Per la lingua inglese, i livelli previsiti sono i seguenti:

1. livello ortografico (orthographic tier) 2. livello tonale (tonal tier)

3. livello dei fenomeni di (dis)giuntura (break-index tier) 4. livello misto (miscellaneus tier)

Nel primo livello, si fornisce una trascrizione delle parole di cui l'enunciato è composto, inserendo un'etichetta in corrispondenza di ogni confine destro di parola. Sul secondo livello, sono annotati eventi intonativi, quali pitch accents, per le prominenze, ed intermediate phrase accents e boundary tones, per la delimitazione delle unità prosodiche. Il terzo livello contiene gli indici di separazione tra i costituenti prosodici. La scala prevista varia tra 0, che indica il massimo di coesione, e 4, per il grado estremo di disgiunzione. Infine, il quarto livello consente di annotare fenomeni di varia natura che caratterizzano il parlato, come disfluenze, risate, colpi di tosse e così via.

Nelle sezioni che seguono, verranno considerati, in modo schematico, solo il secondo e terzo livello, di immediato interesse per il progetto AVIP. Per maggiori dettagli, si rimanda alla bibliografia fornita precedentemente, e si raccomanda il sito:

http://www.ling.ohio-state.edu/phonetics/E_ToBI/singer_tobi.html per una versione completa e interattiva del manuale di etichettatura ToBI per l'inglese. 2.3.1 Livello di trascrizione tonale (tone tier)

In questo livello, vengono annotati gli eventi intonativi relativi alle tre categorie fonologiche di base: pitch accents, phrase accents e boundary tones. La trascrizione rappresenta, infatti, una descrizione fonologica degli andamenti di F0 in termini di sequenze di eventi discreti, poiché il contorno intonativo è considerato come derivante dalla transizione tra pitch accents, phrase accents e boundary tones. Ne consegue che ogni contorno melodico può essere descritto come la sequenza di questi tre tipi di eventi tonali, indipendentemente dalla struttura segmentale dell'enunciato.

2.3.1.1 Pitch accents

I pitch accents sono, come abbiamo già accennato, entità fonologiche associate alle sillabe in base ai principi organizzativi della struttura prosodica, cioé a sillabe prominenti o metricamente 'forti', secondo il modello proposto da Liberman & Prince [1977]. In lingue come l'inglese, le sillabe cui i pitch accents sono associati sono caratterizzate dalla presenza di accento lessicale (stress).

I pitch accents sono il risultato di configurazioni dei due livelli tonali primitivi, cioé livello tonale alto (High, 'H') e basso (Low, 'L'), e normalmente determinano la percezione della prominenza della parola all'interno della quale si realizzano [Ladd, 96; Bolinger, 58]. Essi possono essere mono- (L*, H*) e bitonali (L+H*, L*+H. ecc), ed in ogni caso l'asterisco indica l'associazione del particolare evento tonale con un sillaba. Nel caso degli accenti bitonali,

(8)

l'associazione dell'elemento che segue o precede quello asteriscato non è specificata, perciò le etichette vengono sempre poste in corrispondenza della sillaba accentata, e in particolare del nucleo sillabico. Qualora si presentino casi di mancato allineamento degli eventi tonali previsti in base all'associazione con la sillaba, si possono utilizzare due diacritici ('>', '<') per segnalare se si tratti di ritardi o di anticipazioni.

Per l'inglese, l'inventario di pitch accents, fonologicamente motivato, è il seguente, di cui forniamo anche una breve descrizione in termini fonetici.

• H* - 'peak accent': un bersaglio tonale alto in corrispondenza della sillaba prominente, nella parte alta o intermedia dell'estensione melodica del parlante;

• L* - 'low accent': un bersaglio tonale basso in corrispondenza della sillaba prominente, nella parte più bassa dell'estensione melodica del parlante;

• L+H* - 'rising peak accent': un picco tonale in corrispondenza della sillaba prominente, immediatamente preceduto da un movimento di salita relativamente ripido che parte da una valle nella parte più bassa dell'estensione melodica del parlante;

• L*+H - 'scooped accent': un bersaglio tonale basso in corrispondenza della sillaba prominente, immediatamente seguito da un movimento di salita relativamente ripido verso un picco nella parte più alta dell'estensione melodica del parlante;

• H+!H* : un chiaro 'step-down' sulla sillaba prominente, proveniente da un bersaglio tonale alto che non può essere attribuito nè ad un tono di confine alto alla fine del precendente sintagma intonativo (si veda dopo), nè ad un precedente pitch accent alto all'interno dello stesso sintagma intonativo;

Trattandosi di categorie fonologiche, la loro individuazione si basa sull'attribuzione di significato in termini contrastivi, mentre la loro caratterizzazione fonetica, soprattutto per quanto riguarda l'allineamento temporale tra bersagli tonali e piano segmentale, viene determinata all'interno di ogni singolo modello linguistico. Vorremmo sottolineare quest'ultimo punto, in quanto ci sembra importante chiarire che, per quanto il modello sia fondamentalmente fonologico, il riferimento alle caratteristiche fonetiche è comunque importante, come si può osservare dalla descrizione data sopra, in base alla quale i pitch accents previsti si differenziano foneticamente. E' pur vero, infatti, che la prassi della trascrizione privilegia il 'giudizio percettivo' del trascrittore (in termini di competenza relativa al significato degli eventi melodici) rispetto alla mera descrizione dell'andamento della frequenza fondamentale. Tuttavia, quest'ultima svolge un'importante funzione di supporto delle ipotesi interpretative.

2.3.1.2 Phrase accents e boundary tones

I phrase accents e i boundary tones sono eventi intonativi associati, rispettivamente, a confini di costituenti prosodici di livello intermedio (intermediate phrases) e superiore (intonational phrase). Come i pitch accents, essi sono caratterizzabili in termini di bersagli tonali alti e bassi.

I phrase accents vengono indicati con il diacritico '-' (L- e H-), e sono posti in corrispondenza del confine destro di sintagmi intonativi intermedi. Dal punto di vista fonetico, si manifestano, solitamente, sotto forma di bersagli tonali, rispettivamente bassi ed alti, in corrispondenza di tali confini.

I sintagmi intonativi sono invece delimitati dai boundary tones, distinti dalla presenza del diacritico '%' (L%, H%) e posti in corrispondenza del confine destro dell'unità prosodica. Anch'essi corrispondono a eventi fonetici alti o bassi, individuabili sul tracciato di F0.

(9)

sequenze fonologiche realizzate per mezzo di particolari andamenti di F0, le seguenti configurazioni terminali tipiche dell'inglese:

• L-L%: andamento terminale discendente caratteristico delle dichiarative;

• L-H%: andamento ascendente che indica continuazione, il cosiddetto 'continuation rise'; • H-H%: andamento terminale ascendente osservabile nelle domande polari - si noti che, per la presenza di 'H-', questo andamento raggiunge valori di F0 molto più elevati rispetto a quello descritto da L-H% (il fenomeno si indica come 'upstep');

• H-L%: andamento terminale detto 'plateau', in quanto la presenza di 'H-' produce un innalzamento del valore di F0 corrispondente a 'L%', che viene quindi a corrispondere a valori intermedi nell'estensione melodica del parlante ('upstep').

Il modello prevede, inoltre, un tono di confine iniziale alto '%H', e un tono iniziale '%r' per caratterizzare il tracciato dopo un'interruzione o una disfluenza ('contour restart').

2.3.1.3 Annotazione di altri fenomeni prosodici

Forniamo in questo paragrafo una veloce rassegna degli altri fenomeni prosodici che vengono etichettati nel sistema ToBI per la lingua inglese.

'Downstep' e 'upstep'. Il sistema prevede un diacritico ('!') per indicare il fenomeno del downstep, sia relativamente ai pitch accents che ai phrase accents. Il fenomeno speculare, l'upstep, non viene indicato esplicitamente perchè la sua realizzazione si considera contestualmente determinata (cfr. 2.3.1.2).

'Pitch range'. Per poter effettuare misurazioni dell'estensione melodica dei parlanti, il sistema fornisce la possibilità di evidenziare il valore massimo di F0 all'interno di ogni sintagma intonativo intermedio ('HiF0').

Anche nel sistema ToBI, sono previsti dei simboli per i casi in cui il trascrittore sia incerto relativamente a quale sia l'etichetta appropriata in particolari contesti. Le incertezze previste sono relative alla presenza, o meno, di un determinato evento, ed alla natura di un evento che si ritiene sia certamente realizzato. I simboli disponibili per questo scopo sono riportati di seguito:

'*': la sillaba è sicuramente prominente, ma nell'inventario non è disponibile l'etichetta appropriata;

'*?': non è sicura la presenza di una sillaba con prominenza accentuale; 'X*': la sillaba è sicuramente prominente, ma la categoria intonativa è incerta.

Allo stesso modo, l'incertezza relativa alla trascrizione di phrase accents e boundary tones si codifica utilizzando le stesse combinazioni di simboli, con '*' sostituito da '-' o '%'.

2.3.2 Livello di trascrizione dei fenomeni di (dis)giuntura

Questo livello permette di annotare il grado di separazione tra le parole che compongono l'enunciato. Le etichette utilizzate a questo fine sono di tipo numerico e vengono poste in corrispondenza del confine destro della parola (ed, eventualmente, del costituente prosodico di cui la parola è l'ultimo elemento). Le etichette disponibili sono le seguenti:

'0': se non viene percepito 'distacco' tra due parole (tipicamente in presenza di clitici); '1': se la distanza tra due parole è percepita come normale;

'2': se si percepisce separazione, ma questa non è attribuibile con certezza alla presenza di un confine intonativo. Ad esempio, se non sono presenti eventi tonali significativi, ma si individuano pause, allungamenti finali, differenza ritmica, ecc.; oppure, nel caso in cui siano presenti eventi tonali, ma non gli altri correlati della disgiunzione;

(10)

'3': se la separazione percepita è dovuta alla presenza di un confine intonativo di tipo intermedio (in questi casi, sul livello tonale si trova un phrase accent);

'4': se la separazione percepita è motivata dalla presenza di un confine intonativo gerarchicamente superiore (sul livello tonale si trova un boundary tone).

3. SPECIFICHE PER LA TRASCRIZIONE PROSODICA

Data la ben nota carenza di modelli descrittivi dell'intonazione delle varietà di italiano, sarebbe utile che la strategia globale di etichettatura intonativa del corpus AVIP si ispirasse ad un processo di 'etichettatura per approssimazioni successive', che permetta di elaborare le informazioni accumulate in ogni fase di trascrizione per fornire un modello descrittivo di base che sia, quindi, arricchibile di dettagli, ma immediatamente affidabile e riutilizzabile su larga scala. La logica del procedimento, quindi, è la stessa che caratterizza, ad esempio, il sistema PROLAB. Nel caso del corpus AVIP, mancando per il momento, per le tre varietà sino ad ora considerate, conoscenze tali da permettere la definizione delle categorie descrittive di base, si propone di adottare un approccio il più possibile ancorato al dato linguistico osservabile. Il riferimento esplicito alle sole caratteristiche fonetiche, limitando al minimo l'intervento interpretativo del trascrittore, ha il vantaggio di permettere descrizioni omogenee delle varietà considerate, indipendentemente da eventuali differenze nel livello di sviluppo dei rispettivi modelli fonologici.

Anche un paradigma operativo come ToBI, permette una trascrizione fonologica che codifica informazioni di tipo fonetico. Data però la difficoltà, più volte sottolineata in comunicazioni scientifiche, di mantenere separato e quantificare l'apporto di considerazioni fonetiche e fonologiche, proponiamo, per la trascrizione, un livello prosodico bipartito, in cui rendere esplicita la separazione tra etichette foneticamente e fonologicamente motivate. Nel primo livello, si descriveranno aspetti prettamente fonetici, mentre nel secondo si realizzaranno descrizioni di tipo fonologico. L'utilità di un ambiente multilivello in cui codificare le analisi prosodiche è stata del resto recentemente sottolineata nell'ambito di un progetto internazionale per la determinazione di standard di notazione linguistica [Garrido & Quazza, 1999]. Questa bipartizione ci sembra inoltre garantire la confrontabilità univoca ed immediata dei dati, oltre a risolvere il problema della mancanza di conoscenze fonologiche ugualmente approfondite per tutte le varietà di italiano considerate. La trascrizione del primo livello, secondo le indicazioni che forniremo in questa parte del documento, ci sembra infatti realizzabile in modo omogeneo per tutte le varietà. Per questa ragione, in AVIP ci siamo concentrati principalmente su questa fase, mentre l'annotazione del secondo livello è stata per il momento realizzata a scopo sperimentale per la sola varietà di Bari. Tuttavia, nel seguito del documento, forniremo sia le specifiche per l'annotazione fonetica, sia una proposta operativa per quella fonologicamente orientata, che, per quanto attualmente realizzata a livello esplorativo per una sola varietà, è da considerarsi parte integrante di una trascrizione prosodica completa.

Procediamo ora nella descrizione della proposta. 3.1 DATI DA TRASCRIVERE

La trascrizione prosodica è stata effettuata su un sottoinsieme dei dati già trascritti a livello segmentale. In particolare, abbiamo focalizzato l'attenzione sulla modalità interrogativa, trascrivendo i turni (o le parti dei turni) in cui si richiede nuova informazione ('query'), o la conferma di un'informazione già condivisa o inferita ('check') - seguendo la categorizzazione

(11)

delle mosse conversazionali nel Map-Task presentata da Carletta et al. [1995] (si veda anche il documento AVIP di Ferrari et al.).

Esempio (inventato per l'occasione). G001: ce l'hai un bar da Liolà? F002: sì.

G003: allora vai al bar da Liolà, e ci giri intorno. Passando da destra, ci giri intorno e prosegui verso il viale dei lillà.

F004: devo passare a destra del bar da Liolà? G005: sì.

F006: ma se vado al viale dei lillà, il bar da Liolà lo lascio sulla destra?

Un esempio di 'query' è il turno G001, in cui si chiede un'informazione. Il turno F004 e parte del turno F006 ( ...'il bar da Liolà lo lascio sulla destra?') sono esempi di mosse 'check'.

Poiché, quindi, consideriamo solo alcuni turni, o parti di turni, che corrispondono a mosse conversazionali precise, non tutti i files del database sono stati trascritti prosodicamente, e, tra i files dei quali si fornisce una trascrizione, non tutti sono etichettati completamente, dato che consideriamo solo le parti che rientrano nelle categorie conversazionali da noi selezionate. Ad esempio, solo la parte finale del turno F006 viene annotata prosodicamente.

La trascrizione al primo livello avviene in due fasi distinte. La prima, descritta nei paragrafi 3.2.1 e 3.2.2, in cui si individuano i confini delle unità intonative e si etichettano i livelli di prominenza degli accenti; la seconda, presentata nel paragrafo 3.3, in cui si fornisce una descrizione del tracciato di F0. La proposta di trascrizione per il secondo livello è presentata in 3.3.

3.2 PRIMO LIVELLO: TRASCRIZIONE FONETICAMENTE ORIENTATA

3.2.1 Individuazione delle unità intonative

Le unità intonative principali sono individuate sulla base della percezione della disgiunzione tra gli elementi dell'enunciato. I simboli utilizzati per la delimitazione delle unità sono le parentesi quadre (coerentemente con la simbologia di IntSint, cfr. 2.1). In questa fase, quindi, le unità intonative principali sono delimitate, mentre una descrizione più dettagliata del tracciato di F0 nel contesto adiacente al confine viene portata a termine nella fase seguente (cfr. 3.2.3.2).

Il simbolo di inizio dell'unità intonativa ('[') è inserito all'inizio del primo segmento dell'unità stessa, mentre il simbolo finale (']') è posto al termine dell'ultimo segmento dell'unità (figura 1). Riteniamo che sia meglio inserire l'etichetta subito prima del confine destro del segmento (nel caso di ']', e spercularmente per '['), al fine di evitare problemi di visualizzazione quando una unità prosodica coincida con l'inizio di un'altra. Inoltre, poiché la fase di delimitazione delle unità intonative avviene indipendentemente dall'ispezione del tracciato di F0, non pensiamo debba essere eccessivamente influenzata da considerazioni ad esso relative. Siamo quindi consapevoli del fatto che le nostre scelte operative possono implicare che alcuni simboli di inizio/fine costituente prosodico non corrisponderanno ad un valore di F0. Nella figura 1, ad esempio, la parentesi '[' è posta all'inizio di un'affricata, e quindi non può avere un valore di F0 corrispondente; l'inconveniente si può verificare anche a fine enunciato, dove gli algoritmi di estrazione dei valori di F0 possono fornire valori poco attendibili, o non fornirne affatto. Tuttavia,

(12)

ammettiamo una certa flessibilità qualora una leggera anticipazione o posticipazione permettesse di porre l'etichetta in corrispondenza di un valore plausibile di F0.

3.2.2 Trascrizione dei livelli di prominenza

La trascrizione consiste nell'indicare i gradi di prominenza degli accenti, secondo un suggerimento tratto dal modello kohleriano. La proposta è quindi di porre un'etichetta in corrispondenza del nucleo vocalico della sillaba accentata, individuandone quindi anche la posizione. Sottolineiamo che la trascrizione dei livelli di prominenza avviene indipendentemente dalle considerazioni relative al phrasing, perciò non si fanno assunzioni relative al numero di accenti di un determinato livello all'interno delle unità prosodiche individuate.

I simboli numerici previsti sono i seguenti:

0 = per i casi di deaccentazione (prevalentemente nel caso di accenti lessicali non prominenti); 1 = prominenza che può essere dovuta a variazioni di F0 e/o variazioni di durata e/o intensità (la prominenza può essere relativa ad accenti lessicali primari, ma potrebbe anche caratterizzare sillabe normalmente atone o parole funzionali);

2 = prominenza principale all'interno della unità 'tonale'. 3 = presenza di accento enfatico.

L'accento enfatico (3) è considerato come un'istanza di accento 2, perciò la sua trascrizione implica la presenza di una prominenza principale, realizzata con particolare enfasi.

Un possibile esempio di trascrizione è dato nella figura 1 (la linea verticale '|' che segue i simboli rappresenta la posizione dell'etichetta).

WRD Ce l'hai un bar da Liolà?

PHM tSe lai un bar da liola

PHB tS e l ai u n b a r d a l i o l a PHN tS e l ai u m b a r d a l i o l a TON [| 2| 0| 1| ]| Figura 1.

3.2.3 Descrizione del tracciato di F0

L'individuazione dei confini delle unità intonative principali e la trascrizione delle prominenze accentuali è seguita dalla descrizione della curva di F0. Naturalmente sarebbe preferibile effettuare questo tipo di trascrizione per tutti gli enunciati nei quali siano stati etichettati i livelli accentuali. Tuttavia, si può anche pensare di effettuare la trascrizione su un sottoinsieme di questi enunciati. Tale sottoinsieme può essere costituito dalle sole mosse 'queries' o dai soli 'checks'. Per quanto riguarda la trascrizione degli eventi, proponiamo di ispirarci al sistema di etichettatura IntSint (cfr. 2.1), per la cui descrizione rimandiamo principalmente a Hirst e Di Cristo [1998: 13-24]3.

3.2.3.1 Stilizzazione 'implicita'

Nel sistema IntSint, la trascrizione viene effettuata su una versione stilizzata della curva di F0. La stilizzazione permette di rimuovere gli errori di calcolo di F0, talvolta effettuati dagli algoritmi, ed i punti irrilevanti del tracciato, in modo che i bersagli tonali risultino evidenti. La

3_{Non riteniamo sia necessario utilizzare la versione 'machine readable' del sistema IntSint (SamSint), in quanto la}

(13)

curva stilizzata di F0 viene infatti descritta come una sequenza di bersagli tonali legati tra loro da particolari funzioni di transizione. Poiché in AVIP non è possibile usufruire di una stilizzazione automatica della curva di F0, i trascrittori effettueranno una sorta di stilizzazione implicita, grazie alla quale distingueranno i bersagli tonali dovuti a mutamenti significativi dei valori di F0 dalle variazioni tonali dovute a fenomeni di perturbazione. In particolare, i trascrittori terranno in considerazione i seguenti punti (tratti, con adattamenti, dal manuale di ToBI):

◊ Uno degli elementi di maggior interferenza è legato alla presenza di segmenti consonantici che interrompono o influenzano l'andamento del tracciato di F0. Le occlusive sorde e le fricative sorde, ad esempio, interrompono il tracciato di F0. Nel corpus AVIP si è cercato di limitare la presenza di tali segmenti utilizzando nomi di icone che ne contenessero il minor numero possibile. Tuttavia la loro presenza non può essere evitata. Inoltre, è importante ricordare che generalmente non è possibile ricavare la parte di tracciato mancante, effettuando una semplice interpolazione tra l'ultimo valore di F0 prima del segmento ed il primo valore successivo. Infatti, una caratteristica intrinseca delle occlusive sorde, ad esempio, è l'abbassamento di F0 prima della fase di chiusura della consonante, ed il drastico abbassamento a partire da un livello di F0 più alto, subito dopo il rilascio della stessa.

◊ Anche le sonore disturbano il tracciato. Una fricativa o un'occlusiva sonora possono infatti causare un abbassamento dei valori di F0 subito prima del tratto relativo alla consonante stessa (caratterizzato da una valle anche piuttosto profonda); il tratto seguente può invece essere caratterizzato da un innalzamento dei valori di F0.

◊ Esistono alcuni problemi legati alla qualità della voce. Ad esempio, nel caso di voce 'gracchiata', i periodi individuabili dalla forma d'onda, sono molto irregolari. In questi casi, la F0 non è fisicamente ben definita, e gli algoritmi che ne derivano i valori non ottengono buoni risultati, fornendo spesso un insieme sparso di punti anziché un tracciato lineare o addirittura nessun tracciato.

◊ Gli algoritmi possono effettuare errori anche in corrispondenza di parti 'normali' di segnale. Talvolta i valori di F0 vengono dimezzati e talvolta duplicati. In questi casi l'errore risulta evidente durante l'ispezione del tracciato, anche grazie all'ausilio della percezione dei livelli tonali.

Consapevoli dei possibili fenomeni di perturbazione del tracciato, i trascrittori effettuano quindi le seguenti considerazioni di base:

1) nel caso di consonanti, non considerano come significativi i valori immediatamente precedenti o seguenti le consonanti stesse.

2) nel caso di voce 'gracchiata', sostituiscono idealmente i valori sparsi di F0, o le zone prive di tracciato, con valori bassi.

3) nel caso di duplicazione, dimezzano idealmente i valori di F0; nel caso di dimezzamenti, li duplicano, trovando sempre conferma nella propria percezione del livello tonale.

3.2.3.2 Trascrizione

Per quanto riguarda i simboli utilizzati per la trascrizione, così come il procedimento, ci rifaremo al modello di IntSint, ereditandone il tipo di approccio e parte dei simboli. La fase di descrizione del tracciato di F0 prevede che si specifichi l'andamento della curva intonativa in corrispondenza dei confini intonativi. In AVIP, la posizione dei confini delle unità intonative viene individuata nella prima fase di trascrizione. Nella seconda fase, si specifica l'andamento di F0 che caratterizza il contesto precedente il confine. I simboli utilizzati per questo fine sono gli stessi che descrivono l'andamento di F0 all'interno dell'enunciato. Come nel sistema IntSint, questi simboli definiscono bersagli tonali sulla base di considerazioni di due tipi.

(14)

1) considerazioni relative all'altezza del bersaglio tonale rispetto al precedente H Higher: più alto, spesso corrispondente ad un picco

L Lower: più basso, spesso corrispondente ad un avvallamento S Same: allo stesso livello (vedi dopo)

D Downstep: leggermente più basso4 U Upstep: leggermente più alto 2) considerazioni relative al range del parlante

T Top valore più alto, relativamente all'intera unità tonale B Bottom valore più basso, relativamente all'intera unità tonale

Le parentesi quadre, che indicano la posizione del confine, possono essere quindi utilizzate in unione con i simboli descritti sopra, in modo da fornire una descrizione del tracciato di F0 anche in corrispondenza dei confini stessi.

[ Left boundary valore di F0 medio nel range del parlante

[T valore di F0 particolarmente alto in posizione iniziale [B valore di F0 particolarmente basso in posizione iniziale

] Right boundary valore di F0 uguale a quello del bersaglio precedente

T] valore di F0 particolarmente alto, relativamente all'intera unità tonale B] valore di F0 particolarmente basso, relativamente all'intera unità tonale H] valore di F0 alto, rispetto al bersaglio precedente

L] valore di F0 basso, rispetto al bersaglio precedente

D] valore di F0 leggermente basso, rispetto al bersaglio precedente U] valore di F0 leggermente alto, rispetto al bersaglio precedente

In Hirst e Di Cristo [1998, cap.1], gli autori non prendono una posizione chiara relativamente alla necessità di distinguere esplicitamente i casi in cui esista un lieve abbassamento del valore di F0 dovuto alla declinazione. I due patterns in figura 2, a e b (adattata da Hirst e Di Cristo, 1998: 20), possono corrispondere alla stessa trascrizione (a/b1) nel caso in cui non si voglia rendere esplicita la presenza di declinazione, mentre possono corrispondere a trascrizioni diverse (a oppure b2) nel caso in cui la presenza di declinazione voglia essere resa esplicita. All'interno di AVIP, proponiamo di utilizzare il secondo tipo di soluzione, cioè rendere esplicita la differenza dei due tracciati.

4_{Per la trascrizione del corpus AVIP preferiamo non caratterizzare le etichette 'D' ed 'U' in termini di iteratività, non}

limitando quindi il loro uso alla descrizione di livellamenti in sequenze discendenti o ascendenti. L'intento è infatti di esplicitare già nella prima fase di trascrizione l'eventuale presenza di accenti downstepped.

(15)

Figura 2.

I simboli sono posti in corrispondenza dell'evento acustico a cui si riferiscono, come esemplificato nelle figure seguenti (la linea verticale '|' che segue i simboli rappresenta la posizione del marker). Nella figura 3, e' stato riportato un esempio di trascrizione prosodica, in cui la posizione dei bersagli tonali non coincide mai con quella delle etichette relative ai livelli di prominenza. In casi come questo, quindi, ogni etichetta viene inserita separatamente.

PHB tS e l ai u n b a r d a l i o l a PHN tS e l ai u m b a r d a l i o l a TON [| T| 2| L| 0| S| 1| B]| Figura 3. a) [ S T S B ] b) b1 [ S T S B ] b2 [ D T D B ]

(16)

Nel caso in cui un bersaglio tonale si trovi in corrispondenza di un nucleo vocalico di cui è stato precedentemente trascritto il livello di prominenza, le due etichette sono state affiancate. In particolare, l'etichetta relativa all'andamento di F0 precede quella relativa al grado di prominenza (si veda il caso di T2 nella figura 4).

PHB tS e l ai u n b a r d a l i o l a PHN tS e l ai u m b a r d a l i o l a TON [| T2| 0| L| S| 1| B]|

Figura 4.

Riassumendo, la sequenza delle operazioni è quindi essere la seguente: 1) individuazione dei confini delle unità intonative

2) indicazione dei livelli di prominenza

3) [per uno specifico sottoinsieme, cfr. 3.1] descrizione del tracciato stilizzato di F0

3.3 SECONDO LIVELLO: TRASCRIZIONE FONOLOGICAMENTE ORIENTATA La nostra proposta, che qui si espone in forma ancora esplorativa, si incentra sostanzialmente sull'utilizzo di un approccio di tipo autosegmentale-metrico, quale quello esemplificato e realizzata operativamente in ToBI.

E' noto che un sistema ToBI per l'italiano e per le sue varietà non è ancora disponibile, ma sono state recentemente discusse alcune problematiche relative alla determinazione di un sistema di etichettatura ToBI per diverse varietà di italiano [Grice et al, 1999]. Inolte, esistono studi in ambito autosegmentale-metrico che descrivono, anche se per il momento solo parzialmente, i modelli di alcune varietà di italiano. La proposta che esporremo nel seguito è caratterizzata dal tentativo di rendere comunque esplicita, nel livello fonologico, la componente fonetica che caratterizza il sistema di etichettatura ToBI. In alcuni casi, questa procedura potrà causare una certa ridondanza, poiché sul primo livello (cfr. 3.2) sono state codificate informazioni relative al tracciato di F0 che possono spesso coincidere con quelle codificate in ToBI. Tuttavia, riteniamo che tale ridondanza possa essere tollerata proprio allo scopo di ottenere una codifica tipo-ToBI che risulti maggiormente trasparente, e nello stesso tempo rendere espliciti gli eventuali punti di attrito tra i due sistemi di annotazione.

Nelle sezioni seguenti, verranno descritti alcuni contesti in cui si ritiene opportuno apportare modifiche alle etichette normalmente disponibili in ToBI, per raggiungere gli obiettivi sopra chiariti.

(17)

3.3.1 Allineamento tonale (tonal alignment)

Un problema tipico per la codifica fonologica è rappresentato dall'allineamento tonale, cioè del modo in cui gli accenti intonativi sono 'allineati' con sillabe prominenti. L'allineamento può risultare particolarmente 'oscuro' nel caso degli accenti bitonali, laddove l'andamento della F0 è descritto – dal punto di vista fonologico – come la sequenza di due 'toni', uno solo dei quali è fonologicamente associato alla sillaba accentata. Nella prassi di trascrizione, l'intera etichetta relativa ad un accento bitonale viene posta, fisicamente, in corrispondenza dell'evento corrispondente al tono asteriscato (associato alla sillaba prominente, cfr. 2.3); per esempio, in corrispondenza del picco di F0 nel caso di L+H* (figura 5a) e della valle di F0 nel caso di L*+H. Il motivo fondamentale è che la realizzazione fonetica dell'accento bitonale è definita dal modello fonologico specifico della lingua, e quindi implicitamente codificata nell'etichetta.

Dato che non esiste ancora un modello fonologico dettagliato delle tre varietà rappresentate nel corpus AVIP, e che la fase di trascrizione al secondo livello rappresenta una buona opportunità per raggiungere una caratterizzazione fonologica, proponiamo di utilizzare questo livello per testare le ipotesi fonologiche via via formulate. Nel caso specifico degli accenti intonativi bitonali, ad esempio, l'ipotesi relativa alla presenza di un accento bitonale effettivo versus la presenza di un accento monotonale può essere testata descrivendo in modo foneticamente dettagliato la realizzazione di tali accenti intonativi. Per questo scopo, la macro-etichetta bitonale viene 'scissa' in due elementi diversi, ma in relazione tra loro: per esempio, se per una varietà si ipotizza una categoria fonologica corrispondente all'accento bitonale L+H*, si possono usare due etichette diverse, L+ per marcare fisicamente la posizione del punto di minimo, e +H* per marcare fisicamente la posizione del picco di F0. Il simbolo '+' codifica l'informazione circa la categoria fonologica ipotizzata, cioè un accento bitonale, mentre il simbolo '*', l'informazione circa l'allineamento con la sillaba accentata (figura 5b).

Figura 5. Rappresentazione schematica del procedimento di etichettatura di un accento intonativo bitonale.

In una fase successiva, mediante l'utilizzo delle informazioni contenute nel database, si potranno confermare o meno le ipotesi di partenza. Si può pensare, per esempio, di effettuare statistiche su tutti i bersagli L+ per studiare le caratteristiche della realizzazione fonetica del bersaglio basso negli accenti bitonali. In questo modo, si faciliterebbe la discriminazione rispetto agli accenti monotonali H*, ad esempio, che, implicando un innalzamento di F0, possono essere preceduti da un evento confondibile con un bersaglio basso.

3.3.2 Accenti intonativi nucleari e post-nucleari

In molti sistemi di descrizione intonativa, compreso ToBI, l'accento intonativo nucleare è definito in termini posizionali, cioè come l'ultimo (a destra) accento intonativo all'interno di una

(18)

unità/sotto-unità intonativa. Data tale valenza posizionale - almeno per l'inglese - in ToBI non è prevista un'etichetta specifica per questa categoria.

Una definizione posizionale sembra non essere valida per la lingua italiana: le varietà finora esaminate per la creazione di un sistema ToBI per l'italiano [Grice et al., 1999], sembra siano caratterizzate dalla presenza di accenti intonativi post-nucleari. Data questa peculiarità, riteniamo utile dare la possibilità di segnalare esplicitamente l'accento intonativo nucleare. In particolare, l'utilizzo di uno speciale diacritico ('n') permette di segnalare la funzione di accento intonativo nucleare di un particolare pitch accent. Ad esempio, per gli accenti monotonali:

'H*n', 'L*n' e per i bitonali:

'L+' …'+H*n', 'H+' … 'L*n'

Indicando esplicitamente gli accenti nucleari, tutti gli eventuali accenti intonativi linearmente successivi, all'interno di un'unità/sotto-unità intonativa, sono automaticamente classificati come post-nucleari - senza la necessità di aggiungere un'etichetta specifica per questa categoria.

3.3.3 Toni di confine (intermediate phrase accents e boundary tones)

Essendo la categoria del tipo L% e H% (boundary tones, cfr. 2.3.1.2) riferita ad eventi sostanzialmente 'universali', è ragionevole ipotizzarne la sua appartenenza anche all'inventario tonale delle varietà dell'italiano di AVIP. Per quanto riguarda, invece, le categorie di tipo intermedio L- e H- (intermediate phrase accents), tale assunzione non sembra altrettanto fondata. Alcuni diacritici permettono di codificare lo status particolarmente incerto di questi fenomeni, in particolare:

'L-', 'H-' : per i casi certi;

'Lr', 'Hr': per per i casi in cui un confine potrebbe essere presente dal punto di vista ritmico, ma non sembra realizzato tonalmente;

'Lt', 'Ht': per i casi in cui il confine sembra essere presente dal punto di vista tonale, ma non ritmico;

In questo modo, inoltre, è possibile includere nel livello di descrizione tonale fenomeni che, in ToBI, sarebbero codificati con indici di (dis)giuntura, e quindi su un livello separato (break-index tier, cfr. 2.3.2).

BIBLIOGRAFIA

Agard F. & R. J. Di Pietro (1965), The sounds of English and Italian, Univ. of Chicago Press. Beckman M. & J. Pierrehumbert (1986), Intonational structure in English and Japanese,

Phonology Yearbook, 3: 255-310

Beckman M. & G. Ayers Elam (1997), Guidelines for ToBI Labelling, Ohio State University (si veda anche http://www.ling.ohio-state.edu/phonetics/E_ToBI/singer_tobi.html)

Bolinger D. (1958), A Theory of pitch accent in English, Word, 14: 109-149, ripubblicato nella raccolta Isamu Abe & Tetsuya Kanekiyo (a cura di) (1965), Forms of English. Accent, Morpheme, Order, Tokyo: Hokuou, 17-56.

Canepari L. (1979), Introduzione alla fonetica, Torino: Einaudi.

(19)

Canepari L. (1985), L'intonazione. Linguistica e paralinguistica, Napoli: Liguori.

Carletta, J., A. Isard, S. Isard, J. Kowtko, G. Doherty-Sneddon, A. Anderson (1995), The coding of dialogue structure in a corpus, in Proceeding of Twete Workshop on Language Technology on Corpus-Based Approaches to Dialogue Modelling, Twete.

Chapallaz M. (1979), The Pronunciation of Italian. A Practical Introduction, London: Bell & Hyman.

D'Eugenio A. (1982), Major problems of English phonology. With special reference to Italian-speaking learners, Foggia: Atlantica.

Ferrari G., C. Soria, E. Milos (2000), Annotazione morfosintattica e testuale-pragmatica, AVIP rapporto interno.

Garrido, J. & S. Quazza (1999), Supported coding schemes. Chapter on Prosody, MATE deliverable D1.1, http://mate.nis.sdu.dk/about/deliverables.html

Grice M., M. Savino, M. D'Imperio, C. Avesani, B. Gili Fivela, G. Marotta, P. Sorianello, M.R. Caputo, Use of an autosegmental-metrical ToBI-like system for annotating varieties of Italian, comunicazione presentata al ICPhS 99 workshop 'Intonation: models and ToBI labeling', San Francisco, 1/7/1999

Hirschberg J. & M. Beckman (1994), The ToBI Annotation Conventions, Ohio State University Hirst, D., & A. Di Cristo (eds.), 1998, Intonation Systems. A Survey of Twenty Languages,

Cambridge, Cambridge University Press (si veda anche http://www.lpl.univ-aix.fr/~hirst). Kohler K. (1991), A model of German intonation, AIPUK 25.

Kohler K., M. Paetzold, A. Simpson (1995), From scenario to segment. The controlled elicitation, transcription, segmentation and labelling of spontaneous speech, AIPUK 29.

Ladd R.D. (1996), Intonational Phonology, Cambridge Univ. Press

Liberman M. & A. Prince (1977), On stress and linguistic rhythm, Linguistics Enquiry, 8, 249-336.

Llisterri, J. (1994), Prosody encoding survey, MULTEX – LRE Project 62-050, WP1 Specifications and Standards. T1.5 Markup Specifications. Deliverable 1.5.3, Final version 15-9-1994.

Pierrehumbert J. (1980), The phonology and phonetics of English intonation, PhD Diss. MIT. Pierrehumbert J. & Beckman M. (1988), Japanese tone structure, MIT Press

Savino, M. & M. Refice (1997), L'intonazione dell'italiano di Bari nel parlato letto e in quello spontaneo, in Atti delle VII giornate del G.F.S., Napoli 1996.

Silverman K., M. Beckman, J. Pitrelli, M. Ostendorf, C. Wightman, P. Price, J. Pierrehumbert, J. Hirschberg (1992), ToBI: a standard for labeling English prosody, ICSLP '92 Pr., 867-870.