• Non ci sono risultati.

Vennero così individuati determinati tratti che distinguono i diversi ritmi, che in un

N/A
N/A
Protected

Academic year: 2021

Condividi "Vennero così individuati determinati tratti che distinguono i diversi ritmi, che in un "

Copied!
34
0
0

Testo completo

(1)

2.

Gli studi sul ritmo

In questo capitolo verrà descritto l’evolversi di un’area particolare degli studi sul ritmo della lingua, ossia la ricerca sulla tipologia ritmica. Precedentemente si è visto come sia possibile parlare di più ritmi della lingua, intendendo con ciò i ritmi che sono compresenti in diversi livelli nella medesima sequenza parlata, come anche del ritmo che contraddistingue un determinato enunciato, oppure una determinata lingua.

Quest’ultimo tipo è quello considerato dagli studi descritti in questo capitolo, il cui fine è quello di classificare le lingue secondo il loro ritmo. Compiendo un paragone con la fotografia, queste ricerche intendono dare un’immagine dall’alto, una panoramica, della realtà molto più complessa del ritmo delle diverse lingue. Qualsiasi persona si può infatti rendere conto che ogni lingua ha, per così dire, una facies fonetica, che il parlante si porta dietro – a meno che non si eserciti molto a lungo – anche quando parla altre lingue, e che va a formare l’accento straniero, e che viene percepita come diversa dai parlanti delle altre lingue. Tuttavia, le lingue hanno tra di loro anche delle somiglianze, a partire dalle quali una certa lingua viene sentita come più vicina alla propria, e ciò permette di classificare le lingue secondo particolari aspetti che hanno in comune, riguardanti il ritmo degli enunciati che con esse vengono formati. Questo ambito degli studi sul ritmo costituisce pertanto anche un ambito della linguistica tipologica, in quanto è alla ricerca di determinati modelli soggiacenti alla prosodia delle diverse lingue.

Vennero così individuati determinati tratti che distinguono i diversi ritmi, che in un

primo momento vennero considerati caratteristiche binarie – possono essere presenti o

meno – ed in fasi più recenti, in cui si è cercato di interpretare in termini spaziali la

classificazione delle lingue, disponendole in piani bidimensionali, sono stati trasformati

in correlati acustici scalari. Le ricerche recenti, improntate ad un’indagine acustica

(2)

quantitativa, a parte alcuni aspetti dovuti alle peculiarità del singolo modello, confermano la ripartizione originaria che vedeva le lingue germaniche e quelle romanze in due categorie diverse ed opposte. La questione è, tuttavia, più problematica per le diverse nuove lingue inserite nella ricerca, per le quali sarebbe forse necessario aggiungere nuovi elementi alla tipologia, come anche nuove dimensioni.

2.1. I primi passi

Già nel Settecento gli scrittori anglofoni avevano notato, a livello di impressione, che in inglese gli accenti tendono ad avvicendarsi secondo intervalli isocroni e, come osserva Kohler (2009b: 30), una simile caratterizzazione ritmica a partire dall’accento si sarebbe poi sviluppata in una dicotomia riguardante tutte le lingue. Gli studi sul ritmo delle lingue ebbero inizio tra gli anni trenta e quaranta nell’ambito degli studi sulla prosodia, in un’ottica comparativa tra l’inglese ed il francese (in Europa) e l’inglese e lo spagnolo (in America). Era noto infatti che vi è una chiara differenza, dal punto di vista prosodico, tra lingue come l’italiano, il francese e lo spagnolo da un lato ed il tedesco e l’inglese dall’altro. Classe (1939) fu il primo a considerare, da una prospettiva francofona, la differenza ritmica tra il francese e l’inglese: egli trovò che la tendenza all’isocronia, intesa come equidistanza temporale degli accenti, era inficiata dal numero di sillabe atone all’interno dell’intervallo interaccentuale, come anche dal diverso tipo di segmenti che compongono le sillabe. Egli ipotizzò così che gli intervalli venissero percepiti come più regolari di quanto non lo fossero acusticamente (Bertinetto (1989:

102), nel passare in rassegna gli studi sul ritmo, lo colloca nella categoria degli

‘illusionisti percettivi’). Lloyd James (1940) definì, ancora sulla scorta della differenza percepita nel ritmo di inglese e francese, due diversi tipi di ritmo, rispettivamente con le espressioni Morse-code rhythm e machine-gun rhythm: la prima descrive l’irregolarità delle sillabe inglesi paragonandola ai segnali di diversa durata dell’alfabeto Morse, la seconda rappresenta la regolarità delle sillabe francesi paragonandola al rumore della mitragliatrice.

2.1.1. Pike: stress-timed e syllable-timed languages.

In The Intonation of American English, Pike (1945) propose una classificazione delle

lingue, dal punto di vista della loro struttura ritmica, tra quelle definite stress-timed e

(3)

quelle definite syllable-timed. Nel primo gruppo sono comprese le lingue che, secondo Pike, scandiscono il loro ritmo tramite la successione degli accenti. Nel secondo gruppo sono comprese le lingue che costruiscono il loro ritmo partendo dalle sillabe. L’accento sarebbe quindi l’elemento soprasegmentale primario nelle prime, e la sillaba nelle seconde, anche se, comunque in tutte le lingue sono contenute entrambe le scansioni ritmiche ed in ognuna può prevalere, più o meno fortemente, uno di questi due tipi.

La distinzione di Pike verrebbe rispecchiata anche dai tipi di versificazione tradizionali:

la poesia delle lingue germaniche antiche impiega infatti versi con il medesimo numero d’accenti, mentre la metrica della poesia francese, provenzale e delle altre lingue romanze è costruita sul numero delle sillabe

1

.

2.1.2. Abercrombie: lingue isoaccentuali e isosillabiche.

Abercrombie (1967) riformulò la classificazione di Pike in termini di isocronia, accentuale e sillabica. In questo modo, le lingue isoaccentuali tenderebbero a presentare degli intervalli interaccentuali regolari, mentre nelle lingue isosillabiche sarebbero le sillabe ad avere una durata approssimativamente regolare. In seguito venne aggiunto anche un gruppo di lingue isomoraiche, come il giapponese ed il tamil, in cui sarebbe la mora a rimanere regolare.

 

La mora è un’unità con cui viene stabilito il peso di un sillaba. Essa costituisce un ‘finestra’ temporale per le parti della sillaba diverse dall’attacco. Essa corrisponde ad un segmento compreso nella rima, mentre una sillaba lunga od un dittongo ne comprendono due (Spencer 1995: 100-102).

Abercrombie cercò di motivare in termini fisiologici questi due diversi tipi di ritmo.

Egli distingue infatti, considerando il momento in cui nei polmoni viene compressa l’aria che servirà per articolare il messaggio linguistico, tra chest-pulses e stress-pulses, che sono individuabili in tutte le lingue. I primi derivano dal contrarsi e rilassarsi dei muscoli respiratori, mentre i secondi sono contrazioni meno frequenti, ma più energiche, che amplificano alcuni chest-pulses. Il ritmo della lingua sarebbe il modo in cui queste contrazioni vengono coordinate: nelle lingue isosillabiche sono i chest-pulses ad essere regolari, mentre nelle lingue isoaccentuali sono gli stress-pulses a comparire ad intervalli costanti. Ai chest-pulses corrisponderebbero quindi le sillabe ed agli stress-

      

1 A questa affermazione si può obiettare considerando quanto sostiene Navarro (1932, pp. 206-207, in Dauer, 1983: 60), che nella poesia spagnola i versi sono costruiti mantenendo costante il numero delle sillabe tra due accenti.

(4)

pulses gli accenti. Abercrombie sostiene che una lingua ha due possibilità: mantenere costanti i chest-pulses, oppure gli stress-pulses; dalla scelta di una di queste alternative deriverebbe l’isocronia.

2.2. La critica all’isocronia

In seguito, negli anni ’70 e ’80, si è cercata una conferma sperimentale di questa dicotomia, ritenendo che una diversità così immediata dal punto di vista percettivo ed intuitivo potesse essere confermata da determinati parametri acustici e fonetici.

Tuttavia, quest’idea non ha trovato, almeno in un primo momento, un riscontro sperimentale: per quanto riguarda l’inglese, non sembra infatti che il tempo che intercorre tra due accenti rimanga stabile, bensì si è visto come dipenda dal numero delle sillabe e dalla loro complessità segmentale (si veda Bolinger (1965) e Ramus, Nespor & Mehler (1999)). Si è inoltre visto come in francese non si possa parlare di sillabe d’eguale durata e che unità maggiori, corrispondenti approssimativamente ad una frase prosodica sarebbero responsabili del ritmo (Wenk & Wiolland, 1982). Per lo spagnolo, si è visto come la durata delle sillabe non sia costante e l’intervallo interaccentuale abbia mediamente una durata regolare (Borzone de Manrique &

Signorini, 1983). In un confronto effettuato da Roach (1982) tra due gruppi di tre lingue, considerate da Abercrombie (1967) rispettivamente isosillabiche (francese, telugu e yoruba) e isoaccentuali (inglese, arabo e russo), si è visto come la durata delle sillabe vari in modo eguale in tutte le lingue e che gli accenti non si dispongono in maniera più regolare nel gruppo detto isoaccentuale.

Alcuni autori (Beckman, 1992; Laver, 1994) proposero invece l’idea di un’isocronia soggettiva: non si tratterebbe quindi di una realtà concreta, oggettiva, bensì di una tendenza presente a livello profondo e soggiacente alla performance.

Un altro piuttosto cospicuo filone di ricerca (tra gli altri, Lehiste, 1977; Couper-Kuhlen, 1990, 1993), sosteneva che l’isocronia fosse prevalentemente un fenomeno percettivo.

Essi ritenevano che le diverse durate delle sillabe o degli intervalli interaccentuali in

realtà non venissero percepiti dall’orecchio umano e fossero dovuti a vari fattori,

fonetici, morfosintattici, lessicali, come già riteneva Classe (1939).

(5)

Dauer (1983), studiando la pronuncia d’enunciati in inglese (stress-timed) ed in italiano,

spagnolo e greco (syllable-timed), concluse che la durata media degli intervalli

interaccentuali dipende dal numero delle sillabe che li compongono e che gli accenti in

inglese non ricorrono più regolarmente che nelle altre lingue. La differenza tra inglese e

spagnolo (lingue prese come campione per i due tipi ritmici) non avrebbe a che vedere

con la durata degli intervalli interaccentuali, ma rispecchierebbe proprietà universali

dell’organizzazione temporale del linguaggio e rientrerebbe in proprietà valide per tutte

le attività ritmiche. Ciò confermerebbe quanto osservato da Allen (1975), ossia che i

compiti motori sono eseguiti tendenzialmente con una frequenza che pone i battiti ad

intervalli ridotti (mediamente due per secondo). L’accento sarebbe così per tutte le

lingue (anche quelle dette isosillabiche) l’elemento prosodico dal quale partirebbe

l’impostazione temporale dell’enunciato, con l’intervallo interaccentuale come unità su

cui impostare la produzione della frase. Le sillabe infatti manifestano decisamente una

minore regolarità nelle durate, anche all’interno della medesima lingua. Si domanda

dunque Dauer (1983: 55), come sia possibile che vengano percepiti due differenti tipi di

ritmo se gli accenti tendono a ricorrere regolarmente in inglese e spagnolo. Ciò dipende

da aspetti fonologici, morfologici, sintattici e lessicali. Mentre Pike (1945) ed

Abercrombie (1967) avevano elencato una serie di questi fattori considerandoli un

prodotto collaterale dell’appartenenza delle lingue al gruppo isosillabico o

isoaccentuale, Dauer (1983) propone un ribaltamento di prospettiva: sarebbero proprio

determinati aspetti della lingua ad essere responsabili del ritmo percepito. Questo

spiegherebbe anche come i bambini neonati, che in un primo momento producono

enunciati isosillabici (si veda Allen & Hawkins, 1978, citato in Dauer (1983)), possano

apprendere il ritmo dell’inglese. Inoltre, qualora vi fossero gruppi ritmici ben precisi,

sarebbe poco comprensibile come alcune lingue siano passate nel corso della loro storia

dall’essere isosillabiche all’essere isoaccentuali (Dauer fa l’esempio del portoghese, in

cui è in corso un passaggio ad un ritmo isoaccentuale, e del tailandese, in cui il

passaggio da un lessico monosillabico ad un lessico con composti polisillabici avrebbe

fatto sì che questa lingua divenisse isoaccentuale). Dauer (1983) scrive così che: «it is

precisely the language structure with all its language specific segmental variation that is

responsible for perceived differences in language rhythm».

(6)

Secondo Dauer (1983), la diversità percepita nel ritmo delle lingue dipenderebbe dai seguenti tre fattori: struttura sillabica, riduzione vocalica ed accento. Per quanto riguarda la complessità della struttura sillabica, in inglese – ed in genere nelle lingue isoaccentuali – vi è un maggior numero di tipi di sillabe permesse, rispetto allo spagnolo ed alle lingue isosillabiche. Questo fa sì, quindi, che le sillabe nel primo gruppo abbiano una maggiore varietà di durate, avendo i segmenti una durata minima ed una massima, mentre nelle lingue del secondo gruppo vi sarà una maggiore regolarità. Inoltre, in inglese le sillabe più pesanti hanno la tendenza ad essere anche toniche, in modo da amplificare l’effetto di lingua stress-timed. Inoltre, nelle sillabe toniche in inglese compaiono di solito vocali che sono di per sé più lunghe (/ɔ/, /oʊ/, /a/, /ɛ/, /eɪ/), mentre nelle sillabe atone ricorrono vocali di durata intrinsecamente minore.

Per quanto riguarda la riduzione delle vocali atone, è anche questa un tratto tipico delle lingue stress-timed: le vocali atone vengono pronunciate centrali, e talvolta vi sono inventari diversi rispettivamente per le vocali toniche e per le vocali atone, come in inglese. Si potrebbe vedere questo fatto, nella prospettiva dell’energia articolatoria impiegata: nelle lingue isoaccentuali essa viene spesa per la maggior parte nella pronuncia della sillaba tonica, rimanendo meno energia disponibile per le altre sillabe.

Nell’altro tipo ritmico, invece, l’energia articolatoria verrebbe distribuita in maniera più

equilibrata tra le varie sillabe, assegnando alla sillaba tonica solamente una leggera

prominenza. Il problema dell’organizzazione temporale del linguaggio diverrebbe

quindi parte del problema dell’impiego dell’energia articolatoria: nel programmare

l’enunciato il parlante dispone di una certa quantità d’energia necessaria per contrarre la

cassa toracica tramite i muscoli intercostali, in modo da espellere una certa quantità

d’aria, e per muovere gli organi fonatori dalla loro posizione precedente a quella

bersaglio, con una maggiore o minore tensione. Solitamente, i suoni articolati con una

maggiore energia (espiratoria ed articolatoria) hanno anche una maggiore durata, così,

un segmento atono, se viene ridotto nell’energia impiegata per pronunciarlo, riceve

anche una minore durata. Dauer (1983: 57-58) osserva poi come in spagnolo si riducano

preferibilmente le consonanti, come in pescado ‘pesce’ [pesˈkaðo], che in alcuni accenti

diventa [pɛˈkao], mentre un madrelingua inglese ridurrebbe le vocali in schwa, ma

manterrebbe integre le consonanti. Questo avviene in maniera molto evidente in

tedesco, dove le -e- in sillaba atona seguite da una sonorante nasale (-m-, -n-) o liquida

(7)

(-l-, -r-) tendono ad essere inglobate nella consonante, la quale diventa nucleo sillabico (come in machen ‘fare’, pronunciato [ma:xn̩] e lächeln ‘sorridere’ [lɛ:çl̩n]), oppure, nel caso della -r-, ad inglobare la consonante (come in Lieder ‘brani musicali’ [li:dɐ]).

Il terzo parametro considerato da Dauer (1983) è l’accento. Mentre nelle lingue isoaccentuali l’accento è espresso da un complesso insieme di cambiamenti nell’intensità, nel pitch e nella quantità e qualità segmentali e svolge un ruolo piuttosto importante nel distinguere tra alcune coppie minime (è di solito libero), nelle lingue isosillabiche le sillabe toniche sono per lo più denotate da un cambiamento nel pitch e l’accento non ricopre un ruolo molto importante dal punto di vista della fonologia ed è spesso fisso. Tra le lingue isoaccentuali si vede infatti come l’accento sia importante nel distinguere coppie minime in inglese, nelle quali la parola accentata sull’ultima sillaba è un verbo e quello accentata sulla penultima è un sostantivo, come in project,

‘progettare’ e ‘progetto’. In tedesco ha un ruolo importante il rapporto tra accento primario e secondario nel distinguere, ad esempio, tra umgehen [ˌʊmˈge:ən] ‘avere a che fare’ e [ˈʊmˌge:ən] ‘circondare’. Per riguarda le lingue isosillabiche, è un esempio il francese, dove l’accento è fisso, sull’ultima sillaba, e non ha valore fonologico.

Tuttavia, si noti come in italiano e spagnolo l’accento sia libero e fonologicamente rilevante; considerando inoltre il fattore precedente, in italiano le vocali medie [e] e [o]

si oppongono rispettivamente ad [ɛ] ed [ɔ] solamente nelle sillabe toniche, mentre il timbro non è un tratto fonologicamente pertinente nelle sillabe atone. Questi aspetti dell’italiano e dello spagnolo allontanano queste lingue dal prototipo isosillabico.

La Dauer conclude sostenendo che il tipo syllable-timed fu in realtà elaborato da linguisti anglofoni per un tipo di ritmo che era percepito diverso da quello della propria lingua: in tutte le lingue l’intervallo interaccentuale rimane più o meno costante ed è di solito l’elemento più importante per la scansione del ritmo. La Dauer propone quindi di collocare le lingue su di un continuum, in cui l’unica dimensione sarebbe l’essere più o meno stress-based: questa etichetta, già impiegata O’Connor (1973, citato in Dauer, 1983) ed Allen (1975), riguarderebbe la maggiore o minore importanza dell’accento.

Non si tratterebbe quindi di scegliere tra due strutture prosodiche per costruire il ritmo

(l’accento e la sillaba), stabilendo quale sia più importante, bensì scegliere quale posto

assegnare all’accento nella complessa gerarchia di fattori che regolano lo sviluppo – in

senso generativo, da una struttura profonda ad una superficiale, e temporale –

(8)

dell’enunciato. In tutte le lingue infatti vi è la tendenza degli accenti a ricorrere regolarmente: essi, tuttavia, debbono interagire con i tre elementi visti prima, cioè la struttura sillabica, la riduzione vocalica e la realizzazione e ruolo dell’accento.

Il merito dell’articolo di Dauer (1983) è quello d’offrire un ribaltamento di prospettiva rispetto al problema della tipologia ritmica: mentre prima si riteneva che diversi aspetti della lingua derivassero dal tipo ritmico, e che esistessero due tipi (uno costruito sull’accento e l’altro costruito sulla sillaba), ella ritiene che il ritmo dipenda da molte caratteristiche e che sia meglio parlare di un continuum ad una dimensione, ossia quella dell’accento, su cui disporre le lingue.

Si potrebbe ritenere che un parlante scelga il tipo di ritmo a seconda della struttura fonologica degli enunciati, vale a dire, che impiegherebbe il ritmo che gli consente di parlare in maniera più scorrevole. Il ritmo, quindi, rientrerebbe in un discorso d’economia del linguaggio, di scelta del modo più agevole di parlare, e riguarderebbe sia lo stile elocutivo del singolo parlante, sia la dimensione della comunità linguistica. Il sistema linguistico e il ritmo sarebbero, si potrebbe dire, due elementi che interagiscono e si determinano a vicenda.

Nespor (1990) supporta l’idea di Dauer (1983), ritenendo che esistano alcune lingue che non possono essere incluse in nessuna categoria, in quanto presentano caratteristiche d’entrambe. Tra queste vi sono il polacco ed il catalano: il primo, considerato una lingua isoaccentuale, ha sillabe complesse, però non ha la riduzione delle vocali atone, il secondo, considerato una lingua isosillabica, non ha sillabe complesse, però riduce le vocali atone.

Così, mentre la Dauer propone un continuum su cui si disporrebbero le lingue, altri autori (Levelt & van de Vijver, 2000) si domandano se sia possibile introdurre nuove classi ritmiche in cui inserire le lingue come il polacco ed il catalano, dal momento che esse presentano caratteristiche intermedie. Nespor (1990), tuttavia, ritiene che né tramite la dicotomia di Pike ed Abercrombie, né disponendo le lingue in un continuum, sia possibile spiegare il ritmo di lingue come il catalano ed il polacco.

Un’alternativa, a mio avviso, sarebbe considerare la tipologia ritmica come un insieme

di contrasti bipolari su diversi piani, i quali potrebbero essere ad esempio i tre fattori

considerati da Dauer (1983). In questo modo la tipologia ritmica diverrebbe qualcosa di

(9)

più complesso, da non ridurre solamente ai due/tre tipi considerati da Pike (1945) ed Abercrombie (1967). Vi sarebbe così un continuum a livello generale, in cui l’unica dimensione è quella del ruolo dell’accento, poi una serie di contrasti legati a vari fattori, segmentali e soprasegmentali.

Le categorie elaborate nei primi studi, infatti, tenevano presenti in primo luogo l’inglese e le lingue germaniche, paragonandole con lo spagnolo e il francese ed erano concentrate, forse, prima di tutto a spiegare il motivo del loro diverso aspetto prosodico, riportando ciò al ritmo; ad esse, poi, furono aggiunti il giapponese ed alcune lingue slave, come anche l’arabo ed altre lingue africane ed asiatiche, includendole nelle categorie elaborate da Pike e dagli autori che avevano poi approfondito la sua tipologia linguistica. Questi studi, però, riguardavano solamente un numero molto ristretto di lingue, delle quali molte sono imparentate tra loro e parlate in aree geograficamente vicine. È possibile così che diverse lingue non rientrino pienamente nelle tre categorie elaborate (isocronia accentuale, sillabica, moraica) e che si debbano considerare altri elementi. È utile, ad esempio, considerare anche il ruolo degli altri livelli d’analisi della lingua, come la morfologia e la sintassi.

La tipologia ritmica di Pike ed Abercrombie risente fortemente, è probabile, dell’opposizione tra questi due gruppi di lingue imparentate, ambendo poi ad includere in essi anche le altre lingue del mondo: forse sarebbe stato meglio etichettare i due ritmi come ‘germanico’ e ‘romanzo’, ma in questo caso si sarebbe persa l’originaria prospettiva universale, che ritiene la dicotomia valida per tutte le lingue, considerando le lingue isomoraiche come un tipo particolare di lingue isosillabiche.

2.3. Gli sviluppi recenti: la ricerca di correlati acustici.

2.3.1. Ramus, Nespor & Mehler: %V, ΔV, ΔC.

Una serie di studi sulla percezione del parlato nei neonati (Mehler, Dupoux, Nazzi &

Dehaene-Lambertz, 1996 ed altri citati in Ramus, Nespor & Mehler, 1999) ha gettato

nuova luce sulle ricerche riguardanti il ritmo della lingua. Secondo questi studi,

l’apprendimento della fonologia della lingua materna (o delle lingue, nei casi di bambini

bilingue) prenderebbe le sue prime mosse dalla struttura ritmica. Il neonato infatti riceve

delle catene foniche formate da momenti di sonorità divisi tra loro da momenti

(10)

d’occlusione (secondo diversi gradi, fino ad essere completa): il segmentare questa successione d’occlusioni ed aperture costituisce il primo accesso alla fonologia.

Secondo l’ipotesi di Mehler et al. (1996: 112), la percezione del parlato nei neonati è centrata sulle vocali, poiché «vowels carry most of the energy in the speech signal, they last longer than most consonants, and they have greater stability. They also carry accents and signal whether a syllable is strong or weak». Il metodo impiegato da Mehler et al. analizza il ritmo di suzione nei neonati, che cambia a seconda del fatto che essi odano una lingua simile a quella materna o meno. I neonati potrebbero pertanto distinguere le lingue proprio per il ritmo, assegnandole a due possibili categorie, quelle con un ritmo simile alla lingua materna e quelle con un ritmo diverso.

Questo fatto costituisce il punto di partenza dell’indagine di Ramus et al. (1999), che si pone il fine di spiegare come i neonati riescano a distinguere tra ritmi linguistici diversi già al momento della nascita. Il ritmo sarebbe infatti l’unico strumento di cui il neonato disporrebbe per elaborare poi ulteriormente il segnale: esso è composto da una catena di beats formati da un momento di chiusura ed apertura, ai primi corrispondono le consonanti, ai secondi le vocali. Come si è affermato sopra, le prime ad essere analizzate sarebbero le vocali: Ramus et al. (1999) assumono infatti che i neonati distinguano solamente tra intervalli vocalici e consonantici, o meglio, non-vocalici, non procedendo nell’analisi segmentale. Mehler et al. (1996), inoltre, spiegano la capacità che avrebbero i neonati di riconoscere lingue diverse tramite la distinzione syllable- timing/stress-timing, come proposto anche dagli studi sopra citati: essi potrebbero distinguere tra lingue appartenenti a categorie diverse (ad esempio, tra spagnolo ed inglese), ma non tra lingue appartenenti alla medesima categoria (ad esempio, inglese ed olandese). Questo fatto fa ritenere che le categorie ritmiche siano profondamente ancorate nella percezione del linguaggio.

Ci si domanda, poi, come vengano percepite dai neonati le lingue intermedie quali il

polacco ed il catalano, se riuscirebbero meglio a distinguere, ad esempio, il polacco dal

tedesco o dall’italiano, o meglio, se riuscirebbero a distinguere il polacco da altre

lingue. Sarebbe qui interessante vedere, se vi fossero delle coppie di categorie nelle

quali certe lingue hanno comportamenti opposti, come la complessità sillabica e la

riduzione delle vocali atone, quale sia la più rilevante. Ad esempio, se la maggiore o

minore semplicità della struttura sillabica fosse più rilevante della riduzione delle vocali

(11)

atone, il polacco verrebbe distinto meglio, probabilmente, da una lingua come lo spagnolo rispetto ad una come il tedesco.

L’articolo di Ramus et al. (1999) si inserisce pertanto anche all’interno della ricerca di riscontri acustici alla dicotomia proposta da Pike, dando il via ad una nuova stagione di ricerche, in cui l’impegno è posto nel trovare i correlati acustici delle tipologie di ritmo.

Gli autori si domandano se, dal momento che non sono state trovate prove di un effettivo raggruppamento delle lingue in classi di ritmo, ossia, se la tipologia di Pike ed Abercrombie non è stata riscontrata scientificamente, essa debba venire abbandonata. I dati che provengono dai neonati fanno ritenere che ci sia qualcosa di vero, e che ciò sia proprio nel materiale fonico che giunge loro, dal momento che essi non hanno preconcetti riguardo alla lingua materna. Anche in un’ottica generativa, infatti, i neonati avrebbero sì delle capacità innate, però esse costituiscono per il momento solamente delle potenzialità, che debbono venire attivate attraverso l’esposizione alla lingua parlata. Ramus et al. (1999) propongono quindi di cercare i correlati acustici tramite i quali sia possibile spiegare i due/tre raggruppamenti delle lingue sulla base del ritmo, dal momento che essi risulterebbero sia a livello percettivo immediato (a prima vista si riconosce che lingue come il tedesco e le lingue germaniche hanno un ritmo differente dall’italiano, dallo spagnolo e dal francese) che dal modo in cui i neonati percepiscono lingue diverse.

Pertanto, gli autori, partendo da un corpus di inglese, olandese, polacco, francese, spagnolo, italiano, catalano, giapponese, hanno etichettato i segmenti di complessivamente 160 frasi come ‘consonante’ o ‘vocale’, misurando poi la durata degli intervalli consonantici e vocalici – i quali potevano essere formati anche da più segmenti – non considerando i confini tra parole. Ramus et al. ritengono infatti che per spiegare il ritmo della lingua non siano necessari complessi concetti dipendenti dalla struttura delle singole lingue, bensì che siano sufficienti le caratteristiche puramente fonetiche del segnale linguistico. Dalla misurazione delle durate sono state ottenute, quindi, le seguenti tre variabili:

- la proporzione degli intervalli vocalici all’interno della frase, o %V, calcolata

come la durata totale degli intervalli vocalici nella frase divisa per la durata

totale della frase e trasformata in percentuale;

(12)

- la deviazione standard della durata degli intervalli vocalici all’interno della frase, o ΔV, indicativa della presenza/assenza di riduzione vocalica;

- la deviazione della durata degli intervalli consonantici all’interno della frase, o ΔC, indicativa della presenza/assenza di riduzione consonantica.

La %V è indicativa d’entrambe le proprietà, ΔV e ΔC. Quindi, Ramus et al. hanno trasformato in parametri quantitativi due degli elementi elencati da Dauer (1983) e da Bertinetto (1989) la cui presenza è tipica delle lingue dette isoaccentuali, mentre la loro assenza è tipica di quelle isosillabiche: complessità della struttura sillabica, e quindi nessi consonantici complessi nelle lingue stress-timed, e riduzione delle vocali (in timbro e durata), corrispondenti rispettivamente ai parametri ΔC e ΔV. La maggiore variabilità nei nessi consonantici che si vengono a formare con l’incontro di sillabe di diversa complessità fa sì che, secondo l’ipotesi di Ramus et al. (1999), vi sia una maggiore escursione tra le durate degli intervalli consonantici. Parimenti, il fatto che le vocali atone abbiano una durata minore implica un aumento del valore del parametro ΔV. Così, le lingue dette isoaccentuali, che chiameremo anche semplicemente

‘accentuali’, avranno ΔC e ΔV maggiori rispetto alle lingue isosillabiche, che chiameremo ‘sillabiche’.

Una lingua con %V di 50 alternerebbe vocali e consonanti in egual misura, dando a ciascun intervallo durate costanti, oppure operando accorciamenti od allungamenti compensatori. Chiaramente, è impossibile trovare lingue con un %V pari a 0 o a 100, mentre ci si attende che una lingua accentuale, riducendo maggiormente le vocali, abbia una %V minore di 50 ed in una lingua sillabica questa sia maggiore, venendo ridotte di più le consonanti. Al parametro ΔV eguale a 0, e pertanto alla minima comprimibilità, corrisponderebbe una lingua in cui gli intervalli vocalici si mantengono perfettamente costanti, mentre non è possibile stabilire il limite opposto per questa misura, in quanto le durate dipendono anche dalla velocità. Le lingue sillabiche ci si attende che si avvicinino maggiormente allo 0, mentre le lingue accentuali avranno un ΔV più alto.

Egualmente, in una lingua con ΔC pari a 0, gli intervalli consonanti si manterrebbero costanti, mentre non è possibile stabilire un limite superiore; ad un ΔC pari a 0 si avvicineranno le lingue accentuali e quelle sillabiche avranno un ΔC più alto.

(13)

Nella tabella seguente sono disposti i risultati del parametro della percentuale vocalica (a sua volta complementare a %C) e per ΔC e ΔV:

n.

intervalli vocalici

n. intervalli consonantici

%V (deviazione

standard)

ΔV (deviazione

standard

*100)

ΔC (deviazione

standard

*100) Inglese 307 320 40,1 (5,4) 4,64 (1,25) 5,35 (1,63) Polacco 334 333 41,0 (3,4) 2,51 (0,67) 5,14 (1,18) Olandese 320 329 42,3 (4,2) 4,23 (0,93) 5,33 (1,5) Francese 328 330 43,6 (4,5) 3,78 (1,21) 4,39 (0,74) Spagnolo 320 317 43,8 (4) 3,32 (1) 4,74 (0,85) Italiano 326 317 45,2 (3,9) 4,00 (1,05) 4,81 (0,89) Catalano 332 329 45,6 (5,4) 3,68 (1,44) 4,52 (0,86) Giapponese 336 334 53,1 (3,4) 4,02 (0,58) 3,56 (0,74)

Considerando i risultati per il parametro %V, le lingue studiate possono essere disposte nel seguente ordine, dove la prima ha la minima percentuale d’intervalli vocalici e l’ultima la massima:

- inglese, polacco, olandese, francese, spagnolo, italiano, catalano, giapponese, dove lo scarto maggiore è quello tra il catalano ed il giapponese (7,5), mentre, per quanto riguarda le altre lingue gli scarti sono compresi tra 0,2 (tra francese e spagnolo) e 1,4 (tra spagnolo e italiano). Tra inglese e catalano vi è poi una differenza del 5,5%, la quale è molto minore di quella tra il catalano e il giapponese: questo significa che il giapponese esula maggiormente dalle altre lingue, le quali, nonostante le differenze, per quanto riguarda il parametro della percentuale d’intervalli vocalici si collocano molto più vicine tra loro. Il giapponese è tra l’altro l’unica lingua che fa parte di un’altra famiglia linguistica rispetto alle altre, e l’unica non europea: sarebbe interessante quindi vedere anche come si comportano lingue non imparentate con quelle della ricerca.

Infine, nel giapponese solamente, la componente vocalica ha una maggiore percentuale rispetto a quella consonantica, vale a dire che la catena fonica è costituita, temporalmente parlando, per la maggior parte da vocali.

Per quanto riguarda il parametro ΔV, le lingue si dispongono nel seguente ordine crescente:

- polacco, spagnolo, catalano, francese, italiano, giapponese, olandese, inglese.

(14)

Il polacco si distacca maggiormente dalle altre lingue, mentre l’inglese e l’olandese si collocano agli estremi superiori, con una differenza maggiore tra di loro, però, di quanta ve ne sia all’interno del gruppo delle lingue romanze.

Per il parametro ΔC, le lingue si dispongono, in ordine crescente, in questo modo:

- giapponese, francese, catalano, spagnolo, italiano, polacco, olandese, inglese.

Il giapponese si distacca notevolmente dalle altre lingue, le quali si raggruppano attorno ad una deviazione consonantica media di 3,75 per italiano, francese, catalano e spagnolo e di 5,27 per polacco, olandese ed inglese. È da notare come il ΔC risulti maggiore del ΔV in tutte le lingue, tranne che per il giapponese, e ciò è probabilmente dovuto alle forti differenze di quantità vocalica ed all’isomoraicità, per cui una vocale lunga in sillaba aperta ha, almeno in teoria, una durata doppia.

Nella tabella seguente sono mostrati rapporti tra ΔC e ΔV e le loro differenze:

ΔC/ΔV ΔC- ΔV

Inglese 1,1530 0,71

Polacco 2,0478 2,63

Olandese 1,2600 1,1

Francese 1,1614 0,61

Spagnolo 1,4277 1,42

Italiano 1,2025 0,81

Catalano 1,2283 0,84

Giapponese 0,8856 -0,46

Osservando i rapporti, si nota come italiano, catalano, francese, inglese ed olandese si

collochino attorno ad una media di 1,176; lo spagnolo mostra un rapporto leggermente

più sbilanciato a favore del ΔC, ed ancora di più il polacco. Stupisce il risultato dello

spagnolo, in quanto in questa lingua né la quantità consonantica né quella vocalica

hanno valore fonologico, e non sono presenti nessi consonantici troppo complessi; per

quanto riguarda il polacco, ciò si può spiegare attraverso l’elevata complessità degli

incontri consonantici. Il giapponese è l’unica lingua che ha un rapporto minore di 1, e

ciò può riflettere il fatto che è una lingua mora-timed.

(15)

Figura 2.1. Grafico %V, ΔC.

Il parametro ΔC è indicatore della complessità sillabica: questa a sua volta è un tratto tipico delle lingue accentuali, le quali tendono spesso a collocare l’accento sulle sillabe più pesanti, ed il peso delle sillabe deriva per la maggior parte dal numero di consonanti che le compongono. Il parametro %V è anch’esso indicatore della complessità delle sillabe, in quanto, maggiore è la complessità delle sillabe ammessa, ottenuta accrescendo l’attacco e la coda, minore è la componente vocalica. Combinando assieme questi due parametri in un piano che abbia %V come ascissa e ΔC come ordinata (Figura 2.1), ci si attende che le lingue sillabiche si vadano a disporre nella parte in basso a destra del grafico, mentre le lingue accentuali ci si aspetta che occupino la parte in alto a sinistra. Si vede come le lingue considerate nella ricerca di Ramus et al.

vengano a disporsi in maniera analoga a come erano classificate nella tipologia di Pike

ed Abercrombie, e come il giapponese costituisca un tipo di lingua che presenta in

maniera ancora più forte un aspetto ‘sillabico’. Ciò confermerebbe, secondo Ramus et

al. (1999), come le diversità nel ritmo possano essere spiegate tramite la complessità

della struttura sillabica. Ci si può domandare, però, a cosa sia dovuto il fatto che una

lingua permetta una maggiore o minore complessità nelle sillabe e nei nessi, e se non sia

la scelta di una determinata configurazione ritmica, la quale stabilirebbe la durata delle

componenti d’occlusione e d’apertura.

(16)

Figura 2.2 Grafico %V, ΔV

Ιl parametro ΔV rappresenta la misura in cui gli intervalli vocalici variano nella durata,

ma non può essere interpretato in maniera altrettanto facile come gli altri. Molti fattori,

infatti, influiscono sulla durata delle vocali, come ad esempio, la riduzione vocalica

delle sillabe atone (in inglese e catalano), l’allungamento vocalico con valore

contrastivo (in olandese e giapponese), l’allungamento, prevedibile e, quindi, non

fonologicamente pertinente, in determinati contesti (in italiano) e, infine, il fatto che

alcune vocali abbiano una durata intrinseca maggiore, particolarmente in alcune lingue

(i dittonghi discendenti in inglese e le vocali nasali nel francese). Esso aggiunge,

tuttavia, qualcosa in più, mostrando, nel nostro caso, come il polacco si collochi a sé

rispetto alle altre lingue della presente ricerca. Disponendo le lingue in un grafico che

abbia %V come ascissa e ΔV come ordinata (Figura 2.2), si può notare un

raggruppamento abbastanza coeso di italiano, catalano, spagnolo e francese al centro,

inglese ed olandese, delle quali quest’ultima è più vicina al gruppo precedente, in alto a

sinistra, il giapponese in basso a destra e distante rispetto alle altre ed infine il polacco,

con una percentuale vocalica intermedia rispetto alle lingue germaniche e quelle

romanze ed una deviazione vocalica che è la più bassa delle lingue considerate, ad

occupare un’area che, si presume, potrebbe comprendere anche altre lingue slave.

(17)

Figura 2.3. Grafico ΔV, ΔC.

Come si vede dai risultati e dai grafici, si ottengono due gruppi, corrispondenti approssimativamente alle lingue accentuali e sillabiche: nel primo rientrano l’inglese e l’olandese e nel secondo l’italiano, il francese, lo spagnolo ed il catalano; il giapponese si colloca invece in disparte rispetto alle altre lingue, con risultati che portano all’estremo i tratti tipici delle lingue sillabiche, tranne che per il parametro ΔV, dove presenta risultati intermedi tra quelli delle lingue accentuali e quelli delle lingue sillabiche. Il polacco, invece, ha un comportamento non omogeneo: per i parametri %V e ΔC si raggruppa con le lingue accentuali, mentre per il parametro ΔV si raggruppa con le lingue sillabiche. Quest’ultimo parametro, come affermano gli autori, «suggests that there may be more to speech rhythm than just these distinctions; this variable, although correlated with the two others, rather emphasises differences between Polish and the other languages». Il risultato del polacco è anche concorde con quanto affermato precedentemente, essendo il polacco una lingua che presenta tratti intermedi: ha infatti sillabe complesse e, contemporaneamente, non riduce le sillabe atone. Il catalano, invece, nonostante sia anch’esso lingua intermedia, è stabile all’interno del gruppo delle lingue sillabiche.

Secondo Ramus et al., questi correlati, che essi individuano come indici del ritmo di una

lingua, vengono estratti statisticamente a livello mentale dalla catena fonica. Prima

questa verrebbe segmentata in intervalli vocalici e consonantici, poi verrebbero calcolati

i parametri %V, ΔC e ΔV; ogni insieme di risultati corrisponderebbe ad un diverso tipo

di ritmo.

(18)

2.3.2. Grabe & Low: i PVI (Pairwise Variability Indices)

Il modello di Grabe & Low (2002), già proposto in Low, Grabe & Nolan (2001), si basa sulla media delle differenze di durata tra intervalli adiacenti, vocalici e non-vocalici (escludendo le pause). In questo modello, gli autori misurano per prima cosa la durata delle vocali e la durata degli intervalli tra vocali, escludendo le pause: essi considerano quindi il parlato come un alternarsi d’intervalli vocalici e non-vocalici, cioè consonantici, non prendendo invece in considerazione le due unità ritmiche primarie, ossia la sillaba e l’accento. Tuttavia, essi si propongono di motivare le diversità ritmiche notate a livello impressionistico – e che Pike ed Abercrombie avevano motivato con l’ipotesi dell’isosillabismo/isoaccentualismo – partendo dalla metrica ritmica da loro proposta. L’algoritmo che essi hanno elaborato dà un indice, detto PVI (Pairwise Variability Index), sia per le vocali che per gli intervalli tra vocali, il quale esprime il livello di variabilità in misurazioni contigue d’intervalli vocalici e consonantici. Essi hanno elaborato due tipi di indice PVI: il raw Pairwise Variability Index (rPVI, formula (1)) ed il normalised Pairwise Variability Index (nPVI, formula (2)).

La formula del raw PVI è la seguente:

dove m è il numero degli intervalli, vocali o consonantici, nella parte di testo presa in considerazione, d la durata dell’intervallo k-esimo.

Nel normalised PVI, impiegato per le vocali, la differenza tra le durate di due intervalli vocalici viene divisa per la durata media degli intervalli, in modo da ridurre l’effetto della velocità d’eloquio. Il risultato dell’intera equazione viene poi moltiplicato per 100, dal momento che la divisione per la media delle durate degli intervalli dà risultati frazionali. La formula è la seguente.

Come nei correlati di Ramus et al., anche qui si considera solamente la distinzione tra

vocali e consonanti: la sillaba e l’accento sono, benché due elementi d’immediata

(19)

comprensione, piuttosto difficili da spiegare in maniera univoca e puramente fonetica (cfr. Bertinetto, 1981).

In diversi studi citati in Grabe & Low (2002), le autrici hanno applicato la metrica nPVI alle durate vocaliche, seguendo l’assunto secondo il quale le vocali costituiscono, almeno in inglese, il livello minimo della gerarchia prosodica. Le lingue sillabiche ed accentuali differiscono infatti per la diversa variabilità delle durate delle vocali, connessa sovente ad una variabilità nella qualità. Questo è ciò che si può vedere nel paragone tra francese e inglese, dove quest’ultimo ha sia vocali piene che ridotte, nel timbro e nella durata, mentre nel primo vi è una variabilità molto minore.

L’indice nPVI si propone proprio di rispecchiare questa differenza. Grabe & Low sostengono inoltre che la loro metrica descriva più accuratamente i ritmi e le loro diversità tra le lingue, rispetto ai correlati di Ramus et al. e prendono l’esempio di due possibili frasi, delle quali la prima presenta tre intervalli vocalici lunghi seguiti da tre brevi, mentre la seconda ha sempre i tre intervalli vocalici lunghi e tre brevi, ma alternati tra loro. Entrambe le frasi hanno il medesimo ΔV e, ammettendo un’eguale disposizione degli intervalli consonantici, il medesimo ΔC. Tuttavia, esse presentano diversi indici nPVI per le vocali, i quali mostrano come l’andamento del rapporto tra le durate sia diverso tra le due frasi.

Grabe & Low hanno anche impiegato l’indice PVI per misurare la variabilità degli intervalli intervocalici, in modo da includere la maggiore complessità sillabica delle lingue accentuali nella loro ricerca, e spiegare lo status di lingue intermedie come il polacco ed il catalano. Diversamente dagli intervalli vocalici, le due autrici hanno scelto di impiegare la versione rPVI, in quanto, nel caso degli intervalli intervocalici, non sarebbe solamente la velocità d’eloquio ad incidere (effetto da ridurre adottando l’indice nPVI), ma anche la complessità delle strutture sillabiche, che è invece un elemento del tutto rilevante per comprendere il ritmo di una lingua e, quindi, da non ridurre con l’altra versione del PVI.

Disponendo i risultati della ricerca effettuata su frasi campione di lingue accentuali,

sillabiche, isomorfiche, intermedie e non classificate (British English, tedesco, olandese,

spagnolo, francese, Singapore English, giapponese, tamil, polacco, catalano, gallese,

romeno, estone, lussemburghese, greco, mandarino, malesiano, tailandese) su un piano

con l’rPVI intervocalico in ascissa ed il nPVI (figura 2.4), si può vedere che non si

(20)

individuano delle categorie nette, ma è comunque possibile notare come le lingue accentuali si raggruppino in un’area con rPVI tra 55 e 80 ed un nPVI tra poco meno di 50 e 70, dove il polacco presenta il risultato più alto per l’rPVI (ciò non sorprende, in quanto è la lingua con la maggiore complessità nei nessi consonantici all’interno delle lingue considerate) ed il risultato minore, nelle lingue accentuali, per l’nPVI. Le lingue sillabiche occupano un’area più vasta, dove l’rPVI va da 30 a 70 (l’estone ha il risultato minore ed il catalano quello maggiore) e l’nPVI va da poco meno di 30 a poco meno di 50.

Figura 2.4. Grafico rPVI intervocalico, nPVI vocalico.

Grabe & Low hanno poi calcolato %V, ΔC e ΔV per le proprie frasi, rappresentando in un grafico ΔC e %V, corrispondenti al rPVI intervocalico ed al nPVI vocalico (figura 2.5):

(21)

Figura 2.5. Grafico

ΔC, %V

Nel grafico si nota che greco, olandese, lussemburghese, giapponese, gallese, Singapore English e tedesco si raggruppano in un’area con ΔC compreso tra 45 e 60 ed un %V attorno a 45; un altro gruppo, formato da spagnolo, tailandese, romeno, malay, francese ha un ΔC che va da 40 a circa 55 ed un %V di poco minore di 50 per malay e romeno e di poco maggiore per francese, tailandese e spagnolo (in queste lingue vocali e consonanti occupano pertanto la medesima quantità di tempo, approssimativamente);

polacco, British English e catalano, sebbene formino un gruppo non molto compatto, presentano un ΔC maggiore di 55 ed inferiore a 75 ed un %V minore di 45. Alcune lingue si collocano più distanti rispetto alle altre: il tamil ha un ΔC poco minore di 70 ed un %V di poco minore di 55; il mandarino ha un ΔC di circa 45 ed un %V poco maggiore di 55 (ed è quindi la lingua più ‘vocalica’); l’estone ha un ΔC poco maggiore di 30 – dunque bassissimo, presentando, così, la maggiore regolarità – ed un %V poco minore di 45.

Da un confronto della propria metrica ritmica con i correlati di Ramus et al. %V e ΔC (figura 2.6), si nota che non sempre ad un alto nPVI vocalico corrisponde un basso %V:

mentre infatti %V rappresenta semplicemente quanto tempo nell’ambito di una frase

viene occupato dalle vocali, l’nPVI vocalico rappresenta la media delle deviazioni degli

intervalli. Possono pertanto esistere delle lingue in cui alle vocali è dedicata un’ampia

parte dell’enunciato, ma nelle quali esse formano degli intervalli costanti. Tuttavia,

nella maggior parte delle lingue %V e nPVI concordano nel crescere o diminuire: ciò

significa che una lingua con una maggiore complessità degli incontri consonantici, con

(22)

il loro aumentare, toglie probabilmente del tempo alle vocali per fare loro spazio, e ciò può rendere chiaramente più bassa la %V e più alto il nPVI.

Figura 2.6. Confronto tra %V e nPVI vocalico.

2.3.3. Dellwo: i Varco.

Essendo %V e ΔC metriche temporali, la velocità deve avere un forte impatto; Barry et al. (2003, in Dellwo, 2003) e Dellwo & Wagner (2003) hanno notato che esse hanno una correlazione negativa con la velocità. Barry et al. (2003) hanno notato ciò anche per ΔV.

Dal momento che nel parlato veloce è probabile che gli intervalli consonantici abbiano durata minore che nel parlato lento, ciò può avere un effetto diretto sul modo in cui le durate variano a livello assoluto: intervalli minori hanno una variazione assoluta minore, intervalli maggiori una deviazione assoluta maggiore. Dal momento che il ΔC è la deviazione standard assoluta degli intervalli consonantici, si possono attendere valori più bassi nel parlato veloce che in quello lento.

Pertanto, per potere comparare le variazioni in diverse velocità, è importante comparare la variazione relativa con la norma, piuttosto che con la deviazione assoluta. Dellwo propone così l’impiego di un variation coefficient (Varco) che colga la variazione relativa: tra i diversi coefficienti possibili, egli propone la percentuale del rapporto tra ΔC e la durata media degli intervalli consonantici (meanC):

dove C è la durata di un intervallo consonantico. Il Varco calcola così percentualmente

il ‘peso’ della deviazione sulla durata dell’intervallo, permettendo di comparare velocità

(23)

diverse. Per ogni lingua inclusa nella ricerca (tedesco, inglese, francese ed italiano), le frasi sono state suddivise secondo la velocità, considerata come numero di sillabe al secondo, ottenendo i gruppi ‘molto lento’ (s2), ‘lento’ (s1), normale (no), veloce (f1) e

‘più veloce possibile’ (f2) All’interno di ciascuna velocità, il numero di sillabe per secondo è il più alto per il francese ed il più basso per il tedesco, mentre l’inglese occupa una posizione intermedia, ma più vicina al tedesco. Aumentando il numero di sillabe per secondo cresce anche il ΔC.

Da Dellwo (2003) risulta che, considerando francese, inglese e tedesco, la durata media delle sillabe decresce e che, parallelamente, decresce anche la durata degli intervalli formati da consonanti. Ciò non è una cosa di per sé ovvia, poiché è anche possibile che una lingua riduca esclusivamente le vocali. Il ridurre vocali e consonanti in maniera più o meno equilibrata è, peraltro, un tratto che distingue i diversi tipi di ritmo, dove le lingue sillabiche riducono, a maggiori velocità, in maniera più o meno parallela vocali e consonanti, mentre quelle accentuali riducono maggiormente le vocali. Dalle ricerche di Dellwo & Wagner (2003) e Dellwo (2006) risulta che il %V rimane più o meno costante nelle tre lingue; per il coefficiente VarcoΔC, si nota un distacco maggiore tra tedesco ed inglese (lingue accentuali) e francese, considerando le velocità, di quanto non si vedesse per il ΔC, dove a velocità maggiori il tedesco e l’inglese si andavano a sovrapporre al francese. Nel grafico (figura 2.7) sono rappresentati i %V ed i Varco per le classi di velocità delle tre lingue. Come si può vedere, le lingue vanno a disporsi in parti diverse del piano e quelle accentuali occupano un’area più ampia: in esse la velocità è pertanto un fattore più importante, se paragonate all’altro gruppo, nel determinare le variazioni nelle durate; si nota inoltre che a velocità maggiori, il tedesco si muove verso il tipo sillabico.

(24)

Figura 2.7. %V, VarcoC.

2.3.4. Rouas & Farinas

L’approccio di Rouas & Farinas (2004) parte da un’unità prosodica che essi chiamano

‘pseudosillaba’, in cui viene suddiviso l’enunciato, dopo che, tramite un programma informatico, i segmenti sono stati etichettati in maniera automatica come vocali o consonanti. Le pseudosillabe sono composte da una parte consonantica, seguita da una parte vocalica; esse possono non contenere la parte consonantica, ma non terminano mai in consonante. Le pseudosillabe, chiaramente, corrispondono solamente alcune volte alle sillabe stabilite dalla grammatica e riconoscibili prosodicamente; tuttavia, si può dire che corrispondano ad un’idea prototipica di sillaba, che è composta, come affermato precedentemente, da un momento occlusivo (la o le consonanti) e da un momento d’apertura (la o le vocali). Il modello di Rouas & Farinas considera quindi solamente sillabe prive di coda, includendo quest’ultima, quando è presente, nell’attacco della sillaba che segue.

Dall’enunciato etichettato e suddiviso vengono poi ottenuti per ogni pseudosillaba tre indici:

- D

c

, la durata totale della parte consonantica;

- D

v

, la durata totale della parte vocalica;

- Nc, la complessità, rappresentata del numero di segmenti consonantici.

(25)

Le durate sono espresse in millisecondi. La particolarità del modello di Rouas &

Farinas è quella di considerare non l’ambito della frase, che può risultare troppo ampio per comprendere certi aspetti del ritmo, ma quello delle singole pseudosillabe. I risultati della ricerca decritta in Rouas & Farinas (2004), che considera frasi in sette lingue (inglese, tedesco, mandarino, francese, italiano, spagnolo, giapponese), sono stati disposti in un piano avente sull’asse delle ascisse D

c

e sull’asse delle ordinate D

v

(figura 2.8) ed in un piano avente D

c

sull’asse delle ascisse ed N

c

sull’asse delle ordinate (figura 2.9). Combinando a coppie i parametri, risulta quindi nel piano D

c

/D

v

un gruppo comprendente tedesco, mandarino, inglese, giapponese e (stranamente) italiano, con durate consonantiche medie e durate vocaliche alte, ed un gruppo comprendente spagnolo e francese con durate vocaliche basse e con durate consonantiche che sono, all’interno del gruppo, la più bassa per lo spagnolo e la più alta per il francese. Nel piano Dc/Nc, le diverse lingue si dispongono in maniera analoga, ma con una maggiore dispersione e con il giapponese in posizione intermedia.

Osservando gli indici di Rouas & Farinas, pare quindi che siano rilevanti per distinguere le classi ritmiche i parametri della durata vocalica e del numero di consonanti per pseudosillaba: le lingue accentuali avrebbero una componente vocalica più prominente all’interno delle unità prosodiche, come anche, in media, un maggior numero di consonanti. Le lingue accentuali, tuttavia, manifestano una durata della componente

       

Figura 2.8. Grafico DC,DV. Figura 2.9. Grafico DC,NC.

(26)

consonantica che è intermedia tra due lingue sillabiche, lo spagnolo ed il francese. Ciò può significare che le lingue accentuali comprimono maggiormente i segmenti consonantici rispetto a quelle sillabiche, ottenendo un durata complessiva della componente consonantica più o meno come quella di quest’ultime, quando invece, senza compressione, la componente consonantica avrebbe una durata maggiore.

Tra gli obiettivi primari di Rouas e Farinas vi è la ricerca di un algoritmo tramite il quale sia possibile identificare automaticamente, per mezzo di un programma informatico, una lingua, distinguendola dalle altre. Applicando così i Delta di Ramus et al., i PVI di Grabe & Low ed i propri indici, Rouas & Farinas hanno mostrato che, nell’ambito delle lingue che essi avevano considerato, questi ultimi hanno dato i risultati migliori, sebbene ancora lontani dall’essere capaci di riuscire a distinguere con una certa sicurezza all’interno di questo numero molto ridotto di lingue.

2.3.5. Bertinetto & Bertini: l’indice CCI.

L’idea dalla quale è stato sviluppato il modello di Bertinetto & Bertini (2008a; 2008b;

2010) si rifà agli studi sulla compensazione, effettuati dapprima sullo svedese da Lindblom e collaboratori (si veda Lindblom & Rapp, 1973; Lindblom et al., 1981, in Bertinetto, 1989: 113), e sulla coarticolazione delle formanti, portati avanti, in un’ottica soprattutto psicolinguistica, nell’ambito della Action Theory da Carol Ann Fowler (si veda Fowler, 1977; Bertinetto & Fowler, 1989): le lingue si possono distinguere secondo il modo in cui esse combinano gesti consonantici e vocalici nella catena articolatoria.

Secondo quanto Bertinetto & Vékás (1991) propongono, determinati comportamenti

fonetici e caratteristiche fonologiche delle singole lingue – già considerati in Bertinetto

(1981 e 1989) e Dauer (1983) – convergerebbero in due tipi ritmici. È possibile, quindi,

distinguere due tipi di lingue, corrispondenti a due diversi modi in cui i momenti

consonantici e vocalici vengono combinati: le lingue ‘a controllo’, nelle quali ogni

segmento riceverebbe la medesima quantità d’energia articolatoria, e che tenderebbero

ad avere la medesima durata, e le lingue ‘a compensazione’, dove alcuni segmenti

riceverebbero un maggiore risalto e risulterebbero prominenti rispetto agli altri, con i

quali in parte si sovrapporrebbero. Le lingue a controllo corrispondono alle lingue

sillabiche e le lingue a compensazione a quelle accentuali. Quanto alle lingue a

(27)

controllo, è da precisare che esse sono un tipo di per sé astratto, e che in realtà non esistono lingue dove tutti i segmenti ricevano ciascuno la medesima quantità d’energia ed abbiano la medesima durata, prima di tutto a causa del fatto che i luoghi d’articolazione sono diversi e nel parlato i numerosi percorsi che gli organi compiono per passare da una configurazione all’altra non sono omogenei. Inoltre, come si è visto nel capitolo precedente, l’accento e la sintassi fanno sì che alcuni segmenti risultino prominenti. Tuttavia, vi è una diversità nel modo in cui i parlanti di diverse lingue trattano i foni nel giustapporli durante la produzione degli enunciati. Alcune lingue infatti hanno un maggiore livello di coarticolazione rispetto ad altre, e ciò vale a dire che determinati tratti fonetici di un segmento vengono estesi anche a quelli adiacenti, per una questione d’economia linguistica. Il fenomeno che viene descritto dall’ipotesi controllo/compensazione è quindi quello del comportamento fonotattico, il quale avrebbe effetto sul livello superiore dell’alternanza accentuale.

Secondo O’Dell & Nieminen (1999) e Barbosa (2006) è possibile distinguere due oscillatori, sillabico ed accentuale, i quali interagiscono in una maniera che è descrivibile tramite l’algoritmo seguente :

I = a + bn

dove I rappresenta la durata totale dell’intervallo accentuale, n è il numero di sillabe nell’intervallo accentuale e a e b coefficienti determinati empiricamente. Il modello ad oscillatori accoppiati stabilisce anche che il termine costante a sia maggiore di zero.

Il modello del controllo/compensazione riguarderebbe quindi l’oscillatore sillabico. La sillaba, nel modello proposto da Bertinetto & Bertini (2008b), costituisce il più basso tra i due livelli tramite i quali essi descrivono il ritmo della lingua: in questo livello interagiscono gli oscillatori consonantico e vocalico. Nel livello superiore, quello discorsivo, interagiscono invece gli oscillatori accentuale e sillabico. Come si può vedere, gli elementi che sono compresi nel ritmo delle lingue naturali si fanno più numerosi ed il quadro risulta più articolato.

Produrre un enunciato è un’azione ritmica, per il fatto che consiste nell’accoppiare i

gesti articolatori di due oscillatori su due livelli: nella formazione della sillaba, parlare

consiste nell’accoppiare un oscillatore consonantico ed uno vocalico, e nell’ambito più

ampio del discorso consiste nel disporre le sillabe e gli accenti (ossia la prominenza

d’alcune delle prime sulle altre). Obiettivo di Bertinetto & Bertini è descrivere il livello

(28)

sillabico e, poiché il ritmo consiste nel ripetersi regolare di un qualche cosa, il ritmo di una lingua corrisponderebbe così al modo in cui i diversi momenti consonantici e i diversi momenti vocalici si avvicendano, ognuno a quello seguente.

Il modello di Bertinetto & Bertini (2008a; 2008b; 2009) mira così a raggruppare le lingue partendo dalla maniera in cui esse concatenano gesti consonantici e gesti vocalici, considerando anche il numero di segmenti in ciascun intervallo. Ciò, benché già considerato nel modello di Rouas & Farinas (2004), costituisce una novità nei modelli del ritmo. Inoltre, nella proposta di Bertinetto & Bertini, le vocali in sinalefe vengono considerate come segmenti di un unico intervallo, mentre in quella di Rouas &

Farinas ogni vocale è nucleo di una pseudosillaba; le due teorie trattano diversamente i singoli segmenti anche per il fatto che il modello di Rouas & Farinas è statico, e fa una media del numero di consonanti di tutte le pseudosillabe della frase, quando invece il modello Bertinetto & Bertini è dinamico, poiché considera la fluttuazione del rapporto tra durata dell’intervallo e numero di segmenti che esso comprende. Il modello di Bertinetto & Bertini desidera dunque raggruppare le lingue tramite un algoritmo che le collochi in un piano che abbia sull’asse delle ascisse la fluttuazione della durata delle singole vocali e sull’asse delle ordinate la fluttuazione della durata delle singole consonanti. Le due coordinate rappresentano l’indice di controllo/compensazione (Control/Compensation Index, CCI) per le vocali e per le consonanti: esso è maggiore quanto maggiormente variano i singoli segmenti.

Dal momento che empiricamente si nota che nelle lingue sillabiche/a controllo le vocali

resistono maggiormente a processi d’accorciamento e centralizzazione (si veda, ad

esempio, Dauer (1983:58)), ed allo stesso tempo, soprattutto con l’aumentare della

velocità d’eloquio, sono eventualmente le consonanti a subire processi erosivi, o

entrambe le categorie di suoni in maniera omogenea, l’attesa è che le lingue sillabiche/a

controllo abbiano un indice CCI maggiore per le consonanti che per le vocali, o più

facilmente, che l’indice CCI per le consonanti sia più o meno eguale a quello per le

vocali. Parallelamente, l’indice CCI sarà maggiore per le vocali nelle lingue accentuali/a

compensazione. Disponendo in un piano che abbia come asse delle ascisse la variazione

delle vocali e sull’asse delle ordinate quella delle consonanti (figura 2.10), le lingue a

controllo si verranno a trovare attorno alla bisettrice del piano, mentre quelle a

compensazione nella parte inferiore. La parte prossima all’asse delle ordinate ci si

(29)

aspetta che non venga occupata da nessuna lingua, in quanto non è ritenuto plausibile che vi siano lingue che comprimano molto poco le vocali – o nelle quali la durata delle consonanti si mantenga regolare – e che parallelamente abbiano un’elevata irregolarità nella durata delle consonanti.

Figura 2.10. Le aree occupate dalle tipologie ritmiche del modello CC.

Per assegnare una collocazione precisa alle lingue, Bertinetto & Bertini hanno così elaborato un algoritmo per calcolare le coordinate per gli intervalli consonantici e vocalici, detto Indice di Controllo e Compensazione (Control and Compensation Index, CCI), ottenuto tramite il seguente algoritmo:

dove m è il numero di intervalli (consonantici o vocalici), d la durata dell’intervallo ed n

il numero di segmenti compresi nell’intervallo. Praticamente, l’indice CCI rappresenta

la media delle variazioni tra intervalli consecutivi, divisi per il numero di segmenti che

li compongono; in altre parole esso esprime quanto varia mediamente la durata dei

singoli segmenti. Maggiore è la varietà nelle durate, più alto è l’indice CCI e, di

conseguenza, particolarmente per le vocali, il livello di compensazione. È da notare che

per numero di segmenti che compongono l’intervallo si intendono i targets a livello

mentale: viene così a far parte di questo modello del ritmo, ancora più che negli altri, il

(30)

momento in cui, nella mente, la frase viene costruita e i segmenti vengono concatenati.

Nel modello CCI, come anche negli altri sopra descritti, non si è considerato il fatto che i segmenti ricevono una durata relativa, dipendente dalla sintassi e dalla loro collocazione all’interno della parola, già nella costruzione della frase: nel corso dell’applicazione della formula all’italiano, Bertinetto & Bertini (2008a; 2009; 2010) hanno visto infatti che la struttura della frase, come anche la velocità non sono rilevanti ai fini dell’assegnazione alla lingua di un punto nel piano.

Poiché le lingue a controllo, idealmente, danno tutte la medesima energia articolatoria ad ogni segmento, e quindi la medesima durata, una lingua di questo tipo, in teoria, avrebbe l’indice CCI, sia per le consonanti che per le vocali, pari a 0, mentre per le lingue a compensazione le differenze dei rapporti tra durate degli intervalli e segmenti sarebbero maggiori, e di conseguenza anche l’indice. Tuttavia, non vi sono lingue completamente a controllo ed un certo grado di compensazione è presente in tutte: ci si domanda allora quale sia il confine tra le lingue a controllo e quelle a compensazione.

Questo non è stato per ora individuato precisamente e, probabilmente, non è neppure possibile.

L’indice CCI è stato applicato da Bertinetto & Bertini dapprima per l’italiano, impiegando un corpus di parlato semi-spontaneo, nella varietà toscana del pisano.

Bertinetto & Bertini (2009) sollevano un problema che per il momento era stato messo da parte nei recenti studi sul ritmo, ovvero quello della sillaba. Questa struttura prosodica, infatti, non era stata praticamente considerata negli ultimi modelli, rivolti maggiormente alla ricerca di correlati acustici. La sillaba costituisce da una parte una struttura d’immediata comprensione, che non richiede d’essere esperti linguisti per venire delimitata all’interno della catena parlata, ma contemporaneamente è assai difficile da definire in maniera esatta. Ciò vale soprattutto per le lingue accentuali, a causa della maggiore complessità delle sillabe ammesse, che fanno sì che spesso si formino intervalli costituiti da un numero piuttosto elevato di consonanti.

Bertinetto & Bertini (2009) hanno così impiegato l’indice CCI distinguendo tra le consonanti in attacco e quelle in coda nell’italiano, per vedere se vi fosse un diverso trattamento delle consonanti a seconda della parte della sillaba che esse occupano.

Infatti, se da una parte la coda di una sillaba e l’attacco di quella seguente fanno parte

(31)

del medesimo intervallo consonantico, è anche vero che, considerando il diagramma ad albero che rappresenta la sillaba, avrebbe più senso associare la coda all’intervallo vocalico, essendo questo il nucleo della sillaba. Questo richiamerebbe, a mio avviso, il modello di Grabe & Low, dove piuttosto che vocali e consonanti si preferisce distinguere intervalli vocalici e intervalli tra vocali: vocali e consonanti non sarebbero alla pari, ma verrebbero prima riconosciute le vocali in quanto nuclei di sillaba, poi gli intervalli che separano tra loro i nuclei delle diverse sillabe. Tranne nel caso delle sinalefe, infatti, il numero delle sillabe equivale a quello delle vocali, e le consonanti possono essere ripartite tra quelle che seguono e quelle che precedono il nucleo della sillaba. Il problema è, tuttavia, quello d’individuare il confine tra questi due tipi di consonanti, quando queste condividono il medesimo intervallo, cioè nei casi in cui una sillaba ‘coperta’, ossia con almeno una consonante in attacco, sia preceduta da una

‘chiusa’, con almeno una consonante in coda. Infatti, quando in coda vi sia un’occlusiva, può questa essere considerata ancora parte della rima della prima sillaba, o è più corretto, prosodicamente, includerla nell’attacco della seconda? La gerarchia di sonorità può offrire un aiuto, almeno per alcune lingue: l’attacco di una sillaba comincia nel punto di minima sonorità. Questo non è comunque uno strumento sempre valido, in quanto in alcune lingue, come il tedesco, la divisione in sillabe dipende fortemente dalla morfologia.

Considerando questa divisione dipendente dalla struttura sillabica, ci si attende che le

lingue sillabiche/CTL presentino indici CCI per l’attacco e CCI per la coda vicini tra

loro, in quanto ogni segmento riceve (idealmente) la medesima quantità d’energia nel

venire articolato. Per quanto riguarda le lingue accentuali/CPS, è un po’ più difficile

formulare delle aspettative, sia per la maggiore difficoltà che vi è nello scandire in

sillabe le parole che per il fatto che queste lingue riducono e coarticolano maggiormente

i segmenti. Impiegare due indici diversi per le consonanti può altresì essere uno

strumento per vedere se una lingua accentuale riduca e sovrapponga i segmenti

maggiormente nell’attacco o nella coda. A mio avviso, è più facile che siano sottoposti

ad una maggiore coarticolazione i segmenti della coda, essendo questa la parte della

sillaba che spesso rimane vuota e dove i segmenti sono soggetti maggiormente a

processi assimilativi (come la perdita di sonorità quando nell’attacco della consonante

che segue vi sia una consonante sorda).

Riferimenti

Documenti correlati

«le regalie e le vostre consuetudini sia nella città, sia nel territorio extra-urba- no”, ricordando espressamente sia i beni (boschi e pascoli, ponti, acque e mulini), sia i

Una versione non cinica degli ultimi 200.000 anni di storia umana, dimostran- do che siamo fatti per la gentilez- za e che siamo predisposti alla cooperazione molto più che

Questa pagina può essere fotocopiata esclusivamente per uso didattico - © Loescher Editore..

ORGANO SUBCOMMESSURALE: cellule ependimali neurosecretorie rilascio di vari neuropeptidi nel liquido cefalorachidiano..

Analogamente, per trattare un sistema che pu` o scambiare particelle con un serbatoio, consideriamo il sistema complessivo, comprendente anche il serbatoio, come un sistema chiuso

L’influenza del diritto dell’Unione Europea sul diritto penale sostanziale italiano, tra esigenze di armonizzazione e contro-limiti alla prevalenza del diritto

The molecule can be represented by using different encoding approaches, such as, the selection of physical-chemical, geometrical, and electronic properties, the calculation

Durante i numerosi sopralluoghi effettuati sia in occasione dei rilievi della rete che durante alcuni eventi meteorici, oltre che dalla verifica della rete con il metodo