Il ritmo e la lingua naturale

(1)

1. Il ritmo e la lingua naturale

1.1. Il concetto di ‘ritmo’

Il termine ‘ritmo’ deriva dal greco rhythmós ‘movimento che ricorre regolarmente’ e viene impiegato per definire uno sviluppo temporale che si ripete con una qualche forma di regolarità. Esso può essere dunque una proprietà di un processo fisico, di un’azione, di un’esperienza o di un segnale acustico, includendo in quest’ultimo tutto quanto riguarda la musica ed il parlato.

Il ritmo consiste dunque in una regolarità e riguarda la dimensione temporale della realtà, ma, per una sorta di metafora concettuale in cui il dominio dello spazio viene trattato come il tempo, si può anche parlare del ritmo a livello spaziale, dicendo ad esempio che un’architettura ha un certo ritmo. Si può interpretare il ritmo spaziale anche come una metonimia, dove il ritmo è una proprietà del processo percettivo visivo di ciò che ha un’estensione spaziale.

Il ritmo è un concetto quanto mai pervasivo nell’esperienza quotidiana, anche se spesso

è piuttosto difficile da definire in maniera chiara. Esso è tipico della fisiologia animale

ed umana, in quanto vi è un ricorrere regolare nel battito del cuore, nel respirare, nel

camminare; inoltre, un ricorrere regolare è presente anche nella natura, ad esempio

nell’alternarsi del giorno e della notte, delle stagioni, nelle fasi lunari e nel ripetersi di

questi periodi secondo cadenze regolari, che individuano unità temporali all’interno

delle quali va ad inserirsi l’irripetibilità d’ogni singolo momento. Si vede quindi che

l’uomo (come anche gli animali) sperimenta continuamente la ritmicità già a partire

dalla sua vita biologica e dall’ambiente naturale; la ritmicità diventa così per l’uomo

uno strumento per comprendere ciò che gli accade dintorno, sovrapponendo alla realtà

caotica una griglia, delle coordinate tramite le quali orientarsi. Il ritmo svolge dunque

(2)

un ruolo importante, a livello di comprensione del mondo circostante, a livello percettivo, come anche nell’ambito delle diverse azioni che possono venire compiute.

Il ritmo guida colui che percepisce a segmentare ciò che viene percepito in parti regolari, più facili da assimilare, quando, d’altra parte, un aspetto della realtà privo di una qualche regolarità risulta meno comprensibile. La ritmicità costituisce allora una via d’accesso alla multiformità della realtà. Parallelamente, la ritmicità è anche una proprietà che può rientrare tra quelle di un gesto, di un’attività, e quest’ultima viene così compiuta con una maggiore facilità, in quanto i singoli gesti che compongono una determinata attività vengono raggruppati in parti più semplici.

La ritmicità è inoltre un aspetto quantomai rilevante per quello che riguarda la bellezza, dal momento che ciò che è dotato di questa proprietà risulta esteticamente più gradevole di ciò che ne è privo. Questo fatto è probabilmente collegato alla maggiore comprensibilità; inoltre, come afferma anche Kohler (2009b), per quanto riguarda il ritmo della lingua, percependo una regolarità si formano, tramite questa stessa regolarità, delle attese che, nel caso di una ritmicità stabile, verranno corrisposte, generando soddisfazione. La ritmicità risulterebbe gradevole, quindi, per il fatto che dà una conferma a delle attese che l’uomo si forma e dà, pertanto, sicurezza all’interno di un contesto più o meno precario.

Una prospettiva interessante proviene da Cummins (2009), il quale definisce il ritmo come ‘affordance for the entrainment of movement’. Secondo questa definizione non vi sarebbe pertanto ritmicità al di fuori della possibilità di movimento, e ciò implica l’embodiment del ritmo della lingua, come viene peraltro proposto anche nel paradigma cognitivo per molti aspetti della lingua

¹

(Cummins 2009: 16). Quest’ultima è infatti, nella teoria cognitiva, qualcosa che è calato profondamente nella corporeità umana, e le sue strutture, a diversi livelli, possono essere comprese collegandole con attività umane non linguistiche. Il ritmo permetterebbe allora, secondo Cummins, di collegare il proprio movimento ad uno o più impulsi che provengono dall’esterno: il ritmo non sarebbe una proprietà dell’impulso in sé, e neppure del movimento, bensì quello che egli definisce come un’affordance. Questa espressione risale a James J. Gibson (1979, in Cummins 2009: 17) ed all’approccio alla percezione ed all’azione detto ‘psicologia

1 Per il paradigma cognitivo si rimanda a Croft & Cruse (2004).

(3)

ecologica’, che si propone di definire in una maniera diversa rispetto a quella abituale il rapporto tra un organismo ed il suo ambiente. Le affordances sono dunque, come vengono definite da Chemero (2003, in Cummins 2009:17), ‘relations between the abilities of organisms and features of the environment’. Una affordance non è, però, una delle diverse proprietà che un oggetto ha, bensì una possibilità d’agire riguardante questo oggetto, vale a dire ciò che un organismo può compiere con questo oggetto.

Così, ad esempio, un libro, solo per elencare alcune proprietà, è cartaceo, con un certo volume e leggibile: quest’ultima proprietà, però, costituisce ciò che una persona può compiere con questo oggetto, cioè leggere; un libro non avrà invece questa affordance per un gatto od altri animali, e ne avrà, eventualmente, delle altre. Una affordance è dunque ciò che un organismo può permettersi (inglese to afford) di fare con un certo oggetto.

Nell’ottica di Cummins, il ritmo è un elemento prettamente relazionale: tra un soggetto ed un altro (od altri) e tra un soggetto e l’ambiente circostante. Ciò che si relaziona sono i movimenti di ciascuna delle parti: la ritmicità ha senso proprio nell’accordare i movimenti delle due parti che interagiscono, che possono essere chiamate ‘oscillatori’.

Quando due oscillatori vengono accoppiati si forma un sistema in cui vi è una reciproca limitazione e contemporaneamente la riduzione della complessità propria delle due parti, le quali, tramite il convergere del proprio movimento oscillatorio verso periodi che tra di loro siano in un rapporto numerico semplice, ad esempio 1, 0,5, 1/3, detto

‘attrattore’, danno luogo ad un movimento complesso, in cui i due (o più) oscillatori si comportano come parti di un unico organismo. L’immagine seguente, tratta da O’Dell

& Nieminen (2001), mostra l’interazione di due oscillatori, dove l’influsso che ciascuno esercita sull’altro dipende dalla loro differenza di fase e da una parametro r, che esprime la forza relativa dell’influenza di accoppiamento in direzioni opposte.

Sono state definite allora delle formule per spiegare la stabilità del periodo

dell’oscillazione accoppiata come una funzione della differenza delle fasi con cui si

(4)

muovono i due oscillatori semplici: come si è visto sopra, l’oscillazione accoppiata può essere descritta in questo modo più semplicemente e pertanto anche l’equazione potenziale che la rappresenta è più semplice e può essere derivata dall’insieme, più complesso, di formule con cui sono spiegate le oscillazioni singole.

Gli oscillatori accoppiati sono stati impiegati per modelli del ritmo linguistico da Barbosa & Madureira (1999), da Saltzman & Byrd (1999) e da O’Dell & Nieminen (1999;2001). Nella lingua, infatti, come nota Cummins (2009: 22-26), è osservabile un entrainment of movements quando più persone parlano contemporaneamente, ed i singoli parlanti modellano inconsciamente il proprio ritmo facendolo convergere verso un’oscillazione che sia comune per tutti. Inoltre, più ritmi possono convergere all’interno della medesima frase e nel singolo parlante, in quanto sono diverse le strutture all’interno della lingua che possono formare una ritmicità: l’entrainment è ciò che connette i diversi ritmi parziali e li riunisce in un unico ritmo complessivo dell’enunciato.

1.2. La musicalità

Un ambito dell’attività umana in cui il ritmo svolge un ruolo indispensabile è la musica.

Questa impiega, come la lingua, i suoni, ovvero le ‘note’, che sono costituite ciascuna da un preciso tono, durata ed intensità, le quali ricorrono secondo forme più o meno regolari e con schemi variamente complessi. Diversamente dalle attività comuni, ed anche dalla comunicazione linguistica, nella musica l’aspetto estetico è essenziale: una musica priva di qualsiasi ritmicità non sarebbe tale.

Un’altra attività tipicamente ritmica è la danza, dove i movimenti di uno o più individui vengono coordinati da una serie di impulsi, che seguono un preciso schema, ovvero, un preciso ritmo. In questo caso il ritmo corrisponde ad una proprietà del segnale (ad esempio il suono di strumenti) che permette a coloro che lo ricevono di coordinare i movimenti, tra di loro e con lo stesso segnale. È quindi questo l’esempio più tipico dell’entrainment of movement descritto da Cummins (2009).

Il ritmo della musica e quello della danza sono costruiti a partire da prominenze che

ricorrono regolarmente, ad esempio note o battiti più intensi, o che si avvicendano

secondo diversi livelli d’intensità. Quest’ultima non è, tuttavia, l’unico parametro che

può rendere un suono prominente: anche il tono può rendere, all’interno di un testo

(5)

musicale, una nota prominente rispetto alle altre. Un altro parametro è la durata: ogni suono ha un durata stabilita, mentre, per quanto riguarda le percussioni, ogni battito è ad una distanza precisa, in termini di tempo, dall’altro. Come si avrà modo di vedere per le lingue naturali, vi è un’interazione stretta tra il ritmo e la struttura temporale:

quest’ultima costituisce infatti il terreno su cui è possibile ‘costruire’ una struttura ritmica, la quale può impiegare, però, anche altri parametri.

I primi tipi di strumenti musicali pare siano state le percussioni, dove il ritmo dipende dal tempo che intercorre tra un battito e l’altro e dalle intensità, con le quali è possibile dare luogo a delle prominenze. Si formano così due tipi di ritmi, collocati su livelli gerarchici diversi: un primo tipo, tramite il ricorrere di precise durate (tra un battito e l’altro) e un secondo tipo, tramite il ricorrere di battiti prominenti, i quali individuano ciascuno un gruppo di battiti di minore intensità, e, quindi, una parte del brano con una certa durata.

Si nota come, nel canto gregoriano, il ritmo è denotato da una durata per lo più costante delle note, e, nel caso, particolarmente nello stile sillabico, vi sia uno iato, oppure dove la nota corrisponda solamente ad una vocale, particolarmente nello stile detto

‘melismatico’

²

, questa viene preceduta, per fini stilistici, da una specie d’aspirazione.

Ad esempio, nella parola beati, composta dalle sillabe be-a-ti, vi è un’aspirazione prima della seconda vocale, e la parola viene pronunciata [be.

^h

a.ti]

³

. Ciò si può interpretare paragonando l’attacco delle sillabe al battito degli strumenti a percussione e la rima al tempo tra un battito e l’altro. Inoltre, cantando, la durata di alcune consonanti in attacco di sillaba viene allungata: si può supporre che ciò avvenga per mantenere una durata ed un’intensità stabili. Vi è inoltre anche un altro ritmo, formato dagli accenti delle parole del testo, che generalmente ricorrono in maniera di solito regolare, e, dal momento che le sillabe corrispondono a note d’eguale durata, è di solito regolare anche il tempo tra un accento e l’altro.

Nella musica moderna occidentale il testo musicale è costruito, per quanto riguarda la struttura temporale, a partire dalle battute, di durata costante, ciascuna con un accento primario ed uno secondario nel ritmo quaternario (in quarti o multipli), oppure un

2 Lo stile detto ‘sillabico’ si distingue da quello ‘melismatico’ per il fatto che, nel primo, ad ogni sillaba corrisponde generalmente una nota, ed è pertanto più semplice, rispetto al canto gregoriano melismatico, dove ad una sillaba corrispondono più note.

(6)

accento nel ritmo ternario (in terzi, o con accenti secondari, nei multipli). Si vede quindi come il ritmo predominante sia quello del livello degli accenti. Le note presentano durate diverse: è possibile, però, molte volte, individuare delle strutture ricorrenti formate da note di diverse durate, come si può notare rappresentando una curva delle durate in un piano che abbia come ascissa le singole note nell’ordine in cui compaiono e come ordinata le durate che queste possono assumere. In molti brani si potrà ripetere una medesima forma della curva, che rappresenterà un tipo di ritmicità nell’ambito della durata, e ciò potrà permettere anche di distinguere diversi tipi di ritmi.

1.3. Il ritmo nella lingua

La lingua naturale è un sistema di segni di tipo fonetico, che ha il fine di permettere agli esseri umani di comunicare tra loro ed ha in comune con la musica numerosi aspetti, in quanto come quest’ultima produce testi (e si noti l’origine della parola dal latino TEXTUM ‘tessuto’) tramite il porre uno dopo l’altro diversi suoni. La lingua è pertanto dotata di una musicalità, la quale si può presupporre che sia servita, assieme ad altri aspetti della natura, da punto di partenza per la nascita della musica vera e propria. La musicalità della lingua è detta prosodia (dal greco pros ‘avanti’ e odé ‘canto’

⁴

) ed è formata dal contributo di diversi fattori:

- il timbro del suono, che può essere paragonato al tipo di strumento impiegato;

- l’intonazione, prodotta dal diverso livello di tensione delle pliche vocali, che producono un’onda acustica con una determinata frequenza;

- l’intensità, determinata dall’energia con la quale viene articolato un suono, derivante dalla pressione dell’aria polmonare e dalla tensione degli organi;

- la durata di ciascun segmento.

La prosodia si può chiamare anche fonetica e fonologia soprasegmentale, in quanto riguarda gli aspetti del linguaggio che non si limitano ai singoli suoni, o segmenti, ma che riguardano parti più ampie, dove le proprietà delle strutture che la prosodia individua sono dovute anche a come interagiscono i segmenti. Le strutture soprasegmentali sono pertanto dipendenti dalle strutture segmentali che le compongono, ma, contemporaneamente, le determinano: ad esempio, una sillaba può avere una durata

4 Si nota che il termine latino accentus è un calco di prosodia, derivando da ad ‘a’ e cantus ‘canto’.

(7)

che è dipendente dai segmenti che la compongono, ma gli stessi segmenti possono essere ridotti od allungati a causa del posto che occupano all’interno della sillaba.

Le strutture primarie individuate in questo ambito della fonetica sono la sillaba e l’accento. Benché siano entrambe concetti comuni e di immediata comprensione, non è possibile definirli in maniera univoca

⁵

. Si può comunque affermare che la sillaba è un’unità che permette una suddivisione a livello ritmico della frase e l’accento consiste nella prominenza di una determinata sillaba su quelle circostanti, che può venire effettuata, a seconda della lingua, primariamente tramite una delle seguenti modalità:

una maggiore intensità, un innalzamento od abbassamento del tono od una maggiore durata. Queste sono, però, di solito contemporaneamente presenti nella sillaba tonica, la quale tende a riunire le diverse prominenze. L’accento individua a sua volta due tipi di unità: l’intervallo interaccentuale, formato dalle sillabe che intercorrono tra un accento e l’altro, ed il ‘dominio’ dell’accento, in cui sono comprese le sillabe sulle quali la sillaba tonica è prominente. Il secondo equivale alla parola prosodica e coincide con il primo nelle lingue ad accento fisso sulla prima sillaba. Le lingue possono infatti essere ad accento fisso, se questo va sempre sulla medesima sillaba di una parola, oppure ad accento libero, se questo può andare su più sillabe a seconda delle parole.

Come si vedrà meglio nel capitolo 2, si è ipotizzato, a partire dagli studi di Classe (1939), Lloyd James (1940) e Pike (1945), che la sillaba e l’accento fossero due strutture dominanti nello scandire il ritmo, e che tendessero entrambe a formare intervalli costanti. Benché queste due spinte siano presenti contemporaneamente nelle lingue del mondo, ciascuna prediligerebbe una delle due, ed apparterrebbe alle categorie syllable-timed o stress-timed, a seconda del fatto che riservi maggiore risalto al ritmo scandito dalla sillaba o a quello scandito dall’accento. Gli studi sul ritmo si sono poi articolati a partire dalla discussione sulla validità di queste due categorie ritmiche, ricercando possibili conferme in ambito acustico, articolatorio e percettivo. Tuttavia, è necessario, come è risultato dagli interventi in un convegno sul ritmo linguistico tenutosi a Londra nel 2009 (si veda, per un panorama generale, Kohler (2009a)), adottare una prospettiva più ampia, che vada oltre la dicotomia di Pike, la quale, se non è intesa in senso universale ed omnicomprensivo, ha il merito di mettere comunque in evidenza le due strutture ritmiche diverse che sono impiegate rispettivamente

5 Si rimanda a Lehiste (1970) e Bertinetto (1981) per una discussione approfondita sulle strutture

(8)

dall’inglese e dal francese e dalle lingue affini a queste due. Esse rappresentano due possibili architetture ritmiche su cui può venire costruita la struttura temporale del discorso nelle lingue, anche se può essere riduttivo fare una tipologia ritmica delle lingue considerando solamente queste due categorie. È importante, così, vedere come i diversi elementi della prosodia collaborano a rendere ritmico un enunciato, e considerare il ruolo del ritmo nella lingua tenendo presente il parlante e l’ascoltatore, cioè quanti sono coinvolti nell’evento comunicativo.

Il ritmo è dunque un aspetto della prosodia che si forma tramite il convergere d’altri fatti prosodici, ed a sua volta un determinato ritmo può modificare altri elementi della prosodia di una certa lingua. Tillmann & Mansell (1980) identificano tre livelli all’interno della prosodia:

- Prosodia A, che comprende gli aspetti che possono venir modificati volontariamente, e di cui il parlante è quindi normalmente consapevole. Vi sono compresi pertanto l’intonazione, le pause e le variazioni d’intensità. Su questo piano vengono accentate le parole e si esprime il focus attraverso l’accento frasale ed il tipo di frase (affermativa, interrogativa, esclamativa) attraverso l’intonazione. Questo ambito della prosodia permette anche al parlante d’esprimere i propri sentimenti e trasmettere sfumature a livello pragmatico.

- Prosodia B, che comprende il ritmo tipico di ciascuna lingua; esso viene prodotto dal parlante in maniera inconsapevole e pertanto risulta più difficilmente modellabile.

- Prosodia C, che comprende le dinamiche del passaggio da un suono all’altro, e quindi i fenomeni aspiratori e di sonorizzazione delle occlusive, o come vengono articolate le vocali in determinati contesti, solamente per citare alcuni esempi.

In ognuno degli ambiti sopracitati interagiscono i parametri del tono, della durata e dell’intensità, secondo modi che sono peculiari di ciascun livello. Nel ritmo ha chiaramente un ruolo prominente la durata, in quanto è in rapporto ad essa che anche gli altri parametri possono concorrere a dare un particolare ritmo all’enunciato.

Il ritmo è così prodotto da questi parametri e costituisce un aspetto a sé stante della

prosodia. Esso, come si è visto precedentemente, consiste in una regolarità di

(9)

prominenze e nell’avvicendamento, anch’esso secondo determinate forme di regolarità, di unità prosodiche. Nella lingua naturale esistono diversi tipi di ritmo, considerando la lingua sia in modo paradigmatico che sintagmatico. I due termini, impiegati dalla linguistica per indicare i rapporti tra i segmenti nella frase, vengono qui usati per descrivere i rapporti tra le diverse forme di ritmo. Il primo concerne i rapporti in absentia, dove un fatto esclude l’altro, e viene qui impiegato per i rapporti tra i ritmi che identificano lingue e varietà regionali diverse, come anche i ritmi che contraddistinguono parlanti diversi e tipi di discorso e contesti diversi. Il secondo concerne i rapporti in praesentia, cioè quelli che si instaurano tra i ritmi in più livelli ed ambiti prosodici, ad esempio in quello delle sillabe e degli accenti. Il ritmo che viene percepito sarebbe prodotto dall’interagire e dal reciproco influenzarsi di diversi ritmi.

Per comprendere il fenomeno del ritmo è necessario considerare i tre ambiti di ricerca della fonetica, ossia la fonetica acustica, che studia il segnale linguistico nella sua sostanza fonica, la fonetica articolatoria, che si occupa del complesso processo con cui vengono prodotti i suoni dai parlanti, e la fonetica uditiva, che cerca di spiegare come un segnale giunga all’orecchio umano e venga poi elaborato dal cervello. Inoltre, essendo un fenomeno linguistico, è necessario considerare il ritmo anche come un fatto astratto, ossia il ritmo fonologico.

Occorre precisare che ricercare il ritmo della lingua naturale significa andare, all’interno del tessuto fonetico e fonologico degli enunciati che tramite essa vengono formati, in cerca di ciò che ricorre regolarmente. Inoltre, come osserva Kohler (2009b), spiegare il ritmo della lingua comporta anche capire il suo ruolo nell’ambito della comunicazione, ovvero quale sia il suo apporto nel processo in cui il messaggio viene trasmesso e come ciò viene facilitato.

1.3.1. Il ritmo in fonetica 1.3.1.1. Il ritmo acustico

La fonetica acustica considera il discorso come un oggetto di natura fonica, come una

serie d’onde complesse, corrispondenti alle vocali, al cui interno sono contenuti

momenti di suono irregolare, le consonanti. Le parti del segnale vengono definite dai

parametri della struttura formantica (particolarmente la prima, la seconda e la terza

formante), del tono, dell’intensità e della durata. Nell’ambito acustico, ricercare il ritmo

(10)

della lingua equivale pertanto a ricercare i patterns che i parametri della struttura formantica, del tono, della durata segmentale e dell’intensità formano all’interno di un enunciato, e vedere se essi ricorrano con una qualche forma di regolarità: è necessario rapportare così i parametri alla durata, la quale, come si è detto sopra, è la dimensione di riferimento, essendo il ritmo un fenomeno che riguarda lo sviluppo temporale di un evento.

Per ogni parametro è possibile dunque che, secondo la versione più semplice del ritmo, sia osservabile il ricorrere di punti prominenti secondo intervalli regolari, oppure l’alternarsi di fasi omogenee nella durata. Chiaramente, si tratta di un modello teorico:

nella realtà è praticamente impossibile che vi siano fasi dalla durata precisamente costante. Tuttavia, come verrà visto nel paragrafo sul ritmo a livello percettivo (1.3.1.3), vi è una soglia al di sotto della quale due suoni non vengono percepiti come di durata diversa.

Nella struttura formantica del segnale il primo aspetto nel quale andare a ricercare una

regolarità è costituito dall’alternarsi di momenti di rumore, senza una struttura

formantica precisa, con momenti in cui questa assume un aspetto preciso, che dipende

dal tipo di vocale che è pronunciata. Si presume che vi possa essere un rapporto più o

meno stabile tra un momento irregolare ed il momento che segue con una struttura

formantica precisa, oppure che sia i momenti irregolari che i momenti regolari

mantengano delle durate costanti. È interessante, a proposito, un parallelo con quanto

pare avvenire nel canto gregoriano, dove, essendo di solito costante la durata delle note,

si può ipotizzare che venga mantenuto egualmente costante il rapporto tra l’attacco e la

rima della sillaba, che corrisponde alla singola nota (e, quando una nota sia formata

solamente da una vocale, si aggiunge un suono aspirato). Sarebbe interessante poter

misurare le durate delle componenti aspirate in una serie di note consecutive all’interno

della medesima frase, e vedere se e quanto esse siano regolari. Il canto, naturalmente,

presenta una ritmicità del tutto maggiore rispetto al parlato, ma può essere utile, per

meglio descrivere il ritmo linguistico, cercare determinati aspetti che, operando nella

direzione di una maggiore regolarità, vengono ingranditi nella musica. Un regolarità

nell’alternarsi di fasi della struttura formantica può corrispondere ad una regolarità nella

durata delle sillabe, dove le consonanti costituiscono le fasi di rumore, ossia coda della

prima sillaba ed attacco della seconda, e le fasi periodiche alle vocali, nuclei di sillaba.

(11)

Quanto al tono, la ritmicità può consistere nel ricorrere, con periodi più o meno regolari, di massimi e di minimi. Questo parametro viene peraltro impiegato molto spesso per segnalare l’accento (come strumento primario nelle lingue ad accento musicale, come strumento secondario nelle lingue ad accento dinamico), ed una regolarità del tono può rappresentare una regolarità negli accenti. Il tono permette poi di individuare anche delle parti nell’enunciato delimitate dai massimi e dai minimi, le quali possono mantenere delle durate costanti.

L’intensità riguarda il volume che ha ciascun suono, o, meglio, l’onda acustica, in corrispondenza di ciascun segmento. Osservando la curva d’intensità di un enunciato si vede come essa presenti delle fasi piuttosto regolari, nelle quali momenti ‘alti’ sono intervallati da momenti ‘bassi’, dalla durata molto minore rispetto ai primi e con passaggi piuttosto ripidi da un momento all’altro. I momenti ‘bassi’ corrispondono alle consonanti, in quanto esse sono i suoni dalla sonorità intrinseca minore. È utile a questo punto richiamare le diverse scale di sonorità (Selkirk, 1984; Meinschaefer, 1998), affrontate più approfonditamente in 1.3.2.1, in cui i foni vengono disposti secondo un ordine di sonorità intrinseca: cercando una ritmicità all’interno dell’intensità, sarebbe interessante poter misurare le durate segmentali in rapporto all’alternarsi delle fasi descritte, per vedere se vi sia un aggiustamento delle durate per mantenere regolare la curva dell’intensità. Infatti, assegnando un indice numerico di sonorità crescente a ciascun fono, si può ottenere una curva teorica della sonorità, dove la dimensione temporale non rappresenti le durate segmentali, ma esclusivamente l’ordine in cui disporre i foni. La curva ottenuta si può poi confrontare con quella vera e propria: il problema è, però, quello delle durate, che potrebbe essere risolto assegnandole assumendo un determinato programma temporale, anche se questa risulterebbe un’operazione assai arbitraria.

Il ritmo può consistere sia nella regolarità all’interno di una serie di momenti consecutivi come anche in un ricorrere costante di punti prominenti. Nell’intensità si possono considerare punti prominenti i momenti dove questa è più bassa, corrispondenti alle consonanti che si trovano ai posti più bassi della gerarchia di sonorità, ossia le occlusive. Ciò sarebbe approssimativamente una misura delle durate delle sillabe, in quanto le occlusive occupano solitamente l’attacco, tranne che nelle sillabe dette

‘scoperte’, dove non è presente questa parte della struttura sillabica.

(12)

Per quanto concerne la durata, questo parametro, che è il più importante per formare la ritmicità, anzi, quello essenziale, è quello che, combinato assieme agli altri, dà loro una struttura temporale e, potenzialmente, un ritmo. Tuttavia, è bene distinguere il ritmo dalla struttura temporale, in quanto quest’ultima si colloca in un ambito più generale, e dipende, come si vedrà, da complessi processi neurali non ancora ben chiari. Da un avvicendamento regolare delle durate può scaturire una ritmicità nell’enunciato, che può essere resa graficamente visibile tramite un piano avente sull’asse delle ascisse i segmenti disposti nell’ordine in cui compaiono nella frase e sull’asse delle ordinate le durate. Come si può vedere effettuando un paragone con alcuni brani musicali di diverso genere, questi ultimi hanno spesso una forte regolarità in questo ambito. Come peraltro propone Kohler (2009b: 42), è necessario, nella ricerca sul ritmo della lingua, considerare i vari tipi di generi di parlato, come ad esempio il testo poetico, la narrativa, la descrizione, il discorso formale, la conversazione informale. Il testo poetico avrà chiaramente il massimo della ritmicità, in quanto la musicalità è parte integrante della poesia, mentre altri generi possono mostrare un ritmo molto irregolare.

1.3.1.2. Il ritmo articolatorio

L’ambito articolatorio riguarda i processi attraverso i quali il discorso acquisisce una forma fisica: ciò che può venire percepito o registrato, in quanto segnale acustico, è infatti l’esito di un processo che ha avuto origine nel cervello ed è terminato nel momento in cui la catena parlata è stata articolata. La fonetica articolatoria considera così una catena parlata come una serie di movimenti compiuti contemporaneamente o secondo un preciso ordine dagli organi ad essi deputati, detti pertanto organi od apparato fonatorio.

Nel cervello si formano degli impulsi in seguito ad una determinata intenzione

comunicativa, che viene tradotta in una catena di fonemi; in seguito gli impulsi

giungono ai muscoli che hanno il compito di muovere gli organi coinvolti nel produrre i

suoni. Le parti dell’apparato fonatorio coinvolte si dividono in sublaringali e

sopralaringali: nelle prime si forma l’onda sonora, che verrà modificata attraverso i

movimenti delle seconde. Nella parte sublaringale si comprimono prima di tutto i

muscoli intercostali, che comprimono la cassa toracica facendo fuoriuscire l’aria dai

(13)

polmoni. Questa fa vibrare le pliche vocali, se queste sono tese, e si viene così a formare l’onda acustica, ossia la ‘voce’.

Nell’ambito sublaringale, una ritmicità si può instaurare nell’alternarsi di compressione e distensione nei muscoli intercostali, che comporta la fuoriuscita o meno dell’aria, e nella tensione e distensione delle pliche vocali, corrispondente all’alternarsi di suoni rispettivamente sonori e sordi.

La parte sopralaringale comprende gli organi, dalla laringe (dove vengono articolate l’occlusiva [ʔ] e la fricativa [h]) alle labbra, che permettono, tramite diversi movimenti, di modificare la forma della cavità orale, producendo suoni diversi. Gli organi maggiormente coinvolti sono: la lingua, dove si individuano la radice, il dorso e la punta, ciascuna delle quali articola proprie categorie di suoni, la mandibola, il cui movimento sull’asse verticale dà luogo a vocali di diversa apertura, e le labbra. Questi organi fonatori possono essere considerati come degli oscillatori che si muovono, approssimativamente, lungo degli assi, compiendo ripetitivamente un tragitto più o meno ampio. Il movimento degli organi coinvolti nel parlato è pertanto un’azione che coinvolge un sistema d’oscillatori. Il ritmo è così da ricercare sia nel movimento di ciascuna parte che, e forse ancora di più, nel modo in cui i movimenti degli organi vengono accordati, consistente nell’entrainment of movement descritto da Cummins (2009). Un sistema d’elementi che oscillano contemporaneamente dà luogo, infatti, ad un ritmo che ha come periodo quello definito da uno degli attrattori, che sono rapporti semplici tra i periodi delle singole parti, mentre queste ultime perderebbero la propria autonomia a beneficio del funzionamento di tutto l’insieme. Ciò può portare ad effetti compensatori nelle durate segmentali, come anche a processi coarticolatori ed assimilatori, quali ad esempio la pronuncia fricativa o quella sonora delle occlusive intervocaliche. Il convergere del movimento delle singole parti verso un ritmo d’insieme verrebbe iniziato ogni volta che un parlante comincia a parlare ed il ritmo formatosi verrebbe poi a terminare con una pausa di una certa durata.

Ciò che viene percepito come tono, e che acusticamente è rappresentato con

l’andamento di F

0

, articolatoriamente consiste nella vibrazione delle pliche vocali

causata dal passaggio dell’aria proveniente dai polmoni, la cui pressione, quando

diventa superiore a quella delle pliche vocali, le fa aprire e poi richiudersi quando si

ripristina l’equilibrio. Questo processo avviene un certo numero di volte per secondo ed

(14)

è determinato dalla pressione dell’aria, dalla tensione delle pliche e dalla conformazione della laringe. Tutto ciò concorre a dare alla vibrazione delle pliche vocali una particolare frequenza, che è appunto la frequenza fondamentale. Vi potrebbe essere una ritmicità nel variare della pressione dell’aria, ossia nella maggiore o minore compressione polmonare, come anche nella tensione delle pliche: in ambedue i casi il ritmo consisterebbe in un alternarsi regolare di tensione e distensione degli organi coinvolti.

L’intensità è prodotta principalmente dalla maggiore pressione dell’aria che viene fatta fuoriuscire dai polmoni, e quindi da quanto si contraggono i muscoli intercostali.

Rimanendo costante la tensione delle pliche vocali, un aumento dell’intensità provoca pertanto anche un innalzamento del tono: ciò spiega il motivo per cui le sillabe che portano un accento dinamico, e quindi con una maggiore intensità, sono di solito pronunciate anche con un tono più alto; se il parlante vuole invece che il tono rimanga costante deve tendere di meno le pliche vocali, in modo che resistano maggiormente all’accresciuta pressione subglottale.

I diversi suoni che vengono articolati hanno inoltre una durata intrinseca, che non è assoluta, ma relativa, per cui, ceteris paribus, le vocali alte hanno una durata minore di quelle basse, le consonanti sorde sono più lunghe di quelle sonore e le vocali che sono seguite da una consonante sorda hanno una durata maggiore di quelle seguite da una vocale sonora

⁶

. Ciò si può spiegare in termini articolatori con la proporzionalità tra il tragitto richiesto al movimento della lingua e l’altezza delle vocali, che fa sì che quelle alte abbiano una durata minore; per quanto riguarda la sonorità, le diverse durate sono dovute al tempo necessario per attivare od arrestare il meccanismo laringeo, che è attivo nei suoni sonori. Determinati foni richiedono poi agli organi una maggiore quantità di tempo per compiere il loro movimento e, soprattutto, è necessario tenere presente il singolo segmento all’interno della frase nel suo complesso, che articolatoriamente può essere vista come una serie di movimenti che gli organi debbono compiere contemporaneamente e secondo un certo ordine: la durata di un segmento dipenderà pertanto anche dai segmenti precedenti e seguenti, che articolatoriamente equivale al tipo di cambiamento che viene richiesto agli organi fonatori.

6 Per la durata intrinseca, particolarmente nella lingua italiana, si rimanda a Marotta (1985).

(15)

La durata dipende poi dalla gerarchia degli accenti nella frase (per la quale, da un punto di vista fonologico, si rimanda a 1.3.2.2): le sillabe toniche sono normalmente più lunghe ed un accento che è collocato in un livello più alto della gerarchia, come l’accento di frase, causerà un maggiore allungamento rispetto all’accento di sintagma o di parola. Inoltre, come è stato notato per lo svedese (si vedano gli studi di Lindblom e collaboratori), l’accento comporta in diverse lingue una compensazione delle durate, sia all’interno dell’intervallo interaccentuale che nel ‘dominio’ dell’accento, consistente in un accorciamento delle sillabe atone dipendente dal loro numero, in modo da mantenere costante la durata dell’unità individuata dall’accento.

1.3.1.3. Il ritmo percettivo

Nella percezione viene compiuto un confronto tra quanto giunge alla nostra mente attraverso impulsi esterni e quanto è già presente al suo interno. Durante una certa azione si formano delle aspettative attraverso ciò che del processo in corso è avvenuto e ciò che è conservato nella memoria, che permette d’elaborare delle attese riguardo alle fasi che seguiranno.

Nella comprensione del parlato si formano così delle aspettative, a tutti i livelli della

lingua, e, pertanto, anche per quanto riguarda il ritmo. Chi ascolta infatti percepisce

determinate regolarità nelle frasi dell’interlocutore e si attende che costui continui a

mantenerle. Quello che è percepito come regolare, e quindi dalla durata costante, può

effettivamente non esserlo in termini oggettivi: l’ascoltatore compie infatti degli

aggiustamenti a livello mentale, si ritiene, in modo da mantenere le regolarità attese,

sempre naturalmente che le varie parti non abbiano durate troppo diverse. La soglia

psicofisica minima che permette di distinguere due durate diverse è dell’ordine di 10-40

msec. (Lehiste 1976: 226, in Laver 1994: 432), di conseguenza due sillabe, od unità

interaccentuali, che abbiano una differenza che rimanga minore di questa soglia

vengono sentite come di eguale durata. La discriminabilità è poi modificata

dall’intensità e dal rumore circostante: con una bassa intensità ed un forte rumore è più

facile che chi ascolta non riesca a distinguere come di differente durata due suoni,

probabilmente per il fatto che integra ciò che non riesce a distinguere con le aspettative

che si è fatto; il tono non pare invece influire sulla capacità di distinguere le durate

(Laver 1994: 432).

(16)

Molti studi sul ritmo

⁷

, a cominciare da Classe (1939), hanno considerato allora questo aspetto della lingua come un fatto meramente percettivo. Questa posizione si può riassumere affermando che l’ascoltatore riterrebbe ritmico un enunciato anche se in realtà non lo è, operando inconsciamente determinati aggiustamenti nelle durate ed in altri parametri per dare luogo a quest’impressione. Ci si domanda, tuttavia, a cosa serva questo aggiustamento a livello mentale: è interessante la risposta di Kohler (2009b:35- 38), il quale, rifacendosi a quanto affermato già da Classe (1939), propone di mettere in primo piano l’ascoltatore, e di conseguenza il ruolo del ritmo nella comprensione linguistica. Il ritmo, infatti, servirebbe a guidare la persona che ascolta, la quale, secondo la Dynamic Attending Theory (Hawkins & Smith, 2001) percepisce l’enunciato cercando di far coincidere il proprio ritmo mentale, che elabora delle aspettative, con quello degli intervalli interaccentuali dell’espressione che riceve.

Questo approccio vede la comprensione della parola come un processo che è dipendente non solamente dai fonemi, ma anche da tutto un complesso di segnali che permettono a chi ascolta d’accedere al lessico mentale. Pertanto, nell’ambito della Dynamic Attending Theory il ritmo rappresenta una parte integrante della trasmissione di significati da un parlante ad un altro, in quanto dipendente dalla struttura temporale dell’enunciato.

Le due autrici notano come in molti casi, due stringhe formate dai medesimi fonemi possano essere disambiguate tramite proprietà del segnale che non sono riconducibili ai tratti distintivi della fonetica tradizionale. Ogni fono/segmento contiene infatti più informazioni di quanto si possa pensare: esso ha ad esempio, considerando solamente la struttura temporale, una certa durata, la quale può dipendere dal posto occupato all’interno della sillaba, dalla morfologia della parola, dalla sintassi e da molti altri aspetti.

Chi ascolta, così, impiega tutti i dettagli che riceve per attivare il lessico mentale conservato in memoria, collegando le proprie conoscenze con quanto gli proviene dall’esterno, operando delle attese di tipo dinamico (dynamic attending).

Si tratta, affermano le due autrici, di un entrainment, in cui il parlante cerca una sintonia, che può avvenire riadattando il proprio ritmo interno con quello esterno quando quest’ultimo cambia. Come già afferma Cicerone nel De Oratore (Liber III, 185-186), citato da Kohler (2009: 36), è naturale infatti per l’orecchio umano misurare

7 Si rimanda a Barry & Russo (2004) per una bibliografia sul ritmo percettivo.

(17)

il ritmo del suono prodotto dalla voce. Lehiste (1973; 1977; 1980; citati in Kohler 2009:

37) nota che il timing regolare contribuisce ad una migliore percezione, rendendo più agevole e veloce la trasmissione e la comprensione del parlato.

Il mancato riscontro acustico della tipologia ritmica nella versione proposta da Abercrombie (1967), in cui le lingue sarebbero iso-accentuali oppure iso-sillabiche, ovvero, rispettivamente con gli intervalli interaccentuali o con le sillabe d’eguale lunghezza, portò alcuni a reinterpretare la tipologia in termini percettivi, sostenendo che sarebbero gli ascoltatori a percepire l’isocronia, degli accenti o delle sillabe, sebbene non sia effettivamente individuabile a livello concreto.

1.3.2. Il ritmo in fonologia

Precedentemente si è definito il ritmo sia come regolarità negli intervalli che come regolarità nel ricorrere degli elementi prominenti. Per il primo modo di definire il ritmo verranno prese in considerazione, in una prospettiva fonologica, la sillaba e la sua struttura, mentre per il secondo verrà considerato l’accento, come viene visto dalla fonologia metrica.

1.3.2.1. La sillaba

La sillaba manifesta una struttura interna rappresentabile con il seguente diagramma ad albero:

essa è composta da tre parti, di cui la prima e l’ultima sono riempite da consonanti e quella centrale da una vocale o, in alcune lingue, da una consonante sonorante (come Trst ‘Trieste’ in sloveno). Il nucleo e la coda presentano una maggiore coesione, per cui formano assieme la rima. Come afferma Spencer (1996: 85-88), mutuando l’espressione dalla sintassi, il nucleo ‘seleziona’ in certe lingue la coda, escludendone alcune, come ad esempio un verbo transitivo seleziona un oggetto diretto. Inoltre, come si può vedere sia confrontando le strutture sillabiche delle diverse lingue che l’acquisizione della

attacco

coda sillaba

rima nucleo

(18)

prosodia nelle L1, il tipo di sillaba più comune è quello CV, corrispondente ad attacco e nucleo. Il nucleo rappresenta sempre la parte più sonora della sillaba, che ha, quindi, una sonorità che cresce dall’attacco al nucleo e decresce da quest’ultimo alla coda.

Come afferma Selkirk (1984: 116, in Spencer 1996: 89), nelle sillabe c’è un segmento che costituisce un picco di sonorità, preceduto e/o seguito da segmenti con sonorità rispettivamente crescente e decrescente. Ci si attende, quindi, che negli attacchi e nelle code formate da più consonanti, queste abbiano una sonorità crescente nelle prime e decrescente nelle seconde.

Sono state così elaborate delle scale di sonorità che spieghino l’ordine degli elementi ammesso nelle diverse lingue ed il motivo per cui alcuni nessi non possono comparire.

Queste scale spiegano tuttavia l’ordine ritenuto più naturale e non danno delle leggi vere e proprie, in quanto in molte lingue si possono formare sillabe che non si attengono alla scala di sonorità. Ad esempio, in albanese ftohtë ‘freddo’ e ngrënë ‘caldo’.

Sono state elaborate diverse scale di sonorità, le quali sono, però, molto simili tra loro.

Sulla scorta di quanto effettuato da Selkirk, si possono disporre i fonemi secondo un indice di sonorità, disponendo in un continuum vocali e consonanti:

vocali basse – 10 vocali medie – 9

vocali alte – 8 approssimanti – 7

vibranti – 6 laterali – 5

nasali – 4 fricative – 3 affricate – 2 occlusive – 1

È possibile inoltre assegnare una maggiore sonorità alle ostruenti sonore rispetto a quelle sorde.

Si può così delineare un contorno teorico della sonorità assegnando l’indice ai segmenti,

come si può vedere nell’espressione seguente:

(19)

nel mezzo del cammin di nostra vita

10

* * *

9

* * * * *

8

* * *

7

6

*

5

* *

4

* * * * *

3

* *

2

*

1

* * * * *

n e l m ɛ d:

z o d e l k a m

: i n d i n ɔ s t r a v i : t a

Risulta in conflitto con questa scala di sonorità la /s/, in quanto in molte lingue sono consentiti nessi come sp-, st- e sk-, ma non ps-, ts- e ks-, e generalmente questi ultimi sono considerati meno naturali. I primi, però, violerebbero la scala di sonorità, che verrebbe invece rispettata dai secondi, essendo la /s/ una fricativa. È necessario assegnare così alla /s/ ed alla /ʃ/ uno status indipendente rispetto alle altre fricative; le prime infatti possono formare attacchi di tre segmenti (spr-, spl-, spj-, str-, skr-, skj-), rappresentabili come s-C-sonorante.

Esistono poi altre restrizioni riguardanti i nessi in attacco: benché rispettino la scala di

sonorità, in molte lingue, come in italiano, non sono ammessi pm-, pn-, pv-. Inoltre, in

attacchi formati da consonanti con la medesima sonorità, in alcune lingue è ammesso kt-

, ma non tk-, ed anche per parlanti di lingue che non ammettono né il primo né il

secondo, kt- appare più facile da articolare. La scala di sonorità è così un valido punto di

partenza, ma non esaurisce le possibili restrizioni e le regole che dirigono il modo in cui

può venire composto l’attacco di una sillaba. Per quanto riguarda gli incontri di

consonanti appartenenti a diverse categorie e con sonorità crescente, può essere in

vigore un principio per cui i suoni debbono appartenere a categorie distanti: pf- e pn-

non sono consentiti in molte lingue, perché le occlusive sono troppo vicine alle fricative

ed alle nasali, mentre pl-, pr- e pj- sono ammessi, perché le classi delle seconde

consonanti sono distanti. Tuttavia, in greco è ammesso pn-, ma non pf-, e ciò fa ritenere

che il confine, l’intervallo richiesto, vada collocato diversamente a seconda della lingua

in questione. Inoltre, è notare come in greco siano ammessi pn- e ps-, e come nelle

lingue slave siano presenti i nessi mr- e sr-: si può formulare l’ipotesi che le consonanti

(20)

/s/, /ʃ/, /z/ e /ʒ/ abbiano un comportamento analogo a quello delle nasali, e che costituiscano un gruppo a metà strada tra le fricative e le nasali. Inoltre, si nota come in tedesco sia ammesso l’attacco schr- /ʃr-/, derivato da un precedente skr-, come in Schreiben ‘scrivere’. In molti casi un processo attivo a livello prosodico può modificare degli aspetti della struttura sillabica, ed allo stesso tempo, quest’ultima contribuisce a formare un fenomeno prosodico come il ritmo. Ad esempio, nei dialetti emiliani le vocali atone vengono fortemente ridotte, nel timbro e nella durata, fino anche a scomparire, come ad esempio è avvenuto nel pontremolese (parlata lunigianese

⁸

) tler

‘telaio’, derivato dal latino TELARIUM. In questo processo sono venute ad incontrarsi l’occlusiva sorda dentale e la laterale dentale, formando un attacco sillabico che normalmente nell’italiano non è consentito: probabilmente, i due suoni in un primo momento venivano considerati ancora appartenenti a due sillabe diverse ed intervallati da un ridottissimo schwa, poi sono diventati sempre più vicini, fino ad introdurre un nuovo tipo d’attacco nell’inventario di questa varietà d’italiano. Questo nuovo attacco sillabico può inoltre essere provenuto da analoghi processi d’elisione ed il cambiamento avrebbe potuto, nel caso i parlanti di questa comunità non avessero avuto relazione con parlanti altre varietà d’italiano, modificare il ritmo della lingua e causare altri mutamenti dovuti a quest’ultimo aspetto della prosodia.

L’altra parte della sillaba che è occupata da consonanti è la coda, dove la sonorità decresce. Essa costituisce, con il nucleo, la rima e, pertanto, è ad un livello più basso come costituente della gerarchia. Mentre in alcune lingue l’attacco deve essere sempre presente ed in altre non sono consentite sillabe con la coda, non vi risultano essere lingue dove la coda sia obbligatoria. La coda è in un rapporto particolare con il nucleo, il quale in alcune lingue impone limiti alla scelta delle consonanti. Ad esempio, in inglese, se il nucleo contiene un dittongo discendente con un glide posteriore arrotondato, questo non può essere seguito da una consonante bilabiale o velare, e probabilmente si può spiegare con l’opportunità d’evitare l’omorganicità.

La coda può essere occupata da più consonanti, che hanno una sonorità generalmente decrescente, anche se in diverse lingue i suoni non seguono rigidamente la scala di sonorità, come nel tedesco Papst ‘Papa’ (in questo caso ciò è dovuto ad un

8 Benché la Lunigiana sia per la maggior parte compresa nella Toscana, la sua parlata è ritenuta emiliana.

(21)

cambiamento avvenuto nel XVI secolo, in cui fu aggiunta una -t a parole come Papst, Obst, Habicht).

Come si è visto, le lingue possono avere diversi livelli di complessità nelle parti consonantiche.

Come afferma Spencer (1996: 85), nelle sillabe dell’inglese è possibile distinguere i nessi che non sono consentiti nel formare l’attacco nei seguenti tre tipi:

- quelli che violano la scala di sonorità, come rp-;

- attacchi che, anche se rispettano la scala di sonorità, sono in conflitto con qualche norma dell’inglese, come tl-;

- attacchi che non sono presenti in parole autoctone dell’inglese, e che, tuttavia, risultano pronunciabili ai parlanti nativi, come pw-.

Queste tre categorie si possono ottenere anche in italiano, con un contenuto simile a quello dell’inglese. Per la seconda categoria, si nota che pl- e kl- sono del tutti accettabili, in italiano (come anche in altre lingue), quando invece tl- è presente in un numero assai ridotto (come ad esempio nelle lingue slave e, tramite un processo d’elisione, anche in alcune parlate italiane settentrionali). Ciò si può spiegare avendo presente il fatto che in tl- i segmenti sono omorgani, essendo articolati ambedue con la punta della lingua contro gli alveoli, mentre gli altri due nessi impiegano parti diverse dell’apparato fonatorio. Lo stesso vale per il terzo gruppo, in quanto anche pw- è formato da due suoni bilabiali.

Tuttavia, in diverse lingue queste norme non valgono, e possono essere formati degli attacchi del tipo rt-, tl- e pw-, che possono essere considerati anche come rappresentanti di categorie fonotattiche dove inserire gli attacchi poco comuni. Per quanto riguarda la prima categoria, infatti, vi sono parole dove la consonante in attacco è preceduta da un fonema con una sonorità maggiore diverso da /s, z/, come in polacco rtęć ‘mercurio’ ed in albanese ftohtë ‘freddo’. In questo gruppo si includono le lingue dove sono piuttosto comuni gli attacchi nasale-C, come avviene in molte lingue africane e nell’albanese, il cui lessico annovera parole come ngrënë ‘mangiato’. La seconda categoria rappresenta alcuni attacchi consentiti, tra le altre, nelle lingue slave, come nel polacco dżwięk

‘suono’, nello slovacco tláć ‘pressa’, nel ceco tloušť ‘cavedano’ e kniha ‘libro’, nel

tedesco, come in Knie ‘ginocchio’ e nel greco psyché ‘mente’ e pneuma ‘soffio vitale,

(22)

alito, respiro’. Gli attacchi del terzo gruppo sono frequenti in spagnolo, dove sono derivati dall’incontro dell’occlusiva bilabiale latina con il glide del dittongo formatosi dall’originaria vocale -o-, come in pueblo ‘villaggio, popolo’, puente ‘ponte’ e puerta

‘porta’.

Inoltre, all’interno di coppie di consonanti formate da due occlusive non omorgane, alcune appaiono maggiormente naturali: pt- rispetto a tp-, come nel greco Ptolomeos

‘Tolomeo’, kt- rispetto a tk-, come nel greco ktírio ‘edificio’, gd- rispetto a dg-, come nel polacco Gdańsk ‘Danzica’. Si può spiegare con un principio secondo cui sono più naturali gli incontri di suoni in cui il primo è articolato nel luogo che è più posteriore ed adiacente a quello del secondo.

Un discorso a parte riguarda la /s/: come è stato detto precedentemente, questa consonante, benché sia una fricativa, ha un comportamento che la distingue dalla propria categoria di foni. È ammessa in contesti dove, in molte lingue, le fricative non possono comparire, come ad esempio prima delle occlusive, delle fricative e delle nasali, e come primo segmento degli attacchi triconsonantici, ma in numerose lingue non può andare prima di una vibrante (in italiano, ad esempio, l’attacco sr- è presente come risultato dell’aggiunta del prefisso s-, dal latino EX).

Si evidenzia quindi un’ampia varietà per quanto riguarda le possibilità d’incontro tra le consonanti, per cui ci si domanda se esistano delle regolarità che rendano possibile raggruppare le lingue in classi secondo la complessità ed il tipo degli attacchi consentiti;

se siano individuabili dunque degli universali implicazionali fonotattici, per cui, essendovi un attacco A più conforme alla gerarchia di sonorità e ad un eventuale principio di naturalità ed un attacco B meno conforme, se una lingua consente l’attacco A deve consentire di conseguenza anche l’attacco B. Ciò si può inoltre tradurre nell’ambito del processo in cui la lingua materna viene acquisita, nel domandarsi quanto la complessità e la naturalità della fonotassi siano rispecchiate nelle fasi di questo processo.

Inoltre, considerando non solamente l’ambito della sillaba, ma quello della frase, i nessi

consonantici diventano più complessi, in quanto, mettendo di seguito due sillabe, essi

comprendono la coda e l’attacco, rispettivamente della prima e della seconda. Le lingue

possono avere quindi diversi tipi di nessi, dipendenti dalla complessità che consentono

nelle componenti della sillaba: ad esempio, quando nella coda vi può essere

(23)

un’ostruente ed in attacco una qualsiasi consonante, si forma un incontro di consonanti che è più difficile da pronunciare di uno costituito da sonorante seguita da una qualsiasi consonante. Ciò si vede in un confronto tra l’italiano ed il tedesco, dove il secondo, ha incontri consonantici più complessi, a causa della maggiore complessità ammessa nei costituenti delle sillabe, dal momento che permette sillabe chiuse da consonanti occlusive e fricative, diversamente dall’italiano. Ciò rappresenta un aspetto della lingua che rende la pronuncia del tedesco più impegnativa da apprendere per gli italiani rispetto ad altre. In una lingua con incontri consonantici complessi, poi, i singoli segmenti ricevono un trattamento diverso, ad esempio possono venire ridotti in misura maggiore, per mantenere l’equilibrio tra intervalli consonantici e vocalici.

Gli incontri di consonanti possono venire rappresentati tramite gli indici di sonorità, come si può vedere nelle espressioni seguenti:

nell’italiano per scrivere

* *

* * r s k r nella frase tedesca es ist Stroh ‘è paglia’, /-stʃtr-/:

*

* *

s t ʃ t r

(24)

ancora in tedesco, du trinkst Sprudel ‘bevi acqua minerale’:

*

* *

* * *

ŋ k s t ʃ p r

Il polacco, come tutte le lingue slave, consente gruppi ancora più complessi. Inoltre, è da notare che in molte sillabe il nucleo è costituito da una consonante sillabica. Nella frase W Szczebrzeszynie chrząszcz brzmi w trzczinie ‘Nella città di Szczebrzeszyn un coleottero ronza in mezzo alle canne’

⁹

[fʂt͡ʂɛbʐɛʂɨɲɛ xʂɔ̃ʂt͡ʂ bʐmi ftʂt͡ɕiɲɛ], la sonorità del sintagma verbale brzmi w trzczinie può essere rappresentata come segue:

10

9 *

8 * * 7

6 5

4 * * 3 * * * 2 * 1 * *

b ʐ m i f t ʂ t͡ɕ i ɲ ɛ

I nessi possono avere dunque diversi livelli di complessità e le lingue possono essere pertanto classificate a partire dalla massima complessità che ammettono nella loro fonotassi. È possibile inoltre classificare diversi enunciati all’interno di una medesima lingua a seconda della complessità fonotattica, e comparare le lingue attraverso enunciati d’eguale complessità fonotattica: verrebbero così poste in risalto le strategie impiegate dai parlanti per pronunciare certi tipi di nessi. Come si vedrà nel capitolo 2, la questione della fonotassi è centrale nel modello CCI di Bertinetto & Bertini.

9 La frase è uno scioglilingua tratto dalla poesia Chrząszcz, di Jan Brzechwa.

(25)

1.3.2.2. Gli accenti

Il ritmo della lingua dipende anche dall’avvicendarsi di determinate sillabe prominenti rispetto a quelle adiacenti: con un termine derivante dagli studi letterari, questo aspetto viene studiato dalla fonologia metrica.

In questo approccio, fenomeni prosodici come la subordinazione degli accenti vengono spiegati postulando una struttura ritmica gerarchica che organizza le sillabe, le parole ed i sintagmi all’interno di una frase (cfr. Liberman & Prince 1977: 249).

La fonologia metrica viene formulata da Liberman (1975) e Liberman & Prince (1977):

essi rappresentano la struttura accentuale dell’enunciato tramite un albero sintattico (del tipo di quelli impiegati per rappresentare i costituenti della frase), dove ogni elemento viene contraddistinto dall’etichetta strong ‘forte’ e weak ‘debole’: prese isolatamente, esse non vogliono dire niente, in quanto assumono un significato dal confronto con l’unità adiacente. I due autori sviluppano così alcuni algoritmi per spiegare come viene

‘costruita’ la gerarchia degli accenti nei composti, nei sintagmi e nelle frasi dell’inglese.

La novità della teoria della fonologia metrica rispetto alla fonologia generativa (SPE, Chomsky & Halle, (1968)) consiste nel non considerare l’accento verbale come un semplice tratto binario, ma come un aspetto strutturato secondo una gerarchia e di natura sintagmatica, in quanto una sillaba è tonica ed ha un accento di un determinato livello per il fatto che è in contrasto con altre sillabe atone o con un accento meno prominente. I tratti binari che contraddistinguono i segmenti, invece, sono paradigmatici, poiché assumono una tra le due possibilità con cui si può manifestare un certo aspetto.

Il livello più basso della gerarchia è costituito dalle sillabe: come si è visto

precedentemente, la sillaba ha al suo interno una gerarchia ed ognuna è dotata di un

componente che è prominente per la sonorità, rappresentato dal nucleo. Il livello

immediatamente superiore è formato dai piedi, uno per ogni sillaba accentata (anche

tramite un accento secondario). Già la metrica classica classificava i piedi a seconda del

numero di sillabe e del posto occupato dall’accento. I piedi possono essere binari o

ternari, a seconda del fatto che abbiano due o tre sillabe: i piedi binari sono il trocheo,

che ha l’accento sulla prima sillaba, e il giambo, accentato sulla seconda; i piedi ternari

sono il dattilo, che ha l’accento sulla prima sillaba e l’anapesto, accentato sull’ultima; vi

è anche un ulteriore piede ternario, detto ‘anfibrachio’, che ha l’accento sulla seconda

(26)

sillaba. Chiaramente, le espressioni linguistiche comuni hanno solamente in parte piedi di questo tipo, tipici invece di certi tipi di poesia, che costruiscono i versi mantenendo un avvicendarsi regolare di piedi. Nel parlato e nella lingua comune, sono presenti molti piedi che non corrispondono a quelli descritti, composti da un numero di sillabe superiore, che sono detti piedi ‘svincolati’.

Il concatenarsi di più piedi dà alla frase un certo ritmo, che può essere più o meno regolare, a seconda del fatto che venga ripetuta sempre una medesima struttura, che produce il ritmo più semplice, ad esempio una frase costituita interamente da dattili o da trochei, oppure che la frase sia composta da una molteplicità di piedi diversi. Inoltre, la fonologia metrica spiega un fenomeno comune a diverse lingue, che è noto come ‘stress retraction’: quando due sillabe che hanno un accento del medesimo livello, il primo si sposta sulla sillaba che ha l’accento di livello immediatamente più basso, per evitare che si scontrino due accenti’. Ciò si può esemplificare con le espressioni inglesi TENnessee WILliams e TennesSEE legiSLAtion, che hanno Tennesse, normalmente accentato sull’ultima sillaba, come prima parola. Le due frasi (e lo spostamento dell’accento della prima) vengono rappresentate nelle griglie seguenti:

* *

* * * *

* * * > * * *

* * * * * * * * * * * * Ten nes see Wil li ams Ten nes see Wil li ams

* * *

* * * *

* * * * * * * Ten nes see le gi sla tion

Nella prima frase, spostando l’accento si formano due dattili, rendendo il ritmo della frase più gradevole; non è solo una questione estetica, però, in quanto, come si è visto precedentemente, un ritmo più regolare aiuta anche la pronuncia e la comprensione.

Un’altra questione è quella dell’isocronia. Le lingue definite stress-timed manterrebbero

il medesimo numero di piedi all’interno del medesimo intervallo di tempo: da ciò

consegue che le sillabe abbiano durate che diminuiscono nei piedi ternari per fare in

(27)

modo che questi possano rientrare nello stesso tempo che occuperebbe uno stesso numero di piedi binari. I piedi manterrebbero così in una lingua stress-timed approssimativamente la solita durata ed i parlanti strutturerebbero il loro parlato avendo i piedi come unità più importante. Le lingue non stress-timed, definite syllable-timed, non danno la medesima importanza al piede ed i parlanti hanno la sillaba come struttura fonologica soprasegmentale più importante da cui partire per costruire il discorso.

1.4. I modelli di produzione del parlato

Diversi modelli sono stati sviluppati per spiegare la struttura temporale del parlato: essi hanno come primo obiettivo la comprensione delle cause che fanno sì che i segmenti compresi in un enunciato abbiano una determinata durata. L’impulso all’approfondimento di questo aspetto della lingua naturale è giunto alla fonetica dalla necessità d’elaborare nuovi meccanismi per la sintesi ed il riconoscimento automatico del parlato. Ciò ha portato così ad elaborare spiegazioni che permettessero poi di produrre e riconoscere porzioni d’enunciato in maniera più naturale possibile.

Nell’ipotesi più condivisa (si veda Marotta (1985: 7-12) e Den Os (1988: 3-5) per un panorama sul dibattito riguardante l’argomento), l’atto locutorio dipende a livello mentale da due programmi, che sono imprescindibili e complementari: il programma (o piano) articolatorio ed il programma temporale. Nel primo viene contenuta l’informazione necessaria per produrre i vari segmenti, che vengono disposti nell’ordine stabilito, ma privi della dimensione temporale. Questa viene loro data nel piano temporale, che assegna a ciascuna parte dell’enunciato una certa durata. Il programma articolatorio contiene così le coordinate spaziali, che sono componenti statici ed in sequenza, mentre il programma temporale regola le componenti del programma articolatorio secondo delle coordinate temporali, per le quali viene stabilito che ciascun segmento debba occupare un determinata parte di tempo.

I differenti modelli elaborati propongono ognuno una diversa visione del programma

temporale ed un diverso rapporto tra quest’ultimo ed il programma articolatorio. A

seconda del fatto che essi pongano l’inserimento del programma temporale all’esterno

od all’interno dell’articolazione concreta della frase, i modelli possono essere etichettati

come ‘estrinseci’ od ‘intrinseci’. I primi presumono un controllo a livello neurale (a

monte dell’intero processo, pertanto) che sovrintenda alla struttura temporale del

(28)

parlato, esternamente al piano articolatorio e pertanto distinto da esso. Diversamente, i secondi considerano il timing come una parte integrante del programma articolatorio: i segmenti sarebbero provvisti di una dimensione temporale. Sostenere un modello del timing intrinseco significa ritenere che non vi sia un inventario di fonemi nella mente del parlante da cui attinge quando compone una frase, i quali, per regole generativo- trasformazionali, acquisiscono una forma fonica concreta. In una prospettiva intrinseca, nella mente vi sarebbe solamente la possibilità d’impartire agli organi fonatori l’ordine di compiere determinati movimenti, e sarebbe dal confluire di questi diversi impulsi, secondo precise combinazioni, nel canale fonatorio, e dal disporli secondo un certo ordine e secondo una certa distanza in termini di tempo che si formerebbe l’enunciato concreto. Questa teoria avrebbe così delle ripercussioni a livello neurolinguistico, in quanto metterebbe in crisi l’idea secondo cui esistono precise aree del cervello con compiti primariamente linguistici: non vi sarebbe così un inventario fonologico nella mente, bensì determinati collegamenti tra neuroni preposti al controllo di certi organi, e ciò assumerebbe un valore all’interno della lingua. Un modello intrinseco del timing sarebbe così più corrispondente al paradigma sviluppato dalla linguistica cognitiva, che vede la lingua come una capacità profondamente calata all’interno della realtà corporea umana. Diversamente, il generativismo assegna alla lingua (da intendere qui come competence astratta) un modulo preciso nella mente, distinto dagli altri, e pertanto questa visione della lingua naturale dovrebbe propendere verso l’altro tipo di modelli.

Tra i modelli estrinseci è possibile distinguere due tipi: i modelli ‘a catena’, o associativi, ed i modelli ‘a pettine’, o gerarchici. I modelli ‘a catena’ presumono un sistema di controllo chiuso (closed-loop), che risulta in una catena di sillabe, dove la prima sillaba è il segnale per la seconda; in questi modelli il feedback neurale è particolarmente importante. I modelli ‘a pettine’ descrivono il sistema di controllo temporale come un circolo aperto (open-loop), che potrebbe, ad esempio, corrispondere ad una sequenza di sillabe, e che è il risultato di preprogrammazione nel sistema nervoso centrale.

Entrambi i modelli sono stati testati, ma nessuno è stato provato come superiore. Il

modello a catena non riesce a spiegare i fenomeni coarticolatori, né gli effetti connessi

con la lunghezza della parola (accorciamento delle vocali toniche quanto maggiore è il

(29)

numero delle sillabe atone che le seguono), e richiede per il processo della fonazione un impiego eccessivo di tempo, mentre il modello a pettine non implica di per sé il ricorrere di qualche elemento ad intervalli regolari, che costituisce il presupposto per l’isocronia.

Lindblom, Holmgren & Lyberg (1976) propongono un modello particolarmente interessante, detto ‘Short Term Memory Model’, dove ‘buffers’ di memoria di diversi livelli sono coinvolti nella produzione del discorso, e, con il crescere del numero di segmenti che riempiono ciascun ‘contenitore’, diminuisce la loro durata. Ciò spiegherebbe l’effetto della lunghezza di parola sulla sillaba tonica nello svedese, quindi il fenomeno della compensazione delle durate, però non si occupa di fenomeni coarticolatori, né d’errori di pronuncia. Ci si domanda pertanto se questo modello possa essere valido per altre lingue oltre allo svedese, a partire dal quale è stato elaborato. Gli autori rappresentano il timing come un fenomeno dipendente da un gerarchia di buffers, la cui capacità è delimitata da quella della short time memory. Ad un primo livello, un segmento viene ridotto nella sua durata a seconda del numero di segmenti che compongono la sillaba, e quest’ultima è pertanto la struttura rilevante su questo piano.

Ad un secondo livello, la durata della sillaba viene ridotta con il crescere del numero di sillabe che compongono complessivamente la parola, che costituisce un’ulteriore struttura rilevante. Ad un terzo livello, vi può essere un accorciamento dovuto al numero di parole, e quindi d’accenti, all’interno del sintagma, la struttura rilevante del piano più alto. Sillaba, parola e sintagma sono dunque i tre ‘contenitori’ impiegati nell’assegnare delle coordinate temporali ai segmenti: essi sono entità discrete e non hanno di per sé una durata, la quale viene assegnata loro dal programma temporale, ed è il mantenimento di una regolarità tra buffers consecutivi di un medesimo livello, che, in questo modello del timing, fa sì che i singoli segmenti occupino una certa porzione di tempo. Quest’ultima diminuisce infatti, secondo Lindblom e collaboratori, con l’aumentare del numero d’elementi compresi nel buffer.

Per quanto riguarda il secondo livello, si può notare come la nozione di parola si possa

sovrapporre in alcuni casi con quella d’accento ed intervallo interaccentuale: dal punto

di vista fonetico ogni parola contiene infatti una sillaba accentata e, nelle lingue ad

accento fisso questa occupa sempre il medesimo posto all’interno della parola. Quando

l’accento va sempre sulla prima sillaba la nozione di parola fonetica corrisponde del