La coarticolazione e il percetto fonetico

Grazie all’analisi sperimentale si è ormai largamente dimostrato come nel messaggio verbale risulti difficile, se non, in alcuni casi, impossibile determinare i confini tra foni e tra parole, e come la realizzazione di questi lungo il continuum sia variabile e impredicibile. In virtù di tali fenomeni di coarticolazione16 i fonemi non presentano una propria caratteristica configurazione invariabile, ma ogni segnale trasmette parallelamente, e contemporaneamente, informazioni su più di un fonema allo stesso tempo. La coarticolazione rappresenta un “aspetto costante e assai pervasivo della produzione linguistica” (Marotta 2003:3), poiché essa può essere vista come il risultato di naturali processi di pianificazione e articolazione dei suoni. “I segmenti fonici, discreti

Per una descrizione più ampia e dettagliata del fenomeno si rimanda a Hardcastle W. J. & Hewlett N.(1999), Farnetani E. & Recasens D. (1999), Marotta (2003).

nella loro dimensione astratta e cognitiva, sono coprodotti, sovrapposti nello spazio nella loro effettiva manifestazione, dal momento che, come sempre accade nel reale, linguistico e non, è la dimensione del continuo, e non tanto quella del discreto, ad essere coniugata” (Marotta 2003). La realizzazione di ciascun fono, pertanto, è strettamente collegata alle caratteristiche articolatorie del contesto fonico in cui è inserito. Il fenomeno è dovuto all’interazione tra i meccanismi centrali che regolano la produzione linguistica, cioè la funzione neuromotoria del sistema nervoso centrale, e l’inerzia degli organi articolatori. La programmazione temporale dei comandi neuromotori, per il raggiungimento delle diverse posizioni articolatorie, è simultanea alla realizzazione da parte degli organi fonatori che, per la spontanea tendenza al minimo sforzo, semplificano la complessità della programmazione. Ciò ha effetti sul piano acustico, dove le caratteristiche dei singoli foni non sono stabili ma variano in funzione del contesto di riferimento. Il processo descritto si attua in tutti i casi di parlato connesso e può dare luogo a fenomeni sistematici, alcuni pertinenti fonologicamente (“varianti libere, varianti combinatorie”), altri pertinenti al solo piano delle realizzazioni fonetiche (Vallone, Caniparoli, Savy 2001). Whalen (1990) invece afferma che la coarticolazione va vista più come il risultato di una pianificazione dell’enunciato piuttosto che come una conseguenza della produzione. Lo studioso ha così evidenziato uno dei nodi più rilevanti all’interno del fenomeno di coarticolazione, e cioè fino a che punto l’articolazione possa dirsi pianificata e quanto, invece, essa sia il risultato di processi meccanici. A un estremo c’è la posizione di chi considera l’articolazione organizzata in schemi fissi di gesti articolatori meccanici, che corrispondono all’incirca ai fonemi e alle transizioni consonante-vocale; essendo tali gesti automatici e non controllabili, in una successione veloce di fonemi accade, dunque, che essi si sovrappongano, non essendosi conclusa la completa configurazione articolatoria il processo articolatorio di un fono prima che inizi quello del successivo. Alla compiutezza dei processi articolatori concorrono fattori quali la durata, e lo sforzo, l’impegno esercitato. Non c’è nulla di flessibile, dunque, nell’articolazione e i movimenti sono determinati esclusivamente dall’“input” del sistema fonatorio. Il modello è perciò detto “input-driven” . La posizione opposta vede il parlante pianificare i movimenti articolatori, adattandoli di volta in volta al fine di assicurarsi la produzione del suono desiderato (modello “output-driven”)(van Son 1993:11). Secondo tale modello tutte le variazioni foniche del parlato sono il risultato di differenze tra la pianificazione e la realizzazione dei foni. Più precisamente, riguardo alla coarticolazione, van Son ritiene che essa favorisca l’identificazione del contesto consonantico.

Oltre che dagli innumerevoli fenomeni di coarticolazione, la produzione linguistica è veicolata da una serie di altri parametri variabili tra cui quelli diatopici, quelli diastratici, quelli

stilistici e quelli individuali, che contribuiscono alla variabilità delle proprietà fisico-fonetiche dei suoni linguistici. Ne consegue che ogni atto comunicativo è irripetibile. Ed è proprio questa peculiarità a rendere difficili i processi naturali di decodifica, e a complicare l’elaborazione di teorie della percezione complete e soddisfacenti.

La variabilità del segnale acustico, oltre ad essere legata ai fenomeni di coarticolazione che interessano il linguaggio parlato, è anche dovuta alle caratteristiche, fisiche e di velocità d’eloquio, del parlante.

In campo percettivo, la difficoltà, legata alla coarticolazione, è costituita dalla mancanza di invarianza dei suoni linguistici dal punto di vista acustico. Ciò che viene percepito come uno stesso suono, se osservato dal punto di vista fisico, appare tutt’altro che identico nella quasi totalità delle sue manifestazioni.

Le ricerche hanno perciò tardato a interrogarsi sulla definizione delle unità percettive, poiché molti problemi nascono dal confronto tra segnale acustico e entità astratte dell’analisi linguistica, tratti distintivi e fonemi. Nonostante ciò, ognuna di queste unità ha mostrato avere una realtà psicologica. La prova più diretta deriva dagli studi sugli errori linguistici, come le metatesi, riguardanti fonemi, sillabe e parole. Di particolare interesse è osservare come gli errori commessi dai parlanti riguardino lo scambio tra consonanti, o tra vocali, ma che tali sbagli non si verificano mai in uno scambio tra una vocale e una consonante. In ogni caso, errori di metatesi di tal genere dimostrano che logicamente il parlante abbia un controllo indipendente sulle unità di errore. E se tali unità sono prodotte indipendentemente è ragionevole credere che esse siano altrettanto indipendentemente percepite.

A partire dai risultati ottenuti nel campo della percezione, i ricercatori hanno ritenuto che le unità elementari di percezione corrispondessero alle unità più piccole capaci di distinguere due diverse parole, cioè i segmenti fonetici. Essi sono costituiti da più tratti, che, combinati insieme, lo definiscono. E, dal momento che si considera tale segmento come unità minima di una lingua, si è pensato che potessero esserci dei correlati acustici diretti di tali unità.

Con lo sviluppo delle tecniche di analisi si cominciò a isolare, rimuovere, o sintetizzare varie caratteristiche acustiche del segnale acustico, nel tentativo di stabilirne il peso nella fase di percezione (Cooper, Delattre, Liberman, Borst & Gerstman 1952). Le esperienze si basavano su analisi spettrografiche, grazie a cui è possibile riconoscere bande di energia concentrate a diverse frequenze. Tali bande, le formanti, corrispondono alle naturali frequenze di risonanza del tratto vocalico durante la sua attività. Ma, nel momento in cui si cominciò a cercare le caratteristiche acustiche corrispondenti ad un segmento fonetico, si scoprì ben presto l’impossibilità di separare tali bande di energia in alcuni contesti, come, ad esempio, una sequenza CV, poiché nessuna parte

del segnale acustico sembrava corrispondere al segmento consonantico, o, almeno, come osservato da Liberman et al., sembrava che ogni porzione del segnale recasse informazione su entrambi i segmenti, vocalico e consonantico, simultaneamente.

Tali scoperte, che rivelarono come non vi fosse una particolare configurazione di segnale corrispondente a un segmento fonetico, stimolarono i ricercatori ad indagare su quali siano in realtà le unità elementari nella fase di percezione. A tal proposito c’è chi ha avanzato l’ipotesi, a partire da riscontri empirici, che le unità minime per la percezione non siano i foni/fonemi ma le sillabe, e che i primi derivino da queste (Massaro 1972). Non si è riusciti a trovare un consenso sulla taglia delle unità minime, e molte critiche sono state mosse sui metodi di rilevamento. Se si prende in considerazione l’aspetto pragmatico, come alcuni ricercatori hanno tentato di fare, le difficoltà crescono enormemente.

Bisogna inoltre aggiungere che molta della confusione riguardo le unità percettive potrebbe essere risolta se le distinzioni tra segnale e messaggio, e tra livelli acustici, fonetici, e sintattico-semantici, fosse mantenuta. Invece, nella ricerca, forse forzata, di unità tra i livelli, si è riscontrato un sostanziale accordo sul fatto che l’unità acustica di base del parlato, sia della percezione che della produzione, sia rappresentata dalla sillaba (Liberman, Delattre e Cooper 1952; Ladefoged 1967; Massaro 1972; Stevens e House 1972). Ciò non significa negare che vi siano porzioni più lunghe del segnale su cui l’apparato percettivo misura le relazioni, ma avanzare l’ipotesi che la più piccola porzione di segnale, prodotta da un gesto articolatorio, abbia valore sillabico, il che risulta ben diverso dall’affermare che la sillaba sia in assoluto l’unità linguistica e percettiva di base, come invece Massaro (1972) sembrava supporre.

Prendendo in esame l’unità del morfema, si può vedere come ciascuno sia costituito da fonemi, e tratti distintivi. I vincoli fonotattici, sia universali che specifici di una lingua, assicurano che un morfema si componga di una sequenza pronunciabile di vocali e consonanti. Sotto il controllo del sistema sintattico, che governa la struttura e la prosodia, i morfemi passano attraverso la trasformazione fonetica in una sequenza di gesti coarticolati. Tali gesti danno origine a una sequenza di sillabe acustiche, in cui i correlati acustici dei fonemi e dei tratti distintivi sono combinati. Il compito dell’ascoltatore sarebbe dunque quello di recuperare i tratti, il loro allineamento fonetico, in modo da ricostruire il morfema e il significato. La percezione implicherebbe l’analisi della sillaba acustica, per mezzo delle sue caratteristiche acustiche, nella struttura percettiva astratta, sia dei tratti, che dei fonemi, che caratterizzano il morfema.

Di fronte all’enorme variabilità acustica in relazione al contesto fonetico, la velocità, l’accento, e il parlante, i teorici hanno fatto ricorso alla teoria motoria, all’analysis-by-synthesis Stevens e Halle (1967, 1972), ricercando l’invarianza nel sistema di controllo articolatorio.

Ciononostante si può ritenere che alcune forme di modelli di matching possano operare sia nel parlato che nell’ascolto, e, al contrario, vi sono altre basi per credere che la mancanza di invarianza acustica rispecchi un legame tra produzione e percezione.

Nel documento Il ruolo della prosodia nel riconoscimento dell'accento regionale di tre varietà di italiano (pagine 33-37)