• Non ci sono risultati.

Analisi della coordinazione gestuale

5.2 Risultati dell‟analisi articolatoria

5.2.2 Analisi della coordinazione gestuale

Consideriamo ora i risultati dell‟analisi quantitativa. Per questa seconda parte dell‟analisi, ci siamo serviti di un metodo innovativo, sviluppato recentemente alla Queen Margaret University dal gruppo di ricerca coordinato dal prof. James Scobbie (Strycharczuk & Scobbie 2015)45.

Si tratta di un sistema che consente di trarre informazioni dinamiche dalle immagini ultrasoniche. Fino a poco tempo fa ci si limitava a confrontare la conformazione dei profili linguali più prototipici per un certo gesto articolatorio; tuttavia, questo approccio statico, che seleziona soltanto alcuni specifici stati nel processo di produzione dei suoni, finisce per perdere gran parte delle informazioni dinamiche disponibili al termine del processing dei dati articolatori, lasciandosi sfuggire le reali potenzialità dell‟UTI.

45 Cfr. anche Scobbie, Punnoose & Khattab (2013), in cui il grafico della velocità è usato per ottenere un quadro immediato dei rapidi sposamenti in alto e in basso della punta della lingua nei trills, seppur senza sfruttarne ancora le potenzialità per l‟analisi quantitativa.

86 Il metodo in questione, al contrario, rende conto dei movimenti della lingua nello spazio e nel tempo, vale a dire in tutto il suo dinamismo.

Innanzitutto, a seguito di un‟attenta osservazione della sequenza delle immagini ecografiche, si seleziona un luogo articolatorio particolarmente significativo nella produzione dei foni investigati. Nel nostro caso, ci interessava analizzare le dinamiche di coarticolazione tra gesto vocalico e gesto consonantico in fase di raggiungimento del punto di occlusione nella zona alveolare. Dall‟esame dei dati in nostro possesso, abbiamo riscontrato che il raggio (o fan line) 11 della griglia di riferimento sovrimposta alle immagini (v. § 5.6.2), già usato in Strycharczuk & Scobbie (2015), rappresenta un punto chiave dell‟articolazione alveolare.

A questo punto, si registrano gli spostamenti del contorno della lingua verso l‟alto e verso il basso lungo il raggio selezionato; la misura dell‟ampiezza del gesto articolatorio è impiegata poi come base per calcolare la velocità istantanea della lingua durante il suo movimento. L‟andamento della velocità della lingua può fornire preziose indicazioni sulle caratteristiche dei gesti e può aiutarci a confrontarli e definirli con maggiore precisione.

Questa procedura, che si serve della misura degli spostamenti e della relativa velocità per l‟analisi dinamica della lingua, potrebbe risultare familiare a chi ha già esperienza con altre tecniche di misurazione diretta della lingua, come l‟EMA (v. § 5.2.2), e di fatti da esse trae ispirazione. Nondimeno c‟è una sostanziale differenza con l‟EMA: mentre in quest‟ultima viene tracciato lo spostamento nello spazio del medesimo punto sulla superficie della lingua, con l‟UTI la porzione della lingua che si muove lungo il raggio di misurazione cambia; ciò che resta invariato è invece l‟asse di riferimento prescelto nella cavità orale, corrispondente ad una determinata regione di interesse.

Attraverso un algoritmo già disponibile nel software AAA, sono stati quindi calcolati i valori di distanza e velocità lungo il raggio 11 per ogni frame nella sequenza di immagini corrispondente alla durata acustica della vocale e della consonante. I valori di distanza e velocità così trovati sono stati poi riportati in tabella, insieme ai dati relativi alla parola e alla ripetizione cui appartenevano, al segmento corrispondente, alla struttura sillabica, alla durata della vocale e della consonante e infine all‟istante temporale a cui si riferivano. L‟operazione è stata ripetuta per ogni parlante.

87 Per calcolare la misura del grado di coordinazione gestuale tra la vocale e il gesto consonantico seguente abbiamo utilizzato l‟indice proposto da Celata et al. (in preparazione) e discusso durante la presentazione dei loro risultati preliminari al convegno AISV 2017: la variabile di Coordinazione Gestuale (GC). Secondo il loro punto di vista, valutare il grado di coordinazione gestuale vuol dire misurare quanto il gesto consonantico è anticipato durante la produzione della vocale.

Ogni fono, difatti, è caratterizzato da una specifica configurazione degli organi articolatori. La configurazione della lingua durante l‟emissione di una vocale bassa è ben diversa dalla conformazione che deve assumere per produrre un contatto con il palato, ad esempio. I movimenti articolatori specifici di unità adiacenti non sono tuttavia sequenziali, anzi si rivelano sovrapposti e interattivi (Vayra 2002). Per passare da un gesto articolatorio a quello successivo l‟apparato fonatorio impiega ovviamente un certo tempo, che visivamente corrisponde alla fase di transizione da un target articolatorio all‟altro. Questa fase di transizione in cui i gesti articolatori interferiscono reciprocamente è generalmente indicata come coarticolazione. Più è lunga la fase di transizione, maggiore è il grado di coarticolazione. Se due suoni sono molto coarticolati, ciò significa che c‟è una forte coordinazione tra i due gesti articolatori, e viceversa, se due suoni sono poco coarticolati (fase di transizione breve), la coordinazione tra di essi è scarsa.

Nel caso specifico di /t/ e /d/, il gesto apicale inizia durante ciò che acusticamente è ancora la vocale precedente: nonostante all‟ascolto e sullo spettrogramma sia ancora chiaramente percepibile un suono vocalico, la lingua inizia già a sollevarsi per raggiungere il punto di occlusione nella zona alveo-dentale. L‟indice di Coordinazione Gestuale misura allora la durata del gesto vocalico, prima che inizi il gesto apicale atto a produrre l‟occlusione.

Al fine di calcolare la misura di Coordinazione Gestuale in maniera oggettiva e rigorosa, si è reso necessario definire dei punti di riferimento (o landmarks all‟inglese) nel grafico che rappresenta l‟andamento della velocità, in base ai quali effettuare le misurazioni.

Prima, però, è utile ripercorrere le tappe del passaggio dalla vocale alla consonante dal punto di vista articolatorio e considerarne le conseguenze sull‟evoluzione della velocità: durante il gesto vocalico la posizione della lingua dovrebbe rimanere piuttosto stabile, per cui la velocità della lingua dovrebbe risultare

88 prossima allo zero; nel momento in cui la lingua inizia a sollevarsi per raggiungere il punto di contatto con la volta palatina anche la velocità inizia ad aumentare fino a raggiungere la velocità massima, per poi rallentare all‟avvicinarsi del bersaglio. Il raggiungimento del bersaglio articolatorio dovrebbe essere segnalato da un valore della velocità nullo o comunque prossimo allo zero. Teoricamente questo valore dovrebbe essere mantenuto per tutto il tempo di tenuta dell‟occlusione, fino al momento del rilascio, quando la lingua si sposta nuovamente con un movimento rapido verso il basso, generando un repentino incremento della velocità.

L‟andamento della velocità del movimento linguale tende a seguire, del resto, un modello comune a molti movimenti corporei sottoposti al nostro controllo. La dinamica sottesa al movimento di un arto, ad esempio, è perfettamente affine a quella appena illustrata. Immaginiamo di dover tendere il braccio per afferrare un bicchiere: il braccio è inizialmente in posizione di riposo, fermo, dunque la sua velocità iniziale è pari a zero; quando iniziamo a spostarlo, la sua velocità aumenta gradualmente (a seconda della velocità complessiva del movimento), raggiunge poi un picco massimo all‟incirca alla metà del gesto, dopodiché si ha un‟inversione di tendenza, con la velocità che tende a diminuire a mano a mano che il braccio si avvicina all‟oggetto, fino a fermarsi nuovamente del tutto.

Tenendo bene a mente le dinamiche del movimento linguale, definiamo allora i punti di riferimento utili per la misura della Coordinazione Gestuale e per l‟analisi del grafico della velocità, ricavato dai dati precedentemente estratti e di cui si può visualizzare un esempio in Figura 21:

V onset acustico: è definito come il punto iniziale dell‟intervallo acustico

corrispondente alla vocale;

C Onset articolatorio: è il primo punto significativamente diverso

nell‟andamento della velocità durante la fase di tenuta della vocale tonica; più precisamente, è il primo punto disponibile nel grafico della velocità che oltrepassa approssimativamente il 20% del picco massimo della velocità, dopo valori prossimi allo zero;

C onset acustico: coincide con l‟istante temporale in cui inizia la durata

89

C target articolatorio: rappresenta il raggiungimento del target articolatorio

del gesto consonantico; è definito come il punto corrispondente al valore di velocità più prossimo allo zero dopo il picco di velocità massimo.

Figura 21 Andamento della velocità in funzione del tempo. I valori positivi corrispondono ad uno spostamento verso l'alto, quelli negativi ad uno spostamento verso il basso. I punti indicati rappresentano i valori

adottati come landmarks per l'analisi articolatoria.

Possiamo ora fornire una definizione più adeguata della variabile di Coordinazione Gestuale (GC): essa corrisponde alla durata dell‟intervallo temporale compreso tra l‟inizio acustico della vocale, il V onset acustico, e l‟inizio articolatorio del gesto consonantico, il C onset articolatorio. In altre parole, la GC misura la durata della vocale pura, dal punto di vista articolatorio, dal momento che la si isola dalla fase di transizione, acusticamente compresa nella vocale, durante la quale ha già inizio il gesto consonantico.

Facendo sempre riferimento a Celata et al. (in preparazione), abbiamo infine normalizzato la misura della Coordinazione Gestuale per la durata acustica assoluta della vocale, ottenendo il valore di Coordinazione Gestuale normalizzato, GCNorm,

secondo la formula di seguito indicata:

0,0795 9,287 17,8767 0,8709 -5 0 5 10 15 20 Veloc ità Tempo V onset

Durata acustica /a/ Durata acustica /t/

Durata articolatoria /a/ = GC

C onset art.

C target art. C onset ac.

90 Dall‟applicazione di questa formula, ne consegue che valori elevati di GCNorm

corrispondono ad un grado di anticipazione debole del gesto consonantico (in altre parole, a una coordinazione tra gesto vocalico e consonantico più allentata), valori bassi indicano, al contrario, una forte anticipazione gestuale (che si traduce in una coordinazione gestuale molto stretta).

L‟operazione di normalizzazione ha il vantaggio di prescindere dalle differenze di durata vocalica e rendere quindi confrontabili contesti fonetici diversi. In breve, rende possibile valutare le differenze nell‟anticipazione gestuale nella condizione ideale di parità durazionale.

È da dire comunque che il profilo della velocità non rispecchia sempre in maniera così lineare le aspettative teoriche: spesso la lingua continua a muoversi anche di molto negli intervalli di tempo in cui ci aspetteremmo che essa sia ferma nella posizione di tenuta; soprattutto dopo il raggiungimento del target articolatorio, spesso si osservano dei picchi di velocità minori per spostamenti verso l‟alto.

Per l‟analisi dei risultati è opportuno riepilogare tutti i fattori che potrebbero condizionare la coordinazione gestuale. Escludiamo innanzitutto un possibile fattore condizionante, ovvero le proprietà articolatorie specifiche dei segmenti, come si potrebbe supporre in base agli studi sulla diversa capacità di resistenza alla coarticolazione delle consonanti (cfr. ad esempio Pouplier & Waltl 2008, Pastätter & Pouplier 2015), dal momento che il nostro corpus ne contiene una sola categoria omogenea (/t/ e /d/). In base alle recenti acquisizioni sulla differente sincronizzazione dei gesti consonantici con il nucleo a seconda della posizione di attacco o di coda (Browman & Goldstein 1988, 2000, v. anche cap. II), ci aspettiamo di trovare una differenza di coordinazione gestuale tra gesti contenuti in strutture sillabiche diverse. Per l‟esattezza, dovremmo trovare una coordinazione più stretta tra il gesto della consonante in coda e la vocale tonica, in quanto appartenenti alla stessa sillaba (in altre parole in contesto di geminate e di nessi eterosillabici), e una coordinazione più scarsa tra gesti appartenenti a sillabe diverse (in contesto di scempie e nessi tautosillabici). Un ulteriore elemento di variazione potrebbe essere dato dalle variazioni di durata dell‟intervallo consonantico (Celata & Mairano 2014). Infine, la coordinazione gestuale potrebbe dipendere da strategie articolatorie individuali (Celata & Mairano 2014, cfr. anche Zmarich & Gili Fivela 2005).

91 Consideriamo ora la Figura 22, in cui sono riportati i valori della variabile GCNorm

in funzione del contesto, suddivisi per parlante e complessivamente, e la Tabella 12.

Parlante 1 Parlante 2

Parlante 3 Parlante 4

Parlante 5 Globale

92

Tabella 12 Media e deviazione standard dei valori di GCNorm per parlante e contesto.

Parl. 1 σ Parl. 2 Σ Parl. 3 σ Parl. 4 σ Parl. 5 σ

Scempie 64,19 5,94 60,71 7,97 57,04 16,07 72,12 10,48 71,31 12,15 Nessi Tautosillabici 63,65 11,86 50,87 8,93 51,93 12,77 60,61 11,82 71,90 12,00 Geminate 54,16 17,018 50,63 12,67 63,13 23,36 56,45 11,56 73,66 13,77 Nessi Eterosillabici 48,46 15,57 44,23 19,37 52,65 16,36 60,90 11,79 80,86 14,57

A prima vista, il quadro appare piuttosto caotico. Il grado di coordinazione gestuale non segue un modello univoco, bensì sembra variare da soggetto a soggetto.

I primi due parlanti mostrano una distribuzione molto simile: i valori di GCNorm

hanno un andamento discendente dal contesto scempio a quello eterosillabico. A questi due parlanti possiamo accostare il parlante 4, che con loro condivide un basso grado di anticipazione per la consonante scempia.

Anche all‟interno di questo gruppo ristretto, tuttavia, si notano differenze sostanziali. Nel parlante 1 i nessi tautosillabici si pongono al livello delle consonanti scempie, presentando valori medi di coordinazione gestuale molto simili (in contesto scempio 64,19 – σ=5,94 – e con nessi tautosillabici 63,65 – σ=11,86); inoltre, in contesto di scempie, i valori di GCNorm si concentrano tutti intorno alla media.

Nel parlante 2, invece, i nessi tautosillabici sono assimilabili per grado di anticipazione del gesto consonantico alle geminate (scempie 60,71 – σ=7,9; nessi tautosillabici 50,87 – σ=8,93; geminate 50,63 – σ=12,67).

Relativamente al parlante 4, i valori di coordinazione gestuale in presenza di consonante scempia sono molto alti (72,12 – σ=10,48), cioè la consonante coarticola minimamente con la vocale precedente; i valori di GCNorm negli altri contesti sono

all‟incirca sullo stesso piano, attestandosi intorno ai 60 punti (nessi tautosillabici 60,61 – σ=11,82; geminate 56,45 – σ=11,56; nessi eterosillabici 60,9 – σ=11,79).

Il parlante 3, dal canto suo, ha una distribuzione alquanto uniforme in tutti i contesti, con differenze quasi trascurabili tra l‟uno e l‟altro; l‟unica particolarità è la grande dispersione dei valori nel caso delle geminate.

Il parlante 5, infine, si comporta in controtendenza rispetto agli altri parlanti, poiché coarticola di più nel caso di nessi eterosillabici che nelle altre posizioni, in cui si rileva una sostanziale omogeneità.

Un‟altra osservazione riguarda l‟entità dei valori medi di coordinazione gestuale. Alcuni soggetti (1 e 2) raggiungono livelli molto bassi di GCNorm, cioè anticipano

93 notevolmente il gesto consonantico, che arriva ad occupare più della metà acustica della vocale in questi parlanti per il contesto eterosillabico (nessi etero: parlante 1 48,46 – σ=15,57; parlante 2 44,23 – σ=19,37). Al contrario, i valori più alti riguardano il contesto scempio, soprattutto per il parlante 4 (72,12 – σ=10,48). Il parlante 5, invece, mostra nel complesso valori mediamente più alti, a prescindere dal contesto; in altre parole, rispetto al grado di coordinazione degli altri parlanti, in questo soggetto i gesti articolatori sono piuttosto indipendenti, in quanto l‟intervallo di transizione interno alla durata acustica della vocale in cui inizia il gesto apicale della consonante è più breve.

Riassumendo, dall‟analisi dei dati articolatori vien fuori uno scenario complesso, di ardua interpretazione e difficilmente riconducibile ad un‟unica strategia articolatoria. Inoltre, nessuno dei nostri parlanti mostra un comportamento articolatorio in linea con i risultati parziali di Celata et al. (in preparazione), dove i nessi tautosillabici esibivano un livello di anticipazione intermedio tra il contesto scempio e quello geminato (v. cap. IV). Nei nostri dati il gesto consonantico dei nessi tautosillabici si allinea o ai valori delle scempie (parlante 1) o ai valori delle geminate (parlanti 2 e 4), quando i dati non si appiattiscono sullo stesso livello, come nei parlanti 3 e 5.

94

6

Tra fonetica e fonologia

Al termine dell‟analisi dei dati, acustici ed articolatori, non ci rimane che riflettere sui risultati ottenuti, alla luce della spiegazione della teoria tradizionale e consci delle critiche ad essa mosse in anni recenti.

Il primo interrogativo è il seguente: come interpretare i risultati relativi alle durate acustiche nei bisillabi piani da noi presi in considerazione? Come essi si pongono nei confronti degli studi sperimentali precedenti? L‟OSL ipotizzato per l‟italiano agisce sulle parole nel nostro corpus o è neutralizzato (o quanto meno ridotto) da fenomeni di compensazione anticipatoria di natura transillabica?

Procediamo per gradi. I risultati delle nostre analisi mostrano una variazione consistente della lunghezza vocalica in sillaba tonica tra il tipo sillabico aperto e il tipo chiuso, sia per i cinque parlanti presi singolarmente che per il campione nel suo complesso. Confrontando la vocale tonica in sillaba aperta (seguita cioè da scempia o nesso tautosillabico) con la vocale tonica in sillaba chiusa (ovvero nei casi in cui essa è seguita dal primo elemento di una geminata o di un nesso eterosillabico) abbiamo appurato che la vocale in sillaba aperta subisce un allungamento medio del 20%. La maggiore durata vocalica in sillaba libera, in posizione non finale di parola, è in accordo con gli studi svolti in precedenza su parole isolate (Josselyn, 1900; Parmenter & Carman, 1932; Fava & Magno Caldognetto, 1976; Bertinetto 1981; Vogel 1982; Marotta 1995), documentando ancora una volta l‟esistenza e la regolarità del fenomeno dell‟allungamento vocalico in italiano, per lo meno per parole isolate e parlato di laboratorio.

Per quanto riguarda le variazioni di durata attese dagli studi di Farnetani & Kori (1986) e Celata & Mairano (2014), registriamo una riduzione sistematica della lunghezza vocalica in sillaba tonica aperta quando la vocale è seguita da un nesso tautosillabico rispetto a quando essa è seguita da una consonante scempia. Vale a dire, si presenta una situazione nella quale la vocale di fronte a nessi tautosillabici (es. botro) è inferiore alla vocale seguita da scempia (es. mota), ma comunque maggiore che in sillaba chiusa (es. motto o Botman). Abbiamo, cioè, una situazione del tipo mota > botro > Botman, in cui la vocale diminuisce da sinistra a destra e contemporaneamente l‟intervallo consonantico aumenta da destra verso sinistra. Abbiamo dunque verificato l‟esistenza di una correlazione tra lunghezza vocalica e lunghezza dell‟intervallo consonantico successivo, secondo l‟ipotesi di Celata &

95 Mairano (2014). L‟analisi statistica ha evidenziato la presenza di una correlazione inversa: ciò significa che all‟aumentare dell‟intervallo consonantico diminuisce proporzionalmente la durata della vocale tonica. Questa correlazione tuttavia ha una portata alquanto ridotta, sebbene i test statistici indichino che possa essere estesa anche al di fuori del nostro campione. Una tendenza alla compensazione all‟interno dell‟intervallo V-to-V è allora attiva, ma rimane pur sempre una modesta linea di tendenza, come mostra l‟ampio margine di variazione di tale intervallo tra i diversi contesti nel nostro corpus, soprattutto tra il contesto con consonante scempia e tutti gli altri.

Occorre sottolineare, inoltre, che l‟accorciamento della durata vocalica documentato per il contesto tautosillabico, per quanto sistematico, è di portata assai ristretta, dell‟ordine di pochi millisecondi (in media 7,5 ms!). L‟esiguità dello scarto temporale in oggetto ci induce a riflettere su una questione delicata, quella della rilevanza percettiva delle variazioni durazionali.

Visti gli scarti limitati di durata affiorati dalla nostra analisi, viene a questo punto spontaneo domandarsi: tali variazioni sono percepite dai parlanti? Qual è lo scarto minimo affinché due suoni siano percepiti come diversi? Quale la differenza minima di durata perché due foni possano dirsi diversi per quantità? Esiste una soglia assoluta o la si deve invece esprimere in rapporto alla durata dei segmenti, quindi secondo una proporzione?

Nel nostro caso, la durata della vocale accentata in sillaba aperta è pari mediamente a 175,6 ms in contesto di scempie e 168,1 ms se seguita da nessi tautosillabici. Questi due valori devono essere considerati diversi o possono essere equiparati? Il nostro sistema uditivo è in grado di discriminarli? La capacità di percezione dell‟ascoltatore è tanto fine da distinguere suoni diversi per soli 7,5 ms?

Ancora oggi gli studi sulla soglia percettiva minima delle differenze temporali sono scarsi. Le variazioni minime percepibili tra stimoli di diversa durata sono altresì note in letteratura come just-noticeable differences (JND). Un riferimento classico in proposito rimane Lehiste (1970).

Fin dai primi studi si è tentato di esprimere la soglia differenziale nella forma di un rapporto tra lo scarto di lunghezza e la durata assoluta dei suoni coinvolti (Weber 1933). Questo rapporto però non sembra mantenersi costante e studi diversi sono giunti a soglie minime tra loro differenti. Ciò che è chiaro, in ogni caso, è che a

96 valori di durata superiori corrispondono soglie differenziali maggiori. Ad esempio, per giudicare diversi due suoni che si aggirano intorno agli 80 ms servirà una differenza di durata di 15 ms circa; per suoni più lunghi, poniamo 200 ms, occorrerà uno scarto maggiore, di circa 35 ms (Lehiste 1970: 12).

Bisogna comunque considerare che le soglie di discriminazione ricavate in laboratorio, nella realtà delle conversazioni quotidiane, immerse come sono in un ambiente spesso rumoroso, vanno poi rivalutate per eccesso.

Determinare l‟intervallo temporale minimo percepibile è un‟operazione complessa perché, oltre alla durata dei segmenti adiacenti, entrano in gioco altri fattori fonetici che possono condizionare la percezione dei foni. Tra questi menzioniamo la frequenza fondamentale, che si traduce a livello percettivo nella sensazione di maggiore o minore acutezza della voce, e l‟intensità, corrispondente al volume del segnale sonoro. Anche in questo senso sono stati condotti alcuni studi

Documenti correlati