È possibile una fonologia cognitiva?
3.6 Caso di studio primo “Transizioni” e “transazioni”
3.6.1 Protocollo test 1 Scelta della pronuncia italiana “corretta”
Il gruppo di partecipanti per il test 1 ammonta complessivamente a 150 soggetti (il test 2 ha un campione di 60 partecipanti, 210 partecipanti in totale divisi tra i due test e tra i singoli stimoli proposti in fase sperimentale), di età compresa tra i 20 e i 25 anni, studenti universitari iscritti a corsi di laurea, perlopiù triennale, in lettere, lingue, discipline della mediazione linguistica e scienze della comunicazione. La scelta è ricaduta su partecipanti provenienti da province italiane centromeridionali279, per via del giudizio che dovevano dare sulla fonetica di un italiano “corretto” in relazione ad una tendenza fonetica perlopiù settentrionale, come abbiamo detto. Per riferire ad un ipotetico standard la scelta, abbiamo perciò voluto verificare la ricezione del fenomeno da parte di chi non doveva esserne anche il “produttore” vincolato dalla propria fonetica regionale o locale. Chiaramente, nessun riferimento esplicito è stato fatto dall’intervistatore alla variazione in diatopia (presunta o reale) delle forme da scegliere. Il gruppo si caratterizza inoltre per una forte maggioranza di soggetti femminili. Gli stimoli somministrati sono stati realizzati con un software gratuito di registrazione ed editing di tracce audio, a partire da una voce maschile reale. La somministrazione è avvenuta individualmente per ciascun soggetto, attraverso la riproduzione degli stimoli dalle casse di un personal computer, in ambiente chiuso non interferito. Quanto detto sulla caratterizzazione del campione interrogato e sulle strumentazioni utilizzate vale per entrambi i test, così come in entrambi è stato riservato uno spazio per le dichiarazioni spontanee seguite all’esecuzione del compito, che sono state poi raccolte e registrate. L’esperimento nel suo complesso non è stato a doppio cieco, in quanto abbiamo svolto il ruolo di esaminatore, pur in scienza e coscienza e cercando di non
279 I soggetti sottoposti ai test provenivano dalle seguenti province centromeridionali: AG, AN, AP, AQ, BA, BN, BR, CB, CH, CS, FG, FM, FR, LE, MC, NA, PE, RC, RM, SA, SR, TA, TE, TR.
177 influenzare in alcun modo le risposte, anche con accorgimenti specifici che verremo via via evidenziando.
Il test 1 consisteva nella scelta tra due pronunce della stessa parola che si sarebbero ascoltate, chiedendo all’intervistato quale fosse la pronuncia italiana corretta, poiché veniva dichiarato dall’esaminatore che una delle due era sicuramente scorretta in un italiano di livello alto, formale. I soggetti non venivano informati in alcun modo in che cosa consistesse la differenza tra i due stimoli, e l’eventuale individuazione dell’opposizione è stata lasciata alle dichiarazioni spontanee su quanto percepito. I due stimoli venivano somministrati uno dopo l’altro, ed era possibile chiedere un secondo ascolto prima di scegliere a voce tra la prima e la seconda pronuncia (della risposta prendeva nota l’esaminatore, senza mai mostrare il modello predisposto alla raccolta dati). Per evitare effetti di priming, o per renderli statisticamente ininfluenti, le due distinte registrazioni-stimolo sono state somministrate alternativamente, ovverosia metà dei soggetti sono stati esposti alla sequenza “audio a – audio b” e l’altra metà ad “audio
b – audio a” (questo vale anche per il test 2). Il rischio che abbiamo tentato di aggirare,
altrimenti, sarebbe consistito nella scelta della prima o della seconda forma in base proprio alla sua priorità (o seriorità) cronologica di ascolto rispetto all’altra. Abbiamo in seguito verificato che non si registrano sensibili squilibri di scelta in base all’ordine di presentazione dello stimolo, e che gli intervistati che hanno scelto con alte percentuali (ma lo stesso avviene con le percentuali inferiori) la stessa forma l’hanno fatto indifferentemente dall’ordine di presentazione di questa.
Le coppie che abbiamo scelto di presentare per indagare il fenomeno sono cinque: tran[s]izione/tran[z]izione, tran[s]azione/tran[z]azione, tràn[s]ito/tràn[z]ito,
tran[s]etto/tran[z]etto, tran[s]eunte/tran[z]eunte. La scelta dei campioni-stimolo è
ricaduta su forme volutamente differenziate per frequenza d’uso (“transeunte” e “transetto” hanno bassissima frequenza in quanto legati a sottocodici e contesti alquanto limitati), per sede accentuale (trans- atono o tonico, sillabe toniche o atone immediatamente successive a trans-), per contesto vocalico in cui trans- è inserito ([i], [a], [e] dopo trans-), per trasparenza semantica (la quasi totalità degli intervistati non sapeva cosa significasse “transeunte”, addirittura considerata una non-parola da alcuni, ben pochi inoltre conoscevano il significato di “transetto”; ovviamente la trasparenza semantica è legata al parametro della frequenza in questo caso). Per ogni coppia di
178 stimoli abbiamo raccolto 30 risposte. È stato preso l’accorgimento di cambiare di volta in volta la coppia di stimoli sottoposti tra un soggetto e il successivo, di modo che non potessero invalidare l’indagine scambiandosi informazioni sulla stessa parola tra chi era in attesa di sottoporsi all’inchiesta e chi usciva dopo aver risposto. Inoltre, a nessuno dei partecipanti è stata data risposta sulla presunta correttezza dell’una o dell’altra forma.
3.6.2 Risultati
Gli ascoltatori hanno chiesto nella quasi totalità dei casi (oltre l’80%) di ripetere la riproduzione degli stimoli audio (dall’esaminatore ripresentati nello stesso ordine del primo ascolto). Questa richiesta frequente da parte dei partecipanti può trovare spiegazione in alcuni dei risultati neurolinguistici a cui pervengono Miglietta-Grimaldi- Calabrese (2012, 288-289), che mostrano che la capacità di riconoscimento del dettaglio fonetico predicibile è una facoltà che implica una più lenta processazione rispetto alla discriminazione fonematica280:
Our results appear to suggest that two perceptual modes are available for speech perception: a faster phonological (categorical) mode and a slower phonetic (sensory) mode. We have used “perceptual mode” to refer to the set of perceptual computations that transform the continuously varying acoustic waveforms into discrete representations. We do not want to imply that the two modes are qualitatively different (that is, one is ‘prior’ in a chain of processing steps), nor we want to suggest that they are derived from different neural processes. Rather, our idea is that there is a single neural computation – the mapping of auditory inputs into higher perceptual representations – that is ‘sensitive’ to the contrastive/non contrastive status of the sounds as determined by the listeners’ knowledge of the phonological system of their own language. […] Our results generate the assumption that predictable vowel allophonic alternations (out of context) pattern with phonemic contrasts for auditory perception.
In generale, la differenza è stata percepita come minima in molti dei commenti spontanei, e le indecisioni dichiarate sono state frequentissime. In media, la scelta
280
In estrema sintesi, gli autori verificano attraverso l’analisi della MMN (mismatch negativity), con gli stimoli [e], [i], [] per l’italiano, le latenze di risposta degli ERP (event related potential(s)) della presentazione del segmento. Tra contrasti fonemici [i]/[e] la differenza di latenza di risposta è 8 ms, mentre sale a 28 ms tra [e] e [] tradizionalmente allofonici.
179 dell’una o dell’altra forma è avvenuta dopo il secondo ascolto in un intervallo tra 5 e 8 secondi (la raccomandazione era quella di fornire una risposta alquanto rapida e spontanea). 3.8
TEST
[s]
[z]
TRANSIZIONE 20/30 – 66,6% 10/30 – 33,3% TRANSITO 26/30 – 86,6% 4/30 – 13,3% TRANSAZIONE 23/30 – 76,6% 7/30 – 23,3% TRANSETTO 24/30 – 79,9% 6/30 – 20% TRANSEUNTE 26/30 – 86,6% 4/30 – 13,3% TOTALE 119/150 – 79,3% 31/150 – 20,6%Stando ai dati raccolti, la distribuzione della scelta, per l’italiano standard/formale, delle forme con [z] configura una scala di preferenza legata al singolo lessema.
Constatiamo che il totale della scelta delle pronunce [z] come corrette, cioè il 20,6% su un campione di 150 interrogati, rappresenta una quota consistente per un fenomeno di variazione, pur dal destino incerto. La percentuale totale è in ogni caso una conferma della sussistenza del fenomeno. In ordine decrescente, la gerarchia che si ricava quanto all’accettabilità delle singole parole con [z] è la seguente:
Scala [z]:
TRANSIZIONE > TRANSAZIONE > TRANSETTO > TRANSITO – TRANSEUNTE
Dati i numeri dell’istanza di campionamento per ogni singola parola, sono possibili di certo alcuni tipi di osservazioni, mentre ci asteniamo da altri che abbisognerebbero di numeri più cospicui per essere condotte.
Innanzitutto la gerarchia di distribuzione in cui il fenomeno “in ricezione” è radicato maggiormente riserva la sorpresa di non essere unicamente legata alla
180 frequenza d’uso. Secondo i dati CoLFIS281, la frequenza d’uso reale (o realistica) delle
cinque parole ci restituisce un quadro che organizza diversamente questo campione di lessico, ridimensionando l’ipotesi secondo cui quest’innovazione, qui indagata dal punto di vista dell’ascoltatore, si diffonda prima nelle parole ad alta frequenza, e solo successivamente in quelle più rare. Lo strumento scelto per verificare la frequenza si presta bene allo scopo: a proposito del Corpus e lessico di Frequenza dell’Italiano
Scritto, Bambini-Trevisan (2012, 2) evidenziano che esso è stato costruito con lo scopo
di avvicinarsi «il più possibile al lessico mentale di un parlante di media cultura», e che mira a soddisfare ricerche in prospettiva neuro- e psicolinguistica (ivi, 3). In base all’indagine sulla frequenza, dunque, emergono i seguenti risultati.
3.9
LEMMA RANGO FREQ. TOT. DISPERSIONE TOT.
TRANSIZIONE 7275 45 0,67
TRANSITO 11771 23 0,60
TRANSAZIONE282 60127/31225 3 0,15/0,46
TRANSETTO - - 0
TRANSEUNTE - - 0
Il rango indicato nel database indica la classifica in base alla frequenza, pertanto un rango più basso corrisponde ad una frequenza maggiore. L’indice di dispersione totale del lemma è compreso tra 0 e 1, ed è la valutazione, espressa in forma di coefficiente, del grado di distribuzione della parola nei diversi sottosettori del lessico, per cui più è
281 Bertinetto-Burani-Laudanna-Marconi-Ratti-Rolando-Thornton (2005),
http://linguistica.sns.it/CoLFIS/Home.htm.
Il corpus è stato allestito a partire dalle letture degli italiani, riguardanti individui di età superiore agli 11 anni, componenti di 24.000 famiglie (dati ISTAT). Le dimensioni del campione si estendono a 3 milioni di occorrenze lessicali, al fine di includere nel corpus un numero sufficiente di lemmi a bassa frequenza, per un totale di 3191137 ricorrenze lessicali. I materiali provengono da quotidiani (48,34%), periodici (34,40%), libri (17,26%). Cfr. Bambini-Trevisan 2012.
282 Il plurale TRANSAZIONI supera il singolare, e accresce la frequenza del lessema al rango 31225 del corpus, con coefficiente di dispersione di 0,46. Questa situazione non varia la gerarchia di frequenza che risulta dalle forme singolari scelte, ma va tenuta presente. In tutti i casi, ove i rispettivi plurali o femminili singolari/plurali delle forme scelte al maschile singolare siano nel corpus inferiori per frequenza (rango e coefficiente), abbiamo scelto di non segnalarli, in quanto statisticamente irrilevanti nell’organizzare una gerarchia frequence-based.
181 alto l’indice, maggiore sarà la diffusione del lemma nell’intero repertorio (teoricamente) di cui un parlante di media cultura dispone.
Incrociando i dati sulla base dei parametri “presenza di [z]” e “frequenza”, notiamo quanto segue:
a- TRANSIZIONE è al primo posto sia in termini di frequenza, sia per la plausibilità
della presenza di [z] secondo gli intervistati;
b- TRANSAZIONE fa divergere i due parametri, in quanto è al secondo posto per
presenza di [z], ma al terzo posto per la minor frequenza (dispersione 0,15/0,46);
c- TRANSITO si colloca in fondo alla scala di presenza di [z], mentre risulta la seconda
parola più frequente (dispersione 0,60);
d- TRANSETTO è mediamente plausibile per la presenza di [z], mentre ha frequenza 0
nel corpus;
e- TRANSEUNTE è in fondo alla scala di presenza di [z] (a pari merito con TRANSITO)
ed ha anche frequenza 0 nel corpus.
Dunque, i frequency effects non sembrano affatto ininfluenti per la diffusione e l’accettabilità del fenomeno283
, ma non sono le uniche forze in gioco per l’organizzazione cognitiva della forma fonica. I casi a, e, e parzialmente d, sono congruenti con l’esposizione reale degli ascoltatori alle forme con [z], pertanto sembra sensato ritenere che il dettaglio fonetico (predicibile e non fonematico) sia registrato a partire dalle forme più frequentemente ascoltate, mentre risulterà minoritario o di statuto più incerto nelle forme a bassissima frequenza, di cui non è noto nemmeno il significato nella stragrande maggioranza dei casi (TRANSETTO e TRANSEUNTE). Al contrario, i casi b e c sfuggono in due modi opposti al rapporto diretto con la frequenza: b sarebbe atteso a bassa accettabilità nella forma con [z], mentre c dovrebbe avere per lo stesso motivo un alto grado di accettabilità nella “scala [z]”.
283
È un fatto ampiamente accettato che in molti casi il mutamento fonetico graduale (passivo e ricettivo nel nostro caso) registri maggiori accelerazioni di diffusione nelle parole di alta frequenza rispetto a quelle di bassa frequenza (cfr. Bybee, 2000; Hooper, 1976; Phillips, 1984). Analogamente, Bybee (2006) e Hay-Foulkes (2016) mostrano la diffusione graduale e non omogenea dei mutamenti fonetici radicati negli exemplars cognitivi (non del tutto sovrapponibili a ciò che chiamiamo prototipi, cfr. infra, § 3.6) che emergono sulla base della frequenza-token. Una maggior attualizzazione dell’exemplar moltiplicherebbe le pressioni articolatorie (ma, diremmo, anche gli adeguamenti acustico-percettivi del ricevente) a cui l’elemento fonico interessato è sottoposto, velocizzandone il mutamento e la stabilizzazione nelle forme di alta frequenza.
182 Consideriamo inoltre che la frequenza è una variabile che va rapportata alla cosiddetta neighborhood density (ND) di una determinata parola, vale a dire la consistenza dell’insieme di parole del lessico mentale che hanno un grado significativo di somiglianza con la parola target quanto alla forma fonica. Cluff-Luce (1990), in uno studio sul riconoscimento di parole, hanno verificato che parole di facile riconoscimento hanno bassa ND (poche parole simili ad esse al polo fonologico) e frequenza alta; al contrario, parole di difficile riconoscimento hanno alta ND e bassa frequenza. Come emergerà più avanti, per motivi diversi, TRANSETTO e TRANSEUNTE hanno bassa frequenza, ma alta densità, mentre TRANSITO ha alta frequenza, ma bassa densità in relazione al suo schema prosodico. Recentemente, Freedman-Gennaro-DiTomaso (2015) hanno indagato la percezione della similarità fonologica negli adulti rideterminando ed estendendo il concetto di ND anche a similarità più estese rispetto alla variazione di un unico segmento. Per quello che qui ci interessa, nei risultati del loro studio la parte delle non-parole che hanno usato come stimolo che veniva sostituita dai partecipanti era quella finale nella stragrande maggioranza dei casi, indice del fatto che la base della similarità percepita riguarda ben spesso, anche se non unicamente (al secondo posto vengono immediatamente le unità finali), le unità iniziali di parola (cfr. ivi, 633). Nel nostro studio, l’alta o bassa densità di poli fonologici simili (di vari gradi di schematicità) andrà dunque riferita nella maggior parte dei casi agli schemi che riguardano trans-, e sarà tradotta in termini di conceptual overlap nei rapporti di estensione schematica.
3.6.2.1 Commenti spontanei di interpretazione della scelta
I soggetti esaminati hanno tentato di dare conto della loro scelta alla fine del test. La raccolta di dichiarazioni spontanee, non guidate da domande specifiche dell’esaminatore, rappresenta una finestra, per quanto angusta e da maneggiare con cautela, sull’interpretazione delle forme e del loro polo fonologico in particolare. Alcuni partecipanti non hanno dichiarato nulla sulla loro preferenza, mentre la maggioranza che ha fornito queste interpretazioni soggettive si è mossa in definitiva all’interno di 5 categorie di motivazioni della scelta. Ogni intervistato ha potuto fornire anche più di
183 una motivazione, quindi accrescendo la percentuale delle risposte in una, due o più delle 5 categorie così individuate284:
1) Ancoraggio alla scrittura (18%) 2) Impressioni sinestetiche (13,3 %)
3) Impressioni fonetiche (19,3%) 4) Impressioni diatopiche (20,6%)
5) Differenza riferita ad altro rispetto a [s]/[z] (8%)
La categoria 1) comprende tutte le motivazioni che tentano di spiegare la differenza attraverso il richiamo alla competenza alfabetica, o che in generale evocano il dominio dei grafemi per dare senso della scelta compiuta, ad esempio «la prima/la seconda/quella che ho scelto/quella che ho scartato (ecc.) ha piuttosto una (o una sorta di) esse/zeta». Nonostante il campione alquanto omogeneo di intervistati avesse in genere una qualche familiarità con le basi della linguistica generale, la persistenza della forma grafica per la rappresentazione cognitiva della sostanza fonica è alquanto forte (18%, 27/150) ed eguaglia quasi le impressioni fonetiche (19,3%, 29/150). Molto verosimilmente, le impressioni fonetiche sono destinate a scendere in un gruppo omogeneo di livello socioculturale inferiore o di un diverso ambito di studio rispetto a quello scelto, mentre l’ancoraggio alla scrittura registrerebbe un sensibile aumento.
La categoria 2), che abbiamo chiamato “impressioni sinestetiche” riguarda tutte le motivazioni addotte che fanno riferimento a caratterizzazioni che invocano altri domini concettuali rispetto a quelli della fonetica e della scrittura. Ne sono esempi casi del tipo «è una pronuncia più/meno naturale», «sembra una pronuncia più aperta/più dolce/più leggera/più fluida», «nella prima/seconda forma mi sembra una pronuncia più/meno sforzata», ecc… La quota della categoria 2) non è del tutto trascurabile,
284
Le percentuali, pertanto, si riferiscono alle motivazioni fornite e non ai partecipanti. Viene cioè calcolato in percentuale il tasso di risposte di un certo tipo su un totale di 150 partecipanti. Ogni partecipante può fornire più interpretazioni, ma sempre una sola per tipo, quindi ad ogni calcolo di percentuale l’intera categoria di risposte individuata è sempre un intero di massimo 150 risposte potenziali dello stesso tipo. In questa situazione, per essere più chiari, sarebbe virtualmente possibile che due categorie totalizzino entrambe il 100%, nell’ipotesi che tutti i 150 partecipanti dessero sempre entrambe le motivazioni nelle loro risposte. Questi dati sono dunque da leggersi come “il campione di intervistati ha fornito il tot.% di motivazioni di questo tipo”.
184 equivale ad un 13,3% che corrisponde a 20 motivazioni di questo tipo su 150 intervistati (20/150).
Nel caso delle impressioni fonetiche 3) rientrano tutte quelle considerazioni più direttamente fonetiche («la forma che ho/non ho scelto ha una “s” sonora/sorda», «credo che in italiano ci voglia la sonora/sorda in questa parola») insieme a quelle più generiche che fanno riferimento al suono [s] o [z] (ad esempio la riproduzione del suono scelto o scartato da parte dell’intervistato, oppure motivazioni del tipo «è più/meno orecchiabile», «con la [s]/[z] suona meglio/peggio»). In ogni caso, questo insieme di dichiarazioni contiene quelle che più direttamente dimostrano che gli intervistati si siano soffermati sulla dimensione fonetica dell’alternanza in questione. Una quota significativa si è dimostrata in grado di riflettere sulla differenza (sia pure in modo talvolta approssimativo) tra un segmento e l’altro (19,3%).
La maggioranza delle risposte appartiene alla categoria 4), riguardante le impressioni, più o meno corrette, sull’appartenenza di una delle due forme ad un dialetto e dell’altra all’italiano. Il 20,6% dei risultati si riferisce dunque a motivazioni del tipo «mi sembra una pronuncia più/meno dialettale», pertanto la scelta degli intervistati si è orientata verso la forma percepita come non (o meno) dialettale. Vanno segnalati alcuni casi, alquanto ricorrenti, di alcune risposte che evidenziano la riflessione comparativa degli stimoli proposti con la fonetica del proprio dialetto o italiano regionale: si sono registrati casi in cui la dichiarazione esplicita ha la forma «io pronuncio in questo modo, quindi è l’altra ad essere corretta» o, al contrario «io lo pronuncerei così, quindi anche in italiano mi sembra corretto». È da notare che quando i partecipanti attribuivano a se stessi o ad un dialetto le pronunce ascoltate erano ben spesso in “errore”. In realtà, quando sceglievano o scartavano [s] riferendola alla propria pronuncia, spesso si stavano riferendo inconsapevolmente a [ts], affricata esito dopo nasale nelle pronunce, ad esempio, di AN e provincia (es. tran[ts]izione); oppure, nel caso di [z], essa veniva sovente accolta o scartata scambiandola per [dz] (es.
tran[dz]ito), corrispondente sonora della prima nello stesso contesto, caratteristica
fonetica diffusa nelle pronunce dell’area marchigiana di MC e FM e in alcuni dialetti dell’area meridionale e meridionale estrema. Di rado è stata dichiarata la presunta consapevolezza che l’audio contenente [z] fosse variante diatopica settentrionale. Ciò suggerisce che lo stimolo sia stato categorizzato, al livello segmentale interessato, non
185 solo rispetto alla categoria fonematica /s/, ma anche alla categoria fonetica di riferimento in base alla fonetica regionale del singolo ascoltatore, [ts] o [dz]. Intendiamo suggerire che il dettaglio fonetico a disposizione fornisca esso stesso una categoria
prototype-based con cui confrontare lo stimolo, sebbene il lavorìo si mostri in superficie
più lungo e meditato rispetto ad opposizioni tradizionalmente fonologiche, ma non per questo, probabilmente, meno cognitivamente strutturato, o diverso sul piano qualitativo.
In ultimo, un gruppo di impressioni, che hanno orientato la scelta, 5), riguardano dichiarazioni che si riferiscono ad altra differenza percepita rispetto all’alternanza [s]/[z]. L’8% di motivazioni (12/150) consiste nell’attribuzione della differenza ad una presunta diversa accentazione delle due forme, o a due pronunce che si oppongono per grado di apertura delle vocali seguenti [s]/[z], che invece non vengono rilevati come differenti. Questo gruppo di risposte, pur esiguo, è significativo della possibilità concreta di fallire nel tentativo di individuare dove risieda l’opposizione fonetica, e al contempo di riferirla (almeno nelle dichiarazioni) ad altre caratteristiche segmentali, oppure prosodiche legate alla sede accentuale. Ciò può fornirci imperfettamente solo un suggerimento, sebbene di un certo interesse, su quali unità fonologico-cognitive un ascoltatore abbia a disposizione (tra le altre) nella processazione del dettaglio fonetico. Nel nostro caso specifico, l’accentazione e le caratteristiche articolatorie emergono come unità di estensione variabile che a scopo analitico possono essere utilizzate dall’ascoltatore a seconda delle necessità di discriminazione, ad esempio, tra due presunte varianti fonetiche diatopiche della stessa parola.
Le dichiarazioni spontanee dei parlanti/ascoltatori che si sono raccolte in questo caso di studio hanno molti limiti: non sono per esempio falsificabili (i soggetti