• Non ci sono risultati.

Neuroscienze della musica

2.6 Musica e neuroni specchio

Alla fine degli anni Ottanta, alcuni ricercatori guidati dal neuroscienziato italiano Giacomo Rizzolatti, studiando la corteccia motoria dei macachi – più specificamente l’area motoria F5 – per comprenderne il funzionamento durante l’atto di afferrare taluni oggetti, notarono che certuni neuroni dei primati fossero stimolati sia dall’osservazione di un movimento, sia dal compimento fattuale del medesimo; a tal proposito, nel 1992 venne redatto un articolo attraverso cui l’equipe ipotizzò che il cervello della scimmia fosse dotato di un sistema finalizzato alla trasduzione dell’osservazione delle azioni in azioni vere e proprie. Inoltre, nel testo venne comparato il cervello del macaco col cervello umano, rilevando che l’area F5 del primo fosse parzialmente sovrapponibile con l’area di Broca del secondo (Di Pellegrino, Fadiga, Fogassi, Gallese, & Rizzolatti, 1992).

Figura 4 – Collocazione di alcune delle aree cerebrali coinvolte nei processi in questione.

Tali considerazioni, integrate con la teoria motoria del linguaggio70 proposta negli anni Cinquanta dallo psicologo statunitense Alvin Liberman, e con ulteriori

70 Secondo la teoria motoria del linguaggio, gli esseri umani non apprendono il linguaggio mediante le informazioni fonetiche che ricevono, bensì mediante l’osservazione dei movimenti fisici compiuti dagli altri per emettere determinati suoni. In verità, questa teoria non è mai stata ufficialmente elaborata da

91

indagini laboratoriali, condussero, nel 1996, alla pubblicazione di un secondo articolo da parte degli studiosi, all’interno del quale venne dichiarato che quei particolari neuroni del macaco, nominati neuroni specchio, avessero dei correlativi nel cervello umano responsabili, infine, della codifica motorio-fonetica, dunque della percezione neurofisiologica stessa del linguaggio (Rizzolatti, Fadiga, Gallese, & Fogassi, 1996).

Da queste considerazioni, successivamente, sono emerse innumerevoli ipotesi che hanno posto i neuroni specchio all’origine di altrettante disposizioni umane, quali, per citarne solo qualcheduna, l’empatia, la socialità, il linguaggio – appunto – e, nondimeno, la musica. Nella fattispecie, il tema dei neuroni specchio è stato esteso a molteplici argomenti come l’apprezzamento musicale, l’erronea percezione di collera nella musica di sassofonisti di jazz d’avanguardia, l’emozioni suscitate dalla musica, ecc. (Hickok, 2015). Ad ogni modo, il ruolo dei neuroni specchio sul piano musicale concerne soprattutto tre ambiti: la percezione uditiva, la percezione delle inferenze (musicali e linguistiche) e le abilità motorie.

Sul piano uditivo, delle ricerche indicano che i neuroni specchio – in questo specifico caso, nominati echo neurons, ossia “neuroni ecoici”, oppure neuroni specchio audio-visuo-motori – possano attivare aree della corteccia motoria per via di suoni soltanto – specialmente se facilmente riconoscibili, come il rumore di una mela che viene addentata – benché scevri del correlativo visuale (Iacoboni, et al., 2005). In breve, sembrerebbe che il cervello sia partecipe di una mappatura neurale che colleghi suoni ad azioni (Kohler, et al., 2002), come suggerirebbero degli esperimenti sulla stimolazione neuronale del macaco in risposta a stimoli non verbali complessi insieme a stimoli verbali, confrontati con risposte a stimoli verbali solamente (Ghazanfar, Maier, Hoffman, & Logothetis, 2005). Invero, questa concezione – benché possa essere cogente nel caso di rumori semplici e biologicamente rilevanti con o senza correlativo visivo e motorio – si dimostra piuttosto problematica se si affaccia sul panorama musicale. Innanzitutto, non è così curioso il fatto che il cervello, ricevendo stimoli di varia tipologia, venga eccitato maggiormente rispetto ad una stimolazione unisensoriale: come dovrebbe essere ovvio a fronte delle pagine precedenti, più sono gli input che il cervello riceve, più

Liberman ma è emersa come naturale conseguenza degli studi suoi e della sua equipe sui fenomeni fonetici.

92

sono le risposte cerebrali. In secondo luogo, quasi tutti gli studi succitati circa rapporto fra stimolazione acustica o visiva e corteccia motoria hanno mostrato che l’attivazione di quest’ultima, in relazione a determinati stimoli, avvenga significativamente nei musicisti esperti, in maniera minore in musicisti dilettanti e non avvenga nei non musicisti. Peraltro, quasi tutta la letteratura esistente su queste tematiche tende ad analizzare musicisti rispetto a strumenti di cui posseggono competenze specifiche, ma non vi sono studi di neuroimaging su musicisti che osservano l’esecuzione di strumenti musicali estranei alla loro preparazione: non è poi tanto difficile credere che un percussionista potrebbe riscontrare seri problemi a concepire le dinamiche esecutive di un taishōgoto71 a livello motorio, pur essendo avvezzo alla musica.

Per questa ragione ho compiuto un esperimento preliminare con l’aiuto di dieci musicisti – nove maschi ed una femmina – di età compresa fra venti e sessanta anni, al fine di raccogliere dati circa l’efficacia di apprendimento musicale per stimoli visivi e per stimoli acustici. Ho inciso due tracce simili72 di basso elettrico a quattro corde e registrato i video della relativa esecuzione, che ho intitolato Traccia 1 e Traccia 2. Ho premesso ai partecipanti – sei chitarristi, due contrabbassisti, un tastierista ed un armonicista73 – che avrebbero visto il video di un’esecuzione musicale senza audio per tre volte di seguito, dopodiché avrebbero dovuto cercare, basandosi sulle informazioni visive acquisite, di riprodurre il componimento. Completata questa prima parte del test, ho fatto ascoltare l’altra traccia di basso elettrico, per tre volte di fila, senza il supporto video, formulando la medesima richiesta. Nella metà dei casi è stato mostrato il video di Traccia 1 ed è stato riprodotto l’audio di Traccia 2, nell’altra metà le tipologie di fruizione delle due tracce sono state invertite. In ambedue le condizioni sperimentali, i musicisti sono stati cronometrati onde determinare il tempo impiegato per eseguire i due componimenti per intero, benché non fossero state fissate scadenze di alcun tipo.

71 Si tratta di uno strumento musicale a corde di origine giapponese che, per essere suonato, necessita di una peculiare combinazione di arpeggi o pennate – generalmente con la mano destra – e della selezione di piccoli tasti rotondi in base alle note desiderate – generalmente con la mano sinistra. 72 Entrambe le tracce di basso elettrico – della durata di poco meno di trenta secondi – sono state eseguite in tempo allegro (circa 100 bpm) ed in 4/4; entrambe si basano sulla scala di Do e sono partecipi di abbellimenti – armoniche naturali e glissati – e soluzioni melodiche atipiche – atonalità o leggere dissonanze.

73 Ogni volontario all’esperimento era, al momento del test, in possesso di minime nozioni circa il basso elettrico.

93

In effetti, l’unico metro di giudizio impiegato per stabilire quale delle due forme di apprendimento musicale sia più efficace, corrisponde alla qualità dell’esecuzione a posteriori del volontario. La valutazione dell’esecuzione si è basata sulla similitudine col brano originale, in relazione a coerenza tonale (cinque punti), coerenza ritmica (cinque punti), coerenza melodica (quattro punti), coerenza armonica (tre punti) ed individuazione degli abbellimenti (un punto). Tutti i musicisti hanno tentato di riprodurre la traccia – sia nel caso del video, sia in quello dell’audio – entro un minuto dalla fine della fruizione per timore di dimenticarsi delle informazioni acquisite, rispetto a ciò che hanno affermato poi; più precisamente la media generale si è collocata attorno ai trentacinque secondi. Tutti gli strumentisti che hanno preso parte all’esperienza hanno conseguito migliori risultati nella prova audio con un punteggio medio di 13/18, a differenza della prova video con un punteggio medio di 7/18. In particolare, in tutte le prove è stata individuata facilmente la tonalità, nondimeno ritmo e melodia sono state individuate significativamente nella prova audio e, in modo assai minore, nella prova video; struttura armonica ed abbellimenti sono stati più facilmente individuati nella prova audio, ma comunque con una lieve differenza rispetto alla prova video. Oggettivamente, le informazioni veicolate dal video sono più chiare e complete di quelle veicolate dall’audio – eccetto che nel caso delle armoniche naturali che sono riprodotte in maniera alquanto simile alle altre note – poiché viene mostrata tutta la sequenza motoria da imitare per ottenere il risultato desiderato, nondimeno le conclusioni suggeriscono il contrario. Ciò dipende dal fatto che, sicuramente, l’osservazione degli input visivi – in questo caso – richiede uno sforzo cognitivo maggiore dacché la mano sinistra – essendo io destrorso – rivela quali note vengano suonate, ma è la destra che ne indica la sequenza ritmica, mentre la mia gamba che si muove su e giù indica il tempo. In altre parole, tre reiterazioni del video sono appena sufficienti ad accorgersi di tutte le incognite implicate, ma non lo sono affinché esse vengano coordinate fra loro. Al contrario, l’input acustico fornisce tutte le succitate informazioni in una sequenza unica, dunque tre ascolti, benché insufficienti per una riproduzione minuziosa, garantiscono un esito accettabile. Un gruppo di controllo composto da tre bassisti – ai quali sono stati mostrati i due video partecipi di audio – hanno ottenuto un punteggio medio di 15/18, suggerendo che il cervello integri spontaneamente stimoli uditivi e visivi sul piano musicale.

94

Disponendo di uno scanner per risonanze magnetiche funzionali, intenterei il seguente esperimento: eseguirei una verifica di quali aree del cervello si attivino in un gruppo di musicisti durante l’osservazione e l’ascolto di un collega che esegue un brano con lo strumento che li accomuna, prestando particolare attenzione alle regioni cerebrali ove si trovano i neuroni specchio; successivamente ripeterei l’osservazione, scambiando lo strumento musicale col quale fosse eseguito il medesimo brano, con uno che i partecipanti non conoscano minimamente – meglio sarebbe se fosse partecipe di un funzionamento del tutto diverso, come una marimba è differente rispetto ad un clarinetto. In questa maniera, ripetendo l’esperimento anche nell’ordine di osservazione ed ascolto rispetto allo strumento utilizzato per l’esecuzione, si potrebbe valutare se effettivamente i neuroni specchio ricoprono una parte nell’apprendimento o soltanto nel rafforzamento di azioni, almeno in parte, già conosciute. Ammettendo che la musica sia un fenomeno che pure le persone senza educazione musicale possano comprendere e fruire, si giunge alla conclusione che i neuroni specchio non rivestano un ruolo cruciale nella elaborazione acustica delle inferenze musicali ma che, eventualmente, coadiuvino il perfezionamento della tecnica dei musicisti limitatamente agli strumenti dei cui posseggono significative conoscenze.

[…] non abbiamo bisogno di saper eseguire un’azione per capirla. In effetti, da un punto di vista evoluzionistico, per non venire divorati o soffrire la fame è meglio essere capaci di capire e prevedere le azioni dei nostri predatori e delle nostre prede anche se non si muovono come noi (Hickok, 2015).

In relazione alla percezione dei linguaggi semantici e non semantici – come anticipato – molti degli studi si rifanno alla teoria motoria del linguaggio di Liberman; nello specifico, queste ricerche sostengono che sussista una precisa correlazione tra la comprensione motoria di un fonema e la relativa pronuncia. Effettivamente, grazie alla risonanza magnetica funzionale, è stato rilevato che l’ascolto di fonemi occlusivi dentali e labiali provochi contemporaneamente l’attivazione del lobo temporale, implicato nella comprensione verbale, e l’attivazione di una porzione di corteccia motoria implicata nella produzione del linguaggio (Pulvermüller & Shtyrov, 2006). La teoria di Liberman venne formulata

95

dal momento che una ricerca da lui condotta, produsse delle prove a favore dell’ipotesi che la velocità di successione dei fonemi durante un colloquio sia superiore alle possibilità di elaborazione del sistema uditivo: venne calcolato, infatti, che una conversazione facilmente comprensibile possa essere partecipe di una dozzina di fonemi al secondo e che un individuo sano ne possa comprendere fino a venticinque al secondo. In altre parole, l’idea è che non si possano elaborare così tanti fonemi in circa un secondo e dunque essi non possano essere considerati alla stregua di elementi distinti fra loro ma, al contrario, essi nel tempo si sovrappongono agli altri suoni. In altre parole, ogni fonema intrinsecamente dovrebbe essere partecipe di indizi non verbali che agevolano la comprensione linguistica (Liberman, Cooper, Shankweiler, & Studdert-Kennedy, 1967). Uno dei principali paralleli per ottenere dati di riferimento è stato effettuato con la musica, dacché una premessa rilevante della teoria motoria del linguaggio concerne l’opinione che le note di un brano eseguite alla velocità dei fonemi di una frase comprensibile – ovverosia dodici al secondo – possano parere all’ascoltatore niente più che rumore privo di rilevanza estetica. A tal proposito, Hickok – nonostante sia in disaccordo con la teoria motoria del linguaggio – ha sostenuto che non sia possibile riconoscere la popolare composizione Happy Birthday to You (Hill, 1893) della compositrice statunitense Patty Hill, nel caso in cui le prime dodici note di cui è partecipe venissero riprodotte nell’arco di un secondo (Hickok, 2015). Per questo motivo ho compiuto un esperimento preliminare in cui ho proposto a trenta soggetti di età tra i venti ed i sessanta anni, venti musicisti e dieci non musicisti, di ascoltare una sequenza sonora – ovvero le prime dieci misure di Happy Birthday to You riprodotte ad una velocità tale da concentrare le prime dodici note della canzoncina in un secondo di tempo – onde determinate se essi fossero stati o meno in grado di comprendere quale brano fosse. Nell’80% delle prove, i soggetti sono riusciti ad indovinare il titolo della composizione al primo ascolto e nell’altro 20% dei casi, i soggetti hanno abbisognato di un secondo ascolto per raggiungere la medesima conclusione. Nessuno dei partecipanti ha comunque fallito nel riconoscimento del brano. Senz’altro, se la velocità venisse raddoppiata al fine di concentrare ventiquattro note in un secondo, non sarebbe possibile ottenere simili esti poiché indubbiamente la sequenza

96

diverrebbe irriconoscibile74. Cionondimeno, questo semplice test ha un significato ben preciso che, forse, gli studi succitati hanno trascurato. Infatti, benché il sistema uditivo sia capace di elaborare coerentemente una dozzina di note in un secondo – non senza qualche difficoltà – il problema della velocità di comprensione del linguaggio parlato non può trovare un vero metro di paragone nella musica. Il punto è che il sistema uditivo non ha difficoltà di per sé ad elaborare dodici o venticinque note in un secondo, ma che le note, per assumere un significato musicalmente cogente – non solo necessitano di una precisa frequenza, ma anche di una precisa durata ritmica, senza la quale quasi nessun componimento sarebbe riconoscibile.

Figura 5 – La forma d’onda delle note contenute nelle prime dieci misure di Happy Birthday to You. La

linea scandisce un secondo di tempo. La prima forma d’onda rappresenta una riproduzione del brano a 120 battiti per secondo. La seconda forma d’onda rappresenta il file sonoro ascoltato dai partecipanti all’esperimento.

In sostanza, velocizzare esasperatamente le note che compongono una canzone, le depriva del relativo significato ritmico e per questo si perde un aspetto cruciale. Plausibilmente, i motivi sono due: in primis, una velocità tanto elevata tende a rendere fisicamente irrilevanti le pause tra l’emissione di un’onda di pressione e l’altra; è il principio per cui un file in formato mp3 è virtualmente meno ingombrante di un file in formato wav. Difatti, comprimere in formato mp3 un file in

74 Con i soggetti che hanno saputo riconoscere più celermente il brano, ossia nove musicisti e cinque non musicisti, ho riprovato l’esperimento facendo ascoltare la filastrocca popolare Mary had a little

lamb, nella metà delle volte velocizzata a sedici note al secondo, nell’altra metà velocizzata a diciassette

note al secondo. Il tasso di riconoscimento del brano nel caso di una riproduzione più “lenta” è stato di circa il 75% entro i primi due ascolti, mentre nell’altro caso di appena il 30% entro i primi due ascolti.

97

formato non compresso come il wav, significa rimuovere i dati acustici che si presentano immediatamente dopo una cresta di pressione per ridurne la dimensione. Il sistema uditivo umano, stimolato dal picco precedente, presta meno attenzione alla scia che lo segue, tuttavia le differenze qualitative fra i due formati sono piuttosto evidenti se confrontate con l’ausilio di un buon amplificatore. In secondo luogo, poi, il cervello acquisisce nel tempo delle precise grammatiche musicali in base all’esperienza che – eccetto non si basi sul mero ascolto di un ridotto manipolo di band sperimentali o di metal estremo – non collimano con brani tanto veloci come quello ascoltato nel corso del test.

Il linguaggio semantico, al contrario della musica, non è strutturato secondo regole ritmiche ben definite, bensì tramite la combinazione di innumerevoli fonemi e grammatiche lessico-verbali, pertanto il cervello riesce ad elaborarlo anche in condizioni di notevole velocità: appunto, il ritmo nel linguaggio – per quanto possa aumentarne la relativa fruibilità e la relativa scorrevolezza – non veicola una precisa informazione come nel caso delle note, per questo può essere accelerato molto di più della musica senza che la comprensione ne risenta decisivamente. In verità, la teoria motoria del linguaggio si appoggia anche ad un’altra importante osservazione di Liberman, denominata problema della mancanza di invarianza. L’equipe di ricercatori verificò che:

• gli input acustici della lingua parlata trasmettano parallelamente informazioni circa due fonemi – vocale e consonante – alla stregua di un accordo musicale75,

75 Nel 1953, l’ingegnere statunitense Cyril Manton Harris tentò di collezionare sufficienti frammenti acustici per costituire un alfabeto fonologico servendosi delle registrazioni di alcuni dialoghi, in maniera tale da poter comporre interi discorsi ex novo. I risultati dell’esperienza furono piuttosto deludenti poiché tali mosaici sonori si rivelarono sostanzialmente incomprensibili (Harris, 1953). Per questa ragione, Liberman et al. utilizzarono Pattern Playback, una macchina capace di riprodurre semplici sillabe deprivate delle armoniche risonanti proprie del tratto vocale, ideata dall’equipe del fisico statunitense Franklin Seaney Cooper negli anni Quaranta. La registrazione delle sillabe sintetizzate da Pattern Playback venne suddivisa in brevissime porzioni cosicché si potesse individuare l’esatto punto in cui consonante e vocale si separassero, tuttavia esso non venne individuato, al contrario venne evinto che in ogni istante l’onda di pressione fosse partecipe di ambedue i fonemi (Liberman, Cooper, Shankweiler, & Studdert-Kennedy, 1967). Per motivi di chiarezza, ho effettuato io stesso questa prova, analizzando allo spettrogramma sia sillabe pronunciate normalmente (ossia della durata di circa dieci millisecondi), sia sillabe la cui vocale finale fosse protratta a lungo (ossia sillabe della durata di un secondo complessivo). Nella fattispecie, ho analizzato i seguenti gruppi di sillabe: Si,

So, Su; Da, Do, Du; Ma, Me, Mi. Nel caso del primo gruppo di sillabe, dacché la consonante S è enfatica

e dunque richiede un maggiore tempo di pronuncia (Trubeckoj, 1971) rispetto alle altre testate, la doppia informazione fonetica si interrompe dopo trenta millisecondi. Nel caso degli altri due gruppi, invece, essendo le consonanti D e M non enfatiche e richiedendo perciò un minore tempo di pronuncia (Trubeckoj, 1971) rispetto alla S, la doppia informazione fonetica si interrompe dopo dieci millisecondi.

98

siccome gli esseri umani modulano tali onde di pressione attraverso una complessa architettura neuronale e motoria;

• l’articolazione del tratto vocale cambi in base alla combinazione fonetica che è in procinto di pronunciare, differenziando fortemente l’impostazione orale della pronuncia di un medesimo fonema, in relazione all’unità fonetica che seguirà76 proprietà detta coarticolazione.

Per via di questi presupposti, divenne evidente che alcuni fonemi – specialmente quelli occlusivi – siano identificati coerentemente dal cervello sebbene non siano partecipi di alcuna caratteristica sonora costante; in altre parole, è possibile riconoscere un medesimo fonema in contesti differenti, benché, proprio in virtù di questi ultimi, fisicamente diverga completamente di volta in volta. Un’indagine spettrografica più approfondita, effettivamente, mostrò che gli stessi fonemi pronunciati secondo combinazioni sillabiche differenti, presentassero frequenze totalmente incompatibili le quali, ancora una volta, diversamente dalle note musicali, il cervello percepisce come identiche (Liberman, Cooper, Shankweiler, & Studdert- Kennedy, 1967). Nonostante parecchi scetticismi verso la teoria motoria del linguaggio, delle esperienze laboratoriali hanno prodotto prove a suo favore: è il caso del cosiddetto effetto McGurk, in onore dello scopritore, lo psicologo britannico Harry McGurk. Negli anni Settanta, McGurk ed il suo assistente John MacDonald, durante un esperimento sulla percezione linguistica dei neonati, per il quale facevano uso di supporti multimediali, commisero l’errore di appaiare la sillaba Ba al video di un individuo che scandiva la sillaba Ga. Curiosamente, la visione del video partecipe della svista ingannò gli studiosi, i quali, anziché la sillaba Ga, udirono la