La fase sperimentale
5.3. La metodologia: preparazione e presentazione degli stimol
5.3.1 Manipolazione prosodica mediante algoritmo.
Allo scopo di trasferire i parametri prosodici da una varietà all’altra è stato elaborato uno script mediante il software PRAAT (www.fon.hum.nl/praat), grazie all’aiuto dell’algoritmo PSOLA (Pitch-Synchronous Overlap-Add) che ha consentito la manipolazione e la risintesi del segnle.
Il metodo PSOLA è stato sviluppato in origine da France Telecom (CNET); non si tratta di un sistema di sintesi in se stesso, ma, a partire da campioni di segnale registrato, consente di controllarne e di modificarne i parametri di pitch e di durata. Esistono diverse versioni dell’algoritmo, ma che operano all’incirca alla stessa maniera.
L'algoritmo di base, infatti, consiste in tre passaggi fondamentali. In primo luogo, il segnale vocale viene scomposto in segnali più piccoli, di durata inferiore e sovrapposti tra di loro. Questa suddivisione si ottiene marcando i picchi di tonalità del segnale originale e usando tali marcatori per segmentare il segnale. Il meccanismo chiave di PSOLA infatti è la determinazione corretta dei marcatori di tono: da un punto di vista dell'algoritmo ideale, questi marcatori dovrebbero essere spaziati uniformemente in modo periodico, a intervalli uguali al periodo fondamentale del segnale, e allo stesso tempo coincidere con picchi del segnale stesso. Nella pratica queste due condizioni spesso non coincidono, soprattutto per il fatto che nel parlato il periodo fondamentale del segnale non rimane sempre costante. Se ci si basasse solo sui picchi, i marcatori non sarebbero più distribuiti in modo periodico. D'altro canto, se si marcasse il segnale solo in base alla periodicità stretta, si potrebbe perdere la necessaria corrispondenza tra marcatori e picchi, rendendo quindi inutile la marcatura stessa. Nella pratica, per approssimare al meglio le condizioni ideali richieste dall'algoritmo si frammenta il segnale in segmenti che contengono da due a quattro picchi: studi matematici hanno infatti determinato che questo è il compromesso migliore (Moulines & Charpentier 1990).
Nella fase successiva, i segnali più piccoli vengono modificati o ripetendo o eliminando segmenti di parlato, a seconda che il tono finale debba essere più elevato o più basso rispetto al tono sorgente. Questa operazione modifica la durata del segnale, modificandone quindi anche la frequenza fondamentale.
Nell'ultima fase, i segmenti rimanenti vengono ricombinati tramite sovrapposizione e aggiunta, in modo tale che i marcatori risultino spaziati uniformemente (sincronizzati) come
134
richiesto dall'algoritmo. Il risultato finale è un segnale che ha lo stesso spettro acustico dell'originale ma una frequenza fondamentale differente: questo risulta in un cambio di tonalità della voce, lasciando però inalterati gli altri parametri vocali.
Prima dell’applicazione dell’algoritmo il corpus è stato sottoposto ad analisi acustica: la segmentazione in fonemi è stata effettuata manualmente, sempre mediante l’ausilio di PRAAT, sulla base degli spettrogrammi e degli oscillogrammi. Per ogni contesto inoltre è stato estratto il contorno di f0.
La trasposizione di questi parametri prevede le seguenti fasi, riassunte nella Fig. 1:
- Confronto quantitativo degli elementi fonici segmentati: numero di fonemi identico per ciascuna varietà.
- Calcolo della differenza dei parametri prosodici di intensità e di durata di ogni pausa o fonema per ciascuna frase di tutte le varietà prese in esame.
- Per ciascuna pausa e fonema realizzazione di nuove durate, che vanno a sostituire l’originale.
- Trasposizione dei valori di f0 da una varietà all’altra.
Fig. 5.1 Prosody Transplanation (Boula de Mareüil, P., Brahimi, B. & Gendrot, C. 2004b)
Per ogni frase originale selezionata sono stati dunque creati due stimoli artificiali: uno stimolo riportante la voce di una varietà con la prosodia dell’altra, e viceversa. A partire dalle 14
135
frasi scelte e dal numero dei parlanti, il numero delle trasposizioni ottenute è risultato dunque molto alto.
Si è cercato perciò di bilanciare il corpus in base al sesso, al numero, e alla varietà di provenienza dei parlanti. Per ciascuno stimolo artificiale creato, inoltre, si è deciso di inserire anche la voce originale dei parlanti.
Da tali scelte sono scaturite le seguenti configurazioni di stimoli acustici da inserire nel test:
2 frasi (Domenico, Domenico e Fragoline angurie mandarini banane mandorle amarene limoni) in cui la prosodia di ciascuna varietà è stata incrociata con quella di tutte le altre, trattasi in un contesto di voci maschili, nell’altro di voci femminili.
Gli stimoli artificiali creati sono dunque 6 per ognuna delle due frasi, a questi vanno aggiunte le 3 voci originali per un totale di 18 stimoli acustici.
6 frasi (Loredana un ingegnere? Avete dei mandarini? E’tornata Barbara? Vuoi il gelato alla vaniglia o alla banana? Maria mangia il mandarino Chi le vendeva?) in cui la prosodia è stata trasposta per coppie di varietà. Per ciascuna coppia gli stimoli artificiali sono 2, a cui si aggiungono le 2 voci originali. Gli stimoli risultanti sono dunque 24.
3 frasi (Ma non sono ancora arrivati? Dove vai, con chi vai, e quando tornerai? Beve una bibita), una per varietà, in cui la manipolazione prosodica è avvenuta manualmente (descritta nel paragrafo che segue), trattasi per Milano e Napoli di due uomini, per Roma di due donne. L’intonazione di ciascun parlante è stata modificata nella forma dell’andamento melodico. Si sono così ottenute 2 voci modificate per ogni frase a cui si sommano le originali, per un totale di 12.
3 frasi (Volete venire a bere una birra? Forse Loredana non vorrà venire, Mia nonna ci ha vissuto per molti anni a Modena), una per varietà, in cui si è inserito, nel caso di Milano, o soppresso, nel caso di Roma e Napoli, sempre manualmente, (il procedimento è descritto nel paragrafo che segue) il raddoppiamento fonosintattico. I parlanti sono in tutti i casi uomini, due per varietà. Per ogni frase e per ciascun parlante si è inserita la voce originale, e quella con il raddoppiamento inserito o cancellato. Gli stimoli considerati sono quindi 12.
I dati sono riassunti nella tabella che segue, accompagnati dal contenuto segmentale dell’enunciato analizzato.
136
Enunciato Sesso Varietà coinvolte Tipo di modificazione Num.
Stimoli
1 Domenico M Milano, Roma, Napoli Sovrapposizione della
prosodia
9 2 Loredana un ingegnere? F Napoli, Roma Sovrapposizione della
prosodia
4 3 Avete dei mandarini? M Milano, Roma Sovrapposizione della
prosodia
4
4 Beve una bibita F Napoli Inversione curva f0 4
5 E’tornata Barbara? M Napoli, Milano Sovrapposizione della prosodia
4
6 Forse Loredana non vorrà venire F Roma Sottrazione RFS 4
7 Ma non sono ancora arrivati? M Milano Inversione curva f0 4
8 Volete venire a bere una birra? M Milano Inserzione RFS 4
9 Dove vai, con chi vai, e quando tornerai? F Roma Inversione curva f0 4
10 Vuoi il gelato alla vaniglia o alla banana? M Milano, Roma Sovrapposizione della prosodia
4 11 Fragoline angurie mandarini banane mandorle
amarene limoni
F Milano, Napoli, Roma Sovrapposizione della prosodia
9 12 Maria mangia il mandarino F Milano, Napoli Sovrapposizione della
prosodia
4 13 Mia nonna ci ha vissuto per molti anni a
Modena
F Napoli Sottrazione RFS 4
14 Chi le vendeva? M Napoli, Roma Sovrapposizione della
prosodia
4
TOT 66
In fase di etichettatura dei dati si è cercato di ottenere la massima trasparenza, inserendo, nella denominazione del file, il maggior numero di informazioni.
Per i files modificati mediante algoritmo è stato necessario distinguere tra il contenuto segmentale e la prosodia trasposta, quindi nella nomenclatura si è fatta precedere la voce originale con la sigla del parlante, e seguire la sigla del parlante di cui si è trasposta la prosodia. Nel caso delle voci originali si è invece ripetuta semplicemente la stessa sigla. Si è aggiunto inoltre l’indicazione del sesso (M, F), infine la configurazione di stimoli (4, 9) entro cui si inseriva e l’iniziale della modalità frasale99
, in modo da poter riconoscere facilmente la frase di riferimento. Dunque l’etichetta M1N2m4t indicherà un file avente la voce del parlante uomo di Milano con la prosodia di quello di Napoli nella frase interrogativa totale “E’ tornata Barbara?”.
Nel caso della modificazione manuale (cfr. § seguente), sia quella prosodica che segmentale, trattandosi in tutti i casi della medesima voce, la sigla del parlante è stata ripetuta. Segue, in maniera analoga ai files descritti sopra, il sesso, e in luogo della configurazione di appartenenza è stata inserita un’etichetta che esplicasse il tipo di manipolazione compiuta: inversione della curva intonativa (i), modificazione segmentale (m), o voce originale (o). Come per gli altri files, in ultima sede il riferimento alla modalità frasale.
99
S: statement (dichiarativa), T: interrogativa totale, P: interrogativa parziale, V: vocativo, E: esclamativa. Tav.5.2.Tavola riassuntiva dell’esperimento.
137
In questo caso quindi l’etichetta R2R2fip indicherà un file audio di una parlante romana con andamento melodico invertito, nella frase interrogativa parziale “Dove vai, con chi vai, e quando tornerai?”.