• Non ci sono risultati.

I risultati presentati in questo capitolo mostrano che i modelli di cor- rezione statistica per allineamenti forzati basati su informazioni conte- stuali sono in grado di ridurre la misura dell’errore prodotto dai sistemi di segmentazione basati su HMMs, confermando l’idea intuitiva di base che esiste uno stretto legame tra informazioni contestuali e la forma d’onda che viene analizzata dal sistema di segmentazione.

È importante ricordare che l’allineamento di riferimento utilizzato per lo sviluppo di questa tesi non è privo di errore, in quanto otte- nuto con modelli automatici. L’idea originaria prevedeva l’utilizzo di allineamenti con correzione manuale che risultassero fedeli alla forma d’onda.

4.8

Sviluppi futuri

Oltre ad estendere la fase di apprendimento per il modello correttivo su ulteriori corpus registrati con la voce del Dott. Ing. Piero Cosi, si provvederà ad eseguire una correzione manuale di almeno una parte dell’allineamento di riferimento, per poter stabilire quanto l’errore in- trinseco nei modelli automatici abbia influenzato sui risultati ottenuti in questa tesi.

Il modello, che è risultato avere un certo interesse nel campo della ricerca, sarà ulteriormente confrontato con i sistemi attualmente in sviluppo di speaker adaptation. Tali modelli si basano principalmente sulle informazioni acustiche (Cepstral, F0) estrapolate da un database

(a)

(b)

Figura 30: I grafici rappresentano l’errore medio commesso per lo specifico

trifone con il sistema SPHINX-2 e con la successiva correzione statistica per

training set e test set rispettivamente.

(a)

(b)

Figura 31: I grafici rappresentano l’errore totale commesso per lo specifico

trifone con il sistema SPHINX-2 e con la successiva correzione statistica per

training set e test set rispettivamente.

(a)

(b)

Figura 32: I grafici rappresentano l’errore totale normalizzato rispetto al

numero di occorrenze per lo specifico trifone con il sistema SPHINX-2 e con

la successiva correzione statistica per training set e test set rispettivamente.

di parlato continuo registrato dallo speaker di interesse. Un confronto con tali sistemi permetterebbe di valutare effettivamente i limiti del modello che si basa esclusivamente su informazioni contestuali estratte dall’analisi linguistica del testo senza però avere nessuna nozione delle caratteristiche acustiche.

4.9

Sommario

In questo capitolo sono stati presentati i sistemi di segmentazione uti- lizzati durante lo svolgimento di questa tesi e il modello di regressione utilizzato per la correzione statistica dell’allineamento basandoci su in- formazioni contestuali. Particolare enfasi è stata dedicata alla fase di costruzione del modello e all’analisi dei dati in nostro possesso sulla quale abbiamo raccolto i risultati.

Inoltre, particolare attenzione è stata data alle strategie implemen- tate per evitare il problema dell’overfitting in fase di apprendimento del modello e soprattutto che i risultati raccolti fossero chiaramente distin- guibili tra quelli ottenuti su dati che hanno concorso alla formazione del modello e quelli appartenenti al test set.

Indice analitico

allineamento forzato, 12 AM, 51 ASR, 10 AUI, 3 CDHMMs, 51 corpus-based TTS, 3 correlazione, 26 DSP, 13

Edinburgh Speech Tools Library, 28 entropia, 24 Festival, 6, 28 Festvox, 28 HeterogeneousRelation Graph, HRG, 6 HMM, 5 IPA, 18 LM, 51 MFCC, 51 overfitting, 25 PMVDR, 51 PSOLA, 13 RMSE, 26 SAMPA, 22 senone, 54

sistesi per difoni, 13 speech processing, 7 speech recognition, 7, 8 speech synthesis, 7 speech understanding, 7 SPHINX, 21 stepwise regression, 25 TTP, 16 TTS, 3 unit selection, 12 vocal dialog, 8 VoiceXML, 9 VUI, 10 WC3, 9

Riferimenti bibliografici

[1] EU-Japan Centre for Industrial Cooperation, http://www.eu- japan.gr.jp/english/students/european/index.cfm. Vulcanus in Japan - Internship for European Students.

[2] Nobuo Nukaga, Ryota Kamoshida, and Kenji Nagamatsu. Unit selection using pitch synchronous cross correlation for japanese concatenative speech synthesis. SSW5, pages 43–48, June 14-16 2004.

[3] Lawrence R. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. Proceedings of the IEEE, 2(77):257–286. [4] Laboratorio di Ingegneria per la Produzione del Software - Università di

Genova, http://www.lips.dist.unige.it/articoli/VoiceXML/Sintesi VoiceXML. [5] History and development of speech synthesis. Tech-

nical report, Helsinki University of Technology, http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/, 2000. [6] J.B. Degen. Mechanismus der menschlichen sprache nebst der beschreibung

seiner sprechenden maschine (meccanismo della voce umana a confronto con la descrizione della sua macchina parlante). Vienna, 1791.

[7] Mattingly and G. Ignatius. Speech synthesis for phonetic and phonological models. Current Trends in Linguistics, 12:2451–2487, 1974.

[8] E. Moulines and Charpentier F. Pitch-synchronous waveform processing tech- niques for text-to-speech synthesis using diphones. Speech Communication, 9(5/6):453–467, 1990.

[9] T. Dutoit, V. Pagel, N. Pierret, F. Bataille, and O. van der Vrecken. The mbrola project: Towards a set of high-quality speech synthesizers free of use for non-commercial purposes. ICSLP Proceedings, 3:1393–1396, 1996.

[10] John Kominek, Alan W Black, and Ver Ver. Cmu arctic databases for speech synthesis. 2003.

[11] Carnegie Mellon University, http://cmusphinx.sourceforge.net. Open Source Toolkit For Speech Recognition.

[12] An Overview of the SPHINX Speech Recognition System, volume 38. IEEE Transactions on Acustic Speech, and Signal Processing, January 1990. [13] Silke Goronzy and Ralf Kompe. A combined map + mllr approach for speaker

adaptation.

[14] UCL Division of Psychology and Language Sciences, http://www.phon.ucl.ac.uk/home/sampa/. SAMPA - computer readable phonetic aphabet website, 1999.

[15] Andrew Moore. Gaussian mixture models.

[16] Michael Franzini, Alex Waibel, and Kai-Fu Lee. Continuous speech recogni- tion with the connectionist viterbi training procedure: A summary of recent work, volume 540 of Lecture Notes in Computer Science. Springer Berlin / Heidelberg, 1991.

[17] A.W. Black, P. Taylor, R Caley, and R. Clark. The Edinburgh Speech Tools Library. System Documentation Edition 1.2. CSTR - Centre for Speech Technology - University of Edinburgh, http://festvox.org/docs/speech_tools- 1.2.0/book1.htm.

[18] Occam’s razor. http://en.wikipedia.org/wiki/Occam

[19] I.V. Tetko, D.J. Livingstone, and A.I. Luik. Neural network studies. 1. compa- rison of overfitting and overtraining. J. Chem. Inf. Comput. Sci., 35:826–833, 1995.

[20] Darlington. Regression and linear models. McGraw-Hill, New York, 1990. [21] Cosi P., Gretter R., and Tesser F. Festival parla italiano! Atti XI Giornate di

Studio del G.F.S., November 29-30, Dicember 1:235–242, Padova, 2000. [22] Center for Computer Research in Music

and Acoustics (CCRMA) Stanford University, https://ccrma.stanford.edu/ jos/pasp/Linear_Predictive_Coding_Speech.html. Linear Predictive Coding of Speech.

[23] L. Serianni. Grammatica italiana, Italiano comune e lingua letteraria. UTET, 1989.

[24] Scheme: An Interpreter for Extended Lambda Calculus, Dicember 1975. [25] Renato Oniga. Il Latino - Breve introduzione linguistica. Franco Angeli, 2007. [26] A. Hunt and Alan W Black. Unit selection in a concatenative speech synthesis

system using a large speech database. ICASSP, 1:373–376, 1996.

[27] M. Beckman and E.G. Ayers. Guidelines fot tobi labelling. Technical Report 3, Ohio State University, 2007.

[28] V. Tyagi and C. Wellekens. On desensitizing the mel-cepstrum to spurious spectral components for robust speech recognition. Acoustics, Speech, and Signal Processing, pages 529 – 532, March 18-23 2005.

[29] Umit H. Yapanel and John H. L. Hansen. A new perceptually motivated mvdr- based acoustic front-end (pmvdr) for robust automatic speech recognition. Speech Communication, 50(2):142–152, February 2008.

[30] Frontiere dossier: lo speech processing. Technical report, Ghost Computer Club, September 2001.

[31] Susanne Schötz. Automatic prediction of speaker age using cart. Term paper, Fall Semester 2003.

[32] Speech Recognition. http://en.wikipedia.org/wiki/Speech_Recognition. [33] I. R. Titze. Principles of Voice Production. Prentice Hall, 1994.

[34] Michael K. C. MacMahon. The handbook of the international phonetic association. Cambridge University Press, pages 194–197, 1999.

[35] John Holmes and Wendy Holmes. Speech Synthesis and Recognition. CRC, 2nd edition edition, 2001.

[36] John Kominek and Alan W. Black. Cmu arctic databases for speech synthesis. CMU-LTI-03-177, 2003.

[37] Alan W Black. Perfect synthesis for all of the people all of the time. IEEE TTS Workshop, 2002.

[38] P. H. Van Santen, Richard William Sproat, Joseph P. Olive, and Julia Hirschberg. Progress in speech synthesis. Springer, 1997.

[39] Jonathan Allen, M. Sharon Hunnicutt, and Dennis Klatt. From text to speech: The mitalk system. Cambridge University Press, 1987.

[40] Fabio Tesser, Piero Cosi, Roberto Gretter, N. Mana, C. Avesani, and F. Pia- nesi. Modello prosodico “data-driven” di festival per l’italiano. Proceedings of XIV Giornate di Studio del G.F.S., XXXI:273–278, Settembre 2004.

[41] Piero Cosi, Roberto Gretter, and Fabio Tesser. Recenti sviluppi di festival per l’italiano. Proceedings XII Giornate di Studio del G.F.S., December 13-15. [42] TCTS Lab Research Groups, http://tcts.fpms.ac.be/synthesis/. The

MBROLA Project, 1996.

[43] Piero Cosi, Mauro Nicolao, Giacomo Sommavilla, and Graziano Tisato. Svi- luppo di un sistema di riconoscimento per l’arabo: problemi e soluzioni. EDK Editore s.r.l., 2009.

[44] F. Brugnara, D. Falavigna, and M. Omologo. Automatic segmentation and labeling of speech based on hidden markov models. Speech Communication, 12(4):357–370, 1993.

[45] Alan W Black, Christina L. Bennett, Benjamin C. Blanchard, John Kominek, Brian Langner, Kishore Prahallad, and Arthur Toth. Cmu blizzard 2007: A hybrid acoustic unit selection system from statistically predicted parameters. TheBlizzardChallenge, August 2007.

[46] Breiman et al. Classification and Regression Trees. Wadsworth Press, 1984. [47] A.W. Black (awb@cs.cmu.edu), P. Taylor (Paul.Taylor@ed.ac.uk), R Caley,

and R. Clark (robert@cstr.ed.ac.uk). FESTVOX. CSTR - Centre for Speech Technology - University of Edinburgh, http://festvox.org/.

[48] Alan W. Black, Paul Taylor, R Caley, and R. Clark. The Festival Speech Syn- thesis System. CSTR - Centre for Speech Technology - University of Edinburgh, http://www.cstr.ed.ac.uk/projects/festival/.

[49] The International Phonetical Association Website. http://www.langsci.ucl.ac.uk/ipa/.