Risultati ottenuti - Reti neurali iterative per la generazione di immagini

terno dell’LSTM. Con spazio latente complessivo si intende il prodotto tra il numero di timesteps e numero di variabili latenti per timestep.

Figura 3.3: A sinistra: variare dell’errore di ricostruzione, calcolato con la funzione binary Cross-Entropy, al variare del numero di timesteps. Al centro: impatto dei timesteps sul valore della FID. A destra: numero di variabili latenti inutilizzate in funzione del numero di timesteps.

Per tutti e tre i valori, l’aumento del numero di iterazioni del modello porta a un miglioramento significativo soprattutto all’inizio, quando il numero di passi `e ancora basso. In seguito i valori cominciano a stabilizzarsi e aumentare ancora i timesteps ha un impatto limitato sui risultati della rete.

Figura 3.4: Esempi di ricostruzione su Cifar10 (nella prima riga l’immagine reale, nella seconda quella ricostruita). Architettura utilizzata: 16 timesteps, 24 variabili latenti per timestep, 1024 dimensione stato interno LSTM.

22 3. Deep Recursive Attentive Writer

Figura 3.5: Esempi di ricostruzione su MNIST (nella prima riga l’immagine reale, nella seconda quella ricostruita). Architettura utilizzata: 16 timesteps, 16 variabili latenti per timestep e 256 dimensione stato interno LSTM.

Capitolo 4

Estensione condizionale

4.1 Conditional Variational Autoencoder

Un Conditional Variational Autoencoder (CVAE)[17] `e un’estensione di un VAE in cui si ha controllo sul processo di generazione. I VAE, infatti, non sono in grado di generare dati specifici poich`e l’encoder produce il vettore delle variabili latenti z solo in base al contenuto dell’immagine x presa in input, non tenendo conto della categoria alla quale x appartiene. Lo stesso avviene per il decoder, che ricostruisce basandosi esclusivamente su z.

Il VAE è quindi migliorabile condizionando encoder e decoder con un’informazione aggiuntiva. Questa modifica è stata testata su DRAW, e la rete precedente è stata modificata come segue.

4.2 Implementazione su DRAW

L’estensione condizionale su DRAW `e stata realizzata aggiungendo in input, sia all’encoder che al decoder, l’informazione cond sulla categoria del-

l’immagine in input:

# e n c o d e r

# add c o n d i t i o n in e n c o d e r i n p u t

e n c _ i n p u t = c o n c a t e n a t e ([ x , xhat , h_dec , c o n d ] , a x i s = -1)

24 4. Estensione condizionale # d e c o d e r b l a y e r = b l a y e r s [ t ]( z [ t ]) # add c o n d i t i o n in d e c o d e r i n p u t b l a y e r = c o n c a t e n a t e ([ blayer , c o n d ] , a x i s = -1)

4.3 Risultati

Di seguito vengono confrontati i risultati ottenuti dalla rete DRAW al- lenata con dataset MNIST con l’estensione condizionale e senza. I risultati rendono chiaro l’impatto positivo della condizione nel processo di ricostruzione e generazione, portando a immagini ricostruite e generate visivamente migliori.

Figura 4.1: A sinistra: l’errore di ricostruzione al variare dei timesteps, con e senza estensione condizionale. A destra: valori della FID al variare dei timesteps, con e senza estensione condizionale. L’architettura utilizzata, ad eccezione della condizione, rimane la stessa: 64 di spazio latente complessivo e 256 dimensione stato interno LSTM.

Figura 4.2: Esempio di generazione con condizione 9. Architettura: 8 timesteps, 8 variabili latenti per timestep e 256 dimensione stato interno LSTM.

Conclusioni

In questa tesi è stata descritta e sperimentata una tipologia di modello generativo iterativo, l’architettura Deep Recursive Attentive Writer. Dopo una prima panoramica generale sulle reti neurali e sui modelli generativi, si è mostrata nel dettaglio la struttura di questa rete e quale sia l’idea che giustifichi l’utilizzo dell’iterazione ai fini della generazione. Si è poi prova- to a capire quale sia nel concreto l’utilità di tale meccanismo, concludendo che l’aumento dei timesteps sia fondamentale per migliorare la ricostruzione, la generazione e la struttura dello spazio latente. È stata poi realizzata l’estensione condizionale del modello DRAW, per generare immagini di una categoria precisa. Il modello esteso è poi stato testato sul dataset MNIST e i risultati ottenuti sono stati confrontati con quelli dell’architettura di base. Si è cos`ı potuto osservare che la condizione migliora la generazione, sia a livello di valori della FID, che visivamente. Inoltre, in contemporanea con l’analisi della rete DRAW, sono stati realizzati piccoli esperimenti di “testing” della Fréchet Inception Distance. Le proprietà di tale metrica sono cos`ı state verificate e confermate.

L’implementazione del meccanismo di attenzione per la rete DRAW e il testing con nuovi dataset, come ad esempio CelebA [15], sono possibili esten- sioni di questo elaborato. Un confronto dei risultati cos`ı ottenuti con quelli attuali sarebbe un modo per ampliare la conoscenza corrente dei modelli iterativi, permettendo poi in futuro di generare immagini migliori con tali architetture.

Bibliografia

[1] Andrea Asperti. About generative aspects of variational autoencoders. In Proceedings of the Fifth International Conference on Machine Lear- ning, Optimization, and Data Science - September 10-13, 2019 - Certo- sa di Pontignano, Siena - Tuscany, Italy, LNCS (to appear). Springer, 2019.

[2] Andrea Asperti. Sparsity in variational autoencoders. In Proceedings of the First International Conference on Advances in Signal Processing and Artificial Intelligence, ASPAI 2015, Barcelona, Spain, 20-22 March 2019, 2019.

[3] Andrea Asperti. Variational autoencoders and the variable collapse phenomenon. Sensors & Transducers, to appear, 2019.

[4] Fran¸cois Chollet et al. Keras. https://keras.io, 2015.

[5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.

[6] Carl Doersch. Tutorial on variational autoencoders, 2016. cite arxiv:1606.05908.

[7] S. M. Ali Eslami, Danilo Jimenez Rezende, Frederic Besse, Fabio Viola, Ari S. Morcos, Marta Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka, Karol Gregor, David P. Reichert, Lars Buesing, Theo- phane Weber, Oriol Vinyals, Dan Rosenbaum, Neil Rabinowitz, Helen

28 CONCLUSIONI

King, Chloe Hillier, Matt Botvinick, Daan Wierstra, Koray Kavukcuo- glu, and Demis Hassabis. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018.

[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Ge- nerative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural In- formation Processing Systems 27, pages 2672–2680. Curran Associates, Inc., 2014.

[9] Karol Gregor, Ivo Danihelka, Alex Graves, and Daan Wierstra. DRAW: A recurrent neural network for image generation. CoRR, abs/1502.04623, 2015.

[10] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nes- sler, and Sepp Hochreiter. GANs Trained by a Two Time-Scale Upda- te Rule Converge to a Local Nash Equilibrium. arXiv e-prints, page arXiv:1706.08500, Jun 2017.

[11] Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Sto- chastic Backpropagation and Approximate Inference in Deep Generative Models. arXiv e-prints, page arXiv:1401.4082, Jan 2014.

[12] Diederik P Kingma and Max Welling. Auto-Encoding Variational Bayes. arXiv e-prints, page arXiv:1312.6114, Dec 2013.

[13] Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, 2009.

[14] Yann Lecun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. In Proceedings of the IEEE, pages 2278–2324, 1998.

CONCLUSIONI 29

[15] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of International Conference on Computer Vision (ICCV), December 2015.

[16] Douglas Reynolds. Gaussian Mixture Models, pages 659–663. Springer US, Boston, MA, 2009.

[17] Kihyuk Sohn, Xinchen Yan, and Honglak Lee. Learning structured out- put representation using deep conditional generative models. In Pro- ceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS’15, pages 3483–3491, Cambridge, MA, USA, 2015. MIT Press.

[18] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.

[19] Guido Van Rossum and Fred L Drake Jr. Python tutorial. Centrum voor Wiskunde en Informatica Amsterdam, The Netherlands, 1995.

Nel documento Reti neurali iterative per la generazione di immagini (pagine 34-42)