• Non ci sono risultati.

Risultati ottenuti

terno dell’LSTM. Con spazio latente complessivo si intende il prodotto tra il numero di timesteps e numero di variabili latenti per timestep.

Figura 3.3: A sinistra: variare dell’errore di ricostruzione, calcolato con la funzione binary Cross-Entropy, al variare del numero di timesteps. Al centro: impatto dei timesteps sul valore della FID. A destra: numero di variabili latenti inutilizzate in funzione del numero di timesteps.

Per tutti e tre i valori, l’aumento del numero di iterazioni del modello porta a un miglioramento significativo soprattutto all’inizio, quando il numero di passi `e ancora basso. In seguito i valori cominciano a stabilizzarsi e aumentare ancora i timesteps ha un impatto limitato sui risultati della rete.

Figura 3.4: Esempi di ricostruzione su Cifar10 (nella prima riga l’immagine reale, nella seconda quella ricostruita). Architettura utilizzata: 16 timesteps, 24 variabili latenti per timestep, 1024 dimensione stato interno LSTM.

22 3. Deep Recursive Attentive Writer

Figura 3.5: Esempi di ricostruzione su MNIST (nella prima riga l’immagine reale, nella seconda quella ricostruita). Architettura utilizzata: 16 timesteps, 16 variabili latenti per timestep e 256 dimensione stato interno LSTM.

Capitolo 4

Estensione condizionale

4.1

Conditional Variational Autoencoder

Un Conditional Variational Autoencoder (CVAE)[17] `e un’estensione di un VAE in cui si ha controllo sul processo di generazione. I VAE, infatti, non sono in grado di generare dati specifici poich`e l’encoder produce il vettore delle variabili latenti z solo in base al contenuto dell’immagine x presa in input, non tenendo conto della categoria alla quale x appartiene. Lo stesso avviene per il decoder, che ricostruisce basandosi esclusivamente su z.

Il VAE `e quindi migliorabile condizionando encoder e decoder con un’in- formazione aggiuntiva. Questa modifica `e stata testata su DRAW, e la rete precedente `e stata modificata come segue.

4.2

Implementazione su DRAW

L’estensione condizionale su DRAW `e stata realizzata aggiungendo in input, sia all’encoder che al decoder, l’informazione cond sulla categoria del-

l’immagine in input:

# e n c o d e r

# add c o n d i t i o n in e n c o d e r i n p u t

e n c _ i n p u t = c o n c a t e n a t e ([ x , xhat , h_dec , c o n d ] , a x i s = -1)

24 4. Estensione condizionale # d e c o d e r b l a y e r = b l a y e r s [ t ]( z [ t ]) # add c o n d i t i o n in d e c o d e r i n p u t b l a y e r = c o n c a t e n a t e ([ blayer , c o n d ] , a x i s = -1)

4.3

Risultati

Di seguito vengono confrontati i risultati ottenuti dalla rete DRAW al- lenata con dataset MNIST con l’estensione condizionale e senza. I risultati rendono chiaro l’impatto positivo della condizione nel processo di ricostru- zione e generazione, portando a immagini ricostruite e generate visivamente migliori.

Figura 4.1: A sinistra: l’errore di ricostruzione al variare dei timesteps, con e senza estensione condizionale. A destra: valori della FID al variare dei timesteps, con e senza estensione condizionale. L’architettura utilizzata, ad eccezione della condizione, rimane la stessa: 64 di spazio latente complessivo e 256 dimensione stato interno LSTM.

Figura 4.2: Esempio di generazione con condizione 9. Architettura: 8 ti- mesteps, 8 variabili latenti per timestep e 256 dimensione stato interno LSTM.

Conclusioni

In questa tesi `e stata descritta e sperimentata una tipologia di modello generativo iterativo, l’architettura Deep Recursive Attentive Writer. Dopo una prima panoramica generale sulle reti neurali e sui modelli generativi, si `e mostrata nel dettaglio la struttura di questa rete e quale sia l’idea che giustifichi l’utilizzo dell’iterazione ai fini della generazione. Si `e poi prova- to a capire quale sia nel concreto l’utilit`a di tale meccanismo, concludendo che l’aumento dei timesteps sia fondamentale per migliorare la ricostruzio- ne, la generazione e la struttura dello spazio latente. `E stata poi realizzata l’estensione condizionale del modello DRAW, per generare immagini di una categoria precisa. Il modello esteso `e poi stato testato sul dataset MNIST e i risultati ottenuti sono stati confrontati con quelli dell’architettura di base. Si `e cos`ı potuto osservare che la condizione migliora la generazione, sia a livello di valori della FID, che visivamente. Inoltre, in contemporanea con l’analisi della rete DRAW, sono stati realizzati piccoli esperimenti di “testing” del- la Fr´echet Inception Distance. Le propriet`a di tale metrica sono cos`ı state verificate e confermate.

L’implementazione del meccanismo di attenzione per la rete DRAW e il testing con nuovi dataset, come ad esempio CelebA [15], sono possibili esten- sioni di questo elaborato. Un confronto dei risultati cos`ı ottenuti con quelli attuali sarebbe un modo per ampliare la conoscenza corrente dei modelli iterativi, permettendo poi in futuro di generare immagini migliori con tali architetture.

Bibliografia

[1] Andrea Asperti. About generative aspects of variational autoencoders. In Proceedings of the Fifth International Conference on Machine Lear- ning, Optimization, and Data Science - September 10-13, 2019 - Certo- sa di Pontignano, Siena - Tuscany, Italy, LNCS (to appear). Springer, 2019.

[2] Andrea Asperti. Sparsity in variational autoencoders. In Proceedings of the First International Conference on Advances in Signal Processing and Artificial Intelligence, ASPAI 2015, Barcelona, Spain, 20-22 March 2019, 2019.

[3] Andrea Asperti. Variational autoencoders and the variable collapse phenomenon. Sensors & Transducers, to appear, 2019.

[4] Fran¸cois Chollet et al. Keras. https://keras.io, 2015.

[5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.

[6] Carl Doersch. Tutorial on variational autoencoders, 2016. cite arxiv:1606.05908.

[7] S. M. Ali Eslami, Danilo Jimenez Rezende, Frederic Besse, Fabio Viola, Ari S. Morcos, Marta Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka, Karol Gregor, David P. Reichert, Lars Buesing, Theo- phane Weber, Oriol Vinyals, Dan Rosenbaum, Neil Rabinowitz, Helen

28 CONCLUSIONI

King, Chloe Hillier, Matt Botvinick, Daan Wierstra, Koray Kavukcuo- glu, and Demis Hassabis. Neural scene representation and rendering. Science, 360(6394):1204–1210, 2018.

[8] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Ge- nerative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, Advances in Neural In- formation Processing Systems 27, pages 2672–2680. Curran Associates, Inc., 2014.

[9] Karol Gregor, Ivo Danihelka, Alex Graves, and Daan Wierstra. DRAW: A recurrent neural network for image generation. CoRR, abs/1502.04623, 2015.

[10] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nes- sler, and Sepp Hochreiter. GANs Trained by a Two Time-Scale Upda- te Rule Converge to a Local Nash Equilibrium. arXiv e-prints, page arXiv:1706.08500, Jun 2017.

[11] Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Sto- chastic Backpropagation and Approximate Inference in Deep Generative Models. arXiv e-prints, page arXiv:1401.4082, Jan 2014.

[12] Diederik P Kingma and Max Welling. Auto-Encoding Variational Bayes. arXiv e-prints, page arXiv:1312.6114, Dec 2013.

[13] Alex Krizhevsky. Learning multiple layers of features from tiny images. Technical report, 2009.

[14] Yann Lecun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. In Proceedings of the IEEE, pages 2278–2324, 1998.

CONCLUSIONI 29

[15] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of International Conference on Computer Vision (ICCV), December 2015.

[16] Douglas Reynolds. Gaussian Mixture Models, pages 659–663. Springer US, Boston, MA, 2009.

[17] Kihyuk Sohn, Xinchen Yan, and Honglak Lee. Learning structured out- put representation using deep conditional generative models. In Pro- ceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS’15, pages 3483–3491, Cambridge, MA, USA, 2015. MIT Press.

[18] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. CoRR, abs/1512.00567, 2015.

[19] Guido Van Rossum and Fred L Drake Jr. Python tutorial. Centrum voor Wiskunde en Informatica Amsterdam, The Netherlands, 1995.

Documenti correlati