Strato convoluzionale - Reti neurali convoluzionali: CNN

6.3 Reti neurali convoluzionali: CNN

6.3.1 Strato convoluzionale

La convoluzione `e l’operazione fondamentale delle CNN. Essa dispone un filtro in ogni possibile posizione dell’immagine, coprendola interamente e computa il prodot- to scalare tra il filtro stesso e la matrice corrispondente del volume di input, avente

Figura 6.3: Confronto tra due convoluzioni consecutive con dimensioni kernel di 3 × 3 (dallo strato 1 allo strato 2 in verde, e poi dallo strato 2 allo strato 3 in giallo) e una singola convoluzione con dimensione kernel di 5 × 5 (direttamente dallo strato 1 allo strato 3 in giallo). Si noti che il quadrato centrale del livello 3 ha lo stesso campo visivo nel livello 1 (tutti i 25 quadrati) indipendentemente da quale delle convoluzioni consideriamo.

eguale dimensioni. `E possibile visualizzare la convoluzione come una sovrapposizio- ne del kernel sull’immagine in input (o strato nascosto). Un filtro `e caratterizzato dai seguenti iperparametri (hyperparameters):

• Altezza; • Larghezza; • Profondit`a; • Numero.

Dimensione del kernel di convoluzione

La dimensione del kernel è uno dei principali iperparametri, con la sua dimensione stiamo specificando anche la sua forma. Aumentare la dimensione del kernel in- fluenzerà la complessità totale del modello, poiché aumenteremo il numero di pesi che dovremo allenare. Nella pratica comune il kernel ha solitamente la forma di un quadrato/cubo e il lato è un numero intero positivo dispari. La ragione di ciò è per evitare ambiguità in cui l’output pixel (quello al centro del quadrato/cubo, per i kernel di dimensioni dispari) corrisponderà al pixel di input. Inoltre, nell’ultimo de- cennio abbiamo osservato un trend decrescente nella dimensione del kernel. Questo fatto può essere spiegato confrontando due convoluzioni 3 × 3 consecutive con una singola convoluzione 5 × 5, come in figura 6.3 [17]. Chiamiamo campo ricettivo il numero di input da cui dipende il nostro valore di output centrale. Ovviamente è

possibile definire il campo ricettivo dopo convoluzioni composte, con la conseguenza che dovremo tenere conto delle sovrapposizioni. Il motivo per cui confrontiamo questi due casi è perché sono due modi diversi per ottenere lo stesso campo recettivo. Fondamentalmente, stiamo confrontando una struttura più profonda (più strati) con una struttura più ”larga” (più parametri). Il primo caso dovrà addestrare 2 × (3 × 3) = 18 parametri, mentre il secondo dovrà addestrare 5 × 5 = 25 parametri. Pertanto, anche avendo lo stesso campo ricettivo, è preferibile l’utilizzo di due kernel più piccoli in termini di complessità computazionale. Inoltre, la presenza di due strati andrà a “stratificare” in un certo senso l’effetto degli input, dando maggiore importanza a quelli più vicini al centro (rilevati e utilizzati dalla prima 3 × 3 convoluzione). Oltre a questi due buoni effetti nell’utilizzo di strutture più profonde ma più strette, c’è anche uno svantaggio negativo. L’iterazione di due circonvolu- zioni 3 × 3 consecutive non può generare alcun kernel 5 × 5 possibile, e questo è logicamente riflesso dal numero di parametri precedentemente confrontati. Anche date queste considerazioni precedenti, di solito dovrebbe essere preferibile usare 3 × 3 kernel, poiché sono i kernel di dimensioni dispari più piccoli che aumentano il campo recettivo. Ad ogni modo, è comune vedere anche kernel 1 × 1 (il motivo sarà discusso nella sezione dei filtri) e 5× 5 kernel, mentre è sempre più raro vedere kernel più grandi di 7× 7 anche tra le reti più performanti.

Numero dei filtri

Il termine filtro è talvolta usato come sinonimo di kernel nella convoluzione delle immagini. Questo iperparametro viene utilizzato per eseguire più convoluzioni nello stesso livello. Il numero di filtri può anche essere pensato come il numero di canali nelle operazioni relative alle immagini, ad esempio, se vogliamo avere un’immagine colorata come output finale di uno strato convoluzionale, dobbiamo fissare il suo numero di filtri a 3, che può essere interpretato come i canali RGB nell’ordine che preferiamo. Più in generale, possiamo pensare al numero di filtri come al numero di neuroni che avrà lo strato convoluzionale, ogni neurone eseguirà una convoluzione possibilmente diversa cambiando i pesi del suo kernel e apprendendo quindi una caratteristica diversa che verrà utilizzata dagli strati successivi. Per questo motivo, ogni volta che si ha a che fare con un kernel n dimensionale, l’output di uno strato convoluzionale sarà (n + 1) dimensionale per la presenza dell’iperparametro del numero dei filtri.

Strides e padding

Consideriamo ora strides e padding insieme, perché sono entrambi legati al ”movi- mento” del kernel sull’input. Strides di un kernel n-dimensionale sono una sequenza n-dimensionale di numeri interi, che specifica quante posizioni sono necessarie per spostarsi lungo una data direzione prima di eseguire nuovamente l’operazione di convoluzione. Ricordando la definizione che abbiamo dato di convoluzione, fondamentalmente strides = 1 significa ”eseguire l’operazione di convoluzione per ogni possibile (x, y) nell’input”. Strides = 2 significherà ”eseguire la convoluzione solo se (x, y) una volta ogni due posizioni consecutive”, quindi stiamo sostanzialmente saltando metà delle possibili combinazioni ed eseguendo la convoluzione solo quando (x, y) sono entrambi dispari ((1,1) , (1,3), (3,1), (3,3), ...). Abbiamo detto che strides

hanno la stessa dimensionalità del suo kernel, perché è possibile specificare differenti lunghezze di strides per ogni dimensione del kernel, quindi per una convoluzione 2D può essere possibile specificare strides = (2,3), che significa: ”Eseguire nuovamente la convoluzione solo dopo essersi spostati di 2 posizioni sulla prima dimensione o di 3 posizioni sulla seconda dimensione”. L’iperparametro strides influenzerà la dimensione e la forma dell’output, maggiore viene impostato e minore è l’output. L’iperparametro padding è quello usato per affrontare i problemi dei contorni delle matrici, a cui ci si riferisce quando il kernel sborda dai contorni dell’input. Le op- zioni più popolari sono: valid and same. Il padding valid significa che ogni volta che il kernel sborda dall’input, quella singola operazione verrà saltata, risultando in un output di dimensione inferiore rispetto all’input (se il kernel ha una dimensione maggiore di 1). Padding same significa idealmente ”mantenere la stessa dimensione”. Anche se questa conclusione non è garantita (poiché altri parametri possono comunque ridurre la dimensione), lo scopo è quello di evitare di saltare la posizione a causa di ambiguità su come trattare i bordi. Pertanto l’opzione padding = same andrà ad aggiungere, in qualsiasi posizione richiesta ma non esistente nell’input, una posizione immaginaria con la minore interferenza possibile in termini di valori. Il valore all’interno della posizione immaginaria dipenderà dall’operazione, per le convoluzioni vengono inseriti zeri, per il min o max pooling ± inf. Fondamentalmente si cercherà di inserire il valore più neutro.

Nel documento Sistema di visione artificiale “chiavi in mano” composto da sistema stereo e rete neurale per applicazioni di guida robot industriali (pagine 75-78)