3.4 Il problema del Morphing

4.2.5 Approcci basati su reti neurali

In questa sezione forniremo una panoramica completa dei modelli di seg- mentazione, basati su deep learning, più significativi degli ultimi anni (dati disponibili fino al 2020). La trattazione si suddividerà in due parti principali: in una prima parte richiameremo velocemente il concetto di CNN e le varie ar- chitetture disponibili, mentre in una seconda parte analizzeremo nel dettaglio i modelli di segmentazione disponibili allo stato dell’arte.

CNN e architetture Backbone

Il recente successo delle deep convolutional neural network (CNN) ha con- sentito progressi eccezionali nell’ambito della segmentazione semantica. Dato che le CNN sono utilizzate come Backbone per molte architetture di semantic segmentation, è necessario fornirne un quadro generale.

Definizione Le CNN furono inizialmente proposte da Fukushima nel suo articolo fondamentale “Neocognitron”; esso era basato sul modello di campo ricettivo gerarchico della corteccia visiva proposto dai neuroscienziati Hubel e Wiesel [39, Fukushima:1980]. La prima applicazione di successo di CNN è stata sviluppata da LeCun et al. [40, Lecun:1998] e prende il nome di LeNet5; lo scopo della rete era quello di riconoscere e leggere i codici postali e cifre a partire da semplici immagini. La vera svolta nell’ambito delle reti deep, è avvenuta nel 2012 con l’introduzione di AlexNet, una rete ampia e profonda capace di vincere con ampio margine la ImageNet challenge.

Architettura Le CNN (vedi figura 4.10) consistono principalmente di quat- tro tipi di layers:


2.1 Convolutional Neural Networks (CNNs)

CNNs are among the most successful and widely used

architectures in the deep learning community, especially

for computer vision tasks. CNNs were initially proposed by

Fukushima in his seminal paper on the “Neocognitron” [17],

based on the hierarchical receptive field model of the visual

cortex proposed by Hubel and Wiesel. Subsequently, Waibel

et al. [18] introduced CNNs with weights shared among

temporal receptive fields and backpropagation training for

phoneme recognition, and LeCun et al. [13] developed a CNN

architecture for document recognition (Figure


Convolution Pooling Convolution Pooling Fully-connected



Fig. 2. Architecture of convolutional neural networks. From [13].

CNNs mainly consist of three type of layers: i) convolu-

tional layers, where a kernel (or filter) of weights is convolved

in order to extract features; ii) nonlinear layers, which apply

an activation function on feature maps (usually element-

wise) in order to enable the modeling of non-linear functions

by the network; and iii) pooling layers, which replace a

small neighborhood of a feature map with some statistical

information (mean, max, etc.) about the neighborhood and

reduce spatial resolution. The units in layers are locally

connected; that is, each unit receives weighted inputs from

a small neighborhood, known as the receptive field, of

units in the previous layer. By stacking layers to form

multi-resolution pyramids, the higher-level layers learn

features from increasingly wider receptive fields. The main

computational advantage of CNNs is that all the receptive

fields in a layer share weights, resulting in a significantly

smaller number of parameters than fully-connected neural

networks. Some of the most well-known CNN architectures

include: AlexNet [19], VGGNet [20], ResNet [21], GoogLeNet

[22], MobileNet [23], and DenseNet [24].

2.2 Recurrent Neural Networks (RNNs) and the LSTM

RNNs [25] are widely used to process sequential data, such

as speech, text, videos, and time-series, where data at any

given time/position depends on previously encountered

data. At each time-stamp the model collects the input from

the current time



and the hidden state from the previous


, and outputs a target value and a new hidden state

Figura 4.10: Architettura di una CNN.

• Convolutional layers: dove un kernel (o filtro) di pesi è applicato all’im- magine tramite convoluzione al fine di estrarre le feature maps;

• Activation layers: layer non lineari, che applicano una funzione di atti- vazione sulle feature map (solitamente element-wise) al fine di consentire la modellazione di funzioni non lineari da parte della rete;

• Pooling layers: riducono la dimensione della feature map mantenendo le informazioni più importanti (max pooling, avg pooling, ecc);

• Fully connected layers: sono layers in cui i neuroni sono collegati com- pletamente, proprio come in una classica rete neurale.

I neuroni presenti nei layers convoluzionali sono collegati localmente in mo- do tale che ogni unità riceva input ponderati da una ristretta cerchia di neuroni, noto come receptive field, nello strato precedente. Impilando i vari strati a pi- ramide, i layer di livello superiore (quelli finali) apprendono informazioni da receptive fields sempre più ampi.

Il principale vantaggio computazionale delle CNN consiste nel fatto che a livello di feature map i pesi sono condivisi; ciò implica che questa tipologia di reti dipendono da un numero significativamente inferiore di parametri rispetto alle reti neurali fully connected.

Architetture Backbone Alcune delle architetture CNN più note includo- no: AlexNet [41, Krizhevsky:2012], VGGNet [42, Zisserman:2014], ResNet [43, Kaiming:2015], GoogLeNe [44, Szegedy:2014], MobileNet [45, Howard:2017] e DenseNet [46, Huang:2016]. Tali architetture sono utilizzate come spina dor- sale per molti modelli di semantic segmentation e per questo motivo la loro scelta è determinante per garantirsi ottimi risultati.

4.2. Semantic segmentation Capitolo 4. Approccio proposto

Modelli per la segmentazione semantica

In letteratura sono state proposte diverse reti per poter risolvere il problema della semantic segmentation. La maggior parte di esse condivide le medesime strutture base come encoders, skip-connection, ecc. Per questo motivo, data la difficoltà a menzionare i contributi unici di ogni lavoro, si è deciso di raggrup- pare i vari modelli a seconda del contributo architettonico prodotto rispetto ai modelli precedenti.

Fully Convolutional Network (FCN) Long et al [47, Long:2014] sono stati i primi nel 2014 a proporre una Fully Convolutional Network per la seg- mentazione di immagini. Un FCN (vedi figura (4.11)) include solo strati convo- luzionali, che gli consentono di acquisire un’immagine di dimensioni arbitrarie e produrre una mappa di segmentazione della stessa dimensione. Gli autori hanno modificato le architetture CNN esistenti, come VGG16 e GoogLeNet, per gestire input e output di dimensioni non fisse, sostituendo tutti i livelli completamente connessi con livelli completamente convoluzionali.


