L’obiettivo dei modelli lineari, come nell’Equazione (2.2), `e quello di cer- care un iperpiano che separi i dati osservati nello spazio in modo che tutte le istanze di una classe siano divise da tutte quelle delle altre classi. Questo `e possibile solo quando i dati sono distribuiti in modo tale da permettere una divisione lineare delle classi. Se consideriamo un task di classificazione binaria lo scopo di un modello lineare `e cercare di tracciare una retta che separi le istanze di una classe da quelle dell’altra (Figura 2.5).
Nel caso in cui non sia possibile separare linearmente i dati, si pu`o utiliz- zare una funzione φ ausiliaria che mappa i dati in una nuova rappresentazione che sia linearmente separabile. La funzione φ pu`o essere definita a sua volta come un modello lineare a cui viene applicata una funzione g non lineare,
2.2 Feedforward Neural Network 53
Figura 2.5: Nelle due figure sono mostrati dei dati appartenenti a due classi distinte, distribuiti sul piano, identificati da cerchi pieni e vuoti. Nella figura a destra i dati sono distribuiti in modo tale da poter essere divisi in due aree delimitate da una linea retta. A sinistra i dati non possono essere divisi da una retta ma da una funzione non lineare.
detta funzione di attivazione:
ˆ
y = W φ(x) + b φ(x) = g(W0x + b0)
(2.15)
L’intera espressione dell’Equazione (2.15) `e differenziabile, perci`o `e ancora possibile applicare metodi di ottimizzazione basati sulla discesa del gradiente. Tramite questo procedimento cerchiamo di apprendere automaticamente una nuova rappresentazione dei dati φ(x). Questo approccio `e alla base delle tecniche di deep learning e dei modelli noti come feedforward networks o multilayer perceptron (MLP).
Definendo pi`u composizioni di modelli lineari sui dati di input a cui sono applicate funzioni di attivazione, `e possibile costruire architetture sempre pi`u profonde. Ad esempio, possiamo definire la seguente architettura MLP per
un task di classificazione: h(1) = g(1)(W(1)x + b(1)) h(2) = g(2)(W(2)h(1)+ b(2)) h(3) = g(3)(W(3)h(2)+ b(3)) o = W(4)h(3)+ b(4) ˆ y = softmax(o) (2.16) dove Θ ={W(1), W(2), W(3), W(4), b(1), b(2), b(3), b(4)}.
Ogni composizione di un MLP `e definita livello (o layer ), nell’esempio dell’Equazione (2.16) la rete `e composta da cinque livelli. Il vettore di input x `e detto input layer e il livello finale o `e detto output layer. Tutti i livelli compresi tra l’input layer e l’output layer sono detti hidden layer. Il numero di livelli del modello stabilisce la sua profondit`a, ragione per cui questi modelli sono chiamati deep.
L’uso di funzioni di attivazione g non lineari ha un importante ruolo nell’a- bilit`a di una rete di rappresentare funzioni complesse. Senza la non linearit`a delle funzioni di attivazione la rete neurale sarebbe in grado di rappresentare solo trasformazioni lineari dell’input rendendo impossibile la separazione di dati non linearmente separabili. Inoltre, le funzioni di attivazioni devono essere differenziabili in modo da permettere l’uso di algoritmi di ottimizza- zione basati sulla discesa del gradiente. Alcune delle funzioni di attivazione pi`u usate sono:
• La tangente iperbolica tanh che mappa i valori di x nell’intervallo [−1, 1]:
tanh(x) = e
2x− 1
e2x+ 1 (2.17)
• La funzione sigmoide che mappa i valori di x nell’intervallo [0, 1]: σ(x) = 1
1 + e−x (2.18)
• La funzione Rectified Linear Unit (ReLU) che filtra i valori di x < 0: ReLU(x) = max(0, x) (2.19)
2.2 Feedforward Neural Network 55 • La funzione Leaky ReLU (LReLU) che, rispetto alla ReLU, consente di
avere un gradiente positivo basso quando l’unit`a non `e attiva:
LReLU(x) = max(x, 0.01x) (2.20) Come si evince dall’Equazione (2.16) le reti feedforward non sono altro che uno stack di modelli lineari separati da funzioni di attivazione g non lineari. L’architettura di una rete feedforward offre alcuni gradi di libert`a, tra cui il numero e l’ampiezza degli hidden layer e le funzioni di attivazione da usare che, insieme, si aggiungono alla lista degli iperparametri. Le dimensioni del livello di input e output, invece, sono fisse e dipendono dal numero di features delle istanze x e del numero di classi k da predire. In Figura 2.6 `e riportata un’istanza d’esempio dell’architettura descritta nell’Equazione (2.16) rappresentata come rete in cui ciascun elemento `e connesso all’altro.
x1 x2 x3 x4 h(1)1 h(1)2 h(1)3 h(1)4 h(1)5 h(2)1 h(2)2 h(2)3 h(2)4 h(2)5 h(3)1 h(3)2 h(3)3 h(3)4 h(3)5 o1 o2 o3 softmax w11(1) w(1)12 w(1)13 w(1)14 w11(2) w21(2) w31(2) w41(2) w51(2) Hidden layer Input layer Hidden layer Hidden layer Output layer W(1) W(2) W(3) W(4)
Figura 2.6: Rete MLP a cinque livelli: un livello di input che legge l’input x composto da quattro features, tre livelli nascosti di ampiezza 5 e il livello di output che stabilisce a quale tra le tre classi l’istanza di input x appartiene dopo aver applicato la funzione softmax. Ogni connessione tra gli elementi di un livello e del successivo rappresenta un peso da apprendere.
Nell’esempio, il primo elemento del primo livello nascosto si calcola come: h(1)1 = g(1)(w11(1)· x1+ w (1) 12 · x2+ w (1) 13 · x3+ w (1) 14 · x4+ b (1) 1 ) (2.21)
Questo elemento sar`a a sua volta usato nel calcolo di tutti gli elementi del secondo livello nascosto h(2)1 = g(2)(w(2)11·h(1)1 +· · · ), h(2)2 = g(2)(w(2)21·h(1)1 +· · · ) e cos`ı via. I livelli di un MLP sono anche chiamati fully-connected o affine perch´e tutti gli elementi sono connessi tra loro.
Nelle reti deep esiste un’ulteriore tecnica di regolarizzazione per ridurre l’overfitting nota come dropout. La tecnica consiste nel selezionare casual- mente, con probabilit`a p, una parte dei pesi nella rete e non considerarli nella fase di aggiornamento dei parametri, facendo in modo tale che la rete non si stabilizzi su specifici pesi. Ad esempio, impostando il dropout a 0.2, un quinto dei pesi, scelti casualmente, non `e aggiornato.
Nell’ambito delle reti feedforward esiste un teorema di approssima- zione universale, quest’ultimo dimostra che data una funzione `e possibile approssimarla tramite una rete feedforward con un solo livello nascosto ab- bastanza ampio. Non esiste, per`o, una procedura universale che dato un training set restituisce la funzione che generalizza tutti i possibili dati os- servati e non, perci`o il teorema resta solo un interessante risultato teorico. Da ci`o segue che una rete feedforward con un singolo livello `e teoricamen- te sufficiente per rappresentare qualunque funzione, ma questo livello deve essere indefinitamente grande e potrebbe anche generalizzare una funzione sbagliata a causa dell’overfitting. L’uso di modelli deep permette di ridurre l’ampiezza dei livelli nascosti e l’errore di generalizzazione.
Data l’enorme quantit`a di pesi e operazioni su di essi per il loro con- tinuo aggiornamento, il gradiente pu`o in alcuni casi diventare quasi nullo, avvicinandosi a 0, o diventare eccessivamente alto. Nel primo caso `e difficile migliorare la loss function, mentre nel secondo caso l’apprendimento diventa instabile. Questo problema legato all’apprendimento dei parametri nelle reti deep `e noto comevanishing/exploding gradient problem.
Per evitare problemi legati al gradiente `e utile usare termini di regolariz- zazione, come l2, strategie di batch-normalization in cui, per ogni mini-batch,
sono normalizzati gli input di ogni livello della rete in modo da avere media 0 e varianza 1 e usare particolari funzioni di attivazione, come ReLU.