Reti Neurali Artificiali - Panoramica sui principali approcci all’apprendimento automa-

4.3 Panoramica sui principali approcci all’apprendimento automa-

4.3.2 Reti Neurali Artificiali

Le reti neurali artificiali rappresentano un potente approccio all’apprendimento ispirato dalle scoperte sulla struttura del cervello e sui processi di apprendimento umani[16]. Il nostro cervello pu`o essere visto come un computer altamente parallelo in grado di risolvere alcune classi di problemi, ad esempio il riconoscimento di immagini, con delle performance irraggiungibili per i computer moderni; `e composto all’incirca da 1010 _{neuroni intercon-}

nessi in modo da formare delle reti, con all’incirca 104 _{connessioni per ogni}

neurone.

Nelle reti neurali artificiali i neuroni vengono rappresentati come unit`a di elaborazione caratterizzate da un certo numero di connessioni di input, con input generato da sorgenti esterne oppure da altre unit`a, e da un certo numero di connessioni di output che inoltrano il risultato della funzione calcolata sui dati di input, detta funzione di attivazione. La funzione di attivazione

CAPITOLO 4. MACHINE LEARNING

può essere una funzione lineare, oppure una funzione a scalini tipo la LTU, o ancora una funzione logistica. I valori delle connessioni di input sono pesati, cioè moltiplicati per il valore del peso w corrispondente; i pesi rappresentano i parametri del modello, e verranno modificati durante il processo di apprendimento. La somma di tutti i valori di input pesati è chiamata input di rete (neti).

(

neti(x) =P wijxj

oi(x) = f (neti(x))

Neuroni artificiali e reti neurali ad un livello

Una tipica implementazione di un neurone artificiale è il Perceptron, che ha in ingresso un vettore a valori reali e produce un output binario dato dall’applicazione di una funzione di attivazione di tipo LTU (quindi può risolvere solo problemi linearmente separabili). Un Perceptron è in grado di rappresentare le funzioni booleane AND, OR e NOT (con le conseguenti negazioni NAND e NOR), ma non l’XOR, per rappresentare il quale si rende necessaria una rete multistrato a due livelli. L’algoritmo di apprendimento per il Perceptron è il seguente:

• si inizializzano i pesi a zero (oppure ad un valore piccolo e casuale), • si sceglie della velocit`a di apprendimento η,

• finchè una data condizione non è verificata (ad esempio finchè i pesi non cambiano):

– per ogni esempio di allenamento si calcola la funzione di attivazione,

– se l’output `e corretto non si cambiano i pesi, – altrimenti si aggiornano secondo la formula:

CAPITOLO 4. MACHINE LEARNING

Usando l’algoritmo precedente abbiamo la sicurezza che la soluzione del problema venga appresa, cio`e che l’algoritmo converga[16, cap 3.9] alla soluzione ottimale.

Un’alternativa implementazione di un neurone artificiale è la Adaline (acronimo di adaptive linear neuron), con algoritmo di apprendimento basato sulla discesa del gradiente e sui minimi quadrati (LMS, acronimo di least mean square); esso non prevede una soglia, ma ha l’obiettivo di minimizzare la differenza tra l’output previsto e il prodotto tra i pesi e l’input (δ = (d − wx)); è garantita solo la convergenza asintotica (quindi ci possono essere errori di classificazione in problemi linearmente separabili) ma indipen- dentemente dal tipo di problema (linearmente separabile o meno), pertanto è applicabile anche per affrontare i problemi multiclasse. Come funzione di attivazione non possiamo ovviamente utilizzare quella del Perceptron, dato che per essere utilizzata in un algoritmo a discesa del gradiente deve essere derivabile; una funzione con comportamento simile a quella a scalini è la funzione logistica sigmoidea che, a differenza della LTU è differenziabile.

In un algoritmo LMS basato su una funzione logistica sigmoidea l’output passa dalla forma o(x) = xw alla o(x) = f (xw); l’obiettivo `e la minimizzazio- ne della somma dei quadrati residui, che viene calcolata tramite il gradiente della funzione di perdita. I pesi verranno aggiornati secondo la seguente formula:

wold = wnew+ ηδpxp con δp = (dp− f (netp))f0(netp)

Reti Neurali Multistrato

Le reti reurali multistrato possono essere viste come una rete di unit`a (i neuroni artificiali) interconnesse, ma anche come una funzione composta da funzioni non lineari, come il seguente esempio di rete neurale a due strati:

h(x) = fk(

jwkjfj(

CAPITOLO 4. MACHINE LEARNING

Una rete neurale è definita dal tipo delle unità, dalla funzione di attivazione, dal numero di unità, dalla topologia di rete e dall’algoritmo di apprendimento. Una rete neurale è detta feedforward se le connessioni tra le unità formano un grafo diretto aciclico; è detta invece ricorrente se nel grafo sono presenti cicli di feedback, che permettono di tenere traccia delle passate computazioni e quindi di processare dati di input strutturati, come ad esempio le sequenze. Lo spazio delle ipotesi è continuo, e rappresenta tutte le funzioni che possono essere rappresentate assegnando valori ai pesi. Nel caso in cui le unità siano Perceptron, la rete neurale prende il nome di MLP (multi-layer perceptron).

Consideriamo la rete neurale come una funzione composta da funzioni non lineari. Le funzioni interne (nell’esempio precedente le varie fj) sono

calcolate da unità indipendenti che chiamiamo unità nascoste; la capacità di rappresentazione del modello dipende da queste unità, che trasformano l’input nella rappresentazione interna della rete. Il processo di apprendimento ha proprio il compito di definire un’appropriata rappresentazione interna, in modo da permettere al modello di approssimare al meglio la funzione obiettivo. Può essere dimostrato che una rete con un singolo strato di unità nascoste può approssimare ogni funzione continua, ed una rete multistrato può approssimare ogni possibile mapping da input ad output[17].

L’algoritmo di apprendimento tipico per reti neurali multistrato è chia- mato backpropagation; esso utilizza la discesa del gradiente per minimizzare l’errore quadratico tra l’output della rete e il valore della funzione obiettivo. Ovviamente le unità che compongono la rete hanno funzione di attivazione logistica. L’algoritmo, nel caso di rete a due livelli, è il seguente:

• creiamo una rete neurale di tipo feedforward, con nin input, nhidden

unit`a nascoste e nout unit`a di output;

• si inizializzano i pesi a dei piccoli valori casuali;

CAPITOLO 4. MACHINE LEARNING

– per ogni esempio di allenamento:

∗ si propaga l’input nella rete e calcoliamo l’output (o(n)) di tutte le unit`a;

∗ si propaga indietro l’errore nella rete; per le unit`a di output (chiamiamole k ) l’errore viene calcolato come:

δk = ok(1 − ok)(tk− ok)

dove tk `e output dell’esempio di allenamento k.

∗ mentre per le unit`a nascoste (chiamiamole h) viene calcolato come:

δh = oh(1 − oh)P_k∈n_outwkhδh

∗ i pesi vengono aggiornati secondo la seguente regola:

wji = wji+ ∆wji con ∆wji = ηδjxji

Ovviamente l’algoritmo pu`o essere esteso a reti neurali multistrato con pi`u di due livelli. Dato il profondo utilizzo che ne viene fatto sono state stu- diate numerose varianti volte a risolvere, o limitare, alcuni problemi che si presentano durante il processo di apprendimento.

Abbiamo già detto che non è garantita la convergenza ottimale; ciò è dovuto al fatto che la funzione di errore non è convessa, pertanto esistono numerosi minimi locali ed il minimo a cui converge l’algoritmo dipende dalla configurazione iniziale dei pesi. E’ stato verificato che sulle applicazioni reali il minimo locale trovato è più che sufficiente, però, nel caso in cui esso non sia sufficiente, è possibile eseguire l’algoritmo più volte, con configurazioni iniziali dei pesi differenti, e scegliere la soluzione con l’errore minore.

Dato che la velocità di apprendimento è inversamente proporzionale alla stabilità dell’algoritmo, la scelta del valore di η è critica; per ovviare a questo

CAPITOLO 4. MACHINE LEARNING

problema `e possibile modificare la funzione di aggiornamento dei pesi in modo da tener conto delle precedenti iterazioni:

∆wji(n) = ηδjxji+ α∆wji(n − 1)

α `e detta momentum, ed `e un valore compreso tra zero ed uno utilizzato per rappresentare la dipendenza dal precedente aggiornamento.

Solitamente il metodo, essendo iterativo, ha una buona velocità di convergenza (lineare nel numero di parametri); nel caso in cui essa non sia sufficiente è possibile utilizzare il metodo del gradiente coniugato che garantisce una convergenza più rapida. La condizione di terminazione solitamente è una soglia k entro la quale deve stare la funzione di perdita; in alcuni casi (ad esempio se non conosciamo la tolleranza dei dati) si può utilizzare una soglia sul numero di errori di classificazione effettuati in un epoca (ciclo di allenamento) oppure la massima tolleranza da noi attesa sui dati.

Un problema molto grave da scongiurare nell’allenamento di una rete neurale `e l’overfitting, che tipicamente abbiamo nel caso in cui la rete sia stata eccessivamente allenata con gli stessi dati di esempio; le tecniche principale utilizzate per prevenire l’overfitting sono:

Early stopping:

Viene definito un insieme di validazione composto da dati non utiliz- zati nella fase di allenamento, e viene utilizzato per stabilire il livello di apprendimento della rete neurale in modo da determinare quando fermarsi;

Regolarizzazione:

Dato che l’allenamento comporta un aumento del valore dei pesi, possiamo ottimizzare la funzione di errore rendendola dipendente anche dai pesi stessi:

E(w) = P

CAPITOLO 4. MACHINE LEARNING

il valore di λ `e solitamente molto piccolo, di poco maggiore allo zero, e viene selezionato tramite una fase di cross-validation;

Metodi di pruning:

L’algoritmo di apprendimento viene eseguito su una rete composta da un gran numero di unit`a e progressivamente si eliminano pesi o unit`a non necessarie.

Anche la scelta del numero di unità è importante, oltre che per fini di controllo della complessità, anche per stabilire se il modello sarà in grado di trovare una buona soluzione al problema; infatti se vengono utilizzate poche unità nascoste si rischia di non apprendere la soluzione, mentre se ne vengono utilizzate troppe si cade nell’overfitting. Una soluzione a questo problema, alternativa ai metodi di pruning, è offerta dall’approccio costruttivo. Un algoritmo di apprendimento costruttivo costruisce la rete partendo da una configurazione minimale e aggiungendo nuove unità e connessioni durante la fase di allenamento; un esempio di algoritmo costruttivo è il cascade cor- relation[18], che permette di risolvere sia problemi di classificazione che di regressione.

Nel documento Ambient Intelligence: una soluzione per anticipare i bisogni imparando dall'esperienza (pagine 57-63)