L'apprendimento della rete neurale: la regola di Hebb

Capitolo 4: Descrizione quantitativa del neurone artificiale

4.5 L'apprendimento della rete neurale: la regola di Hebb

Tutti gli algoritmi di apprendimento sono stati teorizzati e costituiti basandosi sulla regola di modifica sinaptica teorizzata da Donald Hebb nella ricerca The Organization of Bahaviour del 194940_{o su delle sue riformulazioni. La regola hebbiana, secondo Floreano e Mattiussi 2002,} per quanto semplice costituisce la base su cui poter costruire dei modelli neurali più complessi. Hebb afferma che se due neuroni, collegati tra di loro, sono attivi contemporaneamente allora l'efficacia sinaptica viene rafforzata e quindi la sola attivazione di un dato nodo comporta l'attivazione anche dell'altro. La forza di tale connessione viene rafforzata ogni volta che i due neuroni saranno attivi contemporaneamente.

Se si prende ad esempio una rete neurale avente nodi di uscita caratterizzati da una funzione di attivazione binaria e se gli si presenta un pattern di ingresso 𝐱 e uno di uscita 𝐲, la modifica dei pesi sinaptici risulta essere:

∆𝑤𝑖𝑗= 𝜂𝑦𝑖𝑥𝑗

con 𝜂 pari al tasso di apprendimento. Da ciò la matrice finale dei valori sinaptici sarà uguale a tutte le variazioni calcolate per ciascuna coppia di pattern 𝜇 sommate:

𝑤𝑖𝑗= ∑ ∆𝑤𝑖𝑗 𝜇 𝜇

Questa formula vale se si ipotizza che la fase di apprendimento inizi imponendo la matrice dei pesi 𝑤𝑖𝑗 = 0 e fissando 𝜂 = 1

Dopo che ogni coppia è stata appresa, se si presenta un pattern di input, anche incompleto, automaticamente la rete va ad identificare il corrispondente pattern in uscita.

La regola di Hebb tuttavia presenta dei punti deboli in quanto non riesce ad apprendere da input che presentano degli elementi in comune ma che richiedono delle risposte diverse associate ai vari neuroni di output. In questo scenario infatti i neuroni in uscita attivati sono

40_{La traduzione in italiano di questa opera è stata fatta nel 1975 con il titolo L’organizzazione del}

comportamento. Una teoria neuropsicologica, Milano, Angeli.

[4.5.1]

molteplici e quindi offrono una risposta mista e non univoca41_{. In sintesi la regola di Hebb} permette di apprendere esclusivamente in presenza di pattern in ingresso ortogonali i quali devono quindi offrire un prodotto dei singoli componenti che sia pari a 0 (Floreano, Mattiussi, 2002). Viene definita “interferenza” la produzione di risposte miste a causa della sovrapposizione dei pattern.

4.5.1 La regola postsinaptica, presinaptica e della covarianza

Visto che l'apprendimento hebbiano puo` presentare alcune problematiche si deve procedere con il ridurre l'efficacia sinaptica. La regola Stent-Singer o regola postsinaptica (si veda A

Physiological Mechanism for Hebb's Postulate of Learning di Stent, 1973) infatti asserisce che

il valore della connessione sinaptica sia incrementato ogni volta che l'unità presinaptica e postsinaptica sono entrambe attive nel medesimo istante; allo stesso tempo però questa connessione viene indebolita se, al momento dell'attivazione dell'unità postsinaptica, l'unità presinaptica rimane inattiva. Da ciò si perviene al seguente risultato:

∆𝑤𝑖𝑗 = 𝜂[𝑦𝑖𝑥𝑗+ (𝑥𝑗− 1)𝑦𝑖]

La parte 𝑦𝑖𝑥𝑗 è quella modifica sinaptica legata all’apprendimento in cui entrambe le unità (presinaptica e postsinaptica) si presentano attive; la parte (𝑥𝑗− 1)𝑦𝑖 costituisce quella parte di modifica sinaptica in cui l’apprendimento è dato dalla non attivazione del nodo presinaptico mentre il nodo postsinaptico si è attivato. Ipotizzando che il nodo postsinaptico sia sempre attivo, se:

- Il nodo presinaptico è attivo (𝑥𝑗= 1) la funzione appena descritta si trasforma nell’equazione della variazione dei pesi sinaptici vista per la regola di Hebb.

- Se il nodo presinaptico non è attivo (𝑥𝑗= 0) allora la modifica dei pesi diventa funzione della sola risposta −𝑦𝑖 ponderata per il tasso di apprendimento 𝜂.

La regola postsinaptica riesce a superare il presentarsi del fenomeno dell'interferenza ma anche questa metodologia di apprendimento presenta un punto critico; infatti se si introducessero nella rete troppi pattern di input, parzialmente sovrapposti ai quali deve essere

41_{Il fenomeno secondo il quale vengono prodotte delle risposte miste, dovute alla sovrapposizione di} pattern in ingresso, è definita "interferenza".

associato un medesimo pattern di output, la regola postsinaptica non riesce ad apprendere in modo corretto poiché si creano troppe sinapsi inibitorie42_{(Floreano, Mattiussi, 2002).}

La regola presinaptica si propone diametralmente opposta alla regola postsinaptica. Il valore della connessione sinaptica cresce se l'unità presinaptica e postsinaptica sono entrambe attive ma decresce se l'unità postsinaptica è inattiva nel momento in cui l'unità presinaptica è attiva. Tale relazione può quindi essere decritta come segue:

∆𝑤𝑖𝑗= 𝜂[𝑦𝑖𝑥𝑗+ (𝑦𝑗− 1)𝑥𝑗]

Questa regola funziona meglio rispetto alla regola di Stent-Singer quando ad uno stesso pattern di uscita vengono associati diversi pattern di input parzialmente sovrapposti (Floreano, Mattiussi, 2002).

L'ultima regola di apprendimento basata sulla teoria di Hebb si presenta come la combinazione delle precedenti due appena trattate (postsinaptica e presinaptica) e viene chiamata regola

della covarianza o di Hopfield (si veda Neural networks and physical systems with emergent collective computational abilities di Hopfield, 1982). Questa norma prevede che la connessione

venga rafforzata se l'unità presinaptica e postsinaptica si presentano nello stesso stato; quindi o entrambe attive o entrambe inattive mentre, se dovessero presentarsi in due stati diversi, allora la connessione si indebolisce. Si deve sottolineare che se la regola della covarianza viene applicata ad una rete i cui nodi utilizzano una funzione di attivazione bipolare allora, tale regola di apprendimento, assume la stessa forma della regola di Hebb. Per questo motivo questa norma prende il nome di regola di Hebb estesa e presenta la peculiarità di poter svolgere dei compiti di classificazione o di associazione complessi.

Le capacità di apprendimento della regola postsinaptica, presinaptica e della covarianza sono state confrontate in uno studio dal titolo Optimal Plasticity from Matrix Memories: What goes

up Must Come down di Willshaw e Dayan del 1990; in questa ricerca si evidenzia che il metodo

di apprendimento ottimale, ovvero quello che offre il minor numero di errori, dipende dalla proporzione di unità attive 𝑝 nei pattern di input e dalla proporzione di unità attive 𝑟 nei pattern di output per ciascun pattern di addestramento. Per questo motivo Willshaw e Dayan, in relazione allo stato dell'unità presinaptica e postsinaptica, sono riusciti a stimare le quantità ottimali di modifica per ogni regola di apprendimento.

42_{da sottolineare è che durante il processo di apprendimento una sinapsi può invertire il suo segno in} seguito all'accumulazione delle modifiche. Tale caratteristica è comune quasi in tutte le reti neurali artificiali ma non nei sistemi nervosi biologici.

Per quanto riguarda la regola postsinaptica vale la relazione:

∆𝑤+++ = 1 − 𝑝, ∆𝑤+−− = 𝑝

in queste due relazioni gli apici indicano se la modifica è positiva o negativa mentre i pedici indicano in che stato si trovano, in ordine, le unità postsinaptiche e presinaptiche.

Se invece si prendesse in considerazione la regola presinaptica risulta invece:

∆𝑤+++ = 1 − 𝑟, ∆𝑤−+− = 𝑟

mentre per la regola della covarianza si utilizza la combinazione della regola postsinaptica e presinaptica:

∆𝑤+++ = (1 − 𝑝)(1 − 𝑟), ∆𝑤−−− = 𝑝𝑟, ∆𝑤−+− = (1 − 𝑝)𝑟, ∆𝑤+−− = (1 − 𝑟)𝑝,

In pratica queste relazioni ci mostrano quale sia il potenziale di miglioramento relativo ai pesi sinaptici ma, malgrado queste, le regole di apprendimento hebbiano presentano delle problematiche relativamente alla tipologia di associazioni che sono in grado di apprendere. Esse infatti sono sempre soggette al fenomeno dell'interferenza quanto i pattern di input non sono linearmente indipendenti (Floreano, Mattiussi, 2002).

Nel documento Misurazione del Rischio: Analisi e confronto tra Z-Score e Reti Neurali Artificiali (pagine 78-81)