Il neurone artificiale: analisi vettoriale

Capitolo 4: Descrizione quantitativa del neurone artificiale

4.3 Il neurone artificiale: analisi vettoriale

Considerando che la risposta data una semplice unità lineare è:

𝑦 = 𝑎 (∑ 𝑤𝑖𝑥𝑖 𝑁

𝑖

) 𝑎 = 1

questa relazione può essere vista come il prodotto interno tra il vettore 𝐰, rappresentante i valori sinaptici, e il vettore 𝐱 degli input:

𝑦 = 𝐰 ∙ 𝐱

Il valore scalare 𝑦 corrisponde alla risposta dell'unità, ovvero una misura della somiglianza tra il vettore di input e il vettore dei valori sinaptici. Sapendo infatti che la norma di un vettore ne stabilisce la sua lunghezza

‖𝐱‖ = √𝐱 ∙ 𝐱 = √𝑥12+ 𝑥22+. . . +𝑥𝑛2

e che l'angolo 𝜗 (più precisamente il coseno) formato dai due vettori 𝐰 e 𝐱 è dato da:

𝑐𝑜𝑠(𝜗) = 𝐰 ∙ 𝐱 ‖𝐰‖‖𝐱‖ 0 ≤ 𝜗 ≤ 𝜋 [4.3.1] [4.3.2] [4.3.3] [4.3.4]

attraverso dei semplici calcoli algebrici, si giunge a definire il prodotto dato dalla [4.3.2] come

𝐰 ∙ 𝐱 = ‖𝐰‖‖𝐱‖𝑐𝑜𝑠(𝜗)

Con questo si vuole affermare che se si immagina di traslare nello spazio i due vettori, mantenendo inalterata a loro lunghezza, allora il loro prodotto interno è proporzionale al coseno dell'angolo 𝜗 formatosi tra i due vettori nello spazio. Per questo se:

Quindi la risposta data dal neurone (il prodotto) sarà tanto maggiore quanto più piccola è la distanza angolare che vi è tra il vettore degli input e il vettore sinaptico all'interno del medesimo quadrante. Se la risposta di un’unità risulta essere nulla allora i due vettori formano, tra di loro, un angolo di 90° (c.d. ortogonali); se invece la distanza risulta essere maggiore di 90° l'unità assume valori negativi.

Un generico neurone che utilizza una funzione di attivazione a gradino 𝚽(𝑥) ∈ {0,1}36_{e con} una soglia fissata sul valore zero evidenzia perciò se il vettore degli input si trova ad una distanza minore (la risposta risulta essere uguale ad 1) o maggiore (risposta uguale ad 0) di

36_{Questa tipologia di unità è chiamata neurone di McCulloch e Pitts (Floreano, Mattiussi, 2002).} 𝜗 = 0° → 𝑐𝑜𝑠(𝜗) = 1

𝜗 = 90° → 𝑐𝑜𝑠(𝜗) = 0 𝜗 = 180° → 𝑐𝑜𝑠(𝜗) = −1

Figura 10: rappresentazione vettoriale di pesi sinaptici e pattern di input appartenenti ad un'unità con due sinapsi Fonte: Floreano, Mattiussi, 2002

un angolo retto dal proprio vettore sinaptico. Da sottolineare è che in una rete con molte unità, per osservare quale di questa possieda un vettore sinaptico simile al pattern di input, ci si deve basare sul livello di attivazione solamente se i vettori sinaptici sono stati normalizzati (Floreano, Mattiussi, 2002).

Generalmente una rete neurale artificiale è utilizzata per poter classificare dei pattern. Nel caso appena visto si sta trattando un neurone binario, ovvero un’unità che opera una classificazione imparando ad attivarsi solamente se vi è un determinato gruppo di pattern in ingresso ma rimanendo inattiva in tutti gli altri casi. Per apprendere si deve sviluppare un vettore di valori sinaptici atto a tracciare una linea di demarcazione nello spazio dell’input in modo tale che tutti i pattern di un gruppo si trovino da una parte della linea mentre tutti gli altri nel lato opposto. Se in un dato nodo sussistono solamente due connessioni in ingresso allora è opportuno parlare di linea di separazione, se ve ne sono tre si deve fare riferimento ad un

piano mentre se vi sono più di tre connessioni si fa riferimento ad un iperpiano di separazione

nello spazio dimensionale dell'input. Se si presenta una di queste tre opzioni per la classificazione dei gruppi di input in due categorie allora tale separazione può essere definita

lineare. Questo si presenta come un elemento importante anche per la scelta dell'architettura

relativa alla rete neurale artificiale; per esempio tutte le reti neurali che presentano solamente uno strato di sinapsi non riescono a classificare in modo adeguatamente corretto i vettori di input che non possano essere linearmente separabili (Floreano, Mattiussi, 2002).

Sia che si parli di linea, di piano o di iperpiano, questi sono tutti perpendicolari rispetto ai pesi sinaptici del singolo nodo. Nei grafici sottostanti si riporta la linea di separazione di uno spazio di input la quale viene caratterizzata da un neurone con due connessioni di ingresso poste uguali a 1. Nel grafico di sinistra la soglia 𝜗 è posta uguale a 1 mentre in quello di destra è uguale a 0. In entrambi i grafici si può individuare: la linea di separazione (linea grossa) e la linea del vettore sinaptico (linea tratteggiata).

Figura 11: Linea di separazione dello spazio di input in due neuroni con due connessioni d'ingresso. Nella figura a sinistra la soglia 𝜗 = 1 mentre in quello a destra la soglia 𝜗 = 0. La linea nera evidenzia la linea di separazione mentre la linea tratteggiata la direzione del vettore sinaptico.

Quindi un nodo ad attivazione bipolare il quale abbia due connessioni in ingresso, rende una risposta (o output) pari a:

𝑦 = 𝚽(𝐴) = 𝚽 (∑ 𝑤𝑗𝑥𝑗− 𝜗 𝒋

)

mentre la linea di separazione che individua due regioni nelle quali in una 𝐴 > 0 e nell'altra 𝐴 < 0 è definibile secondo la relazione:

𝑤1𝑥1+ 𝑤2𝑥2− 𝜗 = 0

con 𝜗 pari al valore della soglia. Procedendo algebricamente si ricava l'equazione:

𝑥2= 𝜗 𝑤2 −𝑤1 𝑤2 𝑥1

In questa relazione la soglia e i pesi sinaptici sono determinati dall'algoritmo di apprendimento. In 𝐴 > 0 tutti i vettori di informazioni in input provocheranno un output pari a 1 mentre tutti gli altri pattern, classificati nella regione 𝐴 < 0, avranno come output −1.

Dall’ultimo grafico riportato si può notare che se 𝜗 = 0 la soglia non è presente poichè la linea di separazione passa per l'origine dello spazio dell'input quindi il neurone potrebbe avere delle difficoltà nella separazione tra diverse distribuzioni di pattern. Impostando allora una casuale configurazione sinaptica iniziale e una serie di pattern di input per svolgere l'apprendimento, si deve muovere il vettore sinaptico in modo che la linea di separazione classifichi correttamente i pattern nei due gruppi.

La soglia 𝜗 può quindi essere definita come un peso sinaptico di valore 𝜗 legata ad un’unità aggiuntiva in input che abbia un’attivazione costante pari a −1. In questo caso il peso legato alla sinapsi prende il nome di bias (𝑤0) mentre il neurone aggiuntivo prende il nome di unità di

bias (𝑥0). Ogni unità all’interno della rete neurale possiede una connessione di bias mentre le unità di input non la posseggono in quanto la loro attivazione dipende dal corrispondente vettore di ingresso.

[4.3.6]

[4.3.7]

Con questo per poter attivare il neurone si utilizza la seguente notazione:

𝑦 = 𝚽 (∑ 𝑤𝑗𝑥𝑗 𝑗=0

)

Dove la sommatoria viene fatta partire da zero e 𝑥0= −1. La soglia quindi viene vista come un ulteriore peso sinaptico derivante da un neurone sempre attivo; ciò implica che, a seguito di un processo di apprendimento, essa può essere modificata come per gli altri pesi sinaptici della rete (Floreano, Mattiussi, 2002).

Nel documento Misurazione del Rischio: Analisi e confronto tra Z-Score e Reti Neurali Artificiali (pagine 71-75)