Una alternativa alla Back Propagation: la GRNN

TP t = Close t + High 3 t + Low t

CAPITOLO 2: RETI NEURALI ARTIFICIAL

2.3 Una alternativa alla Back Propagation: la GRNN

La Generalized Regression Neural Network (GRNN) è stata progettata nel 1991 da Donald Specht e si è dimostrata particolarmente utile come strumento di

approssimazione di funzioni continue e, su una ampia gamma di problemi, è risultata essere in grado di fornire prestazioni superiori a quelle di numerose architetture di tipo Back Propagation . 31

La rete GRNN è una rete a quattro strati che contiene un neurone nascosto per ciascun pattern di addestramento e che non prevede l’utilizzo di alcun parametro di addestramento come il Learning rate o il momentum, come invece è richiesto nelle reti Back Propagation, mentre risulta necessaria la determinazione del parametro definito smoothing factor che indica quanto la rete è in grado di approssimare correttamente i dati dei training pattern.

Questa rete è stata introdotta come una rete neurale basata sulla memoria e capace quindi di assimilare tutti i dati di addestramento dipendenti ed indipendenti

disponibili. Quando viene presentato un nuovo vettore di input, la GRNN lo

confronta, in un spazio N-dimensionale, con tutti i pattern del training set in modo da determinare la distanza esistente tra il nuovo input e tutti gli altri pattern della rete. Pertanto questa rete neurale può essere utilizzata come approssimativa universale di funzioni continue, permettendo di risolvere la maggior parte dei problemi di approssimazione e stima di queste ultime ricevendo un adeguato numero di dati.

La funzione di approssimazione della GRNN si basa sulla teoria di regressione non lineare che può essere implementata all’interno della sua struttura e, basandosi su di essa, usa un metodo che la libera dalla necessità di assumere una specifica forma funzionale: la sua forma appropriata si esprime piuttosto come una funzione di

Galati, L. and Gabbi, G., eds. 1999. La previsione nei mercati finanziari: trading system, modelli

densità probabilistica (PDF) che le permette quindi di non essere limitata e di non richiedere la conoscenza a priori della forma migliore.

Immaginiamo che sia un vettore di variabili input indipendenti utilizzate per la previsione di un valore scalare di output ; se la la loro funzione di densità è nota, la media condizionata di dato con il minor valore atteso dello scarto quadratico medio è dato dalla seguente formula:

Dove è la funzione di densità di ed .

Comunque sia, generalmente questa funzione di densità non è nota a priori e deve quindi essere stimata da un campione di osservazioni delle variabili e utilizzando uno stimatore non parametrico basato sul “metodo delle finestre di Parzen-

Rosenblatt”. Ad esempio, se ed rappresentano i valori dei campioni di

osservazione di e nel training set, è il numero di osservazioni e è la dimensione del vettore , la media condizionata di dato l’input con il minimo scarto quadratico medio è data dalla seguente formula:

Dove:

-

corrisponde all’output del primo strato nascosto della rete;

-

corrisponde al quadrato della distanza tra il vettore di

input ed il vettore dei campioni di osservazione ;

x

y

x

E[y|x] =

∫

+inf −inf

y ⋅ f (x, y) ⋅ dy

∫

_−inf+inf

f (x, y) ⋅ dy

f (x, y)

x y

x

_y

x y

n

p

x

y

x

̂

y

(x)

=

∑

n i=1

y

⋅ W(x, x

)

∑

n_i=1

W(x, x

₎

W(x, x

_{) = e}

−_2σ2D2i

D

2 i

= (x − x

)

(x − x

)

x

-

corrisponde al campione di output conosciuto associato al campione di input ;

-

corrisponde al parametro smoothing factor della Radial Basis Function (RBF) contenuta nella rete GRNN.

Come si può osservare dal Grafico 36, l’architettura della rete GRNN è composta di quattro strati e processa le variabili in input da uno strato all’altro senza connessioni di feedback, risultando perciò simile alle reti neurali feed-forward nonostante

mantenga diverse diﬀerenze fondamentali.

Volendo entrare più nel dettaglio della struttura di ciascuno strato della rete neurale GRNN non si può far altro che partire dallo strato contenente gli input; questo strato contiene unità di input che ricevono le variabili in ingresso, che precedentemente avevamo considerato appartenere al vettore , e provvede al loro trasferimento a ciascun neurone di cui è composto lo strato successivo, il Pattern Layer. Questo secondo strato della rete contiene le unità nascoste definite “Radial Basis Units” che computano la distanza per un nuovo vettore dii input e successivamente li somma ed applica una funzione di attivazione non lineare, tipicamente

corrispondente ad una funzione di attivazione esponenziale, al risultato. I neuroni

y

x

σ

x

D

2 i

x

che costituiscono il Pattern Layer producono dunque le quantità e le trasferiscono al successivo strato nascosto.

Il secondo strato nascosto, definito “Summation Layer”, contiene unità aventi il compito di aiutare il calcolo della stima della media ponderata necessaria per l’ottenimento dell’output. Il Summation Layer infatti usa la prima unità per computare la somma dei prodotti tra ed il corrispondente output del campione conosciuto ed utilizza la seconda unità per computare la semplice somma di tutti i valori .

Infine si ha l’ultimo strato, definito “Output Layer”, che provvede, all’interno della sua unica unità, ad ottenere il valore desiderato eﬀettuando la stima della media

ponderata semplicemente tramite il rapporto tra l’output della prima unità del

Summation Layer ( ) e quello della seconda unità ( ).

Le caratteristiche della rete permettono di constatare come il Summation Layer ha sempre esattamente un neurone in più rispetto all’Output Layer, perciò, dato che tipicamente i problemi di regressione necessitano della stima di un unico dato, il Summation Layer è tipicamente costituito da due sole unità. Nel caso in cui invece il problema abbia più di un output da stimare (ad esempio un vettore di output),

l’operazione può essere svolta aggiungendo unità ad entrambi gli strati menzionati. La Generalized Regrezzion Neural Network può anche essere vista come un “Radial Basis Network” (RBN) in cui è presente un neurone nascosto addetto ad ogni caso di addestramento, ma il cui output stimato è generato da una media ponderata degli output dei casi più vicini al vettore di input, mentre la RBN viene generata da una somma pesata degli output degli strati nascosti.

W(x, x

₎

W(x, x

₎

y

W(x, x

₎

y

∑

i=1

y

_{⋅ W(x, x}

₎

∑

i=1

W(x, x

₎

Come sostenuto dallo stesso Specht, la GRNN possiede diversi vantaggi se

comparata con altre tecniche di regressione non lineare, tra cui: un meccanismo di apprendimento veloce senza procedure iterative, una stima che converge con il piano ottimale di regressione man mano che il campione diventa più ampio, una stima che risulta compresa tra i minimi ed i massimi delle osservazione e una stima che non può convergere verso soluzioni scadenti che corrispondono a minimi locali del criterio di misurazione dell’errore, il che, come visto nei paragrafi precedenti, costituisce il superamento di uno dei limiti nei quali possono incappare anche le reti neurali basate sull’algoritmo di apprendimento Back Propagation.

Un limite che caratterizza questo tipo di rete neurale consiste nel fatto che la bontà la sua performance è direttamente proporzionale alla dimensione del campione, infatti un campione eccessivamente piccolo di osservazioni non riesce a fornire alla rete le risorse necessarie ad eﬀettuare stime soddisfacenti. 

Nel documento Reti Neurali e Trading Systems: una applicazione predittiva sui mercati azionari (pagine 85-90)