La letteratura riguardante le reti neural

Capitolo 3: Le Reti Neural

3.2 La letteratura riguardante le reti neural

Di grande importanza è l’analisi della letteratura economico-finanziaria in merito ai risultati ottenuti con l’applicazione delle reti neurali. Ciò ci permette di poter evidenziare i punti di forza e i punti deboli di questo sistema di classificazione mettendoli anche in confronto con altre metodologie di discriminazione per l’analisi del rischio di insolvenza.

In un contesto economico le variabili da utilizzare per la creazione della rete sono prevalentemente di tipo quantitativo poiché lo stato di salute aziendale viene rappresentato dalle voci di Stato Patrimoniale e Conto Economico. Con questo si può fare uno specifico riferimento ad Altman (1968) il quale, come indicato nei capitoli precedenti, individuò le principali variabili per la descrizione del rischio di insolvenza in un’impresa26_{. Una delle prime} ricerche sull’analisi dell’efficacia delle reti neurali è stato condotto da Chilanti nell’Analisi e

previsione delle insolvenze: un approccio neurale, Finanza Imprese e Mercati, del 1993 nel

quale è stato utilizzato un campione per il training set non diviso in maniera equa tra imprese fallite e sane. Questo metodo di procedere ha suscitato molti dubbi in merito alla necessità di adottare un identico numero di imprese per tipologia per la creazione della rete. Perez nello studio Artificial neural networks and bankruptcy forecasting: a state of the art del 2006 afferma che, dopo aver analizzato 24 studi, quelli che presentano inputs migliori sono quelli che dispongono di un campione 50-50 tra imprese sane e imprese fallite.

Per quanto concerne la funzione di attivazione sempre Chilanti afferma di aver utilizzato una di tipo sigmoide ovvero:

𝑓(𝐴) = 1

1 + 𝑒−𝑘𝐴

Turban e Trippi però nella ricerca Neural Networks in Finance and Investing. Using artificial

neural intelligence to improve real-world performance, come anche Sironi e Marsella nel La misurazione e la gestione del rischio di credito. Modelli, strumenti e politiche, Bancaria editrice

del 1998 affermano che possano essere utilizzate anche altre forme funzionali. Sironi e

26_{Le variabili individuate da Altman sono: Capitale circolante/Totale attivo, Utili ritenuti/Totale attivo,} Utili prima di interessi e tasse/Totale attivo, Capitalizzazione di mercato/Debito totale, Fatturato/Totale attivo.

Marsella in particolare affrontano questo problema più approfonditamente proponendo le seguenti tipologie di funzioni:

Lineare 𝑓(𝑥) = 𝛼 ∙ 𝑥 Sinusoidale 𝑓(𝑥) = 𝑠𝑖𝑛(𝑥) Gaussiana 𝑓(𝑥) = 𝑒−𝑥2 Logistica 𝑓(𝑥) = 1 1 + 𝑒−𝑥 Logistica simmetrica 𝑓(𝑥) = ( 2 1 + 𝑒−𝑥) −1 Tangente iperbolica 𝑓(𝑥) =𝑒 𝑥_{− 𝑒}−𝑥 𝑒𝑥_{+ 𝑒}−𝑥 Tabella 7: questa tabella di funzione è stata proposta da Sironi e Marsella (1998)

Se la funzione fosse lineare si rientra nel caso della regressione multipla lineare con la conseguente perdita degli strati nascosti della rete. Definendo a titolo esemplificativo una rete avente 4 nodi in input, 3 nascosti e 2 di output, si ottengono le seguenti matrici di pesi.

𝐴 = [ 𝑤51 𝑤61 𝑤71 𝑤52 𝑤53 𝑤54 𝑤62 𝑤63 𝑤64 𝑤72 𝑤73 𝑤74 ] 𝐵 = [ 𝑤85 𝑤95 𝑤86 𝑤96 𝑤87 𝑤97 ]

Nella matrice A, l’elemento 1,1 (quindi 𝑤51) stabilisce il legame tra il nodo nascosto 5 e il nodo in input 1; questa tipologia di connessione è definita anche per tutti gli altri elementi in base all’indice espresso. Nella matrice B invece l’elemento 1,1 (quindi 𝑤85) è il peso associato all’influenza che il nodo 5 ha sul nodo in output 8.

Figura 6: Rete con 4 nodi in input, 3 nascosti e 2 di output. Fonte: D’Annunzio, Falavigna, 2004.

Questa rete può essere descritta secondo una generica funzione che va da ℝ4_{ad ℝ}2_:

𝑦 = 𝑓[𝐵 ∙ 𝑓(𝐴𝑥)]

I valori che il vettore 𝑥 assume in corrispondenza di ognuno dei casi del training set corrispondono ai nodi in input mentre i valori associati ai neuroni dello strato nascosto rappresentano gli elementi del vettore risultante da 𝑓(𝐴𝑥). Infine i valori dei nodi dello strato in output sono rappresentati dalle componenti del vettore risultato dati da 𝑓[𝐵 ∙ 𝑓(𝐴𝑥)].

Si vuole sottolineare che se la funzione 𝑓(𝐴𝑥) è lineare essa “scompare” eliminando lo strato nascosto; la funzione generale della rete quindi diventa:

𝑦 = 𝑓(𝐵𝐴𝑥) = 𝑓(𝐶𝑥)

Se invece si avesse una funzione non lineare da introdurre nella rete normalmente viene utilizza una funzione di tipo logistico (o in alternativa sigmoide) poiché offre un output di tipo dicotomico. Questa tipologia di funzione rende il risultato pari a 0 se non si supera una determinata soglia o 1 dopo aver superato tale valore; questo consente di introdurre il discorso sulla forma dell’output il quale, nella quasi totalità degli studi, definisce se un’impresa è sana o fallita, quindi di tipo dicotomico (D’Annunzio e Falavigna, 2004).

Solitamente, nelle letterature analizzate, quella migliore da utilizzare per poter attuare delle previsioni in campo finanziario appare essere quella della Back-propagation tuttavia, in origine, la tipologia di rete neurale più utilizzata era la Multilayer Perceptron (MLP) implementata da Rosenblatt. Si vuole però sottolineare l’esistenza di molteplici generi di rete che vengono utilizzate in base alla tipologia di fenomeno che si vuole studiare e, malgrado si sia cercato di associare ad ogni problema un dato tipo di rete neurale, anche in ambito economico finanziario vengono utilizzati dei sistemi neurali diversi dalla Back-propagation o dal Multilayer

Perceptron. Nella seguente tabella presa da Sironi e Marsella nel La misurazione e la gestione del rischio di credito. Modelli, strumenti e politiche del 1998 viene offerta una semplice sintesi

di vari tipi di rete neurale oltre ai rispettivi punti forti e difetti e dei fenomeni che sono in grado di rappresentare.

Modello Neurale Applicazione principale

Vantaggi Limiti

Hopfield Ricostruzioni delle immagini da frammenti

Implementazioni su larga scala

Non apprende e i pesi devono essere attribuiti Perceptron Riconoscimento

caratteri ed immagini

Esperienza di applicazione

Non riconosce modelli troppo complessi Multilayer Perceptron Riconoscimento dei

pattern sottostanti

Rete semplice e generalizzabile

Non riconosce modelli troppo complessi Macchina di Boltzman

Riconoscimento dei pattern sottostanti

(radar, sonar)

Semplicità basata sulla funzione di errore

Richiede tempi lunghi di apprendimento

Counter-propagation

Comprensione di immagini e analisi

statistica

Più semplice del Perceptron, meno potente della Back-

propagation

Elevato numero di connessioni ed elementi da processare

Neocognitron Riconoscimento di grafia e dei simboli

Rete raffinata per pattern complessi

Elevato numero di connessioni ed elementi da processare Self-Organizing Map Mappatura e

classificazione di dati

Performance superiore alle tecniche statistiche

Training esteso e dispersivo Back-propagation Ampie applicazioni: in finanza previsione e credit scoring

Rete diffusa semplice ed efficace

Training supervisionato senza

leggi universali

Tabella 8: Tabella riportante varie tipologie di reti neurali artificiali Fonte: Sironi e Marsella, 1998.

Un ulteriore tema da affrontare è quello legato ai vari generi di architettura delle reti stesse. Gran parte della letteratura è propensa ad utilizzare uno strato nascosto (hidden layer) all’interno della rete neurale mentre una piccola parte degli studi introduce un secondo strato nascosto; questa scelta, in nessun caso, è stata giustificata (D’Annunzio e Falavigna, 2004). In questo caso si riferimento agli studi di Altman, Marco e Varetto (1994), De Almeida e Dumonter (1993), Roghupahi, Schkade e Raju (1991). Sempre rimanendo in tema di struttura della rete neurale Hornick, Stinchcombe e White nell’articolo Multilayer feedforward networks

are universal approximators del 1989 giungono ad un risultato molto significativo in quanto

riescono ad approssimare qualsiasi funzione utilizzando una rete MLP (Multilayer Perceptron) ovvero multistrato avente un solo strato nascosto. La superiorità delle reti neurali è stata poi confermata da tutta la letteratura in quanto non vi sono delle ipotesi particolari che devono stare alla base nella definizione delle variabili in inputs; questo è un risultato molto importante

in quanto si differenzia da moltissime altre tecniche statistiche27_{. In aggiunta a ciò appena detto} la rete neurale, per funzionare, non necessità di serie storiche e, se basata su funzioni di attivazione non lineari, può rappresentare in modo più corretto la realtà dei fatti.

Nel documento Misurazione del Rischio: Analisi e confronto tra Z-Score e Reti Neurali Artificiali (pagine 54-58)