3.5 Inductive models
3.5.2 Decisional Tree
Gli “Alberi Decisionali o Decisional Tree”, insieme alle Reti Neurali e agli Algoritmi Genetici che verranno descritti nel seguito, sono una particolare metodologia di classificazione che, nell’ambito dell’Intelligenza Artificiale, viene ricondotta all’interno della branca dell’Apprendimento Automatico.
Essi sono stati introdotti all’ambito della previsione delle insolvenze alla fine degli anni ’80187 e, a differenza delle altre metodologie descritte in questo capitolo, si distinguono in quanto modelli non parametrici.
185 Le nozioni riportate in questa sezione sono state estratte da:
Balcaen S. - Oooghe H. Alternative methodologies in studies on business failure: do they produce better results
than the classic statistical methods?, Vlerick Leuven Gent Working Paper Series, 2004/16;
Varetto F. Metodi di previsione delle insolvenze: un’analisi comparata, in Szego G. - Varetto F. Il rischio
Creditizio: misura e controllo, Utet, 1999.
186 Varetto F. Metodi di previsione delle insolvenze: un’analisi comparata, in Szego G. - Varetto F. Il rischio Creditizio:
misura e controllo, Utet, 1999.
187 Paul Makowsky fu il primo, nel 1985, a considerare la possibilità di estendere tale metodologia all’ambito del credit
scoring. Questa fu poi estesa all’ambito dell’Intelligenza Artificiale nel 1991 da Rasoul S. Safavian e David Landgrebe e all’apprendimento automatico nel 1993 per opera di Ross Quilan (Lyn T. C. A Survey of Credit and Behavioural Scoring:
95
Come osservato precedentemente per le metodologie di credit scoring che seguono un approccio strutturale, anche gli Alberi Decisionali prevedono l’implementazione del processo ad un training sample e la successiva estensione dei risultati così ottenuti al validation sample, quale campione d’interesse composto da imprese delle quali si vuole prevedere il possibile futuro fallimento. Restando, quindi, in tema di previsione delle insolvenze, l’implementazione di tale modello permette di realizzare un’automatica classificazione delle imprese costituenti il campione sulla base dell’osservazione di un insieme di loro caratteristiche. A tal fine il modello opera effettuando una serie progressiva di partizioni (realizzabili per mezzo di diverse metodologie) del campione di imprese in analisi con la finalità di garantire che i sottoinsiemi di volta in volta creati dal processo abbiano un contenuto più "puro" rispetto a quelli degli stadi precedenti.
La Figura 3.2 riporta lo schema esemplificativo di un Albero Decisionale, dalla cui osservazione è possibile individuare gli elementi principali che ne caratterizzano la struttura. Un Albero Decisionale si sviluppa, in particolare, in un insieme di relazioni organizzate secondo una rete ordinata e discendente la cui origine viene identificata nella “Radice” che, nella Figura 3.2 è costituita dal nodo al vertice rappresentativo del “Whole Sample o intero campione di partenza”. A partire dalla radice una serie di test identificati in termini di “Nodi Decisionali” vengono eseguiti sul campione di riferimento i quali, ad esempio, sulla base dell’osservazione del valore di determinati indici per ogni impresa del campione o di un determinato parametro benchmark (l’età dell’imprenditore, ecc.), determinano una prima riclassificazione delle imprese nel campione. Una volta realizzato il test, quindi, fuoriusciranno dal nodo decisionale uno o più rami che andranno a confluire su un nuovo “Nodo Intermedio” o su un sottoalbero sostituito da un insieme di nodi intermedi. I nodi intermedi accolgono i sotto-campioni ottenuti applicando al campione di partenza (posizionato nella radice o in un nodo intermedio) il test definito dal nodo decisionale: quando non risulta più possibile realizzare ulteriori partizioni dei sotto-campioni contenuti nei nodi intermedi il processo si ferma e tali nodi assumono la configurazione di “Foglie” che rappresentano il punto terminale del processo, dove vengono identificate le diverse classi di oggetti. Il processo di suddivisione appena descritto, quindi, prosegue, ad esempio per quanto riguarda i modelli sviluppati in ambito di previsione delle insolvenze, fino a che non sono individuati i sottoinsiemi composti esclusivamente (o con il minor margine di errore possibile) da imprese appartenenti alla medesima categoria (imprese sane o in dissesto finanziario).188
188 Varetto F. Metodi di previsione delle insolvenze: un’analisi comparata, in Szego G. - Varetto F. Il rischio Creditizio:
96
Figura 3.2: Schema esemplificativo di un Albero Decisionale
Fonte: Lyn T. C. A Survey of Credit and Behavioural Scoring: Forecasting Financial Risk of Lending to Consumers, International Journal of Forecasting, 16, 2000, pp.149-172
Tra gli algoritmi di partizione ad oggi più diffusi in ambito di applicazione del modello degli Alberi Decisionali per la previsione delle insolvenze si individuano:
Il “Recursive Partitioning Algorithm”, proposto da Frydman et al. nel 1985189, che prevede l’applicazione di un insieme di “Regole di Classificazione Univariate o Univariate Splitting Rules” (sia che il modello sia univariato sia che sia multivariato) formulate, quindi, relativamente ad una singola variabile e definite in modo tale da garantire che l’errore (espresso in termini di errore di I e di II tipo) riconnesso al rischio di errata classificazione, definito “Resubstitution Error”, delle osservazioni, rispetto a quanto definito nel training sample, venga minimizzato;
L’“Entropy Algorithm”, proposto da Joos et al. nel 1998190 e la cui più recente evoluzione viene ricondotta a Ross Quinlan (1993)191, che prevede che le caratteristiche valutate nell’Albero Decisionale vengano selezionate in modo tale da massimizzare l’“Information gain”, ossia la riduzione attesa dell’entropia (caos o incertezza) conseguentemente al progressivo partizionamento del campione: in tal senso quindi il grado di impurità che caratterizza i sottoinsiemi generati dal modello viene valutato sulla base del concetto di “entropia dell’informazione”.
189 Si veda: Frydman H., Altam E. I., Kao D. L. Introducing recursive partitioning for financial classification: The case
of financial distress, Journal of Finance, Vol. 40, nr.1, 1985, pp. 269-291.
190 Si veda: Joos P., Vanhoof K., Ooghe H., Sierens N. Credit classification: A comparison of logit models and decision
trees, Proceedings Not of the Workshop on Application of Machine Learning and Data Mining in Finance, 10th European
Conference on Machine Learning, April 24, Chemnitz (Germany), 1998, pp. 59-72.
97
Gli algoritmi svolgono un ruolo fondamentale nel processo di individuazione degli attributi che meglio discriminano tra due o più classi di imprese e, allo stesso tempo, forniscono un importante contributo anche in termini di riduzione della dimensione dell’albero.192 Quando gli Alberi Decisionali vengono implementati per l’analisi di casistiche molto complesse è possibile ottenere, infatti, un risultato finale di difficile lettura e interpretazione in quanto composto da un elevato numero di rami e foglie. Una delle possibili cause che possono portare alla costruzione di alberi complessi è riconducibile alla presenza nel training set di informazioni non sempre accurate. Quando si ottiene un output finale molto complesso, quindi, si rende necessario procedere alla potatura dell’albero, la quale può essere realizzata secondo diverse modalità, delle quali vengono riportate le principali:
La potatura in avanti. Tale metodologia prevede, ripercorrendo il percorso descritto dall’Albero Decisionale, di rivalutare l’effettiva significatività delle nuove variabili di volta in volta impiegate nella valutazione: spesso risulta infatti preferibile accettare un certo grado di impurità dei sottoinsiemi finali ottenuti piuttosto che procedere con l’attività di selezione.193 La potatura a ritroso. Tale metodologia prevede, ripercorrendo a ritroso il percorso descritto
dall’Albero Decisionale, l’eliminazione dei sottoalberi considerati meno significativi per la corretta esecuzione del processo classificatorio: tale orientamento indaga quindi sull’esistenza di possibili benefici in termini classificatori legati all’eliminazione di tali passaggi.
In conclusione è possibile osservare alcuni aspetti positivi riconnessi all’implementazione di tale metodologia in ambito di credit scoring. In primo luogo, i modelli basati sugli Alberi Decisionali facilitano il processo di individuazione delle caratteristiche più significative ai fini dell’analisi che si vuole realizzare semplificando, allo stesso tempo, il processo di comprensione del fenomeno indagato. L’analisi degli alberi ottenuti pre-potatura consente, inoltre, di individuare particolari gruppi di oggetti che possiedono caratteristiche meno evidenti. Infine, in quanto riconducibile alla classe di modelli non parametrici, tale metodologia non risulta essere vincolata alle ipotesi metodologiche tipiche, invece, della statistica parametrica, permettendo, quindi, di ottenere buoni e
192 Balcaen S. - Oooghe H. Alternative methodologies in studies on business failure: do they produce better results than
the classic statistical methods?, Vlerick Leuven Gent Working Paper Series, 2004/16.
193 La procedura di trasformare sottoalberi in foglie terminali si basa sulla quantificazione dell’errore, inteso in termini di
errata classificazione, che si compie fermando il processo ad un dato sottoalbero e sul successivo confronto di tale errore con quello relativo all’impiego di alberi troppo sofisticati (Varetto F. Metodi di previsione delle insolvenze: un’analisi
98
stabili risultati in termini di classificazione, anche se nel campione di riferimento vengono inclusi outliers, informazioni incomplete o di tipo qualitativo.
I principali limiti che possono venire, invece, riconnessi al modello vengono riassunti nei seguenti punti:
Possono, in determinate situazioni, manifestarsi fenomeni di over-fitting, o adattamento, del modello elaborato alle caratteristiche del training sample: quando ciò accade l’albero così ottenuto non risulta significativamente applicabile al validation sample;
Il processo di ottimizzazione viene implementato localmente e non globalmente, in quanto a tale seconda possibilità sono riconnesse elevate difficoltà combinatorie in termini computazionali;
L’operazione di potatura dell’albero, per quanto essenziale, necessita di essere implementata con attenzione in quanto si corre il rischio di perdere importanti concetti acquisiti dall’albero in fase di addestramento;
La risposta fornita dall’albero ha struttura dicotomica. Gli oggetti costituenti il campione iniziale vengono quindi classificati nelle rispettive classi per mezzo dell’attribuzione di un determinato valore quale ad esempio 0 o 1 rispettivamente se l’impresa è sana o in dissesto finanziario. In tal senso uno score continuo sarebbe più significativo e rappresentativo con riferimento, ad esempio, alle analisi che mirano alla classificazione delle imprese tra sane e in dissesto finanziario: tra tali due estremi esistono infatti una serie di casistiche intermedie che non vengono così considerate.
Un’importante considerazione finale deve essere realizzata in merito al confronto tra gli Alberi Decisionali e altre metodologie di credit scoring, quali i Sistemi Esperti e l’Analisi Discriminante. In termini di confronto di tale modello con i Sistemi esperti si evidenzia un interessante aspetto che caratterizza gli Alberi Decisionali, l’albero, infatti, una volta costruito può essere convertito in un insieme di regole che possono, da un lato, contribuire ad una migliore comprensione dei processi elaborati dall’albero e, dall’altro, possono essere impiegate come Motori Inferenziali dai Sistemi Esperti in quanto rappresentative del cammino seguito dall’albero per giungere alla riclassificazione del campione iniziale: l’Albero Decisionale po’ quindi essere visto come parte integrante di un Sistema Esperto. Lo stesso ragionamento non può, invece, essere esteso alla valutazione dell’integrabilità del modello in questione con l’Analisi Discriminate. Si evidenzia, infatti, che la stima di funzioni lineari con gli indicatori individuati come rilevanti dall’Albero Decisionale ha senso
99
solo per una parte limitata di essi, e con scarsi risultati in termini di performance. I problemi più significativi, in tal senso, si evidenziano quando la stima coinvolge un numero significativo di livelli dell’albero: i modelli così ricavati sono generalmente instabili e riportano segni errati nei coefficienti.194