• Non ci sono risultati.

Credit scoring

3.3 Analisi multivariata

3.3.2 Modelli di regressione

3.3 – Analisi multivariata

Z-score di E. I. Altman

E. I. Altman ha definito il primo modello di credit scoring basato sull’analisi discriminante, realizzando un significativo salto di qualità sulla valutazione dell’insolvenza di un’impresa.

Questo modello, applicato inizialmente nel 1968 per le imprese quotate degli Stati Uniti e successivamente modificato e aggiornato, è funzione di cinque variabili indipendenti [3]:

zi = 1,20 · xi,1+ 1,40 · xi,2+ 3,30 · xi,3+ 0,60 · xi,4+ 1,00 · xi,5 , (3.3) dove:

• xi,1= capitale circolante/totale attivo;

• xi,2= utili non distribuiti/totale attivo;

• xi,3= EBIT/totale attivo;

• xi,4= valore di mercato del patrimonio netto/valore contabile dei debiti;

• xi,5= fatturato netto/totale attivo.

Credit scoring

Il modello di regressione lineare multipla rappresenta certamente un approccio di sem-plice applicazione, ma, pur sembrando apparentemente corretto, questo modello presenta diverse problematiche che occorre approfondire per una sua corretta comprensione.

Il primo problema riguarda il calcolo della probabilità di insolvenza, dal momento che, utilizzando questo modello, è possibile che la variabile dipendente y assuma valori esterni all’intervallo 0%-100%. Interpretando questa variabile come probabilità si ottiene quindi un ragionamento poco sensato, in quanto una situazione del genere risulta in palese contrasto con la definizione di probabilità, che implica valori compresi tra 0% e 100%. Per questo motivo, nel caso in cui si dovessero ottenere valori incongruenti della variabile y, che implicano valori della probabilità di default inferiori allo 0% o superiori al 100%, è necessario effettuare, per ripristinare la coerenza, un’operazione di troncamento del risultato in corrispondenza dei valori estremi.

Il secondo problema, possibilmente ancora più complesso, riguarda la varianza dei residui, che, nel modello di regressione lineare multipla, non risulta costante, ma risente di un problema di eteroschedasticità, violando le assunzioni alla base dell’approccio dei Minimi Quadrati Ordinari, in modo da condurre verso stime imprecise e distorte. Dal punto di vista econometrico è dunque possibile mettere in evidenza problemi di disturbi nella stima corretta dei regressori.

La regressione lineare multipla funziona bene se tutto il mondo è distribuito secondo una distribuzione normale o, se non è normale, quantomeno secondo una distribuzione simmetrica che tende alla distribuzione normale. In questo contesto, però, i residui non sono distribuiti normalmente e, conseguentemente, la stima con i minimi quadrati rischia di non essere una stima efficiente.

Per tutte queste considerazioni, il modello di regressione lineare risulta sostanzialmente inutilizzabile e si preferisce ricorrere a funzioni non lineari, come i modelli Logit e Probit, in grado di superare questi problemi e ottenere risultati sensibilmente migliori.

Logit e Probit

Nello studio dell’analisi discriminante si applica un’ipotesi importante dal punto di vista metodologico, immaginando che l’universo sia composto da due popolazioni distinte, la popolazione delle imprese sane e la popolazione delle imprese anomale, caratterizzate da valori completamente diversi delle variabili descrittive. A questo proposito, il modello di analisi discriminante si prefigge come obiettivo quello di osservare una generica impresa e di attribuire quest’ultima, con una certa probabilità di commettere degli errori, alla popolazione delle imprese sane o alla popolazione delle imprese anomale.

Al contrario, nei modelli di regressione Logit e Probit si applica un ragionamento diverso, dal momento che si ipotizza che l’universo sia composto soltanto da un’unica grande popolazione di imprese, alla quale appartengono tutte le imprese in questione.

Come risultato, non si distingue più tra imprese sane e imprese anomale: adesso le imprese che appartengono alla popolazione sono tutte caratterizzate da una variabile latente y, non osservabile, che ne rappresenta lo stato di salute economico-finanziaria.

Sfortunatamente, non è possibile distinguere e misurare questa variabile nella realtà;

tuttavia, è possibile osservarne alcune realizzazioni concrete, considerando la variabile binaria y e valutando se nell’orizzonte temporale di interesse l’impresa è stata o meno

3.3 – Analisi multivariata

caratterizzata dall’evento default. Anche in questo caso si utilizza la terminologia intro-dotta precedentemente, ovvero yi= 0 per imprese sane e yi= 1 per imprese anomale, dal momento che, se la variabile latente stato di salute dell’impresa degenera in un default, si è soliti contrassegnarla per evidenziare l’evento creditizio negativo.

Riassumendo, il passaggio concettuale fondamentale è il seguente: si passa dall’approc-cio dell’analisi discriminante, dove l’universo è composto da due popolazioni di imprese diverse, all’approccio dei modelli Logit e Probit, dove, invece, l’universo è composto da una sola popolazione, complessiva di tutte le imprese, in cui ciascuna di queste imprese è descrivibile con una variabile latente che non è direttamente osservabile, ma di cui è possibile registrare delle realizzazioni concrete a specifici istanti di tempo.

Di conseguenza, utilizzando variabili economico-finanziarie che descrivono la situazione dell’impresa, è possibile modellare la probabilità che una generica impresa sia assimilabile alle imprese sane o alle imprese anomale, ovvero la probabilità che si realizzi davvero l’evento insolvenza. Per ottenere questo risultato, è necessario effettuare alcune ipotesi statisticamente forti sulla forma della distribuzione di probabilità, a seconda che si tratti di modello Logit o Probit.

A questo riguardo, nei modelli Logit e Probit si utilizzano le funzioni di ripartizione, poiché producono probabilità comprese tra 0 e 1, in modo da superare uno dei principali ostacoli alla corretta applicazione della regressione lineare multipla nell’ambito dei modelli di credit scoring: la funzione di ripartizione logistica standard per la regressione Logit e la funzione di ripartizione normale standard per la regressione Probit.

In questo modo, il modello Logit può essere definito come segue:

yi = F (wi) = 1

1 + e−(α+∑︁mj=1βj·xi,j)+ εi , (3.5) dove F è la funzione di ripartizione logistica standard, wi la variabile indipendente, ottenuta a partire dalla trasformazione lineare degli indicatori di bilancio xij, e εi la componente di disturbo casuale.

Analogamente, il modello Probit può essere definito come segue:

yi= Φ(wi) = Φ(α +

m

∑︂

j=1

βj· xi,j) + εi , (3.6) dove Φ è la funzione di ripartizione normale standard, wi la variabile indipendente, ottenuta a partire dalla trasformazione lineare degli indicatori di bilancio xij, e εi la componente di disturbo casuale.

I modelli Logit e Probit sono modelli di regressione non lineari specificatamente pro-gettati per variabili dipendenti binarie, con un codominio limitato nell’intervallo (0,1), in modo da interpretare correttamente la probabilità di insolvenza, garantendo che la variabile dipendente y sia sempre compresa tra 0% e 100%, come visibile in figura3.3.

Questi modelli risultano sostanzialmente simili, con risultati comparabili nella mag-gior parte delle applicazioni. L’unica differenza risiede nel fatto che la funzione Logit è caratterizzata da code più spesse rispetto alla funzione Probit, anche se, in pratica, non si osservano divergenze rilevanti tra i due modelli, producendo risultati diversi solo nel caso in cui il campione in esame sia caratterizzato da numerose osservazioni con valori estremi.

Credit scoring

Figura 3.3. Distribuzione di probabilità logistica standard e normale standard.

Storicamente, si preferisce impiegare il modello Logit, il quale risulta più facilmente manipolabile dal punto di vista matematico, considerando che, soprattutto in caso di limitata potenza di calcolo, la funzione di ripartizione logistica può essere calcolata in modo molto più semplice e veloce rispetto alla funzione di ripartizione normale.

Per la stima dei coefficienti si utilizza il metodo della Massima Verosimiglianza2, con il quale, osservando che la funzione di verosimiglianza rappresenta la distribuzione di probabilità congiunta dei dati in esame, analizzata come funzione dei coefficienti incogniti, si genera lo stimatore di Massima Verosimiglianza dei coefficienti incogniti, ottenuto a partire dai valori dei coefficienti che massimizzano la funzione di verosimiglianza.

2In inglese, Maximum Likelihood (ML).

3.3 – Analisi multivariata

In poche parole, lo stimatore di Massima Verosimiglianza sceglie i coefficienti incogniti in modo da massimizzare la funzione di verosimiglianza, che, a sua volta, costituisce la funzione di probabilità congiunta. Pertanto, questo approccio consente di scegliere i valori dei parametri al fine di massimizzare la probabilità che i dati osservati siano effettivamente estratti, generando delle stime che, in questo senso, rappresentano i valori dei parametri che “più verosimilmente” hanno prodotto i dati in questione.

In ogni caso, non esiste una formula esplicita in grado di definire una soluzione in forma chiusa per calcolare i coefficienti con cui devono entrare le variabili di interesse sia nel modello Logit che nel modello Probit e, per questo motivo, la funzione di verosimiglianza deve essere massimizzata per via numerica, ricorrendo a determinati algoritmi numerici applicati su un calcolatore, come ad esempio il metodo Newton-Raphson, che prende il nome dagli autori I. Newton e J. Raphson, il quale rappresenta appunto un metodo per il calcolo approssimato della soluzione di un’equazione nella forma f(x) = 0.

Logit di J. A. Ohlson

J. A. Ohlson ha definito nel 1980 il primo modello di credit scoring basato sul modello Logit, utilizzando un campione non bilanciato di imprese industriali degli Stati Uniti, in modo da sviluppare diversi modelli per la stima della probabilità di default al variare dell’orizzonte temporale esaminato. Il modello per la stima della probabilità di insolvenza, prendendo un anno come riferimento, è funzione di nove variabili indipendenti3 [103]:

zi= − 1,32 − 0,41 · xi,1+ 6,03 · xi,21,43 · xi,3

+ 0,08 · xi,42.37 · xi,51,83 · xi,6

+ 0,29 · xi,71,72 · xi,80,52 · xi,9,

(3.7)

dove:

• xi,1= ln(totale attivo/livello dei prezzi impliciti del PIL);

• xi,2= debiti totali/totale attivo;

• xi,3= capitale circolante/totale attivo;

• xi,4= passività correnti/attività correnti;

• xi,5= dummy (1 se debiti totali > totale attivo, 0 altrimenti);

• xi,6= risultato netto/totale attivo;

• xi,7= flusso di cassa della gestione/debiti totali;

• xi,8= dummy (1 se risultato netto < 0, 0 altrimenti);

• xi,9= variazione risultato netto.

3Per semplicità, si riporta il valore dei coefficienti arrotondato alla seconda cifra decimale.

Credit scoring