( ) ( ) (
)
Da questi valori si ricava un p-value rispettivamente del 7,16%35, nel primo caso e dell’11,42%, nel secondo, valori che sottolineano in entrambe le situazioni come il rischio di considerare rilevante, quando in realtà non lo è, sia di un certo peso (visto che in entrambi i casi i valori del p-value risultano non inferiori all’1%). Per questo motivo, in base ai risultati ottenuti mediante l’F-test, si può affermare che è possibile eventualmente eliminare la variabile nel modello basato sull’analisi discriminante lineare e la variabile nello Z-score di Altman.
1. Selezione del campione. Si definisce un campione costituito da un numero sufficiente di imprese, che poi sono distinte in due gruppi, identificati dalla variabile binaria Y: imprese che si sono in seguito rivelate insolventi (con ) ed imprese che hanno puntualmente rimborsato il proprio debito (con ). Il numero di imprese appartenenti al primo gruppo deve essere sufficientemente elevato, in modo che i risultati della regressione siano statisticamente significativi;
2. Selezione delle variabili indipendenti. Per ogni impresa i, appartenente ai due gruppi, vengono individuate alcune variabili rilevanti ( ) dal punto di vista quantitativo che, come per l’analisi discriminante lineare, consistono in indici economico-finanziari che riflettono l’andamento dell’impresa;
3. Stima dei coefficienti. Si utilizzano le variabili selezionate nella regressione lineare (attraverso l’approccio dei minimi quadrati), per ottenere lo score
:
∑
dove i sono i coefficienti della regressione;
4. Stima della probabilità di insolvenza. I risultati così ottenuti possono essere utilizzati al fine di stimare la probabilità di insolvenza di un’impresa che chiede un finanziamento.
Con riferimento alle imprese italiane quotate nella categoria beni di consumo, si supponga di costruire il linear probabilistic model ed in particolare i coefficienti di tale modello utilizzando la funzione di Excel: REGR.LIN( , x, [cost], [stat]), dove con viene indicata la variabile binaria che, nel caso in esame viene
riferita alla probabilità che l’indice di indipendenza finanziaria (dato dal rapporto tra mezzi propri e mezzi totali), già utilizzato in precedenza come principale discriminante per definire i due gruppi di imprese, assuma valori superiori o inferiori al 33%. Nel primo caso (i.i.f. 33%) la variabile sarà pari a 0, mentre nel secondo (i.i.f. 33%) varrà 1. Con il secondo parametro x si intende l’intervallo delle variabili esplicative (che vengono ipotizzate uguali a quelle utilizzate nel modello di Altman). Le ultime due variabili nella funzione di Excel sono valori logici, riferiti rispettivamente all’inclusione di una costante nel modello (per cui [cost] assumerà un valore pari a 1 se la costante è inclusa, pari a 0 se è esclusa) e al calcolo delle statistiche di regressione (dunque [stat]
varrà 1 se tali statistiche aggiuntive devono essere calcolate, 0 nel caso contrario)37 .
Utilizzando la formula appena spiegata si può ipotizzare che una banca, in base al campione di imprese dell’esempio esposto precedentemente, abbia stimato la seguente funzione lineare:
[4.10]
Applicando la [4.10] a tutte le aziende del campione si ottengono i seguenti risultati per la variabile (Tabella 4-11):
37 Cfr. Löffler G. & Posh P., (2011), Credit risk modeling using Excel and VBA, pp. 4-5.
Tabella 4-11: Valori della variabile per le imprese
Imprese Gruppo A yi Imprese Gruppo B yi
Aeffe 61% Antichi Pellettieri 98%
B&C Speakers -162% Bialetti Industrie 54%
Basicnet 2% Caleffi 51%
Benetton Group 19% Cobra 85%
Bonifiche Ferraresi -66% Cogeme Set 40%
Brembo 26% Fiat 37%
Campari -39% Immsi 39%
Centrale del Latte di Torino 42% Indesit Company 28%
Csp International 26% Piaggio 20%
De Longhi 2% Pininfarina 77%
Elica 39% Poltrona Frau 34%
Emak 0% Ratti 38%
Geox -100% Richard-Ginori 1735 103%
La Doria 36% Rosss 52%
Landi Renzo -19% Sogefi 35%
Luxottica -31% Zucchi 64%
Marcolin -54%
Parmalat -47%
Pirelli 25%
Rcf Group 35%
Safilo Group 16%
Tod'S -174%
Fonte: Propria elaborazione su dati Borsa Italiana
Come si può notare dalla Tabella 4-11 appena esposta, tale approccio presenta un evidente problema, cioè il fatto di generare valori degli spesso superiori al 100% o inferiori allo 0%, che solitamente vengono troncati in corrispondenza di questi estremi. A questa situazione, palesemente irrealistica, bisogna affiancare poi altre carenze, come ad esempio il fatto che la varianza dei residui nel modello lineare non è costante, ma risente di un problema di eteroschedasticità (la varianza dei residui, quindi, assume valori differenti tra le varie osservazioni del campione, comportando il venir meno di una delle ipotesi base della regressione lineare, l’omoschedasticità che consiste, invece, nell’indipendenza dei residui dalle variabili esplicative38), che porta a stime imprecise e distorte.
38 Cfr. www.wikipedia.it.
Al fine di superare queste difficoltà la forma lineare viene sostituita con regressioni di tipo esponenziale, come nel caso del logistic probability model (o più semplicemente modello logit).
L’idea cardine del modello logistico consiste nel supporre una relazione tra la probabilità di insolvenza (che è una variabile inosservabile) ed una serie di grandezze osservabili e strettamente legate al default. Nella realtà, dunque, è possibile osservare esclusivamente una realizzazione dicotomica (0;1) di tale probabilità di insolvenza. Identificando con la probabilità di insolvenza, con il vettore delle variabili indipendenti, con e rispettivamente la costante ed i coefficienti del modello, si otterrà:
( )
dove indica la funzione standard cumulativa logistica, che può essere espressa come:
( ) ∫ ( )
( ) [4.11]
con ( ), funzione di densità logistica pari a:
( )
( )
Nel modello logit, dunque, viene posta un’ipotesi forte sulla forma della distribuzione (come dimostrato nella Figura 4-4), infatti partendo da:
( )
si ottiene:
( )
quindi:
( )
dove con si identifica il cosiddetto odd ratio (dato dal rapporto tra la probabilità dell’evento e ed il suo complemento a 1).
Figura 4-4: Sigmoide logistica
Fonte: Giuseppe Sandro Mela (2011)
Considerando ora il logaritmo naturale, si può scrivere:
Da questa elaborazione si intuisce come se nel linear probability model è ad essere messo in relazione con , ora nel modello logistico è il logaritmo dell’odd ratio ad essere legato ad .
Applicando la [4.11] ai dati del campione, si ottengono i seguenti valori per le probabilità di default:
Tabella 4-12: Probabilità di default con il modello logit
Imprese Gruppo A yi Prob (Default) Imprese Gruppo B yi Prob (Default)
Aeffe 61% 65% Antichi Pellettieri 98% 73%
B&C Speakers -162% 16% Bialetti Industrie 54% 63%
Basicnet 2% 51% Caleffi 51% 62%
Benetton Group 19% 55% Cobra 85% 70%
Bonifiche Ferraresi -66% 34% Cogeme Set 40% 60%
Brembo 26% 56% Fiat 37% 59%
Campari -39% 40% Immsi 39% 60%
Centrale del Latte di Torino 42% 60% Indesit Company 28% 57%
Csp International 26% 56% Piaggio 20% 55%
De Longhi 2% 50% Pininfarina 77% 68%
Elica 39% 60% Poltrona Frau 34% 58%
Emak 0% 50% Ratti 38% 59%
Geox -100% 27% Richard-Ginori 1735 103% 74%
La Doria 36% 59% Rosss 52% 63%
Landi Renzo -19% 45% Sogefi 35% 59%
Luxottica -31% 42% Zucchi 64% 65%
Marcolin -54% 37%
Parmalat -47% 38%
Pirelli 25% 56%
Rcf Group 35% 59%
Safilo Group 16% 54%
Tod'S -174% 15%
VALORI MEDI -16% 47% VALORI MEDI 53% 63%
Fonte: Propria elaborazione su dati Borsa Italiana
A differenza di quella lineare, la funzione logistica ha per codominio l’intervallo limitato (0,1) e questo garantisce il fatto che la variabile dipendente ( ) sia sempre compresa tra lo 0 ed il 100 per cento, dunque possa essere correttamente considerata come una probabilità di default.
Figura 4-5: Confronto grafico dei risultati con regressione lineare e logistica
-200%
-100%
0%
100%
yi
Prob (Default)
Fonte: Propria elaborazione su dati Borsa Italiana
Intervallo (0,1)
Un modello molto simile a quello logistico è quello detto probit, il quale ha comunque per codominio l’intervallo (0,1), ma viene definito da una funzione di distribuzione cumulata delle probabilità di insolvenza che assume la forma di una normale standardizzata:
( ) ∫ ( )
√
I risultati utilizzando il modello probit, nonostante le distribuzioni siano diverse (come dimostrato dalle Tabelle 4-6 e 4-739), sono abbastanza prossimi a quelli ottenuti con il modello logit, la distribuzione normale, però, presenta una difficoltà maggiore nel calcolo matematico, per questo motivo è molto più frequente l’utilizzo della distribuzione logistica nelle applicazioni pratiche.
Figura 4-6: Funzione di densità, differenze tra il modello logit ed il modello probit
Fonte: Palomba (2008)
39 In riferimento alle due figure citate , per funzione di densità si intende la funzione di probabilità di una variabile casuale continua, mentre con funzione di ripartizione si indica la funzione che associa a ciascun valore della variabile casuale la probabilità dell’evento.
Figura 4-7: Funzione di ripartizione, differenze tra il modello logit ed il modello probit
Fonte: Palomba (2008)
Prima di andare ad analizzare l’efficacia dei risultati ottenuti mediante i modelli di regressione, è utile fare alcune precisazioni circa le fondamentali differenze concettuali tra l’analisi discriminante ed i modelli logistici.
Nell’analisi discriminante lineare si ipotizza che le imprese del campione siano tratte da due diversi gruppi di dati e si cerca di prevedere l’appartenenza ad un gruppo in seguito all’analisi di determinati valori di bilancio.
Nei modelli di regressione, invece, la cui ipotesi di base è l’estrazione casuale delle imprese da un unico universo, si vuole stimare una precisa caratteristica riferita all’azienda presa in esame, come ad esempio il grado di salute, vale a dire la probabilità (che può essere logistica, lineare o normale) di insolvenza della stessa. Tale caratteristica viene osservata come una variabile latente continua, della quale sono osservabili solo due possibili realizzazioni estreme, 0 e 1. Il principale presupposto di questi modelli, dunque, sta nella relazione di causa-effetto tra i fenomeni economici sintetizzati dalle variabili di bilancio e lo stato di salute dell’impresa; questo spiega come il fine ultimo dei modelli di regressione non sia l’appartenenza di un impresa ad un gruppo, ma piuttosto la determinazione dello stato di difficoltà economico-finanziaria in cui versa l’azienda.