Pre-processing - Settore automotive - Analisi industria automotive

Analisi industria automotive

5.2 Settore automotive

5.2.8 Pre-processing

Una corretta organizzazione e strutturazione di qualsiasi database costituisce un passaggio fondamentale per cercare di ottenere risultati soddisfacenti attraverso l’applicazione di modelli numerici più o meno complessi. In questo contesto, la fase di pre-processing emerge come una fase cruciale per la buona riuscita di tutti gli studi successivi.

Dopo aver concluso il processo di pulizia e correzione, quello che si ottiene è un database composto da 15879 record, dove ogni record comprende 57 indicatori di bilancio calcolati a partire dai dati di bilancio delle imprese in esame, in modo da descriverne la condizione di salute economico-finanziaria.

Prima di applicare modelli di credit scoring basati su tecniche di intelligenza artificiale, è necessario introdurre i principali strumenti utilizzati, indispensabili per svolgere alcune operazioni di preparazione del database, oltre che per implementare i modelli designati di albero decisionale e rete neurale.

Analisi database

Per svolgere il lavoro di tesi, sviluppando modelli di intelligenza artificiale in grado di calcolare la probabilità di insolvenza di una controparte, si è deciso di utilizzare come tecnologia di riferimento Python, il quale rappresenta uno dei linguaggi di programmazione più famosi e usati al mondo.

Python rappresenta un linguaggio di programmazione dinamico orientato agli oggetti, utilizzabile per molte tipologie di sviluppo software. Quest’ultimo, infatti, presenta nume-rosi punti di forza, che hanno giocato un ruolo fondamentale nella sua costante diffusione degli ultimi anni. In questo ambito, si ritiene utile citarne alcuni tra i più importanti.

Prima, Python è completamente gratuito, con licenza open-source, e, sebbene possa essere usato e distribuito senza restrizioni di copyright, possiede da sempre una community molto attiva, ricevendo miglioramenti e aggiornamenti con grande continuità.

Dopo, Python è un linguaggio di programmazione versatile, in grado di garantire un supporto multi-paradigma e multi-piattaforma, trattandosi di un linguaggio interpretato con le funzionalità più disparate, il cui codice può essere eseguito su diverse piattaforme, come Windows, Linux, MacOS, Android, iOS e molte altre, garantendo parallelamente performance molto elevate.

Infine, Python è decisamente facile da usare, essendo un linguaggio di programmazione di alto livello che risulta allo stesso tempo semplice e potente, in quanto la sua sintassi e i diversi moduli e funzioni presenti sono consistenti, intuitivi e agevoli da imparare.

Analisi industria automotive

Per questo motivo, Python consente di esplorare numerosi ambiti di applicazione: svi-luppo di siti web e applicazioni, realizzazione di interfacce grafiche, amministrazione di sistema, automazione delle attività, calcolo scientifico e numerico, analisi di database, elaborazione di videogiochi, lavori di grafica e modellazione 3D e, non ultimo, sistemi di intelligenza artificiale, con particolare riferimento al machine learning e al deep learning.

Conclusa questa premessa, il principale vantaggio di Python riguarda senza dubbio la presenza di librerie: ogni installazione di Python include la standard library, la quale costituisce una collezione di oltre 200 moduli per svolgere numerosi compiti e attività.

Inoltre, è sempre possibile scaricare e installare migliaia di moduli aggiuntivi di terze parti, progettati e mantenuti dalla community, in caso di operazioni e applicazioni particolari.

Per svolgere il presente lavoro di tesi si è reso necessario utilizzare i seguenti strumenti:

Macbook Pro M1 come calcolatore, Python 3.10.4 come linguaggio di programmazione, Anaconda come package manager, oltre che PyCharm e Jupiter Notebook come ambienti di programmazione. In aggiunta, per la creazione di un ambiente specificatamente adatto allo sviluppo di modelli di intelligenza artificiale, si è reso fondamentale importare le seguenti librerie open-source, ognuna caratterizzata da specifiche funzioni peculiari:

• Pandas;

• NumPy;

• SciPy;

• Statsmodel;

• Matplotlib;

• Seaborn;

• Scikit-learn;

• TensorFlow;

• Keras.

Come detto precedentemente, il database è formato da 15879 record, ciascuno com-posto da 57 indicatori di bilancio. Al fine di migliorare la comprensione, si è deciso di strutturare il database anche in una versione alternativa, suddividendo il file principale Microsoft Excel in tre file CSV, “indicatori.csv”, dedicato agli indicatori di bilancio, che rappresentano i dati di input del problema, oltre che “flagS/A.csv” e “flagS/A+L.csv”, dedicati ai flag di status per le imprese sane e per le imprese anomale, che rappresentano invece i dati di output del problema.

A questo punto, è possibile osservare come il database in esame non risulti bilanciato, essendo i record di valore 0 molto maggiore in numero rispetto ai record di valore 1, sia considerando il problema di “flag di status S/A - impresa” che, in misura minore, considerando il problema di “flag di status S/A+L - impresa”.

Infatti, come illustrato graficamente in figura 5.15, si osserva nel primo caso un tasso di default pari all’1,852%, con l’identificazione di 294 eventi di default, mentre nel secondo caso un tasso di default pari al 13,685%, con l’identificazione di 2173 eventi di default.

5.2 – Settore automotive

Figura 5.15. Distribuzione imprese sane e imprese anomale.

Questo sbilanciamento, nel caso in cui portasse verso una distorsione dei risultati finali, dovrebbe essere tenuto presente in fase di progettazione del modello di credit scoring, adottando particolari strategie, per risolvere il bias a favorire predizioni negative, presente internamente a causa della specifica composizione del campione in esame.

In ogni caso, i valori relativi al “flag di status S/A - impresa” potrebbero rischiare di risultare troppo esigui per sviluppare modelli di credit scoring completamente attendibili e affidabili, poiché, fortunatamente, il fenomeno dell’insolvenza rappresenta un evento sufficientemente raro, del quale si dispone di poche osservazioni nel corso del tempo.

Per questa ragione, si ritiene utile portare avanti il progetto scegliendo di analizzare parallelamente anche il “flag di status S/A+L - impresa”, con una metodologia che, seppur non completamente corretta dal punto di vista teorico, consente di studiare il problema da una prospettiva ulteriore.

Analisi industria automotive

Gestione outliers

Il primo passo per la pulizia del dataset consiste nella gestione degli outliers, ossia le osservazioni che assumono valori estremi rispetto a tutte le altre manifestazioni disponibili.

Questi ultimi sono valori anomali rispetto alla distribuzione, a causa di errori derivanti da inserimenti o misurazioni sbagliate, che, se non correttamente e tempestivamente gestiti, possono condurre verso un’alterazione della valutazione.

Per risolvere questo problema, si è effettuato la saturazione dei valori assunti da ogni indicatore di bilancio al 5° e al 95° percentile, in modo da limitare automaticamente i valori di ogni feature all’interno di questo intervallo.

In questo modo, si è provveduto a calcolare il 5° e il 95° percentile di ogni indicatore di bilancio, con una procedura implementata utilizzando sia Python che Microsoft Excel, sostituendo ogni valore inferiore al 5° percentile e ogni valore superiore al 95° percentile, rispettivamente con il 5° e con il 95° percentile.

Questa tecnica permette di gestire adeguatamente gli outlier, allineando ogni indicatore di bilancio con alcuni valori soglia definiti dai percentili presi come riferimento, senza la necessità di eliminare completamente il record in questione, rischiando così di perdere le preziose informazioni contenute al suo interno.

La rimozione degli outlier costituisce, infatti, un aspetto fondamentale per consentire al modello di intelligenza artificiale di modellare in maniera ottimale la distribuzione dei dati, senza che un valore troppo alto o troppo basso possa portare verso acquisizioni non corrette delle informazioni potenzialmente rilevabili.

Indicatori di bilancio

Dopo aver completato il processo di pulizia dei dati, è necessario analizzare e individuare le variabili di input, per ridurre la dimensionalità e selezionare le variabili ottimali, in grado di discriminare al meglio tra i flag di output. Per ottenere le variabili con cui alimentare i modelli di intelligenza artificiale, si è deciso di effettuare due operazioni preliminari:

• analisi della correlazione tra gli indicatori di bilancio e i flag di output;

• analisi della correlazione tra gli indicatori di bilancio.

Per scegliere le variabili di input è importante valutare la correlazione tra gli indicatori di bilancio e i flag di output, in modo da capire quanto ogni indicatore apporti informazioni in relazione al risultato che si vuole ottenere. Il calcolo della correlazione tra gli indicatori di bilancio e i flag di output costituisce, infatti, un passaggio essenziale per individuare le variabili più significative, in grado di differenziare al meglio tra imprese sane e anomale.

A questo punto, osservando la tabella 5.3, è possibile evidenziare le variabili di input più importanti, caratterizzate da maggiore capacità diagnostica e, conseguentemente, con una logica di inserimento prioritaria all’interno dei modelli di intelligenza artificiale.

La scelta delle variabili di input è stata effettuata prendendo in considerazione due aspetti differenti e risolvendo un risultante trade-off: da un lato, si è selezionato le variabili con maggiore capacità diagnostica, valutandone la relativa correlazione con i flag di output;

dall’altro, si è rifiutato le variabili che, sebbene fossero molto rilevanti, producevano una correlazione troppo elevata con una variabile ancora più rilevante.

5.2 – Settore automotive

Tabella 5.3. Analisi di correlazione tra indicatori di bilancio.

Top Indicatori di bilancio

Flag di status Flag di status

S/A - impresa Correlazione S/A+L - impresa Correlazione

1° ^{KN T}_AT 0,1557 ^DT_{V A} 0,3326

2° ^KN_AT 0,1553 ^ROE 0,3315

3° _{DT +KN}^{KN T} 0,1547 _{EBIT DA}^DT 0,3186

4° ^{M S} 0,1482 ln(F N) 0,3152

5° ^LBV 0,1447 ^DF_{V A} 0,3110

6° _{DT −LIQ+KN}^{KN T} 0,1410 ^{KN T}_AT 0,2994

7° _{F N}^DT 0,1311 ^LBV 0,2991

8° ^DT_{V A} 0,1289 ^{ROE AI} 0,2082

9° ^DF_{V A} 0,1241 AU −(P S−OS)

AT 0,2955

10° _{F N}^{P C} 0,1232 _{EBIT DA}^DF 0,2947

11° _{EBIT DA}^DT 0,1183 _{DT +KN}^{KN T} 0,2913

12° _{EBIT DA}^DF 0,1177 ^KN_AT 0,2885

13° _{F N}^DF 0,1147 _CO^AS 0,2885

14° ^ROE 0,1120 ^AU_AT 0,2876

15° ^DN 0,1044 ^{EBIT DA}_AT 0,2856

16° ^RER_{F N} 0,1021 ^{EBIT DA−OF}_AT 0,2851

17° ^{ROE AI} 0,1000 ^RER_AT 0,2841

18° _{EBIT DA}^{OF N} 0,0982 _CP^AS 0,2839

19° _EBIT^{OF N} 0,0930 ^ROA 0,2733

20° ^{F N}_AT 0,0916 ^CB_CP 0,2667

Analisi industria automotive

Pertanto, scegliendo due o più variabili con elevata correlazione, anche se con elevata capacità diagnostica, è possibile dimostrare come si verifichi sempre una perdita di segno per la variabile più debole, con la possibilità di osservare una conseguente riduzione di significatività del modello in questione.

I risultati dell’analisi di correlazione tra gli indicatori di bilancio calcolati nel presente lavoro di tesi è riassumibile in una matrice di correlazione, come illustrato graficamente in figura5.16.

Matrice di correlazione

ln(FN) ln(AT) DT/FN DF/FN PC/FN VA/FN EBITDA/FN EBIT/FN OFN/FN OF/FN RER/FN RE/FN AC/AT KNT/AT KN/AT LIQ/AT FN/AT RS+RE/AT AU/AT AU-(PS-OS)/AT EBITDA/AT EBITDA-OF/AT OFN/AT RER/AT DT/EBITDA DF/EBITDA OFN/EBITDA OFN/EBIT DT/VA DF/VA MS KCN AC/PC AC-MG/PC LIQ/PC OFN/AU LBV DN KNT/DT+KN KNT/DT-LIQ+KN ROS ROE ROEAI ROI ROA AS/CP WL/CP AMM/CP CB/CP AS/CO WL/CO AMM/CO CB/CO DFL/DF DTL/DT KN/DT ICR ln(FN)

ln(AT) DT/FN DF/FN PC/FN VA/FN EBITDA/FN EBIT/FN OFN/FN OF/FN RER/FN RE/FN AC/AT KNT/AT KN/AT LIQ/AT FN/AT RS+RE/AT AU/AT AU-(PS-OS)/AT EBITDA/AT EBITDA-OF/AT OFN/AT RER/AT DT/EBITDA DF/EBITDA OFN/EBITDA OFN/EBIT DT/VA DF/VA KCNMS AC/PC AC-MG/PC LIQ/PC OFN/AU LBVDN KNT/DT+KN KNT/DT-LIQ+KN ROSROE ROE AI ROAROI AS/CP WL/CP AMM/CP CB/CP AS/CO WL/CO AMM/CO CB/CO DFL/DF DTL/DT KN/DT

ICR -1

-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figura 5.16. Matrice di correlazione tra indicatori di bilancio.

Normalizzazione/Standardizzazione

I modelli di intelligenza artificiale cercano di identificare dei pattern all’interno dei dati, osservando e confrontando i valori assunti da specifiche variabili di interesse, con l’obiettivo di imparare a prevederne il relativo comportamento futuro. Tuttavia, durante il processo di addestramento, si possono verificare svariati problemi, anche molto importanti, qualora i valori assunti dalle variabili di interesse risultino su scale drasticamente diverse.

5.2 – Settore automotive

Per questo motivo, è fondamentale prevedere alcune operazioni di trasformazione delle variabili di input, chiamate normalizzazione o standardizzazione, prima di procedere verso la vera e propria implementazione degli algoritmi di intelligenza artificiale, nel tentativo di riportare ogni variabile in esame sulla stessa scala e rendere ogni caratteristica equamente importante all’interno del problema.

La trasformazione consente di eliminare le differenze di scala presenti tipicamente in origine nelle diverse variabili di input, in modo tale da riportare i valori di queste ultime in uno specifico range. In questo modo, è possibile eliminare il rischio che, quando il modello compara i valori assunti dalle variabili, la feature con la scala più grande domini completamente la feature con la scala più piccola, distorcendo i risultati finali.

Le più diffuse tecniche di trasformazione delle variabili di input sono le seguenti:

• normalizzazione Min-Max;

• standardizzazione Z-score.

La normalizzazione Min-Max costituisce uno dei metodi più comuni per normalizzare i dati e calcola i valori assunti da ogni feature utilizzando la seguente trasformazione:

x^∗_{M in−M ax}= x − min

max − min , (5.12)

dove:

• max = valore massimo della variabile;

• min = valore minimo della variabile.

Questa tecnica riporta i valori di qualsiasi feature nell’intervallo [0,1]: per ogni feature il valore minimo viene trasformato in 0, il valore massimo viene trasformato in 1 e, come risultato, qualsiasi altro valore intermedio viene corretto con un numero decimale compreso tra 0 e 1. In poche parole, si tratta di una tecnica molto semplice e potente, che, purtroppo, presenta anche un problema, non essendo in grado di gestire molto bene gli outlier.

La standardizzazione Z-score rappresenta, viceversa, una strategia per standardizzare i dati che calcola i valori assunti da ogni feature con la seguente trasformazione:

x^∗_Z−score = x − µ

σ , (5.13)

dove:

• µ = media della variabile;

• σ = deviazione standard della variabile.

Anche in questo caso, la logica alla base è molto intuitiva: se un valore è esattamente uguale alla media della feature in questione, viene modificato in 0, mentre se un valore è superiore o inferiore viene trasformato rispettivamente in un numero positivo o negativo.

Questa tecnica consente di trasformare i dati, gestendo in modo migliore gli outlier, anche se non riporta i valori esattamente sulla stessa scala, bensì su scale ragionevolmente simili.

Analisi industria automotive

Trasformare i dati è un passaggio fondamentale della fase di pre-processing, osservando che, anche avendo a disposizione un database approfondito, con feature dettagliate, se si dimenticasse di operare una trasformazione dei valori, una di queste feature potrebbe dominare completamente tutte le altre, comportando un’enorme perdita di informazione.

In questo lavoro, si è scelto di utilizzare entrambe le tecniche di trasformazione, sia normalizzazione Min-Max che standardizzazione Z-score, in modo da comparare i risultati.

Distanza di Mahalanobis

La distanza di Mahalanobis è una misura di distanza introdotta da P. C. Mahalanobis nel 1936, che può essere utilizzata per il rilevamento di outlier in dati multidimensionali, dal momento che consente di capire quanto un particolare valore osservato possa appartenere o meno a una determinata distribuzione di probabilità. Analiticamente:

d(x)M ahalanobis=^√︂(x − µ)^T · Σ⁻¹·(x − µ) , (5.14) dove:

• µ = media della variabile;

• Σ⁻¹ = matrice di varianza/covarianza.

La distanza di Mahalanobis è la variante multivariata della distanza euclidea, con la potenzialità di tenere presente la correlazione all’interno dell’insieme di dati. Infatti, con questo metodo è possibile ottenere una stima approssimativa in merito alla possibilità che un generico valore risulti un inlier, ovvero un valore che credibilmente appartiene alla distribuzione di probabilità considerata, oppure un outlier, ovvero un valore anomalo.

In poche parole, questo metodo analizza la distanza di un’osservazione dalla relativa distribuzione di probabilità, esaminandone la correlazione all’interno dell’insieme di dati e, conseguentemente, trasformandone i valori in relazione all’intensità di quest’ultima:

maggiore è la correlazione e maggiore è il ridimensionamento.

Come risultato, questo metodo determina una tecnica in grado di individuare gli outlier e, in caso di necessità, rimuoverli, in modo da rendere ancora più stabile il modello.

Bilanciamento dei dati

Osservando i dati mostrati in precedenza, il campione di analisi risulta sbilanciato, com-portando possibili problemi in un compito di classificazione binaria, quale il presente lavoro di tesi, poiché il modello, effettuando le previsioni, potrebbe mostrare una tendenza verso la classe più numerosa, che domina la funzione di perdita nella fase di addestramento.

Per la gestione di dataset sbilanciati, è possibile usare tre tecniche diverse:

• Downsampling;

• Oversampling;

• Loss weighting.

5.2 – Settore automotive

In questo progetto, si è scelto di utilizzare la tecnica di oversampling e, nello specifico, il metodo SMOTE, o Synthetic Minority Oversampling Technique, che rappresenta una tecnica statistica in grado di incrementare, anche sensibilmente, il numero di osservazioni nel set di dati in modo bilanciato, generando nuove istanze a partire dall’analisi dei casi di minoranza esistenti, forniti come input del problema.

Capitolo 6

Nel documento Sistema bancario e intelligenza artificiale: sviluppo di un processo di risk management, basato sui modelli di albero decisionale e rete neurale, per l'analisi del rischio di credito applicato al settore automotive italiano = Banking system and artificial (pagine 153-163)