• Non ci sono risultati.

Capitolo 4 Confronto tra modelli di previsione della frode

4.4 Risultati dei modelli selezionati

4.4.2 Modello di Cecchini et al

Cecchini et al. (2010) hanno sviluppato un metodo SVM innovativo basato su un kernel finanziario che mappa i dati finanziari grezzi in un elenco di rapporti predefiniti. Cecchini et al. (2010) mostra che il loro SVM-FK supera significativamente diversi modelli rappresentativi di previsione delle frodi nella contabilità, incluso quello di Dechow et al. (2011).

In questa sezione, si replicano, il metodo SVM-FK di Cecchini et al. utilizzando i dati utilizzati per il confronto migliorando la prestazione del modello, evitando due distorsioni del futuro. In primo luogo, per affrontare il problema dello squilibrio di classe, SVM-FK impiega l'SVM sensibile ai costi regolando il parametro del modello 𝐶+1: 𝐶−1 (ovvero il rapporto tra il costo della classificazione errata delle frodi e la non frode). Quando si cerca il parametro ottimale 𝐶+1: 𝐶−1 per massimizzare il valore di

AUC, Cecchini et al. (2010) esegue direttamente la ricerca utilizzando il campione di prova anziché un campione di convalida di controllo. Per questo motivo, le procedure di implementazione di Cecchini et al. sono soggette ad una propensione al futuro. In particolare, si forma il modello SVM-FK utilizzando 1991-1999 e si convalida il modello utilizzando 2000-2001 per gli anni di prova 2003-2008. Si usano due anni invece di un anno per la convalida a causa della bassa frequenza di frode in un anno tipico. Dopo aver determinato il parametro ottimale 𝐶+1: 𝐶−1 (20 nel campione), si forma il modello e si

testano le sue prestazioni. In particolare, si utilizza il periodo di formazione 1991-2001 per l'anno di prova 2003, 1991-2002 per l'anno di prova 2004 e così via. In secondo luogo, si differisce da Cecchini et al. (2010) in quanto si utilizzano tutti gli anni dell'azienda in un periodo di prova per eseguire la valutazione delle prestazioni fuori campione. Cecchini et al. (2010) eseguono l'addestramento, la convalida e la valutazione del modello fuori campione solo dopo aver ottenuto, per una serie di anni società fraudolente e tutti gli anni società non fraudolente, abbinati nello stesso anno. Poiché i modelli SVM-FK richiedono molto tempo per la formazione e la convalida per set di dati di grandi dimensioni, è opportuno utilizzare un campione abbinato di frodi e non frodi durante il periodo di formazione.

Tuttavia, è problematico utilizzare solo gli anni di attività fraudolenta e non fraudolenta abbinati in un anno di prova per valutare le prestazioni fuori campione del modello SVM-FK, in quanto ciò potrebbe invitare a distorsioni per il futuro, realizzando implementazioni temporali problematiche. In particolare, poiché sono necessari in

114

media due anni per la divulgazione iniziale della frode contabile (Dyck et al. 2010), un decisore rilevante (ad esempio un investitore) non sa al momento della previsione se i bilanci di una società in un anno industriale sono fraudolenti o no in un anno di prova. Pertanto, il decisore non può associare un'impresa fraudolenta a un'impresa non fraudolenta nell'anno di prova, perciò un approccio più appropriato alla valutazione delle prestazioni fuori campione è quello di valutare le prestazioni fuori campione di SVM-FK utilizzando l'intera popolazione di attività nel periodo di prova. Per questo motivo, la replica di Cecchini et al. (2010) utilizza un campione abbinato di attività fraudolenti e non fraudolenti per la formazione e la convalida, ma utilizza l'intera popolazione di attività nel periodo di prova 2003-2008 per valutare le prestazioni fuori campione del modello SVM-FK.

Queste distinzioni sembrano essere fondamentali nella valutazione delle prestazioni fuori campione del modello SVM-FK. In particolare, i risultati non tabulati mostrano che il campione di imprese fraudolente e non fraudolente abbinate costituisce solo il 22,61% (6.984 / 30.883) della popolazione di imprese fraudolente e non fraudolente nel periodo di prova 2003-2008. 237 (0,77%) delle 30.883 osservazioni nel campione completo del periodo di prova 2003-2008 sono veri casi di frode. Al contrario, per il campione corrispondente di frode e non frode basato sul periodo di prova 2003-2008, 237 (3,39%) delle 6.984 osservazioni sono casi effettivi di frode. La tabella 11 mostra che l'AUC media per il modello SVM-FK è di 0,673 utilizzando un campione abbinato di osservazioni fraudolente e non fraudolente nel periodo di prova 2003-2008.

Performance Metrics averaged over the test period 2003-2008 Metric one Metric two Input

Variables Method AUC NDCG@ k Sensivity Precision 14 Financial Ratios Logit 0.672 0.028 3.99% 2.63% 28 Raw Financial data items SVM-FK 0.626 0.020 2.53% 1.92% Logit 0.690 0.006 0.73% 0.85% RUSBoot 0.725 0.049 4.88% 4.48% SVM 0.680 0.016 1.69% 1.90% SVM-FK 0.673 0.162 4.58% 16.44%

115

(Matched) 11 Financial

Ratios Logit 0.649 0.025 3.49% 2.26%

Tabella 11 (appendice online) La tabella mostra le prestazioni dei modelli di previsione delle frodi (modelli (1) - (4) nella tabella 10 e tre modelli aggiuntivi non tabulati nel documento, tra cui: (5) SVM kernel lineare basata sui 28 dati finanziari grezzi, (6) SVM-FK utilizzando un campione abbinato di osservazioni fraudolente e non fraudolente negli anni di test e (7) modello di base di Dechow et al. basato sugli 11 rapporti finanziari) utilizzando le metriche di rendimento calcolate in media nel periodo di prova 2003-2008. (Fonte: Appendice online – Detecting Accounting Fraud in Publicly Traded U.S. Firms Using a Machine Learning Approach, Yang Bao, Bin Ke, Bin Li, Y. Julia Yu, Jie Zhang 2019)

Questo numero diminuisce in modo significativo quando viene utilizzata l'intera popolazione nel periodo 2003-2008. In particolare, come mostrato nella Tabella 11, l'AUC medio, dopo aver corretto i due pregiudizi, è solo 0,626, persino inferiore all'AUC medio del modello di Dechow et al.. Usando NDCG@ k come criterio di valutazione alternativo, scopriamo che il valore medio di NDCG@ k per la nostra replica del metodo SVM-FK di Cecchini et al. è solo 0,020, anche inferiore alla media NDCG@ k del modello Dechow et al. Per l'1% superiore degli anni di attività fraudolenta previsti dal modello SVM-FK nel periodo di prova 2003-2008, i valori medi di sensibilità e precisione sono rispettivamente del 2,53% e dell'1,92%.

Utilizzando AUC o NDCG@ k come metrica di valutazione delle prestazioni, nel complesso, le prestazioni di Cecchini et al. è più debole delle prestazioni del modello Dechow et al..