Modelli utilizzati per il confronto - Confronto tra modelli di previsione della frode

Capitolo 4 Confronto tra modelli di previsione della frode

4.1 Modelli utilizzati per il confronto

4.1.1 Introduzione al modello Dechow et al

Il primo modello di riferimento è chiamato Dechow et al (2011) ed è basato sulla regressione logistica.

Si può considerare la regressione logistica come un metodo di classificazione rientrante nella famiglia degli algoritmi di apprendimento supervisionato dei data mining.

Avvalendosi di metodi statistici, la regressione logistica permette di generare un risultato che, di fatto, rappresenta la probabilità che, un dato valore di ingresso appartenga a una determinata classe.

Nei problemi di regressione logistica, la probabilità che l’output appartenga ad una classe sarà P, mentre che appartenga all’altra classe sarà 1-P (dove P è un numero compreso tra 0 e 1 perché esprime una probabilità).

Tale modello (Dechow et al 2011) utilizza in genere indici finanziari come predittori, i quali rapporti sono spesso identificati da esperti umani sulla base di teorie. È generalmente considerato il modello di previsione delle frodi più completo nella letteratura contabile, di conseguenza, viene adottato come modello di riferimento per il confronto.

4.1.2 Introduzione al modello Cecchini et al

Il secondo modello di riferimento è Cecchini et al (2010) basato su un metodo di apprendimento automatico convenzionale. Invece di utilizzare i rapporti finanziari identificati solo da esperti umani, Cecchini et al. (2010) sviluppano un nuovo modello di previsione delle frodi basato su Support Vector Machines (SVM) con un kernel finanziario che mappa i dati finanziari grezzi in un insieme più ampio di rapporti basati su dati dello stesso anno o su anni diversi. Per i casi in cui i concetti non sono lineari, gli attributi possono essere facilmente mappati a caratteristiche lineari usando un kernel. Un kernel è una mappatura implicita di un attributo che si trova nello spazio X degli elementi di input, su uno spazio delle caratteristiche (solitamente di dimensioni superiori). Il kernel spesso migliora la potenza di calcolo della macchina di apprendimento consentendo implicitamente combinazioni degli attributi di input, creando quindi una superficie decisionale non lineare. Fornisce un meccanismo che aiuta a svelare spazi non separabili linearmente, da quelli che sono potenzialmente separabili linearmente.

Cecchini et al. (2010) scoprono che l'SVM con un kernel finanziario, supera i tradizionali modelli di previsione delle frodi nella contabilità, tra cui Dechow et al., per questo viene preso come secondo modello di riferimento.

4.1.3 Introduzione al modello apprendimento d'insieme

L'apprendimento d’insieme, un paradigma dell'apprendimento automatico, ha recentemente ottenuto un notevole successo in molte applicazioni. A differenza dei metodi di apprendimento automatico convenzionali (ad es. Metodi SVM, Cecchini et al.), che di solito generano un singolo stimatore, i metodi di apprendimento d’insieme combinano le previsioni di un insieme di stimatori di base (ad es. Alberi decisionali) per migliorare la capacità di diffusione. Tuttavia, a causa della possibilità di un problema di squilibrio di classe, i metodi di apprendimento d’insieme di solito devono essere combinati con una tecnica di campionamento che bilanci la distribuzione di classe dei dati di addestramento, aggiungendo esempi alla classe di minoranza (sovra campionamento) o rimuovendo esempi dalla classe di maggioranza (sotto campionamento) (Liu, Zhou 2013). In questo studio, si utilizza una variante dell'apprendimento d’insieme chiamata RUSBoost (Seiffert, Khoshgoftaar, Van Hulse , Napolitano 2010) che cerca di sfruttare sia l'efficiente tecnica di sotto campionamento sia l'attuale algoritmo più influente, AdaBoost23_{(Freund, Schapire 1997). Si utilizza}

RUSBoost in quanto mostra le migliori prestazioni ed è anche più efficiente dal punto di vista computazionale grazie alla sua semplicità (Seiffert et al. 2010).

L'algoritmo AdaBoost è uno dei più importanti metodi di apprendimento d’insieme a causa delle sue solide basi teoriche, di forte potere predittivo e semplicità (Wu et al. 2008). La sua idea di base è quella di addestrare una sequenza di classificatori deboli (cioè modelli che sono solo leggermente migliori delle ipotesi casuali, ad esempio piccoli alberi decisionali) su campioni ripetutamente pesanti. In particolare, in ciascuna ripetizione, i pesi delle osservazioni erroneamente classificate verranno aumentati, mentre i pesi delle osservazioni correttamente classificate verranno ridotti. In questo modo, i classificatori deboli in ogni ripetizione saranno costretti a concentrarsi sulle osservazioni considerate difficili da prevedere nelle ripetizioni precedenti.

Infine, un classificatore forte può essere prodotto prendendo la media ponderata di tutti i classificatori deboli, dove il peso è il tasso di errore di classificazione di un classificatore debole nel campione di addestramento; i classificatori deboli con tassi di errore di classificazione inferiori riceveranno pesi maggiori.

23_{abbreviazione di Adaptive Boosting , è un meta-algoritmo di apprendimento automatico formulato}

da Yoav Freund e Robert Schapire , che hanno vinto nel 2003 il Premio Gödel per il loro lavoro. Può essere utilizzato insieme a molti altri tipi di algoritmi di apprendimento per migliorare le prestazioni.

RUSBoost è una variante di AdaBoost che utilizza Random Under Sampling24 (RUS) per affrontare il problema dell'apprendimento degli squilibri di classe (Seiffert et al. 2010). Funziona più o meno allo stesso modo di AdaBoost, tranne per il fatto che la RUS viene eseguita in ogni ripetizione per ovviare allo squilibrio delle imprese fraudolente e non fraudolente. In particolare, durante l'addestramento del classificatore debole in ciascuna iterazione, l'algoritmo RUS utilizza l'intero campione di imprese fraudolente nel periodo di addestramento e un sotto campione generato casualmente di imprese non fraudolente nello stesso periodo. Le stime di RUSBoost richiedono la selezione del rapporto tra il numero di osservazioni di classe di maggioranza sotto campionate (vale a dire, non frodi) e il numero di osservazioni di classe di minoranza (cioè di frode). In quest’analisi, si costruisce il modello RUSBoost impostando questo rapporto su 1: 1, cioè, campioniamo lo stesso numero di osservazioni fraudolente e osservazioni non fraudolente.

Nel documento Big Data e frode contabile. Analisi strutturata della letteratura e raffronto tra modelli di previsione della frode. (pagine 97-100)