Classificazione sul primo insieme - Controllo e Preparazione dei Dati

4.4 Controllo e Preparazione dei Dati

4.5.1 Classificazione sul primo insieme

Come ben sappiamo, prima di procedere a impostare l’algoritmo di classificazione, dobbiamo suddividere i dati in insieme di addestramento e insieme di verifica. Questo ci permette di avere un primo insieme su cui verr`a costruito l’albero di classificazione. Solo successivamente utilizzeremo l’insieme di verifica per sperimentare la validit`a dell’albero. Normalmente ci si aspetta quindi una migliore performance di accuratezza sull’insieme di addestramen- to. Ricordiamo che per accuratezza si intende la percentuale di record (nel nostro caso bilanci) classificati correttamente.

Sempre utilizzando SPSS Clementine abbiamo partizionato quindi i dati, mantenendo una proporzione del 70% per il set di addestramento e il rima- nente 30% per la partizione di verifica. Questa suddivisione `e l’impostazione classica preferita.

Abbiamo utilizzato due algoritmi per la costruzione dell’albero decisionale, C5.0 e C&R Tree.

Il Nodo C5.0 di SPSS Clementine utilizza l’algoritmo C5.0 per costruire un albero decisionale o un insieme di regole. Un modello C5.0 suddivide il

campione in base al campo che fornisce il massimo guadagno di informazioni. Ogni sottocampione definito dalla prima suddivisione viene ulteriormente suddiviso, in genere in base a un campo diverso, e il processo viene ripetuto finché non è più possibile suddividere ulteriormente i sottocampioni. Ven- gono infine riesaminate le suddivisioni di livello più basso e quelle che non contribuiscono in modo significativo al valore del modello vengono rimosse o tagliate. I modelli C5.0 sono molto stabili in presenza di problemi quali dati mancanti e grandi numeri di campi di input. In genere, per la stima di tali modelli non sono necessari tempi di addestramento lunghi. Inoltre, i modelli C5.0 tendono a essere più facili da capire rispetto ad altri tipi di modello, dato che le regole da essi derivate sono di interpretazione molto diretta.5

Il Nodo C&R Tree di SPSS Clementine è anch’esso un metodo di classificazione e previsione basato su un albero. Questo metodo, analogamente a C5.0, utilizza l’esecuzione ricorsiva di partizioni per suddividere i record in segmenti con valori di campo di output simili. Il nodo C&R Tree esamina innanzitutto i campi di input per trovare la suddivisione migliore, misurata dalla riduzione in un indice di impurità che risulta dalla suddivisione. La suddivisione definisce due sottogruppi, ognuno dei quali viene successivamente suddiviso in altri due sottogruppi, e cos`ı via, fino all’attivazione di un criterio di arresto. Tutte le suddivisioni sono binare (solo due sottogruppi). Gli alberi C&R consentono di ingrandire innanzitutto l’albero e quindi di tagliare in base a un algoritmo di complessità del costo che modifica la stima del rischio in base al numero di nodi terminali. Questo metodo consente all’albero di raggiungere dimensioni notevoli prima di procedere al taglio basandosi su criteri più complessi e può dare origine ad alberi più piccoli con proprietà di validazione incrociata migliori. Se si aumenta il numero di nodi terminali, è in genere possibile ridurre il rischio per i dati (di addestramento) correnti, ma il rischio effettivo può risultare maggiore se la generalizzazione esegui- ta dal modello è applicata a dati non visibili. Si consideri, per esempio, il caso estremo in cui è presente un nodo terminale distinto per ogni record dell’insieme di addestramento. La stima del rischio sarà uguale a 0% poiché ogni record è contenuto in un singolo nodo, ma il rischio di errata classificazione per i dati (di test) non visibili sarà quasi certamente maggiore di 0. La misura di complessità del costo rappresenta in questo caso un tentativo di compensazione. I modelli C&R Tree sono molto solidi in presenza di problemi quali dati mancanti e campi molto numerosi. In genere, per la stima di tali

modelli non sono necessari tempi di addestramento lunghi. Inoltre, i modelli C&R Tree in genere sono pi`u facili da capire rispetto ad altri tipi di modello, ovvero le regole derivate dal modello sono di interpretazione molto diretta. A differenza del modello C5.0, il modello di albero C&R pu`o contenere sia intervalli numerici sia campi di output categoriali.6

Per entrambi i nodi C5.0 e C&R Tree utilizzeremo come variabile obiettivo il campo TIPO, che specifica la natura del bilancio, FFS o CCIA. Come campi di input utilizzeremo tutti gli indici precedentemente calcolati.

Possiamo vedere i risulati nelle figure 4.2 e 4.3. Rispettivamente per l’albero costruito con il C5.0 e C&R Tree.

Le performance dei singoli alberi sono riassunte nella figura 4.4.

Come vediamo per questo partizionamento il modello C5.0 si comporta decisamente peggio rispetto al modello C&R che sembra classificare correttamente il 97,3% dei dati dell’insieme di verifica. Paradossalmente ha un com- portamento peggiore sull’insieme di addestramento. Le matrici di confusione (o coincidenza) invece mostrano i falsi positivi e falsi negativi.

Non sarebbe corretto prendere per buono solo questo primo risultato. Per validare il modello, utilizzeremo la tecnica della cross-validazione, o 10-fold- cross-validation.

La cross-validazione (cross-validation in inglese) `e una tecnica statistica utilizzabile in presenza di una buona numerosit`a dell’insieme di addestramen- to. Consiste nella suddivisione del dataset totale in k parti (si chiama anche k-folder validation) e, ad ogni passo, la parte (_k1)-esima del dataset viene ad essere il validation dataset, mentre la restante parte costituisce l’insieme di addestramento. Cos`ı, per ognuna delle k parti (di solito k = 10) si allena il modello, evitando quindi problemi di overfitting, ma anche di campiona- mento asimmetrico dell’insieme di addestramento, tipico della suddivisione del dataset in due sole parti.

La validazione incrociata assicura che i risultati non siano dipendenti dai dati. Il risultato della validazione incrociata per i due modelli che sono stati sviluppati ha dato i seguenti risultati.

Come si vede abbiamo una precisione media dell’84,13% per l’albero costruito con l’algoritmo C5.0 e un 88,1% con il C&R.

Figura 4.4: Accuratezza e matrice di confusione per gli alberi di classificazione.

Figura 4.5: Peformance media dei modelli utilizzando il 10-fold cross validation.

Nel documento Modelli di classificazione per l'individuazione di manipolazioni finanziarie in bilanci d'esercizio utilizzando tecniche di data mining. (pagine 104-110)