Modelli con reti neurali, alberi di decisione e regressione 1 Business understanding

7 MODELLI DI CHURN PREDICTION NELLE TELECOMUNICAZION

7.1 Modelli con reti neurali, alberi di decisione e regressione 1 Business understanding

Un interessante studio di Hadden [Hadden 06] ha lo scopo di identificare i modelli più convenienti per la churn prediction utilizzando tre differenti tecniche.

Esso considera le lamentele dei clienti come variabili che incidono sul churn e fornisce un’analisi comparativa di reti neurali, alberi di decisione e regressione nelle loro capacità di prevedere il churn del cliente.

7.1.2 Preparazione dei dati

In questo studio non si utilizzano i dati demografici a differenza di molte ricerche passate che si sono focalizzate sull’utilizzazione di tali dati ai fini della churn prediction. Tuttavia Wei e Chui hanno identificato diverse ragioni per le quali questo tipo di dati è inadeguato. Essi hanno indicato che l’utilizzo di dati demografici crea un’analisi del churn che dipende dai clienti piuttosto che dai contratti. Inoltre hanno suggerito che, siccome i dati demografici mantenuti dalle aziende sono in numero ristretto, ciò limita la convenienza di molti sistemi esistenti di churn prediction. In risposta a questi problemi Wei e Chui [Wei 02] hanno basato il loro modello di churn prediction su cambi di modelli di chiamata e su informazioni contrattuali. Come un’alternativa a questo approccio gli autori hanno ricercato un approccio alla convenienza di dati di lamentele e di riparazioni per la churn prediction. Sono identificate quindi le migliori variabili e sono confrontate le tecniche di reti neurali, alberi di classificazione e regressione per la loro idoneità alla churn prediction usando questo tipo di dati.

I dati usati per lo sviluppo del modello includono informazioni su lamentele dei

E’ stato portato all’attenzione dell’autore che con un grande service provider ed infrastruttura proprietaria non è possibile fare uso di dati demografici e di utilizzo a causa della normativa di monopolio. A causa della protezione della sensibilità dei dati le variabili sono vagamente descritte, comunque viene fornita una sostanziosa discussione sui risultati ottenuti da ciascuna tecnologia.

Sono stati costituiti tre gruppi di variabili per creare il dataset:

1) Dati di disposizioni: dati che rappresentano stime fatte dalla compagnia riguardo la risoluzione di una lamentela o danno. Alcune delle variabili di disposizioni includono un conteggio del numero totale di appuntamenti che sono stati disdetti. Se il conteggio è più grande di uno allora significa che precedentemente un impegno è stato disdetto. I dati di disposizione includono anche il numero di giorni con cui un impegno è stato portato a termine.

2) Dati di lamentele: dati che riguardano le informazioni sulle lamentele. I dati delle lamentele dei clienti includono variabili collegate al tipo di denuncia, alla durata della lamentela dal contatto iniziale col cliente fino alla risoluzione, il numero di giorni trascorsi oltre la data di risoluzione, il numero di reclami fatti entro un certo periodo di tempo e se la compagnia ha dovuto rimborsare denaro al cliente in seguito al reclamo.

3) Dati di riparazioni: dati che rappresentano le informazioni su guasti e riparazioni. I dati di riparazioni includono variabili quali la durata della riparazione, il numero di appuntamenti che sono stati concessi, il numero di ingegneri che hanno visitato il posto e il tipo di guasto.

La compagnia che ha fornito i dati è una delle più grandi nel suo dominio. Essa contiene enormi datawarehouse che mantengono informazioni su un’estesa varietà di prodotti e milioni di clienti. L’informazione in questo studio non riflette gli effettivi tassi di churn della compagnia promotrice. E’ stato deciso di utilizzare un piccolo campione di dati per il training e per il test dei modelli. Il training set è

stato ridimensionato a 202 clienti, approssimativamente il 50% dei clienti erano churners e l’altro 50% non churners. Il test set contiene un totale di 700 clienti ed è stato composto dal 30% di churners e dal 70% di non churners. Gli esperimenti eseguiti sulle tecnologie implicano anche training e test sugli stessi dati. Gli autori hanno compreso che testare il modello con gli stessi dati usati per il training dovrebbe tradursi in un’alta accuratezza e dovrebbe fornire una misura di come ciascuna tecnologia si comporta. Wei e Chiu in maniera casuale hanno selezionato le variabili dal loro datawarehouse del caso di studio col risultato di 1,5% - 2% churners e 98% - 98,5% non churners. Riconoscendo che questo rapporto può potenzialmente mettere a repentaglio l’efficacia di apprendimento del loro modello e le predizioni del risultato che favoriscono solo la classe di decisione di maggioranza (non churners), comportando un sistema di previsione nullo, essi hanno adottato un “multiclassifier class combiner approach” come proposto da Chan [Chan 99]. Dato un set d’istanze di training, questo metodo crea S subsets di training multipli con un rapporto di classe desiderato, in cui le istanze che hanno la classe di decisione di maggioranza sono casuali e uniformemente partizionate nei subsets di training. Le istanze che appartengono alla classe di decisione di minoranza sono replicate in tutti i subsets di training. Così sostanzialmente il set di maggioranza, che in questo caso è quello dei non churners, dovrebbe essere suddiviso in circa 10 subsets e il set di minoranza (i churners) sarà incluso in ogni subset, col risultato di 10 datasets con un più alto rapporto tra churn e non churn. I datasets creati dagli autori sono simili in linea di principio a quelli creati da Wei e Chiu e da Chan e sono sufficienti a superare il problema della distribuzione sbilanciata descritto nel paragrafo 3.2.

7.1.3 Applicazione dei modelli e valutazioni dei risultati

Per lo sviluppo del modello gli autori hanno utilizzato le seguenti tecniche: regressione lineare, alberi di regressione e reti neurali. Tali tecniche sono descritte nel capitolo 2. Essi hanno esaminato l’idoneità di queste tecniche per prevedere i

clienti churners usando i dati delle lamentele come detto precedentemente. E’ stato creato un modello per ciascuna delle tecniche scelte e ciascuno dei modelli è stato costruito usando lo stesso training dataset. Il training dataset è composto da 202 clienti con un rapporto di 50:50 di churners e non churners. I modelli di alberi di regressione e di reti neurali sono stati creati usando Matlab [Matlab]. Matlab è un linguaggio ad alto livello e con ambiente interattivo che permette ai suoi utenti di eseguire operazioni rigorose e molto più velocemente di quello che si potrebbe fare utilizzando i linguaggi di programmazione tradizionali. Matlab ha molti toolboxes già pronti che possono essere usati con facilità per eseguire esperimenti usando tecniche molto avanzate. Alcuni esempi di toolboxes disponibili includono reti neurali, statistiche, logica fuzzy e signal processing. L’autore ha utilizzato Matlab con il toolbox delle reti neurali e il toolbox delle statistiche. Il modello di regressione lineare è stato sviluppato con SPSS [SPSS], utilizzato per identificare le variabili utilizzate nel modello di regressione e l’equazione di regressione è stata costruita da queste.

Di seguito nelle sezioni A, B e C saranno rispettivamente descritte le applicazioni del modello che utilizza le reti neurali, di quello che utilizza gli alberi di decisione e di quello che utilizza la regressione.

Nel documento Modelli di Churn Prediction (pagine 125-128)