• Non ci sono risultati.

2.4 Data Preparation

2.4.2 Definizione di variabili

Possiamo ora pensare di aggiungere alle osservazioni dei clienti nuove variabili, ossia altri attributi che presumibilmente possono individua- re o comunque caratterizzare l’andamento di un cliente che decide di abbandonare; il sistema cercher`a successivamente di capire tramite gli algoritmi di Data Mining se esistono effettivamente delle relazioni tra essi in modo cos`ı da riuscire a classificare correttamente i vari clienti. Le variabili che si possono sfruttare o comunque derivare dipendono dal dominio dei dati del database e possono quindi cambiare notevol-

9Si intende tra euro e lira, dato che quest’ultima ha finito ufficialmente il suo

mente da caso a caso.

Tra i valori che abbiamo a disposizione dal dominio si ha: - fatturato

- costo d’acquisto - insoluto

- insoluto recuperato - sconto

Da queste ricaviamo il margine, gi`a definito nella sezione precedente: margine = f atturato − costoacq

Inoltre possiamo ricavare altre informazioni utili: - numero di acquisti

- numero di resi10

- motivo11 del reso

Combinando le variabili di base ed utilizzando anche il margine, pos- siamo derivare quindi le nuove variabili:

fatturato su margine

f atturatom =

f atturato margine

Possiamo poi anche considerare minimo, massimo, media e de- viazione standard di questo valore tra le varie fatture, per un totale di 5 variabili.

10Con tale termine ci si riferisce alla merce restituita.

11La causa che ha portato a restituire la merce; il motivo `e espresso tramite un

sconto sul rapporto fatturato/margine scontof m=

sconto f atturatom

Considerando anche il minimo, il massimo, la media e la devia- zione standard di tale valore si hanno a disposizione 5 diverse variabili.

rapporto fatturato/margine sul numero di acquisti f atturatomn = f atturatom Nacq insoluto su fatturato insolutof = insoluto f atturato

Da questo valore possiamo ricavare anche minimo, massimo, media e deviazione standard, ottenendo un totale di 5 variabili. insoluto recuperato su fatturato

insolutorecf = insoluto

rec

f atturato

Anche da questa misura possiamo alla fine ottenere comples- sivamente 5 variabili, se ne aggiungiamo anche il minimo, il massimo, la media e la deviazione standard.

distanza di acquisto

Misura la distanza tra un acquisto e l’altro:

distanzaacq = dataacqi+1− dataacqi dataacqi+1> dataacqi Da questa misura possiamo ricavare complessivamente 12 varia- bili se si prendono in considerazione minimo, massimo, media, deviazione standard sia basandosi sui giorni, sia sulle settimane e sia sui mesi.

ritardo di riacquisto

Distanza tra l’ultimo acquisto effettuato e l’estremo superiore dell’intervallo di tempo considerato:

ritardoriacq = sup(T ) − max(dataacq)

Se si considerano i giorni, le settimane ed i mesi da questa misura possiamo ottenere 3 differenti variabili.

frequenza

Distanza tra primo ed ultimo acquisto sul numero di acquisti totali:

f requenza = max(data

acq) − min(dataacq)

Nacq

ratio del ritardo di riacquisto

Ritardo di riacquisto sulla somma della media con la deviazione standard della distanza di acquisto:

ratiorit riacq = ritardo

riacq

avg(distanzaacq) + stddev(distanzaacq)

ritardo dell’ultimo acquisto

Distanza tra il penultimo acquisto effettuato e l’ultimo: ritardoult acq = dataacqi − dataacqi−1 datai = max(dataacq)

Come per il ritardo di riacquisto, possiamo considerare i giorni, le settimane ed i mesi, ottenendo 3 differenti variabili.

ratio dell’ultimo acquisto

Ritardo dell’ultimo acquisto sulla somma della media con la deviazione standard della distanza di acquisto:

ratioult acq = ritardo

ult acq

valore dei resi su fatturato

Una variabile importante `e il valore12dei resi sul fatturato totale:

resif =

f atturatoresi

f atturato

Se di questa variabile prendiamo in considerazione anche mini- mo, massimo, media e deviazione standard, abbiamo un totale di 5 variabili.

numero dei resi su numero di acquisti

Oltre al rapporto economico dei resi visto in precedenza, ci inte- ressa anche la frequenza del fenomeno, pertanto si introduce an- che come misura il numero di resi totali sul numero degli acquisti totali:

resiacq =

Nresi

Nacq

Inoltre si `e pensato che fosse utile ricavare dalle informazioni sui resi ulteriori variabili secondo un criterio pi`u specifico: si pu`o infatti considerare il numero dei resi dovuti ad un determinato motivo sul numero di acquisti totali:

motreso i = Nmri Nacq i = 1, ..., 10 Nc mri > N c mri+1

Questo ultimo valore lo prendiamo in base ai 10 motivi di reso pi`u frequenti a livello globale (considerando tutti i clienti presen- ti nel database); per ciascun cliente viene calcolato tale valore per ognuno di questi motivi.

Poich´e si ha una variabile diversa per ogni motivo di reso e con- siderando anche la precedente misura globale, abbiamo un totale di 11 variabili.

Si hanno quindi a disposizione 13 variabili principali, ma considerando di derivare da esse le altre variabili menzionate si arriva ad averne 58.

Inoltre possiamo ottenere un’altra importante misura tramite la re- gressione lineare: invece di prendere i valori complessivi nell’intero periodo temporale, calcoliamo tali variabili suddividendo quest’ulti- mo in trimestri; riportiamo poi i risultati in un grafico cartesiano in funzione dei trimestri13. Il coefficiente angolare della retta di inter- polazione che approssima i punti trovati, ci indica la variabilit`a della misura in esame nel periodo considerato.

Perci`o, dal momento che il coefficiente angolare pu`o essere calcolato per ognuna delle variabili disponibili, alla fine possiamo ottenerne il doppio di quelle gi`a definite finora, arrivando quindi ad un totale di 116.

Documenti correlati