2.4 Data Preparation
2.4.2 Definizione di variabili
Possiamo ora pensare di aggiungere alle osservazioni dei clienti nuove variabili, ossia altri attributi che presumibilmente possono individua- re o comunque caratterizzare l’andamento di un cliente che decide di abbandonare; il sistema cercher`a successivamente di capire tramite gli algoritmi di Data Mining se esistono effettivamente delle relazioni tra essi in modo cos`ı da riuscire a classificare correttamente i vari clienti. Le variabili che si possono sfruttare o comunque derivare dipendono dal dominio dei dati del database e possono quindi cambiare notevol-
9Si intende tra euro e lira, dato che quest’ultima ha finito ufficialmente il suo
mente da caso a caso.
Tra i valori che abbiamo a disposizione dal dominio si ha: - fatturato
- costo d’acquisto - insoluto
- insoluto recuperato - sconto
Da queste ricaviamo il margine, gi`a definito nella sezione precedente: margine = f atturato − costoacq
Inoltre possiamo ricavare altre informazioni utili: - numero di acquisti
- numero di resi10
- motivo11 del reso
Combinando le variabili di base ed utilizzando anche il margine, pos- siamo derivare quindi le nuove variabili:
fatturato su margine
f atturatom =
f atturato margine
Possiamo poi anche considerare minimo, massimo, media e de- viazione standard di questo valore tra le varie fatture, per un totale di 5 variabili.
10Con tale termine ci si riferisce alla merce restituita.
11La causa che ha portato a restituire la merce; il motivo `e espresso tramite un
sconto sul rapporto fatturato/margine scontof m=
sconto f atturatom
Considerando anche il minimo, il massimo, la media e la devia- zione standard di tale valore si hanno a disposizione 5 diverse variabili.
rapporto fatturato/margine sul numero di acquisti f atturatomn = f atturatom Nacq insoluto su fatturato insolutof = insoluto f atturato
Da questo valore possiamo ricavare anche minimo, massimo, media e deviazione standard, ottenendo un totale di 5 variabili. insoluto recuperato su fatturato
insolutorecf = insoluto
rec
f atturato
Anche da questa misura possiamo alla fine ottenere comples- sivamente 5 variabili, se ne aggiungiamo anche il minimo, il massimo, la media e la deviazione standard.
distanza di acquisto
Misura la distanza tra un acquisto e l’altro:
distanzaacq = dataacqi+1− dataacqi dataacqi+1> dataacqi Da questa misura possiamo ricavare complessivamente 12 varia- bili se si prendono in considerazione minimo, massimo, media, deviazione standard sia basandosi sui giorni, sia sulle settimane e sia sui mesi.
ritardo di riacquisto
Distanza tra l’ultimo acquisto effettuato e l’estremo superiore dell’intervallo di tempo considerato:
ritardoriacq = sup(T ) − max(dataacq)
Se si considerano i giorni, le settimane ed i mesi da questa misura possiamo ottenere 3 differenti variabili.
frequenza
Distanza tra primo ed ultimo acquisto sul numero di acquisti totali:
f requenza = max(data
acq) − min(dataacq)
Nacq
ratio del ritardo di riacquisto
Ritardo di riacquisto sulla somma della media con la deviazione standard della distanza di acquisto:
ratiorit riacq = ritardo
riacq
avg(distanzaacq) + stddev(distanzaacq)
ritardo dell’ultimo acquisto
Distanza tra il penultimo acquisto effettuato e l’ultimo: ritardoult acq = dataacqi − dataacqi−1 datai = max(dataacq)
Come per il ritardo di riacquisto, possiamo considerare i giorni, le settimane ed i mesi, ottenendo 3 differenti variabili.
ratio dell’ultimo acquisto
Ritardo dell’ultimo acquisto sulla somma della media con la deviazione standard della distanza di acquisto:
ratioult acq = ritardo
ult acq
valore dei resi su fatturato
Una variabile importante `e il valore12dei resi sul fatturato totale:
resif =
f atturatoresi
f atturato
Se di questa variabile prendiamo in considerazione anche mini- mo, massimo, media e deviazione standard, abbiamo un totale di 5 variabili.
numero dei resi su numero di acquisti
Oltre al rapporto economico dei resi visto in precedenza, ci inte- ressa anche la frequenza del fenomeno, pertanto si introduce an- che come misura il numero di resi totali sul numero degli acquisti totali:
resiacq =
Nresi
Nacq
Inoltre si `e pensato che fosse utile ricavare dalle informazioni sui resi ulteriori variabili secondo un criterio pi`u specifico: si pu`o infatti considerare il numero dei resi dovuti ad un determinato motivo sul numero di acquisti totali:
motreso i = Nmri Nacq i = 1, ..., 10 Nc mri > N c mri+1
Questo ultimo valore lo prendiamo in base ai 10 motivi di reso pi`u frequenti a livello globale (considerando tutti i clienti presen- ti nel database); per ciascun cliente viene calcolato tale valore per ognuno di questi motivi.
Poich´e si ha una variabile diversa per ogni motivo di reso e con- siderando anche la precedente misura globale, abbiamo un totale di 11 variabili.
Si hanno quindi a disposizione 13 variabili principali, ma considerando di derivare da esse le altre variabili menzionate si arriva ad averne 58.
Inoltre possiamo ottenere un’altra importante misura tramite la re- gressione lineare: invece di prendere i valori complessivi nell’intero periodo temporale, calcoliamo tali variabili suddividendo quest’ulti- mo in trimestri; riportiamo poi i risultati in un grafico cartesiano in funzione dei trimestri13. Il coefficiente angolare della retta di inter- polazione che approssima i punti trovati, ci indica la variabilit`a della misura in esame nel periodo considerato.
Perci`o, dal momento che il coefficiente angolare pu`o essere calcolato per ognuna delle variabili disponibili, alla fine possiamo ottenerne il doppio di quelle gi`a definite finora, arrivando quindi ad un totale di 116.