• Non ci sono risultati.

CAP. V APPLICAZIONE DEL MODELLO DI REGRESSIONE LOGISTICA ALL’ANALISI DELLA CUSTOMER LOYALTY

N/A
N/A
Protected

Academic year: 2021

Condividi "CAP. V APPLICAZIONE DEL MODELLO DI REGRESSIONE LOGISTICA ALL’ANALISI DELLA CUSTOMER LOYALTY"

Copied!
14
0
0

Testo completo

(1)

Capitolo V 137

CAP. V

APPLICAZIONE

DEL

MODELLO

DI

REGRESSIONE

LOGISTICA

ALL’ANALISI

DELLA CUSTOMER LOYALTY

Il secondo punto focale dell’attività di ricerca ha riguardato la possibilità di individuare e descrivere le variabili che vanno ad influenzare la fedeltà dei clienti di Ambiente S.C. Come si è già detto, Ambiente S.C. considera fedeli quelle aziende con cui intrattiene rapporti commerciali da diversi anni; poter contare su clienti fedeli è molto importante, soprattutto per un’azienda in crescita, riguardo ad aspetti importanti della gestione.

5.1. IL CONCETTO DI FEDELTA’ E LA POTICA DI CRM

La fedeltà indica la persistenza di un legame: il cliente che continua a rivolgersi ad un fornitore nonostante abbia possibilità di sceglierne un altro, a volte anche a condizioni più vantaggiose, è un cliente fedele1.

Vi possono essere elementi che influenzano positivamente o negativamente comportamenti fedeli.

I contributi positivi al comportamento fedele includono:

- valore : tanto più il valore percepito per i prodotti o i servizi di un’azienda è elevato e tanto più alto è l’effetto fedeltà, i clienti si aspettano valore dal denaro che hanno speso,

- investimento: tanto più si investe tempo, energia e denaro in una relazione e tanto più probabilmente la relazione continua,

(2)

Capitolo V 138

- difficoltà nell’individuare alternative: tanto più un prodotto è unico o un servizio prontamente disponibile, e tanto più probabilmente un cliente continua ad acquistarlo dalla stessa azienda,

- un rapporto personale positivo: un rapporto personale ed emotivo con un rappresentante dell’azienda è spesso l’elemento più importante nel trasformare un cliente in un cliente fedele. Normalmente non si hanno rapporti con l’azienda ma con le persone.

I contributi negativi al comportamento fedele sono:

- numero di alternative possibile: tanto più vi sono alternative e tanto più basso è l’effetto fedeltà,

- frustrazione del cliente: la frustrazione del cliente distrugge qualsiasi ideale relazione Azienda-Cliente.

L’effetto fedeltà consente di creare un modello che può essere impiegato per prevedere il comportamento del cliente, infatti le aziende, considerando i contributi sopra citati, possono intervenire per dirigere la relazione con il cliente verso la situazione (fedeltà o non fedeltà) che desiderano raggiungere. Quanto più aumenta la conoscenza del cliente stesso e quanto più aumenta questa possibilità.

Un’azienda necessita, infatti, di conoscere più informazioni possibili sul cliente per poter definire un profilo utile a gestire correttamente la relazione con il cliente e portarlo cosi alla fedeltà.

Tali informazioni possono avere diverse tipologie:

• Informazioni analitico- descrittive che permettono di individuare e descrivere il cliente.

• Informazioni comportamentali che consentono di associare al cliente i dati riguardanti le transazioni e le relazioni che ha avuto con l’azienda.

• Informazioni di natura previsionale che indicano la probabilità che il cliente adotti un determinato comportamento

(3)

Capitolo V 139

Diversi studi hanno dimostrato che un cliente fedele è spesso più profittevole, basti pensare che la vendita di un prodotto a un nuovo cliente costa all’azienda sei volte di più rispetto alla vendita dello stesso prodotto a un cliente già acquisito2.

Questo dato ha stimolato le aziende a cercare di massimizzare le relazioni con i clienti esistenti: il modus operandi è quello di attribuire un valore a ciascun cliente per sapere quali sono i clienti migliori, e motivarli a restare tali, investendo tempo e risorse.

La capacità di instaurare una relazione di lungo periodo con i clienti più profittevoli diventa, così, l’obiettivo da raggiungere per massimizzare la profittabilità.

La relazione, infatti, rafforza lo scambio commerciale: la relazione cliente-azienda permane anche se in futuro non si hanno scambi commerciali. Il cliente, ad esempio, chiama per avere assistenza al prodotto o vuole rinnovarlo, si lamenta del prodotto i del servizio, esprime la sua soddisfazione.

Anche se, nella maggior parte dei casi, il contatto che il cliente ha con l’azienda è visto come un problema da risolvere, e un costo, spesso, è invece un investimento, per esempio i clienti che evidenziano i difetti di un prodotto contribuiscono a migliorare la produzione del prodotto stesso.

Quando il cliente diventa non profittevole bisogna considerare non solo se ciò comporti un costo nel breve periodo per l’azienda, ma anche come evolverà in futuro questa situazione. L’azienda può analizzare le informazioni riguardanti il cliente e profilarne il comportamento, attuando così il procedimento di Customer relationship management (d’ora in avanti CRM).

Il CRM non è solo la gestione dei clienti seguendone il comportamento, ma ha il potenziale di cambiare la relazione di un cliente con l’azienda aumentandone così il reddito.

Il CRM nasce proprio come mezzo per ridefinire la relazione Cliente- Azienda alla luce dei nuovi strumenti offerti dalla tecnologia dell’informazione. Ogni interazione può essere memorizzata, consentendo alle aziende di creare un database delle preferenze della clientela al fine di fornire il miglior servizio possibile3.

Con gli stessi dati si possono ridurre i costi e accrescere la produttività.

2 Camillo, F., Tassinari G. (2005), “Data mining, web mining e crm”, Franco Angeli. 3 Costabile, M. (2001) , “Il capitale relazionale”, McGraw-Hill.

(4)

Capitolo V 140

Le prime iniziative di CRM risalgono agli inizi degli anni ’90: l’attenzione era rivolta principalmente al miglioramento di un singolo canale di servizio, denominato call center. Le aziende si avvalevano delle nuove tecnologie e dei modelli di misurazione delle prestazioni per razionalizzare il processo di risposta e gestione delle richieste del cliente, con l’obiettivo di aumentare la soddisfazione della clientela e di migliorare la propria efficienza.

In seguito le aziende hanno mostrato particolare interesse per i nuovi processi di automazione della forza di vendita per ottenere maggiore efficienza e produttività, i nuovi strumenti hanno aperto un nuovo canale di comunicazione tra l’azienda e la forza di vendita che dispone di maggiori informazioni sui clienti, sui piani di marketing e sulla disponibilità dei prodotti.

Nella seconda metà degli anni 90’ l’affermazione del web ha offerto ai clienti ulteriori opportunità come la possibilità di contattare l’azienda 24 ore su 24, ottenere informazioni precise e personalizzate con più facilità.

L’integrazione dei vari canali ha consentito a molte aziende di realizzare un data warehouse e applicazioni analitiche per supportare la gestione di questi dati e scoprire le preferenze dei clienti4.

Il CRM si inserisce in questo contesto come una vera e propria mentalità di business che coinvolge l’intera azienda. Questa filosofia è propria di ciascuna impresa, può aiutare nel distinguere i clienti che è meglio accudire da quelli che vale la pena perdere, ma può significare anche analizzare e automatizzare molti processi di business, consentendo di risparmiare tempo e denaro.

Una filosofia per essere vincente si fonda su tre pilastri:

• Le persone: tutte le risorse umane operanti in azienda devono contribuire alla riuscita del progetto ed esserne convinte.

• I processi: vanno ridefiniti nell’ottica di rispondere al meglio elle esigenze della clientela.

• La tecnologia: deve essere il mezzo per migliorare i processi, per fornire i dati necessari alle persone e per consentire agli utenti di operare con facilità.

(5)

Capitolo V 141

Se uno di questi tre pilastri non va di pari passo con gli altri, l’intera struttura di CRM è destinata a barcollare. Il CRM nasce da una strategia che guida i cambiamenti nell’organizzazione e nei processi, a loro volta supportati dalla tecnologia, il percorso contrario non funziona.

Il CRM è dunque un processo strutturato per la gestione delle relazioni con la clientela, il cui scopo è costruire una relazione di lungo periodo con il cliente, in grado di aumentare la sua soddisfazione e il valore sia per il cliente stesso, sia per l’azienda. La relazione con il cliente costituisce la parte centrale di una strategia di CRM: si tende a massimizzare la durata del ciclo di vita del cliente ed allungare il periodo durante il quale tale relazione è soddisfacente e redditizia.

5.2 ANALISI DEI DATI: LA TEORIA DEL MODELLO DELLA

REGRESSIONE LOGISTICA

Per realizzare un approfondito studio sulle variabili che si ritiene vadano ad influenzare la fedeltà dei clienti, si è proceduto a costruire una nuova matrice dei dati da cui estrapolare le informazioni necessarie.

Sono state considerate come unità statistica le 78 aziende a cui si è già fatto riferimento, ma la variabile dipendente non è più l’ammontare di fatturato di Ambiente S.C. per ciascun cliente, ma la fedeltà o meno degli stessi, individuata da una variabile dummy che assume valore 1 nel caso in cui il cliente sia fedele, e valore 0 nel caso in cui invece non sia fedele. Quella che prima era la variabile dipendente diventa una variabile esplicativa il cui effetto sarà considerato per spiegare i risultati per la variabile risposta.

La variabile “fedeltà” è, però una variabile dicotomica, può assumere cioè solo due valori, 0 e 1. L’equazione sottostante può essere allora interpretata come un modello lineare di probabilità dell’evento in analisi. I modelli lineari di probabilità tuttavia, possiedono una caratteristica che li rende indesiderabili: applicando il metodo della regressione lineare a variabili dipendenti di tipo dicotomico si violano due assunti fondamentali dell’analisi di

(6)

Capitolo V 142

regressione5. Innanzitutto gli errori non sono più distribuiti normalmente, non possono più avere un’ infinità di valori, ma solo due. Infatti gli errori sono dati dalla differenza tra un valore osservato e uno atteso in base al modello prescelto:

ei= Yi-Y°i = Yi-( α+Σ βjiXji)

Tuttavia poiché i valori osservati della variabile possono essere solo due, cioè 1 e 0, anche gli errori corrispondenti possono essere solo due:

- Quando Yi=0 allora ei= -α- Σ βjiXji

- Quando Yi=1 allora e= 1- α-Σ βjiXji

La conseguenza di ciò è che, sebbene le stime dei parametri β con il metodo dei minimi quadrati rimangano corrette, esse cesserebbero di essere le stime più efficienti. Dunque i test di significatività basati su queste stime e sui loro errori standard possono indurre a trarre conclusioni non valide.

Il secondo problema legato ai modelli lineari di probabilità consiste nel fatto che alcuni valori predetti dall’equazione possono essere privi di senso in quanto escono dall’intervallo [0 1], che invece deve sempre contenere un valore di probabilità.

E’ pertanto necessario ricorrere ad un'altra tecnica statistica che permetta di superare l’inconveniente: si stratta del modello di regressione logistica.

Le percentuali e le proporzioni non rappresentano l’unico modo per misurare una variabile dipendente di tipo dicotomico. La trasformazione logistica di p (cioè la probabilità) costituisce una valida alternativa caratterizzata da alcune proprietà interessanti.

L’unità probabilistica logistica, detta logit, si ottiene formando l’odds di p rispetto al suo reciproco e calcolando il n logaritmo di questo rapporto.

Il logit è quindi equivalente al logaritmo naturale di un odds:

Li=ln (pi/(1-p))

(7)

Capitolo V 143

Per odds si intende il rapporto fra la possibilità di successo e la probabilità di insuccesso di un dato evento, è quindi il rapporto tra due probabilità complementari, il numero di successi per ogni insuccesso del fenomeno in esame.

Il modello di regressione logistica appare come una variante del modello lineare in cui non si predice una variabile data ma una sua trasformazione, cioè il logit.

La scelta del logit per descrivere la funzione che lega la probabilità di Y alla combinazione delle variabili predittive è determinata dalla constatazione che la probabilità si avvicina ai limiti 0 e 1 gradualmente e descrive una figura a S che assomiglia una cumulata della distribuzione casuale degli errori detta funzione logistica6. La P di Y si può quindi scrivere come una funzione logistica:

Sebbene la probabilità sottostante non sia una funzione lineare delle variabili indipendenti, la trasformazione logistica fa sì che i logit siano funzione lineare delle variabili indipendenti.

I parametri non possono essere stimati utilizzando il metodo dei minimi quadrati, ma si ricorre al metodo della massima verosimiglianza. In breve questo metodo si basa su una serie di approssimazioni successiva ai valori incogniti dei veri parametri della popolazione, e l’obiettivo è utilizzare i dati campionari per ottenere la stima dei parametri che massimizzino la probabilità di ottenere i dati campionari osservati, questo metodo calcola sostanzialmente la probabilità di osservare ciascun possibile valore campionario assumendo che, dato un insieme di parametri, sia quello vero7.

Per realizzare i test di significatività per i singoli parametri si può ricorrere al test di Student in modo analogo al modello lineare. Per quanto riguarda la bontà di adattamento del modello nel complesso, generalmente si utilizza il rapporto di verosimiglianza che pone a confronto due equazioni di regressione logistica concatenate, una delle quali è una versione ristretta dell’altra. La statistica G² che si basa sul rapporto tra queste due

6 Fabbris, L. (2004), “Statistica multivariata , analisi esplorativa dei dati” , Mcgraw-Hill. 7 Fabbris, L. (2004), “Statistica multivariata , analisi esplorativa dei dati” , Mcgraw-Hill.

ik k i i i i i α βx β x β x π π π = + + + + − = ) ... 1 log( ) ( logit 1 1 2 2

(8)

Capitolo V 144

verosimiglianze si distribuisce come un χ² con un numero di gradi di libertà pari alla differenza tra il numero di variabili indipendenti presenti nella prima equazione e il numero di variabili indipendenti presenti nella seconda8:

G²= -2 ln( )

Si tratta di verificare l’ipotesi che tutti i parametri sia uguali a 0 tranne l’intercetta e quindi non sia statisticamente significativa la loro influenza sulla variabile risposta.

5.3 APPLICAZIONE DEL METODO DELLA STEP WISE

REGRESSION AL MODELLO REGERSSIONE LOGISTICA

Il primo elemento che deve essere analizzato a fini esplorativi è l’odds , cioè il rapporto tra la probabilità che un cliente sia fedele e la probabilità che un cliente non sia fedele:

Odds= (0,26/ 0,74) = 0,34

Ciò sta a significare che per ogni cliente fedele ce ne sono 3,4 che non sono fedeli ad Ambiente S.C.

Anche al modello di regressione logistica è possibile applicare la procedura di step wise regression, sempre avvalendosi del supporto di STATA. E’ cosi disponibile una riduzione della complessità dei dati senza perdite significative per la bontà del modello.

Il processo di selezione step wise seleziona le variabili esplicative una alla volta, la logica nella regressione logistica segue gli stessi schemi logici della regressione lineare. Il modello di partenza prevede la sola intercetta come variabile esplicativa, poi si analizzano i p modelli ottenibili inserendo nell’equazione di regressione un predittore alla volta, la prima variabile selezionata è quella che dà il maggior aumento della verosimiglianza rispetto al modello di partenza, tale aumento è valutato mediante la statistica G² che si distribuisce asintoticamente come un χ² con un grado di libertà. La variabile entra nel modello se il suo α osservato supera la soglia prefissata. Il processo termina solo quando

8 Fabbris, L. (2004), “Statistica multivariata , analisi esplorativa dei dati” , Mcgraw-Hill.

L0 L1

(9)

Capitolo V 145

accade che tutte le variabili esplicative sono entrate nel modello, oppure sono entrate nel modello tutte le variabili i cui livelli di significatività rispettano quelli prefissati, o ancora il modello ottenuto è soddisfacente dal punto di vista della classificazione dei soggetti, pur non contenendo tutte le variabili significative9.

I risultati ottenuti tramite STATA sono i seguenti:

x6 Coef. Std. Err. z P>z [95% Conf. Interval]

x1 3,331 0,0001398 2,38 0,017 3,10591 3,6072 x16 -1,1462 0,0000558 -2,62 0,009 -1,2555 -1,000369 x11 -3.907825 1,726977 -2,2 0,024 -7,292637 -0,5230119 x15 -1,0000723 0,000023 -3,14 0,002 - 1,0001174 -1,0000872 y 0,0000712 0,0000228 3,12 0,002 0,0000265 0,000116 cons -3,411528 0,7665916 -4,45 0,000 -4,91402 -1,909036 Figura 15: Step wise regression sulla matrice dei dati originaria, rif. Regressione logistica.

Le variabili indicate nella precedente tabella sono quelle che hanno un effetto significativo sulla variabile dipendente. Nel dettaglio tali variabili sono:

• Il fatturato realizzato da ciascuna azienda-cliente, che ha un effetto positivo sulla fedeltà dell’azienda stessa verso Ambiente S.C., il coefficiente di regressione logistica è pari a 3,331 ciò significa che più alto il fatturato di un’azienda è più è

probabile che decida di avvalersi preferibilmente sempre dei medesimi fornitori.

• Il fatturato che Ambiente S.C. ricava da ciascun cliente è leggermente correlato con la variabile dipendente, il coefficiente di regressione logistica è pari a 0,0000712.

• Il settore di attività nella produzione industriale dell’azienda cliente ha un effetto negativo rispetto alla variabile dipendente, il coefficiente di regressione logistica ha, infatti, un valore pari a -3,907825.

(10)

Capitolo V 146

• L’ammontare di fatturato creato nei settori “bonifiche “ e “fisica ambientale”, sono variabili che incidono negativamente sulla variabile dipendente, con coefficienti di regressione rispettivamente pari a -1,0000723 e -1,1462

Per quanto riguarda invece quelle variabili esplicative che sono state eliminate in quanto non significative, si erano ottenuti i seguenti risultati:

p = 0.7381 >= 0.1000 removing : “ragione sociale dell’azienda cliente consorzi o cooperative” p = 0.6499 >= 0.1000 removing: x14 “ammontare di fatturato realizzato nella sezione Ambiente S.C.”

p = 0.7136 >= 0.1000 removing: “settore di attività dell’azienda cliente: consulenza e tecnologie ambientali”

p = 0.5643 >= 0.1000 removing x17“ammontare di fatturato realizzato nella sezione laboratorio” p = 0.4369 >= 0.1000 removing : “settore di attività dell’azienda cliente: settore chimico” p = 0.3740 >= 0.1000 removing: “settore di attività dell’azienda cliente: edilizia e costruzioni” p = 0.1926 >= 0.1000 removing: “ammontare di fatturato realizzato nella studi e pianificazione” p = 0.1932 >= 0.1000 removing: “anni di attività dell’azienda cliente”

p = 0.1485 >= 0.1000 removing: “area geografica di attività dell’azienda cliente nord est” p = 0.1275 >= 0.1000 removing : “ragione sociale dell’azienda cliente spa o srl”

p = 0.1897 >= 0.1000 removing: “area geografica di attività dell’azienda cliente nord ovest” p = 0.3760 >= 0.1000 removing: “area geografica di attività dell’azienda cliente centro” p = 0.1523 >= 0.1000 removing : “numero dipendenti dell’azienda cliente”

p = 0.1556 >= 0.1000 removing : “ammontare di fatturato realizzato nella sezione sicurezza” p = 0.1698 >= 0.1000 removing : “ammontare di fatturato realizzato nella sezione formazione”

Figura 16: Tabella riassuntiva delle variabili eliminate tramite la step wise regression.rif. regressione logistica.

(11)

Capitolo V 147

Il programma statistico STATA permette anche di verificare la bontà di adattamento del modello di regressione logistica ai dati grazie al test G² .

LR chi2(5) = 38.64

Prob > chi2 = 0.0000

Log likelihood = -24.78224 Pseudo R2 = 0.4381

Figura 17: Risultati del test G² .

L’ipotesi nulla in base alla quale il modello deve essere complessivamente rifiutato, in quanto non significativo, non si accetta : il valore p value infatti si approssima allo 0.

5.4 IL TENTATIVO DI CLUSTERIZZAZIONE DEI DATI

Una volta individuate le variabili che influenzano la politica di fedeltà di un’azienda nei confronti di Ambiente S.C., si è ritenuto utile procedere a un tentativo di clusterizzazione, ovvero l’individuazione di un sistema di classificazione per la aziende clienti in base alle variabili considerate precedentemente, individuando così gruppi non definibili a priori. Poiché nemmeno il numero di gruppi definibili è noto a priori, per determinarlo almeno in via approssimata, è stato dato a STATA il comando di realizzare una procedura gerarchica di classificazione e ridarne una rappresentazione grafica sottoforma di dendogramma. Si possono, infatti, rappresentare graficamente i risultati di una serie di analisi con un numero variabile di gruppi, e scegliere la soluzione per la quale è più evidente la discontinuità nei gruppi trovati. E’ stato prima necessario procedere con la standardizzazione di tutti i dati relativi alle variabili continue per evitare che le diverse misure di grandezza e le differenti unità di misura inficiassero l’analisi. Per realizzare il dendogramma STATA richiede prima l’avvio di una procedura gerarchica di analisi dei gruppi, in cui ogni classe fa parte della classe più ampia, la quale è contenuta a sua volta in

(12)

Capitolo V 148

una classe di ampiezza superiore e cosi in progressione fino alla classe che contiene l’intero insieme di entità analizzate10.

Il dendogramma appare come di seguito:

(13)

Capitolo V 149

Figura 18: Il dendogramma

La teoria insegna che si dovrebbe utilizzare quel numero di cluster che è facilmente individuabile da un distacco evidente dei raggruppamenti rispetto a quelli gerarchicamente precedenti, indicato quando il dendogramma presenta un vero e proprio salto.

Nel presente caso ciò non accade, in quanto i raggruppamenti successivi appaiono tutti alla medesima distanza. Si è comunque voluto fare un tentativo, scegliendo diverse numerosità di cluster, e verificando quale massimizzasse la coesione interna e la separazione esterna. Per individuare questi cluster è stata impostata una procedura non gerarchica, ovvero, definendo a priori il numero di cluster per il raggruppamento delle unità statistiche, è stato dato a STATA il criterio del metodo della “media di gruppo” che considera sia le distanze calcolate per ogni variabile in questione che le numerosità dei diversi gruppi.

Sono stati fatti vari tentativi, ogni volta provando con numero di cluster diversi: da 3 fino a 7 gruppi.

(14)

Capitolo V 150

Il risultato più soddisfacente si è ottenuto con tre clusters, in quanto le altre classificazioni producevano gruppi di entità numerica troppa diversa tra loro.

A questo punto, per verificare la bontà di questa classificazione, è stata fatta l’analisi ANOVA, volta proprio a verificare se la separazione tra i gruppi è sensata, o se invece si può considerare casuale. Sostanzialmente si confronta la variabilità dentro i gruppi con la variabilità tra i gruppi, che la clusterizzazione dovrebbe massimizzare, facendo riferimento al test F.

Dai risultati si evince che la classificazione delle unità statistiche in 3 cluster non produce risultati soddisfacenti in quanto la separazione esterna non risulta massimizzata rispetto all’omogeneità interna.

Se ne deduce che, utilizzando le variabili in questione, i clienti di Ambiente S.C. non possono essere classificati in gruppi sufficientemente diversi tra loro.

Figura

Figura 18: Il dendogramma

Riferimenti

Documenti correlati

The introduction of a minimum wage would always lead to a fall in the demand for labour by firmsc. A minimum wage would not lead to increased unemployment if it is set

I castelli litoranei del giudicato di Gallura. Riflessioni sulla territorialità Tesi di dottorato in Storia degli Stati Medioevali Mediterranei Università degli Studi di

Infatti, solo in rarissime occasioni si sono avute differenze significative tra i quattro indici calcolati nelle due tesi, tra I'altro non sempre a favore degli

[r]

By focusing on the OH stretching band of water, remarkable changes in the spectral shape of this band can be observed in the polarized spectra of CDNS hydrogel by varying the

Procedura: VALUTAZIONE della Bontà del modello - stima dei parametri b.. a.Diversi metodi

Tuttavia, nella regressione logistica l’output Y è dicotomico: 0 o 1, mentre i predittori assumono valori reali generici, come nella regressione lineare multipla tradizionale.. Si

E dopo quel primo incontro, il passaggio da manoscritto a libro ebbe inizio. Leo Longanesi, rimasto colpito dal romanzo, l’indomani propose a Berto un contratto in cui si