• Non ci sono risultati.

4 TECNICHE STATISTICHE PER IL DATABASE MARKETING

N/A
N/A
Protected

Academic year: 2021

Condividi "4 TECNICHE STATISTICHE PER IL DATABASE MARKETING "

Copied!
31
0
0

Testo completo

(1)

4 TECNICHE STATISTICHE PER IL DATABASE MARKETING

Dopo aver chiarito il significato di Database Marketing e Direct Marketing dal punto di vista generale, vediamo qual l’uso che ne viene fatto dal punto di vista applicativo. A tale scopo, il presente capitolo fornisce una panoramica delle principali tecniche statistiche e fornisce alcuni esempi esplicativi che mostrano come, i dati raccolti nel database di marketing, possano essere utilizzati e come l’interpretazione di essi possa apportare maggiori benefici ai risultati delle azioni di direct marketing, che si riflettono direttamente anche sull’intero complesso aziendale e contribuiscono all’aumento dei profitti.

4.1 Tecniche statistiche descrittive

Una volta testato un nuovo prodotto o dopo aver effettuato un’offerta promozionale ad un campione di nomi provenienti dal database, l’addetto al marketing è in grado di determinare quali caratteristiche separano coloro che hanno risposto da coloro che non hanno risposto allo scopo di identificare i target di mercato.

E’ importante che il personale di marketing abbia una buona conoscenza dei dati dei consumatori in modo da poter effettuare una migliore selezione dei nomi a cui rivolgere le promozioni. La familiarizzazione con i dati richiede molto tempo e spesso richiede numerosi incontri con i responsabili di staff per la creazione e la manutenzione dei dati di marketing, ma evita di fare assunzioni erronee e costose.

Esistono numerosi metodi per controllare i dati dei consumatori e per determinare il target di mercato per l’offerta di un particolare prodotto. [Drozdenko 02].

Le tecniche comprendono:

 Tabulazioni univariate (Univariate tabulations)

 Tabulazioni incrociate (Cross-tabulations)

 Contatore logico di variabili (Logic counter variables)

 Rapporti di variabili (Ratio variables)

 Variabili longitudinali (Longitudinal variables)

(2)

Queste tecniche aiutano a capire quali sono le variabili più importanti per il target di mercato. Inoltre per la costruzione del modello finalizzato alla definizione del target di mercato è buona norma che un’alta percentuale del tempo di analisi sia dedicato alla preparazione dei dati, cosa molto comune anche nel data mining.

Di seguito una breve descrizione di ognuna delle tecniche utilizzate.

4.1.1 Tabulazioni univariate

La tabulazione univariata è la forma di analisi più comunemente usata per costruire un modello target o per segmentare il file dei consumatori.

Considerando il caso del test effettuato su un determinato prodotto offerto, una tabulazione univariata prodotta su un campione di analisi visualizzerà la percentuale di coloro che hanno risposto e che non hanno risposto all’offerta per le diverse categorie di ciascun attributo. Ad esempio, un’analisi di questo tipo può dire se i consumatori con età maggiore dei 50 anni hanno un tasso di risposta superiore ai consumatori al di sotto dei 50 anni.

Di seguito è riportato l’esempio di una società che ha effettuato un test per un nuovo CD musicale chiamato “Pop Rock USA (PRUSA)” a 20.000 consumatori selezionati dal segmento dei “consumatori con più di 5 ordini pagati negli ultimi 24 mesi”. Il tasso di risposta ricevuto è stato del 2,5%. Il campione è stato diviso in due: 50% (10.000 nomi) per l’analisi e 50% (10.000 nomi) per la validazione.

Gli analisti hanno esaminato diverse tabulazioni univariate prodotte sui segmenti di analisi per determinare la percentuale di coloro che hanno risposto e di coloro che non hanno risposto. Essi hanno esaminato un indicatore di età, un indicatore degli acquisti di musica effettuati in passato, il numero totale di ordini di ciascun consumatore e le promozioni totali inviate a ciascuno di essi.

Dedicando particolare attenzione all’analisi dell’età, la tabulazione univariata relativa è mostrata nella tabella sottostante, i dati sono divisi per categorie di età e ogni categoria contiene più di 500 nomi.

Lo strumento generalmente utilizzato per la tabulazione univariata è SAS, software di analisi importato su Excel.

Nella tabella:

• Numero: rappresenta il numero di nomi del campione per ogni categoria

• Percentuale del campione: numero di nomi del campione per ogni categoria

in percentuale

(3)

• Numero di ordini indica il numero di ordini che appartengono a ciascuna categoria su un totale di 250 ordini

• Tasso di risposta: percentuale di risposta all’offerta del prodotto

• Indice sul totale, ad esempio per il gruppo “< 30 anni” indicato in tabella, il 175 indica che il tasso di risposta è del 75% più alto che se promuovessimo all’intero campione

Età del capo famiglia

Numero Percentuale del campione

Numero di ordini

Tasso di risposta (%)

Indice sul totale

< 30 1.529 15,29 67 4,38 175

31-40 1.775 17,75 63 3,55 142

41-50 1.879 18,79 46 2,45 98

51-60 2.054 20,54 29 1,41 56

> 60 1.785 17,85 18 1,01 40

Informazioni sull’età non

disponibili

978 9,78 27 2,76 110

Totale 10.000 100,00 250 2,5 100

Tabella 1 – Esempio di tabulazione univariata

L’ultima colonna è molto utile perché per esempio per quanto riguarda il gruppo dei < di 30 anni, ci dice che il guadagno nelle risposte è del 75%.

Assumendo che il breakeven per questo particolare prodotto sia del 3%, i nomi che potrebbero dare maggior profitto usando solo l’informazione dell’età sono gli appartenenti alla fascia dei < 30 e alla fascia tra 31-40 anni, perché entrambe hanno un tasso di risposta maggiore del 3%. Se lo scopo della promozione è di generare un profitto del 5% e il tasso di risposta risultante per generare questo livello di profitto è del 4,25% dovrebbe essere scelto solo il gruppo sotto i 30 anni perché il tasso di risposta è 4,38%. Chiaramente il criterio di selezione dipende dall’obiettivo della promozione.

Quando vengono esaminate le variabili promozionali è importante sapere che questi dati possono essere fuorvianti, la tabulazione univariata perde alcune informazioni chiave come il periodo di tempo che un consumatore è sul file e la modalità con cui l’ordine è stato generato. Conoscere solo il numero delle promozioni non è un’informazione adeguata sulla quale basare le decisioni.

In generale non si dovrebbero mai usare le variabili promozionali per

determinare la modalità di promozione di una particolare offerta perché si potrebbe

(4)

pensare che chi ha ricevuto un alto numero di promozioni sia il migliore e che colui che ha ricevuto poche promozioni sia il peggior consumatore.

4.1.2 Tabulazione incrociata

Tabulazione incrociata o cross-tabulation significa vedere due o più elementi in combinazione. La tabella sottostante mostra la combinazione di due elementi:

numero di ordini e numero di promozioni. Il campo Totale sulla colonna o sulla riga rappresenta rispettivamente la somma della colonna o dell’intera riga. Le altre celle rappresentano l’intersezione tra ordini e promozioni.

1-5 6-10 11-20 21-30 >31 Totale

0 0,00%

(0/0)

0,00%

(0/0)

0,00%

(0/0)

0,00%

(0/0)

0,00%

(0/0)

0,00%

(0/0)

1-5 0,00%

(0/0)

1,63%

(8/491)

1,76%

(17/967)

2,34%

(20/856)

1,60%

(16/998)

1,87%

(62/3.312) 6-10 0,00%

(0/0)

2,89%

(8/277)

1,85%

(14/756)

2,52%

(29/1,154)

1,80%

(16/887)

2,21%

(68/3.074) 11-15 0,00%

(0/0)

0,00%

(0/0)

3,03 (14/462)

3,03%

(29/956)

2,67%

(21/787)

2,90%

(64/2.205)

>16 0,00%

(0/0)

0,00%

(0/0)

3,35%

(12/359)

5,03%

(30/597)

3,53%

(16/453)

3,97%

(56/1.409) Totale 0,00%

(0/0)

2,08%

(16/768)

2,24%

(57/2.544)

3,03%

(108/3.563)

2,21%

(69/3.125)

2,5%

(250/10.000)

Tabella 2 - Esempio tabulazione incrociata

Sulle basi del campo Numero totale di ordini il manager deciderà di effettuare promozioni solo a coloro che, finora hanno effettuato più di 16 (assumendo un breakeven di risposta del 3%). Incrociando questo campo con il totale delle promozioni inviate, il manager può proporre promozioni anche a coloro che hanno effettuato da 11 a 15 ordini, se il numero delle promozioni non supera 30. Ad esempio la cella in grigio dice che 491 nomi del campione di 10.000 ricadono nel caso di 1-5 ordini effettuati in 6-10 promozioni, il totale degli ordini effettuati è 250 e questo gruppo produce 8 ordini per un tasso di ordini di 1,63% (8/491).

Numero totale di

ordini Totale Promozioni Breakeven

(5)

4.1.3 Contatore logico di variabili

Il contatore logico di variabili (o logic counter variables) conta il numero di risposte “si” date da un consumatore ad una serie di domande riguardanti un suo particolare interesse (prodotto, hobby), ad esempio se esistono diversi attributi sul database che misurano l’interesse che i consumatori hanno verso la cucina, è possibile combinare questi attributi e creare un contatore logico. La variabile risultante è più forte delle variabili indipendenti e aiuta a controllare il vero interesse dei consumatori nella cucina. Ad esempio il database potrebbe contenere informazioni aggiuntive relative agli interessi di cucina (ognuna prende due valori:

1 per si e 0 per no ) come:

• Hobby nel cucinare?

• Compra libri di cucina?

• Gradisce vino?

• Ha un giardino?

• Ha una sottoscrizione ad un giornale di cucina?

Ogni variabile può essere analizzata separatamente con una tabulazione univariata oppure combinando tutte le variabili in una variabile logica.

Per poter creare la variabile logica di cucina, è sufficiente contare semplicemente il numero di risposte “si” a queste 5 domande per ogni consumatore, la variabile logica fa da contatore e il massimo valore che essa può assumere è 5.

La stessa cosa potrebbe essere fatta per le informazioni di acquisto dei prodotti interni di una società che ha offerto 4 diversi CD di musica rock: Rock and Roll Party (RRP), The Soul of Rock and Roll (TSRR), Early Rock Legend (ERL) e Easy Listening Rock (ELR). Per creare un variabile logica e sufficiente contare per ogni consumatore quanti dei 4 CD ha acquistato. Il contatore di variabili logiche che in questo caso può assumere solo valori compresi tra 0 e 4, segnala il grado di interesse che ogni consumatore ha per la musica rock basandosi sul numero dei diversi CD di musica acquistati e può essere usato per selezionare i consumatori a cui indirizzare una determinata promozione. Ad esempio per fare un’offerta sulla musica rock potrebbero essere selezionati solo i consumatori che hanno acquistato più di due cd di musica rock (dei 4 in offerta).

Una volta trovato il valore del contatore di variabili logiche, gli analisti

(6)

con SAS, questo permette loro di determinare una variabile più forte per distinguere chi risponde da chi non risponde.

Nome del consumatore

Indirizzo del consumatore

Totale speso

RRP TSRR ERL ELR Variabile logica musica rock Sr. Bianchi 1° Maggio, 12 356,34 PD PNO PNO PD 2

Sr. Rossi 25 Aprile, 201 643,22 PNO PD PD PD 3

Sr. Rosi 2 Giugno, 89 264,98 NP NP PNO PD 1

PD = pagato, PNO = promosso e non ordinato, NP = non promosso

Tabella 3 - Esempio di variabili logiche per tre consumatori

Azioni su RRP dell’ultimo anno

Numero Percentuale del campione

Numero di ordini

Tasso di risposta

(%)

Indice sul totale

Promosso e

ordinato 877 8,77 51 5,82 233

Promosso e non

ordinato 3.967 39,67 93 2,34 94

Non promosso 3.911 39,11 73 1,87 75

Non disponbile 1.245 12,45 33 2,65 106

Totale 10000 100,00 250 2,50 100

Tabella 4 - Tabulazione univariata sul comportamento di acquisto del CD

“Rock and Roll Party”(RRP)

La tabella mostra le informazioni sugli acquisti passati del CD Rock and Roll Party, il manager seguendo questa tabella è in grado di identificare che solo l’8,77% del segmento ha avuto un tasso di risposta superiore al breakeven. La combinazione di queste informazioni di acquisto con le informazioni su altri articoli rock del passato da la possibilità di ottenere una variabile più forte e permette inoltre l’identificazione di un insieme di nomi più vasto da considerare per la promozione. Tuttavia, non è sempre ovvio sapere quali dati sono collegati ad altri.

In alcuni casi si può eseguire un’analisi fattoriale per determinare la correlazione tra

i dati e una volta individuati gli elementi correlati, è possibile combinarli in un

contatore logico.

(7)

4.1.4 Rapporti di variabili

Il rapporto di variabili è una percentuale data dalla divisione di un elemento con un altro che aiuta a fare determinate previsioni, ad esempio il rapporto totale ordini/totale promozioni applicato su più clienti, può aiutare a prevedere qual è il cliente che più probabilmente accetterà l’offerta.

Alcuni esempi di rapporti di variabili sono elencati di seguito:

• Totale dei prodotti pagati da ciascun consumatore/totale dei prodotti ordinati

• Totale dei libri pagati/totale dei prodotti pagati

• Totale degli ordini/ totale delle promozioni inviate

• Totale degli ordini di musica pagati/ totale delle promozioni musicali inviate

Ad esempio avendo a disposizione le informazioni sul numero di ordini effettuati da ciascun consumatore e le informazioni sulle promozioni ad essi rivolte è possibile calcolare il tasso di ordini su promozioni.

Nome del consumatore

Indirizzo Promozioni totali

Ordini totali Ordini/Promozioni (%)

Sr. Bianchi 1° Maggio, 12 84 10 10/84 = 11,90

Sr. Rossi 25 Aprile, 201 55 7 7/55 = 12,73

Sr. Rosi 2 Giugno, 89 12 2 2/12 = 16,67

Tabella 5 - Esempio di rapporti di variabili

Avendo a disposizione i dati riportati in tabella è possibile rispondere alla

seguente domanda “sulla base degli ordini totali quale dei tre consumatori

risponderà con più probabilità all’offerta?” la risposta immediata sarebbe “quello

che ha un numero di ordini più alto”, in questo caso il Sr. Bianchi. Tuttavia come

già detto usare solo i dati delle promozioni per determinare chi risponderà con

maggiore probabilità non è una buona idea. Se invece consideriamo il rapporto tra

ordini totali e promozioni totali la maggiore probabilità di rispondere all’offerta è del

Sr.Rosi che ha un tasso di ordini medio del 16,67%. In ogni caso anche la

tabulazione incrociata di questi due elementi porta allo stesso risultato.

(8)

4.1.5 Variabili longitudinali

Le variabili longitudinali mostrano il comportamento di un particolare attributo del consumatore nel tempo. Il concetto è molto simile a quello delle serie temporali e può risultare difficile da implementare. Il principio su cui si basa questo metodo è quello secondo cui il miglior predittore della risposta dei consumatori per le promozioni future proviene da una revisione delle loro risposte e reazioni alle promozioni passate. Esempi di variabili longitudinali sono:

• Risposte dei consumatori alle ultime tre promozioni inviategli (ordine, pagamento, silenzio)

• Azioni dei consumatori agli ultimi tre ordini (pagato, reso, debito insoluto)

• Affinità del consumatore agli ultimi tre prodotti inviati relativi alla musica (rock, pop, country..)

Nome del consumatore Totale prodotti pagati/totale promozioni

Sr. Bianchi 0,2546

Sr. Rossi 0,3796

Sr. Rosi 0,1408

Tabella 6 - Esempio di rapporto di due variabili

La tabella precedente mostra le informazioni relative alle risposte dei consumatori e alle loro reazioni alle ultime tre promozioni inviategli con il rapporto totale prodotti pagati/ totale promozioni. Sulla base di questo rapporto, l’azienda è in grado di capire chi deve essere selezionato per una promozione, in questo esempio la scelta più probabile è il Sr. Rossi perché ha un tasso di risposta più alto nella storia delle promozioni.

Nome del consumatore

Due promozioni fa Una promozione fa Ultima promozione

Sr. Bianchi Non risposto Non risposto Ordinato e pagato Sr. Rossi Ordinato e pagato Non risposto Non risposto

Sr. Rosi Non risposto Ordinato e pagato Ordinato e pagato

Tabella 7 - Ultime tre azioni relative a tre consumatori

Se invece consideriamo le tre azioni più recenti dei tre consumatori il

migliore risulta il Sr. Rosi che su tre ordini ne ha pagati due. Per quanto riguarda gli

altri due consumatori entrambe hanno fatto un ordine ma l’ordine più recente è del

(9)

Sr. Bianchi, quindi è lui la persona che con più probabilità effettuerà un ordine nella prossima promozione (se non si conosce altro dei due consumatori).

Questo tipo di variabili permette al manager di capire chi è diventato più forte o più debole con il passare del tempo. Ad esempio un consumatore con un alto numero di ordini improvvisamente potrebbe non rispondere più alle offerte. Ma analizzando il cambiamento di comportamento attraverso le variabili longitudinali, i venditori riescono a creare programmi di CRM (Customer Relationship Management) per abbattere i cambiamenti di comportamento.

4.1.6 Analisi di correlazione

La correlazione esprime la forza della relazione lineare tra due variabili. La forza e la direzione della correlazione sono misurate dal coefficiente di correlazione con valori compresi tra –1 e +1.

Spesso il database degli operatori di marketing contiene centinaia o migliaia di dati e controllare ogni dato ogni volta risulterebbe troppo dispendioso in termini di tempo, per questo motivo gli operatori di marketing prima di iniziare le loro analisi eseguono l’analisi di correlazione su ogni variabile continua allo scopo di individuare quali variabili sono più correlate con le azioni predette (ordini, pagamenti ecc…). In particolare si parla di correlazione positiva quando il coefficiente di correlazione delle due variabili si avvicina a +1, in questo caso i più alti valori di una variabile sono associati ai più alti valori dell’altra. Ad esempio se età e reddito risultano positivamente correlati vuol dire che al diminuire del reddito diminuisce anche l’età. La correlazione è negativa quando il coefficiente di correlazione delle due variabili si avvicina a –1, in questo caso il valore più alto di una variabile è associato al valore più basso dell’altra. Ad esempio se gli acquisti di musica classica e di musica country risultano negativamente correlati, ciò significa che coloro che hanno acquistato molti CD di musica classica hanno acquistato pochi CD di musica country e viceversa. Infine correlazione zero vuol dire che non esiste nessuna correlazione tra le due variabili, questo però non vuol dire che le due variabili sono indipendenti.

L’analisi di correlazione aiuta a rispondere a domande del tipo: esiste una

correlazione positiva tra il numero totale di libri comprati nei 12 mesi passati e la

probabilità che il consumatore ordini una nuova serie di video? Oppure Il reddito

delle persone più anziane è più alto del reddito delle persone più giovani?, per poter

(10)

rispondere a queste domande è necessario individuare il tipo di correlazione esistente tra le due variabili considerate.

4.2 Tecniche di regressione

La regressione è una tecnica statistica utilizzata per analizzare la dipendenza tra una variabile e una o più variabili e rappresenta il principale strumento che, nella gestione di un database consente di verificare ipotesi di relazione e predizione.

Una delle principali ragioni per cui chi si occupa di direct marketing è chiamato ad approfondire la conoscenza di alcune tecniche statistiche è la previsione. Normalmente l’evento che si cerca di prevedere è la probabilità di ottenere una risposta che nella maggior parte dei casi coincide con l’effettuazione di una vendita.

In genere le variabili di previsione sono le dimensioni che incidono sulla variabile dipendente, i predittori tipici sono i comportamenti di acquisto ad esempio l’importo speso, la frequenza di acquisto o la tipologia di prodotto o variabili demografiche del consumatore come la zona di residenza, l’età, il reddito e la dimensione della famiglia.

Ad esempio, ci si potrebbe chiedere se l’entità degli acquisiti effettuati dai propri clienti, con riferimento ad un determinato periodo, sia da mettere in relazione a variabili quali l’età dei rispondenti all’offerta piuttosto che al livello di sconto praticato.

La regressione può essere:

 lineare

 logistica

4.2.1 Regressione lineare

La regressione lineare comprende:

- regressione lineare semplice - regressione lineare multipla

Un modello di regressione lineare è un’equazione matematica che stabilisce

una relazione tra una variabile dipendente e o una o più variabili indipendenti. Nel

caso in cui si prenda in considerazione un’unica variabile dipendente si parla di

regressione lineare semplice:

(11)

bx a Y = +

Nel caso in cui si prendano in considerazione più variabili dipendenti si parla di regressione lineare multipla:

2 2 1

1

x b x

b a

Y = + +

in questo caso il modello derivante prende in considerazione più informazioni dei consumatori per l’individuazione del target di mercato.

Considerando l’equazione di regressione lineare semplice, si può affermare che Y è la migliore linea che esprime la relazione tra le due variabili x e Y (cioè che minimizza la somma dei quadrati degli scarti dei valori osservati da quelli ipotizzati) dove:

- Y è la variabile di risposta cioè quello che vogliamo predire, detta anche variabile dipendente (ad esempio il Life Time Value)

- x è la variabile predittore o variabile indipendente (Es: età, reddito)

- a è un valore numerico costante, denota l’intercetta e prescinde dal valore di x

- b è un valore numerico costante, ed indica l’inclinazione della retta di regressione, esso esprime il peso tra la variabile dipendente e la/le variabili indipendenti

Per poter effettuare la stima del valore Y per una entità di cui si conoscono i valori delle x

i

è sufficiente sostituire questi valori nell’equazione e calcolare il valore stimato Y .

Strumenti utili per l’analisi di regressione lineare possono essere il pacchetto di analisi Toolpack di MicrosoftExcel oppure SAS.

Un esempio di analisi di regressione lineare semplice è il seguente, dove

b fornisce un’indicazione di come il reddito influisce sull’ammontare degli acquisti del cliente e quindi sul suo Life Time Value.

Reddito (x) 58 42 24 76 33 69 31 46 51 38

Spese effettuate 76 45 26 102 42 97 33 49 52 40

(12)

Per vedere se tra le due variabili esiste una correlazione è necessario creare uno scatter diagram, in questo caso si può vedere che effettivamente esiste una relazione tra il reddito dei consumatori e il totale delle spese da loro effettuate. La seguente figura mostra anche l’andamento della retta di regressione che minimizza i quadrati degli scarti e

Y rappresenta una stima di Y per un dato valore di x :

REDDITO Y

= − $ 15 , 39 + 1 , 53 *

y = 1,5298x - 15,395 R2 = 0,9526

0 20 40 60 80 100 120

0 10 20 30 40 50 60 70 80

Figura 1 - Retta di regressione

In questo modo, partendo dai dieci individui considerati è possibile prevedere il comportamento di un undicesimo individuo di cui conosciamo il reddito.

Inoltre per verificare la validità del modello ipotizzato, ossia l’esistenza di una relazione tra la variabile dipendente e l’insieme delle variabili indipendenti considerate, è necessario conoscere l’indice R

2

.

R

2

è detto coefficiente di determinazione ed è indice dell’affidabilità della

predizione, cioè misura la percentuale di varianza spiegata dalla variabile

dipendente. R

2

può prendere valori tra 0 e 1, se uguale a 1, o molto vicino, indica

che la relazione tra x e y è buona, se uguale a 0 indica che il modello non spiega

per niente la variazione dei dati. Nell’esempio R

2

= 0 , 95 è molto vicino ad 1 quindi

il modello risulta molto affidabile.

(13)

4.2.2 Regressione logistica

La regressione logistica è una forma particolare di regressione lineare ed è una delle tecniche più popolari utilizzate per classificare gli individui in due categorie mutuamente esclusive, per esempio: compra-non compra oppure risponde-non risponde

Nel database marketing le risposte ad una sollecitazione appartengono alla classe delle variabili binarie e il modello di regressione logistica viene costruito per classificare un individuo come colui che con più o meno probabilità risponde ad una sollecitazione.

Considerando y una variabile indipendente che può assumere due valori 0 (risposta “no”) o 1 (risposta “si”). La regressione logistica classifica un individuo in una delle sue classi basandosi sui valori delle variabili di predizione x

1

, x

2

, x

3

...

Mentre la regressione lineare ha una forma del tipo:

c x a x

a x a

y =

1 1

+

2 2

+ ... +

n n

+

La regressione logistica si presenta nella seguente forma:

c x a x

a x a x x x y

p ( = 1 |

1

,

2

,...

n

) =

1 1

+

2 2

+ ... +

n n

+

il membro di sinistra è una probabilità condizionale, cioè la probabilità che la variabile risposta y assuma il valore 1 quando le variabili x

i

assumono i valori specificati. In realtà il valore di sinistra non è limitato tra 0 e 1, per fare in modo che lo sia occorre una manipolazione geometrica, per questo viene utilizzata la curva logistica [Ciaramella 04].

L’equazione diventa di questo tipo:

c ax

c ax

e y e

p

+

+

= +

= 1 ) 1

( dove 

 

=

= =

+ 1 ( 1 | ) )

| 1 ln (

x y p

x y c p

ax

I predittori x

i

nella parte destra dell’equazione di destra servono per

+

(14)

probabilità di un elemento di appartenere alla classe 1. La probabilità di un elemento di appartenere alla classe 1 è calcolata mettendo i valori delle variabili predittori nelle equazioni.

Di seguito è mostrato un esempio di dataset utilizzato per il calcolo della retta di regressione logistica [Ratner 03]:

Risposta

(si =1, no = 0) Reddito ($000) Età (anni)

1 96 22

1 86 33

1 64 55

1 60 47

1 26 27

0 98 48

0 62 23

0 54 48

0 38 24

0 26 42

Tabella 9 - Dataset per il calcolo della regressione logisitca

L’equazione di regressione logistica per questi valori è:

'

* 0042 , 0

* 0179 , 0 9367 , 0 )

(

log it RISPOSTA = ax + c = − + REDDITOETA

Variabili Parametri stimati

Intercetta - 0,9367

Reddito 0,0179

Età - 0,0042

Tabella 10 - Output regressione logistica

La colonna dei parametri stimati contiene i coefficienti per il reddito, per l’età e il valore dell’intercetta che in genere è definita come x

0

ed è uguale a 1.

Sostituendo i valori di reddito ed età del dataset seguente nell’equazione di

regressione logistica trovata, si ottiene il valore ax + c

(15)

Reddito Età

($000) (anni)

148 37

141 43

97 70

90 62

49 42

Tabella 11 - Dataset per la regressione logistica

sostituendo il valore calcolato in:

c ax

c ax

e y e

p

+

+

= +

= 1 ) 1 (

si ottiene la probabilità calcolata del modello. In questo caso, a differenza della regressione lineare, l’interpretazione è proprio in termini di probabilità.

Reddito Età Logit

P(Y=1|x) ($000) (anni) (ax +c)

148 37 1,5571 0,82625

141 43 1,4066 0,80356

97 70 0,5056 0,62412

90 62 0,4139 0,60235

49 42 - 0,236 0,44146

Tabella 12 - Esempio calcolo regressione logistica

L’ultimo attributo in tabella indica la probabilità calcolata che la risposta y

valga 1, è possibile notare che le previsioni risultano molto buone per redditi molto alti ed età inferiore ai 45 anni mentre sono abbastanza scarse per redditi inferiori a

$50.

La regressione logistica è molto importante per poter prendere decisioni

economiche, ad esempio nelle decisioni di direct marketing, infatti la probabilità può

essere usata per pesare i costi degli errori, ad esempio se un falso positivo costa

una lettera inutile e un falso negativo una mancata vendita, l’offerta può essere

fatta anche laddove le probabilità previste risultano basse.

(16)

4.3 Tecniche di segmentazione

Con riferimento al direct e database marketing, la statistica non viene applicata solo a scopi previsionali ma anche per definire i segmenti di mercato necessari per la profilazione dei clienti. La segmentazione della domanda, presuppone un certo grado di eterogeneità sia nelle preferenze che nei comportamenti dei consumatori. Con le tecniche statistiche è possibile ottenere la suddivisione del mercato di riferimento in sottogruppi omogenei al loro interno e molto differenziati tra loro.

Il lavoro di segmentazione, ha valenza operativa per l’azienda, solo nel momento in cui l’impresa è in grado di rispondere alle diverse preferenze e ai diversi comportamenti dei consumatori con proposte e iniziative di comunicazione diversificate a seconda del target. Inoltre, la segmentazione ha valenza anche dal punto di vista economico, in quanto ogni azione di marketing ha un costo e solo una buona segmentazione, attuata con rigore garantisce un aumento dell’efficacia, dell’efficienza e della redditività raggiungibile.

Le tecniche statistiche necessarie per la segmentazione sono:

• Analisi univariata e tabulazione incrociata

• Analisi formali RFM

• Analisi CHAID

• Analisi fattoriale

• Cluster Analysis

Nella segmentazione del file dei consumatori, spesso è necessario utilizzare alcune di queste tecniche simultaneamente per determinare il migliore schema di segmentazione. Ad esempio l’analisi CHAID insieme all’analisi univariata e alla tabulazione incrociata è in grado di produrre un eccellente segmentazione e le Cluster Analysis sono normalmente precedute da un’analisi fattoriale mirata a sintetizzare opportunamente l’insieme originale delle variabili.

Tuttavia prima di produrre una segmentazione è necessario avere ben chiaro l’obiettivo di segmentazione, dopo di che, una volta che il file dei consumatori è stato segmentato, esso può ancora risultare utile per diversi anni per tenere traccia dei propri clienti, per vendere i prodotti ai consumatori e per comunicare con essi.

Se le definizioni dei segmenti cambiano continuamente è impossibile per gli addetti

al marketing prevedere il tasso di risposta o tenere traccia delle migrazioni dei

consumatori.

(17)

4.3.1 Analisi univariata e tabulazione incrociata

I valori RFM (discussi nel capitolo 3), giocano un ruolo molto importante nella segmentazione. La recentezza degli acquisti è senza dubbio, il miglior predittore del comportamento di acquisto futuro, seguono poi la frequenza e il valore monetario degli acquisti. Il file dei consumatori potrebbe essere segmentato sulla base di uno o più di questi elementi.

Per sviluppare uno schema di segmentazione basato su questi tre elementi è necessario innanzitutto, creare due o tre tabulazioni incrociate e dividere il file dei consumatori sulla base della storia delle risposte e delle assunzioni di marketing.

Per effettuare la segmentazione dei consumatori in base alle analisi di tabulazione incrociata delle variabili RFM, è necessario accedere alla storia delle promozioni passate, i passi sono i seguenti:

- Creare un campione dei prodotti promossi in passato ai consumatori che si intende segmentare. Ogni campione utilizzato deve riflettere le caratteristiche che i consumatori avevano al momento della promozione.

- Creare due o tre tabulazioni incrociate delle variabili RFM e visualizzare i tassi di risposta, i valori indice, e le percentuali.

- Definire i segmenti cercando un valore dei tassi di risposta significativo della profittabilità della linea di prodotti dell’azienda. Il numero di segmenti dipende dalla grandezza del database, più piccolo è il database meno segmenti dovranno essere creati.

- Decidere, se è necessario testare lo schema di segmentazione finale anche sui campioni delle promozioni passate non utilizzati nell’analisi.

Un esempio di schema di segmentazione è mostrato di seguito, esso

rappresenta la segmentazione relativa ad una determinata linea di prodotti video:

(18)

Figura 2- Schema di segmentazione

La persona che si occupa della gestione dei prodotti deve determinare il miglior metodo per promuovere i prodotti al segmento dei “compratori di video”

quindi, deve chiedere all’analista di studiare i campioni delle promozioni passate relative alle vendite di video per poter determinare la migliore classifica dei compratori di video, una soluzione possibile potrebbe essere quella di suddividere i consumatori in: eccellenti, buoni, medi, peggiori.

L’analista eseguirà l’analisi di segmentazione sviluppando ed esaminando la tabulazione incrociata contenente gli indicatori di recentezza e di frequenza dei campioni delle vendite passate.

Di seguito è mostrato un esempio in cui il campione finale utilizzato per le analisi si compone di 250.000 nomi comprensivi anche dei nomi appartenenti a campioni delle promozioni di prodotti video effettuate in passato. Ogni campione è random e rappresentativo dell’universo dei compratori di video. Il tasso di risposta del campione è 5,02%.

La tabella sottostante mostra la tabulazione incrociata degli indicatori di recentezza e frequenza per il campione in esame:

Dimensione dell’universo 10.000.000

Eliminazioni (881.648)

Nomi rimanenti per la promozione (9.118.352)

Non compratori di video (4.333.808)

Questo gruppo deve essere ulteriormente segmentato

Compratori di video:

(4.784.544)

(19)

Numero degli acquisti

passati

0-3 mesi fa 3-6 mesi fa 6-9 mesi fa 9-12 mesi fa Più di 12 mesi

fa Totale

0-1

TR = 5,34%(106) Ord = 285 Tot = 5.337

TR = 4,58%(91) Ord = 383 Tot = 8.354

TR = 3,75%(75) Ord = 428 Tot = 11.420

TR = 2,98%(59) Ord = 488 Tot = 16.391

TR = 1,45%(29) Ord = 139 Tot = 9568

TR = 3,37%(67) Ord = 1.723 Tot = 51.070

2-4

TR = 7,54%(150) Ord = 361 Tot = 4.789

TR = 6,75%(131) Ord = 945 Tot = 14.376

TR = 4,98%(99) Ord = 1.098 Tot = 22.040

TR = 4,35%(87) Ord = 1.314 Tot = 30.203

TR = 2,79%(56) Ord = 721 Tot = 25.838

TR = 4,56%(91) Ord = 4.439 Tot = 97.246

5-10

TR = 11,23%(224) Ord = 76 Tot = 677

TR = 9,44%(188) Ord = 192 Tot = 2.033

TR = 6,45%(128) Ord = 801 Tot = 12.426

TR = 5,45%(109) Ord = 1.418 Tot = 26.018

TR = 4,48%(89) Ord = 809 Tot = 18.051

TR = 5,57%(111) Ord = 3.296 Tot = 59.205

> 11

TR = 14,71%(293) Ord = 20 Tot = 136

TR = 11,46%(228) Ord = 77 Tot = 672

TR = 8,82% (176) Ord = 792 Tot = 8.981

TR = 7,01%(140) Ord = 1.448 Tot = 20.654

TR = 6,34%(126) Ord = 763 Tot = 12.036

TR = 7,30%(145) Ord = 3.100 Tot = 42.479

Totale

TR = 6,78%(135) Ord = 742 Tot = 10.939

TR = 6,28%(125) Ord = 1.597 Tot = 25.435

TR = 5,68%(113) Ord = 3.119 Tot = 54.867

TR = 5,01%(100) Ord = 4.668 Tot = 93.266

TR = 3,71%(74) Ord = 2.432 Tot = 65.493

TR = 5,02%(100) Ord = 12.558 Tot = 250.000

Tabella 13 - Tabulazione incrociata delle informazioni di recentezza e frequenza

All’interno di ogni cella è mostrato il tasso di risposta (l’indice totale tra parentesi), il numero di ordini e il numero totale di persone relative a quella cella.

L’analista deve essere in grado di creare i quattro segmenti richiesti dall’addetto alla gestione dei prodotti basandosi sui valori contenuti nelle celle.

La figura sottostante mostra come l’addetto alla gestione dei prodotti potrebbe creare i quattro segmenti:

Numero degli acquisti

passati

0-3 mesi fa 3-6 mesi fa 6-9 mesi fa 9-12 mesi fa Più di 12 mesi

fa Totale

0-1

TR = 5,34%(106) Ord = 285 Tot = 5.337 C1b

TR = 4,58%(91) Ord = 383 Tot = 8.354 C2c

TR = 3,75%(75) Ord = 428 Tot = 11.420 C3d

TR = 2,98%(59) Ord = 488 Tot = 16.391 C4d

TR = 1,45%(29) Ord = 139 Tot = 9568 C5d

TR = 3,37%(67) Ord = 1.723 Tot = 51.070

2-4

TR = 7,54%(150) Ord = 361 Tot = 4.789 C6b

TR = 6,75%(131) Ord = 945 Tot = 14.376 C7b

TR = 4,98%(99) Ord = 1.098 Tot = 22.040 C8c

TR = 4,35%(87) Ord = 1.314 Tot = 30.203 C9c

TR = 2,79%(56) Ord = 721 Tot = 25.838 C10d

TR = 4,56%(91) Ord = 4.439 Tot = 97.246

5-10

TR = 11,23%(224) Ord = 76 Tot = 677 C11a

TR = 9,44%(188) Ord = 192 Tot = 2.033 C12a

TR = 6,45%(128) Ord = 801 Tot = 12.426 C13b

TR = 5,45%(109) Ord = 1.418 Tot = 26.018 C14b

TR = 4,48%(89) Ord = 809 Tot = 18.051 C15c

TR = 5,57%(111) Ord = 3.296 Tot = 59.205

> 11

TR = 14,71%(293) Ord = 20 Tot = 136 C16a

TR = 11,46%(228) Ord = 77 Tot = 672 C17a

TR = 8,82% (176) Ord = 792 Tot = 8.981 C18a

TR = 7,01%(140) Ord = 1.448 Tot = 20.654 C19b

TR = 6,34%(126) Ord = 763 Tot = 12.036 C20b

TR = 7,30%(145) Ord = 3.100 Tot = 42.479

Totale

TR = 6,78%(135) Ord = 742 Tot = 10.939

TR = 6,28%(125) Ord = 1.597 Tot = 25.435

TR = 5,68%(113) Ord = 3.119 Tot = 54.867

TR = 5,01%(100) Ord = 4.668 Tot = 93.266

TR = 3,71%(74) Ord = 2.432 Tot = 65.493

TR = 5,02%(100) Ord = 12.558 Tot = 250.000

Tabella 14 - Creazione di quattro segmenti

(20)

L’analista definisce i quattro segmenti come segue:

Figura 3 - Schema di segmentazione

- Eccellenti: i nomi con indice al di sopra di 175 (che in tabella sono indicati con la lettera a)

- Buoni: nomi con indice totale più grande di 100 ma inferiore a 175(che in tabella sono indicati con la lettera b)

- Medi: nomi con indice più grande di 85 ma inferiore a 100 (che in tabella sono indicati con la lettera c)

- Peggiori: nomi con indice inferiore a 85 (che in tabella sono indicati con la lettera d)

Il tasso di risposta di 5,02% per questo campione di analisi in realtà è poco significativo, quello che è significativo è l’indice di risposta di un gruppo in relazione ad un altro gruppo. In questo esempio, l’analista ha stimato i valori indice in relazione alle strategie attuali di promozione dei video. Ad esempio l’analista sa per esperienza, che i gruppi di consumatori con indice inferiore o uguale a 85 non daranno mai profitto per qualsiasi cosa gli venga offerta, perciò il segmento dei peggiori risponditori contiene proprio le persone con indice inferiore a 85.

4.3.2 Analisi formali RFM

Un altro approccio utilizzato per segmentare il file dei consumatori sono le analisi di segmentazione formali RFM, basate su analisi algoritmiche del

Dimensione dell’universo 10.000.000

Eliminazioni (881.648)

Nomi rimanenti per la promozione (9.118.352)

Non compratori di video (4.333.808) Compratori di video:

(4.784.544)

Eccellenti Buoni Medi Peggiori

(21)

comportamento dei valori di: recentezza degli ordini/acquisti, frequenza degli ordini e valore monetario degli ordini.

Le analisi RFM hanno il vantaggio di essere semplici da implementare.

Tuttavia questa tecnica produce uno schema di segmentazione non tanto potente quanto quello prodotto dalla tabulazione incrociata o dalle analisi CHAID, queste ultime due tecniche infatti, traggono vantaggio dalla mole di dati a disposizione e non semplicemente dalle variabili contatore RFM.

Il metodo tradizionale, hard coding, crea un punteggio pesato per ciascun individuo. Questo punteggio è calcolato in base ai valori RFM del consumatore, coloro che ottengono un punteggio più alto sono i più indicati per la promozione.

Esempio di applicazione della tecnica hard-coded

Con il metodo hard-coded i valori RFM vengono prima ricodificati in base ai loro valori, seguendo le regole elencate di seguito:

- Ricodificazione dei valori di recentezza:

o 20 punti se l’ordine è stato fatto 3 mesi fa o 10 punti se l’ordine è stato fatto 6 mesi fa o 5 punti se l’ordine è stato fatto 9 mesi fa o 3 punti se l’ordine è stato fatto 12 mesi fa o 1 punto se l’ordine è stato fatto 24 mesi fa - Ricodificazione dei valori di frequenza:

o Numero degli acquisti nei 24 mesi passati * 4 punti (massimo = 20 punti)

- Ricodificazione dei valori monetari:

o Totale speso nei 24 mesi passati * 0,10 (massimo = 20 punti)

Una volta effettuata la ricodifica, i valori ricodificati devono essere moltiplicati per il relativo peso, la seguente tabella mostra i pesi da attribuire a ciascuna variabile RFM:

Variabili Peso

Valore di recentezza 5 Valore di frequenza 3

Valore monetario 2

Tabella 15 - Regole per l'attribuzione dei pesi

(22)

Infine, i tre valori pesati devono essere sommati per poter calcolare il punteggio finale. I consumatori con più alto punteggio saranno coloro che risponderanno meglio alle promozioni. Di seguito è mostrato un esempio pratico per tre consumatori:

Cliente Data dell’ultimo acquisto più recente

Frequenza (ultimi 24 mesi)

Valore monetario (ultimi 24 mesi)

Sr. Rosi 09/2001 10 322 euro

Sr. Rossi 10/2000 2 25 euro

Sr. Bianchi 10/1999 4 120 euro

Tabella 16 - Esempio di tre consumatori

Assumendo di essere ad ottobre 2001 è possibile determinare il punteggio RFM pesato per ciascun consumatore ed indicizzare ciascuno di essi dai più indicati ai meno indicati per una determinata promozione.

In figura è mostrata la prima ricodifica:

Cliente Ricodifica del valore di recentezza

Ricodifica del valore di frequenza

Ricodifica del valore monetario

Sr. Rosi 20 20 20

Sr. Rossi 3 8 2,5

Sr. Bianchi 1 16 12

Tabella 17 - Dati ricodificati

Il passo successivo riguarda l’applicazione dei pesi:

Cliente Valore di recentezza pesato

Valore di frequenza pesato

Valore monetario pesato Sr. Rosi 20 * 5 = 100 20 * 3 = 60 20 * 2 = 40

Sr. Rossi 3 * 5 = 15 8 * 3 = 24 2,5 * 2 = 5

Sr. Bianchi 1 * 5 = 5 16 * 3 = 48 12 * 2 = 24

Tabella 18 - Valori pesati

(23)

Infine, i valori RFM pesati devono essere sommati:

Cliente Valore dei punteggi RFM pesati Sr. Rosi 100 + 60 + 40 = 200 Sr. Rossi 15 + 24 + 5 = 44 Sr. Bianchi 5 + 48 + 24 = 77

Tabella 19 - Calcolo dei punteggi RFM finali pesati

Il consumatore migliore risulta il primo cioè il Sr. Rosi, seguito dal Sr.

Bianchi e infine il Sr. Rossi.

Le analisi formali RFM hanno alcuni svantaggi rispetto alla tecnica di tabulazione incrociata:

- non considerano i dati degli altri consumatori per la determinazione dei segmenti. Le tabulazioni incrociate invece, prendono in esame una parte dei dati dei consumatori dello schema di segmentazione finale.

- Le istruzioni di ricodifica e i pesi associati alla metodologia di segmentazione RFM hard-coded sono arbitrari e non sono determinati su basi statistiche, quindi non possono garantire la migliore separazione dei consumatori in termini di risposta alle promozioni future.

- Riguardo alla metodologia di indicizzazione, la divisione dei nomi non è determinata su basi statistiche e non può garantire la migliore separazione dei consumatori in termini di risposta alle promozioni future.

- L’uso della metodologia di indicizzazione risulta difficile per tenere traccia dei consumatori che si muovono da un segmento all’altro.

L’analisi di segmentazione RFM è stata impiegata per molti anni e viene tuttora utilizzata dai piccoli venditori. Tuttavia i grandi venditori hanno a che fare con un grande numero di variabili e devono necessariamente spendere del tempo per analizzare il file dei consumatori allo scopo di ottenere un valido schema di segmentazione, quindi la soluzione migliore è quella di usare diversi metodi e infine selezionare lo schema di segmentazione migliore.

Un altro metodo, proposto da Hughes, ordina il file in cinque parti uguali su

ognuna delle variabili RFM, dagli ordini più recenti ai più vecchi, dai compratori più

frequenti ai meno frequenti, dal più alto ammontare speso al minore. I consumatori

con ordini più recenti, più frequenti e valore monetario più alto appartengono al

(24)

parte del segmento peggiore. Le tecniche di modellazione statistica che usano più variabili possono risultare migliori delle analisi RFM formali ma la modellazione statistica ha un costo superiore. Spesso le organizzazioni, per effettuare la segmentazione, preferiscono prendere analisti o consultarsi all’esterno, così facendo però, non riescono ad avere un ritorno degli investimenti sufficiente ad aumentare la precisione di cui necessitano le tecniche di modellazione statistica usate al posto delle tecniche RFM, quindi per piccoli o nuovi venditori le tecniche di Hughes risultano più indicate.

4.3.3 Analisi CHAID

L’analisi CHAID è in grado di dire se i segmenti della tabella 14 risultano statisticamente significativi.

Un esempio potrebbe essere quello di un’azienda che richiede uno schema di segmentazione per una linea di prodotti musicali allo scopo di migliorare l’efficienza e l’efficacia dei propri sforzi di marketing. In questo caso, il campione è composto da test di prodotti musicali del passato, ed è costituito da 250.000 individui.

L’analisi CHAID esamina ogni variabile all’interno del campione e ne individua una in grado di massimizzare la separazione dei tassi di risposta nel modo più significativo possibile.

Figura 4 - Prima esecuzione dell'analisi CHAID

In questo esempio, l’analisi CHAID ha determinato che la data dell’ultimo pagamento è il dato che discrimina meglio coloro che ordinano musica da coloro che non ne ordinano. In particolare vengono generate tre categorie per questo tipo

Campione vendite musica Quantità = 250.000 Tasso di risposta = 4,36%

Data dell’ultimo pagamento Entro l’anno (64530 a 6,76%- 155 sul totale)

Data dell’ultimo pagamento 1-2 anni fa

(83.440 a 4,69% - 108 sul totale)

Data dell’ultimo pagamento Più di due anni fa (102.030 a 2,57% - 59 sul totale)

(25)

di dato: durante l’anno, 1 o 2 anni fa, più di 2 anni fa. La figura mostra i tre gruppi e il numero di persone appartenenti a ciascun gruppo, il tasso di risposta e l’indice sul totale. In questo esempio il gruppo migliore risulta il primo, durante l’anno, questo gruppo rappresenta il 26% (64.530/250.000) del totale, con un indice sul totale di 155.

Dopo di che, l’analisi CHAID esamina singolarmente ogni gruppo del primo livello per determinare il migliore split tra i dati. In particolare vengono esaminati gli individui del primo gruppo per determinare se esiste un’altra variabile in grado di massimizzare ulteriormente la separazione nei tassi di risposta.

L’analisi CHAID dice che il tasso di risposta può essere ulteriormente massimizzato considerando come variabile discriminante il numero di acquisti di musica e individua due categorie: “1-6” e “più di 7”.

Figura 5 - Split per la variabile "Data dell'ultimo pagamento entro l'anno"

L’analisi CHAID procede esaminando gli individui appartenenti agli altri due gruppi del primo livello, poi esamina i gruppi del secondo livello fermandosi al terzo gruppo, evidentemente non esistono altre variabili in grado di separare i tassi di risposta. Lo schema finale è il seguente:

Data dell’ultimo pagamento Entro l’anno (64530 a 6,76%- 155 sul totale)

Data dell’ultimo pagamento 1-2 anni fa

(83.440 a 4,69% - 108 sul totale)

Data dell’ultimo pagamento Più di due anni fa (102.030 a 2,57% - 59 sul totale)

1-6 acquisti di musica

(24.660 a 5,49%

126 sul totale)

7 acquisti di musica

(39.870 a 7,54%

173 sul totale)

Campione vendite musica Quantità = 250.000 Tasso di risposta = 4,36%

(26)

Figura 6 - Schema finale dell'analisi CHAID

L’analisi CHAID ha creato 5 segmenti, ogni segmento o gruppo è stato determinato in modo da massimizzare la separazione nelle risposte tra i segmenti per le promozioni musicali, i cinque gruppi individuati sono:

1) Ultima data di pagamento entro l’anno con acquisti compresi tra 1 e 6 2) Ultima data di pagamento entro l’anno con più di 7 acquisti

3) Ultima data di pagamento 1 –2 anni fa con acquisti compresi tra 1 e 5 4) Ultima data di pagamento 1 –2 anni fa con più di 6 acquisti

5) Ultima data di pagamento più di due anni fa

In base al campione di analisi è possibile determinare la percentuale di persone che ricade in ciascun segmento, ad esempio per il segmento numero 1:

% 86 , 000 9 . 250

660 .

24 =

e successivamente applicare la percentuale all’intero universo:

070 . 899 352 . 118 . 9

* 0986 ,

0 =

A questo punto ci si può aspettare che nel segmento 1 ci siano 899.070 persone. Non solo, ma assumendo di aver effettuato un test riguardante la promozione di un nuovo CD l’estate passata su 10.000 persone selezionate in modo random su un universo di 9.118.352 persone e di aver ricevuto un tasso di risposta

Campione vendite musica Quantità = 250.000 Tasso di risposta = 4,36%

Data dell’ultimo pagamento Entro l’anno (64530 a 6,76%- 155 sul totale)

Data dell’ultimo pagamento 1-2 anni fa

(83.440 a 4,69% - 108 sul totale)

Data dell’ultimo pagamento Più di due anni fa (102.030 a 2,57% - 59 sul totale)

1-6 acquisti di musica

(24.660 a 5,49%

126 sul totale)

7 acquisti di musica

(39.870 a 7,54%

173 sul totale)

1-5 acquisiti di musica

(33.630 a 3,10%

71 sul totale)

Più di 6 acquisti di musica (49.810 a 5,77%

132 sul totale)

(27)

del 3,25% è possibile calcolare “quanti ordini verranno effettuati dal segmento 1 se l’offerta venisse fatta a 899.070 persone appartenenti a questo segmento”. Il segmento 1 ha un tasso di risposta del 26% più alto del totale, sommando questo a 3,25% otteniamo:

% 10 , 4

% 26 , 1

% 25 ,

3 + =

per determinare il numero di ordini che ci si aspetta di ricevere dal segmento, moltiplichiamo questa percentuale per l’ampiezza del segmento:

862 . 36 070 . 899

* 0410 ,

0 =

se il manager fa una promozione a 899.070 persone del segmento 1, può aspettarsi di ricevere 36.862 ordini.

4.3.4 Analisi fattoriale

L’analisi fattoriale è una tecnica di riduzione dei dati che costruisce un modello a partire dai dati grezzi. L'idea dell’analisi fattoriale è quella di trovare un numero ristretto di nuove variabili, generate in modo automatico da un algoritmo e denominate fattori latenti che concentrano le informazioni contenute originariamente in un numero elevato di variabili (variabili manifeste). Questi fattori latenti sono correlati con le variabili manifeste ma non sono correlati tra loro.

Per poter eseguire un‘analisi fattoriale, generalmente si parte da un certo numero di osservazioni descritte da un elevato numero di attributi, ad esempio lo stile di vita di un cliente può essere descritto da decine di attributi. Questi attributi vengono chiamate variabili manifeste, poiché sono molte, un modello che li comprende tutti potrebbe essere difficile da capire e da usare ma potrebbe contenere anche ridondanze e distorsioni. Ad esempio il reddito espresso in euro e il reddito espresso in lire generano ridondanza, perché sono espressi con numeri diversi, ma in realtà sono lo stesso attributo.

L’analisi fattoriale potrebbe essere utilizzata per identificare le dimensioni

latenti in grado di rappresentare insiemi di tecniche promozionali abbinate a

iniziative di direct marketing. Ad esempio è possibile considerare un database che

registra il successo o l’insuccesso di diversi tipi di azioni promozionali connesse alle

(28)

concorsi, riduzioni di prezzo, tre per due, quantità aggiuntiva di prodotto in omaggio.

Il seguente database potrebbe rappresentare l’input per un’analisi fattoriale:

Cliente Premio Campione omaggio

Raccolta

punti Concorso Riduzione

prezzo 3 * 2

Quantità aggiuntiva di

prodotto

1 1 0 0 1 0 0 0

2 0 1 0 1 0 1 1

3 1 1 1 0 1 1 1

4 0 0 0 0 1 0 0

5 0 0 0 0 1 1 0

… … … … … … … …

Tabella 20 - Database di esempio per l'analisi fattoriale

Il risultato dell’analisi fattoriale è rappresentato da una serie di fattori ai quali sono riconducibili le variabili considerate. Per ognuno di questi fattori si sa quanto ognuno di essi permette di ricostruire la variabilità originaria, quindi si selezionano un numero di fattori che arrivano ad una buona percentuale. In questo caso vengono selezionati tre fattori. Dopo di che devono essere esaminati i coefficienti di correlazione (lineare) fra i fattori latenti e le variabili manifeste originarie.

Fattore 1 Fattore 2 Fattore 3

Premio 0,83727 < 0,3 < 0,3

Campione omaggio 0,623306 < 0,3 < 0,3 Raccolta punti 0,79781 < 0,3 < 0,3

Concorso < 0,3 0,81941 < 0,3

Riduzione prezzo < 0,3 < 0,3 0,86187

3 * 2 < 0,3 < 0,3 0,63390

Quantità aggiuntiva

di prodotto < 0,3 < 0,3 0,86163

Tabella 21 - Analisi dei coefficienti di correlazione

Nel caso in esame, al primo fattore potrebbero essere riconducibili il premio,

il campione omaggio e la raccolta punti, al secondo fattore, il concorso e infine al

terzo fattore, la riduzione di prezzo, il 3 per 2 e la quantità aggiuntiva di prodotto. Il

primo fattore potrebbe essere nominato “regalo certo”; il secondo “regalo incerto” e

il terzo “economia della spesa”.

(29)

I fattori ottenuti dall’applicazione dell’analisi fattoriale possono essere utilizzati come predittori per l’analisi di regressione.

4.3.5 Cluster analysis

Mentre l’obiettivo dell’analisi fattoriale è quello di ricondurre una serie di variabili o caratteristiche in dimensioni più ampie chiamate fattori, la cluster analysis raggruppa i soggetti caratterizzati da tratti comuni in aggregati denominati cluster.

La cluster analysis infatti si pone come obiettivo “l’individuazione di insiemi distinti di oggetti, raggruppati in base alla loro similarità su alcune caratteristiche rilevanti” (Molteni, 1990).

Con riferimento all’analisi fattoriale, potrebbe essere utilizzata la procedura del cluster per individuare gruppi di clienti che manifestano una preferenza comune per il regalo certo, il regalo incerto e per l’economia della spesa anziché per i singoli elementi quali il campione omaggio, la raccolta punti, il concorso, la riduzione di prezzo, il tre per due, la quantità aggiuntiva di prodotto omaggio.

Quindi un database per la cluster analysis prevede, indicati per riga, i soggetti che si intende raggruppare sulla base della similarità e, in colonna, le variabili che consentono di misurare la similarità dei soggetti appartenenti agli stessi gruppi.

Nel momento in cui viene presa la decisione di utilizzare la cluster analysis al database devono essere prese tre tipi di decisione:

- la scelta di una misura di omogeneità tra gli oggetti - il tipo di algoritmo di cluster analysis

- il numero di cluster che si intende ottenere

La scelta della misura di omogeneità dipende dalla distanza, cioè dalla

maggiore similarità tra i soggetti. Per quanto riguarda il tipo di algoritmo si fa

riferimento a due famiglie: algoritmi di classificazione diretta (algoritmi delle k-

medie) e algoritmi di classificazione gerarchica. Il primo tipo di algoritmo va bene

per dataset molto ampi e in genere è la soluzione usata più frequentemente visto

che i database per le analisi di direct marketing contengono una grande quantità di

dati.

(30)

Infine con riferimento al numero di cluster, la decisione è molto soggettiva e potrebbe essere orientata da un modello di segmentazione definito a priori dal marketing manager.

Un esempio di cluster analysis potrebbe essere costituito da due cluster:

Figura 7 - Esempio cluster

Ogni persona appartenente al dataset viene inserita nel cluster meno distante da essa. Ad esempio se si intende inserire in uno dei due cluster un individuo di 30 anni con reddito $25 M è necessario calcolare la distanza di esso con ciascun cluster, come mostrato di seguito:

Cluster 1 Cluster 2

Centroide Differenza

Quadrato delle differenza

Centroide Differenza Quadrato delle differenza

Età 30 20 10 100 60 - 30 900

Reddito 25 10 15 225 40 -15 225

Distanza

totale 325 1.125

Tabella 22 - Esempio calcolo distanza cluster

Dalla tabella è possibile notare che l’individuo risulta più vicino al cluster 1 quindi andrà a far parte del primo cluster, come mostra la seguente figura:

Figura 8 - Inserimento di un nuovo individuo nel cluster Eta’: 20 anni

Reddito: $10 M Eta’: 30 anni Reddito: $25 M

Eta’: 60 anni Reddito: $40 M

Cluster 1

Cluster 2 Eta’: 20 anni

Reddito: $10 M

Cluster 1

Eta’: 60 anni Reddito: $40 M

Cluster 2

(31)

4.4 Considerazioni conclusive

Concludendo, uno degli obiettivi principali dei venditori è quello di determinare le caratteristiche che differenziano le persone che rispondono alle offerte da coloro che non rispondono.

In questo capitolo sono state discusse le principali tecniche di analisi che permettono ai responsabili di marketing di potersi orientare sulle caratteristiche dei consumatori. Generalmente qualsiasi tipo di analisi deve essere preceduta da un controllo dei file di dati, in quanto i files con errori potrebbero condurre a risultati non accurati.

La tabulazione univariata e la tabulazione incrociata possono risultare utili per determinare le caratteristiche dei consumatori che con alta probabilità risponderanno alle offerte. La combinazione delle variabili è utile per classificare i consumatori. Tuttavia, anche la correlazione è una tecnica comunemente usata per l’estensione della relazione tra le variabili del database essa, in sostanza fa da guida alle impostazioni delle analisi successive.

Altre tecniche statistiche come la regressione semplice e logistica e l’analisi CHAID sui valori storici, prevedono la risposta che un individuo con determinati attributi potrebbe dare ad una determinata offerta.

Infine sono state affrontate le tecniche da utilizzare per la segmentazione dei

consumatori che combinando le tecniche statistiche del database marketing

realizzano uno schema di segmentazione ottimale.

Riferimenti

Documenti correlati

Scrivere in algebra relazionale una query che restituisce i cognomi dei soci che hanno piu’ di 10 euro di credito, che non hanno preso in prestito un dvd in data

Scrivere in algebra relazionale una query che restituisce l’elenco degli im- piegati con codImpiegato, nome e cognome, che a tutti i progetti cui collaborano, vi collaborano per piu’

Scrivere in algebra relazionale una query che restituisce i dati degli utenti che hanno votato Django ma non hanno votato Pulp

Nel database si vogliono memorizzare i dati riguardanti ogni autore, ovvero nome, cognome e data di nascita, che insieme rendono possibile l’identificazione univoca dell’autore,

Scrivere in algebra relazionale una query che restituisce la cucina delle ricette, con difficolt` a superiore a 4, che non contengono nessun ingrediente di tipo

Per rispondere, leggi le frasi sotto elencate e esprimi una valutazione da 1 a 7, dove 1 significa per niente, 4 moderatamente e 7 moltissimo.

Dai risultati si direbbe che per i consumatori “fedeli” di una marca che viene estesa (che viste le considerazioni di cui sopra, possono anche essere osservati alla luce dei

Clima di fiducia: è elaborato sulla base di nove domande ritenute maggiormente idonee per valutare l’ottimismo/pessimismo dei consumatori (e precisamente: giudizi e