• Non ci sono risultati.

Considerazioni metodologiche sulla segmentazione

Considerazioni conclusive

CAPITOLO 3. SULLA SEGMENTAZIONE

3.7 Considerazioni metodologiche sulla segmentazione

Nel capitolo 2 abbiamo visto le diverse tipologie di modelli possibili appli- cando le tecniche di DM.

Restringendo ora il raggio d’azione, focalizzeremo l’attenzione sul pro- blema della segmentazione, per il quale il DM offre due classiche metodo- logie di risoluzione: il clustering e gli alberi di decisione.

Il clustering raggruppa i clienti in base a relazioni di distanza definite dall’analista (i clienti in un gruppo sono simili fra loro e dissimili rispetto a quelli degli altri gruppi), mentre un albero di decisione li raggruppa in base a criteri che spiegano al meglio il valore che per ogni cliente ha una certa funzione obiettivo (ad es. crea un gruppo di uomini e uno di donne perché il genere aiuta efficacemente a spiegare il comportamento di acquisto).

Il clustering fornisce risultati non direttamente esprimibili, di non agevole comprensione e che devono essere interpretati.

Gli alberi di decisione, invece, danno un risultato più comprensibile, per- ché espresso in termini di valori degli attributi dei clienti, più o meno in termini di una interrogazione (query) al DB dei clienti.

Entrambi i metodi raggruppano i clienti in insiemi omogenei: i cluster so- no omogenei rispetto ad attributi che dovrebbero, secondo l’analista, de- terminare il comportamento dei clienti; le classi degli alberi rispetto alla funzione criterio.

I cluster si formano provando dei raggruppamenti naturali degli elementi di dati, basati su considerazioni di prossimità, che non sono quindi pre- specificati, ma vengono determinati in base ai dati stessi. Gli alberi di clas- sificazione, invece, fanno riferimento alla mappatura di un elemento su cui esistono dei dati (nel nostro caso, il cliente), in una delle tante categorie

predefinite, rispetto ad un determinato fenomeno: è questo che distingue le strategie non supervisionate e da quelle supervisionate.

Esiste infatti una sostanziale differenza, che è opportuno chiarire, tra le tecniche di classificazione e le tecniche di clustering. Tramite la classifica- zione l’utente comunica al tool di DM la caratteristica chiave, di cui i mem- bri del gruppo devono essere dotati, e il tool non si occupa di nessun altro attributo che i membri del gruppo possono avere in comune.

In altre parole, nella classificazione esiste un attributo madre (la variabile classe o target), il cui numero di modalità rappresenterà il numero dei gruppi che si verranno a formare (questo attributo madre è appunto la classe di appartenenza). Va notato, però, che due records appartenenti al medesimo gruppo in un processo di classificazione possono in realtà essere fortemente diversi fra loro. Tale diversità è legata al fatto che il tool di DM ignora gli attributi al di fuori della classe di appartenenza.

Nel clustering, invece, non esiste un numero di gruppi prefissato. In tal caso il tool di DM crea dei gruppi sulla base di tutti gli attributi presenti nel DB, in modo che ogni gruppo sia caratterizzato da elementi “simili” in ter- mini degli attributi descritti nel DB e che due elementi appartenenti a grup- pi diversi siano sufficientemente “distanti tra di loro”, dove per distanza abbiamo già visto al par. 3.4 cosa s’intenda.

In realtà, poiché il cluster può anche essere visto come una forma di clas- sificazione in cui gli oggetti vengono etichettati in base all’etichetta del clu- ster d’appartenenza, nel DM, la cluster analysis viene anche riferita come classificazione non supervisionata, in contrasto con la classificazione super- visionata.

I cluster possono essere utili per la predizione, ma non nascono con il preciso scopo di predire, come accade con le tecniche di regressione e an- che di classificazione.

Piuttosto, il clustering ha l’intento di aiutare a capire che esistono dei gruppi non casuali, che mostrano certe regolarità, che condividono certe caratteristiche, che spontaneamente si presentano come entità compatte, con un loro profilo.

Oltre a queste due tecniche, si possono usare le molte tecniche di classifi- cazione e quelle di regressione. Con una tecnica di classificazione abbiamo detto che un cliente viene assegnato ad una classe in base al valore di una funzione discriminante, appresa dai dati stessi; con una tecnica di regres-

sione, invece, si predice il valore ignoto di una certa funzione per un cliente per analogia al valore noto di quella funzione per altri clienti.

La nostra formulazione dei problemi di segmentazione (come problema di ottimizzazione) richiama in modo naturale concetti simili a questi. Quello su cui abbiamo posto l’attenzione non è tanto l’aspetto algoritmico della for- mulazione, cioè complessità, possibilità di approssimazione ecc.., quanto il fatto che la suddivisione in gruppi è esplicitamente guidata da una funzione di utilità economica, e questa dipende dalle decisioni di marketing che è possibile prendere.

Il classico approccio alla segmentazione, tipicamente con il clustering, usa le funzioni obiettivo di tipo economico prima della segmentazione, nella scelta delle variabili da considerare, e dopo, nell’interpretazione dei risulta- ti, ma non durante il processo stesso e comunque in modo non esplicito e formale.

Esistono metodi di clustering guidati da funzioni obiettivo, ma sono orien- tati a criteri matematici, per esempio fondati sulla teoria dell’informazione, più che su criteri decisionali, quindi economici e di marketing.

Dalla letteratura e dalla pratica si evince l’evidenza che per mettere ve- ramente all’opera il DM nei processi decisionali, secondo la logica di chi in azienda prende le decisioni, sarebbe di grande beneficio trovare metodi per incorporare negli algoritmi di DM i criteri decisionali, affinché l’intero pro- cesso di analisi e di estrazione della conoscenza ne possa beneficiare.