• Non ci sono risultati.

Figura 5.1: Metodologia di classificazione dei clienti

La figura 5.1 mostra in sintesi la prima fase di analisi, vediamo ora come viene affrontato la parte successiva che riguarda l’osservazione dei comportamenti di acquisto nel tempo.

5.2

Adesione al Consumo Italiane nel Tempo

Terminata la fase di classificazione dei clienti in base ai loro acquisti, si attua un’analisi volta ad osservare se nel corso del tempo si ha una evoluzione delle probabilità di cambiamento di acquisto (e quindi di integrazione) da parte dei clienti stranieri. Questa analisi, condotta attraverso l’uso del clustering, porta ad una definizione dei gruppi di clienti omogenei, rispetto all’adesione alle abitudini alimentari italiane. Tali gruppi vengono poi caratterizzati in base all’andamento del trend ISCA, con lo studio delle time series, ed attraverso i valori Shap, rispetto ai prodotti acquistati su cui si è focalizzato il nostro modello.

Clustering. I clienti stranieri vengono partizionati in gruppi (clusters). Ogni cluster è quindi un insieme di clienti stranieri, con i loro acquisti, che presentano tra loro delle similarità, ma che presentano dissimilarità con i clienti stranieri degli altri cluster. Tra gli algoritmi di clustering partizionale, più adatti ai dataset molto grandi come quello che stiamo analizzando, per i quali la costruzione di una struttura gerarchica dei cluster porterebbe a uno sforzo computazionale molto elevato, si è scelto il k-means. Questo algoritmo fornisce la descrizione delle caratteristiche di ogni cluster e quindi degli acquisti fatti dai clienti nell’arco di tempo scelto per la nostra analisi. In figura 5.2 viene mostrata la metodologia seguita nella fase di clustering in cui, i trend del grado di adesione al profilo di

5.2. Adesione al Consumo Italiane nel Tempo

tale, vengono dati in input all’algoritmo di clustering. In output vengono forniti i clusters ossia i gruppi di clienti aggregati in base al loro trend di adesione al profilo di spesa italiano.

Figura 5.2: Fase di clustering

Time series. Effettuata la fase di clustering in gruppi di clienti omogenei, osser- viamo, attraverso l’uso del trend delle serie temporali, se viene ben rappresentato quello che c’è ne cluster ossia l’andamento rappresentativo dell’ adesione al profilo di spesa italiano (ISCA). Oltre all’osservazione del trend, si calcolano attraver- so l’uso della regressione lineare alcuni coefficienti utili alla comprensione delle relazioni che legano il trend ISCA al variare dei mesi. Per comprendere questa relazione sono stati calcolati il valore di slope, intercept e p-value.

Shap. Per comprendere e spiegare meglio la bontà del risultato del modello usato nella fase di classificazione, viene utilizzata la metodologia Shap menzionata nel paragrafo 3.3. Per gli acquisti di ogni mese, effettuati da ogni cliente, vengono calcolati i valori shap che rappresentano i contributi che ogni features ha fornito al risultato prodotto dal modello. Ogni valore Shap, di una determinata features, può essere negativo se quella determinata feature ha influito negativamente sulla classificazione, positivo se ha influito positivamente oppure può assumere valore zero, o vicino allo zero, se ha influito in maniera non decisiva. I valori shap, esposti attraverso opportuni grafici forniscono una chiara comprensione dei risultati del modello.

Capitolo 6

Caso di Studio

Come caso di studio è stato analizzato il dataset proveniente da uno dei più grandi gruppi italiani della distribuzione organizzata, UniCoop Tirreno, in cui vengono venduti prodotti alimentari e non alimentari. Prima di iniziare ad effettuare l’analisi vera e propria, è stato necessario sviluppare una buona comprensione dei dati a disposizione. Spesso i grandi dataset possono presentare discrepanze, mancanza di valori o altre anomalie e quindi la visualizzazione ed il riepilogo dei dati, consentono di controllarne la qualità e offrono le informazioni necessarie per la loro elaborazione. Tutto ciò verrà mostrato in questo capitolo.

6.1

Esplorazione dei Dati

Il dataset contiene gli acquisti effettuati dai clienti tra il 2007 ed il 2016. Al suo interno sono presenti sia attributi categorici come ad esempio il sesso dei clienti, il nome delle categorie dei prodotti acquistati e della località in cui si trovano gli esercizi commerciali, sia attributi numerici. Attraverso l’analisi preliminare effettuata su dati, nel dataset a disposizione non sono stati riscontrati valori mancanti, nulli o altre discrepanze.

Le transazioni dei prodotti acquistati, sono presenti con le relative categorie dei prodotti, quantità, prezzo e date degli acquisti effettuati dai clienti. Visto che i dati relativi agli anni 2007 e 2016 non erano completi per tutti i mesi dell’an- no, è stato ritenuto, per completezza, di concentrare l’analisi sui dati compresi tra gennaio 2008 e dicembre 2015. Ogni cliente è rappresentato da un numero identificativo univoco, dallo stato, dal sesso, dall’età e dall’anno di associazio- ne effettuato attraverso la sottoscrizione di una carta fidelity. Sono presenti in totale 727.898 clienti di cui 25.820 clienti stranieri e 702.078 clienti italiani. In particolare, i clienti stranieri provengono da 159 diversi paesi e nella figura 6.1 è riportato il grafico che riassume il numero dei clienti per le nazionalità con più utenti. I clienti stranieri sono in maggioranza donne, 16.982, di età compresa fra i 45 ed i 50 anni e associati tra il 2000 ed il 2003, mentre i clienti di sesso maschile sono 8.850. Non sono presenti informazioni che ci indicano composizioni fami- liari. La nazionalità con il maggior numero di clienti, come si può osservare dal

6.1. Esplorazione dei Dati

grafico seguente, è la Romania con più di quattromila clienti, seguita da Svizzera, Germania e Albania con meno di duemila clienti.

Figura 6.1: Numero di clienti per nazione

I prodotti presenti nell’intero data set sono 7.868, ciascuno rappresentato da un numero identificativo univoco denominato codice marketing. Tutti i prodotti presenti nel dataset, sono aggregati a più livelli: area, settore, macrosettore, reparto, categoria, sottocategoria e segmento. Per semplicità, tutte le analisi sono state condotte a livello di categoria.

Documenti correlati