• Non ci sono risultati.

Risultati della cluster analysis

DISTRIBUZIONE DEL GENERE

4.7.2 Risultati della cluster analysis

È giusto, in questa sede, precisare che cosa si intenda per “cluster analysis” e quali siano i suoi benefici in un’analisi di questo tipo.

Partendo da una popolazione definita di individui si vuole effettuare una segmentazione, un processo attraverso il collettivo viene suddiviso in gruppi di clienti potenziali, definiti segmenti di mercato, tali che: i gruppi siano costituiti da individui omogenei al loro interno e disomogenei tra loro; che gli individui che appartengono allo stesso segmento siano caratterizzati da funzioni di domanda il più possibile simili tra loro; che la possibilità di individuare segmenti omogenei consente di indirizzare specifiche politiche di marketing.

La segmentazione può essere realizzata a priori, ovvero in base a criteri e informazioni già disponibili, oppure a posteriori. In quest’ultima, i segmenti, o gruppi, sono determinati in seguito all’applicazione di opportune tecniche di analisi. Oltre alla segmentazione per obiettivi con i modelli di regressione, vi è la segmentazione per omogeneità con, appunto, l’analisi dei gruppi o cluster

105

analysis. In una segmentazione per omogeneità i clienti vengono suddivisi in

gruppi omogenei in base alla loro similarità rispetto ad una serie di caratteristiche: socio-demografiche; psicografiche; bisogni o benefici ricercati; comportamenti d’uso e di acquisto. Dopo di che si individua il profilo del segmento, ovvero, descrivendo le caratteristiche di ciascun gruppo, si riconosce un “normotipo” che rappresenta il soggetto “tipico” del segmento.

Nella pratica, l’analisi dei gruppi, a partire da un insieme di n unità, consente di ricercare ed identificare, se esiste, un numero g limitato di gruppi (g << n) costituiti da elementi il più possibile simili tra di loro.

Esistono diverse tipologie di analisi dei gruppi, suddivisi prevalentemente tra metodi gerarchici e non gerarchici.

Per l’analisi in questione è stato scelto un metodo non gerarchico, il “metodo delle k-medie”, in quanto particolarmente adatto in situazioni in cui le unità sono molto numerose (come nel nostro caso).

Andiamo ad osservare i risultati.

Per prima cosa, anche in questa fase, è stato necessario preparare il database affinché le variabili fossero in grado di spiegare nel modo migliore il proprio contenuto.

Dopo di che, tale database, prontamente formattato, è stato importato da Excel ad un software di analisi statistica denominato “STATA”. Si tratta di una piattaforma che permette, tra le tante opzioni, anche analisi multivariate, tra le quali, appunto, la cluster analysis.

Il metodo delle k-medie prevede di scegliere a priori il numero di gruppi della partizione che si vuole creare. Utilizzando l’indice di determinazione R2

è stato possibile verificare quale fosse la numerosità dei gruppi migliore, tale da minimizzare il trade-off tra sintesi e omogeneità delle unità comprese all’interno

106

del gruppo. Con un numero inferiore di gruppi si ottiene una classificazione più sintetica ma si deve pagare un prezzo in termini di maggiore variabilità nei gruppi; aumentando il numero dei gruppi la classificazione è meno sintetica ma caratterizzata da una maggiore omogeneità nei i gruppi. Il cluster formato da 4 gruppi presenta un valore abbastanza elevato di R2 pari a 0.6915 riuscendo a creare una significativa omogeneità interna e una sufficiente sintesi della clientela.

Come prima cosa descriviamo come si sono formati i 4 cluster ottenuti.

Di seguito sarà presentata una tabella molto esplicativa (tabella 4), che mette in confronto alcune variabili, come il genere, l’età e il numero di corse effettuate all’intero di ogni gruppo. In Appendice 1 (pagina 122) sarà presentato il prospetto completo di tutte le variabili osservate.

Tabella 4 – Distribuzioni per genere, età e numero di corse dei 5 cluster ottenuti.

Dal confronto si evidenziano già molte caratteristiche differenzianti. Infatti il

cluster 1 composto dal 44% degli utenti, il gruppo più popoloso, ha anche la

percentuale più alta di pubblico femminile (38%) e complessivamente ha un’età media di 27 anni, tuttavia realizza solo il 18% dei viaggi totali.

15

Il valore di R2 (coefficiente di determinazione) varia tra 0 e 1, dove con R2 = 0 si

hanno cluster che non spiegano per niente la composizione del database, mentre per R2

= 1 si ha una perfetta significatività dei gruppi, ovvero i gruppi spiegano molto bene le differenze interne alla popolazione.

107

Il cluster 4 è quello più esiguo in numero di componenti (10%), eppure totalizza, complessivamente, il 49,5% delle corse registrate, pertanto la metà dei viaggi sono stati realizzati solo dal 10% della popolazione. Inoltre, è il gruppo con il maggior numero di corse medie per utente, 82 corse.

Il secondo gruppo a realizzare il maggior numero di corse dopo il gruppo 4 è il cluster 2, dove il 16% della popolazione compie il 24% dei viaggi, con ben 25 corse per utente in media.

Un utilizzo differente del servizio si osserva, invece, per il cluster 3, dove il 29% degli utenti realizza soltanto il 9% dei viaggi complessivi. Inoltre tale gruppo ha la percentuale più elevata di utenti maschi (76%) e un’età media superiore rispetto agli altri gruppi, 52 anni. Tale segmento è composto dal 30% degli utenti ma realizza soltanto l’11% delle corse.

Di seguito, in figura 40, si mostra l’andamento generale dell’età media tra i gruppi.

Figura 40 – Distribuzione dell’età media di ogni gruppo.

27 36 52 39 0 10 20 30 40 50 60

Cluster 1 Cluster 2 Cluster 3 Cluster 4

108

Successivamente, invece, si presenta la distribuzione del genere nei differenti gruppi analizzati (figura 41).

Figura 41 – Distribuzioni del genere nei vari gruppi.

Infine, in figura 42, presentiamo le percentuali dei consumatori in rapporto al numero dei viaggi totalizzati in ogni gruppo.

Figura 42 – Confronto tra il numero di utenti e il numero di viaggi per ogni cluster.

62 ,1% 67 ,9% 76 ,0% 68 ,3% 37 ,9% 32 ,1% 24 ,0% 31 ,7% C L U S T E R 1 C L U S T E R 2 C L U S T E R 3 C L U S T E R 4 Maschi Femmine 44,2% 16,2% 29,6% 10,0% 16,3% 24,4% 9,8% 49,5%

Cluster 1 Cluster 2 Cluster 3 Cluster 4

109

Si osservi di seguito come reagiscono i cluster al variare del periodo mensile di utilizzo (figura 43).

Figura 43 – Distribuzione dei viaggi nei periodi dell’anno

Dal grafico si nota un maggior utilizzo nei mesi primaverili ed estivi dovuto al fatto che l’osservazione dei dati per l’anno corrente si è fermata a fine agosto, quindi i dati relativi ai mesi autunnali e invernali riguardano esclusivamente l’anno 2015. In autunno tutti i cluster presentano valori più bassi, soprattutto il

gruppo 4 (ricordiamo che questo realizza da solo quasi il 50% dei viaggi). Per il gruppo 3 l’andamento rimane più equilibrano nello scorrere dei mesi.

Le prossime figure (figure 44 e 45) permettono una visione proporzionata al numero di viaggi realizzato da ogni cluster. Infatti sono state calcolate le percentuali tra i viaggi compiuti in un dato periodo, come possa essere la primavera, e il totale dei viaggi fatti da uno specifico cluster. In questo modo è possibile osservare come si sono distribuiti i viaggi di un gruppo nei periodi

0 10000 20000 30000 40000 50000 60000 70000

Primavera Estate Autunno Inverno

110

osservati. Inoltre, è stato osservato come variano tali percentuali dalla proporzione di viaggi a livello complessivo nei medesimi periodi. Allo 0%, pertanto, si osserva nessun cambiamento rispetto all’andamento generale nei differenti periodi.

Figura 44 - Grafico a radar per descrivere il differente utilizzo percentuale nelle stagioni

Dal grafico a radar si coglie immediatamente la propensione di utilizzo di un gruppo in particolare. Il cluster 1 distribuisce le proprie corse a favore del periodo estivo rispetto a quanto non sia fatto a livello complessivo. Infatti, in percentuale utilizzano il servizio molto di più in estate con un incremento del 6% rispetto rispetto alla percentuale dei viaggi in estete se non si differenzia l’utenza in gruppi.

Nel mese autunnali e invernali sono, rispettivamente, i cluster 2 e 3 a mostrare una maggiore propensione all’utilizzo a differenza degli altri gruppi, mentre il

gruppo 4 evidenzia un incremento nei mesi invernali. La figura 45, rappresenta

la medesima distribuzione ma riesce a mettere meglio in luce anche i cambiamenti più lievi.

-6,0% -4,0% -2,0% 0,0% 2,0% 4,0% 6,0%Primavera Estate Autunno Inverno

111

Figura 45 – Confronto delle variazioni dei viaggi nell’utilizzo stagionale tra i diversi gruppi

Dall’osservazione del presente grafico si nota, oltre alla forte propensione all’utilizzo estivo per il gruppo 1, il segmento 2 mostra variazioni positive in corrispondenza del periodo autunnale, mentre il 3 un maggiore utilizzo costante in estate autunno e inverno. Il cluster 4, invece, ha una maggiore propensione all’utilizzo, rispetto alla media, nei mesi più freddi ed una minore nell’estete. Da notare, inoltre, il decremento di utilizzo del servizio per il cluster 1 nella stagione invernale, raggiungendo una variazione negativa pari al -6%.

Esaminiamo adesso quali differenze scaturiscono tra i gruppi in base al numero di viaggi nei giorni della settimana. Il primo prospetto offerto (figura 46), confronta sullo stesso piano i mutamenti nell’utilizzo del servizio nei giorni della settimana da parte dei vari gruppi.

-6,0% -4,0% -2,0% 0,0% 2,0% 4,0% 6,0% 8,0%

Primavera Estate Autunno Inverno

112

Figura 46 - Distribuzione dell'utilizzo nei giorni della settimana tra i gruppi

Oltre ai mutamenti dei singoli cluster al variare del giorno della settimana, si notano anche quali sono i cluster dove si registrano più viaggi. Infatti il cluster 4 mostra il suo andamento in una fascia molto più elevata del grafico. I cluster 1 e

2 (più lievemente), hanno una tendenza sempre crescente allo scorrere dei giorni

della settimana, mentre i gruppi 3 e 4 osservano un andamento prima crescente fino a metà settimana per poi iniziare a decrescere.

Di seguito si osservino le variazioni tra la percentuale di viaggi di uno specifico cluster in un giorno della settimana e la percentuale di viaggi di tale giorno da parte di tutta la popolazione. Questo ci permette di notare eventuali mutamenti nella distribuzione dei viaggi da parte degli utenti all’interno di un preciso cluster rispetto all’andamento generale. È come se disegnassi in corrispondenza delle percentuali generali una linea di riferimento, dalla quale si notano le variazioni

0 5000 10000 15000 20000 25000 30000

Lunedì Martedì Mercoledì Giovedì Venerdì Sabato Domenica

113

positive o negative rispetto a tale riferimento. Non tiene conto del numero dei viaggi svolti ma dell’incremento o decremento nei periodi in confronto con gli altri cluster. Si osservi la figura 47.

Figura 47 – Confronto delle variazioni nei viaggi tra i giorni della settimana, nei vari cluster.

Dal confronto, si nota una spiccata propensione per il cluster 1 per un utilizzo del servizio nei giorni del fine settimana. Un andamento simile è registrato anche dal

gruppo 2 anche se con una incidenza minore. Gli altri 2 gruppi, con lievi

differenze, presentano una maggiore propensione per i gironi infrasettimanali. Tendenzialmente, si osserva nel giorno di venerdì l’incontro tra due generali andamenti. Infatti generalmente i gruppi 1 e 2 hanno un andamento crescente intersecando l’asse delle ascisse in corrispondenza del “venerdì”, mentre i gruppi

3 e 4 mostrano una tendenza decrescente. Il cluster 4 presenta un andamento

equilibrato nei giorni infrasettimanali mentre la tendenza del gruppo 3 evidenzia -3,0% -2,0% -1,0% 0,0% 1,0% 2,0% 3,0% 4,0% 5,0%

Lunedì Martedì Mercoledì Giovedì Venerdì Sabato Domenica

114

una maggiore propensione per i giorni a metà settimana rispetto all’andamento generale. (martedì, mercoledì e giovedì).

Di seguito, in figura 48, un confronto diretto tra gli utilizzi infrasettimanali con quelli del fine settimana.

Figura 48 – Confronto diretto tra gruppi per l’utilizzo infrasettimanale e nel weekend.

Dal grafico in figura 48, si ha la conferma che il gruppo 1 ha un’elevata propensione per i giorni del fine settimana rispetto all’andamento generale. Si registra inoltre un incremento dell’1% per il gruppo 2 in favore del weekend, mentre per quanto riguarda gli altri segmenti vi è una maggiore propensione per i giorni infrasettimanali, con ben il 2,5% di variazione positiva per il cluster 4.

È il momento di conoscere i risultati riguardo le fasce orarie di partenza. In

figura 49, la distribuzione dei cluster osservati.

-7,0% -1,0% 1,3% 2,5% 7,0% 1,0% -1,3% -2,5% -8,0% -6,0% -4,0% -2,0% 0,0% 2,0% 4,0% 6,0% 8,0%

Cluster 1 Cluster 2 Cluster 3 Cluster 4

115

Figura 49 – Distribuzione dei viaggi in base alla fascia oraria.

La figura 49 mette in chiara luce quali siano le classi orarie con una maggior numero di viaggi. Escluso il cluster 1 che ha una forte propensione per la fascia oraria dalle 21:00 alle 02:00, gli altri gruppi preferiscono viaggiare nella fascia oraria che va dalle 17:00 alle 21:00, mantenendo, comunque livelli elevati di utilizzo anche nella successiva classe. Il cluster 3 è l’unico che, nelle fasce orarie serali, ha valori molto inferiori rispetto agli orari mattutini. Il cluster 4 presenta addirittura circa 11.000 viaggi in più nella fascia tardo pomeridiana rispetto a a quella serale.

Se tralasciamo la numerosità dei viaggi all’interno di ogni cluster e osserviamo i valori relativi è possibile mostrare sullo stesso piano quali fasce orarie sono state preferite dai differenti gruppi, si osservi la figura 50.

0 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 07:00 - 10:00 10:00 - 13:00 13:00 - 17:00 17:00 - 21:00 21:00 - 02:00 02:00 - 07:00

116

Figura 50 – Distribuzione percentuale dei viaggi, nelle fasce orarie, per ogni cluster.

Immediatamente si nota la differente distribuzione dei viaggi da parte dei cluster 1 e 3 in particolare, dove in percentuale realizzano il maggior numero di viaggi, rispettivamente, nelle fasce “17:00 – 21:00” e “21:00 – 02:00”.

Di seguito si osservi la figura 51, dove si mostra la variazione tra la percentuale di viaggi di uno specifico cluster in una fascia oraria e la percentuale di viaggi realizzati in tale classe oraria da parte di tutta la popolazione.

0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 07:00 - 10:00 10:00 - 13:00 13:00 - 17:00 17:00 - 21:00 21:00 - 02:00 02:00 - 07:00

117

Figura 51 – Distribuzione percentuale dei viaggi in base alla fascia oraria, nei vari cluster.

Anche con questa rappresentazione, si osservano andamenti differenti tra i vari

cluster. Primi fra tutti sono i cluster 1 e 3, come si osservava precedentemente. Il gruppo 1 presenta un andamento crescente nell’utilizzo del servizio, con

variazioni negative nelle ore di luce e variazioni positive soprattutto nella fascia oraria serale. Il segmento 3, invece, offre un andamento completamente opposto, con una maggiore incidenza di viaggi nelle ore odierne a svantaggio delle fasce orarie notturne. Gli altri 2 cluster presentano un andamento in linea con le percentuali generali16 con una maggiore propensione per la fasica serale da parte del gruppo 2, mentre il gruppo 4 in tale fascia presenta una variazione negativa. Se osserviamola distribuzione dei viaggi nelle fasce orarie presentate, esclusivamente per le corse registrate nel weekend, si osserva una rappresentazione grafica come la seguente, in figura 52.

16

Con percentuale generale si intende, la proporzione tra il numero di viaggi di una fascia oraria sul totale dei viaggi, senza distinzione di cluster.

-10,0% -8,0% -6,0% -4,0% -2,0% 0,0% 2,0% 4,0% 6,0% 8,0% 10,0% 07:00 - 10:00 10:00 - 13:00 13:00 - 17:00 17:00 - 21:00 21:00 - 02:00 02:00 - 07:00

118

Figura 52 – Distribuzione percentuale dei viaggi nelle fasce orarie esclusivamente pe le corse registrate nel weekend,

In maniera distinta, si osserva l’elevato utilizzo, percentuale, del servizio da parte del cluster 1 nella fascia oraria “21:00 – 02:00”. Generalmente si evidenzia una tendenza simile per i giorni del fine settimana dove gli utenti dei diversi cluster prediligono viaggiare nella suddetta fascia oraria, tranne il gruppo 3 che mostra una maggiore propensione anche nel weekend per la fascia oraria tardo pomeridiana.

Osserviamo adesso, la distribuzione del numero di viaggi di ogni cluster in base alle fasce di durata (figura 53).

0,0% 2,0% 4,0% 6,0% 8,0% 10,0% 12,0% 14,0% 07:00 - 10:00 10:00 - 13:00 13:00 - 17:00 17:00 - 21:00 21:00 - 02:00 02:00 - 07:00

119

Figura 53 – Distribuzione del numero di viaggi nelle fasce di durata.

Dalla rappresentazione grafica, si osserva tra i gruppi un andamento prevalentemente simile, con molte più corse, nelle due fasce che vanno dai 5 minuti a 30 minuti. Nel dettaglio si osserva che i cluster 2, e 4 raggiungono l’apice del numero di viaggi nella fascia “5 – 15 minuti”, mentre gli altri 2 gruppi mantengono quote elevate sia per la fascia “5 – 15 minuti” che per la successiva “15 – 30 minuti”.

Di seguito, in figura 54, si presenta un altro grafico che descrive la stessa situazione ma permette di cogliere le differenze all’interno di ogni cluster, poiché si descrivono le variazioni tra la percentuale di viaggi di uno specifico cluster in una fascia di durata e la percentuale di viaggi realizzati in tale classe da parte di tutta la popolazione. Questo ci consente di osservare quanto gli utenti di ogni cluster preferiscono viaggiare rispetto all’andamento medio generale17.

17

Trattasi della percentuale generare calcolata come rapporto tra il numero di viaggi in una fascia e il totale di viaggi di tutti gli utenti senza distinzioni di cluster. Tali valori si trovano nel grafico, in figura 53, a livello dello 0%, indicando che non sussistono variazioni dall’andamento generale, appunto.

0 10000 20000 30000 40000 50000 60000 70000 80000

0 - 5 min 5 - 15 min 15 - 30 min 30 - 60 min oltre 60 min

120

Figura 54 – Distribuzione percentuale dei viaggi in base alle fasce di durata.

Si nota un andamento tendenzialmente opposto tra quello dei gruppi 1 e 3 ed il

quarto gruppo, dove i primi due mostrano variazioni positive rispetto

all’andamento generale, nelle fasce di durata dai 15 minuti e oltre, mentre il

cluster 4 presenta una maggiore propensione per le fasce di minore durata. Il cluster 2, non mostra notevoli differenze dall’andamento generale.

Di seguito, in figura 55, si osservino le variazioni dalle percentuali generali calcolate esclusivamente per le corse registrate nel weekend.

-8,0% -6,0% -4,0% -2,0% 0,0% 2,0% 4,0% 6,0%

0 - 5 min 5 - 15 min 15 - 30 min 30 - 60 min oltre 60 min

121

Figura 55 – Distribuzione percentuale dei viaggi nelle fasce di durata, realizzati esclusivamente nel weekend.

Nel weekend18 come già avevamo analizzato è il cluster 1 a prevalere per numero di corse a livello percentuale, qua a differenze della distribuzione generale, dove si studiavano tutti i giorni della settimana, si osserva una notevole propensione per il cluster 1 per viaggi di durata tra i 15 e i 30 minuti. Con andamento opposto si propone il cluster 4 dove si registra una variazione negativa in corrispondenza della suddetta fascia.

18

L’osservazione riguardante le durate dei viaggi esclusivamente per I giorni infrasettimanali non è stata presentata poichè l’andamento ricorda molto quello generale. -3,0% -2,0% -1,0% 0,0% 1,0% 2,0% 3,0% 4,0% 5,0%

0 - 5 min 5 - 15 min 15 - 30 min 30 - 60 min oltre 60 min

123

CONCLUSIONI

______________________________________________________________________

Per concludere il presente lavoro di tesi, faccio riferimento alle domande di ricerca (research question) poste dalla commissione, per valutarne l’esito.

Di seguito sono riproposte le domande con le risposte relative.

1. Conoscere la clientela: si vuole sapere chi sono le persone che s’iscrivono al servizio di car sharing della società, conoscere la composizione della clientela;

Dai risultati è emerso che gli utilizzatori del servizio sono in prevalenza uomini (67%) di età compresa tra i 22 e i 35 anni. Le donne mantengono le stesse distribuzioni di età ma sono in numero inferiore.

Il 73% degli utenti è iscritto al servizio per la città di Milano. L’elevata percentuale è dovuta in parte al maggior numero di auto presenti sul territorio e in parte perché l’avvio dell’attività è avvenuto diversi mesi prima rispetto alle altre città.

Circa il 45% degli iscritti, non ha mai provato le auto in condivisione e tra coloro che, invece, hanno iniziato ad utilizzarle sono più del 40% quelli che hanno fatto meno di 5 corse, e ciò significa che, esclusi pochi utenti che hanno saputo apprezzare i vantaggi di questo servizio, la maggior parte non risulta particolarmente interessata.

Riguardo al comportamento degli utenti, ovvero come questi utilizzano il servizio sono emerse parecchie informazioni.

I clienti di Share’ngo hanno utilizzato il servizio maggiormente nei mesi primaverili (40%), seguono i mesi estivi (30%) e quelli invernali (19%).

124

Inoltre si è osservato che sono i soggetti minori di 35 anni a viaggiare più spesso nei mesi da marzo a settembre, mentre i viaggiatori over 35 presentano percentuale più alte nei mesi autunnali e invernali.

Relativamente all’utilizzo rispetto ai giorni della settimana, si è osservato un incremento della propensione all’uso dal lunedì fino al venerdì che decresce nel weekend, infatti i giorni che presentano il maggior numero di corse sono il mercoledì, il giovedì e il venerdì.

Nel corso della giornata i viaggi più frequenti si registrano tra le 17:00 e le 21:00, essendo la fascia oraria in cui si è più liberi dagli impegni lavorativi. Inoltre la fascia oraria serale dalle 21:00 alle 02:00, che è la seconda classe come frequenza di utilizzo, mostra un’elevata presenza di giovani al di sotto dei 35 anni, in particolar modo nel weekend.

Si precisa che nella città di Firenze l’utilizzo in percentuale nella fascia 13:00 – 17:00 è superiore rispetto alle altre due città prese in esame, a causa di un elevato utilizzo del servizio da parte degli utenti di età maggiore ai 35 anni, mentre nella successiva fascia dalle 17:00 alle 21:00 è Roma a primeggiare, sempre in favore di utenti over 35; infine Milano registra quote più elevate di utilizzo nella fascia serale (21:00 – 02:00) causati da utilizzi frequenti da parte di clienti con età inferiore ai 35 anni. Analizzando la durata dei singoli viaggi degli utenti ne emerge che la fascia di durata prevalente è quella che va tra i 5 e i 15 minuti (41,7%). Tuttavia, ampliando il range, la maggior parte degli utenti utilizza l’auto tra i 5 e i 30 minuti (74,7%). Le percentuali si ripartiscono diversamente se si osservano distintamente le tre città, infatti Firenze registra percentuali più elevate per la fascia medio bassa (5 -15 minuti) mentre gli utenti romani, in proporzione compiono viaggi più lunghi rispetto agli altri

Documenti correlati