Comuni lombardi: un esempio reale di utilizzo dei Big Data

(1)

Comuni lombardi: un esempio reale di utilizzo dei Big Data

Da qualche anno se ne sente parlare, le stime di crescita sono sempre al rialzo, le più grandi società IT nonché quelle di consulenza ne parlano continuamente.

Ma cosa sono i “Big Data”? Siamo sicuri che non sia l’ennesima bolla utilizzata per vendere qualcosa ai clienti? Ma soprattutto, perché tutti ne parlano e nessuno porta esempi concreti, utilizzabili e calabili nel business aziendale?

Andiamo con ordine.

I Big Data esistono, sono utili e la tecnologia odierna permette di creare modelli analitici utilizzabili nei processi aziendali. La tecnologia, però, è una condizione necessaria ma non sufficiente; il suo perfetto complemento sono le skill delle persone che devono utilizzarla per creare i modelli analitici.

In un ieri non troppo lontano erano degli analisti, tendenzialmente nelle aree di marketing o studi &

ricerche. Oggi si richiedono maggiori competenze, maggiore esperienza, conoscenza di processi, curiosità, etc. Hanno anche cambiato nome, si chiamano Data Scientist.

Una bellissima descrizione è stata fatta dai cari amici di Visual Agency (trovate la loro infografica a questo link).

Nel panorama mondiale, al contrario della “cugina business intelligence”, non è ancora chiaro quando e chi abbia coniato questo nome. A noi piace molto quanto dichiarò Eric Schmidt (Google): “ogni due giorni generiamo tante informazioni, quante quelle generate dall’inizio della storia umana fino al 2003”.

Senza tediarvi troppo, poiché il nostro lavoro è analizzare e creare valore per i nostri clienti, vi rimandiamo ad un articolo molto bello del Sole 24 ore, nel quale emergono tutte le potenzialità e contraddizioni dei Big Data (clicca qui).

Excelle crede molto ai Big Data e, a tal proposito, dalla sua fondazione nel 2012, ha una partnership con SAS^®, una delle più grandi e importanti società al mondo quando si parla di analytics.

Ma le collaborazioni non finiscono qui. Grazie a questi accordi stiamo creando da tempo modelli e progettualità Big Data, in particolare con il Gruppo GfK Eurisko e con RE Analytics.

Come?

Ecco un esempio reale.

Nome Progetto: comuni della provincia di Milano – utilizzo di open data e scoring geografici;

Tipologia Progetto: sviluppo di modelli analitici attraverso l’utilizzo di fonti pubbliche;

Team di Progetto: RE Analytics & Excelle;

Applicativi analitici utilizzati: SAS^® Enterprise Guide, SAS^® Enterprise Miner, SAS^® Visual Analytics;

Fonti alimentanti: la fonte principale è il web, con la miriade di dati e indicatori chiave che quotidianamente vengono generati sul territorio e sulle persone che ci abitano.

A questi si aggiungono / integrano dati provenienti dalle classiche fonti istituzionali Open Data, come Istat, Agenzia delle Entrate, etc.

N° Crawler / ETL sviluppati: 100+;

Volume annuale: 1.2 Petabyte (solo per l’Italia);

(2)

Obiettivo generale: creare un indicatore di patrimonialità legato al territorio

Plus vs i normali modelli di geo-marketing: l’address scoring creato è disponibile al singolo numero civico, al contrario di tutti gli altri modelli che si fermano alla cella di censimento.

Plus per il Business: innumerevoli, tra cui:

disponibilità di un indicatore esterno;

disponibilità di un indicatore indipendente rispetto a quanto l’azienda già conosce sul cliente;

indicatore ad altissima correlazione economica;

indicatore utilizzabile per effettuare valutazioni immediate a livello macro (es.: valutare la qualità e bontà, rispetto ai propri fini, di un Database Prospect);

nuovo regressore per modelli già sviluppati in azienda (churn, potenzialità, etc.);

Analisi e risultati: l’indicatore, creato con un centroide a 30km, può essere utilizzato sia nella sua massima granularità (numero civico) che aggregato per altre dimensioni. In questo ambito abbiamo ricalcolato l’indicatore su una nuova dimensione di analisi, il comune.

Con questo espediente potremo utilizzare altri dati demografici o indicatori provenienti da altre fonti.

Dei 134 comuni della provincia di Milano, se escludiamo Milano stessa, è Segrate il comune con il più alto scoring, seguito a pari merito da Cernusco sul Naviglio e Peschiera Borromeo. Maglia nera per Vittuone e Pozzo d’Adda.

(3)

Poco prima si accennava al fatto di utilizzare altri dati demografici o indicatori per trovare nuove informazioni.

Ma dove li troviamo questi dati?

In Italia, da qualche anno, si sta diffondendo il concetto e la cultura degli Open Data, ovvero la raccolta (e relativo storage) di dati la cui fruizione è a beneficio di tutti. Ci sono tanti siti che mettono a disposizione Open Data, tra cui:

• dati.gov.it

• spaghettiopendata.org

• datiopen.it

• e tanti altri

Inoltre, nel 2013, è stato fatto a nostro parere un bellissimo lavoro da parte di Assirm (trovate qui il comunicato stampa) che, in collaborazione con il Prof. Gian Carlo Blangiardo (ordinario di demografia all’Università Bicocca) ha costruito un indicatore di attrattività locale dei comuni italiani (di seguito IAL).

Abbiamo integrato il nostro Database sia con dei dati demografici provenienti da fonti “Open Data” sia con lo IAL calcolato da Assirm per i 22 comuni della cerchia milanese.

Su questi 22 comuni abbiamo riscontrato le seguenti evidenze:

• l’address score e il tasso di disoccupazione sono correlati negativamente; il valore registrato porta ad una moderata correlazione (-0,43). Questa evidenza, da una parte sottolinea la bontà del modello creato, dall’altra apre numerose opportunità di utilizzo futuro;

• l’address score e lo IAL sono correlati positivamente; anche in questo caso abbiamo una moderata correlazione (+0,48);

Nell’immagine sottostante riportiamo una matrice di correlazione tra le principali misure ora presenti nel nostro database socio-demografico comunale.

(4)

Grazie ai Visual Analytics di SAS^®, già a livello visuale, è possibile identificare le diverse correlazioni tra le variabili (forte, moderata, debole).

Ma la correlazione da sola è una evidenza parziale.

Lo step successivo è stato quello di incrociare i due indicatori attraverso un classico grafico a dispersione.

Dall’incrocio emergono sia comuni con un basso indice patrimoniale ma un’alta attrattività locale così come comuni con alto indice patrimoniale ma bassa attrattività locale.

Conclusioni:

(5)

• l’infrastruttura tecnologica, legata al panorama Big Data, ci ha permesso di estrarre, manipolare,

trasformare e normalizzare in modo agevole l’incredibile mole di dati utili per la costruzione dell’address scoring;

• gli applicativi analitici di SAS^®, attraverso la tecnologia “in-memory”, ci hanno permesso di effettuare analisi sia durante la creazione dell’indice che successivamente per validarne la bontà;

• le correlazioni rilevate utilizzando dati provenienti da fonti differenti hanno integrato le analisi di significatività precedentemente fatte sul modello di address scoring;

• le analisi molto semplici che abbiamo effettuato ci hanno portato ad ottenere i risultati sperati, aprendoci possibilità di business futuro;

• i risultati ottenuti ci hanno consentito di condividere ed apprezzare ancor di più il modello concettuale proposto da Assirm in collaborazione dal Prof. Blangiardo, il quale appunto ipotizza che il benessere e il potenziale di sviluppo di un comune trovino adeguata espressione in differenti dinamiche, non solo quelle patrimoniali;

Infine, con questo articolo, abbiamo cercato di tracciare un percorso che coprisse tutto il processo Big Data, dall’estrazione del dato fino ai risultati finali.

L’abbiamo fatto per rispondere a queste semplici domande:

• i Big Data esistono? SI

• la tecnologia odierna permette di utilizzarli ? SI

• si possono costruire modelli analitici tradizionali? SI

• e nuovi modelli? SI

• servono skill particolari? SI

• sono calabili in processi aziendali ? SI

Noi di Excelle, con il Gruppo Ammiroy2k e insieme ai nostri Partner (SAS^®, GFK Eurisko, RE Analytics), siamo a vostra disposizione, sia per modelli semplici, sia per qualcosa di nuovo sul panorama mondiale.

Per qualsiasi informazione: marketing@excelle.it