CAPITOLO 1: INTRODUZIONE

(1)

CAPITOLO 1: INTRODUZIONE

La forte concorrenza che caratterizza il settore degli Internet Services Provider, pur essendo parte di una realtà ai limiti del monopolio, impone, ad una azienda di dimensioni medio piccole come la CWNet, investimenti pubblicitari che sfruttino nella maniera più efficace possibile i canali di informazione legati ad internet, come riviste e siti specializzati, e che escluda, nello stesso tempo, i grossi ed onerosi media tradizionali, quali televisioni, radio. Si parla di situazione al limite del monopolio dal momento che parte dell'infrastruttura fisica sulla quale si basa il core business di CWNet risulta essere di proprietà di un unico soggetto che, rivendendo all'ingrosso, impone politiche di prezzo per tutte le aziende del settore. Da questo contesto nasce l'esigenza di effettuare scelte che consentano all'azienda di crearsi una nicchia di mercato dove possa risultare competitiva e dove, oltre al prodotto stesso, l'efficenza organizzativa, la qualità dei servizi correlati e la cura verso il consumatore vengano poste al centro della ragion d'essere. Per venire incontro ad alcune di queste problematiche si è cercato di studiare un sistema che consentisse di verificare la reale

efficacia degli investimenti pubblicitari e che costituisse un valido supporto per le decisioni inerenti le strategie commerciali legate ai servizi offerti.

Prima di questo studio, il sistema esistente su cui l'azienda faceva leva era, per alcuni aspetti, abbastanza semplice: gli strumenti di gestione e controllo adoperati, basati su tecnologie nate per scopi differenti, consistevano nella creazione di report operativi e dettagliati relativi a singole operazioni o aree. I riepiloghi delle operazioni erano permessi, ma spesso ad un grado di dettaglio elevato e con l'impossibilità di cambiare la granularità dell'analisi o di scegliere, di volta in volta, gli elementi da osservare. Il sistema, inoltre, per quanto riguarda le specifiche funzionalità

analizzate in questa tesi, non consentiva il confronto tra i dati storici e quelli attuali, rendendo, di fatto, impossibile eventuali verifiche degli andamenti e scostamenti. L'implementazione del nuova sistema è servita per cambiare la metodologia di analisi di questi dati: si è così passati da un’attività di controllo, intesa come misurazione passiva dei risultati per la valutazione degli obiettivi, ad una attività più complessa che, integrata con la precedente, permettesse l'identificazione di nozioni utili per individuare i fattori critici per il miglioramento e la gestione delle performance. Grazie al contributo fornito dal nuovo sistema informativo, i dati provenienti dai sistemi transazionali sono stati trasformati in informazioni di sintesi; l'utilizzo di strumenti software appropriati ha consentito un approccio più semplice, interattivo e personalizzabile dell'informazione. Poter modificare la presentazione dei risultati storici ottenuti osservando i processi aziendali, il fatturato, le campagne promozionali e la distribuzione dei prodotti ha offerto un nuovo punto di vista per i manager interessati a valutare i risultati ottenuti in relazione alle pianificazioni strategiche. La conoscenza e la comprensione della propria storia facilita la pianificazione di strategie future, aiuta a prevedere e risolvere eventuali scostamenti e consente di ottimizzare i propri processi aziendali.

Riuscire ad ottenere un approccio analitico, basato anche su modelli matematici, che potesse fornire la probabilità di anticipare il futuro date certe condizioni, era uno degli obiettivi principali del progetto.

Le fasi del progetto e le metodologie adottate

Lo studio affrontato è suddiviso in tre sezioni: nella prima parte si applicano le tecniche di Data Warehousing sui processi interni all'azienda per migliorare il supporto alle decisioni; nella seconda e nella terza parte, partendo da tecniche analitiche simili, basate su data mining, si cercherà di studiare il comportamento del consumatore per quel che riguarda le abitudini di acquisto e le

(2)

modalità di accesso e navigazione del sito web.

Le problematiche legate alla prima parte del progetto sono state principalmente di tipo conoscitivo, legate, cioè, alla comprensione del problema di business per i dati storici forniti dall'azienda. Una volta analizzati i dati e formalizzati gli obiettivi si è studiata la metodologia con cui vengono gestite le campagne promozionali, in particolare è stato necessario comprenderne la creazione, il

funzionamento e la logica che ne stava alla base. Lo scopo principale era riuscire a creare uno strumento che consentisse un'analisi multidimensionale dello storico delle campagne per poter vedere, cambiando il punto di vista, in quale quantità, con quale mezzo, con quali investimenti ed attraverso quali canali, queste avessero portato, nel corso degli anni, benefici economici o perdite. Data la difficoltà di rapportare l'acquisto di un prodotto o la registrazione di un utente ad una specifica campagna pubblicitaria, avvenuta in tempo antecedente all'evento osservato, è stato necessario prendere atto dei sistemi di tracciamento con cui l'azienda gestiva questa problematica. La combinazione derivante dall'uso di cookie, sessioni utente e database ha richiesto un discreto sforzo di adattamento dell'infrastruttura originale, creata con linguaggi di programmazione

imperativi e transazionali, verso l'infrastruttura con la quale sono state poi successivamente svolte le analisi.

Come accennato in precedenza, per svolgere la prima parte della tesi si è adoperato un Data

Warehouse per via della sua naturale predisposizione al tipo di analisi che si sarebbero effettuate. Il Data Warehouse, infatti, raccoglie informazioni provenienti dalle basi di dati transazionali, e, dopo una adeguata riorganizzazione, crea da essi informazioni di sintesi utili per il supporto alle

decisioni. Per la consultazione e l'interrogazione di questi dati vengono adoperati strumenti di reporting e di analisi OLAP. Il software adoperato per importare e gestire la base di dati è Microsoft SQL Server; per la creazione dei cubi multidimensionali si è usato Microsoft Analysis Services mentre per l'interrogazione di questi si è sfruttata l'interfaccia grafica di Miscrosoft Data Analyzer, ritenuta più idonea per rappresentare le informazioni ottenute.

I risultati ottenuti sono stati in certi casi ovvi mentre in altri casi hanno arricchito il bagaglio di conoscenze dell'azienda; questi risultati sono stati analizzati e discussi nel capitolo 4.

La seconda fase della progetto formativo mira a verificare l'esistenza di correlazioni tra gli acquisti effettuati nel negozio virtuale dell'azienda. Lo scopo ultimo di questa ricerca è quello di creare strategie di vendita basate su sistemi, detti recommendation system, che, basandosi sullo storico degli acquisti, potessero suggerire all'utente un prodotto, o servizio, attinente con quanto appena acquistato. Questo sistema, ormai diffusamente adottato nei più grandi siti web di e-commerce, permette di raggiungere diversi obiettivi: se da una parte il suggerimento automatico consente un aiuto per l'utente che viene guidato nella scelta di prodotti inerenti a quello scelto, dall'altra consente di spingere l'utente ad andare oltre l'acquisto del singolo servizio, invitandolo ad

acquistare altro. In questo modo l'azienda riesce a trasmettere un maggior senso di attenzione nei riguardi del consumatore, e, nel contempo, riesce ad incrementare i profitti. In un mercato molto concorrenziale come quello di cui fa parte CWNet, l'attenzione per il cliente ed i servizi correlati che possono dare valore aggiunto al prodotto sono elementi fondamentali per poter sopravvivere e per sperare di crescere.

Per affrontare questa parte di progetto, preso atto della natura del problema, basata su analisi relative ai dati storici inerenti la composizione degli ordini, si è fatto uso delle tecniche di Data Mining. Il termine indica l'attività di estrazione tipica dei minatori ed è stato scelto per l'analogia concettuale: il Data Mining, infatti, è una tipica applicazione informatica che sfrutta tecniche analitiche per estrarre informazioni implicite nascoste tra grosse quantità di dati, solitamente già strutturati. L'esplorazione e l'analisi mirano a scoprire dei pattern (schemi) significativi altrimenti difficilmente identificabili; se, infatti, grazie agli strumenti OLAP si possono affrontare tematiche

(3)

che, preso atto dei risultati raggiunti in un certo periodo, spieghino come e dove sia possibile

intervenire per migliorare le proprie performance, con il data mining può accadere che sia il sistema stesso a suggerire sequenze, correlazioni, associazioni, raggruppamenti o classificazioni che

possano aiutare a comprendere meglio il risultato ottenuto.

Nel caso in esame, come accade spesso nei progetti di questo tipo particolare attenzione è stata dedicata alla fase di preprocessing: analizzati i dati a nostra disposizione, cioè lo storico degli ordini, si sono incontrate difficoltà relative alla logica alla base del processo di fatturazione; in particolare si sono riscontrati problemi legati alla natura dei servizi dal momento che in alcuni casi questi potevano avere durata mutevole nel tempo (a seconda se il servizio era rinnovabile, come l'ADSL o un nome a dominio, o a termine, come l'acquisto di un modem); un altro problema osservato era dato dal fatto che alcuni servizi potessero essere stati, nel tempo, sospesi e riattivati più volte (probabilmente per motivi tecnici o di inadempienza contrattuale), o, addirittura, avessero cambiato nome (come nel caso delle ADSL dopo la variazione seguita ad un aumento delle

prestazioni).

Per svolgere le analisi di data mining si è adoperato SPSS Clementine, versione 6.5; con questo strumento è stato possibile creare flussi di lavoro che hanno portato alla creazione di regole

associative per i prodotti acquistati dai differenti utenti registrati sul sito web. Tuttavia, nonostante la buona qualità della base di dati e dei software adoperati, i risultati non sono stati particolarmente significativi ed hanno portato ad ottenere regole associative piuttosto ovvie. I motivi che hanno portato a queste conclusioni sono riconducibili al fatto che il numero di ordini non fosse,

numericamente, abbastanza elevato per sfruttare al meglio le tecniche di data mining e dal fatto che, per la natura stessa di alcuni servizi, certe relazioni fossero piuttosto ovvie. I particolari di questo studio saranno discussi nella prima parte del capitolo 5.

La terza ed ultima fase del progetto riguarda l'utilizzo delle tecniche di Data Mining nel contesto specifico di Internet: dal momento che si concentrano le analisi sulla scoperta di informazione utili relative al World Wide Web questa attività viene chiamata Web Mining. Le ricerche in questo settore possono essere suddivise in tre categorie di interesse, dipendenti da quale sezione del Web viene esplorata: Web Content Mining, Web Structure Mining, e Web Usage Mining. Senza entrare nello specifico dei rispettivi argomenti, anche perché la distinzione delle tre metodologie è, ancora oggi, non del tutto chiara, si presenta in questa tesi, uno studio di Web Usage Mining. Se il Content e lo Structure Mining utilizzano i dati primari disponibili nella rete (detti anche dati reali), l’Usage Mining estre le informazioni da “sorgenti secondarie”, dette clickstream (sequenze di “click”), ottenute dall’interazione degli utenti con il Web: la scoperta automatica di pattern e modelli di Data Mining attraverso l’analisi dei dati contenuti nei web server è dunque compito di questa attività. I dati Web Usage, raccolti da differenti sorgenti, rappresentano diversi segmenti dell’intero traffico web. I tre livelli in cui tali dati possono essere memorizzati sono: livello client, livello server e livello proxy. Il livello server, sul quale si sono concentrate le analisi, rappresenta probabilmente la sorgente dati più importante per il Web Usage Mining perché registra esplicitamente il

comportamento dei visitatori attraverso la loro interazione con il browser. Questi dati, memorizzati su grossi file detti server access log, sono la traccia lasciata da un insieme di utenti su un singolo sito web e sono tipicamente mantenuti dagli agenti software per monitorare il traffico Internet e per gestire al meglio la cache. In questo contesto subentrano problemi legati al modello di connessione HTTP, all’anonimato degli utenti ed alle abitudini di navigazione di ciascun utente che rendono difficile il tracciamento di sessioni individuali.

Lo scopo di questa fase era studiare il comportamento di navigazione degli utenti per capire se la struttura del sito era stata progettata in maniera funzionale alle esigenze dell'azienda e del visitatore o se poteva essere migliorata per rendere più accessibili ed immediati i contenuti ad un visitatore occasionale oltreché all'utente esperto del dominio.

(4)

Lo studio degli accessi alle pagine, per cercare di capire i flussi che portano gli utenti a fare un certo insieme di scelte, è stato reso possibile grazie all'applicazione degli algoritmi di data mining ed ha rappresentato una sfida interessante che ha coinvolto più reparti aziendali.

Anche in questo caso, come in molti progetti di data mining, è stata dedicata gran parte del tempo al preprocessing per poter ripulire i dati dalle informazioni non interessanti e per poterli rendere conformi ai vari strumenti software che sarebbero stati adoperati in seguito. Inoltre, data la grossa quantità di dati analizzati, oltre un milione di accessi, i tempi di calcolo delle singole fasi sono stati sempre molto alti rendendo, di fatto, molto complicato il processo di modifica dei parametri

necessari per poter rifinire analisi precedenti o per eseguire di nuove. Infine, un altro problema riscontrato, non meno importante del precedente, è stato relativo alla scelta di questi parametri da adottare per avere un buon compromesso tra prestazioni e risultati.

Per svolgere questa parte del progetto si è fatto un largo uso di linguaggi di programmazione lato server e per la manipolazione di stringhe, come Perl; si sono inoltre sfruttate alcune delle

potenzialità messe a disposizione da strumenti quali il WOS, una libreria sviluppata dall'Istituto di Scienza e Tecnologie dell'Informazione (ISTI) del CNR di Pisa, ed il WUM, un insieme di script sviluppati da un gruppo di ricercatori dell'Università di Informatica di Berlino.

Nella seconda parte del capitolo 5 verranno analizzate e discusse queste tematiche e ne saranno presentate le coseguenze.

Il contenuto della tesi

La tesi è suddivisa in sei capitoli nei quali si presentano le problematiche gestite, il contesto nel quale opera l'azienda, passando poi alla presentazione delle fasi che hanno composto il progetto fino all’implementazione vera e propria dello stesso e le opportune considerazioni sul lavoro svolto. Nel Capitolo 1 si introduce la tematica affrontata e le tecnologie adoperate per la realizzazione degli obiettivi fissati dal progetto.

Il Capitolo 2 descrive il settore ed il mercato di riferimento, l’ambiente competitivo e la realtà italiana a livello di concorrenza e di associazioni di categoria nel quale l'azienda si misura; viene inoltre presentata l'organizzazione aziendale, i reparti che ne fanno parte e viene descritto il sito sul quale verranno fatte le analisi.

Nel Capitolo 3 si introduce lo scopo del progetto, si illustrano le fasi che lo compongono e se ne descrive la prima, relativa alla comprensione ed alla preparazione dei dati sui quali verrà basato lo studio.

Il Capitolo 4 presenta le metodologie e le tecniche adoperate per affrontare la parte di progetto riguardante l'analisi multidimensionale. Si descrivono gli approcci possibili e se ne motiva la scelta; si presentano gli strumenti adoperati per questo tipo di analisi e si illustrano i passaggi che hanno portato al raggiungimento di un nuovo sistema informativo basato su reporting ed analisi OLAP. Vengono presentati alcuni tra gli obiettivi richiesti, in particolare quello relativo all'efficacia delle campagne promozionale e quello relativo alla distribuzione delle vendite, e se ne illustrano i risultati ottenuti.

Il Capitolo 5 riguarda la fase finale del progetto; in questa sezione, partendo dall'osservazione della composizione degli acquisti, grazie all'utilizzo di tecniche di Data Mining, si ricercano informazioni utili per migliorare il rapporto con il cliente e per aumentare l'efficacia delle strategie di marketing. Si illustrano, inoltre, i risultati ottenuti grazie alle tecniche di Data Mining applicate alle sorgenti di dati provenienti dal web server.

(5)

Per motivi di privacy e segretezza, in alcuni casi verranno offuscati i dati in modo da renderli incomprensibili. Questa operazione, adottata su espressa richiesta dell'azienda, non ha, tuttavia, inciso negativamente negativo ai fini delle analisi.