• Non ci sono risultati.

"It's a long way to the top" Predicting Success via Innovators'adoptions

N/A
N/A
Protected

Academic year: 2021

Condividi ""It's a long way to the top" Predicting Success via Innovators'adoptions"

Copied!
100
0
0

Testo completo

(1)

Dipartimento di Informatica

Corso di Laurea Magistrale in Informatica per l'economia e per l'azienda (Business Informatics)

TESI DI LAUREA

"It's a long way to the top"

Predicting Success via Innovators'adoptions

Relatori Candidato

Prof. Fosca Giannotti Andrea Mellace

Dott. Giulio Rossetti Dott.ssa Letizia Milli Dott. Diego Pennacchioli

(2)
(3)

Abstract

In questo elaborato arontiamo il problema della predizione del successo di nuovi beni a partire dall'osservazione parziale dei logs relativi alle loro prime adozioni. I metodi già esistenti presentano come limite principale il fatto di essere specializzati e pensati per un contesto specico, mostrando un dominio applicativo troppo limitato e risultando così inadatti e non replicabili in altri ambienti. Il metodo da noi proposto vuole superare tali limiti, cercando di essere generico e applicabile in qualunque contesto. Consideriamo come beni di successo tutti quelli capaci di catturare l'attenzione sempre crescente di potenziali adopters partendo dall'anonimato. Riuscire ad identicare tali beni può rappresentare un vantaggio notevole per un'azienda, consentendo di formulare speciche strategie e campagne di marketing. Tuttavia riuscire a prevedere accuratamente il successo di un nuovo prodotto non è una sda semplice. Abbiamo denito un approccio di machine learning per identicare il miglior insieme di early adopters (Innovatori) che viene utilizzato nel nostro modello consentendo di ottenere alti valori di precisione in fase di predizione. Abbiamo applicato la nostra metodologia su tre dataset di natura molto dierente (Coop, Last.fm, Yelp) e inne abbiamo validato la signicatività statistica dei risultati ottenuti mediante la progettazione di un Null Model.

(4)

Indice

1 Introduzione 4

1.1 Organizzazione della tesi . . . 5

2 Stato dell'arte 6 2.1 La diusione delle innovazioni . . . 6

2.1.1 Introduzione al problema . . . 7

2.1.2 Rogers: la diusione delle innovazioni . . . 8

2.1.3 Il modello di Moore . . . 12

2.1.4 Bass diusion model . . . 14

2.1.5 Estensioni dei modelli classici . . . 15

2.2 Modelli di previsione per nuovi prodotti . . . 18

2.2.1 Modelli recenti di previsione del successo . . . 20

2.3 Introduzione al Data Mining . . . 23

2.3.1 Classicazione . . . 25

2.3.2 Clustering . . . 33

2.3.3 Altre tecniche di data mining . . . 39

3 Denizione del metodo 40 3.1 Cos'è il successo? . . . 40

3.2 Predire il successo . . . 42

3.2.1 Primo passo: Identicazione dei beni Hit e Flop . . . . 43

3.2.2 Secondo Passo: ricerca degli Innovatori . . . 44

3.2.3 Terzo passo: Indicatori di successo . . . 46

3.2.4 Quarto passo: Indicators consolidation . . . 48

3.2.5 Quinto passo: Forecast Model . . . 51 2

(5)

4 Analisi sperimentale 54

4.1 Analisi del dataset Coop . . . 60

4.1.1 Applicazione del modello . . . 61

4.2 Analisi dataset Last.fm . . . 69

4.2.1 Applicazione del modello . . . 70

4.3 Analisi dataset Yelp . . . 76

4.3.1 Applicazione del modello . . . 77

5 Conclusioni 84

(6)

Capitolo 1

Introduzione

Tutti i beni di successo sono caratterizzati dal fatto di riuscire a catturare l'interesse di un numero sempre crescente di persone anche partendo dall'a-nonimato. Le aziende e i produttori investono risorse per riuscire a decidere quali dei loro prodotti devono essere maggiormente supportati. Sondaggi, trend di adozione, analisi della segmentazione della clientela sono spesso uti-lizzati in modo da prevedere il futuro di nuovi prodotti. Tali approcci però presentano alcuni limiti importanti: spesso necessitano di grosse quantità di dati e di tempo, non sono in grado di fornire un approccio generale e replica-bile in un dominio dierente e molte volte l'accuratezza di tali modelli non è cosi elevata da garantire un reale supporto per i decisori. Negli ultimi anni la comunità scientica ha rivolto particolare attenzione al problema di riu-scire ad identicare e caratterizzare gli Innovatori, ovvero quegli utenti che adottano uno specico bene prima che esso raggiunga il successo diventando virale. Gli innovatori giocano un ruolo fondamentale nel ciclo di vita di un prodotto: essi rappresentano quelli che, in qualche modo, sono in grado di percepire prima di tutti il potenziale successo di un bene e lo adottano senza subire l'inuenza di pressioni sociali esterne. Gli studi di tali fenomeni han-no prodotto molte applicazioni e risultati interessanti. In questo elaborato il nostro obiettivo è quello di proporre una metodologia capace di predire il successo futuro di un bene analizzando le caratteristiche dei suoi innovato-ri. E' possibile utilizzare gli innovatori per distinguere i beni di successo da

(7)

quelli di insuccesso? La presenza di innovatori è un indicatore di successo garantito? Per rispondere a tali domande, una volta introdotta la nostra denizione di successo, proponiamo un approccio di data mining che identi-ca gli innovatori stimando la loro tendenza ad adottare beni di successo o insuccesso. Questa stima fornisce due insiemi di indicatori positivi e negativi che, una volta ranati mediante la risoluzione di un problema di copertura WMSC (Weighted Multi-Set Coverage), vengono utilizzati per costruire un classicatore in grado di predire il successo futuro di nuovi beni. Per le analisi abbiamo preso in considerazione tre dataset di natura profondamente diver-sa: i dati sul venduto di una grande compagnia di vendita al dettaglio, due anni di ascolti di circa 70.000 utenti del Regno Unito iscritti al social network Last.fm, e i dati relativi alle recensioni di attività commerciali da parte degli utenti di Yelp. I risultati ottenuti dimostrano che la nostra metodologia è capace di raggiungere alte performances in fase di predizione anche quando viene applicata in contesti molto diversi tra loro. Inne abbiamo confrontato il nostro metodo con due baselines e abbiamo progettato un Null Model per valutare la signicatività statistica dei risultati ottenuti.

1.1 Organizzazione della tesi

Nella prima parte del Capitolo 2 viene presentata una rassegna della lettera-tura sui temi di diusione delle innovazioni e predizione del successo. Nella seconda parte vengono introdotti i concetti fondamentali del Data Mining, ponendo maggiore attenzione sulle tecniche di Clustering e di Classicazione. Nel Capitolo 3 vengono descritti i vari passaggi che costituiscono il metodo, introducendo le denizioni di successo e insuccesso di un bene. Nel Capitolo 4 si descrivono i tre dataset su cui è stato applicato il nostro modello e si introduce il Null Model progettato per valutare la signicatività statistica dei risultati ottenuti. In seguito si analizzano nel dettaglio le varie fasi del processo applicate ai tre dataset e si esaminano i risultati ottenuti facendo il confronto con alcune varianti del modello. Inne nel Capitolo 5 si discutono i risultati principali analizzando gli scenari aperti dal lavoro presentato e i possibili sviluppi futuri.

(8)

Capitolo 2

Stato dell'arte

In questo capitolo viene presentata una rassegna della letteratura sui temi di diusione delle innovazioni e predizione del successo. In particolare nella Se-zione 2.1 si tratta il problema della diusione delle innovazioni, nella SeSe-zione 2.2 si analizzano i metodi esistenti per la predizione del successo di nuovi prodotti. Inne nella Sezione 2.3 vengono introdotti i concetti fondamentali del Data Mining, ponendo maggiore attenzione sulle tecniche di Clustering e di Classicazione.

2.1 La diusione delle innovazioni

La teoria della diusione delle innovazioni nasce da un concetto di ne '800 poi perfezionato e pubblicato nel 1962 da Everett Rogers nel libro Diu-sion of Innovations [E. Rogers, 1962]. Tale argomento è molto diuso nella letteratura economica e il forte interesse che ha suscitato testimonia come l'innovazione abbia un eetto determinante sulle performance delle organiz-zazioni [J.K. Han et al., 1998]. Per un'impresa diventa fondamentale capire anticipatamente se un'innovazione verrà accolta positivamente o meno dal mercato: introdurre un nuovo prodotto o una nuova idea rappresenta una sda molto dicile da vincere.

Nel tentativo di capire e predire il comportamento di acquisto, risulta intuitivamente procuo focalizzare l'attenzione su quegli individui che

(9)

gono un ruolo determinante nel processo di diusione delle innovazioni. Tali individui dovrebbero essere segnalatori, anticipatori di come l'innovazione verrà percepita dal mercato; in letteratura vengono chiamati Innovatori. Co-noscere gli Innovatori è importante per varie ragioni: essi possono agevolare la diusione della conoscenza verso gli altri consumatori tramite il contatto diretto (word-of-mouth) divenendo a tutti gli eetti un potente strumento di marketing; riducono il rischio percepito dai tardivi su un nuovo acquisto; sono in genere heavy-users della categoria e tendono ad acquistare tanto e spesso (hanno quindi una maggiore importanza intrinseca); possono con il lo-ro feedback (volontario o implicito) aiutare a ridenire l'innovazione; aiutano a creare l'immagine di "leader di mercato".

2.1.1 Introduzione al problema

Il concetto di diusione è stato introdotto per la prima volta dal sociologo francese Gabriel Tarde [G. Tarde, 1903], il quale elabora la curva ad S per il processo di diusione dell'innovazione e denisce il concetto di Innovatore. In questa curva il processo di diusione delle innovazioni è composto prin-cipalmente da tre fasi: innovazione, crescita e maturità. Nella prima fase, l'innovazione incontra molti ostacoli alla propria diusione, successivamente tende a diondersi velocemente nella fase di crescita no a raggiungere la fase di maturità nella quale il mercato è saturo e il processo di diusione rallenta. Successivamente B.Ryan e N.Gross [B. Ryan, 1943] confermarono le tesi di Tarde: secondo gli autori, la diusione dell'innovazione si congura come un processo sociale, in cui entrano in gioco le valutazioni soggettive degli im-prenditori. Gli autori identicarono cinque categorie di soggetti in base al loro atteggiamento rispetto all'innovazione in ordine crescente di scetticismo e decrescente di curiosità: Innovatori, Early Adopter, Early Majority, Late Majority, Laggard. Le categorie vennero formulate in seguito a studi empi-rici realizzati intorno agli anni '40 sulla diusione del mais ibrido presso un gruppo di coltivatori del nord America.

(10)

2.1.2 Rogers: la diusione delle innovazioni

Nel 1962 Everett Rogers pubblica il libro Diusion of Innovation nel quale sintetizza la ricerca su oltre 500 studi di diusione e formula una teoria appli-cata sull'adozione di innovazioni tra gli individui e le organizzazioni. Rogers individua quelli che sono i cinque fattori che svolgono un ruolo importante nella formazione di un giudizio nei confronti dell'innovazione:

• Relative Advantage: il grado con cui un'innovazione è migliore di una soluzione già esistente. Non è importante solo il lato pratico di un'inno-vazione, ma anche il prestigio sociale, la convenienza e la soddisfazione rappresentano fattori importanti;

• Compatibility: il grado con cui un'innovazione si adatta alla vita del consumatore. Quando la compatibilità di un'innovazione è molto bassa ci vorrà molto tempo prima che le persone si abituino ad essa, ma quando è compatibile, verrà adottata velocemente;

• Complexity: quanto un'innovazione risulta dicile per l'individuo. Un'i-dea che risulta dicile o troppo complessa, verrà adottata molto len-tamente se gli individui non sono adegualen-tamente informati;

• Trialability: il grado con cui è possibile testare un'innovazione. L'inno-vazione deve avere caratteristiche tali da poter essere sperimentata: se un'innovazione complessa ha un alto grado di trialability, i consumato-ri possono veconsumato-ricare l'ecacia di un'innovazione consumato-riducendo i tempi di adozione;

• Observability: se molte persone utilizzano un nuovo prodotto e i van-taggi sono visibili, gli utenti possono convincersi che quell'innovazione è valida e di conseguenza avrà maggiori possibilità di diusione. L'autore distingue 5 fasi nel processo decisionale di adozione delle innovazio-ni:

1. Knowledge - la prima fase si verica quando un individuo acquisisce in-formazioni su un'innovazione e comincia a conoscere che cosa contiene

(11)

e come funziona. Questo passo è inuenzato dalle caratteristiche del sistema sociale e dell'individuo. Tali caratteristiche evidenziano l'atti-tudine di una persona verso le innovazioni in generale, ma ancora di più verso una particolare tipo di innovazione. E' importante sapere se una persona è disposta a prendere qualche rischio, se ha le possibilità nanziarie per acquistare l'innovazione e se conosce correttamente ciò che l'innovazione rappresenta e come dovrebbe essere usata. Questi fattori possono diventare positivi quando una buona informazione si dionde tra gli individui;

2. Persuation - la seconda fase si verica quando vengono cercate infor-mazioni riguardanti l'innovazione e nella persona inizia a formarsi un giudizio che può essere sia positivo che negativo: nasce l'interesse o il disinteresse riguardo l'innovazione;

3. Decision - in questa fase l'individuo è pronto a decidere se adottare o meno un'innovazione. Se decide di adottarla, si realizza la missione del produttore e si passa alla fase di Implementation;

4. Implementation - l'individuo decide di adottare l'innovazione iniziando ad utilizzarla;

5. Conrmation - l'individuo ha l'opportunità di decidere se continuare ad utilizzare l'innovazione o abbandonarla denitivamente.

Rogers denisce la diusione come il processo attraverso il quale un'inno-vazione è comunicata nel tempo mediante certi canali, tra i membri di un sistema sociale. Tali canali di comunicazione possono essere suddivisi in due classi:

• Mass-media channels - canali capaci di raggiungere un grande pub-blico, in tempi rapidi, diondendo conoscenza capace di inuenzare debolmente i comportamenti di acquisto;

• Interpersonal channels - canali del tipo faccia-a-faccia, tra due o più individui. Questi canali hanno una maggiore capacità di inuenzare il

(12)

destinatario del canale, vincendo le naturali difese del consumatore qua-li resistenza all'acquisto e apatia. Sorono tuttavia di uno scarso raggio di azione e di una tempistica lunga per la diusione dell'informazione. Da questa composizione del processo di innovazione risulta evidente come esso sia largamente inuenzato dal processo conoscitivo. Attraverso l'acqui-sizione di informazioni, il soggetto in un primo momento conosce l'innovazio-ne, e successivamente utilizza le informazioni per procedere con l'adozione. Il processo conoscitivo risulta dunque essere un aspetto chiave nel processo di acquisto dei consumatori.

Rogers riprende quindi le 5 categorie di Adopters introdotte da Ryan [B. Ryan, 1943] e vi applica il sovra-citato modello di diusione delle innovazioni. Lo scopo di Rogers era quello di identicare, per ognuno dei tipi di Adop-ters, le caratteristiche distintive. Egli mostrò empiricamente come gli Early Adopters e coloro che appartenevano alla maggioranza anticipatrice fossero maggiormente inseriti nei meccanismi di comunicazione locale ed avessero una più elevata capacità di assumere un ruolo di opinion leader. Le 5 nuove categorie classicate secondo Rogers, rappresentate in Figura 2.1, presentano le seguenti caratteristiche:

• Innovatori: rappresentano il 2,5% degli adopters e assumono un ruolo molto importante nel processo di diusione. Sono caratterizzati da un elevato livello di istruzione, propensione al rischio, controllo su fonti nanziarie, appartengono a classi sociali elevate e sono esposti a più fonti di informazione.

• Early adopter: rappresentano il 13,5% degli adopters e sono dotati di alti livelli di istruzione, elevata reputazione nella comunità, capacità di svolgere una funzione di leadership sociale e possiedono esperienze di successo alle spalle.

• Early Majority: costituiscono il 34% degli adopters. Tali soggetti adot-tano un'innovazione soltanto dopo che è già stata adottata da molte persone. Essi non hanno un ruolo di opinion leader e devono essere convinti che l'innovazione sia buona prima di decidere di adottarla.

(13)

• Late Majority: rappresentano il 34% degli adopters e sono soggetti tipicamente scettici, tradizionalisti, con un basso status economico. Essendo tendenzialmente avversi al rischio, essi decidono di adottare un'innovazione soltanto quando è necessario o quando percepiscono la pressione" sociale esercitata dai pari.

• Laggard: rappresentano il 16% degli adopters. Tali individui non ama-no i cambiamenti, tendoama-no ad essere socialmente isolati, sospettosi, con relazioni sociali ridotte (vicini e parenti). Hanno un processo di decision making lento e mostrano il maggior grado di scetticismo verso l'innovazione e gli innovatori. Non adottano un nuovo prodotto no a quando non hanno certezza della sua utilità.

Figura 2.1: Curva delle Adozioni - Rogers

Nella visione di Rogers, la diusione delle innovazioni è quindi un processo di comunicazione, nel quale gli Innovatori subiscono maggiormente la comu-nicazione da parte dei mass-media e si lasciano più facilmente inuenzare da essa. Questi Adopters inoltre possiedono una grande capacità di comunica-zione personale e di inuenzare gli individui appartenenti alle altre categorie. I Laggard agiscono principalmente dopo un'intensiva opera persuasiva da parte degli Adopter precedenti, sono refrattari alla comunicazione di tipo

(14)

mass-media e non hanno alcun potere di persuasione. Le categorie interme-die rappresentano le sfumature tra queste due contrapposte gure di Adopter. Le soglie percentuali di Rogers derivano dall'assunzione che la distribuzione temporale degli Adopter seguisse una distribuzione normale. Le 4 soglie che dividono le 5 categorie vengono quindi indicate in base a media e deviazione standard: posto x la media e σ la la deviazione standard, le 4 soglie sono:

• x − 2σ, tra Innovatori ed Early Adopter; • x − σ, tra Early Adopter ed Early Majority; • x, tra Early Majority e Late Majority; • x + 2σ, tra Late Majority e Laggard.

Studi più recenti [U. M, Xwankwo et al., 2009] confermano l'intuizione di Ro-gers a proposito della correlazione tra gli innovatori e l'informazione. L'auto-re aronta la tematica della quantità di informazioni che gli individui hanno a disposizione, scoprendo una stretta connessione tra le Adopter Category ed il livello di informazioni desiderate prima dell'acquisto. Gli Innovatori si scoprono così essere individui dall'alto tasso di capacità informativa, mentre i Laggard arrivano a soddisfare solo lo 0.9% del loro bisogno di informazione prima dell'acquisto. Le tesi di Rogers hanno avuto e continuano ad avere un ruolo predominante nell'ambito degli studi sulle teorie della diusione del-l'innovazione. Tuttavia, esse appaiono soggette a critiche che hanno spinto a cercare modelli alternativi.

2.1.3 Il modello di Moore

Per spiegare il processo di diusione dei prodotti Hi-Tech nel mercato, Moore [Moore, 1991] ha rivisitato il modello del ciclo di vita dell'adozione tecnologi-ca utilizzando come base di partenza il modello di diusione delle innovazioni di Rogers.

(15)

Figura 2.2: Il ciclo di vita dell'adozione tecnologica rivisitato

In questo modello vengono introdotte delle discontinuità (cracks) tra le diverse tipologie di acquirenti descritte da Rogers: queste discontinuità evi-denziano le dierenze psicograche delle varie categorie di adottanti. Secondo Moore, un'azienda che vende un prodotto Hi-Tech e che non si evolve durante la sua diusione nel mercato, nel passaggio tra un segmento ed il seguente, incontrerà delle resistenze che possono mettere a rischio la sua sopravvivenza o quella dell'impresa. Tali resistenze sono dovute al fatto che ogni segmento ha delle esigenze che lo rendono diverso dagli altri. Delle quattro discontinui-tà, rappresentate in Figura 2.2, tre sono di piccola entità e una di maggior entità (chasm) che si verica nel passaggio tra gli early adopters (anticipato-ri) e la early majority (maggioranza anticipatrice). I primi hanno un sistema di aspettative molto elevate, sono entusiasti, portatori di una visione otti-mistica e positiva rispetto all'innovazione, mentre i secondi sono pragmatici, prudenti, poco inclini al rischio ed hanno un sistema di aspettative molto più basso. Secondo Moore, molte innovazioni nel campo delle tecnologie si arenano proprio nel passaggio in cui la diusione deve iniziare a coinvolgere i pragmatici. Sulla base di queste considerazioni, viene elaborata una serie di strategie per superare questo iato.

(16)

2.1.4 Bass diusion model

Sviluppato alla ne degli anni sessanta, il modello di Bass è stato uno dei più importanti nel marketing per le analisi delle prime vendite di nuovi beni durevoli. Bass riprende parte della tesi di Rogers mettendo in luce tre fattori: • potenzialità di mercato, ovvero il numero totale di persone che possono

adottare l'innovazione;

• il coeciente di innovazione (o di inuenza esterna), cioè la probabilità che un soggetto inizi ad adottare l'innovazione sotto l'inuenza dei mass-media o di altri fattori esterni;

• il coeciente di imitazione (o di inuenza interna), ovvero la probabi-lità che un soggetto che non ha ancora adottato l'innovazione inizi a farlo sulla base del passaparola o sotto l'inuenza diretta di chi sta già utilizzando il prodotto.

L'autore considera la divisione in classi di adopters fatta da Rogers in base al momento dell'adozione e rileva la dierenza tra i primi acquirenti, gli inno-vatori, i quali decidono di adottare un'innovazione indipendentemente dagli altri, e i successivi, gli imitatori, inuenzati nell'acquisto dagli altri membri del sistema sociale. La novità del suo modello consiste nell'aver introdotto queste due categorie come distinte e inuenzate in modo diverso dal processo di diusione. Le categorie di Rogers sono la base per i cosiddetti modelli di adozione, come precedentemente trattato, che stimano la crescita del merca-to in funzione della probabilità di adozione di un individuo in ogni istante t. Analogamente Bass fornisce un'impostazione probabilistica al proprio mo-dello e parte dall'ipotesi che la probabilità P (t) che un primo acquisto sia fatto al tempo t, dato che nessun acquisto è ancora stato fatto, sia funzione lineare del numero di acquirenti precedenti Y (t). Il modello di Bass aerma che la probabilità che un individuo voglia acquistare un nuovo prodotto al tempo t è rappresentata dalla seguente equazione:

P (t) = p +q m

 Y (t)

(17)

dove P (t) è la probabilità che un acquisto iniziale del nuovo prodotto avvenga al tempo t, Y (t) è il numero dei precedenti acquirenti al tempo t, p e q i coecienti di innovazione e di imitazione, ed m è il potenziale di mercato, ovvero il numero dei potenziali acquirenti considerato costante nel tempo.

Poiché Y (0) è uguale a zero, la costante p rappresenta la probabilità che la sperimentazione del nuovo prodotto avvenga al tempo T=0 e pertanto riette l'importanza e il ruolo degli innovatori nel sistema sociale. L'importanza degli innovatori è notevole solo all'inizio, infatti al crescere di Y (t) sarà sempre più il valore di q a determinare la probabilità di adozione. Tale modello presuppone, per le vendite di un nuovo prodotto, una crescita che termina con il raggiungimento di un massimo per poi procedere con una decrescita e inne una stabilizzazione ad un livello inferiore. Tale stabilizzazione è determinata dal declino della domanda di primo acquisto e dal progressivo aumento della domanda di sostituzione.

2.1.5 Estensioni dei modelli classici

Il notevole interesse suscitato in letteratura dalla diusione delle innovazioni si è presto rivelato in molteplici indagini che estendono i modelli base. In [Kumar et al., 2003] si trasforma la curva di adozione indagando il caso in cui vi siano vincoli di magazzino per i componenti del prodotto innovativo. Uno dei contributi più ricchi di nuovi spunti è [L. Marchegiani et al., 2004], in cui gli autori vanno oltre la concezione di innovazioni come realtà atomi-che", separate l'una dall'altra. Viene sottolineato come ogni innovazione si inserisca in un complesso insieme di relazioni con altri prodotti ed altre inno-vazioni, fatto che modica notevolmente i modelli di diusione. Ad esempio si possono rilevare:

• rapporti di interdipendenza tra le innovazioni, per cui, pur essendo indipendenti da un punto di vista funzionale, l'adozione di una può favorire l'adozione di un'altra;

• rapporti di complementarietà, per cui l'adozione di un'innovazione esclu-de necessariamente l'adozione esclu-dell'altra;

(18)

• rapporti di contingenza, per cui l'adozione di un'innovazione causa necessariamente l'adozione di una seconda.

Gli autori di [V. Mahajan et al., 2000] hanno anche elaborato un modello di interazione tra innovazioni e tecnologie esistenti, a seconda degli eetti che esse producono l'una sull'altra. Un'ulteriore consistenza in ambito di ricerca delle interazioni tra innovazioni è data da [L. Xin et al., 2006]. Concettual-mente si parte dal presupposto che i nuovi consumatori abbiano spinte pro e contro un articolo. Quando ci sono molte innovazioni, la spinta della co-munità può inuire molto sulle preferenze dei singoli. Se nella coco-munità vi è una componente dominante, questa rende più probabile che gli indecisi" si aggreghino alle scelte del gruppo.

I modelli spaziali

Anche riprendendo le tesi di Rogers in merito al maggior peso delle relazioni personali nel processo di adozione di un'innovazione, alcuni autori hanno la-vorato sopratutto sul versante dei rapporti di prossimità come fattore causale della diusione. L'iniziatore di questo approccio è stato [Hagestrand, 1967] il quale, studiando le modalità di diusione del grano ibrido in Svezia, ha rivelato quanto la prossimità giochi un ruolo decisivo nella diusione. Attra-verso fotograe aeree, egli mostrò che la diusione del grano ibrido avveniva attraverso agglomerati e modelli di prossimità e non casualmente, a dimo-strazione del peso dell'interazione diretta tra vicini nel processo di diusione. Nasce il concetto di fronte dell'innovazione, come il fronte di propagazione spaziale di un'innovazione.

Il Technology Acceptance Model

Il TAM - Technology Acceptance Model, fu elaborato da [Davis, 1989], am-pliato ed utilizzato da numerosi altri autori. E' concepito inizialmente per lo studio delle innovazioni informatiche. Il modello, del tipo socio-psicologico, si focalizza sui comportamenti e suppone che l'eettiva adozione sia frutto dell'interazione di due elementi:

(19)

• la facilità d'uso percepita (perceived ease of use) dell'innovazione. Questi due elementi si costruiscono a partire da variabili esterne all'indi-viduo, di tipo sociale e comunicativo, e determinano, nel loro insieme, un orientamento all'azione. Tale orientamento, a sua volta, produce un'inten-zione comportamentale, vale a dire un'intenun'inten-zione ad assumere un determinato comportamento.

Il modello si fonda sulla teoria dell'azione ragionata (theory of reasoned action), la quale postula che l'intenzione di assumere un comportamento de-rivi da un sistema di norme proveniente dalla società e da un orientamento personale basato su credenze e valutazioni individuali. Il modello ha un'inten-zionalità predittiva di tipo probabilistico, nel senso che l'utilità e la facilità di uso percepite, una volta misurate, forniscono elementi di previsione in merito alla probabilità che un oggetto assuma poi eettivamente una determinata innovazione.

I modelli reticolari (Social Network Analysis)

Un altro settore di studi relativi alle modalità di diusione dell'innovazio-ne sono quelli incentrati sulla dell'innovazio-network analysis e sul concetto di rete. A dierenza dei modelli matematici, di tipo macro-economico, quelli reticola-ri presuppongono che la forma, l'estensione e le modalità di funzionamento delle reti di relazione tra nodi, incidano sulle condizioni (tempi, ritmi, forme ecc.) di diusione di una tecnologia. Secondo [Valente, 1996], un soggetto tenderà ad adottare un'innovazione in rapporto al numero di membri del suo network personale che lo hanno già fatto. Questo signica che i meccanismi di adozione potranno essere diversi per ogni potenziale adopter, in quanto i network personali variano per dimensione e per caratteristiche ogni vol-ta. Per ciascun potenziale adopter, pertanto, vi sarà una dierente adopter treshold. Ad esempio, Valente sostiene che i soggetti con un'attitudine a svolgere la funzione di opinion leader hanno soglie più basse di adozione: il numero di persone presenti nelle loro reti di relazioni che hanno già adottato l'innovazione, necessario per spingerli a compiere la stessa scelta, è più basso rispetto a coloro che hanno un'attitudine gregaria (followers). Valente

(20)

so-stiene che sia possibile applicare le categorie degli adopter elaborate da Ryan e Gross, sia a livello del sistema sociale, sia al livello di rete. Anche nella rete personale, dunque, è possibile identicare gli anticipatori, una maggio-ranza anticipatrice, una maggiomaggio-ranza ritardataria ed i ritardatari assoluti. Studiare come, a livello di rete, si superi la soglia di attivazione dell'adozio-ne consente, secondo Valente, di comprendere meglio i meccanismi gedell'adozio-nerali di diusione e le interazioni tra le inuenze esterne e quelle interne di re-te. Molti studiosi hanno invece assunto un approccio topologico, cercando di identicare le caratteristiche delle reti che maggiormente incidono sulla rapidità di innovazione. Ad esempio [A. Mason et al., 2005] sottolineano come la lunghezza media dei percorsi (average geodesic path length) presenti nelle reti (ovvero il numero medio di passaggi necessari per raggiungere due nodi) rappresenti una misura più esplicativa della velocità di diusione di un'innovazione rispetto al grado medio di connessione (node average degree) di ogni nodo (vale a dire il numero medio di connessioni che legano un nodo ad un altro). Molti studi sulle reti tra cui [P. Rusmevichientong et al., 2004], oltre a considerare la struttura, analizzano anche le caratteristiche che con-traddistinguono i nodi, ed in particolare lo status socio-economico (livelli di istruzione, tipo di lavoro, livelli di carriera ecc.) e le competenze interperso-nali (abilità persointerperso-nali, motivazioni, cultura, orientamenti, persointerperso-nalità ecc.) nonché i tipi di relazione che collegano i singoli nodi (relazioni di potere, familiari, professionali ecc.).

2.2 Modelli di previsione per nuovi prodotti

La previsione delle performance di nuovi prodotti o servizi rappresenta uno dei processi più complessi e critici per il management [Assmus 1984]. Le performance eettive del mercato per un nuovo prodotto dipendono da un largo numero di fattori. Tali fattori non includono soltanto l'attrazione o la soddisfazione del consumatore per il nuovo prodotto, ma includono anche le condizioni ambientali (ad esempio l'andamento dell'economia), il grado di trade support del prodotto e la natura delle azioni/reazioni da parte dei com-petitors. La valutazione di tali fattori rende la previsione delle performance

(21)

di un nuovo prodotto molto più complessa rispetto alla previsione delle vendi-te, della diusione o della prottabilità di un prodotto già aermato. Inoltre un'accurata analisi di previsione costituisce un importante contributo per la maggior parte dei processi decisionali di marketing e di business. Data l'importanza dell'argomento, negli anni sono stati proposti numerosi modelli di previsione per nuovi prodotti. Tali modelli variano non solo nel rispetto dei loro obiettivi preposti e dei loro clienti, ma anche in base al tipo di dati a disposizione. In generale questi modelli usano una o più tra le seguenti sorgenti di informazioni:

• opinioni del management o di esperti: le stime del management o di soggetti esperti vengono utilizzate per predire le possibili performance del prodotto;

• prodotti simili: la predizione delle performance viene eettuata consi-derando un prodotto con caratteristiche simili a quello nuovo;

• consumatori: si basa sulle reazioni dei consumatori, si valuta la pos-sibile performance del prodotto considerando la conoscenza e i giudizi dei consumatori.

In [Wind, 1974] vengono analizzati i modelli di previsione di nuovi prodotti in modo da stabilire dei criteri di selezione per la maggior parte dei modelli in base alle necessità delle aziende. Tali modelli di previsione per nuovi prodotti vengono successivamente classicati in due tipologie [Asmus, 1984]:

• modelli trial-repeat: dividono le vendite totali in vendite derivanti da acquisti di prova e vendite per acquisto ripetuto

• modelli strutturali competitivi: che stimano la quota di mercato che il nuovo prodotto raggiungerà all'interno di un mercato ben denito e con determinati competitors.

Successivamente in [Mahajan et al., 1988] si propone una valutazione dei precedenti modelli di previsione presenti nell'industria e in letteratura, evi-denziandone punti di forza e di debolezza. Gli autori di [Lynn et al., 1999]

(22)

sostengono che le industrie high-tech e quelle low-tech utilizzano diversi mo-delli di previsione. Nei loro studi vengono esaminati settantasei progetti relativi a nuovi prodotti industriali. Dallo studio risultò che le aziende high-tech tendono ad utilizzare metodi di previsione qualitativamente alti (basati sopratutto su dati interni), mentre le aziende low-tech fanno più adamento su tecniche quantitative come ad esempio sondaggi sui consumatori. In segui-to alcuni ausegui-tori [Ozer, 1999] hanno messo in rassegna i modelli ampiamente discussi in base a obiettivi, applicabilità su prodotti dierenti, dati necessa-ri, ambienti adatti, tempi e tipologie delle informazioni, altri invece [Kahn, 2002] hanno presentato una ricerca esplorativa per descrivere costi, tecniche e accuratezza dei vari modelli di predizione. Di recente gli autori di [Law-rence et al., 2006] concentrano le loro ricerche sugli approcci alla predizione basati sul giudizio (judgemental forecasting) di chi eettua le previsioni. Tale approccio viene utilizzato principalmente quando:

• non è possibile applicare metodi statistici per l'assenza di dati a dispo-sizione;

• i dati sono disponibili e si applicano i metodi statistici di previsione, e questi vengono riadattati in base al giudizio dei previsori;

• i dati sono disponibili e si combinano metodi di previsione basati sul giudizio con metodi statistici.

Gli autori sottolineano come l'accuratezza dei modelli di previsione basati sul giudizio aumenta quando i previsori possiedono un grande dominio di conoscenza e hanno informazioni aggiornate e tempestive.

2.2.1 Modelli recenti di previsione del successo

Negli ultimi anni sono stati molti gli autori che hanno concentrato i loro studi sulla creazione di modelli di previsione del successo. In [Condon et al.,1998] gli studiosi costruiscono una serie di modelli cercando di predire il successo di una nazione durante le Olimpiadi estive del 1996. Essi utilizzano i dati relativi ai risultati di circa trecento eventi sportivi e altre informazioni

(23)

raccolte in una serie di variabili indipendenti. Gli autori costruiscono modelli di regressione lineare e modelli di reti neurali comparando i risultati delle predizioni. In generale dalle analisi svolte risulta che il miglior modello basato su reti neurali otteneva migliori performance rispetto al miglior modello di regressione.

Sempre sul tema della previsione del successo nelle competizioni sportive, in [Weissbock et al., 2014] gli autori hanno creato meta-classicatori per pre-dire il successo di una squadra nella lega Nazionale di Hockey, combinando tre classicatori che utilizzano vari tipi di informazione. Il primo usa co-me features una serie di dati nuco-merici e statistici raccolti durante le partite passate. Gli altri due classicatori utilizzano dati testuali precedenti alla partita: un classicatore usa parole come features in modo da individuare l'idea principale espressa nel testo, mentre il secondo usa features basate sul numero di parole positive e negative in modo da individuare le opinioni degli scrittori nel pre-partita. I risultati dello studio dimostrano come i classi-catori che usano due sorgenti di dati combinate in vari modi ottengono una migliore accuratezza nella predizione rispetto ai classicatori basati su dati esclusivamente numerici o testuali.

In [Krauss et al., 2008] gli autori introducono un nuovo approccio di Web mining che combina social network analysis e automatic sentiment analysis. Gli autori dimostrano come pesando i post presenti sui forum in base alla posizione degli autori nella rete, sono in grado di predire trend ed eventi nel mondo del cinema. Lo studio si è svolto conducendo due esperimenti ana-lizzando i forum di discussione dell'IMDb (Internet movie database) esami-nando la correlazione della struttura del social network con metriche esterne come l'incasso al box oce e la premiazione degli Oscar. Secondo gli autori i pattern di discussione nell'IMDb predicono le nominations e il successo al box oce. Essi sono riusciti a predire correttamente nove nominations agli Oscar con due mesi di anticipo, evidenziando inoltre una correlazione tra le discussioni presenti nei forum e il successo al box oce di venti lm record di incassi nel 2006.

In [Greenberg et al., 2013] gli autori applicano tecniche di machine lear-ning per riuscire a determinare il successo o l'insuccesso di un progetto di

(24)

crowdsourcing on line al momento del suo lancio. A partire dalla descrizione dei progetti, vengono estratte una serie di informazioni relative alla categoria del progetto, presenza sui social network, budget da raggiungere, tempo ne-cessario per la realizzazione. Queste informazioni vengono successivamente utilizzate per eseguire diversi algoritmi di classicazione in modo da poterne confrontare i risultati.

In altri studi [Dirk Thorleuchter et al., 2012] si utilizzano tecniche di text mining per la predizione del successo di una compagnia e-commerce. Me-diante l'analisi di informazioni presenti sul loro sito web, si analizza l'impatto dell'informazione testuale sul successo commerciale della compagnia. In par-ticolare viene dimostrato che i concetti semantici estratti dall'analisi delle informazioni testuali possono essere utilizzati come fattori per la classica-zione delle prime cento compagnie e-commerce di successo. Questo lavoro arricchisce la letteratura riguardante i fattori di successo di una compagnia nel mondo dell'e-commerce, e fornisce informazioni utili per la creazione di un sito web e-commerce.

In uno studio recente [Emre Sarigöl et al., 2014] viene proposto un metodo per la predizione del successo di un articolo scientico mediante l'analisi della rete delle collaborazioni tra gli autori. In particolar modo si cerca di capire in che misura il successo di articoli scientici sia dovuto all'inuenza sociale. A tal proposito si studia in che modo la centralità, all'interno della rete degli autori, varia tra coloro che hanno articoli molto citati e coloro aventi articoli con poche citazioni. Lo studio inoltre propone un classicatore, basato soltanto sulle misure di centralità all'interno della rete al momento della pubblicazione, in grado di predire con un'alta precisione se un articolo sarà altamente citato o meno nei cinque anni successivi la pubblicazione.

In [Weng et al., 2014] gli autori analizzano la struttura delle comunità e delle reti. Gli autori propongono ed analizzano un insieme di features, sviluppando un modello accurato per predire la popolarità di un meme (un fenomeno internet che diventa virale) a partire da patterns di diusione ini-ziale. Nello studio vengono considerati tre grandi aspetti: l'inuenza degli early adopters, la concentrazione della community e le caratteristiche delle time series delle adozioni. Dalla ricerca risulta che le features basate sulla

(25)

struttura della community rappresentano dei forti predittori del successo fu-turo, mentre la popolarità iniziale di un meme risulta non essere un buon indicatore dei successo.

2.3 Introduzione al Data Mining

Negli ultimi anni, le organizzazioni hanno eettuato investimenti signicativi per migliorare la loro capacità di raccogliere dati. Questa vasta disponibilità di dati ha aumentato l'interesse in metodi per estrarre dai dati informazioni utili e conoscenza. Con il termine Data Mining (DM) si intende un insieme di tecniche e strumenti usati per esplorare grandi database, con lo scopo di indi-viduare/estrarre informazioni/conoscenze signicative, in modo da renderle disponibili ai processi decisionali.

Il Data Mining rappresenta il cuore del processo di KDD ( Knowledge Discovery in Database). Il processo di KDD, rappresentato in Figura 2.3, è iterativo, in quanto composto da passi successivi, ed interattivo, perché è necessario comprendere il processo e le possibilità di sviluppo ad ogni passo. Generalmente si divide questo processo in cinque fasi principali:

• Selection: rappresenta la fase di selezione dei dati (dati disponibili, dati addizionali, dati da integrare), bisogna trovare il giusto trade-o tra gestione di più informazioni possibili e organizzazione di un dataset semplice da gestire

• Preprocessing e data cleaning: rappresenta la fase iniziale del tratta-mento dei dati a disposizione. Vengono eseguite attività di pulizia dei dati, integrazione, selezione e trasformazione, gestione di missing values, ltraggio del rumore, eliminazione degli outliers

• Transformation: riduzione delle dimensioni e impiego di metodi di tra-sformazione per ridurre l'eettivo numero di variabili da sottoporre al processo di ricerca, trasformazione dei dati, selezione delle features • Data mining: si scelgono algoritmi e tecniche da applicare

(26)

• Post-processing e evaluation: valutazione ed interpretazione dei risul-tati rispetto agli obiettivi precedentemente deniti e rappresentazione graca dei risultati

Figura 2.3: Il processo di KDD

Tecniche di data mining

Gli impieghi del data mining sono generalmente suddivisi in due grandi categorie:

• Uso predittivo - l'obiettivo di questa analisi è di predire un parti-colare attributo (funzione obiettivo) a partire da attributi conosciuti (predittori): si ricava nuova conoscenza a partire dai dati storici. • Uso descrittivo - l'obiettivo è di individuare schemi ricorrenti (pattern

frequenti), gruppi di dati simili (cluster), anomalie o pattern sequen-ziali che caratterizzino i dati analizzati. In seguito alla fase di mining è necessario utilizzare tecniche di post-processing che permettono di validare e visualizzare i risultati ottenuti.

In seguito analizziamo brevemente alcune tra le tecniche di data mining più diuse.

(27)

2.3.1 Classicazione

L'obiettivo della classicazione è quello di costruire un modello (chiamato classicatore) che prevede il valore (o classe) di una variabile target a partire da un insieme di attributi conosciuti (predittori). Il modello generato è in grado di fornire una previsione del valore della variabile target anche per nuo-vi dati non analizzati precedentemente: la classicazione si propone infatti di costruire modelli con una buona capacità di generalizzazione. L'approccio più comune per creare e testare un modello è mostrato in Figura 2.4.

Figura 2.4: Esempio del processo tipico di classicazione

Il dataset viene suddiviso in due insiemi detti training set e test set. Il training set (generalmente circa i 2/3 dei record) viene usato come input per l'algoritmo di costruzione del modello predittivo. In seguito questo viene applicato ai record appartenenti al test set per valutare la bontà del modello attraverso il confronto tra il valore predetto e quello reale. Il test set è infatti utilizzato per vericare come si comporta il classicatore con i record che non sono stati usati per la costruzione del modello stesso.

(28)

Alberi decisionali

Tra gli algoritmi di classicazione più diusi ci sono quelli basati su alberi di decisione. Un albero di decisione è costituito da tre dierenti tipi di nodo:

• un nodo radice: non ha archi entranti e ha zero o più archi uscenti; • nodi interni: hanno esattamente un arco entrante e due o più archi

uscenti;

• nodi foglia o terminali: ognuno dei quali ha esattamente un arco en-trante e nessuno uscente.

In un albero di decisione ogni nodo non terminale, compresa la radice, contie-ne una diramaziocontie-ne (split) su un particolare attributo per separare i record aventi dierenti caratteristiche. Queste diramazioni sono rappresentate dagli archi uscenti del nodo (etichettati con un valore). Ad esempio, consideriamo l'albero di decisione rappresentato in Figura 2.5 che consente di stabilire se un nuovo cliente sarà un potenziale acquirente di un computer o meno. La radice contiene uno split di tipo binario sull'attributo Età: ad ogni foglia è assegnata un'etichetta che identica la classe predetta dal cammino radice-foglia. Una volta che l'albero è stato creato è molto semplice ed intuitivo classicare un nuovo record.

Figura 2.5: Esempio di un albero di decisione

Partendo dalla radice applichiamo la condizione denita nel nodo e se-guiamo il ramo che la verica. Si prosegue in questo modo no ad arrivare

(29)

ad una foglia che fornirà il valore della classe predetta. Tale procedimento ha una complessità algoritmica lineare alla profondità dell'albero. L'albero di decisione può essere utilizzato per due dierenti nalità:

• Scopo descrittivo - il modello può essere utilizzato per scoprire e com-prendere la natura dei dati. Ogni percorso radice-foglia dell'albero può essere infatti visto come un regola associativa che ha come antecedente le condizioni di split eseguite lungo il percorso e come conseguente la classe predetta (etichetta della foglia).

• Scopo predittivo - il modello può essere trattato anche come una scatola nera che prevede la classe di un nuovo record partendo dagli attributi conosciuti.

Gli alberi che vengono generati possono presentare alcune criticità:

• Undertting - il modello è troppo generale ed ha una bassa accuratezza sia sul training set che sul test set. E' necessario modicare i parametri di congurazione dell'algoritmo per generare un albero più dettagliato con un maggior numero di nodi.

• Overtting - il modello ha poca capacità di generalizzazione, con alta accuratezza sul training set e bassa sul test set. Questo signica che il modello creato è eccessivamente legato ai record utilizzati per la sua creazione. Per ridurre tale fenomeno è necessario diminuire il numero di nodi nell'albero di decisione

Per avere un buon modello è necessario raggiungere un buon trade-o tra undertting ed overtting.

(30)

Figura 2.6: Overtting e Undertting

Il graco in Figura 2.6 mostra un tipico andamento degli errori in relazione al numero di nodi dell'albero di decisione. Nella parte a sinistra si evidenzia una zona di undertting per poi passare sulla destra a overtting. Le soluzioni ottimali sono nella zona compresa tra le linee tratteggiate.

Costruzione di un albero di decisione

Molti algoritmi per la costruzione di alberi decisionali utilizzano una strategia greedy: la scelta fatta ad ogni passo rappresenta l'ottimo locale ma non è detto che tale scelta coincida anche con l'ottimo globale. Uno degli algoritmi più conosciuti è l'algoritmo di Hunt, su cui si basano molti algoritmi esistenti come CART e C4.5. L'algoritmo di Hunt utilizza un approccio ricorsivo che suddivide progressivamente un insieme di record Dt in insiemi di record via

via più puri. Sia Dt l'insieme dei record del training set corrispondenti al

nodo t e yt = {y1, ...., yk} le possibili label di classe, l'algoritmo procede nel

modo seguente:

• Se Dt contiene record appartenenti alla sola classe yj , allora t è un

(31)

• Se Dt è un insieme vuoto, allora t è un nodo foglia a cui è assegnata una classe del nodo padre.

• Se Dt contiene record appartenenti a più classi, si sceglie un attributo

e un criterio di split per partizionare i record in più sottoinsiemi. Esempio di decision tree Per chiarire meglio i concetti appena espressi, in Figura 2.7 presentiamo un esempio di costruzione di un albero di decisione. Supponiamo di avere a disposizione i dati rappresentati in Tabella 2.1 che costituisce il training set. Ogni record ha quattro attributi, di cui uno (Cheat) rappresenta l'attributo classe. L'albero di decisione costruito consentirà di stabilire se un cliente che ha chiesto un prestito, riuscirà ad estinguerlo oppure sarà un potenziale debitore.

Refund Marital Status Taxable Income Cheat

Yes Single 125K No No Married 100K No No Single 70K No Yes Married 120K No No Divorced 95K Yes No Married 60K No Yes Divorced 220K No No Single 85K Yes No Married 75K No No Single 90K Yes

Tabella 2.1: Esempio di training set

Inizialmente l'albero conterrà un solo nodo, la radice, con etichetta la classe di maggioranza "No". In seguito l'algoritmo cerca il migliore attributo su cui eettuare lo split: viene scelto l'attributo Refund e in base al valore di questo attributo, i record vengono divisi in due sottoinsiemi. A questo punto l'algoritmo si applica ricorsivamente ad ogni nodo glio: il glio sinistro diventa un nodo foglia, quello destro viene suddiviso nché tutti i record non appartengono alla stessa classe.

(32)

Figura 2.7: Decision tree per i dati in Tabella 2.1 Criteri di scelta per lo split migliore

Per selezionare lo split migliore, esistono delle misure in grado di calcolare la purezza di un nodo. Tra queste le più utilizzate sono:

• Entropia = − Pn i=1 p(i|t)log2p(i|t) • Indice di Gini = 1− n P i=1 [p(i|t)]2

• Errore di classicazione = 1 − max

i∈n p(i|t)

dove p(i|t) rappresenta la frazione dei record che appartengono alla classe ci

in un dato nodo t e n è il numero di classi. Queste misure, rappresentate in Figura 2.8, raggiungono il valore massimo quando la distribuzione delle classi è uniforme (ad esempio nel caso di classicazione binaria, quando p(i|t) = 0.5), il minimo, quando tutte le istanze appartengono ad una sola classe ( p(i|t) = 0 o 1).

(33)

P

Figura 2.8: Valore dei diversi indici per un partizionamento in due classi Per determinare la bontà di uno split abbiamo bisogno di confrontare il grado di impurità del padre (il nodo che avevo prima dello split), con il grado di impurità dei gli appena creati. Maggiore è questa dierenza e migliore è la condizione su cui fare split. Per determinare la bontà di uno split utilizziamo quindi il criterio del guadagno, ∆:

∆ = I(parent)− k P j=1 N (vj) N I(vj)

dove I(· ) è la misura d'impurità di un dato nodo, N è il numero totale di istanze nel nodo padre, k è il numero di tutti i possibili valori dell'attributo su cui eseguiamo lo split e N(vj)è il numero di istanze associate al nodo glio

vj. L'algoritmo per la costruzione di decision tree sceglie quindi l'attributo

che massimizza il guadagno ∆. Valutare un classicatore

Esistono diversi algoritmi per la creazione di alberi di decisione e ognuno ha un insieme di parametri di congurazione. E' necessario dunque avere degli strumenti formali che permettano di confrontare alberi creati sullo stesso data set. Una prima valutazione del modello può essere ottenuta attraverso

(34)

l'analisi della matrice di confusione. Si riporta in Figura 2.9 un esempio di una matrice di confusione per un data set con variabile target binaria.

Figura 2.9: Esempio di matrice di confusione con classi binaria Le righe della matrice indicano la classe reale e le colonne quella predetta dal modello. Il numero di record classicato correttamente è dato dalla som-ma degli elementi sulla diagonale principale di tale som-matrice (in questo caso a + d), mentre il numero di record classicati erroneamente è la somma delle altre celle. I record che ricadono nella cella b sono i cosiddetti falsi negativi, ovvero quelli che il classicatore ha previsto come negativi mentre sono in realtà positivi. Viceversa i record nella cella c sono chiamati falsi positivi. Esistono inoltre misure che riassumono la bontà di un classicatore in un solo valore. Quella usata più frequentemente è l'accuratezza denita come segue:

Accuracy = (a + d) (a + b + c + d) =

tp + tn tp + tn + f p + f n

Altre misure frequentemente utilizzate per la valutazione di un classicatore sono le seguenti: Precision= (a) (a + c) = tp tp + f p Recall= (a) (a + b) = tp tp + f n

NPV (negative predictive value)= tn tn + f n

(35)

Specicity o TNR (true negative rate)= tn tn + f p

C'è da sottolineare che l'accuratezza non sempre fornisce una misura signi-cativa della bontà di un classicatore: ad esempio, in un caso in cui i dati sono molto sbilanciati su una classe e viene predetta esclusivamente quella di maggioranza, l'accuratezza sarà molto alta ma il classicatore non signica-tivo. Per questo motivo sono state studiate altri metodi in grado di mettere in evidenza situazioni come quella descritta precedentemente. Uno di questi consiste nel valutare un classicatore calcolando un costo mediante la de-nizione di una matrice, chiamata matrice dei costi, che associa un peso ad ogni cella della matrice di confusione.

Figura 2.10: Esempio di una matrice di costo

Nella matrice illustrata in Figura 2.10 si ritiene più grave avere falsi ne-gativi che avere falsi positivi e si ha un maggior guadagno nell'individuare i record appartenenti alla classe + rispetto a quelli appartenenti alla classe -. Il costo di un classicatore è quindi denito come segue:

costo = P

(i,j)

M Conf usion(i,j)∗ M Cost(i,j)

Mettendo a confronto diversi modelli generati, il migliore sarà quello con costo minore.

2.3.2 Clustering

Il clustering è il processo tramite il quale un set di oggetti sici o astratti viene raggruppato in classi di oggetti simili [J. Han, 2000], in accordo ad un qualche criterio o metrica. Si ricercano gruppi di oggetti, chiamati cluster,

(36)

tali che gli oggetti appartenenti ad un gruppo siano molto simili tra loro e signicativamente dierenti tra cluster diversi. La similarità o distanza viene denita da relative funzioni a seconda del dominio di appartenenza. E' importante la distinzione tra:

• Clustering gerarchico: un insieme di cluster annidati organizzati come un albero gerarchico.

• Clustering partizionante: si ha una divisione degli oggetti in sottoin-siemi (cluster) non sovrapposti e ogni oggetto appartiene esattamente a un cluster.

• Clustering density-based: utili per individuare clusters di forma arbi-traria.

Metodi gerarchici

Un metodo di clustering gerarchico lavora raggruppando gli oggetti in al-beri di cluster. I metodi gerarchici possono essere suddivisi in due grandi categorie:

• Metodi agglomerativi: prevedono di comporre i gruppi per step succes-sivi, costituendo al primo passo un numero di cluster pari al numero di elementi e calcolando poi la matrice delle distanze tra gli oggetti. Sono inne raggruppati i cluster più vicini, rendendo necessario un aggiorna-mento della matrice di similarità. Il procediaggiorna-mento di raggruppaaggiorna-mento e aggiornamento viene ripetuto no a che non si è ottenuto un unico cluster contenente tutti gli oggetti

• Metodi divisori: sono speculari rispetto ai primi, in quanto la forma-zione dei gruppi avviene mediante creaforma-zione iniziale di un unico cluster comprendente tutti gli oggetti, e si procede alla scissione per passi suc-cessivi secondo misure di similarità, no a giungere all'individuazione di un numero di clustering pari al numero degli elementi.

Nei metodi di clustering gerarchici l'utente può specicare il numero di clu-ster come condizione di terminazione. Una struttura ad albero, denominata

(37)

dendrogramma, viene comunemente utilizzata per rappresentare il clustering gerarchico. Esso mostra come gli oggetti vengono raggruppati insieme passo dopo passo.

Figura 2.11: Un dendogramma per il clustering gerarchico degli oggetti {a,b,c,d,e,f}

La Figura 2.11 mostra un esempio di dendrogramma. Al livello 0 vengo-no mostrati cinque cluster costituiti da un singolo oggetto. Al livello 1 gli oggetti a e b vengono raggruppati insieme per formare il primo cluster; essi rimarranno insieme per tutti i livelli successivi.

Metodi partizionanti

Dato un database di n oggetti, e k, il numero di cluster da costruire, un algoritmo di partizionamento organizza gli oggetti in k partizioni (k ≤ n), dove ciascuna partizione rappresenta un cluster. I cluster sono costruiti con il ne di ottimizzare un criterio di partizionamento oggettivo, spesso deno-minato funzione di similarità , come la distanza, in modo tale che gli oggetti all'interno di un cluster siano simili mentre gli oggetti di cluster dierenti siano dissimili. Un algoritmo molto diuso appartenente a questa categoria è il k-means.

K-means L'algoritmo k-means riceve in input un parametro k e partiziona un insieme di n oggetti in k cluster in modo tale che la similarità intra-cluster

(38)

risultante sia alta mentre quella inter-cluster sia bassa. La similarità dei clu-ster è misurata rispetto al valore medio degli oggetti in un cluclu-ster; tale valore può essere visto come il centro di gravità del cluster e viene chiamato me-doide o centroide. L'algoritmo k-means procede nel seguente modo. Innan-zitutto, seleziona in modo random k oggetti, ciascuno dei quali rappresenta inizialmente un medoide. Ciascuno degli oggetti rimanenti viene associato al cluster più simile basandosi sulla distanza tra l'oggetto e il medoide. Quindi si calcolano i nuovi medoidi per ciascun cluster: tale processo viene iterato no a quando i medoidi non cambiano. Tipicamente viene utilizzato come criterio di bontà di un cluster l'errore quadratico, denito come:

SSE = X

i=1...k

X

p∈Ci

|p − mi|2

dove SSE è la somma dell'errore quadratico per tutti gli oggetti; p è il punto nello spazio che rappresenta il dato oggetto ed mi è il medoide del

cluster Ci. Questo criterio cerca di rendere i k cluster risultanti quanto più

compatti e separati possibili. L'algoritmo tenta di determinare k partizioni che minimizzano la funzione errore quadratico: il metodo si comporta be-ne quando i cluster sono compatti e piuttosto ben separati uno dall'altro, ma non è adatto per scoprire cluster con forme non convesse o cluster di dimensioni molto dierenti. Il metodo è relativamente scalabile ed eciente nel processare grandi insiemi di dati perché la complessità computazionale dell'algoritmo è O(nkt), dove n è il numero totale di oggetti, k è il numero di cluster e t è il numero di iterazioni. Il metodo termina in un ottimo lo-cale. Tuttavia, può essere applicato soltanto quando è denita la media di un cluster e questo può non accadere in molte applicazioni, come ad esem-pio quando sono coinvolti dati con attributi categorici. La necessità per gli utenti di specicare all'inizio il valore di k, ovvero il numero dei cluster, può essere vista come uno svantaggio. Inoltre, è sensibile al rumore e agli ou-tlier dal momento che un piccolo numero di questi dati possono inuenzare sostanzialmente il valore medio.

(39)

Si supponga di avere un insieme di oggetti localizzati nello spazio secondo quanto mostrato in Figura 2.12. Si supponga k = 3, ovvero che l'utente voglia suddividere gli oggetti in 3 cluster. Seguendo l'algoritmo k-means scegliamo arbitrariamente 3 oggetti come i 3 medoidi e li indichiamo con un +. Ciascun oggetto viene distribuito su un cluster basandosi sul medoide a cui è più vicino. Tale distribuzione forma le silhouette separate da curve tratteggiate mostrate nella Figura 2.12 (a).

Figura 2.12: Clustering di un insieme di oggetti basato sul metodo k-means Al termine di tale raggruppamento è necessario ricalcolare i medoidi ba-sandosi sugli oggetti che correntemente fanno parte del cluster. Usando i nuovi medoidi, gli oggetti vengono ridistribuiti tra i vari cluster basandosi sulle loro distanze. Tale ridistribuzione forma le silhouette circondate da curve tratteggiate, mostrate nella Figura 2.12 (b). Il processo viene, quindi, iterato di nuovo e si ottengono le silhouette mostrate nella Figura 2.12(c). Dopo di ciò non si ha più alcuna ridistribuzione degli oggetti e, pertanto, il processo termina. I cluster mostrati nella Figura 2.12(c) rappresentano, di conseguenza, il risultato nale del processo di clustering. Vi sono alcu-ne varianti del metodo k-means che possono dierire alcu-nella selezioalcu-ne e alcu-nella strategia per il calcolo dei medoidi e nel calcolo della similarità.

Metodi density-based

Per individuare cluster di forma arbitraria sono stati sviluppati i metodi di clustering basati sulla densità. Questi tipicamente considerano i cluster

(40)

come regioni dense di oggetti nello spazio dei dati separate da regioni a bassa densità (che rappresentano rumore).

DBSCAN Il DBSCAN (Density-Based Spatial Clustering of Applications with Noise) è un metodo di clustering basato sulla densità, quindi raggruppa regioni di punti con densità sucientemente alta. Per ogni oggetto, saranno trovati i vicini che ricadono in un raggio dato come parametro in ingresso (Eps): se il numero di tali vicini è superiore ad un fattore di soglia (MinPts), allora tali punti faranno parte del medesimo cluster dell'oggetto che si sta osservando. Al termine dell'algoritmo avremo dei punti appartenenti a clu-ster e punti lasciati liberi: questi ultimi rappresentano rumore. L'algoritmo si basa sulla suddivisione dei punti (Figura 2.13) in:

• core point: se ha un numero minimo di punti (MinPts) all'interno del suo raggio Eps;

• border point: se ha meno di MinPts all'interno del suo Eps; • noise point: se non è né un border point né un core point

(41)

2.3.3 Altre tecniche di data mining

Regressione La regressione sfrutta valori noti per predirne altri non co-nosciuti. Ancora una volta si tratta di modelli supervisionati, pertanto sarà necessario disporre di un training set, utile per la costruzione del modello applicato in futuro a dati nuovi. Tecnicamente esistono due tipologie di va-riabili, quelle dipendenti e quelle indipendenti: in una prima fase si realizza il modello avendo noti i valori delle due variabili per un certo insieme di tuple, in seguito lo stesso viene applicato alle nuove tuple, di cui sono noti solo i valori delle variabili indipendenti per predire quelle dipendenti.

Serie temporali Talvolta l'attributo target è soggetto a un'evoluzione temporale e risulta quindi associato a istanti successivi lungo l'asse tem-porale. In questi casi, si dice che la sequenza di valori della variabile target costituisce una serie storica. I modelli di serie storiche studiano fenomeni caratterizzati da una dinamica temporale e si propongono di predire il valore della variabile target per uno o più periodi futuri. Sono modelli tendenzial-mente di stima in cui la variabile target oltre a essere una variabile numerica, è soggetta ad un'evoluzione temporale.

Regole associative Si propongono di identicare associazioni interessanti e ricorrenti tra gruppi di record di un dataset. Ad esempio, vengono utilizzati per identicare quali prodotti vengono acquistati congiuntamente nel corso della medesima transazione e con quale frequenza (market basket analysis). Si utilizzano soprattutto nel mondo della grande distribuzione organizzate per capire se esistono delle associazioni ricorrenti tra i prodotti acquistati.

(42)

Capitolo 3

Denizione del metodo

Nel capitolo precedente abbiamo analizzato diversi approcci proposti per af-frontare il problema della predizione del successo di un nuovo prodotto. Come visto precedentemente, ogni approccio analizzato utilizza tecniche dierenti che spesso variano a secondo del contesto di riferimento; perciò il dominio applicativo di questi approcci è spesso limitato ad un ambiente specico, ri-sultando così inadatti e non replicabili in altri contesti. Il metodo da noi proposto vuole superare tali limiti, cercando di essere generico e applicabile in qualunque contesto.

3.1 Cos'è il successo?

Prima di analizzare il metodo da noi formulato, è necessario fornire una chiara denizione di ciò che per noi rappresenta il successo o l'insuccesso di un bene. Non esiste una denizione generale per denire il successo di un prodotto, anche se questo è spesso correlato al protto, in termini monetari, che se ne ricava dalla sua vendita. Intuitivamente, un bene che fa guadagnare molto l'azienda che lo produce, rappresenta certamente un bene di successo. Il successo di un prodotto però, potrebbe essere valutato anche secondo altri parametri quali il volume di vendita, la soddisfazione della clientela o la quota di mercato. Queste misure non sempre hanno una correlazione con

(43)

il protto generato, in quanto potrebbe accadere che un prodotto che pur essendo molto venduto, non garantisce ampi margini di protto all'azienda.

Per essere in grado di identicare i prodotti o gli artisti che hanno rag-giunto il successo (o probabilmente lo raggiungeranno), si è scelto di denire un modo qualitativo per caratterizzare i beni di successo (Hits) e quelli di insuccesso (Flops). Nella gura sottostante vengono rappresentati due trend che rappresentano il tasso di adozione nel tempo rispettivamente per un bene di successo (in rosso) e un bene di insuccesso (in blu). In particolare ogni punto (x,y) della funzione rappresenta la percentuale y delle adozioni totali al tempo x. Utilizzando questo esempio come linea guida possiamo dare la nostra denizione di Hit e di Flop.

Time Adoption Rate E F Hit Flop

Figura 3.1: Esempio di trend per prodotti Hit e Flop

Denizione 1. (Hit). Un Hit, o un bene di successo, è un bene il cui trend di adozione cresce lentamente nel tempo no a raggiungere un punto di esplosione (il punto E in Figura 3.1) che segna l'inizio di un forte aumento del numero di adozioni.

(44)

Denizione 2. (Flop). Un Flop, o un bene di insuccesso, è un bene il cui trend di adozione non cresce in maniera considerevole nel tempo, oppure raggiunge subito un punto di massimo (F in Figura 3.1) per poi decrescere rapidamente. Consideriamo Flop tutti quei beni il cui trend è costante nel tempo.

Come sottolineato in precedenza, le denizioni proposte sono soltanto qualitative: infatti il loro obiettivo è quello di catturare patterns specici descritti dai trends di adozione in modo che non sia necessario denire un volume minimo di diusione per categorizzare un bene di successo. L'idea alla base di tale scelta è che beni di natura diversa sono caratterizzati dall'avere anche un mercato diverso; invece analizzando i dati sulle vendite al dettaglio possiamo identicare lo stesso pattern di successo in prodotti appartenenti a dierenti categorie. Come esempio consideriamo il trend di adozione di un prodotto hi-tech di successo e quello di un bene di genere alimentare: anche se i loro trend di adozione possono sembrare simili, probabilmente il volume reale delle loro vendite dierisce di molto (a causa della dierenza di prezzo). A partire da queste denizioni, introduciamo una metodologia che, basandosi soltanto sulle prime osservazioni del trend di adozione di un bene, consente di predire se questo sarà un bene di successo (Hit) o meno (Flop).

3.2 Predire il successo

Avendo a disposizione informazioni sui trend di adozione di un breve perio-do, per essere in grado di decidere se un nuovo bene sarà un Hit o meno abbiamo bisogno di estrarre informazioni utili da esempi conosciuti e pro-gettare un modello di predizione adabile. Per raggiungere questo obiettivo proponiamo un approccio diviso in cinque fasi:

1. Si estraggono i proli dei beni Hit e Flop 2. Si individuano gli Innovatori

(45)

4. Si ranano e si consolidano gli insiemi di indicatori positivi/negativi 5. Si denisce una tecnica di predizione rule-based utilizzando gli

indica-tori calcolati in precedenza

L'approccio proposto si basa sull'analisi dei logs di adozione che possono essere visti come un insieme ordinato temporalmente di triple della forma < a, g, t > dove a ∈ A è un adopter (un utente che adotta un bene), g ∈ G è il bene adottato, e t rappresenta il tempo di adozione. Inoltre è possibile avere più adozioni per la stessa coppia bene-utente in tempi dierenti. Perciò introduciamo la seguente simbologia:

• ω(a, •) identica l'insieme dei beni in • adottati dall'utente a;

• ψ(g, ) identica gli adopters del bene g in un insieme di adopters ; • ι(g, τ ) identica gli adopters di un bene g dato un trend di adozione τ.

3.2.1 Primo passo: Identicazione dei beni Hit e Flop

In questa fase l'obiettivo principale è quello di riuscire ad identicare quelli che sono i beni di successo (Hits) e i beni di insuccesso (Flops) e succes-sivamente analizzare i loro trends caratteristici. Si è scelto di arontare questo problema applicando un algoritmo di clustering, in particolar modo il k-means. Tale scelta è suggerita dal fatto di conoscere a priori il nume-ro di clusters che si vuole ottenere, perciò si è scelto di restringere l'analisi considerando le due sole categorie (due clusters) di prodotti esaminate in pre-cedenza: Hits e Flops. L'algoritmo scelto è stato eseguito utilizzando come insieme di features, la distribuzione delle adozioni per ogni bene. In seguito indicheremo con H e F rispettivamente il log di adozione dei prodotti di successo e di quelli di insuccesso.

(46)

0 5 10 15 20 25 Time (months) 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 Adoption Rate Last.fm Clustering Hit Flop

Figura 3.2: Trend adozioni cluster per Lastfm

Nella Figura 3.2 viene rappresentato un esempio del clustering eettuato per le analisi sul dataset di Lastfm (nella sezione sperimentale verrà ana-lizzato nel dettaglio): si nota come i trends per i due clusters possiedono caratteristiche molto diverse. Infatti il cluster di successo ha un trend di adozioni (in rosso) che cresce lentamente prima di arrivare ad un punto di massimo nei mesi centrali per poi decrescere denitivamente. Il cluster dei Flop, al contrario, raggiunge subito un punto di massimo e il suo trend di adozioni (in blu) decresce nel tempo.

3.2.2 Secondo Passo: ricerca degli Innovatori

L'obiettivo in questa fase è quello di identicare gli utenti che hanno acquista-to un bene Hit prima che lo stesso raggiungesse il successo. In pratica, daacquista-to un bene di successo g ∈ H siamo interessati ad identicare il set di utenti che per primo ha adottato g, ovvero gli innovatori del bene g. Come descrit-to in precedenza, il tema degli innovadescrit-tori ha suscitadescrit-to un forte interesse nel mondo scientico e nel tempo sono stati proposti diversi approcci per riuscire ad individuare questi particolari utenti. Tali approcci, per lo più ispirati al lavoro di Rogers, utilizzano denizioni di soglie pressate per raggruppare gli

Riferimenti

Documenti correlati

Although considered low-ranking food, plants are also energetic resources, and their starch content, stored mainly in the fruits or in the underground storage organs (roots,

Il polinomio dato `e di terzo grado, quindi `e riducibile se e solo se ha un farrore di grado1.. Per il teorema di Ruffini, questo vuol dire che ` e riducibile se e solo se ha

Il tipo intero viene utilizzato per tutte le grandezze che possono essere rappresentate come numeri interi, come per es.: età, numero di figli, ecc.. Campo di variabilità Campo

Priorità degli operatori può essere alterata con le parentesi tonde: vengono valutate per prima le operazioni all’interno delle parentesi tonde più

Questa condi- zione ha riflessi anche di carattere generale, perché non è pensabile che il sistema delle cure prolungate possa continuare in una condizione di marginalità e

Gli esercizi assegnati agli studenti sono stati estratti dai seguenti

Corso

Indicare il metodo usato e il numero di sottointervalli necessari per avere la