• Non ci sono risultati.

Social media e finanza: studio dei cashtags su Twitter per l’individuazione di spam e pattern di utilizzo anomali

N/A
N/A
Protected

Academic year: 2021

Condividi "Social media e finanza: studio dei cashtags su Twitter per l’individuazione di spam e pattern di utilizzo anomali"

Copied!
68
0
0

Testo completo

(1)

UNIVERSITÀ DI PISA

Dipartimento di Informatica

Corso di Laurea Magistrale in Informatica per l’economia e per l’azienda (Business Informatics)

TESI DI LAUREA

Social media e finanza: studio dei cashtags su Twitter

per l’individuazione di spam e pattern di utilizzo anomali

RELATORI

Prof. Maurizio TESCONI Dott. Stefano CRESCI

CANDIDATO Serena TARDELLI

(2)

ABSTRACT

Le informazioni finanziarie condivise sui social media rappresentano un superamento delle barriere tradizionali fonte di asimmetria informativa, ma nascondono anche delle insidie legate alla manipolazione delle notizie. Il lavoro si concentra sull’analisi del contenuto finanziario sui social, focalizzandosi in particolare sulla piattaforma Twitter, che prevede l’uso dei “cashtags” a tale scopo. La raccolta e l’analisi dei tweets relativi alle discussioni finanziarie avvenute nell’arco di quattro mesi circa ha permesso l’individuazione di pattern di utilizzo anomali dei cashtags. Tali anomalie rivelano una pratica speculativa volta ad incrementare la percezione di popolarità di titoli a bassa capitalizzazione, al fine di ingannare potenziali investitori e sistemi di trading automatizzati che basano le proprie decisioni sui contenuti web. Questa scoperta ha consentito infine di identificare una grande quantità di accounts automatizzati coinvolti, utilizzando tecniche di machine learning della letteratura.

(3)

INDICE

1. INTRODUZIONE ... 1

1.1. Il boom dei social media come nuova forma di comunicazione ... 1

1.2. La rivoluzione dei social media nella comunicazione finanziaria ... 2

1.2.1. Panoramica sul mondo della finanza ... 2

1.2.2. Il ruolo dei social media nella condivisione di contenuti finanziari ... 4

1.2.3. Cashtags: il veicolo delle informazioni finanziarie su Twitter ... 5

1.3. Obiettivi ... 6

2. STATO DELL’ARTE ... 8

2.1. Social media come strumento per la previsione dell'andamento dei mercati azionari ... 8

2.2. Tecniche di individuazione di accounts automatizzati ... 11

3. RACCOLTA DATI ... 15

3.1. Raccolta titoli da Google Finance ... 15

3.1.1. Mercato azionario ... 16

3.1.2. Categoria finanziaria ... 18

3.1.3. Capitalizzazione ... 20

3.2. Raccolta dati Twitter ... 22

3.2.1. Società monitorate ... 22

4. ANALISI ESPLORATIVA ... 24

4.1. Analisi delle serie storiche dei cashtags ... 28

4.2. Individuazione di pattern di utilizzo anomali ... 30

5. ANALISI DEI TWEETS CHE HANNO GENERATO ANOMALIE ... 35

5.1. Ipotesi 1: cashtags in un tweet appartenenti alla stessa categoria finanziaria ... 35

5.2. Ipotesi 2: cashtags in un tweet a capitalizzazione variabile ... 39

5.2.1. Analisi delle capitalizzazioni dei cashtags ... 39

5.2.2. Capitalizzazioni vs volume delle anomalie ... 42

6. ANALISI DEGLI UTENTI CHE HANNO GENERATO ANOMALIE ... 48

6.1. Applicazione della tecnica Digital DNA Fingerprinting per l’individuazione di spammers ... 48

7. CONCLUSIONI E SVILUPPI FUTURI ... 55

8. APPENDICE ... 57

(4)

INDICE DELLE FIGURE

Figura 1.1. Primo tweet ufficiale dall'introduzione dei cashtags ... 5

Figura 1.2. Tweet di un utente medio che utilizza il cashtag $MSFT (Microsoft, inc) ... 5

Figura 1.3. Tweet di un account ufficiale con cashtag $TSLA (Tesla, inc) ... 6

Figura 2.1. Tweet fake che ha provocato un crollo nello stock market USA nel 2010 ... 10

Figura 2.2. Esempi di tweets riguardanti Cynk Technology ... 10

Figura 3.1. Livello gerarchico della classificazione TRBC ... 19

Figura 3.2. Distribuzione delle capitalizzazioni ... 21

Figura 4.1. Tweets raccolti per giorno dal 19 maggio al 12 settembre ... 24

Figura 4.2. Tweet raccolti per ora dal 19 maggio al 12 settembre ... 24

Figura 4.3. distribuzione di co-occorrenze ... 25

Figura 4.4. Porzione del grafo delle co-occorrenze dei cashtags ... 26

Figura 4.5. Porzione di word-cloud dei cashtags più menzionati tra quelli di cui sono state raccolte informazioni da Google Finance ... 27

Figura 4.6. Istogramma in scala lineare del numero dei cashtags per tweet ... 28

Figura 4.7. Log-log plot dei dati osservati segue una distribuzione power-law ... 28

Figura 4.8. Cashtags di cui si rileva almeno un picco cambiando θ ... 32

Figura 4.9. Esempio di tweet retweettato durante un picco ... 32

Figura 4.10. Tweet da account verificato che suscita notizia ... 33

Figura 4.11. Tweets con più di 10 cashtags retweettati durante i picchi ... 33

Figura 5.1. Entropia normalizzata dei tweets ad ogni livello di classificazione ... 37

Figura 5.2. Media dell’entropia normalizzata per i tweets in base al numero di cashtags nel tweet ... 38

Figura 5.3. Deviazione standard delle capitalizzazioni all’interno di un tweet ... 40

Figura 5.4. Percentuale di copertura della capitalizzazione più alta all’interno dei tweets rispetto al mercato di riferimento ... 41

Figura 5.5. Capitalizzazione dei cashtags rispetto alla mediana delle altezze dei picchi in cui occorrono ... 42

Figura 5.6. Kernel Density Estimation della capitalizzazione dei cashtags rispetto alla mediana delle altezze dei picchi in cui occorrono ... 44

Figura 5.7. Cashtags di cui si rileva almeno un picco cambiando θ ... 45

Figura 5.8. Esempio di tweet con un solo cashtag OTCMKT che genera anomalia in presenza del trend “Rihanna” ... 46

Figura 5.9. Esempio di tweet con un solo cashtag OTCMKT che genera anomalia in presenza del trend “Trump” ... 46

Figura 6.1. Distribuzione delle diverse basi del DNA all'interno delle sequenze ... 49

Figura 6.2. Grafico delle sequenze delle timelines degli utenti che hanno generato anomalie ... 50

Figura 6.3. Grafico delle sequenze delle timelines di utenti reali dimostrato nel lavoro [57] ... 50

Figura 6.4. Entropia Shannon intra-sequence ... 51

Figura 6.5. Entropia Shannon inter-sequence ... 51

Figura 6.6. Grafico di similarità LCS ... 52

Figura 6.7. Comparazione tra le curve LCS di account genuini e account bot dimostrato nel lavoro [57] ... 52

Figura 6.8. Profilo twitter di alcuni utenti che hanno contribuito a generare anomalie ... 53 Figura 6.9. Esempio di tweets postati da alcuni utenti che hanno contribuito a generare anomalie 53

(5)

INDICE DELLE TABELLE

Tabella 3.1. Esempi di aziende scrapate con il relativo mercato di appartenenza ... 17

Tabella 3.2. Società raccolte per ogni mercato azionario tramite scraping ... 18

Tabella 3.3. Esempio di classificazioni di aziende. Ogni livello di classificazione ha un codice identificativo che non è mostrato in questa tabella ... 20

Tabella 3.4. Esempio di capitalizzazioni scrapate ... 20

Tabella 3.5. Capitalizzazione dei mercati ... 21

Tabella 4.1. Cashtags tweettati più spesso ... 27

Tabella 4.2. Esempi di serie storiche e anomali trovate per alcuni cashtags ... 31

Tabella 5.1. Esempio di recupero della categoria finanziaria per un tweet che contiene $AAPL e $GOOG ... 36

(6)

1. INTRODUZIONE

1.1. Il boom dei social media come nuova forma di

comunicazione

I social media sono piattaforme virtuali di ritrovo diventate una realtà diffusa in molti paesi del mondo. La loro importanza è cresciuta negli ultimi anni introducendo un nuovo paradigma di comunicazione: le persone vi accedono per intraprendere attività sociali e di intrattenimento, mantenersi informati sui fatti di tipo commerciale, culturale, tecnico, condividere contenuti multimediali e idee, accedere a molteplici servizi e socializzare [1].

I social media rappresentano una continua fonte non strutturata e non validata di notizie ed esperienze condivise in tempo reale dagli utenti stessi [3]. I dati che vengono raccolti su queste piattaforme stanno sempre più attirando e incuriosendo il mondo della ricerca e dell’industria, in quanto possono essere usati in molti ambiti, dal settore di prevenzione e sicurezza, come la social media awareness che monitora il contenuto dei social per gestire le emergenze o comunicare con i cittadini nei momenti critici, come avvenuto durante gli attacchi terroristici di Parigi e Bruxelles nel 2015 [2], al settore politico, dove la tendenza è quella di spostare le campagne elettorali e la divulgazione di idee dalle piazze alla rete, in particolare sui canali social [4].

Uno dei social più importanti in questo contesto è Twitter. Twitter offre un servizio di microblogging che consente agli utenti di pubblicare dei tweets, brevi messaggi della lunghezza massima di 140 caratteri, limite esteso a 280 caratteri il 7 novembre 2017,1 o

ricondividere tweets di altri utenti all’interno della piattaforma, retweets, dando il via al meccanismo di diffusione dell’informazione. Il ristretto numero di caratteri consente al lettore di acquisire le informazioni molto più velocemente rispetto ad un articolo di giornale o un blog, e di rimanere quindi sempre aggiornato sui fatti in tempo reale. Studi recenti dimostrano che il 62% degli adulti negli Stati Uniti si informa esclusivamente sui social media [8].

Queste caratteristiche e peculiarità proprie di Twitter sono state oggetto di studi accademici volti ad analizzare le dinamiche sociali che questa nuova forma di comunicazione comporta e come essa influisca sulla società moderna. Analizzando ed interagendo con Twitter è infatti possibile anticipare o creare tendenze che vanno ad influire in modo concreto sul mondo reale. Tuttavia i contenuti possono essere trasmessi tra gli utenti senza nessun controllo da terze parti che accertino la veridicità dell’informazione. Un individuo senza reputazione o affidabilità può raggiungere in alcuni casi l’attenzione di importanti testate giornalistiche [5] o influenzare il pensiero e il modo d’agire di altri utenti

1 https://www.wsj.com/articles/twitters-280-character-tweets-officially-go-live-1510088401. In questo lavoro

(7)

[6]. Esempi recenti si sono riscontrati durante elezioni USA del 2016, dove le fake news (notizie e articoli intenzionalmente falsi che circolano sui social media per trarre in inganno i lettori) più popolari e discusse tendevano a favorire Donald Trump rispetto a Hillary Clinton [5][7].

I social network rappresentano quindi piattaforme di notevole interesse anche per esercitare influenza sull’opinione pubblica in tutti i settori: economico, sociale, politico, finanziario.

1.2. La rivoluzione dei social media nella comunicazione

finanziaria

1.2.1. Panoramica sul mondo della finanza

La finanza è una disciplina economica che si occupa di studiare i processi e le scelte di investimento e finanziamento. Un investimento è l’attività finanziaria di un soggetto economico (investitore) volta all’incremento di capitali e a creare o acquisire nuove risorse da utilizzare nel processo produttivo per ottenere un profitto. Il finanziamento, invece, consiste nella cessione di una somma di denaro con il vincolo di una restituzione di un capitale dello stesso valore o di valore maggiore.2

L’interesse della finanza è soprattutto per gli strumenti finanziari e per i mercati all’interno dei quali essi vengono scambiati: i mercati finanziari.3

Con strumento finanziario si intende una particolare categoria di prodotti finanziari considerati mezzi di investimento di natura finanziaria attraverso i quali avvengono scambi di flussi di denaro tra individui, imprese e Stati. In altre parole uno strumento finanziario è un qualsiasi contratto diretto al trasferimento della moneta nello spazio (assegni bancari, carte di credito), nel tempo (depositi bancari, azioni, mutui, obbligazioni, ecc.) oppure volto al trasferimento del rischio (assicurazioni).4

Il mercato finanziario è il luogo, non necessariamente fisico, in cui avvengono gli scambi di questi strumenti finanziari. Ogni mercato finanziario ha delle regole precise sulle modalità di ammissione di strumenti finanziari ed operatori ed è caratterizzato da un’attività di supervisione che di norma viene effettuata dalla società che organizza il mercato, assistita da un’autorità di controllo a cui la prima segnala eventuali irregolarità. In questo luogo avviene l’incontro tra gli investitori che vogliono investire i propri risparmi e i soggetti economici che hanno necessità di risorse. A fare da mediatori fra le due parti, assicurando un rapporto corretto e serio e tutelando le transazioni, ci sono gli intermediari finanziari, che si occupano di informare gli investitori relativamente ai soggetti verso cui stanno per destinare le loro risorse.

2 http://www.treccani.it/enciclopedia/finanza/

3 http://www.treccani.it/enciclopedia/ricerca/mercato-finanziario/

(8)

In base alla natura degli strumenti finanziari scambiati, è possibile distinguere tra più tipi di mercati finanziari: mercato azionario, mercato delle valute monetario, mercato obbligazionario, ecc.

In particolare, Il mercato azionario o Borsa è il luogo dove sono negoziati i titoli azionari.5

Un titolo azionario o azione è una quota di proprietà di una società per azioni che dà diritto a chi la acquista di ricevere i dividendi distribuiti e il guadagno dovuto alla possibile crescita della quotazione della società stessa.

Un esempio di mercato azionario in Italia è la Borsa Valori a Milano;6 negli altri stati può capitare che vi siano più Borse, per esempio negli USA (NASDAQ, NYSE, ecc.), che quotano società diverse in base alla categoria di beni prodotti, o in base ad altre caratteristiche.

Un indice azionario risulta dalla media pesata di un insieme di titoli e viene utilizzato dagli investitori per avere un’idea sintetica e immediata di come sta andando uno specifico mercato azionario, poiché viene considerato rappresentativo dell’andamento di tale mercato (es. Il Dow Jones Industrial Average comprende le 30 aziende della Borsa di New York a maggiore capitalizzazione; Lo S&P 500 traccia le prime 500 per capitalizzazione USA, gli indici riferiti alla Borsa di Milano come Ftse MIB o FTSE Italia Mid Cap raggruppano titoli diversi in listino e ne segnano l'andamento).

Il mercato azionario si divide in mercato primario e mercato secondario. Nel primo vengono scambiati i nuovi titoli azionari emessi, nel secondo quelli già in circolazione. In questo lavoro si fa riferimento ai mercati secondari, dove avviene la maggior parte delle attività di trading giornaliere. I mercati primari sono solitamente più volatili di quelli secondari, perché è più difficile stimare con precisione quale sarà la domanda per un nuovo titolo prima che siano trascorsi diversi giorni di scambi sui mercati. Nel primario i prezzi vengono stabiliti in partenza, mentre nel secondario sono le forze di mercato come la domanda e l’offerta a determinare il valore di un titolo.

I mercati si distinguono inoltre in regolamentati, caratterizzati dal fatto di essere retti da un sistema di regole di negoziazione e quotazione che disciplinano l’organizzazione del mercato, le modalità, gli operatori e le tipologie contrattuali ammesse, e mercati non regolamentati (over-the-counter), in cui il titolo azionario non è scambiato in Borsa ma bensì in una rete che prevede uno scambio diretto tra chi compra e chi acquista, dunque in assenza di intermediari e autorità di controllo.

5 http://www.treccani.it/enciclopedia/borsa-valori/ 6 http://www.borsaitalia.it/

(9)

1.2.2. Il ruolo dei social media nella condivisione di contenuti

finanziari

L’influenza dei social media è arrivata a toccare molti ambiti, grazie alla loro caratteristica di raggiungere un grande numero di persone e di influenzare quelle che possono essere le scelte e i pensieri. Il mondo della finanza non è esente da questo trend.

Le piattaforme di social media hanno trasformato il mercato dei capitali in due modi significativi:

1. dal punto di vista delle aziende: i social media sono un canale importante attraverso il quale le imprese possono comunicare con gli investitori in modo tempestivo ed economico. Le società possono ridurre l’asimmetria informativa tra investitori più rapidamente disseminando le loro notizie sulle pagine ufficiali, inviando link ai partecipanti del mercato ed emettendo comunicati stampa. Il lavoro in [13] mette in evidenza come circa la metà delle aziende seguite da Standard & Poor's7 abbiano

creato un account Twitter aziendale o una pagina di Facebook, con una crescente preferenza per Twitter; le imprese utilizzano i canali social media come Twitter per interagire con gli investitori, attenuare le reazioni negative dei prezzi [14] e superare i tradizionali metodi di divulgazione [12];

2. dalla prospettiva degli investitori: i social media forniscono l'accesso alle informazioni, non solo provenienti dalle imprese, ma anche da altre fonti.

In passato, la selezione degli investimenti o la proposta di nuovi assets avveniva all'interno dei ristretti circoli della finanza, aperti solo agli addetti ai lavori. Oggi a questi circoli si sono aggiunti i social network, in quanto luoghi aperti a tutti.

Grazie alla generale digitalizzazione delle relazioni sociali e lavorative, anche il mondo finanziario ha saputo sfruttare in modo efficace tutti i canali digitali, arrivando ad essere considerato uno dei settori che si presta maggiormente a trarre vantaggio da questo mondo virtuale.

Recentemente le persone con un qualche interesse per la finanza si rivolgono sempre meno a operatori specializzati e tendono a informarsi e confrontarsi su tematiche di carattere finanziario attraverso le piattaforme online.

Sono ad esempio 5 milioni gli investitori finanziari che utilizzano i social media per maturare delle decisioni sui loro investimenti: sui giusti social e gruppi trovano soprattutto contenuti e aggiornamenti che ritengono rilevanti, utili e di valore,8 e la possibilità di interagire in tempo reale con altre persone che hanno gli stessi interessi e obiettivi [10].

7 Standard & Poor's è una società con sede USA che realizza ricerche finanziarie e analisi su titoli azionari e

obbligazioni, fra le prime tre agenzie di rating (valutazione) al mondo insieme a Moody's e Fitch Ratings. http://www.standardandpoors.com/en_US/web/guest/home

(10)

1.2.3. Cashtags: il veicolo delle informazioni finanziarie su

Twitter

Su Twitter le informazioni finanziarie sono veicolate attraverso il sistema di cashtags, uno standard di ricerca introdotto nel 2012.9

Figura 1.1. Primo tweet ufficiale dall'introduzione dei cashtags10

I cashtags sono stringhe di testo composte dal simbolo $ seguito dalla sigla di un titolo quotato in Borsa, il ticker (i titoli quotati sui mercati finanziari sono rappresentati da una sigla di negoziazione, detta ticker symbol o stock symbol. La sigla può contenere lettere, numeri o una loro combinazione che identifica univocamente una società quotata in un particolare mercato), ad esempio $AAPL (Apple) e $GOOG (Google). I risultati di ricerca effettuati mediante il filtro cashtag raccolgono le discussioni relative al titolo cercato. In generale la funzione è quella di consentire la condivisione di informazioni circa l’andamento di una società, sia da parte di utenti comuni, Figura 1.2, sia da parte di utenti ufficiali, Figura 1.3.

Figura 1.2. Tweet di un utente medio che utilizza il cashtag $MSFT (Microsoft, inc)

9 http://money.cnn.com/2012/07/31/technology/twitter-cashtag/index.htm 10 https://twitter.com/twitter/status/230098997010911233

(11)

Figura 1.3. Tweet di un account ufficiale con cashtag $TSLA (Tesla, inc)

Queste informazioni sono sempre più spesso usate sia dagli operatori finanziari per informarsi, fare statistiche e report, trovare un supporto per percepire ed analizzare i movimenti di mercato dei titoli quotati, sia dai sistemi di trading automatici di nuova generazione.

Un sistema di trading automatico è un programma che crea ordini e li sottomette automaticamente in un mercato di scambio. Il programma genera automaticamente gli ordini in base a un insieme predefinito di regole utilizzando una strategia di trading che spesso è basata su analisi tecniche, ma che può anche essere fondata sulla base di input rilevati o ricevuti da altre fonti elettroniche. I sistemi di trading automatizzati sono spesso usati nel mercato azionario [59], in quanto possono eseguire compiti ripetitivi a velocità più elevata di un qualsiasi equivalente umano.

1.3. Obiettivi

L’obiettivo di questa tesi di ricerca consiste nel raccogliere dal social network Twitter le informazioni relative alle discussioni nate attorno ai titoli quotati nei principali mercati finanziari USA, al fine di analizzare il pattern d’uso dei cashtags per individuare anomalie nel loro utilizzo che possano rivelare la presenza di accounts automatizzati creati appositamente per generare false discussioni.

Questa lavoro nasce dal fatto che da un lato esistono numerosi studi nella letteratura scientifica che pongono il problema della recente presenza massiva di accounts automatizzati sui social media. Essi fungono da “influenzatori” delle persone e cercano di manipolare l’opinione pubblica creando fake news o amplificando la notorietà di un personaggio

(12)

politico, come molti studi hanno dimostrato [5][7]. Dall’altra parte ci sono molti articoli scientifici che elogiano il ruolo che la finanzia si è ritagliata nel web, soprattutto sui social media, abbattendo le asimmetrie informative e aprendo le porte alle persone che non operano nella finanza. Molti studi suggeriscono di utilizzare le informazioni su questi nuovi canali per fare trading o prevedere l’andamento di una società ed esistono già molti sistemi che utilizzano algoritmi di trading automatici11 che basano le decisioni anche su questo tipo di dati.Non sono però noti studi che affrontano il fenomeno degli accounts automatizzati e del loro utilizzo nel contesto della finanza sui social media. Per questo motivo questo lavoro apre le porte di un nuovo e interessante campo scientifico.

Il lavoro effettuato si può riassumere nelle seguenti fasi.

1. Raccolta delle informazioni relative alle società quotate nei principali mercati finanziari degli Stati Uniti tramite tecniche di scraping da Google Finance;

2. Creazione di un dataset di tweets contenti cashtags dei mercati NASDAQ, NYSE, NYSEARCA e NYSEMKT, raccolti tramite Twitter APIs tra il 19 maggio 2017 e il 12 settembre 2017;

3. Analisi del dataset raccolto tramite l’utilizzo di tecniche basate sulle serie storiche, al fine di estrarre informazioni significative dai dati, tecniche di anomaly detection, per identificare eventi e osservazioni non conformi al comportamento previsto, e approcci statistici per l’interpretazione dei dati e l’individuazione di pratiche speculative nell’uso dei cashtags;

4. Individuazione di accounts automatizzati nel dataset tramite l’utilizzo di tecniche della letteratura scientifica.

I risultati ottenuti evidenziano i rischi legati all’utilizzo di queste piattaforme da parte dei sistemi di trading automatici, i cui algoritmi analizzano le informazioni e le discussioni che esplodono sui social per valutare la popolarità che si sviluppa intorno ai titoli quotati, come supporto per prendere decisioni e predire l’andamento dei prezzi delle azioni. Lo studio evidenzia la presenza di una pratica fraudolenta mirata ad accrescere l’importanza e la popolarità percepita di alcuni cashtags da parte di utenti sospetti, che si sono rivelati accounts automatizzati tramite l’utilizzo di tecniche presenti nella letteratura.

Questa tesi di ricerca può essere definita innovativa poiché descrive un fenomeno non esplorato fino ad ora nella comunità scientifica, cioè quello di accertare l’attendibilità delle informazioni finanziarie che circolano su Twitter usando un processo analitico riutilizzabile per nuovi studi legati l’utilizzo dei cashtags.

11

(13)

2. STATO DELL’ARTE

Nella letteratura scientifica, come anticipato al Sezione 1.3, sono presenti da un lato lavori che studiano il ruolo che la finanza ha assunto nei social media e come tali attività su tali piattaforme virtuali siano correlate con il mercato azionario. Dall’altro molti sforzi si sono concentrati nello studio del comportamento ingannevole degli accounts automatizzati sui social network al fine di creare algoritmi di detection capaci di individuarli.

Il seguente capitolo esplora questi due mondi e riassume le scoperte che sono state effettuate fino ad ora in tali ambiti.

2.1. Social media come strumento per la previsione

dell'andamento dei mercati azionari

La comunità scientifica è in continuo dibattito per capire se le informazioni generate e diffuse da individui nelle piattaforme dei social media possano essere usate come strumento promettente per fare stock market prediction.

È stato dimostrato che le attività di microblogging sono altamente correlate con lo stock market [15] [16]. Molti studi come in [17] suggeriscono che le informazioni provenienti dagli utenti Twitter abbiano un notevole valore, evidenziando legami con il concetto del Wisdom of the crowd, secondo cui un grande gruppo di persone spesso esegue una migliore previsione collettiva rispetto a quella prodotta da esperti [18], e con il teorema di Hong-Page, il quale ritiene che un gruppo persone di bassa capacità e competenze, ma cognitivamente diverse riescano ad ottenere risultati di problem solving migliori rispetto a un gruppo uniforme di persone con alte capacità [19]. I tweets degli utenti riguardanti le prospettive future di un'azienda, forniscono una fonte di informazioni ampia e diversificata, in contrasto a ciò che può offrire il piccolo numero di analisti finanziari tradizionali. Il lavoro degli analisti finanziari, infatti, si concentra nel realizzare report di ricerca limitati a sfere omogenee [20] e può accadere che abbiano informazioni datate che non includono le ultime notizie relative alle aziende di cui si occupano [21] o che le loro azioni siano dettate da conflitti di interesse [22].

Con l'avvento dei social media gli investitori individuali si affidano quindi sempre più l'uno all'altro.

Un filone di ricerca scientifico indaga la relazione tra il volume dei tweets e i mercati finanziari: lo studio in [23] studia la correlazione tra il numero di tweets che menzionano gli indicatori di Borsa S&P 500,12 il prezzo delle azioni e il volume negoziato quotidianamente scoprendo correlazioni alte e suggerendo di poter decidere se acquistare o vendere in base alla presenza di un picco nel volume tweets.

12 L'indice S&P 500 è stato realizzato da Standard & Poor's nel 1957 e segue l'andamento di un paniere

(14)

Anche in [24] viene effettuato uno studio per identificare la correlazione tra performance dei tweets in termini di volume e performance del mercato, scoprendo che esiste solo a volte e che l'analisi della sentiment può svolgere un ruolo importante.

Un altro filone di questa letteratura indaga la relazione semantica tra stock e l’associata social sentiment che si manifesta sulle piattaforme, ovvero se l'umore degli investitori derivato dall'analisi del contenuto di un testo di Twitter può prevedere il mercato azionario complessivo.

Il sentimento è definito come “le aspettative dei partecipanti al mercato” [25]. Può richiedere due forme: positivo o negativo. Il positivo è il cosiddetto sentimento rialzista, quello negativo è il sentimento ribassista; il primo riflette le aspettative degli investitori di un rendimento superiore alla media, il secondo il risultato opposto [25]. Una terza classificazione spesso adottata è un sentimento neutro.

Nello studio [26] vengono confrontati i contenuti informativi del sentimento e del volume Twitter in termini di influenza sui prezzi futuri delle azioni. Gli autori riferiscono i dati Twitter e i prezzi giornalieri, a risoluzione oraria, e mostrano che il sentimento di Twitter contiene notevolmente maggiori informazioni sui prezzi rispetto al solo volume dei tweets.

Lo studio in [17] indaga se l'opinione aggregata nei singoli tweets relativi alle prospettive di un'azienda possa prevederne i guadagni e l’andamento dei prezzi, ottenendo risultati promettenti che evidenziano l'importanza per i partecipanti finanziari a considerare le informazioni aggregate su Twitter nel valutare le prospettive future e il valore delle società.

Un articolo di Fortune del 201513 ha rivelato che Tashtego, una società di fondi speculativi di Boston, ha fondato un fondo Sociale, che basa le proprie decisioni di investimento esclusivamente sul sentimento dai social media. Altre società sono andate in questa direzione, come Dataminr Inc., una ditta che analizza i tweets e altri flussi di informazioni per informare e orientare gli investimenti di traders, giornalisti e agenzie governative.14

Per tali motivi la finanza si sta sempre più affidando a queste informazioni attraverso la creazione di algoritmi di trading automatici che acquisiscono e rilevano informazioni da varie fonti: web, social, ecc. per prendere decisioni e fare trading.

Un sistema di trading automatico è un programma che crea ordini e li sottomette automaticamente in un mercato di scambio. Il programma genera automaticamente gli ordini in base a un insieme predefinito di regole utilizzando una strategia di trading che spesso è basata su analisi tecniche, ma che può anche essere fondata sulla base di input rilevati o ricevuti da altre fonti elettroniche. I sistemi di trading automatizzati sono spesso usati nel mercato azionario [59], in quanto possono eseguire compiti ripetitivi a velocità più elevata di un qualsiasi equivalente umano. I controlli di rischio tradizionali e le misure di sicurezza basate sul giudizio umano non sono appropriati per il trading automatizzato [60] e questo ha causato problemi come il Flash Crash del 2010.

Il 6 maggio 2010 è avvenuto il noto Flash Crash, improvviso crollo dell'indice Dow Jones, della Borsa valori di New York, avvenuto tra le 14:42 e le 15:07 ora locale senza

13 http://fortune.com/2015/04/02/hedge-fund-twitter/

(15)

apparente motivo: un evento mai avvenuto prima in quelle circostanze. Dopo cinque mesi di investigazione è stato scoperto che la causa era da attribuire ai sistemi di trading automatici che hanno valutato in modo scorretto alcune informazioni provenienti dal web [29].15

Nel 2010, la compagnia aerea australiana Qantas ha registrato una diminuzione del prezzo delle azioni di oltre il 10% dopo che sono stati segnalati falsi rapporti di un incidente aereo su Twitter.16

Il 23 aprile 2013 la Syrian Electronic Army ha hackerato l’account Twitter della Stampa Internazionale Ufficiale degli USA, postando un rumor falso riguardo un attacco terroristico avvenuto alla casa bianca in cui il presidente Obama era rimasto ferito (Fig. 2.1). Tale fatto ha provocato un crollo immediato nello stock market [29].

Figura 2.1. Tweet fake che ha provocato un crollo nello stock market USA nel 2010 Nel 2014 una campagna è stata architettata con successo, creando una discussione apparentemente solida riguarda ad una azienda di tecnologia, Cynk Technology. Esempi di tweets postati durante l’evento da account sospetti sono mostrati in Figura 2.2.

Figura 2.2. Esempi di tweets riguardanti Cynk Technology

15 http://www.nytimes.com/2010/10/02/business/02flash.html

(16)

Gli algoritmi di trading automatici hanno rilevato tale conversazione e hanno iniziato a investire pesantemente nelle azioni dell’azienda. Ciò ha portato a un incremento nel valore di mercato della stessa, portando il suo valore a 5 miliardi di dollari.1718 Quando gli analisti si sono accorti dell’orchestrazione e interrotto lo stock trading, ormai gli investimenti effettuati si erano trasformati in perdita.

Nonostante le potenzialità, quindi, tali piattaforme non sono regolamentate. Twitter non ha alcun meccanismo per monitorare le informazioni tweettate o per incentivare informazioni di alta qualità: le notizie che vi circolano possono essere speculative, dubbie, fuorvianti, o manipolate. Inoltre, i tweets sono limitate da pochi caratteri, contrariamente alle informazioni provenienti da altre fonti, incluse altre piattaforme di social media, e ciò limita potenzialmente la capacità del mittente di trasmettere informazioni rilevanti sul valore o di fornire fatti e analisi dettagliate per supportare le informazioni [17].

I precedenti lavori di ricerca menzionati non tengono in considerazione tale fenomeno ingannevole presente nei social media e se lo fanno arginano il problema applicando una fase preliminare per eliminare lo spam dai tweets usando tecniche di detection molto generali e poco efficaci.

2.2. Tecniche di individuazione di accounts

automatizzati

Nell’ultimo decennio la letteratura ha fatto passi in avanti nello studio di nuovi approcci scientifici per individuare e analizzare i bots, accounts automatizzati sui social networks. I bots sono algoritmi divisi in categorie, ognuna delle quali oggetto di studio.

Twitter è il social network più studiato in tale contestom in quanto ospita il maggior numero di spammers, bots, e fake followers:

● gli spammers sono account che pubblicizzano contenuto non voluto e dannoso, spesso contenente link a pagine malevoli [30];

● i bots sono algoritmi che controllano un account social in maniera celata per simulare il comportamento di utenti reali [31];

● i cyborgs hanno la caratteristica di essere utenti umani reali che delle volte tweettano attraverso l’utilizzo di software automatici, oppure degli account bot che delle volte sono assistiti da umani [32] [33];

● i fake followers sono accounts creati in massa per seguire un account target e possono essere acquistati su appositi mercati online [34] [35].

17

http://www.financialounge.com/azienda/financialounge/news/lo-strano-caso-di-cynk-un-pericoloso-gioco-di-prestigio/

(17)

La questione che pone questo fenomeno presente sulle piattaforme sociali non è solo quello di stabilire la veridicità dell’informazione che veicolano, problema risalente già da prima della nascita dei social bots, ma quanto il fatto che i bots possono dare la falsa impressione che una particolare informazione, indipendentemente dalla sua accuratezza, sia altamente popolare ed appoggiata da tante persone, esercitando una significativa influenza nei confronti di utenti reali [36].

Il fenomeno degli utenti fake, degli spam e dei bot ha suscitato sempre più la curiosità della società, e questo ha portato a svolgere diversi studi sui follower di persone influenti, come politici o artisti per cercare di capire quali, tra le persone popolari presenti nei social network, utilizzassero i fake per falsare la propria reputazione.

Lo studio in [37] effettua un’analisi sui followers di Mitt Romney durante la campagna elettorale contro Obama per le elezioni presidenziali 2012 negli USA, rilevando gli utenti fake che ne facevano parte. Una ricerca italiana espone dei risultati accademici simili rivelando che il 54% dei followers del profilo Twitter di Beppe Grillo erano fake.19

Studi come [38] e [7] rivelano la presenza e l'attività pervasiva dei bots coinvolti nella conversazione elettorale presidenziale degli Stati Uniti del 2016 in corso sui media sociali, propagando fake news popolari e discusse che favorivano Donald Trump rispetto a Hillary Clinton. Anche nella campagna elettorale francese del 2017 è stata individuata la presenza di bots a favore di un candidato, alcuni dei quali precedentemente usati per la campagna elettorale USA 2016 [39].

La comunità scientifica cerca tutt’ora metodi avanzati per la rilevazione automatica di social bots. Le strategie applicate dagli stessi social media si sono rivelati inadeguati a contrastare questo fenomeno, da una parte perché si tratta di un fenomeno molto complesso, dall’altra perché in alcuni casi alle stesse piattaforme non conviene eliminare una parte consistente dei suoi utenti, nonostante siano fake.

Lo studio [40] suddivide gli approcci di bot detection proposti in letteratura in tre classi:

● sistemi di bot detection basati sulle informazioni della rete sociale: lavori come [41] impiegano il paradigma dell’innocenza per associazione: un account che interagisce con un vero utente è da considerare di per sé legittimo. [42] e [43] si affidano anch’essi all’assunzione che la struttura della rete sociale di per sé separi utenti veri da bots, ma [44] dimostra come utenti veri interagiscano con account sconosciuti, e quindi anche potenziali bots: uno studio su Facebook ha mostrato che oltre il 20% di utenti reali accetta richieste di amicizia in maniera indiscriminata, e oltre il 60% accetta le richieste se hanno almeno un amico in comune [44]. In altre piattaforme come Twitter e Tumblr, l’interazione con sconosciuti è la caratteristica principale del social, rendendo il paradigma dell’innocenza per associazione di fatto inadeguato;

19

(18)

● sistemi basati su crowd-sourcing al fine di sfruttare l’intelligenza umana: [45] suggeriscono un crowd-sourcing per la social bot detection, creando una piattaforma online per realizzare il test sociale di Turing assumendo che la rilevazione dei bot sia un compito semplice per gli umani, capaci di valutare aspetti conversazionali e sfumature come il sarcasmo, la persuasione, anomalie, ecc., non paragonabile ad alcuna macchina. Usando dati da Facebook e Renren (social network cinese) testano l’efficacia degli umani di annotare i bots prendendo in considerazione le sole informazioni presenti sul profilo di un accounts, ottenendo risultati buoni, ma non ottimi: alcuni social bots sono troppo avanzati e imitano correttamente il comportamento umano [46];

● metodi di machine learning basati sull’identificazione di features che discriminano i bots dagli umani: un esempio è il lavoro in [49] in cui viene creato BotOrNot, il primo sistema di bot detection per Twitter ad essere reso disponibile pubblicamente. Esso implementa un algoritmo che classifica un account analizzando oltre 1.000 features, addestrato su un training set di comportamenti umani e bots con una accuratezza di oltre il 95%. Tuttavia i bots sono in continua evoluzione: i metadati dell’utente, che un tempo erano considerati una delle caratteristiche più importanti per rilevare un bots [29] adesso non bastano più ad individuarli.

Negli ultimi anni i Twitter bots sono diventati sempre più sofisticati, rendendo la loro individuazione più difficile. Il confine tra il comportamento human-like e quello bot-like è sempre più confuso e indefinito, tanto che lo studio in [52] mostra come nemmeno gli umani riescano ad individuare con certezza questo nuovo tipo di bots.

La peculiarità di questi nuovi accounts è il fatto di poterli individuare solo se si considera il loro comportamento in modo collettivo. Se infatti tali account sono considerati singolarmente, essi non sono distinguibili da accounts umani.

Lavori come [50], studiano questa nuova generazione di spambots, accounts apparentemente disconnessi tra loro all’interno di un gruppo, ma il cui comportamento è molto simile l’uno con l’altro.

Lo studio in [57] sfrutta tale caratteristica analizzando in maniera aggregata gli utenti mediante una tecnica di bot detection chiamata Digital DNA Fingerprinting. Lo studio parte dall’intuizione che se avviene un’azione collettiva online non è necessariamente detto che essa sia fraudolenta. Se invece quella stessa azione si ripete nel tempo, specialmente in relazione ad un particolare evento, allora probabilmente rappresenta un’attività anomala. La tecnica sfrutta i dati delle timelines degli utenti, modellandoli in una sequenza di azioni ordinate e ricodificate in simboli. La detection avviene attraverso un’analisi approfondita del loro comportamento collettivo utilizzando una misura di similarità per confrontare tali sequenze e distinguere i bots da account reali [57]. Tale tecnica è stata utilizzata anche in questa tesi per caratterizzare un sottoinsieme di utenti (Sezione 5.3).

Ulteriori sforzi devono essere indirizzati per trovare i master dei bots, ovvero coloro che sfruttano questo fenomeno, ed in particolare capire quali sono le loro strategie: chi è il

(19)

target, come generano contenuto, quando si attivano i bots e di che argomento parlano. Non è noto quanti social bots popolino i social media, o quanto del contenuto condiviso possa essere loro attribuito, ma le stime suggeriscono che sia una pratica profondamente radicata. I comportamenti dei bots sono già sofisticati: possono costruire reti sociali realistiche e produrre contenuto credibile con pattern temporali tipicamente umani. Il futuro dei social media potrebbe essere già nella direzione di un ambiente dove la norma è l’interazione macchina-macchina, mentre agli umani non resta che navigare un mondo virtuale popolato principalmente da bots.

(20)

3. RACCOLTA DATI

La raccolta dati effettuata si sviluppa in due fasi:

1. Raccolta delle informazioni relative alle aziende quotate nello stock market degli Stati Uniti mediante tecniche di scraping dal sito web Google Finance;20

2. Raccolta di dati (tweets) relativi a discussioni in cui si utilizzano cashtags di interesse dal social network Twitter tramite Twitter API.

3.1. Raccolta titoli da Google Finance

Prima di passare alla raccolta e all’analisi dei dati condivisi sui social è necessario analizzare la situazione finanziaria di riferimento attraverso la raccolta delle informazioni sulle società quotate nei principali mercati azionari degli Stati Uniti. La Borsa statunitense è stata scelta in questo lavoro perché continua a rimanere quella centrale, osservata con attenzione da tutti gli investitori, data la sua capacità di guidare ed influenzare l’andamento del resto dei mercati.

In particolare è fondamentale essere in possesso del ticker ufficiale di una determinata società, per individuare il relativo cashtag usato su Twitter, e delle informazioni di contorno relative ad essa:

● mercato azionario: la Borsa in cui avvengono le contrattazioni relative al titolo; ● categoria finanziaria: settore economico di riferimento in cui opera quel titolo; ● capitalizzazione: valore di mercato del capitale della società.

Tali informazioni sono accessibili per i non esperti di finanza su portali web come Yahoo Finance e Google Finance. Yahoo Finance è un servizio di Yahoo che permette di essere sempre aggiornato sul mondo finanziario circa gli indici di tutte le principali Borse mondiali, cambi, obbligazioni, comunicati delle società, ecc. Google Finance è un servizio web di proprietà di Google che offre analogamente agli utenti un'opzione per il monitoraggio dei mercati finanziari e notizie affiliate.

Il recupero dei dati è stato ottenuto per mezzo di tecniche di web scraping. Lo web scraping, detto anche web data extraction o web harvesting, è una tecnica di estrazione che consiste nel prelevare dati non strutturati da siti web e trasformarli in dati strutturati in un database, per poterli poi analizzare. Il processo di estrazione è automatizzato grazie all’uso di un software che emula la visita di un utente ad un sito web. Esistono molti strumenti software per scraping. Per questo lavoro è stato scelto di usare la libreria di Python,

(21)

Selenium, un webdriver che prende il controllo del browser e raccoglie informazioni.21 È stato scelta questa tecnica poiché permette di avere informazioni complete: le API di Google Finance sono recentemente divenute deprecate,22 mentre quelle di Yahoo Finance sono attualmente molto limitate.23

Lo web scraping è stato effettuato da Google Finance, in quanto servizio che si è presta meglio per la tecnica grazie a pagine web chiare e dettagliate in cui è esposta la lista delle società quotate.

Di seguito viene fornita in maniera dettagliata la spiegazione delle caratteristiche più rilevanti delle società per questo studio.

3.1.1. Mercato azionario

La Borsa o mercato azionario è il mercato in cui vengono negoziati i titoli azionari, ossia le quote delle società per azioni.

Le Borse analizzate in questo studio sono Borse con sede USA: NASDAQ, NYSE, NYSEARCA, NYSEMKT e OTCMKTS.

● NASDAQ24 è una delle principali Borse al mondo ed ha sede a New York City. È un mercato noto per la sua vasta selezione di titoli tecnologici (Google, Facebook, ecc.) e per il trading completamente automatizzato.

● New York Stock Exchange (NYSE)25 ha sede a New York City e insieme a NASDAQ è una delle maggiori Borse al mondo. Il NYSE è un mercato che utilizza ancora specialisti umani per monitorare e occasionalmente effettuare il proprio trading elettronico. Nel NYSE sono quotati soprattutto i brand storici, con molta storia alle spalle come Walmart, Coca Cola, ecc;

● NYSE Arca (NYSEARCA)26 è una Borsa con sede USA, precedentemente conosciuta come ArcaEx o arcipelago di Exchange, e di proprietà di NYSE Euronext;27

● NYSE MKT (NYSEMKT)28, precedentemente conosciuta come American Stock

Exchange, acquistata nel 2008 da NYSE Euronext. Ha recentemente cambiato il nome in NYSE American ed è un mercato per le aziende giovani a bassa

21http://www.seleniumhq.org/ 22https://developers.googleblog.com/2012/04/changes-to-deprecation-policies-and-api.html 23https://developer.yahoo.com/yql/ 24http://www.nasdaq.com 25https://www.nyse.com 26https://www.nyse.com/markets/nyse-arca 27https://www.investopedia.com/terms/n/nyse-arca.asp 28https://www.nyse.com/markets/nyse-american

(22)

capitalizzazione che devono ancora crescere. NYSEMKT richiede requisiti di capitale minori per entrare in quotazione rispetto a NYSE;

● Il Gruppo OTC Markets (OTCMKTS)29, precedentemente noto come “Pink Sheets”, è un mercato azionario americano con sede a New York che fornisce informazioni sui prezzi e sulla liquidità per quasi 10.000 titoli Over-The-Counter (OTC) [53]. Over-the-counter identifica il complesso dei contratti finanziari conclusi mediante negoziazione diretta fra le controparti al di fuori di un mercato Borsistico ufficiale. Possono essere oggetto di trattativa OTC azioni, obbligazioni private e pubbliche, merci, valute, e derivati finanziari di tutti i tipi. Essi sono quindi privi di controllo istituzionale sull’adeguatezza del bene e sulla trasparenza della formazione del suo prezzo, funzione esercitata nel mondo finanziario delle Borse ufficiali.30 Tipicamente le società in questo mercato hanno bassa capitalizzazione. Le aziende che non possono soddisfare i requisiti di capitale degli altri mercati non hanno altra scelta che vendere Over-The-Counter se vogliono raccogliere fondi e espandersi, ma è comunque uno svantaggio in quanto molti operatori non investono in titoli OTC. Può accadere, infatti, che molte di queste piccole aziende si rivolgano al mercato OTC per raccogliere capitali che non sono riuscite ad ottenere con prestiti bancari, passando così il rischio agli azionisti dei mercati aperti31.

Ticker Name Market

GOOG Alphabet Inc NASDAQ

JNJ Johnson & Johnson NYSE

NOVZ Novagen Ingenium Inc OTCMKTS

Tabella 3.1. Esempi di aziende scrapate con il relativo mercato di appartenenza

In totale sono state scrapate l’equivalente di circa 30.000 aziende con la relativa Borsa di appartenenza, suddivise come in Tabella 3.2.

29https://www.otcmarkets.com/

30http://www.treccani.it/enciclopedia/over-the-counter_%28Dizionario-di-Economia-e-Finanza%29/ 31https://www.wsj.com/articles/inside-one-of-the-u-s-s-biggest-ever-investment-fraud-stings-1404700281

(23)

Mercato Società NASDAQ 3.013 NYSE 2.997 NYSEARCA 726 NYSEMKT 340 OTCMKTS 22.956

Tabella 3.2.Società raccolte per ogni mercato azionario tramite scraping

La presenza di un numero alto di titoli quotati in OTCMKT è ragionevole in funzione dei requisiti di capitale minore richiesti alle società per entrare in quotazione.

3.1.2. Categoria finanziaria

Le aziende quotate nei mercati finanziari appartengono ad un particolare settore economico definito dallo standard Thomson Reuters Business Classification (TRBC).

TRBC è un sistema di classificazione industriale di proprietà della Thomson Reuters,32 società che offre informazioni riguardanti i settori finanziario, legale, scientifico a professionisti e aziende in collaborazione con i principali fornitori di notizie di tutto il mondo.

Il sistema TRBC è orientato al mercato poiché traccia l'attività principale di un'azienda e riflette pratiche industriali globali raggruppando società correlate che offrono prodotti e servizi in mercati finali simili.

Viene utilizzato dalla comunità di investimenti come standard globale che consente la navigazione e l'aggregazione di contenuti finanziari.

La classificazione basata sul mercato sottolinea l'uso di un prodotto, invece che dei materiali utilizzati per il processo produttivo, e consente agli investitori di raggruppare aziende che condividono caratteristiche di mercato simili.

TRBC è una struttura gerarchica a cinque livelli di classificazione di diversa granularità costituita da (dal livello più generale al livello più specifico):

● 10 settori economici (Energy, Basic Materials, Industrials, Consumer Cyclicals, Consumer Non-Cyclicals, Financials, Healthcare, Technology, Telecommunications Services, Utilities);

● 28 settori di business (Energy, Renewable Energy, Uranium sotto il settore economico Energy; Chemicals, Mineral Resources, Applied Resources sotto il settore economico Basic Materials, ecc.);

(24)

● 54 gruppi industriali (Metals & Minind, Construction Materials sotto il settore di business Mineral Resources, ecc.);

● 136 industrie (Non-Gold Precious Metals & Minerals, Iron & Steels, ecc sotto Metals & Mining, ecc.);

● 837 attività (Silver Mining, Platinum Mining, Diamond Mining, Semiprecious Gem Stones, ecc sotto l’industria Non-Gold Precious Metals & Minerals, ecc.).

Figura 3.1. Livello gerarchico della classificazione TRBC

TRBC è utilizzato per classificare le società nel suo complesso. Se le organizzazioni possono appartenere a più segmenti di business, allora viene selezionato come business rappresentativo quello che realizza un maggiore contributo alle entrate. Il processo di assegnazione tiene conto anche di altri fattori quali la redditività, l'utilizzo degli assets, ecc. Le aziende non possono avere assegnazioni multiple.

(25)

Ticker Name Activity Industry Industry group Business sector Economic sector

AAPL Apple Inc.

Computer Hardware- NEC Computer Hardware Computers, Phones & Household Electronics Technology Equipment Technology GOOG Alphabet Inc Search Engines Internet Services Software & IT Services Software & IT Services Technology JNJ Johnson & Johnson Pharmceutic

- NEC Pharmceutic Pharmceutic

Pharmaceutics & Medical Research

Healthcare

Tabella 3.3. Esempio di classificazioni di aziende. Ogni livello di classificazione ha un codice identificativo che non è mostrato in questa tabella

Delle 30.000 aziende circa scrapate precedentemente, solo 7.078 hanno l’informazione di appartenenza alla categoria finanziaria. Questo perché Google Finance non ha informazioni da poter raccogliere.

3.1.3. Capitalizzazione

La capitalizzazione di una società è data dal prodotto tra il numero di azioni in circolazione e il prezzo unitario di ciascuna azione.

Per poter essere ammesse a quotazione le società devono rispettare requisiti minimi di capitalizzazione. In ambito finanziario le società ad alta capitalizzazione, oltre i 10 miliardi, sono indicate con l’abbreviazione large caps. Le società a media capitalizzazione, tra 2 e 10 miliardi, sono riferite come mid caps. Le società a bassa capitalizzazione, sotto i 2 miliardi, sono riferite come small caps.

La capitalizzazione di mercato descrive le dimensioni del mercato di un'azienda. In questo lavoro l’importanza di un’azienda è definita in termini di capitalizzazione: se bassa, allora l’azienda è poco importante, altrimenti è importante.

Ticker Nome Mercato Capitalizzazione

AAPL Apple Inc. NASDAQ 748.550.000.00

PLK Powershares

Active L NYSEARCA 7.610.000 AMWO Amiworld Inc OTCMKTS 232.200

(26)

La capitalizzazione di un mercato è invece data dalla somma della capitalizzazione di tutti i titoli in esso quotati.

Considerando i titoli che sono stati raccolti in questa fase, le capitalizzazioni di ogni mercato di cui si hanno informazioni sono riportate in Tabella 3.5.

Mercato Capitalizzazione N società Capitalizzazione media del

mercato NASDAQ 11 T 3.013 3 B NYSE 29 T 2.997 10 B NYSEARCA 2 T 726 3 B NYSEMKT 256 B 340 753 M OTCMKTS 45 T 22.956 1 B

Tabella 3.5.Capitalizzazione dei mercati

(T=Trillion, B=Billion, M=Million)

In Figura 6 viene mostrata la distribuzione delle capitalizzazioni delle società raccolte. Il grafico in scala semilogaritmica mostra la frazione di aziende che hanno capitalizzazione maggiore di una certa quantità ed ha una distribuzione CDF (Cumulative Distribution Function).

(27)

Con mercato totale di riferimento si intende la somma delle capitalizzazioni di tutti i mercati che sono presenti all’interno di questo dataset, ovvero 87T circa, e sarà utile per le analisi effettuate più avanti.

3.2. Raccolta dati Twitter

Nell’ambito di questo lavoro è stato individuato Twitter come la piattaforma più adatta su cui condurre l’analisi.

Twitter, così come ogni altro social network, fornisce l'accesso ai suoi contenuti attraverso le Application Programming Interface (API),33 librerie di funzioni che consentono al programmatore di interagire con una piattaforma software per raccogliere dati.

Twitter rende disponibili diversi tipi di API. Di seguito si elencano quelle più rilevanti che sono state utilizzate in questo studio.

● Search API34: restituisce una collezione di tweets rilevanti che rispondono ad una specifica query;

● Streaming API35: consente la raccolta dati streaming in tempo reale da Twitter. ● User timeline API36: restituisce la collezione degli ultimi tweets postati da un utente

fino a un massimo di 3.200 tweets.37

In particolare la Search API effettua ricerche sui tweets indicizzati pubblicati negli ultimi sette giorni. Tuttavia non tutti i tweets vengono indicizzati su Twitter, per cui alcuni potrebbero non essere restituiti. Questo tipo di ricerca è incentrato sulla pertinenza e non sulla completezza.

Con la Streaming API si apre una connessione a Twitter attraverso la quale vengono raccolti dati in tempo reale che rispondono a delle keywords (i cashtags in questo contesto), fino a che la connessione non viene chiusa dal richiedente [58].38

3.2.1. Società monitorate

Il processo di raccolta dei dati si basa sulla raccolta dei tweets. Tra tutti i messaggi condivisi solo una piccola parte è di interesse per questo studio.

33https://developer.twitter.com/en/docs

34https://developer.twitter.com/en/docs/tweets/search/overview/standard

35https://developer.twitter.com/en/docs/tweets/filter-realtime/api-reference/post-statuses-filter.html 36https://developer.twitter.com/en/docs/tweets/timelines/overview

37Esempio di richiesta user timeline API:

https://api.twitter.com/1.1/statuses/user_timeline.json?screen_name=twitterapi&count=2

38Esempio di richiesta streaming API:

(28)

L’obiettivo della fase di raccolta dati è quello di raccogliere tweets che si riferiscono ad aziende quotate nei mercati azionari di cui sono state raccolte informazioni. Allo scopo di filtrare la moltitudine di messaggi prodotti su Twitter e raccogliere solo quelli di effettivo interesse è necessario individuare delle parole-chiave per gli eventi cercati, in questo caso i cashtags.

La raccolta dati è stata impostata utilizzando come parametri di ricerca 6.689 cashtags dei mercati azionari principali: NASDAQ, NYSE, NYSEARCA, NYSEMKT.

Dal momento che la Streaming API prevede un limite massimo di 400 keywords per connessione, è stato necessario aprire circa 17 connessioni per monitorare i cashtags selezionati.

La scelta di non monitorare anche i 20.000 titoli circa del mercato OTCMKTS di cui si hanno le informazioni deriva dal fatto che sarebbe stato computazionalmente dispendioso in termini di tempo e risorse.

(29)

4. ANALISI ESPLORATIVA

Durante la fase di crawling effettuata dal 19 maggio al 12 settembre sono stati raccolti circa 9.197.808 tweets che rispondono i criteri di ricerca, postati da circa 2.434.914 utenti.Di tali tweets, 6.885.737 sono tweets, mentre 2.312.071 sono retweets.

La Figura 4.1 mostra il numero dei tweets raccolti, e quindi postati, per giorno.

Figura 4.1. Tweets raccolti per giorno dal 19 maggio al 12 settembre

La Figura 4.2 mostra i tweets e retweets raccolti all’ora. È possibile notare che il momento della giornata in cui vengono utilizzati più spesso i cashtags cade tra le 10:00 di mattina e le 17:00 del pomeriggio.

La Borsa di Wall Street, infatti, apre le contrattazioni alle ore 9:30 del mattino e le chiude alle 16:00 del pomeriggio, ora di New York, per cui le discussioni più intense su Twitter si sviluppano in tale fascia oraria.

(30)

Di seguito viene riportata una panoramica sull’uso dei cashtags all’interno del dataset, considerando i soli tweets (senza i retweets).

È stata ricostruita la rete bipartita tweets-cashtags dove un tweet è collegato a un cashtag se esso è presente all’interno del testo. Da questa è stato ricostruito il grafo delle co-occorrenze dei cashtags.

La Figura 4.3 mostra la distribuzione delle co-occorrenze di cashtags, cioè i cashtags più comunemente menzionati insieme nei tweets. Ad esempio il tweet “$AAPL $GOOGL: Why Google Assistant Can’t Beat Siri for iPhone Users: https://t.co/LPp4QIu55E” menziona i cashtags $AAPL e $GOOG, che sono quindi considerati come una co-occorrenza di Apple e Google. Ciò viene fatto per ogni coppia possibile di cashtags: se ci sono più di due cashtags in un tweet, ad esempio “Screen through high rated articles for US Tech Kings at once $AAPL $GOOG $FB https://t.co/kdZSg01UFl https://t.co/IU9Ak6rCBA”, ogni coppia di simboli viene contata separatamente. In questo esempio, valgono le coppie $GOOG e $AAPL, $GOOG e $FB, $AAPL e $FB, ciascuna come una co-occorrenza.

Figura 4.3. distribuzione di co-occorrenze

La distribuzione delle co-occorrenze è mostrata nella Figura 4. La maggior parte delle coppie di cashtags si verifica solo una volta, mentre poche coppie si verificano più di una volta.

Usando le co-occorrenze di cashtags è stato ricostruito il grafico di co-occorrenze. Il grafico è costituito da nodi che rappresentano cashtags e archi che rappresentano le co-occorrenze. Di seguito si mostra una porzione del grafo delle co-occorrenze dei cashtags all’interno dei tweets.

(31)

Figura 4.4. Porzione del grafo delle co-occorrenze dei cashtags

La Figura 4.4 mostra i simboli che sono stati menzionati insieme più di 1.000 volte per motivi rappresentativi. Lo spessore e l'oscurità degli archi indicano il numero di co-occorrenze: più è spesso e più scuro, più è stata menzionata una coppia di cashtags. La grandezza e l’oscurità dei nodi dipende dalla betweenness centrality, che misura la strategicità di un nodo tra gli altri nodi della rete e descrive la capacità di diffusione delle informazioni nella rete attraverso quel nodo. Un nodo con una elevata betweenness centrality ha una grande influenza nel flusso di informazioni ed è quindi rappresentato da un testo più spesso e scuro. I cashtags con maggior betweenness centrality rappresentano titoli large caps.

La coppia più citata nel periodo considerato è $ETH (Ethereum) e $BTC (Bitcoin) con 76.047 co-occorrenze. Queste sono due criptovalute concorrenti e durante il periodo considerato il valore della nuova moneta digitale ETH è aumentato al punto da raggiungere quasi il Bitcoin in termini di capitalizzazione, notizia che ha avuto impatto anche sul social media. La seconda coppia più citata è $BTC e $LTC dove Litcoin è un’altra criptomoneta emergente nel panorama delle valute elettroniche.

I primi quattro cashtag che hanno raccolto più tweets e retweets sono mostrati nella tabella. È intuitivo il fatto che aziende quotate molto famose siano tra quelle più discusse all’interno di Twitter.

(32)

Cashtags Nome N tweets

AAPL Apple, Inc 288.037

AMZN Amazon.com, Inc 237.207

ETH Ethereum 220.754

FB Facebook, Inc 211.286

Tabella 4.1.Cashtags tweettati più spesso

La Figura 4.5 mostra i cashtags più menzionati tra quelli di cui sono state raccolte le informazioni su Google Finance. Si nota che i titoli più menzionati sono le società tecnologiche del mercato NASDAQ.

Figura 4.5. Porzione di word-cloud dei cashtags più menzionati tra quelli di cui sono state raccolte informazioni da Google Finance

La Figura 4.6 mostra il numero dei cashtags che si possono trovare all’interno dei tweets. In generale si ha una distribuzione power-law, in quanto pochi cashtags occorrono in tanti tweets, mentre ci sono pochi tweets che contengono tanti cashtags.

(33)

Figura 4.6. Istogramma in scala lineare del numero dei cashtags per tweet

Figura 4.7. Log-log plot dei dati osservati segue una distribuzione power-law

4.1. Analisi delle serie storiche dei cashtags

Al fine di effettuare un’analisi più approfondita sull’utilizzo dei cashtags all’interno di Twitter, sono state ricostruite le serie storiche per ogni cashtag monitorato.

Una serie storica o timeserie è un insieme di osservazioni effettuate sequenzialmente nel tempo.

Nel caso in cui le osservazioni siano relative ad istanti di tempo t equispaziati, una serie storica viene definita come una successione finita di valori xt, con t = 1, 2,... ,N,

(34)

T = {xt|t = 1,... ,N}

L’analisi delle serie storiche riguarda lo studio dell’evoluzione temporale di una o più variabili che descrivono un determinato fenomeno.

I campi di applicazione dell’analisi delle serie storiche sono molti. Nell’ambito finanziario, ad esempio, le serie sono strumenti molto utilizzati per valutare, comprendere o prevedere l’andamento di indici di Borsa, tassi di cambio o quotazioni azionarie, per cui se ne riprende il concetto.

In questo ambito la serie storica di un cashtag ha granularità oraria e mostra il volume dei tweets raccolti con quel cashtag in un’ora.

Formalmente, dato l’insieme dei cashtags monitorati, C = {c1,c2, … , ck} con k =

6.689 (Sezione 3.2.1), per ogni cashtag cj monitorato con 1 < j < k:

● T(cj) = {xt,cj|t = 1,... ,N} è la serie storica oraria di cj dove xt,cj è il numero

di tweets raccolti all’ora t, il cui testo contiene cj(N è l’ultima ora del periodo di

raccolta dati). Data la serie storica T(cj):

● µ( T(cj) ) è la media dei tweets postati in un’ora, calcolata come:

𝜇 = %$&'𝑥$

N

● σ( T(cj) ) è la deviazione standard di T(cj), calcolata come:

𝜎 = |𝑥 − 𝑥|,

N

● p(cj)si definisce il picco di cjl’aumento anomalo del volume dei tweets, avvenuto

in una certa ora o nell’arco di più ore contigue, oltre la soglia delle 10 deviazioni standard dalla media.

Formalmente:

un picco p(cj) in T(cj) è una sottosequenza di K valori contigui

{x’i,cj,x’i+1,cj,x’i+2,cj,...,x’i+(K-1),cj} con 1≤i≤N-K+1, t.c.

x’ > θ. ∀x’∈ p(cj)

con θ = 10*σ( T(cj) ) + µ( T(cj) )

● h( p(cj) ) è l’altezza del picco p(cj) ed è definita come il massimo tra gli x’∈

(35)

● h( p(cj) ) > 10,per escludere i picchi rilevati a causa di una µ( T(cj) ) troppo

bassa;

● T(cj) può avere uno o più picchi p(cj), per cui P(cj) = {p1(cj), p2(cj), …,

pM(cj)} è l’insieme degli M picchi identificati per il cashtag cj;

● P(C) è l’insieme di tutti i picchi rilevati per tutti i cashtags monitorati.

4.2. Individuazione di pattern di utilizzo anomali

La Tabella 4.2 mostra la serie storica delle aziende presenti in misura maggiore nei tweets del dataset. La linea rossa indica il valore di soglia θ. La linea celeste indica la media

µ( T(cj) ).

cj Name(cj) T(cj)

AAPL Apple Inc.

(36)

NFLX Netflix, Inc.

QQQ PowerShares QQQ Trust

Tabella 4.2.Esempi di serie storiche e anomali trovate per alcuni cashtags

legenda:

In data mining, l’anomaly detection (o outlier detection) è l'identificazione di elementi, eventi o osservazioni che non sono conformi a un modello previsto, in questo contesto i picchi. L’anomaly detection è stata effettuata al termine della raccolta dati.

Con la soglia scelta si individua almeno un picco nella serie storica di circa 2.000 cashtags sui 6.689 monitorati. Di questi si individuano in media tre picchi per cashtag.

La scelta delle 10 deviazioni standard dalla media consente di individuare i soli picchi rilevanti e di scartare quelli troppo vicini alla media. Se infatti si rilassasse il vincolo aumenterebbe il numero di cashtag per cui si verifica almeno una anomalia, mentre se si rafforzasse se ne troverebbero sempre meno, come esplicato nella Figura 4.8.

(37)

Figura 4.8. Cashtags di cui si rileva almeno un picco cambiando θ

Analizzando i picchi si individua la loro composizione.

Generalmente un picco che supera la soglia θ è così generato: ● 40% tweets;

● 60% retweets dei tweets di cui sopra, che sono la ragione per cui un picco si realizza. Quindi ci sono alcuni accounts che si “attivano” in quell’ora per ricondividere uno o più tweets dando loro popolarità.

Questo può essere un comportamento legittimo, dato dal fatto che magari è realmente avvenuto un fatto nel mondo reale che ha portato ad una vera discussione su Twitter.

Se però si analizzano i tweets che contribuiscono a rilevare una anomalia si nota che contengono in media 6 cashtags nel testo, i quali occorrono senza un apparente motivo e senza un riferimento ad una notizia che possa aver generato una discussione, Figura 4.9, al contrario di ciò che ci si aspetta da un tweets relativo ad una news che riscuote engagement, Figura 4.10.

(38)

Figura 4.10. Tweet da account verificato che suscita notizia

La presenza di 140 caratteri del tweet impone un limite al numero massimo di cashtags presenti nel testo: se un cashtag è in media composto da 4 caratteri più il simbolo $ e i cashtags sono separati da spazio, un tweet può contenere al massimo circa 23 cashtags. Quando questo avviene il fenomeno appare ancor più evidente come mostrato in Figura 4.11.

(39)

I motivi per cui un tweet che contribuisce a generare una anomalia coinvolga così tanti cashtags può essere ricondotto a due ipotesi principali:

1. i cashtags che occorrono nel tweet appartengono alla stessa categoria finanziaria e il tweet viene ricondiviso perché è avvenuto un evento nel settore;

2. alcuni cashtags poco importanti in termini di capitalizzazione sono citati insieme a cashtags importanti, per sfruttarne la notorietà ed ottenere una maggiore visibilità nei risultati di ricerca.

Nel capitolo seguente si analizzano queste due scenari al fine di individuare quale sia l’ipotesi più probabile.

Riferimenti

Documenti correlati

Le classi relative agli edifici e alla vegetazione sono quelle che meglio sono state individuate, come mostrato in figura 12, ma anche in corrispondenza della separazione

I disinfettanti Pharma Trade per ambienti e persona sono registrati come Presidi Medico Chirurgici presso il Ministero della Salute, mentre i disinfettanti per strumenti e

FacebookPA: 1250 account PA locali su 21 mln di utenti FB registrati (dati by Giovanni Arata).. Le 4 P della social media

Su Twitter è indispensabile, per una corretta e proficua attività di ingaggio, presidiare il social non solo monitorando le interazioni provocate dai tweet pubblicati, ma anche

E infine, ancora a dimostrazione dell’autenticità della proposta di Rodari di far squadra con bambini e ragazzi e di dare significato profondo alla parola, viene riportata una

D’altronde il ricordo del Soldino è sempre stato vivo anche per la stessa Mulino Bianco che nel 2010, in occa- sione della manifestazione Eurocholate a Perugia, ne ha celebrato

Shampoo dedicato alla cura dei capelli ricci che, grazie ai suoi principi vegetali, combatte l’effetto crespo, nemico dei capelli mossi, e i danni causati alla cheratina da stress

La formazione dei Medici di Medicina Generale di Continuità Assistenziale, quali quadri sindacali in grado di dialogare con i professionisti, le Istituzioni e i cittadini si