• Non ci sono risultati.

Di seguito si presenta brevemente l’organizzazione del caso di studio.

Questa tesi si focalizza su un argomento che ha ricevuto fino ad ora poca attenzione nel mondo scientifico: l’analisi delle informazioni finanziarie su Twitter con l’obiettivo di individuare pattern anomali che consentano l’individuazione di spambots.

Dopo una breve panoramica sul mondo della finanza e su come i contenuti finanziari siano veicolati sui social media si passa alla rassegna della letteratura scientifica relativa sia allo studio dei social come strumento per la previsione dei mercati azionari, sia alle tecniche realizzate per l’individuazione degli accounts automatizzati. Si focalizza l’attenzione sul fatto che non sono noti lavori che uniscano questi due ambiti al fine di accertare l’attendibilità delle informazioni finanziarie che circolano sui social, in particolare Twitter.

Per indagare tale fenomeno viene descritta la raccolta dati effettuata su Google Finance tramite l’utilizzo di tecniche di scraping, al fine di recuperare le informazioni più importanti (ticker, capitalizzazione, mercato azionario e categoria finanziaria di appartenenza) relative ai titoli quotati nei mercati azionari principali degli Stati Uniti: NASDAQ, NYSE, NYSEARCA, NYSEMKT, OTCMKTS. In seguito, delle circa 30.000 società raccolte ne vengono selezionate 6.689 da monitorare su Twitter.

Viene quindi descritta la raccolta dati su Twitter effettuata dal 19 maggio al 12 settembre 2017 tramite Twitter Streaming API e si mostra un’analisi esplorativa del dataset, presentando i cashtags più discussi sulla piattaforma nel periodo considerato, la distribuzione del numero di cashtags nei tweets, il grafo delle co-occorrenze dei cashtags ricostruito a partire dalla rete bipartita tweet-cashtags e altre informazioni di tipo descrittivo.

In seguito vengono ricostruite le serie storiche orarie dei cashtags relative ai volumi dei tweets raccolti e viene effettuata su di esse una anomaly detection per individuare pattern di utilizzo anomali, ovvero un aumento anomalo dei volumi dei tweets oltre la soglia delle 10 deviazioni standard dalla media, cioè un picco. Si individua almeno un rilevamento di anomalia per un terzo circa dei cashtags monitorati.

Successivamente si analizzano i tweets che hanno generato anomalie notando la presenza di retweets di tweets anomali che contengono nel testo una media di sei cashtags, in contrapposizione alla media dell’intero dataset di due cashtags per tweet. L’occorrenza di così tanti cashtags nel testo senza la presenza di un riferimento ad una news o un motivo che li accomuni porta al sospetto che dietro di essi si nasconda una pratica speculativa.

Per indagare tale fenomeno, in una prima fase viene analizzata l’ipotesi che l’occorrenza di tanti cashtags in un tweet sia dovuta all’appartenenza dei titoli ad una stessa categoria finanziaria. Per questo si effettua l’analisi dell’entropia delle categorie finanziarie all’interno di un tweet, mostrando come i risultati ottenuti portino alla conclusione che, data l’alta entropia normalizzata individuata per i tweets, questa ipotesi non spieghi il fenomeno.

In seguito viene presa in considerazione una seconda ipotesi: molti cashtags poco importanti in termini di capitalizzazione (small caps) siano citati insieme ad alcuni cashtags importanti (large caps), per sfruttarne la notorietà ed ottenere una maggiore visibilità nei risultati di ricerca.

Per valutare tale ipotesi viene analizzata dapprima la capitalizzazione dei cashtags all’interno dei tweets, calcolando la deviazione standard delle capitalizzazioni per capire quanta variabilità sia presente e confrontando tali valori con il metodo bootstrap. Si mostra come i risultati evidenziano un comportamento non spiegabile con la randomizzazione: vi è una propensione a citare insieme cashtags con capitalizzazione molto variabile tra loro.

Per capire se tale variabilità è dovuta alla presenza di un cashtag con capitalizzazione molto più alta rispetto altri, viene in seguito calcolata la percentuale coperta dalla capitalizzazione del cashtag con capitalizzazione più alta all’interno di un tweet rispetto al mercato totale di riferimento. Confrontando similmente i valori con il metodo bootstrap si mostra che anche in questo caso l’andamento non è conforme con quello atteso randomicamente, per cui si individua all’interno dei tweets la preferenza a citare cashtags a capitalizzazione molto bassa insieme a un cashtag a capitalizzazione molto alta, che potrebbe portare maggiore visibilità agli altri.

Successivamente viene confrontata la capitalizzazione dei cashtags dei tweets che hanno generato anomalie con la mediana delle altezze dei picchi in cui essi occorrono (volume delle anomalie) mediante kernel density estimation sulla distribuzione dei cashtags per mercato azionario di appartenenza. Si mostra come i risultati ottenuti indichino che i cashtags small caps occorrano in picchi di altezza mediana molto più alti rispetto ai cashtags large caps, al contrario dell’andamento intuitivo nel volume dei tweets. Viene dimostrato inoltre come la presenza di cashtags small caps in un tweet senza la partecipazione di cashtags large caps non riesca a generare anomalie altrettanto rilevanti, a ulteriore sostegno dell’ipotesi considerata.

Infine, viene mostrato come analizzando gli utenti che hanno generato anomalie tramite una tecnica dalla letteratura scientifica, Digital DNA Fingerprinting [57], si individuino spambots con caratteristiche tipiche di accounts molto sofisticati, analizzati in letteratura per altri ambiti [52], ma mai studiati prima nel contesto dell’ambito finanziario sui social.

Si mostra quindi che i risultati rendono il seguente progetto di ricerca il primo lavoro scientifico ad esplorare tale fenomeno applicato ai contenuti finanziari su Twitter. L’obiettivo è quello di accertare l’attendibilità delle informazioni finanziarie che vi circolano, al fine di segnalare l’opinione promulgata da articoli della letteratura che invitano all’uso dei social come fonte di previsione del mercato e di allertare gli operatori finanziari che si affidano eccessivamente ai moderni canali di comunicazione per fare scelte sui propri investimenti.

Documenti correlati