• Non ci sono risultati.

Ipotesi 1: cashtags in un tweet appartenenti alla stessa categoria finanziaria

5. ANALISI DEI TWEETS CHE HANNO GENERATO ANOMALIE

5.1. Ipotesi 1: cashtags in un tweet appartenenti alla stessa categoria finanziaria

perché è avvenuto un evento nel settore;

2. I cashtags che occorrono insieme all’interno di un tweet si possono suddividere in: ○ cashtags che rappresentano aziende importanti, sia in termini di notorietà che

in termini di capitalizzazione dell’azienda stessa;

○ cashtags che individuano aziende poco conosciute a bassa capitalizzazione e questa suddivisione potrebbe far pensare che il retweet sia una tecnica utilizzata in maniera astuta per dare visibilità ai cashtags meno popolari citandoli insieme a cashtags importanti al fine di sfruttare la loro risonanza all’interno della piattaforma sociale.

Le analisi dei paragrafi successivi sono state realizzate prendendo in considerazione i tweets che hanno realizzato i picchi in P(C).

5.1. Ipotesi 1: cashtags in un tweet appartenenti alla

stessa categoria finanziaria

Per valutare la prima ipotesi è necessaria una metrica che, dato un numero variabile di cashtags in un testo, sia in grado di quantificare se e in che misura i cashtags che occorrono all’interno di uno stesso tweet appartengono alla stessa categoria.

Vista la molteplicità dei livelli di classificazione che si possono incontrare (Sezione 3.1.2) e il numero variabile di cashtags (Sezione 4.2), l’approccio scelto è il calcolo dell’entropia di un tweet.

L’entropia [54] [55] è la misura del disordine di un sistema: più ordinato o strutturato è un sistema minore è l’entropia e viceversa. In questo caso rappresenta il “disordine” in

termini di categoria finanziaria presente nel testo di un tweet, cioè la probabilità di incontrare una categoria piuttosto che un’altra tra le possibili categorie presenti nel tweet.

In questa fase il processo metodologico seguito si può riassumere come segue. Dato l’insieme dei tweets che hanno realizzato i picchi in P(C) e i cui retweets

generano almeno il 10% dell’altezza del picco per ogni tweet il cui testo contiene almeno due cashtags di cui si ha la categoria finanziaria:

● si recuperano i cashtags e la relativa classificazione TRBC, ottenendo, per ogni livello di classificazione, l’insieme di categorie di appartenenza: ad esempio, dato un tweet che contiene i cashtags “$AAPL” e “$GOOGL”, per tali cashtags si recupera la categoria come mostrato in Tabella 5.1;

Ticker Name Activity Industry Industry

group

Business sector

Economic sector

AAPL Apple Inc.

Computer Hardware- NEC Computer Hardware Computers, Phones & Household Electronics Technology Equipment Technology GOOG Alphabet Inc Search Engines Internet Services Software & IT Services Software & IT Services Technology

Tabella 5.1.Esempio di recupero della categoria finanziaria per un tweet che contiene $AAPL e $GOOG

● per ogni livello di classificazione si ha quindi un insieme categoriale di dati su cui viene misurata l’entropia con la seguente formula:

Hcashtags in un tweet = 67$89:;18<1=$1>$81&' 𝑝1×log,𝑝1

● per comparare l’entropia di un tweet con quella di altri tweets è poi necessario normalizzare la misura in funzione dell’entropia massima che si può ottenere per il tweet, calcolando la misura di disordine massima che si otterrebbe se i cashtags del tweet appartenessero a categorie diverse tra loro (Hmax = -log2(1/categorie

distinte).

Figura 5.1. Entropia normalizzata dei tweets ad ogni livello di classificazione

Il grafico mostra l’entropia normalizzata trovata nei tweets ad ogni livello di classificazione, dal più specifico al più generale.

Sull’asse x viene mostrato il livello, associato a uno dei livelli TRBC (scala di colori Set2 ColorBrewer39), mentre sull’asse y è rappresentata l’entropia normalizzata. Come

mostrato in Figura, i tweet presi in considerazione mostrano un’alta entropia dei loro cashtags per tutti i livelli di classificazione considerati. Solo se i cashtags vengono classificati in base ad un livello più generale (settore economico - livello 5) si può notare una diminuzione nella media delle entropie dei tweets.

È presente un gruppo di tweets che possiede ad ogni livello una entropia quasi nulla, tuttavia si tratta di un gruppo ristretto che non influenza però la media generale, probabilmente composto dai tweets che presentano un numero esiguo di cashtag, ad esempio due cashtags, dove la probabilità di incontrare la stessa categoria è più alta. Per indagare meglio questo gruppo sono stati distinti i tweets in base al numero di cashtags che contengono.

Il grafico in Figura 5.2 mostra la stessa distribuzione ma distinta per numero di cashtags.

Figura 5.2. Media dell’entropia normalizzata per i tweets in base al numero di cashtags nel tweet

L’asse delle y rimane lo stesso, mentre l’asse x rappresenta il numero di cashtags che è possibile incontrare in un tweet. I livelli di classificazione sono qui rappresentati attraverso linee, come indicato in legenda.

Qui viene mostrata solo la media delle entropie normalizzate trovate ad ogni livello e per numero di cashtags presenti nel tweet.

È interessante notare come per i tweets con due cashtags, le media entropica ad ogni livello di classificazione sia più bassa rispetto ai tweets che contengono più cashtags. In generale non si ottiene mai una media entropica inferiore al 50%.

Questo comportamento fa pensare che i cashtags che occorrono all’interno di un tweet non vengano citati insieme perché fanno parte di una stessa categoria finanziaria. L’ipotesi 1 è quindi considerata scartata.

La composizione anomala del tweet, come mostrato al Capitolo 4, e i risultati ottenuti nell’analisi dell’ipotesi 1, aprono la strada verso la seconda ipotesi: alcuni titoli vengono citati insieme ad altri cashtags importanti in modo da sfruttarne la popolarità ed essere notati da potenziali investitori e sistemi di trading automatici.

5.2. Ipotesi 2: cashtags in un tweet a capitalizzazione

Documenti correlati