• Non ci sono risultati.

Applicazione della tecnica Digital DNA Fingerprinting per l’individuazione d

6. ANALISI DEGLI UTENTI CHE HANNO GENERATO ANOMALIE

6.1. Applicazione della tecnica Digital DNA Fingerprinting per l’individuazione d

Fingerprinting per l’individuazione di spammers

Per verificare la presenza di bots nel dataset è stata utilizzata la tecnica Digital DNA

Fingerprinting descritta nel lavoro in [57]. Questo approccio innovativo codifica i

comportamenti (attività di tweeting o retweeting) degli utenti come una sequenza di azioni e li modella in stringhe di caratteri che rappresentano il “DNA digitale” degli utenti. Vengono poi applicati algoritmi di estrazione e di bioinformatica delle stringhe per caratterizzare e rilevare gli spambots, raggruppando sequenze di DNA digitali simili [57]. Tale tecnica vanta un’accuratezza del 97%.

Per applicare questa tecnica è necessario modellare il comportamento degli utenti codificando ogni tweet condiviso da un utente con un carattere diverso: A per un semplice tweet, C per un retweet e T per una risposta. In questo modo, ogni utente è associato a una stringa di caratteri (cioè una sequenza di DNA digitale) che rappresenta la sua timeline Twitter, ovvero la sequenza cronologicamente ordinata delle sue azioni (ultimi 3.200 post circa). Ad esempio, se gli ultimi 3 tweets di un utente sono rispettivamente un tweet, un retweet e un retweet, allora il suo DNA sarà ‘ACC’. Dopodiché il procedimento quantifica la somiglianza comportamentale guardando la più lunga sottosequenza comune (LCS) tra le sequenze digitali del DNA di diversi utenti.

L'intuizione dietro questa tecnica è che gli accounts automatizzati (spambots) hanno una maggiore somiglianza comportamentale tra loro rispetto agli account gestiti da utenti reali: le sequenze di DNA digitali estratte forniscono la prova dell’esistenza di attività simili in grandi gruppi. Ciò può portare a sospettare la presenza di un alto grado di automazione per quegli account che si comportano in modo simile. In un gruppo misto di bot e accounts autentici, quasi solo gli account bots avranno in comune lunghe sottostringhe di DNA. Quindi, identificando il gruppo di account che condividono una lunga LCS, si possono ottenere una serie di accounts sospetti

Per applicare tale tecnica è stato quindi necessario scaricare le timelines degli utenti. Per farlo è stata utilizzata l’apposita User timeline API di Twitter.

In totale gli utenti che hanno postato durante i picchi rilevati sono circa 94.872. Di questo insieme di utenti è stato possibile recuperare le timelines di soli 73.882 utenti. Non è stato possibile raccogliere le informazioni di 20.990 utenti perché non sono più disponibili su Twitter: 19.552 utenti sono stati sospesi da Twitter e i restanti cancellati.

Generalmente il motivo per cui Twitter sospende gli accounts è da ricondurre al fatto che essi violano le regole di Twitter.41 Il motivo più comune che può determinare la sospensione di un account è perché l’account è ritenuto contraffatto e quindi uno spambot. Già questa prima rivelazione indica una presenza massiccia di accounts automatizzati.

Dei 73.897 utenti di cui si hanno le timelines è stata effettuata l’analisi solo sugli utenti che hanno tweettato durante le dieci anomalie più alte rilevate, cioè 10.000 utenti circa. Questa scelta è data dal fatto che la LCS è un problema computazionalmente difficile, per cui è necessario un numero contenuto di utenti e tweets da processare.

Con gli utenti selezionati i risultati sono mostrati come segue.

I boxplots in Figura 6.1 mostrano la distribuzione delle basi del DNA, corrispondenti ai tipi di tweets, tra le sequenze di DNA digitale estratte dalle timeline degli utenti. Come mostrato in Figura 6.1, gli utenti in generale hanno condiviso più retweets che semplici tweets o risposte ad altri tweets.

Figura 6.1. Distribuzione delle diverse basi del DNA all'interno delle sequenze

La Figura 6.2 mostra le sequenze di DNA (le linee orizzontali) degli utenti dove ogni azione è rappresentata da un colore: rosso per i tweets, blu per i retweets, verde per le risposte.

La struttura attesa delle sequenze di DNA di utenti reali consiste in una serie di diversi tipi di azioni, soprattutto effettuate in sequenza diversa rispetto agli altri utenti della rete, come mostrato nella Figura 6.3.

Al contrario, i risultati delle analisi compiute su questi utenti rilevano la presenza di un cluster di utenti che nella loro vita hanno condiviso esclusivamente retweets, come

evidenziato dalla figura 6.2 (sequenze colorate di blu). Questo fenomeno è il campanello d’allarme della presenza di accounts automatizzati.

Figura 6.2. Grafico delle sequenze delle timelines degli utenti che hanno generato anomalie

Figura 6.3. Grafico delle sequenze delle timelines di utenti reali dimostrato nel lavoro [57]

Le figure 6.4 e 6.5 mostrano, rispettivamente, l'entropia di Shannon intra-sequence e quella inter-sequenza delle sequenze di DNA degli utenti. Il boxplot in Figura 6.4 mostra che la composizione all'interno di ogni timeline è molto omogenea e facilmente prevedibile, in contrapposizione al comportamento individuato per gli umani. È infatti dimostrato che le timeline degli utenti reali sono generalmente eterogenee ed entropiche, contenente tipi misti di tweets [57].

La Figura 6.5 rappresenta l'entropia inter-sequence, utile per individuare comportamenti sincronizzati tra diversi utenti. Il boxplot mostra valori di entropia inter- sequenza molto bassi individuando che gli utenti di questo gruppo mostrano comportamenti sincronizzati.

Figura 6.4. Entropia Shannon intra-sequence

Figura 6.5. Entropia Shannon inter-sequence

La Figura 6.6 mostra il grafico LCS degli utenti. Dato che la LCS è una misura di somiglianza tra sequenze di DNA digitali, valori sospettosamente alti di LCS possono indicare la presenza di accounts automatizzati. È infatti dimostrato che la LCS tra utenti reali è in generale molto bassa a causa della eterogeneità delle azioni degli utenti, come mostrato in Figura 6.7 [57].

In particolare, la curva LCS della Figura 6.6 rivela un gruppo di circa 2.000 accounts che condividono un'elevata somiglianza comportamentale, con valori LCS nella regione di 3.200. Si ha poi un decremento graduale della LCS per i restanti accounts, che però è da interpretare in considerazione del fatto che la LCS è strettamente legata alla lunghezza delle sequenze di DNA, visibile graficamente nella Figura 6.2, per cui il motivo di un calo nei valori della LCS in questo caso non indica necessariamente che tali accounts abbiano una somiglianza minore, quanto piuttosto che le sequenze su cui individuare la LCS sono via via sempre più corte.

Questo comportamento è insolito rispetto alla tendenza generale che caratterizza gli accounts reali (Fig. 6.7) e la causa di questo fenomeno è da ricondurre alla presenza del gruppo di accounts molto simili che nella loro “vita virtuale” hanno condiviso solo messaggi di tipo retweets.

Figura 6.6. Grafico di similarità LCS

Figura 6.7. Comparazione tra le curve LCS di account genuini e account bot dimostrato nel lavoro [57]

Infine, con un'analisi più approfondita del profilo degli utenti considerati è interessante notare l’esistenza di accounts sospetti come mostrato in Figura 6.8.

Tali accounts possiedono le caratteristiche studiate nel mondo della letteratura per essere bots [52]: semplice nome di donna, immagine di un volto in primo piano, descrizione del profilo vaga, pochi followers.

Questi accounts, se considerati singolarmente, sembrano utenti reali. Se invece vengono studiati e confrontati tra loro è possibile notare una somiglianza non solo nelle caratteristiche appena descritte ma anche nel numero e nel tipo di utenti che seguono (Fig. 6.8).

Figura 6.8. Profilo twitter di alcuni utenti che hanno contribuito a generare anomalie

Se inoltre si analizzano più dettagliatamente gli ultimi tweets che hanno postato si nota come questi siano retweets dello stesso tweet avvenuti nello stesso momento (Fig. 6.9).

Figura 6.9. Esempio di tweets postati da alcuni utenti che hanno contribuito a generare anomalie

Questo insieme di utenti sospetti sostiene l’ipotesi più accreditata: la presenza di bots adibiti alla pratica fraudolenta mirata ad accrescere l’importanza e la popolarità percepita di alcuni cashtags da parte di utenti sospetti.

Per questo motivo si suggerisce di prendere in considerazione tale fenomeno nell’utilizzo delle informazioni social di carattere finanziario per di predire l’andamento dei prezzi del mercato e fare scelte di investimento, al contrario di quanto ribadito fino ad ora nel mondo della ricerca scientifica.

Documenti correlati