• Non ci sono risultati.

La larga diffusione, la semplicità di trasmissione dei suoi contenuti e la natura stessa della piattaforma rendono Twitter un caso interessante da esplorare. Si tratta di un social network che permette di pubblicare piccoli messaggi (tweet) composti da un massimo di 140 caratteri. Questi tweet spesso sono accompagnati da vari metadati, come il timestamp (le indicazioni temporali riferite al momento della pubblicazione), i nomi-utente e gli ID utente dei tweeters, i conteggi “follower” e “following”, le coordinate geografiche, gli hashtag, le “@menzioni” (cioè le custodisce informazioni intime e potenzialmente sensibili, le

politiche sulla privacy attuate sono piuttosto severe, soprattutto in seguito allo scandalo Cambridge Analytica2, che ha costretto

Facebook a introdurre una nuova API e termini più restringenti per l’accesso di tutte le applicazioni (tra cui anche Netvizz), che sono state tutte soggette a nuove revisioni.

L’API del social network di Menlo Park è costruita per proteggere i dati in vari modi. Innanzitutto ogni analisi nel pool di dati viene “firmata” con le credenziali di un utente di Facebook il cui stato effettivo sulla piattaforma definisce l’ambito di accesso ai dati. Ad esempio, i dati utente dettagliati possono generalmente essere estratti solo dagli account di cui un utente è amico, oppure nel caso si volessero estrarre i dati da un gruppo, è necessario esserne membri. Le impostazioni sulla privacy degli utenti hanno un ruolo fondamentale sull’accesso ai dati che possono essere esportati: se un utente esclude un altro dal vedere determinati elementi sul suo profilo, a un’applicazione che opera con le credenziali di quest’ultimo verrà impedito di accedere a tali elementi. Inoltre, ogni applicazione richiede esplicitamente il permesso di accedere a diversi elementi, richieste che vengono visualizzate dall’utente quando usa per la prima volta l’applicazione. L’autorizzazione da parte dell’utente vincola il funzionamento dell’applicazione, e infatti ad ogni utente è permesso limitare quali dati rendere disponibili alle applicazioni utilizzate dai loro amici. Ad ulteriore tutela della privacy non tutti gli elementi visibili a livello dell’interfaccia utente sono disponibili tramite l’API, ad esempio, il conteggio delle visualizzazioni degli utenti su ciascun post di un gruppo è (attualmente) non recuperabile e alcuni elementi, come gli indirizzi e-mail degli amici, rimangono ugualmente off limits. Quando si va ad interpretare i dati recuperati, le impostazioni sulla privacy degli utenti risultano davvero rilevanti: da un punto di vista tecnico, non è possibile sapere se un campo è vuoto perché l’utente non ha compilato i dati specifici o perché le impostazioni sulla privacy ne vietano l’accesso. Questo deve essere preso in considerazione quando si effettuano ipotesi sulla base dei dati mancanti, in particolare, i dati del profilo 2 Società di

consulenza britannica che raccoglieva dati dai social network e che attraverso la loro analisi riusciva a elaborare dettagliato profili psicologici degli utenti, da utilizzare in campagne marketing ben mirate, ad esempio attraverso comunicazioni strategiche per le campagne elettorali, come nel caso delle presidenziali americane del 2016 o del referendum sulla Brexit. Nella primavera del 2018 Facebook ha sospeso la società, accusandola di aver raccolto dati che non le appartenevano, determinando così il fallimento della stessa, ma sollevando al contempo anche interrogativi sulla sicurezza e l’efficacia della protezione dei dati personali offerta da Facebook.

55

54

Parte 1 Capitolo3 Strumenti

orientamenti: un’analisi temporale, basata principalmente sugli eventi (event based analysis) e un’analisi del corpus che invece si incentra più sugli argomenti trattati (topic based

analysis). Nel primo caso i dati di Twitter possono essere visti

come una narrazione che si sviluppa nel tempo. Attraverso una visualizzazione cronologica dei tweet, si possono esplorare gli “eventi” nel corso del loro svolgimento, all’interno di Twitter. Per esempio si può osservare la variazione del volume dei tweet attorno ai luoghi (per i post geo-referenziati), l’evoluzione del sentimento (positivo/negativo) nel corso di una conversazione, i cambiamenti di vocabolario in una discussione e altro ancora. Al contrario, un’analisi del corpus si basa su una concezione di interi dataset come uno “spazio informativo” in cui le caratteristiche semantiche (parole, hashtag, …) si intersecano in modi potenzialmente interessanti, indipendentemente dal tempo in cui sono espressi. In questo modo di può trarre spunto dall’esplorazione degli argomenti che emergono dall’intero corpus di dati, indagando i modi in cui le parole-chiave vengono utilizzate insieme, per formare temi più ampi.

Come per Facebook, anche per Twitter l’accesso ai dati e ai loro valori associati è consentito tramite API. Accedere all’archivio dei propri tweet tramite l’interfaccia del sito è consentito esclusivamente all’utente che li ha pubblicati, ma grazie a TwimeMachine (www.twimemachine.com), un’applicazione sviluppata da Simon de la Rouviere, (@simondlr) è possibile visionare lo storico dei tweet pubblicati da qualunque utente. Come nel caso di Facebook, è richiesto l’accesso di un account registrato per poter recuperare i dati desiderati, e in seguito all’autorizzazione dell’utente TwimeMachine è in grado di restituire il corpus dei tweet e dei retweet dell’user ricercato, fino a un massimo di 3200, unica limitazione dovuta alla costruzione dell’API di Twitter.

comunicazioni tra utenti), i retweet (quando un utente “ri-posta” i tweet di qualcun altro) e i collegamenti ipertestuali.

Gli approcci per la raccolta di questi dati sono due: attraverso una ricerca per parole-chiave, che utilizza le entità linguistiche (parole, hashtag, URL…) come criteri per la compilazione dei set di dati, oppure una strategia “user-driven” che si basa sul “seguire” un utente, cioè prendendo in esame una porzione più o meno estesa di dati di gruppi di utenti (Brooker et al., 2016). Gli user-driven data sono organizzati attorno all’attività di gruppi selezionati di utenti e l’approccio basato su questo tipo di dati è utile per progetti in cui non è facile definire una ricerca per parole chiave: ad esempio quando i tweeter non usano riferimenti espliciti o formali, ma colloquiali o generali all’area di interesse o ancora, quando si vuole comprendere il ruolo di un particolare problema all’interno di un contesto più ampio. Questa strategia consente di scoprire cosa sta twittando un gruppo di persone, senza restringere il campo di applicazione con le parole chiave ed è quella utilizzata in questa ricerca.

Per l’analisi dei dati invece, si possono delineare due

Fig. 3.2 Home page di Twitter.

Parte 1 Capitolo3 Strumenti