• Non ci sono risultati.

L’uso dei big data nella comunicazione politico-elettorale. La previsione di voto nelle presidenziali francesi 2017

N/A
N/A
Protected

Academic year: 2021

Condividi "L’uso dei big data nella comunicazione politico-elettorale. La previsione di voto nelle presidenziali francesi 2017"

Copied!
28
0
0

Testo completo

(1)

Saggi

L’uso dei big data nella

comunicazione politico-elettorale

La previsione di voto

nelle presidenziali francesi 2017

THE USE OF BIG DATA IN POLITICAL-ELECTORAL COMMUNICATION. THE VOTING PREDICTION IN THE FRENCH PRESIDENTIAL ELECTIONS 2017. The introduction of big data technologies in the political promises a greater control of the electoral campaign at every stage: from planning to defining the agenda, from building consent to monitoring results. Big data are, in fact, an effective tool for electoral profiling, especially when combined with structured databases and psychometric techniques. However, it is on the ground of the voting forecast that the real effectiveness of big data is being measured starting from the search for the perfect algorithm for the analysis of heterogeneous data. This article intends to contribute to the debate on the uses and perspectives of big data with a critical analysis of their use for electoral forecasting. The case examined is that of the 2017 French presidential elections, in particular it will be analysed voting forecasts produced during the election campaign for the first round qualification.

Keywords: big data, vote forecast, French presidential elections,

professionalisa-tion, electoral campaign.

Quando nel corso della campagna presidenziale di Barack Obama nel 2012 si sentì parlare per la prima volta del progetto Narwhal e di come e perché l’integra-zione di banche dati diverse avesse contribuito alla vittoria di Obama (Slaby, 2013; De Rosa, 2014) furono in molti a pensare che la comunicazione politico-elettorale stesse muovendo i suoi primi passi verso l’El Dorado. La creazione di un unico contenitore di dati provenienti da fonti digitali rendeva finalmente possibile la messa a punto di una strategia di campagna che fosse cost-effective che, cioè, a parità di costo consentisse di raggiungere e coinvolgere nella campagna un numero nettamente maggiore di supporter e donatori e, allo stesso tempo, fosse time-efficient che, cioè, contribuisse a comprendere – quasi in real time – l’umore dell’elettorato e la sua risposta ai messag-gi politici, riducendo, di conseguenza, i tempi di reazione della cosiddetta war room

(2)

(Scammel, 1997; Mazzoleni, 2012). La metafora «Big Data is the new oil» ci mette di fronte ad una ghiotta opportunità per estrarre valore da uno smisurato giacimento in-formativo (Anderson, 2008). Tuttavia, né la metafora dell’El Dorado né quella del new

oil sembrano riuscire a rendere ragione di un processo che ha più a che fare con la

coltivazione – sperimentale, complessa e ricorsiva – del ragionamento probabilistico e scientifico che con il mero sfruttamento di una inesauribile vena d’oro (Thorp, 2012; Kitchin, 2014; Boyd e Crawford, 2012; Hesse, Moser e Riley, 2015; Collins, 2010). Que-sto articolo intende contribuire al dibattito sugli usi e sulle prospettive dei big data a partire da un’analisi critica del loro utilizzo nella previsione elettorale, banco di prova della affidabilità dei metodi di analisi computazionale. Il caso esaminato è quello del primo turno delle presidenziali francesi 2017.

1.

La nuova frontiera della comunicazione politico-elettorale

La data-driven campaign è l’ultima novità in fatto di strategie politiche-elettorali, novità che si inserisce nel solco della professionalizzazione della politica (Scammel, 1997; Negrine e Lilleker, 2002) quando la conquista del consenso ha ini-ziato ad essere affidata alle tecniche di marketing politico, alla personalizzazione del discorso e ad un livello crescente di sofisticazione tecnologica (Blumler et al., 1996). La specializzazione delle attività di campaign è una delle dimensioni evidenziate in letteratura per sottolineare il cambio di paradigma, da campagne basate sul lavoro di volontari e militanti a campagne con un decisivo impiego di esperti e tecnologie, che quindi implicano più forti investimenti finanziari. I dati longitudinali sulle presi-denziali americane dal 1960 sono impietosi nel mostrare l’andamento in tendenziale crescita delle spese elettorali con una decisa impennata nelle presidenziali 2006 e, ancor più, nelle presidenziali 2008 e 2012, quando Obama sfidava prima McCain e poi Romney1. Tale andamento è confermato anche dai dati normalizzati all’inflazione, alla crescita della popolazione e al reddito medio. Un trend che subisce una battuta d’arresto – senza però doppiare i livelli del 2006 – nella recente horse race fra Donald Trump e Hillary Clinton. Saremo in grado di comprendere se si tratta di un’anomalia o di un effetto dell’affinamento delle tecniche di campaign solo fra qualche anno, e qualche campagna in più. Il dato però non ci coglie di sorpresa perché, appunto, va crescendo l’attenzione dei partiti verso tecniche di campagna cost-effective e

time-efficient, basate sul combinato disposto della maggiore pervasività dei social media

1 I dati sono stati elaborati da metrocosm.com a partire da dati ufficiali: http://metrocosm.

(3)

e della accresciuta disponibilità di dati. L’uso scientifico dei dati entra a pieno titolo nell’organizzazione delle campagne elettorali come risposta alla difficoltà dei sondag-gi di prevedere il comportamento di voto, segnando forse un primo decisivo passagsondag-gio verso quella che già oggi viene definita «the new augmented age of computational propaganda» (Woolley e Guilbeault, 2017: 4).

Swanson e Mancini (1996) avevano intravisto nella scientificizzazione del processo di voto la possibilità per assicurare la vittoria elettorale a partiti sempre meno caratterizzati ideologicamente e sempre più in balia della volatilità elettorale (Kirchheimer, 1966). Con un’importante differenza. A quel tempo comprendere scien-tificamente il mercato politico significava attingere al bagaglio di conoscenza ac-cumulata dalle scienze sociali in oltre cinquant’anni di analisi del comportamento di voto, oppure applicare i principi del marketing commerciale, che aveva intanto raggiunto livelli di formalizzazione tali da meritarsi la definizione di partial-science (Kotler, 1981). Oggi comprendere scientificamente i comportamenti di voto significa attingere a piene mani alla cosiddetta folk wisdom, al bagaglio di conoscenza che risiede presso il popolo ordinario, e che è il risultato della radicale espansione dello spazio pubblico (Cardon, 2011).

L’introduzione dei big data nell’armamentario dello stratega politico pro-mette un controllo ancora maggiore dell’organizzazione delle campagne elettorali, dalla pianificazione alla definizione dell’agenda, dalla costruzione del consenso al monitoraggio dei risultati. Essi rappresentano la traduzione informativa delle attività umane, che espande i confini dell’universo quantificabile e prospetta la progressiva datificazione della società (Mayer-Schönberger e Cukier, 2013). Poiché garantiscono quella velocità di feedback che né la ricerca sociale né il marketing sono mai riu-sciti ad assicurare, consentono di affrontare il clima di incertezza elettorale meglio attrezzati. Dall’individuazione di quei segmenti di elettorato non rappresentato alla definizione di target sempre più specifici, fino alla discriminazione fra indecisi, likely

voters e supporters, i big data diventano quella sponda tecnologica che le campagne

post-moderne stavano aspettando.

Strategie di campaign possono essere costruite a partire dalla profilazio-ne degli elettori per determinare, con ragioprofilazio-nevole certezza, quali elettori siano di-sponibili a supportare un candidato e con quale grado di coinvolgimento. Incrocian-do i dati demografici contenuti nei database dei partiti e attribuenIncrocian-do un punteggio ad azioni quali il voto passato, le donazioni effettuate, la partecipazione a campagne di mobilitazione politica, le opinioni espresse, gli stili di consumo culturale, di beni e servizi, i discorsi e i comportamenti sui social media, è possibile attribuire a ciascun elettore uno score per categoria di impegno politico. Il behaviour score consente di quantificare la disponibilità degli elettori ad attivarsi nelle attività di campagna. Il

(4)

support score di prevedere le preferenze politiche ed elettorali dei cittadini; il re-sponsiveness score di individuare quali individui rispondono a quali sollecitazioni

persuasive. In altre parole, questi punteggi aiuterebbero a discriminare con sufficien-te precisione gli elettori in supporsufficien-ters, likely vosufficien-ters e indecisi. Ad un livello di analisi più approfondito, i predictive score consentono, infine, di stimare quanti voti una specifica attività o una specifica constituency potrebbero generare e a quale costo (Nickerson e Rogers, 2014). Perso il tradizionale ancoraggio al sistema broadcast dei media, le moderne teorie della persuasione fanno leva sul singolo individuo ponendo l’elettore all’inizio della catena della comunicazione. Occore conoscere di più del potenziale elettore per poterlo raggiungere con messaggi sempre più efficaci. È la cosiddetta «campagna di precisione».

I big data si configurano come uno strumento molto efficace di profilazio-ne degli elettori se affiancati ad un database strutturato e a tecniche psicometriche. Il database degli elettori non solo resta centrale ma, integrato da una notevole mole di tracce digitali, consente quella personalizzazione della campagna che i media non possono garantire. Per fare un esempio, Liegey Muller Pons è la start up che ha orga-nizzato la campagna porta a porta di Macron per En Marche!. La start up ha utilizzato gli open data disponibili per comprendere dove Macron avrebbe dovuto concentrare gli sforzi maggiori e come combinare le attività porta a porta con la campagna social, nella consapevolezza che il comportamento di voto non si cambia con la propaganda online ma che i social media sono un insostituibile strumento di mobilitazione e di supporto organizzativo. Inoltre, grazie proprio ai volontari reclutati per l’attività di contatto (300.000 visite porta a porta), la start up ha potuto condurre una rilevazione di opinione su ampia scala con domande aperte (25.000 interviste) per ottenere una rappresentazione più realistica possibile del dibattito politico sul territorio.

È quindi il data scientist ad avere ora in mano le chiavi della campagna: elabora modelli sulla base dei quali partiti e candidati agiranno concentrando strate-gicamente le attività in alcune aree elettorali o privilegiando un particolare segmento di elettorato, individua sensitive-issues da immettere nel dibattito e monitora i flussi di opinione fino ad istruire strategie più invasive di computational propaganda. La

computational propaganda è, infatti, l’uso strategico, mirato e soprattutto combinato

di algoritmi, automazione e content curation per diffondere informazioni strategiche attraverso i social media ed ottenere gli effetti sperati. Secondo una ricerca dell’Ox-ford Internet Institute, effettuata in ben nove paesi dal 2015 al 2017, i social media sono stati utilizzati attivamente per manipolare l’opinione pubblica per finalità di controllo sociale – come avviene sistematicamente in Russia e Cina – o per mani-polare il consenso, come svelato dal caso «Cambridge Analytica» per la vittoria di Trump. Le stesse strategie di computational propaganda sono state utilizzate anche in

(5)

Brasile per le elezioni del 2014 e per influenzare il processo di impeachment di Dilma Rousseff (Woolley e Guilbeault, 2017).

L’uso dei big data nella previsione di voto è un tema sul quale la lette-ratura ha appena iniziato a riflettere (Ceron, Curini e Iacus, 2017) mostrando più di qualche cautela (Tumasjan, Sprenger, Sandner e Welpe, 2010). Nel 2010, un’inda-gine condotta presso la Technical University di Monaco sulle elezioni federali del 2009 dimostrò una correlazione molto forte fra comportamento di voto e quantità di menzioni degli attori politici via Twitter. Tuttavia, ai primi tentativi di replicare la ricerca i risultati si rivelarono diametralmente opposti sottolineando alcuni dei limiti nell’uso di tali dati (Jungherr, 2015). Il limite principale di tale applicazione è che il pubblico analizzato difficilmente rappresenta l’opinione pubblica o una specifica constituency, anzi in casi di rilevanza internazionale come le lezioni presidenziali Usa, la controversia politica e il dibattico pubblico sono tali da valicare i confini strettamente nazionali ampliando la sfera discorsiva analizzata che così non coinci-de più con quella che vota (ibicoinci-dem). Il suo vantaggio è, invece, che l’analisi coinci-del data

stream costituisce quel valore aggiunto che consente di cogliere le «vibrazioni» del

corpo sociale, vibrazioni che nessun metodo tradizionale può cogliere nel suo diveni-re, in molti casi anticipando – piuttosto che prevedendo – il presente (Boullier, 2015; Choi e Varian, 2012). Una distinzione questa – fra anticipare e prevedere – che ha, come vedremo, importanti implicazioni.

Ci troviamo dunque di fronte ad una prammatica della comunicazione elettorale che risponde al processo di secolarizzazione della politica con l’ingegneria del consenso, da un lato, e l’applicazione di strategie di computational propaganda, dall’altro. Entrambe si fondano sulla ricerca dell’algoritmo perfetto che, nella previ-sione di voto, deciderà anche del futuro dei sondaggi.

2.

Prevedere il voto: la probabilità e i suoi limiti

L’adozione dei nuovi metodi computazionali non ha cambiato in maniera radicale il modo in cui le campagne elettorali vengono condotte (Nickerson e Rogers, 2017). L’obiettivo è sempre vincere le elezioni sulla base di modelli predittivi affida-bili ricavati da una estesa raccolta di dati e informazioni sui comportamenti di voto passati e le preferenze correnti. Tuttavia, la potenza di calcolo raggiunta dalle nuove tecnologie è ormai alla portata di tutti e sta facilitando la diffusione di capacità ana-litiche e statistiche anche presso i cittadini-elettori, che a loro volta sono in grado di mettere in atto comportamenti strategici politicamente finalizzati. I modelli di pre-visione si muovono ora in un ambiente magmatico dove la percentuale di «tracce» (o

(6)

rumore) disponibile tende a superare quella dei «segnali», trasformando la campagna elettorale in una partita a scacchi multiplayer (Chadwich, 2013).

È il giusto accoppiamento di segnali e tracce a determinare l’efficacia di un modello previsionale. Ma cosa sono i segnali e quali le tracce? Cardon distingue le informazioni esplicite – come un account Facebook – da quelle implicite come la registrazione di click, percorsi di navigazione, like ecc. Gli algoritmi più efficaci sono quelli che riescono ad accoppiare «strettamente segnali di informazioni a tracce di azioni o che si servono delle tracce per trovare la migliore relazione tra i segnali» (Cardon, 2016: 52).

Il metodo solitamente utilizzato per realizzare modelli previsionali è il metodo Bayes della probabilità inversa. In ambito elettorale, il metodo calcola la pro-babilità di un certo esito elettorale sulla base delle performance di voto precedenti e della probabilità che un insieme di variabili incidenti possano influenzare l’esito previ-sto. In questi modelli stimare l’errore è fondamentale come lo è identificare e misurare le differenti variabili in gioco. Per fare un esempio, ci sono modelli di previsione del voto nelle elezioni presidenziali americane che considerano i risultati ottenuti nei sin-goli stati come indipendenti fra loro. Nate Silver, il celebre blogger di «fivethirtyeight», previde correttamente il risultato delle presidenziali di voto 2008 in 49 su 50 stati considerando non indipendente il voto nei singoli stati, quindi formulando ipotesi a

priori di interdipendenza. Inoltre, considerando i dati delle tornate elettorali

prece-denti, i sondaggi elettorali stato per stato, e calcolando anche la probabilità che tali sondaggi fossero più o meno sbagliati in ragione dell’accuratezza mostrata in passato, Silver riuscì a creare un modello probabilistico che tenesse sempre conto della per-centuale di errore nel calcolo delle probabilità di tutte le variabili considerate.

In The Signal and the Noise, Silver spiega come l’errore più comune, nelle previsioni basate sul calcolo delle probabilità, fosse anche il più banale: la sottovalu-tazione sistematica dello standard error con la conseguente creazione di falsi positivi o di falsi negativi (Silver, 2012; Goldberg, 2013). Accade però che anche quando il range di errore è disponibile e correttamente calcolato, per ragioni mediatiche questa informazione viene taciuta perché considerata ingombrante, ingenerando nelle previ-sioni politiche (e, naturalmente, nella vulgata social) una spirale di false aspettative. Come è, infatti, accaduto nelle elezioni presidenziali del 2008 quando, nonostante da settembre tutti i sondaggi dessero per vincente Barack Obama su John MacCain e lo stesso Nate Silver con il suo modello rilevasse una probabilità dell’oltre il 95% a favore di Obama, nelle più note trasmissioni televisive si continuava a sostenere la tesi che gli indecisi avrebbero «deciso» il voto e che i candidati fossero «too close to call». Questa tendenza a sottovalutare la forza incidente di ciascuna variabile presa in considerazione e il relativo standard di errore tende a peggiorare con l’uso dei

(7)

big data che renderebbe superflua la formulazione di ipotesi a priori a favore del rile-vamento di tutte le possibili correlazioni fra dati e variabili anche molto eterogenee. In un ambito in cui il rumore tende a prevalere, come avviene in politica e in econo-mia, le inferenze sono invece tanto più solide quanto più sono ancorate alle ipotesi (Silver, 2012). Naturalmente più aumenta la massa di informazioni, maggiore è la loro eterogeneità e più ipotesi o microteorie vanno formulate o investigate. Anche quando dai dati emergono centinaia di possibili correlazioni da approfondire, quelle veramen-te significative sono poche e, soprattutto, provenienti da insiemi di dati talmenveramen-te ibri-di da non consentire più una stima corretta dell’errore. È principalmente per questo motivo che i modelli previsionali basati su big dati vengono affiancati dalle tecnologie di machine learning, capaci di restituire quei microcontesti da cui sono stati estratti i dati e contribuire così alla scelta a posteriori della migliore teoria testando migliaia di ipotesi contemporaneamente (Cardon, 2013: 50). Occorre però fare una conside-razione importante: le tecnologie di machine learning si muovono alla ricerca di re-golarità statistiche sulla base della teoria generale che le azioni degli individui siano appunto «regolari e prevedibili». I comportamenti sociali sono in effetti maggiormente quantificabili ma non necessariamente prevedibili perché le stesse tecnologie che consentono il monitoraggio in tempo reale delle azioni umane permettono anche il completo stravolgimento delle modalità di relazione, con l’adozione di comportamenti strategici, l’aumento esponenziale del rumore e la moltiplicazione fittizia dei segnali (es. profili fake e bots) ampliando, così, il margine di errore dei modelli previsionali. I casi delle elezioni presidenziali americane e francesi sono in tal senso molto significa-tivi sia per l’influenza esercitata dalle tecniche di computational propaganda che per il fallimento dei modelli previsionali basati sui big data.

Un’ultima considerazione concerne il noto principio di indeterminazione di Eisenberg applicato ai big data: tale principio ipotizza una relazione fra durata della misurazione e precisione del risultato, per cui più lunga è la misurazione più precisi saranno i risultati. Laddove la durata della misurazione tende ad essere breve o, ad-dirittura, in tempo reale è la quantità di dati a dover sopperire al limite del tempo. Ma quanto grande debba essere l’universo da esaminare per poter garantire risultati robusti è un’informazione rimasta anch’essa ad un certo livello di «indeterminatezza».

In sintesi, l’applicazione dei big data soffre di limiti a monte, durante e a valle della realizzazione di modelli previsionali. A monte la mancata formulazione di assunzioni a priori non consente la corretta gestione della probabilità che un fatto possa effettivamente verificarsi, che possa verificarsi per l’incidenza di una o più va-riabili, e che tale incidenza sia soggetta ad una certa probabilità di errore. Nel corso delle analisi, la durata della misurazione può influenzare pesantemente i risultati, e questo è tanto più evidente quanto più i ritmi delle campagne elettorali e la richiesta

(8)

di analisi quasi in tempo reale da parte di media e campaign strategist si fa pressante. A valle, l’uso dei big data può produrre falsi positivi, ingenerare una percezione distor-ta della realtà ed aspetdistor-tative che vengono poi amplificate dai social media con effetti imprevedibili. Quel che è peggio è che i comportamenti ingenerati da una percezione distorta restituiscono ovviamente un quadro statistico ampiamente biased.

3.

Alla ricerca dell’algoritmo perfetto: i big data nelle elezioni

presidenziali francesi

Le elezioni presidenziali 2017 sono state considerate una delle tornate elettorali più incerte e competitive della V repubblica francese2 con 11 candidati e un

2 Dominique Moisi, esperto di politica francese, in un discorso presso l’Association of

European Journalists.

Figura 1. Intenzioni di voto, media dei sondaggi. Presidenziali francesi primo turno

Fonte: The Telegraph 30 20 10 0 6-M02 M0213- M0220- M0227- M036- M0313- M0320- M0327- M043- M0410- M0417- M04 23-Le Pen 25,2 25,9 26,6 26,3 26,5 26,2 26,4 25,2 25 23,8 22,3 22,1 Macron 21,5 21,2 19,6 23,6 24,8 25,2 25 25 25,1 23,3 23,1 24 Fillon 19,4 18,8 19,5 20,3 18,9 19,7 18,1 18,3 18,2 18,5 19,3 19,6 Mélenchon 10,8 11,4 11,7 11 11,4 11,5 11,6 13,8 15,1 18 19,2 18,9 Hamon 15,5 14,9 17,4 13,8 14,4 13,7 13 10,9 10,1 8,8 8 7,3

(9)

Figura 2. Sondaggio Ipsos-Cevipof su campione rappresentativo di 1.000 persone 30 25 20 15 10 5 0

7-12 febbraio 1-5 marzo 6-7 marzo 14-15 marzo 21-22 aprile

Le Pen 26 27 27 27 25

Macron 23 25 23 26 25

Fillon 18,5 17,5 19,5 17,5 17,5

Mélenchon 14,5 14 13,5 12,5 10

Hamon 12 11,5 12 11,5 15

giovanissimo aspirante all’Eliseo che – pur promettendo il cambiamento – si poneva come l’unico vero baluardo contro le tendenze sovraniste, difendendo l’idea di una nazione aperta e solidale. I sondaggi fin dal mese di Febbraio segnalavano il duello serrato fra due soli contendenti – Marine Le Pen per il Front National e Emmanuel Macron per la nuova formazione politica En Marche! – con una forbice iniziale di quasi 5 punti percentuali a favore di Le Pen3, un periodo di sostanziale prossimità tra i due, ed un trend che, invece, si concludeva a favore di Macron con una distanza dell’1,9% dalla Le Pen (figg. 1 e 2)4.

Dopo i fallimenti con la Brexit, la vittoria di Trump e lo choc del 2002, quando i sondaggi non segnalarono l’ascesa paurosa di Jean Marie Le Pen che si qua-lificò al secondo turno contro Chirac, i sondaggi sono stati spesso criticati, talvolta derubricati a tecnologia obsoleta. Questo ha spinto i media a dedicare maggiore

at-3 HuffPost Pollster, French Presidential Election,

http://elections.huffingtonpost.com/poll-ster/france-presidential-election-round-1.

4 Il trend mostrato nella figura 1 risulta dal punteggio medio di 88 sondaggi provenienti da

9 sondaggisti, 8 dei quali a favore di Macron e soltanto uno (Ipsos-Cevipof) che vedeva il pareggio fra i due principali contendenti (fig. 2).

(10)

tenzione ai big data tanto da trasformare le elezioni presidenziali in un banco di prova per le nuove tecniche computazionali. E se a pochi giorni dal voto c’è ancora qualcuno che si chiedeva se e quanto i sondaggi influenzassero le scelte di voto5, le previsioni di voto basate sui big data tenevano ormai banco nel dibattito pubblico.

I big data sono stati introdotti nelle presidenziali 2017 con l’adozione da parte di quasi tutti i candidati di sistemi esperti per la gestione delle campagne: l’americano NationBuilder a supporto di Mélenchon come prima di Bernie Sanders nelle primarie democratiche americane del 2016; il francese 50+1 della start up Liegey Muller Pons, già utilizzata da Hollande nel 2012, a supporto poi di Macron; Federavox, cavallo di battaglia di Fillon nelle primarie della destra e DigitaleBox, piattaforma di community organizing che ha fiancheggiato altri due candidati di cui non è stato rivelato il nome. Per Benoît Thieulin, fondatore dell’agenzia di comuni-cazione digitale La Netscouade, è la condizione di forte volatilità dell’elettorato che consente ai big data di esprimere il proprio potenziale6. I media, di fronte ad elezioni così rilevanti per il futuro dell’Europa e con quattro candidati realmente competitivi hanno cercato certezze nei big data trasformando la horce race in un «match dans le match» fra i big data e i sondaggi7. Liberation8 ne stigmatizza l’uso strumentale, come già accaduto per i sondaggi, per innescare un effetto winnowing nell’eletto-rato. Valeurs Actuel, il quotidiano economico di stampo conservatore, rilanciando quotidianamente i dati della compagnia canadese Filteris, ne sfrutta l’effetto novità e il rimbalzo sui social media. Countrepoints, quotidiano liberale9, prende le dife-se dei vecchi sondaggi che, nonostante i suoi limiti, restano comunque una valida istantanea delle intenzioni di voto. Per Le Monde la metodologia dei big data è poco trasparente e soffre degli stessi limiti di rappresentatività e distorsione dei sondag-gi10. Le Parisien evidenzia come i big data siano utilizzati dai candidati in maniera controfattuale quando sono i sondaggi a sottostimare il loro posizionamento. I media ne hanno fatto quindi un uso problematico, ammettendo come, pur senza aver dato prova di affidabilità, i big data siano un portato di novità e di orientamento in un contesto politico e mediatico molto fluido.

Nei paragrafi che seguono esamineremo quelle iniziative che, nel corso della campagna, si sono guadagnate l’attenzione mediatica. La loro analisi si è svolta

5 L. Boy, «Présidentielle: les sondages influencent-ils notre vote?». Franceinfo, 18.04.2017.

6 N. Ri, «Comment le Big Data s’est invité dans l’élection». Les Echos, 20.04.2017.

7 J.-C. Chanut, «Présidentielle: la grande “trouille” des instituts de sondage». La Tribune, 18.04.17.

8 V. Coquaz, «Filteris ne passe pas le premier tour». Liberation, 23.04.2017.

9 Nathalie MP, «Sondages: que nous disent-ils». Countrepoints, 1.04.2017.

10 «Filteris, Enigma… Face aux instituts de sondage, la défaite des prévisions “alternatives”».

(11)

attraverso i materiali rilasciati dalle agenzie stesse, gli articoli delle principali testate online e i commenti degli osservatori politici. Ne descriveremo e compareremo la metodologia a partire dalla natura dei dati e delle loro caratteristiche. I dati citati sono stati ampiamente pubblicizzati dalle agenzie stesse e dai media a stampa. La metodologia di ciascuna analisi è stata ricostruita attraverso le interviste rilasciate e i report interni, quando disponibili. Una tabella di sintesi sarà presentata per comparare le caratteristiche più salienti dei diversi tools.

In Francia la metà della popolazione è su Facebook e 15 milioni di per-sone utilizzano Twitter. Secondo un sondaggio di Harris Interactive11 effettuato su un campione di 1.000 utenti twitter francesi (+18 età) e di 517 utenti che hanno utilizzato Twitter nei precedenti 30 giorni dal sondaggio, il 73% di essi dichiara un esplicito interesse per la politica e una percentuale piuttosto alta dichiara di avere un comportamento attivo nel partecipare, in vario modo, al dibattito politico (48% likers ecc.). La Twittersfera si conferma quindi come un ambiente elettivo per l’analisi delle leadership e dell’opinione pubblica (Bentivegna, 2015).

La compagnia canadese Filteris – che si pregia di aver correttamente pre-detto la vittoria di Trump alle presidenziali americane – realizza un barometro delle opinioni analizzando la discussione (buzz) che si genera sui social media durante il periodo elettorale. Attribuendo un punteggio da 1 a 100 a ciascun candidato, Filteris evidenzia quale candidato provoca più reazioni e con quale mood (percezione e valore positivo e negativo delle reazioni). Nella sua ultima rilevazione a ridosso del primo turno delle presidenziali francesi ha dato in testa Marine Le Pen (Front National) con il 22,72%, posizionando Emmanuel Macron (En Marche!) al quarto posto con il 20,03%, dopo François Fillon (Les Républicains, 21,57%), e Jean-Luc Mélenchon (La France Insoumise, 21,34%) fallendo, quindi, le aspettative (fig. 3).

Eppure Filteris in un comunicato su Entreprende del 25 novembre 2016 non solo si felicitava di aver correttamente previsto la vittoria di Fillon alle primarie della destra contro Juppé, ma suonava la campana a morte per i tradizionali sondag-gi12, valorizzando come specificità il fatto che, a differenza dei sondaggi, le loro analisi non si basassero su campioni rappresentativi, non prevedessero domande suscettibili di orientare le risposte né si affidassero alla regola della casualità. Filteris sostene-va, inoltre, di essere capace di cogliere le tendenze dell’opinione pubblica nel breve, medio e lungo periodo. Il suo fondatore – Jérôme Coutard – si era spinto anche oltre attestando una correlazione diretta ed esplicita tra popolarità dei candidati nella

sfe-11 «Twitter dans la vie politique et les campagnes électorales», http://harris-interactive.fr/

opinion_polls/twitter-dans-la-vie-politique-et-les-campagnes-electorales, 12.10.2016.

(12)

ra social e risultato dello scrutinio13. Non sono mancate critiche critiche sulla rappre-sentatività del campione da parte degli istituti di sondaggio Odoxa e Kantar Sofres14. Una tecnica simile a quella utilizzata da Filteris è stata utilizzata anche da Predata, una società con base a New York che aveva correttamente anticipato la Brexit, sba-gliando però sulla vittoria di Hillary Clinton nelle elezioni americane e sull’iniziativa referendaria di Matteo Renzi per la riforma costituzionale. E come per Filteris, anche Predata ha sottostimato Macron a favore di Fillon e Le Pen15.

Vigiglob è una startup francese guidata da Leendert de Voogd, già diretto-re generale dell’istituto di sondaggi TNS che, grazie all’accesso ai profili personali de-gli utenti Facebook e Twitter, garantisce un mide-gliore abbinamento di tracce e segnali. La metodologia di Vigiglob non si discosta molto da quella utilizzata da Filteris, salvo per l’applicazione di tecnologie di machine learning capaci di discriminare meglio i contesti d’uso di reazioni e sentiment ed offrire quindi una classificazione automatica del tono delle opinioni espresse, ovviamente «istruita» da una precedente attività di

13 L. Galtier, «Présidentielle: qu’est-ce que Filteris, l’étude qui qualifie Fillon au 2nd tour?»,

http://www.rtl.fr/actu/politique/presidentielle-2017-filteris-l-etude-qui-qualifie-fillon-au-second-tour- 7788005932, 12.04.2017.

14 S. Sabiron, «Filteris. Le baromètre des réseaux sociaux qui fait rêver les fillonistes».

FranceInter, 10.04.2017; A. Sénécat, «Filteris, la pseudo-enquête électorale à prendre avec des

pin-cettes». Le Monde, 03.04.2017.

15 F. Benedetti Valentini e H. Fouquet, «Web Chatter Analysts: Macron’s Lead May Not Be as

Secure as Polls Say», www.bloomberg.com, 31.03.2017.

Figura 3. Peso digitale dei candidati, buzz e percezioni positive e negative. Presidenziali 2017,

primo turno

Fonte: Filteris, 21 aprile, ore 23.50. 22,72 25 20 15 10 5 0 M.

Le Pen FillonF. MélenchonJ.L. MacronE. HamonB. % N. Dupont-Aignan PoutouP. 21,57 21,34 20,03 6,68 3,51 1,91 F. Asselineau 1,04 Previsione di voto

(13)

classificazione manuale. In un’intervista rilasciata a La Tribune il 20.04.2017, Leendert de Voogd dà il senso delle metriche utilizzate. In pratica, se è vero che nella settima-na dal 12 al 19 aprile, la Twittersfera francese è stata domisettima-nata da Macron con 1,26 milioni di tweet (Fillon 1,25, Mélenchon 1,22, Le Pen 589.600) quel che davvero conta per l’algoritmo messo a punto da Vigiglob è il contenuto del messaggio quindi il suo tono, generalmente più positivo e con maggiore engagement nel caso di Fillon che degli altri candidati. In altre parole, Fillon sarebbe stato sottostimato dai sondaggi d’opinione, mentre aveva buone chance di qualificazione al secondo turno.

Al contrario Le Pen mostrava un trend di popolarità in caduta libera seb-bene di gran lunga più popolare di tutti gli altri candidati per numero di follower (1,3 milioni di follower su Facebook, 1,4 milioni su Twitter).

Tabella 1. Sentiment Analysis su Twitter, 19 aprile 2017

Candidati Partito Volume N. autori

dei tweet Sentiment (%) Sesso (%)

Pos. Neutro Neg. M F

M. Le Pen Front National 118.880

(18%)

49.513 (22%)

8 36 56 58 42

F. Fillon Les Républicains 178.980

(27%) 48.929 (22%) 21 35 44 65 35 J. L. Mélenchon La France Insoumise 118.122 (17%) 38.220 (17%) 16 33 51 69 31 E. Macron En Marche! 136.490 (20%) 36.788 (17%) 20 25 55 66 34

B. Hamon Parti Socialiste 42.339

(6%) 15.299 (7%) 26 25 49 63 37 N. Dupont-Aignan Debout la France 10.539 (2%) 3.391 (2%) 19 34 47 65 35

F. Asselineau Union Populaire

républicaine 15.678 (2%) 3.131 (1%) 17 36 47 71 29

N. Sarkozy Union populaire

républicaine 12.803 (2%) 6.479 (3%) 44 15 41 64 36

A. Juppé Union populaire

républicaine 19.469 (3%) 9.342 (4%) 22 55 23 69 31

F. Hollande Parti Socialiste 22.093

(3%) 10.508 (5%) 19 12 69 65 35

Base dati: 600.489 tweet Fonte: Vigiglob

(14)

Predict my President è un algoritmo messo a punto da cinque studenti del-la scuodel-la Telécom Paris Tech per il settimanale Le Point16. L’algoritmo utilizza il calcolo delle probabilità, i big data e le tecnologie di machine learning per un’analisi molto approfondita dello scenario elettorale. Combinando, infatti, dati socio-demografici ed economici alla geografia del voto della tornata elettorale 2012, al volume di query di ricerca in Google, ai dati di sondaggio e ai giudizi sui candidati nella Twittersfera, l’al-goritmo si mostra più solido degli altri. I suoi realizzatori si sono interrogati innanzi-tutto su quali variabili fossero suscettibili di influenzare il voto costruendo un modello a due step principali. La prima fase – quella di analisi – è servita per farsi una idea più precisa della geografia elettorale francese a partire dalla tornata elettorale del 2012 esaminando i dati a livello del singolo dipartimento in modo da evidenziare i blocchi omogenei di voto, il voto territoriale e il voto parigino, esplorando anche eventuali correlazioni fra i comportamenti di voto nei diversi dipartimenti e nel tempo.

Per la seconda fase – quella di modellizzazione – invece, i creatori dell’al-goritmo si sono avvalsi di open data e della formulazione di alcune di ipotesi17:

a) che il voto si raggruppasse in aree politicamente omogenee (blocco

di sinistra ed estrema sinistra18; blocco di centro; di destra e di estrema destra; non essendo stato rilevato un candidato di centro nelle elezioni 2017, il blocco di centro è stato calcolato in via ipotetica);

b) che Macron afferisse al blocco di sinistra;

c) che il voto dipartimentale potesse essere spiegato dai dati

socio-demo-grafici ed economici;

d) che le elezioni del 2012 avessero un’influenza su quelle del 2017.

L’applicazione di tecnologie di machine learning e di modelli econometri-ci a questo punto ha stabilito i nuovo blocchi di voto 2017 e le relative percentuali (23,5 per l’estrema destra, 40,1 per la sinistra, 26 per la destra e 10,4 per un ipotetico centro, ciascun blocco con un margine di errore del +/–2,5 %). Questi dati sono stati, inoltre, ponderati per la popolarità che ciascun candidato godeva nella Twittersfe-ra, considerata come un’attendibile rappresentazione della sfera pubblica francese. Selezionando 26.000 tweet che menzionavano i candidati in maniera positiva nella settimana da 10 al 15 aprile i risultati consentivano di individuare nella coppia Le Pen (24,13) e Fillon (24,08) i candidati più popolari ed apprezzati, mentre Macron (20,71) e Mélenchon (17,07) erano in terza e quarta posizione. Infine, i dati di sondaggio sono stati utilizzati per comprendere come distribuire la quota del blocco di centro non

16 M. Al Ani, D. Bensoussan, A. Brehelin, B. de Véricourt e R. Vignes, «Présidentielle: les deux

qualifiés pour le second tour sont…». Le Point, 18.04.2017.

17 Fonti: Institut national de la statistique et des études économiques (Insee) e data.gouv.fr.

(15)

assegnata a partire dalle intenzioni di voto espresse, scoprendo che Macron avrebbe potuto recuperare il 46% di quella quota, Fillon il 20%, mentre Le Pen soltanto il 6%. Insomma, tutte queste metriche nel modello matematico hanno finito con l’attesta-re – sorpl’attesta-rendentemente – l’affermazione al primo turno di Marine Le Pen (24,13%) e François Fillon (21,77%). Emmanuel Macron soltanto terzo (20,32%) e Jean-Luc Mélenchon all’ultimo posto con il 18,66%.

Eppure Predict My President sembrava avere tutte le carte in regola per predire il dato elettorale con maggiore precisione: il modello, piuttosto complesso, poggiava infatti su un insieme di apriori e di ipotesi probabilistiche esplicite e falsi-ficabili, consentiva il controllo delle variabili incidenti e il calcolo del range di errore, metteva in relazione una maggiore quantità di segnali rispetto alle tracce e teneva conto di variabili quali la granularità geografica e i comportamenti di voto nel tempo. In sintesi Filteris, Vigiglobe e Predict My President, pur utilizzando me-todologie differenti, hanno predetto in maniera erronea la qualificazione di Fillon-Le Pen al secondo turno contro tutte le evidenze prodotte dai sondaggi, che davano la coppia in pole position già a qualche settimana dal voto.

Sembrerebbe essere andata meglio, invece, a Echobox se le analisi da loro prodotte non sollevassero più di un dubbio. Vediamo perché.

Echobox è una start up inglese che ha sviluppato tecnologie di intelligen-za artificiale per comprendere il significato dei contenuti web. Con il lancio di French Election Tracker ha voluto posizionarsi anche nel campo delle previsioni di voto. Il suo è un approccio sperimentale basato sulla rilevazione del livello cumulativo di

interes-Figura 4. Previsione di voto, misura composita

Fonte: Predict My President. 24,13 25 20 15 10 5 0 M.

Le Pen FillonF. MélenchonJ.L. MacronE. %

21,77

18,66 20,32

(16)

se generato da un candidato e trattato come indicatore della performance elettorale. Utilizzando 2,5 bilioni di dati di alta qualità sulle audience dei principali media, con granularità elevata ed esaustività dei dati per l’intera campagna elettorale, Echobox19 afferma di aver previsto in maniera abbastanza accurata il risultato di ciascun can-didato al primo e al secondo turno. Il modello sviluppato da Echobox è molto diverso dagli altri tre già esaminati: compara, infatti, l’ammontare di traffico di news genera-to dai candidati nelle elezioni presidenziali in tempo reale.

Il French Election Tracker analizza i dati provenienti dalle audience di radio, TV e giornali francesi e confronta il volume medio di traffico generato dagli articoli per ciascuno dei 5 candidati presi in considerazione. Se ciascuno di essi riceve lo stesso volume di interesse allora il valore medio è il 20%. I discostamenti dalla media indicano il maggiore o minore interesse suscitato. La misura non sarebbe quindi sensibile alla quantità di articoli che si scrivono per ogni candidato né alla particolare viralità gene-rata da un ridotto numero di articoli, in maniera da offrire misurazioni non influenzabili da singoli e specifici eventi. La figura 5 evidenzia l’interesse nella settimana precedente il voto. Ciò che però qui importa evidenziare è che i dati di previsione sono corretti sì, ma solo a poche ore dal voto, con Macron (23,7) e Le Pen (22,9) in testa.

Consapevoli dei limiti del loro modello – solo tre giorni prima del voto Echobox prevedeva la qualificazione per il secondo turno di Fillon e Macron20 Se-bastian Huempfer, Communication manager di Echobox, dichiarava che «i grandi dati sono il futuro della ricerca d’opinione […] possono eventualmente rendere obsoleti i sondaggi, ma oggi sono imperfetti come lo sono le indagini campionarie»21.

19 A. Amann, «Marine Le Pen Will Probably Not Be the Next French President, Big Data

Suggests». Medium, 20.04.2017.

20 A. Amann, «Fillon and Macron Are in a Strong Position Going into the French Election».

Medium, 12.04.2017.

21 S. Huempfer, «We Used Big Data to Predict Macron Would Win. Here Is What We Learned

in the Process». Medium, 28.04.2017.

Tabella 2. Previsioni di voto del French Election Tracker (%)

Previsione I turno Risultato Previsione II turno Risultato

Macron 23,7 24,0 64,7 65,8

Le Pen 22,9 21,3 35,3 34,2

Fillon 21,0 20,0

Mélenchon 17,3 19,6

(17)

Figura 5.

Grado di interesse per i candidati al primo turno

Fonte:

French Election T

racker

(18)

Figura 6.

V

olume di ricerche nel periodo 1 gennaio-9 aprile come elaborato da Enigma via GoogleT

Fonte:

French Election T

racker

(19)

Infine, per completezza, va citato il ruolo di Enigma, agenzia di comuni-cazione svizzera con forti convinzioni sul ruolo che algoritmi, big data e passaparola svolgono nel determinare il successo di una campagna digitale. A differenza delle altre agenzie citate, Enigma non elabora una propria metodologia, piuttosto si affida all’analisi dell’evoluzione delle query di ricerca Google utilizzando il tool GoogleTrend. Questo tool per Enigma è un modo per capire – più prudentemente – chi siano i favo-riti di un’elezione attraverso la quantità di interesse generato nel tempo. Il tool, oltre a fornire diverse opzioni per rifinire i dati (es. ricerche geolocalizzate, filtro temporale, filtro per tipo di tool utilizzato fra quelli di casa Google), consente di visualizzare quat-tro misure: l’andamento delle ricerche nel tempo, la quantità media di tali ricerche nel periodo considerato, i picchi di interesse e i temi associati ai picchi di interesse. In tal modo è possibile comprendere quale candidato genera maggiore interesse lungo l’intera campagna elettorale, quale candidato suscita invece più interesse nei giorni precedenti il voto e quali temi influenzano tale interesse. Prendendo in considerazio-ne il periodo dal primo gennaio all’11 aprile 2017, il volume di ricerche geconsiderazio-nerato dai nomi dei candidati favoriva decisamente Fillon che, quindi, veniva considerato come il candidato che riscuoteva il maggiore interesse nel tempo. Tuttavia, considerando il volume di ricerche generato nel periodo a ridosso delle elezioni – più precisamente a dodici giorni prima del voto – era Mélénchon ad emergere come candidato favorito facendo, quindi, avanzare l’ipotesi di un duello Fillon-Mélenchon (fig. 6).

Un uso questo di GoogleTrends che, naturalmente, suscita delle perples-sità. Innanzitutto per la natura dell’unità di analisi considerata – le query di ricerca sono infatti molto legate alla cronaca e agli eventi della campagna (ad es. lo scan-dalo che aveva colpito Fillon per i lavori affidati a moglie e figlia) – poi per il periodo considerato, una scelta priva di una precisa ratio, soprattutto se si considera che in gennaio alcuni partiti stavano ancora svolgendo primarie interne per decidere il pro-prio candidato ottenendo anche maggiore attenzione da parte dei media, e, infine, per la decisione di considerare l’interesse verso un candidato a dodici giorni dal voto come indicazione del suo «favore», a dispetto dell’interesse medio suscitato lungo l’in-tero periodo che, invece, avrebbe premiato Macron. In ogni caso, pur utilizzando una diversa periodizzazione, i dati di GoogleTrend difficilmente avrebbero potuto essere considerati come una misura affidabile del «favore» riscosso dai candidati in lizza. Continuando, infatti, ad osservare il trend del volume di ricerche fino al giorno che precede il voto, si vedrà come Mèlenchon mantenga la sua posizione condividendola con Macron solo a campagna quasi conclusa. Interessante poi osservare come, fra le ricerche correlate al nome del candidato, emerga il ruolo svolto da Filteris nell’incre-mento dell’attenzione verso Fillon. Producendo e promuovendo le proprie analisi sul gradimento di Fillon nei social media, Filteris di fatto generava curiosità ed

(20)

aumen-Tabella 3.

Comparazione fra analisi previsionali. Elezioni presidenziali francesi 20

17 AGENZIA Big data Metodologia Volume Velocità Varietà Assunzione Fonte Tecnica Tipo di dati FIL TERIS Basso (nd) Alta

Bassa (1 tipo di dati) Correlazione diretta tra popolarità dei candidati nella T

wittersfera e risul

-tato dello scrutinio

Twitter Indice di popolarità + sentiment analysis Opinioni espresse VIGIGLOB Medio (base dati 600.489) Alta

Media (2 tipi di dati) Il tono delle opinioni espresse è un migliore indicatore di voto Facebook e Twitter Indice di gradimento: sentiment analysis

+

machine learning

Opinioni espresse

PREDICT MY PRESIDENT

Medio

(base dati parz.: 26.000 tweet posi- tivi, nd per altre fonti)

Media

Alta (3 tipi di dati) Il comportamento di voto è correlato alla geografia elettorale ed economica, ai blocchi di voto e alla popolarità del candidato OpenData (Insee), Twitter

,

Google, Sondaggi Indice di popolarità + machine learning

+

modelli econometrici

Dati elettorali + query

di ricerca +

opinioni espresse +

dati

socio-demografici + dati economici

ECHOBOX

Alto

(base dati: 2,5 bilioni)

Alta

Bassa

Il volume di traffico news generato da un candida

-to nel sistema dell’infor

-mazione è correlato al suo successo elettorale

Media

Indice di popolarità Menzioni news complessive

ENIGMA Alto (nd) Alta Bassa Il volume di query di ri

-cerche Google è un buon indicatore di favore verso

il candidato Google Trends Query di ricerche in base 1 00 e geolocalizzate Query di ricerca

(21)

tava il volume delle ricerche influenzando così sensibilmente anche i risultati delle analisi basate su GoogleTrends (fig. 7).

Nella tabella 3 sono riportate le caratteristiche di ciascuna indagine ci-tata in relazione a quelle che sono considerate le features dei dati 22 e le note meto-dologiche come fornite o ricostruite dal materiale documentale consultato. Occorre specificare infatti che, al contrario dei sondaggi che sono ben regolamentati dalla normativa francese, per i big data non c’è alcun obbligo di pubblicità dell’algoritmo e, quindi, della metodologia utilizzata. In alcuni casi, inoltre l’universo dei dati non è esposto con precisione preferendo riportare il volume dei dati in unità di gradezza complessiva (es. migliaia, milioni). La tabella mostra anche come il grado di struttura-zione delle indagini (complessità) si attesti su un uso limitato delle tecnologie dei big data, confermando l’impressione che il potenziale di fuoco dei big data resti ancora ampiamente inespresso.

22 I big data sono dati si caratterizzano per volume, varietà e velocità secondo il noto

mo-dello delle 3V (Laney, 2001).

Figura 7. Trend del volume di ricerche associate delle keyword Filteris Fillon

Fonte: GoogleTrends. 120 100 80 60 40 20 0 01/0 1/17 08/0 1/17 15/0 1/17 22/0 1/17 29/0 1/17 05/0 2/17 12/0 2/17 19/0 2/17 26/0 2/17 05/03/17 12/03/17 19/03/17 26/03/17 02/04/17 09/04/17

(22)

4. Conclusioni

C’è un generale accordo sul potere disruptive dei big data, eppure no-nostante la possibilità di esplorare infinite correlazioni, di creare profili sempre più dettagliati, di accedere a dati in real time, l’utilizzo e l’analisi dei big data sembra restituire risultati ancora piuttosto deludenti sul piano della previsione (Kay, 2016). Soprattutto in politica, dove la ricerca dell’algoritmo perfetto per la previsione di voto nella campagna presidenziale francese del 2017 mostra quanto questa tecnologia sia fondamentalmente immatura e quanto le sue metodologie restino largamente speri-mentali. Ciascuno dei tentativi presentati soffre infatti di errori e distorsioni che nelle tradizionali metodologie di ricerca sarebbero stati sotto controllo.

Per la grande disponibilità e facilità di accesso ai dati, Twitter è conside-rato una delle migliori piattaforme social per le analisi delle dinamiche di opinione. Il numero di menzioni è trattato come un indicatore di interesse e di attenzione verso un candidato ma difficilmente può essere considerato come un indicatore di voto. Nate Silver (2013) aveva già messo in guardia dalla quantità di rumore presente nei big data e dalla difficoltà a creare modelli basati sull’abbinamento corretto di tracce e segnali. Anche Jungherr (2015) nella sua approfondita critica all’uso di Twitter per l’analisi previsionale aveva evidenziato come uno dei principali limiti risiedeva nella variabilità delle metriche utilizzate. Anche quando alcune correlazioni sembrano essere statisti-camente significative, il fatto stesso che persista una grande variabilità nella scelta delle variabili dipendenti ed indipendenti indica che tali correlazioni non sono stabili ma che esistono solo in specifici contesti temporali ed elettorali. A questo bisogna ag-giungere le critiche classiche della non rappresentatività statistica della twittersphera e delle manipolazioni a cui è soggetta nelle strategie più invasive di manifacturing

consent. L’uso strategico di bots e di profili falsi crea difatti una percezione distorta del

volume di tweet, menzioni e condivisioni portando a sovrastimare la presenza di alcuni candidati, e a misurare un volume di opinioni che non trova alcuna corrispondenza statistica con l’elettorato di riferimento né lo rappresenta. E la rappresentatività per le previsioni di voto è una dimensione metodologicamente rilevante soprattutto quando le utenze dei social media tendono ad essere così specifiche (Blank, 2016). Non deve dunque sorprendere se l’analisi dei big data effettuati sui soli dati Twitter (Filteris e Vigiglob) non sono un indicatore di voto, ma un mero indice di popolarità di un candi-dato nella Twittersfera. Inoltre, a differenza del sondaggio dove si fanno delle doman-de dirette sulle intenzioni di voto e quindi la misurazione doman-delle opinioni è correlata a

priori con il risultato elettorale, nel caso della Twittersfera desumere dalla popolarità

un’intenzione di voto può essere vista come un’inferenza azzardata per la quale non è possibile calcolare nemmeno la probabilità di errore. A quali condizioni l’indicatore di

(23)

popolarità può essere considerato un indicatore di voto? Quanto estesa deve essere la misurazione? Quali misurazioni offrono i risultati più attendibili? Esistono variabili in-cidenti, se sì come vengono controllate? Alcune di queste criticità sono riferibili anche alla sentiment analysis che, anche quando basate su sofisticate tecnologie di

machi-ne learning, riescono a decodificare solo una parte delle reazioni positive e machi-negative

espresse nei tweet. Il limite evidente di queste analisi inoltre è quello di concentrarsi sui «dati che abbiamo» piuttosto che sui «dati di cui avremmo bisogno», ignorando qua-si completamente le informazioni provenienti da altri contesti o forme alternative al voto di opinione, come il voto di appartenenza, ancora forte in certi contesti territoriali.

Risultati deludenti sono stati prodotti anche nei casi di analisi predittive ba-sate su modelli più complessi. Predict my President sembrava poggiare infatti sulla me-todologia più solida che teneva conto di numerosi fattori e variabili. Il limite più evidente di questa analisi consiste nell’aver sovrastimato i dati web – volume di ricerche Google e popolarità del candidato su Twitter come fedele rappresentazione della sfera pubblica francese – e nell’aver sottovalutato le indicazioni provenienti dai sondaggi, che pure col-locavano Macron al centro dello spettro politico e meno a sinistra, come ipotizzato invece da Predict my President. D’altronde, dopo la fallimentare presidenza di Hollande (il 59% degli intervistati dal Cevipof-Ipsos ad aprile 2017 si dichiarava insoddisfatto della presi-denza Holland), configurarsi a sinistra per Macron sarebbe stato anche un imperdonabile errore di strategia. La misurazione del blocco di centro come bacino elettorale di Macron e il conseguente ridimensionamento del blocco di voti destinati alla sinistra avrebbe pro-babilmente contribuito a bilanciare meglio le previsioni di voto di Predict My President.

Infine, l’analisi dell’attenzione cumulativa dell’interesse mediatico effettua-ta dal French Election Tracker è quella che oneseffettua-tamente preseneffettua-ta i risuleffettua-tati più interlo-cutori. Pur potendo contare su bilioni di dati di alta qualità provenienti da media online in tempo reale è riuscita a fornire sì dati attendibili ma soltanto il giorno che precedeva il voto. In altri termini non avrebbe predetto ma anticipato il comportamento di voto che sarebbe avvenuto di lì a poche ore. Le perplessità suscitate da questo risultato sono tali che anche lo stesso staff di Echobox ha sentito di esprimersi in maniera cauta, non can-tando vittoria, quanto piuttosto qualificando il risultato come «sperimentale», che avreb-be cioè richiesto di altri indicatori, altri test ed altre fonti per potersi ritenere stabile.

Insomma emerge un quadro ancora in progress dove:

a) l’oggetto di misurazione non viene sempre definito con chiarezza tanto

da confondere la copertura mediale con l’interesse suscitato da un candidato e la po-polarità con le intenzioni di voto, in pratica confondendo la variazione di una variabile con la variabile stessa;

b) si tende a sottovalutare il ruolo di quelle variabili incidenti come, ad

(24)

vola-tilità elettorale, il voto giovanile ecc., mentre si sopravvalutano le tracce web e il ru-more come forme mainstream di partecipazione espressiva alla politica (Puig-i-Abril e Rojas, 2007); c) nel ragionamento probabilistico si tende a non formulare ipotesi o a formularle senza stimare la probabilità di errore, e se accade non si è capaci di cor-reggere il tiro rispetto a risultati che restano quindi ampiamente interlocutori;

d) la misurazione in real time può rivelarsi troppo sensibile per descrivere un

trend ma può rilevare un interesse valido nell’istante e nel contesto della misurazione;

e) l’analisi sui soli dati Twitter può essere distorta dalla

sovra-rappresen-tazione di un pubblico specifico – giovani, maschi, ben educati e politicizzati (Greffet e Wojcik, 2017) – o da particolari caratteristiche sociografiche (Hargittai, 2015). In altri termini, la rappresentatività del campione nella previsione di voto ha ancora senso perché consente di distinguere un’audience da una constituency;

f) infine, molte analisi dei comportamenti in Rete non sono

adeguatamen-te supportaadeguatamen-te da un’intima conoscenza delle dinamiche psicosociali che si innescano quando un utente adotta un comportamento pubblico: dall’autocensura, alla finzione, dall’aggressività pretestuosa a comportamenti consapevolmente e strategicamente finalizzati per raggiungere un particolare obiettivo o uno specifico gruppo di utenti (es. alzare i toni per attrarre l’attenzione dei media).

Per concludere, i modelli di analisi dei big data basati sulla ricerca di pattern specifici su cui operare inferenze (pattern-based data mining) non sembrano ancora in grado di sostituire quelli più classici di investigazione che, a partire dalla formulazione di una teoria delle relazioni sociali, ricercano nei dati conferme e spie-gazioni (subject-based data mining) pur non essendo adatti a prevedere. I casi esami-nati dimostrano, tuttavia, che va crescendo la consapevolezza che per muoversi nel mare magnum dei big data occorre una bussola e che risultati più affidabili nel campo della previsione politica emergeranno solo quando i modelli di data mining saranno capaci di dotarsi di un meta modello interno in grado di «comprendere» in maniera dinamica i pattern di comportamento (Munk, 2017). Nel frattempo, e in tempi sempre più incerti, non resta che affidarsi al buon senso provando magari a recuperare terre-no sul piaterre-no della complementarietà degli approcci e della esplicitazione delle teorie sottostanti all’analisi dei big data (Clark e Golder, 2015).

Rosanna De Rosa

Dip. Scienze Sociali

Università di Napoli Federico II Vico Monte di Pietà 1

80100 Napoli

(25)

Riferimenti bibliografici

Anderson, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Ob-solete. Wired, 26 marzo.

Bentivegna, S. (2015). A colpi di tweet. La politica in prima persona. Bologna: Il Mulino. Blank, G. (2016). The Digital Divide Among Twitter Users and Its Implications for Social

Research. Social Science Computer Review, 35 (6), 679-697.

Blumler, J.G., Kavanagh, D. e Nossiter, T. (1996). Modern Communications versus Tradi-tional Politics in Britain: Unstable Marriage of Convenience, in D. Swanson and P. Mancini (a cura di) Politics, Media and Modern Democracy. New York: Praeger.

Boullier, D. (2015). Les sciences sociales face aux traces du big data? Société, opinion et repliques. HAL, https://halshs.archives-ouvertes.fr/halshs-01141120.

Boyd, D. e Crawford, K. (2012). Critical Questions for Big Data: Provocations for a Cultural, Technological, and Scholarly Phenomenon. Information, Communication and Society, 15 (5), 662-679.

Cardon, D. (2011). Démocratie Internet. Paris: Seuil.

Cardon, D. (2016). Che cosa sognano gli algoritmi. Le nostre vite al tempo dei big data. Mi-lano: Mondadori.

Ceron, A., Curini, L. e Iacus, S.M. (2017). Politics and Big Data. Nowcasting and Forecasting Elections with Social Media. London-New York: Taylor & Francis.

Cevipof-Ipsos (2017). L’enquête électorale Française: comprendre 2017. Vague, 12bis (avril 2017), https://www.enef.fr.

Chadwick, A. (2013). The Hybrid Media System: Politics and Power. Oxford: Oxford University Press.

Choi, H. e Varian, H.R. (2012). Predicting the Present with Google Trends. Economic Record, 88, 2-9.

Clark, W.R. e Golder, M. (2015). Big Data, Causal Inference, and Formal Theory: Contradic-tory Trends in Political Science? Introduction. PS: Political Science, January, 65-70.

Collins, F.S. (2010). Research Agenda. Opportunities for Research and NIH. Science, 327 (5961), 36-37.

De Rosa, R. (2014). L’agire politico al tempo dei social media. Milano: Apogeo-Maggioli. Goldberg, L.R. (2014). The Signal and the Noise: Why So Many Predictions Fail – but Some

Don’t, by Nate Silver. Quantitative Finance, 14 (3), 403-406.

Greffet, F. e Wojcik, S. (2017). Exploring Online Participation. The Case of the 2012 French Presidential Election Campaign. Comunicazione Politica, 1, 3-30.

Hargittai, E. (2015). Is Bigger Always Better? Potential Biases of Big Data Derived from Social Network Sites. Annals of the American Academy of Political and Social Science, 659 (1), 63-76.

(26)

Hesse, B.W., Moser, R.P. e Riley, W.T. (2015). From Big Data to Knowledge in the Social Sciences. The Annals of the American Academy of Political and Social Sciences, 659 (1), 16-32.

Jungherr, A. (2015). Analyzing Political Communication with Digital Trace Data. The Role of Twitter Messages in Social Science Research. Heidelberg: Springer.

Kai, J. (2016). Not a New Gold Standard: Even Big Data Cannot Predict the Future. Critical Review, 28 (3-4), 335-355.

Kirchheimer, O. (1966). The Transformation of Western Party Systems, in J. La Palombara e M. Weiner (a cura di) Political Parties and Political Development. Princeton, NJ: Princeton University Press.

Kitchin, R. (2014). Big data, New Epistemologies and Paradigm Shifts. Big Data & Society, 1 (1).

Kotler, P. (1981). Business Marketing for Political Candidates. Campaigns and Elections, 2 (2), 24-33.

Mayer-Schönberger, V. e Cukier, K. (2013). Big Data. Una rivoluzione che trasformerà il no-stro modo di vivere e già minaccia la nostra libertà. Milano: Garzanti.

Mazzoleni, G. (2012). La comunicazione politica. Bologna: Il Mulino.

Munk, T.B. (2017). 100.000 False Positive for Every Real Terrorist: Why Anti-Terror Algorith-ms Don’t Work. First Monday, 22 (9).

Negrine, R. e Lilleker, D.G. (2002). The Professionalization of Political Communication: Con-tinuities and Change in Media Practices. European Journal of Communication, 17 (3), 305-323.

Nickerson, D.W. e Rogers, T. (2014). Political Campaign and Big Data. Journal of Economic Perspective, 28 (2), 51-74.

Puig-i-Abril, E. e Rojas, H. (2009). Mobilizers Mobilized: Information, Expression, Mobi-lization and Participation in the Digital Age. Journal of Computer-Mediated Communication, 14, 902-927.

Scammell, M. (1997). The Wisdom of the War Room: U.S. Campaigning and Americanization. Cambridge, MA: Harvard University, The Joan Shorenstein Center. Research Pa-per, 17 aprile.

Silver, N. (2012). The Signal and the Noise. Why so many predictions fail. New York: The Penguin Press.

Slaby, M. (2013). Mapping the New World: Lessons from the Obama Campaigns. Cambridge, MA: Shorenstein Center Fellow Paper, Spring.

Swanson, D. e Mancini, P. (a cura di) (1996). Politics, Media and Modern Democracy. New York: Praeger.

Thorp, J. (2012). Big Data Is Not the New Oil. Harvard Business Review, 30 November. Tumasjan, A., Sprenger, T.O., Sandner, P.G. e Welpe I.M. (2010). Predicting Elections with

Twitter: What 140 Characters Reveal about Political Sentiment, in M. Hearst, W. Cohen e S. Gosling (a cura di) ICWSM 2010: Proceedings of the 4th

(27)

Inter-national AAAI Conference on Weblogs and Social Media (pp. 178-185). Menlo Park, CA: Association for the Advancement of Artificial Intelligence.

Woolley, S.C. e Guilbeault, D.R. (2017). Computational Propaganda in the United States of America: Manufacturing Consensus Online. Oxford: Oxford Internet Institute, Computational Propaganda Research Project, Working Paper No. 2017.5.

(28)

Riferimenti

Documenti correlati

Progetto Lauree Scientifiche.

PREDICTIVE ANALYSES ACCORDING TO SIDEDNESS AND PRESSING PANEL. Morano et al, J Clin

Al pari delle altre tipologie di sistemi di risose ad accesso aperto (valli da pesca, foreste, informazione, conoscenza) il tema cruciale è spesso la scala di

[r]

Nascono i sistemi a chiave asimmetrica, composti da una chiave pubblica, nota a tutti ed usata per la cifratura, e da una chiave privata,.. nota ad una sola persona ed usata per

Irroratela quindi con un quarto di litro di vino e con altrettanto fumetto di pesce, poi passatela nel forno a 150 gradi per 45 minuti circa, unendo, a metà cottura, i

Vogliamo dimostrare che la matrice simmetrica A ha abbastanza autodimensione, cio` e vogliamo usare il Teorema fondamentale della diagonalizzazione.. Allora assumiamo il contrario,

 Se nessuna variabile artificiale è ancora in base, ho una base fatta da sole colonne del problema originario e posso partire con Fase 2 su esso.  Se ho ancora variabili