Analisi linguistica di commenti ai post delle pagine Facebook dei Ministri della Repubblica Italiana

(1)

UNIVERSITÀ DI PISA

DIPARTIMENTO DI FILOLOGIA,

LETTERATURA E LINGUISTICA

Corso di Laurea Magistrale in

Informatica Umanistica

Tesi di Laurea

Analisi linguistica di commenti ai post delle pagine Facebook

dei Ministri della Repubblica Italiana

Relatore:

Chiar.mo Prof. Mirko Tavosanis

Candidata:

Maria Cristina Tortorelli

(2)

Indice generale

Riassunto elaborato ... 4

1. Il processo di ristandardizzazione dell’italiano ... 5

1.2 Tratti innovatori dell’italiano neo-standard ... 8

1.2.2 Morfosintassi ... 8

1.2.3 Pronomi ... 11

1.2.4 Altri fenomeni ... 13

1.2.5 Lessico ... 14

1.3 L’italiano popolare ... 16

1.3.2 Aspetti linguistici dell’italiano popolare ... 17

1.3.3 L’italiano popolare oggi ... 20

1.4 Le relative sub-standard ... 22

1.4.2 Continuum della frase relativa ... 24

2. La diffusione di Facebook in Italia ... 27

2.2 API di Facebook ... 28

2.3 Scraper: funzionamento generale ... 33

2.4 Scraper: funzionamento in dettaglio ... 35

2.4.2 Dettaglio script per estrazione post ... 37

2.4.3 Dettaglio script per estrazione commenti ... 42

2.5 Struttura dei dati raccolti ... 48

3. Individuazione delle pagine pubbliche e confronto ... 53

4. Anagrafica autori commenti ... 62

4.2 Risultati analisi dell’anagrafica di utenti all’unico commento ... 64

4.3 Risultati analisi anagrafica utenti con più di un commento ... 69

4.4 Comparazione tra i due campioni ... 72

5. Pulizia corpus da commenti ripetuti ... 74

6. Analisi con R ead -IT ... 77

7. Estrazione frasi relative ... 85

7.2 Analisi di 1500 occorrenze del che ... 86

7.3 Sovraestensione di dove ... 87

8. Ricerca in un sottocorpus dei tratti di italiano popolare ... 89

Morfologia: ... 89 Sintassi: ... 90 Lessico: ... 90 Conclusioni ... 93 Bibliografia ... 96 Appendice ... 100

(3)

Indice delle illustrazioni

Illustrazione 1: Schema che illustra il continuum della frase relativa in italiano...25

Illustrazione 2: Fascia età iscritti FB 2017 in percentuale...27

Illustrazione 3: Facebook API Graph Explorer mostra il mio nome utente e ID...29

Illustrazione 4: Lo strumento di esplorazione mostra alcuni dati della pagina...30

Illustrazione 5: Esempio della struttura dati dei post...30

Illustrazione 6: Esempio della struttura dati della pagina...31

Illustrazione 7: Come appaiono i commenti visti prima direttamente su FB...32

Illustrazione 8: Lo scraper al lavoro: ogni 100 post restituisce un feedback per poter controllare la quantità di dati estratti...34

Illustrazione 9: Esempio di post senza testo messaggio...49

Illustrazione 10: Esempio di articolo condiviso con anteprima trascritta nel campo link_name...50

Illustrazione 11: Un esempio di risposte a un commento...52

Illustrazione 12: Numero totale di commenti, reazioni, condivisioni e "mi piace" delle pagine...58

Illustrazione 13: Esempio di reazioni temporanee di FB...60

Illustrazione 14: Tipi di reazioni in percentuale...61

Illustrazione 15: Ricerca per comment_id...64

Illustrazione 16: Ricerca utente e risultato visualizzato tramite link...64

Illustrazione 17: Percentuali di nomi, verbi, aggettivi e congiunzioni nel LIP, PTLLI, CS e corpus in esame...81

(4)

Riassunto dell’elaborato

Questo lavoro di tesi magistrale si propone di osservare e analizzare i tratti linguistici dei commenti ai post delle pagine Facebook dei Ministri della Repubblica Italiana. Nel marzo 2017 ho individuato quali ministri del governo Gentiloni avessero delle pagine Facebook attive e tramite uno scraper ho estratto migliaia di commenti degli utenti da diversi post. Lo scraper utilizzato è uno script in linguaggio Python che utilizza le API di Facebook e il suo social graph per estrarre automaticamente post, commenti e reazioni. Una volta ottenuto un corpus di circa 263.000 token raccolti da 14 diverse pagine Facebook, ho effettuato un’indagine a campione su 100 utenti per individuare la demografia degli autori occasionali e degli autori ricorrenti. Quest’operazione mi ha permesso di ricostruire una sorta di scheda anagrafica di chi commenta sporadicamente le pagine dei ministri e di chi le commenta spesso. Dopo una pulizia del corpus volta all’eliminazione dei commenti ripetuti, ho analizzato il corpus con Read-IT, uno strumento di annotazione linguistica progettato dal CNR di Pisa. Ho osservato sia il profilo lessicale sia il profilo sintattico. La distribuzione delle parti del discorso utilizzate e la densità lessicale avvicinano molto il corpus estratto dai commenti di Facebook ai dati estratti da un corpus di parlato. Successivamente, mi sono concentrata sull’analisi delle frasi relative e in particolar modo delle relative non-standard all’interno del corpus, osservando i fenomeni di sovraestensione del che e del dove, tratti sub-standard molto frequenti nel parlato. Infine, ho selezionato casualmente dal corpus un campione di 100 commenti per cercare all’interno le occorrenze di tratti neo-standard e sub-neo-standard.

(5)

1. Il processo di ristandardizzazione dell’italiano

Da alcuni decenni è in atto nell’italiano contemporaneo un deciso processo di ristandardizzazione. L’aspetto più interessante di questo processo è la promozione di tratti sub-standard a tratti neo-standard. Cambia il valore sociolinguistico di alcuni fenomeni, che da marche tipiche del parlato o dei registri più bassi vengono percepiti come “medi” e del tutto accettabili, anche da parte di parlanti colti, in registri più alti. Il grado di marcatezza diafasica e diastratica di questi fenomeni viene ridotto progressivamente fino a farli coesistere con i corrispondenti tratti standard come varianti più o meno libere (Berruto 1987). Questo movimento ha fatto sì che si creasse una forte variazione nella norma: da un parte questa nuova varietà, e dall’altra la norma standard dell’italiano letterario così come la conosciamo. Questo nuovo standard è “strutturalmente più semplice, maggiormente vicino alla parlata colloquiale” (Mioni 1983). La definizione che Berruto fornisce di italiano neo-standard è quella di una varietà di lingua in cui troviamo “un abbassamento e un consolidamento della nuova norma leggermente variata in diatopia, più vicina al parlato in diamesia e più prossima agli stili non aulico-burocratici in diafasia” (Berruto 2012: 27). Altre espressioni utilizzate negli anni Ottanta per indicare questa nuova entità dell'italiano sono state

italiano dell'uso medio parlato e scritto (Sabatini 1985) e italiano tendenziale (Mioni

1983). Un’altra espressione utilizzata per riferirsi a queste dinamiche linguistiche è stata

italiano in movimento, che enfatizza soprattutto gli aspetti del cambiamento linguistico.

Questo processo di convergenza tra scritto e parlato viene definito da alcuni studiosi (Cerruti, Croco, Marzo 2017: 6) come un processo di “demotizzazione” (demotization nel testo) (Auier 2011, 2017). Il termine, coniato come Demotisierung da Mattheier (1997) ha radice nel greco demos “popolo” e si riferisce alla diffusione dell’italiano come lingua parlata dalla massa. L’italiano usato come lingua parlata da tutti nella quotidianità si trasforma in una lingua polifunzionale che deve avere in sé anche il carattere dell’immediatezza. Questa nuova norma sociale è rappresentata dalla forma della lingua italiana così come appare nel parlato quotidiano e nello scritto, soprattutto

(6)

quello giornalistico, o nella comunicazione tramite computer. La maggior parte di questi fenomeni “in movimento” è da interpretare come un cambiamento del valore sociolinguistico del tratto stesso. Forme e strutture già esistenti nell’italiano sub-standard perdono la loro marca di elemento di basso livello, orale o legato a determinate situazioni sociali e iniziano ad essere utilizzate in contesti più formali e anche da persone con un livello di istruzione più alto. Vengono utilizzate anche nella lingua scritta, in particolare in quella dei quotidiani, che gioca oggi un ruolo fondamentale in questo processo di ristandardizzazione. L’italiano neo-standard è caratterizzato dall’ammissione al suo interno di un numero di tratti antichi ed endogeni, che entrano nella norma anche se prima etichettati come non-standard o orali. Nell’italiano contemporaneo questi tratti hanno progressivamente perso la loro marcatezza sociale o orale acquisendo neutralità: spesso il tratto stesso è vecchio, ma è neo-standard la sua accettazione nella norma. Infatti la maggior parte delle innovazioni neo-standard appartiene al sistema linguistico italiano fini dai suoi primi giorni, come mostrano le occorrenze di questi tratti nei testi italiani antichi (D’Achille 1990). Alcuni fenomeni invece sono delle vere e proprie innovazioni nate in buona parte dal contatto con l’inglese.

Vale la pena sottolineare che la ricerca sull’italiano parlato è sempre inseparabile da quella sulle varietà regionali perché la produzione orale italiana è sempre connotato regionalmente (regionally flavoured secondo Cerruti, Croco, Marzo 2017:15). Questo vale ovviamente anche per l’italiano neo-standard, che ha quasi sempre differenziazione diatopica (Berruto 1987).

Nell’italiano neo-standard il cambiamento linguistico avviene anche sotto la spinta di due movimenti diversi: dal basso e dall’alto (Renzi 2012) . La distinzione è fatta su una teoria di Labov che identifica il “sopra” e il "sotto" con i livelli di consapevolezza sociale e con la posizione nella gerarchia socioeconomica (Labov 1994: 78). Le modifiche dal basso sono definite così perché sembrano essere completamente al di sotto del livello della coscienza sociale e generalmente compaiono per la prima volta nel dialetto, in particolare utilizzate dai parlanti delle classi sociali più basse. Invece i

(7)

cambiamenti dall'alto "vengono introdotti dalla classe sociale dominante, spesso con piena consapevolezza" (Labov 1994: 78).

Sviluppando tale dicotomia, Renzi (2012: 93-95) individua tra le innovazioni che si verificano nell'italiano contemporaneo due categorie principali, che chiama rispettivamente errori e snobismi. Gli errori corrispondono ai cambiamenti dal basso mentre gli snobismi sono i cambiamenti dall'alto. Gli snobismi generalmente sono destinati a svanire non appena passa la moda che li ha introdotti e generalmente non hanno alcun effetto sulle strutture linguistiche.

I principali attori dell'attuale processo di ristandardizzazione, ovvero le forze sociali che determinano quello che è standard in una lingua (Ammon 2003), sono oggi fondamentalmente diversi da quelli che hanno agito in passato. All'inizio del processo di standardizzazione dell’italiano avvenuto tra il XV e il XVI secolo, gli attori erano gli autori classici, gli uomini di lettere e intellettuali di vario calibro e i codici presi come modello erano i testi di Dante, Petrarca e Boccaccio. Nel secondo processo di standardizzazione, avvenuto nella seconda metà della dell'Ottocento dopo l'unificazione dell'Italia, un ruolo importante, oltre che dai letterati, è stato giocato dalla scuola e dagli insegnanti. Nella ristandardizzazione attuale invece, le forze principali in azione sono i media e i giornalisti. Partecipano al processo sia alcuni politici (che come classe sociale agiscono insieme come una forza standardizzatrice verso l'alto), sia intellettuali e scrittori (che agiscono come una forza standardizzatrice verso il basso). Anche Antonelli (2011: 52) sottolinea l'importanza dei giornalisti come principali attori della recente ristandardizzazione, notando come ormai sia avvenuta “l'identificazione del nuovo standard con l'italiano di un buon articolo di giornale”, e di conseguenza identifica le due entità che dettano l'area dello standard in italiano moderno come italiano standard scolastico e italiano neo-standard giornalistico (il neo-standard dei giornali) (Antonelli 2011: 51).

(8)

1.2 Tratti innovatori dell’italiano neo-standard

L’italiano neo-standard presenta numerosi tratti protagonisti di questa risalita dal basso. Ne abbiamo in tutti gli aspetti della lingua: dalla morfosintassi, al lessico e alla costruzione della frase. Di seguito elenco i più importanti per ogni aspetto, rielaborati e riassunti a partire da Berruto (1987):

1.2.2 Morfosintassi

 Dislocazione a sinistra: viene utilizzata per sfruttare meglio l’attenzione dell’ascoltatore. Oltre che la dislocazione in senso stretto (a Gianni non gli ho

detto niente) molto frequente nel neo-standard, a questo fenomeno si accostano

il tema libero o sospeso (Gianni non gli ho detto niente) molto utilizzato nel sub-standard, nell’italiano colloquiale e spesso nell’italiano popolare senza clitico di ripresa.

 Dislocazione a destra: meno frequente della precedente, ma con caratteristiche simili (Le mangio le mele). Possiamo avere due costrutti diversi a seconda dell’intonazione con cui la frase viene pronunciata:

◦ neutra: presenta un tema discorsivo e esprime cordialità; ◦ spezzato: richiama un tema già in corso;

 C’è presentativo: costituito dal costrutto c’è/ci più sintagma nominale specificato da una pseudorelativa esplicativa (C’è un gatto che gioca nel

giardino). La funzione di questo costrutto è spezzare la frase in due blocchi

monorematici più semplici per facilitare sia la codificazione che la decodificazione del messaggio: il c’è presentativo introduce un rema che diventa tema della frase che segue. È un costrutto presente da tempo nel francese (il y a).  Frase scissa: essere più sintagma nominale (È Mario che ha tirato la coda al

(9)

l’informazione presentata, presentando il sintagma estratto come novità e in contrasto. Oltre ai sintagmi nominali è possibile estrarre altri costituenti:

◦ predicato verbale: è abitare lì che non mi piace; ◦ avverbiali: dove è che vai?

◦ negazioni: non è che sia malato;

◦ interi nuclei frasali: è che non sto bene.

È un costrutto ampiamente utilizzato in passato, oggi quasi completamente integrato nello standard.

 Che polivalente: elemento con una larghissima polisemia di impieghi. Da usi standard come introduttore di relativa temporale o ché introduttore di causale (utilizzato come forma aferetica di perché), siamo arrivati oggi a usi popolari numerosissimi. Si stanno ben integrando nello standard alcuni utilizzi:

◦ che consecutivo-presentativo: sono una donna tranquilla che sto in casa; ◦ che introduttore di completive pseudorelative: li vedo che scendono; ◦ che enfatizzante esclamativo: che sogno che ho fatto;

Siamo in presenza di un fenomeno di riassestamento perché già nell’italiano antico erano presenti almeno venti tipi di usi diversi.

 Ristrutturazione dei rapporti tra i tempi dell’indicativo: ◦ il trapassato remoto è meno utilizzato;

◦ espansione d’uso dell’imperfetto: di cortesia (Volevo dirle che...), di mondi possibili (Facciamo che io ero una strega e tu un mago), nel periodo ipotetico dell’irrealtà (Se venivi prima trovavi posto), nel discorso indiretto per indicare il futuro nel passato (Mi ha detto che veniva);

(10)

◦ espansione passato prossimo sul passato remoto, sia al nord sia al centro-sud. C’è anche la tendenza all’uso del passato prossimo al posto del futuro anteriore (Fra un mese ho fatto gli esami e sono a posto);

◦ sovraestensione del presente sui tempi futuri (Vengo domani).

 Uso del congiuntivo: la recessione del congiuntivo a favore dell’indicativo è un fenomeno certamente presente ma non allarmante. Il fenomeno ha una marca diatopica: è molto più probabile al centro sud che al nord, sopratutto in registri più sorvegliati. La sostituzione con l’indicativo riguarda più il congiuntivo presente che il congiuntivo imperfetto. Il congiuntivo accorpa su di sé due aspetti: uno semantico (esprimere incertezza, dubbio, possibilità, desiderio) e uno sintattico (indicare la subordinazione della frase). L’utilizzo dell’indicativo nel primo caso spesso non comporta differenze (Non so se Carlo stia bene / Non

so se Carlo sta bene), mentre nel secondo sì (Cerco un gatto che non graffi le poltrone / Cerco un gatto che non graffia le poltrone) (Berruto 2012:80). Anche

questo è un tratto endogeno dell’italiano, presente fin dalle origini.

 Stare più gerundio: questa costruzione perifrastica è sempre più utilizzata con valore progressivo (Sto andando / Sto vedendo) (Durante 1981). Questa forma, in espansione sia come frequenza che come ambito d’uso, è sicuramente influenzata dal contatto con l’inglese, che permette ai verbi di avere aspetti progressivi.

 Si più terza persona singolare invece della prima persona plurale: è un fenomeno marcato come toscano ma in rapida diffusione, tanto da poter essere incluso tra i tratti neo-standard (Noi si va al mare domani). Tuttavia la valutazione del fenomeno al di fuori della Toscana è difficoltosa perché l’uso è chiaro solo quando è espressa la persona, altrimenti è impossibile valutare se ci si trovi davanti a si impersonale o si passivante (entrambi usi standard).

(11)

1.2.3 Pronomi

Nell’ambito del sistema pronominale italiano sono in atto sicuramente fenomeni molto forti di ristrutturazione e di ristandardizzazione. Siamo davanti a una vera forza semplificatrice che riduce il paradigma dei pronomi personali: alcuni processi sono ancora in atto, altri sono già quasi conclusi e del tutto ascrivibili ormai anche ai registri più sorvegliati. Il sistema dei pronomi personali standard conta almeno 28 elementi nelle serie di pronomi tonici e pronomi clitici che realizzano quattro tipi diversi di opposizioni: numero (singolare/plurale), genere (maschile/femminile), caso (soggetto/oggetto diretto/oggetto indiretto/avverbiale), animatezza (animato/non animato)1_{. Su molte forme agisce anche una marca diafasica di registro (ella di registro}

molto alto) che crea altre opposizioni.

Per i pronomi personali soggetto, la semplificazione ha portato alla vittoria della serie

lui, lei, loro sulle forme egli, ella/esso, essa, essi, esse, che restano come vestigia solo

negli stili aulici. Lui viene utilizzato spesso anche per soggetti non animati. Per quanto riguarda invece i pronomi clitici, la sovraestensione di gli è fortissima a discapito di tutte le altre forme: gli (M. Sg.) è abitualmente utilizzato al posto di le (F. Sg.) e loro (Plu.), neutralizzando quindi la distinzione di genere/numero.

Ci è in espansione quando contrapposto a vi come locativo, utilizzato solo nello scritto

di registro alto. Inoltre, ci si lega sempre più spesso ai verbi con valore rafforzativo, tratto marcato in origine come solo orale e adesso sempre più accettato in contesti più alti. Alcuni di questi verbi rafforzati con ci si stanno caratterizzando addirittura come entrate lessicali autonome (ad esempio centrarci “avere a che fare”, diverso da centrare “colpire nel centro/mettere al centro”). I casi possono essere divisi in due grandi gruppi: verbi in cui il ci indica una specializzazione semantica (starci, volerci,

centrarci) e verbi in cui il ci è rafforzativo, ma si indebolisce come pronome (vederci, tenerci, capirci).

Il clitico ne (con valore partitivo/genitivo/obliquo) è utilizzato spesso legato al verbo con funzione elemento anaforico ridondante, una sorta di “morfema di accordo” (È una

(12)

cosa di cui se ne discute ormai da 15 giorni). Allo stesso modo il lo neutro è utilizzato

per riprendere una proposizione o un predicato (Lo credo bene che hai fame). Anche lo si lega a verbi formando un verbo con clitico grammaticalizzato (capirlo, crederlo,

dirlo). Secondo Sabatini (1985) è possibile trovare spesso lo in risalita (Lo devo aiutare).

Anche i pronomi dimostrativi sono coinvolti in questo processo di semplificazione. Ciò è sempre meno usato come dimostrativo neutro e, tranne per alcune forme che sono ormai quasi cristallizzate (Ciò che dici mi stupisce), viene largamente sostituito da

questo/quello. Nello specifico quello “diventa un arcilessema, perdendo quasi del tutto

il valore deittico” (Berruto 2017:87 ). Nelle grammatiche scolastiche si trova ancora il paradigma a tre forme questo/codesto/quello, ma codesto non si è mai davvero assestato fuori dalla Toscana e il paradigma si può dire con sicurezza ridotto a due voci. Come diceva Berruto, quello ormai ha perso funzione di deittico e si comporta quasi come se fosse un articolo determinativo, sopratutto se il nome è modificato da una relativa o da espressioni che hanno valore restrittivo. Alcuni esempi da articoli di giornale: “[...] nei

confronti di quelle organizzazioni che fanno ricorso al terrorismo”, “[...] quei partiti che sono in Germania contrari al nucleare”. Inoltre è in rapida diffusione il

rafforzamento di questo e quello con qui e lì, fenomeno marcato in origine in diatopia come settentrionale.

Tra i pronomi interrogativi è da segnalare la diffusione di cosa a scapito di che, favorita anche dal substrato dialettale settentrionale.

Anche i pronomi relativi sono soggetti di questa forza semplificatrice: il quale viene sostituito da che nei casi retti e da cui negli obliqui. Questo riassestamento è trattato in dettaglio nella parte sulle frasi relative, capitolo 1.4.

(13)

1.2.4 Altri fenomeni

Ci sono molti altri fenomeni che interessano la sintassi dell’italiano neo-standard. Alcuni di questi sono fenomeni endogeni, ovvero fenomeni già presenti nell’italiano fin dalle origini, altri invece sono fenomeni esogeni, dovuti al contatto con le altre lingue (principalmente l’inglese).

 Specializzazione delle congiunzioni subordinanti: alcune forme stanno diventando le forme normali di subordinazione senza ammettere altre possibilità: ◦ finali: perché o per più infinito;

◦ causali: siccome o dato che;

◦ valore finale-consecutivo-esplicativo: così:

 Doppio fuoco nelle interrogative: una nuova struttura interrogativa, una

wh˗clause con un focus doppio o multiplo. Questo tipo di costruzione innovativa

si trova in italiano a partire dagli anni ’70 e appartiene soprattutto all’italiano giornalistico, ad esempio:

◦ chi conosce chi? ◦ chi indossa che cosa?

 l'introduzione dei “superlativi relativi ordinali”, apparsi a partire dagli anni Ottanta e presenti quasi esclusivamente nell’italiano giornalistico e nella comunicazione tramite computer (Computer Mediated Comunication). Un esempio: la seconda torre più alta del mondo.

Molineris (2014) ha condotto uno studio su 50 studenti delle scuole superiori a cui ha chiesto di indicare quale struttura preferissero tra:

a) la Russia è il sesto mercato più grande d’Europa b) la Russia è il sesto mercato d’Europa per grandezza c) la Russia è il sesto mercato d’Europa

L’86% degli studenti ha scelto la costruzione a, dove è presente il superlativo relativo ordinale, modellato come da contatto con l’inglese.

(14)

 Nomi giustapposti: sono nomi in cui al nome reggente viene giustapposto il nome dipendente, che dovrebbe invece essere retto da preposizione. È un fenomeno sviluppatosi nell’Ottocento da contatto con il francese e oggi è in grande espansione: legge 1974 (la legge del 1974), il genere balocchi (il genere

dei balocchi). Su questo paradigma si poggiano due famiglie di nomi molto

utilizzate nel neo-standard: nella prima il legame con il secondo nome funge da relativa appositiva (indagine pilota, donna poliziotto), nella seconda il legame vale da preposizione specificante (scuola guida, salaparto, governo Craxi).  Elativo: non più solo per gli aggettivi, dove sono frequenti forme analitiche con

estremamente/assai, prefissazioni con stra-, extra-, ultra-, ma anche per i nomi,

che possono essere intensificati con -issimo (partitissima, finalissima), ripetizioni (caffè caffè, vacanza vacanza), prefissazione con super- (supermulta,

superbollo – diverso dal normale utilizzo di super- per la formazione di parole

nuove come supervisore);

 Metaplasmi: spostamenti di alcuni nomi, avverbi e aggettivi dalla classe grammaticale di appartenenza a una classe di aggettivi invariabili. Tra questi

bis, gratis, no, bene, super che vengono utilizzati senza coordinazione in

espressioni quali biglietto gratis, corsa bis, giornata no, gente bene.

1.2.5 Lessico

L’aspetto più interessante nell’ambito del lessico è sicuramente la formazione di neologismi. Sono molto produttivi suffissi come -ismo e -ista (nuovismo, complottismo,

buonista, salutista), -logo e -logia (tuttologo, dietrologia e altri neologismi particolari

come internettologo o dalemologo); prefissi come extra-, euro-, tele-, e- (extratassa,

euroscettico); prefissioidi elativi: mega-, iper- (megafesta, ipertesto).

Molto diffusa ed estremamente produttiva la formazione di nuovi avverbi in -mente. Oltre a questo, vale la pena soffermarsi su due fenomeni di sovraestensione d’uso di due avverbi: maggiormente a discapito di più/di più (Le figure professionali maggiormente

(15)

a discapito di un po’/abbastanza (Sono leggermente stanco; La situazione ora sembra

leggermente più tranquilla). Interessante anche l’utilizzo avverbiale di tipo, un esempio

di grammaticalizzazione in cui tipo non perde la sua funzione (quella di nome) ma accoglie anche come avverbio l’accezione di “per esempio/come”. Alcuni esempi: Lui

pensa tipo che… / Mettilo tipo così... (Renzi 2012:62).

Molto diffusi anche i forestierismi, soprattutto gli anglismi. Questo è in parte fisiologico per via dei neologismi portati dalle lingue settoriali (informatica e economia sopratutto) e dalla comunicazione tramite computer. Possiamo trovare sia prestiti integrali (chat), sia prestiti adattati (chattare), sia calchi (più palesi come baco da bug o meno palesi come realizzare nel senso di “comprendere” per to realize).

(16)

1.3 L’italiano popolare

La definizione di italiano popolare inizia a diffondersi negli anni Sessanta grazie a Tullio De Mauro che la introduce per la prima volta nella Storia linguistica dell’Italia

unita. L’italiano popolare viene definito da De Mauro come il «modo di esprimersi di un

incolto che, sotto la spinta di comunicare e senza addestramento, maneggia quella che ottimisticamente si chiama la lingua ‘nazionale’, l’italiano» (De Mauro 1970: 49). Una definizione successiva, leggermente diversa perché pone l’accento sulla devianza dalla norma, è quella che ne dà Manlio Cortelazzo: «il tipo di italiano imperfettamente acquisito da chi ha per madrelingua il dialetto» (Cortelazzo 1972: 11).

Nel 1976 Vannelli definisce l’italiano popolare come la varietà «in bocca ai parlanti dialettofoni» ma primo tra tutti gli studiosi nota come sia «in certi casi il nostro italiano di ogni giorno, che usiamo nei rapporti informali con gli altri», concludendo come sia in realtà opportuno «reinterpretarlo oggi come la lingua colloquiale di uso comune opposta alla lingua formale parlata e sopratutto scritta».

In ogni caso, volendo cercare una direzione comune a tutte le definizioni di italiano popolare che sono state date, è importante sicuramente soffermarsi su come questa varietà sia caratterizzata in diastratia, configurandosi come una varietà molto bassa usata principalmente da parlanti incolti/poco colti (o semi colti, come afferma la brillante definizione di Bruni/D’Achille).

L’identificazione dell’italiano popolare presenta alcune incertezze e problemi. Tra questi il problema relativo alla sua “unitarietà”, tratto affermato da molti autori, tanto da arrivare a definire spesso l’italiano popolare come italiano popolare unitario. Tuttavia, non è possibile prescindere in Italia dalla marcatezza diatopica, e sarebbe più corretto parlare di «italiano regionale delle classi popolari» (Sabatini 1985), inserendo l’italiano popolare tra le varietà di italiano regionale. L’aggettivo unitario però pone l’accento anche su un importante fatto extra-linguistico, che è importare tenere a mente per la corretta valutazione del fenomeno: l’italiano popolare nasce dopo l’Unità d’Italia

(17)

dell’1861 e si caratterizza per la prima volta come lo sforzo delle masse più povere (sotto la spinta di una prima alfabetizzazione e dell’industrializzazione) di comunicare, cercando di adottare la lingua italiana al posto del dialetto.

1.3.2 Aspetti linguistici dell’italiano popolare

Come fatto per l’italiano neo-standard, espongo di seguito una descrizione dei caratteri peculiari dell’italiano popolare. La fonti principali per questo lavoro sono stati D’Achille (2006: 220-223) e Berruto (2012: 139: 159).

Morfologia:

 Tendenza a regolarizzare i paradigmi nominali e aggettivali, inserendo maschili in -o / -i (l’agento «agente»; gli auti «autobus»; grando «grande») e femminili in -a / -e (la moglia «moglie»; le cimice «cimici»; inglesa «inglese»);

 Scambi tra aggettivi e avverbi e il rafforzamento ‘analitico’ di comparativi e superlativi sintetici (il posto meglio «migliore»; guidare veloce «velocemente»;

è tanta buona «tanto buona»; più migliore; molto ottimo);

 Sovraestensione del clitico dativo ci, che assume anche il valore di a lui, a lei e

a loro (ci do un bacio; posso dirci una cosa?), marcato in diatopia come

settentrionale o meridionale, mentre al centro si preferisce utilizzare gli;

 Uso del possessivo suo anche per la III persona plurale, invece di loro (si hanno anche esempi come suo di lui, suo di loro);

 Scambi fra gli ausiliari dei verbi attivi: ho rimasto; sono mangiato; vi avete

sbagliato;

 Presenza di forme improprie ‘analogiche’, specie nel congiuntivo (potiamo

«possiamo», vadi «vada», facci «faccia», stasse «stesse»), nel passato remoto

(misimo «mettemmo») e nel participio passato (faciuto «fatto»): è diffusa anche una generica riduzione dell’utilizzo di tempi e dei modi.

(18)

Sintassi:

 Estensioni di concordanze a senso: la gente applaudivano o qualche uomini;  Nella frase relativa, sia l’adozione del che polivalente, sia la sovraestensione di

dove (il giorno dove mi sono sposata). Frequenti anche la commistione del

modello analitico con quello sintetico: ho ricevuto la lettera che con la quale mi

dici che stai bene, l’uso di la quale non preceduto da preposizione (la tua lettera la quale mi sono rallegrato), anche invece di che pronome;

 Ripetizione del clitico in perifrasi con i verbi modali (ti devo dirti);

 Costrutti particolari come il periodo ipotetico col doppio condizionale (se saresti

tu al posto mio, faresti la stessa cosa) o col doppio imperfetto congiuntivo (se potessi, lo facessi);

 Riprese clitiche degli elementi dislocati a sinistra (a me mi piace), e uso diffuso di frasi con tema sospeso e con l’accusativo preposizionale.

Lessico:

 Scambio di suffissi e prefissi, con aggiunte o sottrazioni (prolungo

«prolungamento», spiega «spiegazione», i tranquillizzanti «tranquillanti»);

 Malapropismi, ovvero la storpiatura di parole per accostamento paretimologico ad altre più note (celebre «celibe»; debellare «cancellare»; fibrone «fibroma»;

rimboccare «rabboccare»; altrite «artrite»), anche per nomi propri e le parole

straniere (tic «ticket»);

 Preferenza per strutture lessicali di tipo analitico (fare sangue «sanguinare»;

malato al cervello «pazzo»);

 Frequente riferimento a modelli di lingua conosciuti, primo tra tutto l’italiano burocratico, che si configura con il ricorso a forme tipo con la presente vengo a

dirti, l’uso di firmare e di presentarsi prima con il cognome e poi con il nome,

(19)

Fonetica:

La fonetica dell’italiano popolare è sempre molto marcata regionalmente. Di seguito si indicano alcuni tratti che possiamo considerare panitaliani:

 Mancata percezione dei corretti confini di parola, con univerbazioni di articoli, pronomi clitici e preposizioni (lamico, tidico, avedere), e anche con alcune errate segmentazioni della catena fonica (con torni, in dirizzo, l’aradio);

 Semplificazione di nessi consonantici difficili, grazie a assimilazione o epentesi ( tennico, pissicologico, pasiensa per «pazienza» al Nord);

 Aferesi frequenti: ( sonero «esonero», dirizzo «indirizzo»);

Molti di questi tratti fonetici si ripercuotono sullo scritto. Ad esempio, le frequenti grafie Itaglia e gniente, che ricalcano la pronuncia palatalizzata della l e della n nei nessi consonantici [lj] e [nj]; senpre e banbini che restituiscono la pronuncia labiodentale; subbito e pasegeri che corrispondono al fenomeno meridionale del raddoppiamento della b intervocalica e alla pronuncia settentrionale scempia delle consonanti geminate.

Altri fenomeni che interessano la resa grafica sono:

 L’uso spesso scorretto della lettera h: sia con omissioni (anno visto, ance

«anche») sia con aggiunte (chome o habbiamo);

 Errori nell’utilizzo della lettera q (quore, qucina) e dei digrammi e trigrammi (celo «cielo», molie o mogle «moglie»);

 Accenti e apostrofi omessi o inseriti erroneamente; uso casuale e a volte “reverenziale” di maiuscole, punteggiatura assente o errata.

(20)

1.3.3 L’italiano popolare oggi

Diversi studiosi (Cortelazzo 2001 e Lepschy 2002) sostengono che l’italiano popolare non sia più presente nel panorama contemporaneo, arrivando a parlare anche di un processo di estinzione (Bianconi 2013). Antonelli ne riconosce l’esistenza ma lo colloca in una posizione periferica nella sua revisione dello schema dell’architettura dell’italiano contemporaneo proposto in origine da Berruto (Antonelli 2016:238). L’italiano popolare oggi è sicuramente una varietà meno visibile, ma non per questo assente dal repertorio italiano. Sobrero (2005:214) afferma che “la varietà diastratica bassa si è affermata nel repertorio, contendendo in qualche caso al neo-standard lo statuto di varietà di riferimento”. Un ottimo inquadramento teorico dell’italiano popolare oggi è offerto da Fresu (2014 e 2016). La studiosa individua alcune delle differenze tra le scritture dei semicolti di ieri e di oggi. Alcuni punti fondamentali da citare sono:

 cambiamento a livello diastratico, per via della scolarizzazione almeno di base diffusa capillarmente. Cambiano anche gli esecutori materiali dei testi, in buona parte oggi giovani e adulti e con un livello di istruzione medio o addirittura medio-alto (in contrapposizione al tipico scrivente semicolto generalmente adulto o anziano con bassa scolarizzazione e madrelingua dialetto).

 cambiamento delle tipologie di scrittura, non più primarie (lettere, diari, memorie) ma relazioni, email personali e di lavoro, testi brevi o medi destinati sia all’abito familiare sia a quello professionale o burocratico. Tra queste forme di scrittura possiamo addirittura includere le tesi di laurea, spesso la prima e unica prova di scrittura dopo le scuole superiori in molti corsi di laurea.

 cambiamento delle varietà del repertorio: oggi i madrelingua dialetto sono quasi scomparsi e i rapporti tra italiano e dialetto sono cambiati radicalmente rispetto a un secolo fa. È cambiato anche il rapporto tra scritto e parlato, che si sono avvicinati molto, rendendo perfettamente accettabile l’utilizzo di marche tipiche del parlato in contesti scritti anche sorvegliati. Questo porta a quella che

(21)

Antonelli definisce desacralizzazione della scrittura, percepita come valida se efficace anche senza controllo o coesione del testo, una sorta di nuova scrittura di massa che “si scrive ovunque per raggiungere chiunque e comunicare comunque”. Questa scrittura di massa ha favorito l’abbassamento dei meccanismi di controllo e l’innalzamento della soglia di tolleranza verso gli “errori”, incentivando la risalita di fenomeni sub-standard.

Ad accomunare invece l’italiano popolare di ieri e di oggi è la spiccata difficoltà a dominare la dimensione diafasica: produrre un testo coerente con la situazione o con la sua destinazione d’uso appare sempre più difficile, e gli estensori semicolti riversano tratti non adeguati in quel determinato registro. Questo si lega strettamente alle occasioni e agli usi della scrittura per moltissime persone ed è particolarmente evidente sul web: “i testi prodotti con le nuove tecnologie rappresentano per molte persone l’unica attività scrittoria, in più casi praticata senza l’adeguato addestramento” (Fresu 2014:221). Dello stesso avviso anche Antonelli (2016:236) che parla dell’italiano utilizzato su internet (che definisce come e-taliano) , evidenziando come per chi ha poca istruzione e “per tutti quelli che scrivono soltanto in queste occasioni potrebbe finire col diventare l’unico modo di scrivere: l’unica scelta possibile, ghettizzante e socialmente deficitaria”.

Il confine tra quello che è ammissibile e quello che non lo è in contesti informali o colloquiali è sempre più labile, per via dello sfumarsi delle varietà di italiano in una lingua “media” in cui è sempre più difficile collocare nel continuum tra giusto e sbagliato forme e varianti percependone correttamente l’adeguatezza all’uso.

(22)

1.4 Le relative sub-standard

Uno dei tratti morfosintattici più studiati dell’italiano popolare è la costruzione della frase relativa. In questa varietà, la frase relativa è realizzata in modo diverso rispetto allo standard: il pronome relativo il quale è utilizzato molto raramente, sia come soggetto sia come complemento; altrettanto raro è cui che compare raramente negli obliqui. La frase relativa sub-standard ha come solo introduttore che con il compito di svolgere tutte le funzioni, sia dirette sia oblique.

Sono stati studiati prevalentemente campioni su base regionale: Alfonzetti (2002) ha fatto uno studio esteso sui parlanti siciliani, Berruto (1987) sui racconti della prima guerra mondiale fatti da parlanti emiliani. A questi studi si aggiunge il recente contributo di Cerruti (2017).

La struttura non standard della frase relativa è soggetta a due strategie di relativizzazione:

 Modello analitico: con il connettivo generico che e ripresa (che +R) con un pronome personale clitico o con un aggettivo possessivo, a cui è affidata la funzione grammaticale da attribuire al relativo;

 Modello sintetico: con il che privo di qualsiasi mezzo di ripresa (che -R) dove la funzione sintattica dell’elemento relativizzato non viene espressa morfologicamente.

Nell’italiano standard, la frase relativa e la frase matrice sono tenute in coesione dal nome o dal pronome che fa da antecedente:

 nella relativa esplicita il nome viene cancellato, sostituendolo con un pronome relativo o con un avverbio o una congiunzione relativi;

 nelle relativa implicita il nome viene semplicemente cancellato. I pronomi relativi possono avere tutte le funzioni sintattiche:

(23)

 oggetto: Giovanni è il compagno che preferisco;  complemento indiretto:

Giovanni sorrise alla ragazza a cui tu avevi rivolto la parola; Giovanni, di cui parliamo sempre con emozione, tornerà domani; Andrò al mare a Capri con gli amici con cui sono partita a Pasqua.

La relativizzazione non standard segue i meccanismi di quella standard, utilizzando però quasi esclusivamente il relativo che. Questo è un esempio del processo di semplificazione del paradigma dei pronomi relativi in atto già da tempo nel neo standard.

Dal lavoro di Alfonzetti (2002) e Cerruti (2017) è possibile ricavare una lista per analizzare i fenomeni di relativizzazione nelle relative sub-standard:

 Relativizzazione del soggetto: generalmente il tipo di relativizzazione più diffusa (circa il 60% nel corpus esaminato da Alfonzetti) La ripresa di che soggetto per mezzo di pronome tonico o dimostrativo in relative di tipo appositivo è molto rara: generalmente non si ha nessuna ripresa.

C’era Cesarini, che all’ultimo minuto faceva sempre goal.

 Relativizzazione dell’oggetto diretto: meno diffuse delle precedenti, si attestano nel corpus esaminato da Alfonzetti come il 22-27% delle relative totali. all’interno di questo insieme il che con clitico di ripresa ha qualche occorrenza in più, attestandosi comunque a valori bassi (circa il 5%). Due esempi, uno di registro alto e uno di registro colloquiale, tratti da Alfonzetti:

Rimarrebbe, cosa che il Preside lo sa, il regolamento. È il brodo, che io lo devo sciogliere.

 Relativizzazione di complementi preposizionali: costituiscono l’insieme di relative meno frequente, attestate nel lavoro di Alfonzetti a circa il 15% delle occorrenze. Tra queste, l’oggetto indiretto viene relativizzato nel 7% dei casi e il possessore in una percentuale bassissima e quasi trascurabile. Il grande numero

(24)

delle relative su complementi preposizionali è costituito dalle relative sugli altri complementi, detti obliqui (tempo e luogo soprattutto).

Non c’è nessuno che posso chiedere? (oggetto indiretto)

Gli americani che gli ho aperto l’ombrellone. (oggetto indiretto) Il giorno che ci siamo incontrati pioveva. (tempo)

C’è il mio cortile, che si può posteggiare. (luogo)

1.4.2 Continuum della frase relativa

Cerchiamo di schematizzare un continuum dei paradigmi di costruzione della frase relativa, prendendo come varietà di rifermento l’italiano scritto standard, l’italiano parlato colloquiale e l’italiano popolare. Come prima cosa, è utile richiamare a definizione di continuum. Un continuum linguistico è un insieme di varietà linguistiche non separate da confini netti in modo da permettere il passaggio graduale dell’una nell’altra. La nozione di continuum nella sociolinguistica ha origine dal concetto di continuum dialettale: due diverse varietà di dialetto sono collegate da altre intermedie e adiacenti che sfumano lentamente l’una nell’altra. Per comprendere meglio possiamo immaginare una situazione tale per cui i parlanti di un dialetto A siano in grado di comprendere i parlanti di un dialetto B e viceversa, i parlanti di B siano in grado di comprendere C e viceversa, ma all’aumentare della distanza la variazione geografica impedisce la reciproca comprensione (Berruto 1987). Spostando il punto di osservazione dalla variazione geografica a quella sociale, possiamo immaginare varietà di lingua differenti senza contorni netti usate da gruppi sociali diversi e in contesti diversi. La distanza sociale, a differenza di quella geografica, non rende tra di loro incomprensibili delle varietà di lingua, ma il concetto di continuum illustra bene come le differenze siano minime tra varietà vicine e molto più marcate man mano che si confrontano varietà lontane.

Lo schema seguente illustra i diversi usi di il quale, cui, che all’interno dei registri dell’italiano scritto standard, dell’italiano parlato colloquiale, e dell’italiano popolare. I

(25)

diversi paradigmi, indicati con i numeri in alto, sono ordinati da sinistra a destra in base al grado di formalità:

Questo schema, tratto da Berruto (1987), semplifica molto la situazione reale ma ne permette una rappresentazione immediatamente comprensibile. Lo schema va considerato aperto per entrambi gli estremi: a sinistra è possibile immaginare un registro aulico che utilizza il quale in ogni caso, mentre a destra potrebbe esserci un paradigma che utilizza esclusivamente che in tutti i casi senza antecedenti nominali, introduttore di frasi "simil-relative". Tramite le linee di demarcazione delle varietà, lo schema pone un confine netto tra l'italiano standard e l'italiano popolare, mentre l'italiano colloquiale si sovrappone a entrambe le varietà da una parte e dell'altra (e nello schema questo si evidenzia bene grazie all'uso della linea tratteggiata). Nella parte alta dello schema sono indicati con i numeri i diversi paradigmi possibili: sono ordinati da sinistra a destra facendo decrescere il grado di funzione sintattica e di esplicitazione delle funzioni. L'italiano scritto standard utilizza il paradigma numero 1, piuttosto formale, mentre l'italiano "dell'uso comune" realizza solitamente il paradigma numero 2. Nel parlato colloquiale vengono utilizzati, a seconda delle situazioni, i paradigmi 2,3 e 4 (con una sporadica presenza de il quale, poco o nulla realizzato nel parlato spontaneo). La forma di relativizzazione più utilizzata è sicuramente il paradigma 3, con che in funzione di soggetto e di oggetto, e che più ripresa del clitico nei casi obliqui. L'italiano popolare

(26)

invece è a cavallo dei paradigmi 3, 4, e 5, dove il quarto è il più utilizzato e il quinto il più economico come costo di realizzazione. Nell'italiano popolare scritto si trovano anche occorrenze de il quale, ma queste sono da intendersi esclusivamente come ipercorrettismi legati allo scritto, data la sua totale assenza nel parlato popolare. Berruto (2017:151) nota anche che tutte le costruzioni qui presentate erano già utilizzate nell'italiano delle origini: ad esempio Peter (1985) mostra come nella Cronica di Giovanni Villani, risalente alla prima metà del Trecento, siano realizzate con diverse distribuzioni tutte le forme presenti nell’italiano contemporaneo.

(27)

2. La diffusione di Facebook in Italia

Nei primi anni 2000 nascono negli Stati Uniti sia Facebook sia Twitter, rispettivamente nel 2004 e 2006. In Italia iniziano a diffondersi qualche anno più tardi, fino a raggiungere un numero di utenti davvero considerevole. Facebook in Italia nel 2017 conta 30 milioni di utenti attivi, di cui ben 28 milioni utilizzano la piattaforma almeno una volta al mese da un tablet o uno smartphone e 23 milioni vi accedono da smartphone quotidianamente. Sono delle cifre molto importanti e può darci un paragone la relativa “minor” diffusione di Twitter in Italia: gli utenti italiani sono circa 7 milioni2_.

La composizione demografica degli utenti di Facebook è cambiata nel corso degli anni: nel 2014 il gruppo con il maggior numero di iscritti erano gli utenti con età compresa tra i 19 e i 24 anni, mentre nel 2017 questa porzione di utenti è il terzo gruppo di utenti oer grandezza (costituisce il 15% del totale). Il gruppo più presente nel 2017 corrisponde alla fascia anagrafica 36-45 anni (21%), seguito dalla fascia 46-55 anni (17%). Di seguito un grafico che illustra la composizione demografica di Facebook nel 2017:

2 _{Dati estratti da}_{http://vincos.it/2017/05/29/facebook-in-italia-supera-i-30-milioni-di-utenti/}_e

http://vincos.it/osservatorio-facebook/

(28)

Il rapporto tra uomini e donne mostra una maggioranza di utenti uomini: sono il 52% del totale. Questi dati sono importanti e vanno sempre mantenuti sullo sfondo delle considerazioni linguistiche che sono state fatte in questo lavoro. Questo perché l’età e la scolarizzazione di un utente sono elementi chiave nella valutazione linguistica della sua produzione. Importante è anche il mezzo tecnologico utilizzato per scrivere sul social network, perché obbliga l’utente a una serie di vincoli pragmatici: ad esempio l’utilizzo di una tastiera fisica con il layout italiano permette un facile inserimento delle lettere accentate, mentre la tastiera virtuale di uno smartphone le rende meno accessibili.

2.2 API di Facebook

Lo scopo del lavoro è quello di analizzare un corpus di commenti estratti dalle pagine dei Ministri della Repubblica Italiana fatti dagli utenti di Facebook. Per estrarre il corpus è necessario lavorare con le API messe a disposizione dal social network. L’acronimo API (Application Programming Interface) indica una serie di procedure, metodologie o librerie che una piattaforma mette a disposizione di altri sviluppatori per permetter loro di creare contenuti per la piattaforma stessa. Nello specifico le API di Facebook prendono il nome di API Graph, nome che allude all’organizzazione dei dati usata da Facebook: un social graph, ovvero un grafo in cui i nodi sono persone, pagine, foto o eventi, collegati tra di loro da archi che rappresentano relazioni come amicizia, condivisione, tag nelle foto. L’interazione con l’API Graph è basata sullo scambio di messaggi tramite protocollo HTTP e funziona quindi con qualsiasi linguaggio dotato di una libreria HTTP. Ad esempio, è possibile fare una richiesta API Graph direttamente da browser e in quel caso la richiesta equivale a:

GET graph.facebook.com /facebook/picture? redirect=false

In maniera piuttosto succinta, possiamo dire che si lavora tramite richieste richieste HTTP GET ai nodi o agli archi. Per la maggior parte delle richieste è necessario possedere un token d'accesso valido, ovvero un autorizzazione concessa da Facebook. A

(29)

ogni nodo corrisponde un singolo ID numerico. Facciamo ad esempio una richiesta allo strumento di esplorazione dell’API Graph messo a disposizione da Facebook3_{: invoco il}

metodo GET sul nodo me per visualizzare il mio nome utente e il mio ID su Facebook (Illustrazione 3):

Nella sezione a sinistra “Cerca un campo” è possibile specificare l’interesse per alcuni campi, ovvero le caratteristiche dei nodi (ad esempio lingua, compleanno, età, religione) o per connessioni (ad esempio numero di amici, like, connessioni familiari), naturalmente possedendo un token di accesso valido. Questo per quanto riguarda i profili privati. Con le pagine pubbliche invece le cose sono leggermente più semplici, proprio perché essendo pubbliche non hanno particolari restrizioni di privacy per l’accesso ai dati. Nell’esempio sottostante riporto il risultato dello strumento di esplorazione dopo aver richiesto alcuni dati per il nodo unipisaofficial, la pagina Facebook ufficiale dell’Università di Pisa4_{(Illustrazione 4).}

Campi come about, foto di copertina, descrizione, informazioni generali e categoria della pagina sono pubblicamente accessibili e è possibile inserirli in una query. Esattamente allo stesso modo è possibile consultare i post di una pagina pubblica. Ripeto la query utilizzando come nodo la pagina dell’università e come campo i post (Illustrazione 5).

3 _{https://developers.facebook.com/tools/explorer/} 4 _{https://www.facebook.com/unipisaofficial}

(30)

La risposta è sotto forma di grafo (ovvero un albero) organizzato come una serie di nodi post che riportano come attributi il testo del messaggio del post, la data di pubblicazione e l’ID univoco, che è composto dall’identificativo della pagina più un identificativo di quel singolo post, congiunti dal carattere trattino basso “_”.

Illustrazione 4: Lo strumento di esplorazione mostra alcuni dati della pagina

(31)

{

"message": "Conferito l’Ordine del Cherubino a dieci docenti dell’#Unipi per i loro particolari meriti

scientifici e culturali e per il loro contributo alla vita e al funzionamento dell’Ateneo",

"created_time": "2017-04-07T12:01:15+0000", "id": "277210202327294_1302001533181484" }

Dai post pubblici è possibile ottenere anche la lista dei commenti che hanno ricevuto. Modifico la query precedente impostando come nodo l’ID specifico di un post e come campo l’elenco dei commenti (Illustrazione 6):

Il campo comments contiene un elenco di oggetti commento con campi quali data di creazione, nome autore, ID autore, testo del commento, ID specifico del commento (composto dall’identificativo del post e dall’identificativo specifico del commento).

(32)

{

"created_time": "2017-04-08T14:59:43+0000", "from": {

"name": "Giovanni Cognome", "id": "707083232743319" },

"message": "Congratulazioni vivissime al Prof. Leonardo Bertini, Ingegnere Nucleare e PhD in Meccanica dei Materiali. Dr. Ing. Giovanni Pino – Roma", "id": "1302001533181484_1303160749732229"

}

Ecco come questi dati si presentano direttamente sulla piattaforma del social network:

(33)

2.3 Scraper: funzionamento generale

I dati restituiti dallo strumento di esplorazione di Facebook sono stringhe nel formato per lo scambio di dati JSON (Javascript Object Notation). Conoscendo la struttura dati degli oggetti rilasciati, è possibile manipolarli a proprio piacimento per estrarre i dati con script preparati appositamente e memorizzare le informazioni sotto forma di file di testo semplice o CSV (Comma Separated Value) per poterne permettere l’analisi linguistica.

Nel caso specifico di questo lavoro, ho deciso di avvalermi di due script già fatti, realizzati da Max Woolf e disponibili con Licenza MIT su GitHub5_{. Questi script in}

linguaggio Python sono stati già usati per analisi linguistiche e nella documentazione dello script ci sono link a un vasto corpus di post e commenti in inglese estratti dalle pagine pubbliche dell’emittente americana CNN, del giornale “New York Times” e del sito di informazione BuzzFeed.

Lo scraper può estrarre dati solo da pagine pubbliche, dove tutti i dati e i commenti presenti sono accessibili a chiunque6_{. Non vengono salvati dati personali a eccezione}

del nome dell’autore del commento, ma data la natura pubblica delle pagine, questi commenti sono visibili anche a utenti non loggati o non iscritti a Facebook, e il salvare questi dati non è da considerarsi come violazione alla privacy. Non è possibile in alcun

5 _{Link su GitHub:}_{https://github.com/minimaxir/facebook-page-post-scraper}

6 _{A partire dal settembre 2017, è apparso un bug nella raccolta dei dati. Questo bug non permette di}

raccogliere tutti i post di una determinata pagina, ma ne salta alcuni inspiegabilmente. Documentazione qui: https://developers.facebook.com/bugs/1838195226492053/

Inoltre, nel novembre 2016 Facebook ha acquisito CrowdTangle, una piattaforma di servizi di analisi dei social molto utilizzata in ambito pubblicitario. Per spingere l’utilizzo di questa piattaforma, direttamente legata a Facebook adesso, l’autore dello script qui utilizzato nota nel dicembre 2017 che è improbabile che Facebook risolva il bug sulla raccolta dei dati.

La nostra raccolta del corpus è stata effettuata nel marzo 2017, in un momento in cui il sistema era esente dal bug in questione.

(34)

modo utilizzare questi script su profili privati utente e l’interazione con le API di Facebook inibirebbe l’esplorazione in quel caso.

Lo scraper è composto da due script in Python che utilizzano le API di Facebook (seguendo la documentazione di Facebook in maniera rigorosa) e i dati di accesso dell’utente che lo utilizza. Dopo aver inserito nel file dello script l’ID della pagina pubblica che si intende esplorare (pagina target), l’ID personale e l’access token di chi utilizza lo script, è necessario lanciare prima lo script per estrarre i post (get_fb_posts_fb_page.py) e successivamente quello per i commenti (get_fb_comments_from_fb.py).

Questo perché per la ricerca e l’estrazione dei commenti lo script fa riferimento all’ID specifico di ogni post (o status_id: un identificativo univoco dello status composto dall’identificativo della pagina id_pagina concatenato all’identificativo del post stesso

id_post): prima si ottengono tutti i post e dopo per ogni post tutti i commenti.

Questo permette anche di mantenere una struttura logica dei dati e di risalire subito ai post che hanno originato determinati commenti. Bisogna quindi lanciare da terminale o consolle di comando i due file in ordine e lo scraper inizierà l’estrazione dei dati. Dopo l’esecuzione degli script si otterranno due file CSV nominati rispettivamente “pagina

target_facebook_statuses.csv” e “pagina target_facebook_comments.csv”.

È possibile utilizzare questi file con qualunque editor di testo o strumento di analisi di dati.

(35)

2.4 Scraper: funzionamento in dettaglio

Lo scopo di questo paragrafo è osservare da vicino il modo in cui è composto e funziona lo scraper. Nel paragrafo riporto parti di codice mentre i due script per intero sono disponibili in appendice. Lo scraper è realizzato in Python.

Nelle prime righe di codice sono importate alcune librerie necessarie.

import urllib2 import json import datetime import csv import time

Lo scraper richiede un access token valido e senza scadenza. Uno dei modi più semplici per averlo è quello di registrarsi sul social network come sviluppatori per Facebook e creare un’applicazione (basta semplicemente inserirne nome e caratteristiche) per ottenere l’app_id e l’app_secret che garantiscono un access token sempre valido. Questo metodo inoltre permette a Facebook di monitorare le richieste inviate. I campi nell’esempio sono compilati con una sequenza di zeri.

app_id = "000000" app_secret = "000000"

access_token = app_id + "|" + app_secret

Inseriamo l’ID della pagina che vogliamo esplorare. Va bene sia inserire il nome in linguaggio naturale (come compare nella url della pagina di Facebook, non il titolo della pagina) che l’ID numerico univoco corrispondente. Nell’esempio di codice ho utilizzato la pagina ufficiale dell’Università di Pisa.

(36)

Nello script troviamo una prima funzione: request_until_succeed(url) che ha come parametro l’indirizzo della pagina da analizzare. La funzione ha lo scopo di inviare la richiesta allo strumento di esplorazione di Facebook, di controllare che non restituisca un errore e in quel caso di ripeterla nuovamente.

def request_until_succeed(url): #costruzione oggetto Request req = urllib2.Request(url)

success = False //inizializza flag di controllo while success is False:

try:

#esegue richiesta

response = urllib2.urlopen(req) #valuta il response code HTTP if response.getcode() == 200:

success = True #in caso di eccezione except Exception, e:

print e

#attende prima di riprovare time.sleep(5)

print "Error for URL %s: %s" % (url, datetime.datetime.now())

print "Retrying."

#restituisce il contenuto della risposta http return response.read()

La funzione unicode_normalize(text) con parametro testo ha lo scopo di trasformare il testo di post, commenti e metadati in testo con caratteri unicode.

(37)

Le funzioni viste fin qui sono condivise da entrambi gli script. Da qui in poi presentano funzioni specifiche diverse che per chiarezza è meglio analizzare separatamente. Esaminiamo prima lo script per estrarre i post (get_fb_posts_fb_page.py) e successivamente quello dedicato ai commenti (get_fb_comments_from_fb.py).

2.4.2 Dettaglio script per estrazione post

La funzione getFacebookPageFeedData(page_id, access_token, num_statuses) ha come parametri l’ID della pagina, il token di accesso dell’utilizzatore dello scraper e il numero degli stati della pagina esaminata. Ha il compito di chiedere alcuni campi specifici del post, come testo del post (message), il link al post (link), data di creazione (created_time), tipo di post (type), ID univoco, condivisioni, reazioni. Per ora non vengono richiesti i commenti e il campo comments ha il limite impostato a zero. La funzione richiede questi campi tramite costruzione di un URL, sulla quale si baserà la richiesta fatta con la funzione request_until_succeed(url), in cui concatena ID pagina e i campi richiesti.

base = "https://graph.facebook.com/v2.6" node = "/%s/posts" % page_id

fields = "/?fields=message,link,created_time,type,name,id," + \ "comments.limit(0).summary(true),shares,reactions" + \

".limit(0).summary(true)"

parameters = "&limit=%s&access_token=%s" % (num_statuses, access_token)

#creazione dell’url

url = base + node + fields + parameters

Il testo della risposta HTTP restituito da request_until_succeed(url) viene interpretato come una struttura JSON memorizzata come oggetto nella variabile data:

data = json.loads(request_until_succeed(url)) return data

(38)

La funzione getReactionsForStatus(status_id, access_token) ha come parametri l’ID dello status di cui contare le diverse reazioni e l’access token dell’utente che utilizza lo script. Ha lo scopo di contare e analizzare le reazioni che i post hanno ricevuto:

base = "https://graph.facebook.com/v2.6" #id del post da esaminare

node = "/%s" % status_id

#i campi da chiedere nell’url sono stati definiti nella funzione

#precedente. Qui vi si aggiungono le reazioni: reactions = "/?fields=" \ "reactions.type(LIKE).limit(0).summary(total_count).as(like)" \ ",reactions.type(LOVE).limit(0).summary(total_count).as(love)" \ ",reactions.type(WOW).limit(0).summary(total_count).as(wow)" \ ",reactions.type(HAHA).limit(0).summary(total_count).as(haha)" \ ",reactions.type(SAD).limit(0).summary(total_count).as(sad)" \ ",reactions.type(ANGRY).limit(0).summary(total_count).as(angry)" parameters = "&access_token=%s" % access_token

url = base + node + reactions + parameters

La costruzione url composto da base (indirizzo grafo), node (id del post da esaminare),

reactions reazioni da contare, parameters composto dall’ID dell’utilizzatore. La risposta

della funzione viene restituita come oggetto JSON:

data = json.loads(request_until_succeed(url)) return data

Ogni status viene trattato sotto forma di dizionario: una struttura dati in cui le informazioni sono organizzate in tuple, ovvero coppie chiave:valore dove ogni chiave è unica e a essa corrisponde un solo valore. La funzione

(39)

esaminare e access token dell’utilizzatore come prima cosa controlla che la chiave esista nel dizionario dello status e in caso ne normalizza i valori in UTF-8.

status_id = status['id']

status_message = '' if 'message' not in status.keys() else \ unicode_normalize(status['message'])

link_name = '' if 'name' not in status.keys() else \ unicode_normalize(status['name'])a

status_type = status['type']

status_link = '' if 'link' not in status.keys() else \ unicode_normalize(status['link'])

Il controllo sull’esistenza della chiave nel dizionario e in caso la sua normalizzazione in UTF-8 viene effettuato anche sui campi annidati: ad esempio se sono presenti reazioni, ne estrae il sottocampo conteggio (total_count) dal percorso reactions>summary, altrimenti se la chiave è assente, il conteggio riporta zero.

num_reactions = 0 if 'reactions' not in status else \ status['reactions']['summary']['total_count'] num_comments = 0 if 'comments' not in status else \

status['comments']['summary']['total_count']

num_shares = 0 if 'shares' not in status else status['shares'] ['count']

Il numero di like al post è estratto tramite le reazioni al post se il post è successivo alla data di introduzione in Facebook di tale funzionalità, altrimenti è dato dalla variabile

num_reactions precedentemente trattata. Nello specifico lo script prima acquisisce le reazioni nella variabile reactions tramite la funzione getReactionsForStatus per i post successivi al 24/02/2016. Se in tale variabile (ovvero nel dizionario) non esiste il campo like, allora il numero di like è 0, altrimenti è il valore del sotto campo total_count del

(40)

campo like; se il post è stato pubblicato prima del 24/02/2016 il numero di like coincide con il numero totale delle reazioni precedentemente estratto ( questo perché prima del febbraio 2016 l’unica reazione possibile ad un post o commento era soltanto il like):

reactions = getReactionsForStatus(status_id, access_token) if \ status_published > '2016-02-24 00:00:00' else {}

num_likes = 0 if 'like' not in reactions else \

reactions['like']['summary']['total_count']

num_likes = num_reactions if status_published < '2016-02-24 00:00:00' \

else num_likes

La funzione get_num_total_reactions(reaction_type, reactions) con parametri tipo di reazione e reazioni ha lo scopo di controllare la tipologia di ogni reazione e il loro numero suddiviso per tipo. Inoltre ha il compito di restituire le tuple dell’intero dizionario:

return (status_id, status_message, link_name, status_type, status_link, status_published, num_reactions, num_comments, num_shares, num_likes, num_loves, num_wows, num_hahas, num_sads, num_angrys)

Il lavoro di questo script si basa sulla funzione getFacebookPageFeedData vista prima: l’ultima funzione scrapeFacebookPageFeedStatus si occupa di chiamare

getFacebookPageFeedData con limite di cento post, di analizzarli un commento alla

volta con la funzione processFacebookPageFeedStatus e di creare un file di testo CSV in cui scrivere le informazioni trovate. I post sono forniti da Facebook organizzati in pagine, cioè in un elenco lungo tanto quanto il limite impostato, in questo caso cento. Se i post eccedono il limite, per ogni pagina ottenuta la presenza di un campo next indica l’esistenza di una pagina successiva (al massimo di cento post anche essa). La funzione

(41)

scrapeFacebookPageFeedStatus ottiene una pagina di cento post alla volta, e finché è

presente il campo next continua a chiedere la pagina successiva per analizzare tutti i post. Vediamo il codice nel dettaglio:

def scrapeFacebookPageFeedStatus(page_id, access_token): #crea un file CSV con le colonne specificate:

with open('%s_facebook_statuses.csv' % page_id, 'wb') as file:

w = csv.writer(file)

w.writerow(["status_id", "status_message", "link_name", "status_type", "status_link",

"status_published", "num_reactions", "num_comments", "num_shares", "num_likes", "num_loves", "num_wows", "num_hahas", "num_sads", "num_angrys"])

has_next_page = True

num_processed = 0 # contatore stati analizzati scrape_starttime = datetime.datetime.now() #inizio attività

#stampa nel terminale o prompt dei comandi un feedback di #quanto svolge, per tenere l’utente informato. In questa riga

#visualizza la pagina target e l’ora di inizio analisi: print "Scraping %s Facebook Page: %s\n" % (page_id, scrape_starttime)

#La variabile statuses è data dal risultato di

#getFacebookPageFeedData con limite impostato a 100 status:

statuses = getFacebookPageFeedData(page_id, access_token,100)

while has_next_page: #continua finché ci sono pagine for status in statuses['data']:

#controlla che sia uno stato con i metadati attesi: if 'reactions' in status:

(42)

w.writerow(processFacebookPageFeedStatus(status, access_token))

#aggiorna il contatore e lo stampa nel prompt num_processed += 1

if num_processed % 100 == 0:

print "%s Statuses Processed: %s" % \ (num_processed, datetime.datetime.now()) #se non ci sono altre pagine da esaminare: if 'paging' in statuses.keys():

statuses = json.loads(request_until_succeed( statuses['paging']['next']))

else:

has_next_page = False

#stampa un messaggio che avvisa della fine dell’esecuzione #dello script, del numero di post analizzati e del tempo #impiegato

print "\nDone!\n%s Statuses Processed in %s" % \ (num_processed, datetime.datetime.now() -

scrape_starttime)

2.4.3 Dettaglio script per estrazione commenti

Come detto precedentemente, la prima parte dello script get_fb_comments_from_fb.py è identica alla prima parte dello script per l’estrazione dei post. Vediamo invece le funzioni specifiche che include.

La funzione getFacebookCommentFeedData (status_id, access_token, num_comments) con parametri come ID dello status analizzato, access token dell’utilizzatore e numero di commenti da analizzare si comporta in modo analogo alla funzione

getFacebookPageFeedData dello script precedente. Si occupa della costruzione di un

URL sulla quale baserà la richiesta fatta con la funzione request_until_succeed(url), in cui concatena ID pagina e i campi richiesti, in questo caso ID del commento, testo del