• Non ci sono risultati.

L’analisi testuale del carteggio sveviano con software R: procedure, sperimentazione, primi risultat

Le lettere che compongono l’epistolario édito di Italo Svevo costituiscono un corpus di 894 documenti i cui originali sono nella quasi totalità conservati in Museo sveviano. Si tratta di documenti già digitalizzati e descritti archivisticamente in un database. In preparazione alla text analysis ho proceduto a

1. convertire in formato testo (standard UTF8) i file tiff dei documenti digitalizzati tramite software ocr FineReader con lettura supervisionata e correzione degli errori di output in fase di conversione

2. uniformare le intestazioni delle singole lettere contenute in un unico file txt, premettendo a ciascuna l’indicazione dei seguenti attributi

 mittente

 luogo da cui scrive il mittente

 destinatario

 luogo in cui si trova il destinatario

 data

 lingue utilizzate

 numero progressivo di lettera nell’epistolario édito utili alla successiva operazione di export

in formato tabellare csv

2 Quanto illustrato è visibile sul sito www.museosveviano.it/ar/, un’installazione Wordpress presso il server web ufficiale del Museo sveviano, in continuo aggiornamento col procedere delle analisi testuali.

3 Jockers è Associate Dean for Research and Global Engagement presso il College of Arts & Sciences e Associate Professor of English alla University of Nebraska; è anche Faculty Fellow presso il Center for Digital Research in the Humanities e direttore del Nebraska Literary Lab. Tiene un blog in cui rende disponibili i risultati delle sue ricerche in computational text analysis (http://www.matthewjockers.net/).

AIUCD – SHORT PAPERS

135

3. importare la tabella csv – suddivisa in 12 variabili e 894 osservazioni – in ambiente di lavoro “R Studio” per sottoporre i testi dell’epistolario a analisi statistiche tramite software “R”.

Presso MaLeLab dell'Università di Trieste ho iniziato a effettuare Sentiment Analysis sul corpus dell'epistolario sveviano sperimentando le potenzialità di Syuzhet Package - una delle librerie disponibili

in ambiente “R”4

65, scelta perché tarata specificatamente dal suo creatore Matthew Jockers per l’analisi di

testi d’autore e di plot narrativi tramite la rilevazione di picchi emotivi nella scrittura. Inoltre Syuzhet Package comprende il lessico NRC Word-Emotion Association Lexicon (EmoLex http://www.saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm) costituito da più di 14.000 lemmi associati per aree semantiche a otto emozioni-base (rabbia, paura, aspettativa, fiducia, sorpresa, tristezza, gioia, disgusto) pertinenti la polarità sentiment positivo-negativo (Mohammad and Turney, 2010).

Inizialmente mi sono concentrata sul solo carteggio Svevo-Joyce, un corpus minimo, di appena dieci lettere, in lingua prevalentemente inglese e con qualche frase in italiano e in dialetto triestino. Syuzhet Package elabora estrazioni di sentiment basandosi esclusivamente su token di lingua inglese, fornendo in questo caso risultati utili circa la rilevazione del sentiment data la presenza sporadica di espressioni non anglofone nei testi analizzati.

Ma in realtà Ettore Schmitz nelle sue lettere usa contemporaneamente l’italiano, il tedesco, il francese e l’inglese, assieme a moltissime espressioni dialettali triestine e più di qualche lemma latino e russo, senza attenersi esclusivamente agli usi linguistici dei suoi interlocutori. Per poter procedere con la Sentiment Analysis sul corpus dell’epistolario sveviano è stato perciò necessario individuare un lessico multilingue. Dal luglio 2015 EmoLex è stato implementato con un lessico plurilingue che consiste nella traduzione del vocabolario inglese in una ventina di idiomi tramite algoritmo Google Translate, come

riferisce Mohammad nel suo blog (http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm).

Tuttavia questo lessico plurilingue non è mai stato implementato né testato in alcuna libreria di SA di “R”, Syuzhet Package compreso. Per poter sperimentare un primo utilizzo della versione multilingue di EmoLex, lo staff del MaLeLab ha realizzato un’estensione di Syuzhet Package da un codice suggeritomi dallo stesso Jockers. Sono così riuscita a estrarre i valori di sentiment connotanti ciascuna delle 894 lettere dell’epistolario sveviano per le otto emozioni-base, ciascuna validata per lingua.

Successivamente ho verificato come la qualità dei risultati della Sentiment Analysis può venir influenzata effettuando il preprocessamento del testo noto come stemming, che consiste nel ricondurre ogni parola alla sua radice morfologica, deprivandola quindi del suffisso di declinazione e coniugazione: in particolare, ho applicato lo stemmer Snowball sia ai token ricavati dalle lettere che agli elementi del vocabolario EmoLex.

Per ognuna delle varianti di Sentiment Analysis provata, segnatamente quelle con o senza stemming, ho esaminato a campione le lettere che costituiscono il carteggio édito tra Italo Svevo e Eugenio Montale - 62 documenti in tutto - verificando che il sentiment assegnato fosse coerente con quello rilevabile leggendo ciascuna missiva.

Ho così potuto constatare come la Sentiment Analysis basata esclusivamente su lessico non dia risultati eccellenti dal punto di vista quantitativo quando applicata a un dominio linguistico e comunicativo estremamente peculiare, come quello da me analizzato. L’approccio multilingue, per di più all’epistolario di un autore che usa con grande disinvoltura gli aspetti di polarità a fini artistici - come nel caso dell’ironia sveviana - rende problematica la text analysis basata su lessico applicata alle lettere di Italo Svevo se ci si attiene ad una valutazione squisitamente quantitativa dei dati rilevati dall’algoritmo, spesso molto scarni

e a volte falsati, specie nella variante SA con stemming5

66. Va segnalato che sulla Irony Detection si

concentra molta letteratura scientifica degli ultimi anni relativa alla SA, ma prevale l’attenzione sui social mentre latita ancora quella dedicata all’ambito più segnatamente letterario: si vedano a riguardo alcuni

4 Syuzhet Package comprende anche più metodi di estrazione di sentiment e di visualizzazione della temperatura emotiva dei testi tramite una molteplicità di grafi (https://cran.r-project.org/web/packages/syuzhet/vignettes/ syuzhet-vignette.html).

5 I risultati relativi alla SA con e senza stemming sul corpus del carteggio Svevo-Montale sono disponibili sul sito web www.museosvevian.it/ar.

AIUCD – SHORT PAPERS

136

recenti contributi (Reyse et al., 2011; Reyse et al., 2013). Tuttavia lo scopo del lavoro che intendo perseguire non è una sperimentazione spinta di SA, né tantomeno la definizione di un lessico italiano letterario per la Sentiment Analysis, ma rendere visuale il sentiment di un carteggio che giace inscatolato in faldoni, o il plot dei racconti sveviani, e rilevare, lungo la linea del tempo tratteggiata dalla produzione letteraria dello scrittore, l'andamento del sentiment di un autore che si è sentito fallito. Una semplificazione qualitativa, dunque, ma pienamente funzionale agli obiettivi dichiarati di questo progetto e del tutto perseguibile grazie alla visualizzazione in grafi dei risultati delle text analysis condotte, anche alla riprova del vaglio – ovvero della lettura dei documenti già analizzati dall’algoritmo.