• Non ci sono risultati.

Due Esperimenti: MFW e Campi Semantic

Quantitative Formalism è il titolo del lungo esperimento che ha

visto impegnati, dall’autunno 2008 a marzo 2009, la squadra dello Stanford Literary Lab di Franco Moretti, e Michael Witmore dell’University of Wisconsin. In questo pioneristico lavoro, pubblicato poi nel gennaio 2011 come on-line pamphlet7, si è testata l’ipotesi di una procedura informatica unsupervised per la separazione ed il riconoscimento dei sottogeneri romanzeschi attraverso le MFW (most frequent words). Il campione di rife- rimento era composto da 48 romanzi appartenenti a 12 generi differenti. Ognuno dei testi campione poteva considerarsi un ben acclamato classico del genere d’appartenenza (per esempio, The

Monk per il gotico, Daniel Deronda per il romanzo di formazione o Hard Times per il romanzo industriale).

7litlab.stanford.edu/LiteraryLabPamphlet1.pdf

- 190 -

Figura 1.

Con grande sorpresa degli addetti ai lavori, il computer riuscì ad operare una "clusterizzazione" automatica perfetta. Perfetta in quanto totalmente coincidente alla classificazione della critica letteraria tradizionale da cui si era partiti. Ulteriore fonte di stupore, però, riguardava "come" la macchina fosse giunta al medesimo risultato dell’uomo. Infatti, nel commentare il brano a più alto coefficiente "gotico" selezionato dal computer, Sarah Allison, co- autrice del pamphlet, osserva:

- 191 -

[…] the gothic of Docuscope was different from that of "Humanscope" (as she called it): it was not the same gothic we saw. For us, that page was gothic because of the subdued terror and the archway, the ruin and apprehension and the limbs that trembled – not because of the "he" "his" "him" "had" "was" "struck the" and "heard the" which caught Docuscope’s attention.8

"Docuscope", il programma di MFW utilizzato, era stato in grado di classificare come appartenente al genere gotico un brano tratto da A Sicilian Romance (1790) della Radcliffe – romanzo gotico per antonomasia - ma ci era arrivato attraverso degli indicatori (articoli, pronomi e tempi verbali) totalmente diversi da quelli abitualmente considerati dall’uomo (elementi tematici come terrore, passaggi sotterranei ed eroine tremanti).

In conclusione, questo esperimento aveva dimostrato essen- zialmente due cose. La prima riguardava senz’altro la capacità da parte della macchina di "riconoscere" e quindi raggruppare romanzi in base al genere senza alcun intervento umano. La seconda, conseguente alla prima e dalla portata del tutto inaspettata, riguardava il fatto di aver portato alla luce l’esistenza di tutto un substrato di micro-unità formali quali articoli, prefissi, pronomi e preposizioni che, al pari di più evidenti aspetti semantici, era in grado di fornire un netto segnale di genere. Per dirla con una metafora biologica, questo esperimento era riuscito ad isolare i

8 S. Allison, R. Heuser, M. Jockers, F. Moretti, M. Witmore, Quantitative Formalism: An

Experiment. Stanford on-line pamphlet, 2011, p. 8. http://litlab.stanford.edu/ LiteraryLabPamphlet1.pdf.

- 192 -

singoli geni che compongono il DNA lessicale dei diversi generi letterari del romanzo inglese.

Il secondo esperimento dello Stanford Literary Lab, invece, riguardava l’applicazione di un generatore di campi semantici empirici allo studio di luoghi geografici sempre all’interno del romanzo inglese dell’Ottocento. Nello specifico, il generatore di campi semantici, detto "Correlator", è uno script che permette di correlare ad una parola chiave inserita tutti gli altri lemmi che, all’interno del corpus di riferimento, condividono la sua stessa frequenza d’uso e linea di tendenza cronologica. In questo modo, pur non trattandosi di un campo semantico in senso tradizionale, il "correlator" può comunque definirsi un generatore di campi semantici di tipo empirico proprio per questa sua capacità di mettere in relazione parole in base ad un criterio di contiguità e probabilità di co-occorrenza.

Lo scopo di questo secondo esperimento era dunque quello di tracciare una mappatura dei luoghi del romanzo dell’Ottocento inglese utilizzando il "correlator" per investigare sull’immaginario simbolico connaturato a ciascuno di essi. A tale scopo, l’intero corpus di romanzi dello Stanford Literary Lab era stato previamente processato con NER, un’applicazione di "entity recognition" in grado di estrarre e classificare singole unità testuali in base a categorie predefinite quali nomi propri, quantità o percentuali. Nel caso della nostra ricerca, il criterio di selezione era appunto quello geografico e alla fine della procedura ognuno dei 3.603 romanzi del database era stato dotato di tag "location". Successivamente, usando uno script di PHP, tali dati sono stati visualizzati in una matrice in cui, ad ogni titolo del corpus, veniva accostato l’esatto numero di occorrenze di

- 193 -

ciascuna location. Una volta proceduto con i dovuti calcoli statistici per normalizzare i risultati, sono stati prodotti dei grafici espositivi attraverso il celebre programma 'R'9.

Figura. 2

- 194 -

Interessante è il caso dell’Italia che, presente in tre diversi set di location del nord (Milan, Venice) del centro (Rome, Florence, Tuscany) e del sud (Naples, Palermo, Sicily), appare con regolarità nelle pagine degli scrittori britannici fino alla fine del 1860 ed è caratterizzata da sfumature semantiche diverse per ciascun’area e ascrivibili a diversi generi letterari.

Tabella 1.

Keyword: SICILY

artifices (+0.89130) hero's (+0.84810) informing (+0.82763) dungeons (+0.88229) fails (+0.84545) philanthropy (+0.82424) assiduously (+0.88071) unmindful (+0.84443) horrors (+0.82384) inquisitor (+0.87937) monk (+0.84399) medicines (+0.82373) dreadful (+0.87777) mortally (+0.84201) endeavor (+0.82347) ignominy (+0.87315) horror (+0.84192) hero (+0.82274) recurred (+0.87191) grieves (+0.84136) misfortunes (+0.82245) signora (+0.87131) atrocious (+0.84032) don (+0.82160) convent (+0.86628) obdurate (+0.83827) deluded (+0.82148) trembled (+0.86267) dungeon (+0.83539) vicious (+0.81727) assassin (+0.86151) confident (+0.83515) emotions (+0.81552) fear (+0.85964) perfections (+0.83344) embracing (+0.81379) Madrid (+0.85547) amiable (+0.83287) conjectures (+0.81296) court (+0.85539) fainted (+0.83246) alleviate (+0.81244) tormented (+0.85472) caprices (+0.83169) artful (+0.81220) gaming (+0.85406) extremely (+0.82924) nun (+0.81211) rigid (+0.84978) rural (+0.82767) mournfully (+0.81141)

- 195 -

Tabella. 2

Keyword: TUSCANY

staggering (+0.96213) bust (+0.90725) sprang (+0.89204) purchases (+0.95717) shirt (+0.90638) appreciate (+0.89170) flinging (+0.95351) blanched (+0.90628) awaiting (+0.89094) grinning (+0.94502) drawing (+0.90564) handkerchiefs(+0.8894) glance (+0.93277) tone (+0.90559) expression (+0.88300) thrusting (+0.93115) slap (+0.90467) wink (+0.88287) confidential (+0.92511) cushion (+0.90395) pavement (+0.88171) hissing (+0.92213) overhanging

(+0.90366)

clothing (+0.88157) winked (+0.92143) interposed (+0.90353) glass (+0.88056) exciting (+0.91920) glancing (+0.90122) tranquilly (+0.88019) aloud (+0.91736) astounding (+0.90119) table (+0.87884) spinster (+0.91728) unusual (+0.89982) boudoir (+0.87869) glimpse (+0.91629) tumbler (+0.89636) oriental (+0.87108) intently (+0.91537) bolted (+0.89588) waistcoat (+0.87058) ghastly (+0.91229) handkerchief

(+0.89500)

mother-in-law(+0.86992) sternly (+0.91215) rambling (+0.89443) hand(+0.86924)

moment's (+0.91183) satin (+0.89236) mastery pause (+0.90799) loan (+0.89236)

- 196 -

Le cifre tra parentesi corrispondono al valore di deviazione standard con cui ciascuno dei lemmi generati dalla ricerca si correla alla parola chiave inserita; più il valore si avvicina ad 1 più le due parole risulteranno avere una frequenza d’uso analoga e quindi, per estensione, saranno in relazione tra loro a livello empirico. Nella fattispecie, la parola "artifices", artifici, è correlata alla parola sorgente "Sicily" con un punteggio di +0.89130 di deviazione standard sopra la media del corpus. "Purchases", acquisti, è correlata alla parola chiave "Tuscany" con +0.95717 di deviazione standard sopra la media del corpus e così via.

Il contributo di questo esperimento sta nell’aver provato quanto all’emergere di nuovi spazi geografici all’interno dell’imma-ginario del romanzo inglese corrisponda la nascita di uno specifico genere letterario. Infatti, se all’inizio del diciannovesimo secolo il picco delle

locations italiane del sud (Palermo, Naples, Sicily) è chiaramente

connesso allo sviluppo dell’immaginario del genere gotico (con nette correlazioni semantiche come "prigioni", "inquisitori" e "terrore"), negli anni 40’ e 50’ dell’Ottocento, il sorgere di nuove aree quali "Rome", "Florence" e "Tuscany" comporta un cambiamento dell’identità simbolica italiana verso "cuscini", "satin" e "prestiti" più in relazione con i temi di nobiltà decaduta del silver fork novel.

Come d’abitudine, alla fine di ogni riunione dello Stanford Literary Lab, qualcuno dei partecipanti deve vestire i panni dell’avvocato del diavolo e porre al gruppo l’odiosa questione: "Is this something we didn’t know?". Un interrogativo che tradisce l’ansia e la pressione di questi giovani ricercatori non solo nel dover

- 197 -

trovare con i loro esperimenti qualcosa di nuovo, ma anche nel dover imparare a controbattere le critiche sempre aspre e provenienti da ogni direzione. Ebbene per quello che ho visto, la risposta è comunque sì; sì è stato detto qualcosa di nuovo; sì, è stato portato alla luce qualcosa che non sapevamo e che, più importante ancora, non avremmo mai potuto scoprire con la ricerca tradizionale. Ma, soprattutto, ciò che veramente costituisce il valore aggiunto di questo tipo di ricerca è che ogni esperimento, se eseguito in correttezza, contribuisce alla creazione di una nuova scienza delle forme letterarie in cui lo studio di fatti artistici e fenomeni estetici può e deve essere finalmente verificabile a livello oggettivo.