• Non ci sono risultati.

Un corpus «parlante»: caratteristiche e metodi d’indagine

2.1 «La mia vita intera è cosparsa di parole chiave»: un’avventura linguistica

2.1.6 Un corpus «parlante»: caratteristiche e metodi d’indagine

Il corpus così strutturato si compone in totale di 36 documenti, di cui 27 classificabili come opere scritte e 9 trascrizioni di interventi orali: il totale dei testi, anche se non amplissimo, è apparso comunque adeguato a coprire con una certa esaustività sia l’arco temporale corrispondente al secondo periodo di attività dell’autore che la varietà dei generi ritenuti più influenti a livello linguistico. Nel loro insieme, si è infatti ritenuto che le opere selezionate, ripartite in varie sezioni cronologiche e tipologiche, fornissero informazioni lessicali sufficienti per poter individuare con una certa precisione alcuni gruppi di parole-chiave nel linguaggio pasoliniano, mediante la compilazione di indici di frequenza sensibili non solo all’alta diffusione delle voci nelle varie sezioni, ma soprattutto alla loro keyness, ossia alla proprietà di essere distintive di un determinato sottogruppo rispetto alla totalità del corpus.

Come si evince dalla tabella 1, l’arco temporale considerato è quello degli anni Sessanta/Settanta, con una sola sezione che rimanda all’ultimo scorcio degli anni Cinquanta, scelta dovuta da un lato all’importanza del volume saggistico Passione e ideologia, che si compone di materiali risalenti a quegli anni, dall’altro alla centralità linguistica della la raccolta poetica Le ceneri di Gramsci (1957), che segna il passaggio del linguaggio poetico pasoliniano da un lirismo non privo di venature ermetiche a uno stile colloquiale e narrativo, spesso aperto a forme lessicali tratte dalla contemporanea prosa dell’autore.

Per quanto riguarda invece i generi testuali accolti nel corpus, esso comprende naturalmente il maggior numero possibile di saggi e articoli di giornale (per i quali sono state prese in esame tutte le raccolte disponibili), una cospicua selezione di interviste e di dialoghi con i lettori (sono stati accolti nel corpus tutti i testi raccolti in volumi autonomi), una scelta di interventi orali (ossia le trascrizioni di alcuni interventi televisivi – interviste e dibattiti – che è stato possibile visionare presso la Cineteca di Bologna) e infine tutti i testi poetici appartenenti alle quattro grandi raccolte risalenti al periodo 1955-1975 (Le ceneri di Gramsci, La religione del mio tempo, Poesia in forma di rosa e Trasumanar e organizzar).

180

Tabella 1. Composizione del corpus

ITOLO CANALE GENERE ANNO SCAGLIONE Parole Interviste corsare 55-60 Scritto interviste/dialoghi 1995 55-60 4431

Le belle bandiere 1960 Scritto interviste/dialoghi 1977 55-60 12635 Povera Italia 55-60 Scritto interviste/dialoghi 2013 55-60 4368 La religione del mio

tempo Scritto Poesie 1961 55-60 18222

Le ceneri di Gramsci Scritto Poesie 1957 55-60 13770 Passione e ideologia Scritto saggi/articoli 1960 55-60 137546 Le belle bandiere 61-65 Scritto interviste/dialoghi 1977 61-65 60588 Interviste corsare 61-65 Scritto interviste/dialoghi 1995 61-65 13290 Polemica politica potere

61-65 Scritto interviste/dialoghi 2015 61-65 13189 Povera Italia 61-65 Scritto interviste/dialoghi 2013 61-65 12961 Poesia in forma di rosa Scritto Poesie 1964 61-65 27455 Empirismo eretico 61-65 Scritto saggi/articoli 1972 61-65 39496 Il caos Scritto interviste/dialoghi 1979 66-73 101585 Pasolini su Pasolini Scritto interviste/dialoghi 1992 66-73 26943 Il sogno del centauro 66-

73 Scritto interviste/dialoghi 1993 66-73 32656 Interviste corsare 66-73 Scritto interviste/dialoghi 1995 66-73 29878 Povera Italia 66-73 Scritto interviste/dialoghi 2013 66-73 4867 Polemica politica potere

66-73 Scritto interviste/dialoghi 2015 66-73 2524 Trasumanar e organizzar Scritto Poesie 1971 66-73 31362 Empirismo eretico 66-73 Scritto saggi/articoli 1972 66-73 63590 Interviste corsare 74-75 Scritto interviste/dialoghi 1995 74-75 8559 Il sogno del centauro 74-

75 Scritto interviste/dialoghi 1993 74-75 18550 Polemica politica potere

74-75 Scritto interviste/dialoghi 2015 74-75 7195 Povera Italia 74-75 Scritto interviste/dialoghi 2013 74-75 3277 Lettere luterane Scritto saggi/articoli 1976 74-75 11308

Scritti corsari Scritto saggi/articoli 1975 74-75 70013 Volgar’eloquio Scritto saggi/articoli 1976 74-75 44364 Le confessioni di un

poeta Orale interventi orali 1967 66-73 2089 Pasolini e il linguaggio

nazionale Orale interventi orali 1968 66-73 3219 Un’ora con Ezra Pound Orale interventi orali 1968 66-73 1749 Pasolini e il pubblico Orale interventi orali 1970 66-73 2143 III B: facciamo l’appello Orale interventi orali 1971 66-73 3219 Al cuore della realtà Orale interventi orali 1974 74-75 2280 Controcampo: Italiani,

oggi Orale interventi orali 1974 74-75 1728 Pasolini e.. la forma della

città Orale interventi orali 1974 74-75 1297 Il potere e la morte Orale interventi orali 1975 74-75 1947

181

Per poter operare con mezzi informatici sui testi in questione, è stato necessario un procedimento piuttosto laborioso, che permettesse di rendere leggibili i testi ai programmi di interrogazione automatica. Tutte le opere cartacee sono state quindi digitalizzate, mentre nel caso degli interventi televisivi (tutti visionati presso la Cineteca di Bologna), alcune trascrizioni sono state gentilmente messe a disposizione dal Centro Studi-Archivio Pier Paolo Pasolini, mentre altre effettuate sul posto.

Tutti questi documenti sono poi stati taggati manualmente al fine di distinguere le varie parti del testo, isolando cioè i contributi di Pasolini da quelli altrui (ad esempio le domande degli intervistatori, le lettere dei lettori, i commenti dei curatori dei volumi) e dai vari apparati testuali (note, introduzioni non autoriali, indici); a questo punto si è proceduto all’estrazioni dei testi scritti/parlati e al conteggio delle parole realizzato sui testi puliti, il che ha reso infine possibile l’interrogazione del corpus mediante il programma AntConc, che ha generato gli indici di frequenza delle parole organizzate in sottogruppi tipologici e cronologici. Le opere prescelte sono state infatti suddivise in 4 scaglioni temporali, in base a una certa omogeneità interna: il primo corrisponde agli anni fra il 1955 e il 1960, al di qua cioè della grande crisi biografico-letteraria dell’autore; segue il periodo compreso fra il 1960 e il 1965, la cui fine coincide con il momento di più fervente meditazione linguistica dell’autore sull’italiano contemporaneo (posteriore appunto alla pubblicazione delle Nuove questioni linguistiche); l’arco cronologico che va dal 1966 al 1973 si contraddistingue invece per la costante crescita della presenza pubblica di Pasolini, che si dedica con grande passione alla sua carriera di regista cinematografico, accompagnando il naturale incremento della sua visibilità con la costante presenza sulla stampa, la disponibilità a concedere interviste (numerosissime sono quelle risalenti a questo periodo) e le sue prime apparizioni televisive; infine, l’intensissimo biennio 1974- 75 coincide con l’avventura «luterana» e «corsara» dello scrittore, segnata da un mutamento significativo del suo rapporto con il pubblico e dal vertiginoso aumento dei suoi interventi di natura sociopolitica (soprattutto articoli di giornale, ma anche dibattiti, conferenze, apparizioni televisive), cui si accompagnano nuovi usi linguistici.

Nei casi specifici in cui le raccolte in volume (come ad esempio le Interviste corsare, ma anche Empirismo eretico oppure Polemica politica potere) comprendessero testi distribuiti su più scaglioni, si è provveduto a una ripartizione interna di tali opere, suddividendo i saggi o le interviste in base alla loro datazione.

Per quanto riguarda invece i generi testuali, naturalmente non tutte le tipologie dei testi considerati hanno la stessa pervasività nell’opera pasoliniana, anzi alcune sono del

182

tutto assenti, o poco rappresentate, in determinati scaglioni, in corrispondenza delle vicende personali e delle preferenze artistiche dell’autore. Al numero inferiore di documenti disponibili corrisponderà evidentemente una più esigua porzione di materiale lessicale, ma questo non inficia la qualità dei risultati di frequenza, in quanto il programma utilizzato per l’interrogazione statistica identifica le parole-chiave non sulla base della loro frequenza assoluta ma piuttosto della loro keyness, ossia una frequenza di occorrenza superiore rispetto allo standard costituito dalla totalità del corpus.

Questo valore è calcolato usando il logaritmo naturale log-likelihood: il valore di p è impostato a 0.05 e la keyness è considerata significativa quando superiore a 3.84140.

𝐿𝑜𝑔𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 = 2 ∑ 𝑂𝑖ln (𝑂𝑖 𝐸𝑖) 𝑖

Dove 𝑂𝑖 è il valore osservato del termine nel corpus i e 𝐸𝑖 è il valore atteso del termine nel corpus i, calcolato così:

𝐸𝑖=

𝑁𝑖∑ 𝑂𝑖 𝑖

∑ 𝑁𝑖 𝑖

La log-likelihood è una misura che si basa sul calcolo di frequenze relative, per cui è indipendente dalla differenza di dimensione dei corpora considerati. I testi appartenenti ai diversi raggruppamenti (scaglioni temporali e generi) sono stati quindi di volta in volta messi a confronto con la totalità del corpus, in modo da ottenere una classifica delle parole più significative per ogni settore, cioè distintive di un periodo o di una tipologia testuale all’interno della produzione dell’autore141.

Per le voci che sono risultate dotate di keyness significativa si è poi proceduto a verificare il grado di dispersione, ossia la loro effettiva presenza nei vari documenti appartenenti a ogni sottogruppo. A tal fine, per ogni voce si è calcolato l’indice idf (inverse document frequency):

𝐼𝐷𝐹𝑡 = log2

𝑁 𝑑𝑓𝑡

dove N è il numero totale di documenti del corpus considerato, mentre 𝑑𝑓𝑡 è il numero di documenti del corpus che contengono il termine t (si considera disperso un termine con idf < 1).

140 http://ucrel.lancs.ac.uk/llwizard.html)

141 Le ricerche effettuate mediante AntConc sono case-insensitive; per convenzione, le parole riportate in tabella sono tutte minuscole a eccezione dei nomi propri, indicati sempre con l’iniziale maiuscola.

183

Questo valore fornisce tuttavia solo un’indicazione generale, in quanto non tiene conto dell’effettivo numero di occorrenze delle voci in ogni documento, ma solo della loro presenza (per cui è sufficiente anche una sola attestazione perché la parola sia considerata presente in un testo): di conseguenza, una volta verificata la dispersione di una voce grazie all’indice idf, si è poi proceduto a verificarne l’effettiva distribuzione nei vari documenti (grazi ai dati forniti dal programma AntConc).