3. PROSPETTIVE E METODO DI ANALISI
3.4 CORPORA E DIZIONARI DI RIFERIMENTO
Per analizzare le occorrenze dei connettivi contraddistinti dal significato conclusivo intrinseco, il primo corpus di riferimento è stato il DiaCORIS, un database pensato e coordinato da R. Rossini Favretti presso l’Università di Bologna, che riunisce testi di generi diversi, ordinati per epoche diverse e, nella fattispecie, una compresa tra il 1861 e il 1900, una tra il 1901 e il 1922, una tra il 1923 e il 1945, una tra il 1946 e il 1967 ed infine un’altra tra 1968 e 2001. I generi testuali raccolti sono la narrativa, la stampa quotidiana, quella periodica, la prosa giuridica, miscellanee e la saggistica: quest’ultima è l’effettivo campo di indagine scelto, ma non si trascura di dar conto dei dati quantitativi per le altre tipologie. Avendo visto in modo
approfondito come funziona il corpus, va detto che questo permette, a partire dalla singola voce, di ricostruire il contesto entro cui essa compare, senza però riportare la fonte nella sua estensione completa; inoltre (ed è accaduto in più casi), è opportuno verificare altrove lo stesso
locus testuale, per accertarsi della reale strutturazione della sequenza e quindi star certi della
punteggiatura, della frammentazione del testo (se un punto indica la fine di un capoverso o meno, se addirittura non si tratti di un testo intervallato da titoli, che nel DiaCORIS si mischiano al corpo centrale, ecc.), della fisionomia di un cotesto più esteso. Per come è concepito, il corpus si presta ottimamente a ricerche testuali che partano da voci ben precise, quindi è stato adatto per vedere (anche in prospettiva diacronica, per la prima sezione cronologica) come occorressero quei connettivi conclusivi intuitivamente selezionabili. Si tratta perciò della fonte sistematicamente usata nell’analisi sincronica, relativamente alla sezione di saggistica compresa fra 1968 e il 2001.
Per colmare delle lacune sul reperimento di attestazioni utili ho scelto di considerare anche il
Colfis, il Corpus e Lessico di Frequenza dell'Italiano Scritto, che raccoglie testi tratti da
quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri, questi ultimi scelti considerando anche quelli letti per motivi scolastici o professionali. Le quasi 3.800 ricorrenze lessicali sono piuttosto equamente ripartite, al fine di garantire una certa omogeneità di riscontri quantitativi nei diversi generi testuali. Mantenendo fede alla scelta del genere testuale argomentativo, ho optato per una ricerca che includesse stralci di periodici e libri di carattere saggistico e ho impostato la richiesta di informazioni partendo sempre dal lemma di riferimento (che nel caso delle locuzioni è rappresentato dalla forma lemmatizzata anche nei dizionari) e ne ho verificato quindi i contesti, curandomi di confrontarli altrove, soprattutto per i casi in cui il Colfis non metta a disposizione il testo completo.
Un riferimento importante, non sempre impiegato sistematicamente, è la sezione libri di
Google; ho optato per questa risorsa soprattutto per la ricerca delle locuzioni e delle espressioni
formulari, ma anche per alcune voci singole e per la verifica di occorrenze più recenti, che i limiti temporali delle altre fonti potevano non rispecchiare. In diacronia poi, la disponibilità di alcuni dizionari e grammatiche in formato digitale ha contribuito alla possibilità di avere maggiori spunti di riflessione e riscontri utili; Google in generale è poi comunque stato spesso sfruttato, delimitando talvolta il campo di ricerca, per verifiche di casi particolari, che potessero mostrare nell’italiano trasmesso di Internet delle caratteristiche degne di nota, soprattutto in termini di spinte innovative odierne.
Altra risorsa non usata sistematicamente, ma solo laddove occorresse a risolvere dei dubbi interpretativi o colmare delle carenze di riscontri nella tipologia testuale adottata come riferimento principale, è stato il corpus on line del quotidiano «La Repubblica» (consultabile nel sito http://dev.sslmit.unibo.it/, che include anche risorse diverse), il quale raccoglie circa 380.000 testi compresi tra 1985 e il 2000, relativi ad articoli di genere diverso (cronaca, scienza, cultura, sport ecc.), annotati morfo-sintatticamente e lemmatizzati con metodi semi-automatici, consultabili sempre partendo dal singolo lemma, per vederlo quindi nel contesto.
Per colmare delle lacune nel reperimento di attestazioni, oppure per verificare le differenze nell’uso dei connettivi in una diversa tipologia testuale è stato sfruttato talvolta il Primo tesoro
della lingua letteraria italiana del Novecento a cura di Tullio De Mauro: la risorsa disponibile
su cd-rom e installabile su pc, raccoglie testi letterari compresi tra il 1947 e il 2006 e permette di effettuare ricerche testuali su di essi, a partire dal singolo lemma.
Soprattutto in ottica storica, si è dimostrato utile il corpus del sito www.bibliotecaitaliana.it (BIBLITA) risorsa gestita dall’Università La Sapienza, che raccoglie testi di molti generi (fra cui la trattatistica) dalle origini, fino al ‘900. Questo corpus, a partire dalla voce ricercata, permette di vederla contestualizzata nel testo per la sua interezza ed anche mantenendo fede alla strutturazione originale (sebbene non sia comunque da escludere un’eventuale verifica di ulteriori fonti, soprattutto per accertamenti sulla punteggiatura, che andando a ritroso nel tempo presenta i problemi cui si è accennato sopra). Bibit è una delle cinque sezioni in cui si articola il corpus ed è il cuore di BIBLITA, una biblioteca digitale di più di 1600 opere, in edizione integrale, fondate su edizioni scientifiche di riferimento, tutte liberamente accessibili, scaricabili e interrogabili. Questo corpus è utile anche per l’analisi di forme più polisemantiche e non intrinsecamente conclusive, proprio perché consente di partire dal testo nella sua interezza e di procedere quindi nella direzione opposta rispetto alla prima, ovvero non cominciando con la forma del connettivo, bensì ricercando i connettivi conclusivi nel testo scritto.
Il TLIO (il Tesoro della Lingua Italiana delle Origini) è una delle risorse on line utilizzate nell’indagine diacronica, per ricercare attestazioni più remote delle forme considerate; questa risorsa si incrociano con gli strumenti lessicografici, prime fra tutti le diverse edizioni del
Vocabolario degli Accademici della Crusca, anche queste consultabili on line sul sito
dell’Accademia.
Fondamentale per l’indagine storica è stato poi un corpus di recente creazione: MIDIA (acronimo di Morfologia dell'Italiano in Diacronia), realizzato grazie al finanziamento del progetto Prin 2009 "La storia della formazione delle parole in italiano" coordinato da Paolo
D'Achille (Università Roma Tre), permette l'interrogazione di un corpus testuale finalizzato allo studio della formazione delle parole in italiano dal punto di vista diacronico. Il corpus (bilanciato) di testi italiani spazia lungo 7 secoli (dal Duecento al 1947), divisi in 5 periodi (inizio del Duecento - 1375; 1376 - 1532; 1533 - 1691; 1692 - 1840; 1841 – 1947) e comprende 7 tipologie testuali (tra cui testi espositivi e scientifici, generi più sistematicamente osservati). Il corpus è consultabile all’indirizzo www.corpusmidia.unito.it.
I dizionari impiegati sono stati scelti per soddisfare diverse esigenze: ho fatto sistematico riferimento all’edizione del 2003 del Dizionario della lingua italiana (DISC) che ha il pregio di offrire una ricostruzione piuttosto ampia del percorso che parte dalla singola parola, per arrivare prima alla frase e poi al testo, con una fedele ricostruzione della veste attuale della lingua italiana; l’affidamento pressoché costante a questa risorsa si deve anche al fatto di aderire alla concezione di testo e di connettivi che propone Francesco Sabatini, coautore insieme a Vittorio Coletti di questo importante strumento. Sempre per rimanere nell’ambito dei dizionari moderni, si fa riferimento pressoché costante anche al Vocabolario della lingua italiana
Treccani disponibile on line52 che rappresenta nella maggior parte dei casi un supporto alla
spiegazione reperita nel DISC e talvolta un utile ampliamento.
L’impiego del Dizionario Etimologico della lingua italiana (DELI) di Manlio Cortelazzo e Paolo Zolli poi, risponde alla necessità, una volta messo a fuoco il significato lessicale delle forme analizzate, di ricostruire un’etimologia il più possibile dettagliata, che sia utile, nella parte dell’indagine sincronica, per fissare da subito una linea interpretativa e, nella parte dell’analisi storica, per partire da alcuni dati certi sulla base dei quali poter verificare le modificazioni intervenute nel tempo attraverso processi di semantizzazione e/o grammaticalizzazione occorsi: questi aspetti sono quindi investigati anche attraverso l’imprescindibile dizionario storico che è il Grande Dizionario della lingua italiana (GDLI), ideato da Salvatore Battaglia e portato a termine da Giorgio Barberi Squarotti. Questa risorsa è fondamentale perché fornisce le diverse accezioni di significato di ciascuna voce, offrendone i contesti d’uso reperiti dalla letteratura, aspetto che per l’indagine diacronica è senza dubbio determinante, dal momento che ci permette di verificare i valori di impiego (tra cui si potranno individuare anche quelli testuali) che potrebbero essersi avuti in una fase della lingua, ma non in un’altra e per di più ci agevola nel ricostruire le fasi di attestazione delle locuzioni usate in funzione di connettivi.
Solo per casi particolari ho consultato anche il Grande dizionario italiano dell’uso di Tullio De Mauro (GRADIT), che ha permesso talvolta di approfondire alcune interpretazioni.
Per l’indagine storica sono state fondamentali le edizioni del Vocabolario degli Accademici
della Crusca messe a disposizione sul sito della stessa Accademia e consultabili per lemmi. La
risorsa è importante non tanto o non solo per le definizioni reperibili, ma anche per la verifica della loro attestazione come voce del lemmario; per la cura definitoria e i dettagli puntuali e spesso illuminanti, è stato determinante il Dizionario della Lingua Italiana di Niccolò Tommaseo e Bernardo Bellini (solo in parte disponibile on line sul sito www.dizionario.org), consultato nell’edizione 1861-1879, citata in bibliografia.
Chiudo il paragrafo segnalando una risorsa molto importante spesso utilizzata, soprattutto nell’analisi diacronica: si tratta del Trésor de la Langue Française Informatisé, messo a disposizione sul sito www.atilf.fr (Analyse et traitement informatique de la Langue Française), al quale si è fatto riferimento talvolta per ricostruire l’etimologia di alcune forme italiane, partendo dalle analisi contrastive di altri studiosi, oppure da spunti interpretativi offerti dalla lessicografia e intuizioni circa un possibile influsso della lingua francese.