1
Corso di Laurea in Informatica Umanistica
T
ESI DI LAUREA MAGISTRALE
Analisi linguistico-computazionale della leggibilità e
semplificazione di un corpus di testi accademici in
lingua italiana destinati ad apprendenti stranieri e
italiani residenti all’estero.
Candidato:
Marzia Giardiello
Relatore:
Mirko Tavosanis
2 A Costantino, Milena, Ilaria e Serena
3 INDICE
INTRODUZIONE 5
1. LA COMPLESSITÀ TESTUALE 7
1.1. La leggibilità: carattere quantitativo 7
1.1.1. Le caratteristiche di base: lunghezza frase e lunghezza parole 8
1.1.1.1. Gli indici di leggibilità 9
1.1.2. Il vocabolario di base della Lingua Italiana 11
1.2. La comprensibilità: carattere qualitativo 12
2. IL TESTO 14
2.1. Il linguaggio specialistico 14
2.1.1. Il linguaggio accademico 15
2.2. Il corpus 17
2.2.1. La struttura dei moduli 18
2.2.2. La struttura del corpus 19
2.3. ICoN 19
2.3.1. Il corso di laurea in Lingua e Cultura italiana 20
3. LA SEMPLIFICAZIONE TESTUALE 23
3.1. I criteri di semplificazione testuale secondo Berruto 24
3.1.1. Il lessico 24
3.1.2. La sintassi 25
3.2. I criteri di semplificazione testuale secondo Piemontese 25
3.2.1. Il lessico 26
3.2.2. La sintassi 26
3.2.3. La comprensibilità 26
3.2.4. Le scelte grafiche 27
3.3. I criteri di semplificazione per questo studio 27
4. L’ANALISI DELLA LEGGIBILITÀ DEL CORPUS 33
4.1. L’analisi manuale 33
4.1.1. M00096 “La questione della lingua” 33
4
4.1.1.2. La subordinazione 35
4.1.1.3. La forma passiva del verbo 38
4.1.1.4. L’ordine dei costituenti 39
4.1.1.5. Le parentetiche e le incidentali 40
4.1.1.6. La nominalizzazione 41
4.1.1.7. Il lessico 42
4.1.2. “La lingua di Dante” 43
4.1.2.1. La lunghezza delle frasi 43
4.1.2.2. La subordinazione 45
4.1.2.3. La forma passiva del verbo 47
4.1.2.4. L’ordine dei costituenti 48
4.1.2.5. Le parentetiche e le incidentali 49
4.1.2.6. Il lessico 50
4.2. L’analisi automatica 51
4.2.1. Le tecniche linguistico-computazionali per il monitoraggio
della leggibilità 51
4.2.2. READ-IT 54
4.2.3. L’analisi 63
4.3. Le conclusioni sull’analisi 69
5. IL CORPUS SEMPLIFICATO: UN CASO 71
5.1. Modulo M00095 “La questione della lingua” 71
5.1.1. Interventi sul modulo M00095 72
5.1.2. Analisi del modulo M00095 semplificato 76
5.1.3. La semplificazione del modulo M00095 effettuata da un docente 80
6. I RISULTATI 87
6.1. Originali e riscritture: similarità e differenze 93
CONCLUSIONI 96
BIBLIOGRAFIA 98
APPENDICE 101
APPENDICE A: Modulo M00095 originale 101 APPENDICE B: Modulo M00095 semplificato 126
5
INTRODUZIONE
Il presente lavoro è dedicato alla semplificazione linguistica di materiale didattico. In particolare il materiale in oggetto, valutato dal punto di vista della leggibilità, manualmente per un campione di testi e automaticamente (attraverso strumentazione linguistico-computazionale) è una porzione del materiale di studio di un corso di laurea triennale in ambito umanistico erogato a distanza da ICoN (Italian Culture On the Net), un consorzio di diciannove università italiane.
La semplificazione testuale è un tema di particolare interesse che trova spazio in diversi ambiti che spaziano dalla didattica alla comunicazione one-up/one-down1 (modelli comunicativi basati sulla differenza, es. relazione medico/paziente, superiore/subalterno). In generale rappresenta un’esigenza per tutte quelle situazioni di comunicazione asimmetrica, quando cioè le conoscenze di chi produce un testo non corrispondono a quelle dei fruitori di tale testo. L’obiettivo comune è rendere accessibile a tutti il linguaggio. Ne sono un esempio la comunicazione in ambito sanitario o quella che si instaura fra Pubblica Amministrazione e cittadini e, naturalmente, tra insegnante e alunni. Tale asimmetria si intensifica, a proposito della didattica, quando i discenti non sono della stessa madrelingua dell’insegnante o del materiale di studio su cui apprendono i contenuti. Questa tesi si muove proprio in direzione di questa fetta di apprendenti, trattando, come materiale di spunto, documenti testuali diretti a non madrelingua.
Inoltre, per quanto riguarda la lingua italiana, la recente letteratura in ambito di semplificazione testuale si è principalmente concentrata su ricerche condotte sul linguaggio giuridico e amministrativo. Questa tesi, invece, si propone di estendere il concetto della semplificazione testuale anche al linguaggio del testo accademico, che si colloca all’interno del genere espositivo.
La semplificazione del testo è un concetto strettamente legato a quello di complessità testuale e a tutte quelle condizioni, strutturali e di contenuto, che contribuiscono a rendere un documento leggibile e accessibile. Il capitolo 1 è, dunque, dedicato alla descrizione di tale concetto che si dirama nelle sue componenti di leggibilità e
1 Il quinto assioma della comunicazione della scuola di Palo Alto (Mental Research Institute) analizza
6 comprensibilità attraverso l’esplorazione di caratteristiche quantitative e qualitative di un testo.
Il capitolo 2 di questa tesi è incentrato nella prima parte sulla tipologia di testo esplorata ai fini della semplificazione (il linguaggio settoriale, in particolare quello accademico) e, nella seconda, sul materiale scelto e raccolto in un corpus, valutato e semplificato per sviluppare questa tesi.
Il capitolo 3 accede all’aspetto cruciale di questa trattazione analizzando la semplificazione nella sua definizione e nei criteri della sua attuazione. In particolare l’attenzione è posta sui criteri definiti da Maria Emanuela Piemontese e Gaetano Berruto e nella scelta dei criteri ai fini della semplificazione effettuata sul corpus scelto per questa tesi.
Prima della semplificazione è necessaria la valutazione della leggibilità dei testi in esame. L’aspetto, qui, maggiormente preso in considerazione è quello che riguarda le caratteristiche formali del testo (caratteristiche di base, lessicali e sintattiche) valutate seguendo un doppio binario, uno manuale e uno automatico. La valutazione automatica è stata condotta con l’utilizzo di uno strumento linguistico-computazionale, READ-IT, messo a disposizione dall’Istituto di Linguistica Computazionale “Antonio Zampolli” del CNR di Pisa.
La valutazione automatica della leggibilità è ora possibile tramite sofisticate tecniche di NLP che sono state create appositamente, con le quali è possibile estrarre dal testo informazioni che approfondiscono le caratteristiche linguistiche che si consideravano in precedenza (gli indici di leggibilità classici, descritti nel primo capitolo).
Nel capitolo 4 sono descritte le modalità di valutazione utilizzate in questo studio, sia quelle manuali che quelle automatiche, il funzionamento di READ-IT e i risultati dell’analisi per la valutazione della leggibilità.
Il passo successivo alla valutazione della leggibilità del corpus è stata la sua semplificazione. È stata presa in considerazione una porzione del corpus e il capitolo 5 è dedicato a mostrare le procedure di semplificazione su un modulo specifico. Nel capitolo 6 sono riportati i risultati della valutazione della leggibilità di altri moduli alla luce delle semplificazioni effettuate. In Appendice è riportato un modulo di riferimento, nella sua versione originale e semplificata.
7
1. La complessità testuale
1.1 La leggibilità: carattere quantitativo
La complessità linguistica è un concetto strettamente legato alla leggibilità e alla comprensibilità di un testo. Nel considerare la chiarezza espositiva di un testo è utile distinguere fra leggibilità e comprensibilità anche se non di rado questi termini vengono usati come sinonimi.
La leggibilità equivale al livello superficiale della comprensione e si riferisce a fattori di tipo formale (scelta del lessico, lunghezza di frasi e parole, strutture sintattiche). La comprensibilità è determinata invece da fattori più profondi come l’architettura logico-concettuale dell’intero testo e il grado di esplicitezza delle informazioni date. Mentre la leggibilità è un dato intrinseco al testo e può essere misurata con strumenti quantitativi, la comprensibilità è una qualità relazionale e può essere valutata solo in termini qualitativi.
A partire dai primi anni del Novecento ricercatori e studiosi si sono mossi in direzione di una attenzione alle difficoltà del ricevente durante il processo di comprensione e hanno prodotto testi in base a criteri di leggibilità e comprensibilità controllata. Esistono diversi fattori che influenzano la comprensione di un testo (e anche la sua produzione) che possono essere indicati come a) caratteristiche intrinseche del testo, b) caratteristiche del lettore e relative attese, c) caratteristiche relazioni tra testo e lettore.
Per quanto riguarda le caratteristiche intrinseche del testo, che sono quelle su cui questo studio si concentra, è possibile definire che il testo è più o meno leggibile se le sue caratteristiche quantitative (quindi misurabili e controllabili) rispettano alcuni criteri ricavati dall’uso di formule statistiche. (PIEMONTESE, 1996: 82)
I primi accenni all’analisi quantitativa delle lingue sono riscontrabili negli studi di linguisti e pedagogisti nell’ambito dell’insegnamento della lingua; l’idea era di individuare qualche migliaio di parole, le più frequenti di una lingua, per calcolare, in diversi momenti dell’età evolutiva, l’estensione del vocabolario. Per la lingua italiana, in particolare, nel 1971 venne stilato il Lessico di frequenza della lingua italiana
8 contemporanea (Lif) di U. Bortolino, C. Tagliavini e A. Zampolli2; a questo hanno
fatto seguito nel 1973 il Frequancy Dictionary of Italian Words di A. Juilland; nel 1977 il Vocabolario fondamentale della lingua italiana di A.G. Sciarone e nel 1980 il Vocabolario di Base della lingua italiana di T. De Mauro.
Nel 1989 è stato elaborato il Vocabolario elettronico della lingua italiana (Veli) dall’Ibm in collaborazione con T. De Mauro sulla base di 25 milioni di occorrenze3 di
forme tratte da testi giornalistici forniti all’Ibm dall’agenzia giornalistica Ansa e dai periodici Domenica del Corriere, Europeo, Il Mondo. Nel 1991 il Calcolo di rendimento di liste di base: italiano parlato, italiano scritto. Livello Soglia di K. Katerinov, M.C. Boriosi Katerinov, A.G. Sciarone. Infine è del 1993 il Lessico di Frequenza dell’italiano parlato (Lip) elaborato da T. De Mauro, F. Mancini, M. Voghera, M. Vedovelli.
Le leggi di statistica linguistica e le ricerche hanno consentito la definizione di formule per calcolare matematicamente gli indici di leggibilità di un testo che solo recentemente sono state soppiantate da metodi basati su tecnologie linguistico-computazionali (Paragrafo 4.2.1 Le tecniche linguistico-linguistico-computazionali per il monitoraggio della leggibilità).
1.1.1 Le caratteristiche di base: la lunghezza della frase e la lunghezza delle parole Le formule di leggibilità si basano su due grandezze fisiche: la lunghezza delle parole misurate in sillabe e la lunghezza delle frasi misurate in parole.
La lunghezza del testo, dunque, è un fattore che condiziona la ricezione e la comprensione dei testi.
Le motivazioni si ritrovano nelle ricerche di studiosi che hanno operato a partire dagli anni cinquanta del Novecento, in seguito alle ricerche sulle liste di frequenza. A partire da Zipf che aveva trovato una relazione inversamente proporzionale tra la frequenza di occorrenza di una parola e il suo rango. Zipf cerca una spiegazione a tale
2 Il Lif è costituito da 500.000 occorrenze di forme tratte da testi teatrali, romanzi, copioni
cinematografici, periodici e sussidiari.
9 comportamento della lingua e afferma che il comportamento umano è basato sul principio del minimo sforzo, cioè l’organismo umano tende a mantenere lo sforzo a un livello medio che sia il più basso possibile. “Non soltanto la frequenza delle parole obbedisce a questo principio; il linguaggio raggiunge la massima semplicità per il parlante quando egli deve pronunciare ripetutamente soltanto e sempre la stessa parola, come se il linguaggio umano fosse formato di una sola parola” (HORMAN, 1976: 126).
Alla teoria di Zipf, Guiraud aggiunge un’altra osservazione e cioè che le parole più brevi tendono ad avere una frequenza maggiore delle parole più lunghe. Secondo quindi la legge di Zipf-Guiraud il numero di fonemi di una parola è direttamente proporzionale al suo rango: ossia le parole formate da molti fonemi non sono frequenti e perciò hanno un maggiore contenuto informativo. Da qui deriva che un testo più breve implica uno sforzo minore.
Anche gli studi che hanno portato alla formulazione degli indici matematici di leggibilità si basano sul concetto di lunghezza. A partire dagli anni venti-trenta, negli Stati Uniti d’America, vengono creati test di comprensione della lettura per controllare il grado di facilità o di difficoltà di vari campioni di testi inglesi scritti (MILLER, 1972: 188-189).
L’ipotesi da cui sono partiti i ricercatori che hanno creato tali test è che se i lettori rispondono velocemente e in modo corretto alle domande formulate su un testo, il testo può essere considerato facile; se, invece, sbagliano, il testo è da considerare difficile. Analizzando i vari risultati, ordinando i testi in base al numero di errori registrati, è stato evidenziato che i campioni sui quali i lettori hanno commesso meno errori sono quelli che hanno un maggior numero di parole di uso meno comune e frasi più lunghe, ricche di subordinate. I campioni in cui sono stati commessi meno errori, al contrario, sono caratterizzati da un lessico più comune e da frasi più brevi e con proposizioni coordinate.
1.1.1.1 Gli indici di leggibilità
Nella seconda metà del Novecento nuove direzioni di ricerca hanno trovato nuovi sviluppi grazie all’uso di strumenti oggettivi di misurazione della leggibilità. Si tratta degli indici matematici per calcolare oggettivamente la leggibilità.
10 La formula che ha avuto maggior successo è stata quella ideata da Robert Flesch (FLESCH, 1949) basata sui punteggi riportati nei test di comprensione da bambini di scuole elementari. Tarata sulla lingua inglese, la formula è la seguente:
Reading Ease Score = 206,835 – (0,864 * S) – (1,015 * W)
dove il Reading Ease Score (o indice di leggibilità) indica, con un valore numerico compreso tra 0 (leggibilità minima) a 100 (leggibilità massima), la leggibilità; S sta per la lunghezza della parole misurata in sillabe (su 100 parole) e W sta per il numero medio di parole per frase (su 100 parole).
La formula di Flesch, adattata successivamente alla lingua italiana da Roberto Vacca (FRANCHINA, VACCA, 1986) è la seguente:
Facilità di lettura = 206 – 0,6 * S – P
Dove 206 e 0,6 sono delle costanti: 206 è la costante applicata per mantenere i valori tra 0 e 100, 0,6 è la costante riferita alla lunghezza media delle parole italiane; S indica il numero complessivo di sillabe su 100 parole e P indica il numero medio di parole per frase su circa 100 parole.
Le circa 100 parole prese in esame sono quelle di vari campioni prelevati dai testi a intervalli regolari (per esempio uno ogni cinque pagine).
Se i valori ottenuti dalla formula sono 0 (o al di sotto dello 0), il testo risulta molto difficile; un valore compreso tra 0 e 30 denota un testo difficile; un valore compreso tra 0 e 40 indica un testo abbastanza difficile; standard tra 40 e 50; abbastanza facile tra 50 e 60, facile tra 60 e 70, molto facile da 80 in su (questi valori rappresentano la probabilità che il testo possa risultare mediamente come più o meno semplice o complicato).
Un’altra formula, proposta da Emanuela Piemontese e Piero Lucisano, è l’indice di Gulpease (Gulp = gruppo universitario linguistico-pedagogico; ease = facilità in inglese). (LUCISANO, PIEMONTESE, 1988)
Facilità di lettura = 89 – (Lp/10) + (3 * Fr)
Dove 89, 10 e 3 sono costanti; Lp si ottiene moltiplicando per cento il totale delle lettere (e non delle sillabe, come le precedenti formule) e dividendo il risultato ottenuto
11 per il totale delle parole; Fr si ottiene moltiplicando per cento il totale delle frasi e dividendo la cifra ottenuta per il totale delle parole.
Come la formula di Flesch, anche il Gulpease presenta una scala di valori di leggibilità compresa tra “0” (leggibilità minima o nulla) e “100” (leggibilità massima). Diversamente dalla formula di Flesch, però, questo indice consente di leggere i valori di leggibilità di un testo rispetto a tre livelli di scolarizzazione (elementare, media, superiore) corrispondente alle tre popolazioni sottoposte ai test di comprensione durante la ricerca.
I risultati dell’applicazione dell’indice di Gulpease indicano, quindi, orientativamente tre fasce di istruzione scolastica: valori compresi tra 80 e 100 indicano testi comprensibili da coloro che hanno un’istruzione elementare; tra 60 e 40 indicano testi comprensibili da chi è in possesso di un’istruzione media; dal 40 a scendere, i testi in considerazione sono comprensibili da chi ha un’istruzione secondaria.
1.1.2 Il vocabolario di base della Lingua Italiana
Contemporaneamente alla ricerca e all’applicazione delle formule di leggibilità sono state avviate indagini di tipo quantitativo sul lessico mirate, questa volta, a produrre un elenco delle parole di più largo uso in italiano. Fra le 120mila parole contemplate in un dizionario di medie dimensioni, De Mauro (1980) individua 7.050 parole che costituiscono il Vocabolario di Base (VdB) della lingua italiana (DE MAURO, 2000) e che sono note in almeno una delle loro accezioni, quella più diffusa e frequente, a tutti i parlanti italiani in possesso di licenza media inferiore.
Il VdB è ulteriormente diviso in:
- Parole fondamentali (FO), che costituiscono il patrimonio linguistico comune a tutti gli italiani. Si tratta di quelle parole con le quali si può parlare di tutto con tutti a prescindere dalla provenienza geografica e sociale, dal livello d’istruzione, dall’età; “rioccorrendo con enorme frequenza (da il, e, che ad andare, fare, cosa), coprono mediamente il 94 % di tutti i testi detti o scritti; esse sono, in italiano, circa 2.000 parole, mediamente assai più brevi delle altre e con significati larghi e molteplici e sono note “a chiunque sia italiano e abbia un livello almeno elementare di istruzione (90 % degli adulti)”;
12 - Parole di alto uso (AU), circa 2.750, con le quali è scritto oltre il 99,7% dei testi in lingua italiana; coprono un altro 5 % dei testi: sono parole mediamente un po’ più lunghe delle precedenti e con significati relativamente più specifici.
- Parole di alta disponibilità (AD), circa 2.300, che capita di usare raramente ma che sono legate a referenti ben noti della vita quotidiana. Rarissime nell’uso normale ma “legate ad atti e oggetti della vita quotidiana (da aceto e avvitare o forchetta a vomito o zuppa), che abbiamo continuamente in mente”; costituiscono “un insieme di altre 1.800 parole circa”.
1.2 La comprensibilità: carattere qualitativo
Nell’uso comune della lingua italiana leggibilità e comprensibilità sono usati spesso come sinonimi. Per misurare la leggibilità, cioè per valutare gli ostacoli superficiali, i criteri utilizzati, come precedentemente spiegato, sono di tipo quantitativo.
Per valutare la comprensibilità, invece, e quindi valutare gli ostacoli profondi, i criteri sono di tipo qualitativo.
Gli ostacoli, appunto, che possono presentarsi quando si leggono un testo possono essere legati sia alla decifrazione materiale del testo (ostacoli superficiali) che alla comprensione profonda del testo (ostacoli profondi) (PIEMONTESE, 1996).
Un testo, infatti, per essere definito comprensibile deve tenere conto di fattori relativi alla sua organizzazione logico-concettuale, oltre che linguistica. In particolare si deve porre attenzione al numero di inferenze necessarie per poter colmare, con le conoscenze pregresse, quanto il testo va dicendo esplicitamente, in modo da connettere le informazioni fornite entro una certa rete coerente e logica (LAVINIO, 2004). Per inferenza si intende il percorso mentale automatico, individuale e imprevedibile che porta alla comprensione del testo (LUMBELLI, 1989).
Secondo Lucia Lumbelli, l’analisi qualitativa, in questo senso, parte dalla considerazione della presenza/assenza di alcuni criteri di valutazione della comprensibilità. Tra gli indicatori delle difficoltà, segnala:
- L’identità ostacolata, che impedisce di capire che ci si sta riferendo allo stesso concetto pur nominandolo in diversi modi;
13 - Il nesso mal segnalato, non segnalato o distante, ossia quando a informazioni
logicamente correlate corrisponde un tenue o nullo raccordo esplicito;
- L’aggiunta relativizzante, che serve a circoscrivere la validità di un enunciato precedente;
- L’esempio difficile, che anziché semplificare la comprensione di un concetto la complica.
L’analisi di questi fattori ha consentito di definire una serie di caratteristiche che, specialmente in situazione di asimmetria della comunicazione (chi scrive ha, di solito, conoscenze più ampie di chi legge), i testi devono possedere per risultare leggibili e comprensibili ai destinatari; questo aspetto è tipico dei manuali scolastici, dei testi divulgativi, giornalistici e burocratici.
In generale uno stile chiaro, preciso e conciso facilita una comunicazione efficace, qualunque sia il destinatario, l’obiettivo e il tipo di testo.
Secondo le indicazioni fornite da Maria Emanuela Piemontese nel suo manuale Capire e farsi capire, il primo criterio per scrivere in maniera chiara è scrivere come si parla, non ignorando ovviamente le differenze formali tra scritto e parlato, ma cercando di trovare soluzioni adeguate per esprimere i concetti in maniera semplice. Il fattore redazionale, poi, di fondamentalmente importanza è la brevità delle frasi: quanto più un testo è lungo e articolato, tanto risulterà difficile al lettore perché le frasi brevi sono più semplici da comprendere, anche perché solitamente hanno una struttura meno complessa (meno subordinate, soprattutto di grado superiore al primo).
I criteri di semplificazione sono chiariti nel capitolo 3.
Per la lingua italiana, i testi risultano di alta leggibilità a persone con istruzione medio-bassa se il numero medio di parole per frase si aggira intorno alle 20 parole; un valore medio di 30 (o più parole) fa perdere semplicità e chiarezza a ogni tipo di testo. Più recentemente, è emersa una nuova generazione di indici di leggibilità, fondati su metodologie di Trattamento Automatico del Linguaggio, che riescono a intercettare i luoghi di complessità del testo in maniera più granulare, computando un ampio spettro di parametri linguistici, che risultano anche maggiormente implicati nei processi di comprensione.
14
2. Il testo
2.1 Il linguaggio specialistico
I testi che compongono il corpus da cui parte questo lavoro di tesi (descritto in dettaglio nel paragrafo 2.2) sono stati redatti utilizzando il linguaggio accademico, un linguaggio specialistico (o settoriale).
I linguisti contemporanei fanno unitamente riferimento al concetto astratto di linguaggio specialistico ma non tutti concordano nella definizione.
Riprendendo una definizione di Michele Cortelazzo, il linguaggio specialistico dipende da un settore di conoscenze o da un ambito di attività professionali; è utilizzato, nella sua interezza, da un gruppo di parlanti più ristretto rispetto a quelli che parlano la lingua base e risponde allo scopo di soddisfare le necessità comunicative di un certo settore specialistico. (CORTELAZZO, 1990: 5-6).
Un’altra definizione la fornisce Alberto Sobrero a proposito di lingue speciali intendendo le lingue che sono utilizzate per comunicare determinati argomenti, legati a particolari attività lavorative e professionali, come ad esempio matematica, la biologia, la linguistica, la musica, lo sport. La caratteristica principale dei sottocodici/lingue speciali è quella di avere un lessico specialistico (SOBRERO, 1997: 237).
Una delle caratteristiche del linguaggio settoriale è, dunque, la sua referenzialità, ossia il suo riferimento a significati oggettivi senza risonanze emotive; altra particolarità, infatti, è proprio la neutralità emotiva.
A livello lessicale, tra le prerogative che deve avere un testo scritto con linguaggio settoriale, Serianni individua la necessità di essere caratterizzato da lessico tecnico. Si distinguono, a tal proposito, tecnicismi specifici e tecnicismi collaterali. I primi sono indispensabili: sono quelli dal significato univoco (nessun tasso di ambiguità) utilizzati solo nelle rispettive accezioni tecniche, mentre i secondi, sebbene siano caratteristici di un settore, sono legati a non effettive necessità comunicative bensì all’opportunità di adoperare un registro elevato; possono essere sostituiti con lessico comune senza che l’esattezza ne risenta. (SERIANNI, 2003)
A livello morfologico, nel linguaggio settoriale è particolarmente sviluppato il procedimento che riguarda la creazione e crescita dei termini specialistici funzionali all’argomento, attraverso l’utilizzo di affissi.
15 Anche a livello sintattico, il linguaggio specialistico si distingue per caratteristiche tra cui lo sviluppo del nome rispetto al verbo (nominalizzazione), la “deagentivizzazione” (resa frequente dal ricorso alla forma passiva del verbo) e lo sviluppo delle frasi passive per garantire la sequenza tema-rema (tema = ciò di cui si parla; rema = ciò che si dice del tema).
2.1.1 Il linguaggio accademico
Il linguaggio accademico è, nell’ambito dei linguaggi specialistici, l’espressione del mondo scolastico/universitario. Si ritrova nei libri di testo, negli articoli specialistici, nelle tesi, negli articoli di critica letteraria, ma anche in appunti, riassunti e schemi, sia nel caso questi siano destinati all’uso personale, sia nel caso in cui siano prodotti per la divulgazione. Non essendo limitato alla sola forma scritta, comprende anche testi orali, come lezioni o convegni.
L’aspetto più evidente del linguaggio accademico (o scientifico) è costituito dalla terminologia ma, nei testi scritti che trattano di argomenti scientifici c’è anche la presenza, accanto ai segni verbali, di segni di altro tipo, appartenenti a linguaggi formalizzati e/o iconici (per esempio formule e rappresentazioni grafiche) che possono contribuire a rendere ancora più problematica la comprensibilità dei testi di argomento scientifico. (LAVINIO, 2004: 95).
Le particolarità formali del linguaggio accademico riguardano alcuni fenomeni tipici tra cui la nominalizzazione, ossia il meccanismo morfosintattico che porta a preferire il sintagma nominale a quello verbale con la conseguente creazione di sostantivi da forme verbali.
Altra caratteristica riguarda la sintassi nella predilezione per la forma passiva e impersonale; il ricorrere a questa, infatti, soddisfa due esigenze fondamentali del testo specialistico: la deagentivizzazione e il mantenimento della progressione tema-rema. In primo luogo, dunque, il passivo è largamente usato per evitare l’esplicitazione dell’agente/soggetto: in questo modo si preserva uno tra i requisiti fondamentali del discorso specialistico: l’impersonalità.
Infine, fanno parte delle peculiarità del linguaggio accademico anche la referenza anaforica, ossia il continuo rimando a punti precisi e passaggi interni al testo e l’ellissi, l’omissione del soggetto nelle frasi coordinate e subordinate. Grazie a quest’ultimo
16 fenomeno si evitano ripetizioni troppo ravvicinate, e gli eventuali dubbi derivanti dalla mancata esplicitazione vengono chiariti dal contesto (SERIANNI, 2003).
Riassumendo, dunque, le caratteristiche che un testo accademico deve possedere: - Il lessico è importante per evitare qualsiasi tipo di ambiguità; la terminologia
tecnica è indispensabile.
- L’oggettività, trattandosi di un testo a carattere espositivo/argomentativo, è fondamentale per conferire credibilità all’elaborato.
- La trasparenza, misurata in base alla facilità con cui il testo viene globalmente compreso a una prima lettura.
- La monoreferenzialità, ossia il riferimento a significati oggettivi e la neutralità emotiva.
- La completezza dei dati, comune a tutti i testi scientifici e che rende un testo chiaro e inequivocabile.
Il testo espositivo, la macro categoria di cui fa parte anche il testo accademico, si definisce anche per il destinatario al quale è rivolto, in particolare per il grado di conoscenze di cui egli dispone rispetto all’emittente del testo. Generalmente, infatti, c’è asimmetria tra chi emette e tra chi riceve un testo espositivo-esplicativo: chi parla/scrive ne sa di più di chi ascolta/legge. Il testo espositivo tende ad avere un destinatario mirato, che coincide con un gruppo di persone a cui manca un bagaglio conoscitivo specifico (della fisica, della matematica, della medicina, della linguistica, ecc.). Il destinatario del testo espositivo può essere caratterizzato globalmente come poco esperto o semi-esperto (meno tipicamente come esperto). A seconda delle conoscenze – terminologiche e concettuali – pregresse del destinatario sul tema trattato, il testo sarà più o meno ricco di contenuti e più o meno complesso ed esplicito nella spiegazione dei dati. (CHRISTEN, 2001)
Nei manuali di studio abbondano oggi le componenti più disparate del paratesto. Oltre all’indice (generale e analitico) del volume, alle tabelle di dati, al glossario e alla bibliografia, cioè alle componenti che corredano tradizionalmente il testo vero e proprio, si fa largo ricorso a illustrazioni (a colori), a test di verifica e di autovalutazione e a esercizi. (SERIANNI, 2003).
17
2.2 Il corpus
Questo lavoro prende le mosse dall’esigenza di rendere i materiali didattici più accessibili agli studenti (di madrelingua non italiana) iscritti al corso di laurea triennale in Lingua e Cultura Italiana (per stranieri e italiani residenti all’estero), erogato a distanza (paragrafo 2.3.1). Tale corso di laurea rappresenta una delle offerte formative erogate dal consorzio ICoN4 (paragrafo 2.3), che includono anche corsi di lingua italiana, master universitari di primo e di secondo livello e formazione docenti. Il corpus di riferimento è, infatti, costituito da documenti testuali raccolti tra il materiale didattico redatto da professori universitari italiani (che svolgono la loro attività didattica nelle diciannove Università italiane che compongono il consorzio ICoN). I testi sono destinati agli studenti stranieri iscritti al corso di laurea triennale sopracitato che accedono al materiale per via telematica.
Il corpus, specificatamente, è costituito dai nove moduli didattici che rappresentano il materiale didattico del corso di “Linguistica Italiana e storia della lingua” del primo semestre del primo anno accademico del curriculum didattico-linguistico.
I moduli sono i seguenti di cui viene riportato il titolo generale, il redattore e il codice corrispondente.
- Profilo di storia linguistica italiana I: l'italiano delle origini (Casapullo) m00092
- Il lessico della lingua italiana (Fanfani) m00218
- Fonetica e fonologia, pronuncia standard e pronunce regionali: grafemi interpunzione (Giovanardi) m00087
- Elementi di fonologia e prosodia dell'italiano (Marotta) m00198 - La lingua di Dante (Masini) m00095
- La questione della lingua (Patota) m00096 - La lingua di Francesco Petrarca (Soletti) m00098 - Morfologia e sintassi (Stefinlongo) m00083
- Dialetti e varietà regionali dell'italiano (Telmon) m00086
18 2.2.1 La struttura dei moduli
Ogni modulo è costituito da una struttura fissa; il frontespizio riporta il titolo generale, il codice identificativo, un’immagine che richiama l’argomento trattato, il nome del redattore, l’università, la data dell’ultima revisione e il logo di ICoN.
Figura n. 1. Esempio di frontespizio di uno dei moduli analizzati.
Segue la presentazione del modulo, ossia una breve descrizione degli argomenti trattati e la guida. La guida è costituita dalla descrizione dello scopo e dalla lista degli obiettivi per ognuna delle sette unità che compongono l’intero documento. Inoltre sono presenti diverse indicazioni per lo studente: il contenuto del modulo (unità testuali e corredo iconografico), le attività richieste e l’elenco del materiale facoltativo di approfondimento.
19 Prima del contenuto testuale del modulo c’è un’ulteriore sezione descrittiva che riguarda l’indice delle unità didattiche. Per ognuna di esse è riportato il titolo, una breve introduzione e il sottotitolo dei paragrafi interni. Queste ultime informazioni sono ripetute all’inizio di ogni unità didattica.
Infine, dopo il contenuto testuale del modulo sono presenti le fonti, la bibliografia, la sitografia e le letture consigliate.
2.2.2 La struttura del corpus
Il corpus è costituito solo dagli elementi testuali fondamentali: sono state, cioè, eliminate dalla valutazione strumentale le sezioni descritte nel modulo precedente, ossia il frontespizio, la descrizione, gli obiettivi e l’elenco delle unità didattiche con i relativi paragrafi. Non sono state, infine, tenute in considerazione le immagini, le fonti, l’elenco bibliografico e sitografico e le letture consigliate.
Gli unici elementi esterni conservati sono stati il titolo generale del modulo, il titolo di ogni unità didattica e quello dei sottoparagrafi.
In totale il corpus è formato da 153.176 token.
Valutare la leggibilità testuale, per l’esigenza di semplificare il materiale didattico ritenuto troppo complesso, è stato il primo passo necessario per capire in che modo e perché i testi fossero considerati poco leggibili.
2.3 ICoN
ICoN (Italian Culture On the Net) è un consorzio interuniversitario composto da diciannove università nato nel gennaio 1999 con il patrocinio della Presidenza della Camera dei Deputati e con il sostegno della Presidenza del Consiglio dei Ministri e del Ministero dell'Università e della Ricerca Scientifica e Tecnologica. Opera in convenzione con il Ministero degli Affari Esteri e della Cooperazione Internazionale. Il consorzio ha lo scopo di promuovere e diffondere la lingua e la cultura italiana nel mondo attraverso Internet e iniziative educative specifiche. ICoN opera attraverso il suo sito web: www.italicon.it.
Le diciannove università che compongono il consorzio sono le seguenti: Università di Bari, Bologna, Catania, Genova, Milano Statale, Padova, Parma, Pavia, Perugia per
20 stranieri, Pisa, Roma «La Sapienza», Roma «Tor Vergata», Roma Tre, Salerno, Siena per stranieri, Torino, Venezia, Libera Università di Lingue e Comunicazione IULM di Milano, Università di Napoli «L’Orientale».
Il consorzio ICoN offre ai propri utenti diversi servizi e risorse: un corso di laurea triennale in Lingua e cultura italiana per cittadini stranieri e italiani residenti all'estero, Master universitari di primo livello, corsi di lingua italiana e formazione docenti. L’offerta didattica si basa sull’e-learning, letteralmente “apprendimento elettronico”, che si propone come un insieme di metodologie e strategie didattiche finalizzate alla creazione di un nuovo ambiente di apprendimento in grado di sfruttare le potenzialità del web e della multimedialità. (LISCIA, 2004: 12).
Le attività di ICoN si rivolgono principalmente a utenti stranieri e italiani, purché residenti all'estero. In particolare, per quanto riguarda il corso di laurea, per frequentarlo è indispensabile possedere una conoscenza avanzata della lingua italiana e disporre del titolo di studio che consente l'accesso all'università in Italia.
I Master offrono ai laureati stranieri e italiani una formazione specialistica negli ambiti della traduzione, dell'insegnamento, della gestione del patrimonio culturale e della comunicazione pubblica e politica.
I Corsi di lingua italiana sono rivolti a tutte le persone interessate a iniziare o approfondire lo studio della lingua italiana.
2.3.1 Il corso di laurea in Lingua e Cultura Italiana
Il corso di laurea in Lingua e cultura italiana è attivo, presso il consorzio ICoN, dal 2001 ed è erogato completamente attraverso la rete.
Requisiti di accesso sono una conoscenza avanzata della lingua italiana e un titolo di studio che consenta l’accesso all’università italiana. L’attività didattica, divisa in sei semestri, si svolge in classi virtuali moderate da un tutore o in autoapprendimento. L’offerta didattica è organizzata in quattro indirizzi (curricula):
- arti-musica-spettacolo - didattico-linguistico - letterario
21 - storico-culturale
Tutti i materiali sono in italiano e tutte le interazioni didattiche con tutori, esercizi ecc. si svolgono in lingua italiana.
I materiali didattici fondamentali sono costituiti da moduli che trattano un singolo argomento (a ogni corso semestrale del piano di studio corrisponde una selezione di moduli didattici). Ogni modulo, a sua volta, è formato da sette unità didattiche più materiali complementari (schede enciclopediche, voci di glossario, immagini ecc.) e ricchi apparati di esercizi interattivi. Il lavoro richiesto per ogni modulo consiste, da un lato, nella partecipazione ad attività della classe virtuale, animate e guidate dal tutore della materia, dall'altro in studio individuale.
Al termine di ogni semestre gli studenti si presentano, secondo un calendario concordato, presso la più vicina sede convenzionata ICoN, vengono identificati e sostengono, con modalità regolate e controllate, le prove d'esame. Le prove vengono corrette da commissioni di docenti appartenenti alle università italiane che erogano il corso di laurea. Se l'esame è superato, i relativi crediti vengono acquisiti dallo studente e il voto (in trentesimi, come prevede il sistema italiano) viene registrato.
Come precedentemente accennato, al momento dell'iscrizione gli studenti ICoN hanno la possibilità di scegliere tra due modi diversi di seguire il corso di laurea in Lingua e cultura italiana: con tutorato o in autoapprendimento.
Gli studenti iscritti con tutorato sono suddivisi in classi, corrispondenti ai nuclei tematici oggetto di studio. Agli studenti di ogni classe è riservato un forum di discussione moderato da un tutore. I tutori guidano gli studenti nello studio dei moduli didattici in programma, forniscono spiegazioni, stimolano a cogliere connessioni fra un modulo e l'altro, suggeriscono percorsi interpretativi, spingono gli studenti a fare ricerche, assegnano e correggono compiti.
Durante il semestre il tutore assegna, corregge e valuta due prove scritte sugli argomenti trattati nei moduli, del tutto analoghe a quella che sarà la prova finale. I risultati delle prove scritte, quelli dei test e la valutazione sulla partecipazione alla discussione nel forum, rappresentano una parte della valutazione finale, insieme alle due prove d’esame.
22 Sulla base dei crediti previsti per ciascun curriculum del Corso di laurea in Lingua e cultura italiana per stranieri, gli studenti in autoapprendimento studiano da soli i moduli raggruppati in nuclei tematici, che sono previsti nel piano di studio del semestre, eseguendo i test di autoverifica alla fine di ogni unità didattica e poi alla fine di ogni modulo.
23
3. La semplificazione linguistica
I fenomeni di semplificazione linguistica, che si sono manifestati principalmente in situazioni di contatto e mescolanza fra lingue, hanno cominciato a essere oggetto di studio nella storia della linguistica moderna tra la fine dell’Ottocento e l’inizio del Novecento. Le prime ricerche, in questo campo, sono state realizzate nell’ambito di studio di pidgnistica5 e creolistica6 con Schuchardt e Hesseling, linguisti rispettivamente austriaco e olandese, esperti di lingue miste. Secondo quanto riportato da Meisel in Strategie di apprendimento della seconda lingua l’interlingua di chi apprende è caratterizzata come “semplificata e ridotta” (SHUMANN, 1974) e la pidginizzazione è “vista come semplificazione e riduzione della lingua di arrivo” (ANDERSON, 1980).
Poi, successivamente, la nozione di semplificazione è stata ripresa nel contesto dell’apprendimento di L2 in situazione naturale, con Anna Giacalone Ramat. In particolare, secondo la linguista, i parlanti nativi di una lingua, quando si rivolgono ad apprendenti, mettono in atto strategie di semplificazione o modificazione dei loro enunciati, allo scopo di farsi capire meglio da ascoltatori non esperti. Questo insieme di strategie viene definito foreigner talk. Lo stesso tipo di strategie viene messo in pratica anche dagli insegnanti di lingua straniera nel cosiddetto input facilitato offerto agli allievi in classe (teacher talk) e nell’input che un genitore rivolge al proprio bambino nei primi anni di vita (baby talk).
5 Di solito si definisce pidgin un codice linguistico che si forma in situazioni di contatto plurilingue fra
gruppi socio-culturali che per circostanze diverse si trovano a interagire, e il cui uso di solito è circoscritto a certi domini (per es., e frequentemente, quelli degli scambi commerciali) e coesiste con quello delle lingue materne di ciascun gruppo. Il processo di formazione di un pidgin, caratterizzato di solito da un contatto linguistico disuguale in termini di posizione socio-economica dei gruppi, e non profondo, perché limitato a contenuti piuttosto ristretti, viene chiamato ''pidginizzazione''.
6 Si parla di creolo quando, a causa di circostanze alquanto diverse da un caso all'altro, l'uso di un pidgin
si amplia ad altri domini d'uso, espandendo quindi non solo le sue funzioni socio-culturali ma anche il suo lessico e le sue possibilità morfologiche e sintattiche. Può divenire lingua materna (e spesso unica) di un certo gruppo socio-culturale. In tali casi si parla di processi di ''creolizzazione''. Il creolo che ne emerge è considerato una lingua a pieno titolo, visto che è lingua materna di un certo gruppo socio-culturale che l'ha formata e in essa s'identifica
24 Gaetano Berruto, linguista italiano particolarmente attivo nel campo della sociolinguistica, fornisce, nel suo saggio del 1990 Semplificazione linguistica e varietà sub-standard, la seguente definizione di semplificazione del testo:
Per semplificazione linguistica, si intende il processo secondo cui a un elemento, forma o struttura X di una certa lingua o varietà di lingua si sostituisce/contrappone/paragona un corrispondente elemento, forma o struttura Y della stessa lingua o varietà di lingua o di un'altra lingua o varietà di lingua, tale che Y sia di più immediata processabilità, cioè più facile, più agevole, meno complesso, meno faticoso, meno impegnativo cognitivamente ecc. a qualche livello per l'utente.
Berruto, oltre alla definizione, fornisce nel suo saggio una lista di criteri che in linea generale mettono in relazione in termini di maggiore/minore semplicità due o più strutture del sistema linguistico ai diversi livelli di analisi. Convenzionalmente, il linguista utilizza il simbolo ‘<’ per indicare “è più semplice di” o “sono più semplici di”.
3.1 I criteri di semplificazione secondo Berruto
3.1.1 Il lessico- Espressione analitica (perifrasi) < una nuova entrata lessicale (andare giù < scendere)
[Vantaggio: risparmio dell’inventario che evita di memorizzare nuove parole; svantaggio: “spreco” sintagmatico].
- Significato concreto < significato astratto (carte < documenti; mangiare < nutrirsi)
- Monosemia < polisemia (In linguistica, in contrapposizione a polisemia, il fatto che un vocabolo, un’espressione o un segno linguistico in genere, abbia un significato unico)
- Lessico referenziale (parole piene) < lessico funzionale (parole vuote) (scopo < per; gatto < perché)
[Questo criterio è in parziale contrapposizione con significato concreto/significato astratto perché non tutte le parole piene hanno significato concreto].
25 - Lessico comune < lessico specialistico (raffreddore < rinite; suono < fonema) - Un termine generale < un termine specifico (pino < abete bianco/abete
rosso/cembro/cedro del Libano)
3.1.2 La sintassi
- Sistema con lessico ma senza sintassi < sistema con paratassi < sistema con sintassi lineare < sistema con sintassi a incastro (mela < mela me < voglio la mela < voglio la mela che c’è sul tavolo)
[Un sistema totalmente privo di sintassi e un sistema che ammetta combinazioni incassate (subordinazione) sono rispettivamente agli estremi di semplicità e di complessità sintattica. Un criterio derivato da questo è paratassi < ipotassi] - Modo pragmatico < modo sintattico (mela, me < voglio la mela; la guerra, sono
tornato vivo < sono tornato vivo dalla guerra)
- Ordine dei costituenti fisso < ordine dei costituenti libero
- Posposizione del determinante o modificante al determinato o modificato < anteposizione del determinante o modificante al determinato o modificato (un libro bello < un bel libro)
- Costruzione attiva < costruzione passiva (tuo cugino mi ha portato un libro < un libro mi è stato portato da tuo cugino)
- Predicati monovalenti < predicati plurivalenti (parlare < affermare < dire) - Rimando anaforico < rimando cataforico (Gianni lo vedo domani < domani lo
vedo, Gianni)
- Nominale pieno < pronome di terza persona (Gianni < lui; lo) - Pronome tonico < pronome clitico (lui < lo).
3.2 I criteri di semplificazione secondo Piemontese
La letteratura, in merito alla semplificazione testuale, raccoglie una serie di regole redazionali per mettere a punto una scrittura controllata; di seguito, alcune delle tecniche per quanto riguarda lessico e sintassi e regole di base (quali lunghezza frase e lunghezza parole) fornite da Maria Elena Piemontese nel manuale Capire e farsi capire.
26 3.2.1 Il lessico
- Scegliere parole del linguaggio comune rispetto a parole più rare (andare anziché recarsi; faccia anziché volto);
- Preferire parole brevi a parole lunghe (partire anziché allontanarsi; veloce anziché tempestivo);
- Preferire parole concrete a parole astratte (soldi anziché liquidi); - Limitare il ricorso alle sigle;
- Ridurre i termini specialistici (medicina anziché farmaco);
- Rinunciare a perifrasi non necessarie (sfratto anziché provvedimento esecutivo di rilascio);
- Evitare le parole straniere (direttore del progetto anziché project manager); - Rinunciare ad arcaismi, neologismi, latinismi (ventitreesimo anziché vigesimo
terzo);
- Evitare il ricorso a metonimie o sineddochi (il presidente della Repubblica anziché il Quirinale);
- Evitare parole ricche di suffissi/suffissoidi, prefissi/prefissoidi (fantapolitica; craxismo);
- Evitare l’uso di forme stereotipate in cui un aggettivo è sempre associato a un certo sostantivo e viceversa (netto rifiuto);
- Evitare metafore. 3.2.2 La sintassi
- Preferire frasi brevi formate da meno di 25 parole; - Escludere frasi con più di 40 parole;
- Privilegiare la coordinazione rispetto alla subordinazione; - Servirsi soprattutto del modo indicativo;
- Usare se possibile la forma attiva, più esplicita e diretta della forma passiva; - Limitare l’uso della costruzione impersonale;
- Evitare frasi incidentali o parentetiche;
- Limitare l’uso della nominalizzazione (controllare anziché effettuare il controllo).
3.2.3 La comprensibilità
27 - Evidenziare le informazioni importanti rispetto alle secondarie;
- Non citare termini, concetti o situazioni ignoti o poco noti; - Ricorrere nei casi di necessità a note di chiarimento. 3.2.4 Le scelte grafiche
La veste grafica è un elemento di fondamentale importanza della leggibilità di un testo. Rappresenta il primo spunto per generare un feedback da parte del lettore/destinatario. Per esempio per certi tipi di riceventi, persone con scarsa istruzione o ipovedenti, la grandezza del corpo tipografico è importante, così come lo è, in generale, l’uso dei caratteri tipografici (tondo, corsivo, neretto). L’uso eccessivo di evidenziazioni attraverso il ricorso al neretto o al corsivo, quando non strettamente necessari o funzionale, può risultare controproducente dal punto di vista della leggibilità materiale del testo (PIEMONTESE, 1996: 157).
Altra caratteristica grafica che un testo leggibile deve possedere è la sua scansione in parti minori. Un testo lungo necessariamente deve essere diviso in sezioni all’interno delle quali occorre usare adeguatamente i capoversi.
3.3 I criteri di semplificazione per questo studio
Per quanto riguarda la lingua italiana, la recente letteratura in ambito di semplificazione testuale si è principalmente concentrata su ricerche condotte sul linguaggio giuridico e amministrativo.
Questa tesi, invece, si propone di estendere il concetto della semplificazione testuale anche al linguaggio del testo accademico, che si colloca all’interno del genere espositivo.
I criteri che sono stati elencati nei paragrafi precedenti rappresentano una linea guida generale non indicativa per un genere testuale specifico; inoltre, sebbene molte tecniche siano comuni, rappresentano il risultato finale di diverse ricerche linguistiche. Per l’analisi in atto è stato opportuno selezionare solo alcuni dei criteri di semplificazione, quelli che, tra tutti, meglio si adattano alle caratteristiche del linguaggio accademico elencate precedentemente.
28 Per quanto riguarda il lessico, ad esempio, prendere in considerazione il criterio di riduzione dei termini tecnici e sostituirli con termini presi in prestito dal linguaggio comune consentirebbe, sì, una semplificazione ma andrebbe a inficiare la nozione di linguaggio settoriale/specialistico che fa dei tecnicismi una delle caratteristiche fondamentali del linguaggio accademico/scientifico. Ad esempio, nella seguente porzione di una della frasi del modulo M00096 il termine miniato potrebbe, in virtù di semplificazione, essere sostituito con decorato che è il termine di uso familiare che più gli si avvicina dal punto di vista semantico. Anche in riferimento all’appartenenza al Vocabolario di Base di De Mauro, decorato rientra (fa parte delle parole ad Alto Uso) e miniato no (sebbene all’interno del Grande Dizionario della Lingua Italiana di De Mauro rientri nella categoria lemmi di uso comune). Questa sostituzione farebbe perdere, però, un’informazione non dimenticando, infatti, il carattere specialistico che i linguaggi accademici posseggono; perciò è una semplificazione non adottata per questa ricerca.
[…] cioè sullo splendido codice di sua proprietà, miniato dal grande pittore senese Simone Martini, e da lui fittamente annotato e postillato.
Lo stesso discorso vale per la sostituzione, in generale, di termini più rari in favore di parole più comuni, o la cancellazione di termini specifici “accontentandosi” di quelli generici. Se è vero che l’obiettivo di questa analisi è quello di semplificare i testi, rendendoli accessibili ai fruitori, è altrettanto vero che si tratta di materiale universitario e, per definizione, tecnico.
Sicuramente, però, si possono considerare alcuni tra gli altri criteri, andando così a sostituire sigle e acronimi con la parola intera, evitare l’uso di parole straniere, laddove non sia necessario, tralasciare le metafore e le espressioni gergali, soprattutto se queste fanno riferimento a un modo di esprimersi tipico della L2 (in questo caso l’italiano) e le espressioni figurate.
In esso Dante pesca a piene mani, sia nei canti dottrinali e filosofici sia, più in genere, con il fine di innalzare la solennità del dettato […]; L'obiettivo che Varchi si propose appena entrato nell'Accademia fu una specie di quadratura del cerchio: conciliare le posizioni di Bembo con quelle […];
29 L’italiano standard dei giorni nostri […] poggia sulle strutture […];
[…] la lingua dei siculo-toscani è fortemente screziata di sicilianismi;
Sempre in considerazione del lessico, inoltre, non può essere considerato efficace il criterio che suggerisce, in virtù della semplificazione, l’uso limitato di parole che fanno ricorso al fenomeno morfologico dell’affissione, sempre ricordando che i termini ricchi di suffissi e prefissi sono piuttosto comuni nei testi accademici/scientifici. Risulta chiaro, comunque, che tutto potrebbe costituire un’eccezione in fase di analisi, l’importante è regolarsi rispetto a uno standard.
La sintassi è, dal punto di vista dell’analisi, il livello linguistico su cui maggiormente si può operare parlando di semplificazione. Nonostante, infatti, si tratti di testi accademici, la lunghezza delle frasi rimane uno dei criteri più saldi in questo genere di analisi. Si porrà, infatti, attenzione all’eccessiva lunghezza delle proposizioni cercando, laddove sia possibile, di spezzare le frasi lunghe in due o più porzioni. Ad esempio, la frase seguente, ripresa dal modulo M00095, può essere spezzata in almeno tre frasi (quelle che coincidono con la chiusura del punto e virgola).
Ma, ancora, esperienze di poesia didattica e moraleggiante si erano moltiplicate nell’Italia settentrionale; i primi saggi di prosa letteraria aveva tentato, nella prima metà del secolo, il bolognese Guido Faba, in un volgare locale impreziosito dalla presenza del latino; un importante filone di poesia religiosa stava prendendo corpo in Umbria, a cominciare dal celebre Cantico delle creature di San Francesco d’Assisi (consulta la biblioteca digitale), composto intorno al 1224-25.
Questa operazione è, per esempio, possibile nella trasformazione di proposizioni con alto grado di subordinazione in proposizioni più brevi che esplicitino lo stesso concetto anche dopo il punto (.).
30 Basti qui dire dal punto di vista linguistico che il Fiore in particolare,
la più corposa fra le due opere, si caratterizza per l’altissimo numero dei gallicismi, molti dei quali non attestati nelle altre opere dantesche: ridottare = temere, misprendere = peccare, musarda = sciocca e molti altri, un po’ sospetti in un autore come Dante, che in tutte le sue opere è molto più parco rispetto ai contemporanei nell’accoglimento di francesismi.
Questa frase, lunga 72 parole, può essere semplificata riducendo la sua lunghezza; questo intervento comporterà la riduzione dell’ipotassi dovuta alle subordinate relative molti dei quali […] e che in tutte le sue opere […]. Segue un’ipotesi di semplificazione a riguardo.
Dal punto di vista linguistico, il Fiore in particolare, la più corposa fra le due opere, si caratterizza per l’altissimo numero dei gallicismi. Molti di questi non sono neanche attestati nelle altre opere dantesche. Ad esempio, ridottare = temere, misprendere = peccare, musarda = sciocca e molti altri, sono sospetti in un autore come Dante. Egli, infatti, in tutte le sue opere è molto più parco rispetto ai contemporanei nell’accoglimento di francesismi.
L’ipotassi (subordinazione) è, appunto, un concetto in cui ci si soffermerà molto in fase di analisi, sottolineando i luoghi testuali in cui è eccessiva e sostituibile con la paratassi (coordinazione).
Sempre a proposito di lunghezza di frasi, è opportuno fare una riflessione a cavallo tra il livello linguistico lessicale e quello sintattico, in particolare per il criterio che riguarda le perifrasi. L’utilizzo di perifrasi per evitare una nuova entrata lessicale o per esplicitare, con più termini, una parola è consigliato da Berruto, mentre Piemontese ne sconsiglia fortemente l’uso in favore di un termine che, seppure più difficile o nuovo, è di più immediata comprensione.
La perifrasi, effettivamente, quando eccessiva (soprattutto nel linguaggio giuridico-amministrativo) risulta complicata, ma se utilizzata per esprimere meglio un concetto può risultare semplificante. Quello che è opportuno segnalare, però, a proposito di
31 questo concetto è che, laddove la perifrasi (o parafrasi) viene utilizzata per spiegare meglio una parola, aumenta l’inventario di lemmi utilizzati, con conseguente aumento della lunghezza della frase. Ad esempio, nella frase seguente:
Anche dal punto di vista politico, del resto, l’affermazione di quella che sarebbe poi stata la capitale storica della regione, è tarda […]
l’autore sostituisce Firenze con quella che sarebbe poi stata la capitale storica della regione, che se da un lato (secondo quanto consigliato da Berruto) dà un’informazione specifica sulla città di Firenze, dall’altro (secondo quanto affermato da Piemontese) rende la frase inutilmente lunga giacché l’informazione fornita può essere recuperata all’interno del documento o di altri moduli didattici che si occupano dell’argomento. La stessa problematica si verifica nell’andare a semplificare le subordinate implicite ottenute attraverso l’uso di modi indefiniti: infinito, gerundio, participio. La subordinata implicita risulta più complessa rispetto alla forma esplicita, ma “sciogliere” la subordinata implicita introducendo le congiunzioni o gli avverbi che la rendono esplicita comporta un aumento della lunghezza della frase, perché si utilizzano più lemmi. Ad esempio:
Gli interrogativi posti al centro delle discussioni sulla lingua volgare non sono stati sempre gli stessi.
Aggiungendo il che relativo con la forma verbale sono riferita a interrogativi, la frase potrà assumere una leggibilità maggiore, però diventerà più lunga di due parole, violando il principio della lunghezza delle frasi.
Gli interrogativi che sono posti al centro delle discussioni sulla lingua volgare non sono stati sempre gli stessi.
È chiaro che vanno fatte delle valutazioni e delle scelte, in fase di semplificazione, caso per caso.
Tra gli altri criteri utilizzati nella riscrittura dei testi, le forme passive del verbo in cui è esplicitato il soggetto, dove possibile, sono state sostituite dalla corrispondente forma attiva; lo stesso vale per le forme verbali complesse sostituibili con altre più accessibili (per esempio indicativo al posto del congiuntivo).
32 Infine dal punto di vista grafico, i moduli presi in considerazioni rispettano la divisione in unità didattiche a loro volta divise in paragrafi titolati e quindi, da questo punto di vista non è stato necessario intervenire.
I testi però si presentano non giustificati e con i rimandi a capo non sempre opportunamente utilizzati. Quindi, in questo senso, si è reso necessario intervenire con una funzione di “giustifica testo” e con l’inserimento manuale dei capoversi. Segue una porzione di un modulo.
Lo scambio poetico con Dante da Maiano (ma alcuni studiosi negano che Dante Alighieri sia l’interlocutore dell’altro Dante) è oggi raccolto nelle Rime. Sotto questo titolo la tradizione editoriale raccoglie quelle composizioni poetiche dantesche, di varia
datazione e ispirazione, non comprese nelle sue altre opere in volgare. Esse - di qui il loro attributo di "extravaganti" - non furono sistemate da Dante in raccolte organiche, al contrario di quanto egli fece per la Vita nuova e per il Convivio e di quanto avrebbe fatto il Petrarca con il Canzoniere. Anche se Dante non volle riconoscere alle liriche che oggi etichettiamo come Rime caratteristiche che le rendessero meritevoli di essere sistemate in un impianto strutturale unitario, esse sono importanti per gli aspetti linguistici: in alcune delle extravaganti riconosceremo infatti non solo prove di altissimo valore letterario, ma sperimentazioni linguistiche e stilistiche decisive nella carriera poetica dantesca. Esse coprono un ampio arco temporale, circa un quarto di secolo; i problemi di fissazione cronologica sono per molti componimenti tutt’altro che risolti, forse insolubili, ma certo si va dagli esordi del Dante diciottenne, nel 1283, fino al 1307, cioè agli anni dell’esilio, concomitanti con l'inizio della stesura della Commedia.
33
4. L’analisi della leggibilità del corpus
4.1 L’analisi manuale
Prima di valutare i testi automaticamente con lo strumento linguistico-computazionale, è stata condotta una valutazione manuale su una porzione del corpus. In particolare sono stati scelti due moduli (“La questione della lingua” e “La lingua di Dante”). Il modo per procedere è stato quello di leggere frase per frase il testo in questione e, tralasciando le frasi lessicalmente e sintatticamente più semplici, è stata fatta una valutazione attraverso il ritrovamento, all’interno del testo, degli elementi di complessità indicati nel capitolo 3 dedicato alla semplificazione linguistica, elementi che non sono tutti considerati da READ-IT.
Per tenere traccia di tali elementi sono stati creati dei fogli di calcolo Excel all’interno dei quali sono state annotate le etichette corrispondenti ai vari elementi di complessità testuale, come indicato nella figura seguente.
Figura n. 2 Screenshot del foglio di calcolo Excel
4.1.1 La questione della lingua (M00096) 4.1.1.1 La lunghezza delle frasi
Come rilevato anche dallo strumento linguistico-computazionale READ-IT (la valutazione automatica è descritta nel paragrafo 4.2), l’estrema lunghezza delle frasi che compongono il testo costituisce un forte elemento di complessità; il perché è dovuto essenzialmente a un uso articolato dell’ipotassi e all’introduzione, all’interno della frase, di frasi tra parentesi.
34 Alcuni esempi dei periodi più lunghi del testo in analisi:
Per gran parte del Medioevo le varie lingue sorte in Italia dalla trasformazione del latino (quelle che vengono tradizionalmente indicate come "lingue volgari", o semplicemente "volgari", e che sostanzialmente hanno dato origine ai moderni dialetti romanzi; vedi la voce Lingue romanze) erano state usate per scrivere testi di carattere pratico (conti, ricevute, contratti commerciali, testamenti), non per scrivere opere di letteratura, di diritto o di filosofia. [66 parole]
Oltre cento anni prima, nelle corti feudali del sud della Francia, si era affermata la poesia dei "trovatori" (vedi il modulo Profilo di storia linguistica italiana I: l'italiano delle origini, 6.1), cantori del cosiddetto "amor cortese" (vedi la voce amore cortese), che applicava al rapporto d'amore fra uomo e donna le regole della società feudale: la donna era rappresentata come un signore feudale e l'’uomo che la amava era rappresentato come il suo vassallo.
[74 parole]
"Illustre" perché illumina i dotti che lo adoperano e a sua volta è illuminato dalle loro opere (illustrare in latino significava anche "illuminare", "dare luce"); "cardinale" perché è il punto di riferimento di tutta la famiglia dei volgari italiani (come la porta gira intorno al cardine, così i volgari italiani girano intorno al volgare illustre); "aulico" perché, se in Italia ci fosse una corte (detta in latino aula) esso sarebbe il volgare parlato a corte; "curiale" perché esso è la lingua della curia, cioè dell'insieme dei funzionari che lavorano sotto la guida del Principe. [94 parole]
Anche il terzo libro delle Prose, come gli altri due, ha la forma di un dialogo, e le regole grammaticali si presentano sotto forma di consigli e spiegazioni che Bembo, attraverso i personaggi che partecipano al dialogo, dà ai suoi colleghi letterati; consigli e
35 spiegazioni che, nella grande maggioranza dei casi, si riducono a
un'unica norma generale: chi scrive in prosa deve adoperare le stesse forme linguistiche usate da Boccaccio nel Decameron, mentre chi scrive in versi deve adoperare le stesse forme linguistiche usate da Petrarca nel Canzoniere. [88 parole]
L'idea che le lingue romanze (il francese, il franco-provenzale, il provenzale, il catalano, lo spagnolo, il portoghese, l'italiano, il sardo, il ladino, il rumeno; vedi la voce Lingue romanze) derivino non dal latino classico (cioè dal latino scritto, adoperato dagli artisti e dagli intellettuali della cosiddetta aetas aurea, il periodo della grande fioritura culturale di Roma: 50 a.C. - 50 d.C. circa) ma dal cosiddetto latino volgare (cioè dal latino parlato in ogni epoca della latinità: dalla nascita della città di Roma fino alla decadenza del suo impero e oltre) è un'acquisizione scientifica relativamente recente.
[95 parole]
All'inizio del Settecento, due anni dopo l'intervento di Muratori, Gian Vincenzo Gravina si rifece esplicitamente a Trìssino e a Castiglione nel trattato Della ragion poetica; alla fine dello stesso secolo Carlo Denina, un geniale precursore degli studi di linguistica comparata (fu autore della Clef des langues cioè "La chiave delle lingue"), un'opera dedicata all'origine di tutte le lingue e alla definizione dei rapporti di parentela intercorrenti fra i quattro gruppi linguistici del greco, latino, slavo e germanico) sostenne, nella sua Bibliopea (1776), una teoria molto vicina a quella cinquecentesca della lingua cortigiana. [92 parole]
4.1.1.2 La subordinazione
Non considerati i periodi più semplici, in cui non sono presenti evidenti elementi di complessità, le frasi analizzate sono in totale 241, ossia il 61% dei periodi totali che sono 396.
36 Ognuna di queste frasi contiene al loro interno una o più frasi subordinate di 1° grado, la maggior parte delle quali sono di tipo relativo e di tipo oggettivo. In particolare le subordinate oggettive rappresentano un elemento che sembra costantemente utilizzato per esprimere le teorie e le argomentazioni dei vari studiosi presi in esame nel modulo.
Biondo Flavio sostenne che nella Roma antica il latino era parlato sia dagli uomini colti sia dagli ignoranti, anche se i primi lo adoperavano con maggiore eleganza e proprietà.
Trìssino sosteneva che la lingua da assumere a modello avrebbe dovuto chiamarsi italiana: per questo la sua posizione fu detta "italianista".
Oggi sappiamo che il latino non è affatto una lingua artificiale […]. Tesauro, come tutti i teorici del Barocco, sosteneva che il poeta doveva stupire il lettore […]
Questo tipo di subordinata, soprattutto trattandosi di grado uno, non costituisce di per sé un elemento di complessità testuale; risulta, invece, maggiormente interessante e degno di riflessione il fatto che una percentuale alta di queste subordinate di primo grado (e successivo) è rappresentata da subordinate di tipo implicito, cioè con verbo di modo non finito (gerundio, participio, infinito). L’uso di subordinazione implicita influenza negativamente le leggibilità perché, se da un lato conferisce maggiore snellezza e sinteticità, dall’altro rende più difficile la decodificazione del testo in quanto richiede al destinatario di comprendere la struttura profonda che è alla base di ogni subordinata implicita. (FRATTER, JAFRANCESCO, 2002)
Nelle 241 frasi analizzate sono state riscontrate 159 subordinate implicite. Alcuni esempi:
Gli interrogativi posti al centro delle discussioni sulla lingua volgare non sono stati sempre gli stessi.