Dalla prospettiva del testo: comprensibilità e leggibilità

2. LA COMPRENSIONE DEI TESTI ISTITUZIONALI ITALIANI DA PARTE DI ADULT

2.1 LA COMPRENSIONE DEI TESTI SCRITTI

2.1.3 Dalla prospettiva del testo: comprensibilità e leggibilità

Nei capitoli precedenti abbiamo visto che la comprensione è una relazione complessa, determinata dalla compatibilità tra abilità individuali del lettore e caratteristiche testuali. Abbiamo visto anche quanto possano essere influenti e rilevanti i fattori personali nel determinare il successo o l’insuccesso del lettore.

Fino a che punto, dunque, si può definire cosa rende oggettivamente ed universalmente facile o difficile un testo? Sembrerebbe quasi impossibile posizionare staticamente i testi sull’asse facile-difficile, senza mai prendere in considerazione i destinatari del testo stesso (Ferguson 1971). Per esempio un testo che tratta di un dominio specifico potrebbe risultare molto semplice per un tecnico della materia, ma molto oscuro per un lettore estraneo all’argomento, per quanto abile; un libro italiano per bambini potrebbe sembrare molto complesso ad un adulto inglese istruito o ancora un capitolo noioso potrebbe richiedere il doppio del tempo al medesimo lettore per essere letto e compreso rispetto ad un capitolo più coinvolgente.

Tuttavia, esistono strutture linguistiche, extra-linguistiche e discorsive che possono richiedere un maggior o minore impegno cognitivo e rendere dunque il messaggio più o

meno chiaro. Come è evidente, non si tratta solo di differenze stilistiche, ma anche di marche di efficacia e funzionalità.

Secondo Beaudet (Beaudet 2001), la comprensibilità, a livello micro-strutturale, è oggettivamente definita dalla leggibilità, ovvero dall’insieme delle caratteristiche lessicali, morfologiche e sintattiche dei testi. Tuttavia, dal momento che un testo scritto con parole comuni e frasi coordinate non è necessariamente chiaro e funzionale, è la coesione a livello di super-struttura che contribuisce a rendere manifesti i nessi logico- causali tra i blocchi informativi. Secondo Lumbelli (L Lumbelli 1989), i nessi mal segnalati, non segnalati o distanziati rendono cognitivamente pesante il discorso perché costringono il lettore ad orientarsi autonomamente nel testo e ricercare i collegamenti esistenti tra le informazioni. Tali marche coesive riflettono superficialmente il senso globale e la configurazione concettuale del testo, ovvero la sua coerenza. Un testo è chiaro e coerente quando è il più possibile esplicito e quando dispiega in maniera sequenziale i concetti in modo tale che il ricorso alle conoscenze enciclopediche del lettore sia evitato il più possibile. Le ricerche condotte da Taylor (Taylor 1957) sui cloze test hanno permesso di evidenziare come la ridondanza sia una delle strategie più utili per aumentare la comprensibilità del testo, poiché permette al lettore di colmare le lacune personali e di correggere gli errori di interpretazione iniziali. Per questo motivo è importante che il testo sia anche pertinente, cioè conforme al genere testuale previsto, per agevolare l’attivazione degli schemi mentali del lettore e verosimile, ossia attinente il più possibile al senso comune. Dal punto di vista pragmatico, infine, la chiarezza deve tradursi nel successo di realizzazione degli intenti comunicativi, con il ricorso ad un’adeguata argomentazione. Per quanto riguarda i testi multimediali, occorre prestare attenzione anche alla facilità di reperimento delle informazioni (accessibilità) ed alla fruibilità dei contenuti, che devono essere decifrati facilmente da tutti gli utenti, nella maniera più inclusiva possibile (usabilità) (Vellutino 2018).

In particolare, nei seguenti paragrafi ci concentreremo sul concetto di leggibilità, per due ragioni:

- è calcolabile in maniera automatica;

- è oggettiva e dunque può fornire indicazioni accurate sui nodi problematici dei testi.

A partire dagli anni ‘80 le ricerche sulla leggibilità hanno conosciuto una grande fortuna, incentivate sia dalle battaglie civili sul diritto all’informazione e all’educazione, sia dagli studi di ambito psico-cognitivo sui processi di comprensione.

Nel suo significato più restrittivo7_{, la leggibilità rappresenta la facilità di decifrazione} e comprensione di un testo da parte dei lettori e si basa su fattori sia linguistici (lessico, sintassi, morfosintassi) che extra-linguistici (tema del testo, grafica, titolo, organizzazione della pagina).

La selezione delle variabili che richiedono maggior impegno cognitivo al lettore, quali indici di difficoltà testuale, non è univoca né semplice. La difficoltà oggettiva dei tratti individuati, infatti, va sempre rapportata sia alle altre marche di comprensibilità (coesione, coerenza, pertinenza, verosimiglianza, argomentazione), sia alle caratteristiche uniche del lettore e del contesto in cui avviene la lettura. Tuttavia, coscienti di questi limiti, linguisti, psico-linguisti e pedagogisti hanno condotto numerose sperimentazioni incentrate principalmente sulle variabili linguistico- quantitative, nel tentativo di elaborare formule di leggibilità utilizzabili per scopi sia diagnostici che redazionali (Lucisano 1993).

Henry (Henry 1987) raggruppa queste caratteristiche in variabili formali e lessicali. Tra le variabili formali rientrano la lunghezza della frase e delle parole. La prima, calcolata come numero di parole per frase, sarebbe indice della difficoltà sintattica del testo sulla base di due assunti: a livello linguistico, frasi più lunghe hanno più possibilità di contenere frasi subordinate e, a livello cognitivo, tengono maggiormente impegnata la memoria di lavoro del lettore. La lunghezza dei complementi preposizionali dipendenti da un nome e la lunghezza delle relazioni di dipendenza sintattiche richiederebbero un grande sforzo di comprensione al lettore, soprattutto nell’identificazione delle relazioni testa-dipendente (G. A. Miller 1956; Gibson 1998; Frazier 1990).

La seconda, calcolata come numero di lettere o sillabe per parola, fa riferimento sia alla difficoltà di decodificazione del testo scritto sia alla frequenza di occorrenza delle parole. Parole più lunghe infatti sarebbero tendenzialmente utilizzate raramente dai parlanti e quindi sarebbero meno riconoscibili e comprensibili. Questo aspetto rimanda anche alle variabili lessicali: la difficoltà semantica di un testo risiederebbe nella frequenza d’uso scritto e orale del vocabolario impiegato. Tale variabile, generalmente, è calcolata in rapporto ad una lista di parole identificate a priori come comuni nel

contesto dei parlanti. Oltre alle parole rare, Lucisano (Lucisano 1993) identifica come indici di difficoltà lessicale anche l’utilizzo di parole polisemiche e l’inserimento di figure retoriche nel testo (quali metafora, metonimia, ironia, iperbole etc). In aggiunta a questi aspetti, il calcolo della densità informativa di un testo (basato sul rapporto tra occorrenze di parole contenuto e occorrenze totali di parole) e della type-token ratio (basata sul rapporto tra occorrenze di lemmi e occorrenze dei rispettivi lessemi) fornirebbe indicazioni anche sull’impegno cognitivo richiesto al lettore.

Le ricerche di ambito psico-linguistico identificano ulteriori marche di difficoltà. Per esempio, a livello morfo-sintattico, la prevalenza numerica consistente dei nomi rispetto ai verbi sarebbe il riflesso di una maggior astrazione dei contenuti del testo e, in conseguenza, di una maggior complessità concettuale per il lettore (Lucisano 1993; Voghera 2001; Mortara Garavelli 2001; Colombo 2002). Poiché questa caratteristica è tipica di molti testi disciplinari o specialistici, che spesso possono avere un’importanza decisiva nella vita dei cittadini, occorre discriminare con attenzione l’astrattezza necessaria (implicata dal contenuto specialistico) da quella superflua (spesso inutile marca stilistica di ricercatezza).

Dal punto di vista sintattico, ad ostacolare la comprensione dei lettori sarebbero soprattutto le assegnazioni non canoniche dei ruoli tematici e rematici nella frase (per esempio frasi passive, ellittiche o dislocate) (Ferreira 2003). Sulla base delle strategie di lettura individuali, la frase risulterebbe complessa quando gli elementi sintattici non si incastrano negli argomenti che il lettore si aspetta (strategia syntax-first) oppure quando la prima analisi sintattica spontaneamente attivata dal lettore non ha un senso compiuto (Interactive model).

Formule di leggibilità

La ricerca sulla leggibilità nasce intorno ai primi anni Trenta del ‘900 stimolata da principi democratici e socio-politici di inclusione culturale delle classi meno istruite. Gli indirizzi iniziali di ricerca si orientarono sia sul calcolo di frequenza lessicale sia sulla misurazione dei parametri linguistici predittivi della facilità di lettura; tuttavia, in poco tempo i due filoni finirono per convergere grazie alla scoperta della correlazione tra la frequenza d’uso del lessico e la sua comprensibilità.

Le prime formule, calcolate statisticamente sulla base della correlazione tra alcuni fattori linguistici di un testo e il risultato ottenuto nei test a risposta multipla effettuati su un campione di lettori, riguardarono principalmente la lingua inglese. Gray e Leary

(Gray e Leary 1935), selezionarono 20 variabili correlate alla comprensione e ne inclusero 5 nella formula finale (frequenza delle parole, media di parole per frase, percentuale di parole diverse, numero di frasi preposizionali e numero di pronomi personali). Tuttavia risultò ben presto chiaro lo scarto tra il potere di predizione di formule complesse a più fattori e l’effettiva applicabilità delle formule stesse per gli scopi socio-educativi a cui erano destinate.

Sulla scorta degli studi di quegli anni, Flesch (Flesch 1951) ideò la formula che, grazie all’estrema applicabilità dovuta all’inclusione di due soli fattori (sillabe per parola e media di parole per frase), avrebbe influenzato gli studi condotti sino agli anni ‘80. I due indici sembravano in realtà correlare sia con la difficoltà sintattica dei testi sia con l’astrattezza del suo vocabolario: Flesch scoprì le parole più rare e più difficili da comprendere erano anche caratterizzare da un alto numero di affissi, a loro volta correlati al numero di sillabe delle parole.

A partire dagli anni ‘60 il successo della formula di Flesch iniziò ad influenzare le ricerche sulla leggibilità delle altre lingue europee. In particolare, fu Vacca (Vacca 1978) nel 1978, ad adattare per primo la formula all’italiano. Circa 10 anni dopo fu il centro GULP (Gruppo universitario linguistico pedagogico) di Roma La Sapienza a realizzare l’indice Gulpease, basato sul numero di lettere per parole (non più sillabe) e sul numero di parole per frase: per almeno un trentennio, essa sarebbe rimasta la formula di riferimento per l’italiano.

Tuttavia, con il nuovo impulso alla ricerca cominciarono ad emergere anche le prime critiche alla formula di Flesch, sia a proposito del metodo di calcolo della lunghezza delle parole e delle frasi sia a proposito della selezione delle variabili stesse. Flesch aveva formulato i suoi calcoli sulla base dei testi disciplinari scolastici, ma al tentativo di applicazione a testi tecnici e specialistici in varie lingue, la formula si rivelò inadatta e insufficiente. Secondo Kintch, per esempio, occorreva integrare nel calcolo anche i fattori cognitivi nel frattempo studiati dalla psico-linguistica. Henry (Henry 1987) propose allora, per la lingua francese, di ideare tre formule di complessità crescente: una per soddisfare le esigenze di massima applicabilità (tenendo conto solo di numero di parole per frase, frequenza del lessico e proporzione dei segnalatori di discorso diretto), una per i centri di ricerca e una di massima validità ma applicabilità nulla (calcolata con l’aiuto di esperti e sulla base di tutte le variabili possibili).

La vera rivoluzione risale ad appena un decennio fa, con l’introduzione dei metodi per il calcolo automatico della leggibilità. Grazie all’utilizzo del computer nel calcolo

statistico e nel trattamento automatico del testo per la profilatura linguistica, è stato possibile non sono analizzare enormi quantità di dati, ma di includere anche un maggior numero di indici di difficoltà. Ciò ha permesso di estendere l’applicazione delle formule anche a testi giornalistici, specialistici, giuridici, burocratici e tecnici. Per l’italiano, il primo strumento di analisi automatica della leggibilità è il software Read-it (Orletta et al. 2011), elaborato dall’Istituto di Linguistica Computazionale Antonio Zampolli del CNR di Pisa e capace di effettuare l’analisi multi-livello della leggibilità di un testo a livello lessicale, morfo-sintattico e sintattico. La classificazione dei testi in facili o difficili avviene sulla base della comparazione delle caratteristiche linguistiche con quelle contenute in corpora rappresentativi del linguaggio comune (La Repubblica) ma anche del linguaggio semplificato (DueParole). Tale metodo classificatorio ha permesso di elaborare l’indice di leggibilità avendo come riferimento la fascia più debole dei lettori, allo scopo di fornire anche un supporto per la redazione dei testi. Alcune recenti sperimentazioni hanno confermato l’applicabilità dello strumento anche nell’analisi dei testi specialistici e soprattutto istituzionali (Brunato e Venturi 2014, 2016).⁠

Nel documento Capire i documenti in L2: dall'analisi della comprensibilità di un corpus di testi istituzionali per stranieri alla sperimentazione di approcci didattici e linguistici. (pagine 31-36)