La sintassi della frase complessa nel Corriere della Sera. Uno studio diacronico (1946-2006)

(1)

I

NDICE

0. INTRODUZIONE... 4

1. LA STRUMENTAZIONE INFORMATICA... 15

1.1 Il linguaggio di codifica: l’eXtensible Markup Language (XML)... 15

1.2 La Text Encoding Initiative (TEI) ... 18

1.3 Legenda dei simboli ed esemplificazione su tre segmenti della codifica ... 24

1.4 Elenco dei valori possibili per l’attributo function... 30

1.5 Elenco dei valori possibili per l’attributo type ... 30

1.5.1 Per le principali ... 30

1.5.2 Per le coordinate a una principale ... 31

1.5.3 Per le pseudo-coordinate ... 33

1.5.4 Per le subordinate... 33

1.5.5 Per le coordinate a una subordinata ... 36

1.5.6 Per le parentetiche e le coordinate a una parentetica ... 39

2. LA CODIFICA SINTATTICA... 40

2.1 Gli elementi: la frase semplice e la frase complessa... 40

2.1.1 La frase semplice ... 40

2.1.1.1 Le costruzioni fattitive e a ristrutturazione ... 40

2.1.1.2 Le perifrasi gerundivali ... 43

2.1.1.3 Le perifrasi fasali ... 44

2.1.1.4 L’infinito come testa del sintagma nominale ... 45

2.1.1.5 Participio presente e participio passato ... 46

2.1.1.6 Le profrasi sì e no... 47

2.1.1.7 Interiezioni e segnali discorsivi... 47

2.1.2 La frase complessa ... 48

2.2 Gli attributi della frase semplice: function e type ... 52

2.2.1 Il rapporto tra frasi (function)... 52

2.2.2 I tipi di frase principale (type)... 52

2.2.2.1 La frase dichiarativa... 53 2.2.2.2 La frase interrogativa ... 55 2.2.2.3 La frase iussiva... 58 2.2.2.4 La frase ottativa... 61 2.2.2.5 La frase esclamativa... 61 2.2.3 Le strutture coordinate ... 63

2.2.3.1 La frase coordinata congiuntiva ... 63

2.2.3.2 La frase coordinata disgiuntiva ... 66

2.2.3.3 La frase coordinata avversativa... 67

2.2.3.4 Le pseudocoordinazioni ... 68

2.2.4 La frase nominale... 69

2.2.4.1 La frase nominale nella titolatura dell’articolo ... 70

(2)

2.2.4.3 La frase nominale propriamente ellittica... 86

2.2.5 I tipi di frase subordinata... 88

2.2.5.1 La subordinazione argomentale ... 88 2.2.5.1.1 La frase soggettiva ... 88 2.2.5.1.2 La frase predicativa ... 91 2.2.5.1.3 La frase oggettiva... 92 2.2.5.1.4 La frase obliqua... 94 2.2.5.1.5 La frase epesegetica ... 95

2.2.5.1.6 La frase interrogativa indiretta ... 97

2.2.5.2 La frase relativa... 100

2.2.5.2.1 La frase relativa con antecedente e la frase relativa indipendente ... 100

2.2.5.2.2 La frase relativa implicita... 109

2.2.5.2.3 Le costruzioni pseudo-relative ... 111 2.2.5.3 La subordinazione circostanziale ... 116 2.2.5.3.1 La frase causale ... 116 2.2.5.3.2 La frase finale... 121 2.2.5.3.3 La frase concessiva ... 124 2.2.5.3.4 La frase consecutiva... 129 2.2.5.3.5 La frase temporale... 133 2.2.5.3.6 La frase ipotetica ... 140

2.2.5.3.7 La frase comparativa e la frase modale... 147

2.2.5.3.8 Le frasi con valore strumentale e di maniera ... 151

2.2.5.3.9 La frase avversativa ... 154

2.2.5.3.10 La frase limitativa ... 155

2.2.5.3.11 La frase eccettuativa... 156

2.2.5.3.12 La frase esclusiva ... 157

2.2.6 I tipi di frase parentetica... 158

2.2.6.1 Frasi parentetiche modalizzanti e frasi parentetiche con valore di subordinate ... 159

2.2.6.2 Dichiarative, esclamative e interrogative parentetiche ... 162

2.2.6.3 Frasi e sintagmi inseriti fra parentesi o trattini ... 166

2.2.7 La frammentazione della sintassi ... 171

2.2.7.1 Frasi coordinate separate dal punto fermo ... 172

2.2.7.2 Frasi subordinate separate con il punto fermo dalla sovraordinata.. 174

2.2.7.3 La frammentazione nominale della sintassi ... 180

3. I RISULTATI... 183

3.1 I parametri ... 183

3.2 L’estensione media della frase complessa ... 184

3.3 Numero medio di frasi semplici per frase complessa ... 192

3.4 Frasi monoproposizionali e frasi pluriproposizionali ... 198

3.5 Le funzioni sintattiche... 208

3.5.1 Principali, subordinate, parentetiche e coordinate ... 208

3.5.2 Frasi monoproposizionali, frasi pluriproposizionali composte solo da frasi coordinate e frasi pluriproposizionali costituite da almeno una subordinata... 219

(3)

4.5.3 I gradi di dipendenza sintattica ... 227

3.6 La frammentazione della sintassi ... 236

3.6.1 Frasi giustapposte a destra del punto fermo... 236

3.6.2 Frammentazione nominale della sintassi ... 240

3.7 Frasi nominali e frasi verbali ... 243

3.8 La tipologia della subordinazione ... 247

3.8.1 Frasi scisse e pseudoscisse ... 264

3.8.2 Frasi subordinate inserite fra parentesi o trattini... 268

3.9 Sintesi dei risultati... 270

4. CONCLUSIONI... 283

APPENDICE... 287

Esempio di codifica su un articolo di fondo... 287

Valori numerici assoluti ... 304

(4)

0. INTRODUZIONE

La presente ricerca si propone di descrivere, in prospettiva diacronica, la sintassi di un campione di articoli tratti dal Corriere della Sera.

Il corpus è stato allestito con il prezioso supporto offerto dalla linguistica computazionale e dall’informatica umanistica: una frase dopo l’altra, tramite il linguaggio di marcatura XML-TEI, abbiamo effettuato la codifica sintattica dei nostri testi1.

L’attenzione dei linguisti per l’italiano dei mass media è oggi, rispetto al passato, assai vivace. A Tullio De Mauro e alla sua Storia linguistica dell’Italia

unita, apparsa nel 1963, dobbiamo il primo, fondamentale, riconoscimento

dell’importanza dei mezzi di comunicazione di massa per la diffusione della lingua italiana in una popolazione che, al momento dell’unificazione politica e ancora a Novecento inoltrato, era, in gran parte, analfabeta e si esprimeva solo in dialetto. L’italiano è stato, infatti, per secoli, una lingua letteraria, riservata, prevalentemente, alla comunicazione scritta, una lingua ‘morta’, come ebbe a definirla Alessandro Manzoni, nel 1806, in una lettera a Claude Fauriel. A mutare questa situazione sono intervenuti, come è noto, diversi fattori: prima i processi di urbanizzazione, le emigrazioni interne, l’industrializzazione, la scolarizzazione, poi gli sviluppi della vita sociale e l’influsso crescente dei media. La lingua italiana, immobile e senza una base di uso parlato, inizia, quindi, a muoversi sotto la spinta creata dalla necessità di trattare ogni giorno nuovi argomenti di pubblico interesse; in questa situazione, la stampa rappresenta «il luogo naturale in cui le novità, se non nascono, certo si consolidano» [DE MAURO 1976, 468]. Già dalla fine dell’Ottocento, infatti, l’azione linguistica dei migliori giornali si manifesta non solo nel sollecitare una mediazione fra diversi linguaggi specialistici e diverse parlate regionali, ma anche nel raccogliere e, tramite l’uso ripetuto, rendere stabili e propagare molte novità del vocabolario.

Divenuto solo da pochi decenni strumento per la conversazione ordinaria e la socializzazione primaria, l’italiano contemporaneo accoglie oggi, nella norma orale e scritta, tratti linguistici da sempre tipici del parlato, tratti che configurano, nel loro

1

La codifica è la rappresentazione formale di un testo ad un qualche livello descrittivo mediante un linguaggio informatico; si v. §§ 1.1 e 1.2.

(5)

complesso, un ‘italiano dell’uso medio’ o ‘italiano neostandard’2, una lingua innovativa rispetto alla tradizione codificata dalle grammatiche. La varietà diamesica orale, che nella storia dell’italiano ha più tardato ad acquisire una consistenza unitaria, conosce, dunque, una massiccia diffusione e un nuovo prestigio. Innesti di lingua parlata penetrano anche nel più antico fra i mass media, il giornale quotidiano, promossi come sono, da una parte, dall’espansione del discorso diretto, che si presenta nelle due modalità della citazione e dell’intervista, dall’altra, da una finalità espressiva, rintracciabile nei frequenti inserimenti di costrutti del parlato (focalizzazioni, frasi scisse, colloquialismi lessicali, ecc.), che costituiscono gli elementi fondamentali del cosiddetto ‘stile brillante’. Numerosi sono oggi i lavori dedicati all’indagine del linguaggio giornalistico, come luogo che riflette quel livello di media formalità dello scritto in cui si raccolgono i tratti costitutivi del nuovo standard linguistico. I diversi studi sembrano, peraltro, convergere su un punto: l’apertura al parlato, soprattutto a livello morfosintattico, appare contenuta. Vi sono, infatti, importanti aree di fedeltà alla norma, come, per citare un solo esempio, la tenuta del congiuntivo nelle subordinate che lo richiedono. La scrittura giornalistica sembra, in definitiva, conservare «intatta la sua fondamentale funzione di mediazione discorsiva» [DARDANO 1994b, 220].

La lingua dei quotidiani è una lingua composita, di ‘riuso’, un luogo di confluenza, di acclimatazione, di scambio e di divulgazione di diversi sottocodici (politico, burocratico, tecnico-scientifico, economico-finanziario), una lingua ove convivono numerosi registri (registro aulico, registro parlato-informale, registro pubblicitario, traslati e discorso brillante). Tali componenti vi esercitano peraltro un peso diverso: lo stile animato e impressivo, per esempio, compare con maggiore frequenza nella prosa ‘situazionale’ e in modo differente a seconda delle testate; in netto calo risulta il sottocodice burocratico, in linea con l’avvicinamento del linguaggio giornalistico alla lingua comune; anche l’elemento letterario, che, fino a qualche decennio fa, rappresentava uno degli aspetti principali della lingua dei quotidiani, appare in chiara diminuzione ed è oggi ravvisabile soprattutto negli

2

(6)

articoli di cronaca e di sport, ricchi di metafore e di stereotipi tendenti ad elevare il dettato.

Numerosi sono, poi, i rapporti ed i legami che il quotidiano ha con gli altri mezzi di comunicazione di massa, rapporti che hanno interessato, in un primo tempo, i media appartenenti allo stesso campo (settimanali) e, in seguito, i media non alfabetici. Appare, oggi, in crescita il condizionamento esercitato sulla scrittura giornalistica dal medium televisivo: pensiamo all’aumento, in essa, degli elementi grafico-illustrativi (fotografie, schemi, tabelle, ecc.), miranti a ‘spettacolarizzare’ la notizia. L’influsso del discorso televisivo appare, inoltre, preminente nella prosa ‘situazionale’, ove l’immediatezza, la visibilità e la spettacolarità sono rese con vari strumenti: il discorso diretto seguito dalla didascalia con anafora pronominale, le scelte espressive nel lessico, l’incremento dello stile nominale e delle dislocazioni3.

La lingua dei giornali, come in generale quella degli altri mass media, eterogenea, mescidata, aperta a svariati influssi e ad una pluralità di codici e di registri, da un lato, dunque, riflette l’italiano contemporaneo, riproducendone gli usi medi e comuni, dall’altro, come rilevato da De Mauro, esercita una profonda influenza sulle nostre abitudini linguistiche e sull’evoluzione dell’italiano stesso. I giornali raccolgono, registrano e divulgano nuove parole, nuovi costrutti grammaticali e sintattici, contribuendo a fissarli nel repertorio sociolinguistico e attribuendo loro un’ufficialità e un’autorevolezza che, spesso, gli altri mezzi di comunicazione di massa non sono in grado di garantire4. Citando le parole di Maurizio Dardano, possiamo affermare che la lingua della stampa «per il fatto di rifondere in sé i caratteri di più varietà e di presentare sia tratti “normali” sia tratti evolutivi tendenti a nuovi assetti e configurazioni, sembra ben rappresentare la situazione complessiva dell’italiano di oggi» [DARDANO 1994a, 344].

Da queste riflessioni sull’importanza della scrittura giornalistica, come luogo in cui è possibile rintracciare il ‘profilo’ della lingua italiana, prende avvio la nostra ricerca, che si propone di esplorare un’area ancora poco studiata dai linguisti, ovvero la sintassi della frase complessa negli articoli di giornale e di analizzare tale area in

3

Si v. DARDANO 1994a.

4

(7)

prospettiva diacronica, indagandone i mutamenti lungo un periodo di tempo che va dal 1946 al 2006. Ilaria Bonomi sostiene che la sintassi della frase complessa con le sue varie implicazioni, fra cui, in particolare, l’uso del punto fermo, rappresenta, da qualche anno, «insieme alla testualità, il settore in cui l’evoluzione della scrittura giornalistica si manifesta con maggiore evidenza e significatività» [BONOMI 2002, 242].

Studiando la sintassi di un solo giornale vi è il rischio di generalizzare dati e valutazioni in realtà pertinenti ad un’unica testata. Il panorama dei quotidiani italiani è, infatti, molto ricco e conta, oltre alle principali testate nazionali, un buon numero di testate regionali e locali. A questa pluralità si accompagnano fattori di variazione tipologica e linguistica. In linea molto generale, possiamo, infatti, rilevare come alcuni quotidiani tendano ad usare una lingua innovativa, moderna e aperta al parlato: è il caso di La Repubblica, che, sin dalla sua prima uscita, nel 1976, ha preso le distanze dal ‘giornalese’, il linguaggio difficile e oscuro degli anni cinquanta e sessanta, che tanto ha contribuito alla scarsa leggibilità e popolarità dei nostri giornali. Altre testate, invece, come La Stampa, Il Giornale e quelle di partito, prediligono uno stile più formale e controllato. Nonostante tale scenario diversificato, crediamo che il numero complessivo dei lettori e la loro distribuzione, anche se non omogenea, su tutto il territorio nazionale rendano particolarmente significative le scelte linguistiche del Corriere5.

Il corpus di analisi è costituito da 56 articoli, tratti dalle pagine del quotidiano secondo questo criterio diacronico: è stato raccolto un campione di otto articoli ogni dieci anni, a partire dal 1946 fino al 2006.

Per la scelta dei testi e la creazione del corpus, ci siamo attenuti alla distinzione classica operata dai giornalisti, che dividono i tipi di articoli in relazione alla struttura del pezzo, alla posizione nella pagina, ai contenuti e alle tecniche di rappresentazione della notizia. Abbiamo, perciò, individuato, per ciascuno dei sette anni presi in esame, due articoli di fondo, due di politica estera, due di cronaca sportiva e due

5

Il Corriere della Sera è il primo quotidiano italiano per diffusione, con 662.253 copie (dati Ads -Accertamento diffusione stampa - gennaio-dicembre 2007) e il terzo per numero di lettori, preceduto da La Gazzetta dello Sport e da La Repubblica.

(8)

interviste. Tale selezione è complementare a quella compiuta, per lo stesso quotidiano e per il medesimo periodo, da Simona Rossetti, la quale esamina due articoli di politica interna, due di cronaca, due di cultura e due di economia. Al completamento di entrambe le ricerche, disporremo di un corpus sufficientemente ampio e, dunque, di dati particolarmente indicativi sui mutamenti della frase complessa nella lingua del Corriere della Sera.

Vediamo alcune caratteristiche generali dei testi componenti il nostro campione.

Gli articoli di commento, detti di fondo, se firmati da un importante giornalista, come quelli del Corriere, o editoriali, se privi di firma, rientrano nella categoria dei testi argomentativi, perché contengono, quasi sempre, una tesi discussa e argomentata nel corso dell’articolo. Sono, in linea teorica e generale, caratterizzati da uno stile formale, da scelte linguistiche conservative e da un periodare ipotattico, atto a sviluppare concatenazioni logiche.

I pezzi di politica estera, preceduti dalla dicitura ‘dal nostro inviato’ o ‘dal nostro corrispondente’, appartengono ai testi informativi, ma possono accogliere parti testuali di tipo argomentativo, descrittivo e narrativo, il che rende la struttura, anche linguistica, di questi articoli molto composita.

La cronaca sportiva rientra nella grande categoria di articoli dedicati ad argomenti settoriali (economia, divulgazione tecnico-scientifica, cultura, spettacolo); essa si caratterizza per la forte accentuazione della componente espressiva, soggetta com’è alla sperimentazione creativa del giornalista.

L’intervista è un articolo trasversale; nata per chiarire direttamente le opinioni di un personaggio e per approfondire le conoscenze di un largo pubblico su un tema specifico, compare oggi in tutti i settori del quotidiano con modalità compositive non sempre efficaci. Sul piano linguistico, l’ampio spazio lasciato al discorso diretto fa sì che essa sia il luogo deputato alla mimesi del discorso orale, anche se il giornalista può scegliere se caratterizzare in senso colloquiale le risposte dell’intervistato, inserendo, per esempio, segnali discorsivi ed eventuali elementi dialettali, oppure se riportarle alla misura di un testo ‘scritto-scritto’.

(9)

Trattandosi di un corpus costituito secondo un criterio diacronico, il campione originario dei giornali sottoposti a spoglio si caratterizza per una certa eterogeneità: basti pensare alla differenza esistente, in termini quantitativi, fra il Corriere

d’Informazione6_{del 1946, composto solamente da due pagine che, alla fine}

dell’anno, diventano quattro e il Corriere della Sera del 2006, il quale arriva a sfiorare le settanta pagine. Il quotidiano di sessanta anni fa, inoltre, appariva, quasi per intero, occupato dalla scrittura, densa e distribuita su nove colonne; le immagini e la pubblicità erano rare ed i titoli non invadenti. Ben diverso è il giornale attuale, ove lo spazio maggiore spetta alla componente iconografica, con fotografie a colori, vignette, schemi, riquadri per i riepiloghi storici e glossari di termini tecnici, tutti elementi costitutivi della disposizione ‘a stella’ dei contenuti7. All’aumento progressivo del numero delle pagine e degli aspetti iconografici, si accompagnano, negli anni, una generale riduzione della lunghezza degli articoli ed una dilatazione degli argomenti. Mentre nel Corriere della Sera del 1946 possiamo trovare, nella prima pagina, l’articolo di fondo, di politica (interna ed estera) e, non sempre, di cultura, e, nella seconda, la cronaca milanese e le notizie dedicate allo sport e allo spettacolo, già nel quotidiano del 1966 è, invece, rintracciabile un’apertura ad argomenti specialistici, con rubriche fisse, supplementi e inserti di vario tipo (Il

Corriere della Scienza, Il Mondo dei Motori, Le Donne e il Mondo, Il Vostro Bambino, ecc.). Siamo alle soglie degli anni settanta, anni che rappresentano una

tappa fondamentale nella scrittura giornalistica, la quale tende a semplificare, sotto il peso crescente dell’oralità, il lessico e la sintassi, a dare sempre maggiore spazio al discorso diretto e ad accogliere l’influsso esercitato dai settimanali. Tale influsso che, come rilevato da Dardano, agisce sugli aspetti sintattico-testuali (‘pacchetti d’informazione’, ‘struttura a stella’, ‘ellissi cataforica del tema’), conduce all’ampliamento dei contenuti, un ampliamento ben visibile nelle pagine della

6

Così si chiamava il nostro quotidiano, quando, il 22 maggio 1945, un mese dopo la sospensione da parte del Comitato di Liberazione Nazionale, tornò a uscire nelle edicole milanesi, sotto la direzione di Mario Borsa. Successivamente, il 6 maggio 1946, prenderà il nome de Il Nuovo Corriere della

Sera, che manterrà fino al 1962, anno in cui recupererà il nome originario di Corriere della Sera con

il quale fu fondato, nel 1876, dall’intellettuale napoletano Eugenio Torelli Viollier. Il Corriere

d’Informazione resterà per le edizioni del pomeriggio fino agli anni sessanta. 7

(10)

principale testata nazionale. Il giornale si dà un’organizzazione settoriale, che induce a selezionare una tipologia di eventi piuttosto definita e unitaria, cui corrisponde la specializzazione verso determinate categorie di lettori. Il Corriere degli ultimi tempi si presenta suddiviso nei seguenti settori: Primo Piano, Esteri, Cronache, Economia,

Cultura, Terza Pagina, Spettacoli, Sport, Cronaca (cittadina).

Non sempre è stato semplice rimanere fedeli al criterio diacronico con cui abbiamo composto il nostro corpus: ci riferiamo, in particolare, alla ricerca degli articoli strutturati a intervista. È ben noto, infatti, come fino agli anni settanta tali articoli non siano molto diffusi nei quotidiani. In verità, dobbiamo segnalare che, per il 1946, reperire due interviste non si è rivelato difficile, perché, in questo anno, sono abbastanza frequenti, mentre, per il 1956 e per il 1966, recuperarne quattro ha richiesto un lungo e paziente spoglio delle intere annate.

Illustrando i criteri con cui abbiamo composto il corpus e le difficoltà incontrate, siamo entrati nel vivo della descrizione delle diverse fasi che hanno contraddistinto il presente studio. Le prossime pagine, infatti, rappresentano solo il punto di arrivo di un lavoro iniziato proprio con la ricerca e la raccolta dei testi. Gli articoli dal 1946 al 1976 sono stati esaminati al microfilm presso la Biblioteca Comunale Centrale di Firenze, mentre per quelli dal 1986 al 2006, rintracciati nella Biblioteca Comunale “Renato Fucini” di Empoli, è stato possibile prendere in visione il quotidiano cartaceo. Il passaggio dal microfilm o da un materiale cartaceo non sempre in buone condizioni alla riproduzione in fotocopia ha, di fatto, reso impossibile la scansione dei 56 articoli, che, in diversi luoghi, risultavano illeggibili all’occhio elettronico. Abbiamo, perciò, trascritto a mano l’intero corpus su un editor testuale (Note Tab Light). Durante la fase di ricopiatura è stata effettuata, tramite il linguaggio XML-TEI, una prima codifica, strutturale, dei nostri documenti, con l’individuazione delle loro componenti logico-formali (titolatura, corpo dell’articolo, capoversi, ecc.). A questa è seguita una seconda codifica di tipo sintattico. Al termine di entrambe le marcature, strutturale e sintattica, abbiamo eseguito la validazione del

corpus, ovvero un’analisi sintattica automatica (parsing), la quale verifica che il

documento rispetti i vincoli espressi nella propria grammatica di riferimento (nel nostro caso la DTD-TEI) e dunque sia valido. È stato, quindi, possibile interrogare i

(11)

nostri testi tramite Xaira, un programma atto a recuperare dati linguistici da una risorsa XML.

Non possiamo, però, concludere questa parte introduttiva, senza prima gettare uno sguardo d’insieme alle categorie descrittive utilizzate nel corso della nostra analisi sintattica, categorie che sono state tratte dalla Grande grammatica italiana di

consultazione a cura di Renzi – Salvi – Cardinaletti. Rispetto alla grammatica

tradizionale, questa, d’impianto generativo, opera un netto mutamento di prospettiva, dal momento che sceglie di «stabilire un certo numero di principi astratti, e di mostrare poi come questi siano attivi nelle diverse parti, e ai diversi livelli di lingua» [RENZI 2001, 23], ponendo però al centro il concetto di grammaticalità, secondo il quale la teoria deve rendere conto, unicamente, delle frasi grammaticali, vale a dire ben formate, che possono essere prodotte da quanti possiedono la competenza nativa in una lingua. Il termine ‘grammaticale’ non va dunque inteso nel senso della grammatica normativa, ovvero come sinonimo di ‘corretto’, bensì in senso descrittivo, equivalente all’espressione ‘ben formato per il parlante nativo di una determinata lingua’. Le intuizioni dei parlanti e non un corpus di testi o di frasi formano, quindi, la base empirica della sintassi, costituiscono i dati che la scienza linguistica deve interpretare e spiegare.

Dietro ogni nostro paragrafo descrittivo di un tipo sintattico, vi è, dunque, il capitolo corrispondente della Grande grammatica italiana di consultazione, cui dobbiamo, per citare solo qualche esempio, l’introduzione di una descrizione per le frasi predicative e per le frasi pseudo-relative e di una distinzione all’interno del tipo frastico concessivo (fattuale, condizionale e a-condizionale) oppure il fatto di avere ricondotto alle frasi relative tipi sintattici tradizionalmente non compresi in esse (relative indipendenti temporali).

Il ricorso alle categorie di tale grammatica non è stato, tuttavia, privo di compromessi. In alcune circostanze, sostenuti anche dalle scelte compiute da Sara Gigli per la codifica sintattica della Commedia dantesca, abbiamo fatto riferimento alla grammatica tradizionale per descrivere tipi frastici presenti nella sintassi del nostro quotidiano, ma non trattati dalla Grande grammatica italiana di consultazione,

(12)

fra cui le epesegetiche, le eccettuative, le esclusive e le limitative. Dalla grammatica tradizionale derivano, inoltre, le sottocategorie di conclusive, esplicative e correlative per le frasi coordinate congiuntive. In altri casi, sprovvisti, per così dire, di soluzioni ‘pronte’ e non pienamente d’accordo con le categorie offerte dalla grammatica tradizionale, abbiamo scelto di muoverci in maniera autonoma. Ci riferiamo, in particolare, alla trattazione delle frasi parentetiche, un luogo di notevole interesse nella scrittura giornalistica, per descrivere il quale abbiamo deciso di ampliare la classificazione proposta dalla nostra grammatica di riferimento, che distingue tra parentetiche modalizzanti e parentetiche subordinate. È stata, infatti, riconosciuta la funzione sintattica di parentetiche anche nelle frasi dichiarative, esclamative ed interrogative che non hanno, con la frase in cui sono inserite, alcun rapporto sintattico. Non abbiamo, invece, trattato come parentetiche le frasi coordinate e subordinate inserite tra parentesi, prendendo, perciò, le distanze dalla grammatica tradizionale, la quale assegna a questi incisi l’etichetta di ‘parentetiche secondarie’. Grazie alla natura stessa dello strumento informatico utilizzato, che permette di inserire una marcatura plurima in passi in cui permanga un margine di incertezza nell’interpretazione, sarà comunque possibile, per il ricercatore futuro, recuperare dal nostro corpus anche gli incisi tradizionalmente definiti come ‘secondari’.

Controversa si è, inoltre, rivelata l’analisi e, quindi, la codifica di un altro tratto saliente della scrittura giornalistica: l’uso anomalo del punto fermo che separa una frase subordinata dalla sua sovraordinata o un sintagma dalla sua testa nominale o verbale. La natura della controversia è patente: come devono essere descritti tali frasi e frammenti di frase? Come elementi autonomi e, dunque, come distinte frasi complesse? O come subordinate e sintagmi che, comunque, fanno parte della frase che si trova a sinistra del punto fermo? In fase di codifica, per questi casi particolari, abbiamo scelto di estendere i confini della frase (complessa) oltre il punto fermo, ovvero di dare priorità alla catena sintattica, quand’anche essa apparisse ‘frantumata’ o ‘debole’, riservandoci, tuttavia, di tenere conto della natura incerta e discutibile di tale fenomeno in sede di estrazione dei risultati e di conteggi finali. Laddove ci sembri opportuno per la completezza della nostra analisi, presenteremo, infatti, dati duplici, frutto di due diversi tipi di calcolo, che hanno alla base un differente modo di

(13)

intendere la frase complessa nei casi in cui sia presente un uso anomalo della punteggiatura.

La possibilità di inserire marcature plurime e quindi di fornire una descrizione dettagliata dei fenomeni linguistici si è rivelata particolarmente utile anche per la distinzione, all’interno dei diversi tipi sintattici, delle frasi nominali.

La frase parentetica, la frammentazione della sintassi e lo stile nominale rappresentano tre luoghi di estremo interesse per la descrizione della scrittura giornalistica. Nei paragrafi ad essi dedicati, e, più in generale, in tutta la trattazione dei tipi e delle funzioni sintattiche, faremo, perciò, riferimento anche alle dense indagini compiute, nell’ambito degli studi dedicati alla lingua della stampa, da Maurizio Dardano, Ilaria Bonomi, Bice Mortara Garavelli e altri.

Meno numerosi sono, invece, i lavori che forniscono dati numerici sulla struttura della frase complessa in diacronia; poiché si tratta di un’area ancora poco studiata dai linguisti, la nostra ricerca, per questa parte, procederà in maniera autonoma, prendendo parziale spunto da alcuni parametri, descrittivi della complessità frastica, presenti in uno studio di Miriam Voghera8, studio che, se pure dedicato all’italiano parlato, si è rivelato particolarmente utile.

I dati numerici verranno presentati secondo una duplice modalità: inizialmente saranno proposti e commentati i valori conteggiati per il totale dei testi, senza altra distinzione se non quella diacronica, in un secondo momento esporremo i dati calcolati per ciascun tipo di articolo.

Il risultato del nostro lavoro è registrato su due supporti: un supporto elettronico e un supporto cartaceo.

Il supporto elettronico contiene la codifica strutturale e sintattica degli articoli. La tesi a stampa prevede quattro capitoli: nel primo viene illustrato il linguaggio di codifica usato, il formalismo XML-TEI; nel secondo sono spiegati gli elementi su cui si fonda la codifica stessa (frase semplice e frase complessa) e gli attributi (relativi al rapporto tra frasi e al tipo di frase) che qualificano e specificano

8

(14)

tali elementi; nel terzo vengono presentati i dati numerici in prospettiva diacronica; nel quarto è offerta una riflessione conclusiva sui risultati della nostra indagine.

(15)

1. LA STRUMENTAZIONE INFORMATICA

1.1 Il linguaggio di codifica: l’eXtensible Markup Language (XML)

Nel presente lavoro di codifica sintattica ci siamo avvalsi dell’eXtensible

Markup Language (XML), che costituisce una semplificazione e una evoluzione

dello Standard Generalized Markup Language (SGML), il più importante tra i linguaggi di codifica elaborati per creare, archiviare, gestire e trasmettere testi in formato digitale.

I markup languages possono essere distinti in ‘linguaggi procedurali’ e in ‘linguaggi dichiarativi’. I primi istruiscono un particolare strumento informatico su come elaborare un documento e indicano come deve essere rappresentato. I linguaggi dichiarativi, invece, «sono orientati al testo e quindi si preoccupano di catturare/annotare opportunamente il significato degli elementi costitutivi del testo, tralasciando l’aspetto che questi assumeranno sulla pagina stampata o sul video» [PIERAZZO 2005, 31]. A quest’ultima famiglia appartieneXML, che è un linguaggio dichiarativo ‘estensibile’, ovvero che non specifica un insieme predefinito di ‘marcatori’; più propriamente è un ‘metalinguaggio’, cioè un sistema per la descrizione formale di un linguaggio, in questo caso un linguaggio di markup9. Un linguaggio di markup non è fornito di semantica, ma solo di sintassi: deve perciò indicare quali marcatori si possano e quali si debbano usare e come vadano distinti dal testo verbale. La semantica associata ai marcatori può e deve essere espressa solo in modo non formale. Un linguaggio di codifica è caratterizzato dai seguenti elementi: un insieme di caratteristiche testuali, un insieme di identificatori simbolici, una correlazione tra identificatori e caratteristiche testuali e, infine, una sintassi che regola l’uso degli identificatori10.

9

Il termine markup è stato usato, storicamente, per le annotazioni inserite all’interno di un testo, che indicavano con precisione al grafico o al tipografo come un determinato passo dovesse essere stampato o impaginato; allo stesso modo il codificatore rende esplicita l’interpretazione di un testo mediante una serie di istruzioni, dette marcatori, etichette o tag, che sono associate al contenuto.

10

(16)

Il linguaggio XML è stato sviluppato da un gruppo di lavoro del World Wide

Web Consortium11

. Esso risponde a una duplice esigenza, di ‘standardizzazione’ da una parte e di ‘portabilità’ dall’altra. XML è uno standard, ovvero «un insieme di norme relative a una particolare tecnologia emesse da un ente istituzionale nazionale o internazionale deputato a tale scopo»12 [PIERAZZO 2005, 20]. L’adozione di standard nella creazione di risorse digitali riduce notevolmente il rischio di ‘deperibilità’ tipico dei formati commerciali. Affinché un linguaggio di codifica contribuisca all’accessibilità e alla permanenza dei documenti, deve avere, inoltre, il requisito tecnico della portabilità, che si articola su quattro distinti livelli di indipendenza:

1. indipendenza dall’hardware, ovvero da una particolare architettura elaborativa (processore), da un particolare supporto digitale (disco magnetico, disco ottico, ecc.), o da un particolare dispositivo o sistema di output (video, stampa);

2. indipendenza dal software, sia dai sistemi operativi (Windows, Linux, ecc.), sia dai software applicativi (editor testuali); si noti, infatti, che i software commerciali usano, nella maggior parte dei casi, formati di dati proprietari mutuamente incompatibili;

3. indipendenza dai sistemi di codifica dei caratteri, che possono divenire obsoleti con lo sviluppo della tecnologia;

4. indipendenza logica da particolari tipologie di trattamento: il documento XML può essere usato per diversi fini e in diversi ambiti di applicazione.

Il termine tecnico usato in XML per indicare un’unità testuale intesa come componente strutturale è ‘elemento’: tutti gli elementi, in una sequenza organizzata e racchiusi da un elemento radice (root element), costituiscono il documento XML. Ogni elemento è nominato con un generic identifier (GI) ed è contraddistinto da uno

start tag (il tag iniziale) inserito tra parentesi uncinate, da un contenuto (ciò che è

stato propriamente marcato) e da un end tag (il tag di chiusura), anch’esso inserito tra parentesi uncinate, ma con il nome preceduto da uno slash: per esempio in

11

Il W3C è l’organizzazione che si occupa dello sviluppo e della conservazione degli standard Web. Per maggiori informazioni, si v. il sito internet, all’indirizzo www.w3.org.

12

L’ente internazionale deputato alla definizione di standard formali è la International

(17)

<cl>Gli USA giocano la carta dei test atomici</cl> il contenuto è Gli USA giocano

la carta dei test atomici, codificato attraverso il marcatore <cl>13

. Le relazioni tra gli elementi in XML sono essenzialmente gerarchiche e ordinali; «dati due elementi obbligatori a e b, può darsi uno solo di questi casi:

- a contiene b; - a è contenuto da b; - a precede b;

- a segue b»14 [idem, 43].

Un modello di codifica che si proponga di descrivere la sintassi di un testo deve ricorrere a strategie di marcatura più complesse, che associno agli elementi gli ‘attributi’, tramite i quali diviene possibile descrivere il particolare stato di un elemento. L’attributo deve essere inserito all’interno del marcatore iniziale; il valore dell’attributo è legato al nome da un segno di uguale e racchiuso fra apici secondo questa sintassi: nome=“valore”. All’interno dello stesso tag si possono combinare diversi attributi, come vediamo in <cl type=“dich” function=“princ”>Gli USA

giocano la carta dei test atomici</cl>. Nel marcatore iniziale che indica la frase

semplice (<cl>) vengono fornite ulteriori informazioni tramite i due attributi type e

function: la frase semplice è una principale dichiarativa.

La sintassi del linguaggio utilizzato è definita nella DTD (Document Type

Definition), una sorta di grammatica nella quale sono dichiarati sia tutti gli elementi

di un testo, identificati tramite un identificatore generico (il nome dell’elemento, costituito da una stringa di caratteri) e tramite il loro modello di contenuto (l’insieme di sottoelementi e caratteri che ciascun elemento può contenere e i relativi rapporti in ordine e ricorrenza), sia gli eventuali attributi, sia altre notazioni presenti nel documento. La DTD può essere interna al documento, oppure conservata separatamente e invocata con un riferimento specifico. I documenti XML sono detti ‘validi’, se rispettano i vincoli espressi nella DTD; la loro validazione è possibile mediante un’analisi sintattica automatica (parsing).

13

<cl> sta per clause, il nome dell’elemento è tratto dal formalismo TEI.

14

In altre parole sono ammesse soltanto disposizioni in sequenza (a a b b) o annidamenti (a b b a), mai sequenze del tipo a b a b (overlapping).

(18)

1.2 La Text Encoding Initiative (TEI)

Tra le applicazioni del linguaggio XML più rilevanti e complesse vi è senza dubbio la Text Encoding Initiative (TEI). Sin dagli anni Ottanta si era avvertita l’esigenza, fra gli studiosi di scienze del testo interessati all’applicazione di metodologie informatiche, di rispondere adeguatamente ai problemi di interscambiabilità delle risorse digitali determinati dalla proliferazione di linguaggi di codifica. Per ovviare a tale situazione, nel 1988, con la sponsorizzazione delle tre maggiori associazioni nel campo dell’informatica umanistica e della linguistica computazionale – la Association for Computing and the Humanities (ACH), la

Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC) – fu di fatto avviato il progetto denominato TEI. Con

la partecipazione di numerosi studiosi, coordinati da Carl Michael Sperberg-McQueen e Lou Burnard, si giunse, nel 1994, alla prima versione stabile e completa delle Guidelines for Text Encoding and Interchange. Nel 2000 i membri della TEI hanno deciso di rendere permanente il progetto costituendo il TEI Consortium, che nel 2002 ha pubblicato la versione delle Guidelines (TEI P4) utilizzata nel presente lavoro15. Gli estensori delle Guidelines si sono proposti di definire uno standard di codifica per permettere la normalizzazione dei formati di memorizzazione di testi e per consentire lo scambio di documenti e testi tra studiosi, enti di ricerca e sistemi informatici differenti. Nel paragrafo I.2.1 delle Guidelines sono definiti gli scopi della codifica TEI:

- fornire un formato standard per l’interscambio di informazioni; - fornire una guida per la codifica in questo formato;

- supportare la codifica di tutti i tipi di caratteristiche di ogni genere di testo; - essere indipendente dalle applicazioni.

La commissione di sviluppo della TEI, nel definire la struttura della DTD TEI, si è basata sui fondamenti teorici dello SGML/XML, ovvero sulla predilezione per un markup di tipo dichiarativo-strutturale, piuttosto che di tipo

15

Informazioni sull’attuale versione elettronica delle Guidelines (TEI P5), ufficialmente rilasciata il 1 novembre 2007, sono reperibili sul sito della TEI, all’indirizzo http:// www.tei-c.org/Guidelines/P5/.

(19)

procedurale16. Tuttavia lo schema TEI prevede la possibilità di usare il markup in senso presentazionale, quando la scelta della codifica descrittiva non sia praticabile per oggettiva difficoltà di interpretazione o quando le esigenze di ricerca richiedano una forte aderenza del documento elettronico alla sua fonte primaria. Lo schema di tipo generale fornito dalla TEI è orientato al dominio umanistico, ma non rigidamente determinato. Gli elementi definiti nella DTD TEI, infatti, sono oltre quattrocento e molte caratteristiche strutturali di un testo hanno diverse possibilità di codifica; sono, inoltre, possibili modifiche locali ed estensioni al fine di adattarsi ad esigenze specifiche di memorizzazione testuale. Soltanto alcuni elementi devono essere obbligatoriamente presenti in un documento TEI e si trovano, quasi tutti, nell’intestazione del file (TEI Header).

L’insieme di caratteristiche testuali che costituisce l’ontologia della TEI si articola, principalmente, su tre livelli. Il primo è quello di un insieme di caratteristiche testuali generali ritenute universalmente valide per ogni tipo di testo; il secondo è costituito dalle strutture testuali proprie dei principali tipi di documenti: testi in prosa, testi in versi, testi drammatici, vocabolari e dizionari, trascrizioni di fonti orali; il terzo è rappresentato dalle proprietà e dalle caratteristiche testuali derivanti da singole prospettive analitiche: descrizione di strutture morfosintattiche, trascrizione diplomatica di fonti primarie, rappresentazione di strutture interpretative profonde, ecc. A questa ontologia stratificata corrisponde un’architettura modulare della DTD, divisa in una serie di insiemi di elementi specializzati:

- insiemi di elementi universali (core tag sets);

- insiemi di elementi specifici per i cinque tipi di documenti fondamentali (base tag sets);

- insiemi di elementi per la rappresentazione di particolari prospettive analitiche (additional tag sets);

Vi sono, inoltre, insiemi di elementi per esigenze di codifica ausiliarie e specializzate, come la documentazione dello schema di codifica, o la dichiarazione di particolari schemi di scrittura (auxiliary DTD).

16

La TEI si occupa, in altre parole, di ‘che cos’è’ e di ‘quale funzione ha’ un determinato aspetto del testo piuttosto che del modo in cui deve essere rappresentato.

(20)

Ciascun utente può quindi costruire la propria ‘vista’ (view) della DTD TEI, combinando l’insieme degli elementi ritenuti utili al proprio lavoro e, una volta creata la DTD che definisca lo standard, può controllare che il documento sia ad esso conforme mediante un’analisi sintattica automatica (parsing).

Nel prologo del nostro documento troviamo il riferimento specifico alla DTD TEI:

<!DOCTYPE teiCorpus.2 PUBLIC "-//TEI Consortium//DTD TEI P4//EN" "c:/tei-emacs/xml/dtds/tei/tei2.dtd" [

<!ENTITY % TEI.prose 'INCLUDE'> <!ENTITY % TEI.linking 'INCLUDE'> <!ENTITY % TEI.figures 'INCLUDE'> <!ENTITY % TEI.analysis 'INCLUDE'> <!ENTITY % TEI.XML 'INCLUDE'>

<!ENTITY % ISOlat1 SYSTEM "c:/tei-emacs/xml/dtds/tei/iso-lat1.ent"> %ISOlat1;

<!ENTITY % ISOlat2 SYSTEM "c:/tei-emacs/xml/dtds/tei/iso-lat2.ent"> %ISOlat2;

<!ENTITY % ISOnum SYSTEM "c:/tei-emacs/xml/dtds/tei/iso-num.ent"> %ISOnum;

<!ENTITY % ISOpub SYSTEM "c:/tei-emacs/xml/dtds/tei/iso-pub.ent"> %ISOpub;

]>

La prima riga è occupata dalla Document Type Declaration della DTD TEI17, ove si dichiara il tipo di documento, vale a dire il nome della Doctype, dato dal nome

17

La dichiarazione del tipo di documento è preceduta, lo ricordiamo, da una dichiarazione che identifica il documento come XML, indicando anche la versione utilizzata, nel nostro caso la versione 1.0: <?xml version="1.0"?>

(21)

dell’elemento root (teiCorpus.2). Seguono le dichiarazioni delle entità, aperte tutte dalla parola chiave ENTITY, seguita dal nome dell’entità da dichiarare18.

Passiamo ora ad illustrare gli elementi utilizzati per la nostra codifica.

Prima di iniziare la codifica sintattica del corpus, è stato necessario marcare i testi da un punto di vista ‘strutturale’, individuandone le componenti logico-formali. Trattandosi di testi giornalistici, è stato necessario distinguere, ad esempio, fra corpo dell’articolo e titolatura. Vediamo un esempio di tale codifica, preceduta dal TEIHeader:

<TEI.2 id='AF4601'>

<title>Paura della repubblica: versione elettronica</title> </titleStmt>

Trascrizione eseguita il 27 luglio 2006 </publicationStmt>

Corriere d'informazione, n. 105, 3 maggio 1946, p. 1, col. 1, 2. </sourceDesc> </fileDesc> </teiHeader> <text> <body> <div0>

<head type="occhiello">Il problema istituzionale</head> <head type="titolo">Paura della repubblica</head>

18

«Capita spesso [...] che pur adottando una DTD esterna al documento, si personalizzi o si incrementi la DTD grazie a dichiarazioni interne; solitamente si tratta della dichiarazione di entità esterne o parametriche per includere o escludere alcune sezione della DTD» [PIERAZZO 2005, 72]. Per un approfondimento, si rimanda a PIERAZZO [2005, 63-83].

(22)

Dicevamo, dunque, che noi siamo immaturi per la monarchia e, per ben intenderci, quando usiamo questa espressione vogliamo dire che siamo immaturi collettivamente al costume politico perché abbiamo solo tre quarti di secolo di esperienza statale. Individualmente, si sa, l'italiano è per intelligenza e altre qualità, fin troppo maturo, tanto, anzi, da parere un po' scettico e talora, agli occhi degli stranieri, persino cinico.

Intesa in questo senso, affermiamo... <byline>M.B.</byline>

</div0> </body> </text> </TEI.2>

Ciascun articolo del corpus è contraddistinto e racchiuso da un elemento, <TEI.2>, provvisto di un attributo id contenente un codice univoco, che permette di identificare ogni singolo testo: col valore ‘AF4601’, segnaliamo, ad esempio, che si tratta del primo articolo di fondo del nostro corpus tratto dal Corriere del 1946; allo stesso modo, con ‘PE0614’ indicheremo il quattordicesimo articolo di politica estera tratto dal CS19 del 2006, ecc. Tale indicizzazione è importante soprattutto in fase di estrazione dei risultati.

Il corpo dell’articolo è preceduto da una sorta di frontespizio elettronico, il <teiHeader>, che racchiude al suo interno il <fileDesc>, l’unico elemento obbligatorio, contenente una descrizione bibliografica completa del file stesso. In particolare, nell’elemento <titleStmt> troviamo la dichiarazione del titolo del documento digitale, racchiusa in <title>, ovvero Paura della repubblica: versione

elettronica; segue l’elemento <publicationStmt>, al cui interno, in , troviamo le

informazioni sulla data di trascrizione dell’articolo; infine il <sourceDesc>, che contiene la descrizione della fonte da cui è stato tratto il documento digitale, ovvero, il nome del quotidiano, il numero, la data, la pagina e la colonna, sempre in .

19

(23)

Dopo il <teiHeader> incontriamo il testo dell’articolo, racchiuso da due elementi obbligatori, <text> e <body>; subito all’interno di <body> troviamo l’elemento <div0>, che rappresenta una prima suddivisione strutturale; esso racchiude gli elementi <head>, , <byline> e, in qualche caso, <dateline>. Mediante l’attributo

type di <head> abbiamo operato un’ulteriore suddivisione nel campo della titolatura,

distinguendo fra occhiello, titolo e sommario; con l’elemento è stata riprodotta sull’editor testuale la scansione in capoversi presente nell’originale cartaceo; infine nell’elemento <byline> troviamo il nome dell’autore dell’articolo, mentre le indicazioni del luogo e della data di scrittura, se presenti, sono inserite in <dateline>. Per le interviste abbiamo usato un elemento in più, <sp>, che contiene le battute dell’intervistato e del giornalista. Tutti gli articoli, così codificati, sono racchiusi da un elemento radice (root element), <teiCorpus.2>, e preceduti dal teiHeader dell’intero documento.

Una volta conclusa la marcatura delle partizioni strutturali dei nostri articoli, abbiamo iniziato la vera e propria codifica sintattica, per la quale sono stati utilizzati gli elementi forniti dallo schema TEI P4 per l’analisi linguistica20, in particolare <s> per la frase complessa (sentence)21 e <cl> per la frase semplice (clause):

<s><cl>Il più pericoloso e il più insidioso di questi elementi è la paura:</cl> <cl>si ha da alcuni una grande paura della repubblica</cl> <cl>e da altri si alimenta ad arte questa paura.</cl></s> (3-5-46, AF)22

Mediante l’inserimento nell’elemento <cl> di due attributi con valore libero,

type per la descrizione del tipo sintattico (dichiarativo, causale, relativo, ecc.) e function per la spiegazione della funzione sintattica (principale, subordinata,

coordinata, ecc.), è stata fornita una caratterizzazione dettagliata della frase semplice:

20

Si v. il paragrafo 15.1 Linguistic Segment Categories del capitolo Symple Analytic Mechanism della TEI P4, in SPERBERG-MCQUEEN – BURNARD 2002.

21

«L’elemento <s>, come suggerisce il nome (che richiama l’inglese sentence), è usato comunemente (almeno nelle applicazioni in campo linguistico) per codificare le frasi ortografiche, ovvero unità definite da caratteristiche ortografiche come l’interpunzione» [CIOTTI 2005, 156].

22

La sigla posta alla fine degli esempi indica il giorno (3) il mese (5) e l’anno (1946) dell’articolo di fondo (AF) da cui è tratto il brano citato.

(24)

<s><cl type="dich" function="princ">Il più pericoloso e il più insidioso di questi elementi è la paura:</cl> <cl type="cong asind dich" function="coord">si ha da alcuni una grande paura della repubblica</cl> <cl type="cong dich" function="coord">e da altri si alimenta ad arte questa paura.</cl></s>

1.3 Legenda dei simboli ed esemplificazione su tre segmenti della codifica

Per completezza espositiva, elenchiamo di seguito gli elementi, gli attributi e le entità utilizzati nella nostra codifica, tratti dalla TEI P4:

<text> = contiene il singolo articolo <body> = contiene il corpo dell’articolo

<byline> = contiene il nome dell’autore dell’articolo <dateline> = contiene la data e il luogo dell’articolo <div0> = contiene una sezione del corpo dell’articolo <head> = contiene un titolo

 = contiene un capoverso

<sp> = contiene una battuta di dialogo

<foreign> = contiene una parola o un’espressione appartenente a una lingua diversa dall’italiano

<s> = contiene una frase complessa <cl> = contiene una frase semplice

type= come attributo di <cl> indica il tipo frastico; come attributo di <head> descrive il tipo di titolo

function = è un attributo di <cl> che indica il rapporto tra le frasi id = è un attributo che serve a stabilire riferimenti incrociati next = è un attributo che serve a stabilire riferimenti incrociati  = è una entità interna23 che sostituisce il trattino -

23

(25)

à = è una entità interna che sostituisce à è = è una entità interna che sostituisce è È = è un’entità interna che sostituisce È é = è una entità interna che sostituisce é ì = è una entità interna che sostituisce ì ò = è una entità interna che sostituisce ò ó = è una entità interna che sostituisce ó ù = è una entità interna che sostituisce ù

Il seguente passo:

«I Governi inglese e francese – ha detto Eden – rimangono dell’opinione che l’azione di polizia debba essere portata a termine con prontezza per porre fine alle ostilità che minacciano il Canale e per rendere possibile una pace fra gli arabi e gli israeliani.» (4-11-56, PE)

è stato codificato in questo modo:

<s id="PE561a" next="PE562a"><cl type="dich" function="princ" id="PE561b" next="PE562b">"I Governi inglese e francese</cl></s> <s><cl type="dich" function="princ"> ha detto Eden </cl></s> <s id="PE562a"><cl type="dich" function="princ" id="PE562b">rimangono dell'opinione <cl type="epes" function="subord I">che l'azione di polizia debba essere portata a termine con prontezza <cl type="fin" function="subord II">per porre fine alle ostilità<cl type="rel restr antec" function="subord III">che minacciano il Canale</cl></cl> <cl type="cong fin" function="coord II">e per rendere possibile una pace fra gli arabi e gli israeliani."</cl></cl></cl></s>

Nell’esempio troviamo due frasi complesse che si intrecciano l’una con l’altra: in particolare nella prima frase complessa si inserisce una distinta frase complessa, che ha la funzione di didascalia del discorso riportato. Abbiamo utilizzato gli attributi

(26)

medesima frase (complessa e semplice); id, come sappiamo, identifica in modo univoco un elemento nel testo codificato, mentre next segnala che cosa segue quel determinato id. Abbiamo, dunque, identificato la parte iniziale della frase complessa con id=“PE561a” e della frase semplice principale con id=“PE561b”; mediante next abbiamo poi segnalato che il seguito di tali frasi avrà come valore di id rispettivamente “PE562a” e “PE562b”24. Per ciò che attiene ai rapporti interni alle due frasi complesse individuate, descritti tramite l’attributo function, la prima si apre con una frase principale che continua dopo la frase interposta (I governi inglese e

francese... rimangono dell’opinione) e regge una subordinata di I grado (che l’azione di polizia debba essere portata a termine con prontezza), sovraordinata, a sua volta,

di due dipendenti di II grado fra loro coordinate (per porre fine alle ostilità... e per

rendere possibile una pace fra gli arabi e gli israeliani); infine, la prima subordinata

di II grado regge una subordinata di III (che minacciano il Canale). La frase complessa interposta è costituita da un’unica frase principale (ha detto Eden). Con l’attributo type descriviamo, invece, il tipo sintattico: la prima frase principale è una dichiarativa; la subordinata di I grado è un’epesegetica seguita dalle due finali di II grado; dalla prima finale di II grado dipende una relativa. La frase principale della frase complessa interposta è, anch’essa, una dichiarativa.

Di seguito il risultato visualizzabile:

-<s id="PE561a" next="PE562a" part="N" TEIform="s">

- <cl type="dich" function="princ" id="PE561b" next="PE562b" part="N"

TEIform="cl">

"I Governi inglese e francese

</cl>

</s>

-<s part="N" TEIform="s">

<cl type="dich" function="princ" part="N" TEIform="cl"> ha detto Eden </cl>

</s>

-<s id="PE562a" part="N" TEIform="s">

24

È importante segnalare che il programma con cui abbiamo estratto i risultati, Xaira, conta, in questi casi, non due frasi complesse, ma tre, non due frasi semplici dichiarative, ma tre; è stato dunque necessario, in fase di conteggio finale, un aggiustamento manuale dei calcoli laddove si presentassero frasi interposte ad altre.

(27)

- <cl type="dich" function="princ" id="PE562b" part="N"

TEIform="cl">

rimangono dell'opinione

-<cl type="epes" function="subord I" part="N" TEIform="cl">

che l'azione di polizia debba essere portata a termine con prontezza

-<cl type="fin" function="subord II" part="N" TEIform="cl">

per porre fine alle ostilità

<cl type="rel restr antec" function="subord III" part="N"

TEIform="cl">che minacciano il Canale</cl>

</cl>

- <cl type="cong fin" function="coord II" part="N"

TEIform="cl">

e per rendere possibile una pace fra gli arabi e gli israeliani" </cl>

</cl> </cl>

</s>

I rapporti tra le frasi sono stati messi in luce inserendo la subordinata all’interno della sovraordinata e ponendo sullo stesso piano le frasi tra loro coordinate. La struttura astratta del nostro corpus è, quindi, rappresentabile mediante un grafo ad albero, in cui i rapporti tra le frasi sono immediatamente comprensibili: «a ciascun nodo corrisponde un elemento e a ogni ramo verso il basso uscente da un nodo corrisponde una relazione di inclusione» [PIERAZZO 2005, 43]. Il ramo frase complessa ha al suo interno uno o più rami, le frasi semplici; esso ha nodi che aprono a rami se la frase complessa è costituita dalla frase principale e da una o più subordinate, come vediamo nella seguente rappresentazione visiva:

- <s part="N" TEIform="s">

- <cl type="dich" function="princ" part="N" TEIform="cl">

Secondo il "New York Times", Kruscev nel suo discorso ha presentato un quadro molto franco dell'atmosfera di terrore

<cl type="rel restr antec" function="subord I" part="N" TEIform="cl">che ha dominato la capitale sovietica negli ultimi anni del regime staliniano,</cl>

(28)

indicando

- <cl type="ogg" function="subord II" part="N" TEIform="cl"> che essa era giunta a un punto tale

- <cl type="cons antec" function="subord III" part="N" TEIform="cl"> che neppure i maggiori dirigenti e membri del Politburo erano sicuri

- <cl type="obl" function="subord IV" part="N" TEIform="cl"> di non essere destinati

<cl type="obl" function="subord V" part="N" TEIform="cl">a divenire le prossime vittime.</cl>

</cl> </cl> </cl> </cl> </cl> </s> (17-03-56, PE)

Se, invece, il ramo frase complessa è costituito dalla frase principale e da una o più frasi ad essa coordinate, abbiamo nodi che non aprono a rami, perché le frasi sono sullo stesso piano:

- <s part="N" TEIform="s">

<cl type="dich" function="princ" part="N" TEIform="cl">La gente gridava,</cl>

<cl type="cong asind dich" function="coord" part="N" TEIform="cl">si esaltava;</cl>

<cl type="cong asind dich" function="coord" part="N" TEIform="cl">a un certo momento l'arbitro fermava il gioco,</cl>

<cl type="cong asind dich" function="coord" part="N" TEIform="cl">andava verso il pubblico,</cl>

<cl type="cong asind dich" function="coord" part="N" TEIform="cl">indicava uno spettatore ad un poliziotto</cl>

(29)

<cl type="cong dich" function="coord" part="N" TEIform="cl">e lo faceva espellere dal campo.</cl>

</s> (1-03-56, SP)

Per un esempio di codifica su un intero articolo del nostro corpus, si rimanda all’Appendice.

(30)

1.4 Elenco dei valori possibili per l’attributo function

princ = principale

coord = coordinata a una principale coord 0 = coordinata a una parentetica

coord I = coordinata a una subordinata di I grado coord II = coordinata a una subordinata di II grado coord III = coordinata a una subordinata di III grado coord IV = coordinata a una subordinata di IV grado coord V = coordinata a una subordinata di V grado pcoord = pseudo-coordinata

subord I = subordinata di I grado subord II = subordinata di II grado subord III = subordinata di III grado subord IV = subordinata di IV grado subord V = subordinata di V grado subord VI = subordinata di VI grado subord VII = subordinata di VII grado parent = parentetica

1.5 Elenco dei valori possibili per l’attributo type

1.5.1 Per le principali dich = dichiarativa

dich franta = dichiarativa franta dich nom = dichiarativa nominale

dich nom franta = dichiarativa nominale franta

dich nom ell = dichiarativa nominale propriamente ellittica esclam = esclamativa

esclam nom = esclamativa nominale int altern = interrogativa alternativa

(31)

int altern nom = interrogativa alternativa nominale

int altern nom ell = interrogativa alternativa nominale propriamente ellittica int altern ret = interrogativa alternativa retorica

int altern ret nom = interrogativa alternativa retorica nominale

int altern ret nom ell = interrogativa alternativa retorica nominale ellittica int disg = interrogativa disgiuntiva

int disg nom = interrogativa disgiuntiva nominale int x = interrogativa di tipo x

int x nom = interrogativa di tipo x nominale int x ret = interrogativa di tipo x retorica

int x ret nom = interrogativa di tipo x retorica nominale iuss dir = iussiva diretta

iuss nom = iussiva diretta nominale iuss indir = iussiva indiretta

ott intr = ottativa con introduttore

1.5.2 Per le coordinate a una principale

avv dich = coordinata avversativa con valore di dichiarativa

avv dich nom = coordinata avversativa con valore di dichiarativa nominale avv esclam = coordinata avversativa con valore di esclamativa

avv int x = coordinata avversativa con valore di interrogativa di tipo x

avv int x ret = coordinata avversativa con valore di interrogativa di tipo x retorica avv iuss dir = coordinata avversativa con valore di iussiva diretta

cong dich = coordinata congiuntiva con valore di dichiarativa

cong dich nom = coordinata avversativa con valore di dichiarativa nominale

cong dich nom ell = coordinata avversativa con valore di dichiarativa nominale propriamente ellittica

cong dich par = coordinata congiuntiva con valore di dichiarativa in posizione parentetica

(32)

cong int x nom = coordinata congiuntiva con valore di interrogativa di tipo x nominale

cong int x ret nom ell = coordinata congiuntiva con valore di interrogativa di tipo x retorica nominale propriamente ellittica

cong iuss dir = coordinata congiuntiva con valore di iussiva diretta

cong asind dich = coordinata congiuntiva per asindeto con valore di dichiarativa cong asind dich franta = coordinata congiuntiva per asindeto con valore di dichiarativa franta

cong asind dich nom = coordinata congiuntiva per asindeto con valore di dichiarativa nominale

cong asind dich nom ell = coordinata congiuntiva per asindeto con valore di dichiarativa nominale propriamente ellittica

cong asind esclam = coordinata congiuntiva per asindeto con valore di esclamativa cong asind esclam nom = coordinata congiuntiva per asindeto con valore di esclamativa nominale

cong asind int altern = coordinata congiuntiva per asindeto con valore di interrogativa alternativa

cong asind int altern ret = coordinata congiuntiva per asindeto con valore di interrogativa alternativa retorica

cong asind int x = coordinata congiuntiva per asindeto con valore di interrogativa di tipo x

cong asind int x ret = coordinata congiuntiva per asindeto con valore di interrogativa di tipo x retorica

cong asind iuss dir = coordinata congiuntiva per asindeto con valore di iussiva diretta cong concl dich = coordinata congiuntiva conclusiva con valore di dichiarativa cong concl dich nom = coordinata congiuntiva conclusiva con valore di dichiarativa nominale

cong corr dich = coordinata correlativa con valore di dichiarativa cong espl dich = coordinata esplicativa con valore di dichiarativa disg dich = coordinata disgiuntiva con valore di dichiarativa

(33)

1.5.3 Per le pseudo-coordinate faltern = falsa alternativa

1.5.4 Per le subordinate avv = avversativa caus = causale

caus ell = causale con ellissi della frase sovraordinata

caus ell franta = causale franta con ellissi della frase sovraordinata caus sep = causale separata dalla frase sovraordinata tramite punto fermo comp disug = comparativa di disuguaglianza

comp ipo = comparativa con valore ipotetico

comp ipo par = comparativa di uguaglianza con valore ipotetico in posizione parentetica

comp temp = comparativa con valore temporale comp ug = comparativa di uguaglianza

comp ug par = comparativa di uguaglianza in posizione parentetica conc acond = concessiva a-condizionale

conc cond = concessiva condizionale conc fatt = concessiva fattuale

conc fatt sep = concessiva fattuale separata dalla frase sovraordinata tramite punto fermo

cons antec = consecutiva con antecedente cons ell = consecutiva ellittica

cons libera = consecutiva libera

cons libera par = consecutiva libera fra parentesi

cons libera sep = consecutiva libera separata dalla sovraordinata tramite punto fermo eccett = eccettuativa

epes = epesegetica

(34)

esclus = esclusiva

esclus ell = esclusiva con ellissi della frase sovraordinata

esclus sep = esclusiva separata dalla sovraordinata tramite punto fermo fin = finale

fin ell = finale con ellissi della sovraordinata fin par = finale in posizione parentetica int altern = interrogativa alternativa

int disg ret = interrogativa disgiuntiva retorica int x = interrogativa di tipo x

int x ret = interrogativa di tipo x retorica ipo = ipotetica

ipo biaff = ipotetica biaffermativa

ipo caus = ipotetica con valore di causale

ipo ell = ipotetica con ellissi della frase sovraordinata ipo obl = ipotetica con valore di completiva obliqua ipo par = ipotetica in posizione parentetica

lim = limitativa

lim sep = limitativa separata dalla frase sovraordinata tramite punto fermo man = di maniera

man sep = di maniera separata dalla frase sovraordinata tramite punto fermo obl = completiva obliqua

obl ell = completiva obliqua con ellissi della frase sovraordinata ogg = completiva oggettiva

ogg ell = completiva oggettiva con ellissi della frase sovraordinata pred = predicativa

rel app antec = relativa con antecedente appositiva

rel app antec caus = relativa con antecedente appositiva con valore causale rel app antec giust = relativa con antecedente appositiva giustapposta

rel app antec giust par = relativa con antecedente appositiva giustapposta in posizione parentetica

(35)

rel app antec giust sep = relativa con antecedente appositiva giustapposta separata dalla sovraordinata tramite punto fermo

rel app antec temp = relativa con antecedente appositiva con valore temporale rel ell = relativa con ellissi della sovraordinata

rel impl = relativa implicita

rel impl deon = relativa implicita con valore deontico

rel impl ell = relativa implicita con ellissi della sovraordinata rel impl par = rel implicita in posizione parentetica

rel impl sep = relativa implicita separata dalla sovraordinata tramite punto fermo rel ind = relativa indipendente

rel ind acond = relativa indipendente a-condizionale rel ind mod = relativa indipendente modale

rel ind mod comp = relativa indipendente modale con valore di comparativa rel ind mod par = relativa indipendente modale in posizione parentetica rel ind temp = relativa indipendente temporale

rel ind temp par = relativa indipendente temporale in posizione parentetica

rel ind temp sep = relativa indipendente temporale separata dalla sovraordinata tramite punto fermo

rel poliv = relativa polivalente rel pseudo = pseudo-relativa

rel pseudo scissa = pseudo-relativa scissa

rel restr antec = relativa con antecedente restrittiva

rel restr antec caus = relativa con antecedente restrittiva con valore causale

rel restr antec comp disug = relativa con antecedente restrittiva con valore di comparativa di disuguaglianza

rel restr antec cons = relativa con antecedente restrittiva con valore consecutivo rel restr antec fin = relativa con antecedente restrittiva con valore finale

rel restr antec temp = relativa con antecedente restrittiva con valore temporale rel scissa = relativa scissa

rel scissa ell = relativa scissa con ellissi della sovraordinata sogg = soggettiva

(36)

sogg ell = soggettiva con ellissi della frase sovraordinata sogg scissa = soggettiva scissa

sogg soll = soggettiva a sollevamento spec = specificativa

strum = strumentale

strum ell = strumentale con ellissi della sovraordinata

strum sep = strumentale separata dalla sovraordinata tramite punto fermo temp = temporale

temp ell = temporale con ellissi della frase sovraordinata

temp sep = temporale separata dalla sovraordinata tramite punto fermo

1.5.5 Per le coordinate a una subordinata

avv caus = coordinata avversativa con valore causale

avv conc fatt = coordinata avversativa con valore di concessiva fattuale avv epes = coordinata avversativa con valore di epesegetica

avv esclus = coordinata avversativa con valore di esclusiva

avv obl = coordinata avversativa con valore di completiva obliqua avv ogg = coordinata avversativa con valore di oggettiva

avv rel = coordinata avversativa con valore di relativa

avv rel scissa = coordinata avversativa con valore di relativa scissa avv spec = coordinata avversativa con valore di specificativa cong caus = coordinata congiuntiva con valore causale

cong conc fatt = coordinata congiuntiva con valore di concessiva fattuale cong cons = coordinata congiuntiva con valore di consecutiva

cong epes = coordinata congiuntiva con valore di epesegetica cong fin = coordinata congiuntiva con valore finale

cong int altern = coordinata congiuntiva con valore di interrogativa alternativa cong int x = coordinata congiuntiva con valore di interrogativa di tipo x