3 Soggetto e oggetto diretto

(1)

Introduzione

Il presente lavoro si propone di indagare questioni aperte e ampiamente dibattute della linguistica teorica utilizzando strumenti e risorse sviluppati in ambito linguistico-computazionale; esso si focalizza in particolare sulle nozioni di marcatezza e prototipicità, entrambi concetti per i quali ancora oggi è difficile trovare, nella letteratura linguistica, una definizione univoca.

Nello specifico, l'obiettivo di questo contributo è quello di verificare se e in che misura, algoritmi sviluppati per valutare l'affidabilità dell'annotazione sintattica eseguita da strumenti automatici, quando applicati a corpora con annotazione manualmente rivista, possano fornire evidenza utile nell'indagare, dal punto di vista sintattico, l'opposizione tra prototipico e marcato.

Questo studio, che prosegue la linea di ricerca già aperta da Tusa et al. (2016), da un lato, mira ad approfondirne certi aspetti focalizzandosi su costruzioni sintattiche di particolare interesse in ambito linguistico, quelle di soggetto e oggetto diretto;

dall'altro, propone un'analisi esplorativa sull'impatto di fattori lessicali relativamente ai comportamenti osservati.

Le relazioni sintattiche selezionate, poiché caratterizzate da una forte grado di variabilità all'interno della lingua, il che è particolarmente vero nel caso dell'italiano, costituiscono un buon banco di prova per la verifica dell'attendibilità del metodo messo a punto in questo lavoro, il quale si articola come segue.

Il capitolo 1 fornisce le chiavi di lettura di questo studio, descrivendo il concetto di prototipicità e del suo impiego in linguistica e introducendo quello di marcatezza, discutendone il rapporto con le nozioni di frequenza e complessità sintattica; pone dunque le basi teoriche necessarie alla comprensione dell'analisi dei dati e descrive l'originalità del metodo adottato.

Nel capitolo 2 vengono presentate le risorse, gli strumenti e la metodologia in base alla quale i dati sono stati elaborati. Il capitolo 3 è dedicato alla presentazione delle due relazioni sintattiche analizzate, soggetto e oggetto diretto, le quali vengono brevemente descritte sia dal punto di vista linguistico che in base alla

(2)

rappresentazione adottata all'interno della treebank.

I capitoli 4 e 5 sono dedicati all'analisi dei dati; nello specifico, nel capitolo 4 l'analisi mira a indagare se sia possibile individuare strutture caratterizzate da gradi diversi di prototipicità (o marcatezza), mentre nel capitolo 5 vengono presentati i risultati di un'analisi lessicalizzata condotta applicando ai dati di due noti algoritmi di clustering. Infine sono riportate le conclusioni in cui si fornisce un'interpretazione generale dei risultati raggiunti e si considerano possibili sviluppi futuri.

(3)

1 Prototipicità e marcatezza

In questo capitolo si forniscono le chiavi di lettura del presente lavoro. In primo luogo si cercherà di dare una definizione del termine prototipico e di vedere in che modo esso si relaziona con il concetto di categoria linguistica. Successivamente si fornirà una descrizione del concetto di marcatezza esaminandone il rapporto con la nozione di frequenza, entrambi aspetti strettamente connessi alla nozione di complessità sintattica. Verrà infine introdotto l'ambito entro cui, tali concetti hanno trovato applicazione in questo studio e descritta l'originalità del metodo adottato.

1.1 Da prototipico a marcato

Il concetto di prototipicità, elaborato nell'ambito della psicologia cognitiva, ha trovato un terreno particolarmente fertile in linguistica, dove ha avuto un'applicazione sempre più vasta, che si è estesa a tutti i livelli di analisi della lingua, a partire dalla fonologia fino ad arrivare alla semantica.

In letteratura, tra i principali studi in merito, è d'obbligo citare Women, fire and dangerous things (si veda Lakoff, 1987), considerata la principale opera teorica sui prototipi, nella quale l'autore illustra una panoramica dello sviluppo del concetto di prototipicità e del suo impiego in linguistica, e gli studi di Rosch (si veda Rosch 1973; 1975), in cui si discute sull'individuazione dei criteri in base ai quali gli esseri umani sono portati a categorizzare il reale.

Come riporta Cerruti (2010), le novità introdotte a partire dagli studi di psicologia cognitiva si scontrano con la concezione aristotelica tradizionale sulla categorizzazione, secondo la quale le categorie andrebbero intese come entità rigorosamente discrete, definite da proprietà necessarie e sufficienti e delimitate da confini rigidamente netti.

Le osservazioni di Rosch invece, suggeriscono un modello diverso: i presupposti su cui si basa la cosiddetta teoria del prototipo sono da un lato, l'idea che all'interno di una categoria sia sempre possibile individuare membri più rappresentativi di altri e dall'altro, che le categorie abbiano una propria struttura interna e non siano discrete.

(4)

Ciò comporta che esista una gradualità sia all'interno della struttura della medesima categoria che tra categorie diverse.

I tratti salienti di ciascuna categoria sono detti proprietà prototipiche; il prototipo di una categoria sarà dunque quell'entità che presenta tutte le proprietà prototipiche, il cardine intorno al quale si costituiscono le categorie (Luraghi, 1993).

Intorno ai membri prototipici di ciascuna categoria si dispongono quelli meno prototipici, intesi come variazioni dal prototipo ovvero come deviazioni da una norma.

In linguistica il modello dei prototipi è stato applicato inizialmente alla semantica, relativamente all'analisi della denotazione di oggetti concreti (si veda Labov, 1973) per poi estendersi anche alla fonologia (si veda Taylor, 1989), alla morfologia (si veda Dressler, 1989), fino a coinvolgere anche la definizione delle stesse categorie linguistiche tra cui ad esempio classi di parole (si veda Langacker, 1987) e funzioni sintattiche (si veda Lakoff, 1987).

Come riportato da Luraghi (1993), relativamente alla sintassi, Winters (1990) ad esempio individua una serie di proprietà che una costruzione deve possedere affinché si possa parlare di prototipo sintattico, tra le quali ad esempio frequenza, produttività, trasparenza e naturalezza. Relativamente all'ordine dei costituenti sintattici, Winters parla dell'ordine Soggetto-Verbo-Oggetto (SVO) come di ordine prototipico per lingue come l'inglese e dell'ordine SOV come ordine prototipico per lingue come il giapponese, spesso sostituendo, senza fornire ulteriori specificazioni, al termine non prototipico il termine marcato (Winters 1990: 304-305).

Il problema nel definire con esattezza la relazione che intercorre tra i due concetti è legato probabilmente al fatto che si è ancora lontani dall'aver raggiunto un accordo su che cosa si intenda esattamente con il termine marcatezza (Luraghi, 1993;

Ciancaglini, 1994): «Capturing exactly what markedness means is by no means a straightforward task» (Rice 2003:390).

A partire dai primi anni 30 del novecento, quando fece la sua comparsa, il termine marcatezza è stato impiegato in vari ambiti della linguistica ed ha trovato ampi consensi all'interno di paradigmi diversi. Una descrizione molto dettagliata delle varie accezioni di significato che il termine marcatezza ha acquisito nel corso del

(5)

tempo si trova in Against Markedness (Haspelmath, 2006).

Secondo quanto riportato dall'autore, il senso originario del termine si deve a Trubeckoj, (si vedano Trubeckoj, 1931; 1939) il quale, nei suoi lavori distingue vari tipi di opposizioni fonologiche, tra cui le cosiddette opposizioni privative. Si tratta di coppie di fonemi in cui in un termine è presente una certa marca che lo differenzia dall'altro, in cui tale marca è assente. Si pensi ad esempio all'opposizione tra /b/ e /p/

in cui il primo elemento possiede la marca della sonorità la quale è assente nel secondo.

Jakobson (si vedano Jakobson, 1932; 1939; 1957) adotta la nozione di marca di Trubeckoj e la estende alle opposizioni di significato lessicale e grammaticale definendo un nuovo concetto di marcatezza, quella semantica. Un esempio classico è l'opposizione tra i termini osël e oslíca in russo; il primo, che non presenta marche di genere, può essere riferito a un esemplare maschile o essere rappresentativo della categoria in generale e dunque può occorrere in un maggior numero di contesti, mentre non si può dire lo stesso per il secondo, il quale porta con sé una marca, in questo caso di sesso femminile, che lo rende semanticamente più specifico di quello non marcato.

Dal punto di vista sintattico, una frase si dice marcata quando i costituenti che la compongono non occupano le loro posizioni canoniche, ma vengono dislocati al fine di veicolare significati particolari, ad esempio con l'obiettivo di mettere in rilievo o di evidenziare una porzione di un enunciato. La nozione di marcatezza sintattica è strettamente connessa a quella di marcatezza pragmatica: una frase si dice marcata pragmaticamente quando trasmette più informazioni di quelle ricavabili dalla somma dei significati dei suoi costituenti e può essere impiegata in un numero minore di contesti e situazioni linguistiche (Corpina, 2009).

Questi sono solo alcuni esempi delle diverse accezioni di significato che il termine ha acquisito nel corso del tempo. Come fa notare Haspelmath (2006), le sfumature che l'espressione marcatezza ha sviluppato sono così tante che spesso nemmeno i linguisti che lo adoperano sembrano conoscerle tutte.

Nel discutere i vari sensi che il termina marcatezza ha acquisito, Haspelmath (2006) fa riferimento ai lavori più influenti e significativi della letteratura, distinguendo dodici sensi diversi che raggruppa in quattro classi: marcatezza intesa come

(6)

complessità, come difficoltà, come anormalità e infine marcatezza intesa come correlazione multidimensionale tra diversi fattori. Il concetto di marcatezza a cui si farà riferimento in questo studio è quello che in Haspelmath viene associato alla nozione di anormalità; marcate saranno dunque quelle strutture linguistiche devianti rispetto allo standard, rare, che mostrano delle restrizioni relativamente ai contesti in cui possono essere impiegate.

Dopo aver passato in rassegna tutti e dodici sensi che vengono discussi in Against Markedness (Haspelmath, 2006), egli mostra come, in molti casi, non esista ragione di continuare a utilizzare il termine marcatezza per rendere conto di fenomeni linguistici che possono essere spiegati chiamando in causa concetti più attinenti all'ambito a cui dati fenomeni si riferiscono. Ad esempio, nel caso della marcatezza semantica, sarebbe più appropriato utilizzare termini che appartengono all'inventario lessicale semantico, come ad esempio iponimia e polisemia (già di per sé sufficienti a spiegare ad esempio il rapporto in cui si trovano due termini come osël e oslíca) senza che ci sia bisogno di richiamare il concetto di marcatezza.

In molti altri casi Haspelmath suggerisce di sostituire la nozione di marcatezza con quella di frequenza, parametro che, più che configurarsi come correlato della nozione stessa, rappresenterebbe uno dei fattori determinanti degli effetti che essa ha sulla morfosintassi, idea sostenuta anche da Bybee (2010) ma non condivisa da Mayerthaler (si veda Mayerthaler, 1981), secondo il quale, si tratterebbe di un processo opposto, riguardo al quale però, non fornisce nessuna spiegazione.

Che la frequenza d'uso avesse un ruolo chiave nello spiegare i fenomeni morfosintattici e lessicali relativi alla marcatezza era già stato notato da Greenberg, che, secondo quanto riportato da Croft (si veda Croft, 1990), aveva definito la frequenza come un fattore sempre presente nell'evoluzione delle categorie grammaticali.

Nella sua opera Universali del Linguaggio (1966), Greenberg esalta questo aspetto fino a sovrapporlo completamente al concetto stesso di marcatezza, sostenendo che

«(…) per definizione, marcato significa semplicemente meno frequente e non-marcato più frequente» (Greenberg, 1966:67).

Un fenomeno che sembra corroborare l'ipotesi che la frequenza sia da intendersi come fattore determinate della marcatezza e non viceversa è quello che in

(7)

Haspelmath (2006) e in altri autori (si vedano Mayerthaler, 1981; Tiersma, 1982;

Croft, 1990:135), viene indicato come markedness reversal.

Col termine markedness reversal ci si riferisce al fatto che, sotto specifiche circostanze, alcune categorie non marcate esibiscono comportamenti simili a quelli delle categorie marcate. Certe strutture morfologiche sono dette non marcate quando rispettano determinate caratteristiche, tra cui ad esempio quella di iconicità (come nel caso della formazione regolare del plurale dei nomi inglesi in cui il plurale rappresenta la forma marcata ed è codificata espressamente), uniformità morfologica (ad esempio nel caso dei verbi regolari e irregolari) e trasparenza della funzione svolta (si considerino ad esempio le desinenze delle prime tre persone del congiuntivo e dell'indicativo presente dell'italiano). Le strutture che rispettano queste proprietà sono preferite ad altre e sembra siano maggiormente presenti tra le varie lingue, vengano acquisite prima, siano processate in maniera più semplice, siano meno colpite da disturbi del linguaggio e siano più resistenti al cambiamento linguistico.

Tuttavia in alcune lingue, si verifica un fenomeno inverso: alcuni nomi, ad esempio, mostrano una codifica esplicita al singolare e non al plurale, come ad esempio nel caso del gallese plu-en/ plu-Ø (piuma/piume); questa situazione, sebbene in contrasto con il principio di iconicità, è perfettamente in linea con la spiegazione secondo cui sarebbe la frequenza a determinare la marcatezza di una costruzione: solo quei nomi che ricorrono più frequentemente al plurale non presentano, per quel genere, una codifica morfologica esplicita. Un altro esempio potrebbe essere dato dall'inglese priest/priestess o nurse/male nurse in cui la forma marcata è esibita dal membro che ricorre meno frequentemente.

1.2 Frequenza e complessità sintattica

Se dunque è chiaro che la nozione di frequenza risulta strettamente correlata al concetto di marcatezza, meno chiaro, all'interno del panorama linguistico moderno è quale sia il rapporto che lega la frequenza d'uso ad altri aspetti della grammatica:

«frequency is a puzzling property of language constructs, whose correlation with

(8)

other aspects of grammatical representations or other linguistic observations is not clear» (Merlo 2016).

Il punto di vista adottato da Merlo si differenzia sia da quello di ispirazione funzionalista secondo il quale «frequency and usage shape grammar», un approccio in cui le frequenze d'uso sono la causa e i fenomeni linguistici l'effetto (Merlo 2016), sia da quello cognitivista-generativista, secondo il quale la frequenza d'uso sarebbe completamente estranea alla grammatica.

In Merlo (2016), la frequenza d'uso diventa oggetto di indagine linguistica e viene proposta come la variabile dipendente di un modello in cui la variabile indipendente è costituita da una certa forma di complessità sintattica, con la quale la frequenza si correla in maniera inversa.

In particolare, viene presentato un esperimento nel quale vengono messi a confronto diversi modelli che delineano diverse rappresentazioni di complessità sintattica con l'obiettivo di verificare, a livello tipologico, quali aspetti di questa possano spiegare meglio le diverse distribuzioni di frequenza relative alla disposizione degli elementi all'interno del sintagma nominale.

Una possibile definizione di complessità sintattica è quella fornita da Berruto e Cerruti (2011), secondo i quali essa sarebbe una proprietà inerente al sistema linguistico e alla sua struttura, determinata dal concorrere di numerosi parametri, tra i quali: l'ordine lineare degli elementi, le relazioni strutturali e i rapporti gerarchici che si stabiliscono tra di essi (le dipendenze), le incassature di alcuni elementi all'interno di altri e la ricorsività delle strutture.

La complessità sintattica viene intesa in Merlo (2016) in termini generali, in due modi: complessità delle operazioni sintattiche e complessità a livello di rappresentazione. Relativamente a quest'ultima, che prende in considerazione la struttura dell'albero sintattico, uno dei parametri che ha un ruolo importante nel determinare le diverse distribuzioni di frequenza è rappresentato dalla lunghezza delle relazioni di dipendenza.

Si tratta di un fattore di complessità ampiamente riconosciuto nella letteratura linguistica, psicolinguistica e linguistico-computazionale (Lin, 1996; Gibson, 1998) che deriva dal principio, già individuato da Behagel (1932), secondo il quale, in una frase, le parole strettamente connesse tenderebbero a ricorrere le une vicine alle altre.

(9)

Studi recenti, effettuati a partire dall'evidenza rintracciata in corpora di grandi dimensioni annotati manualmente hanno permesso di verificare la validità di tale affermazione e di proporre misure quantitative per studiare le tendenze relative sia alle singole lingue che a livello cross-linguistico (Gildea e Temperley, 2010; Futrell et al., 2015; Gulordava e Merlo, 2015).

I risultati mostrano che le strutture sintattiche che presentano relazioni di dipendenza brevi tendono a essere preferite a strutture che presentano relazioni di dipendenza più lunghe.

In particolare, secondo il principio noto come DLM (dependency length minimization) tra i vari ordini in cui gli elementi possono disporsi viene preferito quello che minimizza la lunghezza della dipendenza, dove tale lunghezza è misurata in termini di parole che intercorrono tra testa e dipendente (Gulordava e Merlo, 2015;

Gulordava et al., 2015).

Alcune motivazioni per cui le dipendenze brevi sarebbero preferite a quelle lunghe sarebbero legate al fatto che, a livello cognitivo, le prime risulterebbero più semplici sia da produrre che da comprendere (Futrell et al., 2015). Ciò è vero anche a livello di processing computazionale. Come riportato da McDonald e Nivre (2007) l'analisi di relazioni di dipendenza lunghe costituisce una delle principali fonti di errore dei parser statistici. Nello specifico, relazioni di dipendenza lunghe e alberi sintattici profondi sono considerati due tra i principali elementi di complessità sintattica (Frazier, 1985; Gibson, 1998).

In Gulordava e Merlo (2015) viene presentato un esperimento che ha come scopo quello di stimare l'impatto a livello di parsing di due fattori: la lunghezza della dipendenza, misurata in termini di DLM e la variabilità nell'orientamento della relazione, ovvero la variabilità dell'ordine in cui il dipendente può ricorrere rispetto alla testa sintattica, quantificata, nell'esperimento presentato, in termini di entropia.

Per eseguire l'esperimento vengono realizzate delle treebank artificiali che corrispondono a permutazioni delle treebank originali in cui vengono minimizzate le lunghezze delle dipendenze e la variabilità relativa all'ordine testa-dipendente.

Vengono quindi messe a confronto le performance dei parser relativamente ai due set, quello originale e quello permutato. I risultati dimostrano come effettivamente i parser mostrino un calo in accuratezza nell'analizzare dipendenze più lunghe e come

(10)

la variabilità dell'ordine delle parole abbia, sul parsing, un impatto maggiore che quello della lunghezza delle dipendenze. I risultati dell'esperimento indicano come tra complessità sintattica e frequenza d'uso esista un rapporto di correlazione inversa;

sia a livello cognitivo, che a livello computazionale, le strutture meno complesse tendono ad essere “preferite” e dunque ad essere più frequenti.

Come osservato nel paragrafo 1.1, un'altra correlazione inversa è quella individuata tra marcatezza e frequenza, sulla base della quale è possibile affermare che le strutture sintattiche marcate sono caratterizzate da una bassa frequenza d'occorrenza.

Sulla base di quanto detto fin qui ci si aspetta dunque che le nozioni di prototipicità (o marcatezza), complessità e frequenza siano strettamente correlate tra loro. Tale correlazione verrà indagata in maniera dettagliata nella fase di analisi dei dati (capitolo 4). Di seguito viene delineato l'ambito all'interno del quale le nozioni fin qui introdotte hanno trovato applicazione per poi descrivere in cosa consiste l'approccio innovativo di questo studio.

1.3 Rappresentazione sintattica: paradigmi e approcci

L'annotazione sintattica, ovvero la codifica esplicita delle informazioni di tipo sintattico contenute in un testo, costituisce la base di molte applicazioni di NLP e rappresenta il punto di partenza per livelli successivi di analisi, come ad esempio quella semantica; ha inoltre un ruolo di primo piano in applicazioni quali machine translation, question answering e information extraction (Nivre, 2015).

I principali approcci alla rappresentazione sintattica nei corpora in linguistica computazionale sono due: la rappresentazione a costituenti, che si basa sull'identificazione di combinazioni di elementi (sintagmi) e dei loro livelli di incassamento gerarchico, e la rappresentazione a dipendenze, in cui viene fornita una descrizione della frase in termini di relazioni binarie asimmetriche che si instaurano tra le parole che la costituiscono (Lenci et al., 2009). Tali relazioni intercorrono tra due elementi, la testa sintattica (head) e il dipendente (dependent).

Negli ultimi anni è cresciuto sempre di più l'interesse nei confronti di quest'ultimo tipo di rappresentazione, tanto che l'annotazione sintattica a dipendenze (o dependency parsing) rappresenta uno dei principali framework computazionali di

(11)

analisi sintattica ad oggi utilizzato.

La rappresentazione a dipendenze si presta bene a rappresentare strutture sintattiche discontinue (fenomeno noto come projectivity), ovvero strutture testa-dipendente che sono separate da un elemento che domina la testa sintattica, interponendosi tra essa e il suo dipendente; tale discontinuità può essere dovuta o a relazioni di dipendenza molto lunghe o all'ordine relativamente libero delle parole di una lingua (McDonald e Nivre, 2007).

I principali paradigmi di analisi sintattica automatica si differenziano essenzialmente per le metodologie adottate nella risoluzione del compito di annotazione.

Nell'approccio grammar driven, l'annotazione sintattica del testo è realizzata utilizzando grammatiche formali che definiscono un linguaggio L il quale costituisce l'insieme delle frasi che si possono derivare a partire dalla grammatica data; l'utilizzo di regole e restrizioni permette al sistema di scegliere una rappresentazione sintattica della frase piuttosto che un'altra. Tale metodologia risente però delle difficoltà di rappresentare la conoscenza di una lingua a partire da un insieme finito di regole e si scontra con aspetti che sono intrinseci al linguaggio naturale, tra cui ad esempio l'ambiguità o la variazione a seconda del dominio di conoscenza.

Negli ultimi anni, la grande disponibilità di risorse linguistiche come lessici, thesauri e corpora annotati, ha fatto sì che lo sviluppo di programmi di analisi sintattica si orientasse sempre di più nella direzione dei sistemi di tipo data driven.

Nell'approccio data driven, l'annotazione sintattica diventa un compito di classificazione probabilistica: a partire da un corpus di addestramento annotato manualmente (training corpus), in cui a ciascun elemento è associata un etichetta che corrisponde alla relativa classe di appartenenza, l'algoritmo crea un modello statistico dal quale è in grado di apprendere le caratteristiche di un determinato elemento e di quantificare, per ciascuna di esse, il contributo nel determinare la classe di appartenenza dell'elemento in analisi. Nella fase di test l'algoritmo estrae, a partire da un insieme di testi sconosciuti, le varie caratteristiche per mezzo delle quali, sulla base del modello statistico elaborato in precedenza, è in grado di attribuire a ciascun elemento la classe di appartenenza attraverso un processo di inferenza induttiva (Dell'Orletta e Venturi, 2016).

Sebbene gli approcci di analisi sintattica automatica data driven si rivelino più

(12)

efficienti, in quanto superano i limiti imposti dai modelli simbolici, tuttavia mostrano un calo in accuratezza quando vengono applicati a testi che includono domini diversi da quello del corpus su cui il parser è stato addestrato; in questo caso la soluzione consiste nell'introdurre nel corpus di addestramento un insieme di testi che siano rappresentativi della varietà linguistica o del genere testuale che si intende analizzare.

Questo tipo di approccio supervisionato comporta comunque delle problematiche, essenzialmente legate ai costi, sia in termini di tempo che di competenze necessarie per realizzare l'annotazione manuale dei corpora (Dell'Orletta e Venturi, 2016).

Per far fronte a questo problema, negli ultimi anni è cresciuto l'interesse verso metodologie e tecniche che siano in grado di fornire una valutazione circa l'affidabilità dell'annotazione sintattica eseguita per mezzo di strumenti automatici, sia in relazione all'intera frase (Dell'Orletta et al., 2011) e quindi all'intero albero sintattico generato, sia limitatamente al singolo arco di dipendenza (Dell'Orletta et al., 2013; Che et al., 2014).

Queste tecniche vengono impiegate con l'obiettivo di migliorare l'accuratezza dei parser statistici, visto l'uso sempre più diffuso dell'annotazione sintattica come punto di partenza per un'ampia gamma di applicazioni finalizzate all'estrazione di informazioni, dove diventa estremamente importante poter predire l'affidabilità dei dati annotati automaticamente per ottenere performance migliori.

Algoritmi di questo tipo sono ad esempio RADAR (ReliAble Dependency Arc Recognition), un classificatore binario che classifica ogni arco di dipendenza come corretto o incorretto (Che et al., 2014) e LISCA, (Linguistically Driven Selection of Correct Arcs), il quale invece fornisce in output un ranking degli archi di dipendenza ordinati dal più corretto al meno corretto, sulla base di un determinato punteggio che viene assegnato a seconda della plausibilità dell'annotazione (Dell'Orletta et al., 2013), tenendo conto di un insieme di caratteristiche linguistiche che rappresentano indicatori di complessità (Dell'Orletta e Venturi, 2016).

Sebbene questi algoritmi vengano generalmente applicati a corpora annotati automaticamente, sono attestati anche usi su corpora con annotazione manualmente rivista in cui lo scopo diventa quello di identificare eventuali errori di annotazione (si veda Dickinson, 2015).

(13)

L'approccio innovativo di questo studio consiste nell'applicare uno degli algoritmi appena descritti, in questo caso LISCA, a una treebank con annotazione sintattica manualmente rivista, esplorando l'ipotesi che il ranking delle relazioni restituito dall'algoritmo possa essere inteso come un indicatore del grado di prototipicità (o marcatezza) della relazioni stesse. Nel prossimo capitolo verranno descritti nel dettaglio le risorse, gli strumenti e la metodologia adottata.

(14)

2 Risorse, strumenti e metodi

Le analisi linguistiche realizzate nel presente studio sono state svolte adottando una precisa metodologia di indagine che ha richiesto l'uso di tecnologie sviluppate in ambito linguistico-computazionale. Di seguito vengono presentati le risorse e gli strumenti utilizzati: la treebank (IUDT), lo schema di annotazione sintattica (UD) e l'algoritmo per la selezione delle dipendenze (LISCA). Viene infine descritto il procedimento in base al quale i dati sono stati elaborati.

2.1 La treebank IUDT

La treebank che è stata utilizzata in questo studio è la IUDT, Italian Universal Dependency Treebank. Essa è il risultato finale di diverse operazioni di conversione e armonizzazione condotte a partire da treebank già esistenti che hanno portato alla creazione di una risorsa a cui ci si potesse riferire come standard per la lingua italiana per quanto riguarda il parsing a dipendenze. É noto che disporre di una treebank in formato standard migliora notevolmente la sua utilità, aumentando il numero di applicazioni per i quali essa può essere impiegata e permettendo l'applicazione di una vasta gamma di strumenti. Ciò ha anche un impatto sull'affidabilità dei risultati raggiunti e permette di confrontarli con quelli di altre risorse (Bosco et al., 2013).

Il primo passo verso la standardizzazione è stato un processo di merging e conversione di due corpora differenti sia in quanto a schema di annotazione che a livello di composizione, il quale ha portato alla creazione della Merged Italian Treebank (MIDT): la TUT, la Turin University Treebank (Bosco et al. 2000), e la ISST-TANL, inizialmente rilasciata come ISST-CoNLL in occasione del CoNLL-2007 shared task (Montemagni e Simi, 2007).

La TUT include 3.452 frasi dell'italiano (102.150 tokens in formato TUT e 93.987 in formato CoNLL) ed è rappresentativa di cinque diversi generi testuali (articoli di giornale, codice civile, Jrc acquis corpus, Wikipedia e la Costituzione italiana) mentre la ISST-TANL contiene 3.109 frasi (71.285 tokens in formato CoNLL) che

(15)

dovrebbero esemplificare il linguaggio di uso generale. I testi estratti da articoli di giornale e periodici sono stati selezionati appositamente per coprire una vasta gamma di argomenti diversi, tra cui politica, economia, cultura, scienza, salute, sport e tempo libero. La metodologia utilizzata per armonizzare e fondere i diversi schemi di annotazione si è basata su un'analisi comparativa tra gli schemi delle due risorse, la quale ha portato a identificare un insieme di costruzioni sintattiche per cui le annotazioni concordano ma ha anche messo in luce variazioni e differenze nei criteri di selezione della testa, nell'inventario dei tipi di dipendenze, nella granularità della rappresentazione di specifiche costruzioni sintattiche ecc. Ciò ha portato alla definizione di un nucleo di costruzioni sintattiche che fungessero da ponte tra le due annotazioni: il MIDT tagset, costituito da 21 tag di dipendenze, in opposizione ai 72 di TUT e ai 29 di ISST-TANL, entrambi in formato CoNLL (Bosco et al., 2012).

A questo punto, tramite un processo di conversione, per i cui dettagli si rinvia a (Bosco et al., 2013) è stata ottenuta la ISDT, Italian Stanford Dependency Treebank, unica treebank per l'italiano annotata secondo lo schema delle Stanford Dependencies, rilasciata in occasione del Dependency Parsing shared task di Evalita-2014 (Bosco et al. 2014).

Figura 2.1.1: processo che ha portato alla creazione della ISDT

(16)

La ISDT è stata quindi utilizzata come punto di partenza per la definizione, ancora una volta mediante conversione, di IUDT, la treebank annotata secondo il modello delle Universal Dependencies utilizzato in questo studio. Nella tabella seguente sono riportate le fonti e la composizione della IUDT.

Figura 2.1.2: fonti e composizione della treebank IUDT

(17)

2.2 Schema di annotazione

Lo schema di annotazione sintattica utilizzato per annotare la treebank IUDT è quello delle Universal Dependencies.

Il progetto Universal Dependecies è il risultato della fusione di diverse iniziative la cui filosofia generale è quella di fornire un inventario di categorie dalla valenza potenzialmente universale, dunque trasversali al maggior numero di lingue possibile, che siano valide a livello interlinguistico (Nivre et al., 2016).

La prima versione delle Universal Dependencies (UD v1) è stata rilasciata a Ottobre 2014 e l'ultima release (Novembre 2015) metteva a disposizione 33 dataset per altrettante lingue diverse. L'ultima versione, Universal Dependencies 2.0, è stata ufficialmente rilasciata il 1 Marzo 2017 e fornisce 70 treebank per 50 lingue diverse, con dataset che variano in grandezza a seconda della lingua, a partire da 1000 token fino a superare il milione e mezzo.

Lo schema di annotazione si basa su un'evoluzione delle Stanford Dependencies (de Marneffe et al., 2006; 2008; 2014), Google universal part-of-speech tags (Petrov et al., 2012) e il tagset morfosintattico Interset interlingua (Zeman, 2008).

Consistente, chiaro e semplice, oltre a essere un punto di riferimento come standard di annotazione a livello morfosintattico e sintattico a dipendenze, Universal Dependencies risponde a esigenze di tipo pratico che lo rendono sfruttabile in diversi altri ambiti di applicazione del Natural Language Processing, come ad esempio applicazioni di estrazione di relazioni o traduzione automatica (Nivre, 2015).

In questo studio si farà riferimento alla versione 1.0.

2.2.1 Annotazione sintattica

Il principio alla base dell'annotazione sintattica a dipendenze di UD, detto lexicalism, è l'idea che le parole sintattiche siano le unità fondamentali dell'annotazione grammaticale. Poiché non sempre esiste una corrispondenza esatta tra parola sintattica e parola intesa in senso ortografico (ovvero unità separata da spazi

(18)

bianchi), la relazione tra la rappresentazione testuale originale e la segmentazione linguistica delle parole deve essere trasparente e ricostruibile.

Si tratta di un principio noto come principio di recuperabilità; un esempio è dato dalle forme contratte o dai clitici: essi vengono separati dai token ai quali si appoggiano per essere analizzati sintatticamente ma sono comunque riportati per intero (Nivre, 2015).

L'annotazione sintattica a dipendenze consiste in un sistema gerarchico di relazioni di dipendenza tra le parole che si dispongono a formare una struttura ad albero radicato.

Una relazione particolare è quella svolta dalla testa sintattica della frase che si configura come radice dell'albero e che viene etichettata con root.

Mentre tutte le altre parole all'interno della frase hanno una testa da cui dipendono, la root invece non dipende da nessun'altra parola, se non da una radice implicita nozionale, come si vede in figura.

Figura 2.2.1.1: esempio di annotazione sintattica relazione root

Dunque fatta eccezione per la radice, le parole dipendono le une dalle altre secondo i seguenti principi:

• le parole di contenuto sono collegate tra loro per mezzo di relazioni di dipendenza;

• le parole funzionali si legano alla parola che specificano;

• la punteggiatura si lega alla testa della clausola o della phrase in cui compare.

In questo modo, dando priorità alle parole piene aumenta la probabilità di ritrovare strutture sintattiche parallele tra le varie lingue, poiché spesso, le parole funzionali

(19)

realizzano funzioni di tipo prettamente morfologico.

L'albero risultante è un albero completo in cui i nodi interni sono costituiti da parole di contenuto e le foglie da parole funzione o da segni di punteggiatura.

Una conseguenza di quanto appena detto è che le parole funzionali non abbiano, di norma, dipendenti. In particolare, quando più parole funzionali fanno riferimento ad una stessa testa sintattica esse appaiono come nodi fratelli e mai in una struttura annidata.

Si distinguono quattro casi in cui le parole funzionali svolgono eccezionalmente la funzione di testa:

• locuzioni propositive o congiuntive: le parole che formano la locuzione sono connesse tra di loro dalla speciale relazione di dipendenza mwe (multiword expressions). Quando la locuzione svolge un ruolo funzionale il suo primo componente apparirà superficialmente come una parola grammaticale con dipendenti.

• parole grammaticali coordinate: così come avviene per le parole piene, il primo elemento coordinato viene trattato come testa della congiunzione e degli altri elementi coordinati.

• modificatori: una ristretta classe di modificatori, come elementi di negazione (neg) e avverbi (advmod e nmod), possono dipendere da parole grammaticali.

• quando la testa di una parola piena è elisa, quest'ultima viene promossa a svolgere la funzione normalmente assunta dalla testa assente.

La versione 1.0 di UD presenta 40 relazioni sintattiche organizzate secondo una ripartizione che le distingue a livello di struttura nominale, frasale e di modificazione (nominals, clauses and modifier).

Un'ulteriore differenziazione separa gli argomenti nucleari, cioè soggetto, oggetto e complementi indiretti dalle altre tipologie di dipendenti, mentre non viene fatta nessuna distinzione tra argomenti e aggiunti né tra proposizione finite e non finite.

Esiste invece una differenza tra modificazione nominale e modificazione verbale: ad esempio, la relazione advcl (adverbial clause) indica una clausola che modifica una testa verbale mentre acl (clausal modifier of noun) indica una clausola che invece

(20)

modifica un argomento nominale.

Oltre alle relazioni di dipendenza universali di base è sempre possibile definire e aggiungere sottotipi di relazioni specifici per costruzioni rilevanti in una determinata lingua. Di seguito la schema delle relazioni di dipendenza per l'italiano fornito dal sito ufficiale di UD.

Figura 2.2.1.2: tagset sintattico di UD

(21)

2.3 LISCA (Linguistically-Driven Selection of Correct Arcs)

LISCA viene utilizzato per fornire una valutazione dell'affidabilità dell'annotazione sintattica eseguita per mezzo di strumenti automatici relativamente al singolo arco di dipendenza. Come si è detto nel capitolo introduttivo, in questo studio l'algoritmo verrà applicato a una treebank con annotazione manualmente rivista, in questo caso la IUDT.

LISCA utilizza un approccio di tipo non supervisionato e opera nel seguente modo:

1. prende in input un insieme di frasi analizzate sintatticamente in maniera automatica e colleziona statistiche a partire da un insieme di tratti definiti linguisticamente motivati. In questa fase vengono quindi acquisite le scelte che il parser ha fatto in determinati contesti linguistici.

2. per ogni arco di dipendenza LISCA calcola un quality score basandosi sulle statistiche elaborate durante il passo 1, secondo l'intuizione che le scelte prese con più frequenza dal parser in contesti linguistici simili, possano essere considerate più affidabili (Dell'Orletta e Venturi, 2016). Fornisce quindi in output un ranking di relazioni ordinate in maniera decrescente per grado di plausibilità dell'annotazione.

Un arco di dipendenza è definito come una tripla (d, h, t) dove:

• d rappresenta il dipendente

• h rappresenta la testa sintattica

• t è il tipo di relazione di dipendenza che lega d ad h

I tratti linguistici che LISCA utilizza hanno come scopo quello di descrivere l'arco sintattico tenendo conto delle proprietà strutturali, sia locali che globali, dell'albero che lo include e rappresentano un elemento chiave all'interno dell'intero processo.

(22)

Un primo insieme di tratti che vengono considerati ha come scopo quello di individuare il posizionamento dell'arco all'interno dell'albero sintattico, sia relativamente alla sua struttura gerarchica che rispetto all'ordine lineare delle parole.

Oltre a questi tratti globali vengono considerati anche tratti locali, come ad esempio la lunghezza della dipendenza, la direzione dell'arco e la sua plausibilità. Tali caratteristiche vengono definite linguisticamente motivate: da una parte perché si basano sulla struttura dell'albero sintattico e dall'altra perché si concentrano su quelle strutture linguistiche riconosciute, in letteratura, come indicatori di complessità sia a livello sintattico che di parsing.

Una caratteristica complessa che ha come obiettivo quello di individuare la posizione della testa sintattica della relazione di dipendenza in analisi all'interno dell'intera frase sfrutta informazioni come la distanza che intercorre tra il dipendente d e la radice, quella tra d e il nodo foglia più vicino e quella tra d e il nodo foglia più lontano. A partire da queste informazioni vengono ricostruiti i cammini che vanno dalla radice al nodo foglia più vicino e a quello più lontano del dipendente passando per t. In entrambi i casi vengono selezionati i cammini più brevi, la cui lunghezza è calcolata in termini di nodi. Questo permette, inoltre, di ricostruire anche i livelli di incassamento dell'arco di dipendenza.

A questo tratto se ne aggiungono altri due che riguardano i sottoalberi e che servono a ricostruire la posizione di d tenendo in considerazione l'ordine lineare delle parole.

Il primo tratto sfrutta informazioni a partire dal sottoalbero di d del quale vengono contati tutti i suoi dipendenti più prossimi, i quali vengono divisi in due classi a seconda che precedano (pre-dependent) o seguano (post-dependent) d.

Il secondo tratto riguarda invece i nodi fratelli di d che vengono ricostruiti a partire dal sottoalbero dominato dalla testa di d. Anche in questo caso tali nodi vengono ripartiti in base alla posizione che occupano rispetto al dipendente.

Un'altra caratteristica riguarda la lunghezza e la direzione dell'arco di dipendenza. Si tratta di un tratto complesso, che combina due diversi tipi di informazione: la lunghezza della dipendenza (indicata con DL), cioè la distanza lineare tra la testa e il dipendente e la direzione dell'arco (indicata con DD) che permette di distinguere tra archi in cui il dipendente precede o segue la testa. Per ogni relazione di dipendenza che coinvolge due parole wi e wj, se wi è la testa e wj il dipendente, allora DL può

(23)

essere definita come la differenza i-j. In questo caso le parole adiacenti avranno una DL uguale a 1. Se i>j DL è un numero positivo e dunque la testa segue il dipendente. Al contrario, se i<j allora DL è un numero negativo e la testa lo precede.

Un'altra caratteristica che a differenza delle precedenti non si basa sulle caratteristiche globali dell'albero ma su quelle locali del singolo arco di dipendenza è l'ArcPOSfeat. Essa valuta la plausibilità di un arco di dipendenza basandosi sulle POS del dipendente, della testa e della testa della testa. Utilizzata per la prima volta in (Dell'Orletta et al., 2011), si è rivelata valida anche per la valutazione dei singoli archi di dipendenza. Il punteggio finale (quality score) che viene assegnato a ogni arco di dipendenza consiste nel risultato della combinazione di determinati pesi che vengono associati alle caratteristiche globali e locali che caratterizzano ciascuna relazione. Una descrizione dettagliata si trova in (Dell'Orletta et al., 2013), a cui si rimanda.

(24)

Figura 2.3.1: caratteristiche utilizzate da LISCA per il calcolo della plausibilità dell'arco sintattico

2.3.1 L'ordinamento di LISCA

L'output restituito da LISCA consiste in una lista di 246.440 relazioni di dipendenza ordinate in un ranking decrescente, il quale è stato poi suddiviso in 10 fasce, ciascuna delle quali è costituita da 24.644 relazioni. Per ogni coppia testa-dipendente vengono fornite informazioni relative alla posizione all'interno della treebank e all'annotazione sintattica e morfosintattica.

Tale lista si compone di 20 attributi molti dei quali fanno riferimento a campi della treebank IUDT:

1. ID_SENT: indica il numero della frase di riferimento da cui la relazione è stata estratta;

2. ID_DEP: si riferisce all'ID del dipendente;

3. RIGA: si riferisce al numero di riga della treebank in cui compare il dipendente della relazione in analisi;

4. DEP: si riferisce a una parola o a un simbolo di punteggiatura, intesi come unità minima all'interno di una frase;

5. DEP_LEMMA: indica il lemma del dipendente;

6. DEP_CPOS: contiene la POS della parola a granularità coarse-grained;

7. DEP_POS: contiene la POS della parola a granularità fine-grained;

8. DEP_FEAT: riporta informazioni sui tratti morfologici del dipendente;

9. ID_HEAD: riporta l'ID della testa sintattica da cui il dipendente è retto. Può assumere il valore di un ID o essere 0 se la testa è anche la root;

10. DEP_REL: indica la relazione di dipendenza sintattica che lega il dipendente in analisi alla sua testa sintattica;

11. LISCA: corrisponde al punteggio di plausibilità attribuito dall'algoritmo alla relazione di dipendenza;

12. TESTA: assume lo stesso valore per tutti i record e non risulta significativo

(25)

ai fini dell'analisi;

13. ID_HEAD_HEAD: riporta l'ID del nodo “nonno” del dipendente. Può assumere il valore di un ID o essere mancante se la testa sintattica è anche la root;

14. HEAD_LEMMA: indica il lemma della testa sintattica;

15. HEAD_CPOS: contiene la POS della testa sintattica a granularità coarse-grained;

16. HEAD_POS: contiene la POS della testa sintattica a granularità fine-grained;

17. HEAD_FEAT: riporta informazioni sui tratti morfologici della testa sintattica;

18. HEAD_HEAD_REL: indica la relazione di dipendenza sintattica che lega il dipendente in analisi con il nodo “nonno”;

19. EXTRA_1: è un campo vuoto che viene utilizzato per qualsiasi annotazione eventuale; se non è presente nessuna annotazione viene utilizzato l'underscore;

20. EXTRA_2: è un campo vuoto che viene utilizzato per qualsiasi annotazione eventuale, se non è presente nessuna annotazione viene utilizzato l'underscore.

Prima di procedere con le analisi si è ritenuto necessario ridurre il numero di attributi eliminando i seguenti campi e mantenendo soltanto quelli significativi:

• ID_DEP e ID_HEAD_HEAD in quanto presenti due volte all'interno del dataset:

• TESTA in quanto non esprime alcun valore significativo;

Sono stati invece aggiunti gli attributi DIST, FASCIA e POS_DEP in quanto necessari per ricavare informazioni utili:

• DIST: è calcolato come differenza numerica tra ID_HEAD e ID_DEP e rappresenta la distanza lineare tra test a e dipendente;

• FASCIA: riporta la fascia in cui la relazione è inserita, calcolata sulla base

(26)

della divisione del ranking LISCA in 10 fasce;

• POS_DEP: indica la posizione del dipendente rispetto alla testa e può assumere due valori: pre e post.

2.4 Metodologia

L'elaborazione dei dati ha seguito un processo che si è svolto in più fasi:

• In una prima fase è stato annotato in maniera automatica un corpus di testi giornalistici italiani. Il corpus utilizzato è composto da 1.104.237 frasi estratte da articoli del quotidiano La Repubblica, selezionato appositamente in quanto adatto a rappresentare lo standard per quanto riguarda la lingua italiana scritta; esso è parte del CLIC-ILC Corpus (Marinelli et al., 2003). Il corpus giornalistico è stato annotato a livello morfosintattico con l'ILC-POS-Tagger (Dell'Orletta, 2009) e a livello sintattico con il parser statistico a dipendenze DeSR (Attardi et al., 2009). Gli strumenti di annotazione sono stati addestrati sulla treebank IUDT, utilizzando lo schema di annotazione sintattica delle Universal Dependencies.

• Nella seconda fase, LISCA ha elaborato un modello statistico a partire dalle caratteristiche linguistiche estratte probabilisticamente dal corpus annotato in maniera automatica nella fase precedente.

• Infine, nell'ultima fase, LISCA è stato applicato alla treebank sulla quale gli strumenti di annotazione sono stati addestrati, sfruttando il modello statistico elaborato nella fase 2 a partire dal corpus di testi giornalistici annotato automaticamente nella fase 1.

L'algoritmo ha restituito in output il ranking di tutte le relazioni ordinate in maniera decrescente sulla base della plausibilità dell'annotazione, il quale costituisce il punto di partenza delle analisi realizzate.

(27)

3 Soggetto e oggetto diretto

In questo capitolo verranno presentate le relazioni sintattiche analizzate: soggetto e oggetto diretto. Entrambe verranno brevemente descritte sia dal punto di vista linguistico che in base alla rappresentazione all'interno della risorsa utilizzata, la treebank IUDT.

3.1 Il soggetto nella tradizione grammaticale

La definizione di soggetto è sempre stata una definizione molto controversa. Nella tipica definizione scolastico-tradizionale il soggetto è descritto come l'elemento della frase che indica colui che compie l'azione, identificando, in questo modo, una specifica funzione grammaticale con il ruolo di agente. Tale definizione si rivela adeguata in un buon numero di casi, ma non in tutti: il soggetto può essere facilmente associato ad altri ruoli tematici. Un'altra definizione tradizionale molto diffusa tende a identificare il soggetto con il tema dell'enunciato, ovvero ciò di cui si parla, l'elemento di cui il resto della proposizione si pone come commento (Svolacchia, 1999). Ma è facile fornire esempi in cui tema e soggetto non coincidono; si pensi ad esempio a una frase come a Milano, non ci sono mai stata.

Le difficoltà che si incontrano nell'individuare una definizione univoca sono legate principalmente al fatto che si tratta di una funzione astratta e complessa alla quale contribuiscono fattori di varia natura che spaziano tra diversi livelli di descrizione linguistica. Per questo motivo, nella riflessione linguistica si sono susseguite analisi complesse basate sulla descrizione di caratteristiche che distinguono il soggetto dalle altre funzioni argomentali (Simone, 2008: 532-359; La Fauci, 2009:51:64).

In italiano, la funzione di soggetto può essere svolta da un nome, da un pronome o da una frase; la sua proprietà fondamentale è quella di determinare l'accordo a livello di persona e numero con i verbi di modo finito. Nel caso dei verbi copulativi e intransitivi, e nel caso dei verbi al passivo, l'accordo si estende anche al genere.

A questa proprietà se ne correlano altre formali e interpretative: il soggetto

(28)

tipicamente non è introdotto da una preposizione e mostra, se presenti, le marche che ne caratterizzano le flessione al nominativo, ad esempio nel caso del pronome personale di prima singolare (La Fauci, 2009).

Inoltre, è opportuno distinguere tra soggetto grammaticale e soggetto logico: mentre il primo indica chi compie l'azione e concorda con il verbo, il secondo, che indica chi compie l'azione, può non coincidere con il soggetto grammaticale (Bonomi et al., 2003).

Un'altra peculiarità dell'italiano è che, a determinate condizioni, l'argomento che svolge la funzione di soggetto può essere tranquillamente omesso, convogliando i tratti di numero e persona nella forma verbale. Essendo una lingua a soggetto nullo, quando esso è costituito da un pronome, salvo il caso di una particolare ricerca di enfasi, l'italiano può ometterlo, in quanto la morfologia del verbo consente di recuperare senza ambiguità, a parte poche eccezioni (ad esempio le prime tre persone del congiuntivo), informazioni su persona e numero. Addirittura nel caso di predicati meteorologici, il soggetto non deve essere espresso, altrimenti la costruzione risulta agrammaticale. (La Fauci, 2009).

Per quanto riguarda la posizione che il soggetto occupa a livello dell'enunciato, l'osservazione di molte lingue diverse ha suggerito quasi all'unanimità come essa sia assai costante interlinguisticamente. Gli studi pionieristici di Greenberg (1966) hanno mostrato come le varie lingue del mondo tendano a distribuirsi in gruppi caratterizzati da affinità strutturali a prescindere dalla loro famiglia di appartenenza e dal luogo in cui sono parlate. In particolare, la disposizione dei costituenti sintattici all'interno delle frasi nucleari nella maggior parte delle lingue analizzate tende a seguire l'ordine Soggetto + Verbo + Oggetto (SVO) o Soggetto + Oggetto + Verbo (SOV).

In italiano, l'ordine non marcato corrisponde alla sequenza Soggetto + Verbo (Bonomi et al., 2003; La Fauci, 2009) ma ciò non sempre si verifica.

Sia per il soggetto, come per gli altri costituenti, sono possibili operazioni di focalizzazione che hanno come scopo quello di evidenziarlo, presentarlo come elemento nuovo o inatteso.

Questo processo di messa in rilievo si realizza sia nella lingua scritta che nella lingua parlata. Nella lingua scritta servendosi di strumenti sintattici, ad esempio, spostando i

(29)

costituenti dalla loro posizione canonica; nel parlato, anche per mezzo di strumenti prosodici, ad esempio modificando l'intonazione dell'enunciato, senza intaccarne la struttura.

Non sempre però modificazioni rispetto all'ordine standard dei costituenti si possono spiegare in base a condizionamenti voluti di ordine pragmatico; talvolta tali modificazioni rispondono essenzialmente a ragioni di tipo strutturale. È questo il caso dei verbi che ammettono il soggetto in posizione postverbale senza dare luogo a strutture pragmaticamente marcate.

In italiano, così come in molte altre lingue, la classe dei verbi intransitivi non è omogenea al suo interno ma si divide in altre due classi, quella dei verbi inergativi, come ridere e dormire, il cui soggetto si comporta come quello dei verbi transitivi, e quella dei verbi inaccusativi come partire e arrivare, in cui il soggetto condivide certe proprietà con l'oggetto diretto dei verbi transitivi (Santi, 2006).

Si pensi ad esempio, nel caso degli inaccusativi, a costruzioni come è arrivato il treno o si è rotto un bicchiere, o a una frase al passivo come sono state prese misure di sicurezza eccezionali. In tutti questi casi il soggetto è collocato dopo il verbo senza però dare origine ad una costruzione marcata dal punto di vista pragmatico.

I verbi inaccusativi e quelli al passivo condividono tra loro numerose proprietà con (Salvi, 1988); tra queste proprietà ci sono ad esempio quella di determinare l'accordo del participio passato delle perifrasi verbali come in le provviste sono arrivate, la possibilità di essere pronominalizzati con il clitico partitivo ne come in ne sono arrivate molte quando la manifestazione dell'oggetto è quantificata, la possibilità di ricorrere nel costrutto participiale assoluto nonché, come si è già detto, quella di occorrere in posizione postverbale in costruzioni non marcate, come nel caso di sono arrivati i libri (La Fauci 2009; Jezek 2003).

Alla luce di queste proprietà, secondo la formulazione originaria dell’ipotesi inaccusativa, (si veda Perlmutter, 1978) il soggetto di questi verbi sarebbe in realtà un soggetto solo a livello superficiale della frase e un oggetto diretto a livello della struttura profonda. A sostegno di questa ipotesi ci sarebbero costruzioni come:

(1) è mancata la luce / *la luce è mancata

in cui la costruzione con soggetto in posizione preverbale risulterebbe addirittura innaturale (Jezek, 2003).

(30)

Casi come (1) sembrerebbero rendere valida l'ipotesi proposta da Lonzi (1974), (riportata in Cinque (1977)), che, relativamente alla sottoclasse dei verbi monoargomentali, definiti di accadimento (come ad esempio bruciare, rompersi, arrivare), la forma non marcata sia VS; tuttavia nella letteratura in merito le risposte divergono (Cinque, 1977).

In termini generali, la possibilità di collocare il soggetto dopo il verbo pare elevata per i verbi monoargomentali e, invece, assai ridotta per i verbi bi e triargomentali, almeno per quanto riguarda la diatesi attiva. Fatta eccezione per i casi come (1) che possono sollevare dubbi su quale effettivamente sia l'ordine marcato e quello non marcato, dei due, argomento/predicato e predicato/argomento, il primo è sempre accettabile ed estensibile, ha cioè minori limitazioni di impiego rispetto al secondo, ed è per questo definito non marcato (Gruppo di Padova, 1974).

La possibilità di ricorrere in un numero maggiore di contesti è, come si è detto, uno dei parametri che concorrono a definire la nozione di marcatezza.

Se si prova a integrare tutti questi livelli di analisi è possibile definire il soggetto sulla base di un insieme di tratti distintivi che ne individuano una configurazione prototipica: secondo tale nozione, il prototipo della nozione sintattica di soggetto si potrebbe far coincidere con quel sintagma nominale che si trova tipicamente in posizione preverbale ed è inserito in una proposizione attiva all'interno della quale precede il predicato il quale di norma è costituito da un verbo transitivo. A partire da questo tipo di configurazione, prototipica e ideale, è possibile derivarne delle altre che si configurano come meno canoniche ma rientrano pur sempre nella definizione di soggetto.

3.1.1 Il soggetto in IUDT

All'interno della risorsa utilizzata, la treebank IUDT, quando il soggetto è espresso, e dunque recuperabile, la relazione sintattica che ne realizza la funzione è indicata per mezzo di tre etichette diverse che variano a seconda della diatesi (attiva/passiva) del verbo e del tipo di sintagma (nominale/verbale) che lo realizza. Esse sono:

(31)

• nsubj

• nsubjpass

• csubj

Di seguito sono riportate le definizioni per ciascuna relazione reperite sul sito delle Universal Dependencies con relativi esempi di annotazione in IUDT.

• Nsubj: a nominal subject is a nominal which is the syntactic subject of a clause. The governor of this relation is typically a verb with an exception:

when the verb is a copular verb, the nsubj relation is headed by the complement of the copular verb, which can be an adjective or a noun.

Figura 3.1.1.1: esempi di annotazione nsubj in IUDT

• Nsubjpass: a passive nominal subject is a noun phrase which is the syntactic subject of a passive clause (or more generally, any voice where the proto-agent argument does not become the subject of the clause).

(32)

Figura 3.1.1.2: esempi di annotazione nsubjpass in IUDT

• Csubj: a clausal passive subject is a clausal syntactic subject of a passive clause (or more generally, any voice where the proto-agent argument does not become the subject of the clause).

Figura 1.1.1.3: esempi di annotazione csubj in IUDT