• Non ci sono risultati.

I CRITERI DI VALUTAZIONE DEGLI ERRORI DEGLI APPRENDENTI

Nella valutazione degli errori degli apprendenti si è tenuto conto tanto di fattori generali che propri del corpus esaminato.

L’analisi delle produzioni degli apprendenti richiede infatti alcune cautele. Le principali difficoltà risiedono in larga parte nella mancanza di una corrispondenza biunivoca tra forme agrammaticali, devianti o inesistenti presenti nella IL (interlingua) e forme proprie della LT (lingua target).

L’interlingua è infatti un sistema linguistico a sé stante ed internamente coerente, il cui stadio di evoluzione verso la LT, nonostante alcune regolarità nei processi acquisizionali63, dipende da diversi fattori: L1, altre L2/LS conosciute, esposizione,

contesto di apprendimento (formale o spontaneo), età dell’apprendente.

Nel caso in cui nella produzione di un apprendente occorrano forme morfosintatticamente devianti, questa variabilità rende particolarmente complesso ricostruire con sicurezza tanto le intenzioni originali del parlante quanto l’eventuale riconducimento degli errori a forme standard della LT, non ancora presenti o non pienamente padroneggiate nella IL.

Partendo da questi presupposti, anche l’esatta identificazione dei confini dell’errore, ossia la corretta individuazione dei suoi confini, si rivela complessa. Si prenda ad esempio il seguente enunciato:

(61)64 La reggazza deto fare passeggiare

63 Per una discussione approfondita sui processi acquisizionali relativi all’italiano come L2 si veda Giacalone Ramat (2003).

57

Attenendoci ad una valutazione delle violazioni della grammatica esterna delle sequenze verbali della LT, vi sono diverse interpretazioni possibili della segmentazione dell’errore, per esempio:

(62) Si può considerare l’intera sequenza verbale un errore unico → La reggazza <deto fare passeggiare>

(63) Si può distinguere tra l’errore morfologico nella coniugazione del verbo della proposizione principale da quello sintattico nella costruzione della proposizione subordinata → La reggazza <deto><fare passeggiare>

Anche l’assegnazione di un errore ad una data tipologia (ad esempio: formale, grammaticale, lessicale) non è un’operazione neutra, ed è anzi soggetta ad un certo grado di arbitrarietà insita nell’operazione di attribuzione da parte del linguista, che ha una visione dell’errore soggettiva, per quanto informata.

Un’ulteriore complicazione, strettamente legata alla precedente, risiede nell’individuazione della possibile genesi di un errore. Alcuni errori, infatti, potrebbero derivare a cascata da altri, o coinvolgere livelli linguistici ulteriori alla devianza morfosintattica, quali gli aspetti semantici o le variabili diamesiche e diafasiche.

Un errore di concordanza, ad esempio, tra articolo e sostantivo quale:

(64) Il Luna sorge

può derivare tanto dalla mancata padronanza delle regole morfologiche dell’italiano che da problemi di ordine semantico, soprattutto nel caso di parlanti nella cui L1 il sostantivo è di genere diverso65. In entrambi i casi, che possono avere ricadute a

58

cascata su altri elementi dell’enunciato, la forma deviante è la medesima, ad ulteriore riprova delle difficoltà di attribuzione di un errore.

Nel presente lavoro il focus è limitato all’analisi degli errori nell’utilizzo dei focalizzatori anche e solo commessi dagli apprendenti del corpus ICoN. Questi errori verranno valutati principalmente in base a tre caratteristiche proprie del corpus.

In primo luogo, come da requisiti d’accesso al corso di laurea, il livello minimo di conoscenza dell’italiano degli apprendenti è quello intermedio-superiore (B2). Essi sono dunque apprendenti avanzati.

In secondo luogo, si è tenuto conto delle caratteristiche testuali attese nelle produzioni, che sono quelle degli “elaborati prodotti in ambiente universitario”.66 Alcune

delle forme segnalate, infatti, potrebbero essere accettabili nella varietà parlata o in contesti non formali, ma non nella varietà diafasica target.

Infine, essendo le prove di natura scritta, a meno di evidenti strutture marcate, a causa della mancanza delle informazioni tonali, tanto rilevanti per la formazione, nel parlato, delle strutture focali, la lettura considerata sarà quella con accento in posizione finale con fuoco esteso sull’intero campo, ossia quella non marcata67.

Il quadro concettuale utilizzato per le valutazioni sul rispetto o meno delle regole di adiacenza dei focalizzatori rispetto al fuoco, e dunque anche alla costituzione o meno delle relazioni di portata, è quello mutuato da Andorno (2000) e presentato, per linee generali, nel primo capitolo del presente lavoro. Esso verrà approfondito o integrato nel corso della discussione dei singoli errori, in considerazione delle specificità dell’utilizzo dei focalizzatori da parte degli apprendenti di italiano come L2 e delle considerazioni fatte poc’anzi.

66 Tavosanis (2014:370). 67 Vedi nota 12.

59

Nella consapevolezza delle insidie connaturate alla caratterizzazione degli errori viste poco sopra, e sottolineate anche da Andorno in Andorno-Rastelli (2009)68, dove

necessario si analizzeranno gli usi devianti del focalizzatore anche anche da un punto di vista semantico, che risulta imprescindibilmente legato ad un suo corretto posizionamento in italiano.

In base alle considerazioni fatte, si delineeranno dunque due livelli di accettabilità per gli errori individuati: quello degli enunciati accettabili nel parlato o comunque in varietà diafasiche e diamesiche diverse da quella attesa, o di cui è difficile ricostruire la reale intenzione dell’apprendente, e quello degli enunciati di costruzione sicuramente errata rispetto alla varietà attesa, in cui viene inficiata la struttura portata-fuoco del focalizzatore o in cui esso viene erroneamente utilizzato al posto dei connettivi frasali.

Per stabilire l’effettiva accettabilità o meno in italiano standard delle forme morfodevianti individuate, esse verranno comparate con i risultati delle ricerche effettuate sul corpus CORIS/CODIS di italiano scritto L1, utilizzato come corpus di controllo e presentato nel prossimo capitolo.

68 Nel saggio citato, Andorno e Rastelli si occupano degli errori commessi dagli apprendenti in relazione all’annotazione delle forme morfosintatticamente devianti nei corpora di italiano L2.

60

8. PER UN CONFRONTO CON L’ITALIANO L1 SCRITTO:

IL SOTTO-CORPUS DI STUDENTI ITALOFONI DEL

CORPUS ICoN E IL CORPUS DI ITALIANO SCRITTO

CORIS/CODIS

Nell'analisi di un corpus di produzioni di apprendenti di italiano L2, quale il corpus ICoN, si rivela particolarmente importante il raffronto con le produzioni di parlanti nativi, tanto al fine di comparazione statistica che al fine della verifica, nell'ottica descrittiva propria di questo lavoro, della reale accettabilità o meno di forme individuate in prima istanza come morfosintatticamente devianti.

I corpora utilizzati a questo scopo sono il sotto-corpus di studenti italofoni del corpus ICoN, già presentato nel paragrafo 6.3, e i corpora appaiati CORIS (CORpus di Italiano Scritto) on-line69 e CODIS70 (COrpus Dinamico di Italiano Scritto).

Si tratta di due corpora sincronici di lingua scritta. La varietà diamesica di riferimento è quella definita implicitamente in Nencioni (1983) come scritto-scritto, definizione con la quale vengono designati i testi scritti che non mostrano alcuna intenzione di avvicinarsi al parlato.

La tipologia dei testi raccolti è eterogenea, e comprende tanto testi specialistici (prosa accademica e giuridico-amministrativa) che testi narrativi, giornalistici, epistolari ed ephemera, "una varietà di tipologie che si colloca [...] su un continuum, sovrapponendosi ed integrandosi"71.

69 Corpus CORIS, annotated version (2017, 150Mw), URL: http://corpora.dslo.unibo.it/TCORIS/. 70 Corpus CODIS (100Mw), URL: http://corpora.dslo.unibo.it/CODIS/.

61

Queste tipologie, identificate sulla base dell'aspetto esteriore o degli elementi materiali dei testi, rappresentano la gerarchia più elevata della suddivisione in sotto- corpora del CORIS/CODIS, a loro volta articolati in sottosezioni di granularità crescente.

Il materiale è stato selezionato in base a criteri di rappresentatività di contesti comunicativi reali e di comparabilità, cercando di bilanciare il peso percentuale delle varie tipologie in modo da privilegiare "i testi di circolazione più bassa per non penalizzare alcune varietà quale, ad esempio, quella data dai testi epistolari"72.

I due corpora, assemblati a partire dal 1998 dall'Università di Bologna, sono in larga parte sovrapponibili e si differenziano principalmente per dimensioni e tipologia di ricerca effettuabile.

Il corpus CORIS, interamente lemmatizzato e annotato tramite un POS-tagset realizzato secondo le linee-guida EAGLES73, consta di 150.857.562 token74 ed è ampliato

con cadenza biennale attraverso un corpus di monitoraggio inglobato. L’ultimo aggiornamento è stato effettuato nel 2017.

La sua interfaccia consente la ricerca di parole semplici (65) e di espressioni regolari in formato IMS/CWB, permettendo di specificare la funzione grammaticale di parole (66) e lemmi (67) cercati, oltre che di specificare la finestra di ricerca (68). Si vedano ad esempio le seguenti chiavi di ricerca:

(65) “dormito” → restituisce tutte le occorrenze di dormito (66) [pos="NN_P"] → restituisce tutti i nomi propri

(67) [lemma="essere" & pos = “V_GVRB”] → restituisce tutte le occorrenze del verbo andare (il POS è specificato per evitare confusione con il sostantivo essere)

72 Rossini Favretti (2000:51).

73 “EAGLES-like” Part-of-Speech Tagset, URL: http://corpora.dslo.unibo.it/TCORIS/EAGLES- like_POSTagset.pdf.

62

(68) “la”[]{0,3}”macchina” → restituisce tutte le occorrenze di la e macchina intervallate da tre parole al massimo, ad esempio “la grande macchina”

Gli operatori di ricerca possono essere combinati liberamente permettendo di costruire espressioni regolari (regex) anche molto articolate, caratteristica utile sia per la rimozione di eventuali omografi nei risultati delle ricerche, sia nella individuazione di particolari strutture sintattiche. Le ricerche possono essere effettuate sull’intero corpus o su sotto-corpora specifici.

Le principali limitazioni dell’interfaccia di interrogazione del corpus CORIS risiedono, invece, da un lato nella lunghezza massima delle espressioni regolari ricercabili, pari a 60 caratteri, spesso insufficienti a costruire una stringa di ricerca in grado di filtrare adeguatamente i risultati, dall’altro nel numero massimo di risultati visualizzabili, pari a 1000.

Questo limite impedisce spesso di analizzare manualmente tutte le occorrenze trovate, procedura che si rende necessaria qualora l’ambiguità semantica dei risultati non possa essere risolta tramite l’utilizzo del tagset di ricerca annotata o quando vi siano errori di annotazione.

La ricerca all’interno del corpus CODIS (composto da 100.693.328 token75),

invece, non supporta l’utilizzo di tagset ma consente all’utilizzatore di creare un sotto- corpus di ricerca personalizzato, in base alla libera combinazione delle tipologie testuali viste in precedenza.

Questa funzione si è rivelata particolarmente utile per il presente lavoro, in quanto ha consentito, ad integrazione delle ricerche effettuate sul corpus CORIS annotato, di confrontare le evidenze emerse dall’analisi del sotto-corpus tedesco del corpus IcoN, che si ricorda essere costituito da elaborati di studenti universitari, con il sotto-corpus CODIS

63

di testi di tipologia prosa accademica, consentendo un raffronto fra tipologie testuali contigue e parzialmente sovrapposte.

Oltre al metodo di selezione dei testi e alle funzionalità di ricerca presenti, altre considerazioni hanno portato alla scelta del corpus CORIS/CODIS come punto di riferimento per la discussione dei risultati riscontrati nell'analisi del sotto-corpus tedesco del corpus ICoN.

In primo luogo, anche il CORIS/CODIS, così come il corpus ICoN, è interamente orientato allo scritto.

In secondo luogo, esso è liberamente accessibile online e permette a chiunque di replicare agevolmente le interrogazioni eseguite sul corpus, portando a risultati verificabili.

Infine, la ricerca all’interno del CORIS/CODIS restituisce anche le collocazioni, ordinate in base a vari indici selezionati dall’utilizzatore (ad esempio t-score e mutual

information), delle strutture ricercate, permettendo una migliore comprensione dei

64

9. GLI ERRORI DEGLI APPRENDENTI GERMANOFONI

Documenti correlati