• Non ci sono risultati.

11. FOCALIZZATORI E DEVIANZA: UNA PROPOSTA DI CODIFICA

11.1 Lo schema di codifica

Lo schema di codifica degli attributi proposto segue le linee guida del consorzio internazionale Text Encoding Initiative (TEI), “whose mission is to develop and maintain guidelines for the digital encoding of literary and linguistic texts”94, che si basano sulla

marcatura in linguaggio XML.

Nonostante le linee guida TEI siano maggiormente orientate all’edizione critica dei testi, esse sono state selezionate per diffusione d’uso, esportabilità, interoperabilità, uniformità e costanza della manutenzione, che garantiscono i progetti sviluppati secondo queste linee guida contro l’obsolescenza precoce.

I risultati discussi in Andorno (2000), in Caloi (2017) e nel corso del presente lavoro evidenziano come gli attributi più pregnanti per la codifica dei focalizzatori sono:

- Classe e polarità: distinzione fra focalizzatori quantificatori e scalari, additivi o

restrittivi, e identificatori.

- Focus: individuazione della porzione dell’enunciato in focus. Nel caso di testi scritti,

ossia in assenza di elementi intonativi, il focus coincide quasi sempre con la portata, ma lo schema, come mostrato negli esempi, può essere utilizzato anche all’annotazione di corpora di testi orali, in congiunzione con gli elementi TEI che codificano i tratti prosodici.

- Tipologia del costituente in fuoco: individuazione del tipo di sintagma in focus e della

sua funzione grammaticale, utile a disambiguare quei casi in cui un sintagma può avere più di una funzione grammaticale, come ad esempio il sintagma nominale che può fungere sia da oggetto che da soggetto e che, come visto in Caloi (2017), può

94 Text Encoding Initiative, “About the TEI”, URL: http://www.tei-c.org/About/: “la cui missione è lo sviluppo e il mantenimento di linee guida per la codifica digitale di testi letterari e linguistici”.

103

portare a delle differenze, da parte degli apprendenti, nelle strategie di ordinamento della frase.

- Indicazione sull’uso deviante o meno del focalizzatore ed eventuale tipologia di errore

riscontrato: è l’attributo di codifica più delicata. Come visto nel cap. 7 del presente lavoro, i criteri di valutazione degli errori sono intrinsecamente latori di un certo grado di arbitrarietà dipendente dalla soggettività del marcatore.

A questo si aggiungono le difficoltà connesse al tracciare una linea di demarcazione tra le forme accettabili o meno, soprattutto in contesti di uso reale quali quello analizzato e alla corretta segmentazione degli errori.

Nonostante queste difficoltà si è deciso comunque di includere, nello schema di codifica, le indicazioni circa gli errori commessi dagli apprendenti omettendo però del tutto ogni tentativo di codificarne anche l’eventuale segmentazione, una delle attività maggiormente sensibili all’arbitrarietà della marcatura.

Sarà cura del ricercatore considerare, nei propri risultati, la tipologia testuale attesa dai testi presenti nei diversi corpora analizzati e le difficoltà connesse alla categorizzazione di fatti linguistici.

Guardando alle caratteristiche dei focalizzatori, si è rivelato particolarmente complesso scegliere un elemento compatibile con le linee guida TEI da utilizzare per la loro codifica.

I focalizzatori possono infatti essere composti anche da più parole (come ad esempio avviene nel caso di al massimo) e non vi è unità di inquadramento grammaticale tra i diversi sistemi linguistici (in italiano, come abbiamo visto, i focalizzatori sono considerati avverbi, mentre in tedesco sono considerati Partikeln, “particelle”).

104

Per i motivi sopra illustrati, l’elemento scelto è <phr> (phrase), che codifica un gruppo di una o più parole dotate di un ruolo specifico all’interno della struttura grammaticale della frase95.

All’interno dell’elemento <phr> sono stati utilizzati i seguenti attributi:

- xml:id: identificativo univoco del focalizzatore. Può essere un codice numerico,

alfanumerico o un hash, in relazione all’applicazione finale.

- type: specifica la classe dell’elemento <phr> utilizzato, in questo caso il valore è FP

(Focus Particle)96.

- subtype: questo attributo è costituito da un codice alfanumerico che codifica le

informazioni sul focalizzatore considerate rilevanti e costituito da 8 caratteri, qui presentati in base alla posizione all’interno della stringa:

pos[0]: classe del focalizzatore; i valori possibili sono Q (Quantificatori), S

(Scalari), I (identificatori).

pos[1]: polarità del focalizzatore; i valori possibili sono A (Additivi), R

(Restrittivi), N (None, applicabile soltanto agli identificatori)

pos[2]: codifica lo status di devianza morfosintattica nell’uso del focalizzatore. I valori possibili sono T (True), F (False), A (Acceptable), quest’ultimo utilizzabile nei casi dubbi o quando la forma deviante venga considerata accettabile dai parlanti nativi.

pos[3]: codifica il tipo di errore eventualmente riscontrato nell’uso del focalizzatore. I valori possibili rispecchiano quanto emerso dall’analisi degli errori riscontrati nel corpus ICoN_ger e su quanto emerso dagli studi di Caloi e Andorno sugli errori riscontrati in altri gruppi di apprendenti, e sono: F (Fasale), C

(Connettivo), P (Posizionale), R (Relazione di portata), L (interferenze con la L1)

95 TEI, <phr>, URL: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-phr.html.

96 Nonostante l’attributo non sia presente in molti dei tagset più diffusi, per le finalità del progetto discusso andrebbe sicuramente implementato, come avviene ad esempio nel tagset del progetto Penn Parsed Corpora of Historical English dell’Università della Pennsylvania.

105

ed N (None), da utilizzare nel caso in cui non vi sia alcun errore nell’uso del focalizzatore.

pos[4,5]: costituente maggiore in focus; i valori possibili dipendono dal POS tagset adottato, ma corrispondono alla tipologia di sintagma del costituente, ad esempio

NP (sintagma nominale), VP (sintagma verbale), AP (sintagma avverbiale) ed

altri.

pos[6,8]: funzione grammaticale del costituente in focus, utile per distinguere, ad esempio, il sintagma nominale soggetto da quello soggetto. Consente, in generale, di aumentare la granularità della ricerca. Anche in questo caso i valori possibili dipendono dal tagset usato nel progetto, ma corrispondo alla funzione grammaticale del costituente, ad es. SBJ (soggetto), OBJ (oggetto).

Per quanto riguarda la codifica del focus, è stato invece scelto di utilizzare l’elemento <span>, per cui sono previsti soltanto l’attributo type con valore “focus”, utilizzato per distinguere quest’uso dell’elemento da altri usi eventualmente presenti nel testo codificato, el’attributo xml:id, utilizzato per associare il focus al focalizzatore.

Tale associazione viene codificata attraverso l’uso dell’elemento <ptr> (pointer), inserito a sua volta all’interno dell’elemento <phr>. Per questa applicazione è previsto l’uso del solo attributo target, il cui valore corrisponde all’identificativo dell’elemento

106

Documenti correlati