• Non ci sono risultati.

3.4 Analisi quantitativa

3.4.3 L’annotazione del corpus

L’annotazione di un corpus comporta l’aggiunta di nuove informazioni metalinguistiche al testo di base. Secondo Geoffrey Leech “this process of adding enriching information may be termed coding or annotation”275 ovvero sottolinea come l’integrazione di dati linguistici conferisca al corpus un valore aggiunto. L’annotazione dunque è una codifica del testo che prevede l’associazione di etichette (tag) a porzioni specifiche dello stesso. Nel caso della

Corpus Stylistics applicata a testi letterari, le informazioni codificate riguardano in primis

un livello meta-testuale come l’autore, il titolo, l’anno di pubblicazione e il genere di un testo, ma anche le informazioni più specifiche riguardanti la struttura, le pagine, i paragrafi

273 William Labov, ‘Building on Empirical Foundations’, in Perspectives on Histroical Linguistics, ed. by Winfred Lehmann and Yakov Malkiel (Amsterdam/Philadelphia: John Benjamins Publishing, 1982), 30. 274 Massimo Cerruti, ‘Il concetto di variabile sociolinguistica a livello del lessico’, Studi italiani di linguistica

teorica e applicata 40, no. 2 (2011): 211–31; Peter L. Patrick, ‘Principles of Linguistic Methodology as Stated

by William Labov’. http://orb.essex.ac.uk/lg/lg554/PrinciplesLabov.htm, (consultato il 7 marzo 2017). 275 Geoffrey Leech, Greg Myers and Jenny Thomas, eds., Spoken English on Computer: Transcription, Mark-

75

e anche i personaggi vengono codificate tramite tag. Inoltre, il testo viene annotato in base ai diversi livelli linguistici come la fonologia, la morfo-sintassi, il lessico oppure le parti del discorso, purché ciò avvenga secondo criteri esplicitati e standardizzati.276

Per ogni livello linguistico esistono diversi sistemi di classificazione e di etichette, anche se la tendenza della linguistica dei corpora è la standardizzazione e l’uniformazione dei dati. Attualmente la codifica linguistica avviene spesso automaticamente tramite software che seguono sistemi di tag prestabiliti e il linguaggio di markup deve essere conforme alle linee guida del TEI (Text Encoding Initiative) che si basano sul Standard Generalized Markup

Language (SGML).277

Nella presente ricerca l’annotazione dei testi è manuale, in primis si identifica l’unità d’analisi e dato che lo studio concerne lo spelling delle parole creole, l’unità d’analisi sarà costituita dalla parola. Per parola si intende un’unità separata da due spazi che può contenere anche elementi della punteggiatura come per esempio l’apostrofo. Infatti, prima dell’annotazione il testo di base è stato tokenizzato, cioè segmentato in token (parole unità)278 escludendo la punteggiatura eccetto nei casi in cui la punteggiatura è parte integrante dell’unità di parola (‘ere, t’ing, y’know). Questa operazione è facilmente effettuabile nelle impostazioni del software AntConc che permette di definire il token includendo appunto la punteggiatura, numeri o simboli.

Procedendo con l’annotazione si è deciso di codificare solamente le informazioni utili riguardo lo spelling escludendo ogni altra annotazione relativa per esempio alla categoria grammaticale delle singole unità. Quanto allo spelling non-standard, esso non è limitato a una forma grafica diversa dallo standard, ma essendo una pratica sociale,279 può esprimere diverse funzioni e significati. Sebba, in un recente lavoro, ha in effetti proposto una classificazione dei diversi tipi di spelling alternativi, riferendosi nello specifico alla varietà

British Creole.280 Nell’ideazione del sistema di etichette si è basato su questa suddivisione che permette un’analisi approfondita dei vari respellings e degli elementi salienti di un’ortografia non-standard.

Secondo Sebba, i respellings in British Creole si possono suddividere in quattro tipi:

276 La linguistica dei corpora, materiale dell’Università Napoli Federico II. www.mobilab.unina.it/Resources, (consultato il 15 giugno 2017).

277 Ibidem.

278 La linguistica dei corpora, materiale dell’Università Napoli Federico II. 279 Si veda il sotto-capitolo 1.6 “La scrittura e l’ortografia” della presente tesi.

280 Mark Sebba, ‘Orthography, Dialect and Deviation: Writers’ Spellings and the “Zone of Social Meaning”’ (International Conference on Dialect and Literature, Sheffield, 11 July 2013).

76

1. parole che esprimono aspetti fonologici o fonetici della lingua creola e quindi differiscono dalla forma standard – phonetic respellings;

2. parole che non derivano etimologicamente dall’inglese e fanno parte del lessico del creolo – new words;

3. parole che hanno una fonte inglese, ma svolgono funzioni diverse nella lingua creola – function-based respellings;

4. parole che derivano chiaramente dall’inglese ed esprimono la stessa funzione, ma tuttavia sono “respelt despite [corsivo autore] no significant difference in pronunciation”.281 Questo tipo di scrittura è spesso definito come eye-dialect, anche se Sebba usa pure la nozione di identity respellings.

In seguito, nella Tabella 2 si può osservare come a queste quattro tipologie di respellings siano state associate delle etichette costituite dalla lettera R (respelling) e un numero progressivo da uno a quattro. Inoltre, l’etichetta R senza numero si riferisce ai casi di spelling non-standard che non sono classificabili come uno dei quattro tipi.

Tabella 2. I tipi di respellings e le loro etichette (tag).

Tipo di respelling Etichetta (tag)

Fonetiche R1

Parole nuove/lessico R2

Parole con una funzione gram. diversa R3

Eye-dialect, identity-spelling R4

Spelling non-standard R

Dal momento che la ricerca si interroga sulla rappresentazione grafica delle lingue creole caraibiche, è fondamentale osservare se e come le caratteristiche fonologiche di queste lingue sono espresse a livello ortografico. Per questo motivo la categoria di respellings fonetiche (R1) è a sua volta suddivisa in base a tratti salienti del creolo giamaicano e dunque anche del British Creole.282 Ad ogni variabile fonologica viene associata un’etichetta costituita dal tag R1 in più un’altra lettera che meglio identifica la variabile. In seguito nella Tabella 3 sono rappresentate le etichette per ciascuna variabile linguistica.

281 Sebba, ‘Orthography, Dialect and Deviation’.

77

Tabella 3. Le variabili ortografiche del creolo e le loro etichette.

Caratteristica fonologica/fonetica Etichetta

TH-stopping sordo R1Th

TH-stopping sonoro R1Dh

Riduzione consonante finale R1C

Variante [n] di (-ing) R1G

Conversione vocalica R1V

Riduzione del suono [h], H-dropping R1H Inserimento di semiconsonante /w/ R1W Inserimento di semiconsonante /j/ R1Y

Riduzione sillaba atona R1A

Mutamento di /t, d/ +/l/ R1K

In seguito alla definizione delle etichette, si è continuato con l’annotazione manuale dei tre testi. In questa fase i testi erano già stati esaminati e le parti in creolo trascritte in un file .txt; l’annotazione e stata fatta manualmente sia poiché il corpus è di piccola dimensione, sia per la natura particolare dei tag. Nell’annotazione sono emerse due aspetti importanti: 1. un’unità può avere uno o più etichette. Per esempio la parola garn (gone) è stata

annotata come _R1V_R4, poiché rappresenta sia lo spelling della vocale ‘o’ che in creolo giamaicano diventa ‘a’, oltre all’inserimento della lettera <r> che ne fa un esempio di eye-dialect;

2. queste doppie etichette di per sé non costituiscono un problema, ma ciò comporta che il numero totale di respellings in un testo e la somma dei vari tipi di respellings non corrispondono, essendo l’ultimo più alto. Analogamente, nel caso dell’analisi delle caratteristiche fonologiche applicate nello spelling, il numero delle occorrenze dei diversi tipi di R1 può superare il numero totale di R1.