• Non ci sono risultati.

METODO COMPUTAZIONALE DI ESTRAZIONE DEI LEXICAL BUNDLES

già consideravano il fattore quantitativo soprattutto nella distinzione tra le parole di minore o maggiore frequenza, tra quelle di uso raro e tra hapax legomena, ovvero le parole molto frequenti (Bortolini, Taglavini, Zampolli, 1972: 5-10). Gli eruditi medievali compilarono le prime liste di concordanze per i testi biblici, mentre le prime liste di frequenza della lingua comune vennero alla luce nel XIX secolo. La prima lista di frequenza per la lingua tedesca, Häufigkeitswörterbuch der deutschen Sprache, fu pubblicata già nel 1898, mentre le liste di frequenza per la lingua italiana sono apparse negli anni ’80 del Novecento. Di seguito riportiamo gli esempi più importanti, come il LIF – Il lessico italiano di frequenza, composto da 500.000 occorrenze tratte da cinque gruppi (Teatro, Romanzi, Cinema, Periodici e Sussidiari); il VELI – il Vocabolario

elettronico della lingua italiana – costituito da circa 10.000 lessemi ordinati per

frequenza e tratti da un corpus di più di 25 milioni di parole; il LIP – il Lessico di

frequenza dell’italiano parlato; i due database elaborati dall’Università di Venezia

negli anni ’90; la SIWL – la Spoken Italian Word List – con un totale di 43.534 forme lemmatizzate; lo IWL – Italian Word List – composta di 30.000 forme molto ricca di

hapax legomena (Delmonte, 1997).

L'obiettivo primario di questo studio è fornire un'indagine empirica di pattern lessicali o lexical bundles che più frequentemente compaiono in un registro. Lo studio dei lexical bundles sui corpora permette di indagare la co-occorrenza di combinazioni di parole determinate dalla loro frequenza d'uso.

A livello metodologico, gli articoli scientifici selezionati hanno richiesto un trattamento informatico di conversione dal formato originale .pdf al formato word. Gli articoli sono stati inseriti nel database testuale e analizzati con uno dei più diffusi software per l'analisi dei corpora: il WordsmithTools Version 5.0, creato da Mike Scott. A questo scopo, i file sono stati ulteriormente convertiti in file di testo (.txt), la conversione diretta da file .pdf in file .txt ha creato notevoli modifiche testuali. Un’altra operazione preliminare all’analisi è stata la normalizzazione grafica dei corpora, che consiste nella correzione ortografica dei testi e nell’eliminazione delle righe vuote e degli spazi bianchi. Nella versione definitiva del corpus analizzato non sono stati inclusi titoli, sottotitoli, note, citazioni, formule scientifiche, grafici, tabelle, referenze bibliografiche e riassunti. Sono state anche escluse le parti in lingua straniera.

L’operazione iniziale all’analisi del corpus del parlato (LIP) è stata la conversione dalla forma di dialogo alla forma narrativa. La lettura dei lexical bundles è stata svolta considerando la frase come unità massima e il punto come la fine di ogni sezione.

Grazie al sofisticato software Wordsmith 5.0, è possibile individuare le concordanze e creare liste di frequenza, ovvero elenco di tutte le parole presenti nel

corpus con il numero totale delle relative occorrenze. Inoltre, cosa particolarmente

importante per questa ricerca, con questo software è possibile creare Wordlist-index calcolando i lexical bundles, cioè la distribuzione delle co-occorrenze delle unità lessicali; è anche possibile estrarre combinazioni di più parole consultando il testo originale in cui queste compaiono, un’operazione importante per l’analisi delle funzioni discorsive dei lexical bundles. Le potenzialità di questo software sono notevoli e hanno avuto un ruolo fondamentale nel produrre i risultati indicati in questa ricerca.

L’analisi quantitativa dei lexical bundles è stata svolta con il commando

WordList che consente di identificare e di memorizzare tutte le sequenze di 4 parole

presenti nel corpus analizzato. L’analisi per i lexical bundles non garantisce una totale esaustività e completezza: i lexical bundles che prevedono al loro interno forme flesse – per esempio è in corso di, sono in corso di ˗ sono stati considerati nella presente ricerca come due tipi di bundle.

Per l'analisi linguistica del corpus è stata scelta la funzione WordList di Wordsmith Tools, che consente di generare due tipi di wordlist: la wordlist composta da singole parole e la Wordlist-index che offre la possibilità di computare dei clusters o

lexical bundles, composti da almeno due o più parole. Entrambe le liste producono

sempre la rispettiva incidenza, in ordine di frequenza discendente. La funzione

WordList genera i testi fornendo inoltre i dati riguardanti la statistica del corpus

(Tabelle 4, 5, 6). Questi dati riguardano molteplici variabili: la grandezza del corpus (file size); il numero di tokens (running words) o di diverse parole che compaiono nel

corpus, indipendentemente dalla loro ripetitività o dal loro significato contestuale; il

numero di types (distinct words) o dei vocaboli tipo che comprendono tutte le parole con la medesima sequenza grafica, trascurando, però, la polisemia; la proporzione tra

type e token (type/token ratio), misura che indica il rapporto tra il numero totale di

utilizzate (type), indicando la varietà nella scelta dei termini; il numero delle frasi (sentences) e il numero medio di parole in una frase (mean in words). Il programma offre anche la possibilità di vedere il contesto originale dei lexical bundles. Riportiamo di seguito solo i dati rilevanti per la presente ricerca.

Tabella 4: Estratto dalla wordlist del corpus di storia

Text file Overall

File size 10.598.023

Tokens (running words in text) 1.605.974 Types (distinct words) 64.019 Type/token ratio 4,07

Sentences 44.218

Mean (in words) 35,59

Tabella 5: Estratto dalla wordlist del corpus di filosofia

Text file Overall

File size 5.139.996

Tokens (running words in text) 780.989 Types (distinct words) 41.727 Type/token ratio 5,37

Sentences 42.184

Mean (in words) 18,41

Tabella 6: Estratto dalla wordlist del corpus di medicina del lavoro

Text file Overall

File size 7.390.184

Tokens (running words in text) 1.047.442 Types (distinct words) 38.365 Type/token ratio 3,79

Sentences 31.184

La funzione Wordlist-index offre la possibilità di computare i clusters o lexical

bundles. Prima di effettuarla è stato necessario impostare alcuni parametri che

determinano il calcolo dei lexical bundles:

a. la lunghezza dei lexical bundles (cluster size), cioè la dimensione degli n- grammi: nella presente ricerca si è optato per l'analisi dei lexical bundles di quattro parole perché molti lexical bundles di quattro parole contengono nella loro struttura lexical bundles di tre parole (per esempio il bundle di 4 parole dal

punto di vista contiene nella sua forma il bundle punto di vista; inoltre si

presenta nella versione più estesa da un punto di vista, da questo punto di vista) e sono molto più frequenti dei lexical bundles di cinque parole (Cortes, 2004); inoltre, presentano una più vasta varietà di strutture e funzioni da analizzare (Hyland, 2008a, 2008b);

b. il numero minimo di frequenza dei lexical bundles nel corpus analizzato (min.

frequency): in questa ricerca la ricorrenza minima dei lexical bundles di quattro

parole è di almeno 10 volte su un milione di parole o tokens e la loro presenza deve essere individuata in almeno 5 articoli scientifici di autori diversi, al fine di non essere interpretati come la scelta personale di un autore (Biber ed altri, 1999; Conrad, Biber, 2004; Cortes, 2004, 2006; Hyland, 2008a, 2008b).

Biber e il suo gruppo di ricerca (1999) considerano come lexical bundles tutte le combinazioni di tre o quattro parole che ricorrono più di dieci volte su un milione di parole e che sono ripetute in almeno cinque o più testi nel Longman corpus. La presente ricerca segue il cut-off point proposto da Biber ed altri (1999), che individua come

lexical bundles ogni combinazione di quattro parole che ricorre per almeno dieci volte

su un milione di parole.

Il programma WordSmith legge attraverso tutti i testi presenti nel corpus, immagazzinando tutte le sequenze a partire dalla prima parola di ognuna e avanzando una parola alla volta. Ogni volta che una sequenza viene identificata, il programma la verifica automaticamente contrastandola con le sequenze identificate in precedenza. Se una data sequenza è stata già utilizzata nel corpus, il programma esegue un conteggio computazionale delle frequenze, per mostrare quanto spesso la data sequenza si ripete

(Scott, Tribble, 2006; Biber ed altri, 2004). Solo le sequenze ininterrotte di quattro parole sono state trattate come lexical bundles.

Nel corpus di filosofia il numero di ricorrenze di una parola o token è stato normalizzato, usando la formula di normalizzazione. La grandezza del corpus di filosofia è condizionata dalla difficoltà di accesso alle fonti elettroniche degli articoli scientifici. Dato che, per necessità operative, i lexical bundles dovrebbero essere analizzati in un corpus di almeno 1.000.000 di tokens si è ricorso a due tipi di procedure per affrontare questo problema (Cortes, 2002, 2004; Hyland, 2008a).

Nella prima fase, nel corpus di filosofia (780.989 parole) ogni combinazione di quattro parole che ricorre per almeno 7 volte è stata considerata come un lexical bundle.

Nella seconda fase, per poter comparare l'uso dei lexical bundles in tre corpora analizzati seguendo la procedura della normalizzazione, tutti i risultati ottenuti sono stati normalizzati su un milione di parole. Si è deciso di adottare questa procedura nonostante i suoi limiti e i suoi possibili effetti sui risultati della ricerca siano noti (Cortes, 2002; Biber, 2006).

Il calcolo dei lexical bundles è stato, quindi, effettuato seguendo questi parametri:

- lunghezza dei lexical bundles: combinazioni di 4 parole; - ricorrenza minima: 10 volte su un milione di parole;

- presenza in articoli scientifici diversi: 5 articoli scientifici di autori diversi su un milione di parole.

L’analisi si è sviluppata in tre fasi. Nella prima fase, tutti i lexical bundles con le loro rispettive occorrenze nel testo sono stati individuati, normalizzati dove necessario, e strutturati seguendo la tassonomia strutturale. Nella seconda fase, usando il software Word Smith e la tassonomia funzionale per i linguaggi scientifici proposta da Hyland (2008a), si è impostata l’analisi del contesto d’uso dei lexical bundles, individuando le loro funzioni predominanti e classificandoli seguendo le loro funzioni discorsive. Infine, i dati di tutti e quattro i corpora sono stati comparati allo scopo di stabilire le similitudini e le differenze, sia tra la conversazione e il discorso accademico che tra diverse discipline accademiche.

II.5 Conclusioni

In questo capitolo si è cercato di descrivere la linguistica dei corpora, la disciplina che si serve del computer e dei programmi informatici per l'elaborazione di grandi quantità di dati linguistici, al fine di analizzare il più grande numero possibile di dati linguistici.

L'avvento dell'era informatica e della composizione a stampa elettronica ha permesso l'elaborazione di grandi quantità di dati, offrendo grandi opportunità alle utilizzazioni linguistiche.

Questo cambiamento ha permesso di vedere la lingua da un'ottica assai diversa. Secondo Sinclair (1982: 6), i corpora hanno consentito "new kinds of access to the patterns of the language [...] which are inaccessible to direct observation37

37Traduzione: "nuovi modi di accesso ai pattern linguistici [...], i quali sono inaccessibili all’osservazione

".

Tramite specifici programmi informatici, è possibile costruire dei corpora e portare alla luce tratti linguistici che sono costanti nella produzione linguistica. I programmi permettono di classificare questi tratti e di descriverli in modo approfondito.

L'approccio utilizzato in questa ricerca è l'approccio corpus-driven, in cui i dati ricavati dal corpus vengono considerati nella loro interezza per trarne descrizioni esaurienti.

Le affermazioni ricavate dal corpus riflettono l'uso reale e autentico della lingua in esame. Analizzando i corpora microlinguistici di storia, filosofia e medicina del lavoro per lexical bundles si è cercato di individuare quelle peculiarità linguistiche, la cui pervasività indica un tratto saliente microlinguistico. Queste peculiarità possono essere evidenziate solo da un'analisi statistica dei dati.

Parte seconda

III Analisi dei casi

Partendo da questi presupposti, la presente ricerca si pone come obiettivo principale quello di presentare la pervasività dei lexical bundles sia nella conversazione quotidiana che nel discorso scientifico, offrendo una panoramica delle strutture grammaticali e delle funzioni discorsive dei lexical bundles, allo scopo di mostrare la loro importanza nella formulazione del discorso.

Analizzando due diversi registri – la conversazione e la prosa accademica – si intende mostrare come la prospettiva di registro risulti importante nello studio dei

pattern formulaici. Nell'analisi dei lexical bundles è, inoltre, necessario tenere in

massima considerazione un'altra caratteristica, la loro variazione a seconda delle discipline scientifiche. Prendendo atto della pervasività dei lexical bundles nelle microlingue scientifico-professionali e della loro variazione attraverso le aree scientifiche, la presente ricerca sostiene che i lexical bundles debbano essere integrati tra le caratteristiche sintattico-lessicali delle microlingue in oggetto. Il presente lavoro si concentra propriamente sull'analisi di tre microlingue, relative alle discipline di storia, filosofia e di medicina del lavoro.

Il presente studio è modellato seguendo le ricerche svolte per la lingua inglese e segue l'approccio dell'analisi dei lexical bundles. I lexical bundles vengono identificati utilizzando esclusivamente l'approccio basato sulla frequenza d'uso. Nei corpora microlinguistici e nel corpus Lessico di frequenza dell'italiano parlato (LIP) vengono analizzate tutte le combinazioni di quattro parole in sequenza. I clusters prevedono che i componenti ripetuti siano adiacenti e che la loro sequenza non sia interrotta da nessun altro segmento. D'accordo con quanto sostenuto da Spina (2001), le espressioni di questo tipo costituiscono una relazione più stretta di quella delle collocazioni, dato che le ultime comprendono sia elementi adiacenti che co-occorrenze di una parola in prossimità di altre.

Poiché fino ad oggi l'analisi dei lexical bundles non è mai stata applicata alla lingua italiana, il presente studio comincia con l'analisi dei lexical bundles ad un livello più globale, esaminando da un lato la conversazione e dall'altro il discorso accademico.

In un secondo momento, la ricerca si pone la seguente domanda: nella conversazione e nel linguaggio accademico della lingua italiana, esistono combinazioni

di 4 parole particolarmente frequenti? La risposta a questa domanda risulta essere positiva: espressioni di più parole o lexical bundles sono molto frequenti sia nella conversazione che nel linguaggio scientifico.

Inoltre, i risultati della ricerca mostrano che i lexical bundles variano a seconda della disciplina. La pervasività e la distribuzione diversa di queste combinazioni di parole attraverso registri e discipline richiama l'attenzione su una seconda domanda di ricerca: che struttura hanno questi lexical bundles e che funzioni discorsive svolgono?

Il frequente uso dei lexical bundles suggerisce inoltre una terza domanda che merita di essere presa in considerazione: se i lexical bundles sono così ricorrenti, dovrebbero essere considerati come una peculiarità microlinguistica?

L'ipotesi principale della presente ricerca è la seguente: i lexical bundles svolgono delle funzioni discorsive ben individuabili anche nelle microlingue analizzate. Pertanto essi possono essere considerati come un tratto microlinguistico saliente e come tale dovrebbero rappresentare una metodologia di analisi linguistica.

Seguendo le ricerche svolte per la lingua inglese, il presente studio dei lexical

bundles si basa sull'ipotesi generale di Biber (2006) che sostiene che i modelli ad alta

frequenza non sono accidentali, ma non sono neanche di per sé esplicativi. Piuttosto, i modelli di frequenza corpus-driven comprendono fatti descrittivi che richiedono una spiegazione (Biber, 2006). I fatti che devono essere spiegati sono esistenze di sequenze di più parole che non rappresentano unità strutturalmente complete, svolgono, però, delle funzioni discorsive ben identificabili (Biber ed altri, 1999).

Questo studio si propone quindi di esaminare sia la variazione dei lexical bundles attraverso i registri sia la loro variazione attraverso le diverse discipline scientifiche, facendo luce sulle seguenti domande:

a) Quali sono i più frequenti lexical bundles nella conversazione e nelle tre discipline del registro accademico?

b) Ci sono similitudini o differenze nelle strutture dei lexical bundles nella conversazione e nel discorso accademico?

c) In che modo le variazioni nella struttura e nelle funzioni discorsive possono essere spiegate nei termini della variazione attraverso le discipline scientifiche?

d) Quali sono le funzioni discorsive dei lexical bundles; che ruolo ricoprono i

lexical bundles nel processo comunicativo?

e) I lexical bundles sono discriminatori di genere microlinguistico e debbono come tali rappresentare una metodologia di analisi linguistica?

III.1 La diversità tra linguaggio parlato e scritto nella distribuzione dei