• Non ci sono risultati.

del racconto del Cicap, della sua identità e dei temi trattati

5.2 Il corpus testuale: una prima analisi con il software TaLTaC 2

Le prime funzionalità dell’analisi sui corpus del software TaLTaC2 permettono di dare una prima visione d’insieme delle raccolte anche da un punto di vista testuale. Nella statistica testuale, infatti, vi sono dei parametri calcolabili sul corpus che risultano essere essenziali per descriverne la composizione e permettere una corretta analisi del testo.

L’approccio lessicometrico di TaLTaC2 consente una rapida esecuzione di queste 0 5 10 15 20 25 30 35

124

misurazioni e una completezza dei dati tale da consentire immediatamente la corretta osservazione del testo in analisi. Nel caso di specie, la Tabella 5.2 permetterà di osservare con immediatezza i dati risultanti della prima analisi, con l’accostamento dei risultati ottenuti sia in S&P che in Query.

Il primo dato a cui fare riferimento è il valore N, ovvero il numero di occorrenze o word

token presenti nel testo: questo dato consente di avere la dimensione del corpus espressa nel

conteggio delle parole totali che lo compongono. Nel caso di Scienza&Paranormale e di Query si noterà che l’ordine di grandezza di N è sostanzialmente simile (nell’ordine del milione di occorrenze) permettendo alle analisi testuali operate con TaLTaC2 di avere una validità statistica anche data dalla dimensione dei due corpus. Se si considera che un corpus, per poter essere analizzato statisticamente, deve avere almeno 100.000 occorrenze e per poter essere considerato rappresentativo di un linguaggio deve contenere almeno 500.000 occorrenze, entrambi i corpus possono essere considerati corpus rappresentativi rispetto alla produzione del Comitato.

Il secondo dato necessario è V, ovvero il word type o forme grafiche, cioè la rilevazione delle singole parole distinte presenti all’interno del testo con la relativa frequenza. Questo dato risulta essenziale, perché permette di conteggiare il numero di forme grafiche differenti presenti e di operare alcuni calcoli di fondamentale importanza per descrivere la qualità e la ricchezza lessicale di una raccolta di testi.

Il primo indicatore di questa ricchezza lessicale è il rapporto percentuale V/N, ovvero l’estensione lessicale TTR (Type/Token Ratio), che permette di calcolare il rapporto tra l’ampiezza del vocabolario (V) e l’ampiezza del corpus (N). La percentuale di questo calcolo empirico deve essere inferiore al 20%, in caso contrario infatti si avrebbe un corpus con un’ampiezza di vocabolario V troppo elevata rispetto al totale delle occorrenze N, sintomo di un campione non abbastanza esteso per poter essere considerato statisticamente rilevante. Nel caso di specie in entrambi i corpus l’indicatore V/N si attesta con un risultato di molto inferiore al 20%, ovvero vocabolario e corpus sono idonei a essere studiati con le metodologie

Scienza&Paranormale Query N 1.724.126 1.384.303 V 85.838 83.149 V/N% 4,97% 6,00% V1/V% 45,18% 47,94% N/V 20,08 16,65 Coefficiente G 65,37 70,67 a 1,26 1,25

125

dell’analisi statistica del testo (V/NS&P= 4,97% e V/NQuery= 6,00%).

Per analizzare il significato del secondo calcolo empirico, necessario a valutare la ricchezza lessicale dei due corpus, è necessario introdurre un concetto fondamentale per l’analisi statistica testuale, ovvero la presenza in qualsiasi corpus di forme grafiche chiamate

hapax, ovvero parole che appaiono nel testo con frequenza 1. Queste forme grafiche hanno

una grande importanza, perché permettono ai corpus di avere un vocabolario abbastanza esteso e sono sinonimo di corpus testuali con un lessico appropriato, specifico e ricercato. La regola che consente di discriminare un corpus ricco, ma statisticamente analizzabile, da un corpus con un linguaggio troppo ricercato per avere valore statistico è il calcolo percentuale del rapporto tra V1, ovvero la quantità di forme grafiche con f=1, e l’intero vocabolario V del corpus. Quando questa percentuale non supera il 50%, ovvero non più di metà del vocabolario è rappresentato da forme grafiche che compaiono solo una volta, il corpus è da considerare abbastanza ridondante per produrre risultati statistici significativi. Nel caso di specie entrambi i corpus possono essere elaborati a livello statistico perché l’indice V1/V si attesta per Scienza&Paranormale al 45,17% e per Query al 47,94%.

Questi indicatori sono fondamentali per descrivere un corpus testuale e per operare dei confronti tra corpus diversi, perché N e V da soli non potrebbero garantire la correttezza della raccolta. Infatti, i vocabolari di frequenza di corpus diversi non possono essere rappresentati da una retta lineare, ma il loro andamento è assimilabile ad una curva (Figura 5.6).

Figura 5.6: Andamento della curva della ricchezza lessicale di un corpus

Le ricerche effettuate sul campo indicano che la ricchezza lessicale non aumenta con l’aumentare delle dimensioni del corpus, ma anzi, dopo un certo valore soglia, sarà molto più difficile incontrare forme grafiche nuove, perché all’aumentare delle dimensioni del corpus le parole tenderanno a ripetersi e la crescita della curva sarà più lenta.

126

e il numero di forme grafiche presenti, che restituisce una media della frequenza delle forme grafiche presenti nel corpus. Questo dato è puramente indicativo, infatti nell’ottica di una migliore descrizione del corpus si preferisce riferirsi non alla frequenza media, ma a fasce di frequenza e tassi di copertura.

TaLTaC2 permette di suddividere le forme grafiche presenti all’interno del vocabolario in tre diverse fasce di frequenza, alta, media o bassa, in relazione a delle discriminanti che di volta in volta il software calcola sul corpus specifico. Le forme grafiche appaiono già ordinate in modalità decrescente e il software classifica tutte le forme grafiche in base alle frequenze calcolate. Le forma grafiche comprese tra quella più frequente e la prima coppia di forme grafiche che presenta una frequenza uguale sono da inserire nella fascia ad alta frequenza: queste parole sono per la maggior parte verbi di utilizzo comune, verbi ausiliari, pronomi personali, articoli e tutte quelle categorie grammaticali di uso più comune e che in corpus molto ampi hanno una frequenza molto elevata. Nel caso di specie tutte le forme grafiche presenti nella fascia ad alta frequenza sono considerabili stopwords, ovvero quelle parole vuote di significato che possono essere trascurate in sede di analisi del contenuto e del lessico. Tra le forme grafiche che TaLTaC2 inserisce nella fascia a frequenza media vi sono, solitamente, le forme grafiche più interessanti e rappresentative del corpus, in quanto parole dotate di significato, mentre nella fascia bassa sono inseriti gli hapax o alcune forme grafiche con frequenze molto basse. Nel caso di specie i valori limite tra le frequenze alte e medie e tra quelle medie e basse sono indicati nelle tabelle successive (Tabella 5.3 e 5.4).

Scienza&Paranormale Rango F. soglia F. cumulata

Limite tra f. alte e medie 98 1511 40,0%

Limite tra f. medie e basse 801 227 59,4%

Decile Rango Forma grafica occorrenza Fr. Norm. %Fr cumulata

1 8998 fantastiche 18 10,44 86,49

2 17450 Mcrae 7 4,06 92,07

3 24332 Fanny 4 2,32 94,71

4 28446 immensità 3 1,74 96,32

5 34958 pian 2 1,16 97,30

Soglia consigliata 9411 rimando 15 8,68 86,60

Tabella 5.3: Calcolo fasce di frequenza e ranghi lessicali in S&P

I dati riportati nelle due tabelle presentano una descrizione del corpus a livello di misure lessicometriche, in particolare evidenziano la creazione dei decili per quanto riguarda le classi con basse frequenze e il rispettivo tasso di copertura del corpus. Nella scelta dell’analisi è infatti essenziale tener presente quali percentuali di copertura del corpus, in termini di forme grafiche, si ottengono se si decidesse di non considerare le forme con le frequenze più basse.

127

Query Rango F. soglia F. cumulata

Limite tra f. alte e medie 95 1231 39,9%

Limite tra f. medie e basse 611 218 56,6%

Decile Rango Forma grafica occorrenza Fr. Norm. %Fr cumulata

1 8666 accento 15 10,84 85,62

2 16551 soprannaturale 5 4,33 91,33

3 25148 riscuotono 3 2,17 94,11

4 31229 escogitare 2 1,44 95,71

5 31229 sapere 2 1,44 85,91

Soglia consigliata 9129 papiri 14 10,11 85,91

Tabella 5.4: Calcolo fasce di frequenze e ranghi lessicali in Query

Non è infatti possibile limitarsi a considerare le frequenze alte e medie per una fondamentale ragione: esse non potrebbero garantire una sufficiente copertura del corpus, in quanto gran parte delle forme grafiche presenti nel vocabolario hanno frequenze basse o sono addirittura hapax (f=1).

In merito a questo, è utile ricavare dal corpus testuale la rappresentazione grafica della legge di Zipf, che restituisce da un punto di vista grafico la distribuzione del testo in base alle frequenze delle forme grafiche (asse ordinate) e i ranghi (asse ascisse) in cui queste forme grafiche sono divise. La legge di Zipf permette di inserire in un contesto di legge matematica che regola la relazione tra la frequenza fr delle parole e il rango da esse assunto, chiamato r.

Si vede che il rapporto tra fr e r è costante, caratteristica che regola la frequenza d’uso delle diverse parole, nonostante la sensazione che il linguaggio sia normalmente libero da condizionamenti esterni. I grafici (Figura 5.7 e 5.8), ottenuti tramite l’uso del software Iramuteq, mostrano come vi siano poche forme grafiche con frequenza alta, e come la maggior parte delle forme grafiche si concentrino in frequenze medie e basse.

Figura 5.7: Legge di Zipf in S&P Figura 5.8: Legge di Zipf in Query

L’andamento della retta per ogni caso specifico è dato dal coefficiente angolare della retta disegnata, ovvero -a, uno degli indici in tabella 5.2, che indica il rapporto tra il logaritmo di N

128

e il logaritmo di V. Nel caso di Scienza&Paranormale a=1,26 e nel caso di Query a=1,25: l’indice a in entrambi i casi si attesta al di sotto del valore soglia di 1,3, che è considerato troppo elevato e sarebbe segnale di un vocabolario non particolarmente ricco.

Alla luce delle analisi effettuate con il software, i due corpus risultano idonei all’analisi statistica del testo.

Outline

Documenti correlati