• Non ci sono risultati.

Interpretazione statistica alla base dell’analisi dei testi

7.8 Cos’è una variabile proxy

8.1.3 Interpretazione statistica alla base dell’analisi dei testi

Se lo scopo dell’analisi di testo è quello di trarre informazioni sul ruolo del- le parole attraverso l’analisi statistica, non è sufficiente prendere in considera- zione quante volte nel testo si trova una parola, si dovrà invece stabilire una graduatoria di utilizzo dei termini.

CAPITOLO 8. TEXT MINING 107

I fondamenti statistici dell’analisi dei testi si trovano nella decomposizione per l’individuazione delle semantiche latenti.

Per fare questo vieve utilizzata una formula adattata dell’entropia di Shan- non1. Infatti se Ni rappresenta il numero totale delle parole del corpus ed ni(x) il numero delle occorrenze di un certo termine x nella stessa, allora la frequenza della parola è rappresentata dal rapporto fi(x) = ni(x)/Ni. In questo modo ad ogni parola x viene associata una probabilità pi(x)di appartenere all’i-esima parte del corpus, e l’entropia di una determinata parola è specificata a partire della sua distribuzione. L’indice di Shannon viene definito come:

S = − 1 ln(P ) P X i=1 ln(pi) (8.1)

Si noti che se una parola risulta uniformemente distribuita sulle P parti allora pi(x)= 1/P per ogni i e dall’equazione (8.1) risulta S = 1; se invece una parola compare solo in una parte j del corpus, si ottiene pj = 1 e pi = 0per ogni i 6= j, di conseguenza S = 0, che significa il minimo grado di incertezza sulla posizione della parola nel testo. Quindi ad esempio, le parole con S molto vicino ad 1 sono parole funzionali come gli articoli, mentre le parole con S che si avvicina a zero, quelle con bassi valori di entropia, sono parole specifiche dell’argomento trattato in una certa sezione del testo e la cui distribuzione ha grosse fluttuazioni. Più una parola è frequente, più uniformemente viene utilizzata. La rilevanza della parola all’interno di un testo si misura calcolando la deviazione della parola dall’andamento medio dell’entropia stessa. Se si formasse una versione casuale del testo che conten- ga le stesse parole prese con la stessa frequenza ma disposte in ordine aleatorio, si potrebbe osservare che la tendenza dell’entropia al crescere con la frequenza di

1Claude Shannon, lontano parente di Thomas Edison, nacque a Petoskey, una piccola città

del Michigan. Dopo aver lavorato da ragazzo come telegrafista per la Western Union, nel 1932 iniziò gli studi presso l’Università del Michigan dove, nel 1936, conseguì due lauree triennali in matematica e ingegneria elettronica. Termine mutuato dalla termodinamica, l’entropia è la mini- ma complessità descrittiva di una variabile aleatoria, ovvero il limite inferiore della compressione dei dati senza perdita d’informazione. L’entropia dell’informazione raggiunge un minimo che, in

CAPITOLO 8. TEXT MINING 108

una parola è conservata e le grosse fluttuazioni di entropia, dovute a parole poco frequenti e con bassa entropia sono assenti.

Il vero problema è quello di analizzare quanto una parola identifichi una de- terminata sezione del testo, quindi data una parola se ne studia la probabilità di trovarla nella parte j-esima del testo, sostanzialmente, una probabilità condizio- nata secondo la più classica regola di Bayes. Questo procedimento ci fornisce una misura sull’informazione del testo che quantifica la relazione tra l’eterogeneità con cui si distribuiscono le parole e la partizione con cui il testo viene suddiviso. In pratica si va alla ricerca di una entropia media.

Le parole più rilevanti sono quelle con entropia che si discosta maggiormente dall’entropia media calcolata su tutte le versioni casuali possibili del testo insie- me alla loro frequenza nello stesso. Il testo verrà ripulito dalle parole che non hanno valore semantico specifico dette stopwords come già accennato in prece- denza. Dopo ogni stopwords eliminata, le parole che la seguivano subiscono un avanzamento nella graduatoria delle parole di maggior rilevanza, a tal propo- sito si noti che, le peculiarità ed i tratti salienti del testo, non vengono modifi- cati dall’eliminazione delle stopwords quindi dalla classifica originaria del testo completo.

L’utilizzo della semantica latente, LSA, serve per migliorare il processo di as- sociazione delle parole dal momento che esistono più modi per esprimere uno stesso concetto e le parole hanno più significati.

La struttura latente viene trasmessa attraverso schemi di correlazione che de- rivano dal modo in cui le parole appaiono nei documenti per mezzo di un mo- dello linguistico elementare utilizzato e descritto da un ristretto numero di parole che diventano indicatrici di un argomento.

A partire da un corpus di documenti letterari, lo scopo del LSA è quello di de- finire una mappatura tra gli insiemi discreti ed uno spazio vettoriale continuo nel quale ogni parola ed ogni testo sono rappresentati nei rispettivi spazi vettoriali

CAPITOLO 8. TEXT MINING 109

continui.

La matrice termine-documento rappresenta la relazione tra i termini e i do- cumenti, ogni riga rappresenta un termine e ogni colonna un documento, e una voce è il numero di occorrenze di termini nel documento. Da una matrice co- struita attraverso la co-occorenza tra le parole del corpus; una parola con valore di entropia, normalizzata in base alla lunghezza, vicino ad uno è una parola che porta con sé una informazione minore di una con entropia vicino a zero.

In seguito si possono applicare tecniche statistiche che consentono la ridu- zione della complessità del numero di fattori come l’analisi delle componenti, ACP di cui abbiamo ampiamente parlato nel capitolo precedente, al fine di co- struire delle variabili latenti di sintesi come combinazione lineare delle variabili originarie opportunamente pesate.

In seguito alla costruzione della matrice si passa alla sua decomposizione in una matrice non proprio uguale ma che contiene tutte le caratteristiche della ma- trice iniziale, con una tecnica chiamata Singular Value Decomposition, SVD. La tecnica SVD è simile a quella della ricerca di autovettori e autovalori per le matri- ci quadrate e all’analisi dei risultati fattoriali. La decomposizione della matrice, nella matrice che chiameremo ˆW, nell’analisi dei testi, è la rappresentazione di ogni parola e di ogni concetto come combinazione lineare di concetti astratti, na- scosti, che generano lo spazio lineare della matrice W stessa, ignorando gli effetti del rumore. Si perviene così alla matrice di proiezione dei documenti sullo spazio che ha per base i vettori singolari.