• Non ci sono risultati.

Interpretazione dei risultati

7.8 Cos’è una variabile proxy

8.1.5 Interpretazione dei risultati

L’analisi del testo si esegue controllando i cosiddetti lessici di frequenza, la ricer- ca di informazioni rilevanti all’interno del testo si può effettuare utilizzando un benchmark. È utile comparare la distribuzione dei termini del corpus analizzato con distribuzioni di riferimento che possono essere ricavate anche da altri corpus caratteristici nel campo di indagine, oppure da lessici di frequenza.

CAPITOLO 8. TEXT MINING 111

I lessici di frequenza rappresentano il risultato di analisi linguistiche che for- niscono la distribuzione dei termini propri di linguaggi specifici, ad esempio il lessico della lingua italiana parlata, il lessico di linguaggi tecnico-statistici, il les- sico economico od ingegneristico oppure il lessico del web o quelli riferiti come linguaggi gergali.

L’analisi delle specificità, invece, permette di verificare quali unità lessicali, termini o frasi intere siano tipici o esclusivi di un testo o in un sottoinsieme del corpus definito da una variabile categoriale. La misura della specificità di una parola nel testo si concretizza attraverso un valore che, quanto più si avvicina a zero, tanto più indica che la parola non è rappresentativa del testo quindi è da considerare banale. Un valore superiore a zero indica la specificità del termine rendendolo candidato ad essere una parola-chiave per quel corpus. Un valore pari a 2 indica che la parola è caratteristica, mentre un valore vicino a -2 indica una parola sottorappresentata.

Ordinando la distribuzione di frequenza dei termini normalizzati di un corpus per valori decrescenti è possibile evidenziare delle fasce di frequenza, criterio empirico, per alta frequenza le parole per lo più vuote, con frequenza media le parole strumentali infine con bassa frequenza si intendono le parole principali. Le fasce di frequenza sono un primo strumento di pulizia del testo. Nell’alta frequenza vanno ricercate le parole vuote da inserire nella stopword list, nelle fasce a media e bassa frequenza si cercano i concetti fondamentali del corpus. Con la tecnica della matrice invece, al diminuire della frequenza di una parola nel corpus, aumentano gli zeri all’interno della matrice causando così problemi di stima dei modelli.

Con la tecnica della matrice invece, al diminuire della frequenza di una parola nel corpus, aumentano gli zeri all’interno della matrice causando così problemi di stima dei modelli.

CAPITOLO 8. TEXT MINING 112

tata dal word clouding una modalità di visualizzazione di dati testuali che identifi- ca ogni parola tramite la sua trascrizione alfabetica e ne rappresentano la frequen- za con cui si verifica nel testo tramite la dimensione del font impiegato. Il word clouding fornisce una rappresentazione particolarmente informativa dei concet- ti contenuti nel corpus, più efficacemente di un grafico classico, che risulterebbe illeggibile per l’elevata numerosità degli elementi in analisi. Questa tecnica par- ticolarmente utilizzata nel web, consente di effettuare confronti visivi tra le fre- quenze di due parole diverse all’interno dello stesso corpus o della stessa parola all’interno di corpus differenti.

Per i termini presenti in un testo è possibile calcolare le associazioni fra cop- pie. L’associazione tra concetti, invece, come accade per le variabili categoriali, ci consente di verificare quali concetti si presentano più spesso contemporaneamen- te. L’analisi dell’associazione permette di trarre indicazioni riguardanti anche le dimensioni latenti, presenti quando lo stesso concetto si manifesta con forme les- sicali differenti, come avviene per l’analisi della correlazione tra variabili quanti- tative prima di effettuare una regressione o una ACP. Come per l’analisi fattoriale classica, che consente di raggruppare insiemi di parole che se accostate possano essere ricondotte ad un pensiero di senso compiuto, anche con l’analisi testuale è possibile costruire spazi fattoriali ridotti nei quali vengono utilizzate analisi con l’utilizzo di tecniche ACP sotto condizioni restrittive ed attraverso matrici non particolarmente sparse, e forti approssimazioni.

In matematica, in particolare in analisi numerica, una matrice sparsa è una matrice i cui valori sono quasi tutti uguali a zero. I dati sparsi sono, per loro natura, facilmente comprimibili e la loro compressione comporta quasi sempre un utilizzo significativamente inferiore di memoria. Alcune matrici sparse molto estese però sono impossibili da gestire con gli algoritmi standard [20].

Svolgere delle operazioni utilizzando le strutture e gli algoritmi matriciali usuali risulta un’operazione molto lenta, che porta anche a grandi sprechi di

CAPITOLO 8. TEXT MINING 113

memoria, se la matrice da gestire è sparsa.

Le analisi delle corrispondenze multiple risultano molto importanti in quanto permettono di rappresentare sullo stesso piano tanto i documenti quanto i termi- ni, consentendo l’identificazione di concetti latenti sottesi a gruppi di termini e di valutare la maggiore o minore vicinanza tra determinati concetti e documenti; il metodo Singular Value Decomposition consente di scomporre la matrice M nel prodotto di 3 matrici.

È possibile utilizzare tutti gli indici di associazione studiati per l’analisi di variabili categoriali come Chi quadro, Phi, V di Cramer, Q di Yule [2] ed altri ancora. L’analisi testuale ha dei vantaggi ma anche dei limiti, con essa si può sfruttare l’enorme quantità di informazioni nascoste nei messaggi codificati in linguaggio naturale altrimenti trascurate, ma si trovano dei limiti dovuti al fatto che non si è ancora attrezzati per consentire una ricodifica automatica in linguaggio macchina che non necessiti della supervisione umana.