• Non ci sono risultati.

Le misure di associazione

Capitolo 3. Analisi dei dati distribuzionali

3.2 Applicazioni dell'ipotesi distribuzionale

3.2.1 Le misure di associazione

3.2.1.1 Ragioni teoriche

Le frequenze di co-occorrenza offrono la possibilità di osservare il modo in cui le parole sono distribuite reciprocamente nei vari contesti (vedi par. 3.3.5).

La co-occorrenza di parole in una certa finestra, però, potrebbe essere spiegata semplicemente alla luce del fatto che le parole considerate sono molto frequenti nel corpus in cui si effettuano le ricerche e, di conseguenza, la co-occorrenza potrebbe essere dovuta al caso.

Questo accade, per esempio, per la coppia formata dalle parole della lingua inglese “is” e “to”, che sono fra le più frequenti nel Brown Corpus10 (Evert, 2007): le strategie che

permettono di pesare la frequenza della coppia tengono in considerazione anche le frequenze assolute delle componenti, cioè il numero di volte che “is” e “to” occorrono singolarmente all'interno del corpus di riferimento. Disponendo di questa informazione 10 http://www.hit.uib.no/icame/brown/bcm.html

infatti, si evita di sovrastimare il livello di salienza delle coppie di parole in esame. Per determinare se due parole siano associate e quantificarne il grado, è necessario utilizzare le misure di associazione (Sinclair, 1966), che stimano l'associazione semantica non solo in relazione alla frequenza di co-occorrenza delle componenti, ma anche in relazione alle frequenze assolute e alla grandezza del campione di riferimento. Sapere quanto la coppia co-occorra nell'intera popolazione in esame è infatti fondamentale per calcolare la misura di frequenza attesa, che serve come riferimento per la valutazione della frequenza osservata, quella cioè che viene effettivamente registrata. La frequenza attesa di una coppia equivale al valore che ci dovremmo aspettare nel caso in cui i costituenti fossero statisticamente indipendenti, cioè nel caso in cui la co-occorrenza fosse dovuta al caso (Evert, 2007).

Le misure di associazione tengono conto di tutti questi fattori: la forza di associazione fra due parole è maggiore quanto più la frequenza osservata si discosta dalla frequenza attesa, cioè quanto più spesso esse ricorrono insieme rispetto alle volte in cui ricorrono l'una indipendentemente dall'altra.

In primo luogo, è necessario stabilire un contesto entro il quale definire la co-occorrenza (vedi par. 3.3.3): per determinarne le frequenze e valutare la forza di associazione semantica, Evert (2007) definisce tre approcci, ciascuno dei quali dipende direttamente dalla definizione della finestra di riferimento utilizzata.

Con co-occorrenza superficiale si fa riferimento al caso in cui due elementi co- occorrono se si trovano entro una finestra di parole. Una volta definite la direzione del contesto, in modo che risulti simmetrico o asimmetrico, la sua ampiezza e le componenti (solo parole piene, solo determinate parti del discorso), la frequenza di co- occorrenza corrisponde al numero di volte in cui due parole co-occorrono entro la finestra scelta, le frequenze assolute sono stimate considerando le occorrenze multiple di una parola entro quel contesto e la dimensione del campione è definita dall'insieme delle parole che lo costituiscono.

Nel caso della co-occorrenza testuale, viene scelta una finestra più ampia rispetto al caso precedente, che spesso equivale alla dimensione del corpus o a un sottoinsieme determinato di frasi. La frequenza di co-occorrenza corrisponde al numero di volte in cui due elementi occorrono entro il contesto definito, mentre le frequenze assolute sono

calcolate ignorando il numero di occorrenze multiple di una parola nel contesto selezionato e la grandezza del campione corrisponde, appunto, al numero di frasi considerate.

Infine, per il caso della co-occorrenza sintattica, vengono considerate solo le parole legate da una determinata relazione di tipo sintattico. Nel caso in cui si consideri la relazione verbo-oggetto diretto, per esempio, le frequenze assolute di occorrenza corrispondono al numero di volte in cui il verbo in esame è seguito da un oggetto diretto; nel caso della parola che costituisce l'oggetto diretto, viene calcolata la frequenza con cui essa costituisce l'oggetto diretto di uno qualunque dei verbi presenti nel campione di riferimento, che è a sua volta determinato dal numero complessivo di coppie per cui sussiste quella relazione: la frequenza di co-occorrenza delle parole considerate, perciò, corrisponde al numero totale di volte in cui sussiste fra loro quella determinata relazione (Evert, 2007).

In definitiva, dopo aver stabilito la finestra di riferimento, le sue caratteristiche e il tipo di co-occorrenza da analizzare, è possibile stimare il grado di attrazione fra le parole utilizzando una delle misure di associazione che sono presentate e descritte nella sezione successiva.

3.2.1.2 Misure di associazione

Le misure di associazione misurano la forza di attrazione reciproca fra due parole, valutando il valore delle frequenze osservate e quello delle frequenze attese: maggiore è il valore della forza di associazione, maggiore è l'attrazione, viceversa, minore è il valore dell'associazione, minore è la forza di attrazione reciproca.

Una fra le molte misure disponibili è la Pointwise Mutual Information [PMI] (Church & Hanks, 1989).

Data una matrice parola-contesto F, contenente nr righe e nc colonne, in cui il vettore

riga fi: rappresenta una parola wi e il vettore colonna f:j equivale a un contesto cj, il

valore di fij corrisponde alla frequenza con cui wi occorre nel contesto cj. Supponendo

che nella matrice X siano contenuti i valori ottenuti in seguito all'applicazione della PMI alla matrice F, il valore dell'elemento xij è definito dalle seguenti operazioni (Turney &

pij = fi , j

i=1nr

i=1nc fi , j pi* =

j =1 nc fi , j

i=1nr

i=1nc fi , j p*j =

i=1 nr fi , j

i=1nr

i=1nc fi , j PMI = log

(

pi, j pi *, p* j

)

La PMI paragona il numero di volte in cui le due parole co-occorrono (il numeratore), al numero di volte in cui compaiono nel corpus, nell'ipotesi che siano indipendenti. Il valore risultante, perciò, misura quanto le due parole occorrono insieme rispetto a quanto ci si aspetterebbe se non vi fosse alcun tipo di legame semantico.

Valori risultanti uguali a zero sono sinonimo di mancanza di associazione, mentre valori positivi indicano un'associazione che è tanto più forte quanto più i valori si discostano da zero. Infine, si ottengono valori negativi nel caso in cui la frequenza osservata sia inferiore alla frequenza attesa: tale risultato può essere legato al problema della sparsità dei dati (Bullinaria & Levy, 2007).

Per superare questo limite, viene utilizzata la Positive Pointwise Mutual Information [PPMI], variazione della Pointwise Mutual information, in cui tutti i valori di PMI minore di zero sono rimpiazzati con zero (Niwa & Nitta, 1994).

Sono molte le misure di associazioni che si possono utilizzare per valutare la forza del legame fra due elementi (per una rassegna dettagliata vedi Evert, 2007); qualunque sia la misura scelta per misurare la forza di associazione, è utile creare una lista ordinata dei dati risultanti per valori di attrazione decrescente, in modo che le coppie maggiormente associate compaiano per prime nella lista.

Per interpretare e valutare i valori delle associazioni, ci sono diverse strategie, una delle quali consiste nella selezione dei primi k elementi della lista ordinata (vedi par. 3.3.5); l'alternativa prevede, invece, di definire una treshold o soglia di riferimento e

selezionare tutte le coppie di parole con valori a essa superiori (vedi par. 3.3.5).

Nelle sezioni successive vengono descritti in dettaglio gli strumenti utilizzati per estrarre automaticamente i dati dal corpus di riferimento e sono illustrate sia le ragioni teoriche, sia i risultati delle analisi condotte.

3.3 Analisi dei dati distribuzionali