• Non ci sono risultati.

L'analisi del contesto: la direzione della finestra

Capitolo 3. Analisi dei dati distribuzionali

3.2 Applicazioni dell'ipotesi distribuzionale

3.3.4 L'analisi del contesto: la direzione della finestra

Nelle sezioni precedenti sono stati illustrati i risultati dell'analisi della distribuzione delle proprietà prodotte dai soggetti nel contesto dei verbi target.

Tuttavia, non sono stati ancora indagati i dettagli riguardanti il modo in cui queste proprietà si distribuiscono rispetto al verbo target.

contenenti i verbi target, ossia il contesto sinistro, poi ciò che è nelle frasi target o

centrali in cui ricorrono i verbi dell'esperimento, infine ciò che segue a esse, cioè il contesto destro.

Questa suddivisione per “posizione relativa al verbo target” è motivata dalla volontà di ottenere dati che siano direttamente comparabili con quelli riguardanti le fasi temporali contenuti nel dataset delle norme focali: i soggetti durante l'esperimento, i cui dettagli sono illustrati nel Capitolo 2, hanno infatti fornito le descrizioni degli stimoli proposti in relazione alle fasi precedente (BEFORE), contemporanea (DURING) e successiva (AFTER) agli eventi denotati dai verbi presentati.

Dati il corpus di riferimento e uno qualsiasi dei verbi target, si può ipotizzare che, se la proprietà precede il verbo (si trova cioè nel contesto sinistro), allora è descrizione della fase precedente l'evento (BEFORE); se ricorre nel contesto centrale (nella medesima frase in cui ricorre il verbo target), è descrizione della fase contemporanea all'evento (DURING), infine, se si trova nel contesto destro, è propria della fase a esso successiva (AFTER).

È necessario, in primo luogo, prendere in considerazione i verbi e le proprietà che co- occorrono almeno una volta in w2, equivalente a cinque frasi: la scelta di questa finestra è motivata dal fatto che non avrebbe senso utilizzare w0, la singola frase, da cui potrebbero essere estratte evidenze relative solo alle proprietà di tipo DURING; parimenti, se considerassimo la finestra w1, perderemmo i dati di w2 utili per le analisi. In w2, per di più, sono incluse anche le informazioni di w0 e w1, in quanto le finestre sono sempre definite in maniera cumulativa (vedi par. 3.3.3).

Per memorizzare la posizione delle proprietà rispetto al verbo target nel corpus e valutare poi se, ad esempio, una proprietà delle norme prodotta per descrivere un verbo nella fase precedente l'evento ricorra nel contesto sinistro, a ciascuna proprietà sono associate le tre marche temporali BEFORE, DURING e AFTER.

Dati i verbi target, viene calcolata la frequenza di co-occorrenza della proprietà p nel contesto sinistro, nel contesto centrale e nel destro, similmente a quanto, nelle analisi dei dati delle norme descritte precedentemente, era stata calcolata e valutata la frequenza assoluta di produzione delle proprietà per fasi temporali (vedi par. 2.2.5.2). In questo modo, le triple verbo-proprietà-fase temporale estratte automaticamente dal

corpus diventano direttamente comparabili con quelle delle norme focali contenenti i giudizi dei partecipanti all'esperimento.

Per valutare i dati estratti utilizzando il procedimento appena descritto, è necessario verificare quante proprietà dei verbi siano associate automaticamente alla fase temporale per cui sono state prodotte dai soggetti dell'esperimento; ciò significa verificare se, ad esempio, la proprietà <heal>, che nelle norme descrive la fase successiva del verbo CURE, nel corpus sia attestata nel contesto destro di questo verbo. Sono stati utilizzati diversi approcci: in primo luogo, è stata associata, a ciascuna proprietà p delle norme, la frequenza relativa con cui essa co-occorre con il verbo target nel contesto sinistro, centrale e destro.

Si supponga che <heal> compaia nove volte in corrispondenza del verbo CURE, una volta nel contesto sinistro, due volte nel contesto centrale e sei volte nel contesto destro: la tripla CURE-<heal>-BEFORE avrà frequenza relativa pari a 1/9, CURE-<heal>- DURING pari a 2/9, infine CURE-<heal>-AFTER pari a 6/9.

Una volta calcolate le frequenze relative, sono state utilizzate delle soglie di frequenza crescente per analizzare le triple estratte e verificare quante fra esse corrispondono alle triple contenute nelle norme semantiche: in primo luogo sono state considerate tutte le triple verbo-proprietà-fase recuperate dal BNC aventi frequenza relativa maggiore di zero; successivamente, il vincolo sulla frequenza è diventato più restrittivo. Tutti valori risultanti sono presentati in Tabella 3.6.

Soglia Corrispondenti > 0 48.64% > 0.1 48.63% > 0.2 48.91% > 0.3 48.97% > 0.4 47.84% > 0.5 48.90% > 0.6 49.31% > 0.7 49.01% > 0.8 100%

Soglia Corrispondenti

> 0.9 100%

Tabella 3.6: Soglie e totale triple corrispondenti estratte

Prendendo in considerazione i risultati ottenuti utilizzando la soglia di frequenza minima uguale a uno, emerge che il 48.64% delle triple verbo-proprietà-fase estratte automaticamente dal corpus corrisponde a quelle contenute nelle norme semantiche; mano a mano che la soglia diventa più restrittiva, si riduce il numero di triple valutate, in quanto non vengono considerate tutte quelle con frequenza relativa minore della soglia.

Osservando la tabella, è evidente che, nel momento in cui il vincolo sulla frequenza diventa massimo ( >0.8, >0.9), tutte le triple verbo-proprietà-fase recuperate automaticamente dal corpus corrispondono alle triple verbo-proprietà-fase delle norme. Questo risultato può essere spiegato in linea teorica alla luce del fatto che le proprietà che co-occorrono con i verbi con una frequenza relativa superiore a 0.8 e 0.9 si trovano, nel corpus di riferimento, quasi solo ed esclusivamente in una delle tre possibili finestre (sinistra, centrale, destra): non è solo vedere una proprietà, ma vederla anche ripetutamente in un determinato contesto, a poter essere indice del fatto che tale proprietà sia spiccatamente saliente per il verbo e lo sia soprattutto nella fase temporale in cui ha frequenza relativa massima.

In definitiva, assumendo che, una proprietà delle norme che si trova nel testo prima del verbo di cui è descrizione, sia propria della fase precedente l’evento, una che si trova nella medesima frase contenente il verbo target sia descrizione della fase contemporanea all’evento, mentre una che si trova dopo il verbo sia descrizione della fase a esso successiva, è possibile estrarre dal corpus molte triple verbo-fase-proprietà presenti nelle norme: tutte le triple verbo-fase-proprietà estratte automaticamente dal corpus, aventi frequenza relativa uguale o superiore a 0.8 e 0.9, sono triple delle norme. Questi risultati mostrano, nel complesso, una sorta di iconicità del linguaggio, ossia di correlazione fra finestra sinistra/BEFORE, finestra centrale/DURING, finestra destra/AFTER; gli effetti dell'iconicità nei giudizi di similarità semantica espressi dai soggetti sono evidenziati in alcuni studi (Lowerse & Jeuniaux, 2008).