• Non ci sono risultati.

4. I contesti nominali di occorrenza

N/A
N/A
Protected

Academic year: 2021

Condividi "4. I contesti nominali di occorrenza"

Copied!
12
0
0

Testo completo

(1)

4. I contesti nominali di occorrenza

Nel capitolo precedente si è cercato di analizzare in maniera più approfondita il fenomeno della canonicità, grazie ad evidenze sperimentali e distribuzionali. È stato infatti condotto un esperimento di elicitazione per individuare una serie di coppie canoniche e non-canoniche di antonimi. Le coppie così ottenute sono poi state analizzate sulla base della frequenza di produzione reciproca e sulla frequenza di co-occorrenza, in termini di forza di associazione statistica (MI), al fine di stabilire se la canonicità sia dovuta a cause strettamente lessicali o semantiche.

Dai risultati è emerso che, se per le coppie non-canoniche sembra esserci un influenza del parametro della co-occorrenza, ciò non è valido per le coppie canoniche. I membri di queste ultime, infatti, non solo hanno sempre una frequenza di co-occorrenza notevolmente maggiore di quella attesa, ma non vi è una correlazione tra questa e la frequenza di produzione; non sembra quindi essere un buon indicatore del loro grado di canonicità. A questo punto, si può prendere in considerazione l'ipotesi proposta dal modello cognitivista, che prevede che le coppie canoniche siano tali poiché i due membri sono allineati lungo una dimensione semplice, facilmente individuabile.

Come già detto in precedenza, se una coppia canonica è tale perché allineata lungo una dimensione semplice, ci si aspetterà che i due aggettivi modifichino o siano predicato degli stessi sostantivi, almeno nella maggior parte dei casi. La già citata (Capitolo 2, Paragrafo 2.2) ricerca di Paradis et al. (2015) ha infatti mostrato che i membri di una coppia di antonimi canonica modificano le stesse strutture significative non solo quando co-occorrono, ma anche quando si presentano singolarmente, ricorrendo negli stessi contesti e negli stessi tipi di costruzioni. Allo scopo di verificare tale affermazione, è stata effettuata un'analisi di tipo distribuzionale sulle coppie emerse dal precedente esperimento di elicitazione. Sono quindi stati presi in esame i sostantivi con cui i membri di queste coppie ricorrono, sotto forma di modificatori o di predicato, per verificare se sono gli

(2)

stessi. Come misura della similarità semantica tra i contesti di occorrenza, è stato utilizzato il coseno. Questo corrisponde al coseno dell'angolo formato dai vettori rappresentativi dei due membri di una coppia; le dimensioni di ogni vettore sono date dai valori della forza di associazione statistica (PPMI) tra l'aggettivo e i differenti nomi.

L'ipotesi è che vi sia una differenza significativa di coseno tra le coppie canoniche e le coppie non-canoniche e, quindi, che le coppie canoniche presentino valori del coseno più elevati.

4.1

Coppie sperimentali

L'analisi distribuzionale è stata condotta sull'ultimo gruppo di coppie sperimentali preso in considerazione nel capitolo precedente, ovvero quelle con frequenza di co-occorrenza ≥5 e dati di produzione completi in entrambe le direzioni, già presentate in Appendice G. Entrambi i membri di ciascuna coppia erano pertanto inclusi negli stimoli dell'esperimento di elicitazione. Ciò è stato necessario al fine di poter valutare la correlazione tra il grado di similarità semantica dei contesti in cui occorrono gli aggettivi (espresso in termini di coseno) e la frequenza di produzione, indicatore della canonicità nella definizione che ne è stata data.

Dalle 138 coppie con tali requisiti sono, però, state eliminate la coppia organico – inorganico e le coppie in cui erano presenti gli aggettivi imprigionato, costretto, mancante, bloccato, legato1. La prima perché l'aggettivo inorganico non è incluso nei corpora di riferimento usati per l'analisi. Le altre coppie, invece, sono state eliminate poiché queste parole sono classificate come participi e lemmatizzate quindi come verbi e non come aggettivi.

In totale sono state eliminate 8 coppie, per cui le analisi sono state effettuate su 130 coppie sperimentali.

1 Tali aggettivi erano presenti nelle coppie: libero – imprigionato, libero – costretto, completo –

(3)

4.2

Procedura

I contesti nominali di occorrenza dei singoli aggettivi sono stati estratti automaticamente da LexIt2, prendendo come corpus di riferimento Repubblica. Per ogni aggettivo sono stati presi in considerazione tutti i sostantivi che modifica o di cui è predicato presenti nel corpus. In totale sono stati estratti 14.626 elementi. Inizialmente, per ogni sostantivo è stata osservata la frequenza di co-occorrenza con l'aggettivo stimolo; questa è poi stata trasformata in PPMI, Positive Pointwise Mutual Information, secondo la formula:

PPMI = log p(u , v) p(u)× p(v)

x =

{

PPMI , se PPMI>0 0 altrimenti

La PPMI è un indicatore della forza di associazione statistica vigente tra due parole preferibile alla semplice frequenza di co-occorrenza perché, come la Mutua Informazione, considera la probabilità di osservare un bigramma rispetto alla probabilità di osservare le due parole l'una indipendentemente dall'altra. Inoltre, come reso evidente dal nome, e dalla formula, la PPMI evita che vi siano valori negativi, sostituendoli con zero.

Per ogni aggettivo è stato quindi costruito un vettore multidimensionale rappresentativo dei suoi contesti nominali di occorrenza. Ciascuna dimensione di questo vettore corrisponde, infatti, ad uno dei nomi che l'aggettivo modifica o di cui è predicato, espressi dal valore della PPMI.

Dopo aver costruito un vettore per ogni aggettivo sperimentale, è stato calcolato il coseno per ogni coppia.

2 LexIt è un sito per l'esplorazione dei profili distribuzionali di nomi, verbi e aggettivi italiani. I profili distribuzionali sono stati estratti automaticamente da due corpora, Wikipedia e Repubblica, con metodi linguistico-computazionali, e contengono numerose informazioni statistiche (slot e frame sintattici in cui le parole occorrono, collocati, classi semantiche). È stato sviluppato dal Dipartimento di Linguistica dell'Università di Pisa nel 2011. Pagina web: http://lexit.fileli.unipi.it

(4)

Nei modelli semantici a spazi vettoriali, infatti, il coseno è utilizzato come misura della similarità semantica tra due o più documenti o lessemi. Questo può avere un valore compreso tra -1 e 1. Nel primo caso i due vettori formano un angolo di 180°; nel secondo l'angolo è di 0°, e i due vettori hanno quindi lo stesso orientamento e tendono a sovrapporsi. Un valore del coseno pari a 0 corrisponde invece ad un angolo di 90°. Il valore del coseno dell'angolo formato da due vettori, x e y, di n elementi, è dato dalla formula:

COS(x,y) =

i=1 n xi⋅yi

i=1 n xi 2 ⋅

i=1 n yi 2 = ⃗x⋅⃗y

⃗x⋅⃗x⋅

⃗y⋅⃗y = ⃗x ∥⃗x∥⋅ ⃗ y ∥⃗y∥

Il coseno dell'angolo tra due vettori corrisponde, quindi, al prodotto interno di questi, dopo che sono stati normalizzati per unità di lunghezza.

È importante sottolineare che questa misura non tiene conto della lunghezza dei vettori, ma solo dell'angolo che formano e, quindi, del loro orientamento. Tenuto conto di ciò, ne deriva che tanto più il valore del coseno si avvicina a 1, e l'angolo è quindi di 0°, tanto più due vettori sono simili, indipendentemente da altri fattori. Nel nostro caso, questo significa che le coppie di antonimi con valore del coseno vicino ad 1 saranno quelle i cui membri tendono a ricorrere con gli stessi sostantivi, con frequenze comparabili. Al contrario, un valore del coseno prossimo a 0 indicherà che i due aggettivi non ricorrono mai, o quasi mai, negli stessi contesti nominali. Ci si aspetta, pertanto, che le coppie canoniche abbiano un valore del coseno vicino ad 1 o, comunque, più elevato di quello delle coppie non-canoniche.

(5)

4.3

Dati

Come già detto, al fine di valutare la similarità distribuzionale dei membri delle coppie di antonimi in analisi è stato usato il coseno. I dati sono quindi stati ordinati sulla base di questo valore, dalla coppia con coseno più elevato a quella con coseno minore. L'elenco di tutte le coppie sperimentali con il rispettivo valore del coseno si trova in Appendice H.

Per ogni coppia è quindi stata indicata la canonicità e la frequenza di produzione totale, al fine di poter valutare l'interazione tra questi parametri.

Delle 130 coppie in analisi, 62 sono canoniche e le restanti 68 sono coppie non-canoniche. Il valore medio del coseno è 0.11, la mediana 0.12, con deviazione standard di 0.07.

Nella Tabella 4.1 sono illustrate le cinque coppie con valore del coseno maggiore e le cinque con valore del coseno minore.

Agg 1 Agg 2 Coseno Canonicità

maschile femminile 0.44 C bianco nero 0.41 C positivo negativo 0.41 C alto basso 0.30 C bianco scuro 0.27 NC esiguo grande 0.04 NC fine grossolano 0.04 NC attivo statico 0.03 NC libero schiavo 0.03 NC abbondante stretto 0.03 NC

TABELLA 4.1 – Cinque coppie con coseno più alto e più basso

La coppia con valore del coseno più elevato, maschile – femminile (0.44), è una coppia canonica, così come le tre coppie seguenti: bianco – nero (0.41), positivo – negativo (0.41), alto – basso (0.30). L'ultima coppia che figura nella tabella, bianco – scuro, invece, è una coppia non-canonica. Il valore del coseno di quest'ultima, però, è piuttosto inferiore a quello delle coppie precedenti (0.27). Il valore

(6)

massimo del coseno per le coppie non-canoniche risulta, pertanto, inferiore a quello delle coppie canoniche.

Per quanto riguarda le cinque coppie con valore del coseno più basso, invece, sono tutte non-canoniche.

Ad una prima analisi, quindi, questi dati sembrano essere in linea con la nostra ipotesi.

4.4

Analisi dei dati

In primo luogo è stato verificato se esiste una differenza significativa di coseno tra le coppie canoniche e le coppie non-canoniche. Si è poi analizzata la correlazione tra il valore del coseno e la canonicità, considerata in termini di frequenza di produzione, sia per tutte le coppie che per i due gruppi distinti.

Per l'analisi dei dati è stato utilizzato il software R.

Esiste una differenza significativa di coseno tra coppie canoniche e non-canoniche?

I test preliminari mostrano che i dati non sono normalmente distribuiti, il p-value del test di Shapiro è infatti inferiore di 0.05 sia per le coppie canoniche (p-value=3.676e-06) che per le coppie non-canoniche (p-value=0.000839). Le varianze, inoltre, non sono omogenee (p-value=0.0001906). Per valutare se esiste una differenza significativa di coseno tra le coppie canoniche e quelle non-canoniche, pertanto, è stato applicato il test di Wilcoxon. Il p-value è notevolmente inferiore del valore di riferimento 0.05 (p-value=3.588e-06; W=313). La differenza tra il coseno delle coppie canoniche e quello delle coppie non-canoniche è quindi significativa.

Ciò significa che le coppie di antonimi canoniche tendono ad avere un valore del coseno più elevato di quello delle coppie non-canoniche, come già in parte notato nel paragrafo precedente. Tali risultati confermano la nostra ipotesi. I membri di una coppia canonica ricorrono infatti frequentemente negli stessi contesti nominali, come già messo in evidenza da Paradis et al. (2015). Questi, quindi, modificano o

(7)

sono predicato degli stessi sostantivi non solo, o non tanto, quando co-occorrono in particolari strutture sintattiche (i pattern individuati da Justeson e Katz, 1991), ma anche in isolamento.

Non vi è invece una differenza significativa di coseno tra le coppie astratte e quelle concrete. Il parametro della concretezza, quindi, non è correlato alla similarità o meno dei contesti di occorrenza.

Esiste una correlazione tra coseno e frequenza di produzione?

È poi stato analizzato se esiste una correlazione tra il valore del coseno e la canonicità, intesa come frequenza di produzione reciproca. A tale scopo sono stati utilizzati i dati di frequenza di produzione totale, in entrambe le direzioni, ottenuti grazie all'esperimento precedente (vedi Capitolo 3, Paragrafi 3.4 e 3.5).

L'indice di correlazione di Pearson, r, è stato calcolato prima per tutte le coppie e successivamente dividendo il gruppo delle coppie canoniche da quello delle coppie non-canoniche.

Per quanto riguarda tutte le 130 coppie in analisi, l'indice di correlazione è piuttosto elevato, i'indice di correlazione r è infatti 0.41 (con p-value= 1.509e-06). Nel grafico in Figura 4.1 è illustrato l'andamento di tale correlazione. Come si può notare, vi sono numerose coppie con un valore del coseno compreso tra 0 e 0.2. Le coppie con coseno maggiore, ad eccezione di due outsider, presentano invece tutte una frequenza di produzione elevata, e sono quindi canoniche.

(8)

FIGURA 4.1 – Correlazione tra coseno e frequenza di produzione

Se prendiamo in considerazione il gruppo delle coppie canoniche, la correlazione tra il valore del coseno e la frequenza di produzione non è elevata come nel caso precedente, ma resta comunque significativa. I'indice r è, infatti, pari a 0.29 (con p-value=0.02147). I valori non hanno un andamento eccessivamente lineare, ma dal grafico in Figura 4.2 si può comunque individuare un rapporto di proporzionalità diretta tra le due variabili. I valori del coseno sembrano aumentare all'aumentare della frequenza di produzione; le quattro coppie con coseno più elevato sono anche tra le coppie con frequenza di produzione più vicina a 40. Vi sono, però, numerose coppie con frequenza di produzione massima con un valore del coseno piuttosto basso. È interessante notare, ad un'analisi qualitativa, che queste sono quasi tutte coppie di antonimi morfologicamente derivate, come ad esempio civile – incivile (0.04) e attivo – inattivo (0.05). Ciò potrebbe essere dovuto al fatto che, se pure canoniche in quanto più frequentemente prodotte, i due membri non sono allineati lungo una dimensione così semplice come negli altri casi. Il fatto che l'antonimo sia generato tramite derivazione morfologica, infatti, già suggerisce tale situazione, per la quale saranno necessari ulteriori approfondimenti.

(9)

FIGURA 4.2 – Correlazione tra coseno e frequenza di produzione per le coppie canoniche

Per quanto riguarda il gruppo delle coppie non-canoniche, invece, la correlazione tra valore del coseno e frequenza di produzione è quasi del tutto assente; r= 0.07 (con p-value=0.582). In ogni caso, quindi, la correlazione per le coppie canoniche è notevolmente maggiore di quella per le coppie non-canoniche.

Gia abbiamo notato che il valore massimo del coseno per le coppie non-canoniche (0.27) è inferiore a quello delle coppie canoniche (0.41); per il resto i dati si presentano abbastanza sparsi ed il coseno non supera mai il valore di 0.18, come illustrato dal grafico in Figura 4.3. Vi è, poi, un ristretto gruppo di coppie che presenta una bassissima frequenza di produzione, tra uno e cinque, ma un valore del coseno superiore alla media. Ciò significa che, nonostante da un punto di vista cognitivo i due aggettivi non tendano ad essere associati, modificano o sono predicato degli stessi sostantivi, forse a causa di contesti d'uso particolari o specialistici.

(10)

FIGURA 4.3 – Correlazione tra coseno e frequenza di produzione per le coppie non-canoniche

4.5

Conclusioni

Le analisi fin qui esposte mostrano una correlazione tra i valori del coseno e la frequenza di produzione, in particolar modo per quanto riguarda le coppie canoniche. Ciò, oltre che confermare ulteriormente la nostra ipotesi di partenza, sembra mettere in luce anche un altro fattore. Come ampiamente discusso in precedenza, la coppie di antonimi si pongono lungo un continuum di canonicità, non vi sono quindi solo coppie canoniche e coppie non-canoniche ma, all'interno di queste, si trovano esemplari migliori ed esemplari peggiori della relazione. Alla luce di questi risultati, sembra che gli esempi migliori di coppie canoniche, ovvero quelle con frequenza di produzione più alta, siano anche quelle il cui coseno di similitudine ha un valore prossimo ad 1 o, comunque, più elevato che negli altri casi. La bontà dell'opposizione di una coppia canonica tende, pertanto, ad essere direttamente proporzionale al valore del coseno. Ciò significa che le coppie “più canoniche” sono proprio quelle i cui due membri occorrono più frequentemente negli stessi contesti nominali.

(11)

Al contrario, per le coppie non-canoniche, il grado di canonicità non è correlato con il valore del coseno, ma sembra invece dipendere dalla frequenza di co-occorrenza dei due membri all'interno di un corpus, come messo emerso dalle analisi presentate nel capitolo precedente (Capitolo 3, Paragrafo 3.5)

Se, quindi, l'alta frequenza di co-occorrenza causa un'elevata frequenza di produzione nel caso delle coppie non-canoniche, per le coppie canoniche è il grado di similarità dei contesti di occorrenza dei membri, in absentia del partner, ad essere un buon indicatore di canonicità.

In realtà, questi risultati mettono in evidenza una situazione che va al di là della controversia tra il modello lessicale e quello cognitivista e sembrano avvalorare l'ipotesi proposta da Deese nel 1964, la substitutability hypothesis: due aggettivi sono antonimi (canonici) se possono essere sostituiti l'un l'altro in un testo, nella stessa posizione. I due membri di una coppia canonica modificano, o sono predicato, degli stessi nomi e, pertanto, “condividono contesti”. Questi, infatti, sono utilizzati per descrivere gli stessi oggetti e le stesse situazioni, ma da due punti di vista opposti; ciò che è alto, ad esempio un edificio o una persona, può essere anche basso, così come ciò che è caldo può essere anche freddo.

Si può quindi parlare della canonicità come di una “similarità distribuzionale paradigmatica”. Il fatto che le coppie di antonimi canoniche tendono a co-occorrere nelle stesse strutture sintattiche, negli stessi contesti sintagmatici, può essere considerato un effetto di questo tipo di similarità.

Inoltre, ciò che sembra determinante non è tanto l'allineamento dei due membri lungo una dimensione semplice, ma il fatto che siano utilizzati per riferirsi alle stesse cose, preferibilmente come poli opposti, equidistanti da un punto centrale. La nozione di dimensione semplice proposta dal modello cognitivista è infatti problematica. Se è vero che da un punto di vista cognitivo esistono delle coppie canoniche e delle coppie non-canoniche e queste sono poste lungo un continuum di bontà dell'opposizione, come confermato dagli esperimenti e dalle analisi precedenti, la nozione di dimensione semplice non sembra essere una spiegazione sufficientemente chiara del fenomeno. Se la dimensione di allineamento di una coppia di antonimi è infatti facilmente individuabile nel caso in cui questa venga utilizzata nel suo senso base (caldo – freddo per riferirsi alla

(12)

temperatura), ciò non è altrettanto valido quando ne vengono fatti usi figurativi o metaforici. Anche quando usiamo caldo – freddo per riferirci al carattere di una persona, però, la coppia continua ad essere canonica, anche se è difficile individuare una dimensione semplice. Inoltre ci sono coppie canoniche per le quali è difficile individuare una dimensione senza ricorrere ad usi metaforici o figurativi, come nel caso nelle coppie di antonimi astratte o quelle in cui un membro è derivato morfologicamente dall'altro.

In conclusione, possiamo dire che una coppia tende ad essere canonica quando i due membri descrivono le stesse cose e, quindi, modificano o sono predicato degli stessi sostantivi. In questo senso, se un aggettivo acquisisce un nuovo significato, l'opposizione si sposta anche in quel campo concettuale, preservando la relazione dal punto di vista lessicale.

Riferimenti

Documenti correlati

•Il concetto di base della teoria VSEPR è il seguente: In una molecola costituita da un atomo centrale legato ad altri atomi terminali, le coppie elettroniche attorno all'atomo

Le rappresentazioni matem- atiche caratterizzate dal minor numero possibile di parametri significativi prendono tipicamente il nome di forme canoniche.. • Le forme canoniche di

Le rappresentazioni mate- matiche caratterizzate dal minor numero possibile di parametri significativi prendono il nome di forme canoniche.. • Le forme canoniche di maggior

 di essere cittadino di uno stato non appartenente all’unione europea titolare di carta di soggiorno o con permesso di soggiorno di durata biennale..  di risiedere in un Comune

Interpretare i fenomeni di attrito statico e dinamico. Applicare i principi della dinamica per risolvere problemi sul moto di un corpo. 9) Momento di una forza rispetto ad un

Interpretare i fenomeni di attrito statico e dinamico. Applicare i principi della dinamica per risolvere problemi sul moto di un corpo. 9) Momento di una forza rispetto ad un

Tempo medio di attesa per Paese di adozione dal deposito dei documenti all’estero.. PAESE alla firma del consenso

Nelle richieste di ieri ci sono stati dei cambiamenti rispetto alla notifica di chiusura delle indagini di circa due mesi fa, quando la procura milanese voleva procedere contro