1. Un esperimento di elicitazione

(1)

1. Un esperimento di elicitazione

In questo capitolo verrà presentato l'esperimento effettuato al fine di individuare quali sono i parametri che intervengono nel fenomeno della canonicità, ovvero perché una coppia di antonimi è riconosciuta come tale dalla totalità, o quasi, dei parlanti.

Si tratta di un esperimento di elicitazione. Ai partecipanti è stato pertanto chiesto di fornire il miglior opposto per un gruppo di aggettivi.

Questo esperimento è stato svolto seguendo il modello dell'esperimento di elicitazione di Paradis et al. (2009), descritto nel Capitolo 2, Paragrafo 2.2. Si differenzia, però, nelle modalità di selezione degli elementi sperimentali. Il lavoro di Paradis et al. si sviluppa, infatti, a partire da una serie di coppie antonimiche di aggettivi già considerate canoniche sulla base dell'alta frequenza di co-occorrenza dei due membri nel British National Corpus, e allineate lungo sette dimensioni salienti per la comunicazione. A questi aggettivi sono poi stati aggiunti alcuni possibili sinonimi ed un gruppo di parole prive di relazioni semantiche, ed entrambi i membri delle coppie sono stati inclusi nel gruppo sperimentale. Tale esperimento di elicitazione, inoltre, è preceduto da un esperimento di valutazione, dove ai partecipanti era chiesto di giudicare la bontà di opposizione di una serie di coppie di aggettivi.

In questo caso, invece, il primo gruppo di aggettivi sperimentali è stato selezionato sulla base del solo parametro della concretezza. Sono stati, pertanto, selezionati 35 aggettivi astratti e 35 concreti; includendo però i membri non marcati delle coppie sperimentali di Paradis et al. (2009). L'obiettivo dell'esperimento di elicitazione era quello di individuare tutti i possibili antonimi di questi aggettivi. L'esperimento è poi stato ripetuto con un secondo gruppo sperimentale, formato da tutti gli aggettivi elicitati dal primo gruppo, al fine di valutare anche la reciprocità o meno delle relazioni di opposizione. Le coppie prese in analisi sono state formate in un secondo momento, a partire dai dati ottenuti dall'esperimento di elicitazione. Tali coppie sono quindi state classificate come canoniche o non-canoniche sulla base della frequenza di produzione. Le coppie non-canoniche

(2)

saranno, pertanto, le coppie dove il primo membro ha elicitato più frequentemente il secondo e viceversa, ovvero quelle per le quali la maggior parte degli informanti ha fornito uno dei due aggettivi come antonimo dell'altro, e questo come antonimo del primo.

Una volta ottenute tutte le coppie possibili, il secondo obiettivo dell'esperimento era quello di individuare i parametri che fanno si che una coppia di antonimi acquisisca lo statuto di canonica.

Come esposto in precedenza, infatti, vi sono due differenti modelli possibili nello spiegare il fenomeno della canonicità, uno di tipo lessicale ed un altro di tipo cognitivista. Secondo il primo (vedi Capitolo 2, Paragrafo 2.1), alcune coppie di antonimi acquisirebbero il loro statuto di canoniche a causa della loro alta frequenza di co-occorrenza; la relazione sarebbe quindi di tipo lessicale e sarebbe possibile individuare un gruppo di antonimi canonici opposto ad uno di antonimi non-canonici. Secondo l'approccio cognitivista della Paradis (vedi Capitolo 2, Paragrafo 2.2), invece, la canonicità è dovuta all'allineamento dei membri di una coppia lungo una dimensione semplice e saliente, facilmente individuabile e rilevante per la cognizione umana. In questo caso i membri di una qualsiasi coppia di antonimi sarebbero in opposizione prima di tutto a causa della loro incompatibilità semantica, e solo un ristretto gruppo di questi (gli antonimi canonici, appunto) risulterebbe fortemente radicato nella memoria e associato, quindi, anche da un punto di vista lessicale. Gli antonimi si distribuirebbero però lungo un continuum di bontà dell'opposizione, e non in maniera dicotomica.

Ciò che rende un coppia canonica, quindi, potrebbe da un lato essere l'alta frequenza di co-occorrenza dei membri di una coppia, mentre dall'altro l'allineamento di questi lungo una dimensione semplice. A queste due possibili spiegazioni è stato aggiunto il parametro della concretezza, al fine di valutare se ed in che modo interferisca nel riconoscimento condiviso di una coppia di antonimi. Si è inoltre tenuto conto della possibilità di un aggettivo di avere un antonimo opaco o di generarne uno tramite derivazione morfologica.

(3)

(1) La canonicità di una coppia è dovuta all'alta frequenza di co-occorrenza dei suoi due membri e, quindi, alla forte associazione lessicale;

(2) La canonicità di una coppia è dovuta all'allineamento dei due membri lungo una dimensione semplice;

(3) Qualora nessuna delle due ipotesi precedenti risulti valida, la canonicità di una coppia è dovuta al suo grado di concretezza o a fattori morfologici; (4) Vi è un'interazione di tutti questi parametri.

3.1 Stimoli

Per l'esperimento sono stati selezionati due gruppi di aggettivi, testati singolarmente in due task differenti ma secondo le stesse modalità.

Il primo gruppo è formato da 70 aggettivi scelti manualmente sulla base del parametro della concretezza; sono quindi stati selezionati 35 aggettivi concreti e 35 astratti.

Tra gli aggettivi concreti di questo gruppo è stato incluso il membro non marcato delle coppie che Paradis et al. (2009) e Jones et al. (2007) avevano individuato come allineate lungo una dimensione saliente: veloce, forte, largo, spesso, scuro, luminoso, grande, buono, bello, aperto, povero.

Negli aggettivi astratti è invece stato incluso l'aggettivo interessante che, in inglese, con il suo antonimo boring formerebbe una coppia canonica ma non allineata lungo una dimensione semplice.

Prima di procedere con l'esperimento, per il primo gruppo è stato controllato che tra le frequenze di occorrenza degli aggettivi concreti e quelli astratti non vi fossero differenze significative. Le frequenze di occorrenza sono state estratte dal corpus PAISÀ1_.

Il secondo gruppo è formato da tutti gli aggettivi elicitati dal primo gruppo, presi ciascuno una sola volta in caso di ripetizioni ed escludendo quelli già presenti nel primo gruppo, per un totale di 132 elementi.

1 _{Il corpus PAISÀ è una raccolta di testi in lingua italiana tratti da Internet e disponibile online.}

Contiene circa 250 milioni di token ed è completamente annotato. Il progetto è stato realizzato nel 2009 dalla collaborazione dell'Università di Bologna, CNR Pisa, Accademia Europea di Bolzano e Università di Trento. Pagina web: http://www.corpusitaliano.it/

(4)

Tale secondo gruppo sperimentale è stato incluso al fine di valutare anche la reciprocità della relazione di opposizione per le coppie emerse.

I 202 aggettivi, divisi nei due gruppi sperimentali, sono riportati nella Tabella 3.1, dove gli aggettivi stimolo del primo gruppo sono ulteriormente suddivisi sulla base della concretezza.

Primo gruppo Secondo gruppo

C A lento inerme prigioniero spiacevole

veloce facile debole scomodo legato sgradevole

forte felice piccolo incompleto occupato disgustoso

grande calmo stretto mancante imprigionato impossibile

largo tranquillo sottile inorganico bloccato irrilevante spesso interessante fine disorganico schiavo trascurabile

buono comico cattivo instabile costretto irrazionale

scuro concreto chiaro nudo previsto illegale

luminoso libero buio svestito atteso disonesto

bello improvviso oscuro asimmetrico graduale imperfetto

aperto abbondante brutto resistente calcolato difettoso povero intelligente chiuso robusto prevedibile dispari

grasso pubblico ricco disordinato scarso impari

alto giusto magro confusionario esiguo incredibile

lungo vero misero difficile stupido inattendibile

vivo uguale basso triste idiota inverosimile

maschile iniziale corto infelice ignorante bugiardo

pieno positivo morto agitato deficiente impreciso

dolce logico femminile irrequieto cretino grossolano

bianco morale vuoto inquieto incapace incerto

duro civile amaro alterato sciocco insicuro

pesante limitato salato rumoroso privato inesatto

sporco piacevole nero noioso sbagliato errato

vecchio possibile morbido insignificante ingiusto sfortunato

bagnato rilevante molle monotono falso.

mangiabile razionale leggero frivolo finto

mobile legale pulito indifferente diverso

attivo onesto giovane serio diseguale

(5)

completo pari asciutto drammatico negativo organico credibile immangiabile austero illogico

stabile preciso immobile astratto immorale

vestito certo statico irreale amorale

simmetrico sicuro fisso vago incivile

fragile esatto inattivo evanescente illimitato

ordinato fortunato passivo idealista ampio

TABELLA 3.1 – Primo e secondo gruppo sperimentale

Ad entrambi i due gruppi sperimentali sono state aggiunte alcune non-parole, parole fonotatticamente possibili in italiano ma non esistenti. Sono state inserite 20 parole inventate per il primo gruppo e 30 per il secondo. Ciò è stato necessario per verificare che i soggetti fossero parlanti di italiano. Per tali parole inventate, come indicato nelle istruzioni, l'unica risposta corretta era falso.

Gli stimoli sono stati presentati singolarmente ed in ordine casuale. Ad ogni informante è stato presentato un insieme differente di 10 aggettivi, sia per il primo gruppo che per il secondo, fino a raggiungere 20 risposte valide per ogni parola stimolo.

3.2 Task

L'esperimento, sia per quanto riguarda la presentazione degli stimoli che la raccolta delle risposte, è stato svolto attraverso la piattaforma online Crowdflower.com2_.

Ai partecipanti è stato chiesto di scrivere il miglior opposto per ciascuno degli aggettivi stimolo. Per ognuno di questi vi era un apposito spazio bianco, dove inserire una sola parola, come si può vedere nella Figura 3.1

2 _{Crowdflower.com è una piattaforma online di crowdsourcing; permette agli utenti di pulire,}

etichettare e arricchire i propri dati grazie al contributo degli altri milioni di partecipanti. È stata fondata da Lukas Biewald e Chris Van Pelt nel 2007 a San Francisco, in California.

(6)

Come già detto, non tutti i partecipanti hanno fornito una risposta per ciascuna delle parole stimolo dei due gruppi sperimentali, ma ad ognuno è stato presentato un gruppo casuale di 10 elementi, fino ad ottenere 20 risposte per ognuno degli aggettivi.

FIGURA 3.1 – Schermata di esempio dell'esperimento di elicitazione

Nelle istruzioni (in Appendice A) è stato fornito un esempio di parole in opposizione (caldo - freddo) ed stata chiaramente segnalata la presenza di alcune parole inventate, la cui unica risposta corretta da scrivere era falso. Queste sono inoltre state marcate come risposte gold sulla piattaforma, che le individuava automaticamente come non corrette.

La piattaforma utilizzata si avvale dei metodi di crowdsourcing, i dati non sono quindi stati raccolti attraverso i tradizionali esperimenti in laboratorio ma via web, grazie al contributo di partecipanti esterni. Il crowdsourcing, sempre più usato negli ultimi anni, permette di raccogliere un gran quantitativo di dati in tempi piuttosto brevi e con costi contenuti. Sono però stati più volte messi in evidenza alcuni svantaggi di tipo pratico. Non solo, infatti, il task deve essere reso fruibile a tutti i partecipanti, con il rischio di semplificarlo eccessivamente, ma non si può avere alcun tipo di controllo sugli informanti e le loro risposte. I partecipanti possono pertanto differire notevolmente con rispetto all'estrazione sociale ed al grado di istruzione, e non necessariamente avranno tutti lo stesso interesse nello svolgere il compito richiesto. Inoltre vi sono alcune variabili che non si possono controllare, come la presenza di informanti che partecipano a più parti dello stesso esperimento quando, in un tradizionale esperimento in laboratorio, sarebbero stati selezionati gruppi di partecipanti distinti.

(7)

Al di là di questi problemi di tipo pratico, però, ci si può domandare se la qualità dei dati raccolti sia la stessa e se ci si può, quindi, fidare dei risultati ottenuti grazie all'uso di questi metodi. A questo scopo, Munro et al. (2010) hanno svolto alcuni esperimenti psicolinguistici3_{sia in laboratorio che raccogliendo i dati attraverso la} piattaforma di crowdsourcing offerta da Amazon, Mechanical Turk. Hanno, poi, verificato se il crowdsourcing fosse un metodo utile per stabilire la validità delle tendenze di un corpus e per capire meglio i dati di ERP emersi da uno studio sulla frequenza dell'uso metaforico delle parole. Dopo aver analizzato i risultati, ne concludono che la qualità e l'attendibilità dei dati raccolti tramite crowdsourcing è del tutto comparabile a quella dei test in laboratorio, se non, alcune volte, addirittura maggiore. La correlazione tra i differenti indici presi in analisi è infatti sempre piuttosto significativa, in quanto l'attenzione maggiore è rivolta alla distribuzione delle risposte e non al tipo di queste. L'utilizzo di questo metodo di raccolta dati, pertanto, comporterebbe un risparmio sia in termini di costi che di tempo, senza che ne risenta la sicurezza e l'affidabilità delle ricerche. Al fine di evitare alcuni problemi pratici, inoltre, Munro et al. (2010) suggeriscono di includere sempre negli esperimenti alcune domande che verifichino il grado di attenzione dei partecipanti. Il crowdsourcing permetterebbe, così, di svolgere studi sistematici e su larga scala, ampliando la tipologia di partecipanti coinvolti; i risultati ottenuti sarebbero quindi validi non solo per un ristretto gruppo di informanti, ma terrebbero conto della possibile variabilità socio-economica e dei diversi gradi di istruzione ed educazione di questi ultimi.

Qualora non ci si voglia affidare del tutto a questo metodo di raccolta dei dati, studi di questo tipo si potrebbero utilizzare insieme ai metodi più tradizionali, ad esempio per ottenere in tempi brevi dei risultati indicativi da confermare successivamente in esperimenti in laboratorio.

3.3 Soggetti

Hanno partecipato all'esperimento 20 soggetti per ogni aggettivo stimolo.

3 _{Gli esperimenti svolti riguardano la trasparenza semantica, la segmentazione di una traccia}

(8)

Si presume che questi siano tutti parlanti nativi di Italiano, in quanto hanno correttamente identificato le parole inventate e fornito risposte valide per gli altri stimoli. Inoltre, la provenienza dei soggetti sulla piattaforma CrowdFlower è stata ristretta all'Italia.

3.4 Dati

I dati raccolti sono stati puliti e analizzati sulla base della distribuzione delle risposte tra i partecipanti. Sono quindi state identificate tutte le coppie possibili e analizzate sulla base della reciprocità della relazione, della frequenza di co-occorrenza dei due membri all'interno di un corpus e della loro forza di associazione, tenendo conto anche del parametro della concretezza.

Come appena detto, prima di procedere con la sistematizzazione e l'analisi dei dati, questi sono stati puliti. Ciò significa che sono stati corretti eventuali errori ortografici o di digitazione (es. “assimetrico” per asimmetrico, “inpreciso” per impreciso) ed eliminate le risposte non pertinenti. Sono state normalizzate le risposte mollo - molle e disuguale - diseguale a favore della seconda grafia qui presentata, in quanto semanticamente identici. Per alcuni aggettivi uno o due informanti avevano fornito la risposta “falso” nonostante questi fossero parole realmente esistenti in Italiano; tali risposte sono state eliminate. Sono inoltre stati eliminati i nomi, verbi ed avverbi ottenuti come risposte in quanto l’esperimento riguardava la sola classe degli aggettivi, o sono stati ridotti in forma aggettivale come nel caso di inizio, sostituito con iniziale. Infine sono stati eliminati i sinonimi e i non opposti, come ad esempio “nudo” per svestito, “istantaneo” per improvviso e “frizzante” per evanescente.

Distribuzione delle risposte

I dati sono stati ordinati sulla base della distribuzione delle risposte rispetto ai partecipanti. Per ogni aggettivo stimolo, quindi, le risposte elicitate sono state ordinate per frequenza di produzione, dalla più frequente alla meno frequente. Gli

(9)

aggettivi stimolo e le rispettive risposte sono elencati in Appendice B (primo gruppo sperimentale) e C (secondo gruppo).

La media totale di risposte per ogni aggettivo è di 2.85, ma queste variano da un minimo di 1 ad un massimo di 10 risposte ottenute. La deviazione standard è di 2.96, indicando che la maggior parte degli stimoli hanno elicitato solo uno o due possibili antonimi, come illustra il grafico in Figura 3.2.

FIGURA 3.2 – Distribuzione delle risposte dell'esperimento di elicitazione

Considerando in maniera distinta i due gruppi, in realtà, il primo gruppo è risultato più omogeneo del secondo. La media di risposte è infatti 2.14, con deviazione standard di 1.54; per il secondo gruppo, invece, la media è di 3.23 risposte per aggettivo, con deviazione standard di 2.53.

Le parole stimolo del primo gruppo hanno elicitato da 1 a 8 possibili antonimi, elencati nell'Appendice B. Ai primi posti ci sono i 31 aggettivi che hanno ricevuto una sola risposta, condivisa dalla totalità degli informanti, come ad esempio: veloce (lento), alto (basso), pieno (vuoto), grande (piccolo), bagnato (asciutto). Seguono gli aggettivi per i quali sono stati forniti due possibili antonimi, ad esempio felice (triste, infelice) e vestito (nudo, svestito), e così a seguire. Gli ultimi

(10)

due aggettivi stimolo presenti della lista sono intelligente e libero che hanno ricevuto rispettivamente 7 e 8 risposte.

Le parole stimolo del secondo gruppo hanno invece elicitato fino a 10 antonimi possibili. I risultati sono elencati in Appendice C, secondo lo stesso principio adottato per il primo gruppo. Uno e lo stesso antonimo è stato fornito per 44 aggettivi. Tra questi rientrano molti degli aggettivi che erano stati elicitati come unica risposta da alcune parole stimolo del primo gruppo sperimentale, candidando le coppie così ottenute a buoni esempi di coppie canoniche. Gli aggettivi stimolo serio, austero, calcolato, esiguo e sciocco hanno invece ottenuto 10 risposte possibili.

Al fine di quantificare la dispersione delle risposte per ogni aggettivo stimolo, sono poi state calcolate la Type-Token Ratio, ovvero il rapporto tra il numero di differenti risposte ottenute per un aggettivo stimolo e il numero di risposte totali, e l'entropia, che tiene conto anche della frequenza con cui gli informanti hanno fornito una determinata risposta. Tali dati sono presentati nell'Appendice D, dove per ogni aggettivo incluso nell'esperimento è stata anche indicata la concretezza e la frequenza di occorrenza nel corpus italiano PAISÀ.

Gli elementi sono stati ordinati per entropia crescente, i primi aggettivi della lista sono pertanto quelli che hanno ricevuto una sola risposta. Un valore 0 dell'entropia, infatti, indica che la dispersione delle risposte è stata minima, ovvero che tutti gli informanti hanno fornito lo stesso, ed unico, aggettivo come risposta ad un determinato stimolo. Un'entropia pari a 0 è stata riscontrata per 75 stimoli, ciò significa che per questi aggettivi è stato individuato un solo antonimo possibile, condiviso dalla totalità degli informanti. Dal momento che la canonicità si manifesta principalmente nel riconoscimento condiviso di una coppia di antonimi, le coppie così formate avranno una tendenza maggiore ad essere classificate come canoniche; va però tenuto conto anche della reciprocità o meno della relazione.

Un valore dell'entropia superiore a 0,5, che segnala quindi una dispersione significativa dei dati, è stato riscontrato per 30 stimoli. In questo caso, molte delle risposte sono state fornite da un solo informante. I due aggettivi con entropia più

(11)

elevata sono esiguo (0,923) e sciocco (0,924); come già segnalato, per entrambi sono stati individuati dieci opposti possibili, e non più di cinque informanti hanno fornito una risposta condivisa, rendendo difficile l'individuazione di un antonimo canonico.

È interessante notare che gli aggettivi che presentano una forte dispersione delle risposte appartengono tutti al secondo gruppo sperimentale, come era già stato in parte suggerito dalla media e dalla deviazione standard.

I dati fin qui esposti confermano l'esistenza di un continuum di bontà dell'opposizione, come già emerso dagli esperimenti di Hermann et al. (1986) e Paradis et al. (2009) e messo in evidenza dal grafico in Figura 3.2.

Ciò risulta valido anche se si prendono in analisi gli aggettivi stimolo che hanno ricevuto più di una o due risposte. Tra i possibili antonimi suggeriti, infatti, vi è un decremento graduale della frequenza con cui gli informanti hanno fornito una determinata risposta. La Figura 3.3 esemplifica tale situazione per l'aggettivo oscuro.

FIGURA 3.3 – Risposte per l'aggettivo oscuro

Sul totale delle 20 risposte, chiaro è stato fornito da 13 informanti, luminoso da 4, limpido da 2 e conosciuto da uno soltanto.

Concretezza

Per quanto riguarda il parametro della concretezza preso in analisi, il gruppo degli aggettivi concreti sembra essere più omogeneo di quello degli aggettivi astratti. Questi ultimi, infatti, non solo hanno ottenuto un numero medio di risposte per stimolo maggiore (circa quattro risposte per stimolo contro le due risposte per

chiaro luminoso limpido conosciuto 0 2 4 6 8 10 12 14

(12)

stimolo degli aggettivi concreti), ma inoltre tra questi vi sono aggettivi che hanno elicitato antonimi concreti, mentre non si è verificato il caso inverso, ovvero che un aggettivo concreto ne abbia elicitato uno astratto.

Con la successiva analisi dei dati si verificherà se i due gruppi hanno differenze significative.

Reciprocità

Dopo aver osservato la distribuzione delle risposte, è stata presa in analisi la reciprocità della relazione per le coppie ottenute. Sono quindi stati individuati quali aggettivi si sono elicitati l'un l'altro, in entrambe le direzioni, ed in che misura. Sono emerse 446 coppie antonimiche combinando di volta in volta l'aggettivo stimolo con gli antonimi suggeriti dai partecipanti. Per 250 coppie non è stato possibile stabilire la reciprocità in quanto uno dei due membri non era incluso in nessuno dei due gruppi sperimentali. Le restanti coppie sono state classificate in tre gruppi principali: non reciproche, reciproche e canoniche.

Le coppie non reciproche sono quelle per cui la relazione è valida solo in una delle due direzioni, pertanto l'Aggettivo 1 ha elicitato l'Aggettivo 2 (secondo l'ordine presentato in Appendice E) ma non si è verificato il contrario. Tra le 66 coppie non reciproche vi sono, ad esempio: logico – irrazionale, bianco – scuro, fragile – duro, sottile – largo, bloccato – aperto.

Per coppie reciproche si intendono, invece, quelle coppie per cui l'Aggettivo 1 ha elicitato almeno una volta l'Aggettivo 2 e viceversa. Queste sono 130, tra cui: luminoso – oscuro, piacevole – sgradevole, mobile – statico, esatto – errato. Rientrano in questo gruppo anche coppie per le quali uno dei due membri ha richiamato come risposta più frequente l'altro, ma ciò non è accaduto nella direzione opposta. Ad esempio, l'aggettivo salato ha elicitato dolce come risposta più frequente (15 volte), mentre la risposta più frequente per dolce è stata amaro (18 volte), e solo in seconda istanza è stato elicitato salato (2 volte). La Figura 3.4 esemplifica tale situazione, mettendo in evidenza che un buon rapporto di opposizione sono sempre vige soltanto a livello di uno ad uno, ma anche di uno a due o uno a molti.

(13)

FIGURA 3.4 – Possibili antonimi di dolce

Sono, infine, state classificate come coppie canoniche un sottogruppo delle coppie reciproche, per le quali non solo i due aggettivi si sono elicitati l'un l'altro ma l'Aggettivo 1 ha ricevuto come risposta più frequente l'Aggettivo 2 e viceversa. La coppia dolce – amaro appena esemplificata rientra pertanto in tale definizione. Le 65 coppie canoniche sono elencate nella Tabella 3.2, ordinate per frequenza di produzione in entrambe le direzioni.

Coppie canoniche

veloce lento razionale irrazionale

forte debole perfetto imperfetto

grande piccolo pari dispari

largo stretto certo incerto

buono cattivo dolce amaro

bello brutto ordinato disordinato

aperto chiuso rilevante irrilevante

povero ricco scuro chiaro

alto basso grasso magro

lungo corto sicuro insicuro

vivo morto mangiabile immangiabile

maschile femminile mobile immobile

pieno vuoto organico inorganico

pesante leggero calmo agitato

sporco pulito piacevole spiacevole

stabile instabile preciso impreciso

facile difficile duro morbido

pubblico privato morale immorale

(14)

civile incivile uguale diverso

legale illegale credibile incredibile

onesto disonesto concreto astratto

fortunato sfortunato intelligente stupido

iniziale finale vestito nudo

bianco nero vecchio giovane

bagnato asciutto attivo inattivo

comodo scomodo attivo passivo

completo incompleto abbondante scarso

simmetrico asimmetrico libero prigioniero

vero falso luminoso buio

logico illogico felice triste

limitato illimitato spesso sottile

possibile impossibile

TABELLA 3.2 – Coppie canoniche emerse dall'esperimento di elicitazione

Tuttavia, come già detto, tra queste coppie non sempre uno dei due membri è l'unica risposta elicitata dall'altro, ma è solo la più frequente tra i differenti antonimi proposti. Ciò ha dato luogo a differenti pattern di reciprocità possibili per la relazione di opposizione.

Le prime ventiquattro coppie della Tabella 3.2, in grassetto, sono quelle che esemplificano perfettamente la relazione binaria dell'antonimia. Il primo membro della coppia ha elicitato unicamente il secondo membro, così come il secondo membro ha elicitato solo il primo, dando luogo ad una serie di coppie che tutti gli informanti giudicano come ottimi esempi di opposizione. Il rapporto, quindi, è di tipo uno ad uno. È interessante notare che rientrano in questo gruppo quasi tutte le coppie che Paradis et al. (2009) e Jones et al. (2007) hanno classificato come coppie canoniche allineate lungo una dimensione semplice ed utilizzato quindi come stimolo per i loro esperimenti di elicitazione. Le uniche che non vi sono incluse sono chiaro – scuro, spesso – sottile e luminoso – buio che, però, sono possono comunque essere classificate come coppie canoniche, anche se non in rapporto esclusivamente binario. Per quanto riguarda l'unico aggettivo astratto ripreso da questi studi, interessante, la questione sembra essere più complessa in

(15)

quanto ha elicitato noioso nella maggior parte degli informanti, ma ciò non si è verificato nel senso opposto; noioso ha infatti elicitato 11 volte divertente. Purtroppo l'aggettivo divertente non è stato incluso in nessuno dei due gruppi sperimentali e non è pertanto possibile valutare il grado di reciprocità della coppia così formata, e se quindi noioso – divertente è o meno una coppia canonica.

Vi sono, poi, alcuni aggettivi che hanno elicitato due possibili opposti che sembrano contendersi il ruolo di antonimo canonico, come nel caso di dolce – amaro/salato illustrato in precedenza. L'antonimo canonico di dolce sembra essere amaro, ma al tempo stesso l'antonimo canonico di salato è dolce.

L'esempio più eclatante di questo pattern di opposizione è dato dall'aggettivo attivo. L’aggettivo stimolo del primo gruppo attivo, infatti, ha elicitato lo stesso numero di volte sia passivo che inattivo (9 volte). Passivo e inattivo, inclusi a loro volta nel secondo gruppo sperimentale, hanno ricevuto come unica risposta attivo, come illustrato nella Figura 3.5. Entrambe le coppie emerse, quindi, attivo -passivo e attivo - inattivo, possono essere considerate canoniche a tutti gli effetti. Un aggettivo può pertanto avere differenti antonimi, e con ognuno di questi può formare una buona coppia canonica, avvalorando l’ipotesi che la canonicità non richiede necessariamente l’esclusività della relazione (Jones et al., 2007).

FIGURA 3.5 – Antonimi di attivo

Lo stesso tipo di rapporto uno a due si è manifestato per numerose altre triple di aggettivi, soprattutto per quanto riguarda aggettivi che, come nel caso di attivo, possono avere sia un antonimo opaco che uno morfologicamente derivato. Un

(16)

ulteriore esempio è, infatti, la tripla vestito – nudo/svestito, illustrato nella Figura 3.6.

FIGURA 3.6 – Antonimi di vestito

In questo caso il rapporto non è del tutto equivalente, in quanto vestito ha elicitato 11 volte nudo e solo 9 volte svestito, ma va notato che entrambi questi due aggettivi hanno richiamato vestito nella totalità degli informanti4_.

Vi sono poi altre triple che mostrano tale pattern non perfettamente simmetrico, come perfetto – imperfetto/difettoso e morale – immorale/amorale.

Nel primo caso, in Figura 3.7, la coppia perfetto – imperfetto sembra rispondere a tutti i parametri della canonicità, in quanto i due aggettivi si elicitano l'un l'altro in quasi tutti i soggetti. Difettoso, tuttavia, ha elicitato perfetto in più della metà degli informanti. Per quanto, quindi, imperfetto sia un ottimo antonimo di perfetto, quest'ultimo aggettivo sembra essere il miglior antonimo possibile per difettoso; la seconda risposta più frequente, funzionante, è stata infatti fornita da soli 4 informanti.

4 _{Svestito ha elicitato vestito in 19 informanti su 20 poiché una risposta è stata eliminata in}

(17)

FIGURA 3.7 – Antonimi di perfetto

La seconda tripla considerata (in Figura 3.8), invece, presenta un aggettivo stimolo con due antonimi morfologicamente derivati. Anche in questo caso sembra esserci un antonimo preferito per morale (immorale). Tuttavia amorale è comunque un ottimo candidato alla relazione di opposizione nel senso inverso.

FIGURA 3.8 – Antonimi di morale

Questo tipo di pattern, se pur frequente per gli aggettivi con antonimi sia opachi che morfologicamente derivati, si manifesta anche in altre triple, come ad esempio vero – falso/finto, in Figura 3.9, il cui tipo di relazioni è quasi identico a quelle esemplificate in precedenza.

(18)

FIGURA 3.9 – Antonimi di vero

Un caso limite di tale situazione si osserva, invece, per ricco – povero/misero (in Figura 3.10). La coppia ricco – povero è infatti non solo canonica, ma anche caratterizzata da una perfetta binarietà, in quanto la totalità degli informanti ha associato i due aggettivi in entrambe le direzioni. L'aggettivo stimolo misero, però, ha elicitato ricco in 15 soggetti su 20, ovvero il 75% delle volte, rendendo la relazione degna di nota. Una aggettivo sembra quindi poter avere un antonimo preferito anche se la relazione di opposizione nel verso opposto è in parte o totalmente assente, e la coppia non è pertanto caratterizzata da alcun tipo di reciprocità.

FIGURA 3.10 – Rapporti tra ricco, povero e misero

Seguono un pattern simile le triple felice – triste/infelice, ordinato – disordinato/confusionario, organico – inorganico/disorganico, pari – dispari/impari, uguale – diverso/diseguale, abbondante – scarso/esiguo, chiaro – scuro/oscuro, duro – morbido/molle, vecchio – giovane/nuovo, le cui rappresentazioni si possono trovare in Appendice E.

(19)

Vi sono poi altri due pattern emersi dall'esperimento di elicitazione che vale la pena segnalare, e che possono essere definiti come relazioni di opposizione “uno e molti” e “molti e molti”.

Per quanto riguarda il primo tipo, si tratta di casi in cui un aggettivo stimolo ha elicitato un numero variabile di antonimi possibili. Questi, a loro volta, nella maggior parte dei casi hanno richiamato il primo aggettivo un numero significativo di volte. In realtà, però, tali rapporti non sempre sono caratterizzati dalla reciprocità. Si può considerare, ad esempio, l'aggettivo fragile, rappresentato in Figura 3.11. Fragile ha elicitato quattro possibili antonimi: forte (7 volte), robusto (6 volte), resistente (5 volte) e duro (2 volte). Tuttavia, forte, che sembrerebbe un buon antonimo di fragile, non lo ha richiamato nemmeno una volta. Per contro, resistente ha elicitato fragile ben 12 volte, e robusto lo ha elicitato 6 volte, a pari merito con esile. Lo schema che emerge da questa situazione, quindi, non permette di individuare alcuna coppia canonica nella definizione iniziale del termine. Sembra, piuttosto, che, ancora una volta, l'antonimia non sia necessariamente una relazione biunivoca, ma che una buona opposizione si possa riscontrare anche in un solo senso.

FIGURA 3.11 – Antonimi di fragile

Altri due casi in cui una parola stimolo ha elicitato numerosi antonimi possibili, e questi hanno richiamato come risposta più frequente lo stesso aggettivo stimolo, si sono verificati in modo molto evidente per gli aggettivi libero e intelligente. Libero ha infatti elicitato 8 risposte possibili (prigioniero, legato, occupato, imprigionato, bloccato, chiuso, schiavo, costretto). La coppia libero - prigioniero può essere

(20)

considerata canonica in quanto i due aggettivi sono stati l’uno la risposta più frequente dell’altro, ma altri quattro aggettivi hanno elicitato libero in misura maggiore rispetto ad altre parole: occupato (16), imprigionato (17), costretto (18), schiavo (18). Per schiavo questo dato corrisponde alla totalità delle risposte ricevute, dal momento che la parola padrone, fornita da due informanti, è stata eliminata in quanto sostantivo e non aggettivo. Anche gli altri tre aggettivi elicitati da libero lo hanno richiamato, ma non come risposta più frequente. La struttura che risulta da tali associazioni, quindi, è quella di un unico antonimo comune a più aggettivi, come si può vedere nella Figura 3.12.

FIGURA 3.12 - Relazioni tra libero ed i suoi possibili antonimi

Una situazione simile è osservabile per l’aggettivo stimolo intelligente, che ha elicitato 7 antonimi possibili (stupido, idiota, ignorante, deficiente, cretino, incapace, sciocco). Nonostante la coppia intelligente - stupido sia da ritenersi canonica sulla base del forte grado di reciprocità, altri quattro aggettivi hanno richiamato intelligente come risposta più frequente: idiota (10), deficiente (10), cretino (13), sciocco (5). In questo caso, inoltre, è interessante notare che tutti i 7 possibili antonimi di intelligente hanno elicitato, oltre questo, numerosi altri aggettivi in comune, come ad esempio furbo, richiamato da idiota, cretino e sciocco (in Figura 3.13). Gli unici due aggettivi che non hanno elicitato a loro volta intelligente sono ignorante e incapace. Incapace ha richiamato solo due antonimi

(21)

possibili, capace e abile. Quest'ultimo, tuttavia, è stato richiamato anche da cretino e sciocco, mettendo in evidenza un ambito semantico comune. In tale contesto, sciocco sembra essere l’aggettivo più variabile, privo di un antonimo canonico ne ha elicitati 10 possibili, classificandosi come uno degli aggettivi che ha ricevuto più risposte differenti all’interno dei due gruppi sperimentali. In realtà, ognuna di queste 10 risposte è stata richiamata anche da almeno un altro dei 7 antonimi di intelligente.

FIGURA 3.13 - Relazioni tra intelligente ed i suoi possibili antonimi

L'ultimo pattern individuato è quello che abbiamo definito “molti a molti”. In questo caso, per quanto sia sempre possibile individuare una coppia canonica, i rapporti che si vengono ad instaurare sono molteplici e piuttosto complessi; vi sono, pertanto, aggettivi diversi che elicitano lo stesso o gli stessi antonimi, anche se con differente forza di associazione. Un esempio è dato dagli aggettivi stimolo calmo e tranquillo, in Figura 3.14. Calmo ha elicitato agitato e irrequieto, tranquillo invece agitato e inquieto. Questi tre aggettivi sono tra loro sinonimi e circoscrivono un campo semantico opposto a quello di calmo/tranquillo; tutti e tre, infatti hanno elicitato entrambi questi ultimi due aggettivi. È da notare che irrequieto ha richiamato calmo 14 volte, mentre la relazione contraria è stata fornita da un solo informante. Lo stesso vale per inquieto che non è stato elicitato neanche una volta da calmo ma lo ha richiamato in 7 soggetti. Si viene a creare, pertanto, una struttura dove tutti gli aggettivi sembrano essere in relazione con gli altri in rapporti

(22)

non solo di antonimia, ma anche di sinonimia. Quieto, elicitato da inquieto in 8 informanti, può essere infatti considerato sinonimo di calmo e tranquillo.

FIGURA 3.14 - Relazioni tra calmo, agitato, tranquillo

Un'altra struttura di questo tipo si riscontra in Figura 3.15, per gli aggettivi giusto – sbagliato – esatto ed i loro antonimi. Giusto – sbagliato/ingiusto ed esatto – sbagliato/inesatto formano due pattern del secondo tipo esemplificato, uno a due, in cui un aggettivo stimolo elicita sia un antonimo opaco che uno morfologicamente derivato. In questo caso, però, le due triple hanno un membro in comune, sbagliato, che connette le due relazioni di opposizione. Sbagliato, inoltre, elicita corretto, richiamato anche dagli antonimi morfologicamente derivati di giusto ed esatto.

FIGURA 3.15 - Relazioni tra giusto, esatto e i loro possibili antonimi

(23)

In conclusione, come già detto, in tutti questi pattern è possibile individuare una coppia canonica, intesa nella definizione iniziale che ne abbiamo dato, ma i rapporti sono molteplici e talvolta piuttosto complessi.

Ciò sembra confermare l'ipotesi che un aggettivo non deve necessariamente avere un solo antonimo ma che anzi, una parola può formare coppie ugualmente canoniche con più di un aggettivo, e che comunque la relazione di opposizione non richiede esclusivamente la binarietà.

Coppie e co-occorrenze

Come detto in precedenza, sono state individuate 446 coppie possibili, ottenute combinando di volta in volta l'aggettivo stimolo con ciascun antonimo fornito dai partecipanti per esso. Per tutte le coppie è stata osservata la frequenza di co-occorrenza nel corpus Paisà.

Per la successiva analisi, sono poi state prese in considerazione solo le coppie con frequenza di co-occorrenza maggiore o uguale di 5, poiché gli eventi rari possono interferire sui risultati in modo rilevante.

Le coppie con frequenza di co-occorrenza maggiore o uguale a 5 sono 217, e sono state tutte marcate per concretezza e canonicità. Di queste, 63 sono coppie che possiamo definire canoniche e 154 sono non-canoniche o mancanti di dati di reciprocità. Tra le coppie canoniche, 27 sono astratte e 36 sono concrete; tra le non-canoniche, invece, 91 sono astratte e 63 concrete. Tale differenza è significativa, il p-value del test del chi-quadrato è infatti inferiore del valore soglia 0.05 (p-value=0.042). Questi dati sembrano quindi concordare con la maggiore dispersione di risposte riscontrata per gli aggettivi astratti rispetto a quelli concreti. L'elenco completo di queste coppie è in Appendice F, mentre nella Tabella 3.3 si trovano le dieci coppie con frequenza di co-occorrenza più alta nel corpus.

Agg 1 Agg 2 Freq 1 Freq 2 Co-occ attesa Co-occ P-value

grande piccolo 232350 115387 1609.44 8854 <2.2e-16

bianco nero 35819 33417 71.85 6504 <2.2e-16

vecchio nuovo 45185 273892 742.93 6410 <2.2e-16

alto basso 85932 45917 236.87 5675 <2.2e-16

(24)

maschile femminile 15000 23038 20.74 3918 <2.2e-16

positivo negativo 18349 14299 15.75 2381 <2.2e-16

diverso simile 79586 55842 266.79 1251 <2.2e-16

lungo corto 81861 10119 49.73 1215 <2.2e-16

scuro chiaro 8401 28407 14.33 1114 <2.2e-16

TABELLA 3.3 – Dieci coppie sperimentali più frequenti nel corpus Paisà

È stato quindi calcolato il p-value con il test del chi-quadrato per valutare la significatività delle frequenze osservate rispetto a quelle attese, e se quindi la differenza tra le due è dovuta al caso oppure no.

Per quasi tutte le coppie il p-value sembra essere significativo, in quanto nella maggior parte dei casi il valore è < 2.2e-16 e quindi molto minore del valore di riferimento 0.05. Le uniche coppie che non presentano tale discrepanza significativa sono: frivolo – importante value=0.06), incredibile – probabile (p-value=0.17), ampio – misero (p-value=0.54), libero – legato (p-value=0.47), costretto – ampio (p-value=0.56).

Dal momento che tutte le 217 coppie hanno una frequenza di co-occorrenza significativa, è stata calcolata la Mutua Informazione, al fine di valutare la forza di associazione statistica tra i due membri. La MI è solitamente formulata in termini di probabilità, come il rapporto tra la probabilità di osservare un bigramma (in questo caso, i due aggettivi) e la probabilità di osservare i due aggettivi uno indipendentemente dall'altro, all'interno di un corpus. Tale probabilità si può stimare usando la frequenza relativa di una parola in un corpus, con la formula:

MI = log₂ f (〈u , v 〉)×N f (u)× f (v )

Dove f(<u,v>) è la frequenza di co-occorrenza, N il numero di token totali presenti nel corpus5_{, f(u) e f(v) sono le frequenze di occorrenza dei singoli aggettivi.}

5 _{Il numero totale di coppie che co-occorrono ad una distanza ≥3 nel corpus di riferimento Paisà}

(25)

Quanto più è alto il valore al denominatore tanto maggiore è la MI e, quindi l'associazione lessicale tra due parole, in quanto queste si presentano insieme più spesso di quanto accadrebbe per caso.

Nella Tabella 3.4 sono elencate le dieci coppie con valore della MI più alto e le dieci con MI più bassa.

Agg 1 Agg 2 Freq 1 Freq 2 Co-occ MI

organico inorganico 5833 745 204 9.61 simmetrico asimmetrico 2310 1152 106 9.37 grasso magro 1613 1550 96 9.32 bagnato asciutto 413 1703 26 9.27 razionale irrazionale 4031 1102 124 8.86 statico dinamico 2437 2758 167 8.69 onesto disonesto 2398 480 28 8.66 pari dispari 27458 1052 457 8.04 dolce salato 10970 1377 210 7.85 sciocco furbo 452 898 5 7.68 misero ricco 3123 27437 13 1.34 frivolo importante 410 102910 6 1.24 insignificante alto 949 85932 11 1.17 mancante presente 1693 82233 18 1.11 incredibile probabile 7121 8972 7 0.87 indifferente importante 2164 102910 22 0.72 costretto indipendente 28924 17766 43 0.48 ampio misero 27326 3123 7 0.45 libero legato 37809 24280 61 0.15 costretto ampio 28924 27326 52 0.13

TABELLA 3.4 – Dieci coppie con MI più alta e MI più bassa

È possibile notare che tra le dieci coppie con MI maggiore, sette sono canoniche. Inoltre, dolce – salato, della quale abbiamo parlato in precedenza, può essere considerata canonica in una sola direzione. Per statico – dinamico e sciocco – furbo non abbiamo invece dati di reciprocità, in quanto entrambi i secondi membri delle due coppie non erano in alcun gruppo sperimentale.

Tra le coppie con valore della MI minore, invece, vi sono le cinque coppie con p-value maggiore di 0.05.

(26)

Per ogni coppia con frequenza di co-occorrenza ≥5 è successivamente stata indicata la frequenza di produzione in entrambe le direzioni, ovvero il numero di informanti che ha fornito l'Agg2 come risposta all'Agg1, il numero di informanti che ha fornito l'Agg1 come risposta all'Agg2, e la produzione totale. Dal momento che non tutti gli aggettivi erano inclusi in uno dei due gruppi sperimentali, per alcune coppie non è stato possibile completare tali dati. Queste coppie sono pertanto state eliminate.

In Appendice G si trova l'elenco delle 138 coppie per le quali disponiamo di tutti i dati di produzione e per le quali abbiamo potuto quindi valutare la correlazione tra questi e la Mutua Informazione. Tra queste figurano tutte le 63 coppie canoniche con frequenza di co-occorrenza ≥5 e 73 coppie non-canoniche, di cui 34 concrete e 39 astratte. È interessante notare che la maggior parte delle coppie canoniche concrete è di tipo opaco, i due membri sono quindi privi di relazione morfologica, mentre quasi tutte le coppie canoniche astratte presentano un membro morfologicamente derivato dall'altro. Ciò potrebbe essere indicativo, per gli aggettivi astratti, dell'assenza di una dimensione semplice lungo cui si esplica l'opposizione, già segnalata dai valori alti dell'entropia. Il concetto opposto a quello espresso dall'aggettivo stimolo non è lessicalizzato, ma vi si accede solo grazie alla negazione del primo, espressa attraverso un prefisso morfologico.

3.5 Analisi dei dati

In prima istanza, i dati sono stati analizzati tenendo conto della sola distribuzione delle risposte per ogni aggettivo stimolo, al fine di stabilire se questa sia correlata con la frequenza di occorrenza dell'aggettivo e se vi siano differenze significative tra il gruppo degli aggettivi astratti e quello dei concreti. In seguito sono state analizzate le coppie con frequenza di co-occorrenza ≥5, sulla base della Mutua Informazione e della frequenza di produzione, tenendo in considerazione le possibili interazioni tra queste e la concretezza e la canonicità.

(27)

L'analisi dei dati è stata effettuata con il software R6_.

Esiste una correlazione tra frequenza dell'aggettivo e TTR ed Entropia? Per valutare se esiste una correlazione tra la frequenza dell'aggettivo stimolo ed i valori della Type-Token Ratio e dell'entropia, sintomatici della dispersione delle risposte, sono stati presi in considerazione tutti gli aggettivi stimolo dei due gruppi, per un totale di 202 elementi.

I test evidenziano una totale assenza di correlazione sia tra la frequenza dell'aggettivo e la TTR, che tra la frequenza e l'entropia. L'indice di correlazione di Pearson, r, è perfino negativo. Per quanto riguarda la TTR, infatti, la correlazione è -0.202, con value=0.004. Per l'entropia, la correlazione è -0.211, con p-value=0.002. I due indici di correlazione non differiscono di molto in quanto sia la TTR che l'entropia misurano la dispersione delle risposte e, salvo rare eccezioni, i valori di queste coincidono, come si può vedere in Appendice D.

Questi risultati indicano che la frequenza dell'aggettivo stimolo nel corpus di riferimento non è correlata con il numero di risposte che questo ha elicitato nell'esperimento. Un aggettivo con bassa frequenza di occorrenza può, quindi, aver elicitato indifferentemente un solo antonimo possibile o numerosi, così come un aggettivo con alta frequenza di occorrenza.

Esiste una differenza significativa di TTR ed Entropia tra aggettivi concreti e astratti?

Anche in questo caso sono stati presi in analisi i 202 aggettivi stimolo del primo e del secondo gruppo sperimentale.

Per quanto riguarda la Type-Token Ratio, i dati non sono normalmente distribuiti (test di Shapiro: p-value Astratti =8.791e-9; p-value Concreti =2.414e-13) ed i due gruppi non presentano delle varianze omogenee (p-value=0.0006), pertanto, per verificare l'uguaglianza o meno delle medie della TTR per coppie concrete e coppie astratte, si deve applicare il test di Wilcoxon. Il p-value è 1.601e-5 (con W=6825.5), e quindi notevolmente minore di 0.05. Esiste quindi una differenza significativa di TTR tra le coppie concrete e quelle astratte.

6 _{R è un software libero specifico per l'analisi statistica dei dati, linguistici e non. Sito web (con}

(28)

Anche nel caso dell'entropia i dati non sono normalmente distribuiti (test di Shapiro: p-value Astratti =3.845e-8; p-value Concreti =2.402e-11) e le varianze non sono omogenee (p-value=0.0016). Il p-value del test di Wilcoxon è 8.85e-5 (con W=6670), nuovamente di molto inferiore a 0.05. Esiste quindi anche in questo caso una differenza significativa.

Dal momento che sia la TTR che l'entropia sono indicativi della dispersione dei dati in analisi, questi risultati sembrano confermare ciò che avevamo già notato in precedenza calcolando il numero medio di risposte ottenuto per gli aggettivi concreti (circa 2 per stimolo) e per quelli astratti (circa 4). Gli aggettivi astratti sembrano, infatti, elicitare più antonimi possibili. Ciò è altamente probabile in quanto non sempre possono essere collocati su una scala di opposizione univoca o facilmente individuabile, e sono maggiormente passibili di letture metaforiche e soggettive.

Esiste una differenza significativa di MI tra coppie concrete e astratte?

Per valutare se esiste una differenza significativa di Mutua Informazione tra le coppie di antonimi concrete e quelle astratte, sono state prese in analisi solo le coppie con frequenza di co-occorrenza ≥5, poiché la MI è sensibile agli eventi rari, non è quindi indicativa in caso di basse frequenze.

I dati sono normalmente distribuiti (test di Shapiro: value Astratte =0.2395; p-value Concrete =0.3007) ed i due gruppi presentano delle varianze omogenee (p-value=0.1076), pertanto si può applicare il t-test, per verificare l'uguaglianza o meno delle medie della MI per coppie concrete e coppie astratte. Il p-value è 0.1928 (con t=-1.3068 e 194.117 gradi di libertà), e quindi maggiore di 0.05. Non esiste quindi una differenza significativa di Mutua Informazione tra le coppie concrete e quelle astratte.

Ciò significa che le tra i due gruppi non vi è alcuna differenza in termini di forza di associazione tra i membri delle coppie. Ci possono essere coppie antonimiche concrete fortemente associate da un punto di vista lessicale, allo stesso modo in cui ce ne possono essere di astratte. Il parametro della concretezza non è pertanto determinante nella probabilità di osservare un bigramma, ovvero una coppia di antonimi co-occorrente.

(29)

Esiste una differenza significativa di MI tra coppie canoniche e non-canoniche?

Anche in questo caso sono state prese in analisi solo le coppie con frequenza co-occorrenza ≥5, per le stesse motivazioni esposte in precedenza.

I dati sono normalmente distribuiti, anche se per poco, in quanto il p-value del test di Shapiro per le coppie canoniche è 0.3018, mentre per le coppie non-canoniche è 0.05125. I due gruppi presentano delle varianze omogenee (p-value=0.868), pertanto si può applicare il t-test, per verificare l'uguaglianza o meno delle medie della MI per coppie canoniche e coppie non-canoniche. Il p-value è 7.068e-10 (con t=6.7144 e 117.522 gradi di libertà), e quindi notevolmente inferiore di 0.05. Esiste quindi una differenza significativa di Mutua Informazione tra le coppie canoniche e quelle non-canoniche.

Questi risultati sembrano dimostrare che vi sia una notevole differenza di forza di associazione tra i due gruppi di coppie di antonimi. Come avevamo già notato, infatti, tra le coppie con i valori di MI maggiori vi sono un buon numero di coppie canoniche, mentre quelle non-canoniche presentano valori di MI più vicini allo zero. Ciò conferma l'esistenza di una forte associazione di tipo lessicale, oltre che semantico, tra i membri di una coppia canonica di antonimi e la probabilità che questi co-occorrano in un corpus è quindi superiore alla probabilità che occorrano l'uno indipendentemente dall'altro, indicando l'alta dipendenza reciproca dei due aggettivi. Tutto ciò, inoltre, potrebbe essere un sintomo del fatto che una coppia canonica conserva la sua relazione di opposizione anche quando uno dei membri acquisisce un nuovo senso, contrariamente a ciò che accade per una coppia non-canonica, la cui opposizione dipende maggiormente dal contesto.

Esiste una correlazione tra MI e frequenza di produzione?

Per verificare se esiste o meno una correlazione tra la Mutua Informazione e la frequenza di produzione è stato preso in analisi il sottogruppo delle coppie con frequenza di co-occorrenza ≥5 che presentava, inoltre, i dati di produzione completi; i due membri, quindi, erano entrambi inclusi tra gli stimoli.

L'indice di correlazione di Pearson, r, è stato misurato prima per tutte le coppie in analisi, e successivamente per alcuni sottogruppi: coppie canoniche e non-canoniche, coppie astratte e concrete, coppie canoniche astratte e canoniche

(30)

concrete, coppie non-canoniche astratte e non-canoniche concrete, coppie opache e morfologicamente derivate.

La correlazione tra MI e frequenza di produzione per l'insieme di tutte le 138 coppie in analisi è piuttosto alta, il coefficiente r è infatti 0.5756 (con p-value=1.532e-13). Come si può vedere dal grafico in Figura 3.16, i valori hanno un andamento abbastanza lineare, ed evidenziano un rapporto direttamente proporzionale tra frequenza di produzione e MI. Le coppie con un valore alto di MI presenteranno, pertanto, un'altrettanto alta frequenza di produzione, mentre accadrà il contrario per le coppie con MI bassa.

La frequenza di produzione è data dalla somma del numero di volte in cui il primo membro ha elicitato il secondo più il numero di volte in cui il secondo membro ha elicitato il primo. Il valore massimo della frequenza di produzione è, pertanto, 40, in quanto per ogni aggettivo stimolo, e quindi per ciascun membro di una coppia, sono state raccolte 20 risposte. Le coppie con frequenza di produzione uguale o prossima a 40 sono quindi quelle i cui due membri non hanno presentato forte dispersione delle risposte ma, anzi, si sono elicitati l'un l'altro in maniera quasi univoca, formando una coppia canonica sulla base della definizione precedentemente data. Un valore alto della MI conferma, pertanto, anche da un punto di vista statistico, il forte grado di associazione dei due aggettivi in relazione antonimica.

(31)

Se prendiamo in analisi il solo gruppo delle coppie classificate come canoniche, però, anche se la maggior parte di queste presenta un'alta frequenza di produzione e un'altrettanto elevata MI, ciò non si verifica per tutte le coppie canoniche in analisi. In realtà, la frequenza di produzione è quasi sempre abbastanza alta (non è infatti mai inferiore a 23, in linea con la definizione di coppia canonica), ma i valori della MI sono molto vari. Come è possibile notare dal grafico in Figura 3.17, infatti, questo gruppo presenta dei dati piuttosto sparsi. Ciò è ulteriormente confermato dall'indice di correlazione, pari a 0.1073518 (con p-value=0.4023). Per le coppie canoniche, quindi, la correlazione tra MI e frequenza di produzione non ha un andamento lineare.

Il fatto che tale correlazione sia quasi del tutto assente e che, quindi, coppie fortemente associate dal punto di vista della produzione non necessariamente presentino un'elevata associazione statistica, sembra screditare il modello lessicale di approccio alla canonicità. La forza di associazione, misurata con la MI, e la frequenza di co-occorrenza non sembrano essere causa della canonicità di una coppia.

FIGURA 3.17 – Correlazione tra la MI e la frequenza di produzione per le coppie canoniche

(32)

Per quanto riguarda le coppie non canoniche, invece, la situazione sembra essere inversa. L'indice di correlazione tra la MI e la frequenza di produzione per questo gruppo di coppie è infatti 0.4190 (con p-value=0.0001826), evidenziando un andamento dei valori piuttosto lineare (in Figura 3.18). Ciò significa che le coppie con un valore basso di MI avranno un'altrettanto bassa frequenza di produzione, così come quelle con MI elevata avranno un'alta frequenza di produzione. Vi è quindi un rapporto direttamente proporzionale tra le due variabili. In questo caso, quindi, la frequenza di produzione è un buon indicatore della forza di associazione statistica vigente tra i membri di una coppia; come predetto dal modello lessicale.

FIGURA 3.18 – Correlazione tra la MI e la frequenza di produzione per le coppie non-canoniche

È poi stata misurata la correlazione tra MI e frequenza di produzione per il gruppo di coppie concrete e quello di coppie astratte, indipendentemente dalla canonicità. Non vi sono particolari differenze tra i due gruppi, ed in entrambi i casi la correlazione è piuttosto elevata. L'indice di correlazione per le coppie concrete è infatti 0.6157 (con p-value=8.601e-9), mentre quello per le coppie astratte è

(33)

0.5347 (con p-value=3.75e-6). Ciò significa che, sia nel caso di coppie concrete che di coppie astratte, l'andamento dei valori delle due variabili è abbastanza lineare, e quindi all'aumentare della MI aumenta anche la frequenza di produzione; confermando inoltre l'assenza di una differenza significativa di MI per i due gruppi. Tutti questi risultati trovano riscontro anche nelle successive analisi di correlazione tra MI e frequenza di produzione, dove le 138 coppie sono state suddivise sulla base sia della canonicità che della concretezza. È pertanto stata misurata la correlazione tra queste due variabili per le coppie canoniche concrete, le coppie canoniche astratte, le coppie non-canoniche concrete e le coppie non-canoniche astratte.

Anche in questo caso si osserva una notevole differenza di correlazione per quanto riguarda il parametro della canonicità. Rispetto alla concretezza, invece, i due gruppi di coppie, canoniche e non-canoniche, risultano piuttosto omogenei. Per le coppie canoniche concrete, infatti, l'indice di correlazione è 0.1273 (con p-value=0.4595), e differisce di poco da quello delle coppie canoniche astratte, pari a 0.0848 (con p-value=0.674). Lo stesso scarto minimo si riscontra per le coppie non-canoniche concrete e quelle astratte; per le prime l'indice di correlazione è 0.3823 (con value=0.02137), mentre per le astratte è 0.4774 (con p-value=0.002115).

La correlazione tra MI e frequenza di produzione è, quindi, abbastanza lineare per le coppie non-canoniche ma non per quelle canoniche. La concretezza della coppia, invece, non sembra influire in modo rilevante sul grado di associazione dei due membri.

L'ultima analisi effettuata riguarda le coppie di antonimi opachi e quelle per le quali un membro è derivato morfologicamente dall'altro. Per il primo gruppo si osserva una correlazione piuttosto elevata, il coefficiente r è infatti 0.5386 (con p-value=1.531e-9); mentre ciò non accade per il secondo gruppo di coppie, per le quali l'indice di correlazione è 0.1092 (con p-value=0.5727). Vi è quindi una proporzionalità diretta fra i valori della MI e della frequenza di produzione delle coppie opache, ma non di quelle morfologicamente derivate. In realtà, la scarsa correlazione per le coppie morfologicamente derivate è dovuta al fatto che la maggior parte di queste coppie sono canoniche, e questi valori non fanno altro che confermare i risultati già osservati per l'intero gruppo delle coppie canoniche. Le

(34)

coppie non-canoniche ma morfologicamente derivate, invece, hanno un valore alto della MI ma una bassa frequenza di produzione. La forte associazione tra i due membri si può attribuire al legame lessicale; la bassa frequenza di produzione riscontrata, invece, si deve al fatto che il membro base della coppia ha già selezionato un'altro antonimo come canonico, in questo caso opaco. Ciò sembra suggerire la preferenza degli aggettivi a selezionare un antonimo opaco, quando questo è disponibile.

3.6 Conclusioni

Alla luce delle analisi fin qui esposte, si può quindi, in primo luogo, affermare che la canonicità è un fenomeno scalare. Vi sono, pertanto, esempi migliori ed esempi peggiori di coppie di antonimi, disposte lungo un continuum; contrariamente a quanto affermato dal modello lessicale, che prevedeva una visione dicotomica della canonicità.

Questi risultati falsificano tale modello anche da un altro punto di vista. Non solo la canonicità risulta essere scalare, ma la spiegazione fornita dal modello lessicale a questo fenomeno non può essere ritenuta valida.

Le coppie canoniche, infatti, non sono tali a causa della forte associazione statistica vigente tra i due membri. Come già notato, per quanto la frequenza di produzione sia quasi sempre elevata, i valori della MI sono vari. Quest'ultima non è quindi da ritenersi un valido indicatore di canonicità. La Mutua Informazione, inoltre, è correlata con la frequenza di co-occorrenza, che si è visto essere quasi sempre statisticamente significativa. Si può pertanto sostenere che l'alta frequenza di co-occorrenza non è la causa della canonicità.

La situazione per le coppie non-canoniche è invece differente, in quanto si è osservata è una correlazione molto più lineare tra MI e frequenza di produzione. La Mutua Informazione sembra quindi essere un buon indicatore del grado di produzione di una coppia. Ciò che sembra accadere, in questo caso, è che i membri di una coppia non-canonica si elicitano l'un l'altro con maggiore frequenza proprio nel caso in cui co-occorrono più spesso. L'uso in coppia che ne viene fatto, quindi, consente che vengano riconosciuti come antonimi e causa l'associazione.

(35)

Il modello lessicale di approccio alla canonicità quindi, permette di spiegare il comportamento delle coppie non-canoniche ma non quello delle coppie canoniche. Per queste ultime, l'alta frequenza di co-occorrenza potrebbe piuttosto essere un effetto dell'associazione, e non il contrario, come messo in evidenza da Jones et al. (2007) e Van de Weijer et al. (2012).

Seguendo il modello cognitivista, quindi, l'antonimia sarebbe una relazione prima di tutto semantica, e alcune coppie acquisirebbero lo statuto di canoniche non per l'alta frequenza di co-occorrenza, sempre significativa, ma a causa dell'allineamento dei due membri lungo una dimensione semplice e saliente. La totalità dei parlanti, quindi, riconosce due aggettivi come antonimi quando la dimensione di opposizione è facilmente identificabile. Nell'esperimento di elicitazione i soggetti erano liberi di interpretare gli aggettivi, in quanto presentati privi di contesto. Il fatto che alcuni aggettivi abbiano elicitato solo una o due risposte e la relazione sia risultata reciproca, significa che, anche in assenza di contesto, le coppie canoniche non causano letture differenti. L'allineamento lungo una dimensione semplice, quindi, permette ai due membri di una coppia di estendere la loro relazione di opposizione a differenti campi semantici. Sembra pertanto legittimo supporre che, nella maggior parte dei casi, gli antonimi che formano una coppia canonica modificano o sono predicato degli stessi sostantivi. Nel prossimo capitolo sarà infatti presentata un'ulteriore ricerca sui nomi con cui i membri delle 138 coppie in analisi occorrono più frequentemente.

Per quanto riguarda il parametro della concretezza preso in analisi, invece, questo non sembra influire in maniera rilevate sul grado di associazione vigente tra i due membri di una coppia. Si sono infatti riscontrare sia coppie canoniche concrete che astratte, allo stesso modo di quelle non-canoniche. È però interessante notare che le coppie canoniche concrete sono in numero maggiore di quelle astratte, ed inoltre queste ultime sono quasi tutte derivate morfologicamente. Ciò sembra indicare una correlazione tra concretezza e canonicità, e quindi tra concretezza e dimensione semplice. Per le coppie concrete, infatti, sembra più facile individuare una dimensione di allineamento; in più, la salienza comunicativa e l'uso in diversi campi semantici faranno si che entrambi i concetti siano lessicalizzati. Nel caso delle coppie astratte, invece, la dimensione non è facilmente individuabile e si

(36)

ricorre, quindi, alla negazione del concetto espresso dall'aggettivo base tramite derivazione morfologica.