Le variabili epistemologiche: corpus, modello del linguaggio, me-

3.2 Interpretazioni

3.2.2 Le variabili epistemologiche: corpus, modello del linguaggio, me-

La distribuzione di probabilità dei gradi e l’assortatività evidenziano la presenza di campi contestuali, nella misura in cui questi sono definiti dalla quantità di parole che possono essere sostituite l’una con l’altra all’interno di un contesto linguistico. Se, quindi, parole con poca compagnia vengono escluse dalla rete, qual è la loro importanza nell’economia generale del testo?

Facciamo il punto della situazione. Questo lavoro, lontano dall’essere un tentativo di modellazione dell’intero lessico mentale, vuole in ogni caso inserire le reti complesse estratte da uno spazio semantico all’interno di una discussione più ampia relativa alla validità della Network Science nell’offrire modelli descrittivi di un’organizzazione cognitiva del significato in termini di coppie di parole. Però, una rete estratta da uno spazio semantico deve fare i conti con un duplice passaggio di rappresentazione, dal momento che la rete viene generata a partire da una rappresentazione vettoriale del significato. Ciò significa che abbiamo a che fare rappresentazioni computazionali delle parole e con modelli del linguaggio capaci di cogliere una determinata proprietà del significato di- scriminata dal contesto. Precedentemente, non c’è stato modo di insistere sul peso del corpus. Ora, ci si può chiedere in che misura i vettori dello spazio semantico rappresentati come nodi di una rete riflettano le parole del corpus.

La creazione di uno spazio semantico presuppone un corpus da cui estrarre informazione linguistica. Gericamente, un corpus è una collezione di testi selezionati e or- ganizzati per compiere analisi linguistiche. La prima domanda da porsi - nell’ottica di una simulazione del lessico mentale - verte sulla possibilità di ottenere da un corpus un insieme di dati riflettenti una qualche realtà cognitiva[50]. In merito a questo lavoro,

qual `e il peso cognitivo di una parola senza contesto? Che ruolo ha la composizione dei corpora nella determinazione degli hub? Al momento - non si `e ancora proseguito con l’analisi della meso-struttura - non possiamo andare oltre.

Al momento sembra che, se le proprietà globali descrivono qualcosa della realtà cognitiva del significato, questo si traduce nell’osservazione che le parole si raggruppano sulla base dei contesti in cui possono essere sostituite, e gli hub sono le parole che for- manoi contesti più ampi: tradotto, tante parole possono essere utilizzate in uno stesso contesto. Tutto ciò viene definito a partire da un modello del linguaggio addestrato su un corpus. Ma né Paisà né Wikipedia sembrano essere corpora validi per rappresentare un lessico mentale. Tuttavia, la ragione per cui sono stati utilizzati trova risposta nella grande quantità di dati necessaria ad ottenere validi risultati con un modello neurale del linguaggio, in questo caso SGNS di word2vec.

Nel prossimo capitolo l’obiettivo sarà quello di definire campi semantici tramite teni- che di community discovery. Ma cosa significa che da un contesto è possibile determina- re un dominio semantico? Questa domanda costituisce il punto di partenza del capitolo successivo. Queste prime conclusioni sono stati necessarie per affrontare le analisi suc- cessive. Le domande prevalenti, infatti, più che vertere sul contenuto vero e proprio dei domini semantici che troveremo (e.g., perché proprio il tale dominio semantico è costituito dal maggior numero di parole?; risposta: il bias della composizione del corpus), avran- no la forma che tipo di dominio semantico un algoritmo di community discovery riesce a partizionare? Vedremo, innanzitutto, come l’approccio di partenza (crisp, overlapping e seed-set expansion) determinerà il tipo di comunità estratta.

Capitolo 4

Community discovery: campi

contestuali

L’obiettivo di questa sezione è analizzare la meso-struttura delle reti estratte. Aggiu- stando la nostra lente sul livello delle proprietà globali, è possibile farsi un’idea della complessità dei sistemi semantici ma non capiamo ancora cosa effettivamente determina tale complessità. L’ipotesi di fondo di questa sezione riguarda la possibilità che l’auto-organizzazione del significato sia determinata dalla presenza di campi semantici, che, contestualizzati nel paradigma della Network Science, si traducono nelle comunità della rete, ovvero quell’insieme di nodi strettamente più connessi tra loro che non con nodi appartenenti ad altri insiemigià definiti nella Sezione 1.4.1. L’obiettivo di questa sezione, quindi, è aggiustare la nostra lente riducendola sul livello delle strutture intermedie della rete, esplorando e interpretando la presenza di comunità rappresentative di campi semantici.

Un campo semantico, in linguistica, `e l’area di significato determinata da una parola o da un gruppo di parole. Se le parole si raggruppano tra loro perch´e condividono una

determinata proprietà semantica, ancora una volta il tipo di relazione semantica si rivela determinante. Anzi, ora ancor di più: se sul livello delle proprietà globali non si riscon- travano particolari differenze tra le reti qualsiasi fosse il tipo di relazione instaurata (e.g., le reti erano sempre small-world e scale-free), riducendo la lente d’ingrandimento, il tipo di relazione diventa di primaria importanza. Repetita iuvant: in una rete semantica ottenuta da uno spazio semantico a raggrupparsi in cluster sono le parole che possono essere sostituite negli stessi contesti linguistici. La proprietà semantica determinante non riguarda una determinata proprietà semantica intrinseca, per esempio una relazione ge- rarchica o di sinonimia, ma neanche una proprietà associativa. La proprietà semantica è il contesto linguistico. Dovremmo chiamare le comunità campi contestuali più che campi semantici, per il modo in cui viene rappresentato il significato in uno spazio semantico, che non discerne tra relazioni associative o semantiche in senso stretto.

A questo punto, è necessario capire se un algoritmo di community discovery sia in grado di delimitare i campi contestuali basandosi sull’informazione topologica che essi presentano. Nella Sezione 1.4 si è parlato delle possibili definizioni di comunità, oltre che dei metodi per valutare i partizionamenti generati da un algoritmo di community discovery. Per delimitare un campo semantico, perciò, bisogna partire da una sua defi- nizione coerente con l’approccio di community discovery che proponiamo, dopodiché valutare (internamente o esternamente) la bontà dei partizionamenti prodotti. Discute- remo, quindi, tre approcci alternativi a partire dal tipo di word cluster che ci aspettiamo di trovare:

• una comunità è un campo lessicale in senso stretto: cerchiamo di partizionare la rete in modo tale che un nodo appartenga a una e una sola comunità, ipotizzando che un nodo corrisponda a una parola appartenente a uno specifico dominio lessicale.

Useremo Infomap[51], Louvain e Leiden (cfr. Sezione 1.4.1);

• ipotizzando che una parola possa apparire in più di un contesto linguistico e il suo significato è la loro somma, cerchiamo di produrre comunità con overlapping:

– utilizzando Demon (cfr. Sezione 1.4.1);

– proponendo un partizionamento locale unendo approcci come Lemon[52] e Label Propagation (cfr. Sezione 1.4.1), in virt`u di una migliore esplorazione della polisemia.

Due parole su polisemia e omonimia, prima di iniziare. Se un campo semantico è l’area di significato coperta da una parola, una caratteristica del significato è che una singola parola ne può veicolare molti. Bisogna, però, fare distinzione tra parole omoni- miche e polisemiche. Nelle prime, due significati differenti si trovano a essere veicolati casualmente da una stessa forma ortografica: è quanto emerge per esempio tra le parole portae mostro intese come sostantivi e come verbi. Da quanto è stato già detto in pre- cedenza, relativamente al modo in cui intendiamo i nodi in questa rappresentazione del significato, l’omonimia è da evitare, perché l’obiettivo è di astrarre il più possibile dalla forma ortografica e trattare i nodi come concetti: preprocessando lemmi e non lesse- mi eliminiamo molta omonimia tra differenti parti del discorso (porta e mostro) ma non quella tra parole come pesca.

La polisemia è la molteplicità di significato che vorremmo invece catturare. La polisemia si evidenzia nel momento in cui una parola evolve o modifica il suo significato a partire da radici semanticamente comuni. Una parola che estende il suo significato viene detta polisemica, mentre una parola che arbitrariamente si trova a condividere due significati differenti in virtù di un’eguaglianza ortografica viene detta omonimica. Crediamo

che la polisemia sia all’origine della complessit`a di una struttura del significato. L’obiettivo di fondo di questa sezione `e cercare di catturarne i tratti attraverso la metodologia della Network Science.

4.1 Un primo approccio: Infomap, Louvain, Leiden

Si comincia con un approccio che partiziona le reti in modo tale che ogni nodo appartenga a una sola comunit`a. Lo scopo principale, in questa fase, `e capire se un algoritmo possa scomporre la rete in maniera tale da accomunare parole componendo un dominio semantico.

Infomap segue un approccio basato sulla teoria dell’informazione, producendo una mappa in grado di rendere evidenti regolarità nella struttura mediante il flusso di pro- babilità dei cammini aleatori nella rete. Il flusso che qui si vuole catturare è quello delle relazioni associative e semantiche tra le parole.

Le comunit`a estratte con i tre differenti algoritmi sono state valutate in base a cinque parametri: il numero di nodi che le compongono, il numero di archi, il grado medio, la densit`a e il numero di triadi presenti.

Nel documento La struttura complessa degli spazi semantici: un approccio guidato dalla network science (pagine 55-60)