• Non ci sono risultati.

Le variabili epistemologiche: corpus, modello del linguaggio, me-

3.2 Interpretazioni

3.2.2 Le variabili epistemologiche: corpus, modello del linguaggio, me-

La distribuzione di probabilit`a dei gradi e l’assortativit`a evidenziano la presenza di campi contestuali, nella misura in cui questi sono definiti dalla quantit`a di parole che possono essere sostituite l’una con l’altra all’interno di un contesto linguistico. Se, quindi, parole con poca compagnia vengono escluse dalla rete, qual `e la loro importanza nell’economia generale del testo?

Facciamo il punto della situazione. Questo lavoro, lontano dall’essere un tentativo di modellazione dell’intero lessico mentale, vuole in ogni caso inserire le reti complesse estratte da uno spazio semantico all’interno di una discussione pi`u ampia relativa alla validit`a della Network Science nell’offrire modelli descrittivi di un’organizzazione cogni- tiva del significato in termini di coppie di parole. Per`o, una rete estratta da uno spazio semantico deve fare i conti con un duplice passaggio di rappresentazione, dal momento che la rete viene generata a partire da una rappresentazione vettoriale del significato. Ci`o significa che abbiamo a che fare rappresentazioni computazionali delle parole e con modelli del linguaggio capaci di cogliere una determinata propriet`a del significato di- scriminata dal contesto. Precedentemente, non c’`e stato modo di insistere sul peso del corpus. Ora, ci si pu`o chiedere in che misura i vettori dello spazio semantico rappresentati come nodi di una rete riflettano le parole del corpus.

La creazione di uno spazio semantico presuppone un corpus da cui estrarre infor- mazione linguistica. Gericamente, un corpus `e una collezione di testi selezionati e or- ganizzati per compiere analisi linguistiche. La prima domanda da porsi - nell’ottica di una simulazione del lessico mentale - verte sulla possibilit`a di ottenere da un corpus un insieme di dati riflettenti una qualche realt`a cognitiva[50]. In merito a questo lavoro,

qual `e il peso cognitivo di una parola senza contesto? Che ruolo ha la composizione dei corpora nella determinazione degli hub? Al momento - non si `e ancora proseguito con l’analisi della meso-struttura - non possiamo andare oltre.

Al momento sembra che, se le propriet`a globali descrivono qualcosa della realt`a co- gnitiva del significato, questo si traduce nell’osservazione che le parole si raggruppano sulla base dei contesti in cui possono essere sostituite, e gli hub sono le parole che for- manoi contesti pi`u ampi: tradotto, tante parole possono essere utilizzate in uno stesso contesto. Tutto ci`o viene definito a partire da un modello del linguaggio addestrato su un corpus. Ma n´e Pais`a n´e Wikipedia sembrano essere corpora validi per rappresentare un lessico mentale. Tuttavia, la ragione per cui sono stati utilizzati trova risposta nella grande quantit`a di dati necessaria ad ottenere validi risultati con un modello neurale del linguaggio, in questo caso SGNS di word2vec.

Nel prossimo capitolo l’obiettivo sar`a quello di definire campi semantici tramite teni- che di community discovery. Ma cosa significa che da un contesto `e possibile determina- re un dominio semantico? Questa domanda costituisce il punto di partenza del capitolo successivo. Queste prime conclusioni sono stati necessarie per affrontare le analisi suc- cessive. Le domande prevalenti, infatti, pi`u che vertere sul contenuto vero e proprio dei domini semantici che troveremo (e.g., perch´e proprio il tale dominio semantico `e costituito dal maggior numero di parole?; risposta: il bias della composizione del corpus), avran- no la forma che tipo di dominio semantico un algoritmo di community discovery riesce a partizionare? Vedremo, innanzitutto, come l’approccio di partenza (crisp, overlapping e seed-set expansion) determiner`a il tipo di comunit`a estratta.

Capitolo 4

Community discovery: campi

contestuali

L’obiettivo di questa sezione `e analizzare la meso-struttura delle reti estratte. Aggiu- stando la nostra lente sul livello delle propriet`a globali, `e possibile farsi un’idea della complessit`a dei sistemi semantici ma non capiamo ancora cosa effettivamente deter- mina tale complessit`a. L’ipotesi di fondo di questa sezione riguarda la possibilit`a che l’auto-organizzazione del significato sia determinata dalla presenza di campi semantici, che, contestualizzati nel paradigma della Network Science, si traducono nelle comunit`a della rete, ovvero quell’insieme di nodi strettamente pi`u connessi tra loro che non con nodi appartenenti ad altri insiemigi`a definiti nella Sezione 1.4.1. L’obiettivo di questa sezio- ne, quindi, `e aggiustare la nostra lente riducendola sul livello delle strutture intermedie della rete, esplorando e interpretando la presenza di comunit`a rappresentative di campi semantici.

Un campo semantico, in linguistica, `e l’area di significato determinata da una parola o da un gruppo di parole. Se le parole si raggruppano tra loro perch´e condividono una

determinata propriet`a semantica, ancora una volta il tipo di relazione semantica si rivela determinante. Anzi, ora ancor di pi`u: se sul livello delle propriet`a globali non si riscon- travano particolari differenze tra le reti qualsiasi fosse il tipo di relazione instaurata (e.g., le reti erano sempre small-world e scale-free), riducendo la lente d’ingrandimento, il ti- po di relazione diventa di primaria importanza. Repetita iuvant: in una rete semantica ottenuta da uno spazio semantico a raggrupparsi in cluster sono le parole che possono es- sere sostituite negli stessi contesti linguistici. La propriet`a semantica determinante non riguarda una determinata propriet`a semantica intrinseca, per esempio una relazione ge- rarchica o di sinonimia, ma neanche una propriet`a associativa. La propriet`a semantica `e il contesto linguistico. Dovremmo chiamare le comunit`a campi contestuali pi`u che campi semantici, per il modo in cui viene rappresentato il significato in uno spazio semantico, che non discerne tra relazioni associative o semantiche in senso stretto.

A questo punto, `e necessario capire se un algoritmo di community discovery sia in grado di delimitare i campi contestuali basandosi sull’informazione topologica che essi presentano. Nella Sezione 1.4 si `e parlato delle possibili definizioni di comunit`a, oltre che dei metodi per valutare i partizionamenti generati da un algoritmo di community discovery. Per delimitare un campo semantico, perci`o, bisogna partire da una sua defi- nizione coerente con l’approccio di community discovery che proponiamo, dopodich´e valutare (internamente o esternamente) la bont`a dei partizionamenti prodotti. Discute- remo, quindi, tre approcci alternativi a partire dal tipo di word cluster che ci aspettiamo di trovare:

• una comunit`a `e un campo lessicale in senso stretto: cerchiamo di partizionare la rete in modo tale che un nodo appartenga a una e una sola comunit`a, ipotizzando che un nodo corrisponda a una parola appartenente a uno specifico dominio lessicale.

Useremo Infomap[51], Louvain e Leiden (cfr. Sezione 1.4.1);

• ipotizzando che una parola possa apparire in pi`u di un contesto linguistico e il suo significato `e la loro somma, cerchiamo di produrre comunit`a con overlapping:

– utilizzando Demon (cfr. Sezione 1.4.1);

– proponendo un partizionamento locale unendo approcci come Lemon[52] e Label Propagation (cfr. Sezione 1.4.1), in virt`u di una migliore esplorazione della polisemia.

Due parole su polisemia e omonimia, prima di iniziare. Se un campo semantico `e l’area di significato coperta da una parola, una caratteristica del significato `e che una singola parola ne pu`o veicolare molti. Bisogna, per`o, fare distinzione tra parole omoni- miche e polisemiche. Nelle prime, due significati differenti si trovano a essere veicolati casualmente da una stessa forma ortografica: `e quanto emerge per esempio tra le parole portae mostro intese come sostantivi e come verbi. Da quanto `e stato gi`a detto in pre- cedenza, relativamente al modo in cui intendiamo i nodi in questa rappresentazione del significato, l’omonimia `e da evitare, perch´e l’obiettivo `e di astrarre il pi`u possibile dalla forma ortografica e trattare i nodi come concetti: preprocessando lemmi e non lesse- mi eliminiamo molta omonimia tra differenti parti del discorso (porta e mostro) ma non quella tra parole come pesca.

La polisemia `e la molteplicit`a di significato che vorremmo invece catturare. La poli- semia si evidenzia nel momento in cui una parola evolve o modifica il suo significato a partire da radici semanticamente comuni. Una parola che estende il suo significato viene detta polisemica, mentre una parola che arbitrariamente si trova a condividere due signi- ficati differenti in virt`u di un’eguaglianza ortografica viene detta omonimica. Crediamo

che la polisemia sia all’origine della complessit`a di una struttura del significato. L’obiet- tivo di fondo di questa sezione `e cercare di catturarne i tratti attraverso la metodologia della Network Science.

4.1

Un primo approccio: Infomap, Louvain, Leiden

Si comincia con un approccio che partiziona le reti in modo tale che ogni nodo appar- tenga a una sola comunit`a. Lo scopo principale, in questa fase, `e capire se un algoritmo possa scomporre la rete in maniera tale da accomunare parole componendo un dominio semantico.

Infomap segue un approccio basato sulla teoria dell’informazione, producendo una mappa in grado di rendere evidenti regolarit`a nella struttura mediante il flusso di pro- babilit`a dei cammini aleatori nella rete. Il flusso che qui si vuole catturare `e quello delle relazioni associative e semantiche tra le parole.

Le comunit`a estratte con i tre differenti algoritmi sono state valutate in base a cinque parametri: il numero di nodi che le compongono, il numero di archi, il grado medio, la densit`a e il numero di triadi presenti.

Documenti correlati