• Non ci sono risultati.

Background di riferimento sulle reti del linguaggio umano

Capitolo 5. Modellazione delle lingue naturali e del significato

5.1. Background di riferimento sulle reti del linguaggio umano

Un’ipotesi forte sulla natura del linguaggio è posta da Ramon Ferrer i Cancho & Ricard Solé (2002), secondo i quali, avendo il genere Homo il bisogno di comunicare e condividere informazioni con gli altri conspecifici, il linguaggio è stato un vantaggio in termini evolutivi. Sviluppandosi da un piccolo insieme di termini iniziali, legati agli istinti primari, e alle emozioni, la rete del linguaggio umano si è sviluppata nel corso dell’evoluzione, con l’aggiunta di altri termini, tramite collegamenti non casuali. I due autori considerano il lessico del linguaggio umano come un grafo, composto da nodi e archi, dove i nodi rappresentano le parole che lo compongono, e gli archi le relazioni che uniscono le parole. Dal punto di vista formale, essi considerano il linguaggio umano come un grafo , costituito dall’insieme di nodi (words) e di collegamenti (edges), per cui la rete è espressa da . Il grado di connettività di un nodo o di una parola è il numero di legami che lo connettono con le altre parole del grafo. Gli autori dimostrano che le lingue naturali hanno caratteristiche di piccolo mondo: un alto coefficiente di clustering, la rete esprime una forte tendenza dei nodi a raggrupparsi, formando agglomerati di nodi o gruppi di sinonimi, e un bassissimo grado di separazione tra i nodi, in proporzione alla estensione del lessico umano. Un altro fenomeno che questi due autori affrontano è la co-occorrenza di due parole nel lessico di una lingua, che secondo loro, non è casuale, ma ubbidisce a leggi precise: due parole possono essere unite da un legame grammaticale (nome e aggettivo), o da altre forme di interdipendenza (verbo, avverbio). La struttura di queste relazioni rende la probabilità di occorrenza di gruppi di parole non casuale, come accadrebbe in una rete random, ma la rete di parole si sviluppa nel tempo, aumentando il numero delle parole che si connettono ad altre parole, a loro volta altamente connesse (Ferrer i Cancho & Solé, 2001). La distanza

media tra due parole nel lessico indica che queste hanno una grande possibilità di connettersi: in genere la

distanza tra un nome è un aggettivo è pari ad 1 (1 solo passaggio è necessario per connettere i due nodi), quella tra un verbo e il suo complemento oggetto può essere pari a 2. (verbo, articolo, nome). Il grado di separazione tra due nodi random nella rete del linguaggio è pari a 3 passaggi per raggiungere un qualunque

80

elemento, partendo a caso da un elemento qualsiasi (Ferrer i Cancho & Solé, 2001). La distanza tra parole che co-occorrono frequentemente è molto breve. Potremmo dire, facendo un paragone con la musica, che i rapporti di co-occorrenza sono analoghi ai rapporti di consonanza, più sono bassi più sono frequenti. Sempre secondo i due ricercatori, la rete del linguaggio umano presenta invarianza di scala, segue una legge di potenza, ha numerosi hub, e si sviluppa secondo il modello di crescita preferenziale.

I nodi non hanno lo stesso grado nella rete. Esistono nodi con un gran numero di link rispetto alla media. La distribuzione dei legami intercetta una legge di potenza. In una lingua, gli hub rinforzano la solidità e l’interconnessione della rete, permettendo il passaggio immediato da un nodo all’altro. Quando la rete cresce, i nodi non si attaccano agli altri nodi in modo casuale. I nodi con grado maggiore, che corrisponde al nodo con più alta frequenza, sono preferiti. Questi nodi (e le parole che sono loro collegate) sorreggono i processi cognitivi di comprensione e produzione, una volta che sono memorizzati i concetti riferiti ai termini lessicali, proprio perché sono molto frequenti. La rete del linguaggio acquisisce nodi nuovi in continuazione.

Mark Steyvers & Josh Tenenbaum (2004), per analizzare la natura del linguaggio umano, considerano tre diversi tipi di reti: a. una rete associativa, realizzata sulla base di libere associazioni ottenute da un campione di circa 6000 soggetti; b. la rete WordNet, dove i nodi rappresentano concetti, collegati fra loro attraverso relazioni di antinomia, iperonimia, sinonimia ecc.; c. il Roget’s Thesaurus, che classifica circa 30.000 nomi, in base al criterio delle categorie semantiche. Tutte e tre i tipi di rete hanno caratteristiche di piccolo mondo e invarianza di scala, presenza di hub, alto grado di connettività, distribuzione delle connessioni secondo una legge di potenza, confermando i risultati già ottenuti da Ferrer i Cancho & Solé (2001) per le reti del linguaggio umano. Sulla base di queste analisi sulla natura della lingua, Steyvers e Tenenbaum (2004) suggeriscono, come modello di sviluppo di una rete lessicale, una struttura in crescita, che acquisisce nuovi nodi, tramite criteri di incremento preferenziale. Nel processo di evoluzione della rete, i due ricercatori individuano nell’età del nodo, la caratteristica privilegiata intorno alla quale si accresce la rete lessicale. Gli elementi acquisiti nel primo stadio dello sviluppo del linguaggio sono, probabilmente, quelli più salienti, per cui sono anche i più interconnessi e quelli più resistenti nel caso di malattie neurodegenerative o di perdita di memoria con l’invecchiamento.

Un altro studio per capire la natura del linguaggio umano e dell’organizzazione del lessico è stato realizzato da Sigman & Cecchi (2002). Considerando il linguaggio come uno specchio della mente, gli autori sostengono che uno dei problemi più importanti della scienza contemporanea è la caratterizzazione del lessico, per capire la natura del funzionamento dei processi cognitivi soggiacenti la produzione linguistica. Gli autori studiano le relazioni semantiche relative a antonimia, iperonimia (iponimia e meronimia), sostenendo che, mentre l’antinomia è intuitivamente nota, l’iperonimia e l’iponimia non lo sono per nulla.

81

Un iponimo è un termine che acquisisce tutte le caratteristiche dell’iperonimo, che in questo senso è un concetto più generico. Nell’esempio di iponimo, che gli autori riportano, il termine “rovere” è un iponimo del termine “albero”. Questo modo di procedere, che si chiama rapporto “E’ un…”, è generalmente utilizzato dai vocabolari, che fanno uso dell’iperonimo per spiegare l’iponimo. La meronimia, invece utilizza il rapporto “è parte di”. Per esempio, il termine “ramo” è parte o meronimo del termine “albero”. La polisemia, forme di parole comuni che determinano ambiguità nell’estrazione del corretto significato, è una dinamica di collegamento nella rete semantica del linguaggio umano, in relazione alle specializzazioni del significato. Per cui i collegamenti polisemici hanno, secondo gli autori, un profondo impatto nell’organizzazione della rete, realizzando configurazioni di piccolo mondo e invarianza di scala nel lessico, con molti hub, che fungono da connettori con altri significati. Gli autori dimostrano che il sistema WordNet ha proprietà tipiche delle reti e dei sistemi complessi auto-organizzati, e che la polisemia è una caratteristica portante della rete linguistica, che spiega perché questo fenomeno si manifesta in quasi tutte le lingue. Rapporti di antinomia e polisemia presentano simmetrie, mentre iperonimia e meronimia hanno iponimia e olonomia come organizzazioni inverse. Vedremo nei paragrafi successivi come questi rapporti si sviluppano anche come patterns nelle reti dei termini emozionali.

Mentre la maggior parte degli studi sulle reti del linguaggio si concentrano sulle proprietà strutturali delle stesse, altri metodi di identificazione di caratteristiche di raggruppamento in reti di interconnessione sintattica sono rintracciabili in Ferrer i Cancho e collaboratori (Ferrer i Cancho et al., 2007a, b), Mukherjee e colleghi (Mukherjee et al., 2009). Questi ultimi, usano una tecnica puramente strutturale, l’analisi spettrale per individuare le correlazioni globali in Phonet, individuando la co-occorrenza di consonanti in rete, che forgiano la struttura degli inventari delle consonanti, fornendo anche una misura quantitativa della loro importanza. Questa tecnica può essere applicata per studiare la struttura dei livelli delle lingue naturali. Le strutture principali di piccolo mondo e di invarianza di scala si ripetono anche per lingue orientali come il cinese (Zhou et al., 2008).

Oltre allo studio delle relazioni semantiche e sintattiche un'altra direzione di analisi delle lingue naturali studia le reti di utenti di lingua (ad esempio le reti sociali di persone della comunità linguistica), e il loro ruolo nella evoluzione del linguaggio (Ke, 2007). In questo articolo, l’autore analizza quattro tipi di reti sociali, che presentano due categorie di dinamiche di diffusione sociale di linguaggio. Resta ancora molto da investigare. Ma fondamentale nello studio sulle reti linguistiche è che tipo di modellazione e segmentazione usare nel caso del parlato, uno dei temi fondamentali della ricerca sulle reti linguistiche. La scienza delle reti permette di capire in profondità la natura e le radici del significato lessicale, nelle sue articolazioni. Si farà riferimento ai concetti operativi delle lingue e dei linguaggi per realizzare la modellazione di lingue naturali in WordNet, per introdurre l’analisi del linguaggio umano attraverso la

82

scienza delle reti (Barabási & Albert, 1999; Barabási et al., 1999; Barabási & Bianconi, 2001; Barabási, 2004; Caldarelli, 2007).

Numerosi sono i problemi relativi alla modellazione della relazioni lessicali. Nell’approccio informatico per la realizzazione di database Entità/Relazione, o nei linguaggi di programmazione, per esempio, le relazioni lessicali sono trattate come primitive, quindi date per via assiomatica. Tali approcci, derivati dai modelli di Chomsky e Fodor hanno dato vita alla modellizzazione semantica del significato, utilizzato nei linguaggi XML (eXtensible Markup Language, Linguaggio di marcatura estensibile). Invece, nella Linguistica computazionale, i ricercatori stanno indagando sui seguenti problemi:

a. quanti tipi di relazioni semantiche esistono (ovvero quante sono e cosa sono queste relazioni primitive)? b. è il numero di relazioni fisso o mutabile, e in rapporto a cosa variano?

c. Possono esperimenti con soggetti umani aiutare a modellare la definizione dei problemi inerenti i confini di categoria concettuale, per creare modelli computazionali intelligenti e distinguere il significato di un concetto da un altro?

Questi interrogativi scientifici sono particolarmente rilevanti per i sistemi di disambiguazione semantica. Per cui il problema che si sono posti questi ricercatori che costruiscono sistemi di linguistica computazionale è come contare le differenze tra un termine e l'altro (Arnold, 1971). Arnold ha dimostrato che questa distanza non è euclidea. In particolare, Arnold ha usato il Multidimensional Scaling Method di Kruskal (1964). Tale metodo è utilizzato in Psicologia per rappresentare la forma di un oggetto in più di una dimensione nello stesso tempo, avendo in mente che un soggetto percepisca le differenze con altri oggetti, correlati per somiglianza o differenza all’oggetto stimolo. Questo metodo serve a determinare le scale di distanza cognitiva tra gli oggetti lungo l’asse similarità-differenza, per poterle poi rappresentare su mappe multidimensionali. Arnold ha dimostrato che, dopo aver scalato in modo unidimensionale gruppi di concetti sulle qualità strettamente legate al differenziale semantico 3, ordinando le serie di aggettivi, nomi, e verbi attraverso il metodo di organizzazione multidimensionale, comparando con le risposte di apprezzamento sulle diversità di significato tra un termine e un altro, realizzato da soggetti umani, ha trovato che le distanze semantiche tra significati non sono euclidee. Questo risultato suggerisce che nella formazione di frasi, tutte le dimensioni di diversità sono soppresse tranne la dimensione 1, che discrimina al massimo i membri di una coppia di concetti. Il termine "componente a distanza massima" è stato usato per caratterizzare il modello migliore di distanza. Tutti e tre le serie di differenze hanno permesso l'estrazione di almeno 4 dimensioni (Kruskal, & Wish, 1978). La scala di differenza semantica prediceva abbastanza bene le distanze tra nomi e aggettivi.

83

In questo capitolo, sarà realizzata un modellazione del sistema WordNet, un database di significati strutturati secondo precise regole psicolinguistiche di organizzazione strutturale. In particolare, si forniranno i passi metodologici per la creazione di un vocabolario, si sceglieranno i termini da ricercare, si modellerà la crescita di reti semantiche. Il Capitolo 8 riporterà i risultati sperimentali di tale approccio. I risultati sperimentali dimostrano che le particelle emergenti nelle reti semantiche hanno più di 4 dimensioni.