Modello di ST-Utsumi - Modelli di reti semantiche complesse

1.7 Modelli di reti semantiche complesse

1.7.2 Modello di ST-Utsumi

Una versione modificata del modello ST `e stata proposta in [6], in cui viene aggiunto un parametro che rende conto dell’esistenza dell’asse paradigmatico del linguaggio. Gli m nodi con cui un nuovo nodo deve stabilire connessioni sono etichettati rispettivamente come semantic differentiation (per identificare un rapporto sintagmatico) e come expe- riential correlation(per indicare un rapporto paradigmatico) e si distinguono come mp,

i primi, e mr = (m − mp), i secondi. Il nuovo nodo si connette ai nodi mp con una

probabilit`a pari a 1 − p, ai nodi mr con una probabilit`a p. In questa maniera, vengono

avvantaggiate le prime rispetto alle altre. Relativamente alle due singole classi, la probabilit`a di connessione tra i nodi mp `e identica a quanto espresso nel modello ST; per

quanto riguarda le connessioni tra il nuovo nodo e i nodi mr, esse sono scelte tra tutti i

nodi della rete.

Il senso di tale differenziazione `e di rendere atto di una struttura del significato emer- gente dalla combinazione della catena sintagmatica con l’asse paradigmatico. In un certo senso, anche gli spazi semantici analizzano la catena sintagmatica (i.e., il contesto) per catturare relazioni di tipo paradigmatico.

È a partire da quest’ottica che nel prossimo capitolo entreremo nel vivo di questo lavoro, costruendo gli spazi semantici da cui saranno estratte le reti da analizzare. Prima di iniziare, concludo con un’ultima considerazione relativa a quanto esposto in questa sezione e nella precedente. In [41] l’estrazione di una rete da uno spazio semantico veniva vista come un modello alternativo a uno generativo nel tentativo di simulare una reale struttura del significato. Cos`ı, gli autori sostenevano che uno spazio semantico non fosse in grado di simulare le reti estratte da WordNet o da norme di associazione (in particolare nella struttura scale-free della distribuzione di probabilità dei gradi) perché il modo di estrarre una rete da uno spazio semantico non rende conto della crescita (il parametro growth) di una rete.

Tuttavia, all’interno della nostra classificazione proposta nella Sezione 1.6, le reti complesse estratte dagli spazi semantici non sono metodi alternativi a modelli generati- vi: nonostante si tratti di reti estratte a partire da una rappresentazione computazionale del significato (cfr. Introduzione: i nodi sono vettori), esse vengono estratte a partire da un dataset e modellando una propriet`a semantica basata sul contesto, capace di catturare relazioni sia di tipo sintagmatico che di tipo paradigmatico. Qualunque sia il modo di intendere e classificare le reti complesse estratte da uno spazio semantico, si tratta, quindi, di reti reali e di un approccio data-driven al dominio.

I problemi teorici posti nell’Introduzione e risollevati in queste considerazioni finali concludono questo capitolo iniziato dando una giustificazione dell’approccio al significa- to dal punto di vista della Network Science, nel tentativo di modellare il lessico mentale come un sistema complesso. Questo argomento verr`o ripreso nel capitolo conclusivo, dopo aver svolto le analisi che costituiscono il corpo di questo lavoro, che iniziano dal prossimo capitolo.

Capitolo 2

Data collection: estrazione di reti da

uno spazio semantico

2.1 Corpora e loro preprocessing

I corpora scelti per questo studio sono Wikipedia in lingua italiana (una sua versione light) e PAIS À[46], una collezione di testi italiani estrapolati dal web. La lunghezza di entrambi i corpora è di 250 milioni di token circa, annotati in formato CoNLL-U e lemma- tizzati. Per quanto riguarda la composizione di Paisà, in particolare, la distribuzione dei testi che lo compongono è sintetizzata nella Figura 2.1. Il fatto che i due corpora siano in parte simili (Paisà contiene pagine di Wikipedia) è coerente con i task che applicheremo in seguito.

A questa fase corrisponde il tentativo di modellare gli elementi di N. `E lecito do- mandarsi che tipo di atomi lessicali rappresentare come nodi. Tale questione si inserisce all’interno di un quadro di lavoro noto come pre-processing del testo, un insieme di tec- niche e metodi di pulizia del testo che si snoda in una sequenza di operazioni compren-

dente, almeno, la tokenizzazione, il PoS-tagging, lo stemming o la lemmatizzazione. La tokenizzazione è il processo tramite cui si individuano i token di un testo. Il PoS-tagging (PoS, da part of speech, parte del discorso o categoria grammaticale), è il riconoscimento della categoria grammaticale cui il token appartiene (nome, verbo, articolo, aggettivo, etc). Lo stemming consiste nel processo di riduzione di una forma flessa (e.g. un token) nel suo tema (e.g. ciò che resta di una parola tolta la desinenza). La lemmatizzazione consiste, invece, nella riduzione di una forma flessa nel suo lemma, ovvero la forma canonica di una parola utilizzata nella ricerca in un vocabolario.

Abbiamo deciso - in vista del training nella fase successiva - di utilizzare i lemmi al posto dei lessemi, nonché di usare solo nomi, verbi, aggettivi e avverbi. Tale scelta è giustificata sulla base di argomentazioni di tipo sia teorico che pratico. Per quanto riguarda il primo tipo di argomento, quello di maggior interesse verte sulla possibilità di modellare un’unità lessicale che renda conto della maniera in cui l’informazione lessicale è immagazzinata in memoria (i.e., nel lessico mentale). L’unità cognitiva alla base del- l’organizzazione lessicale mentale contiene informazioni riguardanti più livelli di analisi linguistica (cfr. 1.1). Concretamente, in un testo troviamo un insieme di lessemi che si strutturano in frasi grammaticalmente corrette, mentre un lemma ha lo scopo di identificare in una singola forma di citazione il contenuto semantico di una parola di cui i diversi lessemi catturano più tratti morfosintattici, come il genere e il numero nei nomi o il tempo e il modo dei verbi. È indubbio che anche un training effettuato su token rap- presentanti lessemi sia capace di estrapolare il loro significato (cfr. sezione successiva), ma venendo, quindi, al secondo tipo di argomentazione - quello pratico - la scelta dei lemmi risiede nel tentativo di eliminare relazioni inutili tra nodi che rappresentano il singolare e il plurale dei nomi o le differenti forme dei verbi (i.e., relazioni tra due forme

dello stesso concetto) o anche per distinguere il pi`u possibile il fenomeno dell’omonimia tra le differenti categorie grammaticali (e.g., la stessa forma ortografica per porta come sostantivo singolare e porta come terza persona dell’indicativo del verbo portare).

In sintesi, gli elementi di N devono rappresentare unità concettuali distinte, nella mi- sura in cui a connettersi fra loro sono solo contenuti semantici distinti e non differenti forme dello stesso significato denotativo di una parola che presenta più forme grammaticali. Per far ciò, utilizziamo i lemmi e non lessemi. Il loro utilizzo non inficia sul modello del linguaggio, a cui interessa quali parole si trovano vicine l’una all’altra perché ne sia catturato il significato. Perciò, il secondo importante passo del pre-processing è eliminare le stopwords (i.e., parole non semanticamente piene) per tenere solo lemmi di nomi, verbi, aggettivi e avverbi.

Figura 2.1: Composizione del corpus Pais`a

Nel documento La struttura complessa degli spazi semantici: un approccio guidato dalla network science (pagine 35-40)