Interpretazioni: topic lessicalmente ricchi

3.2 Interpretazioni

4.1.4 Interpretazioni: topic lessicalmente ricchi

Il senso di questo primo approccio era individuare cluster di termini semanticamente coerenti tra loro. Sia Infomap sia Louvain e Leiden partizionano, a un primo sguardo,

Figura 4.3: Leiden, heatmap di correlazione per Wiki (sx) e Pais`a (dx)

comunit`a che rappresentano domini semantici, l’ampiezza dei quali dipende dal numero di parole che condividono uno stesso contesto linguistico.

Un’analisi qualitativa approfondita riguardo al contenuto delle singole comunità sa- rebbe troppo complessa per essere oggetto d’indagine: ad esempio, individuare e an- notare manualmente ciascun dominio semantico individuato dall’insieme dei nodi rap- presentanti una comunità equivarebbe a un’operazione lunga e svantaggiosa. Perciò, l’analisi quantitativa appena conclusa ci aiuta nel selezionamento di zone di particolare interesse.

Prendendo in esame la rete estratta dal corpus Wikipedia, Louvain e Leiden partizionano la rete in meno comunità (69 e 68) ma di più grandi dimensioni (max 1275 nodi), mentre Infomap produce più comunità (2024) ma di dimensioni minori (max 260 nodi).

Riprendendo le supposizioni anticipate nella Sezione 3.2.1 relative alle interpretazioni sugli hub, s’era visto come gli hub potessero condividere un dominio semantico.

Tuttavia, un conto è parlare di hub e un altro di comunità. L’assortatività rispetto al grado ci dice s`ı che nodi con grado simile tendono a collegarsi tra di loro ma non che questo sia indice del fatto che gli hub appartengano a una sola comunità. Dopodiché, tenendo conto dei differenti partizionamenti tra Infomap e la coppia Louvain-Leiden, la domanda principale verte sul significato della differenza di ampiezza delle comunità di dimensione maggiore partizionate dai diversi algoritmi.

Iniziamo, quindi, con degli esempi specifici. Il contenuto delle due comunità maggiori partizionando Wiki con Louvain è composto di termini appartenenti al campo semantico della chimica - la prima comunità - e della medicina - la seconda. Stabiliamo, quindi, che nella rete Wiki, ottenuta dal corpus di Wikipedia in lingua italiana, ci siano almeno 1275 parole appartenenti al dominio della medicina e almeno 1172 parole appartenenti a quello della chimica, e ipotizziamo che siano questi i domini dominanti nel testo.

Dopodiché, osservando in che maniera i termini appartenenti alle due macro-comunità di Louvain vengono partizionate con Infomap, vediamo come i termini appartenenti al dominio della chimica, che Louvain incorpora in una sola macro-comunità, Infomap li partiziona in almeno cinque comunità differenti. Un approfondimento manuale fa notare che la divisione sembra essere ottenuta relativamente alle differenti discipline che stu- diano il dominio della chimica, vale a dire la chimica organica, la biochimica, la chimica farmaceutica, etc.

Lo stesso discorso vale per la seconda macro-comunit`a identificata con Louvain, che rappresenta il dominio semantico della medicina. Infomap partiziona i termini che Lou- vain ingloba in una macro-comunit`a nelle sottodiscipline dell’anatomia e della psichia- tria, ad esempio.

gliere delle cosiddette sfaccettature. Intorno a una macro-disciplina, Infomap partiziona le differenti sotto-discipline o branche che la affrontano seguendo approcci differenti. È interessante notare come la macro-comunità non sia gerarchicamente superiore alle sue branche, che ne costituiscono i differenti approcci sotto cui la materia può essere ap- procciata. Questi risultati, in particolare il partizionamento ottenuto da Infomap, sono coerenti con i metodi attraverso cui gli algoritmi partizionano le reti.

Un altro aspetto importante riguarda il contenuto delle comunità di maggiore dimensione: come poteva essere chiaro, anche nella rete partizionata da Infomap le comunità di dimensione maggiore condividono lo stesso topic delle comunità più grandi ottenute con Leiden e Louvain. In generale, quindi, le comunità potrebbero determinare argomenti o temi rilevanti (topics) presenti nei corpora. In questo caso, attraverso un partizionamento della rete potremmo capire quali sono i topic rilevanti nei corpora di partenza, di cui gli hub potrebbero essere dei primi indici superficiali (e, quindi, supporre che le comunità più ampie potrebbero essere dovute a un bias relativo alla composizione dei corpora). Oppure, i cluster più ampi potrebbero rappresentare domini rappresentati da parole che compaiono in quel determinato contesto: in questo caso, le comunità maggiori sono domini semanticamente ricchi ma non necessariamente i topic principali dei corpora.

A questo punto, viene in aiuto il differente preprocessing effettuato su Wikipedia e Paisà. Ripetendolo, si è deciso di sfoltire il vocabolario sulla base della frequenza delle parole nei testi (10 per Wikipedia e 200 per Paisà). Poiché i due corpora hanno una composizione simile - nella misura in cui Paisà contiene articoli di Wikipedia - questa scelta voleva essere un modo per differenziare i due corpora. Ora, può essere utile per spiegare l’organizzazione di una struttura complessa emergente da uno spazio semantico

a partire dai blocchi costitutivi dei domini semantici. Infatti, le comunità di dimensione maggiore trovate con Infomap, Louvain e Leiden sulla rete estratta dal training effettuato su Paisà non coincidono con quelle trovate su Wikipedia. Ancora più importante, però, risulta essere il fatto che, mentre Infomap riesce a partizionare comunità semanticamente coerenti tra loro, Louvain e Leiden sembrano non riuscirci.

Ciò può essere dovuto al preprocessing dei corpora e al parametro min count. Con un vocabolario ridotto i campi semantici emergono con più difficoltà. Potrebbe voler dire che sono necessarie anche parole non molto frequenti perché emerga una struttura complessa. Con un preprocessing effettuato settando min count pari a 200, vengono eliminate molte parole utili a determinare un dominio semantico, dal momento che tali domini sono costituiti dalle parole che compaiono insieme negli stessi contesti, e riducendo il vocabolario discriminando la frequenza, tolgo la possibilità a un possibile dominio semantico di addensarsi attraverso parole che compaiono unicamente in quel contesto specifico.

Nel documento La struttura complessa degli spazi semantici: un approccio guidato dalla network science (pagine 65-69)