• Non ci sono risultati.

Interpretazioni: topic lessicalmente ricchi

3.2 Interpretazioni

4.1.4 Interpretazioni: topic lessicalmente ricchi

Il senso di questo primo approccio era individuare cluster di termini semanticamente coerenti tra loro. Sia Infomap sia Louvain e Leiden partizionano, a un primo sguardo,

Figura 4.3: Leiden, heatmap di correlazione per Wiki (sx) e Pais`a (dx)

comunit`a che rappresentano domini semantici, l’ampiezza dei quali dipende dal numero di parole che condividono uno stesso contesto linguistico.

Un’analisi qualitativa approfondita riguardo al contenuto delle singole comunit`a sa- rebbe troppo complessa per essere oggetto d’indagine: ad esempio, individuare e an- notare manualmente ciascun dominio semantico individuato dall’insieme dei nodi rap- presentanti una comunit`a equivarebbe a un’operazione lunga e svantaggiosa. Perci`o, l’analisi quantitativa appena conclusa ci aiuta nel selezionamento di zone di particolare interesse.

Prendendo in esame la rete estratta dal corpus Wikipedia, Louvain e Leiden partizio- nano la rete in meno comunit`a (69 e 68) ma di pi`u grandi dimensioni (max 1275 nodi), mentre Infomap produce pi`u comunit`a (2024) ma di dimensioni minori (max 260 nodi).

Riprendendo le supposizioni anticipate nella Sezione 3.2.1 relative alle interpreta- zioni sugli hub, s’era visto come gli hub potessero condividere un dominio semantico.

Tuttavia, un conto `e parlare di hub e un altro di comunit`a. L’assortativit`a rispetto al grado ci dice s`ı che nodi con grado simile tendono a collegarsi tra di loro ma non che questo sia indice del fatto che gli hub appartengano a una sola comunit`a. Dopodich´e, tenendo conto dei differenti partizionamenti tra Infomap e la coppia Louvain-Leiden, la domanda principale verte sul significato della differenza di ampiezza delle comunit`a di dimensione maggiore partizionate dai diversi algoritmi.

Iniziamo, quindi, con degli esempi specifici. Il contenuto delle due comunit`a maggiori partizionando Wiki con Louvain `e composto di termini appartenenti al campo semantico della chimica - la prima comunit`a - e della medicina - la seconda. Stabiliamo, quindi, che nella rete Wiki, ottenuta dal corpus di Wikipedia in lingua italiana, ci siano almeno 1275 parole appartenenti al dominio della medicina e almeno 1172 parole appartenenti a quello della chimica, e ipotizziamo che siano questi i domini dominanti nel testo.

Dopodich´e, osservando in che maniera i termini appartenenti alle due macro-comunit`a di Louvain vengono partizionate con Infomap, vediamo come i termini appartenenti al dominio della chimica, che Louvain incorpora in una sola macro-comunit`a, Infomap li partiziona in almeno cinque comunit`a differenti. Un approfondimento manuale fa notare che la divisione sembra essere ottenuta relativamente alle differenti discipline che stu- diano il dominio della chimica, vale a dire la chimica organica, la biochimica, la chimica farmaceutica, etc.

Lo stesso discorso vale per la seconda macro-comunit`a identificata con Louvain, che rappresenta il dominio semantico della medicina. Infomap partiziona i termini che Lou- vain ingloba in una macro-comunit`a nelle sottodiscipline dell’anatomia e della psichia- tria, ad esempio.

gliere delle cosiddette sfaccettature. Intorno a una macro-disciplina, Infomap partiziona le differenti sotto-discipline o branche che la affrontano seguendo approcci differenti. `E interessante notare come la macro-comunit`a non sia gerarchicamente superiore alle sue branche, che ne costituiscono i differenti approcci sotto cui la materia pu`o essere ap- procciata. Questi risultati, in particolare il partizionamento ottenuto da Infomap, sono coerenti con i metodi attraverso cui gli algoritmi partizionano le reti.

Un altro aspetto importante riguarda il contenuto delle comunit`a di maggiore dimen- sione: come poteva essere chiaro, anche nella rete partizionata da Infomap le comunit`a di dimensione maggiore condividono lo stesso topic delle comunit`a pi`u grandi ottenute con Leiden e Louvain. In generale, quindi, le comunit`a potrebbero determinare argomenti o temi rilevanti (topics) presenti nei corpora. In questo caso, attraverso un partiziona- mento della rete potremmo capire quali sono i topic rilevanti nei corpora di partenza, di cui gli hub potrebbero essere dei primi indici superficiali (e, quindi, supporre che le comunit`a pi`u ampie potrebbero essere dovute a un bias relativo alla composizione dei corpora). Oppure, i cluster pi`u ampi potrebbero rappresentare domini rappresentati da parole che compaiono in quel determinato contesto: in questo caso, le comunit`a mag- giori sono domini semanticamente ricchi ma non necessariamente i topic principali dei corpora.

A questo punto, viene in aiuto il differente preprocessing effettuato su Wikipedia e Pais`a. Ripetendolo, si `e deciso di sfoltire il vocabolario sulla base della frequenza delle parole nei testi (10 per Wikipedia e 200 per Pais`a). Poich´e i due corpora hanno una composizione simile - nella misura in cui Pais`a contiene articoli di Wikipedia - questa scelta voleva essere un modo per differenziare i due corpora. Ora, pu`o essere utile per spiegare l’organizzazione di una struttura complessa emergente da uno spazio semantico

a partire dai blocchi costitutivi dei domini semantici. Infatti, le comunit`a di dimensione maggiore trovate con Infomap, Louvain e Leiden sulla rete estratta dal training effettuato su Pais`a non coincidono con quelle trovate su Wikipedia. Ancora pi`u importante, per`o, risulta essere il fatto che, mentre Infomap riesce a partizionare comunit`a semanticamente coerenti tra loro, Louvain e Leiden sembrano non riuscirci.

Ci`o pu`o essere dovuto al preprocessing dei corpora e al parametro min count. Con un vocabolario ridotto i campi semantici emergono con pi`u difficolt`a. Potrebbe voler dire che sono necessarie anche parole non molto frequenti perch´e emerga una struttu- ra complessa. Con un preprocessing effettuato settando min count pari a 200, vengo- no eliminate molte parole utili a determinare un dominio semantico, dal momento che tali domini sono costituiti dalle parole che compaiono insieme negli stessi contesti, e riducendo il vocabolario discriminando la frequenza, tolgo la possibilit`a a un possibile dominio semantico di addensarsi attraverso parole che compaiono unicamente in quel contesto specifico.

Documenti correlati