• Non ci sono risultati.

4.3 Un terzo approccio: seed-set expansion

4.3.2 Interpretazioni: emerge la polisemia?

Tra polisemia e omonimia

Ci`o che questo approccio vorebbe fornire in pi`u rispetto agli altri `e la possibilit`a di os- servare, al contrario dei precedenti, la presenza di polisemia attraverso un’espansione

Figura 4.6: Pais`a: Distribuzione di NF1 rispetto a P1(sx.) e P2(dx.)

locale a partire dai singoli nodi. Tuttavia, ancora una volta, bisogna fare i conti con le variabili epistemologiche in gioco (i.e., corpus, modello del linguaggio). Da quanto emer- ge tramite un’analisi qualitativa, la polisemia viene evidenziata meglio dell’omonimia. Prendiamo due nodi, stima e pesca, delle reti estratte da Wikipedia. Tra le comunit`a che Lemon+LP riesce a identificare per il nodo stima ne troviamo una composta dai termi- ni lira, miliardo, dollaro, milione, sterlina, euro, stimare e un’altra composta dai termini grossomodo, pressapoco, incirca. Questa divisione `e in accordo con il carattere polisemico della parola stima, interpretabile sia come il prezzo o valore di un bene (prima comunit`a) sia come la valutazione approssimata di una quantit`a solo vagamente misurabile (seconda comunit`a). Non ci sono per`o termini che potrebbero far riferimento a un terzo signifi- cato del termine, relativo all’apprezzamento (i.e, avere stima di qualcuno). Quest’assenza `e ancora pi`u evidente nel nodo pesca, una parola omonimica. Tra le comunit`a che Le- mon+LP riesce a identificare per il nodo pesca troviamo solo termini che appartengono al dominio semantico dell’attivit`a sportiva e non del frutto: questo `e indice del fatto che l’omonimia non viene colta. Ma attenzione alle comunit`a identificate. Prendiamone come esempio due. Dalla parola pesca sono identificabili tre comunit`a, una composta da termini come anguilla, aragosta, granchio, crostacei, carpa, merluzzo, trota, calama-

ro, salmone, polpo, tonno, un’altra composta da termini come barca, marinaio, pescatore, marineria, peschereccioe un’ultima composta da termini come allevamento, allevare, in- tensivo. Ci`o significa che all’interno dello stesso dominio semantico sono identificabili termini che si raggruppano preferibilmente con altri perch´e fanno parte di un’area di significato pi`u simile: poich´e questo fenomeno emerge in tutti e tre approcci, possiamo ora dire con certezza che `e secondo questo criterio che i termini si raggruppano in comu- nit`a. Per quanto riguarda la rete estratta da Pais`a, la parola stima non `e presente, mentre per quanto riguarda la parola pesca sono presenti solo termini che appartengono all’area di significato coperta dalla prima comunit`a del nodo della rete estratta da Wikipedia.

Altre due parole sulla polisemia, per concludere. La centralit`a del grado potrebbe non essere la migliore misura di centralit`a per identificare i veri hub della rete, nella misura in cui un hub `e un nodo particolarmente importante rispetto a tutti gli altri. Identifican- do l’importanza di un nodo unicamente con il numero dei vicini che possiede, abbiamo visto che i nodi principali risultano essere quelli appartenenti a domini semantici les- sicalmente pi`u ricchi di altri. In una rete concettuale le parole polisemiche dovrebbero rivestire un certo grado di importanza, perch´e potrebbero connettere aree di significato semanticamente lontane tra loro, e la complessit`a delle reti semantiche potrebbe trovare una risposta nella presenza della polisemia. `E per la volont`a di catturare una molteplicit`a di significato che si `e scelto di utilizzare i lemmi e non i lessemi nel preprocessing dei corpora: evitare l’omonimia tra differenti parti del discorso in quanto fenomeno lingui- stico casuale per meglio evidenziare la polisemia in quanto fenomeno linguistico indice di ricchezza di significato veicolata da una stessa parola. In forma teorica, quindi, una rete semantica complessa che tratta nodi come concetti - ed era l’intenzione di questo lavoro - dovrebbe considerare le parole polisemiche come hub, ma la centralit`a del grado

non sembra essere quella ideale per identificare la polisemia. Altre misure di centralit`a che potrebbero rivelare parole polisemiche come hub potrebbero essere la betweenness centrality o altre che privilegiano la centralit`a dei nodi in quanto veicoli di connessione tra zone semanticamente differenti di una rete.

Limiti delle ground truth

Nel paragrafo precedente si `e data un’interpretazione dei partizionamenti senza rendere conto delle ground truth utilizzate (abbiamo, cio`e, analizzato qualitativamente le reti Lemon+LP non filtrate). In questo paragrafo proviamo ad analizzare le possibilit`a e i limiti della valutazione esterna che abbiamo deciso di adottare.

Le distribuzioni di NF1 dicono che per molti nodi i partizionamenti sono totalmente dissimili tra loro. Probabilmente, ci`o `e dovuto ai limiti delle ground truth presentate e nella scelta di mettere a confronto tutti i nodi delle reti. Molti nodi, infatti, potrebbero non prestarsi a una vera e propria disabiguazione, nonostante l’API wikipedia riesca a trovare per la parola corrispondente a ogni nodo pagine differenti. Per esempio, per il nodo abbazia, l’API disambigua diverse pagine di abbazie presenti nel territorio italiano: il relativo partizionamento ground truth, quindi, produce comunit`a delimitate secondo questo criterio; i limiti di questo approccio si osservano nei termini presenti nelle diffe- renti comunit`a, producendone diverse con un grado di overlapping molto alto - a prima vista, non `e un buon partizionamento ground truth.

In realt`a, il limite maggiore si evidenzia nel fatto che solo un 20% dei nodi circa `e convidiso dai partizionamenti con le ground truth. In generale, i risultati emergenti da questo approccio a tappeto potrebbero essere poco indicativi per una valida analisi relativa alla bont`a delle partizioni. Il nodo stima, analizzato nel paragrafo precedente,

non ha vicini condivisi dal partizionamento Lemon+LP e dalle ground truth, quindi non rientra nella distribuzione di NF1. I nodi che presentano i valori di NF1 maggiori sono poco indicativi perch´e presentano una o due sole comunit`a non rappresentative di reali aree semantiche differenti.

Capitolo 5

Conclusioni

Tornando al punto di partenza di questo lavoro, ovvero le reti semantiche complesse come modelli del lessico mentale (cfr. Sezione 1.1), per valutare la loro fondatezza non bisogna prescindere dalle variabili epistemologiche a cui si `e costantemente fatto riferi- mento nel corso della trattazione: un corpus e un modello del linguaggio per la creazione di uno spazio semantico e un metodo per estrarre una rete da esso. In generale, affer- mare che una parola possa essere rappresentata da un nodo, significa fare della Network Science una disciplina capace di analizzare un fenomeno linguistico con i metodi pro- pri di una disciplina dagli obiettivi pi`u universali. Cos`ı, abbiamo voluto analizzare la struttura complessa del significato in virt`u di determinate propriet`a semantiche scelte perch´e questa emergesse. Nel particolare, affermare che una parola possa essere rappre- sentata da un nodo attraverso una rappresentazione vettoriale della parola discriminata dal contesto linguistico, significa essere vincolati agli spazi semantici e al loro modo di rappresentare il significato. Perci`o, se una rete semantica complessa volesse offrire un modello del lessico mentale, bisogna prima chiedersi quale tipo di connessione tra cop- pie di parole `e la pi`u indicata per farlo. `E il motivo per cui abbiamo provato a fornire

una classificazione delle reti semantiche complesse nella Sezione 1.6: inquadrare le reti semantiche emergenti da uno spazio semantico all’interno di un framework pi`u ampio e offrire un punto di partenza per fare chiarezza nel momento in cui si vogliono ricercare punti di connessione tra linguaggio, cognizione e pensiero.

Abbiamo visto come l’analisi della struttura degli spazi semantici riveli una com- plessit`a emergente a partire dalla presenza di campi semantici variamente definiti. Tali campi semantici sono i mattoni costitutivi di una struttura globale che si traduce in una rete che `e un mondo piccolo (osservate nalla presenza delle propriet`a small-world), che `e fortemente assortativa rispetto al grado e la cui distribuzione di probabilit`a dei gradi se- gue un andamento power law con cut-off esponenziale (i.e., una distribuzione che parte come una power law e termina come un’esponenziale). Il motivo per cui la distribuzione dei gradi mostra tale andamento e non una power law pura potrebbe essere dovuto al parametro min count del modello utilizzato che esclude dal training le parole che appa- iono in un corpus al di sotto di una certa frequenza. In generale, tutti i parametri del modello utilizzato (dalla finestra contestuale alla dimensione di embedding) influenza- no l’emergere della rete seguente e studi futuri potrebbero concentrarsi sulla differenza delle reti estratte a partire da uno studio pi`u sistematico sui parametri e sui modelli (e.g., estrarre reti da CBoW o da count methods).

I risultati sulle propriet`a small-world e sulla distribuzione dei gradi sono in accordo con lo stato dell’arte delle reti complesse estratte dagli spazi semantici; quello in merito a una forte assortativit`a rispetto al grado `e stato invece l’input per indagare la presen- za di campi semantici all’interno delle reti, intesi come cluster semanticamente simili potenzialmente rintracciabili da metodologie di community discovery. Abbiamo super- ficialmente visto che tra gli hub delle reti apparivano parole appartenenti a uno stesso

dominio semantico: naturalmente, ci`o poteva essere indice di niente cos`ı come essere indicativo dell’esistenza di domini semantici particolarmente ricchi in termini di variet`a lessicali che li compongono.

Abbiamo voluto capire in che modo differenti metodologie di community discovery fossero in grado di delimitare campi semantici. In generale, alcuni risultati ci hanno permesso di mostrare come gli algoritmi riuscissero a identificare i differenti contesti linguistici che definiscono il significato di una parola, mentre altri ci hanno permesso di trovare campioni indicativi di polisemia, cio`e di parole che veicolano una molteplicit`a di significati, per quanto la variabile del corpus permetta di fare.

Nel particolare, Louvain e Leiden identificano macro-domini semantici, mentre In- fomap riesce a partizionare le reti trovano sotto-domini semantici pi`u granulari. Un dominio semantico `e una comunit`a composta da parole semanticamente simili, identi- ficativa non tanto di un topic, ovvero un tema presente nel corpus, ma della ricchezza lessicale che quel dominio imporrebbe: se l’organizzazione del lessico mentale presen- tasse una simile struttura, bisogna capire quanto possano essere rappresentativi i domini semantici trovati a partire dai due corpora Wikipedia e Pais`a. Demon identifica comu- nit`a con overlapping: cio`e non `e rappresentativo di polisemia ma di contesti simili in cui una parola pu`o apparire. La metodologia Lemon+LP potrebbe invece catturare la polise- mia, tuttavia i risultati fanno sorgere dubbi sulla possibilit`a degli spazi semantici stessi di poterla catturare. Anche per quanto riguarda una valutazione esterna siamo lontani dal definire una metodologia automatica o semi-automatica soddisfacente in grado di valutare i partizionamenti: i limiti delle ground truth utilizzate per questo terzo approc- cio non permettono di affermare teorie soddisfacenti in merito alla polisemia, perch´e i metodi di disambiguazione di Wikipedia sono ambigui essi stessi.

Se presente, la polisemia potrebbe tradurre gli alti valori di clustering e i bassi valori di cammino minimo medio osservati nelle reti estratte. Sarebbe la polisemia, cio`e, a creare scorciatoie tra diversi domini semantici altrimenti disconessi tra loro. Tuttavia, parole polisemiche non si rilevano n´e tra gli hub (che, al contrario, sono costituiti da termini appartenenti a pochi domini semantici lessicalmente pi`u ricchi degli altri) n´e tra le parole che appaiono in pi`u comunit`a partizionando con Demon: queste ultime sono invece parole che appaiono in contesti linguistici simili, molto spesso appartenenti a uno stesso dominio semantico, perci`o cade l’ipotesi sulla polisemia. In conclusione, per trovare i veri hub della rete andrebbero definite o approfondire differenti misure di centralit`a per catturare le parole polisemiche della rete, cio`e quelle che connettono aree di significato differenti tra loro (i.e., due diverse comunit`a).

Questo lavoro vuole essere un punto di partenza per considerare la possibilit`a di trat- tare seriamente le reti semantiche complesse come modelli del lessico mentale. Tuttavia, nel paragrafo appena concluso abbiamo visto quali sono i limiti nel farlo attraverso gli spazi semantici. Le loro possibilit`a, per`o, sono altrettanto forti, in particolare nella capa- cit`a dei metodi di community discovery di catturare domini semantici e di poterne averne una visione pi`u globale di quanto non facciano metodi come PCA o t-SNE - nonostante il prezzo da pagare sia un totale cambio di rappresentazione e analisi del fenomeno.

Bibliografia

[1] A. Lenci, “Spazi di parole: metafore e rappresentazioni semantiche,” Paradigmi, vol. 27, pp. 83–100, 2009.

[2] J. Cong and H. Liu, “Linguistic complex networks: Rationale, application, interpre- tation, and directions: Reply to comments on ”approaching human language with complex networks”,” Physics of Life Reviews, vol. 11(4), pp. 644–649, 2014.

[3] A. S. Morais, H. Olsson, and L. J. Schooler, “Mapping the structure of semantic memory,” Cognitive Science, vol. 37, p. 125–145, 2013.

[4] S. De Deyne, Y. Kenett, D. Anaki, M. Faust, and D. Navarro, Large-scale network representations of semantics in the mental lexicon, 11 2016, pp. 174–202.

[5] A. Lenci, “Distributional semantics in linguistic and cognitive research,” Italian journal of linguistics, vol. 20(1), pp. 1–31, 2008.

[6] A. Utsumi, “A complex network approach to distributional semantic models,” PLoS ONE, vol. 10(8), 2015.

[7] M. N. Jones, T. M. Gruenenfelder, and G. Recchia, “In defense of spatial models of semantic representation,” New Ideas in Psychology, vol. 50, pp. 54–60, 2018.

[8] A. M. Collins and M. R. Quillan, “Retrieval time from semantic memory,” Journal of verbal learning and verbal behaviour, vol. 8, pp. 240–247, 1969.

[9] A. M. Collins and E. L, “A spreading activation theory of semantic processing,” Psychological Review, vol. 82(6), pp. 407–428, 1975.

[10] A. Marini, Manuale di neurolinguistica. Carocci, 2008.

[11] H. Liu, “Statistical properties of chinese semantic networks,” Chinese Science Bulletin, vol. 54, pp. 2781–2785, 2009.

[12] G. Caldarelli, Scale-free Networks: Complex Web in Nature and Technology. Oxford University Press, 2007.

[13] P. Erd¨os and A. R´enyi, “On random graphs i,” Publicationes Mathematicae, vol. 6, pp. 290–297, 1959.

[14] E. N. Gilbert, “Random graphs,” Annals of Mathematical Statistics, vol. 30, p. 1141–1144, 1959.

[15] D. Watts and S. Strogatz, “Collective dynamics of ’small-world’ networks,” Nature, vol. 393, pp. 440–442, 1998.

[16] S. Milgram and J. Travers, “An experimental study of the small world problem,” Sociometry, vol. 32, pp. 425–443, 1969.

[17] F. Karinthy, Everything is Different, 1929.

[18] A.-L. Barab´asi and R. Albert, “Emergence of scaling in random network,” Science, vol. 286, p. 509, 1999.

[19] ——, “Statistical mechanics of complex network,” Reviews of Modern Physics, vol. 74, pp. 47–97, 2002.

[20] M. Coscia, F. Giannotti, and D. Pedreschi, “A classification for community discovery methods in complex networks,” Statistical Analysis and Data Mining, vol. 4(5), p. 512–546, 2011.

[21] V. Blondel et al., “Fast unfolding of communities in large networks,” Journal of statistical mechanics: theory and experiment, vol. 10, 2008.

[22] V. Tragg, L. Waltman, and N. J. van Eck, “From louvain to leiden: guaranteeing well-connected communities,” arXiv, 2018.

[23] M. Girvan and M. Newman, “Community structure in social and biological net- works,” Proceedings of the national academy of sciences, vol. 99(12), pp. 7821–7826, 2002.

[24] U. Raghavan, R. Albert, and S. Kumara, “Near linear time algorithm to detect community structures in large-scale networks,” Physical review E, vol. 76(3), 2007.

[25] M. Coscia, G. Rossetti, F. Giannotti, and D. Pedreschi, “Demon: a local-first disco- very method for overlapping communities,” Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 615–623, 2012.

[26] ——, “Uncovering hierarchical and overlapping communities with a local-first ap- proach,” ACM Transactions on Knowledge Discovery from Data (TKDD), vol. 9(1), p. 6, 2014.

[27] G. Rossetti, L. Pappalardo, and S. Rinzivillo, “A novel approach to evaluate algo- rithms detection internal on ground truth,” Complex Networks VII, pp. 133–144, 2016.

[28] G. Rossetti, “Rdyn: graph benchmark handling algorithms dynamics,” Journal of Complex Networks, vol. 5(6), pp. 893–912, 2017.

[29] F. de Saussure, Cours de linguistique g´en´erale. Payot, 1916.

[30] H. M. D., C. N., and F. W. T., “The faculty of language: What is it, who has it, and how did it evolve?” Science, vol. 298, pp. 1569–1579, 2002.

[31] G. Basile et al., Linguistica generale. Carocci, 2010.

[32] G. A. Miller, “Wordnet: A lexical database for english,” Communications of the ACM, vol. 38, pp. 39–41, 1995.

[33] C. Fellbaum, WordNet: An Electronic Lexical Database. MIT Press, 1998.

[34] A. Lenci, “Distributional models of word meaning,” Annual Review of Linguistics, vol. 4, pp. 151–171, 2018.

[35] J. R. Firth, A synopsis of linguistic theory. Studies in linguistic analysis, Blackwell, Oxford, 1957.

[36] Z. Harris, “Distributional structure,” Word, vol. 10(2-3), pp. 146–162, 1954.

[37] L. Wittgenstein, Philosophische Untersuchungen. Basil Blackwell, 1953.

[38] G. Salton, A. Wong, and C. Yang, “A vector space model for automatic indexing,” Communications of the ACM, vol. 18(11), pp. 613–620, 1975.

[39] H. Liu, “Linguistic complex networks: A new approach to language exploration,” grkg/Humankybernetik, vol. 52(4), pp. 151–170, 2011.

[40] KONECT, “Wordnet network dataset,” April 2015.

[41] M. Steyvers and J. B. Tenenbaum, “The large-scale structure of semantic networks: Statistical analyses and a model of semantic growth,” Cognitive science, vol. 29, pp. 41–78, 2005.

[42] D. L. Nelson, C. L. McEvoy, and T. A. Schreiber, “The university of south florida word association norms,” http://w3.usf.edu/FreeAssociation/, 1999.

[43] T. Mikolov et al., “Efficient estimation of word representations in vector space,” CoRR, vol. abs/1301.3781, 2013.

[44] ——, “Distributed representations of words and phrases and their compositionality,” Proceedings of the 26th International Conference on Neural Information Processing Systems, vol. 2, pp. 3111–3119, 2013.

[45] I. Kajic and C. Eliasmith, “Evaluating the psychological plausibility of word2vec and glove distributional semantic models,” 2018.

[46] V. Lyding et al., “The pais `A corpus of italian web texts,” Proceedings of the 9th Web as Corpus Workshop (WaC-9), pp. 36–43, 2014.

[47] O. Levy, Y. Goldberg, and I. Dogan, “Improving distributional similarity with lessons learned from word embeddings,” Transactions of the Association for Computational Linguistics, vol. 3, 2015.

[48] R. ˇReh˚uˇrek and P. Sojka, “Software framework for topic modelling with large corpo- ra,” Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, pp. 45–50, 2010.

[49] J. Alstott, E. Bullmore, and D. Plenz, “powerlaw: A python package for analysis of heavy-tailed distributions,” PLoS ONE, 2014.

[50] A. A. et al., “Cognitive corpus linguistics: five points of debate on current theory and methodology,” Corpora, vol. 5(1), pp. 1–27, 2010.

[51] M. Rosvall and C. Bergstrom, “Maps of random walks on complex networks reveal community structure,” Proc Natl Acad SciUSA, vol. 105(4), p. 1118–1123, 2008.

[52] Y. Li et al., “Uncovering the small community structure in large networks: A local spectral approach,” Proceedings of the 24th international conference on world wide web. International World Wide Web Conferences Steering Committee, 2015.

Documenti correlati