• Non ci sono risultati.

Scholarly Career Paths: Brain Drain and Exterophily

N/A
N/A
Protected

Academic year: 2021

Condividi "Scholarly Career Paths: Brain Drain and Exterophily"

Copied!
78
0
0

Testo completo

(1)

Università di Pisa

Corso di Laurea Magistrale in Computer Science

Curriculum Data and Knowledge: Science and Technologies

TESI DI LAUREA

Scholarly Career Paths: Brain Drain and

Exterophily

Relatori:

Candidato:

Prof. Giulio Rossetti

Gianmarco Ricciarelli

Dr. Laura Pollacci

(2)

Sommario

La migrazione di ricercatori e, in generale, di lavoratori altamente qualificati ha suscitato nella comunità scientifica un interesse che, negli ultimi anni, è cresciuto sempre di più. I motivi all’origine delle migrazioni possono essere molteplici. Non è raro che eventi di rilievo economico o politico abbiano la capacità di influenzare positivamente o negativamente la scelta di un ricercatore nel momento del cambio di affiliazione.

La disponibilità di dati che permettono di modellare gli spostamenti e le carriere dei ricer-catori ha fortemente contribuito all’ampliamento del campo di ricerca e dell’attenzione ri-volta verso questo fenomeno. La comprensione e l’analisi dei fenomeni migratori può aiu-tare i governi e le istituzioni nello sviluppo di nuove politiche volte alla promozione e al miglioramento dell’attività di ricerca.

Il presente lavoro di tesi si concentra sull’analisi dei tratti che caratterizzano i profili pro-fessionali estratti dal dataset Microsoft Academic Knowledge Graph (MAKG) [10] in una finestra temporale che va dal 1980 al 2019, estremi compresi. L’analisi di questo tipo di dati accademici, o scholarly data, ha permesso la costruzione di un dataset multi-features, utlizzabile per vari scopi di ricerca.

L’analisi, condotta tramite l’utilizzo di processi di Complex Network Analysis e Machine

Learning, si pone lo scopo di evidenziare i ricercatori che tendono a migrare, e, di

con-seguenza, di fornire spiegazioni riguardo le motivazioni che inducono questi spostamenti. Sfruttando i dati a disposizione, per ogni anno attestato nel dataset, sono stati costruiti dei

network di collaborazioni, nei quali i nodi, ossia i ricercatori, sono collegati tra loro da una

relazione di collaborazione alla stesura di un paper. Da questi network, per ogni ricercato-re, abbiamo estratto le ego network annuali, ovvero la rete di co-autori in pubblicazioni per ogni anno attestato nel dataset. I paesi di affiliazione dei collaboratori di ogni ego network sono stati confrontati con quello del ricercatore usato come nucleo della rete, l’ego, al fine di stimare quantitativamente la propensione di un ricercatore a collaborare con colleghi con lo stesso stato di affiliazione, o con diverso stato di affiliazione. Al fine di rendere misurabile questa tendenza, abbiamo creato un indice che rappresenta il grado annuale di internazio-nalità delle collaborazioni (YDCI). In questo lavoro di tesi definiamo lo yearly degree of

(3)

ot-tenuta dalla lista dei paesi di affiliazione dei collaboratori di ogni ego. L’indice può assumere valori nell’intervallo [−1, 1]. I valori negativi rappresentano la propensione al formare reti di collaborazioni nelle quali la maggior parte dei colleghi ha una affiliazione diversa dalla propria. Al contrario, i valori positivi indicano la tendenza al formare reti di collaborazioni nella quale la maggior parte dei colleghi condividono lo stesso paese di affiliazione. Infine, i valori intorno a zero indicano la propensione al formare reti di collaborazioni in cui tutti i colleghi hanno il medesimo paese di affiliazione. I valori dello YDCI vengono quindi divisi in gruppi per mezzo di un processo di clustering. Tale processo ha permesso la divisione dei ricercatori in tre gruppi, ognuno dei quali presenta una tendenza dominante relativamente ai valori assunti dallo YDCI. Tali preferenze vengono successivamente rappresentate su scala mondiale, evidenziando il comportamento dei paesi per quanto riguarda l’attività di ricerca. L’analisi temporale è condotta tenendo conto di importanti eventi di natura politica ed eco-nomica e quindi viene fatta attenzione al modo in cui tali eventi influenzano lo YDCI dei singoli ricercatori. L’attenzione è posta in particolar modo su quei ricercatori - e di conse-guenza sui paesi ai quali essi sono affiliati - per cui è possibile osservare una variazione di tendenza durante il periodo temporale analizzato.

Tramite il presente lavoro di tesi è stato possibile comporre un dataset ricco di features rap-presentante le collaborazioni tra ricercatori dal 1980 al 2019, estremi compresi. Inoltre, è stato possibile definire un indice che permette di stimare la propensione di un ricercatore a formare reti composte da colleghi con lo stesso paese di affiliazione o meno, ossia di misurare il grado di internazionalità nelle sue collaborazioni annuali.

Definendo questo indice, è stato possibile suddividere i ricercatori in tre cluster, ognuno dei quali è caratterizzato da una tendenza dominante nello YDCI. Ampliando l’analisi su sca-la mondiale, è stato possibile studiare lo YDCI dei singoli paesi, ed osservare una varietà di tendenze. La più interessante è il cambio nel segno dello YDCI, da negativo a positivo. Confrontando i risultati ottenuti con il susseguirsi di importanti eventi politici ed economici è stato possibile giustificare i risultati ottenuti durante tutte le fasi dell’analisi. Inoltre, aggiun-gendo informazioni riguardo la mobilità dei ricercatori tra i paesi, è stato possibile ampliare la comprensione del particolare comportamento di alcuni paesi. Infine, l’estensione delle in-formazioni con i dati relativi alle aree di ricerca di ogni ricercatore, e quindi di ogni paese, ha permesso di aggiungere un ulteriore livello di profondità all’analisi proposta, consentendo la rappresentazione di un quadro completo e dettagliato della migrazione scientifica.

(4)

All the world will be your enemy, Prince with a Thousand Enemies, and

whenever they catch you, they will kill you. But first they must catch you,

digger, listener, runner, prince with the swift warning. Be cunning and full of

tricks and your people shall never be destroyed. - Richard Adams,

Watership Down.

(5)

Indice

Introduzione 1

1 Concetti Fondamentali e Stato dell’Arte 4

1.1 Social Network Analysis . . . 4

1.1.1 Reti Sociali e la loro rappresentazone . . . 4

1.1.2 Numero di Nodi, di Archi e Densità . . . 6

1.1.3 Distribuzione di Probabilità dei Gradi e Scale Free Property . . . . 6

1.1.4 Ego Network . . . 8

1.1.5 Social Network Analysis: cenni storici . . . 9

1.2 Migrazione Umana . . . 12

1.2.1 Approccio tradizionale . . . 13

1.2.2 Approccio non convenzionale . . . 14

1.2.3 Migrazione scientifica . . . 15

1.2.4 Reti sociali e migrazione scientifica . . . 19

2 Analisi e Risultati 22 2.1 I Dati . . . 22

2.2 Network di Collaborazioni . . . 24

2.3 Metodologia . . . 26

2.3.1 Analisi Preliminare . . . 26

2.3.2 Grado Annuale di Internazionalità delle Collaborazioni . . . 31

2.3.3 Divisione in gruppi . . . 32

2.3.4 Partizionamento su scala Globale . . . 35

2.3.5 Approfondimento sulle Aree di Ricerca . . . 44

(6)

2.3.7 Approfondimento sulla Mobilità . . . 53

3 Conclusioni e Sviluppi Futuri 60

3.1 Conclusioni . . . 60 3.2 Sviluppi Futuri . . . 65

(7)

Elenco delle figure

1.1 Esempi di reti. . . 5 1.2 Esempio di distribuzione di probabilità dei gradi su una rete di 20, 000 nodi

costruita con il modello sviluppato da Barabási e Albert. . . 8 1.3 Esempio di ego network. L’ego della rete è rappresentato in rosso, mentre gli

alters sono rappresentati in blu. . . 9 1.4 Esempio di rete ottenuta utilizzando il modello sviluppato da Erdős e Rényi.

La rete generata possiede 20,000 nodi, e un arco tra due nodi può formarsi con una probabilità p = 0.01. . . . 11 2.1 Variazioni nel numero di nodi, nel numero di archi e nella densità di ogni

network all’interno della finestra temporale analizzata. . . 27 2.2 Probability density distribution per i gradi dei nodi del network

rappresen-tante l’anno 2010. . . 28 2.3 Aree di ricerca presenti nel dataset. . . 29 2.4 Percentuali di multidisciplinarità tra i ricercatori del nostro dataset. . . 30 2.5 Distribuzione dello YDCI tra i cluster ottenuti dall’applicazione di K-Means.

Le barre orizzontali rappresentano le mediane della distribuzione, mentre i triangoli rappresentano le medie. . . 33 2.6 Distribuzione dello YDCI nel partizionamento ottenuto durante le decadi. . 35 2.7 Media dello YDCI per paese nelCluster_1 ottenuto considerando tutta la

finestra temporale. . . 36 2.8 Media dello YDCI per paese nelCluster_2 ottenuto considerando tutta la

finestra temporale. . . 37 2.9 Media dello YDCI per ilCluster_1 calcolato per ogni decade. . . 38 2.10 Media dello YDCI per ilCluster_2 calcolato per ogni decade. . . 39

(8)

2.11 Cambiamenti e inversioni di tendenza nello YDCI dei paesi contenuti nel

dataset durante tutto l’arco della finestra temporale analizzata. . . 40

2.12 Cambiamenti e inversioni di tendenza nello YDCI dei paesi europei durante tutto l’arco della finestra temporale analizzata. . . 41

2.13 Variazioni nello YDCI durante tutta la finestra temporale per una selezione di paesi. . . 42

2.14 Confronto tra i primi cinque paesi con più alto YDCI, in rosso, e i primi cinque paesi con più basso YDCI, in blu, presenti nelCluster_1 . . . 43

2.15 Confronto tra i primi cinque paesi con più alto YDCI, in rosso, e i primi cinque paesi con più basso YDCI, in blu, presenti nelCluster_2 . . . 44

2.16 Aree di ricerca dominanti dal 1980 al 2019,Cluster_1. . . 45

2.17 Aree di ricerca dominanti dal 1980 al 2019,Cluster_2. . . 45

2.18 Area di ricerca più rappresentate per ogni decade,Cluster_1. . . 46

2.19 Area di ricerca più rappresentate per ogni decade,Cluster_2. . . 47

2.20 Aree di ricerca più rappresentate in tutto il dataset su base annua. . . 48

2.21 Aree di ricerca più rappresentate per cluster su base annua. . . 49

2.22 Aree di ricerca più rappresentate lungo tutta la finestra temporale, divise per paesi. . . 50

2.23 Variazioni nello YDCI delle varie aree di ricerca. . . 52

2.24 Approfondimento sullo YDCI dell’area di ricercaComputer per una selezio-ne di paesi. . . 53

2.25 Distribuzione della mobilità in entrata su scala globale attraverso le decadi. 56 2.26 Distribuzione della mobilità in entrata per l’Europa attraverso le decadi. . . 57

2.27 Distribuzione della mobilità in uscita su scala globale attraverso le decadi. . 57

2.28 Distribuzione della mobilità in uscita per l’Europa attraverso le decadi. . . . 58

2.29 Bilancio sulla mobilità globale. . . 59

(9)

Introduzione

L’essere umano è da sempre considerato un animale sociale. Siamo, come specie, natural-mente predisposti alla comunicazione, alla condivisione delle informazioni e possediamo una innata curiosità verso quello che ancora non conosciamo, ed è proprio quest’ultimo aspetto ad essere presente e rappresentare il cuore del mondo della ricerca accademica.

I mezzi con cui comunichiamo, e il flusso di informazioni da essi generato, sono soggetti sul quale è stata svolta un’intensa attività di ricerca. Ne sono un esempio classico i due stu-di proposti da Milgram [18] e Granovetter [13], rispettivamente. Con l’avanzamento della globalizzazione, i mezzi usati per comunicare sono sensibilmente progrediti, e, in particolar modo con l’inizio dell’era digitale, le distanze che ci separano gli uni dagli altri si sono ul-teriormente accorciate. L’ambiente della ricerca, così come molte altre realtà, ha fortemente benificiato da questo tipo di evoluzione, che ha dato la possibilità a persone fisicamente molto distanti di entrare in contatto tra loro, scoprire nuove realtà professionali e nuove possibilità. Diversi atenei, come per esempio quello dell’Università di Pisa, hanno reso disponibili corsi di studio, master e programmi di dottorato che hanno suscitato grande interesse a livello accademico. Tale interesse scaturisce non solo da coloro che fanno parte dello stesso paese nel quale è situata l’istituzione erogante, ma coinvolge anche, e sopratutto, persone esterne al paese, le quali possono vedere nell’attività organizzata dall’istituzione una nuova possibilità di crescita e maturazione accademica e professionale.

Adesso abbiamo a disposizione un orizzonte molto più ampio, grazie al quale possiamo pro-grammare diversamente e con maggiore libertà di scelta il nostro futuro. Esso ha alimentato la speranza di nuove possibilità di crescita, di maggiori opportunità professionali e di una retribuzione che risulti adeguata al proprio livello di formazione. Queste nuove prospetti-ve hanno dato il via ad un esodo diffuso che ha coinvolto in particolar modo il personale altamente specializzato: il fenomeno della migrazione scientifica.

(10)

considerato come un dispensatore di cultura su scala globale, come un vero e proprio mercato, anch’esso distribuito su scala globale. Allo stesso modo dei mercati intesi in senso classico, anche questo nuovo tipo di mercato risulta essere influenzabile e, in generale, sensibile agli eventi politici ed economici che restringono o agevolano la mobilità degli accademici, e sem-brerebbe favorire i paesi in possesso di sistemi di ricerca dinamici e adeguatamente finanziati. Infatti, nello studio proposto da Sugimoto et al. [32], possiamo osservare che paesi come l’I-talia, o l’India, hanno in generale un bilancio relativo agli accademici negativo, in quanto esportano ricercatori più di quanti riescano ad importarne. Ciò fa sì che tali paesi si ritrovino con un panorama accademico decisamente impoverito, come esposto da Van Noorden [33]. La sempre maggiore digitalizzazione della nostra vita quotidiana, attraverso, per esempio, l’uso della tecnologia mobile, ha reso disponibili moli di dati da poter analizzare e studiare che fino a qualche anno fa sarebbero risultate impensabili. Per questo tipo di dati di proporzione massiva è stato coniato l’ormai popolare termine big data. La libertà di poter analizzare una così grande quantità di dati, non limitati nella dimensione spaziale, ha permesso alla ricerca in diverse aree, come l’analisi delle reti sociali e lo studio della mobilità, di progredire. I big data hanno permesso a queste aree di ricerca di studiare fenomeni massivi dal punto di vista degli attori coinvolti, superando così la mancanza cronica di casi di studio in possesso di una base solida dal punto di vista statistico, e perciò in grado di confermare l’analisi proposta. Nella catergoria ascrivibile ai big data sono inclusi gli scholarly data. Questo tipo di dato, descrive la carriera dei ricercatori in termini di collaborazioni, pubblicazioni, spostamenti attraverso diverse istituzioni e altri tipi di eventi strettamente collegati alla realtà del mondo accademico. Attraverso gli scholarly data è possibile costruire una narrazione dettagliata della comunità accademica in una finestra temporale di larghezza variabile.

Molte istituzioni, tra le quali Microsoft [10] e Elsevier1, hanno dato il loro contributo nell’or-ganizzare, conservare e rendere accessibili i dati accademici. L’analisi di questi dati permette di svolgere numerosi compiti come, per esempio, la creazione di modelli che descrivono gli spostamenti tra Università [8], che evidenziano l’impatto e le implicazioni della relocazione degli accademici [32], e sistemi di previsione della prossima opportunità lavorativa [16]. Tra i dataset di scholarly data è possibile citare il Microsoft Academic Knowledge Graph [10], il quale include informazioni relative a ricercatori, istituzioni, e pubblicazioni, e Scopus [19], un database multi-disciplinare contenente migliaia di pubblicazioni.

(11)

Se immaginiamo che ogni record del dataset rappresenti un membro della comunità accade-mica, è possibile concettualizzare l’insieme di dati come una rete di nodi collegati tra loro. Questo tipo di astrazioni sono effettivamente capaci di descrivere un ampio campionario di fenomeni, tra i quali sono presenti i network di collaborazioni tra ricercatori. In una re-te, ogni nodo rappresenta un ricercatore con determinate caratteristiche, collegate al grado di granularità dell’analisi che si vuole sviluppare. Ogni arco presente tra una coppia di nodi rappresenta un particolare tipo di relazione tra ricercatori, come la collaborazione alla stesura di un articolo.

Combinando le tecniche di analisi tipiche della Network Science, della Big Data Analytics, e del Machine Learning, questo lavoro di tesi si propone di rispondere alle seguenti domande: • Esiste una divisione dei ricercatori in base al loro pattern comportamentale? Che

caratteristiche possiedono questi gruppi? È possibile isolare dei paesi, o degli anni? • Prendendo in considerazione gli stati, che tipo di ricercatore è più rappresentato per

ogni stato? Sono presenti più ricercatori con team provenienti da altri stati, o viceversa? • Prendendo in considerazione una serie di importanti eventi di natura economica o po-litica, è possibile analizzare il modo in cui i ricercatori, o, in generale, gli stati ai quali essi sono affiliati, vengono influenzati? Ossia, che impatto hanno questo tipo di eventi sui flussi migratori?

• Considerando il bilancio riguardo alla mobilità tra gli stati, è possibile isolare pattern interessanti su scala globale?

• Le aree di ricerca tipiche di ogni ricercatore hanno una loro rappresentazione nel quadro generale? È possibile collegare i flussi migratori degli accademici alle variazioni nelle aree di ricerca tipiche di casciun paese?

Il resto del presente lavoro di tesi è organizzato nel modo seguente: nel Capitolo 1 è proposta un’analisi dello stato dell’arte dell’area di ricerca inerente agli scholarly data. Nel Capitolo 2 è discussa l’analisi svolta sul dataset estratto da MAKG e sono presentati i risultati otte-nuti. Infine, nel Capitolo 3 sono fornite le conclusioni della nostra analisi, insieme ai futuri sviluppi.

(12)

Capitolo 1

Concetti Fondamentali e Stato dell’Arte

Questo capitolo presenta la descrizione dei concetti e delle metologie di Social Network

Ana-lysis (SNA) utilizzate durante i processi di analisi. Vengono poi introdotti alcuni degli studi

storici che hanno aiutato a progredire la SNA come area di ricerca. Infine, viene descritto lo stato dell’arte della migrazione umana, e, in particolare, della migrazione scientifica, campo in cui si inserisce il lavoro presentato in questa tesi.

1.1

Social Network Analysis

Per fornire una base teorica all’analisi riportata nel Capitolo 2, di seguito vengono riportati i concetti fondamentali della SNA. Per prima cosa verrà fornita un’interpretazione delle reti sociali e del loro contenuto, e verrà fornita la loro rappresentazione come oggetto matematico. Si introdurrano poi alcune delle proprietà fondamentali di una rete, ossia il numero di nodi, il numero di archi e la densità. Infine, verrà presentata la distribuzione di probabilità dei gradi di un network, assieme alla sua interpretazine, e verrà descritta una proprietà fondamentale delle reti complesse, ossia la proprietà scale-free.

1.1.1

Reti Sociali e la loro rappresentazone

Le reti sociali, ossia insiemi di persone, ognuna delle quali è collegata ad un sottoinsieme delle altre per mezzo di una qualche forma di relazione, sono state il soggetto di diversi studi nel corso delle decadi passate [29,34]. Esse possono essere rappresentate come un insieme

(13)

1 2 3 (a) 1 2 3 (b)

Figura 1.1: Esempi di reti.

nel quale N è l’insieme contenente i nodi presenti all’interno della rete, e E è un insieme di coppie del tipo (u, v). Le coppie contenute in E rappresentano gli archi che collegano i nodi gli uni agli altri e, presi due nodi u, v ∈ N, diciamo che (u, v) rappresenta l’arco che va da u a v. A seconda della relazione che due nodi possono condividere, gli archi della rete possono essere diretti o indiretti. Dati due nodi u, v ∈ N, un arco (u, v) ∈ E viene chiamato diretto quando

(u, v)̸= (v, u) , (1.2)

altrimenti, se

(u, v) = (v, u) (1.3)

l’arco è indiretto. In queste reti, un nodo rappresenta una persona, e un arco collegante due nodi rappresenta uno specifico tipo di relazione. Come è possibile immaginare, per mezzo delle reti sociali è possibile creare un modello per rappresentare fenomeni complessi come l’interazione umana e la diffusione delle informazioni. Questa grande capacità di rappresen-tazione ha contribuito alla crescita di interesse nei confronti delle reti sociali da parte della comunità accademica.

In Figura 1.1 possiamo osservare due esempi di network indiretti. I due network hanno lo stesso insieme di nodi N = {1, 2, 3}, ma differiscono per quanto riguarda l’insieme degli archi E. Infatti, l’insieme degli archi del network 1.1a è E ={(1, 2), (2, 3), (3, 1)}, mentre quello del network 1.1b è E ={(1, 2), (2, 3)}.

(14)

1.1.2

Numero di Nodi, di Archi e Densità

Il numero di nodi, il numero di archi e la densità possono essere considerate come tre proprietà fondamentali di ogni network. Il numero di nodi è rappresentato dalla cardinalità dell’insieme

N contenente i nodi presenti nella rete

# nodi =|N|, (1.4)

e, similmente, il numero di archi di un network è rappresentato dalla cardinalità dell’insieme

E

# archi =|E|. (1.5)

La densità di una rete consiste nel rapporto tra gli archi attualmente presenti nella rete e il numero di archi che la rete avrebbe se ogni nodo presente al suo interno avesse grado mas-simo. Dato un nodo u, il suo grado ku è rappresentato dal numero di connessioni possedute

da u. In un network con numero di nodi pari a n, il grado massimo di un nodo è pari a n− 1. Tramite questi concetti preliminari possiamo definire la densità di una rete G come

DG=

# archi attuali # archi possibili =

2|E|

|N| ∗ (|N| − 1), (1.6)

dove il numero di archi possibili è rappresentato da

# archi possibili = |N| ∗ (|N| − 1)

2 . (1.7)

Grazie alla densità è possibile misurare la distanza tra la rete che stiamo studiando e la sua versione completamente connessa.

Tornado ad osservare Figura 1.1, per mezzo dei concetti appena introdotti possiamo dire che il network 1.1a possiede 3 nodi, 3 archi e ha una densità pari a 1.0, mentre il network 1.1b possiede 3 nodi, 2 archi e ha una densità pari a 0.67.

1.1.3

Distribuzione di Probabilità dei Gradi e Scale Free Property

Data una rete G composta da n nodi, definiamo la distribuzione di probabilità dei gradi Pk

come la probabilità che, estraendo randomicamente un nodo dalla rete, esso abbia esattamente grado k. Dal momento che Pk è una probabilità, abbiamo che

n

k=1

(15)

Per un network con n nodi, la distribuzione di probabilità dei gradi è rappresentata dall’isto-gramma normalizzato

Pk=

nk

n , (1.9)

dove nk rappresenta il numero di nodi aventi grado pari a k.

Lo sviluppo della tecnologia, e il conseguente aumento della potenza computazionale, ha permesso di condurre analisi su reti sociali sempre più grandi e con topologie sempre più complesse. Studiando questa nuova famiglia di reti, è stata notata una caratterista che in futuro si è rivelata essere fondamentale per la rappresentazione di una grande varietà di net-works complessi. Lo studio proposto da Barabási et al. [5] ha evidenziato il fatto che molte reti complesse hanno una distribuzione di probabilità dei gradi Pkche segue una power-law

Pk~ k−γ, (1.10)

dove γ è il coefficiente specifico della power-law, ed è generalmente compreso tra 2 e 3. In letteratura la proprietà appena citata è nota come proprietà scale-free. Molti tipi di network, come, per esempio, i network genetici o il World Wide Web risultano godere di questa pro-prietà, la quale risulta essere una conseguenza del modo in cui questi particolari networks si espandono, e, in particolare, del fatto che i nuovi nodi aggiunti alla rete tendono a formare legami preferenziali con nodi aventi già un numero consistente di connessioni [5]. Questo vuol dire che la probabilità di estrarre un nodo con grado basso sarà molto alta mentre, al contrario, la probabilità di estrarre un nodo con grado alto sarà molto bassa.

In Figura 1.2 possiamo osservare un esempio di distribuzione di probabilità dei gradi di una rete costruita tramite il modello sviluppato da Barabási e Albert. La rete rappresentata è composta da 20000 nodi. Sulla base dei concetti appena introdotti, possiamo osservare che la rete rispetta quanto stabilito dalla proprietà scale-free. Abbiamo infatti una probabilità molto alta di estrarre un nodo con grado pari a 1, e una probabilità vicina a 0 di estrarre un nodo con grado molto alto. Tramite interpolazione della curva prodotta dalla distribuzione è stato ricavato il coefficiente γ caratteristico della power-law che, essendo pari a 2.55± 0.01, fornisce una ulteriore prova dell’appartenenza alla classe scale-free della rete usata come esempio.

(16)

1.1.4

Ego Network

Le ego network sono un altro concetto fondamentale legato all’analisi delle reti sociali e al nostro lavoro. Ciò che caratterizza una ego network è il suo ego, ossia il nodo che viene posto al centro della rete e che agisce da centro focale. Esso definisce quali altri nodi, definiti alters, e archi andranno a far parte della rete. Fanno parte della ego network tutti i nodi che hanno una connessione diretta con l’ego, tutti gli archi che connettono gli alters all’ego e gli alters tra di loro.

In Figura 1.3 possiamo osservare un esempio di ego network. In questa rete l’ego è rappresen-tato dal nodo colorato di rosso. Tutti gli altri nodi sono da considerarsi come gli alters della rete. Possiamo infine notare come facciano parte della rete soltanto gli archi che collegano l’ego con gli alters e gli alters tra di loro.

Così come la versione “globale” di una rete, ossia quella che prende in considerazione tutti i nodi e tutti gli archi, ha un insieme di proprietà, allo stesso modo anche la versione “locale”, ossia quella dal punto di vista di un singolo nodo e quindi della sua ego network, gode di proprietà specifiche. Nel lavoro proposto da Gupta et al. [14], vengono studiate le proprietà strutturali che caratterizzano le ego network. Tali proprietà vengono successivamente messe a confronto e collegate con quelle delle reti globali. Gli autori dichiarano che, tra le varie

100 101 102 k 105 104 103 102 101 100 Pk

Probability Density Distribution - = 2.55

Figura 1.2: Esempio di distribuzione di probabilità dei gradi su una rete di 20, 000 nodi costruita con il modello sviluppato da Barabási e Albert.

(17)

1

2

3

4

5

6

7

8

Figura 1.3: Esempio di ego network. L’ego della rete è rappresentato in rosso, mentre gli alters sono rappresentati in blu.

proprietà possedute da entrambi i tipi di rete, è possibile mettere in relazione dal punto di vista matematico la distribuzione dei gradi dei nodi di una ego network con quella della rete globale che la contiene. Si può notare quindi come le ego network, prese singolarmente, non siano sistemi isolati, ma possano comunque essere messe in relazione con il sistema più grande del quale fanno parte.

Dal punto di vista concettuale le ego network sono importanti perchè permettono di studiare i fenomeni collegati alle dinamiche di gruppo tipiche delle attività umane. Non è difficile infatti pensare ad una ego network come alla rete rappresentante la cerchia di amicizie di una persona, o i membri di una squadra sportiva. Nel contesto di questo lavoro di tesi, ogni ego network rappresenta una rete di collaborazioni alla stesura di un paper. In ogni rete l’ego sarà rappresentato da un ricercatore, mentre gli alters saranno tutti gli accademici che hanno collaborato con lui, in un determinato anno, alla stesura di un articolo.

1.1.5

Social Network Analysis: cenni storici

In questa sezione introduciamo alcuni dei lavori che hanno permesso la definizione e l’avan-zamento della ricerca nel campo della Social Network Analysis.

Un famoso studio condotto sulle reti sociali è quello svolto da Milgram [18], nel quale è stato chiesto a delle persone selezionate randomicamente dall’elenco telefonico del Nebraska, di

(18)

consegnare una lettera ad un agente di borsa di Boston, amico dello stesso Milgram. Le regole della consegna imponevano che la lettera venisse consegnata passando di persona in persona, ma che i passaggi potessero essere effettuati solo tra persone che avessero un rapporto di amicizia. Le lettere che giunsero a destinazione furano abbastanza per far notare a Milgram che il numero medio di passaggi per concludere il percorso era pari a sei. Tale risultato è poi entrato nel folklore delle reti sociali come ”I Sei Gradi di Separazione”.

Il risultato di Milgram ha permesso di sviluppare la small-world hypothesis, secondo la quale gran parte delle coppie di persone facenti parte di una popolazione possono essere connesse per mezzo di una catena composta da poche conoscenze intermedie. Questo risultato è poi stato ripreso da Watts et al. [35], per l’elaborazione dello small-world model. In una rete realizzata secondo questo modello N vertici formano un reticolo mono-dimensionale, con ogni nodo che viene connesso al suo vicino più prossimo, e al seguente vicino più prossimo. Con probabilità p ogni arco è riconnesso ad un nodo scelto randomicamente, permettendo il formarsi dello small-world phenomenon sulle connessioni che uniscono due nodi distanti tra loro.

L’esperimento di Milgram, pur mostrando delle conclusioni interessanti, manca delle infor-mazioni necessarie alla comprensione della caratteristica fondamentale delle reti sociali: le caratteristiche di diffusione delle informazioni dovute alla topologia propria di questo tipo di reti. In letteratura sono presenti diversi studi con i quali è stata fatta luce su questa caratteri-stica. Foster et al. [11], per esempio, propongono lo studio di una rete di amicizie presente all’interno di una scuola superiore, grazie al quale, attraverso un processo iterativo composto da una sequenza di generazioni successive, derivano il grado di diffusione dell’informazione, che in questo caso è rappresentato dalle relazioni amicali tra gli studenti, nella rete. Simil-mente, l’analisi di Moody et al. [21] indaga le caratteristiche strutturali delle reti sociali nel medesimo contesto dello studio precedentemente citato.

Entrambi gli studi citati mostrano delle caratteristiche importanti delle reti sociali sui quali sono condotti; tuttavia sono limitati dalle dimensioni delle reti stesse, dal modello utilizzato per rappresentarle e dal tipo di relazioni indagato, che è altamente sensibile al bias soggettivo delle persone coinvolte per l’acquisizione dei dati. Infatti, per rappresentare queste reti di dimensioni modeste rispetto alle reti relative ai big data, è utilizzato il random graph model, la quale paternità è da attribuirsi ad Erdős et al. [9]. In questo modello, la costruzione della rete è considerata come un processo stocastico nel quale, all’istante inziale t1, si sceglie un

(19)

1.6 × 102 1.8 × 102 2 × 102 2.2 × 102 2.4 × 102 2.6 × 102 k 104 103 102 Pk

Probability Density Distribution - = 0.0093, = 0.01

Figura 1.4: Esempio di rete ottenuta utilizzando il modello sviluppato da Erdős e Rényi. La rete generata possiede 20,000 nodi, e un arco tra due nodi può formarsi con una probabilità

p = 0.01.

arco tra i(n2)archi disponibili per la connessione di n nodi. Tutti gli archi hanno la medesima probabilità di venire scelti, e la procedura precedentemente descritta è ripetuta per i successivi

N istanti temporali. Ci si riferisce alla rete ottenuta alla fine del processo come Γn,N. In

Figura 1.4 possiamo osservare la distribuzione di probabilità per i gradi di una rete generata tramite il modello sviluppato da Erdős e Rényi. La distribuzione di probabilità per questo network segue una distribuzione normale; è possibile infatti osservare la caratteristica forma a campana. Confrontando la distribuzione ottenuta con quella di Figura 1.2, le differenze tra i modelli usati per generare i due network, a parità di numero di nodi, risultano molto chiare. Dal punto di vista storico, il passo successivo sarebbe quello di introdurre la proprietà scale-free assieme allo studio proposto da Barabási e Albert. Dal momento che questo argomento è già stato trattato, invitiamo il lettore interessato a rivedere la Sezione 1.1.3.

Ponendo l’attenzione sempre sul tipo di topologia posseduta dalle reti scale-free, è interes-sante citare il rich-club phenomenon indagato da Colizza et al. [7]. All’interno di un network un nodo viene considerato ”ricco” se possiede un grande numero di connessioni, ossia, per ogni nodo facente parte della rete, la sua ricchezza è direttamente proporzionale al suo grado. Lo studio di Colizza et al. ha evidenziato che i nodi ricchi, ossia il rich-club della rete, hanno la tendenza a formare tra loro comunità fortemente interconnesse.

(20)

Tramite lo studio di Newman [22], viene evidenziato come anche una rete di collaborazioni accademiche, tema strettamente collegato a questo lavoro di tesi, sia soggetta alla proprietà scale-free precedentmente descritta. Il network proposto da Newman, infatti, consiste in una rete con più di un milione di nodi nella quale ogni nodo rappresenta un ricercatore e ogni arco rappresenta una collaborazione accademica. Le informazioni per la costruzione della rete sono state estratte da una varietà di fonti. La finestra temporale analizzata va dal 1995 al 1999, estremi inclusi, e, tramite questo studio, è stato ancora una volta possibile dimostrare come, indipendentemente dai costrutti relazionali e sociali caratteristici di ogni rete, l’organizzazione topologica rimane sempre strettamente collegata a quella descritta dalla proprietà scale-free.

Si deve a Freeman [12] lo sviluppo del concetto di centralità di un nodo all’interno di una rete. Grazie a questo concetto possiamo stimare l’importanza di un nodo per la rete che lo contiene. Nel suo studio, Freeman propone tre definizioni di centralità, basate su diverse caratteristiche dei nodi di un network e del modo in cui essi interagiscono tra loro. La degree centrality considera l’importanza di un nodo in base al suo grado. Avremo quindi che i nodi più centrali saranno quelli con un grado più alto. La closeness centrality si basa invece sulla lunghezza media dei cammini, ossia il numero di archi, che collegano un nodo con gli altri nodi del network. Essa permette di descrivere quanto un nodo sia raggiungibile dagli altri nodi della rete. Infine, la betweenness centrality descrive la misura in cui un nodo risulta centrale per il flusso di informazioni passante per la rete. Avremo che un network sarà grandemente dipendente dai suoi nodi con alta betweenness centrality, dal momento che essi si troveranno in una posizione strategicamente vantaggiosa rispetto agli altri. Il calcolo della betweenness centrality è molto dispendioso dal punto di vista computazionale. La complessità minima per ottenere questa misura di centralità è pari a O(nm), con n che rappresenta il numero dei nodi di una rete e m che rappresenta il numero di archi.

1.2

Migrazione Umana

Il fenomeno della migrazione umana ha, negli anni, attratto l’interesse di accademici prove-nienti da campi di studi molto diversi tra loro. Queste aree di ricerca includono materie come l’antropologia, la sociologia e l’economia. Recentemente, grazie allo sviluppo tecnologico e alla maggior disponibilità di dati che esso comporta, tra le aree di ricerca interessate alla

(21)

migrazione umana possiamo includere anche l’informatica.

In [31], Sîrbu et al. sottolineano come ad oggi sia possibile affrontare l’analisi della migra-zione umana mediante approcci “tradizionali”, ma anche sfruttando i social big data, ovvero le tracce digitali generate mediante dispositivi collegati all’internet of things. Questo nuovo tipo di dato ha senza dubbio facilitato l’ingresso dell’informatica tra le materie interessate al fenomeno delle migrazioni umane, ma, allo stesso tempo, ha introdotto nuove sfide e criticità degne di nota.

1.2.1

Approccio tradizionale

Sîrbu et al. [31] descrivono l’approccio tradizionale alle migrazioni umane come quello che studia il fenomeno usando statistiche ufficiali o dati forniti da istituzioni governative. Gli autori fanno notare però che l’utilizzo di questo tipo di dati spesso può comportare una serie di difficoltà. Dal momento che nelle migrazioni umane, per forza di cose, sono coinvolte varie nazioni, non esiste una definizione univoca del concetto di migrante. Questa discrepanza nel concetto fondamentale alla base delle migrazioni umane comporta delle inconsistenze dei dati tra i database usati per raccogliere le informazioni necessarie allo studio dei flussi migratori. Potremmo quindi dire che, per questo motivo, lo studio delle migrazioni umane è un ill-defined problem

De Beer et al. [6] sottolineano la difficoltà nello stabilire correttamente il numero di migranti uscenti da un paese ed entranti in un altro. Per risolvere questa criticità propongono un meto-do per armonizzare le stime relative ai flussi migratori. Avenmeto-do a disposizione i dati di uscita ed entrata di vari paesi europei, gli autori si propongono di stimare i fattori di stabilizzazione necessari per rappresentare in modo corretto un insieme di flussi migratori basandosi sullo studio precedentemente proposto da Poulain et al. [26]. Avendo due matrici N × N, una per i paesi di uscita e una per i paesi di entrata, i fattori di stabilizzazione vengono ottenuti attraverso le seguenti equazioni:

j ˆ αjIij = ˆβij Eij for i = 1, . . . , N ; i̸= j ˆ αjj Iij = ∑ j ˆ βiEij for i = 1, . . . , N ; i̸= j (1.11)

dove αj rappresenta il fattore di stabilizzazione per il paese ricevente, e βi rappresenta il

fattore di stabilizzazione per il paese inviante. Iij rappresenta il valore della migrazione dal

(22)

Anche lo studio proposto da Raymer [27] propone una soluzione per il problema dell’in-consistenza dei dati tra i database usati per indagare le migrazioni umane. In questo caso l’autore si concentra sullo stimare i flussi migratori tra i paesi dell’Unione Europea durante un time range ben definito. I flussi stimati sono inoltre divisi rispetto all’età dei migranti. Tramite l’utilizzo di modelli di regressione vengono ottenuti i valori di emigrazione mancan-ti per la matrice di entrata-uscita usata anche da De Beer et al.. Successivamente vengono applicati altri modelli statistici per ricavare i pattern collegati all’età dei migranti e alla loro distribuzione spaziale.

1.2.2

Approccio non convenzionale

L’approccio alternativo allo studio delle migrazioni umane consiste nell’uso dei social big data. Negli studi più recenti, questo tipo di approccio è grandemente cresciuto in popolarità. Come precedentemente accennato, Sîrbu et al. [31] stabiliscono che questo tipo di dati può provenire da una varietà di fonti. Sono infatti considerati social big data i dati provenienti dai social media, dai telefoni cellulari, dai servizi online e dalle transazioni commerciali. Questo nuovo tipo di dato rappresenta in modo dettagliato l’utente, e descrive fasce più ampie della popolazione che i dataset tradizionali non sono in grado di rappresentare. Comparati con i social big data, infatti, i dataset estratti da fonti più tradizionali hanno un’estensione molto minore, e quindi un minor potere di rappresentazione.

Zagheni et al. [37] propongono uno studio dei flussi migratori utilizzando i dati estratti dal social network Twitter. Questa piattaforma permette di accedere ad un insieme di documenti geolocalizzati, i tweet, grazie ai quali si può tenere traccia degli spostamenti internazionali degli utenti. Gli autori analizzano un insieme composto da 500, 000 utenti attiviti tra il 2011 e il 2013. Attraverso il loro studio, Zagheni et al. provano che i social big data possono essere usati per predirre fluttuazioni e cambiamenti nei trend delle migrazioni e che, in particolare, i dati geolocalizzati estratti da Twitter posso migliorare la comprensione delle migrazioni sia ponendo l’attenzione su un determinato paese, e quindi studiandone i flussi interni, sia allargando l’analisi a livello internazionale.

Anche Moise et al. [20] fanno uso dei dati geolocalizzati messi a disposzione da Twitter, e sottolineano l’importanza che i big (social) data stanno avendo nel modificare la data

scien-ce come campo di studi. Nel loro studio, gli autori si propongo di assumere la nazionalità

(23)

loro lingua madre o quella parlata nel luogo in cui si trovano. L’analisi proposta viene svolta sull’1% dei tweet pubblicamente accessibili degli utenti attivi tra il 2013 e il 2014. Per ognu-no degli utenti recuperati in questo periodo gli autori, durante la fase iniziale dell’analisi, estraggono le informazioni relative alla lingua usata sulla piattaforma e alla posizone regi-strata da ciascun tweet. Con la loro analisi, gli autori stabiliscono che l’insieme degli utenti di Twitter è grandemente eterogeneo e riflette parzialmente la distribuzione delle lingue par-late in paesi con una panorama linguistico variegato come, per esempio, la Svizzera. Inoltre, cambiando il focus dell’analisi da temporale a spaziale, gli autori sono in grado di identificare i pattern delle migrazioni. Questo secondo obiettivo viene raggiunto tramite l’applicazione di metodologie di clustering density-based.

1.2.3

Migrazione scientifica

L’area di ricerca della quale si occupa questo lavoro di tesi è quella riguardante le migrazioni dei ricercatori e in generale del personale altamente specializzato, ossia la migrazione scien-tifica.Questo campo di studi rappresenta una categoria delle migrazioni umane e si concentra sullo studiare e analizzare i flussi migratori di ricercatori e accademici. La migrazione scien-tifica è un fenomeno verso il quale si è creato un grande interesse. Attraverso uno studio della migrazione scientifica è infatti possibile interpretare l’impatto dei flussi migratori del personale altamente specializzato sulla produzione scientifica e sull’istruzione in generale. Similmente alla migrazione umana, anche per le migrazioni scientifiche ci si pone lo stes-so problema fondamentale, ossia quali siano le caratterstiche che definiscono un migrante. Anche in questo caso la domanda riceve una serie di risposte più o meno permissive. Un esempio di definizione di migrante in questo contesto viene fornito da Weinar et al. [36], che definiscono i protagonisti delle migrazioni scientifiche come “migranti altamente specializ-zati”, ossia lavoratori stranieri che, possedendo una serie di caratteristiche particolari e molto specifiche, vengono classificati come meritevoli di un tipo di visto che rispecchi la loro alta formazione. Se in passato questo tipo di studi era reso difficile dalla scarsità di dati in gra-do di descrivere i fenomeni collegati allo spostamento del personale altamente specializzato, adesso la disponibilità di nuove fonti dal quale estrarre dati accademiciha reso questo tipo di ricerca più accessibile [22,25,30,31].

Il campo di studi delle migrazioni scientifiche può essere suddiviso in macroaree di ricerca. Ogni area si concentra sull’analizzare una particolare sfumatura del fenomeno collegato alle

(24)

migrazioni scientifiche. La prima area di ricerca studia gli spostamenti del personale alta-mente specializzato a livello di paese, o tra istituzioni universitarie. La seconda area di ricerca è concentrata sull’analisi dell’impatto che il trasferimento può avere sulla carriera scientifica di un ricercatore, in positivo e, ovviamente, in negativo. La terza e ultima area di ricerca si propone di sviluppare modelli per la predizione della prossima opportunità lavorativa al di fuori del mondo accademico. Di seguito descriviamo in dettaglio la letteratura relativa a queste tre macroaree di ricerca.

Spostamenti tra Paesi o Istituzioni Universitarie. Nella loro analisi, Moed et al. [19],

affrontano la tematica delle migrazioni istituzionali, ossia lo spostamento degli accademi-ci da un’istituzione verso un’altra per una selezione di paesi tra i quali Germania, Italia e Olanda. In particolare, viene indagato il grado di aiuto che può fornire Scopus, un database multi-disciplinare con focus sulla letteratura scientifica, nello studio della carriere dei ricer-catori. Gli autori definiscono un ricercatore come ”attivo” se tale ricercatore ha pubblicato almeno un paper durante uno specifico anno. Secondo la loro definizione, l’analisi proposta da Moed et al., stabilisce che i ricercatori attivi pubblicano regolarmente nelle riviste proces-sate da Scopus. Inoltre, gli autori hanno potuto classificare come ”giovani ricercatori” tutti coloro che hanno pubblicato un paper su una rivista processata da Scopus durante un parti-colare anno, ma che non hanno pubblicato nessun paper in nessuna delle riviste processate da Scopus prima del 1996. Sulla base dei risultati ottenuti, gli autori concludono che Scopus riporta accuratamente i legami tra autori e affiliazioni. In base a quest’ultima affermazione, concludono, il processo di profiling di ogni autore, ossia la conservazione dei dati relativi alle istituzioni ai quali un autore è affiliato durante tutto il suo storico di pubblicazioni, è svolto accuratamente.

Con il suo studio, Van Noorden [33] indaga alcune delle caratteristiche del mercato della ricerca mondiale. La sua ricerca è composta da un sondaggio svoltosi tra 2300 lettori della rivista Nature e da interviste ad esperti del settore. Attraverso di essa, l’autore si propone di indagare quali siano i trend nelle migrazioni scientifiche, che cosa faccia muovere i flussi migratori e in che modo essi possano cambiare nel tempo. Essendo la ricerca un vero e proprio mercato, Van Noorden sostiene che sia plausibile, anche se difficile da dimostrare, che i paesi con sistemi di ricerca altamente produttivi, come gli Stati Uniti o il Regno Unito, abbiano beneficiato dalle loro politiche di apertura verso gli scienziati stranieri. Il rovescio della medaglia consiste nella preoccupazione di alcuni paesi di perdere i loro ricercatori più

(25)

brillanti. Van Noorden infatti riporta che tra gli scienziati più citati tra il 1981 e il 2003, uno su otto è nato in un paese in via di sviluppo, ma l’80% di essi si è spostato in un paese più sviluppato. Il trend generale che sembra emergere dall’analisi è che i ricercatori tendono a migrare dove gli vengono garantiti i fondi necessari per la loro ricerca.

Lo studio di Appelt et al. [3] si concentra sull’analisi dei fattori che possono influenzare la mobilità dei ricercatori. Gli autori usano una metrica da loro sviluppata a partire dai cambi nelle affiliazioni registrati nelle pubblicazioni per stimare l’influenza sulla mobilità dei singo-li ricercatori. Gsingo-li scholarly data utisingo-lizzati consistono in un indice di pubbsingo-licazioni scientifiche rilasciate tra il 1996 e il 2011. Gli autori stabiliscono che fattori come uno stipedio adeguato, avanzamenti di carriera e opportunità di ricerca in instituzioni prestigiose e opportunamen-te finanziaopportunamen-te contribuiscono ad incrementare la mobilità del personale altamenopportunamen-te qualificato. Inoltre, sia il fenomeno della globalizzazione che le politiche di alcuni stati mirate all’attirare talenti della ricerca sono anch’essi fattori di incremento nella mobilità. Attraverso una serie di modelli di regressione (gravity model), Appelt et al. riportano che il panorama attuale non sia da considerarsi in un ottica del tipo brain drain/brain gain, nel quale, seguendo l’esempio del mercato della ricerca, ci sono paesi ”vincitori” e paesi ”vinti”. Per loro si deve parlare in termini di brain circulation. Infine, Appelt et al. dimostrano che la mobilità risulta esse-re statisticamente collegata a variabili di tipo politico, come i cambiamenti nelle condizioni economiche e di ricerca dei singoli paesi.

Impatto del traferimento. Nel loro articolo per Nature, Sugimoto et al. [32]

riporta-no dettagliatamente una serie di informazioni sulla mobilità degli scienziati e sull’influsso di quest’ultima sulle loro carriere. Vengono inoltre prese le conseguenze che eventi di tipo economico e politico potrebbero avere sull’isolamento della comunità scientifica. Come la maggioranza degli studiosi che si occupano di migrazioni scientifiche, anche gli autori ci tengono a sottolineare che è necessario sviluppare nuovi studi per definire quanto spesso i ricercatori migrino, per identificare le destinazioni prescelte, le reti da essi formate e, soprat-tutto, per quantificare l’impatto che il fenomeno della migrazione scientifica ha sulle loro carriere. Il dataset di Sugimoto et al. si compone di 14 milioni di paper estratti da più di 16 milioni di ricercatori che hanno pubblicato in un periodo che dal 2008 al 2015. In questo dataset, circa il 96% dei ricercatori ha un solo paese di affiliazione, mentre il appena il 4% rappresenta la componente mobile dei ricercatori. Similmente a quanto emerso in altri studi, anche Sugimoto et al. non parlano in termini di Brain Drain e Brain Gain, ma piuttosto in

(26)

termini di Brain Circulation. La maggior parte degli accademici analizzati ha infatti fatto ritorno al loro paese di origine (scientifica), ossia il paese nel quale hanno pubblicato il loro primo paper, costruendo una catena di affiliazioni che ha collegato tra loro le nazioni. Gli autori riportano che gli studiosi mobili nel periodo analizzato hanno riscontrato un aumento del 40% nel loro citation rate rispetto a coloro che non si sono mossi.

L’obiettivo dell’analisi di Deville [8] è indagare l’effetto che un cambio di affiliazione può avere sulla carriera di un ricercatore. Sfruttando la tendenza degli scienziati a pubblicare frequentemente, gli autori aggregano un dataset composto da 420, 000 paper. Dal momento che ogni articolo contiene le affiliazioni dei ricercatori coinvolti nella scrittura, Deville et al. ricostruiscono le traiettorie delle carriere dei ricercatori presenti nel dataset. Gli autori forni-scono inoltre delle informazioni riguardo al contesto nel quale la ricerca viene svolta. Viene evidenziato che la maggior parte delle istituzioni presenti nel dataset hanno dimensioni ridot-te, mentre quelle con dimensioni considerevoli sono generalmente università o simili tipi di istituzione. La stessa distribuzione viene osservata per il numero di citazioni per istituzione. Deville et al. riportano inoltre che la grandezza di un’istituzione è positivamente correlata con l’impatto delle pubblicazioni e con il numero di coautori per pubblicazione. I risulta-ti ottenurisulta-ti provano che una transizione da un’isrisulta-tituzione molto quotata verso un’isrisulta-tituzione poco quotata è da associarsi con una diminuzione modesta delle performance di un singolo ri-cercatore. Contrariamente a quanto si potrebbe pensare, una transizione verso un’istituzione molto quotata non è associabile con un aumento delle performance.

Modelli di job recommendation. NEMO, il modello basato su LSTM sviluppato da Li

et al. [16], si propone di predire il prossimo evento nella vita lavorativa di un impiegato in termini di prossima posizione lavorativa e prossima azienda nel quale tale posizione verrà ricoperta. Le basi per uno studio del genere vengono dalla crescente globalizzazione e mobi-lità dell’industria del lavoro, che sempre più spesso viene considerata come un vero e proprio mercato erogante e richiedente specifici servizi. Aiutati dalla mole considerevole, in termi-ni di dati utilizzabili, delle risorse dispotermi-nibili per tenere traccia su larga scala dei flussi del mercato del lavoro, gli autori hanno sviluppato un modello in grande di sorpassare le perfor-mance dello stato dell’arte per mezzo di embeddings contenenti le informazioni relative alla carriera di un generico utente u fino ad un determinato instante temporale.

Paparrizos et al. [24] propongo un modello in grado di consigliare la prossima occupazione agli utenti in cerca di lavoro attraverso l’analisi delle passate esperienze lavorative.

(27)

Consi-derando la storia lavorativa passata di ogni utente, gli autori si propongono di facilitare il più possibile la transizione da un lavoro ad un altro. Il problema del trovare la prossima istitu-zione nella quale lavorare viene considerato dagli autori come un problema supervisionato di

machine learning. I cambiamenti nelle attività lavorative degli utenti, similmente a quanto

fatto in altri studi, vengono considerati come transizioni. L’inferenza svolta su queste transi-zioni permette la raccomandazione della prossima istituzione nella quale lavorare. Il dataset aggregato per lo sviluppo ed il test del modello si compone di 5 milioni di transizioni, alle quali si aggiungono meta-dati sugli utenti e sulle istituzioni.

1.2.4

Reti sociali e migrazione scientifica

Nelle sezioni precedenti abbiamo descritto l’area di ricerca sviluppatasi attorno alle migrazio-ni scientifiche e le macroaree che la compongono. Descriviamo adesso alcune ricerce affimigrazio-ni a questo lavoro di tesi come tematica e come metologia proposta nell’analisi. Infine, inseria-mo questa tesi nel contesto tipico del campo di studi riguardante le migrazioni scientifiche ed evidenziamo eventuali punti di contatto e di discordanza con gli studi proposti finora. Nel lavoro proposto da James et al. [15], gli autori propongo un modello per stabilire l’in-fluenza che l’ego network di uno scienziato può avere sulla sua decisione di migrare nell’anno seguente. Il dataset utilizzato consiste in delle pubblicazioni dall’American Physical Society nell’intervallo di tempo che va dal 1950 al 2009. Da questi 360, 000 articoli vengono estratti 60, 000 scienziati e 3, 500 istituzioni. Gli autori per prima cosa predicono, tramite tecniche di data mining, quali saranno tra i ricercatori dell’APS quelli che decideranno di migrare, ossia cambiare istituzione, nel prossimo anno. Le caratteristiche di uno scienziato che ven-gono considerate per la predizione riguardano la sua recente carriera accademica, la qualità del suo ambiente di lavoro e la sua ego network. Successivamente, avendo predetto i ricer-catori che migreranno, gli autori effettuano una predizione sulle istituzioni verso le quali gli scienziati si sposteranno. Il risultato fondamentale ottenuto da James et al. è che la tendenza di uno scienziato a collaborare con scienziati di istituzioni estere è fortemente correlata alla loro decisione di migrare.

La ricerca di Arnaboldi et al. [4] ruota attorno alle proprietà strutturali di una (grande) serie di ego network di co-autori estratta da Google Scholar. Come in questo lavoro di tesi, anche gli autori considerano l’ego network di un autore come la rete formata collegando l’autore con tutti i suoi co-autori. Gli autori, inoltre, pesano ogni arco con una misura della forza della

(28)

collaborazione tra i due accademici. Arnaboldi et al. si pongono come obiettivo di capire se le stesse strutture che si possono trovare all’interno delle ego network umane sono presenti anche nelle ego network di co-autori. Dal momento che le strutture delle ego network umane sono soggette a vincoli che limitano il numero e l’intensità delle relazioni sociali che una persona può mantenere, gli autori avanzano l’ipotesi che tali vincoli si riflettano anche nelle reti di co-autori. Analizzando 313, 207 ego network estratte da Google Scholar, gli autori dimostrano che nelle reti di co-autori è presente la stressa struttura gerarchica che è possibile trovare nelle ego network umane. Questo risultato suggerisce che gli stessi vincoli imposti sulle relazioni sociali umane potrebbero avere un ruolo non trascurabile anche nelle relazioni di collaborazione scientifica, e sulla produttività dei singoli ricercatori.

Le ricerche di Abbasi et al. [1, 2] e Newman [23] si concentrano sullo studiare le struttu-re interne delle struttu-reti di collaborazioni scientifiche, con la prospettiva sul punto di vista delle ego network. Abbasi et al. [1] sviluppano un modello che, sfruttano metodologie di SNA come le varie misure di centralità all’interno di una rete, esplora le ego network di ricerca-tori. Lo scopo degli autori è quello di esaminare l’effetto delle reti sociali sulle performance degli accademici in una data disciplina. Dai risultati ottenuti, Abbasi et al. dichiarano che le performance nell’ambito della ricerca degli accademici sono positivamente correlate con le misure di centralità da loro utilizzate. In particolare, notano, la degree centrality ha una sensibile influenza positiva sul numero di pubblicazioni di ogni accademico. In [2], gli au-tori propongono un’analisi simile all’articolo precedentemente citato, concentrandosi questa volta sulla quantità in cui le proprietà delle ego network dei ricercatori influenzano le loro performance. Abbasi et al. aggregano un dataset estratto da Scopus di pubblicazioni uscite tra il 2000 e il 2009, contenente 4837 pubblicazioni e 8069 autori. I loro risultati, affermano, dimostrano che le performance degli accademici sono strettamente correlate con le caratteri-stiche delle loro ego network. In particolare dichiarano che, similmente a quanto riscontrato in [1], la degree centrality risulta una metrica capace di influenzare grandemente le perfor-mance nell’ambito della ricerca di un accademico. Newman [23] fa uso delle ego network per indagare i pattern delle collaborazioni scientifiche. In particolare, con quante persone collabora un ricercatore, qual è la distanza tipica tra due scienziati all’interno di una rete e come i pattern delle collaborazioni variano nel tempo.

I lavori descritti forniscono degli esempi di analisi in cui le ego network, le reti di co-autori e la migrazioni scientifica si intrecciano. Questa tesi fa un uso simile degli argomenti esposti

(29)

precedentemente e, riferendosi alle tre macroaree in cui può essere suddiviso il campo di stu-di relativo alle migrazioni scientifiche, si pone in una posizione centrale rispetto alle prime due. Viene infatti proposto uno studio della mobilità del personale altamente qualificato sia a livello di paesi che di istituzioni, e vengono evidenziate le conseguenze che gli eventi eco-nomici, politici e sociali hanno sulle reti di collaborazioni che i ricercatori hanno la tendenza a formare. Rispetto alla terza macroarea, quella relativa ai modelli di job recommendation, non ci sono punti di contatto.

Il time range indagato da questa tesi risulta essere più ampio rispetto agli studi proposti. La nostra analisi viene infatti svolta tra il 1980 e il 2019, mentre gli studi descritti nelle sezioni precedenti tendono a concentrarsi nel periodo che va dagli anni90 fino alla seconda decade degli anni 2000, ipotizziamo per l’abbondanza di dati che caratterizza questa finestra tempo-rale. Come in [19] e in [33], si indagano le migrazioni tra istituzioni dei singoli ricercatori, oltre che tra i paesi. Viene inoltre studiata l’evoluzione nella finestra temporale analizza-ta delle tendenze alla mobilità e alla collaborazione. Tramite l’inserimento di informazioni supplementari a quelle ottenute da MAKG, che in questa tesi viene usato al posto di Sco-pus, vengono inoltre descritti i cambiamenti nei campi di studio più rappresentati a livello mondiale. Come in [3] (e [32]) si tiene conto dei fattori che possono influenzare la mobilità, anche in questa tesi rappresentati da eventi di carattere economico, politico e sociale. Infine, come in [8] e [32], viene fatta particolare attenzione ai cambi di affiliazione nella vita profes-sionale di un ricercatore, portando il focus dell’analisi principalmente su questa categoria di accademici, che, come evidenziato dagli studi trattati precedentemente, risulta essere la più interessante.

(30)

Capitolo 2

Analisi e Risultati

In questo secondo capitolo daremo una descrizione dei dati, prelevati dal Microsoft Academic Knownledge Graph, che abbiamo usato per costruire l’insieme di reti alla base della nostra analisi. Successivamente verrà illustrata la procedura con la quale abbiamo costruito le no-stri reti, e verrà inoltre fornita un’analisi preliminare per mostrare alcune delle caratteristiche generali del nostro dataset. Verrà, inoltre, introdotta la metrica da noi ideata per separare i ricercatori del nostro dataset in base al loro grado annuale di internazionalità delle collabo-razioni, ossia lo yearly degree of collaborations’ internationality (YDCI). Successivamente, viene esposta la procedura che ha permesso la separazione in gruppi distinti degli accademici con specifiche tendenze riguardo alle collaborazioni alla scrittura di un paper. Tale separa-zione verrà poi estesa su scala globale, evidenziando le tendenze in fatto di collaborazioni accademiche dei vari paesi. Oltre alle informazioni fornite finora, verranno aggiunte anche quelle relative alle aree di ricerca caratteristiche di ogni ricercatore, e il modo in cui esse si legano e vengono influenzate dallo YDCI. Infine, presenteremo uno studio sulla mobilità in entrata e in uscita dei paesi attestati nel nostro dataset, e descriveremo inoltre le metriche da noi usate per stimare il valore di mobilità di un determinato paese e il suo bilancio tra mobilità in entrata e mobilità in uscita.

2.1

I Dati

In Tabella 2.1 possiamo osservare una descrizione sintetica dei dati da noi utilizzati per otte-nere il dataset utilizzato in questo lavoro di tesi. Nella prima colonna sono rappresentate le

(31)

Entità Dati Disponibili File Compresso Affiliations 25, 431 1MB Authors 253, 641, 783 6GB Citations 146, 257, 535 14GB Conference Instances 15, 704 1MB Conference Series 4, 337 1MB Fields of Study 229, 716 8MB Journals 48, 650 2MB References 1, 380, 196, 397 8GB Papers 209, 792, 741 18GB

Tabella 2.1: Entità che compongono il Microsoft Academic Knowledge Graph entità che compongono il Microsoft Academic Knowledge Graph, nella seconda colonna tro-viamo la magnitudine in termini di quantità di dati disponibili per ogni entità e, infine, nella terza colonna troviamo una stima della grandezza del file compresso di ogni entità. Com-plessivamente il Microsoft Academic Knowledge Graph occupa 1.2 terabyte di memoria. Andiamo adesso a descrivere le entità che compongono il MAKG, mantenendo l’attenzione sui campi di ognuna di esse rilevanti per questo lavoro di tesi.

Affiliations. Contiene i dati relativi alle istituzioni alle quali possono essere affiliati i

ricer-catori. Dei campi disponibili per le istituzioni di affiliazione, in questa tesi sono stati utilizzati principalmente quelli relativi all’identificativo univoco assegnato da MAGK ad ogni istitu-zione, AffiliationId, e gli indirizzi alla pagina ufficiale e alla pagina di Wikipedia di ogni affiliazione, ossia OfficialPage e WikiPage. In particolare, analizzando OfficialPage e Wiki-Page è stato possibile geolocalizzare ogni istituzione, e quindi ricavare lo stato in cui essa si trova.

Authors. Contiene i dati relativi agli autori dei paper. Come per le affiliazioni, anche per gli

autori MAKG mette a disposizione un identificativo univoco. Ogni autore possiede diversi campi come, per esempio, il nome normalizzato, il numero di paper da lui scritti o il numero di volte che è stato citato, ma, in questa tesi, abbiamo utilizzato principalmente l’identificativo univoco AuthorId, in modo da avere un riferimento stabile e unico per ogni accademico.

Citations. Contiene i dati relativi alle citazioni di articoli all’interno dei paper. Ogni

(32)

PaperId. Per questa tesi non sono stati utilizzati dai relativi alle citazioni.

Conference Instances e Conference Series. Contengono i dati relativi alle serie di

confe-renze nel quale sono contenuti i paper. Tra i campi presenti abbiamo, per esempio, il nome della serie di conferenze, la geolocalizzazione della conferenza, il numero di paper presen-tati, il numero di citazioni, il link alla pagina della conferenza e, soprattutto, i paper che la compongono. Per questa tesi non sono stati utilizzati dati relativi alle conferenze.

Fields of Study. Contiene le informazioni relative alle aree di ricerca trattate da un

deter-minato paper. Sono disponibili campi come l’identificativo univoco generato da MAGK per l’area di ricerca, il numero di volte che l’area di ricerca compare negli articoli e il suo nome normalizzato. Ai fini di questa tesi sono stati usati i nomi normalizzati, rappresentati dal campo NormalizedName.

Journals. Contiene i dati relativi alle riviste nel quale sono contenuti i paper. MAGK

assegna un identificativo univoco anche ai juornals. I campi a disposizione forniscono in-formazioni come il nome della rivista, da chi è pubblicata, il numero di paper che contiene e il link di riferimento tramite il quale possiamo accedere alla rivista. Per questa tesi non sono stati utilizzati dati relativi alle riviste.

References. Contiene i dati relativi alle citazioni dei paper. Per ogni citazione trovata

al-l’interno di un articolo, fornisce l’identificativo univoco dell’articolo citato. Per questa tesi non sono stati usati dati relativi alle citazioni.

Papers. Contiene i dati relativi agli articoli. Per ogni paper sono fornite informazioni come

l’anno di pubblicazione, gli autori che hanno partecipato alla sua scrittura, le istituzioni alle quali gli autori sono affiliati, gli articoli che vengono citati nel paper e le aree di ricerca alle quali il paper può essere ricondotto. Di particolare interesse per questa tesi è stato il collega-mento tra autori e affiliazioni. In questo modo, analizzando i collegamenti, è stato possibile estrarre gli autori di ogni paper e, per ogni paper, l’identificativo univoco dell’istituzione al quale il ricercatore risultava affiliato per l’anno in cui il paper è stato pubblicato.

2.2

Network di Collaborazioni

L’area di ricerca nel quale questo lavoro di tesi si colloca è quella delle migrazioni scientifi-che. L’analisi, che rappresenta la parte centrale e più importante della tesi, è stata condotta su un dataset composto da dati accademici estratti dal Microsoft Academic Knowledge Graph.

(33)

Le componenti del MAGK utilizzate in questa tesi sono descritte in Sezione 2.1. Di seguito riportiamo la procedura seguita per assemblare la serie di reti di collaborazioni sulle quali viene svolta l’analisi.

1. Come riportato in Sezione 2.1, le informazioni contenute in Papers relative agli autori di ciascun articolo e le loro istituzioni di affiliazione sono state di fondamentale im-portanza per questa tesi. Per ogni articolo contenuto in Papers, sono stati estratti gli identificativi relativi agli autori coinvolti e alle loro istituzioni di affiliazione. Inol-tre, sono stati estratte anche le informazioni relative alle aree di ricerca al quale ogni paper può essere ricondotto, dal momento che anche queste informazioni verrano usa-te ai fini dell’analisi. Sono stati considerati i paper pubblicati dal 1980 al 2019, e, di conseguenza, gli autori e le istituzioni a essi collegati.

2. Per ognuna delle istituzioni per le quali abbiamo recuperato l’identificativo univoco abbiamo ricavato il paese di appartenenza. La geolocalizzazione è avvenuta attraver-so l’analisi della pagina ufficiale e della pagina di Wikipedia di ciascuna istituzione, che sono ottenibili attraverso l’identificativo assegnato da MAGK a ciascuna istitu-zione. La correttezza di questa procedura è molto importante ai fini dell’analisi. In-fatti, recuperando correttamente il paese di appartenenza di ogni istituzione, possiamo contestualizzare su scala globale ognuno dei ricercatori contenuti nel nostro dataset. 3. Ad ogni autore recuperato sono stati assegnati, oltre al suo identificativo univoco

for-nito da MAGK, il paese relativo alla sua istituzione di affiliazione e le aree di ricerca delle quali si è occupato per ognuno degli anni presenti nella finestra temporale ana-lizzata. Il prendere in considerazione anche le aree di ricerca di ciascun accademico durante la nostra analisi ci ha permesso di evidenziare i campi di studio più importanti per ciascun paese.

4. Dal punto di vista delle reti, ogni autore, con tutte le informazioni recuperate prece-dentemente, è stato considerato come un nodo. Tutti gli autori che hanno collaborato alla scrittura di un articolo durante l’arco temporale da noi analizzato sono stati uniti da un arco. L’insieme delle reti, divise per anno, ottenute in questo modo è andato a comporre il dataset sul quale abbiamo sviluppato l’analisi.

(34)

2.3

Metodologia

Andiamo adesso a definire quello che è il blocco centrale di questa tesi, ossia l’analisi del dataset composto da dati accademici rappresentante le collaborazioni alla scrittura di un pa-per di ricercatori attivi, su scala mondiale, tra il 1980 e il 2019. Cominceremo fornendo una descrizione del dataset ottenuto attraverso la procedura descritta in Sezione 2.2. Successiva-mente, daremo la definizione di una metrica da noi ideata con lo scopo di stimare il grado annuale di internazionalità nelle collaborazioni degli accamedici. Sfruttando questa metrica, definiremo la procedura con la quale abbiamo partizionato il dataset in gruppi dalle caratte-ristiche distinte, e descriveremo come abbiamo esteso il partizionamento su scala globale. Il grado annuale di internazionalità nelle collaborazioni verrà controllato in corrispondenza di una serie di eventi politici ed economici da noi selezionati, in modo da osservare in che modo reagisca la comunità accademica al presentarsi di questo tipo di circostanze. Infine, l’anali-si continuerà con l’aggiunta di approfondimenti relativi alle aree di ricerca caratterstiche di ciascun ricercatore e al suo fattore di mobilità.

2.3.1

Analisi Preliminare

Il nostro dataset si compone di circa 9 milioni di ricercatori attivi tra il 1980 e il 2019, estremi inclusi. Per ogni anno presente nel time range analizzato, un ricercatore che abbia pubblicato almeno un articolo è stato considerato “attivo”, similmente a quanto proposto da Moed et al. in [19]. I ricercatori attivi sono poi stati aggregati in delle reti di collaborazioni, come descritto in Sezione 2.2. Rimanendo coerenti con la terminologia introdotta in Sezione 1.1.1, definiamo il nostro dataset come l’insieme

G = {G1980, G1981, . . . , G2019} =

={(N1980, E1980), (N1981, E1981), . . . , (N2019, E2019)} ,

(2.1) contenente 40 elementi, ognuno dei quali rappresenta un network di collaborazioni per uno specifico anno. Ogni network Gxè composto da un insieme Nxrappresentante l’insieme dei

nodi, ossia dei ricercatori attivi nell’anno x, e da un insieme Exrappresentante l’insieme degli

archi che uniscono i nodi presenti in Nx, che nel contesto di questa tesi sono rappresentati

dalle relazioni di collaborazione alla scrittura di un paper. I network contenuti inG sono tutti di tipo indiretto, dal momento che la relazione studiata in questa tesi non ha un orientamento particolare.

(35)

1980 1990 2000 2010 Year 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Number of Nodes

1e6 Number of Nodes per Year

1980 1990 2000 2010 Year 0 1 2 3 4 Number of Edges

1e7 Number of Edges per Year

(a) 1980 1990 2000 2010 Year 1 2 3 4 5 Density

1e 5 Networks' Density per Year

(b)

Figura 2.1: Variazioni nel numero di nodi, nel numero di archi e nella densità di ogni network all’interno della finestra temporale analizzata.

In Figura 2.1 possiamo osservare la variazione lungo tutta la finestra temporale di tre qualità fondamentali di ogni network, ossia il numero di nodi e il numero di archi (Figura 2.1a), e la densità (Figura 2.1b). È necessario fare attenzione ad un tratto presente in tutte le visua-lizzazioni di Figura 2.1. Per quanto riguarda l’anno 2019 viene registrato un comportamento

Riferimenti

Documenti correlati

L’immigrazione, sia da altre regioni d’Italia sia da altri paesi, contribuisce a colmare queste posizioni vacanti: il 45 per cento delle persone arrivate in Alto Adige lavora

PREVISIONE DI SPESA: PIANO FINANZIARIO LOCALE PER GLI ANNI DELLA DURATA DEL PROGETTO In ML ANNI FINANZIARI.. Osservazioni del Direttore della Struttura in merito alla disponibilità

Sulla scia degli eventi proposti nell’ambito del progetto NET, si propone un trekking scientifico lungo il percorso ciclopedonale ‘maremonti’, alla scoperta della nascita

Metodo semplice: si seleziona a priori una delle cinque discipline e si ricopia la classifica di quella.. Non

□ dichiarazione sostitutiva di atto di notorietà riguardo allo svolgimento di incarichi o alla titolarità di cariche in enti di diritto privato regolati o finanziati dalla

Dal suo canto la Commissione Europea, nella sua Comunicazione "I Ricercatori nello Spazio Europeo della Ricerca" (luglio 2003), ha dettato le linee per

I datori di lavoro e/o i finanziatori dovrebbero elaborare, preferibilmente nell'ambito della loro gestione delle risorse umane, un’apposita strategia di sviluppo professionale per

Presso la sede prescelta sarà presente un desk informativo per la consegna del materiale dell'evento e le indicazioni pratiche per raggiungere il laboratorio. Si invita ciascuna