• Non ci sono risultati.

Arpus: progettazione e sviluppo di una piattaforma per le analisi bibliometriche dell'Università di Pisa

N/A
N/A
Protected

Academic year: 2021

Condividi "Arpus: progettazione e sviluppo di una piattaforma per le analisi bibliometriche dell'Università di Pisa"

Copied!
91
0
0

Testo completo

(1)

Corso di Laurea Magistrale in Informatica Umanistica

TESI DI LAUREA MAGISTRALE

Arpus: progettazione e sviluppo di una piattaforma

per le analisi bibliometriche dell'Università di Pisa

Candidato Relatore

Laura Turriani

Prof. Paolo Milazzo

Supervisore

Dott.ssa Alessandra La Spina

(2)
(3)

Indice Generale

Introduzione ... 1

1. Panoramica e background ... 5

1.1 Le principali banche dati ... 6

1.2 Metodi di valutazione della produttività scientifica ... 10

1.3 Utilizzo dei dati ... 15

1.3.1 Avanzamento di carriera e valutazione della ricerca ... 15

1.3.2 Ranking internazionali ... 18

2. Stato dell’Arte ... 21

2.1 Publish or Perish ... 21

2.2 Università del Minnesota - The Manifold Project... 22

2.3 Sistema “UniBas” ... 24

3. Progettazione e sviluppo di Arpus ... 25

3.1 Struttura del progetto e funzionalità ... 27

3.1.1 Vista per l’utente generico ... 28

3.1.2 Vista per l’utente amministratore ... 31

3.2 API e Librerie utilizzate nel progetto... 37

3.2.1 Scopus API ... 37

3.2.2 Altre librerie ... 40

3.3 Progettazione e struttura del database Arpus ... 41

3.3.1 Progettazione dello schema concettuale ... 41

3.3.2 Fase di ristrutturazione ... 43

3.5 Struttura del Software ... 52

4. Utilizzo del Software ... 65

4.1 Schema di importazione dei dati ... 65

4.2 Esportazione dati ... 67

(4)

4.4 Consenso al trattamento dei dati ... 69

4.5 Soglie e indicatori ASN ... 70

5. Tutela della privacy ... 73

5.1 GDPR 2018: Panoramica ... 73

5.2 Condizioni per il consenso ... 75

5.4 Informazione ... 78

5.5 Arpus e Normativa sulla Privacy ... 78

6. Possibili miglioramenti e conclusioni... 81

(5)

Introduzione

Negli ultimi 20 anni hanno iniziato a diffondersi sempre di più banche dati online contenenti le pubblicazioni di docenti e ricercatori. Assieme ad esse sono stati messi a punto metodi di valutazione della produzione scientifica di Atenei, singoli dipartimenti e individui, basati sulla bibliometria.

Le due banche dati online più utilizzate per valutazioni di tipo bibliometrico sono

Scopus [3] e WebOfScience [6].

ARPI [10], l'Archivio della Ricerca dell'Università di Pisa, è costruito attraverso

l'inserimento dei dati da parte dei docenti e viene usato per molte valutazioni ufficiali a livello nazionale.

L’ANVUR [2], ovvero l’ente che si occupa della valutazione della qualità della ricerca per conto del MIUR (Ministero dell'Istruzione Ministero dell'Università e della Ricerca), utilizza parametri bibliometrici per definire quali sono le eccellenze tra i dipartimenti delle Università statali italiane.

In base alle graduatorie create vengono partizionati fondi al fine di incentivare l’attività

dei Dipartimenti delle università statali che si caratterizzano per l’eccellenza nella qualità della ricerca e nella progettualità scientifica, organizzativa e didattica, nonché con riferimento alle finalità di ricerca di «Industria 4.0».

I dati impiegati dall’ANVUR per le attività di valutazione sono quelli prelevati da

ARPI, per questo motivo è importante mantenere aggiornato e caricare periodicamente

le pubblicazioni all’interno dell’archivio.

L'Università di Pisa si colloca in posizioni di vertice nelle più prestigiose classifiche internazionali, quali: Quacquarelli-Symonds, Times Higher Education, Academic Ranking of World Universities, ecc. [23, 24, 25], che comprendono la valutazione della

perfomance accademica.

Monitorare la produzione scientifica e aumentare il proprio prestigio, è quindi essenziale per l’Università di Pisa.

(6)

Lo scopo del progetto è quello di creare un software d’analisi utilizzabile dall’Ateneo che:

• aiuti a mantenere aggiornato ARPI, allineando le pubblicazioni con quelle di

Scopus, segnalando incongruenze tra i due archivi;

• fornisca tutte le informazioni necessarie per velocizzare la registrazione delle pubblicazioni su ARPI.

La piattaforma deve permettere di ottenere ed esportare dati aggregati su dipartimenti, settori, tipologie di docenti, indicatori e tutte le informazioni utili e necessarie per concorsi, report e ranking.

L’analisi e la visualizzazione dei propri dati e delle metriche di impatto è fondamentale per ciascun docente, visto l’ampio utilizzo di queste ultime per concorsi e candidature per l’avanzamento di carriera e opportunità lavorative.

Navigare nel mare delle banche dati Scopus e ARPI non è però semplice.

Per questo motivo è importante, per coloro che lavorano all’interno dell’Ateneo, poter usufruire di uno strumento di analisi dei dati Scopus – ARPI, che velocizzi, automatizzi e permetta facilmente di condurre studi e analisi sull’andamento professionale dei docenti e dei ricercatori dell’Università di Pisa.

La piattaforma, chiamata Arpus, proprio per la fusione dei nomi delle due principali banche dati online utilizzate, permetterà inoltre di:

• monitorare l’andamento della produzione scientifica dell’Ateneo;

• agevolare la raccolta dei dati relativi alla produzione scientifica di ogni docente: illustrarli, trattarli ed elaborarli;

• rendere più veloci le procedure di gestione, che spesso amministrazione e docenti dell’ateneo devono svolgere, ma che richiedono più tempo del

(7)

dovuto a causa dell’utilizzo di numerose applicazioni o perché devono essere fatte ‘manualmente’ su dati grezzi.

L’area personale di ciascun docente all’interno di Arpus contiene le seguenti informazioni: indicatori ASN [15,16] (calcolati per commissari, prima fascia, seconda fascia e su tutta la carriera), settore di insegnamento, codice di insegnamento, numero di pubblicazioni su riviste classificate come “Q1”.

È possibile visualizzare grafici sull’andamento e tipologia delle pubblicazioni, l’intero elenco di queste ultime e i relativi dati quali: issn, data di pubblicazione, titolo, co-autori, identificativo della pubblicazione (eid), link alla pagina ARPI della pubblicazione e categorie di Scimago [22,31]. Si può inoltre filtrare l’elenco delle pubblicazioni, esportarlo in vari formati e stamparlo.

È presente inoltre una semplice funzione di ricerca all’interno del database della produzione scientifica, che permette di cercare i principali dati che riguardano le pubblicazioni.

Gli indicatori ASN, con le relative soglie, vengono calcolati, inseriti in un database e visualizzati in maniera tale che ciascun docente o ricercatore, appartenente a un settore bibliometrico, possa vedere tramite un indicatore rosso o verde, se ha superato le relative soglie e se quindi può accedere ai concorsi per commissari, prima e seconda fascia.

Il software permette inoltre di poter fare un confronto tra i propri indicatori ASN calcolati in base alle pubblicazioni che si trovano su Scopus con quelli calcolati con

ARPI. La visualizzazione di eventuali discordanze può incentivare i docenti ad

aggiornare costantemente i dati inseriti su ARPI, che vengono utilizzati dal MIUR, per l’accesso ai concorsi universitari.

Se il docente non mantiene aggiornato l’elenco delle pubblicazioni su ARPI, potrebbe trovarsi con degli indicatori con valori inferiori rispetto a quelli che vengono calcolati attraverso Scopus.

(8)

Il software di analisi è stato sviluppato principalmente in PHP e utilizza i dati ricavati da Scopus, ARPI e dallo Scimagojr.

Per realizzare l’applicazione sono state utilizzate le API [1] di Scopus, mediante una chiave univoca rilasciata all’Università di Pisa.

Tutti questi aspetti devono essere sviluppati in Arpus tenendo conto della normativa sulla privacy (GDPR 2018) [35, 36], che regolamenta il trattamento e la protezione dei dati. Le pagine della piattaforma infatti, non devono contenere informazioni che possano rendere riconoscibili docenti che non hanno acconsentito al trattamento dei propri dati.

Sono state quindi realizzate diverse “viste” della piattaforma, con funzionalità fruibili solo dagli amministratori.

La tesi verrà strutturata secondo il seguente modello:

• Nel primo capitolo verranno analizzate le principali banche dati online, che raccolgono le pubblicazioni di tutto il mondo e quali sono i motivi per cui tali dati, vengono utilizzati per la valutazione di università, dipartimenti, settori e singoli docenti.

• Nel secondo capitolo verrà analizzato lo stato dell’arte, quindi i progetti simili già in uso da tempo e le loro principali funzionalità.

• Nel terzo capitolo verrà fatta una panoramica sulle caratteristiche principali, la struttura e l’architettura del software Arpus, andando ad analizzare le principali

API e librerie utilizzate e la struttura del database.

• Nel quarto capitolo verranno mostrate le funzioni principali della piattaforma e come dovranno essere utilizzate.

• Nel quinto capitolo verranno illustrate le principali problematiche relative alla privacy e le procedure messe in atto per la messa in regola del software.

• Nel sesto capitolo saranno elencati i possibili miglioramenti, gli ulteriori sviluppi per Arpus e le conclusioni.

(9)

1. Panoramica e background

Da ormai oltre un ventennio tutti gli aspetti del mondo universitario si ritrovano ad essere oggetto di valutazione, attraverso diversi metodi e procedimenti.

Negli ultimi anni la valutazione della ricerca e l’individuazione di criteri che permettessero di misurare in maniera oggettiva, quantitativamente e qualitativamente, la produzione scientifica di istituzioni, docenti e ricercatori, sono state oggetto di studi e ricerche.

L’Agenzia Nazionale di Valutazione del sistema Universitario e della Ricerca (ANVUR) [2], istituita nel 2006, si impegna a controllare e analizzare lo stato in cui si trovano i vari sistemi universitari.

Lo scopo dell’ANVUR è quello di: valutare la qualità dei prodotti della ricerca e la

capacità di attrarre finanziamenti esterni e di stimolare collaborazioni tra ricercatori,

definire i metodi e criteri di valutazione e di redigere ogni due anni un rapporto sullo stato della ricerca.

L’ottenimento di finanziamenti pubblici, da parte di università ed enti di ricerca dipende dalla valutazione dell’ente.

L’ANVUR, come i diversi sistemi che si occupano di valutare e analizzare la produzione scientifica di docenti e ricercatori, attinge dalle principali banche dati bibliografiche. Queste forniscono informazioni dettagliate, che aiutano a misurare il valore di impatto di ogni singola pubblicazione scientifica, di un ricercatore, un dipartimento o di un ateneo.

I risultati delle valutazioni possono inoltre fornire informazioni sull’area geografica della produzione scientifica presa in analisi e sull’impatto che essa ha avuto nella comunità scientifica.

Spesso le banche dati, a causa degli elevati costi di mantenimento, sono consultabili solamente tramite pagamento.

(10)

Le principali banche dati online permettono inoltre di raccogliere materiale specialistico per approfondire ricerche e garantiscono l’accuratezza delle informazioni ottenute. Verranno elencate e illustrate qui di seguito alcune delle più importanti banche dati, utilizzate per la valutazione tramite indici bibliometrici della ricerca.

1.1 Le principali banche dati

SCOPUS [3]

Scopus è una banca dati bibliografica multidisciplinare, aggiornata quotidianamente e

contenente la produzione scientifica di docenti e ricercatori di tutto il mondo.

Lo strumento, prodotto nel 2004 da Elsevier [4], raccoglie abstract, citazioni di letteratura peer review, fonti web e molto altro; mette a disposizione dell’utente strumenti per monitorare, analizzare e visualizzare la ricerca e per la valutazione degli autori (citazioni, h-index, documenti, ecc.).

Scopus permette di registrare e configurare un profilo personale, attivare notifiche via

e-mail per ricevere aggiornamenti su autori di interesse e pubblicazioni. Le principali funzioni di Scopus sono quindi:

• Ricerca bibliografica;

• Ricerca di un autore;

• Analisi bibliometrica.

È possibile cercare liberamente su Scopus.com un qualsiasi autore avente almeno un articolo indicizzato, visualizzando vari dati relativi alle sue pubblicazioni.

Scopus viene utilizzato dall’ANVUR (Agenzia Nazionale di Valutazione del Sistema Universitario e della Ricerca), per la valutazione della produzione scientifica dei ricercatori.

(11)

Attingono al database Scopus numerosi enti e istituzioni che si occupano di ranking e valutazione delle principali Università a livello mondiale, come ad esempio

Quacquarelli-Symonds, Times Higher Education, Academic Ranking of World Universities [22, 23, 24].

SCIVAL [5]

Piattaforma di ricerca prodotta da Elsevier, a cui è possibile accedere con le stesse credenziali di Scopus.

Permette di:

• avere una visione panoramica sui risultati di ricerca, che è possibile filtrare per Istituzione, paese, settore disciplinare, con possibilità di esportare report e grafici.

Confrontare i risultati di ricerca (benchmarking) allo scopo di valutare istituzioni, paesi, gruppi di ricerca o singoli ricercatori, monitorando l’evoluzione nel tempo.

• Individuare partner di ricerca internazionali o a livello di Ateneo, attraverso le pubblicazioni e l’impatto citazionale dei risultati di ricerca.

• Individuare i trend in ascesa e in declino nelle varie aree di ricerca, gli autori più attivi, i migliori collaboratori e autori.

WEB OF SCIENCE [6]

Web of Science è una piattaforma online multidisciplinare, gestita da Clarivate Analytics, che si occupa dell’indicizzazione di citazioni scientifiche; lo strumento è

utilizzabile tramite abbonamento online.

Attraverso due moduli, Journal Citation Report (JCR) ed Essential Science Indicators

(ESI), permette di svolgere ricerche bibliografiche tematiche e ricerche per analisi

(12)

Web of Science, come Scopus, è una delle piattaforme utilizzate dall’ANVUR per la raccolta dei dati relativi alle citazioni, per la valutazione della produzione scientifica.

GOOGLE SCHOLAR [7]

Google Scholar è un motore di ricerca accessibile da chiunque, che permettere di

attingere a libri, abstract, recensioni, articoli, documenti e testi di case editrici accademiche e che funziona attraverso la ricerca per parole chiave.

Il motore permette di individuare il documento completo che si sta cercando sia in biblioteca che sul web.

PUBMED [8]

Banca dati utilizzabile gratuitamente da giugno 2007, che raccoglie la letteratura scientifica biomedica a partire dal 1949.

Sviluppata dal National Center for Biotechnology Information (NCBI) e dalla National

Library of Medicine (NLM), insieme agli editori di riviste biomediche; raccoglie e

interroga i dati di diversi archivi, tra cui MEDLINE, prodotto dalla National Library of

Medicine.

DBLP [9]

Piattaforma web che raccoglie riferimenti ad articoli di ricerca informatica. Creato nel 1993 dall’Università di Treviri, in Germania, “… fornisce informazioni bibliografiche

aperte sulle principali riviste e procedimenti di informatica”.

DBLP (database systems and logic programming) indicizza più di 4.4 milioni di

pubblicazioni appartenenti a oltre 2.2 milioni di autori.

IRIS/ARPI [10]

ARPI è l’archivio della ricerca adottato dall’Università di Pisa, online dal 2015,

(13)

"L'archivio è gestito da IRIS, il sistema di gestione integrata dei dati della ricerca del CINECA”.

È possibile accedere al sistema tramite credenziali di ateneo, il menù principale è suddiviso in tre sezioni:

1. Portale pubblico:

Iris possiede un portale web pubblico, accessibile a tutti, in cui è possibile visualizzare i prodotti dei ricercatori dell’Ateneo.

2. Prodotti:

ciascun docente possiede un profilo personale, attraverso il quale può gestire, aggiornare e caricare le proprie pubblicazioni.

Il sistema offre una serie di stati e controlli sui prodotti inseriti dall’autore, infatti ciascun prodotto può essere classificato come:

provvisorio: l’autore non ha completato l’inserimento della

pubblicazione sul portale;

in validazione: il prodotto è stato caricato e inviato al sito del ministero,

ma non ancora approvato dal gruppo di validazione;

validato: il gruppo di validazione ha validato il prodotto;

riaperto: uno degli autori della pubblicazione ha modificato la scheda

del prodotto dopo la sua chiusura ma non ha completato l’operazione.

Il portale offre la possibilità di controllare lo stato del prodotto inviato al MIUR, che può essere indicato con i seguenti stati:

• successo: il prodotto è stato correttamente inviato al Miur

• da (re)inviare: la richiesta di invio deve essere ancora elaborata dal sistema;

(14)

• errore: il prodotto è stato rifiutato dal MIUR perché contiene degli errori;

• N/A: il prodotto è in stato provvisorio per cui non può essere inviato al

MIUR;

• disattivato: per il prodotto, l’autore ha disattivato la sincronizzazione con il Sito Ministeriale al fine di non rendere effettivo l’invio al sito ministeriale.

3. Reportistica e analisi:

nella quale è possibile effettuare analisi, creare report ed estrarre dati.

1.2 Metodi di valutazione della produttività scientifica

Nel corso degli anni si sono sempre più affermati modelli di valutazione bibliometrica. Le valutazioni di tipo Peer Review invece, consistono in un giudizio dato alle pubblicazioni da parte di individui con competenze simili a quelle valutate.

Sia la valutazione bibliometrica, sia la valutazione “tra pari”, possiedono una serie di svantaggi e vantaggi.

Le valutazioni “tra pari” presentano alcuni limiti: primo fra tutti è il conflitto di interessi, che spesso si riscontra in gruppi e comunità scientifiche, per cui alcune pubblicazioni, di certi autori, potrebbero essere maggiormente quotate di altre; ciò influisce sull’accuratezza, correttezza e velocità della valutazione. Per contrastare questo fenomeno è necessario aumentare il numero dei revisori, coinvolgendo quindi più ‘voci’, ma ciò comporta un costo maggiore e rallenta il processo di valutazione. Modelli che si basano esclusivamente su dati bibliometrici invece, valutano la numerosità della produzione, a discapito della qualità, poiché ciascun lavoro scientifico

(15)

viene valutato solamente attraverso le citazioni ricevute da esso stesso o dalla rivista che lo ospita.

Negli ultimi 20 anni, grazie anche allo sviluppo di banche dati online di grandi dimensioni, si sono sviluppati e consolidati metodi di valutazione basati interamente sulla bibliometria: ambito di studio applicato alle varie discipline scientifiche, che utilizza tecniche matematiche e statistiche per l’analisi di modelli di distribuzione delle pubblicazioni e per definirne l’impatto all’interno della comunità scientifica.

La bibliometria può essere utilizzata sia per il confronto di università, sia per la valutazione di queste prese singolarmente.

Alberto Anfossi, Alberto Ciolfi, Filippo Costa, Giorgio Parisi e Sergio Benedetto,

nell’articolo Large-scale assessment of research outputs through a weighted

combination of bibliometric indicators [11], pubblicato sulla rivista Scientometrics,

propongono un metodo di valutazione utilizzabile su larga scala, per la valutazione di dati, non dei singoli, ma aggregati (per dipartimento, settore, università, ecc).

Lo strumento proposto possiede un insieme minimo di caratteristiche:

• semplicità e intuitività per poter essere comunicato e gestito da individui con background diversi;

• conveniente da utilizzare con un numero di pubblicazioni notevole;

• veloce e completamente prevedibile.

Per lo sviluppo del modello sono stati considerati solamente i settori bibliometrici nella seguente situazione: ciascuna università possiede un gruppo di pubblicazioni da valutare, ciascuna di esse viene assegnata ad una categoria (Subject Category), indicata come SC.

(16)

1. il numero totale di citazioni in un certo periodo di tempo (CIT);

2. l’Impact Factor della rivista che contiene l’articolo, nell’anno della sua

pubblicazione (IF).

Gli indicatori bibliometrici più noti e utilizzati, ottenibili dai database citazionali, sono infatti il numero di citazioni, l’Impact Factor e l’H-index.

Impact Factor

L’Impact Factor (IF) è un indice bibliometrico, sviluppato dall’Institute for Scientific Information (ISI) nel 1961, utilizzato per la valutazione delle riviste [12]. Esso viene calcolato mettendo a rapporto il numero medio di citazioni ricevute nel biennio precedente all’anno preso in esame, dagli articoli pubblicati su una rivista scientifica, con il numero di articoli pubblicati dalla stessa rivista nello stesso biennio.

L’IF, viene calcolato annualmente dall’Institute of Scientific Information nel Journal

Citation Reports (JCR) [13]. Tale indicatore è utilizzato per monitorare l’impatto di una pubblicazione all’interno della comunità scientifica di riferimento.

H-index

L’indice h è un indicatore che riesce a coniugare produttività (numerosità) e impatto della produzione scientifica; l’indice è stato proposto per la prima volta dal fisico Jorge

E. Hirsch nel 2005.

La produzione scientifica di un ricercatore raccoglie numerose informazioni come: numero di articoli pubblicati in un certo numero di anni, numero di citazioni per ciascuno di essi, su quali riviste sono stati pubblicati e il loro fattore di impatto, ecc.

Hirsch ha evidenziato il fatto che tutti questi indici dovrebbero essere valutati da diversi

(17)

la produzione scientifica di un autore con un semplice indicatore, che può essere adottato per più discipline.

Un ricercatore ha un indice h se h delle sue pubblicazioni (Np) hanno almeno h citazioni ciascuna e le restanti (Np-h) pubblicazioni possiedono h<= numero di citazioni ciascuna.

Hirsch nel suo articolo An index to quantify an individual’s scientific research output

[14], per dimostrare come il suo indice sia migliore rispetto alla valutazione di tutti i diversi indicatori elencati sopra, elenca tutti i vantaggi e gli svantaggi che ciascuno di questi porta:

• numero totale di articoli di un autore ha il vantaggio di misurare la sua produttività, ma non l’impatto che le sue pubblicazioni hanno.

• Il numero di citazioni, misura l’impatto, ma può essere ‘gonfiato’ da un numero limitato di articoli che hanno riscontrato un grande successo, non risulta quindi rappresentativo dell’individuo; un altro svantaggio è che attribuisce troppo peso agli articoli molto citati a scapito dei contributi di ricerca originali.

• Il numero di citazioni per pubblicazione permette di comparare ricercatori di età diverse, ma è difficile da reperire e premia la bassa produttività.

Il numero di pubblicazioni rilevanti (ovvero quelle con un numero y di citazioni), elimina gli svantaggi dei punti precedenti, ma il numero y di citazioni risulta essere arbitrario e non è equo per ricercatori con un’età di carriera avanzata messi a confronto con i più giovani.

Il numero q di pubblicazioni più citate, ha come svantaggio sempre il fatto che q è arbitrario e in maniera casuale favorisce o sfavorisce ricercatori e non è semplice da ottenere e comparare.

L’indice proposto da Hirsch permette di evitare tutti gli svantaggi elencati sopra e fornisce un’idea dell’impatto del lavoro di ciascun individuo.

(18)

Per misurare tale indice pertanto vengono disposte le pubblicazioni presentate in domanda, in ordine decrescente in base al numero di citazioni; N è la posizione tale per cui alla posizione N+1 il numero di citazioni è inferiore a N+1. L’indice h sarà pari a N. Gli N lavori coinvolti nel calcolo dell'indice di Hirsch non devono essere obbligatoriamente tutti, possono infatti essere un sottoinsieme e i lavori esclusi del calcolo potrebbero anche non avere alcuna citazione.

Un Autore che ha m lavori può avere un indice h al più pari a m (N≤m).

Scimago Journal Rank [22]

“Lo Scimago Journal Rank è un indicatore bibliometrico di base, introdotto nel 2008 come alternativa all'impact factor, che misura il grado di influenza di una rivista scientifica e che viene calcolato a partire dai dati citazionali estratti dalla banca dati Scopus.

Lo SJR viene calcolato sia conteggiando il numero di citazioni sia valutando il prestigio della rivista da cui proviene la citazione ricevuta e attribuendo quindi un "peso" differente alle citazioni in base alla provenienza, con un algoritmo simile al pagerank del motore di ricerca Google. L'algoritmo assegna un peso maggiore alle riviste che ricevono citazioni da riviste con SJR più alto.

Per cercare lo SJR di una rivista è sufficiente cercare per titolo del journal sulla piattaforma o all'interno del database Scopus. Come per l'IF è possibile visualizzare il quartile del category rank in cui si colloca una rivista scientifica.

Il sistema permette di visualizzare graficamente una ricca mole di dati statistici e di confronto per ciascuna rivista e consente di paragonare tra loro riviste, ambiti disciplinare e geografici.”

Scimago crea annualmente una classifica internazionale delle riviste con lo SJR più alto,

è possibile visualizzare e scaricare le classifiche dal 1999 al 2018.

Esiste inoltre una classifica per paese con il maggior numero di documenti pubblicati, anch’essa annuale.

(19)

1.3 Utilizzo dei dati

I dati ricavati dalle pubblicazioni, prelevati dalle principali banche dati, vengono quindi utilizzati per valutare la produzione scientifica e l’impatto di essa, dei singoli ricercatori, gruppi e istituzioni.

Possono essere utilizzati per l’avanzamento di carriera, assegnamento di fondi per la ricerca, report e classifiche di Università a livello Nazionale e Internazionale all’interno di riviste e periodici, ecc.

Qui di seguito verranno riportati alcuni esempi di come le valutazioni su dati bibliometrici vengano utilizzate dalle varie istituzioni per la creazione di classifiche, report e partizione di fondi.

1.3.1 Avanzamento di carriera e valutazione della ricerca

Indicatori e metodo di valutazione per l’Abilitazione Scientifica Nazionale (ASN)

L’Abilitazione Scientifica Nazionale è una procedura di valutazione non comparativa gestita direttamente dal Ministero attraverso le Commissioni nazionali di ognuno dei Settori concorsuali.

L’Abilitazione Scientifica Nazionale [15] è il requisito necessario per la partecipazione ai concorsi nelle università per il ruolo di professore di prima o seconda fascia, sancito nell’articolo 16 della Legge 240 del 2010.

La procedura viene svolta con continuità durante tutti i mesi dell’anno.

I valori soglia relativi agli indicatori di qualificazione scientifica utilizzati nella procedura ASN sono proposti dall’ANVUR.

Gli indicatori che vengono valutati, come sancito nel Decreto del ministro dell’Istruzione (D.M. 589/2018) [16], per l’Abilitazione Scientifica Nazionale sono:

(20)

• Numero di articoli riportati nella domanda contenuti nelle banche dati Scopus e

Web Science [6];

• numero di citazioni ricevute dalla produzione scientifica contenuta nella domanda;

• indice di Hirsch (indice h).

Tali indicatori per i settori bibliometrici, vengono calcolati considerando i dati rilevati da Scopus o Web of Science, considerando “articoli” le seguenti categorie di pubblicazioni scientifiche:

• per Scopus: Article, Article in Press, Review, Letter, Note e Short survey; • per Web of Science: Article, Letter, Note e Review.

Valutazione della Qualità della Ricerca (VQR)

La Valutazione della Qualità della Ricerca (VQR) [17,18,19] è una procedura di valutazione periodica realizzata da l'Agenzia Nazionale di Valutazione del sistema Universitario e della Ricerca, che avviene principalmente attraverso una valutazione tra pari, ma anche attraverso un’analisi bibliometrica per gli articoli indicizzati su Scopus e Web of Science, delle aree bibliometriche.

Il giudizio di qualità si basa sui criteri di originalità, rigore metodologico e impatto

attestato o potenziale.

Durante la VQR 2011-2014 il giudizio per ciascun prodotto è stato articolato su 5 livelli:

Eccellente, Elevato, Discreto, Accettabile e Limitato; in quella relativa al periodo 2015-2019 [19] invece sarà articolato in: Eccellente ed estremamente rilevante, Eccellente, Standard, Rilevanza sufficiente, Scarsa rilevanza o non accettabile.

Attraverso questo tipo di valutazione, durante la VQR 2011-2014, è stato possibile mettere in luce le università che eccellono nella ricerca;

(21)

Per ciascuna Istituzione e Dipartimento sono stati calcolati i seguenti indicatori sintetici anche distinti per area, per settore concorsuale e per settore scientifico-disciplinare:

il rapporto tra la somma delle valutazioni attribuite ai prodotti attesi dell’Istituzione nell’Area e la valutazione complessiva di Area;

il rapporto tra il voto medio attribuito ai prodotti attesi dell’Istituzione nell'Area e il voto medio ricevuto da tutti i prodotti dell'Area;

il rapporto tra la frazione di prodotti eccellenti dell’Istituzione nell’area e la frazione di prodotti eccellenti dell’area. [18]

Sono inoltre calcolati una serie di indicatori per la valutazione della qualità delle pubblicazioni (indicatori quali- quantitativi IRAS1 e IRAS2, indicatori qualitativi R e X,

l’indicatore quali-quantitativo di attrazione risorse IRAS3, l’indicatore quali-quantitativo

di alta formazione IRAS4, l’indicatore quali-quantitativo di miglioramento IRAS5). La valutazione della qualità di un gruppo di ricercatori avviene attraverso due indicatori:

IRAS1, che è determinato dal rapporto tra la somma dei punteggi di prodotto di ricerca

che l’università ha consegnato e la somma di tutti i punteggi assegnati a tutti i prodotti attesi da tutte le università valutate; e IRAS2, calcolato come IRAS1, ma con solo la produzione scientifica dei neopromossi e neoassunti.

I prodotti di ricerca che vengono considerati ai fini della valutazione sono: monografie scientifiche, contributi in rivista e in volume.

Sono stati attualmente avviati e conclusi tre esercizi di valutazione della ricerca (VQR 2004-2010, VQR 2011-2014 e VQR 2015-2019).

FFABR [20]

Il Fondo di finanziamento per le attività base di ricerca (FFABR) è stato istituito con la Legge 232/2016 e destinato a contribuire alla ricerca di base di ricercatori e professori di seconda fascia in servizio a tempo pieno presso le Università statali.

(22)

Il fondo è stato creato con lo scopo di incentivare l’attività di ricerca di ricercatori e docenti di seconda fascia e prevede uno stanziamento di € 45.000.000,00 l’anno

A tal fine viene calcolato l’indicatore di produzione scientifica, che fa riferimento a uno specifico SSD e non può essere utilizzato per confronti tra diversi settori.

L’indicatore si ottiene tramite un conteggio pesato dei prodotti dei singoli entro un

numero prefissato dipendente dalla produttività media degli SSD di appartenenza [21].

A seconda del SSD, ANVUR ha fissato un numero di prodotti per il co-autoraggio compreso tra 3 e 10 (inclusi) e un limite pari a 1 per le monografie scientifiche.

Per ciascun SSD vengono individuati i parametri di riferimento:

• la pendenza delle rette di classificazione per ciascun anno;

• gli indicatori da utilizzare per il posizionamento dei punti sull’asse delle ascisse dei piani di calibrazione: per tutte le categorie, l’indicatore SJR di Scopus, per le

categorie Scopus di ambito matematico (categorie con codice del tipo 26XX), in aggiunta all’indicatore SJR di Scopus, l’indicatore MCQ di MathSciNet.

1.3.2 Ranking internazionali

Quacquarelli Symonds [23]

QS World University Rankings è una classifica internazionale delle migliori Università

al mondo. È possibile visualizzare la classifica che comprende oltre 1000 università, sul sito web, filtrabili per categoria e per paese. Il ranking è stato condotto dal 2004 al 2009 in collaborazione col periodico Times Higher Education, per poi continuare in maniera autonoma.

QS utilizza una serie di indicatori accademici per la valutazione delle istituzioni, tra cui:

• Un punteggio basato sulla reputazione di un'istituzione (indice di reputazione accademica);

(23)

• h-index;

• numero di citazioni per docente/ricercatore;

• un indicatore basato sulla quantità di docenti o/e ricercatori, appartenenti a ciascun istituto, in possesso di un dottorato di ricerca o di un titolo di studio equivalente.

L’indice di reputazione accademica conta il 40% sulla valutazione finale ed è quindi di fondamentale importanza e deriva da un’analisi approfondita di dati rilevati attraverso una serie di sondaggi.

Times Higher Education (THE) [24]

Settimanale inglese che si occupa di notizie riguardanti le università e all’istruzione superiore. Ha collaborato nella pubblicazione del World University Rankings e continuato a pubblicare una classifica delle migliori Università in maniera indipendente dal 2010.

Ciascuna università all’interno della classifica possiede un proprio profilo, in cui vengono riportati anche dati utili agli studenti per la scelta dell’ateneo: sono presenti dati sul rapporto tra staff e studenti universitari, sulla percentuale di studenti internazionali e sulla ripartizione per genere degli studenti.

Alcune Università all’interno del loro profilo mostrano agli studenti la loro offerta e i loro punti di forza, oltre che i dati relativi alle classifiche.

THE, per valutare le Università, si avvale anche del database Scopus, da cui recupera dati su citazioni e articoli di riviste accademiche pubblicate nell’arco di 5 anni.

Academic Ranking of World Universities (ARWU) [24]

È una classifica annuale redatta per la prima volta nel 2003 dall’Università Jiao Tong di Shanghai, che valuta le migliori Università.

(24)

Dal 2009 è viene pubblicata da Shanghai Ranking Consultancy, un'organizzazione indipendente focalizzata sull'istruzione superiore.

Per la valutazione ARWU utilizza diversi indicatori:

• il personale vincitore di premi Nobel e medaglie Fields,

• il numero di ricercatori altamente citati selezionati da Clarivate Analytics, • il numero di articoli pubblicati su riviste di Nature and Science,

• il numero di articoli indicizzati in Science Citation Index (SCI), indice di citazione prodotto originariamente dall'Institute for Scientific Information (ISI), disponibile in diverse piattaforme tra cui Web of Science,

• articoli indicizzati su Science Citation Index-Expanded e Social Science

Citation Index,

(25)

2. Stato dell’Arte

Esistono altri strumenti online simili ad Arpus, utilizzati da Università italiane e non, che permettono l’analisi delle metriche di impatto dei docenti.

2.1 Publish or Perish

Publish or Perish [26], online dal 2006, è stato uno dei primi software a riportare e

analizzare le citazioni delle pubblicazioni accademiche.

Il programma attinge a diverse banche dati e fonti tra cui Google Scholar e Microsoft

Academic Search.

Le metriche mostrate e calcolate dal software sono:

• Numero totale di articoli e numero totale di citazioni.

• Citazioni medie per articolo, citazioni per autore, articoli per autore e citazioni all'anno

• Indice h e parametri correlati. • Indice g.

• L'indice h contemporaneo.

• Tre variazioni dei singoli indici h.

• L'aumento medio annuo dell'indice h individuale. • Il tasso di citazione ponderato per età.

• Un'analisi del numero di autori per articolo.

Il programma è stato creato con l’obiettivo di consentire ai ricercatori di presentare al meglio il risultato dell’impatto nella ricerca delle loro pubblicazioni, non con lo scopo di valutare in maniera meccanica il personale accademico. Permette di selezionare

(26)

pubblicazioni e articoli in maniera accurata, in modo che la produzione scientifica di coloro che lo utilizzano, venga valutata al meglio; così facendo si possono scegliere quali sono i migliori articoli da inviare alle riviste, per colloqui di lavoro o concorsi.

2.2 Università del Minnesota - The Manifold Project

Il Manifold Project [27] è un progetto avviato nel 2014, che riguarda circa 2.200 docenti.

Il software è stato sviluppato su un framework LAMP (Linux / Apache / MySQL / PHP), tutti i processi sono stati sviluppati in PHP e i dati archiviati in un database MySQL. È inoltre disponibile online su GitHub il codice sorgente completo [28].

Il progetto è nato dalle esigenze della facoltà di medicina: in particolare era emersa la necessità di uno strumento che calcolasse le varie metriche di impatto e aggregasse i dati relativi alle pubblicazioni dei docenti.

I requisiti principali della facoltà per l’applicazione erano: • Elenco completo delle pubblicazioni,

• h-index, citazioni e altre metriche di impatto, • metriche calcolate sulle pubblicazioni.

Le pubblicazioni dei docenti vengono scaricate tramite le API di Scopus e aggiornate periodicamente, per il corretto calcolo delle citazioni e l’acquisizione di nuovi dati bibliometrici.

Per l’estrazione dei dati dal database di Scopus, viene utilizzato l’identificativo Scopus di ciascun docente.

(27)

Per ciascun membro della facoltà sono calcolate e memorizzate in un database le metriche di impatto e produttività della ricerca. Vengono creati quindi dei profili, in maniera dinamica, per facoltà e dipartimenti.

I profili per i docenti vengono creati solo per un sottoinsieme di essi, ovvero per coloro che lavorano a tempo pieno. Gli utenti interagiscono esclusivamente con i singoli profili utente.

La piattaforma permette di creare 3 viste diverse per i profili, ciascuna vista contiene una modalità ‘panoramica’ che permette di visualizzare le seguenti informazioni:

1. h -index, calcolato internamente in base alle pubblicazioni archiviate nel database Manifold;

2. h(fl)-index, un calcolo dell’h -index basato solo sui primi o ultimi autori, anche calcolato internamente;

3. conteggio totale delle pubblicazioni, che può includere sia pubblicazioni Scopus (raccolte automaticamente tramite processi API) sia record importati manualmente dagli utenti da PubMed (discussi di seguito);

4. conteggio delle pubblicazioni del primo / ultimo autore, che può includere anche i record Scopus e PubMed;

5. somma totale delle citazioni a tutte le pubblicazioni create dall'autore, basate esclusivamente sui conteggi delle citazioni Scopus;

6. somma totale delle citazioni a tutte le pubblicazioni del primo o dell'ultimo autore, anche sulla base dei conteggi delle citazioni Scopus.

Ciascun profilo contiene elenchi di pubblicazioni: un elenco con le 10 pubblicazioni più citate e un altro con tutte le pubblicazioni suddivise per anno.

Manifold si avvale di grafici per la visualizzazione di: metriche e del loro cambiamento

nel tempo, distribuzione delle pubblicazioni Scopus e distribuzioni comparative delle metriche tra i reparti.

(28)

2.3 Sistema “UniBas”

Il Sistema di Supporto alla Valutazione della Produzione Scientifica degli Atenei (UniBas) [29] è un software sviluppato dall'Università della Basilicata, il suo utilizzo è promosso dalla CRUI, ovvero la Conferenza dei Rettori delle Università di Italiane. Il sistema racchiude la produzione scientifica di tutte le università italiane e permette di svolgere periodicamente alcune procedure di autovalutazione:

Procedure basate sul modello di valutazione definito dall’ANVUR per la distribuzione del “Fondo di Finanziamento alle Attività di Base della Ricerca”.Procedure basate sui parametri dell’ASN.

I trattamenti effettuati dal Sistema sono finalizzati al calcolo di indicatori aggregati basati sulla produzione scientifica presente nell’archivio istituzionale IRIS ARPI.

Possono accedere al Sistema tre categorie diverse di utenti:

Professori e ricercatori valutati dal sistema (Soggetti Valutati).

• Un gruppo di incaricati dell’ateneo che ha il compito di svolgere le attività di autovalutazione (Autovalutatori).

• Due referenti che coordinano le attività dell’Ateneo per la partecipazione al progetto (Referente Tecnico-Amministrativo e Referente per la Governance).

Il sistema fornisce un insieme consistente di indicatori, suddivisi in due “cruscotti”:

• cruscotto dei soggetti;

• cruscotto della valutazione.

Il primo fornisce gli indicatori dei soggetti valutati, in modo da poterli analizzare; il secondo permette di visualizzare indicatori aggregati dell’Ateneo, dipartimenti e altri tipi di aggregazione dei docenti.

(29)

3. Progettazione e sviluppo di Arpus

L’idea del software nasce necessità dell’Ateneo di mantenere aggiornato l’archivio delle pubblicazioni ARPI [10], in maniera tale che sia sempre allineato con le pubblicazioni presenti su Scopus [3].

Arpus è uno strumento che aiuta a monitorare e rilevare eventuali disallineamenti, fornendo informazioni e dati sulle pubblicazioni da inserire all’interno di ARPI.

Mantenere aggiornato quest’ultimo è importante, poiché viene utilizzato dal MIUR per estrarre i dati con i quali viene svolta la valutazione degli Atenei e quindi il partizionamento di fondi.

Aggiornare con continuità la produzione scientifica fa inoltre ottenere prestigio all’Università di Pisa, guadagnando punti all’interno delle classifiche internazionali.

Arpus aiuta a identificare incongruenze tra il database di Scopus e quello di ARPI,

sottolineando le diversità sia attraverso l’elenco delle pubblicazioni, in cui viene segnalata ciascuna pubblicazione non trovata su ARPI, sia attraverso il calcolo degli indicatori ASN, ottenuti separatamente con i dati Scopus e ARPI.

Docenti e dipendenti degli uffici amministrativi dell’università di Pisa, possono utilizzare Arpus per diverse pratiche: report sull’andamento dei docenti, delle pubblicazioni e su altri dati Scopus, calcolo di indicatori ASN, semplice controllo su disallineamenti e incongruenze delle pubblicazioni ARPI e Scopus di ogni docente. È possibile inoltre scaricare i dati aggregati per settore, fascia dei docenti, dipartimento, ecc., controllare la situazione della produzione scientifica dell’Ateneo e analizzare le pubblicazioni e i dati di un sottoinsieme di individui.

Tutte queste operazioni vengono compiute attraverso diversi software e piattaforme, il vantaggio di Arpus è che permette di poter visualizzare, monitorare, ottenere dati in modo tale da poter ispezionare e trarre informazioni col fine di supportare tesi o effettuare analisi di trend.

(30)

I principali vantaggi che porta Arpus sono:

• Velocità nella reperibilità di dati, ovvero ottenere informazioni in maniera veloce utilizzando un unico software.

• Efficienza e semplicità: l’accesso al software è immediato e utilizzabile tramite qualsiasi dispositivo grazie a un’interfaccia web.

• Maggior controllo sulla produzione scientifica dell’ateneo, quindi dei singoli docenti e dei relativi dati:

Se un docente non ha caricato tutte le pubblicazioni su ARPI, si ritroverà degli indicatori con valore inferiore rispetto a quelli attesi. Il software può funzionare quindi da promemoria, segnalando quali pubblicazioni non sono state individuate sulla piattaforma e fornendo codice identificativo delle pubblicazioni e altre informazioni necessarie per il corretto inserimento.

Un’altra situazione da monitorare è la correttezza dei dati inseriti su ARPI dai docenti: un identificativo Scopus del docente inserito in maniera scorretta su

ARPI, può far sì che il software Arpus non riesca ottenere da Scopus le

pubblicazioni del docente, di conseguenza non sarà possibile calcolare metriche e indicatori sulla carriera.

• Familiarità e assistenza: i docenti e il personale amministrativo si trovano ad utilizzare un software creato, progettato e gestito dall’Università di Pisa. In caso di problemi, richieste relative a miglioramenti e incertezze riguardo al software, sarà quindi più semplice rivolgersi agli uffici competenti, per un’eventuale soluzione.

(31)

3.1 Struttura del progetto e funzionalità

Il progetto di tesi è stato sviluppato utilizzando i seguenti linguaggi e librerie:

• PHP

• HTML e CSS • JavaScript e jQuery • SQL

La maggior parte dei processi all’interno dell’applicazione sono stati sviluppati e implementati in PHP e SQL, mentre per la gestione di grafici, tabelle ed elementi del

DOM è stato utilizzato JavaScript.

È stato scelto PHP come linguaggio principale di programmazione per la creazione si

Arpus, grazie alla sua dinamicità e facilità di integrazione con le API di Scopus. Inoltre

il linguaggio è stato oggetto di programma durante il corso di laurea in Informatica Umanistica, così come gli altri linguaggi utilizzati all’interno del progetto.

La piattaforma è attualmente installata su un server dell’Università di Pisa ed è raggiungibile all’indirizzo: http://arpus.webhost1.unipi.it/arpus/home.php.

Il software di Analisi Scopus-ARPI prevede due tipologie di utenti con permessi e viste diverse:

• amministratore

(32)

Il primo può accedere a un numero maggiore di funzionalità:

• importazione ed esportazione di dati, quali elenco docenti, handle ARPI, dati aggregati di tutti i docenti dell’Ateneo, utilizzo dell’applicazione su un elenco ridotto di docenti dell’Ateneo, tramite importazione di un file CSV.

• visualizzazione dei dati, aggregati e non, dei vari docenti, grafici e tabelle, indicatori ASN dei docenti che hanno acconsentito a far visualizzare i propri dati; • numero di pubblicazioni su Scopus-ARPI e di pubblicazioni su ARPI non trovate

su Scopus di ciascun docente;

Il secondo invece, può visualizzare i propri dati, indicatori ASN Scopus e ARPI, pubblicazioni, attivare/disattivare notifiche via e-mail.

3.1.1 Vista per l’utente generico

L’utente con permessi generici ha la possibilità di visualizzare il proprio profilo personale (Figura 3.1), contenente i seguenti dati:

• profilo del docente (informazioni di base che lo riguardano); • tabella con indicatori ASN calcolati su tutta la carriera;

• tabella con indicatori ASN per le tre fasce (calcolati in base a Scopus o ad

ARPI);

• grafici sulla carriera e sulle pubblicazioni;

• tabella delle pubblicazioni, con possibilità di esportazione dei dati, filtri e barra di ricerca;

(33)

• consenso/revoca del consenso al trattamento dei dati; • lista delle pubblicazioni Scopus non trovate su ARPI;

(34)

Figura 3.1 immagine della pagina contenente il profilo personale del docente, con grafici, indicatori e pubblicazioni1.

(35)

3.1.2 Vista per l’utente amministratore

Il software è stato suddiviso in diverse sezioni per rispettare la normativa sulla privacy (vedi capitolo 4) e per raggruppare i dati in maniera adeguata.

Le principali pagine sono che un utente con i permessi da amministratore può visualizzare sono le seguenti:

• HOME

• DATI AGGREGATI

• PUBBLICAZIONI ARPI-SCOPUS • MEDIANE

HOME

Per prima cosa, una volta effettuato il login, l’utente con permessi da amministratore si trova a dover scegliere quale elenco docenti utilizzare (Figura 3.2):

• Database completo: con tutti i docenti dell’Ateneo.

• Sottoinsieme del database: con questa opzione l’utente può importare un file in formato CSV, contenente un insieme scelto di docente dell’Ateneo, dei quali verranno visualizzati i dati all’interno del software.

Se non viene selezionato alcun database, viene utilizzato quello completo di default, così come per l’utente generico, che invece non ha la possibilità di importare dati e utilizzare un database diverso.

La barra di ricerca è stata inserita per lo sviluppo della piattaforma, infatti tramite questa è possibile trovare velocemente tutti i docenti tramite nome e/o cognome o identificativo e visualizzare il profilo docente.

(36)

DATI AGGREGATI

Se un utente, che possiede permessi da amministratore, ha selezionato il database completo, all’interno della pagina DATI AGGREGATI (Figura 3.3) verrà visualizzata una sezione, attraverso la quale sarà possibile importare un file CSV, contenente un elenco di docenti dell’Ateneo aggiornato, scaricato da Arpi e un file contenente handle

ARPI, eid della pubblicazione, matricola dei docenti e tipo di pubblicazione.

Sarà possibile esportare in formato CSV, i dati aggregati per dipartimento, ruolo e settore, riguardo a pubblicazioni e superamento delle soglie ASN.

Al di sotto di questa sezione, in ambo i casi, vengono visualizzati dei grafici:

Figura 3.2

Sezione in cui è possibile scegliere il database dei docenti da utilizzare all’interno di Arpus. La barra di ricerca è stata inserita a scopo di sviluppo per la ricerca rapida di docenti e la visualizzazione dei profili. Verrà rimossa una volta che si potrà accedere allo strumento tramite le credenziali di Ateneo.

(37)

• Grafico contenente le percentuali dei docenti dell’Università di Pisa Indicizzati su Scopus, suddivisi per settore e per ruolo, che superano le soglie per l'ASN per la fascia superiore alla propria;

• Grafico con le percentuali di docenti, sempre visualizzati per settore, che occupano un determinato ruolo nell’Ateneo (I Fascia, II Fascia, Ricercatori, Ricercatori a tempo determinato);

• Per ciascun dipartimento viene visualizzato un grafico a colonne con il numero di docenti che superano le soglie ASN, il numero totale di docenti e il numero di docenti di quel dipartimento che sono indicizzati su Scopus.

(38)
(39)

PUBBLICAZIONI ARPI-SCOPUS

Questa sezione del software (Figura 3.4), è visualizzabile solamente dagli utenti con permessi da amministratore: in essa viene visualizzata una tabella con nome, cognome, ruolo, dipartimento, numero di pubblicazioni su Scopus, numero di pubblicazioni dell’autore su ARPI, numero di pubblicazioni ARPI non trovate su Scopus.

(40)

MEDIANE

La pagina MEDIANE (Figura 3.5) è visibile solo agli amministratori; contiene un elenco con i docenti che hanno acconsentito al trattamento e quindi alla visualizzazione dei propri dati. Vengono mostrati: nominativo, ruolo, dipartimento, indicatori e soglie ASN per le diverse fasce concorsuali.

(41)

3.2 API e Librerie utilizzate nel progetto

3.2.1 Scopus API

Scopus permette di utilizzare, tramite chiave univoca fornita all’Ateneo, delle API per

l’estrazione di dati e metadati riguardo a pubblicazioni, autori e riviste.

Le API offerte sono infatti diverse e permettono di ottenere tipologie differenti di dati:

Scopus Search API

Abstract Citation Count APICitation Overview APIAbstract Retrieval APIAffiliation Search APIAffiliation Retrieval APIAuthor Search API Author Retrieval API Subject Classifications API Serial Title API

Author Feedback API

All’interno della pagina web di Scopus, viene inoltre fornita una documentazione dettagliata per gli sviluppatori, in cui viene illustrato l’utilizzo delle API, esempi di codice, i parametri che devono essere immessi per il corretto funzionamento e la risposta che dovrebbe essere ottenuta.

(42)

Le API possono essere utilizzate sia da abbonati che non, con diversi limiti sui dati che si possono ottenere (figura 3.6).

Per il progetto di tesi sono state utilizzate le API di Scopus tramite una chiave fornita all’ateneo, che permette di ottenere tutti i dati desiderati senza i limiti imposti come visto nella figura mostrata sopra.

Figura 3.6 Nell’immagine sono mostrate le API di Scopus e le relative limitazioni poste

(43)

In particolare è stato utilizzato il Matching Service di Elsevier [1], che permette di interrogare i database di Scopus: passando come parametro gli identificativi (Scopus id) di tutti i docenti dell’Università di Pisa, si ottiene come risultato le pubblicazioni di questi ultimi e i relativi metadati.

Di seguito il wsdl del metodo utilizzato per l’interrogazione al database Scopus:

<method name="matchauthorids" privileges="" URI="/api/v2.1/matchauthorids"> <description>

Return documents based on provided author IDs. Metadata is send ina POST as raw XML.

</description> <params>

<param name="maxhits" required="no"/> </params> <example> /api/v2.1/matchauthorids/maxhits/10?clientKey=d005d4f5c91efe2932594d5f07bb06f1 </example> <post> <authoridsrequestmetadata><authorIds><authorId>55520946000</authorId></auth orIds></authoridsrequestmetadata> </post> </method>

Il metodo restituisce i dati in formato XML, questi vengono quindi trasformati in oggetti PHP, in modo tale da poter accedere a essi e inserirli nel database, contenente tutte le pubblicazioni dei docenti di Pisa indicizzati su Scopus.

(44)

3.2.2 Altre librerie

jQuery [32]

Libreria JavaScript per applicazioni web, che permette grazie alla sua semplicità e compattezza, di interagire, manipolare e gestire attraverso poche righe di codice, gli elementi DOM delle pagine HTML e implementare funzionalità AJAX.

ApexCharts [33]

Libreria JavaScript per la creazione di grafici personalizzabili per la visualizzazione dei dati.

DataTables [34]

Le API di DataTables vengono utilizzate all’interno del software di analisi Arpus per visualizzare i dati contenuti nel database sotto forma di tabelle con funzionalità multiple.

Ciascuna tabella può essere arricchita grazie a estensioni e plug-in, che permettono un numero maggiore di interazioni con la tabella quali: esportazione dei dati in vari formati, selezione di campi, filtri e categorizzazioni. Tutto ciò in maniera rapida, semplice e funzionale.

(45)

3.3 Progettazione e struttura del database Arpus

3.3.1 Progettazione dello schema concettuale

Di seguito verrà riportato lo schema concettuale entità-associazione, utilizzato nella prima fase della progettazione del database; tale modello viene utilizzato per individuare le principali entità, cioè elementi che possiedono una ricchezza tale che sia significativo rappresentarle e le relazioni che le uniscono.

Nel seguente schema concettuale verranno rappresentate entità, relazioni e relativi attributi secondo le proprietà generali per la costruzione di un buon modello concettuale, che sono:

• Correttezza • Completezza

• Leggibilità: i requisiti sono rappresentati in maniera chiara e naturale • Minimalità: lo schema non contiene ridondanze.

(46)
(47)

3.3.2 Fase di ristrutturazione

Lo schema prodotto durante la fase di progettazione concettuale necessita di una revisione in modo che il progetto venga semplificato e ottimizzato.

In questa fase andremo ad analizzare lo schema concettuale prodotto e a effettuare passo per passo, le eventuali modifiche [30].

La ristrutturazione di un modello concettuale prevede le seguenti fasi:

1. Analisi delle ridondanze.

2. Eliminazione delle gerarchie: nel modello relazionale non vengono rappresentate le gerarchie, che quindi vanno sostituite con entità, associazioni ed eventuali attributi.

3. Partizionamento/accorpamento di entità e associazioni.

4. Scelta degli identificatori principali: per le entità che ne hanno più di uno.

1. Analisi delle ridondanze:

in questa fase viene controllata la presenza di dati non necessari che possono essere derivati da altri. Tali dati possono essere attributi ricavabili da altre entità, da altri attributi o dal conteggio di occorrenze, oppure possono risultare ridondanti associazioni derivabili dalla composizione di altre in presenza di cicli.

All’interno dello schema concettuale prodotto non sono stati rinvenuti attributi ridondanti e quindi da eliminare.

2. Eliminazione delle gerarchie:

Come possiamo vedere dalla Figura 1, l’entità docente, ramifica in due entità deboli: indicizzato e non indicizzato. Quest’ultima non è essenziale al fine di rappresentare la realtà di interesse e quindi può essere eliminata; l’entità indicizzato invece, può essere sostituita da un attributo identificativo scopus all’interno di

(48)

Otteniamo così la semplificazione visibile all’interno della figura 2.

Figura 1 entità DOCENTE non semplificata

(49)

Dalla figura 3 possiamo analizzare un’altra gerarchia:

La gerarchia può essere semplificata, come possiamo vedere nella figura 4, eliminando le entità deboli che corrispondono alle tre fasce (FASCIA COMMISSARI, PRIMA

FASCIA e SECONDA FASCIA) e aggiungendo gli attributi di queste ultime all’entità

padre.

Figura 3

(50)

Analogamente alla figura 3 – 4, la gerarchia della figura 5 può essere eliminata, attribuendo gli attributi delle entità deboli, all’entità padre (vedi figura 6).

Figura 4 semplificazione dell’entità della Figura 3

(51)

Riguardo ai restanti punti per la ristrutturazione dello schema concettuale, ovvero: 3. Partizionamento/accorpamento di entità e associazioni

4. Scelta degli identificatori principali: per le entità che ne hanno più di uno.

(52)

Non sono state accorpate o partizionate entità e associazioni rispetto allo schema originale, mentre è stato scelto l’attributo ‘matricola’ per identificare tutti i docenti, anche quelli che possiedono un identificativo Scopus.

Lo schema ristrutturato può essere quindi tradotto nella seguente maniera, illustrando i vincoli di integrità referenziale che intercorrono tra le varie entità:

DOCENTE(matricola, scopus id*, e-mail,dipartimento,settore)

PUBBLICAZIONE ARPI (handle, eid, matricola, data, tipologia) matricola → DOCENTE(matricola)

eid → PUBBLICAZIONE SCOPUS(eid)

PUBBLICAZIONE SCOPUS (eid, autore, data, rivista, co-autori) autore → DOCENTE(scopus id)

QUARTILE(rivista, anno, categoria) rivista→ PUBBLICAZIONE SCOPUS

GRUPPO DI INDICATORI(autore, h-indexFC, h-indexF1, h-indexFC, numero articoli FC, numero articoli F1, numero articoli F2, numero di citazioni FC, numero di citazioni F1, numero di citazioni F2)

autore → DOCENTE (scopus id)

SOGLIE SSD (ssd, soglia h-indexFC, soglia h-indexF1, soglia h-indexFC, soglia numero articoli FC ,soglia numero articoli F1, soglia numero articoli F2, soglia numero di citazioni FC, soglia numero di citazioni F1, soglia numero di citazioni F2)

(53)

CONFRONTO SOGLIE(ssd , autore, soglie superate, soglie non superate) ssd → SOGLIE(ssd)

autore →GRUPPO DI INDICATORI (autore)

Il database utilizzato all’interno del progetto è costituito dalle seguenti tabelle:

• docenti

Contiene l’elenco dei docenti dell’ateneo, scopus id, e-mail, dipartimento, settore, consenso al trattamento dati, servizio di aggiornamento tramite e-mail. Da questo database vengono prelevati gli scopus id per l’aggiornamento della tabella pubb.

L’aggiornamento di questo elenco non avviene in maniera automatica, ma tramite il caricamento di un file CSV scaricato da Arpi e caricato da un utente amministratore, attraverso l’apposita sezione nella pagina ‘DATI AGGREGATI’.

• pubb

Contiene tutte le pubblicazioni dei docenti indicizzati su Scopus e i relativi metadati ( i principali sono: anno di pubblicazione, co-autori, rivista dove è stata pubblicata, eid della pubblicazione, issn, numero complessivo di autori, tipo di pubblicazione).

• estrazioni

Al suo interno viene registrata la data in cui è stato aggiornato il database delle pubblicazioni. Questa data viene visualizzata anche sopra la tabella delle pubblicazioni dei singoli docenti.

(54)

• handle

La tabella contiene gli Handle Arpi delle pubblicazioni, anno e tipo di pubblicazione e la matricola dell’autore.

I Dati vengono incrociati con quelli contenuti in pubb, per calcolare gli indicatori ASN Arpi e confrontare i dati Scopus con quelli Arpi, andando a vedere se esistono pubblicazioni in Scopus non pubblicate su Arpi e viceversa.

• indicatori

Contiene gli indicatori ASN calcolati con i dati delle pubblicazioni Scopus e con quelli di Arpi.

Inizialmente non era prevista nel progetto una tabella, ma gli indicatori venivano calcolati dinamicamente al momento del caricamento della pagina. Questo aveva dei vantaggi per quanto riguarda la Privacy (non conservare in un database i dati di tutti i docenti), ma rallentava il caricamento della pagina MEDIANE, in cui vengono mostrati gli indicatori di coloro che hanno acconsentito al trattamento dei propri dati.

soglie

Contiene le soglie per ciascun settore scientifico disciplinare per gli indicatori ASN.

• soglieSuperate

al suo interno vengono registrati i docenti e il suepramento (o meno) delle soglie per i concorsi per commissari, prima e seconda fascia.

• scimago

Dati estratti dallo Scimago Journal & Country Rank [28].

I dati sono stati scaricati in formato CSV, anno per anno e modificati in maniera tale da renderli idonei per gli scopi prefissati: in ciascun file contenente una

(55)

classifica delle riviste su base annuale, è stato inserito l’attributo Year, in maniera tale da poter riconoscere l’anno una volta importati in phpmyadmin all’interno della tabella Scimago.

La tabella è utilizzata all’interno dell’applicazione per calcolare il numero di pubblicazioni dei docenti classificate come Q1, incrociando i dati di Scopus con questi ultimi; sono stati utilizzati inoltre per mostrare nella tabella delle pubblicazioni, le categorie per cui tale rivista è stata classificata come Q1.

• Quartile

In questa tabella sono riportati i dati estratti da Scimago incrociati con la tabella

pubb grazie al codice issn delle riviste; i dati contenuti sono: eid, rivista, anno e

quartile.

sottoinsieme

La tabella viene riempita con i dati nel momento in cui viene si vuole utilizzare

il software con un sottoinsieme dei docenti. É possibile infatti caricare un file contenente un insieme ridotto di docenti dell’Università dalla pagina Home. I dati visualizzati nelle pagine infatti, non faranno più riferimento alla tabella

docenti, ma a quest’ultima, visualizzando così grafici, tabelle e informazioni su

Riferimenti

Documenti correlati

Non è questo il luogo per descrivere come è cambiato per noi il sistema della produzione scientifica accademica, ma è opportuno questo richiamo per contestualizzare il ruolo che

L’arrivo a Roma alla fine del mese di luglio del 1873 7 della cassa contenente il Medagliere di Lu- dovico Stanzani (1784-1872) 8 – ricco di più di 9.000 monete, poco meno della

In the particular case of N = 2 coupled superconductors, so that they form a Josephson Junction, we have obtained the same relations characterizing the

Partecipando ai più diversi programmi Sanguineti, parallelamente alla propria carriera di scrittore e critico, ha parlato per tutta la vita al grande pubblico

I pesi che concorrono all‟equilibrio dell‟impianto per la determinazione della coppia motore sono dunque: peso cabina, peso arcata, portata, peso delle funi, peso del cavo

Tra le suture continue la più utilizzata per la sutura della cute è la continua a sopraggito semplice, questa consiste in una lunga serie di punti semplici in continua.. E' di rapida

Vari interventi sono stati messi in atto dal governo cinese al fine di risollevare la produzione della seta, baluardo storico dell’industria tessile cinese, e

Se la teoria e le pratiche della Public History occupano ancora uno spazio limitato all’interno della ricerca storiografica, la domanda “come raccontare la Storia?”