• Non ci sono risultati.

Allargare la comunità di utenti dei dati: rendere FAIR i dati ed i prodotti della ricerca

Nel documento PIANO TRIENNALE DI ATTIVITÀ 2019 - 2021 (pagine 66-70)

LE COMPETENZE STORICHE DI OGS

Il riutilizzo dei dati scientifici non solo ottimizza gli investimenti, ma consente di aggregare le comunità di ricercatori. Condividere le esperienze e le idee distribuendo la costruzione del sapere è un approccio molto efficiente, che, per quanto connaturato alla ricerca scientifica, lo sviluppo tecnologico sta rendendo sempre più centrale nella vita dei ricercatori.

Le attività collaborative si sviluppano a vari livelli, tra i quali, sicuramente, quello della condivisione dei dati e delle osservazioni è fondamentale.

In questa prospettiva, i dati devono poter esser trovati, essere accessibili (attraverso sistemi web) ed essere standardizzati, in modo da poter essere utilizzati in modo semplice e immediato.

FAIR (Findable, Accessible, Interoperable, Reusable) è l’acronimo che viene utilizzato per denotare le pratiche e le tecnologie che consentono di condividere dati che rispondano a queste esigenze. L’importanza dell’approccio FAIR è reso evidente dal fatto che all’interno del framework EU Horizon 2020 la gestione dei dati deve seguire obbligatoriamente questo schema.

OGS ha una consolidata tradizione nella condivisione dei dati in vari settori, dall’Oceanografia alla Geofisica di esplorazione, alla Sismologia, ed ha già sviluppato una serie di sistemi di gestione dati e portali che vengono intensamente utilizzati dalle relative comunità scientifiche.

OGS ospita il National Oceanographic Data Center (NODC), gestisce i dati oceanografici italiani mettendoli a disposizione della comunità scientifica con strumenti condivisi a livello

italiano ed europeo con lo scopo di promuovere la ricerca, l’utilizzo delle risorse e lo sviluppo in campo marino, facilitando lo scambio di dati oceanografici ed informazioni. L’OGS-NODC ospita più di 300 mila profili verticali di parametri fisici, chimici e biologici, distribuiti sull’intero bacino Mediterraneo.

Il Centro Nazionale per la raccolta di dati Oceanografici segue i principi proposti dal FAIR

per la condivisione dei dati oceanografici. In particolare, l’utilizzo di un dettagliato sistema di metadatazione dei dati sostiene il principio del findable. I metadati sono organizzati in diversi cataloghi: Cruise Summary Reports (CSR), Marine Data Reports (EDMED), Operational Observing Systems (EDIOS), Marine Project Reports (EDMERP). I singoli dati sono accessibili attraverso un’interfaccia web dedicata, accessibile mediante autenticazione, attraverso la quale è possibile cercare e scaricare (previa autorizzazione, se richiesto) i dati, appoggiando così il principio dell’accessibile.

Inoltre, i dataset sono organizzati e rintracciabili anche mediante un persistent identifier (Digital Object Identifier) assegnato in collaborazione con DataCite.

L’accesso ai dati viene regolato da una data policy definita in accordo con il fornitore dei dati, garantendo un equilibrio tra i diritti degli originators e la necessità di un accesso diffuso attraverso la condivisione e lo scambio libero e senza restrizioni di dati, metadati e prodotti di dati. L’OGS-NODC segue la data policy di SeaDataNet condivisa a livello internazionale e in linea con le Direttive Europee (INSPIRE, IOC, ICES,...).

Il principio dell’interoperable, definito dal FAIR, viene garantito dall’utilizzo di standard per la definizione dei metadati mediante l’uso di ontologie, attraverso procedure comuni per il controllo della qualità ed infine attraverso formati standard per lo scambio di dati e metadati.

Infine, il riutilizzo dei dati è favorito dal mantenimento dell’infrastruttura dati a lungo termine e dalla sua divulgazione.

Nell’ambito della Geofisica di esplorazione, il gruppo DIAM-PROS della sezione IRI-Infrastrutture, ha sviluppato e rende disponibile una serie di portali web orientati alla collaborazione scientifica basati su un framework web-gis che consente di mappare geograficamente ed accedere interattivamente ai dati geofisici attraverso specifici visualizzatori web. Il tutto è integrato con il sistema di gestione ed elaborazione dati del gruppo, dove i dati vengono attentamente processati e conformati a seguire gli standard ed i formati utilizzati negli ambiti disciplinari di competenza.

I portali possono venir sviluppati a partire da un criterio geografico come ad esempio nel

caso di SNAP (http://snap.ogs.trieste.it, orientato alla gestione dei dati geofisici in area Mar Mediterraneo) o della Antarctic Seismic Data Library System (http://sdls.ogs.trieste.

it, un’iniziativa internazionale che ospita tutti i dati sismici acquisiti da tutti gli istituti di ricerca internazionali attivi in zona Antartica), oppure in funzione di specifiche iniziative di condivisione come, ad esempio, la convenzione con il Ministero dello Sviluppo Economico (http://snapmise.ogs.trieste.it).

Il Centro di Ricerche Sismologiche di OGS gestisce due infrastrutture informatiche per l’archiviazione, consultazione e distribuzione di dati sismologici strumentali: OASIS e NISBAS.

Con OASIS (http://oasis.crs.inogs.it) l’OGS organizza, archivia e fornisce l’accesso ai dati acquisiti dalle proprie reti sismologiche, siano esse permanenti o temporanee.

In maniera analoga NISBAS gestisce i dati relativi alle stazioni dotate di sensori in pozzo e in superficie. La piattaforma dedicata ad un pubblico più ampio e non necessariamente specialistico è il sito web RTS (http://rts.crs.inogs.it/). Qui, infatti, vengono pubblicati in

tempo reale tutti gli eventi sismici, localizzati automaticamente e successivamente rivisti dall’operatore. Il portale prevede materiale per un pubblico esperto, mentre le notifiche degli eventi vengono inoltre pubblicate sui canali social, Facebook e Twitter. Un ulteriore portale che consente un’interazione diretta tra pubblico e il dato scientifico prodotto da OGS è il portale della rete geodetica FReDNet, www.crs.inogs.it/frednet che garantisce il libero accesso alle registrazioni della rete e al servizio di navigazione georeferenziata di alta precisione in tempo reale ai professionisti (con libero accesso previa semplice iscrizione).

RICERCHE RILEVANTI NEGLI ULTIMI ANNI

Nell’ambito della disseminazione dei dati, vi è stato un progressivo spostamento da un paradigma nel quale il dato si supponeva fosse scaricato localmente sul computer dell’utente finale, e ivi utilizzato, verso un nuovo approccio nel quale i dati vengono direttamente analizzati nei portali di disseminazione. Questi diventano, quindi, dei Virtual Research Environment (VRE) dove le comunità scientifiche possono incontrarsi e lavorare collaborativamente, anche attraverso varie discipline.

Per consentire questo nuovo approccio, è stato necessario sviluppare una serie di metodi e tecnologie che sono state poi utilizzate all’interno dei vari portali di gestione dell’Ente.

In particolare grossa attenzione è stata posta allo sviluppo di nuovi modelli di metadati basati sul standard ISO, Open Geospatial Consortium (OGC) come O&M (Observations and Measurements) e SensorML, e che fossero in linea con la Direttiva europea Inspire. Sono stati sviluppati visualizzatori web specifici per i vari tipi di dati.

Il tutto poi è stato integrato con le maggiori iniziative di condivisione dati a livello europeo ed

internazionale come ad esempio EMODnet e SeaDataNet. OGS coordina dal 2009 il progetto a lungo termine finanziato da DG MARE EMODnet Chemistry che ha come obiettivo la condivisione aperta di grosse quantità di dati relativi allo stato ambientale, all’eutrofizzazione ed all’inquinamento da contaminanti e rifiuti marini. I dati raccolti sono resi interoperabili grazie all’utilizzo di standard (ontologie, formati, etc..) comuni in linea con la Direttiva europea Inspire e costituiscono il livello informativo utilizzato dall’Agenzia Ambientale Europea per la valutazione dello stato del mare secondo la Direttiva Quadro sulla Strategia Marina.

Nell’ambito della Geofisica di esplorazione è stato fatto un grosso lavoro di recupero e conformazione di dati storici che sono stati integrati con i dati acquisiti recentemente. Allo stesso tempo sono stati sviluppati sistemi di e-research che aggregano non soltanto i dati ma le attività di ricerca in generale (comunicazione tra ricercatori, gestione attività, workflow, repositories di pubblicazioni, formalizzazione della conoscenza) e si sono sviluppati strumenti per gestire Identificatori persistenti (DOI) dei dati in modo da poter collegare le pubblicazioni scientifiche con le osservazioni che le hanno rese possibili.

PROSPETTIVE FUTURE

Gli investimenti in sviluppo tecnologico fatti finora e la disponibilità di dati di ottima qualità consentono un buon posizionamento dell’Ente nel panorama internazionale delle future iniziative di condivisione dati.

Gli aspetti collaborativi saranno sempre più importanti e saranno sempre più importanti le attività legate al paradigma Open Science. E’ questo l’insieme delle attività che consentono di aprire la ricerca scientifica ad altri attori esterni al gruppo di lavoro coinvolto in un singolo progetto di ricerca. Lo spettro delle possibilità diventa decisamente maggiore di quanto immaginato finora.

Dal punto di vista delle pubblicazioni scientifiche un’estensione importante deve essere fatta nella direzione della replicabilità degli esperimenti. In questo senso non soltanto i dati devono essere FAIR, ma anche gli strumenti utilizzati per analizzarli devono essere resi accessibili ad ottenere un approccio FAIR(R), dove un’ulteriore lettera R è stata aggiunta ad indicare proprio la replicabilità degli esperimenti. In un VRE questo approccio risulta molto più facile da ottenere, presentando il sistema non soltanto i dati ma anche i metodi di analisi.

Una tematica importante da sviluppare è quella della Citizen-science. Volontari non esperti di settore vengono coinvolti nelle attività di raccolta dati. Questo consente da un lato notevoli risparmi economici, ma anche e forse soprattutto stimola la consapevolezza pubblica nei confronti delle tematiche affrontate. In questo senso alcuni strumenti tecnologici sono già stati sviluppati ma molti altri dovranno essere studiati. Ne è un esempio quanto viene fatto dal CRS in stretta collaborazione con la Protezione Civile del Friuli Venezia Giulia con i questionari compilati, su base

comunale, dai volontari della protezione civile regionale (debitamente formati) sul risentimento a seguito degli eventi sismici. In questo modo si mantiene allenato il sistema e si aumenta la consapevolezza del fenomeno terremoto sul territorio e rende pronto il sistema nel caso di un terremoto maggiormente energetico fornendo indicazioni utili alla gestione delle emergenze e all’organizzazione dei soccorsi.

Infatti, sulla base delle informazioni rilevate viene prodotta, sin dai primi minuti

successivi al terremoto, una mappa che caratterizza gli effetti del terremoto sul territorio.

La mappa fornisce una prima stima che risulta molto utile sia per le operazioni di Protezione Civile sia per la ricerca scientifica.

STRUMENTI E METODOLOGIE

Consolidando gli strumenti di accesso e di analisi dei dati in un unico sito, ed allargando, allo stesso tempo, la platea dei fruitori, ne risulta la necessità di avere a disposizione risorse di calcolo sufficienti. Differenti tipi di dati a questo punto però possono consigliare diverse soluzioni. Due estremi dovranno essere considerati: da un lato sistemi HPC e cloud che ospiteranno in modo remoto sia i dati che gli strumenti per analizzarli, nell’altro caso, quando il trasferimento di grosse moli di dati non comporterebbe un vantaggio nelle prestazioni del sistema un miglioramento dei sistemi già a disposizione dell’Ente.

L’interazione tra ricercatori di varie discipline rende inoltre necessaria un’armonizzazione a livello semantico. Questa in gran parte deve essere risolta a livello di metadati ma per certi tipi di dati deve essere fatta anche al livello dei dati stessi. I domini di conoscenza possono essere formalizzati attraverso delle ontologie che a loro volta possono diventare delle mappe per supportare la collaborazione tra ricercatori.

Inoltre, specialmente dal punto di vista della riproducibilità degli esperimenti, anche i processi stessi dovrebbero essere codificati e accessibili.

PRIORITÀ SCIENTIFICHE

Per rafforzare e migliorare l’utilizzo dei principi FAIR, si stanno portando avanti una serie di azioni volte da un lato a promuovere il coordinamento nazionale tra gli Enti della Commissione Oceanografica Nazionale attraverso lo sviluppo dell’Italian Oceanographic Data Committee, e dall’altro a consolidare le collaborazioni internazionali con la partecipazione alle call europee per lo sviluppo del Blue Cloud ed InfraEOSC, in sinergia con ENVRI+.

Sempre nella stessa ottica, a livello nazionale, OGS contribuisce al tavolo ICDI (Italian Computing and Data Infrastructure), nato con l’obiettivo di condividere e se possibile coordinare a livello italiano la partecipazione delle Research Infrastructure e delle e-Infrastructure alle call EOSC (European Open Science Cloud).

Senza tralasciare gli sforzi finalizzati a promuovere e rafforzare l’utilizzo dei Persistent Identifiers (DOI) sia per i dati che per le produzioni scientifiche più in generale.

2.1.5 Missione 5

Nel documento PIANO TRIENNALE DI ATTIVITÀ 2019 - 2021 (pagine 66-70)