• Non ci sono risultati.

Un’architettura per la navigazione multidimensionale dei dati delle università

N/A
N/A
Protected

Academic year: 2021

Condividi "Un’architettura per la navigazione multidimensionale dei dati delle università"

Copied!
3
0
0

Testo completo

(1)

Da circa 10 anni, il CASPUR collabora con l’Ufficio di stati-stica del MIUR per la gestione delle banche dati.

Il compito principale dell’Ufficio statistico è quello di rile-vare, elaborare, diffondere e archiviare dati statistici che interessano i settori dell’Università Italiana, l’Alta Forma-zione Artistico Musicale e la Ricerca.

Nell’ultimo anno il CASPUR ha realizzato un sistema per l’accesso ai dati acquisiti in questi anni da parte delle di-verse tipologie di utenti del MIUR.

UN’ARCHITETTURA PER LA NAVIGAZIONE

MULTIDIMENSIONALE DEI DATI DELLE UNIVERSITÀ

Elio Galli

elio.galli@miur.it

Cristiano Trani

cristiano.trani@miur.it Gruppo MIUR del CASPUR

L’Ufficio di statistica del MIUR ha prodotto in questi anni una notevole quantità di dati distribuita su diversi database. L’aumento delle attività e degli impegni dell’ufficio nonché i cambiamenti normativi intercorsi hanno avuto come effetto, nel tempo, una crescita disomogenea e sempre più complessa delle banche dati gestite, con una conseguente difficoltà ad integrare tra loro i dati provenienti da sorgenti differenti. La ramificata com-plessità del modello relazionale necessario a rappresentare una realtà simile rende particolarmente difficoltoso, da parte di un utente non esperto, l’estrazione dei dati in un formato che sia utilizzabile per una successiva analisi. Questa difficoltà impedisce al personale dell’Ufficio statistico di essere pienamente indipendente nella consultazione delle banche dati.

Qualche numero Anni rilevati: 12.

Università Italiane rilevate per anno: 105. Facoltà rilevate per anno: 814.

Corsi di Laurea rilevati: 15000 (circa).

Variabili rilevate: 500 (circa) distribuite su 13 rilevazioni.

Volume della sola tabella della provenienza degli iscritti: 60.000.000 di tuple.

Tempo di esecuzione di una query SQL che conta il numero di studenti coreani che studiano in Piemonte: 15 minuti.

Il Modello dimensionale

I dati conservati all’interno di un database relazionale solitamente sono immagazzinati in tabelle che se-guono un modello entità-relazione (E-R). Tale modello permette un’estrema facilità di manutenzione dei dati e un costo molto contenuto in termini di spazio disco necessario. Nel caso in cui, però, si cerchi di rappresen-tare realtà complesse ed articolate (come il Sistema Universitario Italiano) il modello E-R non è adeguato al-l’estrazione dei dati nella forma utile ad una successiva analisi, specie se non si ha conoscenza dello schema E-R. Superare queste limitazioni è possibile utilizzando un modello dimensionale, in cui si passa dai concetti di entità e relazioni, a quello di fatti e dimensioni. Sostanzialmente lo scopo del modello dimensionale è quello di diminuire il numero di tabelle che sono coinvolte nell’interrogazione e contemporaneamente

(2)

rare le metriche (tabelle dei fatti) dalle dimensioni di analisi (tabelle di dimensioni). Per esempio il numero di iscritti (metrica) potrà essere analizzato secondo diverse dimensioni, come ad esempio l’anno accademico, la zona geografica, il corso di laurea, ecc.

Il Datawarehouse

Primo passo verso l’implementazione dell’architettura è stata la creazione di un datawarehouse che integrasse tutti i dati in possesso dell’ufficio in un unico archivio. Il datawarehouse, progettato secondo il modello dimen-sionale per consentire una rapida consultazione, viene alimentato ogni notte dalle diverse banche dati gestite dall’ufficio e da dati esterni che vengono forniti da altri enti. Vista la natura eterogenea delle fonti dati (diversi DBMS, file di testo strutturati, file Excel), il processo di alimentazione del datawarehouse è gestito da Integration Service di Sql Server 2005. Questo servizio si occupa interamente delle operazioni Extract-Transform-Load (ETL) necessarie all’integrazione dei dati.

I Cubi OLAP

Una volta integrati i dati in un archivio logicamente coerente, scaturisce la necessità di munirsi di strumenti che permettano di consultare, in maniera efficace, la grande mole di dati ottenuta con il datawarehouse. A questo scopo si utilizzano delle strutture dati denominate cubi OLAP (On-Line Analytical Processing). Anche in questo caso c’è un apposito servizio di Sql Server 2005 denominato Analysis Service che gestisce l’archiviazione dei cubi OLAP e fornisce l’interfaccia di interrogazione tramite il linguaggio MDX. Inoltre, l’Analysis Service per-mette, in fase di caricamento dei dati nel cubo, di creare indici pre-calcolati e indici di performance delle metriche chiave sulla base dei dati contenuti nel datawarehouse.

Fig. 1Schema sintetico del flusso dati.

DBMS

Esterni

DBMS

Interni

File

di testo

Fonti dati

Datawarehouse

Cubo OLAP

82

(3)

Consultazione dei dati

La complessità del linguaggio MDX rende, nella pratica, impossibile la consultazione dei cubi OLAP da parte di un utente che non abbia una profonda conoscenza del linguaggio stesso. Fortunatamente esiste una vasta offerta di client che permettono di consultare i cubi OLAP in maniera semplice e intuitiva, guidando graficamente l’utente nella creazione delle tabelle e grafici di sintesi. Gli utenti che hanno necessità di accedere ai dati riguar-danti il Sistema Universitario Italiano sono riconducibili a due categorie:

• personale dell’Ufficio statistico: ha esigenza di consultare i dati in forma originale, quindi necessita di uno strumento di navigazione, analisi dati e creazione della reportistica per successiva diffusione;

• personale interno del MIUR: ha necessità di consultare dati in forma pre-elaborata, quindi è interessato alla consultazione di tabelle e grafici precedentemente creati dal personale dell’Ufficio statistico.

Per la prima categoria di utenti, Microsoft Excel fornisce pieno supporto all’interrogazione dei cubi OLAP di Analysis Service, rendendo semplice la creazione di report di facile distribuzione.

La seconda categoria di utenti può accedere ai dati tramite un portale web ad uso interno al MIUR, che per-mette di consultare e navigare i report messi a disposizione dal personale dell’Ufficio statistico, attraverso l’utilizzo di dashboard interattive. L’implementazione del portale tramite Microsoft Office Sharepoint Server e le altre tec-nologie a supporto della Business Intelligence ci ha garantito la piena integrazione di tutti i sistemi e l’integra-zione degli accessi al portale con la rete di dominio del ministero.

Conclusioni

Il sistema, largamente apprezzato dagli utenti, è stato presentato ad ottobre 2010. L’utilizzo combinato delle tecnologie OLAP e di Microsoft Excel ha reso la consultazione dei dati relativi al Sistema Universitario Italiano veloce ed intuitiva, permettendo l’accesso anche a chi non è a conoscenza della struttura della rilevazione a cui si riferiscono i dati. Attualmente il sistema è quotidianamente utilizzato, ed è in fase di continuo sviluppo per in-tegrare altre fonti dati.

BIBLIOGRAFIA ESSENZIALE

Kimball, R., Ross, M. (2002). The data warehouse toolkit: the complete guide to dimensional modeling, 2nd

edi-tion, Wiley Publishing.

Spofford, G., Harinath, S., Webb, C., Huang, D.H., Civardi, F. (2006). MDX Solutions, 2ndedition, Wiley Publishing.

ICT

Riferimenti

Documenti correlati

Dichiara inoltre di essere a conoscenza del presa visione delle Istruzioni per l’accesso ai servizi multimediali che comprende le Raccomandazioni per la sicurezza dei minori in Rete

• Deve essere generato un messaggio di errore specifico in caso di dati mancanti (campi vuoti) o non digitati correttamente (formato dei dati non corretto). • Deve essere generato

• Informazioni di maggior dettaglio, quando non presenti in questo file, possono essere recuperate accedendo alle tabelle della base dati completa OpenCoesione, ad es:. • Indirizzo

Nel documento si illustrano quindi sinteticamente la consistenza del personale e la sua distribuzione tra i comparti, anche in funzione di parametri come il sesso, l’età,

Il 52% dei soggetti non riporta sintomi clinicamente rilevanti, il 28 % rientra nella categoria di casi borderline, il restante 20% presenta sintomatologia

Dati caratteristici posizione assicurativa navigazione appalti servizi in officina - personale prove in mare - comandata - concessionari di bordo - tecnici ed ispettoriN. Firma

Dati caratteristici posizione assicurativa navigazione appalti servizi in officina - personale prove in mare - comandata - concessionari di bordo - tecnici ed ispettori -. (da

E tutti questi elementi non sono stati correlati (tranne poche eccezioni) ai dati raccolti dalle centraline sulla qualità dell’aria. 2) Approvazione delle norme per il nuovo