Integrazione, fusione (e astrazione) nel secondo Governo Conte

3.Il modello Entità Relazione

Capitolo 5 – La qualità dei dati e la grande sfera opaca Carlo Batini

8. Integrazione, fusione (e astrazione) nel secondo Governo Conte

I recenti avvenimenti dell’ agosto 2019 che hanno portato Salvini a presentare una mozione di sfiducia al Governo Conte, e successivamente hanno portato il Primo Ministro a presentare le dimissioni, hanno fatto prendere agli avvenimenti successivi una piega imprevista, con le trattative tra Movimento 5 Stelle (M5S) e Partito Democratico (PD) come soggetti principali, che hanno portato ad un accordo di Governo e alla fiducia delle Camere, dando luogo al secondo Governo Conte.

Le trattative che hanno portato all’accordo, viste dal punto di vista delle metodologie di integrazione, hanno seguito un percorso molto diverso rispetto a quello che ha caratterizzato il precedente accordo, in particolare:

179

1. La trattativa è avvenuta attraverso una sequenza di fasi profondamente diverse dalla trattativa Lega – M5S, nel senso che mentre allora il Presidente incaricato fu scelto all’ultimo, in questo caso il Presidente è stato scelto all’inizio, e le trattative sul programma sono avvenute solo successivamente. Possiamo dunque dire, ricordando le metodologie di progetto di basi di dati, che nel caso Lega M5S è stata applicata una metodologia bottom-up (vedi Capitolo 3 sui modelli), in cui si è partiti dal basso, si sono integrati i due programmi e solo alla fine si è arrivati al nome del Primo Ministro, mentre nel caso M5S PD si è proceduto top-down, dall’alto verso il basso.

2. La scelta della persona del Primo Ministro, peraltro, è scaturita da un accordo (fusione) in cui il nome è stato inizialmente pesato in modo diverso dai due partiti/movimenti, nel senso che i 5 Stelle lo vedevano come espressione super partes di M5S e PD, mentre il PD lo vedeva come espressione del Movimento 5 Stelle.

3. Un altro aspetto, legato al precedente, riguarda il tema dei Vice Presidenti, su cui M5S e PD hanno oscillato tra due e uno, aspetto questo che riguarda nelle basi di dati lo schema, che sappiamo fare riferimento alle classi di osservabili, e non le istanze, cioè i valori. Quando si è passati dalle classi astratte ai valori (cioè i nomi e cognomi), l’accordo ha rischiato di saltare perché i M5S volevano Di Maio come uno dei due vicepresidenti, mentre gli esponenti PD affermavano che il M5s era già rappresentato da Conte, e quindi non poteva avere il suo massimo dirigente come Vice, arrivando alla proposta di Vice unico; il tutto si è risolto quando il ruolo di Vice è stato eliminato.

4. Il programma di Governo è stato definito essere un accordo politico e non più un contratto; inoltre, il testo dell’accordo politico è molto più generale e generico del testo del contratto. Vi è insomma una rilevante differenza di livello di astrazione tra il contratto di governo tra Lega e M5S e l’accordo politico tra M5S e PD. Partendo da un puro elemento quantitativo, il contratto è un documento di 38 pagine mentre l’accordo è un documento di sette pagine. Se poi leggiamo i due documenti, è facile arrivare alla conclusione che nell’accordo politico i punti sono espressi a un livello di astrazione decisamente maggiore rispetto al contratto. Tornando alle metodologie di progettazione di schemi concettuali, l’accordo politico è stato certamente ispirato ad un metodo bottom-up in cui M5s e PD hanno “messo insieme” i loro programmi, tra l’altro in versioni successivamente arricchite (ricordiamo i 10 punti di Di Maio che poi sono diventati 20); ma, sia per il poco tempo disponibile (il Presidente Mattarella premeva), sia probabilmente per raggiungere un livello di astrazione compatibile con le diversità e anche, probabilmente, la scia gli scontri e accuse scambiate tra M5S e PD nella precedente fase della legislatura, si è preferito astrarre, fino ad arrivare ad una versione il cui livello di astrazione fosse adeguato all’accordo. Non abbiamo in questo Capitolo gli strumenti per trattare il tema delle astrazioni in politica, che verranno discusse nel Capitolo 9, Sezione 4.5, a cui si rimanda il lettore.

Il fatto che l’accordo politico tra M5S e PD sia ad un elevato livello di astrazione naturalmente presenta de rischi, un po' come accade quando dopo una lunga discussione le due parti dicono per esaurimento: allora siamo d’accordo, è tutto risolto, salvo poi doversi ricredere alla prima discussione successiva. Ma accanto ai rischi, ha permesso di decidere che un governo ci sarà; è solo il futuro in questi casi che ci dirà come andranno le cose, se scendendo di livello di dettaglio prevarranno nella operatività gli elementi di convergenza ovvero gli elementi di divaricazione.

180

Riferimenti

C. Batini, Stefano Ceri, e Shamkant B. Navathe - Conceptual database design: an Entity-relationship approach - Vol. 116. Redwood City, CA: Benjamin/Cummings, 1992.

C. Batini, M. Scannapieco – Data and Information Quality, Springer Verlag, 2016.

A.Motro, P. Anokhin e A. C. Acar - Utility-based resolution of data inconsistencies. - Proceedings of the 2004 international workshop on Information quality in information systems. ACM, 2004.

A.Motro e P. Anokhin - Fusionplex: resolution of data inconsistencies in the integration of heterogeneous information source - Information fusion 7.2., 2006

181

Capitolo 7 – Dati e Semantica

M. Palmonari

1. Introduzione

Quando si parla di semantica dei dati, intuitivamente, ci si riferisce al tentativo di considerare il significato dei dati ai fini di supportare la loro elaborazione. Il termine semantica viene in realtà usato in diversi ambiti dell’informatica e del sapere, con una accezione tecnica; ad esempio, si dice che si definisce la semantica di un linguaggio di programmazione o la semantica di un linguaggio logico formale. A partire dalla seconda metà degli anni novanta, però, il consolidarsi del World Wide Web ha favorito i processi di produzione e consumo dei dati attraverso la rete, rendendo possibile generare dati in quantità sempre maggiore e in formato diverso e richiedendo strumenti sofisticati per la loro elaborazione.

Uno dei padri fondatori del World Wide Web, Sir Tim Berners Lee, che abbiamo citato nel Capitolo 3, ha immediatamente riconosciuto la necessità che la grande mole di dati disponibili fosse elaborabile attraverso l’utilizzo di informazioni semantiche, di informazioni rappresentate in maniera tale da favorire l’elaborazione da parte di applicazioni software [Gandon 2018]. Lo stesso Tim Berners Lee ha definito una vera e propria roadmap per costruire quello che ha definito web semantico [Berners-Lee 1998]. Vennero gettate quindi le basi oltre vent’anni di ricerche e innovazioni tecnologiche legate al Web semantico, il cui prodotto è un insieme di best practices (ad esempio, i principi per pubblicare Linked Open Data citati nel Capitolo 3), linguaggi (ad esempio RDF4), tecniche (ad esempio ontology matching), e tecnologie (ad esempio i triple store – database per rappresentare dati in RDF) finalizzate alla costruzione di un web che possa essere esplorato, consumato, ed elaborato in maniera automatica da parte di applicazioni. Quando si parla di tecnologie semantiche ci si riferisce spesso a questi prodotti. Tuttavia, l’utilizzo del termine “semantica” nell’ambito della Scienza dei dati fa riferimento a un insieme di modelli e processi più generali di quelli prodotti nell’ambito del Web semantico, nonostante questo filone di ricerca e innovazione tecnologica sia un esempio paradigmatico del tentativo di occuparsi in maniera nativa della semantica dei dati.

In questo capitolo cercheremo di introdurre, con un linguaggio il più semplice possibile rispetto a quello usato nei libri di logica, e corroborato da tanti esempi, alcuni dei principali obiettivi dell’applicazione della semantica alla Scienza dei dati. Utilizzeremo alcuni concetti base del Web semantico, ma cercheremo di inquadrarli in un ambito più ampio. Riteniamo che la semantica sia la disciplina che si occupa dell’interpretazione dei dati e che lo faccia da almeno due punti di vista: proponendo linguaggi e modelli che, qualora esplicitamente utilizzati, facilitino l’interpretazione dei dati; mettendo a punto tecniche per migliorare l’interpretazione dei dati rispetto a una data interpretazione di partenza (ad esempio, estraendo informazioni strutturate a partire da testi considerati come pure sequenze di parole).

4 https://www.w3.org/RDF/

182

Tratteremo tre temi che riteniamo di particolare interesse nel momento in cui scriviamo: il rapporto tra interpretazione e inferenza; il rapporto tra interpretazione e similarità; il problema di interpretare dei testi in quanto sorgenti di informazioni fattuali, piuttosto che in quanto mere sequenze di parole. Affrontando questi problemi di natura più teorica, introdurremo esempi concreti di strumenti introdotti per trattare la semantica dei dati quali: i grafi di conoscenza, le ontologie e i linguaggi proposti nel web semantico per rappresentarle, e alcune tecniche di base per l’estrazione di informazioni (come Named Entity Recognition). Dato lo spazio limitato, in questo capitolo ci poniamo soprattutto l’obiettivo di spiegare le relazioni che sussistono tra alcuni strumenti semantici particolarmente rilevanti oggi, evitando una trattazione esaustiva e rimandando, per questa, alla letteratura specializzata di riferimento.

Il capitolo è organizzato come segue. Prima di iniziare il nostro percorso, nella Sezione 2 introduciamo un piccolo esempio per discutere la relazione tra dati, significato e interpretazione, e per mostrare come il concetto apparentemente teorico di interpretazione abbia in realtà radici e implicazioni estremamente pratiche, legate, cioè, all’uso che vogliamo fare dei dati. Nella Sezione 3 traiamo alcune conclusioni che riguardano il rapporto tra semantica e interpretazione. Nella Sezione 4 discutiamo gli obiettivi della data semantics come disciplina. Nella Sezione 5 trattiamo la relazione tra semantica, rappresentazione della conoscenza e inferenza, introducendo concetti quali grafo di conoscenza e ontologia e linguaggi come RDF, RDFS e OWL per rappresentare e condividere grafi di conoscenza e ontologie sul web. Nella Sezione 6 discutiamo la relazione tra semantica e similarità, toccando alcuni temi legati all’integrazione dei dati e altre applicazioni in cui la similarità gioca un ruolo privilegiato; estendiamo in questo modo la trattazione effettuata nel Capitolo 6. Nella Sezione 7 discutiamo il rapporto tra semantica ed estrazione di informazioni da documenti non strutturati, introducendo brevemente tecniche ormai di uso comune come Named Entity Recognition e Named Entity Linking. Nella Sezione 8 traiamo alcune conclusioni e facciamo alcune note su alcune direzioni di ricerca recenti favorite dal successo delle tecniche di deep learning.

Nel documento La Scienza dei Dati (pagine 178-182)