• Non ci sono risultati.

ESTRARRE CONOSCENZA DAI BANDI ISI

S. AMATUCCI*, M.I. BARRA**, V. CHIODO ***, V. MORDANINI****, D. MAGNANTE**, G. MORINELLI*, M. SABANI**, F.R. LO PINTO**

* Inail, Direzione generale, Csa.

** Inail, Direzione generale, Contarp.

*** Inail, Direzione centrale prevenzione.

**** Inail, Direzione generale, Cit.

La gestione dei dati provenienti dai diversi bandi Isi che si sono succeduti in questi anni comporta una serie di problematiche che rendono il flusso delle informazioni non omogeneo e spesso frammentario.

L’utilizzo dei dati delle Imprese che accedono sia alle simulazioni sia al cosiddetto click-day è fondamentale per diversi ordini di motivi.

In primo luogo l’utilizzo delle informazioni delle imprese che hanno avuto accesso al click-daydà evidenza della struttura stessa delle imprese, della loro collocazione geografica, del proprio settore economico di riferimento. Inoltre conoscere le caratteristiche dell’impresa-tipo, che non è riuscita a superare il punteggio soglia, facilita la comprensione dei comples-si meccanismi alla base proprio del punteggio soglia e delle diverse griglie che servono al raggiungimento della soglia stessa.

A posteriori, il monitoraggio della evoluzione dei progetti che hanno avuto accesso al finan-ziamento serve a modulare i bandi successivi e a capire le eventuali criticità che possono sor-gere in fase di perfezionamento della pratica.

Per l’attuazione di tutto questo è necessaria l’acquisizione di una serie di strumenti specifi-ci atti a rendere adeguato il supporto informatico attualmente in uso al progetto Isi.

2. ARCHITETTURA DEL DATO

La capacità di elaborare il dato e la sua corretta interpretazione è al centro dei dibattiti degli ulti-mi anni. Infatti, il ruolo dell’informazione desunta dalla raccolta dei dati e la sua diffusione a vari livelli, sono il polo attorno al quale ruota il sapere, la conoscenza e la capacità di sviluppo.

La collezione dei dati senza una loro adeguata interpretazione non li rende utilizzabili e spen-dibili, la conoscenza si ottiene solo andando a individuare l’informazione contenuta nei dati stessi, e la maggior parte delle volte per arrivare a questa conoscenza c’è bisogno di una competenza multidisciplinare, di un approccio non parametrico, generato da una condivisio-ne di obiettivi che fa riferimento a disciplicondivisio-ne differenti, anche distanti tra loro.

Lo studio preventivo delle variabili economiche e degli indici di rischio infortunistico che entrano in gioco attraverso la partecipazione delle imprese ai bandi ISI consente di andare ad individuare come distribuire all’interno del territorio nazionale le risorse economiche che serviranno per le politiche prevenzionali. Tramite l’analisi dei parametri e dei punteggi da assegnare nel bando, vengono elaborate le tabelle con i dati riguardanti le cause di infortu-nio e malattie professionali maggiormente significative a livello regionale. Il tutto viene sup-portato dall’analisi sui dati degli incentivi del bando precedente andando a monitorare a posteriori le reali politiche di prevenzione poste in essere dalle imprese che hanno avuto accesso ai finanziamenti.

La conoscenza del dato è allora fondamentale, non soltanto quella del dato che si desume dai progetti presentati dalle imprese che prendono parte ai bandi al momento della registrazione, ma anche quella del dato non strutturato che si “nasconde” nelle pieghe delle singole pratiche.

Per estrarre conoscenza dai documenti presentati dalle aziende, occorre affiancare alla lettu-ra del dato struttulettu-rato presente nella domanda di ammissione, un’analisi del dato di livello superiore che prescinda dagli strumenti cosiddetti tradizionali e strizzi l’occhio a tutta una serie di tecnologie d’avanguardia, in grado di trovare legami nascosti tra dati apparentemente diversi di ditte apparentemente distanti economicamente tra loro.

Per fare tutto ciò, il progetto che congiuntamente stanno portando avanti la Cit, la Contarp, la Csa e la Direzione centrale prevenzione, si sta avvalendo di strumenti software ad hoc in grado di evidenziare legami non evidenti tra le pratiche, desunti da dati “non ovvi” presenti nei documenti a corredo delle pratiche di finanziamento.

Seminario di aggiornamento dei professionisti Contarp, Csa, Cit

192

3. METODI PER ESTRARRE CONOSCENZA

Il metodo migliore per poter monitorare le informazioni non ovvie contenute nella docu-mentazione giunta all’Inail dalle ditte che prendono parte ai vari avvisi di finanziamento è quello di estrarre conoscenza dal contenuto testuale dei documenti tra questi scambiati.

Esistono, infatti, numerose tecniche e sistemi di estrazione della conoscenza dai testi, che sono in grado di rappresentarne il contenuto in vari modi e che vanno dal modello statistico relativo all’uso dei termini più significativi in esso presenti (reti bayesiane, sistemi di text-mininge datamining), alla descrizione in forma simbolica mediante una serie di proposizio-ni che ne riassumono il contenuto (parser sintattici, sistemi di knowledge miproposizio-ning). Gli attua-li metodi statistici e strumenti di data mining estraggono pattern ricorrenti da dati e infor-mazioni considerando solo i loro attributi e non la conoscenza di dominio. Tali sistemi non sono, quindi, in grado di assegnare nuovi significati al testo relativo a parole o frasi, perché né direttamente ricavabili dal suo contenuto, né riescono a richiamare parte della conoscen-za assimilata in precedenconoscen-za.

I recenti strumenti che rientrano nel campo del knowledge mining sono invece basati su modelli computazionali che acquisiscono nuova conoscenza a partire sia dai fatti che dalla conoscenza di dominio acquisita antecedentemente. Questi strumenti comprendono una base di dati, una base di conoscenza, strumenti per l’analisi di dati e per l’apprendimento indutti-vo di nuove regole. Quindi gli strumenti di knowledge mining sono particolarmente adatti e promettenti in situazioni in cui la conoscenza è frutto dell’indivisibile insieme di dati strut-turati e non strutstrut-turati e richiede un modello di interpretazione dello specifico contesto azien-dale. Questo tipo di tecnologie consentono di dedurre il modello da un limitato insieme di documenti e dati e di applicarlo in modo induttivo all’intero universo di dati, con successivi e continui affinamenti del modello stesso basato su tecniche di machine learning.

4. APPROCCIO E TECNOLOGIE SPERIMENTATI

Il metodo utilizzato per affrontare un progetto di questo tipo, basato su metodiche di estra-zione della conoscenza, nel contesto dei bandi Isi, è stato:

• definizione delle variabili di analisi descrittiva del fenomeno e degli obiettivi di predizio-ne sulla base della analisi storica dei dati;

• individuazione delle fonti e mappatura dei contenuti destrutturati che servono ad integra-re i dati strutturati;

• pre-processing (pulizia dei dati, analisi esplorativa, selezione, trasformazione, formatta-zione);

• estrazione/acquisizione dei dati (a integrazione dei dati strutturati preesistenti) con tecni-che di intelligenza artificiale sia puntuali sul singolo documento sia a livello di concetti sull’intero corpus di documenti;

• esplorazione dei dati con utilizzo di molteplici tecniche di analisi e visualizzazione dei dati;

• interpretazione/valutazione dei risultati.

Questo schema non è in realtà lineare ma richiede di iterare il processo dopo aver arricchito le fasi precedenti di correttivi, di correlazioni e di pulizia dei dati da parametri che possono confondere il modello (rumore).

Le tecnologie utilizzate per supportare questo metodo sono state:

• riconoscimento Intelligente a livello di documento in grado di riconoscere all’interno dello stesso particolari formati come tabelle, grafici, specifici dati ed estrarne i dati;

Sfide e cambiamenti per la salute e la sicurezza sul lavoro nell’era digitale

• modelli statistici di riconoscimento dei concetti, entità e relazioni su un set di apprendi-mento denominato ground truth da esportare su tutto il dominio;

• strumenti di esplorazione e filtro delle informazioni in base alle entità ed i dati struttura-ti modellastruttura-ti;

• strumenti di analisi per la pulizia e correzioni dei dati del modello;

• strumenti di rappresentazione descrittiva e grafica dei dati per analisi del fenomeno;

• strumenti per la costruzione di modelli machine learning di interpretazione dati per clu-sterizzazione ed analisi di correlazione dati.

Per supportare e velocizzare i cicli di iterazione si è tenuto conto di un disegno integrato di una piattaforma di analisi in modo da facilitarne l’utilizzo autonomo da parte dell’analista dati esperto di dominio.

Nel corso del convegno verranno illustrati i primi risultati a cui si è giunti andando a inda-gare le informazioni non ovvie presenti nell’ambito della documentazione a corredo dei pro-getti presentati dalle imprese.

Seminario di aggiornamento dei professionisti Contarp, Csa, Cit

194

RIASSUNTO

La Contarp e la Csa hanno sviluppato l’applicativo Co&Si per assistere il datore di lavoro, soprattutto quello delle piccole e medie imprese, nella determinazione delle spese da lui soste-nute per la salute e sicurezza sul lavoro, sia quelle generate dalle misure di prevenzione e pro-tezione ma anche e soprattutto quelle generate dal verificarsi di eventi infortunistici.

Scopo del presente lavoro è quello di illustrare i dati che le aziende hanno inserito utilizzan-do l’applicativo, che consentono di ottenere indicazioni interessanti sulla distribuzione delle risorse aziendali, sugli investimenti in prevenzione e sulla incidenza dei costi indiretti cor-relati agli eventi infortunistici. Tale applicativo ci ha consentito di ottenere dati di dettaglio difficilmente disponibili nella bibliografia a livello europeo che possono essere utili per la definizione delle strategie prevenzionali dell’Istituto.

1. INTRODUZIONE

Per cercare di far percepire a tutti il ritorno economico di una buona gestione della salute e sicurezza sul lavoro è necessario mettere le aziende a conoscenza di tutti i costi legati alla salute e sicurezza; non sempre infatti questi costi sono facilmente rilevabili e misurabili in termini di costo.

La difficoltà di individuare e quantificare questi costi può portare a sottovalutare molto i costi totali legati al verificarsi di un infortunio.

Il software Co&Si consente all’imprenditore di personalizzare la stima di tali costi inseren-do pochi dati caratteristici della propria azienda. Infatti attraverso un algoritmo di calcolo che utilizza sia dati aziendali inseriti dall’imprenditore che quelli disponibili dalle banche dati dell’Inail è possibile stimare tutti i costi che l’azienda ha sostenuto per la salute e sicu-rezza. Inoltre attraverso il confronto con i più bassi indici infortunistici delle aziende che investono in sicurezza sul lavoro (individuate nelle aziende certificate OHSAS 18001) l’ap-plicativo consente di stimare il risparmio per la singola azienda che conseguirebbe dall’im-plementazione di una corretta ed efficace politica prevenzionale.

I COSTI DELLA NON SICUREZZA IN ITALIA: RISULTATI