• Non ci sono risultati.

COMPLIANCE BY AUTOMATION - L’AUTOMAZIONE AGEVOLA LA RIORGANIZZAZIONE

MARCELLO CROVARA *

3. IL TEXT MINING

Quindi, il Text Mining non è altro che una forma particolare di Data Mining applicato a fonti costituite da testi liberi, che vengono analizzati ed arricchiti per essere portati a rango di una base di dati strutturata, sulla quale poter applicare le tecniche note di Data Mining.

Questo significa che il grosso lavoro di un processo di Text Mining risiede nella fase di pre-processing linguistico, cioè l’elaborazione del testo attraverso conoscenze linguistiche e dizionari di riferimento, che riporta il testo stesso ad una forma strutturata, più consona per gli algoritmi di analisi.

3.1 Su cosa si fonda il Text Mining

I risultati ottenibili attraverso la fase di pre-elaborazione del testo sono realizzabili grazie ai traguardi raggiunti da un insieme di algoritmi che tutti insieme vanno sotto il nome di Natural Language Processing (brevemente NLP), che consentono di interpretare un testo attraverso l’uso di un computer. Tali algoritmi, formalizzando le conoscenze linguistiche specifiche e facendo uso di dizionari e vocabolari di riferimento, permettono di eseguire sul testo una serie di operazioni, ognuna con un compito specifico, come ad esempio:

• tokenizzazione, per identificare i singoli elementi del testo;

L’INNOVAZIONE TECNOLOGICA E METODOLOGICA AL SERVIZIO DEL MONDO DEL LAVORO

• stemming/lemmatizzazione, per identificare la radice di una parola a partire da una sua variazione per effetto di coniugazioni di verbi, declinazioni al plurale, acronimi, ecc.

• part-of-speech tagging, per identificare il ruolo di una parola all’interno di un periodo (verbo, attributo, soggetto, ecc.).

• ecc.

Tutte insieme, queste fasi permettono di compiere una analisi sintattica completa del testo, con lo scopo anche di attribuire il corretto significato alle parole in base al contesto in cui vengono utilizzate.

Si vuole sottolineare che tali risultati non sono per niente banali, dal momento che il lin-guaggio naturale è costituito spesso da espressioni che si prestano a interpretazioni diverse, e solo attraverso la conoscenza delle regole sintattiche del linguaggio e la comprensione del contesto si riesce ad attribuire la giusta semantica. In particolare, le sfide che devono essere affrontate dalla NLP sono:

• risolvere ambiguità sull’interpretazione delle parole, ad esempio

- nell’espressione “pesca la pesca” la parola “pesca”, che compare due volte, può esse-re sia nome che verbo, e in tal caso solo la conoscenza della struttura sintattica del lin-guaggio permette di stabilire che la prima occorrenza della parola è da interpretare come verbo coniugato al presente, mentre la seconda parola è un nome con funzione di complemento oggetto;

- la parola INAIL e l’insieme di parole “Istituto Nazionale Assicurazione Infortuni sul Lavoro” devono essere considerate sinonimi, essendo la prima un acronimo della seconda;

• risolvere ambiguità sull’interpretazione delle frasi, ad esempio

- la frase “la vecchia porta la sbarra”, presa a se stante potrebbe significare o che una porta di vecchia fattura ostruisce il passaggio ad una persona di sesso femminile, oppure che una donna anziana trasporta una qualche trave: ebbene, solo dalla cono-scenza del contesto in cui si trova tale frase si potrà dare la giusta interpretazione e stabilire, ad esempio, se “porta” è verbo o nome;

- nella frase “annunciato il matrimonio tra Fiat e Chrysler” il verbo “matrimonio” va inteso nel senso di unione societaria e non di unione civile/religiosa.

Gli algoritmi di NLP, dunque, possono essere più o meno sofisticati per riuscire a gestire in maniera più o meno esaustiva tali situazioni di ambiguità.

3.2 Funzionalità del Text Mining

Applicando le varie fasi di pre-processing accennate in precedenza, si arriva dunque a trasferi-re il documento di testo in una dimensione strutturata, in cui i singoli termini sono stati nor-malizzati ed etichettati con il loro ruolo sintattico. A questo punto, o con l’ausilio di dizionari sul linguaggio di riferimento o con l’uso dei metodi consolidati di Data Mining, si riescono a produrre dei risultati apprezzabili, che possono essere raggruppati nelle seguenti categorie:

1. Information extraction 2. Classificazione 3. Clustering

L’INNOVAZIONE TECNOLOGICA E METODOLOGICA AL SERVIZIO DEL MONDO DEL LAVORO

54

Tramite l’Information Extraction è possibile estrapolare dal documento alcune informazioni di interesse. Quindi, ad esempio, è possibile:

• identificare le parole più rappresentative del testo, quelle che, da sole, danno idea dell’argomento trattato; come conseguenza di tale funzionalità, è possibile anche arrivare alla creazione automatica di riassunti del documento, identificando stavolta le frasi più rap-presentative (ciò, ovviamente, non è efficace e non ha senso su testi di dimensioni ridotte).

• identificare le “entità” presenti nel testo, intendendo con ciò i termini che rappresentano, ad esempio, nomi propri di persona, o di luogo, oppure nomi di società, date, numeri telefonici, indirizzi, abbreviazioni, ecc.

• identificare i ruoli dei soggetti in relazioni esplicitate nel testo, vale a dire mettere in evi-denza strutture in cui sono coinvolte delle entità, come ad esempio <Napolitano><presi-dente><Italia> o <Vodafone><acquisisce><Tele2>

Tramite questa funzionalità, propria del trattamento automatico dei testi, è quindi possibile identificare nomi di istanze del mondo reale e relazioni tra tali istanze. Queste informazioni possono essere poi utilizzate per alimentare (anche in maniera automatica) delle ontologie1 del dominio in esame o, al contrario, un’ontologia può aiutare a migliorare la qualità dell’Information Extraction.

La Classificazione è invece una funzionalità già presente nei prodotti di Data Mining, e consiste nel poter categorizzare un documento rispetto ad una tassonomia nota e definita a priori, il tutto in maniera completamente automatica e con un elevato livello di affidabilità.

In sostanza, si utilizzano algoritmi di Machine Learning (es: reti neurali, Support Vector Machine, alberi di decisione), cioè programmi capaci di apprendere dall’esperienza. Tali programmi vengono inizialmente addestrati con un insieme di documenti già classificati correttamente (training-set); poi si verifica che l’addestramento abbia prodotto un’esperien-za affidabile, sottoponendo al programma altri documenti da classificare, ma dei quali si conosce il risultato atteso (testing-set). A questo punto, se la fase di apprendimento viene convalidata, il software è in grado di analizzare un qualsiasi input (un documento di testo, nella fattispecie) e assegnare a questo una o più categorie di appartenenza rispetto alla tas-sonomia predefinita, con indicazione anche della probabilità di successo che quella attribu-zione sia quella corretta. Con questa funzionalità, quindi, è possibile compiere in maniera automatica delle archiviazioni/classificazioni di documenti senza che nessuno proceda ad ispezionarne direttamente il contenuto.

Anche il Clustering è una funzionalità ereditata dal Data Mining, e consiste nell’esaminare un insieme di documenti testuali per cercare di organizzarli in raggruppamenti distinti, ma che all’interno comprendono documenti tra loro simili, il tutto a prescindere da una preesi-stente classificazione per quel genere di documenti, ma semplicemente sulla base degli argomenti in essi trattati. Pertanto, definita una misura di similarità tra due documenti (ad es: il numero di parole chiavi in comune), l’obiettivo del Clustering è trovare una configu-razione di raggruppamenti tale che sia massima la similarità tra documenti appartenenti allo stesso gruppo e sia minima la similarità tra documenti appartenenti a gruppi distinti. Questa

L’INNOVAZIONE TECNOLOGICA E METODOLOGICA AL SERVIZIO DEL MONDO DEL LAVORO

1 Un’ontologia è una rappresentazione formale di una realtà, in cui si descrivono le entità in gioco, le loro pro-prietà e le relazioni tra loro, e dove sono definiti e implementati degli algoritmi di ragionamento con cui è possibi-le inferire della nuova conoscenza a partire da quella già nota. L’argomento non è oggetto di tapossibi-le discussione e si rimanda alla bibliografia per gli approfondimenti.

funzionalità fornisce utili suggerimenti per possibili classificazioni di quel genere di docu-menti e nello stesso tempo può far emergere dei legami nascosti e impensati tra docudocu-menti apparentemente diversi tra loro.