Human In The Loop - Estrazione di entità da testi della Pubblica Amministrazione

Fin qui il lavoro diSOA extraction ci ha portati a considerare due tecnologie molto diverse per approccio e manutenibilit`a.

In particolare, le regex risultano di risultato immediato poiché in pochi minuti ci consentono di svolgere un’estrazione di dati SOA con discreti valori di recall, ma soffrono di scarsa leggibilità, manutenzione problematica e risultano perciò decisamente error-prone; nonostante un incoraggiante risultato immediato, non permettono di migliorare in maniera efficiente l’estrazione di entità per tutta una serie di fattori. Consideriamo ad esempio il manutentore a cui toccherà estendere la regex in produzione reg prod_n: il suo compito sarà tipicamente quello di tra-sformare la reg prodn in una reg prodn+1 in maniera da includere i nuovi pattern pm+1, . . . , p_m+k. Le domande che ci poniamo sono allora le seguenti:

• Quella vecchia regex reg prodn sar`a stata fino ad allora documentata per tenere traccia dei pattern precedenti p₁, . . . , p_m ?

• Oppure spetter`a al programmatore ricordare tutti i singoli pattern che venivano catturati con la precedente versione della regex?

• E la regex avr`a dei dati di testing, per verificare che la nuova versione reg prodn+1 non comprometta i pattern fino ad allora accettati?

Tutte queste domande si ritrovano nell’indagine statistica di “Regexes are hard”

[6], dove emerge che le best practices dell’uso delle regex sono sistematicamente

disattese: le regex vengono scritte perlopi`u senza aggiungere documentazione e senza dati di test. Tutte queste problematiche nel complesso impediscono ad un sistema basato su regex di essere efficiente nel miglioramento della Precision.

Al contrario, le reti neurali possono nel tempo “imparare meglio” le entit`a con cui hanno a che fare ma richiedono un consistente lavoro umano di annotazio-ne e classificazioannotazio-ne delle entit`a presenti annotazio-nei dati stessi; in altre parole, manca-no dell’immediatezza delle regex ma rendomanca-no fattibile il fine-tuning del sistema classificatore.

I rispettivi punti di forza e di debolezza delle due metodologie risultano comple-mentari, per cui ha senso combinarli in un unico sistema che sfrutti i vantaggi di entrambe, mitigandone gli svantaggi.

Data

N ERregex

types

create_regex

correct_k(labels_i)

labelsi

labels₀

training

N Ni

Figura 6.3: Framework HITL: fase di addestramento

Configuriamo l’uso delle componenti regex, ML, task di creazione regex e task di annotazione manuale come un sistema di tipoHITL. In tale sistema l’essere umano può essere utilizzato come programmatore di regex e come annotatore a più riprese successive. Partendo dallo studio “How to invest my time” [10], l’indicazione che traiamo per usare al meglio il lavoro umano è investire pochi minuti sulla creazione di regex ad altaRecallper poi effettuare la correzione umana delle annotazioni pro-dotte dalla regex stessa. Seguendo la convenzione dello studio citato, chiameremo

“weak labelling” l’estrazione svolta con la regex, che indicheremo con REW L: le label cos`ı prodotte risultano “weak”, ossia non verificate e passibili d’errore. L’at-tività umana correct_klabels, partendo dalle weak labels come input iniziale labels0, ad ogni iterazione i apporterà k correzioni che andranno a formare l’insieme di labels labelsi. Qualora il ciclo continui, tale insieme i-esimo potrà essere adoperato come input dell’iterazione i+1 ; in caso contrario verrà assunto come training set per istruire la rete neurale.

0 100 200 300 400 500 600 700 800 900 1,000

Figura 6.4: Human In The Loop: F1-score, Precision e Recall.

Il risultato del loop `e l’addestramento della rete neurale n-esima N Nn utilizzabile per effettuare il task di NER. Chiameremo N ER HIT Ln il task di NER condotto con la N Nn cos`ı prodotta a valle del loop.

L’uso dello Human In The Loop pu`o essere vantaggioso se effettuato in maniera tale da:

• istruire una rete neurale in un tempo minimo di lavoro umano;

• permettere il fine-tuning della rete neurale stessa con l’intervento dell’annotatore umano.

Seguendo dunque lo studio gi`a citato, l’operatore umano deve destinare pochi minuti alla realizzazione delle regex REW L. Nella nostra prova utilizziamo le regex

regex − soa_wl−v1 = 'O(S|G)(dd?)'

regex − class_wl−v1 = '(IV |IV |III|II|IX|V III|V II|V I|X|V |I)'

realizzate in pochi minuti su un tool di regex-editing liberamente disponibile onli-ne. Usando tali regex abbiamo quindi prodotto le weak labels che vanno a formare

il dataset iniziale labels0; per ogni iterazione successiva i > 0 vengono dunque corrette k annotazioni weak con k = 100. Il grafico6.4 illustra l’evoluzione del si-stemaHITLall’aumentare delle correzioni umane apportate alle weak labels: viene rappresentato il guadagno in termini diPrecision, Recall e F1-score. In vari espe-rimenti analoghi a quello riportato in figura6.4si evince come in dieci iterazioni di correzione il sistema valutato in termini di P, R, F1 riporti i guadagni minimi:

∆(p)i=10 = (22%)

∆(r)i=10 = (34%)

∆(f )i=10 = (32%)

annot.gold p r f p - pM L r - rM L f - fM L

0 0.6231 0.3191 0.4003 -0.2244 -0.4586 -0.3970

100 0.6163 0.3632 0.4362 -0.2312 -0.4145 -0.3611

200 0.6541 0.3811 0.4597 -0.1935 -0.3966 -0.3376

300 0.7001 0.4222 0.4955 -0.1475 -0.3555 -0.3018

400 0.7281 0.4783 0.5490 -0.1195 -0.2995 -0.2483

500 0.8377 0.6234 0.6917 -0.0098 -0.1543 -0.1056

600 0.8365 0.6569 0.7120 -0.0110 -0.1208 -0.0853

700 0.8345 0.6698 0.7218 -0.0130 -0.1079 -0.0755

800 0.8439 0.6872 0.7385 -0.0036 -0.0905 -0.0588

900 0.8508 0.6803 0.7373 0.0032 -0.0974 -0.0600

1000 0.8458 0.7071 0.7527 -0.0018 -0.0706 -0.0446

Figura 6.5: I valori di p,r,e f1 di NER HITL-v1 e scarti rispetto a NER ML E da notare come l’iterazione numero dieci registri i valori:`

Pi= 0.8458

Ri= 0.7071 Fi= 0.7527

a fronte dei valori del sistema NER ML costruito sulla ground truth PN ER M L = 0.8476

RN ER M L = 0.7778 F_{N ER M L} = 0.7973

Possiamo osservare lo stesso specifico esperimento alla tabella 6.5, dove forniamo anche un calcolo degli scarti tra i valori del NER ML e i valori dello HITL ad ogni

iterazione i. Si nota come le prestazioni di N ER HIT Ln tendano a migliorare all’aumentare delle iterazioni n.

I dataset adoperati: Nel caso ML sono state necessarie annot − M L = 2218 annotazioni gold prodotte da un annotatore umano; di questo numero di

annotazioni totale, 1500 vanno a costituire il training set ML. Considerando invece il caso del sistema HITL, vengono corrette annot − HIT L₁₀= 1428 annotazioni silver, di cui 1000 sono impiegate al fine di correggere le annotazioni precedentemente prodotte con regex (1315 annotazioni prodotte con regex).

Dunque l’esperimento HITL adopera internamente

annot − M L(annot − HIT L10= 790 annotazioni in meno. Va considerato per`o il tempo di produzione delle annotazioni gold e silver_corrected: se la produzione di un’annotazione gold richiede tgold−single−annot= 14s, la correzione di

un’annotazione silver richiede soli tsingle−silver−correct = 6,52 secondi mediamente.

Confrontando dunque il tempo usato dall’operatore umani per i due scenar di annotazione, risulta che abbiamo risparmiato

tM L−annot− tsilver−correct= (2218 · 14)s − (1300 · 6.52)s = 22576s pari a pi`u di 6 ore per la produzione del dataset. In questo senso, ricorrere al sistema HITL fino all’iterazione i=10 fa risparmiare una percentuale pari al 72% del tempo totale di annotazione.

HITL-14: Se la precision p10 del sistema N ER HIT L10 `e soddisfacente, abbiamo mostrato una r10 che dello 0.70, pari a 7 punti percentuali inferiori rispetto alla N ER M L. Possiamo dunque decidere di incrementare il numero di correzioni a dataset e proseguire con ulteriori iterazioni. All’iterazione i = 14 abbiamo ottenuto il superamento delle prestazioni misurate dalla N ER M L. Si registrano i valori:

p_H14 = 0.8823, r_H14 = 0.7723, f_H14 = 0.8141

Per raggiungere l’iterazione 14 `e stato necessario fornire annot − HIT L10 = 2000s annotazioni silver_corrected. La loro produzione richiede un tempo pari a

tsilver−correct= 2000 · 6.52s, che confrontato a tM L−annot comporta un risparmio del 58% del tempo di annotazione del NER ML.

Possiamo constatare che nel complesso lo schema HITL ha permesso di realizzare due esperimenti alquanto interessanti. Se la resa di HITL-10 risulta infatti non ottimale, dobbiamo tenere in considerazione che apporta il vantaggio di ridurre drasticamente il tempo umano d’annotazione (72% in meno rispetto a

time_{annotM L} avvalendosi di un numero di annotazioni nannotHIT L10 = 1300 molto inferiore al numero di annotazioni nannotM L = 2218 utilizzate nell’approccio NER ML puro. `E da notare l’iterazione HITL-14 che, adoperando un numero di annotazioni pari anannotHIT L14 = 2000 maggiore rispetto al caso i = 10, ottiene delle performance superiori al NER ML richiedendo un tempo d’annotazione molto minore rispetto al NER ML stesso.

Capitolo 7 Conclusioni

Scopo di questa tesi è stato effettuare un task di Named Entity Recognition su documenti provenienti dalla pubblica amministrazione; tale set di documenti, rumorosi in un quanto spesso ottenuti via OCR a partire da documenti stampati, risulta spesso descrivere gli stessi dati formali con diciture variabili. È stata presentata l’implementazione del task di NER con l’uso di regex, ma è apparso chiaro come questo approccio risulti difficile da migliorare nel tempo; infatti le regex alla modifica risultano error-prone e di difficile manutenzione e

documentazione, caratteristiche che non aiutano ad esprimere pattern molto variabili. D’altro canto `e stato presentato un NER che adopera tecniche di supervised deep learning e che meglio si adegua ad estrarre dati variabili, a spese tuttavia di un ingente tempo umano di annotazione. `E apparsa dunque

conveniente la possibilità di effettuare una “weak supervision” adoperando un dataset prodotto dal task di NER regex; tale dataset viene prodotto in pochi minuti, dopodiché è sottoposto a cicliche iterazioni di correzione da parte di un annotatore umano. Il loop di addestramento cos`ı configurato è detto Human In The Loop. Abbiamo notato come l’operatore umano sia significativamente più veloce nel compito di correzione-annotazione rispetto al compito di produzione di annotazioni from scratch. Valutando le perfomance di NER HITL i al variare dell’iterazione i-esima, è emerso che: è possibile ottenere un risultato subottimale con la sola annotazione-correzione di 1000 annotazioni, sacrificando 7% di recall ma comunque risparmiando più del 70% del tempo d’annotazione. Infine,

portando le iterazioni di NER HITL i a 14 è possibile superare le prestazioni di NER ML, adoperando comunque il 10% di annotazioni in meno e risparmiando un tempo di annotazione pari a 58%. È possibile immaginare dei futuri miglioramenti per lo schema Human In The Loop individuato; in particolare si potrebbe fornire all’annotatore una metrica per calcolare quali porzioni di testo sono più rumorose e probabilmente più prioritarie rispetto al task di annotazione-correzione .

Acronimi

A Accuracy. 13

CIG Codice Identificativo di Gara. 6 CUP Codice Unico di Progetto. 6 F1 F1-score. 35

FN False Negative. 13 FP False Positive. 12, 13

HITL Human In The Loop. 15, 17,33–35 I classifica fino a euro 258.000. 9

II classifica fino a euro 516.000. 9

III bis classifica fino a euro 1.500.000. 9 III classifica fino a euro 1.033.000. 9 IV bis classifica fino a euro 3.500.000. 9 IV classifica fino a euro 2.582.000. 9 ML Machine Learning. 15, 31,33

NER Named Entity Recognition. 15,17, 31, 34 NN Neural Network. 15, 16,29

OG-1 Edifici civili e industriali. 7

OG-10 Impianti per la trasformazione alta/media tensione e per la distribuzione di energia elettrica in corrente alternata e continua ed impianti di pubblica illuminazione. 7

OG-11 Impianti tecnologici. 7

Acronimi

OG-12 Opere ed impianti di bonifica e protezione ambientale. 7 OG-13 Opere di ingegneria naturalistica. 7

OG-2 Restauro e manutenzione dei beni immobili sottoposti a tutela. 7 OG-3 Strade, autostrade, ponti, viadotti, ferrovie, metropolitane. 7 OG-4 Opere d’arte nel sottosuolo. 7

OG-5 Dighe. 7

OG-6 Acquedotti, gasdotti, oleodotti, opere di irrigazione e di evacuazione. 7 OG-7 Opere marittime e lavori di dragaggio. 7

OG-8 Opere fluviali, di difesa, di sistemazione idraulica e di bonifica. 7 OG-9 Impianti per la produzione di energia elettrica. 7

OS-1 Lavori in terra. 7

OS-10 Segnaletica stradale non luminosa. 8 OS-11 Apparecchiature strutturali speciali. 8 OS-12-A Barriere stradali di sicurezza. 8

OS-12-B Barriere paramassi, fermaneve e simili. 8 OS-13 Strutture prefabbricate in cemento armato. 8 OS-14 Impianti di smaltimento e recupero rifiuti. 8 OS-15 Pulizia di acque marine, lacustri, fluviali. 8

OS-16 Impianti per centrali produzione energia elettrica. 8 OS-17 Linee telefoniche ed impianti di telefonia. 8

OS-18-A Componenti strutturali in acciaio. 8 OS-18-B Componenti per facciate continue. 8

OS-19 Impianti di reti di telecomunicazione e di trasmissioni e trattamento. 8 OS-2-A Superfici decorate di beni immobili del patrimonio culturale e beni

culturali mobili di interesse storico, artistico, archeologico ed etnoantropologico. 7

OS-2-B Beni culturali mobili di interesse archivistico e librario. 7 OS-20-A Rilevamenti topografici. 8

Acronimi

OS-20-B Indagini geognostiche. 8 OS-21 Opere strutturali speciali. 8

OS-22 Impianti di potabilizzazione e depurazione. 8 OS-23 Demolizione di opere. 8

OS-24 Verde e arredo urbano. 8 OS-25 Scavi archeologici. 8

OS-26 Pavimentazioni e sovrastrutture speciali. 8 OS-27 Impianti per la trazione elettrica. 8

OS-28 Impianti termici e di condizionamento. 8 OS-29 Armamento ferroviario. 8

OS-3 Impianti idrico-sanitario, cucine, lavanderie. 7

OS-30 Impianti interni elettrici, telefonici, radiotelefonici e televisivi. 8 OS-31 Impianti per la mobilit ˜A sospesa. 8

OS-32 Strutture in legno. 8 OS-33 Coperture speciali. 8

OS-34 Sistemi antirumore per infrastrutture di mobilit ˜A . 8 OS-35 Interventi a basso impatto ambientale. 8

OS-4 Impianti elettromeccanici trasportatori. 7 OS-5 Impianti pneumatici e antintrusione. 7

OS-6 Finiture di opere generali in materiali lignei, plastici, metallici e vetrosi. 7 OS-7 Finiture di opere generali di natura edile e tecnica. 7

OS-8 Opere di impermeabilizzazione. 7

OS-9 Impianti per la segnaletica luminosa e la sicurezza del traffico. 8 P Precision. 13,33, 35

PA Pubblica Amministrazione. 4,5, 10 R Recall. 13, 33,35

SOA Societ`a Organismi di Attestazione. 6,20, 32

Acronimi

TN True Negative. 12, 13 TP True Positive. 12, 13

V classifica fino a euro 5.165.000. 9 VI classifica fino a euro 10.329.000. 9 VII classifica fino a euro 15.494.000. 9 VIII classifica oltre euro 15.494.000. 9

Bibliografia

[1] A. Basacchi. Codice civile. Il nuovo codice civile aggiornato. Kollesis Editrice, 2013.

[5] Pierre Andr´e M´enard and Antoine Mougeot. Turning silver into gold:

error-focused corpus reannotation with active learning. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019), pages 758–767, Varna, Bulgaria, September 2019. INCOMA Ltd.

[6] Louis G. Michael, James Donohue, James C. Davis, Dongyoon Lee, and Francisco Servant. Regexes are hard: Decision-making, difficulties, and risks in programming regular expressions. In 2019 34th IEEE/ACM International Conference on Automated Software Engineering (ASE), pages 415–426, 2019.

[7] Hiroki Nakayama, Takahiro Kubo, Junya Kamura, Yasufumi Taniguchi, and Xu Liang. doccano: Text annotation tool for human, 2018. Software

available from https://github.com/doccano/doccano.

[8] T. L. Packer and D. W. Embley. Cost effective ontology population with data from lists in ocred historical documents. In Proceedings of the 2nd International Workshop on Historical Document Imaging and Processing, pages 44–52, 2013.

[9] T. L. C. D. Silva, Regis Pires Magalhães, J. Macêdo, David Araújo, Natanael Araújo, Vinicius de Melo, Pedro Ol´ımpio, P. Rego, and A. V. L. Neto.

Improving named entity recognition using deep learning with human in the loop. In EDBT, 2019.

[10] Shanshan Zhang, Lihong He, Eduard Dragut, and Slobodan Vucetic. How to invest my time: Lessons from human-in-the-loop entity extraction. KDD ’19, pages 2305–2313, New York, NY, USA, 2019. Association for Computing Machinery.

Nel documento Estrazione di entità da testi della Pubblica Amministrazione (pagine 33-43)