Apprendimento - Coreference Resoultion basata su reti neurali deep

la coreference resolution in generale.

3.6 Apprendimento

La procedura di apprendimento è una componente fondamentale del sistema di risoluzione della coreference, in quanto è tramite tale procedura che il sistema è in grado di apprendere come debba discriminare quali coppie antecedente-menzione siano coreferenti. È inoltre necessario valutare con at- tenzione la modalità di apprendimento selezionata: è possibile ridurre i tempi di apprendimento, limitando però in questo modo anche il numero di esempi disponibili e le performance della rete, oppure aumentare il numero di esempi incrementando tuttavia i tempi di calcolo richiesti.

A causa del tempo e delle risorse computazionali disponibili, si `e scelto di eseguire l’algoritmo di apprendimento a partire da golden mention, in modo da ottenere un numero minore di candidati. Si popola dunque la lista di batch di cui si `e discusso nell’algoritmo 4 con menzioni che sono contenute in fasi uguali o successive alla prima menzione della coreference chain a cui appartiene la menzione corrente.

A causa del grande numero di coppie menzione-antecedente che è possibile considerare (quadratico nel numero di menzioni del documento), non è stato possibile memorizzare tutte le coppie del training set sulle quali eseguire l’apprendimento. È pertanto necessario generare le coppie a tempo di esecuzione, operazione che richiede risorse computazionali considerevoli. Per tale ragione si è implementato un generatore di batch su cui far apprendere la rete, che parallelizza la generazione degli input e delle label a partire dal training set.

Algoritmo 7 Generatore di coppie input/valore per il training della rete neurale

1: Input: C, the corpus, a list of documents

3: RNGseed(e)

4: shuffle(C)

5: t ← []

6: while i < |C| do

7: b ← a list of batches of coreference chains in the next 300 documents

8: while |b| > 0 do

9: c ←popfirst(b)

10: R ← parallel map(get training couples,R)

11: for all r ∈ R do

12: concatenate(r,t)

13: if |t| ≥ 30 ∗ batch size then

14: shuffle(t)

15: while |t| ≥ batch size do

16: curr ← remove the first batch size elements from t

17: yield curr 18: end while 19: end if 20: end for 21: end while 22: i ← max(i + 300, |C|)

23: save i and the network weights to disk

24: end while

25: while |t| ≥ batch size do

26: shuffle(t)

27: curr ← remove the first batch size elements from t 28: yield curr

29: end while

Il generatore (algoritmo 7) opera dunque su batch di coreference chain estrat- ti da 300 documenti per ciascuna iterazione. Si noti come venga inizializzato il seed del RNG tramite RNGseed(e), che consente di riprendere il training anche se vengono mescolati i documenti tramite la funzione shuffle, in quanto

3.6 Apprendimento 107 per ciascuna epoch si ottiene lo stesso ordine di mescolamento.

Il generatore procede poi utilizzando una versione parallela della primitiva Map, parallel map, per ottenere una lista di liste di coppie input,label ottenute dalle coreference chain fornite alla funzione get training couples. Nella nostra implementazione viene però utilizzata una versione asincrona di map, che ritorna le coppie input,label man mano che esse vengono costruite da un pool di processi. Nella descrizione dell’algoritmo si è scelto di non evidenziare tale aspetto per semplificarne la notazione. Ciascuna coppia ot- tenuta viene poi concatenata a quelle precedenti in modo da rispettare le relative dimensionalità, tramite la funzione concatenate. Si tenga presen- te che nell’implementazione concreta è stato necessario effettuare il padding delle sequenze di lunghezza variabile, in modo da consentire al sistema il training tramite batch, che richiede che esse abbiano la stessa dimensionalità per poterle utilizzare come input. Si è inoltre aggiunto un livello di masking alla rete neurale, che le consente di ignorare il padding (non vengono considerati i word vector che abbiano solo valori pari a 0).

Successivamente si attende che il sistema abbia ottenuto un numero suf- ficiente di coppie input/label (nell’esempio 30 volte la dimensione del batch size) per consentire di mescolarle ulteriormente, in modo da ottenere batch rappresentativi di pi`u coreference chain possibile.

Si esegue tale operazione finch´e non si sono esauriti i batch dei documenti correnti, procedendo a questo punto al salvataggio dei dati necessari alla ripresa del training nel caso di interruzioni inattese (l’indice del prossimo documento da processare e i pesi della rete neurale).

Una volta esauriti tutti i documenti si controlla infine se sia possibile fornire alla rete un ulteriore batch (se, in sostanza, il numero di coppie rima- nenti `e superiore a batch size ma inferiore a 30 ∗ batch size), altrimenti la funzione ritorna, causando l’inizio di una nuova epoch.

Si `e dunque fornita una descrizione del generatore di esempi per il training, ma non si `e definita la funzione get training couples utilizzata dalla parallel map. Essa risulta essere analoga a quanto visto in precedenza

durante la descrizione del modello mention-pair da noi modificato. Algoritmo 8 Costruttore di esempi per il training

1: Input: the coreference chain c

2: r ← [] 3: for all m ∈ c do 4: lm ←get candidates(m) 5: while |lm| > 0 do 6: b ←popfirst(lm) 7: for all a ∈ b do 8: e ← (m, a, is coreferent(m,a)) 9: append(e,r) 10: end for 11: end while 12: end for 13: return r

Le coppie input/label per una data coreference chain vengono dunque indi- viduate a partire dalla lista di candidati costruita tramite l’algoritmo 4, in modo da rispecchiare il funzionamento del solver durante l’esecuzione vera e propria. Il numero di candidati viene tuttavia limitato, come detto, considerando solo le menzioni che non precedono la prima menzione della coreference chain in esame. Se viene individuato un coreferente, a differenza di quanto avviene in fase di testing, si procede considerando tutti gli altri candidati, in modo da aumentare il numero di esempi e consentire alla rete di distingue- re anche candidati che non sono immediatamente precedenti alla menzione corrente. Nel caso non vi siano antecedenti della menzione corrente vengono esaminati tutti i candidati fino all’inizio del documento.

Una volta descritto il generatore e la funzione utilizzata per ottenere esempi a partire da ciascuna coreference chain, `e necessario descrivere le pri- mitive di apprendimento utilizzate. L’utilizzo di un generatore ha consentito infatti di sfruttare una primitiva della libreria keras chiamata fit generator.

3.6 Apprendimento 109 Tale primitiva permette l’utilizzo di un generatore di esempi di training per evitare un utilizzo insostenibile di memoria durante l’esecuzione. Se le spe- cifiche richiedono che il generatore fornisca dati in modo continuo senza mai ritornare, nel solver implementato `e risultato utile sfruttare in modo non ortodosso tale primitiva per generare tutti gli esempi di una singola epoch di apprendimento. A tal fine si `e fatto ritornare il generatore, causando un’eccezione che viene poi gestita, salvando inoltre lo stato della rete dopo ciascuna epoch. Tale approccio, unito alla memorizzazione su disco dell’epoch corrente e del prossimo documento su cui si debba fare training, consente di riprendere manualmente l’apprendimento in caso di interruzioni inattese.

Rispetto alla funzione loss utilizzata in fase di apprendimento, si è scelta una variante della categorical cross entropy, che viene fornita da keras, detta binary cross entropy per quanto riguarda la versione della rete con un solo neurone di input. La ragione di tale scelta risiede nella possibilità, fornita da tale funzione, di utilizzare un solo neurone di output per rappresentare una scelta binaria, che nel nostro caso corrisponde alla presenza di una relazione di coreferenza fra la menzione corrente e l’antecedente. Si è invece utilizzatal la categorical cross entropy per la versione con due neuroni di output. Per quanto riguarda l’ottimizzatore, si è utilizzato Adam, che, a differenza di minibatch gradient descent, è in grado di utilizzare informazioni statistiche sugli aggiornamenti applicati alla rete nei batch precedenti per calcolare il passo di aggiornamento successivo. Sfortunatamente non è stato possibile valutare in maniera approfondita ottimizzatori alternativi, quali ad esempio rmsprop.

Si `e dunque discusso l’approccio utilizzato per il training della rete neurale, fornendo sia i dettagli implementativi riguardanti l’utilizzo di un generatore di esempi, che sfrutta un approccio multiprocesso, sia aspetti legati all’algoritmo di training vero e proprio applicato alla rete. Si discuter`a in seguito di alcuni aspetti legati alla validazione e al testing dell’algoritmo, che non sono stati trattati in precedenza.

Nel documento Coreference Resoultion basata su reti neurali deep (pagine 117-122)