• Non ci sono risultati.

Apprendimento per differenze temporali: i metodi TD

3. REINFORCEMENT LEARNING

3.3 Apprendimento per differenze temporali: i metodi TD

I metodi per differenze temporali (temporal-difference learning methods, d’ora in avanti abbreviati con TD) sono una classe di metodi RL in grado di apprendere gli input dall’ambiente senza bisogno di un modello che ne descriva le dinamiche. L’appellativo TD proviene dall'impiego di tali metodi dei cambiamenti, o differenze, tra due step temporali consecutivi al fine di implementare il processo di apprendimento: la previsione ad ogni istante t sarà aggiornata per avvicinarla alla previsione dello stesso valore al successivo istante t+1, senza dover attendere l’outcome finale del processo e basandosi in parte su una stima del valore già esistente44. I metodi TD, dunque,

utilizzano l’esperienza passata e recente per risolvere ed aggiornare step-by-step il processo di valutazione: all’istante di tempo t+1, tali metodi permettono un istantaneo aggiornamento, utilizzando il rendimento ottenuto 𝑟?A2 e la stima 𝑉}(𝑠?A2).

Il metodo TD più semplice, definito con 𝑇𝐷(0), è il seguente:

𝑉}A2(𝑠?) = 𝑉}(𝑠?) + 𝛼[𝑟?A2+ 𝛾𝑉}(𝑠?A2) − 𝑉}(𝑠?)]. ( 32.1 )

Tale regola di aggiornamento è ricorrente nei metodi RL, come si avrà modo di appurare in seguito, e segue il seguente schema generale

𝑆𝑡𝑖𝑚𝑎`A2← 𝑠𝑡𝑖𝑚𝑎`+ 𝑠𝑡𝑒𝑝_𝑠𝑖𝑧𝑒[𝑡𝑎𝑟𝑔𝑒𝑡 − 𝑠𝑡𝑖𝑚𝑎`]

Nel caso dell’equazione (32.1), il parametro step-size, definito anche tasso di

apprendimento, si indica con 𝛼 ∈ (0,1], 𝛾 è il già noto tasso di sconto e la differenza tra

parentesi si definisce errore TD ed esprime il discostamento tra il valore 𝑉}(𝑠?) e il target

𝑟?A2+ 𝛾𝑉}(𝑠?A2), auspicabilmente indicante la direzione verso la quale indirizzare il

comportamento futuro. Questa quantità (indicata con 𝛿?) fornisce dunque, ad ogni

istante di tempo t, l’errore di stima di quell’istante temporale; essendo dipendente dal valore dello stato e dal rendimento di uno step successivo, chiaramente tale quantità sarà calcolabile successivamente alle suddette realizzazioni e l’algoritmo implementato

44 Tale comportamento si definisce bootstrap, tecnica che prevede l’implementazione

sarà in grado di aggiornare la stima non appena la quantità 𝛿? sarà disponibile. Dunque,

l’algoritmo TD(0) ad ogni step, in base alle osservazioni 𝑟?A2 ed 𝑠?A2, si aggiornerà come

segue:

𝑉}A2(𝑠?) = •𝑉𝑉}(𝑠?) + 𝛼𝛿? 𝑠𝑒 𝑠 = 𝑠?

}(𝑠?) 𝑛𝑒𝑔𝑙𝑖 𝑎𝑙𝑡𝑟𝑖 𝑐𝑎𝑠𝑖, ( 33 )

dove 𝑠 ∈ 𝑆 indica ogni possibile segnale di input. Come già anticipato, i metodi TD non richiedono un modello ambientale e non necessitano delle distribuzioni di probabilità dei rendimenti o delle probabilità di transizione precedentemente enunciate. Tali metodi sono sviluppati in un modo incrementale on-line (dal momento che si aggiornano alla fine di ogni step senza dover attendere lo stato terminale T), caratteristica che li rende estremamente utili ed interessanti per la costruzione di sistemi di trading finanziario (Corazza e Bertoluzzo, 2012).

Partendo da questa ultima affermazione, si considererà certamente che i mercati finanziari si distinguono per presentare serie dei prezzi azionari non stazionarie, come si è ampiamente esposto nel Capitolo 2. In questi casi, sarebbe più sensato pesare in misura maggiore i rendimenti più recenti rispetto a quelli più lontani nel passato. Tale relazione si può ottenere utilizzando un parametro step-size costante; per dimostrare ciò si consideri l’equazione (32) dalla quale, sostituendo ricorsivamente a ritroso i valori, si giunge alla seguente relazione45:

𝑉}A2(𝑠?) = (1 − 𝛼)}𝑉

}(𝑠J) + ∑}?~2𝛼(1 − 𝛼)}@?[𝑟?+ 𝛾𝑉}(𝑠?)], ( 32.2 )

dove 𝑉}(𝑠J) è il valore arbitrario dello stato iniziale 𝑠J. L’equazione (34) viene definita

media pesata, poiché la somma dei pesi (1 − 𝛼)}+ ∑} 𝛼(1 − 𝛼)}@?

?~2 = 1. Inoltre, il

peso 𝛼(1 − 𝛼)}@? definito per il rendimento 𝑅

? = 𝑟?+ 𝛾𝑉}(𝑠?) dipenderà da quanti 𝑘 −

𝑡 rendimenti passati sono stati osservati e, dal momento che 1 − 𝛼 < 𝛼, decrescerà esponenzialmente all’aumentare del numero dei rendimenti (Barto e Sutton, 2016).

45 Si veda Barto e Sutton (2016), pag. 34, dove sono approfonditamente riportati tutti i

Utilizzando un parametro variabile e non negativo ad ogni istante di tempo (ad esempio 𝛼}(𝛼) = 2} ), in un ambiente stocastico entrambe le condizioni sufficienti di convergenza

∑¥ 𝛼}(𝛼)

}~2 = ∞ e ∑¥}~2𝛼}3(𝛼)< ∞ ( 34 )

vengono rispettate con probabilità pari a 1 (Bertsekas e Tsitsiklis, 1996), dove con la prima condizione è assicurata l’elevata numerosità degli step da effettuare per superare eventuali condizioni di instabilità iniziali, la seconda garantisce invece la convergenza al valore ottimo all’approssimare di 𝛼}(𝛼) verso un numero sempre più piccolo. Tali

convergenze vengono rispettate nel caso di un parametro non costante poiché, nel caso in esempio, 𝛼}(𝛼) =2} decrescerà linearmente all’aumentare delle osservazioni

realizzate. Se si considera 𝛼}(𝛼) costante, la seconda condizione non verrà mai

soddisfatta: la stima continuerà il suo processo di convergenza variando in continuo, in risposta ai valori dei rendimenti più recenti. Questa condizione è tipica in un ambiente non stazionario qual è quello dei mercati finanziari, nel quale è conveniente non appesantire il processo di ricerca includendo osservazioni dei rendimenti troppo lontane nel tempo per focalizzarsi sulle osservazioni più recenti. Chiaramente, se il parametro 𝛼}(𝛼) viene settato sufficientemente piccolo, la convergenza di 𝑉}(𝑠?) al valore ottimo

𝑉∗ sarà ottenuta sia in condizioni di stazionarietà che in condizioni di non stazionarietà.

È dunque fondamentale ricercare il settaggio migliore per il parametro step-size costante, considerando comunque che più piccolo questo viene settato, più lento sarà il processo di convergenza al valore ottimo della funzione.

Fino a questo punto, si è argomentato come i metodi TD trattino il processo di valutazione per stimare il valore di 𝑉} dato un qualsiasi criterio 𝜋. Per quanto concerne

invece il problema di controllo dei metodi RL, ovvero quello di ricercare la policy ottima, i metodi TD utilizzano il processo di iterazione generalizzata del criterio 𝜋 visto in precedenza approcciando il problema in un modo peculiare. Ancora una volta, si presenta il leitmotiv del trade-off tra esplorazione e sfruttamento (pag. 46), e nuovamente l’approccio si dirama in due sotto categorie: metodi on-policy e metodi off-

prossimo paragrafo ci si concentrerà sulle specificità di questo metodo off-policy, lasciando ad altri testi eventuali approfondimenti sui metodi on-policy46.