Reti Neurali (Parte III) Corso di AA, anno 2017/18, Padova Fabio Aiolli 08 Novembre 2017

(1)

Reti Neurali (Parte III)

Corso di AA, anno 2017/18, Padova

Fabio Aiolli

08 Novembre 2017

(2)

Reti Neurali Multistrato

Fabio Aiolli Reti Neurali (Parte III) 08 Novembre 2017 2 / 16

(3)

Reti Neurali Multistrato: terminologia

d unit` a di ingresso: dimensione dei dati in ingresso x ≡ (x

1

, . . . , x

d

), (d + 1 se includiamo la soglia nel vettore dei pesi x

⁰

≡ (x

₀

, x

₁

, . . . , x

_d

)) N

_H

unit` a nascoste (con output y ≡ (y

1

, . . . , y

_N_H

))

c unit` a di output: dimensione dei dati in output z = (z

1

, . . . , z

c

) e dimensione degli output desiderati t = (t

1

, . . . , t

c

)

w

ji

peso dalla unit` a di ingresso i alla unit` a nascosta j (w

j

` e il vettore pesi dell’unit` a nascosta j )

w

_kj

peso dalla unit` a nascosta j alla unit` a di output k (w

_k

` e il vettore

pesi dell’unit` a di output k)

(4)

Calcolo gradiente per i pesi di una unit` a di output

∂E

∂w

_{k ˆ}_ˆ_j

= ∂

∂w

_ˆ_{k ˆ}_j

"

1 2cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)

²

#

= 1

2cN

N

X

s=1

∂

∂w

_{k ˆ}_ˆ_j

"

_c

X

k=1

(t

_k^(s)

− z

_k^(s)

)

²

#

= 1

2cN

N

X

s=1

2(t

_ˆ^(s)

k

− z

_ˆ^(s)

k

) ∂

∂w

_{k ˆ}_ˆ_j

h

(t

^(s)_ˆ

k

− z

^(s)_ˆ

k

) i

= 1

cN

N

X

s=1

(t

_ˆ^(s)

k

− z

_ˆ^(s)

k

) ∂

∂w

_{k ˆ}_ˆ_j

h

t

_ˆ^(s)

k

− σ(w

_ˆ_k

· y

^(s)

) i

= − 1

cN

N

X

s=1

(t

^(s)_ˆ

k

− z

^(s)_ˆ

k

)σ

⁰

(w

_k_ˆ

· y

^(s)

)y

_ˆ^(s)

j

= − 1

cN

N

X

s=1

(t

^(s)_ˆ

k

− z

^(s)_ˆ

k

)z

_k_ˆ

(1 − z

_k_ˆ

)y

_ˆ^(s)

j

(5)

Calcolo gradiente per i pesi di unit` a nascoste

∂E

∂w

_ˆ_{j ˆ}_i

= ∂

∂w

_{j ˆ}_ˆ_i

"

1 2cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)

²

#

= 1

2cN

N

X

s=1 c

X

k=1

∂

∂w

_ˆ_{j ˆ}_i

h

(t

_k^(s)

− z

_k^(s)

)

²

i

= 1

2cN

N

X

s=1 c

X

k=1

2(t

_k^(s)

− z

_k^(s)

) ∂

∂w

_ˆ_{j ˆ}_i

h

−z

_k^(s)

i

= − 1

cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)σ

⁰

(w

_k

· y

^(s)

) ∂

∂w

_{j ˆ}_ˆ_i





NH

X

j =1

w

_kj

y

_j^(s)





= − 1

cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)σ

⁰

(w

k

· y

^(s)

)w

_{k ˆ}_j

∂

∂w

_ˆ_{j ˆ}_i

h

y

_ˆ^(s)

j

i

(6)

Calcolo gradiente per i pesi di unit` a nascoste

= − 1

cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)σ

⁰

(w

_k

· y

^(s)

)w

_{k ˆ}_j

∂

∂w

ˆj ˆi

h y

_ˆ^(s)

j

i

= − 1

cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)σ

⁰

(w

k

· y

^(s)

)w

_{k ˆ}_j

σ

⁰

(w

jˆ

· x

^(s)

) ∂

∂w

ˆj ˆi

h

w

ˆj

· x

^(s)

i

= − 1

cN

N

X

s=1 c

X

k=1

(t

_k^(s)

− z

_k^(s)

)σ

⁰

(w

k

· y

^(s)

)w

_{k ˆ}_j

σ

⁰

(w

jˆ

· x

^(s)

)x

_ˆ^(s)

i

= − 1

cN

N

X

s=1

σ

⁰

(w

jˆ

· x

^(s)

)x

_ˆ^(s)

i c

X

k=1

(t

_k^(s)

− z

_k^(s)

)w

_{k ˆ}_j

σ

⁰

(w

k

· y

^(s)

)

= − 1

cN

N

X

s=1

y

_ˆ^(s)

j

(1 − y

_ˆ^(s)

j

)x

_ˆ^(s)

i c

X

k=1

(t

_k^(s)

− z

_k^(s)

)z

_k^(s)

(1 − z

_k^(s)

)w

_{k ˆ}_j

(7)

Discesa Batch vs. Stocastica

Batch. Finch´ e la condizione di terminazione non ` e soddisfatta:

1

Calcola ∇E

_S

[w]

2

w ← w − η∇E

_S

[w]

Stocastica. Finch´ e la condizione di terminazione non ` e soddisfatta, per ogni esempio di training s:

1

Calcola ∇E

s

[w]

2

w ← w − η∇E

s

[w]

Mini-batch. Finch´ e la condizione di terminazione non ` e soddisfatta, consideriamo un sottoinsieme di esempi Q ⊆ S :

1

Calcola ∇E

Q

[w]

2

w ← w − η∇E

Q

[w]

dove in generale E

Q

[w] =

_2cN¹

P

s∈Q

P

c

k=1

(t

_k^(s)

− z

_k^(s)

)

²

, Q ⊆ S .

(8)

Algoritmo Backprop con uno strato nascosto

Back-Propagation-1hl-stocastico(S ,η):

Inizializza tutti i pesi a valori random piccoli (es. tra -0.05 e +0.05) Finch´ e non ` e verificata la condizione di terminazione:

Per ogni (x, t) ∈ S ,

1

Presenta x alla rete e calcola i vettori y e z

2

Per ogni unit` a di output k,

δ

k

= z

k

(1 − z

k

)(t

k

− z

k

)

∆w

kj

= δ

k

y

j 3

Per ogni unit` a nascosta j ,

δ

j

= y

j

(1 − y

j

)

c

X

k=1

w

kj

δ

k

∆w

ji

= δ

j

x

i 4

Aggiorna tutti i pesi: w

sq

← w

sq

+ η∆w

sq

(9)

Fase Forward

(10)

Fase Backward

(11)

Esempio di funzione errore

(12)

Universalit` a delle reti multi-strato

Teorema (Pinkus, 1996) semplificato

Data una rete feed-forward con un solo livello nascosto, una qualsiasi funzione continua f : R

ⁿ

→ R, un qualunque > 0 piccolo a piacere, per un’ampia classe di funzioni di attivazione, esiste sempre un intero M tale che, la funzione g : R

ⁿ

→ R calcolata dalla rete usando almeno M unit`a nascoste approssima la funzione f con tolleranza , ovvero:

max

x∈Ω

|f (x) − g (x)| <

Notare che il teorema afferma l’esistenza di una rete con M unit` a nascoste che approssima la funzione target con la tolleranza desiderata ma non dice niente su come tale numero M possa essere calcolato!

(13)

Alcuni problemi..

La scelta della tipologia della rete determina lo spazio delle ipotesi che si utilizza. Con architetture a 3 livelli (input, hidden, output), il numero delle unit` a nascoste determina la complessit` a dello spazio delle ipotesi

La scelta del passo di discesa (valore di η) pu` o essere determinante per la convergenza:

L’apprendimento ` e generalmente lento (ma il calcolo dell’output a regime ` e veloce)

Minimi locali (anche se efficace in pratica)

(14)

Evitare minimi locali

Aggiunta di un termine (chiamato momento) alla regola di update dei pesi. In pratica viene aggiunto un contributo che deriva dal passo precedente, imponendo una specie di inerzia al sistema

L’uso di apprendimento stocastico (randomizzando sugli esempi) invece che batch pu` o facilitare l’uscita da minimi locali

Apprendimento di reti diverse sugli stessi dati con inizializzazioni differenti e selezione della rete pi` u efficace (per esempio valutando su un validation set). Alternativamente, possiamo considerare un

”comitato” di reti in cui la predizione ` e una media (eventualmente pesata) delle predizioni delle singole reti

(15)

Rappresentazione dei livelli nascosti

Una importante caratteristica delle reti neurali multi-strato ` e che

permettono di scoprire utili rappresentazioni (alternative all’input) dei dati

di ingresso. In particolare, l’output delle unit` a nascoste ` e una efficace

rappresentazione dell’input che permette una pi` u semplice separazione dei

dati in output. Nell’esempio si nota come la rappresentazione (encoding)

appreso assomigli all’encoding binario su 3 bit ([100, 011, 010, . . . ]).

(16)

Overfitting

Aumentando il numero di updates sui pesi, l’errore sul validation set prima diminuisce poi incrementa. Perch´ e?

All’inizio, con valori dei pesi piccoli in modulo (molto simili tra di loro) si riescono a descrivere superfici di decisione pi` u ”lisce”.

All’aumentare del valore assoluto la complessit` a della superfice di decisione aumenta e con essa anche la possibilit` a di avere overfitting Soluzioni: Monitorare l’errore su un insieme di dati di validazione, oppure utilizzare un termine aggiuntivo nella funzione errore dipendente dalla norma dei pesi (regolarizzazione).