• Non ci sono risultati.

Reti Neurali (Derivazione) Corso di AA, anno 2017/18, Padova Fabio Aiolli 06 Novembre 2017

N/A
N/A
Protected

Academic year: 2021

Condividi "Reti Neurali (Derivazione) Corso di AA, anno 2017/18, Padova Fabio Aiolli 06 Novembre 2017"

Copied!
6
0
0

Testo completo

(1)

Reti Neurali (Derivazione)

Corso di AA, anno 2017/18, Padova

Fabio Aiolli

06 Novembre 2017

Fabio Aiolli Reti Neurali (Derivazione) 06 Novembre 2017 1 / 6

(2)

Derivate notevoli

y = c, c ∈ R ⇒ y 0 = 0

y = c · x , c ∈ R ⇒ y 0 = c

y = x n , n ∈ N ⇒ y 0 = nx n−1

y = e x ⇒ y 0 = e x

(3)

Regole di Derivazione

D(k · f (x )) = k · f 0 (x ) D( P

i f i (x )) = P

i f 0 (x )

D(f (x ) · g (x )) = f 0 (x ) · g (x ) + f (x ) · g 0 (x ) D( g (x ) f (x ) ) = f

0

(x )·g (x )−f (x )·g

0

(x )

g (x )

2

D( g (x ) 1 ) = − g (x ) g

0

(x )

2

D(g (f (x )) = g 0 (f (x )) · f 0 (x )

Fabio Aiolli Reti Neurali (Derivazione) 06 Novembre 2017 3 / 6

(4)

Gradiente

Definizione di Gradiente

Nel calcolo differenziale vettoriale, il gradiente di una funzione a valori reali f : R n → R `e una funzione vettoriale ∇f : R n → R n (a valori in R n ).

Il gradiente di una funzione ` e spesso definito come il vettore che ha come

componenti le derivate parziali della funzione, anche se questo vale solo se

si utilizzano coordinate cartesiane ortonormali. Il simbolo ∇ si legge nabla.

(5)

Minimizzazione con discesa di gradiente

Problema di minimizzazione

Sia f (x) : R n → R una funzione a valori vettoriali, trovare il vettore x ∈ R n che minimizza la funzione f , ovvero:

x = arg min

x f (x) Algoritmo di discesa di gradiente

k ← 0, x 0 ∈ R n while ∇f (x k ) 6= 0

Calcolare la direzione di discesa p

k

:= −∇f (x

k

) Calcolare il passo di discesa η

k

x

k+1

← x

k

+ η

k

p

k

k ← k + 1

Fabio Aiolli Reti Neurali (Derivazione) 06 Novembre 2017 5 / 6

(6)

Minimizzazione con discesa di gradiente

N.B. Non ` e detto che converga ad un minimo globale!

Riferimenti

Documenti correlati

La trasformazione Albero → Regole permette di generare regole dove si possono considerare contesti per un nodo che non necessariamente contengono i nodi antecedenti (e in particolare

Dare reti multi-strato basate su Perceptron con soglia hard e relativi pesi (senza usare apprendimento) che realizzino funzioni booleane semplici quali: A and (not B), A xor

In particolare, essa usa la discesa di gradiente per esplorare lo spazio delle ipotesi e selezionare l’ipotesi che approssima meglio il concetto target (minimizzando una funzione

Apprendimento di reti diverse sugli stessi dati con inizializzazioni differenti e selezione della rete pi` u efficace (per esempio valutando su un validation set)?.

Step 1 is justified by Cover’s theorem on separability, which states that non-linearly separable patterns may be transformed into a new feature space where the patterns are

Raccolta, analisi e pulizia dei dati Preprocessing e valori mancanti Studio delle correlazioni tra variabili Feature Selection/Weighting/Learning Scelta del predittore e Model

Neural Networks: nonlinear/linear neurons, number of hidden units, η, other learning parameters we have not discussed (e.g., momentum µ) Hold-out or Cross-Validation can be used

Supponendo una distribuzione a priori uniforme sulle ipotesi corrette in H, Seleziona una qualunque ipotesi da VS , con probabilit` a uniforme Il suo errore atteso non ` e peggiore