• Non ci sono risultati.

Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017

N/A
N/A
Protected

Academic year: 2021

Condividi "Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017"

Copied!
19
0
0

Testo completo

(1)

Apprendimento Automatico

Metodi Bayesiani

Fabio Aiolli

11 Dicembre 2017

(2)

Metodi Bayesiani

I metodi Bayesiani forniscono tecniche computazionali di apprendimento (Naive Bayes, Reti Bayesiane, ecc.):

Gli esempi di training osservati vanno ad incrementare o decrementare la probabilit`a che una ipotesi sia corretta

Combinazione di conoscenza a priori sulle ipotesi con dati osservati Predizioni di probabilit`a

Classificazione mediante combinazione di ipotesi multiple, pesate con la loro probabilit`a

Definiscono il caso ideale di predizione ottimale (anche se intrattabile computazionalmente)

Utili per l’interpretazione di algoritmi non probabilistici

Difficolt`a pratica: necessitano della definizione di molte probabilit`a.

Se esse non sono disponibili inizialmente, devono essere stimate facendo opportune ipotesi sulle distribuzioni.

Difficolt`a pratica: Computazionalmente costosi, richiedono molti esempi per la stima corretta dei parametri

(3)

Teorema di Bayes

P(h|D) = P(D|h)P(h) P(D) P(h): probabilit`a a priori della ipotesi h

P(D): probabilit`a a priori dei dati di apprendimento P(h|D): probabilit`a di h dati D

P(D|h): probabilit`a di D data h

(4)

Scelta della ipotesi

P(h|D) = P(D|h)P(h) P(D)

In generale si vuole selezionare l’ipotesi pi`u probabile dati i dati di apprendimento, detta ipotesi maximum a posteriorihMAP:

hMAP = arg max

h∈HP(h|D)

= arg max

h∈H

P(D|h)P(h) P(D)

= arg max

h∈HP(D|h)P(h)

Se assumiamo probabilit`a uniforme sulle ipotesi, P(hi) = P(hj), allora possiamo scegliere la ipotesi maximum likelihoodhML:

hML= arg max

h∈H P(D|h)

(5)

Un esempio

Diagnosi medica: probabilit`a che un dato paziente abbia una particolare forma di tumore

P(cancer ) = .008 P(¬cancer ) = .992 P(⊕|cancer ) = .98 P( |cancer ) = .02 P(⊕|¬cancer ) = .03 P( |¬cancer ) = .97

Supponiamo di osservare un nuovo paziente per il quale i test di laboratorio hanno dato esito positivo ⊕. Quale `e la probabilit`a che il paziente sia effettivamente affetto da tumore?

P(cancer |⊕) ∝ P(⊕|cancer )P(cancer ) = .0078 P(¬cancer |⊕) ∝ P(⊕|¬cancer )P(¬cancer ) = .0298

(6)

Apprendimento ”brute force” della ipotesi MAP

Per ogni ipotesi h ∈ H, calcola la probabilit`a a posteriori P(h|D) = P(D|h)P(h)

P(D)

Restituisci l’ipotesi hMAP con la probabilit`a a posteriori pi`u alta hMAP = arg max

h∈H P(h|D)

(7)

Interpretazione Find-S

Si consideri l’apprendimento di concetti (funzioni booleane) spazio delle istanze X , spazio delle ipotesi H, esempi di apprendimento D

si consideri l’algoritmo Find-S (restituisce l’ipotesi pi`u specifica del version space VSH,D)

Quale sarebbe l’ipotesi MAP?

Corrisponde a quella restituita da Find-S?

(8)

Interpretazione Apprendimento Concetti

Assumiamo di fissare le istanze hx1, · · · , xmi

Assumiamo D essere l’insieme dei valori desiderati (noise-free) Scegliamo P(D|h):

P(D|h) = 1 se h `e consistente con D, altrimenti P(D|h) = 0 Scegliamo P(h) = |H|1 per tutte le h ∈ H (per Find-S definiamo P(hi) < P(hj) se hi >g hj)

Allora, P(h|D) =

( 1

|VSH,D| se h consistente con D 0 altrimenti

(9)

Evoluzione della probabilit` a a posteriori

(10)

Apprendimento di una funzione a valori reali

Si consideri una qualunque funzione target f a valori reali, esempi di apprendimento hxi, dii, dove di presenta del rumore,

di = f (xi) + ei

ei `e una variabile random (rumore) estratta

indipendentemente per ogni xi secondo una distribuzione Gaussiana con media 0.

Allora l’ipotesi hML (maximum likelihood) `e quella che minimizza:

hML = arg min

h∈H m

X

i =0

(di − h(xi))2

(11)

p(di|h) = 1

2πσ2e2σ21 (

ei

z }| { di − h(xi))

(12)

Apprendimento di una funzione a valori reali

hML = arg max

h∈H p(D|h)

= arg max

h∈H m

Y

i =1

p(di|h)

= arg max

h∈H m

Y

i =1

√ 1

2πσ2e2σ21 (di−h(xi))2

che si tratta meglio massimizzando il logaritmo naturale..

(13)

Apprendimento di una funzione a valori reali

(14)

Apprendimento di una funzione a valori reali

hML = arg max

h∈H m

Y

i =1

√ 1

2πσ2e2σ21 (di−h(xi))2

= arg max

h∈H ln

m

Y

i =1

√ 1

2πσ2e2σ21 (di−h(xi))2

!

= arg max

h∈H m

X

i =1

ln

 1

√ 2πσ2



− 1

2(di − h(xi))2

= arg max

h∈H m

X

i =1

− 1

2(di− h(xi))2

= arg min

h∈H m

X

i =1

1

2(di− h(xi))2= arg min

h∈H m

X

i =1

(di − h(xi))2

(15)

Apprendimento di una ipotesi che predice probabilit` a

P(D|h) =

m

Y

i =1

P(xi, di|h) =

m

Y

i =1

P(di|h, xi)P(xi)

P(di|h, xi) =

 h(xi) if di = 1

1 − h(xi) if di = 0 = h(xi)di(1 − h(xi))1−di P(D|h) =

m

Y

i =1

h(xi)di(1 − h(xi))1−diP(xi)

hML = arg max

h∈H m

Y

i =1

h(xi)di(1 − h(xi))1−di

= arg max

h∈H m

X

i =1

diln(h(xi)) + (1 − di) ln(1 − h(xi))

| {z }

cross entropy

(16)

Classificazione pi` u probabile per nuove istanze

Finora abbiamo cercato l’ipotesi pi`u probabiledati i dati D (cio`e hMAP) Data una nuova istanza x, quale `e la classificazione pi`u probabile?

Non necessariamente hMAP(x) `e la classificazione pi`u probabile..

Consideriamo per esempio la situazione seguente:

tre possibili ipotesi:

P(h1|D) = 0.4, P(h2|D) = 0.3, P(h3|D) = 0.3 data una nuova istanza x,

h1(x) = ⊕, h2(x) = , h3(x) = quale `e la classificazione pi`u probabile per x?

(17)

Classificazione ottima di Bayes

Sia data una classe vj ∈ V , otteniamo:

P(vj|D) = X

hi∈H

P(vj|hi)P(hi|D)

da cui deriva che la classificazione ottima (di Bayes) di una certa istanza `e la classe vj ∈ V che massimizza tale probabilit`a, ovvero:

arg max

vj∈V

X

hi∈H

P(vj|hi)P(hi|D)

(18)

Esempio di classificazione ottima di Bayes

vBayes = arg max

vj∈V

X

hi∈H

P(vj|hi)P(hi|D) Esempio:

P(h1|D) = 0.4, P( |h1) = 0, P(⊕|h1) = 1 P(h2|D) = 0.3, P( |h2) = 1, P(⊕|h1) = 0 P(h3|D) = 0.3, P( |h3) = 1, P(⊕|h3) = 0 pertanto:

X

hi∈H

P(⊕|hi)P(hi|D) = 0.4 X

hi∈H

P( |hi)P(hi|D) = 0.6 e quindi:

vBayes = arg max

vj∈{ ,⊕}

X

hi∈H

P(vj|hi)P(hi|D) =

(19)

Classificatore di Gibbs

Il classificatore ottimo di Bayes pu`o essere molto costoso da calcolare se ci sono molte ipotesi

Algoritmo di Gibbs:

Scegliere una ipotesi a caso, con probabilit`a P(h|D) Usarla per classificare la nuova istanza

Fatto piuttosto sorprendente: assumendo che i concetti target siano estratti casualmente da H secondo una probabilit`a a priori su H, allora:

E [Gibbs] ≤ 2E [Bayes]

Supponendo una distribuzione a priori uniforme sulle ipotesi corrette in H, Seleziona una qualunque ipotesi da VS , con probabilit`a uniforme Il suo errore atteso non `e peggiore del doppio dell’errore ottimo di Bayes!

Riferimenti

Documenti correlati

● Il moto di un oggetto che cade sulla superficie della Terra è uniformemente accelerato verso il centro della Terra?. ● Il moto della luna è (circa)

Non c’` e modo di determinare se la regola trovata da FIND-S ` e l’unica in H consistente con gli esempi (ovvero il concetto target corretto), oppure se ci sono altre

Neural Networks: nonlinear/linear neurons, number of hidden units, η, other learning parameters we have not discussed (e.g., momentum µ) Hold-out or Cross-Validation can be used

attributi che descrivono le istanze sono condizionalmemente indipendenti data la classificazione.. Applicazione su cui ha

Transductive feature extraction with non-linear kernels Spectral Kernel Learning. Multiple

EasyMKL (Aiolli and Donini, 2015) is able to combine sets of weak kernels by solving a simple quadratic optimization problem with.

Ø Guida rettilinea a cuscino d’aria, carrello per la guida, due fototraguardi, metro, cronometro elettronico collegato ai fototraguardi, filo, pesetto, piattello fermapeso..

Dal secondo principio della dinamica, abbiamo F=ma, e per un moto circolare uniforme a=v 2 /R e centripeta. Per avere un moto circolare uniforme, ci vuole quindi una forza