Apprendimento Automatico Metodi Bayesiani - Naive Bayes Fabio Aiolli 13 Dicembre 2017

(1)

Apprendimento Automatico

Metodi Bayesiani - Naive Bayes

Fabio Aiolli

13 Dicembre 2017

(2)

Classificatore Naive Bayes

Una delle tecniche pi` u semplici e popolari Quando usarlo:

insiemi di dati di dimensione abbastanza grande

attributi che descrivono le istanze sono condizionalmemente indipendenti data la classificazione

Applicazione su cui ha avuto successo:

Diagnosi

Classificazione di documenti testuali

(3)

Classificatore Naive Bayes

Funzione target f : X → V , con istanze x descritte da attributi ha

₁

, a

₂

, . . . , a

_n

i.

Il valore pi` u probabile di f (x ) ` e:

v

_MAP

= arg max

vj∈V

P(v

_j

|a

₁

, a

₂

, . . . , a

_n

)

= arg max

vj∈V

P(a

1

, a

2

, . . . , a

n

|v

_j

)P(v

_j

) P(a

₁

, a

₂

, . . . , a

_n

)

= arg max

vj∈V

P(a

1

, a

2

, . . . , a

n

|v

_j

)P(v

_j

) Assunzione Naive Bayes:

P(a

1

, a

2

, . . . , a

n

|v

_j

) = Y

i

P(a

i

|v

_j

)

(4)

Classificatore Naive Bayes

Mettendo tutto assieme:

v

_MAP

= arg max

vj∈V

P(a

1

, a

2

, . . . , a

n

|v

_j

)P(v

j

) P(a

₁

, a

₂

, . . . , a

_n

|v

_j

) = Y

i

P(a

_i

|v

_j

) Classificatore Naive Bayes:

v

NB

= arg max

vj∈V

P(v

j

) Y

i

P(a

i

|v

_j

)

(5)

Algoritmo Naive Bayes

Naive Bayes Learn(esempi) For each valore target v

_j

P(v ˆ

j

) ← stima di P(v

j

) su esempi

For each valore di attributo a

i

di ogni attributo a, P(a ˆ

i

|v

j

) ← stima di P(a

i

|v

j

) su esempi

return P(v ˆ

j

), ˆ P(a

i

|v

_j

) ∀i , j Classify New Instance(x)

v

_NB

= arg max

_v_j∈V

P(v ˆ

_j

) Q

i

P(a ˆ

_i

|v

_j

)

return v

_NB

(6)

Ri-giochiamo a tennis?

E una giornata adatta per una partita di tennis? `

(7)

Ri-giochiamo a tennis?

Consideriamo di nuovo il problema Giocare a Tennis gi` a incontrato in precedenza

Consideriamo una nuova istanza:

<O = sunny, T = cool, H = high, W = strong>

Vogliamo calcolare:

v

_NB

= arg max

vj∈V

P(v

_j

) Y

i

P(a

_i

|v

_j

)

P(yes)P(sunny |y )P(cool |yes)P(high|yes)P(strong |yes) = 0.005 P(no)P(sunny |no)P(cool |no)P(high|no)P(strong |no) = 0.021

→ v

_NB

= no

(8)

Naive Bayes: considerazioni aggiuntive

L’assunzione di indipendenza condizionale ` e spesso violata P(a

1

, a

2

, . . . , a

n

|v

_j

) = Y

i

P(a

i

|v

_j

)

... ma sembra funzionare comunque. Perch´ e? Notare che non ` e necessario stimare correttamente la probabilit` a a posteriori ˆ P(v

_j

|x); ` e sufficiente che:

arg max

vj∈V

P(v ˆ

_j

) Y

i

P(a ˆ

_i

|v

_j

) = arg max

vj∈V

P(v

_j

) Y

i

P(a

_i

|v

_j

)

la probabilit` a a posteriori calcolata da Naive Bayes ` e spesso vicina a 1

o 0 anche se non dovrebbe

(9)

Naive Bayes: considerazioni aggiuntive

Cosa succede se nessun esempio di apprendimento con valore target v

_j

possiede attributo a

_k

? In tal caso:

P(a ˆ

_k

|v

_j

) = 0, e... ˆ P(v

_j

) Y

i

P(a ˆ

_i

|v

_j

) = 0

Una soluzione tipica ` e la m-stima Bayesiana per ˆ P(a

_i

|v

_j

):

P(a ˆ

_i

|v

_j

) ← n

_c

+ mp n + m dove

n ` e il numero di esempi di apprendimento per cui v = v

j

n

_c

` e il numero di esempi di apprendimento per cui v = v

_j

e a = a

_i

p ` e la stima a priori per ˆ P(a

i

|v

_j

), di solito 1/|a

i

|

m ` e il peso dato a priori (cio` e il numero di esempi ”virtuali”)

(10)

Esempio di applicazione: Classificazione di documenti testuali

apprendere quali documenti sono di interesse apprendere a classificare pagine web per argomento spam / no spam

. . .

Il classificatore Naive Bayes costituisce una delle tecniche pi` u utilizzate in questi contesti

Quali attributi usare per rappresentare documenti testuali?

(11)

Esempio di applicazione: Classificazione di documenti testuali

Concetto target: Interessante? : Documento → {⊕, }

Rappresentare ogni documento tramite un vettore di parole. Un attributo per ogni posizione di parola nel documento

Apprendimento: usare gli esempi per stimare:

P(⊕), P( ), P(doc|⊕), P(doc| )

Assunzione di indipendenza condizionale di Naive Bayes:

P(doc|v

_j

) =

lunghezza(doc)

Y

i

P(a

_i

= w

_k

|v

_j

)

dove P(a

_i

= w

_k

) ` e la prob che la parola in posizione i sia w

_k

, dato v

_j

.

Una assunzione addizionale: P(a

_i

= w

_k

|v

_j

) = P(a

_m

= w

_k

|v

_j

), ∀i , m

(12)

Esempio di applicazione: Classificazione di documenti testuali

Occorre quindi stimare ”solo” le P(v

j

) ∀j e le P(w

k

|v

_j

) ∀k, j

Possiamo utilizzare una m-stima con priori uniforme e m uguale alla dimensione del vocabolario.

P(w ˆ

_k

|v

_j

) = n

_k

+ 1 n + |vocabolario|

dove

n ` e il numero totale di posizioni di parole in tutti i documenti di training aventi di classe v

_j

n

_k

` e il numero di volte che la parola w

_k

si trova in queste posizioni

|Vocabolario| ` e il numero totale di parole distinte trovate nel training

set

(13)

Esempio di applicazione: Classificazione di documenti

testuali

(14)

Algoritmo Expectation Maximization (EM)

Quando utilizzarlo:

dati solo parzialmente osservabili

clustering non-supervisionato (valore target non osservabile)

apprendimento supervisionato (alcuni attributi con valori mancanti) Alcuni esempi:

apprendimento Reti Bayesiane

apprendimento di modelli di Markov nascosti (Hidden Markov Models)

(15)

Esempio di EM

Assumiamo che ogni istanza x sia generata:

scegliendo una delle Gaussiane con prababilit` a uniforme

generando una istanza a caso secondo la Gaussiana scelta

(16)

EM per stimare k-medie

Date:

istanza da X generate da una mistura di k Gaussiane

medie hµ

₁

, . . . , µ

_k

i sconosciute delle k Gaussiane (assumiamo σ

²

conosciuto e uguale per tutte le Gaussiane).

non si sa quale istanza x

_i

` e stata generata da quale Gaussiana Determinare:

stime maximum-likelihood di hµ

₁

, . . . , µ

_k

i

Ogni istanza pu` o essere pensata nella forma y

i

= hx , z

i 1

, z

i 2

i (caso k = 2), dove:

z

_ij

` e 1 se l’esempio i ` e stato generato dalla Gaussiana j , 0 altrimenti x

i

osservabile

z

ij

non osservabili

(17)

EM per stimare k-medie (k = 2)

Algoritmo EM: scegliere a caso l’ipotesi h = hµ

1

, µ

2

i, poi ripetere:

Passo E: Calcola il valore atteso E [z

ij

] di ogni variabile non osservabile z

_ij

, assumendo valga l’ipotesi corrente h

E [z

_ij

] = p(x = x

_i

|µ = µ

_j

) P

2

n=1

p(x = x

_i

|µ = µ

_n

)

= e

⁻^σ2¹ ^(xⁱ^−µ^j⁾²

P

2

n=1

e

⁻^σ2¹ ^(xⁱ^−µⁿ⁾²

Passo M: Calcola la nuova ipotesi maximum-likelihood h, assumendo che il valore preso da ogni variabile non osservabile z

_ij

sia il suo valore atteso (calcolato sopra)

π

_ij

= E [z

ij

] P

m

i =1

E [z

_ij

] and µ

_j

←

m

X

i =1

π

_ij

x

_i

(18)