Apprendimento Bayesiano - Panoramica sui principali approcci all’apprendimento automa-

4.3 Panoramica sui principali approcci all’apprendimento automa-

4.3.4 Apprendimento Bayesiano

L’apprendimento bayesiano fornisce un approccio probabilistico al problema dell’apprendimento. Solitamente, durante il processo di apprendimento, dobbiamo determinare la migliore ipotesi tra quelle contenute nello spazio delle ipotesi H, basandoci sui dati di allenamento a disposizione; seguendo l’approccio bayesiano la migliore ipotesi è quella più probabile dati gli esempi di allenamento e la conoscenza iniziale della probabilità delle ipotesi in H.

Teorema di Bayes

Un metodo diretto per calcolare queste probabilità è il teorema di Bayes, che calcola la probabilità di una ipotesi data la sua probabilità a priori, la pro-

CAPITOLO 4. MACHINE LEARNING

babilità di osservare alcuni dati data la probabilità dell’ipotesi e la probabilità di osservare tali dati. Formalmente il teorema di Bayes è il seguente:

P (hi|d) = P (d|hi)P (hi) P (d) = P (d|hi)P (hi) P jP (d|hj)P (hj)

dove per P (hi) si intende la probabilit`a a priori dell’ipotesi hi, cio`e la proba-

bilit`a iniziale dell’ipotesi, per P (d|hi) si intende la probabilit`a di osservare il

dato di allenamento d data l’ipotesi hi vera, per P (d) si intende la probabi-

lit`a a priori di osservare il dato di allenamento d e per P (hi|d) si intende la

probabilità a posteriori dell’ipotesi hi, cioè la probabilità che hi sia vera data

l’osservazione del dato di allenamento d.

L’apprendimento bayesiano ha come obiettivo effetuare predizioni utiliz- zando tutte le ipotesi contenute nello spazio delle ipotesi:

ci`o richiede una somma (potenzialmente infinita) su l’intero spazio delle ipotesi; computazionalmente questo approccio `e inapplicabile in numerosi casi, ma offre comunque uno standard al quale confrontare gli altri metodi di apprendimento.

Maximum a Priori

Per diminuire l’impatto computazionale possiamo comunque utilizzare il teorema di Bayes per calcolare l’ipotesi più probabile basandoci su ogni singolo dato di esempio a disposizione; l’ipotesi più probabile cos`ı calcolata è chiamata MAP, da maximum a posteriori :

hM AP = argmax h∈H P (h|d) ≡ argmax h∈H P (d|h)P (h) P (d) ≡ argmaxh∈H P (d|h)P (h)

il termine P (d) `e stato semplificato dato che `e una costante indipenden- te dall’ipotesi. L’ipotesi selezionata viene utilizzata per effettuare la previ-

CAPITOLO 4. MACHINE LEARNING

sione ((P (X|hM AP); tali predizioni sono approssimativamente bayesiane se

P (X|d) ≈ P (X|hM AP); si pu`o notare come questo sia vero all’aumentare

dei dati di esempio disponibili. MAP è utilizzato nell’algoritmo Brute-Force MAP, che prevede il calcolo della probabilità a posteriori di tutte le ipotesi e la scelta di quella con probabilità più alta.

Maximum Likelihood

Nel caso in cui tutte le ipotesi possibili abbiano la stessa probabilità possiamo prendere in considerazione esclusivamente il termine P (d|h) per trovare l’ipotesi più probabile (questa probabilità è chiamata likelihood di d data l’ipotesi h); questa ipotesi è chiamata ML (da maximum likelihood ):

hM L = argmax h∈H

P (d|h)

tale ipotesi `e poi utilizzata per la previsione (P (X|hM L)). Le previsioni

effettuate con ML sono una buona approssimazione delle MAP se ci sono molti esempi di allenamento e non c’è una preferenza iniziale tra le ipotesi; si può dire che l’approccio ML sia data driven. Se abbiamo un grande insieme di dati di esempio le probabilità a priori diventano pressochè ininfluenti, altrimenti questo approccio non offre una valida alternativa.

Classificatori Bayesiani

L’approccio bayesiano si presta anche ai problemi di classificazione; per trovare la classificazione pi`u probabile potremo pensare ad un approccio MAP, ma possiamo vedere che esso non `e l’idea migliore. Ad esempio, pen- siamo ad uno spazio delle ipotesi contenente le tre ipotesi h1, h2, h3 con

probabilit`a a posteriori 0.4, 0.3, 0.3 ; h1`e quindi l’ipotesi MAP. Supponiamo

di avere una nuova istanza x, che `e classificata positiva da h1 ma negativa da

CAPITOLO 4. MACHINE LEARNING

vera è 0.4 e che sia falsa è 0.6 quindi la classificazione MAP è diversa da quella più probabile.

La pi`u probabile classificazione bayesiana `e data da:

C_{OP T}∗ = argmax cj∈C P (cj|d) = argmax cj∈C X i P (cj|hi)P (hi|d)

e tutti i sistemi che usano tale approccio sono chiamati classificatori bayesiani ottimi ; questo metodo massimizza la probabilit`a che la classificazione effettuata sia corretta, e nessun altro metodo di classificazione pu`o avere risultati migliori in media.

I classificatori bayesiani ottimi possono essere computazionalmente pesan- ti, dato che è necessario calcolare la probabilità a posteriori di ogni ipotesi e poi combinare le predizioni di ogni ipotesi per classificare una istanza; una alternativa approssimata è offerta dall’algoritmo di Gibbs, che prevede di sce- gliere casualmente una ipotesi tra quelle contenute nello spazio delle ipotesi, secondo la distribuzione di probabilità della probabilità a posteriori corrente, ed usarla per effettuare la classificazione dell’istanza. Sorprendentemente, sotto alcune condizioni il numero di errori di classificazione è al massimo il doppio rispetto a quello di un classificatore bayesiano ottimo.

Una alternativa molto popolare ai classificatori bayesiani precedenti `e data dal classificatore bayesiano naive; esso `e applicabile a problemi di classificazione dove le istanze di input siano definite da un insieme di attributi con il relativo valore (x =< a1, · · · , aI, · · · , aL>). Una istanza viene classificata

assegnandogli la classe pi`u probabile: CN B = argmax

cj∈C

P (cj|a1, · · · , aL)

che tramite il teorema di Bayes `e possibile riscrivere come: CN B = argmax

cj∈C

CAPITOLO 4. MACHINE LEARNING

Per stimare il primo termine della precedente formula `e necessario un insieme di dati di esempio molto grande; la stima risulta computazionalmente pesante ma `e possibile semplificare il problema assumendo che gli attributi siano condizionalmente indipendenti data la classificazione cj (condizione

naive bayes). La formula pertanto pu`o essere riscritta come:

CN B = argmax cj∈C P (cj) L Y I=1 P (aI|cj)

In sintesi, il metodo prevede una fase di allenamento nella quale vengono stimati i valori di P (cj) e P (aI|cj) tramite le frequenze calcolate sui dati di

esempio; l’insieme di queste stime corrisponde alle ipotesi apprese. Le ipotesi cos`ı apprese vengono quindi utilizzate per effettuare la classificazione delle nuove istanze. Se la condizione naive bayes viene rispettata la classificazione `e equivalente al metodo MAP.

Reti Bayesiane

Le reti bayesiane esprimono la distribuzione di probabilit`a che guida un insieme di variabili specificando un insieme di assunzioni di indipendenza condizionale tra alcune di esse assieme ad un insieme di probabilit`a condizionate tra le altre; offre un approccio meno restrittivo rispetto al classificatore naive bayes e meno computazionalmente pesante rispetto al classificatore bayesiano ottimo.

Formalmente una rete bayesiana rappresenta la distribuzione di probabilit`a congiunta per un insieme di variabili. Consideriamo un insieme di variabili Y1· · · Yn che assumono un valore nell’insieme dei valori V (Yi); defi-

niamo come joint space per le variabili Yi il prodotto V (Y1)xV (Y2)x · · · x(Yn)

e come distribuzione di probabilit`a congiunta la distribuzione di probabilit`a sul dato spazio.

Un tipico approccio all’apprendimento tramite una rete bayesiana di struttura conosciuta `e dato dal parameter learning, che ha come obiettivo quello

CAPITOLO 4. MACHINE LEARNING

di trovare la migliore ipotesi regolata da uno o pi`u parametri; ad esempio hθ : la percentuale di lanci della moneta che danno testa `e θ. Una volta

definita l’ipotesi si calcolano le usuali probabilit`a bayesiane:

• a priori P (hθ) = P (θ),

• likelihood P (d|hθ) = P (d|θ),

• a posteriori P (hθ|d) = P (θ|d).

Se le ipotesi sono equiprobabili la scelta della miglior ipotesi pu`o essere effettuata tramite una stima ML (θM L = argmaxθ∈ΘP (d|θ)); l’ipotesi ottenuta

pu`o essere utilizzata anche per risolvere problemi di classificazione tramite l’approccio naive bayes. Nel caso in cui i dati a disposizione siano incompleti (ad esempio ci siano varibili non osservate) e non permettano di calcolare correttamente le probabilit`a precedenti si utilizza l’algoritmo EM, che prevede di completare i dati disponibili effettuando delle stime basate su ipotesi fatte sui dati mancanti (expectation) che verranno utilizzate per aggiornare i parametri θ del modello.

Se invece la struttura della rete bayesiana non è conosciuta è possibile costruirla (structure learning) determinando le dipendenze tra le variabili e calcolando le varie probabilità condizionate.

Nel documento Ambient Intelligence: una soluzione per anticipare i bisogni imparando dall'esperienza (pagine 66-71)