• Non ci sono risultati.

Convergenza tra l'apprendimento con le funzioni di similarità e l'Extreme

Esistono diversi punti in comune tra i predittori che derivano dai paradigmi introdotti nella Sezione 5.1 e nella Sezione 5.2 e le loro procedure di apprendimento [69, 85, 86]. In eetti, entrambi gli approcci presentati negli Algoritmi 1 e 2 si basano su una procedura divisa in due fasi: in primo luogo, i dati vengono proiettati in uno spazio con dimensione

Capitolo 5. Approcci di apprendimento veloce 65 esplicita, L per SIM e N per ELM. Il secondo passo della procedura consiste nella messa a punto di un separatore lineare nel nuovo spazio.

In linea di principio, tutte le dierenze consistono nelle diverse strategie di proiezione utilizzate, tuttavia un'attenta analisi rivela che esistono molti punti in comune. Com- prendere queste similitudini può stimolare nuove idee e sviluppi nel campo, e per queste ragioni, nel seguito, lo spazio dell'ipotesi di ELM sarà reinterpretato in vista dell'ap- prendimento con le funzioni di similarità. È importante notare che l'interpretazione proposta non è l'unica ammissibile, ma ore un diverso punto di vista sulla capacità di apprendimento del modello rispetto ai lavori precedenti [81, 87, 88].

In generale, tali convergenze diventano evidenti quando il modello ELM utilizza funzioni di attivazione che possono essere reinterpretate come funzioni di similarità [85]. Quindi, φ(x, rj, χj) è funzione di attivazione/similarità parametrica che rimappa x in R usando

un punto rj ∈ RD come landmark; χj è il parametro di congurazione per φ. Di

conseguenza, lo spazio di ipotesi (5.1) e lo spazio di ipotesi (5.10) possono rappresentare due istanze dello spazio di ipotesi seguente:

f (x) =

N

X

j=1

βjφ(x, rj, χj) (5.11)

Dal punto di vista dell'apprendimento con le funzioni di similarità (5.10), i vettori rj

in (5.10) incorporano i dati appartenenti alla distribuzione (sconosciuta) P. Inoltre, χ1 = χ2 = ... = χN, come spazio di ipotesi (5.10) non ammette congurazioni multiple

per la funzione di similarità. Nel caso dello spazio di ipotesi ELM (5.1), al contrario, i landmark rj e i parametri χj derivano da una selezione casuale. Pertanto, i vettori rj

possono incorporare qualsiasi dato appartenente a RD e la funzione di similarità adotta

una parametrizzazione diversa per ogni landmark.

Lo scopo è di mostrare, formalmente, che la connessione tra i due paradigmi è stretta. Di seguito, le Sezioni 5.3.1 e 5.3.2, rispettivamente, mostreranno che in principio il modello ELM può ereditare i termini di apprendimento dello spazio di ipotesi (5.1) anche se 1) χ1 6= χ2 6= ... 6= χN, e 2) rj ∈ RD.

5.3.1 Parametro di forma della funzione di attivazione

Lo spazio di ipotesi stabilito dalla teoria dell'apprendimento con le funzioni di similarità in linea di principio non ammette un parametro di congurazione per la funzione K. Quindi, nel caso di una funzione di similarità appartenente a una famiglia parametrica, è necessario impostare implicitamente χ1 = χ2 = ... = χN = χ, dove χ è un valore

Capitolo 5. Approcci di apprendimento veloce 66 teorema 5.3.1 dimostra in eetti che lo strato di mapping della ELM può avere un separatore lineare con un errore  basso e un margine γ ampio:

Teorema 5.3.1. Si consideri un insieme composto da N landmarks {r1, r2, ..., rN}scelti

randomicamente da T e lo spazio rimappato ρ(x) = {φ(x, r1, χ1), φ(x, r2, χ2), . . . , φ(x, rN,

χN)}. Sia ˜φ:

˜

φ(x, r) = 1

L(δ(r, r1)φ(x, r1, χ1) + δ(r, r2)φ(x, r2, χ2) + . . .

+ δ(r, rN)φ(x, rN, χN)) (5.12)

dove δ(r, rj) è la delta di Kronecker. Se ˜φ è una buona funzione di similarità (, γ)

per un generico campione di taglia N del problema di apprendimento P , allora con probabilità (1 − ) il mapping ρ : X → RN con N = (8 · log(1/δ))/γ2 ha la proprietà che

la distribuzione indotta ρ(P ) in RN ha un separatore avente un errore massimo ( + δ)

con margine γ/2.

Dimostrazione. Seguendo la dimostrazione del Teorema 3 in [75], ˜ψ : X → RN deni- ta come ˜ψ(x) = ρ(x)˜√

N, ˜ρ(x) = { ˜φ(x, r1, χ1), ˜φ(x, r2, χ2), ..., ˜φ(x, rN, χN)}. Allora con

probabilità (1 − δ), la distribuzione indotta ˜ψ(P ) ∈ RN avrà un separatore con errore massimo ( + δ) e un margine almeno γ/2. Sia ˜β il vettore corrispondente a tale se- paratore, e si traduca questo in ˆβ ∈ RN ×N sostituendo ciascuna coordinata ˜β

i con gli

N valori (N1β˜i,N1β˜i, ...,N1β˜i). Dato che kˆβk = k˜βk allora il margine nello spazio RN ×N

è γ/2. Per costruzione ρ(x) = ˜ρ(x), allora lo stesso separatore lineare è valido per il problema di apprendimento P .

Il Teorema 5.3.1 aerma, senza alcuna perdita di generalità, che r ∈ T . La Sezione 5.3.2 mostrerà che quando si campiona r in RD è necessario aumentare adeguatamente il

numero di landmark N. È interessante notare che questo teorema mostra come il modello ELM possa anche sfruttare la nozione di "buona" funzione di similarità. Nello spazio di ipotesi (5.10) l'assunto è che tale funzione di similarità sia "buona" su tutto il dominio di input. D'altra parte, il modello ELM sfrutta una funzione di similarità che diventa "buona" adattando la sua congurazione al landmark. Inne, vale la pena sottolineare che il modello ELM può anche adottare livelli di mapping in cui Φ1 6= Φ2 6= .... 6= ΦN,

ovvero dove ogni neurone sfrutta una specica funzione di attivazione/similarità. Il Teorema 5.3.1 può essere facilmente esteso a questa congurazione.

Capitolo 5. Approcci di apprendimento veloce 67

5.3.2 Campionamento dei landmark

La teoria dell'apprendimento con le funzioni di similarità presuppone che i landmark rj

debbano trovarsi all'interno del dominio di input X ⊆ RD. Di conseguenza, occorrono

N = (8 · log(1/ delta))/γ2 landmark per ottenere un separatore nello spazio rimappato con un errore inferiore a  + ∗ e con un margine maggiore di γ/2 . La strategia ELM, al

contrario, estende il dominio ammissibile per i punti di riferimento a tutto RD. Formal-

mente, la probabilità di ottenere un punto di riferimento appartenente a X campionando randomicamente RD può essere modellata come una distribuzione di Bernoulli:

Pr∈X = P (r ∈ X |r ∈ RD) ≤ 1 (5.13)

Questo a sua volta signica che dati ˆN pattern random, la probabilità di avere almeno N landmark ammissibili, nel senso della teoria delle funzioni di similarità, può essere espressa come la cumulativa di una distribuzione binomiale:

F (N, ˆN , Pr∈X) = N X i=0 N i  (Pr∈X)i(1 − Pr∈X) ˆ N −i (5.14)

allora con probabilità ζ = 1 − F (N, ˆN , α) almeno N campioni appartengono a X . In pratica, ciò signica che applicando la strategia ELM sono necessari almeno ˆN > N landmark per ottenere un separatore nello spazio rimappato con un errore ≤  + ∗ e

un margine ampio ≥ γ/2 . Ovviamente, il valore esatto di ˆN è sconosciuto poiché, in generale, Pr∈X è sconosciuto. È importante notare che questa è un'analisi del caso

peggiore, perché si sta assumendo che i pattern che non appartengono al dominio di input X non siano aatto coinvolti nella fase di apprendimento.

5.3.3 Riepilogo

Le Sezioni 5.3.1 e 5.3.2 aermano che i due paradigmi di apprendimento non solo condivi- dono alcune somiglianze nella forma dei predittori nali, ma soprattutto possono essere reinterpretati in un unico quadro teorico con alcune importanti dierenze nella logica alla base dei modelli.

Il modello ELM estende il dominio di campionamento dei punti di riferimento accettabili da T a X per ignorare qualsiasi vincolo sulla dimensione N dello strato di mapping. Questa scelta può rivelarsi particolarmente utile in presenza di set di dati limitati, vale a dire quando T potrebbe non coprire adeguatamente la distribuzione (sconosciuta) P che caratterizza il problema dell'apprendimento, senza incorrere nell'overtting. Viceversa,

Capitolo 5. Approcci di apprendimento veloce 68 la disponibilità di serie di dati di grandi dimensioni può compromettere i vantaggi di tale strategia.

La scelta di consentire più congurazioni della nozione di similarità può limitare, in linea di principio, la complessità computazionale del processo di training. Quando si utilizza una funzione di similarità parametrizzata, la model selection è l'unico metodo ecace per trovare ecacemente l'iper-parametro tra una varietà di candidati. Ciò comporterebbe chiaramente un sovraccarico computazionale. Con la ELM si aggira questo problema utilizzando la randomizzazione nella congurazione degli iper-parametri.

In breve, l'approccio speculativo adottato dal modello ELM nella scelta di {rj, χj} mi-

ra a bilanciare lo spazio del campione e l'ecienza computazionale. D'altra parte, la Sezione 5.4 mostra che le scelte casuali dei parametri possono portare a congurazioni inadatte. Si corre il rischio di avere un gran numero di unità di mapping inecaci, cioè coppie {rj, χj} che non supportano una corretta proiezione dei dati secondo la nozione

di similarità incorporata.