• Non ci sono risultati.

Implementazione robotica di un modello dei movimenti oculari di inseguimento basato su predizione e apprendimento

N/A
N/A
Protected

Academic year: 2021

Condividi "Implementazione robotica di un modello dei movimenti oculari di inseguimento basato su predizione e apprendimento"

Copied!
106
0
0

Testo completo

(1)

Indice

Introduzione 3

1 Sistemi percettivi di tipo predittivo 4

1.1 Evoluzione delle architetture dei sistemi robotici . . . 4

1.2 Confronto tra Paradigma Emergente e Paradigma Gerarchico . . 7

1.3 Modelli anticipativi . . . 8

2 La visione e i movimenti oculari 13

2.1 L’occhio umano . . . 13

2.2 La visione . . . 15

2.3 Movimenti oculari . . . .18

2.4 Movimenti lenti di inseguimento (smooth pursuit) . . . 21

3 Modello proposto di movimento oculare di inseguimento 24

3.1 Modello di inseguimento classico . . . .24

3.2 Modello di Schaal e Shibata . . . .27

3.3 Simulazione in Matlab Simulink . . . .32

4 Miglioramento del modello di Schaal-Shibata 38

4.1 Limiti del modello di Schaal-Shibata. . . .38

4.2 L’inserimento di una componente di apprendimento. . . .43

5 Uno schema implementativo per il modello proposto 46

5.1 Suddivisione in moduli dello schema implementativo. . . 46

5.2 Filtro . . . 46

5.3 Elaborazione dell’immagine . . . 47

5.4 Predittore RLS . . . 48

5.5 MLP . . . . . . 49

6 Implementazione di una rete neurale multilayer perceptron 50

6.1 Reti neurali artificiali . . . 50

6.2 Il neurone formale . . . 51

6.3 Apprendimento supervisionato . . . 52

6.4 Il perceptron . . . 53

6.4.1 Limiti e applicabilità del perceptron . . . 55

(2)

2

6.4.3 Regola delta . . . . . 56

6.4.4 Metodo di discesa del gradiente . . . 56

6.5 Reti multilivello . . . 59

6.5.1 Addestramento per reti multilivello . . . 60

6.6 Implementazione di una rete multilayer perceptron. . . 65

6.7 Addestramento della rete multilayer perceptron . . . 73

7 Implementazione del modello su piattaforma robotica umanoide ICub 74

7.1 Piattaforma iCub e ambiente di simulazione . . . 74

7.2 Connessione ai dispositivi del robot . . . 80

7.2.1 YARP . . . 80

7.2.2 Comunicazioni in YARP . . . 82

7.2.3 Image Processing . . . 86

7.3 Filtraggio del colore utilizzando la libreria OpenCV . . . 86

7.3.1 Panoramica sulle componenti di OpenCV . . . 87

7.3.2 Immagini digitali. . . . . . . . . 87

7.3.3 Gestione di immagini a più canali in OpenCV . . . 90

7.3.4 Filtraggio del colore . . . 90

7.3.5 Applicazione dell’algoritmo di filtraggio . . . 91

8 Risultati 93

CONCLUSIONI 102

Bibliografia 104

(3)

3

Introduzione

In questo progetto di tesi è stato realizzato un modello che riproduce il movimento oculare di inseguimento lento (smooth pursuit). L’operazione di inseguimento lento di un oggetto non può essere eseguita da un normale processo a feed-back negativo, in quanto ciò comporterebbe l’accumularsi di ritardi dovuti alla frequenza di aggiornamento dell’immagine sulla retina, all’iter della trasmissione dell’immagine dalla retina al SNC, alla sua elaborazione ed infine all’ invio e all’esecuzione del comando motorio. Questo tempo di risposta comporterebbe l’essere costantemente in ritardo rispetto al mondo e alla sua percezione, ma grazie alla capacità del cervello di prevedere il comportamento ed i cambiamenti dell’ambiente esterno è possibile seguire perfettamente un target. Un modello predittivo di inseguimento oculare che stimi la velocità del target all’istante successivo, utilizzando l’algoritmo Recursive Least Squares, è stato proposto da Schaal e Shibata. Il limite principale di questo modello è che esso non conserva memoria delle traiettorie precedentemente acquisite, ma deve necessariamente adattarsi ogni volta che la dinamica del target cambia. In questo lavoro di tesi si ipotizza un’estensione al modello di Schaal-Shibata che possa memorizzare i parametri di regressione dell’algoritmo RLS relativi ad una specifica traiettoria che risultano necessari alla corretta predizione. In questo modo, i risultati di un adattamento, possono essere riutilizzati per migliorare la velocità di annullamento dello slip retinale (la velocità di spostamento dell’oggetto sulla retina). Del modello descritto viene fornita una implementazione per la piattaforma robotica umanoide ICub, questa ha le stesse dimensioni e capacità motorie di un bambino di tre anni. I risultati sperimentali mostrano che il modello proposto da Schaal-Shibata è in grado di adattarsi a qualsiasi tipo di traiettoria pur avendo un transitorio iniziale di circa cinque secondi prima che lo slip retinale scenda al di sotto di una certa soglia. Aggiungendo la componente di apprendimento dei parametri di regressione, realizzata attraverso una rete neurale multilayer perceptron, è possibile un adattamento alla dinamica del target in un tempo inferiore di circa due-tre secondi avvicinandosi alle prestazioni del sistema visivo umano.

(4)

4

Capitolo 1

Sistemi percettivi di tipo predittivo

1.1 Evoluzione delle architetture dei sistemi robotici

L’approccio cognitivista dell’intelligenza artificiale basa le proprie convinzioni sulla possibilità di riprodurre la cognizione umana attraverso una computazione definita su rappresentazioni simboliche. L’informazione sul mondo è astratta dalla percezione e viene rappresentata utilizzando alcuni insiemi di simboli appropriati, sulla quale si compiono dei ragionamenti, e alla fine viene utilizzata per pianificare come agire nel mondo.

In robotica, la tipica architettura di supervisione del comportamento di un sistema robotico è rappresentata da tre blocchi funzionali: SENSE, PLAN e ACT.

Il blocco SENSE è costituito da moduli che ricevono input dal mondo esternoattraverso sensori e rendono disponibili agli altri blocchi informazioni sensoriali.

Il blocco PLAN elabora le informazioni dei moduli SENSE determinando l’insiemedelle azioni che il sistema robotico deve eseguire.

Il blocco ACT traduce in azione, tramite i moduli di attuazione che lo costituiscono, le istruzioni provenienti dal blocco PLAN,generando ed eseguendo una sequenza di comandi per gli attuatori.

Il Paradigma Gerarchico è quello che considera quali relazioni tra i blocchi quelle che sono orientate da SENSE a PLAN e da PLAN a ACT (fig.1.1).[1]

(5)

5

Figura 1.1: Paradigma Gerarchico: dal blocco SENSE è possibile ricavare una rappresentazione del mondo, il blocco PLAN pianifica la sequenza di atti motori da inviare al blocco ACT che riceve le direttive ed agisce sul mondo.

In tal modo il robot è programmato in modo accurato ad agire adeguatamente a stimoli predefiniti specifici. In ciò consiste il limite della visione dell’intelligenza artificiale classica applicata alla robotica; il sistema così può non essere in grado di rispondere correttamente a input imprevisti. L’approccio cognitivista, dunque, risulta valido solo in ambienti ben noti e definiti.

Essendo gli esseri viventi organismi in grado di reagire agli stimoli esterni, apprendere dall’esperienza e gestire le proprie azioni e i propri compiti in modo autonomo, è interessante studiare come rendere un sistema robotico capace di gestire i propri comportamenti anche interfacciandosi verso un ambiente non preventivamente noto. Con questo scopo di adattabilità e duttilità comportamentale del sistema robotico, fin dagli anni ‘80 si sono sviluppate architetture differenti ispirate ad organismi di natura più semplice. Queste architetture sono capaci di simulare roboticamente comportamenti complessi senza utilizzare una rappresentazione di tipo simbolico accurata dell’ambiente e senza alcun sistema di pianificazione centralizzato. Queste architetture, infatti, non presentano il blocco PLAN e così semplificate presentano paradigmi di controllo di tipo Reattivo che prevede la connessione diretta tra i blocchi SENSE e ACT risultando più veloce data l’elisione della parte di pianificazione (fig. 1.2).

(6)

6

Figura 1.2: Paradigma Reattivo: la connessione dei blocchi SENSE ed ACT è diretta, il sistema risulta essere più veloce in quanto si elide la parte di pianificazione.

La presenza dei soli blocchi SENSE e ACT (moduli di percezione ed azione) permette la produzione di comportamenti, anche complessi, senza una rappresentazione del mondo. Nelle architetture di controllo di tipo reattivo l’esecuzione è suddivisa tra moduli paralleli denominati “comportamenti”, ognuno con una specifica competenza che attua uno specifico comportamento attraverso una connessione diretta tra percezione e azione; la combinazione di tali comportamenti costituisce il comportamento complessivo.

Il comportamento non si basa più su una pianificazione, ma è il risultato di una rete più o meno articolata di archi riflessi; l’azione, dunque, diviene la reazione a ciò che è istantaneamente percepito. Si ottiene così un sistema capace di risposte rapide e più semplice dal punto di vista computazionale, ma purtroppo incapace di ricorrere a soluzioni basate sulla conoscenza delle caratteristiche dell’ambiente non correntemente percepite dai sensori.

Allo scopo di combinare i vantaggi delle architetture gerarchiche e di quelle reattive, sono state realizzate architetture di tipo Ibrido, in cui la pianificazione di comportamenti caratteristica di una programmazione a priori del mondo controlla l’attivazione di comportamenti reattivi e permette una maggiore reattività alla percezione istantanea (fig. 1.3)

(7)

7

Figura 1.3: Paradigma Ibrido: permette di unire la velocità di risposta dei sistemi reattivi e la possibilità di intervento pianificato tipico delle architetture gerarchiche.

In questa ottica la robotica, nel tentativo di riprodurre i comportamenti intelligenti superiori dell’uomo, deve tener conto che l’uomo è il risultato della storia evolutiva della sua specie e del suo sviluppo come singolo individuo. Questo approccio allo studio della cognizione è definito emergente. Nei sistemi emergenti la cognizione è un processo di auto-organizzazione attraverso il quale il sistema si modifica continuamente attraverso le sue mutue interazioni con l’ambiente. L’agente è in grado di costituire la propria realtà in base al suo comportamento in quel mondo.

1.2 Confronto tra Paradigma emergente e Paradigma

gerarchico

Le differenze tra paradigma emergente e un paradigma Gerarchica sono notevoli tanto da poterli considerare un’antitesi l’uno dell’altro.

Tali differenze sono da ricercarsi tra: le restrizioni temporali, l’embodiment, la percezione, l’azione e la predizione.

Le restrizioni temporali sono dovute principalmente alla mancanza di necessità di sincronia tra i sistemi cognitivi tipici delle architetture gerarchiche e gli eventi del mondo esterno. I sistemi emergenti sono, invece, legati al

(8)

8

mondo esterno e di conseguenza operano in tempo reale con i cambiamenti della realtà.

I sistemi cognitivisti non necessitano di possedere un corpo fisico in quanto la loro cognizione è indipendente dalla piattaforma fisica nella quale viene implementata. Al contrario, i sistemi emergenti basano il loro processo cognitivo anche sull’istanziazione fisica (l’embodiment) [2,3,4,]. Nei sistemi cognitivisti la percezione fornisce un’interfaccia tra il mondo esterno e la rappresentazione simbolica di quel mondo. Nei sistemi emergenti la percezione è un cambiamento dello stato del sistema in risposta alle perturbazioni del mondo esterno, con lo scopo di mantenere la stabilità. Nei sistemi cognitivisti le azioni sono dovute all’elaborazione simbolica di rappresentazioni interne. Nei sistemi emergenti, al contrario, le azioni sono modifiche dell’ambiente effettuate dal sistema.

1.3 Modelli anticipativi

L’ispirazione ai comportamenti umani, nella progettazione di artefatti intelligenti in grado di comportarsi in maniera efficace nel mondo reale, permette di far riferimento alle soluzioni adottate in natura per la soluzione dello stesso problema.

L’approccio emergente fornisce come già visto un’innovazione rispetto a quello di tipo cognitivista. Nei sistemi biologici si osservano numerosi comportamenti di tipo reattivo necessari per risposte rapide ed efficienti che non necessitano di un controllo superiore complesso. La connessione parallela all’interno di un unico sistema di differenti comportamenti reattivi consente il manifestarsi di azioni complesse che risulterebbero difficili da effettuare per un unico controllore, come nel sistema cognitivista. La ripartizione del controllo a più unità semplici da un lato riduce il carico computazionale e dall’altro mantiene la struttura flessibile. Il controllo reattivo a feed-back però non consente la pianificazione del sistema nel suo insieme.

L’architettura, quindi, necessita di un elemento che pianifichi i comportamenti di alto livello, naturalmente, lasciando alle strutture reattive il controllo di basso livello. Nell’uomo quest’architettura è rappresentata dal sistema nervoso centrale la cui gestione delle informazioni risulta alquanto complessa, poiché queste sono molteplici e differiscono per la loro natura. Ciò rende

(9)

9

difficoltosa la gestione dei compiti di percezione da parte di un controllo di tipo feed-back negativo e quindi puramente reattivo. In un sistema puramente reattivo la trasduzione sensoriale, l’elaborazione centrale e l’uscita del segnale verso gli effettori introducono notevoli ritardi. Ad esempio nel sistema visivo la retina introduce dai 30 ai 60 ms di ritardo, ai quali vanno aggiunti i ritardi dovuti alla conduzione del segnale nervoso che risultano ancora più evidenti nel sistema tattile. La somma dei ritardi costituisce un inevitabile rallentamento all’interno del circuito di feed-back negativo che può variare tra i 30 ms per un riflesso spinale fino ai 200-300 ms per una risposta visiva [5]. La fig. 1.4 mostra una schematizzazione di un ciclo precezione-azione puramente reattivo.

Figura 1.4: Il tipico sistema feedback riceve ed elabora le informazioni dal mondo in cui agisce e restituisce un comando motorio per gli attuatori che modifica il mondo chiudendo il loop di controllo.

La predizione delle informazioni sensoriali e della conseguente azione del sistema risulta essere la soluzione a questo problema. In tale processo l’apprendimento e la memoria giocano un ruolo fondamentale, in quanto l’esperienza del passato può avere una funzione anticipatoria rispetto alle conseguenze delle proprie azioni o alle risposte dell’ambiente. I sistemi biologici sfruttano l’esperienza del passato per predire il futuro e apprendono la conseguenza dell’azione al fine di affinare e di adattare la capacità di anticipazione [6]. Per modellare la capacità di coordinazione senso-motoria che caratterizza le capacità umane sono stati studiati i sistemi che utilizzano l’anticipazione dato che, come già dimostrato, è impossibile gestire tali attività con sistemi a feed-back. In questo caso è necessario ricorrere alla presenza di modelli interni che permettano l’anticipazione. I modelli interni sono processi neurali che possono mimare la caratteristica input-output dell’apparato motorio, o la sua inversa. Dalla copia efferente del comando motorio, il

(10)

10

modello interno di tipo anticipatorio può predire la conseguenza sensoriale del comando motorio. Dall’altro lato, un modello interno inverso può calcolare i comandi motori anticipatori dalle informazioni sulla traiettoria desiderata. I modelli interni possono essere suddivisi in tre gruppi [5,7,8]. Il primo gruppo è conosciuto come modello anticipatorio feed-forward che è una rappresentazione causale dell’apparato motorio. Esso rappresenta il comportamento del sistema motorio in risposta ai comandi inviati [9]. Ad esempio per quanto riguarda la dinamica del braccio un modello anticipatorio potrebbe avere come input lo stato attuale e i comandi motori inviati dal controllore e produrre come output una stima del nuovo stato. In risposta ai comandi motori questo modello cattura il comportamento della transizione di stato del braccio. Attraverso lo stato, che è riferito alla posizione e alla velocità corrente, è possibile conoscere il suo comportamento futuro.

E’ necessario separare le variabili di stato dalle variabili ottenute dai sensori in quanto lo stato può essere determinato dal controllore. La posizione e la velocità di un braccio umano sono percepite dai fusi muscolari i cui segnali variano in relazione alla lunghezza del muscolo piuttosto che agli angoli dei giunti. E’ possibile quindi ipotizzare un modello di tipo anticipatorio dell'output sensoriale del braccio che potrebbe predire i segnali sensoriali conseguenti ad un particolare stato. Lo stato corrente di questo modello costituirebbe l’ingresso mentre l’uscita sarebbe rappresentata dal feedback sensoriale predetto. Dalla cascata del modello anticipatorio della dinamica e del modello anticipatorio sensoriale si ottiene una stima delle conseguenze sensoriali di un determinato comando motorio (fig. 1.5).

Figura 1.5: Modello feed-forward: in una prima fase si predice il prossimo stato del mondo come risultato dell'elaborazione dello stato attuale e dei comandi motori; in una seconda fase si utilizzano i comandi motori per predire la risposta sensoriale conseguente.

(11)

11

La mappatura tra le coordinate dei giunti e le coordinate finali della mano rappresenta all’interno del dominio cinematica il modello anticipatorio. Nonostante la configurazione della mano possa essere ottenuta da molteplici configurazioni del braccio (dovute ai gradi di libertà del braccio dei primati) non c’è ambiguità per la collocazione della mano ottenuta da una particolare configurazione del braccio in quanto i modelli anticipatori sono causali. Il secondo gruppo di modelli a livello concettuale è assimilabile ai modelli anticipatori del sistema motorio, ma essi modellano il comportamento dell’ambiente esterno. Si comprende il normale comportamento del mondo fisico, così è possibile prevedere la traiettoria di un oggetto che si vorrebbe afferrare. Questi modelli sono comunque utili per la pianificazione dei comandi motori.

Un terzo gruppo di modelli, noto come modelli inversi, inverte il causale flusso del sistema motorio (fig. 1.6).

Figura 1.6: Un modello inverso è in grado di fornire i comandi motori necessari per ottenere la posizione desiderata.

I modelli inversi ricevono come input lo stato attuale e la transizione di stato e forniscono come output la rappresentazione degli eventi causali che conferiscono quello stato. Ad esempio un modello di dinamica inversa del braccio stima il comando motorio che aziona un determinato movimento. L’input in questo caso è rappresentato dallo stato corrente e da quello desiderato e l’output sarebbe costituito dal comando motorio che provoca quel particolare cambiamento di stato. Un modello sensoriale inverso predice cambiamenti di stato che corrispondono ad un cambiamento dell’afflusso sensoriale. I modelli interni anticipativi possono essere proposti con diverse applicazioni tra cui quelle più significative sono il predittore di Smith ed il modello di Johansson. Il predittore di Smith utilizza due modelli anticipatori all’interno di un loop tradizionale a feed-back negativo [5]. Lo stato da raggiungere è rappresentato dalla traiettoria desiderata che è data in input ad

(12)

12

un controllore che calcola la differenza tra lo stato attuale e quello desiderato (fig. 1.7).

Figura 1.7: Nel predittore di Smith vengono utilizzati due modelli anticipativi all'interno di un loop tradizionale a feedback negativo. Il modello stima le conseguenze sensoriali delle azioni dei motori e tale stima serve a correggere l'azione. In questo modo è possibile superare alcuni dei ritardi dovuti al normale feedback negativo.

Questa differenza viene convertita in un comando motorio. Contemporaneamente all’esecuzione del comando da parte del controllore una copia di esso è inviata come input al modello anticipatorio. Il modello ha il compito di stimare le conseguenze sensoriali delle azioni motorie e tale stima serve a correggere l’azione. In questo modo è possibile superare alcuni dei ritardi dovuti al normale feed-back negativo. Il modello anticipatorio proposto da Johansson è costituito da uno schema in cui viene generata un’immagine attesa tattile e propriocettiva prima che il braccio afferri un oggetto [8]. La percezione sensoriale attesa viene utilizzata per calibrare la presa e le forze di carico. Nel momento in cui il braccio afferra un oggetto le percezioni attese e quelle afferenti vengono confrontate. Nel caso in cui si dovesse verificare un errore, ad esempio determinato da un’errata stima del peso dell’oggetto, vengono impartiti comandi motori correttivi e avviene l’aggiornamento del modello interno dell’oggetto. Tali modelli sono stati ripresi per la progettazione di un sistema il cui schema prende il nome di percezione attesa .

(13)

13

Capitolo 2

La visione e i movimenti oculari

2.1 L’occhio umano

L’occhio è l’organo fotosensibile dell’organismo, specializzato nella captazione di segnali luminosi dall’esterno e nella loro trasformazione in impulsi nervosi che danno luogo alla visione. E’ costituito da due segmenti di sfera, con diverso raggio di curvatura: un segmento anteriore, cornea, e un segmento posteriore, sclera, ed è rivestito da tre membrane sovrapposte: la tonaca fibrosa, la tonaca vascolare e la retina.

La tonaca fibrosa comprende anteriormente la cornea e posteriormente la sclera. La tonaca vascolare è applicata internamente alla tonaca fibrosa e posteriormente prende il nome di coroide,mentre nella sua parte anteriore appare più complessa costituendo più avanti l’iride che si presenta come un diaframma con un foro circolare centrale chiamato pupilla. La pupilla ha la funzione di regolare la quantità di luce che entra nell’occhio essendo capace di modificare il suo diametro. La cornea e l’iride delimitano uno spazio chiamato camera anteriore dell’occhio, ripiena di un liquido trasparente detto umore acqueo. Dietro l’iride si trova una struttura a forma di lente biconvessa, il cristallino o lente. Lo spazio situato posteriormente al cristallino e delimitato dalla retina è occupato da una sostanza incolore, il corpo vitreo. Il corpo vitreo, il cristallino, l’umore acqueo e la cornea costituiscono una sorta di lente convergente dotato di ampio potere rifrattivo (Fig. 2.1).

La terza membrana dell’occhio è di natura nervosa ed è denominata retina. Nella sua parte posteriore origina il nervo ottico, per questo motivo tale porzione assume il nome di parte visiva o ottica della retina. La parte anteriore della retina, non partecipando alla formazione del nervo ottico, viene definita anche segmento cieco della retina.

Nella retina si descrivono tre regioni: la papilla del nervo ottico, la macula lutea e l’ora serrata.

La papilla ottica rappresenta il punto di convergenza delle fibre nervose, che, originando dalla retina, vanno a costituire il nervo ottico.

La macula lutea è una piccola parte della retina che si trova in corrispondenza del polo posteriore dell’occhio (Fig. 2.2). Nella sua parte centrale è presente

(14)

14

una fossetta, la fovea, in corrispondenza della quale la retina diventa molto sottile. La fovea è la regione della visione distinta.

L’ora sella è un avvallamento che costituisce il limite tra la parte ottica e la parte cieca

La retina è costituita da una serie di strati sovrapposti, tra questi il primo più internamente è rappresentato dallo strato dell’epitelio pigmentato, che è formato da cellule contenenti pigmento scuro, melanina.

Altro strato caratteristico della retina è formato dai fotorecettori, rappresentati dai coni e dai bastoncelli, capaci di trasformare l’energia luminosa in potenziali elettrici. Nei coni, a differenza dei bastoncelli che contengono rodopsina (che conferisce alla retina un caratteristico colore rosso scuro), vi sono i pigmenti sensibili alle tre diverse frequenze di onde elettromagnetiche, blu, verde e rossa.

Nella maggior parte della retina si vedono gruppi di bastoncelli rigorosamente paralleli e accostati gli uni agli altri. Nella fovea, invece, si possono reperire solo coni (responsabili della visione diurna) strettamente ammassati, fino a 0.25 mm dal suo centro, mentre allontanandosene cominciano ad evidenziarsi i bastoncelli.

Oltre ai coni e ai bastoncelli altri tipi cellulari costituiscono la retina: le cellule gangliari veri e propri neuroni di uscita della retina, e tre tipologie di interneuroni ( cellule bipolari, cellule orizzontali e cellule amacrine).

Figura 2.2: Rappresentazione dell’occhio umano dal punto di vista anatomico.

Figura 2.1: Raffigurazione delle componenti diottriche dell’occhio

(15)

15

2.2 La visione

L'occhio può essere praticamente considerato come uno strumento ottico deputato a focalizzare sulla retina le immagini visive, con la minima distorsione possibile.

La luce, che viene focalizzata dalla cornea e dal cristallino, deve attraversare l'umor vitreo prima di venir assorbita dai fotorecettori (Fig.2.3). La luce che non è stata trattenuta dalla retina, a questo livello, viene assorbita dallo strato dell’epitelio pigmentato ricco di melanina. Con questo procedimento non si rischia che la luce venga riflessa su altre parti della retina stessa con conseguente deterioramento delle immagini visive.

Figura 2.3: Raffigurazione dei coni e dei bastoncelli evidenziando soprattutto i loro segmenti esterni; porzioni devolute alla captazione della luce, grazie alla presenza di pigmenti visivi.

Data la posizione dei fotorecettori, la luce deve attraversare tutti gli altri strati della retina, prima di colpirli.

(16)

16

Nella fovea i corpi cellulari dei neuroni degli strati sovrastanti i recettori sono spostati lateralmente, il che permette ai recettori foveali di ricevere le immagini visive nella loro forma meno distorta. Questa disposizione è particolarmente accentuata al centro della fovea, nella cosiddetta foveola. Per questa ragione l’uomo muove costantemente gli occhi, in modo che le immagini che risvegliano il suo interesse vadano a cadere sulle fovee.

La luce interagisce con i pigmenti visivi situati nel segmento esterno dei bastoncelli e dei coni. I segmenti esterni hanno un'elevata capacità di captazione della luce in quanto posseggono una elevata concentrazione di pigmenti visivi, capaci di assorbirla.

La retina modifica ed elabora i segnali evocati dalla luce nei fotorecettori prima di inviarli al sistema nervoso centrale. I neuroni d'uscita, le cellule gangliari, formano con i loro assoni il nervo ottico e raggiungono il corpo genicolato laterale, il collicolo superiore ed altri nuclei del tronco encefalico. A differenza dei fotorecettori, che rispondono alla luce con modificazioni graduali del loro potenziale di membrana, le cellule gangliari trasmettono le loro informazioni sotto forma di scariche di potenziali d'azione. I segnali dei fotorecettori vengono trasmessi alle cellule gangliari tramite i tre tipi di interneuroni: le cellule bipolari, le cellule orizzontali e le cellule amacrine. Queste cellule sommano anche i segnali provenienti da diversi fotorecettori. Mentre l'informazione visiva viene trasferita dai fotorecettori alle cellule gangliari, essa viene anche separata in due vie parallele, dette rispettivamente via centro-on e via centro-off. Le cellule gangliari centro-on vengono eccitate quando la luce stimola il centro dei loro campi recettivi e inibite quando ne viene stimolata la periferia; le cellule gangliari centro-off presentano risposte opposte. Queste trasformazioni dell'informazione visiva fanno sì che i centri superiori possano mettere in evidenza piccole differenze e rapide variazioni di luminosità. Esistono poi cellule gangliari che sono specializzate nella elaborazione di altre caratteristiche delle immagini visive. Alcune sono deputate a trasmettere informazioni relative alle caratteristiche generali delle immagini visive ed al loro movimento, mentre altre mettono invece in rilievo i dettagli ed il colore degli oggetti presenti nella scena visiva ([10] cap.27). Le diverse risposte delle cellule gangliari sono espressione dei differenti tipi di contatti sinaptici presenti nella retina. Anche le cellule bipolari, come le cellule gangliari, si possono distinguere in centro-on e centro-off. Il neurotrasmettitore liberato dai fotorecettori eccita le cellule bipolari di un tipo ed inibisce quelle dell'altro. Ciascun fotorecettore ha contatti sinaptici con cellule bipolari di entrambi i tipi. I recettori situati nel centro del campo recettivo di una cellula gangliare fanno sinapsi con cellule bipolari che entrano in diretto contatto con la cellula gangliare stessa. Gli stimoli provenienti dai coni localizzati alla periferia dei campi recettivi vengono

(17)

17

invece convogliati lungo vie collaterali che passano attraverso le cellule orizzontali e le cellule amacrine. La separazione delle diverse caratteristiche degli stimoli visivi in vie distinte poste in parallelo e le modificazioni delle risposte mediante connessioni inibitorie laterali sono principi cardine, mantenuti e sviluppati ad ogni livello successivo del sistema visivo.

I nervi ottici proiettano al chiasma ottico e da questo gli assoni proiettano a tre principali stazioni sottocorticali: il pretetto, il collicolo superiore e il corpo genicolato laterale.

Dal corpo genicolato laterale, le informazioni visive passano direttamente alla corteccia visiva primaria o area visiva 1 (V1) detta anche corteccia striata. Molti neuroni della corteccia striata sono sensibili all’orientazione: cioè, se una linea viene a cadere nel campo recettivo di una cellula e ruota sul proprio centro, la cellula risponderà soltanto quando la linea avrà assunto una particolare angolatura.

Spesso, tuttavia, si vede il movimento degli oggetti non perché la loro immagine si sposta sulla retina, ma perché l’immagine viene colta muovendo gli occhi. Occorre supporre, quindi, l’esistenza di un sottosistema neurale specializzato per l’analisi del movimento. Nei primati, un’area situata al bordo della corteccia parietale, l’area mediotemporale (MT, negli esseri umani nota come V5), risulta dedicata all’analisi del movimento. Ogni parte del campo visivo è rappresentata da un gruppo di colonne nel quale le cellule rispondono ad ogni direzione possibile del movimento in quella parte del campo visivo. Le cellule di MT rispondono bene al movimento di macchie o sbarrette luminose rilevandone i contrasti di luminosità. La maggior parte dei neuroni MT, inoltre, si limitano a mettere in evidenza la direzione del movimento delle singole componenti. Anche un’altra area corticale adiacente ad MT, l’area mediotemporale superiore (MST, negli esseri umani nota come V5a), possiede neuroni che rispondono a stimoli visivi in movimento e sembra che tali neuroni siano deputati ad analizzare un tipo globale di movimento, detto flusso ottico, che risulta particolarmente importante in quanto permette ad ogni individuo di avere la percezione del proprio movimento attraverso l’ambiente circostante. I neuroni dell’area MST posseggono campi recettivi che coprono gran parte del campo visivo e rispondono in maniera preferenziale a movimenti che interessano parti molto estese del campo visivo stesso. Questi neuroni sono molto sensibili allo spostamento del punto dal quale prende origine il movimento globale del campo visivo, nonché alle differenze di velocità che si manifestano tra il centro e la periferia del campo visivo. I neuroni di questa area ricevono anche afferenze correlate ai movimenti oculari e ciò appare particolarmente interessante in quanto il movimento verso l’avanti si accompagna, in generale, a movimenti del capo e degli occhi. ([10] cap. 28).

(18)

18

La bilaterale integrazione delle attività oculomotorie fa sì che i due occhi costituiscano una singola unità funzionale e realizzino insieme una sorta di occhio “ciclopico”,capace di provvedere alla visione unica e stereoscopica degli oggetti realizzabile solo grazie alla convergenza dell’immagine sulle fovee.

2.3 Movimenti oculari

La visione nitida del mondo esterno, e in particolare di un oggetto di interesse (mira o target) è, dunque, possibile solo se la sua immagine cade sulla fovea e vi resta stabile. I movimenti oculari hanno la funzione, quindi, di orientare lo sguardo verso una mira e di mantenerne stabile l’immagine sulla retina durante il movimento relativo tra osservatore e mira. Lo sguardo (gaze) è definito come la posizione dell’occhio nello spazio e corrisponde alla somma della posizione dell’occhio nell’orbita e della testa nello spazio. Pertanto il sistema di controllo dei movimenti oculari deve tenere conto anche del movimento del capo, del tronco e di tutto il corpo. I due concetti di holding (tener fermo) e di shifting (spostare) sono diametralmente opposti, ma è l’insieme ben controllato di entrambe le azioni che costituisce il compito dei movimenti oculari. Il sistema di controllo dei movimenti oculari è un microcosmo caratterizzato da un elevato livello di prestazioni e dalla capacità di reagire ed adattarsi a svariate situazioni anomale, dalle patologie alle perturbazioni sperimentali, il tutto grazie a una brillante organizzazione gerarchica a tre livelli: un livello operativo, un livello intermedio di decisione e controllo e un livello di supervisione.

Il livello di supervisione interviene modificando alcuni parametri dei meccanismi di esecuzione ed adattando le strategie di controllo in situazioni anomale tipicamente patologiche, ma non solo.

Al livello intermedio di controllo spetta un compito decisionale. Questo livello è continuamente vigile ed informato su quanto succede nel livello inferiore, nel mondo esterno e nelle altre parti del corpo umano. Infatti il movimento oculare, la cui finalità primaria è di stabilizzare la visione, deve tener conto del movimento della testa e del tronco, che modificano le coordinate relative del mondo visivo rispetto alla retina. Grazie a questo continuo monitoraggio, il livello intermedio di decisione e controllo può scegliere la strategia giusta in risposta a stimolazioni sensoriali di varia natura. E’ a questo livello che vengono elaborati anche i comandi volontari.

A livello operativo si trovano i meccanismi predisposti all’esecuzione dei differenti tipi di movimenti oculari.

(19)

19

Un primo livello di classificazione dei movimenti oculari distingue movimenti di vergenza e movimenti di versione.

I movimenti di vergenza sono quei movimenti che gli occhi compiono, di uguale ampiezza ma in direzioni opposte, per mantenere sulle due retine in posizioni equivalenti l’immagine di una mira che si sposta in profondità rispetto all’osservatore (Fig. 2.4). Ad esempio, un movimento di vergenza si ottiene fissando lo sguardo sulla punta del proprio dito indice tenuto davanti al naso. Avvicinando il dito al viso gli occhi convergono, allontanandolo gli occhi divergono.

Figura 2.4 : Movimenti di vergenza nell’inseguimento di un target che si avvicina all’osservatore.

I movimenti di versione, detti anche movimenti coniugati, sono invece quelli che gli occhi compiono nella stessa direzione. Considerando ancora l’esempio della fissazione del dito indice, se questo viene mosso alternativamente verso destra e verso sinistra si producono movimenti di versione. I movimenti oculari di versione a loro volta possono essere classificati in movimenti lenti e movimenti rapidi , essendoci tra i due una netta distinzione di velocità. I movimenti lenti possono raggiungere velocità dell’ordine di un centinaio di gradi al secondo. La velocità dei movimenti rapidi, caratterizzati da una forte accelerazione iniziale, è strettamente legata all’ampiezza del movimento, e

(20)

20

nell’uomo può raggiungere valori di oltre 500 gradi al secondo. E’ proprio questo legame tra velocità ed ampiezza del movimento che permette di distinguere i movimenti rapidi da quelli lenti. Mentre esiste un solo tipo di movimento rapido, il movimento saccadico, i movimenti lenti possono essere prodotti da meccanismi nervosi differenti tra loro e con finalità diverse: inseguimento di un target (movimenti di smooth pursuit) o stabilizzazione dello sguardo durante movimenti relativi tra il soggetto e l’ambiente visivo circostante(riflesso optocinetico e riflesso vestibolo-oculomotore). Il meccanismo di controllo dei movimenti oculari di versione risulta quindi diviso, dal punto di vista funzionale, in quattro sottoinsiemi ciascuno predisposto all’esecuzione e al controllo di un particolare movimento.

I movimenti saccadici o saccades, sono movimenti degli occhi molto rapidi che vengono generati in varie situazioni e con diverse funzionalità. Immaginando, ad esempio, di avere di fronte a sé due oggetti distanti tra loro, spostando lo sguardo da un oggetto all’altro gli occhi compiono un movimento saccadico. Poiché la visione durante un movimento oculare così rapido risulterebbe confusa esistono meccanismi di controllo che inibiscono l’elaborazione dell’immagine visiva del mondo esterno sulla retina durante la saccade. I movimenti saccadici sono gli unici movimenti oculari che possono essere prodotti in maniera volontaria. Si possono distinguere le saccadi di fissazione di un target, le saccadi di esplorazione dell’ambiente visivo, le saccadi catch-up presenti talvolta durante l’inseguimento di un oggetto in moto continuo, le fasi veloci del nistagmo vestibolare e del nistagmo optocinetico. Poiché le caratteristiche qualitative e quantitative dei differenti tipi di movimenti saccadici sono del tutto confrontabili, si è da tempo accettata l’ipotesi che essi siano prodotti da un unico meccanismo. Gli occhi inizialmente accelerano raggiungendo una velocità massima e successivamente decelerano.

l riflesso optocinetico (OKR) ha lo scopo di stabilizzare l’immagine del mondo esterno sulla retina. Lo stimolo visivo necessario per provocare una risposta otticocinetica è il movimento dell’intera scena visiva. Con lo scopo di compensare il movimento del campo visivo, il sistema otpcocinetico utilizza la velocità di scorrimento dell’immagine rispetto alla retina per produrre un movimento oculare nella stessa direzione e con la stessa velocità del mondo esterno garantendo la stabilità della visione. In condizioni naturali uno slittamento del mondo esterno si produce durante una rotazione del capo in un ambiente illuminato, o durante l’inseguimento di una mira puntiforme su uno sfondo. In questo ultimo caso la scena visiva scorre sulla retina nella direzione opposta al movimento degli occhi. Tuttavia in questa specifica situazione lo stimolo visivo periferico sembra venire totalmente soppresso in quanto non utile e addirittura dannoso al movimento di inseguimento. Esistono due tipi di

(21)

21

riflesso optocinetico: look e stare. Il nistagmo di tipo look si ottiene mettendo a fuoco e inseguendo attivamente un singolo dettaglio, per esempio una striscia bianca dello stimolo in movimento. Il nistagmo risultante è caratterizzato da ampie scosse. La relazione tra la velocità della fase lenta e la velocità della scena è praticamente lineare, almeno fino a valori di questa ultima di 80-100 gradi al secondo. Il nistagmo di tipo stare si manifesta quando non si osserva attivamente un aspetto specifico dello stimolo , ma si assiste in maniera passiva allo scorrimento della scena visiva.

Il riflesso vestibolo-oculomotore (VOR) ha la funzione di generare movimenti degli occhi uguali ma in direzione contraria al movimento della testa in modo da stabilizzare l’immagine del mondo esterno sulla retina. Nella vita reale l’azione compensatoria del riflesso vestibolo-oculomotore si manifesta ogni volta che la testa si muove in maniera attiva, cioè volontaria, o in maniera passiva. Ad esempio quando ci si trova su un veicolo che viaggia su un terreno sconnesso. Per meglio comprendere la funzione e l’importanza di questo riflesso si pensi ad una ripresa cinematografica fatta, durante una camminata, da un operatore poco esperto che non è capace di tenere ferma la telecamera. Proiettando la registrazione si osserva un’immagine sfocata e confusa. In situazione naturale i movimenti del capo, di natura attiva o passiva, avvengono in un ambiente visivo e quindi si manifestano risposte oculomotorie risultanti dall’interazione visuo-vestibolare [11].

2.4 Movimenti lenti di inseguimento (Smooth pursuit)

I movimenti di inseguimento lento (smooth pursuit, SP) hanno lo scopo di mantenere sulla fovea l’immagine di un target visivo che si muove in modo continuo (fig. 2.5). Ad esempio fissando lo sguardo sul proprio dito indice e muovendo lentamente il braccio nel piano orizzontale gli occhi mantengono la fissazione del dito mediante un movimento di inseguimento lento.

(22)

22

Figura 2.5: Movimenti di smooth pursuit per un target in movimento.

I movimenti di smooth pursuit non possono essere prodotti volontariamente ma richiedono l’effettiva presenza di qualcosa in movimento nel campo visivo. Il sistema di movimento di inseguimento lento è quindi sotto controllo volontario solo nel senso che in un ambiente visivo strutturato come quello reale, si può decidere quale mira inseguire, ed eventualmente se inseguirla oppure no. La velocità di un movimento di SP dipende dai parametri di velocità e ampiezza del movimento del target e può raggiungere, nelle migliori condizioni sperimentali, valori di circa 100 gradi al secondo. Quando la velocità dello smooth pursuit non è sufficiente per mantenere la fissazione della mira in movimento compaiono saccadi di correzione. Contrariamente a quanto accade per le saccadi, durante le quali la visione è soppressa, durante lo smooth pursuit la visione viene mantenuta e permette appunto di vedere chiaramente l’oggetto che viene inseguito. L’analisi quantitativa dei movimenti di SP risulta più complessa di quella delle saccadi a causa di una grande variabilità morfologica delle risposte dovuta anche alla variabilità del movimento della mira. Il parametro più utilizzato per valutare le prestazioni del sistema è il guadagno, inteso come rapporto tra la velocità degli occhi e la velocità del target.

I movimenti saccadici di correzione si manifestano non solo nella fase iniziale del movimento, ma ogni volta che a causa di una velocità di inseguimento inferiore alla velocità della mira, si crea un errore retinico di ampiezza tale da

(23)

23

attivare il movimento saccadico. Questo tipo di inseguimento di una mira mediante movimenti lenti e movimenti saccadici nella stessa direzione rappresenta un esempio di collaborazione tra differenti meccanismi finalizzata a migliorare la performance globale del sistema oculomotore [11]. Anche la predicibilità del movimento della mira influenza le prestazioni del sistema. Aspetti predittivi si manifestano, ad esempio, con movimenti del target di ampiezza e velocità costante in direzione alternata. Gli occhi tendono a decelerare per invertire la direzione prima che la mira abbia effettivamente raggiunto il punto di inversione del movimento. Nel caso di stimolazione predicibili sembra quindi che il modello di SP si crei un modello interno del movimento del target, il quale genera il segnale di riferimento al meccanismo esecutivo. Modello interno e afferenza sensoriale sono tuttavia continuamente confrontati per rilevare eventuali discrepanze. L’arresto improvviso del movimento predicibile della mira porta ad un arresto del movimento oculare in poche centinaia di millisecondi. Questo sistema è controllato da un feed-back negativo poiché lo stimolo allo spostamento degli occhi è costituito dal movimento dell’immagine sulla retina che crea una posizione d’errore dell’occhio rispetto allo scivolamento dell’immagine stessa sulla retina. Affinché sia possibile una ottimale accuratezza visiva, un’immagine deve rimanere stabile e vicina alla fovea, pertanto durante un pursuit sia la velocità sia la posizione dell’immagine retinica devono essere controllate dal sistema. Se l’operazione di inseguimento lento di un target fosse eseguita con un normale processo a feed-back negativo, il sistema accumulerebbe eccessivi ritardi senza riuscire a mantenere l’immagine al centro dell’occhio. I ritardi in questo caso sono dovuti principalmente alla frequenza di aggiornamento dell’immagine sulla retina, ai ritardi accumulati alla trasmissione dell’immagine dalla retina al SNC, alla sua elaborazione ed infine all’invio e all’esecuzione del comando motorio. Proprio per ovviare a tutto ciò il cervello utilizza la predizione per eseguire questo compito. I valori tipici di predizione si aggirano intorno ai 200 ms [12,13,14] .

(24)

24

Capitolo 3

Modello proposto di movimento oculare di

inseguimento con predizione

3.1 Modello di inseguimento classico

Un modello è una rappresentazione di un fenomeno, che ne riproduce alcune caratteristiche o comportamenti fondamentali, in modo tale che questi aspetti possano essere mostrati, studiati, conosciuti laddove l'oggetto modellato non sia direttamente accessibile. La costituzione di un modello scientifico o tecnico è sempre il risultato di un contesto della prova rigoroso, predisposto in modo tale da non essere minimamente influenzato dalle aspettative e dall'interpretazione soggettiva dell'osservatore. Il grado di verosimiglianza tra il fenomeno studiato e il modello elaborato dipende dalle caratteristiche che si vogliono ottenere e studiare e, di solito, è direttamente proporzionale al grado di complessità del modello stesso. Per questo motivo i primi modelli che caratterizzano un fenomeno sono spesso semplici e poco complessi, ma per emulare la complessità funzionale degli apparati biologici, essi necessitano di continue aggiunte in modo tale che sia possibile ampliarne le caratteristiche o migliorarne l'integrabilità con altri modelli di apparati vicini. I modelli biologici necessitano, infatti, di una visione olistica, che è basata sull'idea che le proprietà di un sistema non possano essere spiegate esclusivamente tramite le sue componenti. La complessità di un organismo biologico deriva proprio dal fatto che le sue parti sono mutuamente dipendenti. Il modello del movimento oculare di inseguimento lento (Smooth Pursuit) è stato ampiamente trattato in letteratura, ma in questo lavoro si sono voluti evidenziare i vantaggi derivanti dalla modellazione del fenomeno nelle caratteristiche di predizione e apprendimento.

La modellazione del movimento oculare di inseguimento lento (Smooth Pursuit) è stata oggetto di numerosi studi sia al fine della conoscenza biologica sia per le possibili applicazioni tecnologiche. Nel precedente capitolo è stato mostrato che tale movimento riguarda numerose aree cerebrali che interpretano e gestiscono le informazioni provenienti dalla retina per controllare in modo accurato l'apparato muscolare oculomotore. La comprensione del fenomeno da un punto di vista modellistico aiuta la localizzazione e l'identificazione funzionale delle aree cerebrali coinvolte. Occorre quindi comprendere la problematica tenendo conto del sistema sul quale il fenomeno si svolge, comprendendone i limiti e le possibilità. Il modello più semplice ed intuitivo di inseguimento di un target in movimento

(25)

25

prevede l'estrazione delle coordinate dell'oggetto e lo spostamento del sistema di visione, cercando di annullare la differenza relativa tra l'oggetto e il centro dell'immagine. Tale modello risulta essere sempre in ritardo rispetto al target e può funzionare discretamente solo su sistemi con tempi di acquisizione molto rapidi rispetto alla dinamica del target. La frequenza di aggiornamento dell'immagine sulla retina è, invece, piuttosto bassa, intorno ai 10 Hz. L'illusione del movimento è opera del cervello il quale assembla le immagini che gli vengono trasmesse in modo unitario e, ciò che più conta, in movimento.

Yasui e Young hanno proposto un primo modello di smooth pursuit nel quale il diagramma di controllo è sviluppato nello spazio delle velocità (fig. 3.1),nell'assunzione che esista, nel cervello umano, un adeguato controllore che realizzi perfettamente la velocità desiderata [15]. L'idea di Yasui e Young è che sia possibile generare una stima

T&

'

della velocità del target

T&

sommando lo slip retinale

e&

, cioè la velocità con cui si sposta l'oggetto sulla retina, e il segnale di ritorno propriocettivo della velocità dell'occhio

E&

'

:

e&

+

E&

'

=

T&

'

T&

(3.1) Si consideri l'errore retinale e come l'errore di posizione sull'immagine,

mentre lo slip retinale

e&

, è l'errore di velocità sull'immagine. L'importanza di questo modello risiede nel fatto che viene stimata la velocità del target da variabili sensoriali come lo slip retinale e la posizione dell’occhio.

Figura 3.1: Modello di Yasui e Young in cui la velocità del target viene calcolata in base allo slip retinale e alla velocità dell'occhio.

(26)

26

Ma tale approccio non tiene conto che

e&

al tempo t porta le informazioni generate da

T&

(t -

Δ

) e

E&

(t -

Δ

). Per prima cosa, dunque, occorre tener conto che è possibile stimare solo

T&

(t -

Δ

) e questa stima richiede

E&

(t -

Δ

) e non

E&

(t). Inoltre per seguire accuratamente un oggetto in movimento con una dinamica arbitraria, è necessario predire T& (t) al tempo t da una storia degli stati del target per ovviare ai ritardi dovuti al processamento delle immagini.

Un miglioramento sostanziale è stato presentato da Robinson et al. [16] , nel quale viene cancellato il segnale di feedback negativo in modo da permettere un alto guadagno di velocità (fig.3.2)

Tale modello lavora come un controllore feed-forward: il segnale di feedback con un ritardo

Δ

1 viene cancellato da un loop a feedback positivo con ritardo

1

Δ

+

Δ

3..

Figura 3.2: Il modello feed forward di Robinson in cui sono cancellati i ritardi dovuti al processamento delle informazioni

Δ

1 e al movimento

3

Δ

. Il modello però non considera il ritardo

Δ

2 e per questo risulta sempre in ritardo.

Tale percorso contiene un ritardo significativo determinato da

Δ

2 e

τ

in modo tale che questo modello non può ottenere un inseguimento senza perdita di un target sinusoidale. Un altro importante lavoro è stato eseguito da Bradshaw et al. , che implementa un filtro di Kalmann per eseguire la predizione della velocità del target [17]. Tale idea si basa, però, su conoscenze a priori della dinamica del target e quindi non fornisce indicazioni su come inseguire accuratamente una dinamica sconosciuta. Il filtro di Kalmann è un

(27)

27

efficiente filtro ricorsivo che valuta lo stato di un sistema dinamico a partire da una serie di misure soggette a rumore. Il filtro ha bisogno però della conoscenza di un modello matematico lineare descrittivo del sistema in modo da stimarne i coefficienti a partire dalle diverse misure del processo. Nel caso in esame, il filtro adatta i coefficienti della dinamica del target nota in modo da predire correttamente lo stato del sistema anche in presenza di rumore. Generalmente quindi occorre stabilire a priori una serie di possibili dinamiche e, rispetto alla dinamica presentata, scegliere quella che meglio assicura la convergenza dell'algoritmo. E' lecito supporre che la predizione che il cervello compie sulla dinamica del target derivi esclusivamente dalla storia dello stato del target

3.2 Modello di Schaal-Shibata

S. Schaal e T. Shibata [18,19] hanno presentato un controllore di smooth pursuit biologicamente ispirato che impara a predire la velocità del target in base ad un apprendimento veloce in tempo reale della dinamica del target.

Figura 3.3: Modello di Schaal e Shibata. La parte scura rappresenta una rete neurale ricorsiva esistente nelle aree deputate al processamento delle informazioni visive nella parte dorsale della corteccia. Il cervelletto e il tronco encefalico formano un controllore di dinamica inversa dell'occhio.

Δ

rappresenta il ritardo del percorso visivo che il sistema è in grado di superare. Tale modello è alla base del progetto presentato in questo lavoro.

(28)

28

In base a quanto riferito nel precedente capitolo l'area mediotemporale (MT) e l'area mediotemporale superiore (MST) sono coinvolte nel controllo dello smooth pursuit, gestendo le informazioni visive relative al movimento degli oggetti presenti nel campo visivo. Tali aree non sono infatti relazionate con i segnali afferenti o efferenti, relativi al movimento degli occhi. Questo suggerisce che la computazione dello smooth pursuit sia eseguita nello spazio delle traiettorie desiderate all'interno dell'area MST e non nello spazio del comando motorio. Il modello di Schaal consiste in due sottosistemi mostrati in figura (3.3): il primo è un predittore della velocità del target l'altro è un modello di controllore inverso del sistema oculomotore. Lo slip retinale

e&

, è generato dalla differenza tra la velocità dell'occhio

E&

e la velocità del target

T&

( come mostrato dalla (3.1).

Le informazioni relative al movimento del target sono processate dalla corteccia visiva e raggiungono le aree MT e MST. In questa ultima è possibile identificare una rete neurale ricorsiva (RNN) che riceve l'informazione di slip retinale con un certo ritardo e predice il movimento del target attuale. Da qui un controllore di dinamica inversa del sistema oculomotore, permette agli occhi di seguire la velocità predetta. Il cervello non può osservare lo stato del target direttamente, quindi esso stima lo stato basandosi sull'informazione di slip retinale ritardata di un tempo

Δ

. Nell'equazione (3.2) viene rappresentata la predizione della velocità corrente del target.

Xˆ&

(t) da una stima dello stato del target passato

X

(t -

Δ

.) attraverso la funzione f:

Xˆ& (t)= f ( X ( t - Δ ))

(3.2) E' dunque necessario applicare ricorsivamente la funzione f per predire continuamente la dinamica del target a partire dalla conoscenza dello stato del target ritardato. Si assume che il controllore inverso del sistema oculomotore sia in grado di allineare la velocità degli occhi alla velocità predetta del target:

E&

(t) =

Xˆ& (t)

(3.3) Lo stimatore dello stato

X

(t -

Δ

) nell'equazione (3.2) deriva da:

(29)

29

X (t-

Δ )= Xˆ (t- Δ )K (X(t- Δ )- Xˆ (t- Δ ))

(3.4)

Il primo termine a destra in questa equazione è lo stato stimato al tempo (t-

Δ

), mentre il secondo termine è l'errore di predizione moltiplicato per una matrice di pesi K, che corregge lo stato predetto dalla media dei segnali passati. Lo stato X(t -

Δ

) non è direttamente osservabile nell'equazione (3.4), ma componendo la (3.3) con la (3.1) si ottiene:

X

(t-

Δ

)=

(t-

Δ

) + K (X (t-

Δ

)- E(t-

Δ

) ) =

(t-

Δ

) + K

e&

(t-

Δ

)

(3.5)

E' così possibile stimare lo stato correttamente basandosi sul segnale di slip retinale ritardato.

Al tempo t, il predittore può solo vedere lo stato stimato del target ritardato

X (t- Δ )

. Attraverso il vettore dei parametri

ω

nel predittore dello stato

espresso nella (3.2), la predizione della velocità del target diventa:

Xˆ& (t)= f( X

(t-

Δ

),

ω

(t))

f (t)

(3.6)

Il vettore dei parametri

ω

deve essere regolato dal sistema. In accordo con le conoscenze biologiche riguardo all'area MST, il predittore predice esclusivamente la velocità del target invece che il completo stato del target. Sia la funzione di perdita J un semplice errore quadratico di predizione:

J(t)=

2

1

e& (t)

2

=

2

1

(

X& ( t ) - E& (t))

2 (3.7)

Unendo le equazioni (3.3) e (3.6) è possibile scrivere la legge di apprendimento della discesa del gradiente per il vettore dei parametri

ω

come:

(30)

30

(3.8)

in cui

ε

è la velocità di apprendimento. Con lo scopo di permettere al modello di seguire una dinamica di tipo sinusoidale si noti che essa corrisponde ad un sistema del secondo ordine che garantisce che la velocità del target possa essere predetta dalla conoscenza dello stato passato del target, quindi posizione x e velocità

x&

. Occorre considerare che il predittore non può ottenere

e& (

t) al tempo t, quindi occorre spostare tutta l'equazione (3.8) un

Δ

nel passato.

(3.9) L'apprendimento è eseguito implementando l'algoritmo ricorsivo ai minimi quadrati (RLS Recursive Least Squares) che garantisce una convergenza veloce.

Originariamente l'RLS è formulato come in (3.10, 3.11) dove

ω

è il vettore dei parametri di regressione che devono essere stimati, P è la matrice di covarianza inversa dei dati di input, x è il vettore di input, y è l'uscita, e

è l'uscita predetta.

(3.10)

(31)

31

(3.12) Nella (3.11) si mostra che il normale RLS richiede la presenza dell’uscita del target y per la legge di aggiornamento, ma come descritto precedentemente, il predittore non può vedere l'uscita in modo diretto, ma può utilizzare lo slip retinale come errore di predizione. In questo modo l'equazione deve essere modificata in:

(3.13)

Questa strategia corrisponde ad addestrare l'RLS su target falsi, cioè y =

(t) +

e&

. Inizialmente, questi target falsi sono piuttosto distanti da quelli reali,così che l'RLS è addestrato con dati incorretti. Per questo motivo, occorre dimenticare i dati iniziali utilizzando un fattore di dimenticanza

λ

appartenente all'intervallo compreso tra [0, 1]. Per

λ

= 1, non avviene dimenticanza, mentre per piccoli valori, i precedenti valori della matrice P sono dimenticati con andamento esponenziale. Essenzialmente, il fattore di dimenticanza assicura che la predizione dell'RLS sia basata esclusivamente sui 1/(1 -

λ

) valori. Questa strategia, inoltre, permette al predittore di essere adattivo con i cambiamenti della dinamica del target. Un altro importante elemento dell'equazione (3.13) è che essa mostra la necessità dell'allineamento temporale tra l'uscita del predittore e l'errore, ma il predittore non può vedere

e&

.(t+1) all'istante t. Così, come mostrato anche nella (3.9), tutte le variabili

della (3.13) devono essere ritardate di un passo temporale e questo richiede la loro memorizzazione per un breve tempo.

(32)

32

Figura 3.4: Modello di Schaal implementato in Matlab-Simulink. Function genera il segnale da seguire che corrisponde alla posizione del target, il Confronto tra target e occhio corrisponde alla retina che sottrae alla posizione del target quella dell'occhio, in uscita si ottiene l'errore di posizione; il processamento visivo restituisce la velocità del target predetta (in accordo con gli studi biologici sull'area MST) che viene inviata al controllore dell'occhio il quale modifica la posizione.

3.3 Simulazione in Matlab Simulink

Il modello descritto è stato simulato su Matlab Simulink con ingresso di tipo sinusoidale realizzato tramite il blocco Function (Figura 3.4). Il ritardo di elaborazione visiva, (

Δ

mostrato nelle equazioni precedenti) è stato assunto dello stesso ordine di grandezza della persistenza dell'immagine sulla retina umana cioè 100 ms. Il modello è così rappresentato come un sistema tempo discreto che campiona il segnale di ingresso con frequenza pari a 10 Hz. In figura 3.4 viene mostrato la prima parte del modello nel quale il nodo sommatore rappresenta essenzialmente la retina, in quanto confronta la posizione del target con quella dell'occhio. Questa informazione è inviata al sistema di processamento visivo che restituisce un segnale di velocità (in questo caso un segnale tempo discreto) che viene inviato al controllore dell'occhio per aggiornare la posizione dello sguardo. La velocità del target è poi confrontata con la velocità in uscita dal predittore per mostrare che l'anticipo di 200 ms in accordo con i dati presenti in letteratura. In figura 3.5 è mostrato il dettaglio del processamento visivo. Qui l'errore di posizione è campionato a frequenza di 10 Hz. Il campionatore è ottenuto con un blocco Unit Delay che aggiunge un ritardo di 100 ms come richiesto da modello. L'operazione di derivata discreta ottenuta attraverso il blocco Difference

(33)

33

permette di ottenere lo slip retinale. A questo punto sommando l'errore di posizione e lo slip retinale rispettivamente alla posizione dell'occhio e alla velocità dell'occhio si ottiene lo stato del target (come mostrato dalla equazione 3.1) che raggiunge il predittore. Si noti che, come da modello, l'informazione sullo stato dell'occhio (posizione e velocità) sono ottenute direttamente dall'uscita del predittore e ritardate della solita quantità di tempo (100 ms). All'interno del predittore è riprodotto l'algoritmo RLS ottenuto implementando in codice Matlab le equazioni 3.10, 3.12 e 3.13 per le quali è stato necessario utilizzare il blocco Memory per ricordare il valore della variabile ottenuto nella precedente iterazione. La matrice P è inizializzata con una matrice diagonale con valori [1 0; 0 1], mentre tutti gli stati iniziali del sistema di apprendimento sono settati a zero. Nelle figure 3.7 e 3.8 sono mostrati i risultati per una sinusoide con pulsazione pari a 1 rad/sec e con fattore di dimenticanza

λ

= 0.9. La velocità dell'occhio segue perfettamente la dinamica del target sinusoidale, lo slip retinale raggiunge lo zero entro 5 secondi. In accordo con gli studi biologici, il modello predice esclusivamente la velocità del target e di conseguenza non annulla l'errore di posizione (figura 3.7 in basso) che resta dunque costante.

Figura 3.5: All'interno del processamento visivo si esegue il campionamentoa frequenza 10 Hz dell'errore di posizione aggiungendo un ritardo di 100 ms.L'operazione di derivata discreta fornisce lo slip retinale che viene usato come errore nel predittore. La somma tra errore di posizione e la posizione occhio,nel nodo sommatore in alto, fornisce la posizione del target tempo discreto.La somma tra slip retinale e velocità dell'occhio, nel nodo sommatore in basso,fornisce la velocità del target tempo discreto. Queste due variabili rappresentano lo stato del target.

(34)

34

Figura 3.6: Per il predittore è stato implementato l'algoritmo RLS secondo le equazioni (3.10, 3.12, 3.13) descritte nel testo. Il fattore di dimenticanza lambda è stato scelto pari a 0.9. Lo stato del target deve essere ritardato(in rosso) per permettere l'addestramento con lo slip retinale non ritardato.

All'interno dei blocchi vengono calcolati i valori aggiornati della matrice P e del vettore dei parametri di regressione

ω

. Il blocco Y calcola la velocità predetta moltiplicando lo stato X per il vettore

ω

.

In figura 3.8 sono riportati i grafici del vettore dei parametri di regressione

ω

, mentre in figura 3.9 è possibile notare dal confronto della velocità predetta in uscita dall'algoritmo e la velocità del target che, dopo una determinato transitorio, la prima anticipa la seconda. Per mostrare il grado di anticipazione del modello è stata eseguita una prova in cui ad un determinato istante (es. 40 sec) la posizione del target viene portata a zero. E’ possibile notare un ritardo dell’occhio rispetto al target è dovuto al fatto che il modello predice la traiettoria del target al fine di annullare la differenza di velocità, superando il ritardo dovuto alla conduzione e al processamento dell'immagine (rappresentato dal blocco Time Delay che campiona l'errore di posizione) e il ritardo dovuto alla risposta motoria (questo è rappresentato dal controllore dell'occhio che prende in ingresso la velocità predetta discreta e restituisce la posizione dell'occhio tempo continuo).

Nel modello in Figura 3.3 si osserva che l'area MST necessita di confrontare i segnali provenienti dalla retina con la predizione precedente che dunque dovrà

(35)

35

essere opportunamente ritardata (ritardo rappresentato dal blocco Time Delay che riporta il segnale in ingresso). Altra interessante prova (figura 3.10) è stata eseguita con una dinamica composta da una sinusoide smorzata:

y= A * sin (k1 * t) *

e

t*0.2

(3.14)

Con y in posizione del target, A = 1 ampiezza della sinusoide (in radianti), k1 = 1 pulsazione (rad/sec) e t tempo. Tale dinamica potrebbe corrispondere all'andamento di un pendolo smorzato per effetto della gravità. Il modello continua a seguire la velocità del target ed i valori dei parametri risultano essere pari a

ω

(1) = -0.3352 e

ω

(2) = 0.831

(36)

36

Figura 3.7: In figura sono mostrati i primi 10 secondi della posizione del target confrontata con la posizione dell'occhio (in alto) con dinamica sinusoidale con pulsazione pari a 1 rad/sec e

λ

= 0.9. L'errore di posizione (in basso) risulta costante e di valore 0.1425 entro i 5 secondi. Il modello non annulla l'errore di posizione.

Figura 3.8: Vettore di regressione dei parametri. I due parametri raggiungono i valori di

ω

(1) = -0.3442 e

ω

(2) = 0.9602.

(37)

37

Figura 3.9: In figura si mostra il confronto tra la velocità del target e la velocità in uscita dal predittore che risulta essere in anticipo dopo un breve transitorio.

Figura 3.10: Confronto tra velocità del target e velocità dell'occhio nel caso di dinamica con sinusoide smorzata. I tempi di convergenza risultano analoghi.

(38)

38

Capitolo 4

Miglioramento del modello di Schaal-Shibata

4.1 Limiti del modello di Schaal-Shibata

Il modello presentato permette una predizione corretta della dinamica del target, consentendo al sistema oculomotore di restare in linea con il target stesso. In altre parole, il predittore fornisce il segnale che permette all'occhio di mantenere l'oggetto al centro dell'immagine. Come è possibile notare dai grafici, lo slip retinale, cioè la differenza tra la velocità del target e la velocità dell'occhio, si annulla entro un tempo di 5 secondi dalla presentazione del target. Questo tempo è notevolmente superiore rispetto ai tempi che si osservano in natura. Questo implica che il modello presentato da Schaal e Shibata non spiega come sia possibile seguire correttamente un oggetto in movimento in tempi rapidi. Il vettore dei parametri di regressione

ω

di fatto genera la predizione della velocità del target a partire dallo stato attuale, come mostrato dalla (4.2), quindi l'inizializzazione dei parametri gioca un ruolo fondamentale nella velocità di predizione. Dalle prove eseguite è stato dimostrato (figura 4.1 e tabella 4.1) che il vettore

ω

dipende esclusivamente dalla frequenza di oscillazione della dinamica del target, in quanto essa determina, a parità di ampiezza della sinusoide, la velocità del movimento. Esso è infatti indipendente dall'ampiezza della sinusoide e dal fattore di dimenticanza

λ

. Il limite principale di questo modello è che esso non conserva memoria delle traiettorie precedentemente acquisite, ma deve necessariamente adattarsi ogni volta che la dinamica del target cambia. Ad esempio se inizialmente il sistema si adattasse ad una dinamica del target con pulsazione di 0.5 rad/sec e se successivamente la frequenza raddoppiasse il modello modificherebbe i parametri per adattarsi alla nuova dinamica; a questo punto, il target tornando alla precedente velocità costringerebbe il sistema a riadattarsi nello stesso tempo impiegato nel primo apprendimento per annullare lo slip retinale.

(39)

39

Figura 4.1: Grafico dell'andamento del vettore di regressione dei parametri in funzione della pulsazione della sinusoide in ingresso.

Tabella 4.1: In tabella è mostrata l'invarianza del vettore di regressione dei parametri rispetto all'ampiezza e del fattore di dimenticanza _.

(40)

40

Figura 4.2: Variazione della dinamica del target. In alto sono mostrate la velocità del target e la velocità dell'occhio, nel caso in cui la pulsazione della sinusoide in ingresso passi da 0.5 rad/sec a 1 rad/sec e di nuovo da 1 ad/sec a 0.5 rad/sec. Il modello si adatta perfettamente alla variazione della dinamica, in entrambi i casi. In basso è mostrato lo slip retinale che si annulla con i medesimi tempi in ogni apprendimento.

Figura

Figura 1.6: Un modello inverso è in grado di fornire i comandi motori  necessari per ottenere la posizione desiderata
Figura 1.7: Nel predittore di Smith vengono utilizzati due modelli  anticipativi all'interno di un loop tradizionale a feedback negativo
Figura 2.2: Rappresentazione  dell’occhio umano dal punto  di vista anatomico.
Figura 2.4 : Movimenti di vergenza nell’inseguimento di un target che si  avvicina all’osservatore
+7

Riferimenti

Documenti correlati

Questo ´ e a mio avviso il metodo migliore per diversi motivi: le immagini catturate avranno una distanza tem- porale piccola a piacere, risultando molto simili fra di loro, fatto

[r]

▸ Emerging EULAR network (EMEUNET) and EULAR standing committee for education and training (ESCET) conducted the first systematic educational survey on the needs and preferences

Mais comme les plus hautes entreprises sont ordinairement aussi les plus périlleuses, certainement celle-cy n’est point sans beaucoup de danger ; car encore qu’il

Being privately or publicly owned it wouldn’t influence so largely the business model of a club, since also club in a privately owned stadium could develop an appropriate

- un fatturato annuo non superiore a 50 milioni di euro oppure un attivo patrimoniale non superiore a 43 milioni. Inoltre, la normativa definisce anche

La communauté nationale algérienne à l’étranger bénéficie également d’une protection dans le cadre de l’accord d’association établi entre l’Algérie et

This report has argued that in Denmark the limits to tolerance of ethnic and religious difference in political life have been most significantly challenged in