• Non ci sono risultati.

Nuovi modelli cerebrali

Nel documento PERCEZIONI, CONOSCENZA E COMPRENSIONE (pagine 109-113)

SEZIONE I MODALITÀ SENSORIAL

11. Nuovi modelli cerebrali

Ora che sappiamo qualcosa di più sulla struttura della neocorteccia, possiamo tornare alle reti neurali. Le loro capacità espresse dal paradigma PDP (§7) sono notevoli, ma presentano alcuni limiti. Ad esempio, in reti molto complesse i tempi di apprendimento diventano troppo lunghi e a volte queste si bloccano su posizioni di minimo locale, cioè in uno schema di attivazione che non risulta essere la soluzione del problema, ma dal quale non riesce ad uscire, neppure continuando l’addestramento, perché localmente si trova in una posizione ottimale nello spazio delle soluzioni. Vuol dire che ad ogni spostamento dalla situazione raggiunta localmente la rete registra un peggioramento delle prestazioni e quindi torna alla situazione precedente. Inoltre, spesso si ha bisogno di un enorme numero di esempi accuratamente etichettati per l’addestramento . 31

Negli ultimi anni, il lavoro di simulazione delle reti è stato continuato e notevolmente migliorato grazie alle capacità di nuove reti neurali, a volte dette «macchine di Helmholtz». È un nome usato da Geoffrey Hinton per descrivere una 32

classe di reti neurali artificiali che apprendono la struttura intrinseca di un insieme di dati (input), inferendone le probabili cause (seguendo l’intuizione dello scienziato von Helmholtz e del filosofo Peirce che ha riconosciuto come la nostra mente ad ogni passo compia un’inferenza particolare da lui chiamata «abduzione». Gli scienziati cognitivi la chiamano inferenza bayesiana e si tratta, appunto, di partire dai 33

risultati per inferirne le cause sconosciute). Sono sistemi capaci di apprendere rappresentazioni in un sistema multilivello senza che vi sia bisogno di esporle ad un addestramento basato su campioni pre-etichettati . Una volta che la rete ha formato 34

una rappresentazione di alto livello degli input, questa può essere usata come input

Ciò significa che la rete deve essere addestrata esponendola a numerosissimi input di quelli che noi

31

già sappiamo essere esempi corretti del tipo che la rete dovrà successivamente imparare a riconoscere in modo indipendente.

Dayan et al. (1995).

32

Il nome deriva dal reverendo Thomas Bayes che per primo, nel Diciottesimo secolo, ha codificato

33

questo campo della probabilità in modo matematico. Hinton (2010).

per una successiva procedura di apprendimento non supervisionato. Questo è possibile grazie a connessioni discendenti che codificano un modello probabilistico dell’attività delle unità e dei gruppi di unità di basso livello, tracciando le cause interagenti nel segnale sorgente, che può essere il mondo o il corpo . Per capire 35

meglio come funzionano i modelli gerarchici, useremo una delle possibili implementazioni di una tale idea generale, quella pensata da Ray Kurzweil . 36

Egli individua l’unità di elaborazione cerebrale nel «riconoscitore di forme» (una struttura capace di riconoscere schemi di input sensoriali o schemi provenienti da altri riconoscitori di forme). Esso è formato da tre parti:

1. L’input, cioè le forme di livello gerarchico inferiore che costituiscono la forma in esame. Ovviamente, queste sue parti non devono essere riconosciute da diverse unità per ogni forma di livello superiore che la contenga.

2. Il nome, cioè la risposta dell’assone che fuoriesce dall’unità per segnalare l’eventuale riconoscimento della forma in questione.

3. L’insieme delle forme di livello superiore di cui la forma in questione fa parte.

Nell’esempio di Kurzweil si illustra il caso particolare del riconoscimento di una «A» (si veda la fig. 11.1). Possiamo partire con le forme di linee rette o curve orientate che costituiscono altre forme, le lettere, che costituiscono le parole, e così via. Ovviamente ogni forma può essere usata per il riconoscimento di più forme di livello superiore, come anche più forme possono essere usate per il riconoscimento di una stessa forma di livello superiore. Quest’ultimo caso è una forma di ridondanza (cfr. §3.3). La cosa importante da sottolineare è che in questa struttura gerarchica ad albero l’informazione non solo sale, ma anche scende. Ad esempio, se vengono riconosciute le lettere «A», «L», «B», «E» e «R», il riconoscitore di «ALBERO» prevederà «O» e invierà un segnale verso il basso al riconoscitore della «O» permettendogli di riconoscerla più facilmente (abbassandone la soglia di attivazione), in modo che possa svolgere il suo compito anche in presenza di una «O» strana o

Hinton (2007).

35

Kurzweil (2012).

disturbata da un forte rumore. In questo modo, la corteccia non fa altro che predire gli input futuri, date certe probabilità acquisite con l’esperienza.

Ovviamente il modello è complicato da molti altri elementi, come ad esempio la presenza di collegamenti inibitori (oltre a quelli eccitatori) e dovrà anche essere ulteriormente complicato, visto che nel cervello esistono evidenze di connessioni «laterali», rispetto a quelle verticali gerarchiche, come di collegamenti diretti tra livelli gerarchicamente distanti.

!

Rimane però ancora un aspetto da chiarire, pur rimanendo in questo livello di dettaglio, quello di come sistemi simili a questo riescano a riconoscere una stessa forma nelle sue molteplici versioni e rispetto al resto dei segnali in input. Per illustrarlo, esporremo l’idea che sta dietro a un modello leggermente diverso da quello presentato da Kurzweil.

11.1 Invarianza percettiva

Ogni oggetto di cui facciamo esperienza con i sensi può presentarsi in un’infinità di modi differenti. Ad esempio, le sue caratteristiche visive cambiano al cambiare della sua posizione, della sua distanza, della sua orientazione, delle diverse condizioni di luce, ecc. Eppure i cervelli degli esseri umani, e non solo, sono capaci di identificare tutte queste variazioni come appartenenti allo stesso oggetto senza alcuno sforzo. E tutte queste variazioni si moltiplicano enormemente se pensiamo che possono dipendere dal movimento dell’oggetto come anche dal nostro movimento, o anche dai continui movimenti di saccade degli occhi. Com’è possibile raggiungere l’invarianza percettiva degli oggetti che esperiamo? In molti hanno pensato che la soluzione possa trovarsi nel modo in cui facciamo esperienza degli oggetti, cioè all’interno di una cornice spazio-temporale. Ciò vuol dire che le caratteristiche covarianti in brevi intervalli temporali corrispondono, in media, maggiormente a variazioni del medesimo oggetto. Tuttavia, questa strategia sembra adatta a descrivere soprattutto cambiamenti non troppo veloci della posizione di un oggetto. Per rendere conto delle variazioni prodotte dai movimenti saccadici, gli input percettivi devono essere accostati anche agli schemi attivati dai movimenti degli occhi e del corpo. In effetti ci sono già studi che mostrano come sia proprio una tale esperienza a guidare la formazione dell’invarianza percettiva . 37

C’è chi si è servito di tali idee per riuscire a simulare attraverso una rete neurale la capacità di invarianza. Dileep George ha affrontato con discreto successo un tale compito per schemi di riconoscimento visivo . Prendiamo l’esempio di una persona 38

che si avvicini ad un tavolo per prendere un bicchiere d’acqua. Nell’avvicinarsi, l’immagine del bicchiere sulla retina varia, ma tali versioni occorrono vicine temporalmente e conseguenti rispetto alle altre di altri oggetti. Tali informazioni sono sufficienti a disambiguare il bicchiere dal resto. Quindi, anche se le diverse variazioni del bicchiere non sono etichettate come appartenenti al bicchiere, occorrono vicine

Cox (2005).

37

George e Hawkins (2009).

temporalmente e questo è sufficiente per apprenderle come varianti percettive dello stesso oggetto. Inoltre dobbiamo tenere a mente che questo processo descrive l’addestramento della rete a riconoscere un oggetto, ma una volta completato tale stadio, il riconoscimento di un oggetto già appreso risulterà pressoché immediato. Eppure, si potrebbe obiettare, apprendere l’invarianza per un oggetto non aiuta in alcun modo ad apprendere quella di altri oggetti e quindi dovremmo ripetere tale apprendimento per ogni oggetto incontrato. Fortunatamente questo non accade grazie alla struttura gerarchica che abbiamo descritto precedentemente. Molti oggetti diversi sono costituiti dagli stessi elementi percettivi base, che dunque possono essere usati per il riconoscimento di nuovi oggetti (si ricordi l’esempio delle stesse lettere che possono essere usate per più parole). George chiama un tale modello, che unisce le qualità di un riconoscitore di forme guidato dalle co-occorrenze spazio-temporali con quelle di una struttura gerarchica con meccanismi ascendenti e discendenti, «Hierarchical Temporal Memory» (HTM).

Un’ultima nota per sottolineare come questo modello permetta, a mio avviso, di dare un significato profondo ai risultati di esperimenti che mostrano come le nostre convinzioni sul mondo e persino sul nostro corpo derivino in ultima istanza dall’esperienza che ne facciamo, guidati anche dalla sincronia delle diverse esperienze all’interno di uno stesso sistema sensoriale, come anche tra sistemi sensoriali diversi (cfr. §4.3.2 e §4.4.).

Nel documento PERCEZIONI, CONOSCENZA E COMPRENSIONE (pagine 109-113)