• Non ci sono risultati.

La geometria come problema limite dell’analogia

I MODELLI SUBCOGNITIVI DELLA PERCEZIONE ANALOGICA

3.7 La geometria come problema limite dell’analogia

Un sistema di analogy-making recentemente sviluppato secondo l’approccio subcognitivo tipico del FARG è dedicato ai Problemi di Bongard. Come abbiamo visto in precedenza, i Problemi di Bongard sono costituiti da due serie di sei riquadri, ognuna contenente una certo numero di figure e in relazione di analogia fra loro secondo una caratteristica generale che differenzia i riquadri della prima serie da quelli della seconda. Ad esempio, ritornando al Problema di Bongard n. 71 della figura 3.1, la soluzione è data dall’individuazione del fatto che mentre in ogni riquadro di destra c’è

Complessità delle azioni

D in am ic it à d el le st ru tt u re d i m em o ri a

Ciclo esecutivo di retroazione della creatività

almeno una relazione di inclusione con al massimo un (ma andrebbe bene anche l’affermazione più forte “con esattamente un”) livello di inclusione, in ogni riquadro di sinistra c’è almeno una relazione di inclusione con almeno due (ma andrebbe bene anche l’affermazione più forte “con esattamente due”) livelli di inclusione. Tuttavia, in altri casi la soluzione dipende dalla forma delle figure o anche dalla presenza o mancanza di aree colorate piene e non colorate vuote67.

Lo scopo di Bongard nel costruire i suoi problemi era quelli di testare le capacità umane nel compito di pattern recognition. Come abbiamo visto, proprio questo è il problema che Hofstadter (1979) proponeva come prototipico, e allo stesso tempo decisamente arduo, che l’IA doveva affrontare nella speranza di poter affermare di aver prodotto un programma “intelligente”. Infatti, il riconoscimento di schemi (pattern) è strettamente collegato col tema della rappresentazione di una situazione percepita e con le questioni della categorizzazione, e di conseguenza connesso, attraverso il problema della conoscenza contestuale, con la questione della rappresentazione della conoscenza in un sistema umano o artificiale. Lo sviluppo di un modello computazionale traducibile in programma in grado di risolvere i problemi di Bongard fu, perciò, considerato da Hofstadter alla fine degli anni settanta del secolo scorso, una sorta di experimentum crucis, di spartiacque fra una visione dell’IA psicologistica troppo coinvolta con il simbolismo delle argomentazioni logico- algoritmiche e una visione che cominciava a occuparsi degli aspetti percettivo-cognitivi, da una parte in relazione al come della costruzione e della manipolazione della rappresentazione, e dall’altra con la dovuta attenzione alla questione non aggirabile del contesto epistemico in cui la rappresentazione viene operata. I Problemi di Bongard appaiono un ottimo banco di prova per tutti questi temi. Risolverli, trovare una possibile soluzione, vuol dire affrontare problemi di analogia e di riconoscimento interdipendenti e senza che tra i due compiti ci sia necessariamente una linea di separazione netta. Inoltre, il fatto di esprimere la soluzione in forma linguistica, se non implica il dover implementare un sistema per la produzione del linguaggio naturale, richiede tuttavia che si presti attenzione alla selezione dei concetti, in alcuni casi anche molto astratti, sulla base dei quali l’analogia viene contemporaneamente compiuta e spiegata. In quest’ottica, percezione delle raffigurazioni e analogia concettuale sono le due facce della stessa unica medaglia costituita dall’attività di riconoscimento di schemi (pattern recognition).

Dovrebbe essere ormai evidente la complessità del dominio costituito dai problemi di Bongard, da cui dipendono anche nel caso del nuovo modello proposto le particolari variazioni dell’architettura cognitiva ideata per risolverli: PHAEACO (Foundalis, 2006). Il punto centrale va ancora ricercato nel dominio. La risoluzione dei Problemi di Bongard implica al tempo stesso una serie di conoscenze relative alle figure geometriche, ma anche a relazioni spaziali e concettuali fra

67 In Bongard (1970) sono esposti i cento problemi ideati dallo psicologo russo. In un manoscritto non pubblicato del

1977 (disponibile presso il Center for Research on Concepts and Cognition dell’Indiana University) sono raccolti altri 56 problemi ideati da Hofstadter. Per una consultazione molto più rapida di questi ed altri problemi proposti nel corso degli anni da differenti creatori (in tutto più di 250) si rimanda al seguente link: http://www.cogsci.indiana.edu/farg/harry/res/bps/bpidx.htm

esse, nonché la possibilità di vedere l’inesistente (spazi concavi, figure prodotte dal congiungimento ideale di punti, ecc.), gruppi di elementi non esplicitamente correlati. Le primitive percettive coinvolte sono, dunque, molto differenti: largo, piccolo, concavo, curvo, verticale, orizzontale, ma anche sotto, sopra, su, giù, uguale, diverso. In altri termini due sono le condizioni principali per ottenere una risposta a questi problemi:

• una conoscenza intuitiva della geometria, che possa essere facilmente collegabile con concetti astratti in modo da attuare relazioni di confronto (matching) a un qualche determinato livello;

• la possibilità di accedere agli elementi dell’input in maniera diretta e flessibile, per poter utilizzare l’informazione percepita, davvero cospicua, nel modo più fruttuoso possibile.

In particolare, la seconda condizione è legata al fatto che la discrepanza apparente tra ristrettezza del dominio impiegato e il mondo reale tende a diminuire nel caso dei Problemi di Bongard, a causa della complessità concettuale delle caratteristiche percepibili in gioco e delle strutture rappresentazionali coinvolte nei processi di matching. D’altra parte, tale discrepanza è stata definita “apparente”, poiché, come abbiamo più volte affermato, nell’approccio subcognitivo non è la quantità di informazione presente nel micro-dominio a differenziarlo dal mondo reale, bensì piuttosto le capacità cognitive che devono essere messe in gioco per arrivare ad un adeguato svolgimento della prestazione che definisce il compito nel dominio. In relazione a questo criterio i Problemi di Bongard, in una ideale scala di complessità relativa all’insieme delle facoltà che mettono in gioco, sono il dominio più complesso visto finora. La sua complessità non deriva dal fatto di agire in dominio visivo molto ricco di informazioni, bensì in un universo i cui elementi sono soggetti a un tipo di “manipolazione” che implica una ricchezza percettiva (di oggetti e relazioni) anche ai livelli più bassi, come quello visivo. Così, mentre in COPYCAT gli elementi percettivi (le lettere) erano univoci e in LETTER SPIRIT (i caratteri), venivano vagliati, ma da un’angolatura che li vedeva sempre come istanze di un qualche tipo della sovra-categoria generale “lettera”, in PHAEACO si arriva alla totale cecità pre-elaborazione in merito agli elementi del dominio, i cui unici vincoli, conosciuti dal programma, sono quelli di essere bidimensionali e racchiusi all’interno di un frame predefinito costituito da dodici riquadri suddivisi in gruppi di due. Per cui, se da una parte è vero che «lo scopo di PHAEACO non è quello di fornire un modello riuscito per l’automazione della percezione visiva o l’elaborazione di immagini» (Foundalis, 2006, p. 20), è anche inevitabile che un qualche meccanismo in grado di attuare processi di percezione visiva sia necessario all’operatività in questo dominio, meccanismo che, dunque, conferisce un’apertura in un certo senso non vincolata agli elementi che possono essere oggetto di rappresentazione da parte del programma. È per questo che, «il dominio dei Problemi di Bongard include alcuni elementi che

appaiono essere centrali nella cognizione umana; [...esso] è illusoriamente percepito come un microdominio, e non dovrebbe essere inteso come limitato da rigidi confini. Nel dominio dei Problemi di Bongard la mente è il limite» (ivi, p.21 [enfasi mia]).

Queste parole costituiscono il culmine della complessità nella scelta dei microdomini come universi di azione di programmi sviluppati all’interno dell’approccio subcognitivo, i quali ricercano un punto di equilibrio fra non limitatezza e duttilità da una parte e stabilità della rappresentazione dall’altra. Con PHAEACO è possibile constatare come tale obiettivo è tanto più raggiunto quanto più si riesce ad allargare la forbice fra processi cognitivi di alto livello e percettivi di basso livello, laddove i due aspetti non vanno visti in modo separato ma in continuità, con il fine ultimo di stabilire i limiti effettivi di questa capacità mentale considerata nel suo complesso.

Conseguenza di questa impostazione specifica è che l’architettura computazionale del sistema è, pur con alcune differente particolari, la stessa dei modelli precedenti e richiama in qualche modo la tripartizione alla base della teoria che ne costituisce la matrice. Il ciclo di interazione principale è tra uno Spazio di Lavoro e una Memoria a Lungo Termine, in cui sono immagazzinati i concetti permanenti. Il sistema comincia con processi bottom up di esplorazione dei riquadri del problema e prosegue facendo intervenire processi sempre più astratti. L’elaborazione delle immagini viene suddivisa in una sequenza di processi gerarchici ascendenti che lavorano sui pixel con l’obiettivo di costruire una rappresentazione delle figure esperite. Tale rappresentazione è costruita nello Spazio di Lavoro attraverso una serie di grafi ad albero, che hanno come nodo radice il nodo-riquadro e sotto-nodi quelli che rappresentano gli oggetti percepiti e, a un livello ancora più basso, le loro caratteristiche, ulteriormente scomponibili. Gli archi rappresentano relazioni di appartenenza dal basso vero l’alto. Così, se la figura percepita è un triangolo, il nodo corrispondente sarà inserito nella struttura gerarchica che comprende superiormente il nodo riquadro e inferiormente le sue componenti, ad esempio i lati, i quali avranno a loro volta nodi inferiori che ne indicano la lunghezza, l’orientamento, e così via. Ogni nodo è espresso da una serie di valori statistici tra i quali sono compresi il numero delle osservazioni, la media fra i valori delle osservazioni, la media della variazione, la somma dei quadrati. Ciò è conforme a una rappresentazione flessibile in grado di far convergere la presenza di differenti esempi verso un valore di stabilità che rappresenta la loro media. La struttura ad albero in realtà non ha la forma di un grafo aciclico perché è possibile che da diversi nodi parta un collegamento a un identico nodo sottoposto. Un esempio è il caso del nodo che esprime la numerosità di una caratteristica come il numero dei lati, il quale riporterà il valore corrispondente e su cui convergeranno tutti i nodi che rappresentano i lati.

L’indeterminatezza del grado di dettaglio degli elementi percepibili potrebbe far sì che il processo di costruzione, che non è limitato, procedesse senza fine, fatto implausibile dal punto di vista cognitivo. Per risolvere questo problema, ad ogni nodo del grafo è connessa una variabile che esprime l’attivazione corrispondente. Nel momento in cui la somma delle attivazioni dei nodi sottoposti trasmesse al nodo radice raggiunge un certo valore di soglia la costruzione della

rappresentazione termina. La struttura che ne deriva è gerarchica e i tipi di nodi che sono utilizzabili possono essere raggruppati secondo tre categorie: nodi oggetto, nodi caratteristica, nodi numerosità. In particolare, i nodi caratteristica che costituiscono la maggior parte della struttura ad albero sono di diverso tipo: punti, vertici, angoli, contatti, concavità, ma anche, come si è visto prima, nodi che esprimono caratteristiche costitutive interne (tessitura, riempimento) o relazioni (interiorità, lunghezza, uguaglianza). In particolare, questi ultimi, conformemente ai modelli precedenti, sono quelli su cui si basano i raggruppamenti e che inviano informazione “di alto livello” alla rete concettuale, facendo attivare i nodi della rete semantica permanente più astratti. In definitiva, tale processo costruttivo è basato su un numero limitato di primitive percettive visive, che Foundalis suppone essere di poche centinaia, sulla base delle buone prestazioni rappresentative di PHAEACO, e oltre le quali cominciano le ripetizioni68.

L’aspetto più interessante di questa costruzione della rappresentazione risiede nel fatto che essa si espliciti, più ancora che nei modelli visti in precedenza, come gerarchia di tipi concettuali disposta su più livelli e che tale struttura ad albero rispecchi, dall’alto verso il basso, la descrizione

intensionale di un oggetto, mentre i processi che inviano attivazione ai nodi della rete semantica, sia

a partire da singoli nodi relazioni che puntano su più caratteristiche all’interno di uno stesso albero (è il caso, ad esempio, del nodo “uguaglianza”), sia nel caso di nodi caratteristiche uguali appartenenti ad alberi diversi, possono essere considerati la controparte della descrizione

estensionale degli oggetti percepiti. Tale intreccio, che avviene sempre secondo le dinamiche

probabilistiche della scansione parallela a schiera e dietro il superamento di valori di soglia, dispiega un sofisticato meccanismo non solo per la rappresentazione delle due dimensioni attraverso cui tradizionalmente viene definito un concetto, ma anche per il loro utilizzo dinamico in sede di percezione della situazione. Dal punto di vista teorico è stata avanzata, infatti, l’ipotesi (Linhares, 2000) che un sistema in grado di operare nel dominio dei Problemi di Bongard debba incorporare la possibilità di istituire la relazione percettiva secondo uno schema “molti-molti”, ovvero, mentre ad ogni descrizione devono corrispondere molteplici segmentazioni dell’immagine elaborata, ogni segmentazione deve essere passibile di molteplici descrizioni. Il rapporto fra intensionale ed estensionale assume perciò un connotato variabile e flessibile, strettamente dipendente dal contesto dell’elaborazione, che procede a predisporre il punto di vista migliore a seconda delle esigenze attuali del sistema69.

Tale gioco di rimandi trova il suo vincolo “superiore”, cioè a livello cognitivo, nel compimento del processo di pattern matching attraverso la comparazione delle descrizioni, che sono le strutture

68 Il convezionalismo nella metodologia di individuazione delle primitive visive è dichiarato esplicitamente dall’autore:

«L’ipotesi fatta in questa tesi è che l’insieme delle primitive visive che possono essere espresse nei Problemi di Bongard [un mondo di figure bidimensionali] è grande – presumibilmente dell’ordine di qualche centinaia. [Tuttavia] la decisione se un dato tratto costituisca o no un primitivo è soggettiva» (Foundalis, 2006, p. 209). D’altra parte, ciò che sembra appartenere allo sviluppo del progetto non è la loro elencazione esaustiva, ma la dimostrazione che essi siano necessari all’espletamento di alcune attività cognitive basilari.

69

Si rimanda a Linhares (2000) per un discussione filosofica sull’ontologia del dominio definito dai Problemi di Bongard.

gerarchiche ad albero sopra descritte. Tali strutture, infatti, possono essere considerate alla stregua di esemplari, la cui somiglianza è colta da uno specifico algoritmo del sistema basato sulla comparazione dei rispettivi livelli gerarchici. Il ritrovamento di caratteristiche simili fa sì che PHAEACO consideri un esemplare simile a un pattern (inclusione categoriale) e aumenti la stabilità di questo, incrementando il numero degli esemplari da cui lo ha ricavato e facendo la media fra le caratteristiche del nuovo esemplare e quelle che esprimono il pattern in quanto media degli esemplari già “inglobati”. Un algoritmo di questo tipo è chiaramente anche in grado di eseguire un’operazione più basilare rispetto di quella del inclusione nel pattern, ma di un’importanza fondamentale, cioè la formazione di nuovi pattern a partire da due o più esemplari confrontati e scoperti come simili, al solito attraverso una funzione che calcola la media delle loro caratteristiche accoppiabili (si ricordi che le caratteristiche sono in realtà liste di valori numerici che esprimono parametri statistici).

Al di là degli aspetti più tecnici, l’implementazione di un meccanismo di questo tipo (costruzione di strutture ad albero + algoritmo di pattern matching) costituisce il punto di congiunzione fra processi di riconoscimento categoriale e di costruzione di analogie. Si può affermare, perciò, che uno degli obiettivi di PHAEACO consiste proprio nell’impostare in maniera effettiva la questione della capacità di fare analogie come attività di pattern matching70 e questo a un livello di dettaglio che permette di racchiudere sotto un’unica prospettiva riconoscimento categoriale e processo di creazione di analoge attraverso l’impiego della nozione, complessa e sfaccettata dal punto di vista cognitivo, di pattern. A supporto teorico di questa concezione c’è la propensione a favore di una tesi che mescola realismo ontologico e verticismo (nel sistema che percepisce) delle funzioni percettive in una dimensione evoluzionistica, come è evidente nelle seguenti parole:

La nostra abilità nel fare analogie (come apice), o pattern matching (come aspetto di base) – qualsiasi nome gli si voglia dare – consiste nell’abilità fondamentale delle creature cognitive di percepire il mondo e rivestirlo di senso, assegnando ciascun oggetto a una categoria conosciuta; di percepire le categorie attraverso l’esposizione a oggetti sufficientemente simili; e anche di percepire gli oggetti stessi, che è un prerequisito della categorizzazione. Come mettiamo in atto il vedere “oggetti” nel mondo, piuttosto che casuali collezioni di “pixel” inviati alla nostra corteccia visiva attraverso le aste e i coni della nostra retina? Lo facciamo perché alcune collezioni di “pixel”, a causa della vicinanza spaziale (come in un insieme di punti), o alla vicinanza dovuta ad altre caratteristiche (colore, tessitura, ecc.) sembrano “stare insieme”. Formando gruppi di ciò che sembra stare insieme, percepiamo gli oggetti.

Si noti che l’uso di “noi” nel paragrafo precedente non implica che gli oggetti sono soltanto artefatti della cognizione. Gli oggetti devono esistere nel mondo; gli animali semplicemente evolvono nella loro percezione. Il presente lavoro può essere visto come una dimostrazione di esistenza delle proposizione

70

Uno degli slogan presenti nel lavoro di Foundalis è: «Il pattern matching come nucleo centrale del fare analogie» (Foudalis, 2006, pp. 239 e sgg.), il quale costituisce un richiamo esplicito alla teorie esposte i Hofstadter (2001).

che le menti non sono necessarie per percepire e così verificare l’esistenza di oggetti. Dopo tutto, anche PHAEACO può percepirli. (Foundalis, 2006, p. 242-243)

Il passo è molto denso e riassume molti degli aspetti visti nei precedenti modelli: la prospettiva simulativa relativa ai fenomeni mentali e non cerebrali, l’unificazione dei procedimenti di riconoscimento e di creazione di analogie e, soprattutto, le molteplici sfaccettature di cui deve essere dotata la conoscenza di un programma per poter produrre performance significativamente valide e che, concordemente a una certa visione filosofica, possono essere addotte a dimostrazioni di un realismo ontologico costruttivista dal punto di vista percettivo. Infatti, come già si era visto in TABLETOP in merito alla percezione della disposizione di oggetti tra loro collegati secondo una serie di relazioni categoriali, il programma deve poter disporre sia di concetti che esprimano relazioni fra categorie, sia di concetti che esprimano relazioni spaziali, sia di concetti così astratti che permettano di esprimere meta-relazioni fra quelle menzionate, anche in caso di disomogenità, così che sia possibile vedere, se necessario, l’uguaglianza fra due figure analoga all’uguaglianza fra due tessiture, cioè, come membri appartenenti entrambi a una stessa relazione astratta. Allo stesso tempo, il livello di dettaglio della strutturazione delle raffigurazione deve poter raggiungere in PHAEACO un livello di dettaglio molto elevato, come era stato in LETTER SPIRIT e in LETTER SPIRIT 2 per poter procedere a un adeguato riconoscimento e alla creazione di un stile quanto più omogeneo i dettagli delle lettere permettono.

Tale conoscenza è implementata in PHAEACO attraverso una memoria di concetti permanenti molto complessa, della quale vale la pena considerare brevemente alcuni aspetti. Di fatto, essa è costruita per replicare le strutture costruite nello Spazio di Lavoro. Perciò, più che di concetti si parla di «strutture nucleo concettuali» (ivi, p. 250), composte di un nodo centrale che rappresenta un oggetto e di nodi collegati ad esso che esprimono le sue caratteristiche. In tal modo viene facilitata l’attivazione di un concetto a partire dalle sue caratteristiche, ma anche l’operazione inversa di attivare le caratteristiche sulla spinta del nodo che rappresenta l’oggetto. Inoltre, i nodi caratteristica convergono sul nodo che rappresenta il nodo tipo della caratteristica (ad esempio, il nodo ideale – platonico – “vertice” cui sono connessi tutti i nodi vertice che fanno parte delle strutture nucleo. Questo meccanismo serve a istituire le associazioni fra queste ultime.

La rete è in grado di simulare anche funzioni di alto livello connesse con i processi mnemonici. Ad esempio, l’attivazione di un nodo relazione che etichetta (come in TABLETOP) una connessione fra due concetti causa il loro avvicinamento simulando il fenomeno dell’associazione. Il processo inverso di diminuzione dell’attivazione non sfocia nel ritorno alle condizioni iniziali, ma perviene al ristabilimento di una distanza minore di quella iniziale, simulando in tal modo l’andamento temporalmente determinato e selettivo dell’oblio. Ad ogni quantità di attivazione positiva corrisponde, infatti, un nuovo avvicinamento e un successivo minore distanziamento, a meno che ciò non avvenga su cicli di tempo molto lunghi. Esiste, poi, una collezione di nodi

“indessicali” che mettono in collegamento lo spazio di lavoro con la memoria permanente71. Infine, e questo è forse l’aspetto più rilevante, alla rete concettuale di PHAEACO possono essere aggiunti nuovi nodi che rappresentano nuove strutture nucleo concettuali. Si può dunque affermare che, a differenza dei modelli precedenti, e in conseguenza delle necessità di fronteggiare un dominio visivo virtualmente indeterminato attraverso un bagaglio di conoscenza non totalmente pre-