La questione dei microdomin - L'approccio subcognitivo allo studio della mente: modelli, concet

Uno dei tratti che forse rende più impopolari e meno conosciuti i modelli realizzati dal Fluid

Analogies Research Group (FARG) riguarda la propensione alla scelta per i programmi di domini

ristretti di applicazione. Tali domini vengono, appunto, chiamati “microdomini” per distinguerli dai più conosciuti micro-mondi che tanta parte hanno avuto nella storia dell’IA, soprattutto sul versante critico dell’IA stessa. Tuttavia, un punto di contatto fra le due nozioni esiste e riguarda la scelta del livello di complessità che un programma è in grado di affrontare. Utilizzare il mondo reale come dominio di applicazione vuol dire condannare all’immobilità taluni modelli, vista la complessità delle informazioni che dovrebbero entrare in gioco nel processo computazionale, o che anche soltanto dovrebbero essere in qualche maniera immagazzinate nella memoria. Un’ampia ed estesa base di conoscenza è certo sempre inferiore alla descrizione completa del mondo reale, sia per via della sua rigidità e staticità se si parla di rappresentazioni in forma simbolica, rigidità e staticità dovute alla giustapposizione di lunghissimi elenchi di enunciati che non possono esprimere tutte le relazioni dinamiche del mondo reale; sia, se si parla specialmente delle rappresentazioni distribuite dei modelli connessionisti, per la difficoltà di recupero dell’informazione immessa nella rete, difficoltà che cresce in maniera proporzionale alla quantità dell’informazione, visto che la rete viene ricalibrata per ogni elemento informazionale con un rischio crescente di interferenza catastrofica, cioè la perdita dell’informazione già appresa e immagazzinata in forma distribuita nella rete20. D’altra parte, sono note le critiche che vennero portate all’impiego di micro-mondi fin dall’apparizione dei primi sistemi simulativi di comprensione del linguaggio naturale, come SHRDLU di Winograd (Winograd, 1972), o dei primi tentativi di programmi impiegati in compiti di costruzione categoriale, come il modello, sviluppato da Winston, di apprendimento per mezzo di esempi (Winston, 1975). Per Dreyfus, ad esempio, i micro-mondi non colgono la complessità del mondo reale perché sono modelli astratti che nulla hanno a che vedere con il mondo. Infatti, pur delimitandone una parte, non ne diminuiscono la complessità, che rimane la stessa di quel mondo preso nella sua interezza che essi presuppongono. Perciò, un micro-mondo, come quello dei blocchi

20_{L’interferenza catastrofica è un problema tanto più grande quando maggiore è la distribuzione della rappresentazione}

della conoscenza nella rete. Una possibile via di uscita è costituita dal localismo rappresentazionale, che, però, indebolisce uno dei punti di forza del connessionismo, la robustezza e la flessibilità dell’informazione codificata in maniera distribuita.

geometrici solidi in cui agisce SHRDLU è un dominio preconfezionato e «un insieme di fatti interconnessi può costituire un universo, un dominio, un gruppo, ecc., ma non costituisce un mondo, perché un mondo è una quantità organizzata di oggetti, scopi, abilità e pratiche secondo cui le attività umane hanno significato [...]. Se i micro-mondi fossero sotto-mondi, non ci sarebbe bisogno di elaborarli e combinarli per avvicinarli al mondo quotidiano, poiché quest’ultimo sarebbe già incluso» (Dreyfus, 1981, p. 184-185). Un discorso analogo è valido per i modelli di estrazione categoriale, che ricadono all’interno dell’ambito del machine learning e che si avvalgono di una serie di primitive selezionate dal programmatore per la costruzione di descrizioni formalizzate di determinate categorie21.

La discussione sui micro-mondi è, dunque, strettamente intrecciata a quella sulla rappresentazione delle conoscenze e al tentativo di superare la rigidità dei sistemi di conoscenza immessa nei programma di IA degli anni Settanta, cioè nel periodo in cui cominciarono ad apparire i primi programmi in grado di affrontare compiti di una qualche rilevanza con prestazioni per certi aspetti uguali se non superiori a quelle umane dovute proprio alla gran quantità di conoscenza immagazzinata. Tali programmi, che furono denominati sistemi esperti e si distinsero, ad esempio, nel campo della diagnostica medica, spinsero i filosofi e i teorici dell’IA a interrogarsi sulla vera natura della comprensione di tale conoscenza, fino ad arrivare a conclusioni che, pur affermando il valore e l’utilità di tali applicazioni ai fini pratici, vedevano in esse una quasi totale deviazione dalle peculiarità della conoscenza human-like. In altri termini, i sistemi esperti vennero considerati molto poco plausibili dal punto di vista psicologico. D’altra parte, la ragione per cui vennero ideati e costruiti non aveva come obiettivo primario un intento esplicativo cognitivo. Il loro muoversi in un dominio specifico in cui la conoscenza è totalmente strutturata secondo i metodi del calcolo dei predicati non ne faceva dei veri conoscitori di quel dominio, ma solo, per così dire, dei supporti attivi per l’utente, ad esempio per il personale medico, che necessita di conclusioni esatte al termine di un processo deduttivo condotto su una base molto ampia, poco dominabile da una mente umana, di premesse, come ad esempio l’insieme dei sintomi e delle malattie corrispondenti in uno specifico settore della medicina.

Tuttavia, i micro-mondi e i microdomini differiscono per almeno un aspetto fondamentale. Tale differenza si gioca sul tipo di capacità che il programma dovrebbe simulare. Infatti, SHRLDU aveva come obiettivo quello di modellare la capacità di comprensione del linguaggio naturale e, quindi, del mondo che tale linguaggio esprimeva. Tuttavia, poiché si trattava di un universo costruito ad

hoc, anche la comprensione che ne derivava e che veniva espressa attraverso un dialogo in

linguaggio naturale, era soltanto parziale e fittizia, o, quantomeno ingannevole, perché realizzata

21_{Nel modello proposto da Winston si fa l’esempio della costruzione della categoria di arco attraverso l’enucleazione}

delle sue caratteristiche principali, a partire da una serie di item sottoposti all’elaborazione del programma, individuate per mezzo di un insieme di proprietà e relazioni basilari di cui esso è dotato in partenza (ad esempio, proprietà: oggetto (pilone), oggetto (trave), azione (passare sotto), azione (passare attraverso), ecc.; relazioni: sopra(x,y), a destra di(x,y), è sostenuto da(x,y), ecc.)

dalle componenti procedurali di cui il programma era composto22 e sicuramente inferiore a quella che l’utente era portato ad attribuirgli. Il fatto di utilizzare un universo ad hoc era l’espediente attraverso cui si riduceva la complessità del mondo reale ad una trattabilità che rendeva, però, parimenti priva di profondità anche la nozione di comprensione attribuita al programma, se riferita al linguaggio naturale nei suoi aspetti semantici più generali che lo rendono tutt’uno con la complessità del mondo reale che esprime.

Detto altrimenti, la presenza di un modello idealizzato e ristretto del mondo non permette di parlare di una comprensione del significato simile a quella umana, anche nel caso di un riferimento al medesimo universo, da parte del programma, se la dimostrazione di questa comprensione viene cercata e testata nell’interfaccia in linguaggio naturale. Perciò, mentre si può dire che molta parte del background del mondo viene eliminato prendendo in considerazione un certo particolare universo, esso non può essere ugualmente tolto dal linguaggio naturale che funziona proprio sulla base, e per la presenza, di questo background23. In definitiva, da una parte il mondo dei blocchi è quella parte di mondo, ridotto a universo specifico, che il programma conosce bene e che collassa sulla nozione di microdominio; dall’altra il linguaggio naturale esprime un mondo che non può essere parzializzato, a meno di ricorrere a formalizzazioni che ne mutino la natura e le possibilità, e di cui, pertanto, non ha senso, o è fuorviante, parlare di conoscenza parziale, micro-contestualizzata. I microdomini hanno, dunque, la funzione specifica di non ingannare il programmatore o l’utente del programma in merito alle reali conoscenze del programma, e, perciò, di non instillare l’idea di una comprensione human-like da parte del programma. I modelli che li utilizzano, quando si avvalgono di un’interfaccia in linguaggio naturale, non lo fanno all’interno di un dialogo con l’utente, ma solo per rendere più facilmente comprensibile all’utente la regola analogica che soggiace alle diverse entità considerate. Il microdominio serve, perciò, a esplicitare l’ignoranza del programma, piuttosto che la sua conoscenza, la quale, invece, deve essere facilmente individuabile nell’architettura che si può, eventualmente a ragione, affermare simulativa del processo attivo di comprensione. È sulla ambiguità di questo termine che sono state costruite le critiche all’IA a causa dell’elusiva aura di impalpabilità che sprigiona, come è palese nelle affermazioni di Dreyfus e ancora di più in quelle di Searle.

Tutto ciò viene meno nel momento in cui una teoria delle comprensione è data in senso positivo, ovvero per quanto riguarda i meccanismi che possono generarla, e non solo in senso negativo, cioè per mezzo dell’affermazione di ciò che la comprensione non è. Infatti, una volta ipotizzata una teoria dei processi di comprensione, se ne può tentare una verifica attraverso la costruzione di un

22_{Nel caso specifico del programma di Winograd si tratta di un analizzatore sintattico delle frasi immesse dall’utente,}

una base di conoscenze e un sistema deduttivo per trarre inferenze a partire dalle conoscenze implementate in forma predicativa.

23_{Un discorso analogo può essere fatto per i modelli di estrazione categoriale, se il processo di analisi viene effettuato}

sì dal programma, ma attraverso un insieme rigido e non modificabile dal programma di relazioni e proprietà primitive. Per avere un buon modello, un modello significativo, di machine learning occorre che l’apprendimento non riguardi soltanto le situazioni sussunte sotto certe categorie, ma i modi stessi di categorizzare, almeno come traguardo finale da conseguire.

modello, il cui dominio di applicazione deve avere una larghezza ampia almeno fino al punto di rendere possibile il funzionamento del modello, ma non necessariamente tanto grande da includere una più illusoria che reale comprensione di tutte le cose. Lo studio dei fenomeni attentivi in psicologia sperimentale ha mostrato, peraltro, che le capacità umane attingono a risorse limitate e, in genere, presuppongono una qualche forma (ancora discussa) di filtraggio percettivo. Ciò fa sì che la memoria a breve termine abbia a che fare con un numero esiguo di elementi (individuato da Miller nel famoso “numero magico” 7 ± 2), e si applichi di preferenza, anche se non necessariamente, a un dominio specifico, rimandando alla definizione della natura del rapporto con la memoria a lungo termine la questione del recupero del dominio specifico adatto ai compiti oggetto dell’attenzione cosciente. Tali limitazioni dovrebbero essere incorporate anche in un modello che voglia spiegare i meccanismi alla base del ragionamento analogico. I microdomini acquistano di conseguenza il ruolo di idealizzazioni tali da permettere la verifica in più ambiti, tanti quanti sono i microdomini cui i modelli vengono applicati, dei risultati sperimentali della psicologia.

In questa ottica va letta l’affermazione di French, secondo il quale, per quanto riguarda i microdomini, non è fuorviante un’analogia con la sperimentazione in fisica:

Si consideri il modo in cui la fisica è progredita. Per studiare le proprietà e il comportamento della materia in movimento, Newton fece grandi passi avanti trattando i corpi nello spazio come punti e ignorando la nozione di attrito. I progressi nella fisica, sia che abbiano riguardato lo studio dei gas, dell’elettricità, del calore o delle particelle subatomiche, sono sempre stati dipendenti dall’uso di modelli idealizzati. Le idealizzazioni sono utilizzate in modo tale che non si debbano tenere in considerazione, almeno inizialmente, le numerose influenze che potrebbero mascherare l’investigazione delle proprietà essenziali. Una volta che tali proprietà siano state descritte, i vincoli dell’idealizzazione nel sistema possono gradualmente essere allentati così da permettere lo studio del problema in un ambiente più generale, allo scopo di perfezionare il modello. (French, 1995, p. 23)

Il processo di idealizzazione è, dunque, necessario alla messa in risalto del fenomeno in oggetto e la scelta di un modello ideale della realtà non è strettamente dipendente dal fatto che esso venga utilizzato come dominio di un modello cognitivo, a meno di non voler perdere la generalizzabilità di quest’ultimo e della teoria che esso implementa come spiegazione di un’intera classe di fenomeni (cognitivi). In effetti, come fa notare la Mitchell, non è per il fatto che ci si avvicini a un dominio artificiale e non al mondo reale, che gli esseri umani smettano di utilizzare quei

[...] meccanismi percettivi che si sono evoluti nel continuo commercio con le situazioni reali nel mondo reale. Questi meccanismi non si accendono o si spengono semplicemente perché il dominio è

apparentemente artificiale e indipendente dal contesto e perché la nostra sopravvivenza non dipende dalle nostre azioni [in quale dominio]. (Mitchell, 1993, p. 26)

Ciò costituisce uno degli argomenti principali a sostegno dell’impresa metodologica della ricerca in psicologia e può anche essere considerato una sorta di scelta di campo diversa rispetto all’assunzione di una certa parte dell’IA, la quale vede nella parcellizzazione e nella semplificazione del dominio l’impossibilità di considerare tali modelli come genuine simulazioni dei processi di problem solving rivolti allo scopo tipici del mondo reale. Tuttavia, anche in questo caso sembra essere coinvolta una certa ambiguità, che si era vista in precedenza nel caso della nozione di comprensione e che adesso può essere meglio specificata come sovrapposizione di due elementi distinti: da una parte il fenomeno simulato, dall’altra i meccanismi ipotizzati per la spiegazione del fenomeno. Come molti argomenti critici dell’IA sono attribuibili alla fusione indebita fra atto di comprensione e processo di comprensione, così ugualmente le critiche ai microdomini possono essere dettate da una confusione fra dimensione (ristretta rispetto al mondo reale) del dominio utilizzato e dimensione (allargata rispetto al dominio) dei fenomeni cognitivi indagati. Perciò, come si vedrà in seguito, sia che si tratti di domini chiusi, cioè con un numero finito di elementi (ad esempio, l’alfabeto), sia che si tratti di domini aperti, in cui il numero degli elementi è potenzialmente illimitato (ad esempio, l’insieme dei numeri naturali), occorre sempre tener presente ciò che è in gioco nella simulazione, ovvero il fatto che tali microdomini intendono

[...] essere strumenti per esplorare gli aspetti generali [– la fluidità concettuale che permette la percezione di alto livello –] della cognizione piuttosto che quelli specifici dell’ambiente di lettere e stringhe, o quelli di domini ristretti a strutture lineari con distanze note tra gli elementi. (Mitchell, Hofstadter, 1994, p. 229)

A questo punto una possibile obiezione potrebbe essere relativa alla specificità del dominio rispetto al modello cognitivo, nella misura in cui il modello appare essere progettato con caratteristiche ad hoc per il dominio opzionato. Questo problema è un problema epistemologico e si riallaccia alle assunzioni che vengono fatte nella teoria e in base alle quali il modello viene progettato. Come si vedrà in seguito, l’architettura dei modelli varia a seconda dei (micro)domini di applicazione, ma esiste, o dovrebbe esistere, un nucleo architettonico comune a tutti, che si suppone implementi il meccanismo essenziale della teoria (la percezione di alto livello) e che i modelli applicano nei vari domini attraverso opportune variazioni costruttive “superficiali”. Esse permettono al modello di operare in quel determinato dominio e consistono, ad esempio e in linea del tutto generale, in variazioni nei concetti della memoria semantica, nelle possibilità della memoria di lavoro, nei micro-algoritmi applicativi della memoria procedurale effettiva, e così via. Una valutazione dell’efficacia predittiva dei modelli e, quindi, una convalida del nucleo della loro

architettura sarà tentata più avanti nel corso di questa trattazione. Ora, conviene passare all’ultimo dei loro tratti distintivi, che consiste appunto nello schema di base della loro architettura.

Nel documento L'approccio subcognitivo allo studio della mente: modelli, concetti, analogie (pagine 71-76)