1.4 Alcune implicazioni teoriche del connessionismo
1.4.2 Rappresentazioni locali e distribuite
Nella scienza cognitiva classica e nell’intelligenza artificiale una rappresentazione è un elemento simbolico con un proprio valore semantico. Nel paradigma connessionista invece l’idea di rappresentazione individua un determinato numero di nodi e le connessioni che intercorrono tra essi. «Nella maggior parte dei modelli [cognitivi], la conoscenza è immagazzinata come copia statica di un pattern. Il recupero corrisponde a trovare il pattern nella memoria a lungo termine, e a copiarlo in un buffer della memoria di servizio [...]. Nei modelli PDP, invece, questo non è vero: in essi, i pattern di per sé non sono immagazzinati. Quelle che sono piuttosto immagazzinate sono le forze delle connessioni tra le unità, che consentono di poter ricreare ogni volta questi pattern» (Rumelhart et al. 1986, 64).
Inoltre, la memoria non è più un elemento passivo di elaborazione ma svolge un ruolo attivo nei processi cognitivi. Si crea infatti uno stretto rapporto tra elaborazione e memoria, e i due elementi si confondono senza poter essere individualizzati e descritti singolarmente. La rappresentazione delle conoscenze, ossia delle informazioni elaborate in precedenza, influenza direttamente il decorso dell’elaborazione, poiché è già memorizzata nelle connessioni della rete che elaborano l’informazione.
Quale significato può avere dunque, in questa prospettiva, un singolo neurone? La strategia più semplice e immediata è far corrispondere un’unità computazionale ad un elemento esterno o ad un concetto. Nell’esempio proposto in precedenza, ciascun nodo della rete era interpretato come un tratto o una caratteristica di un oggetto, ad esempio l’altezza e la larghezza, o una classe a cui i dati appartenevano. Questo schema di rappresentazione è detto locale e si ispira alle reti semantiche. La rete è più semplice da capire, oltre che da costruire, perché i rapporti tra nodi rispecchiano in termini quantitativi il rapporto tra gli elementi della conoscenza, per quanto ciò sia possibile.
Parisi (1989) individua il carattere subsimbolico delle reti nella presenza di nodi nascosti nella rete, senza i quali essa sarebbe un semplice strumento associativo, un semplice rimando da una nozione all’altra. In questo caso, i concetti sono rappresentati esternamente per il percettrone, cioè imposti dall’esterno. Al contrario, il problema non è se i nodi di input e di output abbiano un significato, ma che il processo di elaborazione frammenti il loro valore semantico con dei nodi intermedi.
I nodi nascosti permettono alla rete di organizzarsi in modo da mettere in evidenza somiglianze e differenze tra i dati appresi: il carattere distribuito è dato dall’attivazione di molti nodi nascosti in seguito all’attivazione di un solo nodo di input. In questo modo, la rete elabora un processo che per noi è associativo (perché collega input e output direttamente), ma che costruisce delle rappresentazioni interne – modificando il valore di attivazione dei nodi nascosti – che noi non abbiamo programmato. La rete a più strati dunque, «oltre a ‘possedere’ dei concetti, nel corso dell’apprendimento sviluppa automaticamente una struttura interna che stabilisce relazioni interessanti tra i concetti [...], ed è in grado di fare inferenze su proprietà dei concetti che non le sono state mai insegnate prima» (Parisi 1989, 143-144). E questa è una peculiarità delle rappresentazioni distribuite e subsimboliche.
Sono tre i principali vantaggi delle rappresentazioni distribuite:
1. Ricordare come inferire. Nei calcolatori convenzionali è difficile realizzare un tipo di memoria indirizzabile per contenuto, in cui sia possibile identificare un elemento a partire da una descrizione parziale. Nei modelli neurali una descrizione parziale corrisponde invece ad un pattern di attivazione parziale. Le interazioni tra le diverse unità sollecitate fanno in modo che anche le atre unità non coinvolte in precedenza si attivino e il pattern iniziale venga
completato. Rispetto alla memoria di un calcolatore convenzionale, in cui le rappresentazioni che non vengono attivate non sono considerate per l’elaborazione, ora possono invece essere parzialmente attivate creando anche una situazione di cognizione context situated , in grado di tener conto anche di informazioni parallele non richiamate esplicitamente dall’elaborazione. «I modelli distribuiti della memoria possono essere concepiti come insiemi molto grandi di regole d’inferenza plausibili. Ciascuna unità attiva rappresenta un ‘microtratto’ di un elemento, e le forze delle connessioni stanno in luogo di ‘microinferenze’ plausibili tra microtratti» (Rumelhart et al. 1986, 121). In questo modo entra in crisi la distinzione tra ricordo netto e ricostruzione plausibile, che è un elemento caratteristico della mente umana.
2. Somiglianza e generalizzazione. Nei modelli di memoria distribuita l’apprendimento di nuovi elementi entra in relazione con le connessioni strutturate nell’elaborazione delle informazioni precedenti: nel caso in cui il nuovo elemento sia simile a quelli precedenti, ne risulterà un effetto di rafforzamento delle connessioni precedenti. Nel caso di pattern non correlati, le nuove modifiche tenderanno ad annullare o indebolire quelle precedenti. Questo processo statistico è alla base della capacità della rete di generalizzare, ossia di memorizzare le strutture comuni ai dati osservati per poi poter inferire su dati nuovi (Rumelhart et al. 1986, 123).
3. La formazione di nuovi concetti. Creare un nuovo concetto, nelle rappresentazioni distribuite, significa modificare le interazioni tra unità così da creare un nuovo pattern di attività stabile.
Questo paradigma, grazie al concetto di rappresentazione distribuita, risolve alcuni problemi del paradigma classico riguardo alla struttura della conoscenza (Minsky 1981). Il cognitivismo ha introdotto i concetti di schema, script e frame, per organizzare i dati in una struttura di ordine superiore: ciò permetteva ai sistemi artificiali di andare oltre ai dati immediati e di contestualizzarli, richiamando conoscenze conservate nella memoria. I modelli PDP propongono un nuovo modello di schemi a partire dal carattere distribuito delle rappresentazioni. La differenza sostanziale consiste nel carattere attivo della memoria in questo nuovo paradigma. «In effetti, essi [gli schemi] sono il
principale contenuto della memoria. Nel nostro caso, nulla di ciò che è conservato nella memoria corrsisponde molto ad uno schema. Ad essere conservato nella memoria è un insieme di forze delle connessioni che, quando sono attivate, hanno la capacità di generare stati che corrispondono ad esempi di schemi» (Rumelhart et al. 1986, 271).