RIFLESSO INNATO
3.3 Apprendimento per “tentativi ed errori” e condizionamento operante
3.3.1 L’ apprendimento per “tentativi ed errori”
Tale apprendimento è detto per “tentativi ed errori” perché si apprende il metodo per risolvere un problema o affrontare una situazione provando e scartando vari comportamenti o idee, finché non si trova quella più adatta.
Questa forma di apprendimento fu elaborata per la prima volta dall’americano Thorndike, il quale si servì dei risultati di una serie di sperimentazioni sul comportamento degli animali. Nel suo più noto esperimento, Thorndike mise un gatto affamato in una gabbia, al di fuori della quale aveva posto del cibo molto appetitoso. Il
gatto, per poter uscire, doveva escogitare un modo per rimuovere la chiusura dello sportello. A tale scopo l’animale adottò una serie di comportamenti: in un primo momento eseguiva i più svariati tentativi (mordeva, graffiava, spingeva...), in seguito cominciò ad eliminare gradualmente gli errori, finché riuscì ad uscire. Il gatto aveva appreso per “tentavi ed errori”.
Venne così formulata la legge dell’effetto, secondo cui, quando un animale in una situazione nuova adotta un certo numero di risposte diverse tra loro, le risposte che risultano efficaci vengono selezionate e conservate (acquisite), mentre le altre vengono cancellate. Ciò significa che l’efficacia determina l’acquisizione dell’azione, cioè un atto che ha conseguenze soddisfacenti, acquista maggiori probabilità di essere ripetuto rispetto ad uno che dà effetti non soddisfacenti. I rinforzi, come vedremo in seguito nel dettaglio, favoriscono l'apprendimento dei comportamenti. Sulla scia di Thorndike, altri ricercatori tra cui Skinner, hanno affrontato lo studio dell’apprendimento basato sul condizionamento operante.
3.3.2 Il condizionamento operante
Gli studi sull’apprendimento per “tentativi ed errori”, sono stati i precursori di ciò che è noto come condizionamento operante. Il termine “operante” si riferisce al modo in cui un organismo opera sull’ambiente, e, di conseguenza, il condizionamento operante deriva dal modo in cui esso risponde a ciò che gli viene presentato nel suo ambiente. Esso può essere pensato come un apprendimento legato alle conseguenze naturali delle azioni. Vedremo che tale forma di apprendimento è basata sulla ricompensa o sulla punizione e si riferisce a una risposta emessa senza la necessità di uno stimolo che la possa attivare (come nel condizionamento classico). È invece legata alla possibilità di ricevere una ricompensa tale da stimolare un comportamento volontario, e quindi è acquisita in seguito all’azione del “rinforzo” (si parla di apprendimento con rinforzo). Mentre il condizionamento operante (dove la ricompensa o la punizione sono subordinate al verificarsi della risposta) funziona in forza della legge dell’effetto, il condizionamento classico (dove lo stimolo incondizionato si verifica indipendentemente dal comportamento del soggetto) funziona, come visto, in forza della legge di
contiguità. Infine, il condizionamento classico implica risposte involontarie, il cui controllo è affidato al sistema nervoso autonomo, mentre il condizionamento operante è
applicabile prevalentemente a risposte del sistema muscolare e di quello scheletrico o a processi mentali superiori per i quali interviene il sistema nervoso centrale.
Lo studio classico del condizionamento operante si basa su un esperimento noto con il nome di “box di Skinner”. Tale box non è altro che una gabbia dotata di una leva o pulsante da azionare per ottenere del cibo. Prima d’iniziare l’esperimento, l’animale viene tenuto a dieta ridotta per un certo periodo di tempo, al fine di motivare la sua ricerca di cibo (si parla di “dieta ridotta”, perché se le condizioni di bisogno sono troppo intense si verifica una caduta di rendimento). L’azione dell’animale è strumentale al raggiungimento di una meta gratificante: l’ottenimento del cibo. Il test ha dimostrato che l’azione si verifica ogniqualvolta l’animale viene introdotto nel box e tanto più velocemente quante più volte l’animale è sottoposto al medesimo esperimento.
Avendo il cibo funzione di stimolo rinforzante dell’azione operativa, il condizionamento viene detto “operante”.
Skinner, dopo numerose prove sperimentali, arrivò alle seguenti conclusioni:
tanto meglio un comportamento è stato appreso, tanto maggiore è la resistenza alla sua estinzione;
si può avere un condizionamento molto intenso anche in situazioni che consentono un rinforzo molto diradato nel tempo (si pensi, ad esempio, al comportamento dei giocatori d’azzardo);
una situazione di apprendimento che sia, entro certi limiti, variabile nelle sue caratteristiche (frequenza, intensità, ritmo del rinforzo, ...), è molto più efficace di una del tutto costante; in quanto la prima tende a riprodurre meglio le situazioni della vita reale;
il mancato rinforzo (o punizione) facilita l’estinzione del comportamento acquisito. Infatti, se lo scopo del ricercatore è quello di ottenere l’estinzione, è più facile raggiungere il risultato annullando il rinforzo che, ad esempio, usando una scossa elettrica.
Skinner è stato criticato in quanto il suo approccio essenzialmente riduce l’organismo a una macchina. In effetti, il suo metodo è senza dubbio efficace, ma limita le possibilità espressive del soggetto sperimentale. Più che osservare il comportamento dell’animale, il ricercatore cerca di modificarlo secondo le sue aspettative.
3.3.3 Il rinforzo, la punizione, il modellamento
Studiando questo tipo di apprendimento, Skinner sviluppò delle definizioni operative che ruotano intorno a tre elementi: il rinforzo, la punizione e il modellamento. Il termine rinforzo è usato in psicologia per indicare qualsiasi cosa che rafforza o aumenta la probabilità di una risposta specifica. Noi tutti applichiamo di continuo rinforzi, la maggior parte delle volte senza nemmeno renderci conto che lo stiamo facendo. Esso può essere classificato secondo la valenza sull’organismo in: positivo (ricompensa) o negativo (shock). Il rinforzo positivo sfrutta il fatto che, se la risposta conduce ad una conseguenza, tanto più la conseguenza è piacevole e positiva, maggiore è la probabilità che si verifichi un cambiamento del comportamento. Il rinforzo negativo, come suggerisce il nome, corrisponde alla presenza di una situazione di disagio (chiamata anche situazione avversa) e alla conseguente esecuzione di una risposta che provoca la cessazione del disagio (fastidio o dolore). Un esempio per meglio chiarire i due concetti. Si prenda in considerazione da una parte un bambino che piange perché vuole una caramella e dall’altra la madre infastidita dal pianto. Per quanto riguarda il bambino, il pianto costituisce la risposta operante e la caramella il rinforzo positivo che lo fa smettere di piangere; mentre, per quanto riguarda la madre, il pianto del figlio costituisce una situazione di fastidio, la consegna della caramella la risposta operante e la cessazione del disturbo il rinforzo negativo.
La punizione ha un’azione diretta sulla diminuzione del comportamento in atto fino alla sua estinzione. Affinché una punizione sia efficace, occorre che sia: tempestiva (somministrata dopo l’atto da eliminare); di giusta intensità (deve avere un giusto grado di sopportabilità da parte del soggetto); coerente con l’atto compiuto e non arbitraria. Un’eccessiva punizione può, al contrario, rafforzare la risposta che si vorrebbe estinguere, con il rischio di indurre altre risposte negative come la rabbia e il risentimento.
Il modellamento (o shaping) mira a premiare tutte le risposte che si avvicinano a quella desiderata, aumentando la ricompensa al progressivo avvicinamento alla risposta completa (viene usato, ad esempio, nell’addestramento di animali da circo).
La ricerca di Skinner ha dimostrato che il rinforzo positivo è sicuramente lo strumento migliore per aumentare la probabilità di ottenere una certa risposta; piuttosto che
puntare sulla punizione. Con l’accorgimento che affinché un rinforzo sia efficace questo deve essere adatto al soggetto e rispettarne le caratteristiche ed i bisogni.
3.3.4 Esempi di condizionamento operante
Gli esseri umani adottano questo modo di apprendimento quotidianamente nella propria vita. Se immaginiamo l’ultima volta che abbiamo fatto un errore, quando la stessa situazione si ripropone molto probabilmente ci ricordiamo bene l’errore commesso e facciamo in modo di non ripeterlo. In questo senso, si è imparato ad agire in modo diverso in base alle conseguenze naturali delle azioni precedenti. Lo stesso vale per le azioni positive. Se qualcosa che si è fatto si traduce in un risultato positivo, allora c’è una maggiore probabilità di ripetere lo stesso comportamento nello svolgimento dell’attività in questione.