• Non ci sono risultati.

Passaggio alla trattazione della percezione a color

Sezione A Naturalizzazione dell'oggetto

2. Fisiologia della visione

2.2 Passaggio alla trattazione della percezione a color

Abbiamo visto che l'apporto dei contrasti di luminosità alla percezione dei contorni è condizione sufficiente per una loro discriminazione completa: siamo perfettamente in grado di discriminare le figure in base ai contrasti di luminosità.

Tuttavia, fin qui abbiamo avuto a che fare con un'immagine bidimensionale ed abbiamo trascurato il problema della discriminazione tra linee prodotte dalle ombreggiature e dal contorno. La percezione a colori fornisce un elemento di disambiguazione aggiuntivo per il riconoscimento dei contorni e indizi importanti per la percezione tridimensionale, quali la provenienza dell'illuminazione, funzionale alla determinazione dell'orientamento dell'oggetto nello spazio e dei volumi (rilievi) di questo.

Il prossimo sottoparagrafo spiega come vengono percepiti i colori e approfondisce in che modo essi svolgono il supporto alla percezione ora menzionato. Questi temi sono poi ulteriormente approfonditi nel sottoparagrafo 2.4.

2.3 Il colore

In primo luogo, è necessario definire alcuni punti di riferimento fondamentali per il discorso sui colori:

• si dice “tinta” l'aspetto prettamente cromatico del colore; • si dice “saturazione” la concentrazione quantitativa della tinta; • si dice “luminosità” o “tono” la quantità di luce emessa;

• le lunghezze d'onda che vengono combinate non cambiano dal punto di vista fisico, nel senso che non si combinano materialmente, ad esempio secondo i rapporti di media o di somma. Da ciò si deduce che le molteplici sfumature di colore con cui rappresentiamo le combinazioni della luce sono una produzione del sistema visivo127.

I fotorecettori coni hanno un intervallo di lunghezza d'onda elettromagnetica cui rispondono preferenzialmente, ma tale intervallo non è esclusivo quindi per il sistema nervoso è impossibile stabilire, basandosi su un tipo di cono soltanto, se quest'ultimo è stato illuminato da una luce debole della lunghezza d'onda alla quale è particolarmente sensibile o da una luce più intensa di una lunghezza d'onda alla quale è meno sensibile oppure da una combinazione di lunghezze d'onda diverse. In altre parole, ciascun cono, di per sé, non è abbastanza sofisticato da tenere conto della legge fisica per cui le lunghezze d'onda che convergono su un medesimo punto non si sommano, così molteplici casi (classificati come sopra) possono produrre la medesima risposta. Ne consegue che, se possedessimo un solo tipo di cono, non saremmo in grado di discriminare i colori, che in termini appropriati significa che ciascun cono non è in grado di determinare con univocità né la lunghezza d'onda né l'intensità di una luce. Il problema di tale plurivocità è noto come “problema dell'univarianza”.

Il problema dell'univarianza può essere risolto tramite il confronto dei segnali di più

tipi di fotorecettori cromosensibili. Un sistema a due recettori o dicromatico sarebbe già sufficiente per distinguere le lunghezze d'onda, ma esso sarebbe ancora inadatto alla ricchezza cromatica del mondo esterno: come si è menzionato, le superfici naturali di solito riflettono uno spettro continuo di lunghezze d'onda e un sistema che deve discriminare un tale oggetto con due sole opposizioni incontrerà, per i principi che danno luogo al problema dell'univarianza, ancora troppi casi plurivoci.

Il sistema dell'uomo utilizza tre tipi di coni:

1. coni S o “coni blu128”: hanno il proprio massimo di assorbimento intorno ai

420 nm129;

2. i coni M o “coni verdi”: hanno il proprio massimo di assorbimento intorno ai 530 nm;

3. i coni L o “coni rossi”: hanno il proprio massimo di assorbimento intorno ai 560 nm.

Per risolvere il problema dell'univarianza si devono fare dei confronti tra i diversi tipi di segnali finalizzati a escludere le lunghezze d'onda comuni dal totale. Il sistema visivo fa esattamente questo130:

1. codifica la somma dei segnali dei tre tipi di coni (L+M+S), ottenendo il totale e codificando l'opposizione bianco-nero;

2. codifica la differenza tra i segnali di L e di M (L-M), evidenziando la risposta di M e codificando l'opposizione rosso-verde;

3. codifica la differenza tra il segnale dei coni S e una certa combinazione del

128 In realtà questo come gli altri “secondi nomi” dei coni sono piuttosto scorretti, perché indicano solo lo spettro di risposta preferenziale, ma la risposta apprezzabile del cono è considerevolmente più ampia. Dato che possono però dare un'indicazione intuitiva, ho ritenuto opportuno riportarli. “S” sta per “short”, cioè “corto”. “M” per “medium”, cioè “medio” e “L” per “long”, cioè lungo. 129 “nm” è un “nanometro”, cioè un miliardesimo (10- 9 ) di metro.

segnale dei coni L e M (S-L+M), evidenziando la risposta di S e codificando l'opposizione giallo-blu.

Kandel riporta che <<le cellule P si distinguono in due diversi sottotipi, neuroni che ricevono segnali opposti dai coni L e M e neuroni che ricevono segnali dai coni S che si oppongono a un segnale misto proveniente dai coni L ed M>>131 e lascia intendere

che le cellule M della retina potrebbero svolgere il compito di codificare <<segnali acromatici di luminosità>>132, ovvero l'opposizione bianco-nero.

Quanto esposto fin qui spiega in che modo il sistema retinico può computare informazioni non ambigue sui colori, ma resta ancora da illustrare qual è il contributo della percezione dei colori alla costruzione della scena visiva.

È opportuno spiegare perché la percezione dei colori non è adeguata quanto la percezione acromatica al fine di discriminare i contorni, come si può osservare nella figura 2.3.1.

Il sistema dei coni fa riferimento soprattutto (ma non esclusivamente) alla popolazione delle cellule P. L'organizzazione antagonista dei campi recettivi di queste cellule133 consente di codificare sia l'opposizione cromatica che i contrasti di

131 Ivi, p.573. 132 Ibidem.

133 Vedi anche ivi, p.576. Esistono i seguenti tipi di cellule P cromosensibili centro-on e centro-off (il

Fig. 2.3.1: Differenza tra una stessa scena visiva percepita tramite i soli contrasti di luminosità acromatici (a sinistra), tramite i soli contrasti di tinta

luminosità. L'opposizione cromatica infatti è codificata analogamente ai contrasti di luminosità: le tinte della periferia agiscono in modo contrario rispetto a quelle del centro sulla polarità della cellula. Ne consegue che i colori sono codificati in sezioni omogenee134 insieme ai contrasti di luminosità135, realizzando una prima integrazione

tra figura e colore. Non tutte le cellule P, però, contribuiscono a tale codifica mista: soltanto quelle che ricevono afferenze esclusivamente dai coni M e L. Le ambiguità che ciò può produrre dovranno essere risolte dai sistemi di analisi superiore. Sembrerebbe che, ciò nonostante, le cellule P possano potenzialmente codificare le stesse informazioni delle cellule non-cromosensibili riguardo ai contrasti.

Una buona spiegazione potrebbe essere quella data da Mullen, Beaudot e McIlhagga nel loro articolo Contour integration in color vision: a common process for the blue-

yellow, red-green and luminance mechanisms?. Il colore è codificato come una

caratteristica intrinseca della scena visiva, nel senso in cui Barrow e Tennenbaum ne parlano in un loro lavoro del 1978136, accomunandolo all'orientamento, alla distanza,

alla grandezza e così via: si tratta di quelle caratteristiche che non possono essere eliminate senza con ciò eliminare dalla scena visiva stessa componenti significative137. Ciò implica che <<both the color and the luminance systems are

primo termine è il centro, il secondo la periferia): rosso-verde, verde-rosso, giallo-blu, blu-giallo. 134 Tali sezioni non sono necessariamente né intervallate né coincidenti con i contorni. Piuttosto, sono

scandite da contrasti di luminosità della medesima tinta o da variazioni di tinta. Si pensi infatti al caso di un quadrato, illuminato in modo uniforme, in cui le aree corrispondenti ai due triangoli rettangoli che ne compongono la superficie siano colorati diversamente, senza che la diagonale sia effettivamente esistente: stando a quanto si è detto, il sistema visivo codifica un'opposizione cromatica scandita dalla diagonale, ma in corrispondenza di essa non è codificato alcun contrasto di luminosità né un contorno di figura.

135 Cfr. ivi, p.573:<<[...] le cellule P rispondono bene alle variazioni di luminosità quando l'immagine presenta dettagli fini di struttura, mentre risponde bene alle variazioni di colore quando la struttura delle immagini è grossolana>>

136 Vedi H.G. Barrow, J.M. Tennenbaum, Recovering intrinsic scene characteristics from images, in

Hanson & Riseman, Computer Vision Systems, pp. 3-26 (passim), New York, Academic Press,1978.

capable of extracting edges from the visual scene and so dividing the image into distinct regions>>138. Mullen, Beaudot e McIlhagga, nello studio ora citato, hanno

trovato che:

1. maggiore è la curvatura, peggiore è la codifica dei contorni da parte del sistema cromosensibile, indipendentemente dall'intensità di contrasto, e non ci sono sostanziali differenze tra le vie di codifica per opposizione139. Ciò

nonostante e sebbene la riproduzione di figure intere sia eseguita in modo meno efficiente rispetto al sistema non-cromosensibile, non si può dire che i meccanismi cromosensibili siano del tutto inadatti alla percezione dei contorni140;

2. risulta che l'orientamento è un fattore di riduzione dell'efficienza nel codificare i contrasti quando si tratta di unire contorni separati nello spazio. Pertanto, è plausibile che l'assolvimento del compito di codificare le figure sia limitato sopratutto dall'incapacità di unire gli elementi di un contorno, piuttosto che dall'incapacità di discriminare gli orientamenti. Bisogna però sottolineare che il meccanismo blu-giallo codifica gli orientamenti in modo peggiore degli altri141. Tale ipotesi di spiegazione è corroborata dal fatto che

aggiungere fattori di complicazione agli orientamenti riduce l'efficienza della codifica del raggruppamento di questi contorni142 e che l'integrazione dei

138Mullen, Beaudot, McIlhagga, Contour integration in color vision: a common process for the blue- yellow, red-green and luminance mechanisms?, <<Vision research>>, 40 (2000), pp.639-655 (p.639).

139 Mi riferisco alle vie indicate nell'elenco numerato precedente a questo.

140Mullen, Beaudot, McIlhagga, Contour integration in color vision: a common process for the blue- yellow, red-green and luminance mechanisms?, <<Vision research>>, 40 (2000), pp.639-655 (pp.644-646).

141 Ivi, pp.647-648. 142 Ivi, pp.648-650.

contorni nel sistema cromosensibile è ostacolata dai cambiamenti di colorazione di segmenti materialmente separati, ma non si manifestino fenomeni antagonisti o alternativi di integrazione, segno che l'uniformità di colore come fattore di aggregazione non è neutralizzato in questo sistema da altri fattori di aggregazione, contrariamente a quanto abbiamo visto accadere nel sistema che codifica i contrasti di luminosità acromatici143.

Quest'ultimo risultato può dare una buona giustificazione della differenza di efficienza tra il sistema che rileva i contrasti di colore e il sistema che rileva i contrasti di luminosità acromaticamente. Infatti, se tale ipotesi è corretta, il problema di basarsi soltanto sul colore non è di non poter codificare i contrasti, ma di basarsi su un criterio inadeguato per il loro raggruppamento, quale invece pare essere la codifica dei contrasti di luminosità in forma acromatica. Inoltre, bisogna considerare che i contrasti di tinta e luminosità non si producono allo stesso modo dei contrasti di luminosità in forma acromatica: la loro natura è tale che essi sono molto meno adatti a servire da criterio utile per analizzare i contorni. Si ritorni alla figura 2.3.1: i complessi motivi dello sfondo sono pressoché assenti nella versione al centro, mentre sono chiaramente distinguibili nelle due laterali.

Senza entrare nel merito del ruolo del colore nel riconoscimento dell'oggetto e delle ragioni evoluzionistiche della possibilità di percepirlo come fanno Mullen, Beaudot e McIlhagga, si può comunque affermare con loro che <<since color and luminance edges are not always coincident, as in the case of shadows, the color and luminance systems are performing the same computations, but different images are created. Color edges that coincide with the luminance edges indicate object bundaries, and

any remaining luminance edges indicate a change in the illuminant intensity>>. In pratica, al di là della differenza di quantità di informazioni catturate, la quale farebbe in fondo propendere per l'esaustività della percezione acromatica, la coordinazione della percezione cromatica con quella acromatica è funzionale a una disambiguazione della percezione dei contrasti di luminosità in vista della determinazione dell'appartenenza di una linea di contrasto al contorno della figura e in vista di una più precisa determinazione della direzione di illuminazione, informazione che può fornire indicazioni importanti per l'interpretazione della scena visiva144. Riguardo al primo punto, si noti che, per giudicare con sicurezza sufficiente

per la pratica se le linee di contrasto di colore coincidenti con le linee di contrasto di luminosità sono contorni, basta considerare se la tinta rimane costante su entrambi i lati del limite delineato da un contrasto pur variando in luminosità: in tal caso è probabile che si tratti soltanto di un'ombreggiatura o di una differenza di illuminazione. Riguardo al secondo punto, si consideri che le ombre ci forniscono informazioni indirette sulle caratteristiche tridimensionali dell'oggetto (per esempio l'orientamento nello spazio tridimensionale145) e sulla texture delle superfici

(segnalando le irregolarità e le ombreggiature da queste prodotte, in caso di illuminazione favorevole)146.

Si tenga presente che quanto abbiamo ora spiegato deve essere integrato dalla

144 La direzione dell'illuminazione è utile soprattutto per la visione tridimensionale, pertanto, in questo paragrafo si sta di fatto fornendo un'informazione fondamentale per alcuni problemi che vengono trattati nel paragrafo 2.4.

145 Si ricordi che le cellule complesse di V1 possono codificare soltanto l'orientamento bidimensionale tramite l'informazione delle cellule ganglionari on/off che abbiamo studiato nel sottoparagrafo 2.1: la visione tridimensionale, come si vedrà, è un'operazione che integra quei dati con altri fattori per dare la tridimensionalità all'immagine retinica.

146 Trattare il problema qui ci condurrebbe troppo lontano senza bisogno, dato che a noi basta una considerazione intuitiva come quella degli esempi. Per chi volesse approfondire, la letteratura di mia conoscenza si limita a David Marr, op.cit, pp.239-266. Tuttavia, mi sembra una teoria davvero stimolante.

costruzione della scena tridimensionale, di cui si occupa il seguente sottoparagrafo.

2.4 La stereopsi e la percezione della tridimensionalità dello spazio

Nel caso della costruzione della percezione tridimensionale, analogamente a quanto accade per i contorni, pur sapendo dove avvengono le operazioni di analisi più complesse non è ben chiara l'esecuzione, ma ciò nonostante si è riusciti a individuare i principi in base a cui il compito è eseguito.

Stando agli studi psicofisici, ci sono due classi di fattori che realizzano la percezione tridimensionale dello spazio:

1. l'elaborazione di indizi monoculari relativi alla profondità del campo visivo; 2. entro i 30 metri, la disparità binoculare, ovvero l'esistenza di leggere

divergenze di percezione prodotte dal fatto che i due occhi – separati dal naso di circa 6 cm nelle orbite – osservano il mondo da due punti di vista lievemente differenti.

Sono stati individuati cinque fattori, rilevabili anche per visione monoculare, che determinano le caratteristiche della percezione della profondità del campo visivo147:

1. la familiarità con l'oggetto: le distanze sono valutate anche in base alle proporzioni note degli oggetti percepiti;

2. l'interposizione: se l'immagine di un oggetto è nascosta da un altro, il primo è interpretato come più distante rispetto al secondo;

3. la prospettiva lineare: nella retina, come si è detto, l'immagine che si forma è bidimensionale. Il cervello tiene conto di ciò ed elabora un'interpretazione tridimensionale della scena visiva: le regole della prospettiva lineare non sono altro che gli indizi di cui il sistema visivo tiene conto nell'elaborazione

della versione tridimensionale;

4. le dimensioni degli oggetti: se due oggetti simili appaiono di dimensioni diverse, il cervello determina il più grande come più vicino rispetto al più piccolo;

5. la distribuzione delle ombre e dell'illuminazione: una volta stabilita la provenienza dell'illuminazione e una volta distinte le ombreggiature dai contorni, il cervello determina i volumi di un oggetto. Per esempio, se la luce ci illumina di lato, tre quarti di fronte a noi, il naso proietta un'ombra relativamente lunga e marcata sul viso: se ne deduce che il naso è una parte relativamente molto sporgente e tendenzialmente perpendicolare al piano verticale su cui giace il resto del viso. Se invece, per esempio, vediamo l'oggetto a tre quarti e l'illuminazione proviene da dietro di noi, il fatto che la parte più vicina sia meglio illuminata dell'altra (la luce riflessa da quella parte di superficie è più intensa) ci informa sull'orientamento dell'oggetto nello spazio;

6. il movimento (o movimento monoculare) di parallasse: muovendo la testa o il corpo da una parte all'altra, gli oggetti più vicini ci appaiono muoversi più rapidamente e in senso inverso ai nostri movimenti, mentre quelli più lontani si muovono più lentamente e nella stessa direzione dei nostri movimenti.

Passiamo adesso a spiegare il secondo fattore della visione tridimensionale. Gli occhi sono posti nell'uomo a una distanza di circa 6 cm l'uno dall'altro, di conseguenza le immagini che si formano sulle due retine sono diverse, ma in entrambe il punto che viene fissato cade nella fovea148. La distanza dello stimolo sulla retina dal punto

centrale consente al sistema visivo di calcolare la posizione dell'oggetto rispetto al punto di fissazione, poiché se un oggetto è più vicino, allora gli stimoli “gemelli” sulla retina saranno maggiormente distanti sul piano orizzontale rispetto a quelli sui punti di fissazione; viceversa, se un oggetto è più lontano, allora gli stimoli “gemelli” sulla retina saranno più vicini sul piano orizzontale rispetto a quelli sui punti di fissazione. Poiché questo sistema si basa su un confronto congiunto degli stimoli sulle due retine, la visione tridimensionale è implementata in un'area in cui le informazioni provenienti dai due occhi sono analizzate in prossimità. V1 è l'area in cui tale condizione ha luogo per la prima volta nel sistema visivo. Abbiamo già parlato delle colonne di dominanza oculare: nel 1968 i ricercatori Barlow, Blakemore, Bishop e Pettigrew osservarono nella corteccia visiva primaria neuroni che rispondevano selettivamente alla disparità binoculare dello stimolo oltre che all'orientamento dei segmenti; ne consegue che nelle colonne di dominanza oculare deve trovarsi un'organizzazione funzionale alla codifica della disparità binoculare. I dettagli non sono ancora

148 Si definisce “punto di fissazione” il punto che viene fissato e la cui proiezione cade al centro della retina. Si definisce “piano di fissazione” il piano verticale dei punti nel quale giace il punto di fissazione.

Fig. 2.4.1: Illustrazione della disparità binoculare. Il punto F è il

punto di fissazione, che per semplicità viene fatto proiettare sulla fovea di ciascun occhio. L'altro punto

rappresenta un oggetto qualsiasi all'interno del campo visivo

chiari, ma la strategia parrebbe analoga a quella impiegata per codificare l'orientamento nelle colonne dedicate di V1: ci sono popolazioni di cellule che rispondono esclusivamente a intervalli finiti di disparità e cellule complesse che confrontano le risposte di queste per determinare univocamente e con la massima precisione ogni possibile disparità.

Adesso che abbiamo elencato i meccanismi di base della visione tridimensionale, dobbiamo chiarire in che modo si passa dalla rappresentazione bidimensionale di cui ci siamo occupati finora alla rappresentazione tridimensionale, quella che effettivamente abbiamo del mondo esterno. I compiti che il cervello è chiamato ad assolvere per avere una percezione reale del mondo sono i seguenti:

1. dai contorni orientati deve computare superfici orientate e da queste figure solide, caratterizzate da orientamenti tridimensionali composti149, quindi da

concavità e convessità che devono poter essere discriminate;

2. deve assegnare all'oggetto una posizione e successivamente delle proporzioni rispetto agli altri oggetti della scena visiva.

Il passaggio dai contorni alle superfici e ai solidi orientati nello spazio tridimensionale è l'unico tra questi temi che dobbiamo approfondire ancora; infatti concavità e convessità sono discriminate in base ai meccanismi di contrasto di luminosità e ombreggiatura di cui ci siamo già occupati, la posizione per la percezione non è altro che la presenza nel campo visivo (non occorre che la localizzazione sia formalizzata), le proporzioni derivano dalle leggi della percezione tridimensionale.

149 Intendo sottolineare che le linee che compongono una figura non sono tutte orientate allo stesso modo, anche se essa in quanto intero ha un unico orientamento.

Nel sottoparagrafo 2.1 abbiamo visto come si formano i contorni e quali sono le leggi