• Non ci sono risultati.

2. Introduzione alla Stereoscopia

N/A
N/A
Protected

Academic year: 2021

Condividi "2. Introduzione alla Stereoscopia"

Copied!
44
0
0

Testo completo

(1)

21

2. Introduzione alla Stereoscopia

La capacità di fornire una visualizzazione tridimensionale rispetto alla tradizionale rappresentazione bidimensionale offre una grande opportunità per campi come l’intrattenimento, la medicina, la sorveglianza, l’insegnamento, la progettazione e la robotica; ovvero ovunque si ha bisogno di una consapevolezza spaziale [1].

Con particolare riferimento al campo della robotica si può osservare un’ampia varietà di interfacce video disponibili. La scelta della migliore dipende naturalmente dalle richieste della particolare applicazione tele-robotica. Semplici videocamere monoscopiche sono, ad esempio, sufficienti per osservare i movimenti remoti di un robot o per tele-programmare una sequenza di comandi. Tuttavia, quando gli operatori richiedono una precisa guida dei robot o vogliono manipolare oggetti, è necessaria una migliore percezione dell’ambiente remoto [2]. Tale richiesta può essere soddisfatta proprio con l’utilizzo di sistemi di visione stereoscopici. I benefici apportati da questa tecnologia includono:

- la percezione della profondità relativa alla superficie del display;

- la localizzazione spaziale, permettendo così di concentrarsi su differenti piani di profondità; - una migliore percezione della curvatura di una superficie;

- un miglior giudizio sul moto;

- una migliore percezione del tipo di materiale di una superficie [3].

Tuttavia l’imaging stereoscopico ha due problemi tecnologici che verranno analizzati nel dettaglio in questo capitolo:

1. La necessità di uno strumento in grado di catturare due immagini 2D (una per l’occhio destro e una per l’occhio sinistro).

2. La necessità di isolare le due immagini in modo che ogni occhio veda solo una delle due immagini catturate.

Il capitolo si apre con l’analisi del sistema visivo stereoscopico umano, delle sue potenzialità, ma anche dei suoi limiti quando cerchiamo di “ingannarlo” utilizzando display stereoscopici. Il secondo paragrafo descrive invece un sistema di imaging stereoscopico nel suo complesso: dalla

(2)

22 configurazione delle videocamere ai tipi di display stereoscopici attualmente disponibili e ai loro principi di funzionamento. Per rendere l’analisi del sistema di imaging più rigorosa dal punto di vista formale, è inclusa una caratterizzazione analitica di quelle che sono le trasformazioni geometriche che portano dalle coordinate di un punto nella scena alle sue corrispondenti nel piano dell’osservatore. Alla fine del terzo paragrafo verranno inoltre elencate le principali tipologie di distorsioni stereoscopiche, in modo tale da rendere più completa la visione del problema che si sta affrontando.

2.1 Capacità e Limiti della Stereopsi nell’Uomo

I principi di funzionamento della stereoscopia si basano su alcune caratteristiche della visione umana, in particolare sulla convergenza oculare verso un punto (detto punto di fissazione), in genere ubicato in posizione centrale rispetto all’oggetto di interesse, e sull’analisi della disparità tra i punti retinici corrispondenti (stereopsi). La prima caratteristica implica che le due scene viste dai due occhi siano percepite come spazialmente coincidenti. La seconda, resa possibile dal processo della fusione sensoriale, permette di valutare la posizione spaziale dei punti costituenti la superficie visibile dell’oggetto rispetto al punto di fissazione e quindi di percepire la tridimensionalità dell’oggetto osservato [4].

Nel seguito del paragrafo saranno analizzate geometricamente le caratteristiche del sistema visivo umano per metterne in luce tutte le potenzialità. Purtroppo, quando si osserva, al posto di una scena reale, una immagine proiettata su di un display stereoscopico, questi stessi meccanismi vengono stressati causando disagio nell’osservatore. È quindi necessario imporre dei vincoli alle immagini stereoscopiche, indicati nella parte finale di questo paragrafo, per renderle fruibili senza fastidio per l’osservatore.

2.1.1 I meccanismi umani di percezione spaziale

Il termine visione binoculare si riferisce alla facoltà di ottenere un’ampia area di sovrapposizione visiva da entrambi gli occhi: ciò consente una migliore percezione della profondità, ma anche un miglioramento delle performance sia in caso di compiti visivi semplici che complessi, come l’individuazione, la lettura e la coordinazione occhio-mano. Il campo visivo binoculare è mostrato in figura 2.1.

(3)

23 Come si osserva, è presente un’area comune a entrambi gli occhi che produce proiezioni leggermente differenti sulle due retine. Queste immagini, che contengono i punti corrispondenti sulle due retine, sono poi fuse nel cervello, in particolare all’interno della corteccia visiva. L’eccitazione prodotta è poi inviata a vari strati neuronali, la cui interazione, aggiunta alle differenze nelle informazioni ricevute da ogni occhio, producono la cosiddetta disparità dell’immagine “mentale” che ci costruiamo. Di conseguenza, la disparità può essere definita come la mancanza di corrispondenza tra l’eccitazione prodotta da un occhio e quella prodotta dall’altro. Questo meccanismo di percezione è definito stereopsi, ed è responsabile della percezione della profondità di oggetti posti a breve distanza.

Figura 2.1. Campo visivo binoculare umano

Con riferimento al sistema visivo nel suo complesso, e quindi non solo alla visione di oggetti posti a breve distanza dall’osservatore, occorre considerare che la percezione spaziale delle immagini è, in realtà, il risultato dell’integrazione di tre sorgenti di informazione. Tali processi hanno luogo nel nostro cervello ma l’apprendimento e l’esperienza giocano comunque un ruolo cruciale nell’interpretazione delle immagini che noi riceviamo dall’esterno. Questi tre meccanismi sono:

• Disparità Binoculare; • Moto di parallasse; • Segnali di Realismo.

I segnali binoculari nascono dalla disparità binoculare e dai segnali oculomotori. La prima, come detto, si riferisce alla differenza nelle immagini ricevute da ogni occhio, che deriva dalla separazione orizzontale degli occhi stessi: tali differenze sono usate dal cervello per ottenere informazioni di profondità. Questo meccanismo interviene solo a brevi distanze, in particolare per profondità inferiori a un metro. Gli oggetti entro quest’area, difatti, sono visti chiaramente da due differenti punti di vista, che sono poi fusi dal cervello (in una zona specializzata detta Area di Fusione di Panum) per ottenere informazioni sulle distanze assolute e relative tra gli oggetti stessi.

(4)

24 All’aumentare della distanza dalla quale un oggetto è osservato la similarità delle immagini ricevute da ogni occhio aumenta e perciò il meccanismo di disparità binoculare diviene meno rilevante nella percezione della profondità. In generale tale meccanismo diviene trascurabile per distanze superiori a due metri. I segnali oculomotori sono dati invece dall’accomodazione e dalla convergenza degli occhi. Il primo si riferisce al meccanismo autonomo di contrazione/distensione del cristallino, attuato da parte dei muscoli oculari, che consente di mettere a fuoco un oggetto. Il fenomeno della convergenza ha invece luogo a causa dei muscoli responsabili della messa a fuoco di entrambi gli occhi sullo stesso oggetto. Tali informazioni sono integrate con quella della disparità binoculare per ottenere la percezione della profondità finale.

Il moto di parallasse è dovuto invece al movimento relativo degli oggetti che ci circondano: quelli più vicini sembrano muoversi più velocemente degli oggetti più distanti. Tale meccanismo gioca un ruolo importante per distanze più grandi di due metri, il ché significa che comincia a diventare rilevante quando diviene trascurabile la disparità binoculare. Tale automatismo rende possibili compiti come evitare ostacoli o raggiungere aree di lavoro usando soltanto immagini monoscopiche [5].

Il terzo meccanismo usato per ottenere informazioni di profondità è noto come segnali di realismo, spesso descritti anche come segnali monoculari di profondità. È infatti noto che anche persone con visione monoculare sono capaci di giudicare correttamente la profondità nel mondo reale e questo proprio per la ridondanza insita nel sistema visivo umano (si pensi, ad esempio, a tutte le relazioni spaziali che percepiamo quando osserviamo una immagine monoscopica come una fotografia). I segnali di profondità monoculari sono interpretati dal cervello grazie all’esperienza: con il tempo, difatti, gli osservatori imparano il significato fisico delle differenti immagini retiniche e la loro relazione con gli oggetti del mondo reale [6]. Tali segnali includono:

• Interposizione: oggetti che si occludono l’un l’altro suggeriscono la loro relazione di profondità;

• Prospettiva: a volte chiamata “geometrica”, “rettilinea” o “fotografica”. È il più importante segnale monoculare perché scala i segnali di profondità stereoscopici; oggetti della stessa dimensione ma posti a differenti distanze proiettano infatti immagini di diversa dimensione sulla retina. La memoria ci aiuta comunque a giudicare le distanze che ci separano da oggetti familiari: ad esempio una persona vista da grande distanza è interpretata come lontana e non come “piccola” [7]

• Luci e Ombre: il modo in cui la luce si riflette sugli oggetti o le ombre che generano forniscono informazioni sulle loro relazioni di profondità. In particolare oggetti brillanti o con colori sgargianti sembrano essere più vicini di quelli più scuri.

(5)

25 • Gradienti Strutturali: una struttura di oggetti di dimensione costante, come l’erba, vedrà

variare la loro dimensione sulla retina con la distanza;

• Prospettiva Aerea: è la diminuzione della visibilità di oggetti distanti dovuta alla foschia. È difatti esperienza comune che spesso viste distanti assumono una velatura bluastra a causa dello scattering della luce rossa nell’atmosfera;

Le immagini video usate in applicazioni di tele-operazione dovrebbero adottare la maggior parte dei meccanismi descritti sopra. A tale scopo dovrebbero essere disponibili immagini stereoscopiche di alta qualità e, se possibile, dovrebbero avere la possibilità di muoversi. In questo modo possono essere applicati sia la disparità binoculare che il moto di parallasse che i segnali di realismo. Tale ridondanza di informazione è essenziale per un’accurata percezione dell’ambiente remoto di lavoro [2].

2.1.2 Analisi geometrica del campo visivo umano

L’estrazione di informazioni tridimensionali dalle immagini ricevute dai due occhi deriva, come detto precedentemente, dalla disparità binoculare, dovuta alla separazione interoculare e dai conseguenti punti di vista leggermente differenti dei due occhi.

È possibile fornire alcune dati che riguardano il nostro sistema visivo. Il campo visivo retinico di un occhio è l’angolo solido sotteso dalla regione spaziale che proietta luce sulla retina, pari a 114° nell’uomo. Il campo binoculare è l’area entro la quale gli oggetti sono visibili da entrambi gli occhi, pari a circa 50°. Entro quest’area comune sono quindi prodotte proiezioni leggermente differenti su entrambe le retine, che poi sono fuse nel cervello. Si distinguono allora i punti con disparità positiva, o “crossed”, dai punti con disparità negativa, o “uncrossed”. I primi si riferiscono a quei punti posti oltre il luogo dove gli assi ottici dei nostri occhi si intersecano; i secondi invece sono quelli posti prima di tale profondità (figura 2.2). Occorre però ricordare che per ogni punto del campo binoculare esiste solo un punto corrispondente su ogni retina. Immagini che cadono su punti corrispondenti hanno allora disparità binoculare nulla; mentre quelle che cadono su punti non corrispondenti sono immagini di disparità e sono queste ultime che forniscono informazioni sulla localizzazione spaziale di un oggetto [5].

(6)

26 Figura 2.2. Schema del campo visivo umano.

Date le definizioni precedenti è possibile analizzare anche geometricamente i meccanismi biologici di generazione della coppia di immagini stereoscopiche che ci consente di percepire la profondità delle scene che osserviamo.

Figura 2.3. Geometria della visione binoculare quando si osserva il mondo reale.

Con riferimento a figura 2.3, si supponga di voler fissare il punto generico F nello spazio; gli occhi aggiusteranno il loro stato di accomodazione in modo tale che il punto F, e i punti che gli stanno attorno, siano messi a fuoco. In tal caso F è anche il punto di convergenza degli assi oculari e quindi viene proiettato nella stessa posizione su entrambe le retine. Dunque la disparità retinica del punto F è nulla, ovvero non c’è differenza tra la sua localizzazione nelle immagini retinali destra e sinistra. D’altra parte, i punti localizzati di fronte e dietro al punto di fissazione sono proiettati in posizioni differenti sulle due retine e la risultante disparità retinica fornisce al cervello dell’osservatore l’indicazione di profondità stereoscopica. La valutazione della profondità è perciò relativa al punto di convergenza attuale, cioè F, ed è quindi utile maggiormente per giudicare la profondità relativa degli oggetti della scena, piuttosto che quella assoluta. Da notare che i punti nella scena che, oltre a F, vengono proiettati con disparità retinica nulla sono percepiti come giacenti alla stessa profondità

(7)

27 del punto di convergenza. Tali punti sono descritti di solito come appartenenti ad una superficie nota come horopter che, nella pratica, ha una forma complessa e caratteristiche non lineari.

È possibile andare a definire quantitativamente la disparità angolare α come la differenza tra l’angolo di deviazione oculare relativo al punto di fissazione F e quello relativo al punto di interesse [6].

Figura 2.4. Calcolo geometrico della disparità angolare

Con riferimento a figura 2.4, i punti posti dietro ad F, come il punto A, hanno disparità positiva (uncrossed) pari a:

a f a = −

α

(2.1)

D’altra parte, i punti posti davanti ad F, come B, possiedono disparità negativa (crossed) pari a: b

f b = −

α

(2.2)

Il più piccolo cambiamento percettibile di disparità angolare tra due oggetti è definito acuità stereo δ. Il vantaggio nel definire tale parametro come angolo è che ciò consente di assumerlo costante senza preoccuparsi né della distanza attuale tra A e B, né della distanza tra tali punti e l’osservatore. Per completezza di informazione di seguito saranno anche presentate le relazioni trigonometriche che legano l’acuità stereo alla distanza minima percepibile tra due oggetti. A tale scopo ci si riferisce allo schema presentato in figura 2.5, dove e è la distanza interoculare dell’osservatore, m è la distanza tra l’osservatore e il punto A, e infine n è la distanza tra i due punti della scena A e C nella direzione di osservazione. Le leggi della trigonometria consentono di mettere innanzitutto in relazione gli angoli di convergenza a e c con le rispettive distanze dei punti A e C dall’osservatore:

m e a 2 2 tan =      ;

(

m n

)

e c + =       2 2 tan (2.3)

(8)

28 Figura 2.5. L’acuità stereo definisce la distanza più piccola che l’osservatore può percepire

Se poi i punti A e C possono essere percepiti come appartenenti a differenti profondità allora, per definizione, l’acuità stereo sarà pari a:

c a − =

δ (2.4)

Vari studi [8, 9, 10] mostrano che gli occhi sono capaci di distinguere valori di δ molto piccoli, anche minori di 1.8” (secondi di arco); dato però che tali limiti variano comunque molto da persona a persona, in questo esempio considereremo un valore limite medio pari a 20”. Scegliendo una distanza dall’osservatore m = 750mm (che, tra l’altro, è anche la distanza tipica dalla quale si osservano i display stereoscopici) e una distanza interoculare pari a e = 65mm, è possibile allora calcolare la minima differenza di profondità percepibile dall’osservatore. Date le equazioni precedenti (3) l’angolo a può essere così calcolato:

      =       = 750 5 . 32 arctan 2 2 arctan 2 m e a (2.5)

mentre dalla definizione di acuità stereo possiamo calcolare:

      − =       − =       2 " 20 tan 2 tan 2 tan c a

δ

a (2.6)

inoltre, dato che n è la distanza tra i punti A e C, sappiamo anche che:

(

m n

)

e c + =       2 2 tan (2.7)

Uguagliando le equazioni (2.6) e (2.7) si ottiene:

( )

c m mm e n 0.84 2 tan 2 = −       = (2.8)

È possibile allora concludere che una persona con acuità stereo di 20” e una separazione oculare di 65mm sarà capace di percepire differenze di profondità tra gli oggetti di appena 0.84mm se sono posti ad una distanza dagli occhi di 750mm [6].

(9)

29

2.1.3 Analisi della percezione della profondità su display stereoscopici

Nelle sezioni precedenti è stato analizzato il sistema visivo umano mentre osserva il mondo reale. Nel caso in cui gli occhi si trovano a dover osservare un display stereoscopico le cose cambiano notevolmente. Per una descrizione dettagliata delle tecnologie e delle caratteristiche dei display stereoscopici esistenti attualmente si rimanda al paragrafo successivo; di seguito verranno invece analizzate le loro relazioni con il sistema visivo umano.

Già nell’ottocento Wheatstone dimostrò che la sensazione di profondità stereoscopica poteva essere ricreata mostrando ad ogni occhio una immagine bidimensionale; le due rappresentazioni dovevano però essere due visioni della stessa scena ma ottenute da punti di vista leggermente differenti. Sotto tali condizioni l’osservatore riesce a percepire la profondità nella scena perché la disparità delle immagini genera una disparità retinale simile, ma purtroppo non identica, a quella ottenuta quando si guarda direttamente una scena naturale. I principali ostacoli nel riprodurre il campo visivo umano includono infatti una simulazione adeguata della disparità dell’immagine e la riproduzione dei movimenti oculari di accomodazione e convergenza (nessun schermo video può difatti riprodurre i movimenti oculari di accomodazione e convergenza). Il problema è che, nella visione di scene reali, gli occhi tendono ad accomodarsi e a convergere sullo stesso punto, che rappresenta il punto di fissazione. Tuttavia, i display stereoscopici tendono a dissociare i due meccanismi, forzando l’accomodazione degli occhi sulla superficie dello schermo mentre la convergenza è a una distanza diversa [5]. Ciò richiede all’osservatore di essere capace di alterare il normale legame tra convergenza e accomodazione e questa è una ragione per cui le immagini con ampia profondità percepita sono difficili da vedere. Questo fatto suggerisce che la profondità percepita nelle coppie di immagini stereoscopiche deve essere limitata per renderle confortevoli alla vista [6].

A tale vincolo si aggiungono anche le variabili di un display stereoscopico, che includono le variazioni inter-canale, la brillantezza, il contrasto , il cross-talk e l’allineamento delle immagini stereoscopiche. Tutti questi parametri possono influenzare il range di profondità percepita senza fastidi su di un particolare display. Per generalizzare l’analisi verrà preso in considerazione soltanto uno schermo con proprietà ideali, del quale verrà calcolata geometricamente la profondità percepita, così da svincolarsi dal display stereoscopico particolare usato.

In figura 2.6 si riporta lo schema geometrico della profondità percepita su di un display stereoscopico planare: per semplicità si considerano solamente i valori di disparità lungo l’asse centrale. Gli occhi dell’osservatore, L e R, sono separati dalla distanza interoculare e, sono alla distanza di visione z dal piano del display e p è la profondità percepita. La disparità vista sullo

(10)

30 schermo tra punti corrispondenti, nelle immagini destra e sinistra, è indicata con d ed è una distanza fisica che può essere misurata anche in pixel. Quest’ultimo valore, in una coppia di immagini stereoscopiche allineate, è semplicemente la differenza delle coordinate-x dei punti corrispondenti nelle immagini destra, xr, e sinistra xl:

l r x x

d= − (2.9)

Figura 2.6. Schema della profondità percepita di fronte e dietro al display. I parametri indicati sono p (profondità percepita), z (la distanza di visione), e (la separazione degli occhi) e infine d (la disparità sullo schermo). Dai triangoli simili presenti in figura è possibile poi ricavare due relazioni chiave: la prima è la profondità percepita dietro al piano dello schermo, data dai valori positivi di disparità:

( )

−1 = d e z p (2.10)

mentre la seconda è la profondità percepita di fronte al piano dello schermo, cioè data dai valori negativi di disparità:

( )

+1 = d e z p (2.11)

Le equazioni (2.10) e (2.11) forniscono quindi varie informazioni sui fattori geometrici che influenzano il valore della profondità percepita:

• La distanza di visione dal display, z, è direttamente proporzionale alla profondità percepita; • La disparità sullo schermo d è direttamente proporzionale alla profondità percepita;

• La separazione individuale degli occhi è inversamente proporzionale alla profondità percepita; tale valore di solito varia tra 55mm a 75mm (con un valore medio che di solito è preso pari a 65mm);

(11)

31 Nel momento in cui si progetta il display stereoscopico è quindi necessario controllare tutte queste variabili affinché l’osservatore abbia una visione consistente e confortevole della profondità [6]. Dato che il fattore più importante per la fusione delle immagini stereoscopiche è, come detto, la disparità degli oggetti visualizzati, è necessario definire i limiti della disparità binoculare su di un display stereoscopico. A tale scopo si consideri la figura 2.7, che mostra in modo semplice lo schema geometrico della visualizzazione di due punti (A e B). Si supponga che gli occhi convergano nel punto A, posto ad una distanza d e che sottenda l’angolo α rispetto agli occhi dell’osservatore; mentre il punto B sia ad una distanza x e formi un angolo β con il medesimo piano.

Figura 2.7. Schema geometrico per il calcolo della disparità angolare dei punti A e B.

Il punto B avrà allora proiezioni non corrispondenti nei due occhi: nell’occhio destro avrà difatti una disparità pari a θ1, mentre nell’occhio sinistro sarà pari a θ2 (in particolare i due valori angolari saranno opposti). L’angolo totale di disparità, denominato µ, sarà allora pari alla somma delle due;

1 2 1

ϑ

2

θ

θ

β

α

µ

= − = − = (2.12)

se poi la distanza tra i due occhi è o allora:

( )

, 2 2 d o tgα = x o tg 2 2=   β (2.13)             −       = x o a d o a 2 tan 2 tan 2

µ

(2.14)

Dato poi che dal punto B sono tracciati due triangoli simili:

(

x d

)

p x o − = =       2 2 2 tan

β

(2.15)

Si ricava anche il valore lineare della disparità:

(

)

x d x o p= − (2.16)

(12)

32 Rappresentando il valore di disparità ottenuto con l’Eq.(2.14) si ottiene il grafico di figura 2.8.

Figura 2.8. Disparità Angolare vs. Distanza

Tale grafico mostra che la disparità uncrossed aumenta più velocemente della disparità crossed; in altre parole c’è una variazione più grande per gli oggetti che sono più vicini all’osservatore rispetto a quelli che sono più lontani. Allo stesso modo si può ravvisare che più grande è il valore di d, cioè più lontano è il punto di convergenza, e più lenta è la variazione della disparità. Ciò dimostra la riduzione del meccanismo di disparità binoculare all’aumentare della distanza.

Il grafico di figura 2.8 mostra anche tre linee orizzontali: la centrale con disparità nulla e le linee sopra e sotto quest’ultima che indicano i limiti di disparità positiva e negativa. Guardando le intersezioni della curva con i limiti di disparità possiamo calcolare i vincoli sulla scena che può essere visualizzata. Così, per la curva centrale, che attraversa gli assi a 60 cm, se i limiti sono posti a 0.1, sarebbe possibile vedere tutti gli oggetti posti ad una distanza tra 25 cm e l’infinito [5]. Nel precedente calcolo dell’area entro la quale le due immagini stereoscopiche erano fuse correttamente era richiesta la conoscenza dei limiti di massima e minima disparità angolare, ovvero il valore di µ. Purtroppo in letteratura non è stato raggiunto un accordo su tali valori: negli studi più restrittivi [8] si impone il valore di 22’ (minuti di arco) per la disparità di tipo crossed e 24’ per la disparità uncrossed; Lipton [11] suggerisce invece una disparità angolare massima, sia positiva che negativa, di 1.5°; negli esperimenti di Howard [12] sono invece forniti dei limiti tra 4° e 7° per la disparità negativa e tra 9° e 12° per la disparità positiva. La variabilità di tali scoperte è il risultato dei numerosi fattori che influenzano la corretta fusione delle immagini, come le condizioni di luminosità della scena, il contrasto tra gli oggetti e il tempo di esposizione delle immagini.

Nei paragrafi successivi sarà utilizzato, per il dimensionamento di un sistema di imaging stereoscopico, un limite di disparità angolare di 1.5°; questo perché sembra essere il valore sul quale convergono gli studi più recenti.

(13)

33

2.2 Principi e Metodi

In questo paragrafo sono fornite due definizioni di grande importanza per il resto del capitolo: la lunghezza focale e il modello di una videocamera pin-hole. Tale scelta è stata fatta per poterle poi solamente richiamare nei calcoli e nelle dimostrazioni successivi.

2.2.1 Lunghezza focale

La lunghezza focale di un sistema ottico è una misura di quanto fortemente converge (si focalizza) o diverge (si de-focalizza) la luce. Un sistema con una lunghezza focale più corta avrà una maggiore potenza ottica di uno con una maggiore lunghezza focale, cioè il fascio di raggi si piegherà maggiormente, portando il fuoco ad una distanza inferiore.

Figura 2.9. Schema di una lente concava e di una lente convessa

Con riferimento ad una lente di spessore trascurabile (vedi figura 2.9), la lunghezza focale è positiva per una lente convergente (convessa) ed è la distanza alla quale un fascio di luce collimata sarà focalizzato in un unico punto. D’altra parte, per una lente divergente (concava) la lunghezza focale è negativa ed è la distanza dal punto in cui un fascio collimato sembra divergere dopo aver oltrepassato la lente.

Per una lente spessa, cioè di spessore non trascurabile, o per un sistema di imaging composto da varie lenti e/o specchi, la lunghezza focale è spesso chiamata effettiva lunghezza focale (EFL). Quest’ultima, se definita in aria, fornisce la distanza tra i “piani principali” posteriore e anteriore e i

(14)

34 corrispondenti punti focali. Se invece il mezzo che circonda il sistema ottico non è aria, allora la distanza è moltiplicata per l’indice di rifrazione del mezzo.

Per la conversione dei segni scelta, si avrà un valore del raggio di curvatura R1 positivo se la prima superficie della lente è convessa, e negativo se concava. Il valore del raggio di curvatura R2 sarà invece positivo se la seconda superficie è concava e negativo se è convessa.

In generale, la lunghezza focale o EFL è il valore che descrive l’abilità del sistema ottico di focalizzare la luce, ed è il valore usato per calcolare l’amplificazione del sistema. Nel caso di una lente di spessore d in aria e con superfici di raggio di curvatura R1 e R2, l’EFL, indicato con f, è dato da:

(

)

(

)

     − + − − = 2 1 2 1 1 1 1 1 R nR d n R R n f (2.17)

dove n è l’indice di rifrazione del mezzo di cui è costituita la lente. La quantità 1/f è allora chiamata potenza ottica della lente.

2.2.2 Modello di una videocamera di tipo pin-hole

Tale modello descrive la relazione matematica tra le coordinate di un punto 3D e la sua proiezione nel piano dell’immagine di una videocamera di tipo pin-hole ideale, cioè in cui l’apertura è puntuale e non è usata alcuna lente per mettere a fuoco la luce. Questo modello non tiene conto, per esempio, delle distorsioni geometriche, del blurring (cioè l’incertezza sui bordi degli oggetti osservati) di oggetti non messi a fuoco a causa delle lenti o di una apertura di dimensione finita. Inoltre non include neppure il fatto che la maggior parte delle videocamere di uso pratico hanno solo coordinate discrete dell’immagine. Ciò significa che questo modello può solamente essere usato come una approssimazione al primo ordine della mappatura di una scena tridimensionale in una immagine bidimensionale. La sua validità dipende quindi dalla qualità della videocamera e, in generale, decresce dal centro dell’immagine ai bordi a causa dell’aumento della distorsione della lente. Alcuni degli effetti di cui questo modello non tiene conto possono comunque essere compensati, per esempio applicando trasformazioni adattive delle coordinate, mentre altri effetti possono essere trascurati se si usano videocamere di alta qualità.

Una videocamera pin-hole è molto semplice, senza lenti e con una singola apertura molto piccola. La luce di una scena passa attraverso questa singolo punto e proietta una immagine invertita dalla parte opposta. Il numero f di una videocamera pin-hole può essere calcolato dividendo la distanza tra pin-hole e piano dell’immagine (cioè la lunghezza focale) per il diametro dell’apertura.

(15)

35 La geometria relativa alla mappatura delle coordinate spaziali di una videocamera pin-hole è illustrata il figura 2.10 e comprende:

• Un sistema di coordinate tridimensionali di origine O. In tal punto è anche posta l’apertura della videocamera. I tre assi sono X1, X2 e X3, dove l’asse X3 punta nella direzione di vista

ed è detto asse ottico o raggio principale. Il piano che interseca gli assi X1 e X2 è il lato frontale della videocamera ed è detto piano principale;

• Un piano dell’immagine su cui è proiettato il mondo tridimensionale attraverso l’apertura della videocamera. Tale piano è parallelo agli assi X1 e X2 ed è posto ad una distanza f dall’origine O nella direzione negativa dell’asse X3. Una implementazione pratica di una videocamera pin-hole implica quindi che il piano dell’immagine sia posto in modo tale che intersechi l’asse X3 alla coordinata –f, con f>0, detta anche lunghezza focale della videocamera;

• Un punto R all’intersezione dell’asse e del piano dell’immagine, detto punto principale o centro dell’immagine;

Figura 2.10. Geometria di una videocamera di tipo pin-hole • Un punto P in qualche luogo della scena, di coordinate (x1, x2 , x3);

• La linea di proiezione del punto P nella videocamera, passante per P e per O;

• La proiezione del punto P nel piano dell’immagine, denotata con Q, e derivato dall’intersezione della linea di proiezione con il piano dell’immagine ;

• Un sistema di coordinate bidimensionali nel piano dell’immagine di origine R e di assi Y1 e Y2 paralleli a X1 e X2 rispettivamente. Le coordinate di Q sono quindi (y1, y2).

Si vuole capire come le coordinate (y1, y2) del punto Q dipendono dalle coordinate (x1, x2 , x3) del punto P. Ciò può essere fatto con l’aiuto della figura 2.11, che mostra la stessa scena precedente ma vista nella direzione negativa dell’asse X2.

(16)

36

Figura 2.11. Geometria della videocamera pin-hole vista dall’asse X2

In questa figura ci sono due triangoli simili, che hanno entrambi come ipotenusa una parte della linea di proiezione. I cateti del triangolo a sinistra sono –y1 e f, mentre quelli del triangolo a destra sono x1 e x3. Poiché i due triangoli sono simili ne segue che:

3 1 1 x x f y = − oppure 3 1 1 x fx y =− (18) Una indagine simile, guardando nella direzione negativa dell’asse X1 conduce a:

3 2 2 x x f y = − oppure 3 2 2 x fx y =− (19)

Ciò può essere così riassunto: 

     − =       2 1 3 2 1 x x x f y y (20)

che è una relazione tra le coordinate tridimensionali (x1, x2 , x3) del punto P e le sue coordinate nell’immagine (y1, y2).

Occorre però notare che la mappatura delle coordinate dal 3D a 2D descritta per una videocamera pin-hole è una proiezione prospettica seguita da una rotazione di 180° nel piano dell’immagine. Ciò corrisponde a come opera realmente una videocamera: l’immagine risultante è ruotata di 180° e la dimensione relativa degli oggetti proiettati dipende dalla distanza f tra il piano dell’immagine e il punto focale. Per produrre una immagine non ruotata, che è quella che ci si aspetta da una videocamera, ci sono due possibilità:

1. Ruotare il sistema di coordinate nel piano dell’immagine di 180°. Questo metodo è quello usato in pratica nelle videocamere pin-hole, in quanto i pixel vengono letti in ordine tale da risultare ruotati.

2. Porre il piano dell’immagine in modo tale che intersechi l’asse X3 a f invece che a −f. Ciò genererebbe però un piano dell’immagine virtuale che non può essere implementato nella pratica.

In entrambi i casi la mappatura delle coordinate 3D nelle coordinate 2D dell’immagine è data dalla seguente relazione:

(17)

37       =       2 1 3 2 1 x x x f y y (2.21)

2.3 Analisi di un Sistema di Imaging Stereoscopico

Nelle sezioni precedenti sono state analizzate le caratteristiche del sistema visivo umano e sono state introdotte alcune definizioni utili nell’ambito dell’ottica geometrica di un sistema di imaging. In questo paragrafo saranno descritte invece nel dettaglio tutte le parti che costituiscono un sistema di imaging stereoscopico artificiale: le videocamere e la loro disposizione, le proprietà e le diverse tipologie dei sistemi di visualizzazione stereoscopici esistenti ad oggi sul mercato. Una volta descritti questi due componenti verrà presentata una analisi prettamente geometrica che consentirà di ricavare delle espressioni globali che regolano la trasformazione esistente tra lo spazio delle coordinate del mondo reale e quelle dello spazio dell’osservatore che le vede proiettate su di un display stereoscopico. Infine, data la loro importanza, saranno descritti alcuni delle principali tipologie di distorsioni che si possono trovare in una immagine stereoscopica.

2.3.1 Descrizione delle possibili configurazioni delle videocamere binoculari

Il primo punto da risolvere nel progetto di un sistema stereoscopico è il setup delle videocamere binoculari. Naturalmente la scelta è in gran parte dovuta alle richieste dell’applicazione per la quale si sta progettando il sistema di visione. Di seguito verranno descritte le due configurazioni principali che si trovano in letteratura: il sistema a videocamere convergenti e quello ad assi paralleli. Dall’analisi di pregi e svantaggi di questi due tipi di setup si passerà invece alle modifiche che occorre apportare al sistema per alcune delle applicazioni più comuni dei sistemi di visione stereoscopica. Dato che l’obiettivo è quello di riprodurre la visione umana, un sistema con una configurazione simile alle caratteristiche umane, precedentemente descritte, può essere una prima soluzione da provare. La configurazione più semplice può quindi essere costituita da due videocamere con una lunghezza focale equivalente a 50 mm, separate da 6÷7 cm, e con assi paralleli o convergenti per un angolo inferiore a 25°. Quest’ultimo è infatti un punto chiave che determina dove le immagini stereoscopiche sono messe a fuoco correttamente e quindi quale è l’effettivo spazio di lavoro remoto.

(18)

38 Si ricorda poi che la visualizzazione di immagini stereoscopiche richiede la cattura di una immagine binoculare adatta affinché l’oggetto abbia una apparenza naturale. Come verrà dettagliato nel quarto paragrafo, le videocamere devono quindi essere adattate e posizionate in accordo alle dimensioni dell’oggetto da visualizzare e alla sua locazione per evitare eccessive disparità dell’immagine. La figura 2.12 mostra una tipica configurazione di una videocamera binoculare. Come già detto, gli oggetti posti nello stesso punto in cui si intersecano gli assi delle videocamere hanno disparità nulla; mentre se gli oggetti sono posizionati più vicino o più lontano, la disparità aumenta. Gli oggetti più vicini sono visti con disparità uncrossed (positiva), mentre quelli più lontani con disparità crossed (negativa).

Figura 2.12. Configurazione di una videocamera stereoscopica

I parametri della disposizione della videocamera sono la distanza tra i centri delle videocamere (O) e l’angolo tra gli assi ottici(α). La distanza tra l’intersezione degli assi delle videocamere e il punto I (punto in cui gli assi delle ascisse delle videocamere si intersecano) è definita H ed è rapportata con i parametri precedenti attraverso la relazione:

( )

α

sin

H

O = (2.22)

Per dimostrare tale relazione si tracci una linea verticale dalla prima videocamera fino ad intersecare l’asse centrale in un punto Y: si chiami H1 la distanza tra P e il punto Y e H2 la distanza tra Y e I. Sfruttando le relazioni trigonometriche tra questi punti si ottiene che:

1 2 2 tan H O =      

α

(2.23) dalla quale si ricava:

( )

2 tan 2 1 α O H = (2.24)

Considerando poi che i due triangoli rappresentati in figura 2.12 sono rettangoli è possibile anche ricavare una relazione trigonometrica per H2:

(19)

39 2 2 0 2 90 tan H =       °

α

(2.25)

dalla quale si ricava:

(

90 2

)

tan 2 2 = °

α

O H (2.26)

Infine, per come sono state costruite queste due distanze, possiamo metterle in relazione alla distanza H:

(

)

(

)

      − ° + = + = 2 90 tan 1 2 tan 1 2 2 1 α α O H H H (2.27)

andando poi a esplicitare le due tangenti come rapporti tra seni e coseni si ottiene:

(

)

(

)

(

(

)

)

      − ° − ° + = 2 90 2 90 cos 2 2 cos 2 α α α α sen sen O H (2.28)

A questo punto si considera che cos

(

90°−

α

2

)

=sen

(

α

2

)

e che sen

(

90°−

α

2

)

=cos

(

α

2

)

. Inserendo tali uguaglianze nella (28) si ottiene:

(

)

(

)

(

) (

)

      + = 2 cos 2 2 2 cos 2 2 2 α α α α sen sen O H (2.29)

Considerando infine che cos2

(

α

2

)

+sen2

(

α

2

)

=1e che 2sen

(

α

2

) (

cos

α

2

)

=sen

(

2

α

2

)

=sen

( )

α

, l’equazione (29) risulta:

( )

α

sen

( )

α

O sen O H = = 2 1 2 (2.30)

In questo modo è quindi dimostrata la relazione (2.22).

I seguenti sviluppi calcolano invece la disparità della proiezione dell’immagine stereoscopica nel caso semplificato in cui i punti sono posti esclusivamente sulla linea centrale; le loro definizioni nei corrispondenti sistemi di riferimento associati con la videocamera sinistra e destra, rispettivamente, sono quindi (Xl,Yl,Zl) e (Xr,Yr,Zr). Il parametro d è definito come la distanza tra un punto P della linea centrale e il punto I. I valori delle suddette coordinate sono quindi i seguenti:

(

H d

) (

sin

α

2

)

Xl = − (2.31) 0 = l Y (2.32)

(

2

)

cos

α

d Zl = (2.33)

(

d H

) (

sin

α

2

)

Xr = − (2.34) 0 = r Y (2.35)

(

2

)

cos

α

d Zr = (2.36)

(20)

40 Le proiezioni del punto P sul piano dell’immagine sono definite come (Xc,l,Yc,l) e (Xc,r,Yc,r) per la

videocamera sinistra e destra, rispettivamente. In accordo con il modello a pin-hole di proiezione della videocamera (descritto nel paragrafo precedente), i valori delle ascisse di tali proiezioni sono i seguenti (non verranno esplicitate anche le ordinate perché ciò che più interessa è la disparità orizzontale):

(

2

)

tan ,

α

d d H f Z X f X l l l c − = = (2.37)

(

2

)

tan ,

α

d H d f Z X f X r r r c − = = (2.38)

Dove f è la lunghezza focale delle lenti.

Si supponga che la disparità della proiezione sia la distanza tra le proiezioni delle due videocamere di un punto posto sulla linea centrale. Ciò è ottenuto come il valore assoluto della distanza tra le ascisse in entrambe le proiezioni delle videocamere [2], cioè,

( )

2 tan

(

2

)

1 Pr = − d H f d sparity oiectionDi

α

(2.39)

Questo tipo di configurazione ha quindi il pregio della scelta esatta del punto di convergenza degli assi ottici delle due videocamere e quindi della distanza alla quale la scena è messa a fuoco con maggiore precisione. Nel caso in cui la scena da osservare sia costituita da un oggetto di interesse inserito in un background di minor attrattiva questo tipo di configurazione è ottimale perché consente di concentrarci solo sul piano di profondità cui appartiene l’oggetto senza preoccuparci della disparità degli oggetti sullo sfondo. Tale caratteristica è confermata se si va a tracciare l’andamento della disparità in funzione della distanza dell’oggetto (posto sull’asse centrale) dalle videocamere, ovvero se si va a rappresentare il risultato dell’equazione (2.39), riportata in figura 2.13.

Figura 2.13. Andamento della disparità in funzione della distanza tra oggetto e videocamere nella configurazione a videocamere convergenti

(21)

41 Come già detto nel primo paragrafo la disparità massima accettabile (MAD) può essere definita come il valore massimo della disparità dell’immagine binoculare che può essere correttamente fuso dal cervello. Si ricorda anche che il MAD dipende dalla distanza dell’utilizzatore dallo schermo e dalla soglia umana di disparità delle immagini precedentemente fissata. Data una distanza di 45 cm dallo schermo e una distanza interoculare media si ottiene una disparità massima di immagine di 12 mm [2]. Per dimostrare questa conclusione si riprendono le equazioni (2.12), (2.13) e (2.16): in questo caso è stata scelta, implicitamente, una disparità angolare massima di 1.5° e quindi µ = 51. °. Dall’equazione (2.13) è possibile ricavare, con i dati a nostra disposizione, il valore dell’angolo α:

° =       =       = 8.26 900 65 arctan 2 2 arctan 2 mm mm d o

α

(2.40)

Noto α si può ricavare l’angolo β dall’equazione (2.12), ottenendo: ° = ° − ° = − =α µ 8.26 1.5 6.76 β (2.41)

A questo punto si può calcolare la massima distanza dal punto di osservazione:

(

)

(

)

mm o x 550 2 76 . 6 tan 2 65 2 tan 2 = ° = =

β

(2.42)

Infine si ottiene, dall’equazione (2.16), il valore del MAD precedentemente specificato:

(

)

(

)

mm mm mm mm mm x d x o p 12 550 450 550 65 = − = − = (2.43)

Una volta dimostrato tale valore è possibile tracciare sul grafico precedente una linea orizzontale (tratto nero più spesso in figura 2.13) che individui il range di profondità che l’osservatore potrà percepire in modo corretto e confortevole. Come si deduce dalle due intersezioni che tale limite ha con la curva rappresentante l’equazione (2.39), nel caso di videocamere con assi convergenti (α>0), è possibile osservare tutti gli oggetti posti ad una distanza compresa tra A e B [2]. È quindi facile intuire come basti dimensionare il sistema in modo tale che l’oggetto di interesse sia ad una distanza intermedia tra i due limiti, per poterlo visualizzare sempre correttamente. D’altra parte questo vantaggio si traduce, in alcune applicazioni, in uno svantaggio in quanto, con questa configurazione, non è possibile osservare oggetti posti ad una distanza maggiore del limite B, né più vicini del punto A. Altro svantaggio, tutt’altro che trascurabile, è che i luoghi dei punti sulla scena con la stessa disparità hanno forme non-lineari, dunque difficili da modellare e individuare.

Nel caso della configurazione con assi paralleli (α=0), le coordinate del punto P, appartenente alla linea centrale, nei sistemi di riferimento riferiti alle due videocamere saranno:

2

O

(22)

42

2

O

Xr =− Yr =0 Zr =d (2.45)

Sempre in riferimento al modello pin-hole della videocamera, le due proiezioni saranno quindi:

d O f Z X f X l l l c 2 , = = (2.46) d O f Z X f X r r r c 2 , = =− (2.47)

La disparità della proiezione per un punto posto sull’asse centrale sarà quindi pari a:

( )

d O f d sparity ojectionDi = Pr (2.48)

Anche in questo caso è possibile tracciare l’andamento della disparità in funzione della distanza dell’oggetto dalla videocamera, ovvero l’equazione (2.48) (figura 2.14). Imponendo un valore di massima disparita (MAD) di 12mm come nel caso precedente (seguendo quindi la stessa dimostrazione), dal punto di intersezione è anche in questo caso possibile ricavare i limiti dell’area di lavoro effettiva (cioè la regione nella quale la disparità dell’immagine è inferiore al MAD).

Figura 2.14. Andamento della disparità in funzione della distanza tra oggetto e videocamere nella configurazione parallela

Nella configurazione parallela è quindi possibile fondere correttamente tutti gli oggetti al di sopra della distanza M. La regione effettiva di lavoro è quindi molto più ampia della precedente; ma possono comunque sorgere dei problemi relativi alla minima distanza in cui gli oggetti fondono (M), perché potrebbe essere troppo elevata. Altro vantaggio molto importante della configurazione parallela è che qualsiasi punto appartenente ad un piano ortogonale agli assi delle due videocamere ha la stessa disparità; in altre parole la disparità di un punto dipende unicamente dalla sua distanza dalle videocamere e non più dalla sua coordinata x. Per dimostrarlo si consideri nuovamente la figura 2.12, ma con videocamere con assi paralleli, e si prenda un punto P a distanza d dalle

(23)

43 videocamere e traslato di x verso il basso rispetto all’asse centrale. In tal caso le coordinate del punto P rispetto alle due videocamere saranno:

x O Xl = + 2 Yl =0 Zl = d (2.49) x O Xr =− + 2 Yr =0 Zr =d (2.50)

Passando quindi alle corrispondenti coordinate sui sensori di immagine si ottiene:

      + = = O x d f Z X f X l l l c 2 , (2.51)       + = = O x d f Z X f X r r r c 2 , (2.52)

La disparità di proiezione globale è quindi pari a:

( )

d O f x O x O d f d sparità ojectionDi =      + + = 2 2 Pr (2.53)

Come si voleva dimostrare, la disparità della proiezione è identica a quella ottenuta per un punto appartenente all’asse centrale (equazione (2.48)). Dunque nella configurazione parallela la disparità dipende solamente dalla distanza dell’oggetto dalle videocamere e non dalla sua posizione orizzontale.

Occorre tuttavia sottolineare una ipotesi importante che è stata implicitamente adottata in tutti i calcoli precedenti, ovvero che il fattore di amplificazione di frame, pari al rapporto tra la larghezza della superficie sensibile della videocamera e quella del display di visualizzazione, fosse unitario. Le disparità fin qui calcolate e tracciate, per poter essere messe in relazione con il MAD, andrebbero moltiplicate per questo fattore di scala. Per gli scopi descrittivi di questo paragrafo è comunque possibile assumere, come è stato fatto, che tale parametro sia unitario. Tale assunzione non sarà naturalmente più valida in fase di dimensionamento in quanto il valore di M è sempre diverso dall’unità in ogni applicazione pratica.

Sono stati fin qui elencati pregi e difetti delle due configurazioni. Di seguito, come riportato in [2], verranno invece descritti i setup delle videocamere utilizzati nella pratica in alcune delle più comuni applicazioni dell’imaging stereoscopico.

Quando, ad esempio, è richiesta un’ampia regione di lavoro la soluzione migliore è quella di usare una videocamera con sistema automatizzato di controllo della deviazione oculare (convergenza). L’obiettivo di tale controllo è quello di fissare l’intersezione degli assi ottici delle videocamere sull’oggetto mostrato al centro dell’immagine; ciò implica che la convergenza sia modificata in modo tale da mantenere la distanza H pari alla distanza tra l’oggetto e la videocamera binoculare.

(24)

44 Come risultato si ottiene un’area di lavoro significativamente aumentata e la minimizzazione della disparità dell’immagine.

Per applicazioni come l’esplorazione o l’ispezione, dove la videocamera binoculare è montata su di un robot mobile, occorre una vasta area di lavoro per consentire la visualizzazione degli oggetti. In questo caso la soluzione più semplice è quella di disporre parallelamente le due videocamere, in modo tale che tutti gli oggetti posti oltre la distanza M siano correttamente fusi.

D’altra parte, le applicazioni come la chirurgia mini-invasiva sono invece caratterizzate da uno spazio di lavoro ridotto. In questo caso la migliore opzione è quella di usare videocamere molto piccole e adattare la lunghezza focale secondo la configurazione parallela, in accordo all’equazione (2.48), per ottenere la visualizzazione corretta. Da notare che, per visualizzare correttamente le immagini stereoscopiche, devono essere considerati altri fattori aggiuntivi, come la correzione della distanza dell’oggetto o la distorsione dell’immagine. Oggetti lontani dall’area centrale dell’immagine hanno infatti una disparità più alta. In questo senso la telechirurgia è un buon esempio di distorsione di oggetti dovuta alla breve distanza tra organi e videocamere.

2.3.2 Display stereoscopici: caratteristiche e stato dell’arte

Un display stereoscopico è un sistema ottico il cui componente finale altro non è che la mente umana. Il sistema funziona presentando, separatamente, agli occhi dell’osservatore viste destre e sinistre della stessa scena, in un qualche modo che dipende dalla sua tecnologia realizzativa [7]. I benefici apportati, come già accennato nell’introduzione, sono: la percezione della profondità relativa alla superficie del display, la localizzazione spaziale, permettendo così di concentrarsi su differenti piani di profondità, la percezione di strutture in scene complesse dal punto di vista visivo, una migliore percezione della curvatura di una superficie, un miglior giudizio del moto e una migliore percezione del tipo di materiale di una superficie. Tali benefici forniscono ai display stereoscopici buone capacità di rappresentazione che consentono all’utilizzatore una migliore comprensione o apprezzamento delle informazioni visive presentate.

Un display stereoscopico differisce quindi da un normale schermo planare perché è capace di visualizzare anche i valori di parallasse dei punti dell’immagine, che producono poi disparità negli occhi e quindi stereopsi. Per garantire tale capacità, se lo scopo è fornire una esperienza visiva confortevole e convincente per l’osservatore, è però necessario mantenere un’alta qualità dell’immagine. In parte la soluzione a questa specifica è quella di costruire display di alta qualità che hanno una innata buona qualità di immagini bidimensionali (brillantezza, alta risoluzione, colori pieni, ecc...). In aggiunta a questo, in un display stereoscopico, deve anche essere minimizzato il

(25)

45 cosiddetto cross-talk (diafonia), ovvero il caso in cui un occhio vede un’immagine relativa a una vista prospettica non voluta. In un sistema stereoscopico ideale, quindi, ogni occhio deve vedere soltanto l’immagine che gli è assegnata. L’attuale tecnologia, sebbene buona, è imperfetta. Il termine usato per descrivere il cross-talk percepito è ghosting. In presenza di ghosting si ha la percezione di una “doppia immagine”, cioè una immagine non voluta che appare sovrapposta sullo schermo a quella desiderata. La percezione del ghosting varia con la brillantezza, con il colore e con il contrasto dell’immagine e aumenta all’aumentare del parallasse di quest’ultima. In aggiunta a tutto ciò, il processo di generazione dell’immagine deve essere altamente controllato in modo tale che l’immagine stereoscopica presentata sul display non contenga disallineamenti o distorsioni non necessarie[3].

Nell’analisi di un generico display stereoscopico è bene fin da subito sottolineare che la parallasse e la disparità sono entità simili: l’unica differenza tra le due è che la prima è misurata sullo schermo del display, mentre la seconda sulle retine. È però la parallasse sullo schermo che produce la disparità retinica e quindi la stereopsi all’interno della corteccia visiva. Di conseguenza, anche la parallasse può essere fornita in termini di misura angolare, una volta nota la distanza tra osservatore e display, ciò consente di metterla in relazione alla disparità retinica. Le tipologie di parallasse che si possono incontrare sono (figura 2.15):

1. Parallasse nullo: in questo caso, mostrato in figura 2.15a, i punti omologhi nelle due immagini corrispondono esattamente. Quando gli occhi dell’osservatore guardano lo schermo di un display e osservano immagini con parallasse nullo gli occhi convergono sul piano dello schermo; in altre parole gli assi ottici dei due occhi si incrociano sul piano dello schermo. In questo caso i punti dell’immagine sono detti in condizioni di zero parallax setting (ZPS).

2. Il caso riportato in figura 2.15b corrisponde alla condizione di parallasse positivo o non-incrociato in cui gli assi degli occhi destro e sinistro sono paralleli. Per un display stereoscopico questa condizione si avrà quando la distanza tra osservatore e schermo eguaglia la distanza interoculare. D’altra parte, il medesimo stato si ha, in una scena reale, quando si osservano oggetti molto lontani. Ogni valore di parallasse compreso tra zero e la distanza interoculare produrrà allora immagini che appariranno essere dietro allo schermo, in una posizione nota come spazio CRT. Gli esperimenti derivanti dalla letteratura [7] ci dicono però che avere valori di parallasse vicini o pari alla distanza interoculare produce fastidio nell’osservatore.

3. Altra tipologia di parallasse positivo si ha quando le immagini sono separate da un parallasse positivo superiore alla distanza interoculare (figura 2.15c): in tal caso gli assi

(26)

46 degli occhi sono divergenti. Tale condizione non si ha quando osserviamo oggetti nel mondo reale e l’insolito sforzo muscolare necessario per fondere tali immagini produce eccessivo fastidio nell’osservatore.

4. Infine, nel caso in cui gli assi oculari si intersecano (figura 2.15d), siamo nella condizione di parallasse negativo o incrociato. Gli oggetti in questo caso appaiono più vicini del piano dello schermo o tra l’osservatore e il display, e sono detti essere entro lo spazio dell’osservatore.

Figura 2.15. Tipologie di parallasse su di un display stereoscopico

Il problema principale di qualsiasi display stereoscopico, come già spiegato nel primo paragrafo, sta proprio nella relazione tra il parallasse sullo schermo e come l’osservatore percepisce la disparità retinica conseguente. Gli assi degli occhi, difatti, convergeranno come se porzioni di una immagine stereoscopica fossero a differenti distanze, ma resteranno accomodati (messi a fuoco) sul piano dello schermo: questa è l’unica differenza significativa tra l’osservazione di un display stereoscopico e il modo in cui vediamo gli oggetti nel mondo reale. La relazione convergenza/accomodazione è però una risposta abituale che ogni essere umano impara fin da piccolo: inevitabilmente, guardando un oggetto, accomodazione e convergenza corrispondono. L’osservazione di immagini stereoscopiche su uno schermo fa eccezione a questa relazione. Tuttavia l’azione dei muscoli che controllano la convergenza e di quelli che controllano la messa a fuoco parte dalla loro relazione abituale e, di conseguenza alcune persone possono avvertire una sensazione sgradevole quando guardano una immagine stereoscopica, specialmente se possiede valori elevati di parallasse. L’esperienza insegna che è meglio usare i valori di parallasse più bassi

(27)

47 possibili compatibili con un buon effetto di profondità per minimizzare il collasso della relazione convergenza/accomodazione, così da ridurre il fastidio all’osservatore.

Per chiarire tale concetto consideriamo il caso ZPS in cui gli occhi convergono e si accomodano sul piano del display. Questa è l’unica situazione in cui non si ha il collasso della relazione convergenza/accomodazione quando si guarda uno schermo stereoscopico. Di conseguenza bassi valori di parallasse ridurranno il collasso mentre alti valori lo esaspereranno [7]. Il problema resta però ancora quantificare tale valore limite perché in letteratura non c’è accordo sul parallasse massimo che un “osservatore medio” è capace di sopportare in maniera confortevole.

L’obiettivo principale quando si creano immagini stereoscopiche è dunque quello di fornire l’effetto di profondità più marcato con i minori valori di parallasse. Se la composizione lo permette è quindi meglio posizionare l’oggetto principale sul piano dello schermo (ZPS) o lì vicino; oppure dividere la differenza di parallasse fissando il piano ZPS a metà dell’oggetto di interesse, in modo tale che metà dei valori di parallasse siano positivi e metà negativi. Come regola empirica, già riportata nel primo paragrafo, si può considerare un valore limite di parallasse di 1.5° [11]. Se espressa come grandezza angolare, il valore limite di parallasse può essere messo direttamente in relazione alla disparità retinica semplicemente conoscendo la distanza dell’osservatore dallo schermo. Come calcolato in precedenza (secondo le equazioni (2.40), (2.41), (2.42), (2.43)), con questo valore di parallasse si ottiene un MAD di 12 mm per un’immagine stereoscopica vista da 45cm.

Sempre analizzando le medesime equazioni si può comprendere anche che più lontano è l’osservatore dallo schermo e più grande è il parallasse ammissibile. Difatti l’importante non è la distanza tra punti omologhi ma l’angolo di convergenza degli occhi richiesto per fondere tali punti. Una immagine stereoscopica sembrerà quindi tanto “più tridimensionale”, cioè più profonda, quanto più l’osservatore è lontano dallo schermo, cioè gli oggetti lontani sembreranno più distanti e gli oggetti nello spazio dell’osservatore sembreranno più vicini [7].

Fino ad ora sono state analizzate le caratteristiche di un display stereoscopico ideale. A questo punto è opportuno descrivere le tecnologie di interfacce 3D esistenti attualmente sul mercato. Per semplicità si possono classificare i display stereoscopici in tre categorie:

• Dispositivi Binoculari;

• Dispositivi Autostereoscopici; • Dispositivi Immersivi;

La caratteristica principale dei dispositivi binoculari è l’uso di uno strumento addizionale per vedere correttamente le immagini stereoscopiche. L’accessorio aggiuntivo, che può essere un casco o un paio di occhiali, consente infatti di separare le immagini di ogni occhio. Tale categoria di display è poi a sua volta suddivisa ulteriormente in dispositivi paralleli, che mostrano

(28)

48 simultaneamente le immagini a entrambi gli occhi, e sequenziali, che le mostrano alternativamente. I dispositivi più noti appartenenti a questa categoria sono gli Head Mounted Display (HMD), gli occhiali a otturatore e gli occhiali polarizzati.

Figura 2.16. Sistema Chirurgico Da Vinci. (a) Endoscopio stereoscopico per mostrare una visione ingrandita degli organi. (b) La consolle del chirurgo con un display binoculare.

Gli HMD sono come occhiali o caschi ma con un differente display video per ogni occhio; sono comunemente usati nelle applicazioni di realtà virtuale e normalmente includono un meccanismo che segue i movimenti della testa dell’osservatore, consentendo così la variazione del punto di vista dell’immagine visualizzata. Un esempio tipico di HMD è il sistema di visione del Da Vinci [13]; in figura 2.16 è possibile osservare la consolle del chirurgo, che include un display binoculare per la proiezione delle immagini stereoscopiche provenienti dall’endoscopio. Gli otturatori attivi sono invece basati su differenti fotogrammi che sono mostrati alternativamente all’occhio destro e a quello sinistro. L’osservatore indossa occhiali con otturatore sincronizzato con il display che mostra le immagini. I più comunemente usati sono gli occhiali con otturatore a cristalli liquidi: in questo caso l’otturatore passa da chiaro a opaco in modo tale che solo l’occhio sinistro possa vedere lo schermo quando è visualizzata l’immagine sinistra, e viceversa. In tale caso si ottengono immagini di alta qualità quando la frequenza di refresh dello schermo è superiore a 80 frame al secondo. Altri sistemi binoculari sono basati invece sulla visualizzazione di immagini colorate o polarizzate: in questo caso l’osservatore indossa degli occhiali con dei filtri appropriati (colorati o polarizzati) per mostrare l’immagine corrispondente ad ogni occhio. I risultati sono immagini stereo di alta qualità adatti per un vasto pubblico (ad esempio nei cinema 3D) [2].

I dispositivi autostereoscopici sono utilizzati per vedere differenti immagini senza la necessità di uno strumento addizionale. Questo tipo di apparecchiature di solito si basa sulla configurazione geometrica: l’osservatore deve vedere da una posizione prefissata per assicurare una visualizzazione corretta dell’immagine. Questo è anche il principale svantaggio di questo tipo di strumenti, dato che

(29)

49 anche piccoli movimenti rendono confusa l’immagine. I più importanti dispositivi autostereoscopici (ovvero quelli che verranno analizzati più nel dettaglio) si basano sulla barriera di parallasse o sui fogli lenticolari. Occorre però ricordare, per completezza di informazione, che esistono anche altri sistemi come i display olografici, gli schermi volumetrici o multi-planari, e autostereogrammi applicati alla visualizzazione di foto tridimensionali. Una barriera di parallasse è una piastra con intaglio verticale posta di fronte al display per nascondere una parte dello schermo ad ogni occhio: tale display mostra quindi due immagini divise in strisce verticali. Grazie al pannello ogni occhio può vedere solo la striscia ad esso corrispondente. I fogli lenticolari sono invece basati su di un array di lenti cilindriche che generano una immagine 3D, sempre mostrando differenti sezioni verticali ad ogni occhio. La testa dell’osservatore deve allora rimanere in una posizione predefinita per vedere correttamente l’immagine 3D; ad ogni movimento della testa, infatti, le sezioni incrociate si sovrappongono e rendono la visualizzazione confusa. Sfortunatamente queste tecnologie non offrono buone performance nelle applicazioni tele-robotiche correnti, ma su di loro sono stati fatti significativi miglioramenti. La questione principale da risolvere consiste nell’individuare la posizione dell’osservatore per mostrargli le immagini correttamente: ciò aiuterà a superare i problemi correnti nelle applicazioni di teleoperazione [2].

I dispositivi Immersivi sono usati per mostrare un ambiente tridimensionale all’osservatore. Per fare ciò usano l’intero campo visivo così come il moto di parallasse. Ci sono due specie di sistemi: i teatri a schermo curvo e i muri a schermi piatti. Il primo è di solito preparato con grandi display curvati cilindricamente, o sfericamente, per mostrare le immagini da proiezioni multiple, che sono mischiate ai bordi. Ciò crea un forte senso di immersione anche senza immagini stereoscopiche. Le pareti a schermi piatti sono grandi display piatti che usano immagini da proiezioni multiple e mostrano immagini stereoscopiche o monoscopiche di differenti scene ambientali. L’avanzato grado di interazione con l’operatore rende i sistemi di realtà virtuale molto affascinanti per le applicazioni tele-robotiche, come il controllo di sistemi complessi nei quali molti robot remoti devono essere controllati [2].

2.3.3 Trasformazioni geometriche complessive

Nelle sezioni precedenti sono stati analizzati separatamente la configurazione delle videocamere e le caratteristiche dei display stereoscopici. In questo paragrafo, coniugando le informazioni ottenute, è quindi possibile presentare una analisi geometrica di un sistema di imaging stereoscopico completo. In questo modo si giungerà, alla fine, a derivare delle formule generali che consentono di

(30)

50 passare in maniera immediata dalle coordinate di un punto sulla scena alle sue corrispondenti coordinate nel sistema di riferimento dell’osservatore che guarda il display stereoscopico.

Innanzitutto ricordiamo le conclusioni a cui siamo giunti nei due paragrafi precedenti: la configurazione delle videocamere è individuata dalla loro distanza, dal punto di convergenza (distanza alla quale si intersecano gli assi ottici) e infine dal loro campo di vista (determinato dalla dimensione del sensore di immagine impiegato e dalla lunghezza focale delle lenti). Il sistema di visualizzazione è invece specificato dalla distanza tra osservatore e display, dalla grandezza dello schermo (in particolare la sua dimensione orizzontale) e infine dalla distanza interoculare dell’osservatore. Tutte queste grandezze sono ben individuabili i figura 2.17.

Figura 2.17. (a) Configurazione delle videocamere. (b) Sistema display-osservatore.

Di seguito verranno definite le variabili necessarie per completare questa analisi geometrica (le cui rappresentazioni grafiche, per le videocamere in configurazione sia convergente che parallela, sono riportate in figura 2.18):

Riferimenti

Documenti correlati

[r]

[r]

Esercizio 4 [4 punti] Risolvere nel piano complesso l’equazione 2¯ z 3 = 3i,.. rappresentandone le soluzioni in

Altrimenti si scelga un nodo del circuito con archi incidenti ancora liberi (deve esistere perch´e il grafo `e connesso) e si ripeta la procedura a partire da tale nodo.. Si ottiene

[r]

Universit` a degli Studi di Trento Corso di Laurea in

1) Il valore della massa m si ricava imponendo l’equilibrio dei momenti di rotazione agenti sulla sbarra rispetto al supporto O.. Dette allora Q e Q' le cariche sulle

Prendo la variabile fuori base con coefficiente di costo ridotto pi` u piccolo (quindi la x 32 ) e aggiungo il relativo arco all’albero di supporto (vedi Figura 2). Non esistono