• Non ci sono risultati.

Come mitigare le problematiche percettive dovute ad aberrazioni geometriche in visori per realtà aumentata Video See-Through durante attività manuali

N/A
N/A
Protected

Academic year: 2021

Condividi "Come mitigare le problematiche percettive dovute ad aberrazioni geometriche in visori per realtà aumentata Video See-Through durante attività manuali"

Copied!
97
0
0

Testo completo

(1)

SCUOLA DI INGEGNERIA

C

ORSO DI

L

AUREA IN

I

NGEGNERIA

B

IOMEDICA

C

URRICULUM

I

NFORMAZIONE

C

OME MITIGARE LE PROBLEMATICHE PERCETTIVE DOVUTE AD

ABERRAZIONI GEOMETRICHE IN VISORI PER REALTÀ AUMENTATA

V

IDEO

-S

EE

-T

HROUGH DURANTE ATTIVITÀ MANUALI

T

ESI DI

L

AUREA

M

AGISTRALE

RELATORI

P

ROF

.

V

INCENZO

F

ERRARI

I

NG

.

F

ABRIZIO

C

UTOLO

CANDIDATO

N

ADIA

C

ATTARI

CONTRORELATORE

P

ROF

.

E

NZO

P

ASQUALE

S

CILINGO

(2)

I

INDICE

INDICE I

SOMMARIO III

CAPITOLO 1: Aspetti tecnologici e fisiologici legati ai sistemi di realtà aumentata indossabili per

l’esecuzione di compiti manuali 1

Sistemi HMD e Realtà aumentata 1

Cenni di geometria proiettiva e sistemi prospettici coinvolti nella visione tramite HMD Video

See-Through 6

Visione binoculare e percezione della profondità 10 Convergenza ed accomodamento degli occhi e problematiche con i visori indossabili 17 CAPITOLO 2: Scenario applicativo e tecnologie in gioco 19

Obiettivo e analisi dello stato dell’arte 22

CAPITOLO 3: Studio preliminare con visore ideale 26

Caso 1: configurazione parallela 30

Caso 2: configurazione semi toed-in 33

Caso 3: configurazione toed-in reale 38

Caso 4: configurazione toed-in ideale 41

Conclusioni e discussione 44

CAPITOLO 4: Analisi di una situazione realistica 46

L’omografia 48

Simulatore di sistemi VST sviluppato in Matlab 50

Simulazione effettuata e risultati 55

Caso reale 1: camere convergenti e display paralleli 57 Caso reale 2: camere e display convergenti 61 Analisi delle differenze tra configurazione con display convergenti e paralleli al di

(3)

II

Caso reale 3: camere e display paralleli 67 Validazione dei risultati del simulatore con setup sperimentale 70 CAPITOLO 5: Studio di fattibilità per l’implementazione di un sistema di eye tracking 75

Eye Tracking 75

Simulazione dell’eye tracking 78

Studio di fattibilità per l’implementazione dell’eye tracking 83

CONCLUSIONI 89

(4)

III L’ambito della tesi è inerente allo sviluppo di visori stereoscopici indossabili per realtà aumentata Video See-Through (VST), da utilizzare per guidare in particolare attività manuali.

L’obiettivo è identificare e mitigare le problematiche percettive causate da aberrazioni geometriche, inevitabilmente presenti nelle implementazioni reali di detti sistemi, al fine di fornire agli occhi dell’utente stimoli quanto più possibile coerenti con la vista ad occhio nudo della medesima scena, per permettere un’efficace e confortevole visione stereoscopica e possibilmente anche una convergenza oculare realistica in funzione del punto di fissazione.

L’analisi delle soluzioni proposte allo stato dell’arte, unita alla necessità di identificare le aberrazioni geometriche che maggiormente inficiano la percezione della profondità nei sistemi VST, ha portato allo sviluppo di uno studio geometrico preliminare del problema. Tale studio è stato condotto tramite simulazione di un visore ideale, in letteratura definito “parallax-free”, che prevede la coincidenza fisica, ottenuta tramite l’utilizzo di opportuni specchi, degli assi ottici e dei centri di proiezione del sistema di acquisizione delle immagini (camere), del sistema di proiezione (display) e del sistema di visualizzazione (occhi dell’utente). Purché tale sistema sia ideale e non implementabile in toto, la sua analisi in varie configurazioni, ha permesso di identificare gli aspetti da tener presenti per l’implementazione di un sistema reale.

Ciò ha permesso di limitare il confronto delle possibili configurazioni di visori reali utilizzando un simulatore sviluppato ad hoc. Nelle varie configurazioni, basate sull’utilizzo di un hardware sub-ottimale (non ideale), è stata simulata l’applicazione di una trasformazione geometrica definita omografia, che consente di riportarsi al caso ideale, quantomeno su un piano a distanza nota. Dalle prove effettuate con il simulatore è emerso che grazie all’applicazione dell’omografia è possibile semplificare l’implementazione dei visori evitando di dover movimentare camere e display in funzione della distanza di lavoro. I risultati ottenuti con il simulatore sono stati validati da prove sperimentali eseguite con un visore avente camere e display mobili.

Dalle simulazioni emerge inoltre che l’utilizzo di sistemi di eye tracking, opportunamente unito all’omografia, potrebbe permettere di avvicinarsi ancor più alla vista ad occhio nudo. A tal fine è stato fatto uno studio di fattibilità per integrare una camera per eye tracking con il visore.

(5)

1

CAPITOLO 1: Aspetti tecnologici e fisiologici legati ai sistemi di

realtà aumentata indossabili per l’esecuzione di compiti manuali

Sistemi HMD e Realtà aumentata

Un Head Mounted Display (HMD) è un dispositivo di visualizzazione che può essere indossato come un normale paio di occhiali o come parte integrante di un caschetto. Può essere provvisto di un unico display per un unico occhio (HMD monoculare), oppure occupare il campo di vista di entrambi gli occhi (HMD binoculari monoscopici), oppure può presentare due display disgiunti, posizionati ciascuno davanti al rispettivo occhio (HMD binoculari stereoscopici). [23]

Questi dispositivi vengono utilizzati sia nell’ambito della realtà virtuale (VR) che in quello della realtà aumentata (AR). La differenza sostanziale tra queste due tecnologie è che mentre la realtà virtuale ha come scopo principale quello di estraniare l’utente dal mondo che lo circonda ed immergerlo in uno scenario virtuale completamente nuovo, all’interno del quale può muoversi ed interagire con gli oggetti virtuali circostanti, o anche più semplicemente vedere un film, il fine della realtà aumentata è di non estraniare l’utente dalla realtà, permettendogli di visualizzare modelli 3D nel contesto reale e/o di sfruttare l’informazione virtuale aggiuntiva per agevolare e migliorare le azioni e la comprensione della realtà stessa. La realtà virtuale è definita una tecnologia di tipo immersivo ed in questo caso il dispositivo di visualizzazione deve necessariamente escludere il mondo esterno, così da garantire l’illusione di trovarsi da un’altra parte; la realtà aumentata invece è un tipo di tecnologia associativa poiché deve fondere l’informazione reale con quella virtuale [24]. Questo lavoro di tesi è incentrato nel campo della realtà aumentata ed in particolare sull’impiego di visori HMD per compiti manuali.

(6)

2 Al giorno d’oggi, i campi di applicazione della realtà aumentata sono molteplici:

 Architettura e Design: questa tecnologia può aiutare a visualizzare i progetti prima che questi vengano realizzati; le immagini digitali di un edificio possono essere sovra-imposte in una vista reale del sito prima della costruzione fisica dell’immobile, così come è possibile visualizzare ed arredare virtualmente gli interni degli edifici.

 Commercio: applicazioni AR possono migliorare le anteprime di prodotto, consentendo ad esempio al cliente di vedere cosa c’è dentro l’imballaggio di un prodotto senza aprirlo.  Gaming: sono ormai molti i videogiochi che sfruttano questa tecnica per conciliare in un

unico luogo lo schermo del computer o dello smartphone, realtà ed oggetti virtuali per dare all’utente una sensazione di immersione più profonda.

 Medicale: i principali ambiti del settore medico in cui la realtà aumentata inizia ad essere proposta sono: la chirurgia, con l’obiettivo di aiutare e guidare il chirurgo durante l’intervento, con una conseguente potenziale diminuzione dei tempi a vantaggio del paziente, le terapie riabilitative e del dolore, ed infine la formazione del personale medico.  Militare: uno dei primi ambiti in cui questa tecnologia è stata utilizzata è proprio quello

militare; si parte dall’addestramento dell’utilizzatore, grazie alla possibilità di inserire virtualmente nella scena reale elementi altrimenti troppo costosi o troppo pericolosi da replicare nella realtà, fino ad arrivare agli HUD (Head Up Display), ovvero i display utilizzati dai piloti che permettono la visualizzazione dei dati di volo senza dover costringere lo sguardo a soffermarsi sui vari strumenti della cabina. Di recente questi HUD sono stati introdotti anche nell’aviazione civile.

 Sport: da diversi anni ormai la realtà aumentata viene utilizzata per facilitare la visione e migliorare la comprensione di diversi sport, quali il football, il nuoto o la vela.

 Task support: compiti complessi come l’assemblaggio e la manutenzione possono essere semplificati inserendo informazioni aggiuntive nel campo di vista dell’operatore.

(7)

3 Figura 1.2: Possibili impieghi della Realtà Aumentata nella vita di tutti i giorni e non.

Da un punto di vista tecnologico, per migliorare la percezione del mondo e le prestazioni dell’operatore impiegato in compiti manuali, è necessario creare un sistema in cui mondo reale e arricchimento virtuale siano perfettamente integrati. Questo risultato può essere ottenuto tramite l’utilizzo di un Optical See-Through HMD (OST-HMD) oppure tramite un Video See-Through HMD (VST-HMD).

In entrambi i sistemi si hanno due sorgenti di informazione: il mondo reale ed il contenuto virtuale generato. Queste due fonti devono essere incorporate. Nel caso degli Optical See-Through (OST) HMD, il mondo reale viene osservato tramite degli specchi (o sistemi ottici più complessi) semi trasparenti posizionati di fronte agli occhi dell’utilizzatore, lasciando tale vista pressoché intatta, a meno di una riduzione della luminosità o di possibili riflessi introdotti dallo specchio stesso; su detti specchi viene proiettata l’immagine generata al computer contenente le informazioni virtuali addizionali. L’immagine virtuale è generalmente riprodotta su un micro display ed una lente ingrandisce tale immagine adattandola contestualmente ad una distanza desiderata al fine di poter essere vista correttamente dall’utente (la distanza minima di messa a fuoco è di 15-20 cm). Le due viste, reale e virtuale, sono poi combinate otticamente. I visori Video See-Through (VST) sono tipicamente più invasivi, in quanto bloccano la visione diretta del mondo reale, che viene mediata da una o più telecamere montate sul dispositivo le cui immagini sono riprodotte su display posti di fronte agli occhi; in questo caso l’immagine reale è fusa con l’immagine virtuale digitalmente prima di essere riproposta agli occhi dell’utente tramite i display [18].

(8)

4 La scelta tra quale dei due approcci utilizzare deve essere guidata dalle esigenze del caso, tenendo in considerazione i relativi pro e contro. Un aspetto riguarda la risoluzione: le telecamere utilizzate per l’acquisizione della scena nei VST non hanno la stessa risoluzione dell’occhio umano, pertanto con i sistemi OST si ha una migliore visione del mondo reale. Altro aspetto importante riguarda le proprietà di messa a fuoco: mentre l’occhio umano può cambiare rapidamente la messa a fuoco sugli oggetti a seconda della loro distanza rispetto all’osservatore, nel VST sia l’immagine reale che quella virtuale sono bidimensionali e sono proiettate ad una distanza predeterminata. Nei sistemi VST un’interruzione del segnale implica un totale oscuramento della vista, e impedisce quindi all’utente di proseguire l’esecuzione di un qualsiasi task, cosa che invece non avviene nel caso di OST, in quanto l’utente continua a vedere la realtà attraverso i propri occhi anche in caso di pause o sospensioni del segnale. Tuttavia l’OST porta con sé anche alcuni svantaggi: la differenza di risoluzione tra l’immagine reale e l’immagine virtuale porta l’utente a non percepire i due mondi come perfettamente fusi; inoltre il contenuto virtuale deve essere più luminoso della scena reale per poter essere visibile.

In generale si deve tenere in considerazione che ci sia corrispondenza spaziale, temporale e fotometrica tra mondo reale e mondo virtuale. Si ha corrispondenza spaziale quando il contenuto virtuale è registrato correttamente su quello reale; per avere corrispondenza temporale è necessario che non ci siano tempi di latenza tra l’immagine reale e quella virtuale; infine per il terzo tipo di corrispondenza occorre che l’immagine virtuale da un punto di vista fotometrico (quindi si parla dell’aspetto cromatico, delle ombreggiature, del contrasto, etc.) abbia consistenza e coerenza con l’immagine reale. Per quanto riguarda la coerenza fotometrica, per ottenerla non si ha una grossa differenza nei sistemi Video See-Through ed Optical See-Through. Parlando invece dell’allineamento temporale il VST introduce sicuramente un ritardo tra l’acquisizione e la riproduzione delle immagini reali. Nei sistemi OST invece, nella percezione dell’informazione reale non si hanno ritardi, ma c’è invece un ritardo nella generazione e visualizzazione del contenuto virtuale se questo deve essere generato in tempo reale. Con l’approccio VST le immagini reali possono essere ritardate prima di essere proiettate sui display così da eliminare il lag tra reale e virtuale. Anche per la corrispondenza spaziale il sistema VST presenta dei vantaggi: in questo caso infatti si può riuscire ad ottenere un allineamento perfetto tra il mondo reale ed il contenuto virtuale, adattando l’immagine virtuale a quella reale prima che l’immagine elaborata venga presentata sui display. Nel caso dell’Optical See-Through invece, sui display viene proiettato unicamente il contenuto virtuale, pertanto, per avere un buon allineamento spaziale, risulta

(9)

5 fondamentale avere un corretto posizionamento dei display rispetto agli occhi. In questi casi sarebbe quindi utile impiegare dei sistemi aggiuntivi che tengano conto delle posizioni relative fra l’occhio ed i display, ovvero ciò che viene definito tracking dell’occhio, complicando di conseguenza il sistema. Inoltre, in caso di movimenti della testa dell’utente, nei sistemi OST si ha un contributo di incoerenza spaziale dovuto all’impossibilità di ottenere una coerenza temporale perfetta: l’immagine virtuale arriverà all’occhio sempre in ritardo. Tale contributo può essere ridotto (predicendo la direzione di moto) ma non eliminato completamente.

Per le suddette motivazioni, nel caso in cui si voglia utilizzare la realtà aumentata per guidare l’utente nell’esecuzione di compiti manuali con informazioni virtuali che devono essere perfettamente registrate con la realtà (si pensi ad esempio a sistemi per guidare l’atto chirurgico) la scelta VST è da preferire. Come detto sopra però, poiché nei sistemi VST la vista della scena reale è mediata dalle camere, l’utente andrà incontro a problematiche percettive, sia a livello monoscopico che stereoscopico.

Dette problematiche sono frutto delle aberrazioni ottiche: si tratta del fenomeno per cui l’immagine formata da un sistema ottico costituito da lenti (nel caso di sistemi HMD si hanno le lenti delle telecamere e le lenti che costituiscono i display), presenta differenze rispetto alla vista ad occhio nudo più o meno riscontrabili. L’immagine formata dal sistema ottico non coincide perfettamente con l’oggetto osservato perché la traiettoria dei raggi luminosi provenienti da esso viene disturbata durante il passaggio attraverso le lenti del sistema, provocando effetti di rifrazione e di riflessione della luce.

Nell’approssimazione dell’ottica geometrica, il raggio luminoso è composto da sette dimensioni: la lunghezza d’onda, che definisce il colore, la polarizzazione, che riguarda l’orientazione del campo elettro-magnetico in direzione perpendicolare a quella di propagazione del raggio e le rimanenti cinque, che dato un punto dello spazio (3 dimensioni) caratterizzano le (2) orientazioni di propagazione del raggio per ciascun punto dello spazio. In base a questa distinzione è possibile definire due tipi di aberrazione ottica: quella cromatica, che interessa i colori dell’immagine e quella geometrica, che comporta un certo grado di deformazione dell’immagine riprodotta.

L’obiettivo di questo lavoro di tesi è analizzare e mitigare le problematiche percettive causate unicamente da aberrazioni geometriche nei sistemi VST quando l’utente è impiegato in compiti manuali.

(10)

6

Cenni di geometria proiettiva e sistemi prospettici coinvolti nella visione

tramite HMD Video See-Through

Si forniscono di seguito alcune nozioni di geometria proiettiva poiché le camere, i display e gli occhi possono essere approssimati come sistemi ottici proiettivi.

Si supponga di proiettare una diapositiva su di una parete e che sia la parete che la diapositiva siano perfettamente piane. Se la sorgente luminosa usata per la proiezione della dispositiva è di tipo puntiforme, l’intero processo proiettivo può essere geometricamente descritto come segue: fissato il punto P come sorgente, esterno sia al piano su cui giace la diapositiva sia al piano della parete, ogni punto Q della diapositiva viene proiettato su un punto del piano della parete ottenibile dall’intersezione tra il piano stesso e la retta congiungente P e Q [22].

Figura 1.3: Schematizzazione della geometria proiettiva.

La branca della geometria che si occupa delle proiezioni è appunto definita geometria proiettiva. Si tratta di una geometria che modellizza il concetto più ampio di prospettiva; gli elementi studiati sono quelli usuali (punti, rette, etc.), ma in questo caso non si tengono in considerazione le misure o i confronti di lunghezze.

L’elemento alla base di questa geometria è ovviamente la proiezione. In generale, una proiezione po' essere definita come la trasformazione che porta i punti definiti in un sistema di riferimento N-dimensionale in punti di un altro sistema di riferimento, di dimensioni minori di N. In particolare, la

(11)

7 proiezione di un punto 3D è definita come l’intersezione di una linea retta, chiamata raggio proiettore, passante per il centro di proiezione e per il punto da proiettare, con il piano di proiezione. Questo tipo di proiezioni fa parte delle proiezioni planari geometriche, definite così poiché la superfice di proiezione è piana e i raggi proiettori sono linee rette. Le proiezioni planari geometriche possono essere suddivise in due classi principali: proiezioni prospettiche e proiezioni parallele. La differenza è che nelle prime la distanza fra il centro di proiezione ed il piano di proiezione è finita, mentre nelle seconde è infinita, per cui i raggi proiettori sono paralleli. Tra queste due, il tipo di proiezione che può approssimare il funzionamento dell’occhio umano è la proiezione prospettica (nella realtà la superfice di proiezione dell’occhio non è piana, per questo si parla di approssimazione).

La proiezione prospettica è una trasformazione 3D-2D, in quanto porta i punti da uno spazio proiettivo 𝑅3, il mondo, ad uno spazio proiettivo 𝑅2, il piano immagine. Si può quindi affermare che in generale, con la trasformazione prospettica si perdono informazioni del mondo osservato, poiché si perde una dimensione. Inoltre, a seconda del centro di proiezione scelto, sul piano immagine verranno proiettate immagini differenti, come mostrato nella figura successiva.

Figura 1.4: A seconda del centro di proiezione scelto si hanno immagini diverse: dal centro 𝐶1 ad esempio si riuscirà a

vedere una sola sfera, mentre dal centro 𝐶2 si riescono a vedere entrambe le sfere.

Come evidenziato in [22], una delle peculiarità dei sistemi con proiezione prospettica è che tutte le immagini riferite allo stesso centro di proiezione sono equivalenti tra loro in termini di contenuto

(12)

8 informativo, poiché: preso il volume di spazio racchiuso tra il centro di proiezione ed il piano di proiezione, per qualsiasi piano di taglio scelto, si ha che le immagini risultanti su tali piani possono sempre essere mappate le une sulle altre tramite degli isomorfismi 𝑅2→ 𝑅2, che permettono il passaggio biunivoco di un punto da un’immagine all’altra.

Figura 1.5: Proprietà di isomorfismo del sistema proiettivo: il contenuto informativo di tutti i piani di taglio è sempre lo stesso.

Quando invece si ha a che fare con due o più centri di proiezione non coincidenti non è più possibile passare da un’immagine all’altra tramite un semplice isomorfismo 𝑅2→ 𝑅2; nel caso della figura 1.4 ad esempio è evidente che le immagini associate ai due centri di proiezione contengono informazioni differenti, in particolare quella associata al centro 𝐶1ne contiene meno. Il passaggio

dall’immagine associata a 𝐶1 all’immagine associata a 𝐶2 non sarà quindi immediato, ma deve per

forza tener conto della posizione relativa dei due centri di proiezione e degli oggetti inquadrati. Si deve quindi tornare a ragionare nel tridimensionale. L’unico modo di tornare alla condizione precedente è che i due centri di proiezione siano coincidenti. In realtà esistono dei casi particolari in cui è possibile determinare un isomorfismo anche con i centri di proiezione non coincidenti, ovvero quando è possibile descrivere la parte di spazio 3D che ci interessa in 𝑅2, come nel caso di un piano o in alcuni casi anche con superfici curve.

Quando si lavora con dei sistemi HMD si ha a che fare con tre distinti sistemi di proiezione prospettici: la telecamera che inquadra il mondo, il display per la visualizzazione e l’occhio dell’utente. Al fine di eliminare alla fonte le problematiche percettive causate da aberrazioni geometriche nei sistemi VST, sarebbe idealmente necessario far coincidere i centri di proiezione dei

(13)

9 suddetti sistemi. Si anticipa qui, come motivato più avanti nella presente tesi, che tale condizione non può mai essere raggiunta e pertanto non si può che andare alla ricerca di soluzioni in grado di mitigare tali problematiche percettive.

(14)

10

Visione binoculare e percezione della profondità

Negli esseri umani gli occhi sono posizionati frontalmente ad una distanza media di 65 mm [14], questi percepiscono quindi la stessa scena da due punti di vista leggermente differenti. Ad ogni istante, le immagini che vengono acquisite dai due occhi vengono proiettate sulle rispettive retine; la percezione visiva unitaria della scena è ottenuta grazie alla corrispondenza retinica. Infatti, punti retinici che elaborano informazioni relative allo stesso punto proiettano su punti corrispondenti nella corteccia visiva. A causa della parallasse orizzontale presente tra i due occhi si avranno delle leggere differenze di formazione delle immagini retiniche, definite disparità retiniche angolari o più semplicemente disparità binoculari: le immagini di singoli oggetti presenti all’interno della scena non sono proiettate su punti retinici corrispondenti.

Grazie a queste disparità il cervello è in grado di generare una sorta di mappa di profondità della scena che si sta inquadrando. Tale meccanismo è comunemente noto come stereopsia, ovvero la capacità di percepire la profondità dello spazio grazie alle informazioni provenienti dai due occhi. La parola stereopsia deriva dal Greco στερεο/stereo che significa tridimensionale, solido e όψις/opsis che significa invece vista. Nella realtà gli indizi visivi che contribuiscono alla percezione della profondità sono molteplici e possono essere suddivisi in visivi ed oculomotori [7]. In entrambi i casi l’indizio generato è frutto della risposta dell’occhio allo stimolo luminoso, inteso come grandezza fisica che impatta sulla parte recettiva del sistema visivo. Gli indizi visivi possono essere a loro volta suddivisi in monoculari e binoculari. Mentre gli indizi binoculari sono fondamentalmente legati alle disparità retiniche, responsabili della stereopsi sopra descritta, tra gli indizi monoculari si annoverano:

 Occlusione: la parziale sovrapposizione tra due o più elementi nella stessa scena fornisce una prima forma di prospettiva, che consente all’osservatore di intuire la profondità relativa tra gli oggetti, senza tuttavia determinare l’effettiva distanza tra di essi.

 Gradiente di tessitura: questo indizio è stato spesso utilizzato dai pittori per creare l’illusione della tridimensionalità nei propri quadri. A seconda del livello di dettaglio con cui gli elementi sono rappresentati sulla scena infatti l’osservatore è in grado di percepire l’oggetto come più o meno vicino.

 Altezza nel campo di vista: gli oggetti rappresentati vicino alla linea dell’orizzonte vengono percepiti come più lontani; di conseguenza, gli oggetti rappresentati rispetto al suolo

(15)

11 saranno percepiti tanto più lontani quanto più alti sono nel campo di vista. Viceversa nel cielo gli oggetti più alti nel campo di vista appaiono più vicini.

 Dimensioni relative: se le dimensioni dell’oggetto reale sono familiari all’osservatore, le dimensioni della sua immagine retinica possono essere utilizzate per valutare la distanza alla quale esso si trova: difatti, man mano che la distanza tra l’oggetto e l’osservatore aumenta, la superfice occupata dall’oggetto sulla retina diminuisce.

 Prospettiva aerea: la dispersione della luce nell’atmosfera, legata principalmente all’umidità e al pulviscolo presente nell’aria, ha l’effetto di ridurre il contrasto dell’immagine, confondendo i contorni degli oggetti; pertanto oggetti più lontani avranno una minore definizione dei contorni.

 Parallasse di movimento: gli indizi fino ad ora descritti sono generati da stimoli statici; tuttavia è prevalentemente con stimoli legati al movimento che ci relazioniamo. Quando ci muoviamo nell’ambiente infatti, gli oggetti che ci circondano cambiano sempre posizione all’interno del campo visivo. La direzione e la velocità con cui questi si spostano è legata alla loro distanza rispetto all’osservatore; in particolare, gli oggetti più vicini si muovono in direzione opposta all’osservatore, mentre gli oggetti più lontani sembrano muoversi più lentamente e nella stessa direzione.

Gli indizi oculomotori sono invece percepiti attraverso i propriocettori dei muscoli oculari e derivano dalla convergenza degli occhi e dal loro grado di accomodamento. Questi due concetti verranno approfonditi meglio nel seguito della tesi.

È interessante osservare l’impatto che gli indizi di profondità sopra descritti hanno a seconda della distanza tra l’oggetto e l’osservatore; come parametro di discriminazione è possibile utilizzare la soglia di profondità, indicata con 𝐷𝑠𝑜𝑔𝑙𝑖𝑎, la quale identifica la più piccola differenza di profondità

rilevabile tra due oggetti 𝐷1 e 𝐷2 [7]. Detta soglia di profondità è data dal rapporto tra la differenza

delle distanze assolute dei due oggetti dall’osservatore e la media delle due distanze:

𝐷

𝑠𝑜𝑔𝑙𝑖𝑎

=

2|𝐷1 − 𝐷2|

(𝐷1+ 𝐷2) (1.1)

(16)

12 Figura 1.6: Influenza degli stimoli visivi per la percezione della profondità al variare della distanza: sulle ascisse si ha la distanza dall’osservatore espressa in scala logaritmica, mentre sulle ordinate la risoluzione della profondità percepita.

Da tale grafico emerge che la stereopsi riveste un ruolo fondamentale nella percezione tridimensionale della profondità spaziale a brevi distanze [20]. Questo limite deriva dal fatto che la visione stereoscopica è fortemente dipendente dalla distanza tra gli occhi: per lunghezze superiori agli 8 metri la distanza interpupillare che, come detto in precedenza, è in media dell’ordine dei 65 mm, diventa trascurabile, e le immagini percepite dai due occhi, o meglio le proiezioni retiniche di tali immagini, sono del tutto simili. Per la visione da lontano quindi sono altri gli stimoli visivi che vengono utilizzati per la percezione della profondità, tra cui quelli monoculari citati in precedenza, come si può anche vedere dal grafico della figura 1.6.

Fissato un punto nello spazio su cui i due occhi convergono, noti la distanza interoculare e l’angolo di convergenza è possibile determinare in termini assoluti la distanza del punto fissato dall’osservatore usando la seguente formula trigonometrica [8, 38].

(17)

13 Figura 1.7: Geometria della visione stereoscopica: I è la distanza interpupillare, Z è la distanza del punto di fissazione e

θ rappresenta l’angolo di convergenza.

Il punto fissato viene proiettato su punti corrispondenti nelle due retine ed in particolare nella zona centrale delle due fovee (è il meccanismo di convergenza degli occhi ad imporre pressoché questo vincolo), pertanto risulta essere a disparità nulla. Immaginiamo ora di tracciare una circonferenza passante per i punti nodali degli occhi e per il punto in esame; tutti i punti appartenenti a tale circonferenza, definita oroptero (dal Greco όρος/oros limite, όπτηρ/opter osservatore), formeranno immagini su punti corrispondenti delle due retine e avranno quindi zero disparità. Di conseguenza tutti gli oggetti che sono disposti sull’oroptero vengono percepiti alla stessa profondità del punto di fissazione. Tutti i punti del campo visivo che non fanno parte dell’oroptero invece stimoleranno aree retiniche differenti, determinando una disparità utile per la percezione della distanza tra oggetti nella scena e, se eccessiva, potenziali effetti di diplopia. Quest’ultimo fenomeno è di fatto un’alterazione visiva che provoca la visione doppia, in senso orizzontale o verticale, di uno stesso oggetto [13]. A seconda della posizione del punto rispetto all’oroptero e all’osservatore, la diplopia generata assume caratteristiche differenti. Gli oggetti che si trovano più lontani dall’oroptero stimolano aree retiniche nasali in entrambi gli occhi; dato che la proiezione cerebrale delle immagini avviene in aree opposte rispetto a quelle di stimolazione retinica, tali immagini vengono percepite nelle parti tempiali degli occhi e avranno una diplopia definita ‘omonima’ (questo perché l’occhio destro dà luogo all’immagine vista a destra e viceversa l’occhio sinistro), mentre la disparità è definita ‘non crociata’. Al contrario, gli oggetti situati all’interno dell’oroptero stimolano le aree

(18)

14 retiniche tempiali e la proiezione dell’immagine avviene in zone nasali; di conseguenza esse si trovano in una parte del campo visivo opposta all’occhio che le ha generate. Questo tipo di diplopia è definita ‘crociata’, così come è chiamata crociata anche la disparità relativa a questo caso [42].

Figura 1.8: Disparità crociata e non crociata.

Da un punto di vista fisiologico, gli elementi alla base del meccanismo della visione stereoscopica sono le cellule binoculari corticali del lobo occipitale, ovvero i neuroni che rispondono ad input provenienti da entrambi gli occhi. La maggior parte di queste cellule invia segnali elettrici alla corteccia visiva ad una più alta frequenza di scarica quando gli occhi vengono stimolati da immagini con zero disparità; si hanno anche delle aree che vengono eccitate quando le due immagini corrispondono a disparità crociate ed inibite per disparità omonime; altre aree ancora sono invece stimolate da disparità non crociate e inibite da disparità crociate. A livello cerebrale quindi, la stima della possibile distanza dell’oggetto nasce dal confronto delle attività di questi tre tipi diversi di neuroni ed è legata alla tipologia di disparità ottenuta [42]. Sembra quindi logico, quando si utilizzano sistemi di realtà aumentata, lavorare al fine di permettere di ripristinare il giusto tipo di disparità nella scena visualizzata attraverso la camera.

La definizione di oroptero data in precedenza ci porterebbe a pensare che tutti gli oggetti che giacciono al di fuori di esso vengano percepiti come doppi; in realtà esiste un intorno volumetrico di tolleranza entro il quale gli oggetti, pur non stimolando aree retiniche perfettamente identiche,

(19)

15 generano una visione singola. Questo volume ha uno spessore variabile intorno all’oroptero: è minore nella regione del punto di fissazione e cresce simmetricamente mano a mano che si procede verso la periferia. Questo volume è definito ‘area fusionale di Panum’, o più semplicemente ‘area di Panum’ [30].

L’oroptero di cui si è parlato finora è in realtà definito oroptero teorico; tramite esperimenti psicofisici è stato infatti dimostrato negli anni che quello reale, o oroptero empirico, non è circolare, ma ha una forma più schiacciata.

Tutte queste informazioni possono essere sfruttate per determinare la profondità alla quale un oggetto è posizionato all’interno della scena. La percezione della profondità è relativa, non assoluta, pertanto richiede sempre il confronto tra due oggetti: il punto di fissazione ed un qualsiasi altro oggetto posizionato all’interno del campo visivo.

(20)

16 La formula utilizzata per la stima della profondità è derivata dalla (1.2) come 𝑑𝑍 𝑑𝜃⁄ :

∆𝑍 = −

𝑍2

𝐼

(1 +

𝐼2

4𝑍2

) ∆𝜃

(1.3)

Per punti di fissazione sufficientemente lontani, nell’equazione precedente la parte entro parentesi può essere approssimata ad 1, quindi la formula (1.3) può essere semplificata nella seguente forma:

∆𝑍 ≈ −

𝑍2∗∆𝜃

𝐼 (1.4)

Osservando le relazioni tra gli angoli evidenziati nella figura 1.9, tramite semplici considerazioni geometriche è possibile dimostrare che ∆𝜃 = −∆𝛼 :

∆𝜃 = 𝜃1− 𝜃2 = (𝜋 − 𝛽 − 𝛼𝑙) − (𝜋 − 𝛽 − 𝛼𝑟) = 𝛼𝑟− 𝛼𝑙 = −∆𝛼 (1.5)

Pertanto l’equazione (1.3) può essere riscritta come segue:

∆𝑍 ≈

𝑍2∗ ∆𝛼

𝐼 (1.6)

Da quest’equazione è evidente che l’accuratezza con la quale è possibile identificare variazioni di profondità è legata alla differenza di disparità retinica ∆𝛼, ovvero la differenza fra gli angoli sottesi dalle proiezioni dei due punti sulle rispettive retine, alla distanza interoculare dell’osservatore 𝐼 e al quadrato della distanza assoluta del punto di fissazione Z.

Quest’equazione dimostra che all’aumentare della distanza la disparità retinica è man mano sempre meno utile nella percezione della profondità, come evidenziato in precedenza nel grafico di figura 1.6.

Quest’analisi è necessaria per procedere con lo studio delle problematiche percettive in visori VST stereoscopici per realtà aumentata per guidare compiti manuali.

Al fine di fornire all’occhio gli stimoli per permettere una corretta stima della profondità attraverso il meccanismo della stereopsi, si dovrebbe fornire all’occhio una vista senza aberrazioni geometriche. Nella pratica, la riduzione delle aberrazioni geometriche è condizione necessaria affinché al cervello arrivino correttamente anche gli indizi monoculari come occlusioni, dimensioni relative, etc.

(21)

17

Convergenza ed accomodamento degli occhi e problematiche con i visori

indossabili

Il sistema visivo umano è in grado di mettere a fuoco oggetti posti a diverse distanze nella scena che si sta osservando; l’occhio è in grado di espletare tale funzione grazie al meccanismo dell’accomodamento. Tale meccanismo è principalmente funzione dei muscoli contenuti nel corpo ciliare: le sottili fibre che prendono origine dalla superfice del corpo ciliare, chiamate fibre zonulari, si inseriscono nel cristallino, la lente biconvessa dell’occhio umano, ed in base al loro livello di tensione regolano la curvatura della lente anteriore del cristallino stesso. [2]

Figura 1.10: Cristallino e corpi ciliari.

Questo cambiamento della curvatura determina una variazione dell’indice di rifrazione del cristallino e in conseguenza una diversa profondità di messa a fuoco. [1] Un altro meccanismo sfruttato per la messa a fuoco è la convergenza oculare: entrambi gli occhi ruotano di un angolo uguale ed opposto così da proiettare l’oggetto di interesse nel centro delle rispettive retine. Nella vista naturale, la convergenza e l’accomodazione lavorano sinergicamente e gli occhi accomodano e convergono alla stessa distanza. Nel caso di vista mediata da camere e display insorge invece un conflitto fra accomodazione e convergenza. L’ottica dei display oggi in commercio infatti prevede la proiezione dell’immagine ad una distanza di lavoro prefissata (da un metro e mezzo circa fino all’infinito, a seconda dei casi), per cui l’occhio sarà sempre accomodato per focalizzare correttamente l’immagine proiettata a tale distanza. Gli occhi hanno inoltre un movimento di

(22)

18 convergenza al fine di ottenere la proiezione del punto fissato nel centro della fovea. Nella vista naturale gli assi degli occhi vanno ad intersecarsi nel punto della scena dove è focalizzata l’attenzione del soggetto e la proiezione di suddetto punto va così a cadere nel centro della fovea. In questo caso l’angolo di convergenza e la distanza di messa a fuoco sono coerenti col punto nella scena reale sul quale è focalizzata l’attenzione. Nel caso di visori per realtà virtuale l’immagine è visualizzata ad una distanza prefissata, mentre l’angolo di convergenza è coerente con il punto nella scena reale sul quale è focalizzata l’attenzione, che potrebbe essere più in avanti o più indietro rispetto alla distanza alla quale sono visualizzate le due immagini bidimensionali per entrambi gli occhi. [5]

Figura 1.11: Disallineamento tra la distanza alla quale si ha la convergenza e la distanza di messa a fuoco.

In letteratura è stato dimostrato [5] che questo mismatch tra gli stimoli di accomodazione e di convergenza causa discomfort e fatica nell’utilizzatore ed influisce negativamente sulla percezione della profondità.

(23)

19

CAPITOLO 2: Scenario applicativo e tecnologie in gioco

Si immagini l’interno di una sala operatoria: a seconda del tipo di procedura che sta svolgendo, il chirurgo si troverà ad operare a diverse distanze di lavoro, comprese all’interno di un range che va da circa 15 cm (fisiologicamente la distanza di lavoro minima) a circa 80 cm (mediamente la distanza di lavoro massima raggiungibile dalle braccia). Inoltre il chirurgo dovrà interagire non solo con il paziente posto sul tavolo operatorio, ma anche con l’ambiente circostante (altri operatori e/o strumentazione), che saranno posti ad una distanza sicuramente diversa rispetto al paziente. Il dispositivo VST stereoscopico dovrà quindi essere in grado di permettere una percezione dello scenario reale quanto più possibile senza distorsioni, in maniera da garantire all’operatore che lo indossa una percezione naturale dello spazio circostante, alle diverse distanze di lavoro sotto esame. Come detto nel capitolo precedente, nel caso di sistemi VST per ottenere la coerenza tra informazione virtuale e immagini reali esistono soluzioni robuste ed accurate allo stato dell’arte. Si tratta ora di capire quali siano le problematiche percettive legate alla visione della realtà.

Come accennato, in generale, la vista del mondo attraverso le immagini di una camera riprodotte su un display comporta sia aberrazione cromatica che geometrica. Nei sistemi HMD vi sono le aberrazioni geometriche legate alla differenza di fuoco, analizzate alla fine del capitolo precedente. Idealmente per risolvere tale conflitto tra convergenza ed accomodamento bisognerebbe costruire dei sistemi che abbiano una messa a fuoco variabile, così da ridurre al minimo (se non addirittura eliminare) il conflitto accomodazione-convergenza. Tuttavia allo stato dell’arte sono state proposte unicamente delle soluzioni teoriche al problema [31, 37], quali ad esempio l’utilizzo di display costituiti da un array di piani focali sui quali proiettare le immagini acquisite dalle camere, ma non sono ancora stati realizzati dei dispositivi che prevedano tali sistemi. Ci sarebbe poi la possibilità di utilizzare, al posto dei display tradizionali bidimensionali, display a campo di luce, ovvero dei display in grado di simulare il comportamento dei raggi di luce che giungono da una scena reale agli occhi dell’osservatore [6, 25], ma queste tecnologie non sono ancora mature. Va comunque segnalato che è possibile fornire all’utente un’immagine agendo sull’ottica della camera.

Vi sono poi le aberrazioni geometriche legate alle distorsioni introdotte dalla lente, come ad esempio quella radiale, che sono facilmente compensabili attraverso l’applicazione di funzioni di un-distorsione [29, 35].

(24)

20 Rimangono però altre aberrazioni geometriche legate alla parallasse, che possono comportare problematiche percettive sia a livello monoscopico che stereoscopico. Queste sono dovute alla discrepanza tra i centri di proiezione dei sistemi ottici in gioco che possono determinare ingrandimenti e riduzioni degli oggetti nella scena e una loro scorretta localizzazione spaziale. Per questo motivo l’analisi parte da un sistema ideale che non introduce aberrazione geometrica nella percezione della realtà. Un sistema ottico si definisce ortoscopico se ha la proprietà di dare immagini esenti da aberrazioni geometriche; in tale sistema l’utente percepisce gli oggetti con le corrette proporzioni, dimensioni e localizzazione spaziale. [33] Affinché un sistema VST stereoscopico sia ortoscopico è necessario che il centro di proiezione delle telecamere che acquisiscono la scena sia coincidente con il centro di proiezione dell’occhio. Se così non è si avrà quantomeno un effetto di parallasse a livello monoscopico con conseguenze anche per la vista binoculare.

Figura 2.1: Lo stesso oggetto ha proiezioni diverse sul piano immagine della camera e dell’occhio a causa della parallasse presente tra i due sistemi di acquisizione.

Tuttavia una configurazione perfettamente ortoscopica è difficilmente realizzabile nella realtà: anche supponendo di poter posizionare le camere di fronte agli occhi, in maniera tale da far coincidere gli assi ottici, resterebbe comunque un offset tra i centri di proiezione. Tale parallasse determina un apparente spostamento dell’oggetto osservato a causa della modifica della posizione da cui lo si osserva, che appare perlopiù come un ingrandimento o riduzione delle dimensioni. Naturalmente, maggiore è la parallasse presente tra le camere e gli occhi, maggiore sarà la distorsione risultante nelle immagini. Nel caso in cui le camere siano posizionate davanti agli occhi l’offset tra le pupille dell’utente e le camere può essere ridotto al minimo; il sistema HMD siffatto

(25)

21 viene definito quasi-ortoscopico. [11]

L’unico modo di ristabilire la corretta parallasse per entrambi gli occhi, e realizzare così un sistema HMD rigorosamente ortoscopico è utilizzare degli specchi che, opportunamente posizionati ed angolati, riportino i centri di proiezione di camere e occhi a coincidere. [40, 44] Il posizionamento ortoscopico dovrebbe avvenire per entrambi gli occhi. Studi sperimentali [44] hanno dimostrato che per evitare distorsioni nella ricostruzione dello spazio è necessario che la distanza tra la camera destra e la camera sinistra sia equivalente alla distanza interpupillare dello specifico utente. Da qui si intuisce che avere un sistema perfettamente ortoscopico per un utilizzo rutinario è complesso, per non dire impossibile. Ad ogni modo, nelle implementazioni reali ed attualmente disponibili in commercio di visori VST stereoscopici gli specchi non vengono utilizzati, quindi tipicamente si ha che il centro di proiezione delle camere non corrisponde con quello degli occhi.

Oltre che del posizionamento relativo tra camera e occhio ci sarebbe poi da tenere in considerazione il posizionamento relativo tra centro di proiezione dell’occhio e del display. In condizioni ideali infatti si dovrebbe avere coincidenza tra l’origine del frustum del display e il centro di proiezione dell’occhio.

Figura 2.2: Disallineamento tra il centro di proiezione dell’occhio e il display: la linea tratteggiata grigia rappresenta il frustum del display. Si può notare che nel caso in nero il centro di proiezione dell’occhio è coincidente con l’origine di

detto frustum, mentre negli altri due casi tale coincidenza viene meno.

(26)

22

Obiettivo e analisi dello stato dell’arte

Come detto nel paragrafo precedente, al fine di avere una perfetta corrispondenza geometrica tra ciò che vede l’utente ad occhio nudo e cosa vede attraverso le immagini riprodotte sul display, per ciascun lato si dovrebbe avere perfetta corrispondenza tra i centri di proiezione di occhio, camera e display. Ma la realizzazione di tale sistema è decisamente complessa.

L’obiettivo di questa tesi è ottimizzare i sistemi VST stereoscopici affinché si abbia una limitata aberrazione geometrica, al fine di permettere una vista stereoscopica senza il fenomeno della diplopia, permettendo magari anche una convergenza oculare realistica, che ci consenta di focalizzare oggetti posti a diverse distanze in funzione dell’angolo di convergenza tra occhio destro e sinistro. L’approccio è fornire all’occhio degli stimoli quanto più possibile esenti da aberrazioni geometriche, affinché si abbia la possibilità di ottenere degli stimoli coerenti con quelli che si avrebbero ad occhio nudo.

Nel corso degli ultimi vent’anni il problema della vista stereoscopica con sistemi VST, almeno da un punto di vista teorico, è stato affrontato e studiato diverse volte, ma mai con un approccio rigoroso geometrico su sistemi reali e non ideali. Per quanto riguarda i sistemi reali allo stato dell’arte sono state proposte sia soluzioni hardware che software per ottimizzare la percezione con sistemi non ortoscopici. È bene analizzarle separatamente in breve:

 Approccio HARDWARE

Si può ovviare al problema dell’eccessiva disparità retinica con sistemi a convergenza variabile andando a ruotare fisicamente le telecamere [17], così da aumentare le zone di sovrapposizione tra immagine destra ed immagine sinistra e consentire quindi all’utilizzatore una corretta visione stereoscopica anche degli oggetti più vicini senza il fenomeno della diplopia.

(27)

23 Figura 2.3: Al visore VST stereoscopico della Sony, che a cose normali non prevedeva la convergenza delle camere, sono state aggiunte due viti, così da regolare l’angolazione delle camere in funzione della distanza di

lavoro utilizzata.

Si sa però da studi presenti in letteratura [44] che i casi in cui non si hanno distorsioni geometriche sono due: quando sia le telecamere che i display presentano l’asse ottico in configurazione parallela con l’asse ottico dell’utente (utente che guarda dritto all’infinito), oppure quando sia le telecamere che i display vengono fatti convergere dello stesso angolo; in altre parole, è necessario che gli assi ottici di camere e display siano concordi.

Figura 2.4: Rappresentazione delle camere e dei display in configurazione parallela (immagine tratta dall’articolo [44])

(28)

24 Figura 2.5: Rappresentazione delle camere e dei display in configurazione convergente (immagine tratta

dall’articolo [44])

Nel caso di oggetti posti a breve distanza sembrerebbe quindi necessario ruotare anche i display. Bisogna tuttavia considerare che la convergenza dei display può complicare l’implementazione di un visore per realtà aumentata poiché la movimentazione dei cavi che veicolano i segnali elettrici ai display può essere difficile da realizzare; inoltre la rotazione dei display in caso di angoli importanti può essere ostacolata dalla presenza del viso dell’utente e dal contatto tra gli stessi due display.

Vantaggio principale dell’approccio hardware è che si riesce a risolvere il problema della diplopia senza introdurre ulteriori conflitti percettivi (come invece avviene nel caso dell’approccio via software descritto in seguito).

 Approccio SOFTWARE

In questo caso camere e display assumono una posizione fissa, in quanto la soluzione è interamente ottenuta per via software; in particolare sia le telecamere che i display possono essere lasciate in configurazione parallela tra loro [40, 41, 44]. Per implementare questo tipo di configurazione è necessario utilizzare delle telecamere che abbiano un campo di vista molto più ampio rispetto a quello dei display. Questo ci consente di andare a selezionare dalle immagini acquisite dalle telecamere solo la parte che permette una maggiore sovrapposizione tra lato destro e sinistro e di andare a proiettare sui display unicamente quella, eventualmente a seguito di una opportuna trasformazione [18], definita omografia e che verrà approfondita nel seguito.

(29)

25 Figura 2.6: Dell’immagine acquisita dalla telecamera viene selezionata unicamente la parte di interesse che

verrà successivamente proiettata sui display (immagine tratta dall’articolo [18]).

In linea generale, l’omografia è una trasformazione grazie alla quale è possibile effettuare un cambio del punto di osservazione che consente, entro certi limiti, di riportarsi ad una condizione in cui i centri di proiezione di assi principali di occhi, display e camere sono tutti allineati e coincidenti; in altre parole, sfruttando questa trasformazione è come se l’immagine presentata all’utente sul display fosse stata acquisita da una telecamera effettivamente coincidente con il suo occhio [10]. Questo approccio software non è, come descritto nel dettaglio in seguito, a costo zero, in quanto si può ristabilire una perfetta coerenza geometrica tra i differenti punti di osservazione solo se la scena inquadrata è un piano. Al di fuori del piano si avranno comunque aberrazioni geometriche.

In questo approccio totalmente software, il vantaggio è che non avendo parti in movimento c’è minore rischio di usura e rottura, oltre ad un minore ingombro e quindi una maggiore praticità del dispositivo stesso. Come detto, uno dei problemi dell’utilizzo dell’approccio software è legato al fatto che l’omografia non funziona su tutto lo spazio ma unicamente per un piano parallelo all’osservatore e passante per il punto di fissazione, posto alla distanza di lavoro che si sta analizzando.

Nonostante che siano state proposte alcune soluzioni sia hardware che software, sopra descritte, per fornire una vista coerente della realtà in sistemi VST, non è ancora chiaro quale sia la strategia migliore. Le proposte presenti sinora in letteratura si basano su considerazioni perlopiù qualitative e di buon senso. Al fine di analizzare il problema rigorosamente, in questa tesi è stato sviluppato uno studio preliminare che analizza da un punto di vista geometrico le varie configurazioni dei display e delle telecamere in un caso di partenza ideale, per poi passare all’analisi dei casi reali.

(30)

26

CAPITOLO 3: Studio preliminare con visore ideale

Come annunciato alla fine del capitolo precedente, è stato sviluppato uno studio geometrico preliminare del problema. L’analisi parte dal caso più ideale possibile per poi andare ad analizzare il problema nelle varie varianti implementative nei capitoli successivi.

Lo studio riportato in questo capitolo è fondamentale per introdurre le cause che determinano le aberrazioni geometriche dei visori VST annunciate nel capitolo 1.

Lo studio preliminare presentato considera i field of view (FOV) delle camere coincidenti con quelli dei display al fine di rispettare le dimensioni; inoltre il posizionamento delle camere rispetto agli occhi è quanto più possibile ortoscopico, pertanto i centri di proiezione di camere, display e occhi sono anch’essi coincidenti. Come spiegato nel capitolo precedente questa particolare configurazione è ottenibile unicamente attraverso l’utilizzo di specchi che riportino il centro di proiezione della camera esattamente sul centro di proiezione dell’occhio; in questo modo si evitano tutti i problemi legati alle aberrazioni geometriche tra cosa vede la camera e cosa vedrebbe l’utente ad occhio nudo. Poiché un sistema di specchi risulta ingombrante e complicato da realizzare, tutte le analisi condotte in condizioni di perfetta ortoscopia rappresentano unicamente dei casi teorici utilizzati per illustrare le problematiche percettive, e possono essere usate come gold standard per possibili confronti con casi reali.

Figura 3.1: Posizionamento ortoscopico delle camere: grazie agli specchi ci si riporta ad una condizione in cui la camera è esattamente coincidente con l’occhio.

(31)

27 L’utilizzo degli specchi presuppone la conoscenza dell’esatta posizione del centro di proiezione dell’occhio, pertanto un’altra astrazione fatta è pensare di poter ottenere un posizionamento perfetto tra il centro di proiezione dell’occhio, quello della camera traslato dal sistema di specchi e quello dei display.

Prendendo spunto dalle analisi eseguite nei lavori precedenti in letteratura, sono state analizzate 4 configurazioni significative di telecamere e display. Per una visione completa del problema, queste quattro configurazioni sono state studiate a diverse distanze di lavoro, in particolare 15, 30, 50, 80 e 200 cm. Come detto in precedenza, 15 cm è fisiologicamente la distanza di lavoro minima, 80 cm è in media la distanza di lavoro massima raggiungibile dalle braccia e 200 cm è stato utilizzato invece come simulazione di un punto di fissazione a distanza maggiore non raggiungibile con le mani. Il sistema di visualizzazione studiato è stereoscopico, si considerano quindi due telecamere che inquadrano la stessa scena da due diverse posizioni. Ciascun punto della scena viene proiettato in posizione differente nelle due immagini 2D delle camere e di conseguenza dei display che le riproducono. Si possono quindi determinare le mappe di disparità sulle immagini percepite dall’utente, le quali possono essere usate come strumento per la valutazione tridimensionale dell’ambiente osservato.

Figura 3.2: Griglie puntuali caricate nello spazio virtuale creato con Rhinoceros, ed utilizzate per la costruzione delle mappe di disparità.

(32)

28 Nello studio svolto, per la costruzione delle mappe di disparità tra l’immagine destra e sinistra si è deciso di posizionare nello spazio tre griglie per ciascuna distanza di lavoro studiata (15, 30, 50, 80 e 200 cm): una costituita da 17 punti (una matrice 4x4 più un punto centrale esattamente corrispondente al punto di fissazione) posizionata alla distanza di lavoro sotto analisi, e le altre due da 16 punti (matrici 4x4) posizionate rispettivamente 10 cm avanti e 10 cm dietro la distanza di lavoro analizzata. La distanza tra i punti delle griglie è costante e pari a 50 mm lungo la direzione orizzontale e 40 mm lungo quella verticale.

Per ciascuna distanza di lavoro le tre griglie sopra citate sono state caricate all’interno di uno scenario virtuale ricreato con il software Rhinoceros; questo software per la modellizzazione di oggetti 3D, oltre alla possibilità di creare superfici e solidi da posizionare in uno spazio virtuale, ci consente anche di acquisire scatti di questi oggetti tramite telecamere virtuali che possono essere collocate e orientate nella scena secondo le necessità dell’utente.

Figura 3.3: Screenshot del programma Rhinoceros.

Per ogni caso sotto esame le griglie sono state osservate da due differenti punti di vista, ovvero quello della camera reale destra e della camera reale sinistra. Le immagini così acquisite sono state proiettate su due piani distinti rappresentanti il display destro ed il display sinistro, posti ad una distanza tale per cui lo spazio presente tra i centri dei due display è pari alla distanza interoculare, ovvero 65 mm. Infine, le immagini riprodotte sui display sono state acquisite da un’ulteriore coppia di telecamere virtuali posizionate in corrispondenza del centro di proiezione degli occhi e con lo

(33)

29 stesso orientamento.

Queste ultime immagini sono state analizzate in ambiente Matlab. In particolare è stato sviluppato un programma che consente di separare per ciascuna immagine i punti appartenenti alle griglie, differenziati su scala cromatica, e di ottenere in output 6 immagini: 3 di queste contengono la sovrapposizione della vista della griglia da parte dell’occhio destro e dell’occhio sinistro alle tre distanze sopra definite (distanza di lavoro +/- 10 cm), mentre le altre 3 immagini sono le corrispondenti mappe di disparità puntuali.

(34)

30

Caso 1: configurazione parallela

La prima configurazione analizzata è stata introdotta in letteratura da Takagi [44] e Fuchs [40] con le telecamere ed i display in configurazione parallela tra loro. Camere e display sono paralleli anche nella maggior parte dei sistemi impiegati per il cinema 3D. Inoltre, poiché in letteratura non è ben specificato il comportamento oculare nel caso di implementazione di una configurazione simile, si è deciso di simulare una condizione in cui anche gli occhi dell’utente sono paralleli tra loro ed i loro assi ottici sono quindi coincidenti con quelli di camere e display, come mostrato nella figura seguente.

Figura 3.4: Configurazione parallela; la coincidenza tra il frustum del display e quello dell’occhio è evidenziato dalla linea tratteggiata.

(35)

31 Figura 3.5: Griglie e mappe di disparità nella configurazione parallela a 40, 50 e 60 cm.

La prima configurazione è servita per dimostrare che per distanze di lavoro ravvicinate si ha una notevole disparità orizzontale tra l’immagine destra e l’immagine sinistra, come appare evidente in

(36)

32 tutte e tre le mappe di disparità, tanto che la corteccia visiva potrebbe non essere in grado di integrarle, causando il fenomeno della diplopia presentato nel capitolo 1.

Figura 3.6: Esempio di disparità orizzontale e diplopia. [32]

Si ricorda che nell’analisi gli occhi sono stati arbitrariamente orientati parallelamente tra loro, come le camere ed i display. Da un punto di vista geometrico, qualora gli occhi dovessero convergere si dovrebbero ottenere disparità coerenti nelle aree circostanti il punto di fissazione, ma la zona di ‘stereo overlap’, ovvero di sovrapposizione stereoscopica tra l’immagine destra e sinistra, potrebbe essere comunque troppo piccola da permettere al cervello di fondere le due viste.

(37)

33

Caso 2: configurazione semi toed-in

Per aumentare l’ampiezza della zona di stereo overlap si possono ruotare le camere, come proposto da Ferrari in [17] e come avviene nei sistemi di ingrandimento stereoscopici. In questo caso, le camere vengono fatte convergere alla distanza di lavoro specifica, così da imitare la naturale convergenza oculare nel caso di distanze di lavoro ravvicinate. I display sono invece mantenuti in posizione parallela fissa al fine di poter utilizzare visori per realtà virtuale commerciali, dove i display sono appunto paralleli.

Figura 3.7: Configurazione semi toed-in; anche in questo caso il frustum di occhio e display sono coincidenti.

(38)

34 Figura 3.8: Griglie e mappe di disparità nella configurazione semi toed-in a 40, 50 e 60 cm.

La mappa di disparità nel caso di griglia posta a 50 cm non presenta disparità orizzontale sull’oggetto centrale, mentre per gli altri punti questa aumenta in maniera radiale, con un accentuarsi della

(39)

35 disparità verticale mano a mano che ci si allontana dal piano epipolare, ovvero dal piano contenente i centri di proiezione dei due occhi ed il punto di fissazione [19].

Grazie al verso delle frecce, orientate sempre dall’immagine sinistra all’immagine destra, si è inoltre in grado di affermare che la mappa di disparità a 40 cm rappresenta una disparità crociata, mentre quella a 60 cm rappresenta una disparità non crociata, il che concorda con quanto detto in precedenza poiché le due mappe si trovano rispettivamente all’interno e all’esterno dell’oroptero. Tornando nuovamente alla mappa di disparità a 50 m, essendo il punto centrale e disparità nulla si può asserire che questo giace sull’oroptero e viene pertanto preso come punto di riferimento per l’elaborazione della profondità percepita sulla base delle disparità degli altri punti della griglia e la conseguente ricostruzione dello spazio. Avendo ottenuto disparità nulla in corrispondenza del punto di fissazione, l’ipotesi che in questa configurazione gli occhi siano paralleli tra loro è plausibile. Di conseguenza, con questa configurazione delle camere e dei display, il comportamento dei muscoli oculomotori sarà diverso rispetto a quando si guarda ad occhio nudo un oggetto posto a 50 cm con gli occhi che naturalmente convergeranno.

Questa configurazione permette di ridurre la disparità orizzontale ed evitare la diplopia, ma non riproduce la naturale convergenza degli occhi. Viene inoltre introdotta una nuova distorsione in termini di disparità verticale. Tale disparità è legata all’ ‘effetto keystone’, ovvero la distorsione che un’immagine subisce quando viene proiettata su una superfice angolata: quello che nella realtà è un quadrato sul piano di proiezione viene percepito come un trapezio.

Figura 3.9: Possibili tipi di distorsione basati sull’effetto keystone.

Avendo posto la griglia rettangolare davanti al viso dell’utente, centrata rispetto alla distanza interoculare così che il centro della griglia sia equidistante dai centri di proiezione delle camere destra e sinistra, ed avendo reso convergenti le camere sul centro della griglia, la camera destra

(40)

36 acquisisce l’immagine di un rettangolo deformato, avente lo spigolo verticale destro più grande rispetto a quello sinistro; viceversa, nell’immagine acquisita dalla camera sinistra il rettangolo deformato avrà lo spigolo verticale sinistro più grande rispetto a quello destro. Le due acquisizioni vengono poi proiettate sui display tra loro paralleli che le presenta agli occhi dell’utente. Provando ad unire queste due immagini, simulando il processo che avviene a livello di corteccia visiva, è possibile notare il disallineamento verticale dei 4 vertici del rettangolo, ovvero la disparità verticale annunciata prima.

Figura 3.10: A causa della distorsione trapezoidale l’immagine destra e quella sinistra non vengono perfettamente sovrapposte, con la conseguente introduzione della disparità verticale, ben visibile ai 4 angoli dei rettangoli.

È importante sottolineare il fatto che la disparità verticale non sempre è negativa: nella vista ad occhio nudo infatti, quando la distanza del punto di fissazione è ravvicinata e gli occhi sono quindi in configurazione convergente, sono presenti dei disallineamenti tra le zone periferiche dell’immagine destra e dell’immagine sinistra che porteranno ad avere delle disparità verticali come si può vedere in figura 3.11 [45].

Figura 3.11: Disparità verticale nel caso di vista ad occhio nudo: quando gli occhi convergono sul centro della griglia, nelle zone periferiche di questa appare la componente verticale della disparità (immagine riadattata dall’articolo [45]).

(41)

37 Tuttavia queste disparità sono fisiologiche e si pensa che possano essere utilizzate dalla corteccia visiva come indizio per la ricostruzione della profondità [3, 45]. Se questa disparità è però eccessiva ed innaturale (e lo è sempre nel caso di occhi paralleli) può generare discomfort all’utente e deve pertanto essere corretta. Per questo motivo, nel cinema 3D è prevista l’eliminazione completa della disparità verticale utilizzando delle camere parallele. Qualora per qualche motivo rimanga disparità verticale (a causa di un non perfetto allineamento delle camere o di una asincronia tra i frame), in toto o su alcuni frame, sono state sviluppate tecniche per eliminarla via software.

(42)

38

Caso 3: configurazione toed-in reale

Nel suo articolo [44] Takagi ha dimostrato che l’unico modo per cui non si abbiano errori di percezione della profondità e distorsioni in fase di ricostruzione dello spazio è che anche l’asse ottico dei display sia coincidente con quello delle camere. Viene analizzata ora una configurazione in cui si applica la stessa rotazione alle camere ed ai display per mettere in evidenza quanto sia importante la scelta del punto di rotazione.

Figura 3.12: Configurazione toed-in reale; in questo caso non si ha più coincidenza tra i frustum di display ed occhi.

La rotazione in questo caso viene effettuata attorno ad un asse verticale passante per il centro dei display, che viene mantenuto in asse con l’occhio, come mostrato nella figura precedente. Si avrà quindi un disallineamento tra il centro di proiezione degli occhi ed il centro di proiezione delle camere.

(43)

39 Figura 3.13: Griglie e mappe di disparità nella configurazione toed-in reale a 40, 50 e 60 cm.

Anche in questo caso si ha disparità nulla sul punto di fissazione a 50 cm, il che avvalora la scelta di aver orientato gli occhi parallelamente tra loro.

(44)

40 In questo caso però, a differenza del precedente, tutti i punti della griglia risultano essere a disparità nulla. Come spiegato in precedenza, gli unici punti a disparità nulla sono quelli che giacciono sull’oroptero; l’aver ottenuto una mappa di disparità interamente nulla implica che l’oroptero non ha più una forma circolare, con concavità rivolta verso l’utente, ma è bensì diventato una retta. Questo è un fenomeno che avviene regolarmente, in quanto all’aumentare della distanza del punto di fissazione la concavità dell’oroptero si riduce gradualmente fino a diventare una retta, per poi assumere una forma convessa. Questo risultato è quindi perfettamente in linea con la scelta di aver orientato gli occhi parallelamente tra loro.

Come nei casi precedenti però, l’orientamento parallelo degli occhi si dovrebbe verificare per distanze ben maggiori rispetto ai 50 cm del caso in esame. In questa configurazione pertanto si avrà un comportamento dei muscoli oculo motori diverso rispetto a quello che si avrebbe nella vista ad occhio nudo.

Osservando le mappe di disparità a 40 e 60 cm si può notare che si ha l’eliminazione della disparità verticale, resta unicamente quella orizzontale. Ancora una volta, osservando l’orientamento delle frecce si nota la differenza tra disparità crociata (40 cm) e quella non crociata (60 cm), in linea con ciò che accadrebbe ad occhio nudo.

Questa configurazione di camere e display sembra perciò ottimale ai fini di fornire all’utente una vista stereoscopica ma non permette comunque di ottenere una corretta convergenza degli occhi. Questa potrebbe essere una causa di discomfort per l’utente ed inoltre fornisce un indizio errato sulla localizzazione spaziale del punto di fissazione nello spazio (anche la convergenza degli occhi è un indizio per la percezione della terza dimensione [3]).

Come illustrato nel paragrafo successivo, per ripristinare anche una naturale convergenza degli occhi sarebbe necessario ruotare i centri di proiezione di display e camere esattamente attorno al centro di proiezione dell’occhio.

(45)

41

Caso 4: configurazione toed-in ideale

Di seguito verrà analizzato cosa si ottiene quando si ruotano i centri di proiezione dei display e delle camere attorno al centro di proiezione dell’occhio. Si ricorda che siamo ancora in presenza di un sistema di specchi in grado di spostare il centro di proiezione delle camere e portarlo a coincidere con quello degli occhi. Tale configurazione dovrebbe ripristinare anche una naturale convergenza oculare.

Figura 3.14: Configurazione toed-in ideale; i frustum di occhi e display tornano ad essere coincidenti.

(46)

42 Figura 3.15: Griglie e mappe di disparità nella configurazione toed-in ideale a 40, 50 e 60 cm.

Le disparità ottenute sono identiche a quelle del caso 2, ovvero la configurazione semi toed-in (con la sola convergenza delle camere). In questo caso però gli occhi sono convergenti, al fine di ottenere la proiezione del punto di fissazione nel centro della fovea. Si noti che questa ipotesi è confermata dall’aver ottenuto disparità sul punto centrale della griglia per immagini a 50 cm.

Si può ora apprezzare quanto sia importante ottenere una corretta rotazione degli occhi per poter fornire al cervello informazioni coerenti ai fini della ricostruzione 3D dello spazio.

Nella configurazione semi toed-in (caso 2), se si prova a tracciare le rette congiungenti ciascun occhio con i punti proiettati sui rispettivi display, si scopre che le rette passanti per punti coincidenti sui due piani immagine si intersecano all’infinito, e non intercettano quindi il corrispettivo punto della griglia posta a 50 cm. Se invece si fa la stessa operazione con le immagini di questo caso

Riferimenti

Documenti correlati

Le pratiche agricole sono spesso generatrici di esternalità negative importanti, in termini di modificazioni paesaggistico-. ambientali e di rischi per la salute pubblica

In conclusione, i dati soggettivi raccolti durante questa esperienza dimostrano come l’utilizzo della Realtà Virtuale per il Public Speaking possa essere un valido

Anche per quanto riguarda la Realtà Virtuale, si sono potuti riscontrare degli utilizzi più o meno legati alla comunicazione o alla funzione della tecnologia, con la differenza

Questo problema potrebbe essere risolto implementando nei sistemi di realt` a aumentata, la capacit` a di determinare lo stato corrente del mondo reale, determinando di conseguenza

Some consid- erations follow on the geomatics tools and techniques now available to document the cultural heritage, with particular reference to the possibility of

Le stesse registrazioni verranno anche riprodotte nella Sala Bianca della Casa Del Suono, dalle 16 alle 18. tutti i sabati

 Consente la sovrapposizione di oggetti reali con oggetti virtuali (ologrammi)..  È possibile far interagire gli ologrammi con gli

Progetto “GAME - Gamification Adventures Make Experience” - Emilio Di Sipio, Funambola Sas Progetto “Formazione immersiva tramite realtà virtuale” - Simone De Santis, Kappaten Srl