Progettazione e sviluppo di un'interfaccia immersiva per la fruizione di beni culturali in ambienti virtuali

(1)

1

INDICE

INDICE ... 1 1 INTRODUZIONE ... 4 OBIETTIVI ... 4 MOTIVAZIONI E FILOSOFIA ... 5 AMBIENTI VIRTUALI ... 6

AMBIENTI VIRTUALI E CULTURAL HERITAGE ... 7

OUTLINE ... 12 2 STATO DELL’ARTE ... 14 Senso di presenza ... 14 Output ... 15 Input ... 16 Tracking ... 17

2.1SOLUZIONIETECNOLOGIEIMMERSIVE ... 18

Visione ... 18

Udito ... 19

Percezione tattile ... 20

2.2INTERAZIONE... 21

Definizione e scopi dell’interazione ... 21

Interazione naturale e mediata ... 23

Interazione naturale e NUI ... 23

Interazione mediata ... 24

Gaming ... 25

Interfacce cervello macchina ... 26

2.3STRUMENTIDIINTERAZIONE:INPUTETRACKING ... 28

Input devices ... 28

Pen and Tablet ... 29

Laser pointer ... 31 Wiimote ... 32 Razer Hydra ... 34 Gesture Recognition ... 34 Speech Recognition ... 36 Tracking ... 39

2.4INTERAZIONE:CATEGORIEEMETAFORE ... 42

Metafore di navigazione e movimento ... 42

Movimento generale ... 43

Movimento mirato ... 44

Movimento con traiettoria specificata ... 45

Selezione e manipolazione ... 46 Puntatore virtuale ... 47 Raycasting ... 47 Flashlight e Aperture ... 48 Image plane ... 49 Mano Virtuale ... 49 Mondo in miniatura ... 50

(2)

2

2.5USERINTERFACES ... 51

Design per l’utente ... 51

Sviluppo creativo ... 54 Usabilità... 55 Efficacia ... 55 Efficienza ... 56 Soddisfazione ... 57 Widgets... 59 3D User Interfaces ... 62 Breve storia ... 62 Dal 2D al 3D ... 64 3 ARCHITETTURA ... 68 PROBLEMATICHE ... 68 Occlusione... 68 Senso di Presenza ... 69 Posizione dell’Utente ... 69 Gradi di Libertà ... 69 STRUTTURA ... 70 STRUMENTI ... 73 XVR e librerie PerCro ... 73

Funzionalità utilizzate in ImmerseTools ... 74

Microsoft Visual Studio ... 76

DEMO: RICOSTRUZIONI VIRTUALI DI BENI CULTURALI ... 76

4 IMPLEMENTAZIONE ... 77 SCELTEDIIMPLEMENTAZIONE ... 77 Codice ... 77 Organizzazione ... 77 Vincoli hardware ... 78 Rendering ... 79 Classi ... 80

GUI tools: Menu ... 80

GUI tools: Slider ... 88

Navigation tools ... 89

Selection tools ... 94

5 RISULTATI ... 97

Demo 1: Storie della Vera Croce ... 97

Demo 2: Camposanto Monumentale ... 100

Test e risultati ... 103

Premessa ... 104

Struttura dell’user study ... 104

Risultati ... 106 6 CONCLUSIONI ... 109 RIEPILOGO ... 109 ILFUTURO ... 110 L’estetica ... 110 Il codice ... 111 I widget ... 111

(3)

3

Supporto hardware ... 112 BIBLIOGRAFIA ... 115

(4)

4

1 INTRODUZIONE

Obiettivi

Scopo di questo documento è illustrare il processo di analisi e sviluppo che ha portato alla realizzazione di ImmerseTools, un’interfaccia immersiva per l'interazione con ambienti virtuali finalizzati alla fruizione di beni culturali e progettati per il software XVR1_{: saranno illustrate le soluzioni tecnologiche}

adottate, nonché le scelte implementative. ImmerseTools offre una serie di

strumenti quali menu, slider2_{, e}

strumenti per la selezione e la navigazione in ambienti virtuali: tali strumenti sono comunemente detti widget, e una loro trattazione approfondita sarà fornita all’interno del capitolo successivo sullo stato dell’arte delle tecnologie immersive, nonché più avanti quando saranno approfondite architettura e implementazione

di ImmerseTools3_{. Inoltre si vogliono qui esplicare e discutere i risultati delle}

prove di utilizzo da parte di un gruppo di persone al fine di valutare quali delle diverse metodologie di interazione offerte siano risultate meglio fruibili: si utilizzeranno a tale scopo alcune metodologie di cui sarà data spiegazione.

1_{http://www.vrmedia.it/it/xvr.html}

2_{Uno slider è solitamente rappresentato con una barra orizzontale che indica l'intervallo dei valori} validi, e con un indicatore dal la duplice funzione: indicare il valore corrente e permettere all'utente di modificarlo.

3_{Vedi rispettivamente il Cap. 3 “Architettura” e il Cap. 4 “Implementazione”.}

(5)

5

La fase di analisi è consistita nella raccolta e nello studio della vasta documentazione dei lavori accademici in materia, al fine di tracciare una visione chiara dell’attuale stato dell’arte; da questa visione procede lo sviluppo pratico di cui mostreremo i dettagli in un capitolo dedicato. Per mostrare inoltre le potenzialità di ImmerseTools e procedere alle prove d’uso summenzionate, le sue funzionalità sono state integrate un due demo di ambienti virtuali:

 la prima ricostruisce fedelmente la cappella maggiore della basilica di San Francesco ad Arezzo. In questa sede è conservato il ciclo di affreschi de Le Storie della Vera Croce ad opera di Piero della Francesca, che sarà possibile esplorare interattivamente, ricevendo informazioni su ciascun affresco;

 la seconda ricostruzione consente di esplorare una ricostruzione del Camposanto Monumentale ed interagire con diversi elementi architettonici e pittorici contenuti al suo interno, tramite descrizioni testuali e fotografiche contestualizzate.

Una trattazione approfondita sugli aspetti relativi ad entrambe le ricostruzioni verrà fornita in un paragrafo dedicato all’interno del cap. 5.

Motivazioni e filosofia

Il progetto ImmerseTools nasce in seguito all’esperienza di lavoro con l’ambiente di sviluppo XVR in ambito universitario presso il laboratorio PerCro4_{, durante la quale ho avuto modo di constatare come le potenzialità di}

questo strumento si sarebbero potute incrementare, in particolar modo nell’ambito dell’interazione uomo-macchina. Da questa realizzazione è iniziato il lavoro per creare un’interfaccia ricca di strumenti e modulare, che vuole proporsi come plug-in per progetti di terze parti. Il laboratorio PerCro dell’Università Sant’Anna di Pisa infatti collabora con diversi istituti alla realizzazione di progetti nell’ambito dei Beni Culturali, per consentire la loro conservazione e fruizione grazie alle tecnologie informatiche. Volendo portare

4_{http://www.percro.org/}

(6)

6

il mio contributo a queste iniziative, ho realizzato ImmerseTools: uno strumento che consente di aggiungere una Graphic User Interface immersiva adattabile a qualsiasi progetto XVR in modo semplice, veloce e che elimina la necessità di sviluppare ad-hoc nuovi elementi d’interfaccia.

La filosofia dietro alle scelte qui discusse è quella di migliorare l’esperienza lavorativa per chi si occupa di progetti complessi nella ricostruzione digitale di Beni Culturali tramite XVR: consentire dunque, grazie ad ImmerseTools, un focus migliore sul proprio progetto.

Ambienti Virtuali

Al fine di facilitare al lettore la comprensione degli argomenti trattati, offriamo di seguito una trattazione sintetica ma esplicativa riguardo agli ambienti virtuali.

Il termine Realtà Virtuale nasce nel 1988, in un’intervista a Jaron Lanier, “A Portrait of the Young Visionary”:

“La VR è una tecnologia usata per sintetizzare una realtà condivisa. Ricrea la nostra relazione con il mondo fisico in un nuovo piano. Non influisce sul mondo soggettivo e non ha niente a che fare direttamente con ciò che è nel cervello. Ha a che fare solo con cosa i nostri organi sensoriali percepiscono. Nella VR non c’è bisogno di una singola metafora, come accade per il computer. Siamo abituati a cambiare contesto nella vita reale: è normale comportarsi diversamente in luoghi diversi.”

Realtà virtuale (in inglese virtual reality, abbreviato VR) è il termine utilizzato per indicare una realtà simulata. Uno strumento che permetta non tanto di ricreare la realtà nella sua interezza, quanto di simularne alcuni aspetti: in particolare quelli connessi al particolare compito che deve essere eseguito all'interno di uno specifico contesto.

Il fine della realtà virtuale non è quindi quello di ricostruire autenticamente la realtà, bensì di convincere l'utente di essere nella realtà, in modo che possa eseguire con naturalezza il task a lui assegnato.

(7)

7

Attualmente, anziché realtà virtuale, si preferisce utilizzare il termine ambienti virtuali. Anche se, a livello teorico, Un ambiente virtuale potrebbe essere costituito attraverso un sistema totalmente immersivo in cui tutti i sensi umani possono essere utilizzati (più specificamente realtà virtuale immersiva o RVI), attualmente il termine è applicato solitamente a qualsiasi tipo di simulazione virtuale creata attraverso l'uso del computer, dai videogiochi che vengono visualizzati su un normale schermo, alle applicazioni che richiedono l'uso degli appositi guanti muniti di sensori (wired gloves) e infine al World Wide Web.

L'avanzamento delle tecnologie informatiche permette oggi di navigare in ambientazioni fotorealistiche in tempo reale, interagendo con gli oggetti presenti in esse; proprio l’interazione è uno dei fattori che contribuiscono maggiormente alla sensazione di realismo, aumentando il coinvolgimento dell’individuo. Realizzare un’interfaccia tra l’ambiente e la persona, nonché deciderne aspetto e funzionalità offerte, si rivela quindi di estrema importanza perché tramite questa avviene l’interazione - come avremo modo di vedere in maggior dettaglio nei capitoli successivi.

Ambienti virtuali e Cultural Heritage

5

Se gli ambienti virtuali hanno conosciuto numerose applicazioni in ambito prettamente scientifico (come avremo modo di approfondire in seguito), il settore dei Beni Culturali non è rimasto indietro: il potenziale di questa tecnologia è stato infatti colto da svariati enti ed associazioni, che hanno capito come con questi mezzi fosse possibile arricchire le esperienze del proprio pubblico, stimolandone l’interesse in modi nuovi e coinvolgenti.

5_{Beni Culturali}

(8)

8

Immaginiamo, per esempio, di poter visitare un museo senza muoverci da casa: camminiamo per le sale, avvicinandoci alle opere per ammirarne i dettagli e la maestria dell’artista. Meglio ancora, facciamo un passo oltre e raccogliamo in un solo spazio virtuale opere fisicamente sparse per il mondo in diversi musei: è questo che ha fatto la biblioteca digitale Europeana con Museo del Futuro.

Nelle loro parole: <<Per chi non ha il tempo di viaggiare, per chi per motivi personali non può, per chi non ha voglia, ora si può visitare qualsiasi museo con le opere d’arte più famose al mondo direttamente e comodamente da casa tua. Inoltre sarà possibile realizzare il proprio museo personale e condividere con gli altri le proprie opere d’arte o tutte le opere d’arte preferite!>>

(9)

9

Possiamo pensare che la creazione di un intero museo virtuale sia impresa notevole, ed in effetti è così; ma c’è chi si è spinto ancora oltre, ed ha ricostruito in 3D un’intera città (1). Il Laboratory of Integrated Systems di San Paolo in Brasile ha infatti realizzato un vasto ambiente virtuale che rappresenta la città come appariva nel 1911, sia visivamente che sonoramente.

Il loro scopo era quello di esplorare diversi aspetti della “città vecchia”, quali la posizione degli edifici, il rapporto tra i diversi aspetti dell'economia e della politica, l'analisi di come l'architettura influenzasse le persone in tale contesto, ed infine un confronto degli edifici esistenti attuali con il loro aspetto nel 1911.

(10)

10

Anche in terra italiana non sono mancate le iniziative: ad agosto 2008 è stato presentato al SIGGRAPH (abbreviazione di Special Interest Group on GRAPHics and Interactive Techniques), ovvero la conferenza sulla grafica computerizzata (CG) organizzata annualmente negli Stati Uniti dall'ACM SIGGRAPH organization, il progetto Virtual Rome.

Tale progetto, coordinato e diretto da Maurizio Forte da Sofia Pescarin per il CNR e da Luigi Calori per il CINECA, ha come obiettivo lo studio e la ricostruzione del paesaggio antico di Roma e la sua visualizzazione attraverso strumenti di realtà virtuale dedicati ad Internet e basati su librerie Open Source.

Iniziative di questa natura vanno sotto il nome di Virtual Heritage, ovvero Patrimonio Culturale Virtuale, l’insieme di opere che applicano le tecnologie di informazione e comunicazione all’ambito dei beni culturali.

Patrimonio culturale e Virtual Heritage hanno dunque significati diversi, seppure afferenti allo stesso ambito: il primo definisce l’insieme di luoghi, monumenti, edifici ed oggetti “di valore storico, artistico, archeologico, scientifico, etnologico e antropologico” (definizione UNESCO) – mentre il

(11)

11

secondo si riferisce ad istanze di questi mediante visualizzazione digitale o ambienti virtuali.

Altra applicazione poco conosciuta della realtà virtuale all’ambito dei Beni Culturali è quella del Serious Gaming (2): si tratta di giochi realizzati a fini educativi e di apprendimento, oppure per arricchire l’esperienza di visita museale. Lo stato dell’arte dei serious game è identico a quello dell’intrattenimento videoludico. Di conseguenza, il campo dei serious games per i Beni Culturali si occupa dei recenti progressi in videogaming, computergrafica in tempo reale, realtà virtuale e aumentata, intelligenza artificiale. D'altra parte, i principali punti di forza dei serious games si possono generalmente riferire ai settori di comunicazione, espressione visiva delle informazioni, meccanismi di collaborazione, interazione e intrattenimento. I successi dei giochi che attraversano il confine diventando giochi educativi - o serious games, come ad esempio le popolari serie Civilization (pur se astratta e astorica) e Total War, così come i giochi e mondi virtuali che sono specificamente sviluppati per scopi educativi, come Virtual Egyptian Temple (3), che esistono tutti all'interno di un contesto culturale, rivelano il potenziale di queste tecnologie per coinvolgere e motivare al di là delle attività ricreative. I serious games possono esistere sotto forma di applicazioni mobili, semplici soluzioni web-based, “ibridi” più complessi (ad esempio combinazioni di applicazioni software social) o in forma di giochi per computer “adulti”, impiegando tecnologie moderne per creare mondi virtuali ed esperienze interattive che possono includere interazioni di natura sociale, così come giochi di “realtà mista” che combinano interazioni reali e virtuali: ognuno di essi può essere utilizzato in applicazioni per i Beni Culturali.

(12)

12

Valido esempio di Serious Game è il titolo per OSX e Windows “Global Conflicts: Palestine”: il giocatore assume il ruolo di un giornalista freelance che è appena arrivato a Gerusalemme e si trova subito ad affrontare delle sfide. L'obiettivo è quello di creare e un articolo ed ottenerne la pubblicazione per un giornale, facendo attenzione ai dialoghi che avvengono durante lo svolgersi degli eventi. Il giocatore può ottenere informazioni guadagnandosi la fiducia di entrambe le fazioni, oppure adottare un approccio più conflittuale. Alla fine, la storia più valida per la pubblicazione otterrà la migliore visibilità. Il giocatore deve stare attento al della presentazione per la stampa, perché influenzerà la propria immagine con entrambe le fazioni in lotta.

Il gioco tenta di sfidare le convinzioni e le idee del giocatore sul conflitto israelo-palestinese, inoltre è un valido supporto per uso didattico grazie a caratteristiche come un'enciclopedia, fonti primarie, la valutazione e un manuale per l'insegnante.

Outline

La realtà virtuale sta vivendo in questi anni una fase di notevoli progressi, principalmente grazie alla diffusione per le masse di tecnologie che, fino a poco tempo prima, avevano costi proibitivi. In questa corsa allo sviluppo è diventato ben presto evidente il bisogno di paradigmi di interazione e design; il primo passo è stato naturalmente ereditare i concetti consolidati dal mondo delle interfacce utente 2D, con risultati alterni. Molti concetti del 2D restano validi,

(13)

13

o si possono estendere con minimo sforzo al 3D, ma non sempre questo è vero. Per rispondere alle sfide che ci presenta l’interazione in ambienti virtuali (d’ora in poi abbreviato in AV), abbiamo innanzitutto approfondito le nostre conoscenze dello stato dell’arte in questo ambito, sia in ambito teorico che pratico.

Il Capitolo II “Stato dell’Arte” raccoglie numerose definizioni basilari per comprendere il funzionamento, i vincoli e le possibilità della realtà virtuale, nonché una serie di esempi e citazioni tratti da casi d’uso reali, dei quali si analizzano i punti di forza così come le debolezze.

Il Capitolo III “Architettura” presenta in dettaglio le problematiche che è stato necessario affrontare e risolvere per sviluppare la nostra soluzione, nonché le scelte che hanno dato forma all’architettura di quest’ultima. In questo capitolo si vuole guidare il lettore a comprendere il funzionamento del modellatore di mondi virtuali.

Il dettaglio programmativo di ImmerseTools è descritto nel capitolo IV “Implementazione”, con l’ausilio di estratti del codice commentati e spiegati passo per passo. In questo capitolo presentiamo inoltre la struttura del codice stesso, ovvero l’insieme di classi che si è scelto di realizzare – nonché le relazioni tra le stesse.

Il capitolo V “Risultati” descrive nel dettaglio gli strumenti utilizzati per verificare il funzionamento dell’interfaccia ImmerseTools, partendo da una trattazione approfondita delle demo di ambienti virtuali XVR che ho utilizzato per concludere con una disamina dei risultati ottenuti.

Una volta esaurita la presentazione del lavoro svolto nei suoi vari aspetti, a conclusione dell’opera presentiamo nel Capitolo VI “Futuro” alcune riflessioni su quelli che, in quanto frutto di compromessi necessari, sarebbe possibile migliorare. Funzionalità affinabili o del tutto assenti, interazioni dall’usabilità insufficiente, ecc. saranno descritti e accompagnati da riflessioni sulla risoluzione di ciascuno.

(14)

14

2 STATO DELL’ARTE

Senso di presenza

Nel 200 la ISPR, International Society for Presence Research, ha rilasciato una formalizzazione (4) del concetto di presenza:

“La presenza (versione abbreviata del termine "telepresenza") è uno stato psicologico o percezione soggettiva in cui, anche se una parte o la totalità delle esperienze in atto di un individuo viene generata da e/o filtrata attraverso la tecnologia dall'uomo, tutta o parte della percezione del singolo non riesce a riconoscere con precisione il ruolo della tecnologia nell’esperienza. Tranne che nei casi più estremi, l'individuo può indicare correttamente che lui/lei sta usando la tecnologia, ma ad un certo livello e una certa misura, i suoi/sue percezioni ignorano tale conoscenza e oggetti, eventi, enti, e gli ambienti sono percepiti come se la tecnologia non fosse stata coinvolta in questa esperienza. L'esperienza è definita come l'osservazione e/o interazione con oggetti, entità, e/o eventi della sua/suo ambiente da parte di una persona; percezione, il risultato di percepire, è definito come una significativa interpretazione di esperienza.”

La facoltà dell'utente di interagire all’interno di AV contribuisce ampiamente al suo senso di presenza, garantendo l’output atteso da parte del sistema in risposta agli input ricevuti, in special modo quando tale processo può svolgersi con naturale immediatezza.

(15)

15 Output

Ovvero i segnali che il sistema invia ai nostri cinque sensi

L’output visuale può essere fornito all’utente mediante varie configurazioni, con diversi livelli di dettaglio e sofisticazione. Si va dal sistema desktop costituito da un pc dotato di apparecchiature per la visualizzazione stereo, maggiormente indicato alla progettazione individuale, ai sistemi di tipo workbench, una sorta di tavolo retroproiettato per lo studio di modelli limitatamente a due o tre persone, in cui le immagini vengono riprodotte sul piano di lavoro trasparente, mediante uno specchio collocato al di sotto della superficie. Sistemi complessi CADWALL o CAVE costituiscono il livello più elevato con un grado di visualizzazione a maggior dettaglio la cui la fruizione è destinata ad un numero maggiore di persone.

(16)

16 Input

Ovvero come possiamo parlare al sistema

L’input dell’utente negli AV favorisce, rispetto a mouse e tastiera, strumenti più sofisticati e complessi che permettono un livello d’interazione più ampio e completo. Sebbene molti software consentano di visualizzare i modelli tridimensionali, esplorarli e modificarli mediante un mouse a tre tasti con alcune combinazioni da tastiera per ottenere una completa gamma di movimenti, questo tipo di interazione risulta ancora complicato e poco spontaneo. Come abbiamo visto, infatti, una delle caratteristiche della realtà virtuale è che l’utente sia costantemente inserito e immerso nella scena che sta osservando: pertanto il fatto di dover prestare attenzione agli strumenti – il mouse e la tastiera appunto – lo distoglie dalla visualizzazione. A tale scopo sono stati creati nuovi meccanismi che racchiudono in un unico oggetto tutte le possibilità di movimento - i cosiddetti gradi di libertà o degrees of freedom (DOF) - ed eventualmente altre funzionalità: è il caso di joystick, mouse 4-D, space ball. Tuttavia, anche se ampiamente utilizzati, questi congegni non sempre hanno dimostrato la loro validità quali strumenti d’interazione in generale, ma hanno espresso la loro efficacia in particolari applicazioni, quali sistemi CAD 3D e modellatori solidi, in cui la possibilità di poter utilizzare direttamente comandi e funzioni senza ricorrere all’uso della tastiera ha notevolmente velocizzato le operazioni. Un’ulteriore possibilità è data dall’utilizzo di più dispositivi comandati simultaneamente con due mani il che consente di estendere le limitate possibilità d’interazione e movimento, del mouse ad esempio, con altri strumenti complementari; ciò permettere di aumentare in applicazioni esclusivamente desktop i due gradi di liberta (2 DOF) disponibili, ovvero traslazione in X e in Y.

(17)

17 Tracking

Ovvero l’importanza della nostra posizione nello spazio 3D

Ulteriore e fondamentale requisito del mondo virtuale è che l’ambiente generato sia solidale con l’utente, reagisca e aggiorni di volta in volta il punto di vista dell’osservatore in base alla posizione della testa e dello sguardo. Sono pertanto necessari i sistemi di tracking o sensori wireless (costituiti da un elemento montato sugli occhiali stereoscopici e da un’interfaccia per agire sul modello, o wand), che consentono di determinare la posizione dell’utente, l’orientamento e il suo movimento. Queste particolari interfacce 6 DOF sono state realizzate per applicativi 3D e registrano continuamente le coordinate che rappresentano la posizione e l’orientamento dell’utente. In questo modo i movimenti della testa e del corpo sono recepiti ed inviati al computer che potrà così ricalcolare e riproporre la scena. Per ottenere un buon effetto e una corretta percezione del movimento è necessario che i cambiamenti vengano monitorati con una frequenza molto elevata.9 La maggior parte dei sistemi è di tipo magnetico, acustico o visivo. Nel primo e nel secondo caso il movimento viene percepito da una rete di sensori che permettono di calcolare lo spostamento dell’emitter dell’utente, mentre nel secondo caso il lavoro viene effettuato da delle vere e proprie telecamere o da sensori ad infrarosso. Un discorso a parte riguarda i cosiddetti haptic devices, dedicati a particolari attività che richiedono la percezione del senso tattile e della forza impressa ad un’azione o ad un movimento. Ma non solo: consentono di percepire sensazioni cinestetiche, ovvero relative alla percezione legata al movimento muscolare durante un’attività, e riconoscere la collisione con gli oggetti presenti nella simulazione, e ciò non consente allo strumento d’interazione virtuale di “penetrare” negli oggetti che sta manipolando.

(18)

18 2.1 SOLUZIONI E TECNOLOGIE IMMERSIVE

Lo scopo della realtà virtuale è quello di dare alla persona la sensazione di essere immerso in un ambiente tridimensionale, e per contribuire al realismo di questa impressione si agisce principalmente sulla percezione visiva dell’individuo, ma anche stimolando l’udito e il tatto. L’output visivo viene fornito principalmente tramite due tecnologie, ovvero i CAVE (5) e gli HMD.

Visione

CAVE è l’acronimo ricorsivo di Cave Automatic Virtual Environment, e descrive un ambiente sulle cui pareti vengono proiettate immagini; le superfici proiettate sono tipicamente quattro o cinque, ovvero tre o quattro pareti più il pavimento. È stato mostrato per la prima volta alla conferenza SIGGRAPH del 1992. Esistono soluzioni particolari che implementano una parete curva per offrire un effetto di maggiore immersione, ad esempio il 3D virtual laboratory Cave presso la Oulu University of Applied Sciences. Le immagini possono essere proiettate frontalmente oppure retroproiettate; in termini generali la retroproiezione produce immagini migliori, e risolve il problema dell’ombra creata dall’utente. Tuttavia essa richiede anche uno spazio maggiore, poiché i proiettori devono essere posizionati ad una certa distanza minima dietro i pannelli. La proiezione frontale consente di ottimizzare gli spazi, ma è meno resistente alla luce ambientale.

In alternativa all’uso di proiettori è possibile utilizzare schermi piatti ad alta risoluzione, una soluzione implementata nel CAVE2 alla University of Illinois di Chicago (UIC). L’effetto stereoscopico è garantito da appositi occhiali 3D: esattamente come nella visione umana naturale infatti, è necessario fornire agli occhi due immagini prospetticamente sfalsate che il cervello rielaborerà creando la sensazione di profondità. Gli occhiali operano in sincronia con il sistema di proiezione, che proietta alternativamente l’immagine per l’occhio destro e sinistro, occludendo la visuale in modo che a ciascun occhio arrivi l’immagine corretta. Per far sì che il continuo alternarsi di immagini

(19)

19

(flickering) non sia percepito dal cervello è necessario mantenere una frequenza di visualizzazione di almeno 120 Hz, ovvero 60 Hz per occhio. Al fine di mantenere la prospettiva corretta allo spostarsi dell’utente nel CAVE si fa uso di un sistema di motion tracking.

Un HMD ovvero Head Mounted Display, è un dispositivo da indossare sul capo e provvisto di un display singolo (HMD monoculare) oppure di uno per ciascun occhio della persona che lo usa (HMD binoculare); grazie all’uso di apposite lenti stereoscopiche la VR visualizzata appare tridimensionale,

garantendo la sensazione di presenza. Il campo visivo è isolato dall’ambiente circostante, tuttavia se l’HMD è provvisto di una videocamera si possono realizzare effetti di Realtà Aumentata, sovrapponendo elementi virtuali alle immagini reali. Alcuni HMD (es. Oculus Rift) sono provvisti di sensori che rilevano i movimenti della testa, consentendo quindi di “guardarsi attorno”; in alternativa, così come per gli spostamenti all’interno dell’ambiente virtuale, si utilizzano dispositivi di input (es. (6)), oppure si sfrutta il sistema di tracking fornito da un CAVE.

Udito

Per quanto concerne gli stimoli auditivi, le tecnologie audio per realtà virtuale (VR) sono attualmente in grado, mediante l’uso principi fisici o algoritmi procedurali, di generare la maggior parte dei fenomeni sonori del mondo reale. Di fatto, grazie alle capacità di calcolo della tecnologia in continua evoluzione, la ricerca ha cessato di concentrarsi su una singola modalità (ad esempio, la modalità visiva); si è quindi passati a studiare nuovi modi per elevare la sensazione di presenza, grazie a nuove tecnologie che possono offrire un alto grado di immersione (7). In (8) sono stati eseguiti alcuni esperimenti, allo scopo di caratterizzare l'influenza di qualità di suono, informazioni audio e localizzazione sonora sulla sensazione di presenza degli utenti. I suoni usati in questo studio sono stati principalmente rumori ambientali registrati

(20)

20

binauralmente, come passi, veicoli, porte, e così via. Si è riscontrato che due fattori in particolare hanno avuto un'alta correlazione positiva con presenza percepita: informazioni audio e localizzazione del suono. La ricerca descritta in precedenza implica che quando si progettano suoni per ambienti virtuali ci sono due considerazioni importanti da fare: i suoni devono essere informativi e consentire agli ascoltatori di immaginare la scena originale (o desiderata) naturalmente, e l’origine dei suoni dev’essere ben localizzabile dagli ascoltatori.

Un'altra linea di ricerca connessa si è interessata alla progettazione del suono stesso e alla sua relazione con il senso di presenza (9) (10). Affrontando il tema della percezione ambientale, in (9) si teorizza che le aspettative e la discriminazione siano due fattori possibilmente presenza correlati: aspettativa intesa come la misura in cui una persona si aspetta di sentire un suono specifico in un determinato luogo, e la discriminazione intesa come la misura in cui il suono aiuti ad identificare in modo univoco un determinato luogo. Il risultato dei loro studi ha suggerito che, quando uno stimolo visivo genera un certo tipo di aspettativa, uno stimolo sonoro che vada incontro a quest’ultima induce un più alto senso di presenza rispetto a quando vengono riprodotti stimoli sonori non corrispondenti con le aspettative. Questi risultati sono particolarmente interessanti per la progettazione di AV computazionalmente efficienti, poiché suggeriscono che devono essere riprodotti solo quei suoni che le persone si aspettano di sentire in un determinato ambiente.

Percezione tattile

Il feedback aptico, ovvero la sensazione tattile di interagire con un solido o un liquido, è molto importante all’interno della VR per contribuire al realismo della simulazione. Basti pensare al task di afferrare un oggetto: l’interfaccia può aiutare l’utente con un feedback visivo – cambiando colore dell’oggetto selezionato, visualizzando un marker - oppure con un feedback audio, ma l’interazione più naturale che ci si aspetterebbe è di tipo tattile. A tale scopo sono stati sviluppati diversi dispositivi6_{, tuttavia le loro dimensioni li rendono}

(21)

21

particolarmente inadatti all’uso in ambienti immersivi, in quanto limiterebbero la visuale dell’utente e la sua libertà di movimento. Per ovviare a tali difficoltà è possibile utilizzare dispositivi detti haptic gloves (guanti aptici), che forniscono force feedback (inserisci nota con spiegazione) tipicamente mediante vibrazione.

Un approccio alternativo alla vibrazione è stato messo a punto da un team di ricerca della Rice University, che ha sviluppato il progetto Hands Omni7_{; in questo}

caso il feedback è fornito dalla pressione di appositi cuscinetti ad aria inseriti nel guanto, che vengono gonfiati secondo necessità. Ciascun cuscinetto è operato indipendentemente e posizionato in corrispondenza della punta delle dita.

Kikuchi e Yamamoto (11) propongono l’utilizzo di muscoli artificiali in biometallo e di un materiale magnetoreologico, composto da particelle in scala micrometrica la cui proprietà è di solidificarsi in presenza di un campo magnetico.

2.2 INTERAZIONE

Definizione e scopi dell’interazione

Abbiamo accennato all’inizio del capitolo come all’interno di un AV sia fondamentale la presenza di due canali, ovvero input e output, per far sì che l’utente non sia mero spettatore di uno spettacolo che si svolge attorno a lui. Egli deve in altre parole essere in grado di interagire con il sistema, in uno scambio continuo di output ed input: la branca della scienza che studia questa

7_{http://oedk.rice.edu/Sys/PublicProfile/25532450/1063096}

(22)

22

problematica è detta Interazione Uomo Macchina (HCI – Human Computer Interaction). Come molti di noi sanno per esperienza personale, esistono svariati modi per comunicare con un computer, e i più tradizionali come mouse e tastiera sono ormai alla portata di tutti. Un gamer appassionato di videogiochi sarà sicuramente familiare con i joystick per PC e i joypad venduti assieme al console videoludiche come Playstation, Xbox, Wii, ecc. Nell’introduzione abbiamo tuttavia accennato all’esigenza degli AV di adottare soluzioni alternative ad-hoc, proprio allo scopo di facilitare l’interazione con l’ambiente in quelle particolari situazioni in cui mouse e tastiera non bastano più.

L'Association for Computing Machinery definisce l'interazione uomo-macchina come "una disciplina che riguarda la progettazione, la valutazione e l'implementazione di sistemi informatici interattivi per uso umano e lo studio dei fenomeni principali che li circondano". (12) Un aspetto importante della HCI è assicurare la soddisfazione degli utenti (End User Computing Satisfaction). "Poiché l'interazione uomo-computer studia un essere umano e una macchina in comunicazione, fa uso della conoscenza preesistente riguardo sia la macchina che il lato umano. Sul lato macchina, sono rilevanti tecniche di computer grafica, sistemi operativi, linguaggi di programmazione e ambienti di sviluppo. Dal punto di vista umano invece sono importanti teoria della comunicazione, discipline di progettazione grafica e industriale, linguistica, scienze sociali, psicologia cognitiva, psicologia sociale e fattori umani, così come la soddisfazione degli utenti di computer. E, naturalmente, i metodi di ingegneria e progettazione[...]" (12) A causa della natura multidisciplinare della HCI, persone con background differenti contribuiscono al suo successo. HCI è anche a volte indicata come Human Machine Interaction, Man Machine Interaction o Computer Human Interaction.

Interfacce uomo-macchina mal progettate possono portare a molti problemi imprevisti; esempio classico è l'incidente di Three Mile Island, un caso di fusione nucleare accidentale in cui le indagini hanno concluso che la progettazione dell'interfaccia uomo-macchina è stata almeno in parte responsabile del disastro. (13) Allo stesso modo, alcuni incidenti nel settore dell'aviazione sono stati causati dalle decisioni dei produttori di utilizzare

(23)

23

strumenti di volo non standard: anche se i nuovi modelli sono stati proposti come superiori per quanto riguarda l'interazione uomo-macchina di base, i piloti avevano già una conoscenza radicata del layout "standard", e quindi un’idea buona concettualmente in realtà ha avuto risultati indesiderati.

Interazione naturale e mediata

L’interazione dell’utente si differenzia in base al livello di naturalezza dell’azione necessaria ad ottenere il risultato desiderato. In tal senso possiamo individuare due categorie di approcci, ovvero interazione mediata e naturale, dove la prima ricorre a metafore più o meno afferenti alla realtà, mentre la seconda prevede che l’utente svolga il task desiderato agendo esattamente come farebbe nella realtà stessa.

Interazione naturale e NUI

Riguardo l’interazione naturale, Bill Buxton (14) di Microsoft sostiene che il vero cambiamento rivoluzionario non è tanto nella tecnologia in sé – per quanto sia più potente, veloce, e disponibile – quanto il dove, come, quando e quanto, e soprattutto da chi la tecnologia viene utilizzata. Siamo passati da pochi ricercatori in laboratori off limits, a programmatori di professione all’interno di aziende, ed infine a persone comuni che hanno a disposizione laptop e smartphones nella vita di ogni giorno. La tecnologia è diventato un elemento della quotidianità, sia nella forma di accessori portabili personali che come elementi statici urbani – pensiamo ai pannelli lcd informativi nelle stazioni ferroviarie, ai pc con internet in bar e hotels, ecc. Il nuovo fattore con cui la cui la tecnologia ormai ubiqua deve fare i conti è, appunto, la location – ovvero il dove sta avvenendo l’interazione, intendendo con questo anche il grado di vicinanza tra l’hardware e l’utente.

Il termine “naturale” è inteso come in grado di sfruttare le conoscenze che la persona ha già appreso naturalmente, nel corso della propria esistenza; ovvero in grado di minimizzare lo sforzo cognitivo necessario ad interagire con la tecnologia. Ad esempio uno smartphone con navigatore satellitare dovrebbe essere basato, secondo Buxton, interamente sull’input output vocale, in modo da distrarre il meno possibile dal task primario della guida. Lo stesso

(24)

24

smartphone che offre la navigazione GPS vocale, tuttavia, dev’essere in grado di offrire un diverso meccanismo di interazione se, ad esempio, l’utente è su un aereo e desidera consultare documentazione scientifica per il proprio lavoro.

La filosofia di naturalezza espressa da Buxton discende moralmente dai concetti già espressi nel 1997 da Andries van Dam nel suo “Post – WIMP User Interfaces” (15), dove l’autore affermava che <<L’obiettivo che ci impegniamo per raggiungere con le interfacce utente di oggi è minimizzare le meccaniche di manipolazione e la distanza cognitiva tra l’intento [dell’utente] e l’esecuzione di quell’intento […]>>. Van Dam analizza nel proprio articolo l’evoluzione delle interfacce a partire da quando ancora esse non esistevano e il software veniva realizzato tramite schede perforate, per arrivare alle tradizionali interfacce WIMP (windows icons menus and pointers) affermatesi a partire dagli anni ’70. Sostiene quindi che sarebbe necessario un ulteriore passo evolutivo, verso un’interazione tramite input vocale, gestualità e riconoscimento delle espressioni: questo nuovo paradigma dovrebbe essere guidato da un’intelligenza artificiale in grado – nella maggior parte dei casi – di prevedere le necessità dell’utente.

È interessante notare come più di 15 anni dopo dispositivi come Kinect e, più in generale, le tecnologie di motion capture siano effettivamente in grado di rilevare con buona accuratezza i movimenti di una persona – e tuttavia non si sono ancora affermate come standard di interazione, ma restano piuttosto parte di una nicchia di utenza più orientata ai settori del gaming e della ricerca. L’interpretazione dei gesti – comunemente detti gestures – rientra in ogni caso a pieno titolo nel campo dell’interazione mediata: è infatti richiesto uno sforzo cognitivo di associazione tra movimenti codificati e operazioni eseguite dal sistema. Tali movimenti infatti non hanno necessariamente una corrispondenza con la gestualità quotidiana degli individui; spesso anzi sono del tutto astratti, e pertanto riconducibili ad un qualche tipo di mediazione.

Interazione mediata

Un esempio pratico di interazione mediata è l’utilizzo di un sistema di menù che categorizzi e raccolga tutti i possibili task a disposizione dell’utente,

(25)

25

navigabile mediante i tasti direzionali: in questo caso la relazione con la realtà è praticamente assente, tuttavia bisogna considerare che non sempre la naturalezza è sinonimo di facilità di apprendimento, o di rapidità nello svolgimento dei task. In determinati casi – es. task particolarmente complessi – può essere preferibile offrire una mediazione che, per quanto poco “naturale”, risulti semplice ed immediata. In altre circostanze risulta difficile individuare un’interazione naturale, poiché il task stesso ha poca relazione con la realtà: ad esempio invertire i colori di un’immagine, impartire al sistema l’ordine di salvare il lavoro svolto, nascondere o eliminare un oggetto in una simulazione tridimensionale, ecc.

Ricordiamo infine che un vincolo sulla scelta del tipo di interazione è spesso posto dalla disponibilità o meno di uno o più determinati dispositivi, per ragioni concrete come tempistiche, budget ecc. – caso in cui diventa necessario adattare le proprie esigenze e scelte di sviluppo alla situazione reale. L’uso di un dispositivo – pur se disponibile - non definisce di per sé la realizzazione di un’interfaccia naturale: si limita ad offrire un’opportunità.

Gaming ovvero il mondo videoludico

I non addetti ai lavori potrebbero essere portati ad immaginare il mondo del gaming come ancorato ai classici mouse e tastiera su PC, o all’iconico joypad – più noto con il termine generico di controller – su console. Non è poi così vero: sono anni che i giochi arcade offrono pistole, fucili, persino riproduzioni di moto da corsa su cui piegare per affrontare le curve di un circuito. Personalmente ho avuto modo di vedere, già anni fa, un simulatore arcade in prima persona di Star Wars, dove il giocatore impersona uno Jedi armato di spada laser: è disponibile una riproduzione fisica dell’arma, e grazie a dei sensori davanti allo schermo si possono direzionare colpi e parate. Gli stessi giochi desktop offrono da tempo supporto a periferiche avanzate come volanti, leve del cambio e pedaline per le gare di auto. Non dimentichiamo infine il famoso joystick, che con tutti i suoi limiti resta molto valido quando usato nelle simulazioni di volo. Questa serie di esempi evidenzia anche come, in realtà, l’introduzione di uno o più dispositivi hardware per l’interazione non la qualifichi de facto come mediata.

(26)

26 Interfacce cervello macchina

Le interfacce cervello macchina interpretano direttamente i segnali nervosi generati dall’individuo, per tradurli in informazioni di vario tipo. Possono in particolare essere utilizzate per simulare il movimento o variare la direzione dello sguardo in un AV, ma anche per tradurre gli impulsi del cervello in input motori diretti a protesi avanzate nel caso di pazienti in fase di riabilitazione. Il passaggio diretto dal pensiero all’esecuzione è, se vogliamo, il tipo di interazione più naturale che esista, ovvero lo stesso meccanismo con il quale comandiamo il nostro corpo.

L'idea di utilizzare interfacce cervello macchina (Brain Computer Interfaces) per la riabilitazione è emersa relativamente di recente. (16) Fondamentalmente, la BCI per neuroriabilitazione comporta la registrazione e decodifica dei segnali cerebrali locali generati dal paziente, mentre lui tenta di eseguire un compito particolare (anche se in modo imperfetto), o durante la raffigurazione mentale di un’azione.

(27)

27

L'obiettivo principale è quello di promuovere il reclutamento di aree cerebrali selezionate coinvolte e facilitare la plasticità neurale.

Il segnale registrato può essere utilizzato in diversi modi:

 Per oggettivare e rafforzare il training motorio basato su immagini, fornendo feedback al paziente sul compito motorio immaginato, per esempio, in un ambiente virtuale;

 Per generare un compito motorio desiderato tramite stimolazione elettrica funzionale o ortesi robot riabilitativi collegati all'arto del paziente - favorendo e ottimizzando l'esecuzione dell'attività, così come '' chiudere '' il ciclo sensomotorio interrotto, dando al paziente il feedback sensoriale appropriato;

 Per capire le riorganizzazioni cerebrali dopo una lesione, al fine di influenzare o addirittura quantificare i cambiamenti indotti di plasticità nelle reti cerebrali. Ad esempio applicare una stimolazione cerebrale per riequilibrare lo sbilanciamento inter-emisferico - come dimostra la registrazione funzionale di attività cerebrale durante il movimento - può aiutare il recupero. L'utilità potenziale della BCI per una popolazione di pazienti è stata dimostrata su vari livelli e la sua diversificazione in applicazioni di interfaccia la rende adattabile ad una vasta popolazione.

(28)

28 2.3 STRUMENTI DI INTERAZIONE: INPUT E

TRACKING

Input devices

Nelle fasi della ricerca sulla VR si è fatto ricorso a diversi device, allo scopo di interagire con le interfacce più disparate; tali device hanno come requisito principale la capacità di fornire input a 6 gradi di libertà (3 per la rotazione e 3 per lo spostamento), e spesso offrono pulsanti dedicati per operazioni quali conferma e selezione. (17) ad esempio propone l’uso di un mouse 6d all’interno di un VE per la modellazione 3d, con il quale selezionare diverse opzioni da un toolbox sotto forma di finestra. Il mouse inoltre viene utilizzato sia per spostare gli oggetti creati che per alterarne la forma, afferrando e trascinando i loro vertici.

Citando (the Wiimote and beyond), un dispositivo spatially convenient offre le seguenti caratteristiche:

 Dati di posizionamento: fornisce dati di input 3D, anche se parziali, proni ad errore, o condizionati;

 Funzionalità: è provvisto di una varietà di sensori, emettitori, e strumenti d’interfaccia;

 Design pratico: è economico, durevole, facilmente configurabile, e robusto.

Negli ultimi anni si è assistito ad un fiorire di nuovi dispositivi a costi relativamente contenuti, che hanno reso molto più accessibile la ricerca e sperimentazione nel settore della VR; tuttavia sin dagli inizi si sono realizzati sistemi di input ad-hoc, che venissero incontro alle esigenze della VR– vediamone alcuni.

(29)

29 Pen and Tablet

Si indica con questa denominazione una tipologia di dispositivi in cui l’interazione prevede l’utilizzo asimmetrico delle due mani; la mano non dominante supporta un sostegno fisico sotto forma di tavoletta grafica con cui si interagisce con la mano dominante utilizzando un dispositivo avente le sembianze di uno stilo.

Il ruolo della mano non dominante non è soltanto quello di fornire un appoggio stabile alla mano dominante che interagisce con gli oggetti, ma anche quello di definire lo spazio di lavoro entro cui tale interazione può avvenire. Solitamente il tracking della

mano non dominante è più grossolano mentre quello della mano dominante, poiché incaricata di azioni che richiedono un'estrema precisione, è più accurato. Inoltre, il tracking della mano non dominante, proprio perché funge da riferimento, deve precedere quello della mano dominante. Con questo tipo di approccio la manipolazione mediata e quella diretta si avvicinano molto, in quanto la manipolazione diretta avviene grazie al tramite dal tablet e dallo stilo.

Un esempio di implementazione è stato presentato da con 3D Palette, un sistema per la creazione di scene virtuali che comprende una tavoletta grafica Wacom e uno stilo per interagirvi. Mediante la tavoletta è possibile sia creare gli oggetti, sia attivare dei widget che permettono si specificare proprietà degli oggetti creati. Per favorire la rapidità dell'interazione viene integrato anche un sistema di riconoscimento vocale.

(18) propone un invece un sistema pen and tablet in cui la tavoletta è rappresentata da un HARP (Haptic Augmented Reality Paddle) e vi si

(30)

30

interagisce non tramite un dispositivo stilo ma direttamente con l'indice della mano dominante, tracciato con un apposito sensore. Tale sistema prevede inoltre vari feedback aptici.

La naturale evoluzione del paradigma pen and tablet si è avuta con l’arrivo sul mercato degli smartphone: è diventato infatti possibile interagire con schermi touch un grado di visualizzare controlli virtuali di ogni tipo, e fornire informazioni nonché feedback testuale e di immagine. Tali schermi rendono non necessario l’uso dello stilo, sostituito dalle dita stesse dell’utente. Gli smartphone inoltre sono equipaggiati con sensori quali accelerometri, giroscopi e GPS, grazie ai quali il tracking è un’operazione relativamente semplice.

(19) presentano un sistema di modellazione CAD immersivo che utilizza il display touch di uno smartphone. Qui, oltre a sfruttare lo schermo touch del dispositivo per l'interazione con il sistema, se ne sfruttano appunto anche i sensori integrati come l'accelerometro e il magnetometro per catturarne posizione e orientamento.

In (20) viene presentato VR SketchUp, un ambiente di modellazione immersiva in cui si ricorre ai display touch di due smartphone; uno per la mano dominante, uno per quella non dominante. Quello per la mano dominante è customizzato con l’aggiunta di un hand-controller appositamente costruito con 3 pulsanti che servono per compiere le azioni fondamentali, valide per qualsiasi task. L'utente visualizza l'ambiente circostante mediante un HMD e testa e mani sono tracciati mediante sensori. Il display dello smartphone permette di gestire una grande quantità di comandi input e di feedback visuali pensati per tradizionali interazioni 1D o 2D, soprattutto per quanto riguarda gli input e output testuali.

I menu di navigazione sono attivabili toccando l'angolo in alto a sinistra dello schermo touch. Questi sono organizzati come menu radiali gerarchici che vengono visualizzati sia nel display dello smartphone, sia nell'ambiente virtuale, in modo che l'utente non sia costretto a guardare lo schermo e possa rimanere immerso nel suo ambiente. L'area che circonda il menu radiale è

(31)

31

suddivisa in quattro regioni a cui sono assegnate le voci del menu corrispondenti a quell'area. In questo modo l'utente ha un accesso facilitato. Il livello più alto del menu è mostrato nel display dominante, i livelli inferiori vengono mostrati nel display non dominante (e comunque anche nell'ambiente virtuale). I due controller servono non solo a gestire la gerarchia ma anche ad utilizzare le due mani contemporaneamente: per la selezione di un colore ad esempio la mano dominante controlla la luminosità, la mano non dominante la saturazione.

L'utente può inoltre interagire con gli oggetti a distanza indicando l'oggetto che vuole manipolare tramite uno dei pulsanti dell'HC. La manipolazione avviene interagendo con un widget chiamato APW (Action Plane Widget), costituito da un piano bidimensionale su cui giace l'oggetto selezionato e una normale che parte dal centro del piano. Quando si è in modalità manipolazione tra le due mani dell'utente viene generato un vettore virtuale che corrisponde alla normale del piano; i movimenti di tale vettore si rifletteranno in trasformazioni del piano e quindi dell'oggetto da manipolare

Laser pointer

Questo tipo di dispositivo utilizza un puntatore laser con 6 DOF provvisto di uno o più pulsanti integrati. Usare dispositivi simili per la manipolazione simbolica significa svolgere un task concettualmente bidimensionale in uno spazio tridimensionale. L’utente deve puntare il laser nel punto desiderato muovendo la bacchetta nello spazio 3D e solitamente premere un pulsante per attivare la selezione.

Utilizzando questo tipo di approccio, la manipolazione diretta avviene in realtà da remoto, ovvero non si interagisce con l'oggetto toccandolo fisicamente ma lo si fa a distanza per mezzo del laser. Per modellare un oggetto, questo deve per prima cosa essere selezionato mediante la penna; a questo punto la sua posizione ed orientamento vengono mappati al sistema di coordinate dell’oggetto selezionato: pertanto, a qualsiasi movimento della bacchetta, corrisponderà un movimento dell'oggetto stesso. Grazie ai 6DOF di cui è

(32)

32

dotato il dispositivo, l'oggetto potrà essere traslato, scalato o ruotato liberamente nello spazio 3D.

In [Deering 1996] si interagisce con l'ambiente mediante una bacchetta con 6DOF tenuta nella mano dominante, dotata di tre pulsanti. I widget sono organizzati in menu circolari gerarchici, menu invocati con la bacchetta sono di tipo world-fixed e compaiono centrati rispetto alla punta del dispositivo e leggermente dietro di esso, parallelamente al view plane. Tali menu possono prevedere voci per la creazione di oggetti, permettono quindi di selezionare il tipo di primitiva da inserire nell'ambiente virtuale, oppure voci che specificano il tipo di operazione da eseguire su un certo oggetto (copia e incolla).

[Zhang 2014] nel suo CAVECAD utilizza un sistema di interazione remota di tipo ibrido. La mano non dominante è tracciata mediante dei sensori ivi posizionati che vengono rilevati da una camera ad infrarossi. La mano dominante utilizza invece una bacchetta con alcuni pulsanti. I widget di interfaccia sono di tipo world-fixed e hanno le sembianze di menu a tendina. Per interagirvi sono previsti due tipi di azione: la prima consiste in un'interazione diretta in cui l'utente tocca l'elemento fluttuante che vuole selezionare. La seconda è basata sul riconoscimento di alcuni gesti che permettono di navigare nel menu a distanza.

Wiimote

Per quanto riguarda i dati di posizione, i tradizionali tracker hardware 3D offrono informazioni in sei gradi di libertà (DOF) in uno spazio monitorato con precisione relativamente buona. Al contrario, un Wiimote presenta tre assi di accelerazione in nessun particolare sistema di riferimento, con rilevamento ottico intermittente (il giroscopio Wii MotionPlus può aggiungere tre assi di cambiamento dell'orientamento, o velocità angolare). Anche se questo significa che i dati spaziali del Wiimote non mappano direttamente ad una posizione del mondo reale, il dispositivo può essere impiegato efficacemente in condizioni di uso vincolato. Per quanto riguarda la funzionalità, gli hardware 3D tradizionali potrebbero offrire alcuni pulsanti. Il Wiimote incorpora numerosi pulsanti di cui alcuni in una configurazione gamepad, un

(33)

33

grilletto, e dispone di altoparlante, LED programmabili, e feedback con vibrazione. Per quanto riguarda la progettazione dei prodotti, l'hardware 3D può richiedere laboriose installazioni e ambiente strumentazione e può risultare difficile lavorarvi. Il Wiimote è facile da installare, attivare e mantenere.

(34)

34 Razer Hydra

Sfrutta il campo magnetico debole generato da una base station per rilevare la posizione e l’orientamento di una coppia di controller, con una precisione riportata di 1mm e 1°: in tal modo è in grado di offrire sei gradi di libertà. Funzionalmente, ciascun controller è fornito di numerosi pulsanti, un grilletto, e uno stick analogico che funge anche da pulsante aggiuntivo. L’input è trasmesso via cavo, ma una versione wireless (STEM System) è disponibile in preordine. Essendo progettato come controller per videogiochi, Hydra offre buone caratteristiche d’uso ed installazione. Originariamente venduto in bundle con il gioco Portal 2, ha visto espandersi le proprie potenzialità con il rilascio dell’HMD Oculus Rift.

Gesture Recognition

La gesture recognition non rappresenta una tipologia di dispositivi, bensì un processo per cui i gesti realizzati dall'utente (dalla dite della sua mano, dalla sua mano, dalla sua testa, dal suo corpo e così via) vengono riconosciuti e interpretati dal sistema: a seconda della modalità questo processo sarà integrato con dei dispositivi di input (tipicamente two-handed) veri e propri, o in altri casi il dispositivo sarò del tutto assente. L’interazione prevede in questo caso l’uso di appositi sensori, in grado di acquisire ed interpretare correttamente le azioni che l’utente compie con il proprio corpo. Un’interfaccia di questo tipo è sostanzialmente invisibile: l’interfaccia stessa è un mondo dove l’utente può agire, e che cambia stato in risposta alle sue azioni (A. Dix, Human Computer Interface, Springer 2009). Si suppone che l’utente, posto dinanzi alla possibilità di agire allo stesso modo che nel mondo reale, non abbia difficoltà ad apprendere come ottenere i risultati desiderati. L’interazione di questo tipo, detta naturale, richiede inoltre che il feedback del sistema sia naturale anch’esso: stringere un oggetto virtuale in mano, ad esempio, dovrebbe ritornare una sensazione tattile realistica, in termini di consistenza e resistenza dell’oggetto stesso; un risultato per nulla semplice da ottenere con le tecnologie attuali.

(35)

35

In un ambiente immersivo l'utilizzo di questa tecnica può massimizzare la naturalezza dell'interazione. I gesti possono essere statici - nel caso in cui l'utente debba assumere una posizione statica preconfigurata (il sistema elabora un'immagine di quella posizione), o dinamici - nel caso in cui siano riconosciuti i gesti in modo continuo (il sistema elabora un video). Questa seconda categoria è senz'altro più difficile da gestire rispetto alla prima. Il tracking dell'utente può essere realizzato mediante due approcci:

• appearance based; l'utente è tracciato mediante appositi sensori posti sul suo dispositivo di input (sensori magnetici, data gloves, ecc.);

• vision based: l'utente è completamente libero da dispositivi di input e per il suo tracking si utilizzano tecniche image-based; l'utente viene ripreso da una telecamera e l'immagine acquisita viene elaborata in tempo reale con appositi algoritmi per identificare i gesti che egli compie. Per facilitare il riconoscimento dell'immagine i gesti permessi all'utente dovrebbero essere predefiniti. Tale approccio è sicuramente meno invasivo del primo ma è anche estremamente laborioso e costoso.

[Weissmann 1999] utilizza dei dataGlove che misurano gli angoli in 18 giunture della mano (due per ogni dito), uno per ogni angolo tra due dita vicine e uno per la rotazione del pollice. I gesti sono predefiniti, e per il loro riconoscimento si ricorre all'utilizzo di una rete neurale.

[Reifinger 2002] per riconoscere i gesti dell'utente utilizza un sistema ad infrarossi che prevede l'utilizzo di due sensori da posizionare sui pollici e sugli indici dell'utente che permettono di tracciare la posizione e l'orientamento di ogni dito. Il sistema è in grado di riconoscere sia gesti statici (mediante classificatori) che dinamici (mediante modelli statistici).

[Zhang 2014] in CAVECAD utilizza un sistema di gesture recognition basato su un algoritmo di pattern recognition (Hidden Markov Model) e supporta il riconoscimento di gesti dinamici. Il riconoscimento dei gesti è però supportato da una bacchetta dotata di un pulsante integrato.

(36)

36 Speech Recognition

La naturalezza dell'interazione può essere massimizzata con l'introduzione di un sistema di speech recognition. La nostra interazione con il mondo reale avviene infatti, non soltanto medianti azioni fisica ma anche attraverso il linguaggio naturale. Oltre ad aumentare la naturalezza dell'interazione, i comandi vocali permettono di lasciare libere le mani per svolgere simultaneamente altri task e di cercare/selezionare oggetti che sono fuori dal campo visivo dell'utente.

Per poter implementare una Voice User Interface (VUI) sono necessari: • un motore di Sintesi Vocale;

• un motore di Automatic Speech Recognition; • un modello di dialogo.

Il motore di sintesi vocale permette di creare un interlocutore virtuale che richieda all'utente l'input vocale. Le richieste di tale interlocutore possono essere pre-registrate oppure essere generate mediante un motore di Text to Speech (TTS). La prima soluzione può essere accettabile quando il numero dei prompts è ridotto; ma comunque non è una soluzione scalabile. Dato lo stato di evoluzione dei sistemi TTS, la seconda soluzione è oggi sicuramente più efficiente.

Il motore di ASR deve essere Speaker-Independent, deve essere quindi in grado di trascrivere i comandi vocali di qualsiasi utente.

Il modello di dialogo {uSEWARE dIALOG mODELING} descrive il comportamento dell'interfaccia vocale. Quando l'interlocutore virtuale richiede un certo input da parte dell'utente, accetterà una delle risposte previste dal modello, ad esempio:

VE: Quale oggetto vuoi selezionare? [cubo, sfera, cilindro, piramide, ecc.] Se l'utente risponde cubo, si proseguirà ad eseguire l'azione specificata nel modello (in questo caso la selezione di un cubo). Se invece l'utente rispondesse con un comando non previsto, l'interlocutore virtuale dovrà avvertire l'utente e in caso riformulare la domanda.

(37)

37

L'utilizzo di comandi vocali può diminuire la necessità di un'interfaccia grafica, ma se il modello di dialogo viene supportato da una visualizzazione grafica, l'interazione è senz'altro facilitata. Per quanto riguarda l'esempio citato, se la presentazione delle opzioni disponibili fosse esclusivamente dettata dall'interlocutore virtuale, l'utente dovrebbe fare uno sforzo di memoria, soprattutto se le scelte fossero molteplici, per ricordarsi quali sono tali opzioni. Se invece tale interazione viene supportata da un supplemento visivo l'utente sarà facilitato nella scelta. In questo caso sarebbe sufficiente un semplice widget 2D fluttuante nell'ambiente (v. posizione) che presenti icone 3D raffiguranti gli oggetti che è possibile selezionare. Un menu grafico potrebbe anche essere utile nel caso in cui il modello di dialogo preveda una certa gerarchia. Si pensi ad un'eventuale interfaccia vocale per task si manipolazione (simbolica) degli oggetti. Un primo prompt potrebbe chiedere quale trasformazione si desidera effettuare su un certo oggetto selezionato: traslazione, scaling o rotazione. Tale prompt potrebbe essere supportato da tre icone rappresentati le trasformazioni elencate. Una volta scelta la trasformazione, un secondo prompt potrebbe mostrare tre box, uno per ogni asse, nei quali dettare i valori desiderati. Questo permetterebbe all'utente di avere un istantaneo feedback visivo che gli permetterebbe di verificare se il motore di ASR ha ben compreso ciò che ha dettato.

Una delle prime interfacce vocali per un ambiente di modellazione virtuale è stata brevettata nel 1995 da Karlgren ([Karlgren 1995]). L'interfaccia sviluppata è chiamata DIVERSE e permette di selezionare e modellare oggetti dello spazio virtuale. Similmente [Bretan 1995], [McGlashan 1996], [Godéreaux 1996] e [Cerňak 2002] hanno affiancato un'interfaccia vocale ai classici widget per la manipolazione sia simbolica che diretta degli oggetti. Interfacce vocali sono state utilizzate anche per ambienti virtuali che non prevedono la modellazione. [Everett 1999] realizza un sistema per addestrare gli utenti ad evacuare da una nave da guerra in caso di emergenza. Il sistema prevedeva inizialmente un dispositivo hand-held e una tastiera con un numero di comandi ridotti che permettevano esclusivamente la navigazione dell'ambiente senza una reale interazione. L'introduzione di un'interfaccia

(38)

38

vocale ha facilitato l'utilizzo del sistema grazie ad un'interazione bidirezionale con feedback vocali.

A conclusione di questa carrellata su alcuni dei device più significativi, vediamo una loro classificazione per tipo di interazione, naturale o mediata.

Device Naturale Mediata Note Pen & Tablet ✘ ✓

Laser Pointer ✘ ✓

Wiimote ✓ ✓ Dipende dall’applicazione

specifica

Razer Hydra ✓ ✓ Dipende dall’applicazione

specifica Gesture recognition ✓ ✓ Dipende dall’applicazione specifica Speech recognition ✓ ✘

Come si può osservare, in alcuni casi la naturalezza non è legata al dispositivo stesso, quanto all’implementazione software. Il Wiimote, ad esempio, è provvisto di una serie di tasti che ne consentono l’utilizzo come joystick tradizionale, ma al tempo stesso i sensori di cui è provvisto permettono implementazioni naturali; per esempio è possibile simulare una partita di tennis dove il Wiimote rappresenta fedelmente il manico di una racchetta virtuale, compresi i movimenti necessari a giocare. Lo stesso discorso vale per l’Hydra, mentre riguardo alla gesture recognition l’argomento è leggermente più complesso seppur nelle stesse corde: è possibile da un lato che all’utente siano permesse gesture che riproducono 1:1 la realtà, come spostare oggetti col movimento della mano – e in questo caso l’interfaccia è naturale; dall’altro si può pensare di aumentare le potenzialità umane – ad esempio visualizzando un menu allo schiocco delle dita – realizzando quindi un’interfaccia mediata.

(39)

39 Tracking

Il tracking di posizione e orientamento è utilizzato in ambienti virtuali dove si necessita dell'orientamento e della posizione di un oggetto reale fisico, ad esempio per interagire direttamente con gli oggetti 3D renderizzati dal sistema. I tracker vengono utilizzati per misurare il movimento della testa o delle mani dell'utente, a volte di tutto il corpo o solo degli occhi. Grazie a questa informazione è quindi possibile calcolare la proiezione prospettica corretta, nonché gli input auditivi, in accordo con la posizione dell'utente.

Si può fare ricorso a diverse tecnologie per creare un dispositivo di localizzazione: esistono sistemi di tracking

 Magnetici  Meccanici  Ottici

 Acustici (ultrasuoni)

 tracker inerziali della testa ([1] e [2] (Real-time infrared tracking system for Virtual Environments)

Questi tipi di tracker possono essere montati su di un guanto o sul corpo, per fornire il tracking della mano di un utente o di qualche altra parte del suo corpo. Esistono anche sistemi di tracking in fase di sviluppo, che operano sulla base di pura elaborazione delle immagini: questi sistemi non richiedono alcun dispositivo che debba essere indossato dall’utente.

Nel caso di sensori magnetici ad esempio, un trasmettitore è posto sulla testa dell'utente in modo che quando la testa si muove, così faccia la posizione del trasmettitore. Un ricevitore rileva i segnali dal trasmettitore, che genera un campo magnetico a bassa frequenza. Il movimento della testa dell'utente viene campionato da una centralina elettronica, la quale utilizza un algoritmo per determinare la posizione e l'orientamento del ricevitore rispetto al trasmettitore.

Gli head tracker possono essere descritti da una serie di caratteristiche chiave utilizzabili per la valutazione ed il confronto dei sistemi; esse sono risoluzione,

(40)

40

precisione e tempi di risposta del sistema [3] (Real-time infrared tracking system for Virtual Environments).

• Risoluzione: misura la precisione con cui un sistema può individuare una posizione riportata. Viene misurata in termini di separazione pollice per pollice tra trasmettitore e ricevitore per la posizione, e in termini di gradi per l’orientamento.

• Precisione: il range all'interno del quale la posizione segnalata è corretta. È una funzione dell'errore di misurazione, e spesso è espressa in termini di errore statistico come radice della media del quadrato (RMS – Root mean square) in gradi per l’orientamento e RMS in pollici per la posizione.

• Reattività del sistema. Comprende:

o Frequenza di campionamento. La velocità con cui vengono letti i dati dai sensori, generalmente espressa in termini di frequenza. o Data rate. Il numero di posizioni calcolate al secondo,

generalmente espresso in termini di frequenza.

o Frequenza di aggiornamento. La velocità con cui il sistema segnala le coordinate della nuova posizione al computer host, di solito espressa come frequenza.

o Latenza, nota anche come lag. Il ritardo tra il movimento dell'oggetto tracciato e l’acquisizione della nuova posizione. Viene misurata in millisecondi.

Ogni tecnologia di tracking ha i suoi vantaggi e svantaggi. Per esempio con i sistemi meccanici o magnetici, l'utente deve essere collegato ad uno strumento di misura via cavo o con un collegamento meccanico, il che non è molto comodo, tuttavia i sistemi meccanici sono molto precisi e hanno bassa latenza. I sistemi di tracking magnetici e acustici soffrono di diverse fonti di distorsione. Un sistema di tracking ottico è in grado di lavorare velocemente su una vasta area ed è comodo da usare, ma è limitato dalla intensità delle sorgenti luminose e richiede una "line of sight" tra emettitore e ricevitore, ovvero l’assenza di ostacoli fisici. Sebbene i sistemi ottici precisi di alta qualità siano piuttosto costosi, è possibile realizzarne di semplici che soddisfino i requisiti di interazione tra l'utente e il VE.

(41)

41

L'interazione con i sistemi di visualizzazione immersivi (CAVE, HMD, ecc.) viene generalmente condotta tramite dispositivi dedicati come le wand, associati a sistemi di tracking per tradurne movimento e posizione in input. Questi dispositivi forniscono pulsanti tattili che possono essere utilizzati per attivare azioni specifiche o entrare e uscire da varie modalità di manipolazione. Nella maggior parte dei sistemi recenti, il tracking dei dispositivi di interazione è fornito tramite un sistema di tracking a infrarossi (IR), attraverso un risolutore commerciale di corpi rigidi che traduce posizioni reciproche predefinite di marcatori IR in posizioni e orientamenti all'interno dello spazio di monitoraggio.