2. AUGMENTED REALITY (AR)
2.1 La tecnologia AR
Termini come Realtà Virtuale (VR: Virtual Reality) e Cyberspazio sono divenuti, nel corso degli ultimi venti anni, molto popolari anche al di fuori delle comunità scientifiche. A questi termini, solitamente, è associata la possibilità tecnologica di immergersi in un mondo completamente sintetico generato da un computer. In un ambiente virtuale i nostri sensi sono controllati da un processore. Al contrario della tradizionale VR nella Realtà Aumentata (AR: Augmented Reality) il mondo reale non è completamente soppresso, ma anzi gioca un ruolo fondamentale. Piuttosto che immergere una persona all’interno di un ambiente completamente sintetico, l’AR si propone di integrare supplementi sintetici all’interno del reale permettendo all’utente di interagire direttamente su di esso.
Fig. 2.1 – Relazione tra Augmented Reality, Virtual Reality e real environment
La figura 2.2 mostra un esempio di applicazione di Realtà Aumentata. Si può vedere una stanza con un tavolo reale, un telefono reale accostati ad una lampada virtuale e a due sedie virtuali. Notare che gli oggetti sono combinati in 3D, cosicché la lampada virtuale copre il tavolo reale, ed il tavolo reale copre parte delle due sedie virtuali.
Fig. 2.2 - Risultato di applicazione AR
senso della vista, ma anzi, questo dovrebbe essere esteso agli altri sensi, ad esempio, ricorrendo all’udito. Facendo indossare all’utente delle cuffie equipaggiate con un microfono, si potrebbe aggiungere un suono sintetico ai suoni provenienti dall’ambiente reale e opportunamente modificati.
I vantaggi offerti dalla Realtà Aumentata consistono nella capacità di accrescere la percezione dell’ambiente reale e le possibilità di interagire con esso. Gli oggetti virtuali mostrano informazioni che l’utente non può rilevare direttamente con i suoi sensi, in altre parole “aumentano la realtà”.
Esistono due approcci fondamentali per realizzare applicazioni di Augmented Reality (figura 2.3): la prima consiste nel catturare l’ambiente circostante con una telecamera, aumentarlo con le informazioni che si vogliono aggiungere e rimandarlo all’utilizzatore attraverso un display; la seconda permette invece di proiettare i dati direttamente nell’ambiente circostante o su appositi schermi semitrasparenti, senza comunque ricorrere all’utilizzo di videocamere.
Fig. 2.3 – Principali tipologie di implementazione di un sistema AR
Le prestazioni di calcolo richieste dall’implementazione di questa tecnologia non sono elevate ed un personal computer di fascia media tra quelli in commercio possiede le caratteristiche necessarie. Qualora sia necessario realizzare un’applicazione in cui l’operatore abbia la necessità di muoversi è necessario ricorrere a pc portatili. In quest’ultimo caso gli aspetti da prendere in considerazione saranno principalmente costituiti dal peso e dalle dimensioni del notebook e dall’autonomia della batteria.
Per quanto riguarda la videocamera si può ricorrere anche a semplici webcam. Questo avviene per le ridotte dimensioni di tali dispositivi che li rende estremamente adatti ad essere fissati su un casco indossato dall’operatore. In tal modo il punto di vista della webcam e quello dell’utilizzatore risultano molto vicini permettendo un elevato grado di immersione. Per favorire questo fissaggio sono da preferire webcam di dimensioni ridotte e possibilmente aventi una forma regolare che ne permetta un facile ancoraggio. Le prestazioni della webcam che influiscono maggiormente nelle applicazioni di Realtà Aumentata sono: l’angolo del campo visivo e la risoluzione. Sono da
preferire dispositivi che presentino elevati valori di tali caratteristiche. Per quanto riguarda la risoluzione sono comunemente utilizzati dispositivi da 1.3 Mega Pixel, una risoluzione maggiore permetterebbe però di aumentare sensibilmente le prestazioni del sistema.
Gli hardware analizzati, sia il pc che la webcam sono molto diffusi e facili da reperire anche ad un costo relativamente basso. I dispositivi più caratteristici delle applicazioni di Realtà Aumentata, spesso mutuati dalla realtà virtuale, sono i displays ed i sistemi di tracking. I primi permettono di posizionare davanti agli occhi dell’osservatore l’immagine risultante dalla fusione tra reale e virtuale. I sistemi di tracking permettono di conoscere la posizione e l’orientamento di oggetti o dell’utilizzatore.
2.2 Displays
Gli Augmented Reality displays sono hardware che utilizzano un set di componenti ottici ed elettronici per generare immagini nella traiettoria visiva tra gli occhi dell’osservatore e l’oggetto fisico. La figura 2.4 mostra una classificazione dei vari dispositivi in funzione della posizione occupata rispetto all’osservatore e all’oggetto osservato.
Fig. 2.4 – Classificazione delle tipologie di displays
Gli attached displays, come i retinal displays, gli mounted displays e gli head-mounted projectors devono essere indossati dall’osservatore. Al contrario, alcuni display devono essere tenuti in mano dall’utilizzatore, ed infine altri sono completamente disconnessi dall’utilizzatore e dislocati nello spazio fisico intorno a lui. Naturalmente immagini dietro l’oggetto reale non possono essere prodotte da un dispositivo che è posizionato davanti all’oggetto reale e
immagini prodotte da un dispositivo posizionato dietro l’oggetto reale possono risultare parzialmente occluse.
2.2.1. Video mixing & optical combination
Come già detto al paragrafo 2.1 una basilare scelta progettuale nella realizzazione di un sistema AR è il come realizzare la combinazione tra reale e virtuale. Due tecnologie di fusione sono correntemente utilizzate:
video mixing;
optical combination.
Mentre la video mixing fonde flussi di registrazioni video con grafiche generate da computer e mostra il risultato su di un display, l’optical combination genera un’immagine su di uno schermo reale che è posizionato nel campo visivo dell’osservatore mentre questo guarda l’ambiente reale.
Per l’optical combination si ricorre a lenti, parzialmente trasparenti, cosicché l’utente può vedere direttamente il mondo reale, ma anche parzialmente riflettenti, cosicché l’utente vede le immagini proiettate sulle lenti stesse.
La video composizione può essere fatta in più modi. Un semplice modo può essere quello di utilizzare un chroma-keying, tecnica usata in molti effetti speciali. Il retro delle immagini grafiche del computer viene settato su di uno specifico colore, per esempio verde, che non è presente negli oggetti virtuali in uso. Quindi lo step di combinazione rimpiazza l’area verde con la corrispondente parte di video del mondo reale. Una più sofisticata composizione usa informazioni di profondità. Qualora il sistema sia in grado di attribuire informazioni di profondità ad ogni pixel per le immagini del mondo reale, si possono combinare immagini reali e virtuali attraverso una comparazione di profondità pixel a pixel. Questo permetterebbe ad un oggetto reale di coprire un oggetto virtuale e viceversa.
2.2.2. Head-Attached Displays
Gli head-attached displays richiedono che l’utilizzatore indossi il display direttamente sulla sua testa. In base alla tecnologia di generazione dell’immagine esistono tre tipologie di head-attached displays.
• Head-mounted displays: che usano piccoli display posizionati davanti agli occhi.
• Retinal displays: che utilizzano laser a bassa potenza per proiettare immagini direttamente all’interno della retina dell’occhio.
• Head-mounted projectors: che prevedono l’utilizzo di piccoli proiettori che proiettano le immagini sulle superfici dell’ambiente reale.
2.2.2.1 Head-Mounted Displays (HMDs)
Gli HMDs sono attualmente i dispositivi maggiormente utilizzati in applicazioni di AR. In base a come viene realizzata la combinazione tra reale e virtuale si possono distinguere due differenti tipologie di HMDs:
Video See-Through (VST) Optical See-Through (OST)
I primi sono basati su una combinazione di tipo video mixing, mentre i secondi applicano i principi dell’optical combination.
2.2.2.1.1. Video See-Through (VST)
Un Video See-Through lavora attraverso un closed-view HMD con una o due videocamere montate sulla testa. Il video proveniente da queste telecamere è combinato con immagini grafiche create da un generatore di scene. Un video compositore mescola il flusso video dell’ambiente reale con le immagini grafiche create ed invia il risultato al monitor posto davanti agli occhi dell’utilizzatore nel closed-view HMD.
Fig. 2.5 – HMD Video See-Through, esemplare e schema di funzionamento
2.2.2.1.2. Optical See-Through (OST)
I dispositivi OST utilizzano un divisore di fascio ottico (beam splitter), costituito da uno specchio translucido che contemporaneamente riflette la luce in una direzione e la trasmette nell'altra. Posizionato davanti all'occhio dell'utente, il divisore di fascio può riflettere l'immagine di un display e porla nella visuale dell'utente permettendo contemporaneamente il passaggio della luce
proveniente dal mondo circostante. Se sono disponibili due sistemi ottici di visualizzazione, uno per ciascun occhio, allora si parla di visori stereoscopici.
Fig. 2.6 – HMD Optical See-Through, esemplare e schema di funzionamento
Alcuni svantaggi possono essere rilevati nell’utilizzazione degli HMDs come dispositivi in applicazioni di AR. La maggior parte di questi svantaggi sono riconducibili alle limitazioni generali della tecnologia degli head-attached displays:
- Limitata risoluzione dovuta all’utilizzo di display molto piccoli. Nel caso degli OST soltanto le sovrapposizioni soffrono per la bassa risoluzione, mentre l’ambiente reale può essere percepito con la risoluzione del sistema visivo umano. Per i dispositivi VST, d’altra parte, sia l’ambiente reale che le sovrapposizioni sono percepite con la risoluzione della sorgente video o del display.
- Limitazioni del campo visivo dovute alla presenza dei dispositivi davanti agli occhi. - Fastidio dovuto al peso ed all’ancoraggio del dispositivo alla testa dell’osservatore.
- Problemi di percezione visiva causati dalla profondità costante dell’immagine. Per un OST tra gli oggetti dell’ambiente reale e quelli sovrapposti esiste una differenza di profondità e gli occhi sono costretti a spostare continuamente il fuoco tra i due livelli. Questo è conosciuto come ‘problema della distanza focale fissa’. In un VST questo fenomeno è meno sentito poiché esiste un solo piano focale, quello dell’immagine.
- I dispositivi OST presentano una calibrazione difficoltosa e necessitano di un preciso tracking della testa dell’osservatore per posizionare correttamente le sovrapposizioni. Nei VST questo aspetto è molto meno sentito a fronte però di un non trascurabile ritardo dell’immagine causato dai tempi di elaborazione.
- Solitamente i sistemi OST non hanno la capacità di gestire le occlusioni da parte di oggetti reali su oggetti virtuali e viceversa.
2.2.2.2 Retinal Displays (RDs)
Questi tipi di display utilizzano laser a semiconduttori a bassa potenza per proiettare le immagini direttamente nella retina dell’occhio umano.
Fig. 2.7 – HMD Retinal Displays, esemplare e schema di funzionamento
L’immagine risulta più luminosa, più definita e con un campo visivo maggiore rispetto alle tecnologie basate sull’utilizzo di schermi. Attualmente tale tecnologia presenta i seguenti svantaggi:
- immagini monocromatiche;
- non si ha il senso della messa a fuoco, dal momento che si effettua un bypass del sistema motorio di regolazione dell'occhio attraverso una scansione direttamente sulla retina con la conseguenza che la lunghezza focale risulta fissa;
- attualmente non esistono versioni stereoscopiche di RDs. Al contrario i principali vantaggi di questi dispositivi sono: - luminosità;
- contrasto;
- basso consumo energetico.
Proprio queste caratteristiche rendono tali sistemi i più adatti per applicazioni mobili in spazi all’aperto dove non si può avere un controllo preciso sulla luce ambientale e dove il consumo energetico gioca un ruolo fondamentale. Le future generazioni di questi dispositivi potrebbero provvedere ad una messa a fuoco dinamica e a generare immagini stereoscopiche a colori con un’altissima risoluzione ed un esteso campo visivo.
2.2.2.3 Head-Mounted Projectors (HMPs)
Questi dispositivi indirizzano il fascio di luce proiettata con un divisore di fascio ottico, così che l'immagine sia diretta verso superfici retroriflettenti, collocate di fronte all'utente.
Una superficie retroriflettente è costituita da migliaia di piccoli grani. Dato che ogni grano ha la proprietà ottica di riflettere la luce lungo la sua direzione di incidenza, tali superfici permettono immagini più chiare delle normali superfici che diffondono la luce.
Fig. 2.8 – HMD Retinal Projectors, esemplare e schema di funzionamento
Gli HMPs forniscono un campo visivo maggiore rispetto agli HMDs senza l’applicazione di lenti addizionali che introducano distorsioni. Questi evitano anche distorsioni dovute ad errori di parallasse causati dalla inter-pupil distance (IPD), inconveniente presente nell’utilizzo di dispositivi HMDs indossati in modo errato. D’altro canto gli HMPs hanno i seguenti svantaggi:
- i proiettori miniaturizzati utilizzati offrono una limitata risoluzione e luminosità;
- la luminosità delle immagini dipende notevolmente dall’illuminazione dell’ambiente circostante;
- gli attuali modelli HMPs sono ingombranti e scomodi, inoltre risultano troppo pesanti per poter essere utilizzati per lungo tempo.
2.2.3 Hand-Held Displays (HHDs)
I comuni PDA ed i cellulari di ultima generazione rappresentano tipici esempi di hand-held displays.
Fig. 2.9 – Esempi di Hand-Held Displays
Questi inglobano processore, memoria, display, e tecnologia di interazione all’interno di un unico dispositivo. Offrono inoltre la possibilità di trasmettere dati tramite tecniche wireless rendendo l’oggetto estremamente adatto ad applicazioni in cui sia richiesta una notevole mobilità dell’osservatore. L’approccio più utilizzato per questi dispositivi è quello Video See-Through. La videocamera integrata cattura il flusso video dell’ambiente che viene arricchito dalle grafiche previste e quindi visualizzato sul display.
Dispositivi hand-held basati su tecnologia Optical See-Through sono comunque stati realizzati e contengono gli stessi componenti dei già visti HMDs da cui li distingue soltanto il design studiato per essere tenuti in mano (figura 2.10).
I principali vantaggi delle apparecchiature HHDs sono rappresentati dalla semplicità d’uso, dalla relativa compattezza ma soprattutto dalla loro limitata invasività. Questi dispositivi possono
essere impugnati quando se ne ha bisogno e messi giù quando non sono necessari. Inoltre l’estrema diffusione dei cellulari e dei palmari rende tale tecnica la maggior candidata per un uso della AR nella vita quotidiana.
Fig. 2.10 - HHDs OST
Di contro i principali svantaggi di questo tipo di dispositivi sono i seguenti:
- l’analisi dell’immagine ed il rendering delle grafiche sovrimpresse richiedono grandi capacità di calcolo. Questo aspetto può mettere in difficoltà i sistemi come palmari e cellulari, dando luogo a eccessivi ritardi nell’immagine o a grafiche di bassa qualità.
- La piccola dimensione dello schermo della maggior parte di questi strumenti offre un ristretto campo visivo. È però da considerare che, muovere il dispositivo in uno spazio molto più grande del display genera il così detto “effetto Parks”, secondo il quale muovere la scena rispetto ad un display fisso non è lo stesso che muovere il display su un ambiente fisso. Questo perchè l’immagine visualizzata permane sulla retina dell’operatore, dando l’impressione che il display sia più grande di quello che effettivamente è.
- I sensori video integrati nei comuni sistemi portatili sono progettati per scopi differenti, di conseguenza offrono limitate prestazioni nei processi di elaborazione video. Di solito tali
videocamere non sono dotate di auto-focus, per cui il campo in cui si ha il loro funzionamento ottimale è limitato.
- A differenza degli head-attached displays, gli hand-held displays non lasciano le mani libere all’utilizzatore.
2.2.4. Spatial Displays
Al contrario dei dispositivi indossati dall’osservatore (head-attached o hand-held), gli spatial displays distaccano la tecnologia dall’utilizzatore e la integrano nell’ambiente circostante. Al momento esistono tre differenti approcci per aumentare la realtà circostante:
Screen-Based Video See-Through Displays. Spatial Optical See-Through Displays. Projection-Based Spatial Displays.
2.2.4.1 Screen-Based Video See-Through Displays
La screen-based Augmented Reality è talvolta definita come “ finestra sul mondo”. Tali sistemi trasmettono le immagini arricchite dalle informazioni necessarie su di un comune monitor per pc.
Fig. 2.11 – Screen-Based Video See-Through Displays
Questa tecnologia offre un basso grado di immersione nell’ambiente aumentato. Generalmente nelle applicazioni di AR il grado di immersione è paragonato alla dimensione del campo visivo dell’osservatore che può essere utilizzato per sovrimporvi grafiche. Nel caso di screen-based AR, il campo visivo è limitato dalle dimensione del monitor e dalla distanza rispetto all’osservatore.
- ristretto campo visivo dovuto alla relativamente piccole dimensioni del monitor;
- limitata risoluzione delle immagini create. In particolar modo risulta limitata anche la qualità dell’ambiente reale, aspetto tipico di tutti i sistemi basati su tecnologia Video See-Through.
2.2.4.2 Spatial Optical See-Through Displays
Differentemente dai display head-attached, o hand-held, optical see-through, questo tipo di display ricorre a separatori di fascio piani o curvi o a schermi trasparenti che permettono di combinare nello spazio l'immagine reale con le immagini artificiali.
Fig. 2.12 - Spatial Optical See-Through Displays
Questi, in generale, permettono risoluzioni dell'immagine più alte, un maggior campo visivo, una calibrazione più semplice da realizzare e più stabile. Permettono inoltre di avere una migliore visibilità dell'ambiente circostante.
Presentano però i seguenti svantaggi:
- non sono utilizzabili in applicazioni mobili a causa dell'utilizzo di ottiche allineate nello spazio;
- il numero di utenti che possono utilizzare contemporaneamente il sistema dipende dalle ottiche utilizzate;
- così come avviene per gli Optical See-Through HMDs, non si riesce a realizzare una mutua occlusione tra ambiente reale e virtuale;
- a causa della limitatezza degli schermi e dei combinatori ottici, gli oggetti virtuali esterni all'area del display sono tagliati in maniera innaturale.
2.2.4.3 Projection-Based Spatial Displays
I Projection-Based Spatial Displays proiettano le immagini direttamente sulle superfici degli oggetti fisici anziché proiettarla su di un display posto tra gli occhi dell’osservatore e l’oggetto reale.
Fig. 2.13 - Projection-Based Spatial Displays
Possono essere utilizzati singoli proiettori fissi o controllabili elettronicamente, oppure proiettori multipli utilizzati per aumentare l'area proiettabile.
Questi sistemi permettono di eliminare alcuni inconvenienti tipici dei sistemi HMDs offrendo: - una migliore ergonomicità;
- un campo visivo teoricamente infinito;
- più semplice adattamento da parte dell’occhio. D’altra parte non mancano gli svantaggi:
- interferenza delle ombre, proiettate dall’utente e dagli oggetti fisici presenti nell'ambiente circostante;
- i proiettori convenzionali sono settati su di un singolo piano focale posizionato ad una distanza fissa. Proiettare immagini su di una superficie curva può generare immagini confuse;
- la complessità dell'allineamento geometrico e della calibrazione del colore aumenta con il numero di proiettori utilizzati.
2.3 Sistemi di tracking
Una componente fondamentale dei sistemi AR è il sistema di tracking. Per poter orientare l'immagine sovrimposta in base alla posizione dell'osservatore è necessario conoscere la posizione della testa e il suo orientamento nello spazio. Qualora il sistema fornisca tutte queste informazioni si parla di sistemi di tracking a 6 gradi di libertà, si possono comunque avere anche sistemi di tracking a 3 gradi di libertà e cioè che forniscono informazioni soltanto sull’orientamento della testa o sulla sua posizione nello spazio. Per determinare queste informazioni si usano in genere sensori, posti su oggetti in movimento, e punti di riferimento. Usando ultrasuoni, sistemi ottici o elettromagnetici è possibile determinare le posizioni relative tra il punto di riferimento ed i sensori mobili. In particolare usando sistemi ibridi è possibile aumentare di molto la precisione della misura fino ad arrivare nei sistemi più sofisticati a precisioni di millimetri.
Per sistemi all’aperto è necessario usare il sistema di geo-localizzazione GPS nella sua versione più accurata. Il GPS ha però un intrinseco limite nell'accuratezza della misura per cui è necessario utilizzare accelerometri e giroscopi per incrementare l'accuratezza della rilevazione, realizzando quindi un sistema ibrido.
I principali parametri che caratterizzano un sistema di tracking sono:
Latenza: è il ritardo tra il cambiamento di posizione e di orientamento del target e l’istante in cui arrivano al computer le informazioni di avvenuto cambiamento. Se la latenza è superiore a 50 millisecondi allora tale ritardo verrà notato dall’utente causando nausea e vertigini.
Frequenza di aggiornamento: è la frequenza con cui il sistema di tracking fornisce le informazioni al sistema e varia tipicamente fra i 30 e i 60 aggiornamenti al secondo.
Precisione: in genere diminuisce più l’utente si trova distante dal punto di riferimento fisso. Interferenza: possibilità che elementi esterni influiscano sulla precisione della misurazione. Range di utilizzo (portata): volume di lavoro in cui il sistema di tracking può essere utilizzato. Si riporta di seguito una panoramica delle varie tipologie di sistemi di tracking presenti sul mercato. La prima suddivisione che viene fatta è tra i sistemi head tracker, che si propongono di rilevare soltanto l’orientamento della testa dell’operatore, ed i sistemi motion tracker, progettati per seguire la posizione dell’utilizzatore all’interno di un area osservabile. Come già detto queste due tipologie di tracking system possono essere utilizzate contemporaneamente creando così un sistema ibrido.
2.3.1 Head Tracker
Questo tipo di tracking system si è sviluppato nelle applicazioni di Realtà Virtuale dove, conoscendo l’orientamento della testa dell’osservatore, il computer provvede a creare l’ambiente circostante con il giusto punto di vista. Con la nascita della Augmented Reality si sono mutuati questi dispositivi impiegandoli in varie applicazioni. La differenza sostanziale con il compito originario per il quale erano stati progettati è che, nel caso della Realtà Aumentata, l’informazione in uscita da queste periferiche è utilizzata per creare, con il corretto punto di vista, soltanto alcuni oggetti virtuali e non l’intero ambiente sintetico circostante come avveniva nelle applicazioni di Realtà Virtuale.
2.3.1.1 Tracker Meccanici
Questi tracker legano fisicamente l’utente alla macchina mediante un braccio snodato nelle cui giunture sono presenti dei sensori, di solito resistenze variabili, che rilevano gli spostamenti. Sono ingombranti e scomodi da usare ma permettono un’elevata velocità operativa. La loro applicazione è confinata a sistemi di teleoperazione e guida a distanza, come ad esempio il controllo di un braccio meccanico di un robot. Pur essendo accurata questa
tipologia di sensori presenta come svantaggi il ristretto volume operativo ed il fatto di ostacolare i movimenti dell’utente.
Fig. 2.14 - Tracker meccanico
2.3.1.2 Tracker Inerziali
I tracker inerziali permettono all’utente di muoversi all’interno di un ampio volume di lavoro. Si basano sul principio della conservazione del momento angolare. Dei piccoli giroscopi, dotati di resistenza nota al cambiamento, permettono di misurare il rollio, il beccheggio e l’imbardata. Fra le caratteristiche più importanti di questo sistema ricordiamo l’immunità da qualsiasi sorgente di tipo magnetico, le dimensioni estremamente contenute, la bassa latenza ed i modesti requisiti di sistema richiesti. Il loro punto debole è dato dal fatto che
Fig. 2.15 - Tracker inerziale
sono molto sensibili alle vibrazioni e che permettono di individuare soltanto l’orientamento e non la posizione. Così, se è necessario misurare anche la posizione, occorre utilizzare un'altra tipologia di tracker. È per questo motivo che i tracker inerziali sono spesso utilizzati solo in sistemi ibridi.
2.3.1.3 Tracker Ottici
La tecnologia ottica è utilizzata sia negli head tracker che nei motion tracker. Per quanto riguarda la valutazione dell’orientamento della testa consistono in algoritmi capaci di rilevare in un flusso video proveniente da una telecamera, allineata agli occhi dell’osservatore, alcuni riferimenti denominati marker (figura 2.16) che possono essere fissi o in movimento. L’inseguimento di questi marker è chiamato pattern recognition. Calcolando la distanza di questi riferimenti ed il loro orientamento l’algoritmo è in grado di determinare la posizione relativa tra testa dell’osservatore e marker permettendo così al calcolatore di
collocare nel modo opportuno gli oggetti virtuali da sovrimporre al flusso video.
Fig. 2.16 - Marker per il tracking ottico
2.3.2 Motion Tracker
Questa tipologia di tracker è utilizzata per individuare la posizione dell’utilizzatore all’interno di un’area osservabile. Per determinare queste informazioni si usano sensori posti su oggetti in movimento, e punti di riferimento fissi. Usando ultrasuoni, sistemi ottici o elettromagnetici si determina la posizione relativa tra punto di riferimento e sensori mobili.
2.3.2.1 Tracker Ultrasonici
I tracker ultrasonici sfruttano la propagazione delle onde sonore. Si basano sulla rilevazione della riflessione delle onde e della deviazione che queste subiscono quando un oggetto si muove al loro interno. Principio di funzionamento simile a quello utilizzato nei sonar. Le periferiche di tracking ultrasoniche consistono di una sorgente costituita da tre emettitori
di onde radio ad alta frequenza disposte in una rigida composizione e da tre ricevitori posti sull’utente anch’essi disposti in una rigida composizione.
Ci sono essenzialmente due modi di calcolare la posizione e l’orientamento utilizzando i tracker acustici. Il primo, chiamato coerenza di fase, effettua le misure calcolando le differenze di fase tra le onde
Fig. 2.17 – Schema di funzionamento di tracker ad ultrasuoni
sonore che, partendo dagli emettitori, raggiungono i ricevitori e quelle prodotte dai ricevitori stessi. Il secondo metodo è invece chiamato tempo di volo e misura il tempo impiegato dal suono, emesso ad un dato momento dai trasmettitori, per raggiungere i sensori. Con questi due metodi, per rilevare la posizione nello spazio di un corpo, sarebbe necessario un solo sensore. Per individuarne anche l’orientamento però è necessario individuare la differenza tra le informazioni prodotte da tre sensori. A differenza dei tracker elettromagnetici, che possono essere influenzati da un gran numero di metalli, i sistemi ad ultrasuoni non soffrono di questo problema, ma di contro richiedono che nel tragitto emettitore-misuratore non vi sia nessun oggetto d’intralcio. Inoltre la distanza tra i due componenti introduce una non trascurabile latenza. I sistemi che si basano sul tempo di volo hanno generalmente un basso tasso di aggiornamento, mentre quelli a coerenza di fase sono soggetti ad errori che possono accumularsi nel tempo. In più, entrambe le tipologie, sono soggette a cambiamenti di temperatura, pressione e livello di umidità presente nell’ambiente di lavoro.
A titolo di esempio si riportano le caratteristiche di un sistema commerciale, l’HX5 della ditta Hexamite. Hexamite - HX5 Dimensioni sensore [mm] 20 x 80 x 40 Latenza [ms] 5 Tasso di aggiornamento [s-1] 20 Range di utilizzo [m] 8 Prezzo 1.430 €
Tab. 2.1 - Caratteristiche principali del tracker Hexamite HX5
2.3.2.2 Tracker Ottici
I tracker ottici si basano sull’utilizzo di telecamere che rilevano la posizione di sorgenti di luce, generalmente LED, poste sull’operatore. L’elaborazione in tempo reale di queste immagini acquisite permette di effettuare calcoli sullo spostamento. Questi sistemi utilizzano emettitori fissi e videocamere che ricevono i raggi infrarossi. Per individuare la posizione dell’oggetto è necessario che il computer triangoli le informazioni di posizione fornite dalle telecamere. Questi sistemi non sono influenzati dalla presenza di altri corpi, come i metalli, e possiedono inoltre sia un elevato tasso di aggiornamento che una bassa latenza. Gli emettitori devono essere posizionati nella linea di vista delle telecamere, senza alcuna interposizione di oggetti all’interno del percorso che li congiunge. Questi dispositivi possono essere disturbati dalla presenza di altre sorgenti di luce ad alta intensità o di altro bagliore che potrebbe alterare la correttezza delle misure. Un approccio
recente per lavorare in spazi piuttosto ampi è offerto dalla ditta 3rdTech con il prodotto HiBall 3100 che risulta composto da due elementi: il sensore da applicare all’oggetto in movimento, ad esempio un HMD, ed una serie di pannelli da attaccare al soffitto che possono ricoprire fino ad un’area di circa 150m2.
In questi pannelli sono incassate le sorgenti laser che, rilevate dal sensore, permettono di ricavare la posizione.
Fig. 2.18 – 3rdTech HiBall 3100
Un altro prodotto molto diffuso è il PPT della WorldViz, un wide-area optical tracking che permette di controllare superfici di circa 100m2. Questo è un sistema preciso e flessibile costituito da 2 o da 4 telecamere, montate negli angoli dell’area da controllare, capaci di seguire i movimenti di un led fissato, ad esempio, sulla testa dell’utilizzatore. Il tracciamento della posizione è continuo e non risente di disturbi dovuti alla presenza di rumore, di materiali metallici o di campi elettromagnetici. Nel caso fosse necessario conoscere anche l’orientamento, oltre alla posizione, questo sistema può essere accoppiato con un tracker inerziale. Fig. 2.19 - WorldViz PPT WorldViz - PPT Dimensioni sensore [mm] 123 x 67 x 55 Peso sensore [g] 445 Latenza [ms] 20 Tasso di aggiornamento [s-1] 60 Precisione [mm] <1 Range di utilizzo [m] 10 x 10 2 telecamere 8.200 € Prezzo 4 telecamere 12.200 € Tab. 2.2 – Caratteristiche principali del tracker WorldViz PPT
2.3.2.2 Tracker Magnetici
I tracker magnetici sono i sensori più utilizzati. Nella versione più semplice una sorgente fissa genera un campo magnetico e l’operatore indossa dei dispositivi in grado di provocare distorsioni all’interno di questo. La posizione dell’operatore viene così determinata da alcuni sensori che rilevano queste variazioni di campo magnetico. Nel caso invece di sensori elettromagnetici la sorgente produce tre campi elettromagnetici, dove ognuno è perpendicolare agli altri. Il misuratore
posto sul corpo dell’utente misura l’attenuazione del campo (intensità e direzione) ed invia queste informazioni al calcolatore. Questo, triangolando la distanza e l’orientamento dei tre assi perpendicolari del misuratore relativamente ai tre campi elettromagnetici prodotti dalla sorgente, è in grado di determinare la corretta posizione del tracker. Questi sistemi permettono a più parti del corpo di essere monitorate contemporaneamente e non sono sensibili all’interposizione di oggetti tra la sorgente ed il misuratore. Questi sistemi soffrono di problemi di latenza, distorsione dei dati e possono essere influenzati da vari metalli presenti nelle vicinanze o persino da altri campi elettromagnetici.
Un tracker magnetico molto utilizzato è prodotto dalla Polhemus ed è il Liberty LATUS (Large Area Tracking Untethered System) che, grazie all’impiego della tecnologia wireless, permette all’utilizzatore di muoversi in spazi ampi.
Polhemus - Liberty LATUS Dimensioni sensore [mm] 74 x 40 x 22 Peso sensore [g] 56.7 Latenza [ms] 5 Tasso di aggiornamento [s-1] 188 Precisione [cm] / [°] 0.254 / 0.5 Range di utilizzo [m] 2.44 Prezzo 8.670 €
Tab. 2.3 – Caratteristiche principali del tracker Polhemus Liberty LATUS
Il sensore, estremamente piccolo e leggero permette all’operatore di agire in assoluta libertà senza avvertire alcun disturbo dovuto ad ingombro e peso.
2.3.3 Eye Tracker
L’Eye-tracking, o registrazione dei movimenti oculari, è una tecnica che consente di determinare in maniera molto accurata le aree di volta in volta fissate da un soggetto, nella sua esplorazione visiva. Inizialmente questa tecnica è stata impiegata in ambito accademico per giungere ad una migliore comprensione dei meccanismi sottesi alla percezione visiva. Molto più recentemente, l'eye-tracking, spesso in combinazione con sistemi per la "voice recognition", viene impiegato quale alternativa ai classici dispositivi di input/output (mouse e tastiera), con lo scopo di sviluppare sistemi uomo-macchina "handless", che non richiedono dunque l'uso delle mani. Questi
sistemi sono per il momento diretti ad utenze professionali (primariamente in campo biomedico e militare), o ad utenze diversamente abili, e cioè a soggetti che abbiano perso l'uso degli arti superiori. Questi dispositivi possono rilevarsi utili in applicazioni di AR permettendo alla proiezione di essere posizionata, in ogni momento, di fronte agli occhi dell’utilizzatore.
Un valido prodotto è rappresentato dal Mobile Eye dell’azienda ASL. Questo prodotto, estremamente leggero e confortevole, è adatto ad applicazioni in cui l’operatore ha la necessità di muoversi. L’output del processo è una registrazione di ciò che ha visto l’utilizzatore con sovrimpresso un segno che indica l’istantanea posizione del suo sguardo. Collegando il dispositivo ad un PC è possibile avere in tempo reale le coordinate x y del punto su cui è focalizzata l’attenzione dell’utente.
Fig. 2.20 - Eye Tracking
ASL - Mobile Eye
Peso [g] 76
Precisione [°] 0.5
Tasso di aggiornamento [s-1] 30
Range visivo [°] 50 in orizzontale 40 in verticale
Prezzo 27.325 €
Tab. 2.4 - Caratteristiche principali del tracker Hexamite HX5
2.4 Applicazioni di AR
I settori in cui è stata valutata la possibilità di ricorrere a sistemi di AR sono già numerosi, tra questi sono da menzionare i seguenti:
medico; automotive; intrattenimento; industriale.
In campo chirurgico una semplice applicazione di Realtà Aumentata permetterebbe al medico di tenere costantemente sotto controllo i parametri vitali del paziente senza distogliere l’attenzione dalle sue attività. Un’altra applicazione di Realtà Aumentata in campo medico riguarda la possibilità di sovrapporre al paziente le informazioni derivanti da ecografie, risonanze magnetiche o
da qualsiasi altro tipo di esame. Quest’ultima applicazione permetterebbe al dottore di avere una sorta di vista ai raggi x per poter vedere dentro al paziente.
Questa capacità potrebbe essere estremamente utile durante le cosiddette operazioni poco invasive che presentano lo svantaggio di una ridotta capacità da parte del medico di vedere all’interno dell’incisione.
Fig. 2.21 - Applicazioni di AR in campo medico
Da molti anni è possibile vedere i piloti di aerei supportati durante il volo da numerose informazioni proiettate in particolari display trasparenti posti di fronte a loro, o addirittura nella visiera del loro casco. Applicazioni simili si stanno ultimamente diffondendo anche in campo automobilistico, dove le case costruttrici più affermate presentano le prime applicazioni di questa tecnologia sulle loro vetture. L’intento è quello di fornire all’automobilista informazioni che possano rivelarsi utili durante la guida senza fargli distogliere lo sguardo dalla strada. Le informazioni sono infatti solitamente proiettate
sulla superficie vetrata
del lunotto anteriore permettendo al guidatore una rapida consultazione. I dati proiettati possono essere di varia natura, dalla velocità istantanea alle indicazioni del navigatore satellitare.
Fig. 2.22 - Applicazione di AR in campo automobilistico.
Il mondo dell’intrattenimento, così recettivo alle innovazioni, non poteva certo lasciarsi sfuggire questa nuova tecnologia. Le prime applicazioni di Realtà Aumentata in questo settore non hanno infatti tardato ad Fig. 2.23 - Applicazione di AR
arrivare. Queste applicazioni, inizialmente nate come semplici dimostrazioni delle potenzialità dell’AR, stanno ultimamente diventando sempre più consistenti e tra non molto potrebbero costituire l’avanguardia dei giochi in commercio, grazie all’elevato grado di immedesimazione che sono potenzialmente in grado di fornire.
In ambito industriale sono state abbastanza numerose le applicazioni di Realtà Aumentata sviluppate. La complessità dei prodotti moderni ha infatti reso considerevole la quantità di istruzioni da fornire ad un operatore durante le sue attività. Talvolta le istruzioni possono essere più facili da capire se sono disponibili, non come manuali con testo e figure, ma piuttosto come brevi istruzioni, disegni 3D o filmati sovrimposti all’attrezzatura reale, mostrando passo dopo passo le operazioni che devono essere fatte e come farle.
La manutenzione è una delle potenziali applicazioni più interessanti o più sperimentate. Tra i primi ad affrontare questo aspetto c’è il gruppo di Steve Feiner che alla Columbia University ha implementato un’applicazione per la manutenzione di una stampante laser, mostrata nelle figure che seguono.
Fig. 2.24 - Prototipo per la manutenzione di una stampante laser.
La prima figura mostra una vista esterna mentre la seconda riporta la visuale dell’utente dove si può vedere il wireframe generato dal computer che guida l’utilizzatore nella rimozione del vassoio della carta.
Molto interessante è anche la ricerca, condotta all’Institute of FIeld roBOtics (FIBO) di Bangkok, indirizzata a valutare la riduzione del numero di operazioni, e quindi di tempo, in un semplice task di assemblaggio ricorrendo alla tecnologia AR.
Fig. 2.25 - Applicazione di AR in operazione di assemblaggio
2.5 Motivazioni e scopo della tesi
i consiste are come met
laggio e manutenzione.
tate Univ confronto,
e di assemblaggio diverse modalità di fornire all’operatore le info
no i distretti industriali toscani., ci siamo prop
azione di questo tipo sono ragguardevoli. L’o
Lo scopo del presente lavoro di tes nell’analizzare la possibilità di utilizz
odo di addestramento del personale nella conduzione di robot industriali la tecnologia della Realtà Aumentata. L’interesse per questo lavoro è nato dopo che sono stati trovati alcuni articoli che mostravano come l’utilizzo di tale tecnologia avesse dato risultati spesso più efficaci ed efficienti dei metodi comunemente utilizzati nell’addestramento del personale per operazioni di assemb
In particolare il lavoro svolto dalla Michigan S per una semplice applicazion
Fig. 2.26 - Confronto tempi
ersity East Lansing mette a
rmazioni necessarie. Tra queste la Realtà Aumentata si mette in luce permettendo una considerevole riduzione dei tempi di montaggio (Fig. 2.26). Il risparmio di tempo è in fatti dell’ordine del 14% nei confronti del manuale cartaceo e del 9% rispetto alle informazioni fornite attraverso un comune display.
Poiché la competenza nell’utilizzo di robot o macchinari industriali è sempre più richiesta nelle piccole medie imprese come quelle che caratterizza
osti di analizzare se i vantaggi dimostrati da tale tecnologia nelle operazioni di montaggio e manutenzione persistessero anche in un impiego volto all’addestramento del personale alla conduzione di robot e macchinari industriali in genere.
L’addestramento è un settore che si presta, per le sue caratteristiche, a questa tecnologia innovativa. I vantaggi che si possono avere da un’applic
peratore verrebbe guidato passo dopo passo nelle sue operazioni, lavorando così in tutta sicurezza ed ottenendo una standardizzazione dell’insegnamento che con il classico metodo
dell’affiancamento non è possibile. Una volta analizzata la migliore sequenza per eseguire le diverse operazioni, queste potrebbero essere infatti insegnate a tutti i nuovi operatori nello stesso modo. Le risorse da dedicare all’addestramento risulterebbero molto inferiori a quanto non avvenga con i metodi comunemente utilizzati, portando ad un notevole risparmio economico. Contrariamente ad altri metodi, come il face to face training ed il computer based training, l’operatore riceverebbe le istruzioni necessarie direttamente sul macchinario che deve apprendere, in modo da relazionarsi subito con l’ambiente reale e risultando facilitato nella memorizzazione delle operazioni. Con un sistema ben strutturato l’utente potrebbe ripetere le fasi dell’addestramento più volte, fino a quando non abbia raggiunto la necessaria abilità e sicurezza.
Il nostro lavoro si è poi esteso anche all’intero processo di formazione di personale inesperto senza limitarci alla sola fase di addestramento che viene quindi preceduta da una fase di istruzione per
rende l’og
impartire le conoscenze necessarie ad intraprendere in modo più consapevole l’acquisizione delle abilità necessarie per un’operazione delicata come la conduzione di un robot industriale.
L’importanza di una formazione rapida ed esauriente, in certi casi decisiva per rimanere competitivi in un mercato sempre più mutevole e necessitante di flessibilità e reattività,