e vocali
Umberto Tolino Thingk & Dipartimento di Design, Politecnico di Milano
Ilaria Mariani Thingk & Dipartimento di Design, Politecnico di Milano
In te rf ac ce u te nte
Abstract. La sperimentazione in atto, volta a oltrepassare l’idea di graphic user interface, mette in discussione il concetto stesso di interfaccia, avvian- dosi verso una progressiva scomparsa o integrazione negli oggetti. Il saggio esamina queste interazioni che abbandonano i display per svilupparsi at- traverso la manipolazione, i gesti e la conversazione. Nel fare ciò è fonda- mentale considerare le implicazioni che innescano nei modelli d’uso e nelle abitudini consolidate e condivise. Implicazioni che richiedono a designer e ricercatori di riconsiderare gli impatti della tecnologia in termini di agency e affordances.
Keywords. Interfacce utente, Tecnologia integrata, User Experience, Natural User Interfaces, Tangible User Interfaces, Agency, Affordances
Esperienze utente seamless, situate e personali
La progressiva miniaturizzazione delle tecnologie elettroni- che e la diffusione della connessione wifi a banda larga, han- no aperto la strada all’integrazione pervasiva dell’ubiquitous computing, attivando nuove possibilità di interazione tra persone, dati, processi e oggetti. Mirando a un’esperienza utente più ricca e fluida, vari filoni di sperimentazione hanno preso piede dai primi anni 2000, arrivando a nuove tipologie di interfacce, sempre più immediate e piacevoli.
Lo sviluppo di sensori e attuatori intelligenti, integrati e col- legati in rete ha ampliato di fatto la gamma delle possibili interazioni, alimentando diversi studi e sperimentazioni che si sono concentrati sull’oltrepassare il concetto di ecologia
delle superfici intelligenti inizialmente sviluppata basandosi
su display digitali che usano interfacce utente grafiche (GUI). Andando verso una direzione di progressiva scomparsa o in- tegrazione negli oggetti, lo stato dell’arte mostra interazioni che abbandonano il concetto di selezione basata su visua- lizzazione e digitazione per avvenire attraverso la manipola- zione (interfacce utente tangibili – TUI (Ishii, 2008b)), i gesti (interfacce utente naturali – NUI (Ballmer, 2010)) e la conver-
N at ur ali , t an gi bil i e v o ca li
Perseguendo l’interoperabilità, alte prestazioni e interazioni
seamless, si predilige una costruzione e restituzione di conte-
nuti che tenga conto del contesto in cui si sviluppano (situa-
tedness), che favorisca una personalizzazione (customized) e
segua una direzione di umanizzazione, evitando informazio- ni e visualizzazioni appariscenti, o display dal forte impatto visivo come eravamo abituati a conoscerli fino alla fine del secolo passato (Lin et al., 2002). Soprattutto la ricerca del minimalismo estetico, insieme al tentativo di rimuovere i display dagli oggetti alla ricerca di interazioni più integrate e “naturali” hanno alimentato una ricerca fondamentale e il dibattito su come i dati e le informazioni dovrebbero essere comunicati all’utente finale. L’obiettivo è un’esperienza uten- te più immediata e fluida, meno impegnativa ma più ricca.
Di seguito proponiamo un’analisi critica di queste interfacce, considerando come la loro introduzione e progressiva diffu- sione stia portando con sé implicazioni non trascurabili su modelli d’uso e abitudini consolidate e condivise (Garfinkel, 1964) che richiedono a designer e ricercatori di riconsiderare gli impatti della tecnologia in termini di agency (Latour, 1996) e affordance (Norman, 1999). Questa condizione si verifica in modo più evidente e sostanziale in quanto l’interazione si appropria di una logica di naturalezza, come nel caso di NUI e VUI (Ballmer, 2010; Hui & Sherratt, 2017; Krishna, 2015; Norman, 2010), o quando viene incorporata in oggetti che modificano la propria estetica (ad esempio la forma) per re- stituire un nuovo stato, come nel caso delle TUI, di cui noto l’esempio dato dagli atomi ai bit di Ishii che vanno oltre il pixel e assumono una forma fisica (Ishii, 2008b).
In te rf ac ce u te nte
Il cambiamento significativo che accomuna queste interfacce risiede nella modalità di interazione che le caratterizza, ossia il passaggio dal vedere l’informazione e interagire indiretta- mente con una sua rappresentazione, a un’azione più diret- ta e non più “mediata”. Quando l’interazione avviene sugli oggetti, l’interfaccia arriva a fondersi con l’artefatto stesso, superando la necessità di incorrere in ulteriori traduzioni. Il concetto diventa facilmente intuibile pensando a uno spea- ker che richiama la dimensione di una manopola, e che ri- chiede di essere ruotato a destra o a sinistra rispettivamente per alzare o abbassare il volume. In questo caso l’interazione avviene sull’oggetto, senza la necessità di essere mediata da alcuna interfaccia: la manipolazione stessa dello speaker è un chiaro comando, e il caso studio in oggetto è Beosound
Edge di Bang & Olufsen1. Analogamente le interfacce a co- mando vocale ci hanno abituato alla totale assenza di inte- razione fisica: il comando passa attraverso la voce. Ne sono un esempio gli assistenti che ci aiutano nella gestione delle nostre case e in generale delle attività in ambito domestico, come Amazon Alexa e Google Home, ma anche gli assistenti che ci portiamo sempre in tasca, come Siri e Cortana. Un’ul- teriore tipologia di interazione è quella che si basa sui gesti, senza però richiedere manipolazione. È il caso di come Xbox
Kinect ha ridisegnato il nostro modo di interfacciarci con una
consolle di gioco; una modalità di interazione che si è poi estesa a smart TV e altri smart home appliance.
N at ur ali , t an gi bil i e v o ca li
Intrefacce utenti naturali e critica all’effettiva natura- lezza delle interazioni
Nei primi anni ‘2000 le innovazioni tecnologiche hanno por- tato a una duplice direzione di indagine: da un lato la ricerca sulle Natural User Interfaces (NUI), dall’altro sulle Tangible User Interfaces (TUI). Nel primo caso, la logica di interazione ruota attorno all’assenza di un’interfaccia visibile (Krishna, 2015; O’hara et al., 2013), ovvero interfacce invisibili ai suoi utenti, o che lo diventano attraverso interazioni successive (Ballmer, 2010; Norman, 2010). Il secondo caso riguarda l’in- corporazione dell’interfaccia nell’oggetto che utilizza le logi- che di manipolazione della dimensione analogica (Jacob et al., 2008; Shaer et al., 2010) – richiamando nel frattempo il concetto di memoria d’uso.
La progressiva semplificazione del ruolo dell’utente è il con- cetto alla base dello sviluppo e della diffusione delle NUI (Wigdor & Wixon, 2011). Pur non essendo un concetto total- mente nuovo, solo recentemente ha richiamato l’attenzione di studiosi e professionisti che hanno sfruttato la potenza, le dimensioni ridotte e il costo contenuto dei microprocessori e di altri dispositivi di rilevamento, per utilizzare l’interazione gestuale per controllare sistemi intelligenti semplicemente usando comandi vocali e/o movimenti del corpo – come ge- sti delle mani, o cenni delle braccia. Le NUI basano il loro modello di funzionamento sulle capacità che gli utenti pos- siedono semplicemente in qualità esseri umani. I dispositivi domotici controllati dal movimento o dalla voce, come Xbox
Kinect e molte smart TV, o Amazon Alexa e Google Home, sono
esempi di questa tipologia di interfaccia, ampiamente diffusi e conosciuti. Nel primo caso, il sistema risponde agli input
In te rf ac ce u te nte
di rilevamento del movimento (gesti spaziali) dati dal corpo dell’utente che ne diventa il controller. In questa categoria rientrano anche tutti quei gesti che costituiscono la nostra memoria d’uso che provengono dal mondo analogico e che sono il risultato della nostra esperienza di interazione con oggetti comuni. Questo stesso principio è alla base di Soli una tecnologia che introduce il sensore RADAR nello smar- tphone Google Pixel 42, rendendo il dispositivo in grado di capire e interpretare i movimenti della mano, consentendo all’utente di saltare brani e contenuti, interrompere la ripeti- zione di un allarme, o chiede di interrompere la riproduzio- ne di contenuti senza necessità di toccare lo schermo. Nel caso di Amazon Alexa e Google Home, l’utente esegue i vari comandi attivandoli con un’interazione vocale, iniziando una conversazione con l’oggetto con frasi ed espressioni di uso quotidiano.
Ben prima di arrivare alla diffusione attuale dell’IoT e alla co- struzione di ambienti che possiamo realmente considerare come smart, si insinuava un principio teorico per un uso dif- fuso dei computer, che ha sua volta ha nutrito lo sviluppo del paradigma delle “tecnologie che scompaiono”. Da trent’anni a questa parte, il concetto di ubiquitous computing e il suo raggiungimento sono alla base di molteplici ricerche sulla tecnologia computazionale, perseguendo l’idea di un mon- do in cui i computer siano consapevoli del contesto in cui si trovano e delle sue variazioni (context aware), si scambino in- formazioni (networked) e attivino interazioni senza soluzione di continuità, dissolvendosi nell’ambiente (Weiser, 1991). Si ricorda a proposito come le tecnologie più profondamente radicate sono quelle che sono riuscite a integrarsi e fonder-
N at ur ali , t an gi bil i e v o ca li
si al nostro quotidiano, arrivando a scomparire: tecnologie di cui non siamo quasi più consapevoli, o che usiamo senza porci attenzione; tecnologie che si intrecciano nel tessuto quotidiano e sociale quotidiano a un punto tale da diventa- re indistinguibile (Takayama, 2017; Weiser, 1991). Da questa riflessione si è sviluppata la serie di principi noti come calm
technology (Case, 2015; Weiser & Brown, 1996), ossia una tec-
nologia che attira e cattura l’attenzione solo all’occorrenza, restando invece tranquillamente e discretamente in secon- do piano quando non necessaria.
Le stesse NUI si fondano sul principio delle calm technology e sul ragionamento di invisibilità o scomparsa dell’interfaccia che ne deriva. Inoltre, per loro stesso nome, le NUI seguono la direzione di una tecnologia dell’informazione in principio teorico umana e facilmente afferrabile, volta a migliorare il nostro quotidiano, senza generare distrazioni o disturbi. Tuttavia, sebbene il loro nome richiami il concetto di natura- lezza, alimentando l’idea che l’interazione con le NUI sia na- turale e immediato, la situazione che si para davanti ai nostri occhi è ben differente. Trovandoci di fronte a interfacce che non percepiamo come tali, in quanto invisibili ai nostri occhi, necessitiamo di imparare ad usarle. Il fatto stesso di dover apprendere come interagirle, si pone in contraddizione con il loro stesso principio di naturalità. Di fatto, le interfacce naturali non sono considerate essere proprio così naturali (Hansen & Dalsgaard, 2015; Norman, 2010), le interazioni su cui si basano si suppone essere le normali modalità con cui noi esseri umani usiamo nel quotidiano: dai gesti alla con- versazione. Tuttavia, per comunicare i comandi adeguati, dobbiamo sapere quali sono, e compierli adeguatamente.
In te rf ac ce u te nte
Basti pensare alle conversazioni che possiamo attivare con i nostri assistenti vocali personali: non solo dobbiamo sapere cosa chiedere, ma anche come strutturare il comando, af- finché l’assistente lo capisca e ci restituisca l’informazione o l’azione desiderata. La critica positivistica che avanza Norman (Norman, 2010, p. 20) sull’argomento pone specifica attenzio- ne su come le NUI e soprattutto le interfacce basate sui gesti, al centro di molti studi sull’HCI, non possano essere conside- rate naturali dal momento che richiedono di apprendere dei
linguaggi specifici per il loro utilizzo e, ad aggravare ulterior-
mente la situazione, il fatto che questi linguaggi specifici da apprendere ancora non sono sviluppati sulla base di standard condivisi. A questo proposito, Norman sottolinea l’importanza di feedback secondari (double feedback loop) nel restituire in- formazioni attraverso altre forme, più convenzionali.
Questo ragionamento, a tratti provocatorio, considera co- munque l’esistenza di diversi gradi di “dissolvimento” e “sparizione” dell’interfaccia, che come brevemente anticipa- to sopra, vanno dall’invisibilità a una comparsa quando ne- cessaria. Ulteriori casi studi che portano il concetto di NUI a un livello ancora più avanzato riguardano quelle interfacce basate sulla capacità non solo di leggere i nostri gesti, ma persino di interpretare le nostre onde cerebrali. Un esem- pio ibrido di interfaccia è CTRL-Labs Kit3, una piattaforma di interfaccia neurale non invasiva che consente operazioni su dispositivi attivati riconoscendo i movimenti della mano e leggendo le onde cerebrali.
N at ur ali , t an gi bil i e v o ca li
Infine, a chiudere la panoramica sulle NUI, proponiamo la serie di prodotti Owow. Nati dalla tesi Sound on intuition4
del designer Pieter Jan Pieters alla Eindhoven academy, gli strumenti Owow suonano la musica traducendo movimenti e disegni in beats e suoni unici per l’accompagnamento mu- sicale. Si tratta di cinque dispositivi progettati per trasferire impressioni umane nella produzione musicale assistita dal computer:
Wob permette di creare e controllare suoni facendo flut-
tuare la mano su e giù nello spazio sopra il dispositivo;
Wiggle permette di alterare o “dare forma” alla musica
semplicemente ruotando l’oggetto attorno al proprio asse;
Drum permette di tambureggiare nell’aria, producen-
do suoni reali;
Pads è un punto di accesso al repertorio della batteria; Scan permette di disegnare linee su superfici che ven-
gono tradotte in suoni.
Cinque diversi sensori (controller MIDI) descrivono cinque diverse azioni umane. Questo set di prodotti che nasce tra il 2014 e il 2015 è particolarmente interessante perché ha iniziato ad esplorare il mondo dei gesti e del movimento im- plementando vari sensori e trasformando questi segnali in comandi musicali utilizzabili per performance dal vivo. Ciò raccogliendo e sfruttando appieno le possibilità che deriva- no dall’immediatezza di compiere alcuni gesti.
Wob (Wave Motion Midi Controller) è dotato di un sensore
In te rf ac ce u te nte
quanto le mani dell’utente distano dal sensore, trasforman- do questo dato dinamico in suono. Wob permette quindi di controllare i suoni e gli effetti spostando la mano più vicino o più lontano dal sensore, consentendo di creare in modo istantaneo dei suoni attraverso il movimento. Per produrre suoni è quindi possibile muovere la mano su e giù sopra il sensore o allontanarla rapidamente dall’area tracciata per poi riposizionarla in un altro punto, ad una distanza minore o maggiore. Sebbene non sussista una connessione seman- tica diretta tra l’atto dello spostare la mano nell’aria e il fatto di produrre suoni, il movimento sembra richiamare l’aria di senso del dirigere un’orchestra. La differenza è che è l’on- deggiare della mano dell’utente a tradursi in suoni.
Invece, sfruttando appieno il potere dell’accelerometro, Wig-
gle (Controller MIDI tridimensionale) assegna diversi effetti
ai tre assi di rotazione dell’oggetto, permettendo all’utente di maneggiare il device e ruotarlo per applicare e control- lare diversi effetti sonori. Wiggle è un dispositivo portatile che traduce rotazione e inclinazione rispetto agli assi X, Y e Z in dati MIDI. Questa sensibilità agli assi, reattiva anche a rotazioni combinate sugli assi – se non disattivati via pulsanti sul device stesso –, permette di esplorare tutte le gamme di movimento fisico, traducendolo in suoni.
Drum (Controller MIDI Airdrum) permette di attivare quattro
diverse note MIDI sensibili alla velocità, facendo muovere lo strumento su, giù, a sinistra e a destra, come se si stesse impugnando una bacchetta. Per incrementare la varietà di interazioni, il device delega alla sezione via tasti per selezio- nare note successive o precedenti, così come per accendere o spegnere l’asse delle Z. Un ulteriore pulsante permette di avviare la registrazione o attivare un loop. Nella gestualità
N at ur ali , t an gi bil i e v o ca li
che lo contraddistingue, il device riprende chiaramente il suonare le percussioni e l’essere dotato di sensibilità alla ve- locità garantisce di aggiungere un’interessante dimensione umana all’esecuzione.
Pads è un piccolo controller non molto più grande di una car-
ta di credito dotato di quattro pad di batteria sensibili a ve- locità e pressione, che permettono di navigare la repository di suoni registrati.
Infine Scan (Sketch scanning MIDI controller), traduce il se- gno in suono. Il dispositivo sembra essere il più sperimentale della serie, e consente l’esplorazione di creatività in quanto consente di trasformare disegnare in suoni, ottenendo risul- tati inaspettati. La scansione funziona spostando il dispositi- vo su elementi visuali quali possono essere immagini, linee e punti, schemi o sequenze di forme disegnati su carta (o altro supporto che ne permetta la lettura). Le informazioni visi- ve, una volta lette vengono quindi trasformate in dati MIDI. Il device è inoltre dotato di pulsanti che consentono di per spostarsi tra un’ottava e l’altra, o per agire sull’intonazione del suono.
Questi controller sono un modo divertente ed emozionante per fare musica senza la necessità di suonare uno strumen- to tradizionale. In modo analogo, permettono di produrre musica elettronica senza necessità di comporre attraverso software. La serie si caratterizza per la sua capacità di sfrut- tare l’elemento umano in performance di musica elettronica, rendendo l’esecuzione e la produzione musicale accessibile a utenti di varie età, senza bisogno di alcuna formazione mu- sicale pregressa. La loro dimensione ridotta, inoltre, rende l’intero sistema facilmente trasportabile e maneggiabile.
In te rf ac ce u te nte
I device possono poi essere associati al software una gestio- ne che permette di customizzare ognuno dei parametri, con- sentendo elevata personalizzazione dell’esperienza di esecu- zione, così come una chiara definizione del perimetro entro cui sperimentare.
Interfacce utenti tangibili e il concetto di “embodiment”
Accanto alle potenzialità dell interazioni – supposte essere – immediate e non mediate delle NUI, troviamo poi le TUI, e le loro interazioni che si basano su manipolazioni tipiche del mondo analogico. Le TUI sfruttano la nostra naturale capa- cità di manipolare e interagire con gli oggetti – e da questa capacità derivano il loro nome. Queste interfacce si focaliz- zano sulle nostre capacità tattili interattive e mirano a dare forma fisica all’informazione digitale. Ishii (2008a, 2008b) ha concettualizzato le TUI come le conosciamo per visualizzare
informazioni digitali su oggetti manipolabili e interattivi piut-
tosto che su uno schermo (GUI). Queste interfacce hanno un impatto significativo sugli oggetti che le sfruttano, facendo sì che tali elementi agiscano contemporaneamente come rap- presentazione/visualizzazione di informazioni e come con-
troller (Ishii, 2008b).
Lo scopo è quello di raggiungere una totale unità tra inter- faccia e interazione, dove il controllo delle informazioni av- viene direttamente sull’oggetto, che di conseguenza fornisce un feedback all’utente. Di conseguenza, l’utente interagisce direttamente con le informazioni, senza affidarsi a sistemi di controllo remoto. Un ulteriore vantaggio deriva dall’estetica stessa dell’oggetto con le TUI, in quanto l’accessibilità dell’og- getto ne suggerisce la funzione, anche in modo intuitivo. Al
N at ur ali , t an gi bil i e v o ca li
fine di rendere l’interazione semplice e facile da imparare, chi progetta TUI necessita di considerare e i vincoli fisici de- rivanti dalla trasposizione fisica scelta poiché, in qualche mi- sura, influisce e limita le scelte di interazione. UN designer deve progettare l’interazione in modo simbiotico: le azioni supportate dall’oggetto dovrebbero basarsi su azioni che ap- partengono alla sfera di senso della trasposizione, e pertan- to risultare chiaramente associabili e connesse all’oggetto fisico (Ishii, 2008b, p. 8).
Parlando di interfacce che si basano sulla manipolazione, oltre al già citato Beosound Edge di Bang & Olufsen – che tut- tavia esploriamo ulteriormente di seguito al fine di sottoline- are alcune sue caratteristiche specifiche – un ulteriore esem- pio interessante è Orbit di Senna Graulus. Il caso di Beosound
Edge è di particolare interesse perché in esso convivono due
tipologie di interfacce: una TUI basata sulla manipolazione dello speaker per agire sul volume, e una GUI che si atti- va quando l’oggetto percepisce la presenza dell’utente per prendere vita attraverso la superficie in alluminio emergen- do al tocco e illuminando i LED di controllo responsabili delle altre funzioni. Sempre caratterizzato dalla tangibilità dell’in- terfaccia, ma affidato ad un’interazione tra oggetti è lo strea- mer Orbit di Senna Graulus5. Lo streamer musicale si articola sul concetto di fornire agli utenti controllo fisico sulla loro musica digitale. Per fare ciò impiega un sistema di selezione rotazionale che utilizza due corpi planetari per controllare le playlist di musica digitale. Soprattutto in questo caso, l’obiet- tivo del design è evidentemente quello di fornire un esempio
In te rf ac ce u te nte
di come progettare interazioni con le tecnologie digitali che si fondono con le qualità del mondo fisico. Lo streamer non prevede un display o altra modalità per comunicare i bra- ni in ascolto ed effettuare selezioni scorrendo una playlist. Tuttavia Orbit riesce ad andare oltre la gestione di basilari controlli come il volume e il salto di canzoni introducendo un’interazione che abilita gli utenti a scoprire canzoni simili e aggiungerle alla playlist corrispondente. L’orbita è compo-