• Non ci sono risultati.

Immagine e suono 4.1 Rappresentazione dell’informazione visiva attraverso il canale sensitivo uditivo

N/A
N/A
Protected

Academic year: 2021

Condividi "Immagine e suono 4.1 Rappresentazione dell’informazione visiva attraverso il canale sensitivo uditivo"

Copied!
22
0
0

Testo completo

(1)

Capitolo 4

Immagine e suono

4.1 Rappresentazione dell’informazione visiva attraverso

il canale sensitivo uditivo

L’ambiente che ci circonda è caratterizzato da una larga varietà di informazioni che i nostri sensi ci permettono di percepire, analizzare e discriminare secondo un processo che tende a cogliere il minor numero di tali informazioni necessarie alle attività cognitive di apprendimento e memorizzazione.

Grazie agli studi specifici condotti, tra gli altri, da Barrass [50] possono essere individuati essenzialmente 7 approcci che consentono di analizzare i meccanismi di prelievo delle informazioni, a partire dai suoni percepiti:

1) Un metodo sintattico che consente di ricavare informazioni dall’organizzazione degli elementi sonori (Codice Morse);

2) Un metodo semantico in cui le informazioni sono trasportate dagli elementi sonori stessi (icone sonore);

3) Un metodo pragmatico che si basa su un’indagine psicoacustica preliminare che permetta la successiva discriminazione dei suoni (analisi delle “scene” sonore, teoria della Gestalt);

4) Un metodo percettivo in cui l’informazione viene dedotta dalle relazioni tra i vari suoni componenti una certa sequenza sonora;

5) Un metodo orientato ai compiti che assume che l’informazione inerente un particolare suono dipenda dal contesto nel quale il suono stesso viene utilizzato; 6) Un metodo connotativo che si incentra sulle implicazioni culturali ed estetiche dei

suoni, con lo scopo di arricchire di particolari un’informazione già acquisita;

7) Un metodo orientato alle fonti che si rivolge a quei pattern sonori che sono trasportabili e riferibili da diverse fonti indipendenti.

Ognuno dei suddetti approcci può essere combinato con altri in modo da descrivere nel modo più accurato possibile i processi relativi ai meccanismi di acquisizione delle informazioni in forma sonora.

(2)

4.1.1 Auditory Scene Analysis e approccio

ecologico alla percezione sonora

Il sistema uditivo, anche in condizioni non favorevoli e di fronte a sequenze sonore piuttosto complesse, riesce a separare ed a riconoscere accuratamente i singoli eventi sonori. Molto sforzi sono stati compiuti dai ricercatori per comprendere le modalità di elaborazione, da parte del sistema uditivo umano, delle informazioni sonore precedentemente acquisite.

Il termine Auditory Scene Analysis (ASA) venne introdotto da Bregman [51] per individuare i processi attraverso i quali il sistema uditivo ed il cervello umano analizzavano “scene” sonore complesse. Per comprendere il significato che si dà al termine “scena sonora” ci si può riferire ad un articolo di Sheirer [52].

Egli definisce un’immagine sonora come quella che un ascoltatore, anche in condizioni in cui l’entità sonora proviene simultaneamente da più di una fonte, percepisce tale entità come proveniente da una singola fonte: in questo modo, un set sonoro risulta suddiviso in immagini sonore che l’ascoltatore può immaginare di percepire indipendentemente dalle altre.

Si definisce, di conseguenza, scena sonora un gruppo di suoni percepito come insieme di immagini sonore e si dice analisi della scena visiva (auditory scene analysis) il processo percettivo associato alla scena sonora.

La ASA parte dall’assunto che il processo di percezione del suono possa esser suddiviso in 2 passi:

1) Segmentazione che riconosce e separa i singoli suoni, i quali giungono all’orecchio dell’ascoltatore come entità distinguibili dette segmenti;

2) Raggruppamento che mette insieme gli elementi generati dalla stessa fonte sonora in una struttura detta flusso.

Bregman [51] distingue 2 tipi di raggruppamento: un raggruppamento primario, probabilmente innato e legato all’apprendimento di nuove sonorità ed un raggruppamento

guidato che si serve della conoscenza di pattern noti, acquisiti grazie all’esperienza

(3)

L’approccio seguito dalla ASA si basa sui principi di organizzazione della Gestalt che, in ambiente sonoro, possiamo riassumere come segue:

- prossimità: suoni che vengono trasmessi a breve distanza temporale tra di loro verranno percepiti nello stesso flusso;

- similarità: suoni che possono esser considerati simili in tono ed intensità saranno percepiti come parte dello stesso flusso;

- continuità: solitamente i suoni naturali variano gradualmente in frequenza, intensità e tono: una variazione improvvisa e repentina di tali parametri coinciderà con l’inizio di un nuovo flusso;

- arricchimento: in una scena sonora complessa esiste un flusso dominante: ogni altra entità sonora sarà considerata come un particolare dello stesso flusso;

- chiusura: l’uomo tende a percepire suoni continuativi anche in condizioni in cui essi sono fortemente attenuati o addirittura assenti (“effetto tunnel acustico” [54], oppure “effetto di ripristino fonetico” [55]).

Un approccio alternativo all’interpretazione della percezione sonora viene fornito dalla psicologia ecologica (approccio ecologico) che studia i fenomeni acustici partendo dall’osservazione delle caratteristiche fisiche del singolo evento sonoro ed analizzando la capacità dell’ascoltatore di distinguere il contenuto informativo dell’informazione presente nel singolo evento [56].

Secondo l’approccio ecologico ogni evento sonoro è caratterizzato da una certa quantità di

variabili strutturali che determinano il tipo e le proprietà dell’evento e da un’ulteriore

quantità di variabili di trasformazione che descrivono le modalità di variazione delle caratteristiche dell’evento [57].

Repp, grazie ad alcuni studi sperimentali effettuati su un campione di persone alle quali veniva chiesto di ascoltare ed analizzare il suono derivante dal battito delle mani [58], dedusse che un suono riesce a trasmettere informazioni circa la configurazione della fonte sonora. In particolare, in caso di sonorità conseguenti all’atto del parlare, un suono riesce a riflettere i cambiamenti di stato del tratto vocale.

Altra fonte sonora analizzata con l’approccio ecologico è il rumore dei passi [59], evidenziando le caratteristiche sonore che differenziano una camminata maschile da una femminile: anche in questo caso si è dimostrato che un ascoltatore può individuare alcune

(4)

caratteristiche della fonte sonora partendo dall’analisi dei tratti distintivi del segnale sonoro prodotto da essa.

Esistono altri studi sperimentali che consentono di verificare che è possibile trarre informazioni circa le fonti sonore partendo dall’analisi dei suoni che esse producono.

Come vedremo, molti di questi studi risultano utili per il concepimento concettuale e la realizzazione delle modalità di funzionamento dei display acustici.

4.2 L’immagine visiva in forma sonora

Si sono finora descritte le linee-guida dei due principali approcci utilizzati per cercare di dare una descrizione della percezione uditiva. Vediamo, ora, come questi approcci possono essere utilizzati per trasferire informazioni “visive” in forma sonora.

Diversi studi hanno dimostrato la capacità di soggetti non vedenti di identificare e ricostruire un certo numero di target visivi precedentemente convertiti in rappresentazioni sonore equivalenti [60,61].

Le immagini visive vengono dapprima scomposte attraverso un processo che separa selettivamente le diverse caratteristiche dell’immagine e le restituisce sottoforma di gruppi individualmente riconoscibili. Tali gruppi vengono poi codificati in sequenze sonore corrispondenti e presentate all’ascoltatore sottoforma di melodia musicale polifonica. Questa tecnica permette al soggetto di analizzare selettivamente le sonorità componenti l’intera melodia sia in modo combinato sia separatamente in sequenza. Il soggetto può, a questo punto, decodificare i singoli gruppi e ricostruire mentalmente le differenti caratteristiche dell’oggetto, percependolo alla fine come una singola entità riconoscibile. La scomposizione selettiva di un’immagine complessa in un set di rappresentazioni equivalenti più semplici permette al soggetto non vedente di analizzare con maggior facilità e minor sforzo l’immagine stessa.

Molti dispositivi che si avvalgono di una scansione dell’immagine sono in grado di codificare immagini visive, anche complesse, in corrispondenti sequenze sonore. Le difficoltà si incontrano nel momento in cui il soggetto deve estrarre dalla sequenza udita gli oggetti percepiti principali: può, infatti, accadere che la sequenza appaia all’ascoltatore come un’unica entità disordinata, all’interno della quale ciascun elemento della struttura sonora può esser disturbato od anche mascherato dalla presenza degli altri elementi.

Il lavoro di decodifica non è per niente banale e, per tale motivo, è opportuno che la fase di codifica, ovvero la sequenza sonora equivalente, venga attentamente curata in modo da non complicare oltre misura la fase di estrazione delle informazioni.

(5)

Il sistema visivo umano prevede un complesso processo neurale per il riconoscimento degli oggetti esterni e per la determinazione della loro differente locazione, velocità e direzione di moto all’interno dell’ambiente esterno. Per adempiere a tali funzioni, l’informazione globale relativa alle diverse caratteristiche dell’immagine viene in primo luogo partizionata in una serie di gruppi discreti, ognuno dei quali corrispondente ad una particolare caratteristica o ad un insieme opportuno di caratteristiche dell’immagine; successivamente il cervello combina i diversi gruppi risultanti dalla partizione per generare una singola percezione dell’oggetto o della scena. Nel gergo moderno questo processo è noto come “binding problem”: le differenti caratteristiche spaziali e cinetiche di un oggetto, anche se analizzate in differenti aree del cervello, vengono poi messe insieme per generare un’unica entità percepita (Gestalt). Tale entità contiene l’informazione globale circa l’oggetto esaminato, ovvero la adeguata combinazione dei suoi gruppi componenti.

Dunque, con riferimento a quanto accade per il sistema visivo, si è portati a pensare che per una corretta analisi percettiva di forme visive complesse codificate in suoni, sia necessario un preventivo processo di segmentazione, ovvero della formazione di gruppi di suoni ognuno dei quali associato ad una particolare caratteristica dell’oggetto in esame. Successivamente avrà luogo un processo di raggruppamento delle singole voci componenti che porterà alla formazione della singola entità percepita.

Il processo di trasformazione dell’immagine visiva, precedentemente acquisita da una videocamera e trasferita su PC, nell’equivalente sonoro può essere effettuato utilizzando un personal computer provvisto di software dedicati in grado di generare pattern sonori associati alle diverse linee di contorno ad alto contrasto dell’immagine.

Lo schermo del PC, sul quale l’immagine viene rappresentata, può essere visto, ora, come formato da una opportuna quantità di “pixel vocali” di uguali dimensioni, in modo che i suoni associati ad ogni pixel abbiano la stessa durata. Ciascun pixel che è occupato da una porzione della figura rappresentata sul monitor produce un’unica nota musicale. Un selettore dell’asse longitudinale dello schermo permette di scandire l’immagine rappresentata e di attivare, quindi, la nota relativa al pixel sonoro intercettato. La scala scelta per la codifica sonora deve in qualche modo essere compatibile con la complessità della figura rappresentata sullo schermo: non esiste uno standard comune ma si può coerentemente pensare di utilizzare una quantità di note i cui livelli di tonalità possano permettere di collocare l’immagine su un piano (per esempio associando ad una estremità dello schermo la nota più acuta ed all’altra quella più bassa). Quindi, quando il selettore intercetta ed attraversa le linee di demarcazione della figura rappresentata sullo schermo,

(6)

genera un mosaico temporale di suoni che può essere analizzato dall’ascoltatore. Egli è potenzialmente in grado, a questo punto, di ricostruire la forma che il selettore stesso aveva attraversato.

4.2.1 Modello sperimentale per l’effettuazione di test

Un buon apparato per la trasformazione di immagini visive in forma sonora consiste di una videocamera digitale per l’acquisizione delle immagini della scena visiva o dell’oggetto in esame e per la trasmissione dell’informazione visiva ad un PC, il quale rappresenta l’immagine inviata sul monitor. Al cenno dell’utente sotto test, il computer elabora e scompone l’immagine complessa, producendo un set di forme più semplici che rappresentano il set di caratteristiche principali dell’immagine originaria. Ognuna di queste forme semplificate viene poi trasformata nel suo corrispondente equivalente sonoro.

Facendo riferimento agli studi [60,61], i protocolli impiegati per l’effettuazione di test sono i seguenti:

1) I soggetti hanno dapprima ascoltato le tracce sonore generate dalla scansione del selettore lungo i due principali assi (verticale ed orizzontale) dell’intera immagine campione non segmentata;

2) Successivamente le immagini campione sono state scomposte in un numero di rappresentazioni più semplici, le cui tracce sonore sono state studiate ed analizzate dal soggetto sia separatamente che in combinazione;

3) Il soggetto ha, infine, ascoltato le tracce sonore dell’intera figura non segmentata ed ha utilizzato tutte le informazioni ricavate durante i vari passi previsti dalla modalità di test per provare ad effettuare una ricostruzione mentale dell’immagine campione. Il soggetto ha quindi riportato le proprie conclusioni sia in forma verbale che sottoforma di disegno su carta.

4.2.2 Risultati dei test condotti

Gli esperimenti condotti hanno dimostrato che soggetti non vedenti possono usare le rappresentazioni sonore delle immagini visive per analizzare la struttura di scene visive relativamente complesse. Essi riescono ad individuare con discreta accuratezza un’immagine se questa è predisposta a generare un set di rappresentazioni semplificate che gli utenti possono analizzare individualmente e poi combinare mentalmente per ricostruire

(7)

l’immagine originaria attraverso un processo che include attenzione selettiva, predisposizione all’immagine mentale e ipotesi di test.

Con un’immagine campione costituita da una varietà di combinazioni semplici, i soggetti possono sia imparare ad analizzare queste forme e a determinare la loro collocazione spaziale dall’identificazione dei componenti linea di base sia, alternativamente, imparare a riconoscere il pattern sonoro globale della semplice immagine campione, senza necessariamente scomporla ma memorizzandola, in modo da utilizzarla come linea di base per l’identificazione di un’immagine più complessa.

Queste osservazioni evidenziano, dunque, che ci sono in sostanza due modi con i quali l’informazione sensoriale può essere analizzata per ricavare l’immagine percepita globale: il primo riguarda il processo piuttosto laborioso che, in modo seriale, ricostruisce la figura da un set di caratteristiche fondamentali, mentre il secondo opera globalmente attraverso un set di “rivelatori di caratteristiche” di ordine superiore che il processo elementare può talvolta, ma non necessariamente, precedere per poi essere comunque soppiantato.

Accade, dunque, che la pratica dell’esercizio di ricostruzione mentale dell’immagine visiva dal set di tracce sonore componenti, può indirizzare il soggetto a memorizzare come linee di base le codifiche sonore di forme sempre più complesse con conseguente miglior predisposizione e preparazione all’analisi di scene ricche di particolari e di dettagli.

4.3 La tecnologia in supporto ai non vedenti:

Dopo aver discusso ed analizzato i processi di percezione e le modalità di conversione di un’immagine visiva in forma sonora, si vuole, ora, cercare di descrivere un sistema generale che realizzi quanto necessario al soddisfacimento delle esigenze della persona non vedente.

Si consideri il seguente schema:

Acquisizione Restituzione

dell’immagine

dell’immagine

Analisi

(8)

L’ingresso del sistema è costituito da una sequenza di immagini digitali, prelevate grazie all’utilizzo di una comune camera digitale.

Tali immagini vengono poi inviate ed elaborate dall’unità centrale: l’algoritmo dedicato permette di estrarre le caratteristiche principali dell’immagine e di fornire una stima della distanza dell’immagine prelevata dalla videocamera (quest’ultima funzione può essere svolta dall’algoritmo computando i livelli di sfumatura). Un oggetto rappresentato è, dunque, collocabile con maggior precisione in una posizione spaziale all’aumentare del contrasto tra l’oggetto focalizzato e l’ambiente esterno che funge da sfondo all’oggetto stesso.

L’uscita del sistema è rappresentata dalla traccia sonora (insieme di sequenze sonore) contenente informazioni sia di carattere strutturale che circa la disposizione spaziale dell’oggetto in esame.

Per facilitare la comprensione della codifica sonora al non vedente, il sistema potrebbe prevedere alcune specifiche modalità che consentano all’utente di selezionare, tra le varie informazioni potenzialmente disponibili circa l’immagine, quelle di maggior interesse.

4.3.1 Acquisizione dell’immagine

Come accennato, l’immagine da codificare in sequenze di suoni può esser prelevata da una semplice videocamera digitale con le seguenti caratteristiche tecniche:

• Adeguata risoluzione: affinché si possano ottenere informazioni soddisfacenti, le immagini che presentano livelli di contrasto tra gli oggetti poco marcati richiedono di esser prelevate e trattate con una risoluzione maggiore;

• Basso rumore e breve tempo di acquisizione dell’immagine;

• Alta frequenza di acquisizione dell’immagine che consenta di prelevare con buona accuratezza immagini in movimento;

• Lenti adatte ad una opportuna focalizzazione dell’oggetto, in modo che anche in condizioni in cui l’oggetto stesso possa trovarsi piuttosto lontano dalla camera si riescano comunque ad ottenere adeguati livelli di sfumatura;

• Basso costo e dimensioni ridotte; • Peso non eccessivo;

(9)

Si può inoltre prevedere di sistemare la videocamera in una posizione che consenta all’utente un maggior confort.

4.3.2 Analisi dell’immagine

L’unità di elaborazione permette di estrarre dall’immagine acquisita, secondo il particolare algoritmo, informazioni riguardanti sia le principali caratteristiche strutturali sia una stima della collocazione spaziale dell’immagine stessa, intesa come distanza dell’immagine prelevata dalla fonte di acquisizione (nel caso specifico la videocamera).

L’analisi dell’immagine avviene, dunque, seguendo tre passi fondamentali:

1) Una prima fase prevede un processo preliminare che consente di selezionare, tra le varie informazioni potenzialmente disponibili circa l’immagine in esame, quelle che forniscono una descrizione sommaria ma comunque sufficiente all’identificazione dell’immagine stessa; questa operazione preliminare di “filtraggio” consente all’unità di elaborazione di operare su una quantità minore di dati e, conseguentemente, di avere tempi di risposta più brevi.

I colori dell’immagine originaria con elevato livello di distinguibilità vengono trasformati nei corrispondenti livelli di grigio.

2) Il passo successivo consiste nell’analisi dei contorni dell’immagine; in questa fase l’algoritmo deve ispezionare i margini significativi che caratterizzano l’immagine stessa.

Un margine può esser visto come una variazione netta delle caratteristiche geometriche e cromatiche di due o più aree adiacenti: il sistema deve, quindi, essere in grado di individuare sia transizioni cromatiche brusche tra aree adiacenti, sia transizioni sfumate “dolci” che possono demarcare il margine di aree piuttosto grosse.

Per questo motivo, rilevare transizioni nette tra due pixel adiacenti può non bastare per descrivere correttamente le caratteristiche dell’immagine.

Per risolvere il problema si fa uso di un’analisi multi-scala. L’immagine viene scomposta su scale differenti: una transizione tra due pixel adiacenti può esser dolce in una scala (quella più alta) e marcata in un’altra (quella più bassa). Infatti le linee di demarcazione tra due aree relativamente grosse sono molto più rilevabili su scale basse (1:100) che su scale alte (1:10000); in sostanza, una scala alta privilegia il dettaglio della singola area, perdendo la “visione d’insieme”, mentre una scala bassa

(10)

privilegia la demarcazione delle aree all’interno dell’immagine globale, perdendo in dettaglio delle singole aree.

Generalmente viene previsto un livello di soglia per estrarre i margini degli oggetti all’interno dell’immagine: se tale valore è basso viene ispezionata un’alta quantità di margini, di cui una parte è spesso poco significativa, mentre se il valore di soglia è alto viene identificata una piccola quantità di margini, spesso coincidenti con quelli di maggior interesse.

3) L’ultima fase prevede la stima della distanza dal punto di acquisizione dell’immagine; come accennato questa fase è caratterizzata dall’analisi dei livelli di sfumatura (per un’immagine focalizzata nei pressi di un oggetto, più alto è il livello di sfumatura, più alta è la distanza dalla fonte di acquisizione).

Sfortunatamente l’ispezione dei livelli di sfumatura non è molto accurata e può, di conseguenza, introdurre errori nella stima della distanza. Tali errori dipendono, oltre che da limitazioni e artefatti derivanti dall’hardware video o dall’algoritmo stesso, anche da particolari caratteristiche dell’immagine acquisita che può prevedere delle sfumature cromatiche al suo interno.

In genere l’algoritmo ispeziona, servendosi di scale differenti, 4 zone (molto vicina, vicina, lontana, molto lontana). Anche se l’ispezione non è molto accurata, essa può fornire con buona probabilità la stima della distanza: se, infatti, un gran numero di pixel vengono considerati come vicini c’è un’alta probabilità che esista un oggetto vicino.

Da notare che l’ispezione della zona vicina è quella che maggiormente interessa in quanto è quella che aiuta ad evitare all’utente in movimento eventuali ostacoli.

4.3.3 Restituzione del segnale audio di codifica

Il sistema restituisce la traccia sonora corrispondente all’immagine acquisita.

Una traccia sonora può essere distinta da alcuni parametri, le cui variazioni possono indurre suoni differenti: questa caratteristica può essere utilizzata per trasferire le variazioni dell’immagine visiva al segnale sonoro.

Dato che è poco efficiente ed anche particolarmente sconveniente codificare l’intera immagine visiva in un’unica sequenza sonora, l’area occupata dall’immagine viene preliminarmente suddivisa in un certo numero di sottoaree (generalmente 5: centro, margine superiore, margine inferiore, margine sinistro, margine destro) che possono esser scelte dall’utente e che vengono restituite in uscita singolarmente.

(11)

Per ogni sottoarea il numero di pixel rispettivamente più vicini, vicini, lontani, più lontani inducono un particolare suono.

Affinché un segnale sonoro possa trasportare informazioni relative ad una particolare immagine visiva (o una parte di essa) è necessario che i parametri caratteristici del segnale sonoro siano in corrispondenza diretta con l’immagine che identificano. In altre parole, una specifica immagine è codificata in una traccia sonora con una precisa configurazione dei parametri del segnale audio stesso.

A tal proposito si possono, ad esempio, utilizzare le seguenti convenzioni per i parametri del segnale sonoro:

- Distanza: 4 frequenze (note), ognuna delle quali relativa alla specifica distanza (molto vicina, vicina, lontana, molto lontana);

- Densità dei punti: l’amplificazione (volume) della nota esprime il numero di punti per ogni distanza;

- Sottoarea: il suono continuo identifica la sottoarea centrale, mentre un suono impulsivo, dell’ordine del decimo di secondo, seleziona le sottoaree circostanti, ognuna delle quali individuata dal rispettivo tono (strumento);

L’utente può selezionare uno dei valori di soglia suggeriti per l’analisi dei margini e può, altresì, selezionare una delle modalità previste per l’analisi delle sottoaree; per esempio può scegliere di analizzare solo la sottoarea centrale, solo le sottoaree laterali, oppure tutte le sottoaree.

Si può ancora prevedere che l’utente possa selezionare anche la posizione e le dimensioni dell’area dell’immagine da restituire.

4.4 Soluzioni hardware proposte e stato dell’arte:

L’articolo che ha dato avvio alla ricerca tecnologica per la realizzazione di dispositivi di ausilio ai non vedenti che si basassero sulla codifica dell’immagine visiva in sequenze di suoni è stato quello pubblicato da Meijer nel 1992 [62].

L’implementazione del sistema richiedeva l’utilizzo di un computer connesso ad una videocamera standard. Le rappresentazioni sonore, multiplexate nel tempo e risultanti da una conversione in tempo reale immagine/suono, rappresentavano immagini su schermo con risoluzione di 64*64 pixel con 16 toni di grigio per pixel.

(12)

Il campionamento computerizzato dell’uscita del sistema e la susseguente determinazione della mappa approssimata inversa (suono/immagine) evidenziavano il mantenimento dell’informazione visiva contenuta nella rappresentazione sonora.

La figura seguente (Fig.1) illustra i principi del processo di conversione dell’immagine nella corrispondente rappresentazione sonora nel caso semplice di una matrice di 8*8 pixel con 3 toni di grigio:

Fig.1: conversione dei toni di grigio dell’immagine visiva nella corrispondente rappresentazione acustica [13]

Per un generico pixel di posizione (i,j), l’indicatore di riga i è una funzione della frequenza e l’indicatore di colonna j è funzione del tempo.

Per una data colonna j della matrice, ogni pixel appartenente alla colonna viene utilizzato per eccitare il corrispondente oscillatore sinusoidale nel range di frequenze audio.

Come si vede dalla figura la forma dell’oscillazione dipende dal livello di grigio dell’immagine: in particolare l’oscillazione degenera in una retta in corrispondenza del nero, mentre ha ampiezza massima in corrispondenza del bianco (massima luminosità). L’ampiezza dell’oscillazione è dunque funzione della luminosità del pixel.

Un pixel che si trova in una posizione i più alta rispetto al pixel sottostante (i-1) viene associato ad un oscillatore con più alta frequenza f(i) rispetto alla frequenza del pixel sottostante (f(i-1)).

Il processo prevede che gli 8 segnali oscillatori associati alla singola colonna vengano sovrapposti prima che il corrispondente pattern sonoro s(t) sia pronto per essere udito. La procedura è la stessa per ogni colonna e continua fino a quando tutte le colonne della matrice non vengano convertite in segnale sonoro.

(13)

L’interpretazione di figure semplici è pressoché immediata: per esempio una linea dritta luminosa su sfondo scuro verrà percepita come un singolo tono che aumenta d’intensità parallelamente alla scansione progressiva della linea. Immagini realistiche, invece, richiedono pattern sonori più complessi, meno immediati dei precedenti: l’apprendimento di tali pattern può avvenire, da parte dell’utente, in modo graduale e, data la relativa semplicità del processo di mappatura, può essere accessibile ad un’analisi conscia.

Le evoluzioni del sistema ideato da Meijer hanno portato alla realizzazione del prototipo del dispositivo vOICe (Fig.2), dove OIC sta per “Oh, I see!”, un sistema in grado di trasformare un’immagine di 4096 (64*64) pixel in 16 toni di grigio, convertendoli nei rispettivi suoni (le regole per la conversione sono quelle sopra illustrate) [65].

Tutti i pixel di una stessa colonna dell’immagine vengono uditi come un’unica sequenza sonora e il processo prevede che le colonne componenti l’immagine stessa vengano restituite una dopo l’altra: il risultato è l’”immagine sonora” complessiva che rispecchia l’immagine reale (osservando lo spettogramma dei suoni riprodotti si ottiene un’immagine molto simile all’originale).

Fig.2: Dispositivo vOICe (da www.seeingwithsound.com).

Per ipotizzare un utilizzo di un dispositivo di ausilio congruo alle necessità degli utenti, si deve prevedere che il dispositivo stesso possa analizzare e rendere all’utilizzatore immagini reali, ovvero forme complesse tridimensionali, aventi una certa collocazione spaziale ed eventualmente una certa direzione e velocità del moto.

Il sistema può essere pensato costituito da un numero fissato di videocamere che acquisiscono l’immagine tridimensionale, trasferendola successivamente ad un’unità di elaborazione in grado di trasformare l’immagine visiva nella corrispondente traccia sonora (Fig.3):

(14)

Fig.3: Sistema per la trasformazione dell’immagine in sequenze di tracce sonore [63,64].

Nel caso specifico vengono montate, all’interno di un elmetto posto sul capo dell’utente, 3 piccole camere CCD, di ridotte dimensioni, che possono acquisire immagini con adeguata risoluzione (viene utilizzata più di una camera per alleggerire, durante la fase di analisi dell’immagine, il processo di codifica dell’immagine 3D nell’equivalente sonoro).

Le 3 immagini acquisite dalle rispettive videocamere vengono inviate ad un computer e poi analizzate in accordo al processo di trasformazione adottato che, generalmente, prevede un algoritmo specifico per il riconoscimento dei singoli oggetti presenti nell’immagine (metodo dei segmenti) ed un altro per la determinazione della collocazione spaziale delle entità presenti nell’immagine globale (metodo delle correlazioni).

I dati 3D risultanti vengono confrontati con i modelli dell’oggetto presenti in un database per identificare quali oggetti sono presenti nell’immagine e per determinare il loro stato. Nello spazio euclideo 3D viene calcolata una matrice di trasformazione 4*4 (dalla combinazione di una matrice di rotazione 3*3 e un vettore di traslazione) che sarà la matrice da confrontare coi modelli dell’oggetto per ricavare informazioni sulla natura e lo stato dell’oggetto stesso.

Tale processo di individuazione dell’oggetto è composto da due fasi: una fase iniziale di confronto e una fase di miglioramento. Durante la fase iniziale di confronto la matrice viene calcolata, in prima approssimazione, dal confronto delle caratteristiche geometriche del modello coi dati a disposizione; un processo iterativo permette di affinare i contenuti informativi della matrice stessa, facendoli convergere, a meno di un inevitabile errore, verso un unico modello.

(15)

Attraverso questo processo l’utente può conoscere le informazioni sull’oggetto necessarie a compiere una qualche azione. L’utente può, in aggiunta, venire a conoscenza della presenza di eventuali buchi od ostacoli grazie all’analisi della collocazione spaziale degli oggetti che si deve al metodo delle correlazioni.

Quando l’oggetto è in movimento si rende necessaria un processo di descrizione del moto dell’oggetto; il risultato del processo di riconoscimento viene utilizzato come posizione iniziale dell’oggetto stesso. Per la determinazione del moto dell’oggetto si può pensare di utilizzare un algoritmo simile all’algoritmo iterativo utilizzato in fase di riconoscimento della matrice di trasformazione, in special modo nel caso in cui i margini degli oggetti presenti nell’immagine siano ben identificabili.

La posizione degli oggetti può essere ottenuta con maggior accuratezza se viene previsto, accanto all’algoritmo di riconoscimento, uno speciale hardware dedicato.

I risultati delle misure, del riconoscimento e della determinazione del moto possono, a questo punto, essere trasmessi al sistema sonoro virtuale per rappresentare l’informazione 3D visiva usando una traccia sonora.

Per la realizzazione del sistema sonoro virtuale si può prevedere l’utilizzo di un processore per lo spazio sonoro (RSS-10 della Roland) che permette di calcolare un arbitrario spazio sonoro virtuale 3D inserendo posizione, vettore di movimento e fonte sonora.

Come dispositivo d’uscita può esser scelta una cuffia che non copre interamente l’orecchio dell’utente e che, quindi, non impedisce di ascoltare o cogliere i suoni circostanti.

In aggiunta, può essere previsto un microfono che, abbinato ad un sistema per il riconoscimento vocale, permette all’utente di settare una specifica modalità del sistema semplicemente utilizzando la voce.

Si intuisce che un sistema del tipo appena descritto potrebbe risultare troppo ingombrante e, alla fine, poco pratico per l’utente, se non in particolari ambienti.

Si deve, pertanto, prevedere un sistema con le stesse caratteristiche tecniche che, in aggiunta, possa minimizzare le dimensioni dell’intero equipaggiamento richiesto e che, quindi, possa consentire all’utente di trasportarlo e muoversi in modo più comodo (Fig.4):

(16)

Fig.4: Equipaggiamento trasportabile dall’utente [66].

Il sistema consiste di una o più videocamere digitali montate sull’elmetto, cuffie stereo ed un dispositivo per l’elaborazione delle informazioni (Single Board Processing System) montato, insieme alle batterie necessarie all’alimentazione, all’interno del panciotto indossato dall’utente.

Analogamente a quanto visto in precedenza, la videocamera digitale acquisisce le informazioni visive della scena che si presenta di fronte al non vedente, l’unità di elaborazione analizza le informazioni in tempo reale e mappa l’immagine globale nei rispettivi pattern sonori i quali vengono, infine, forniti all’utente per l’interpretazione. In un sistema di questo tipo, pensato per permettere in qualche modo al non vedente di muoversi liberamente all’interno di determinati ambienti, lo scopo da perseguire nell’analisi dell’immagine visiva è la determinazione della collocazione spaziale, dell’orientazione e della dimensione degli ostacoli, piuttosto che il riconoscimento degli ostacoli stessi.

Lo sfondo della maggior parte delle immagini reali è, generalmente, più luminoso degli oggetti che compongono le immagini: se l’immagine viene trasformata in suono senza alcun “filtraggio preventivo”, il lavoro di interpretazione del suono può risultare troppo complesso [67].

Si preferisce, pertanto, in fase di analisi dell’immagine, sopprimere lo sfondo con lo scopo di analizzare con più accuratezza la struttura e lo stato degli oggetti presenti, magari procedendo ad un ingrandimento degli oggetti stessi.

(17)

Può, d’altra parte, accadere che lo sfondo contenga alcune importanti informazioni che, in caso di eliminazione dello sfondo stesso dall’analisi dell’immagine, andranno inevitabilmente perse.

Affinché si possa sopprimere lo sfondo dall’immagine e l’oggetto possa essere ingrandito ed analizzato con maggior accuratezza, è preferibile scegliere un algoritmo di analisi dell’immagine specifico (algoritmi fuzzy).

Se, ad esempio, si sceglie di scomporre l’immagine su 4 livelli di grigio (bianco, grigio chiaro, grigio scuro, nero), ad ogni immagine verranno associati 4 vettori, ciascuno di 4 componenti, in cui ognuna delle componenti descrive una particolare caratteristica dell’immagine: Xnero = [ X1, X2, X3, X4 ] Xscuro = [ X1, X2, X3, X4 ] Xchiaro = [ X1, X2, X3, X4 ] Xbianco = [ X1, X2, X3, X4 ] dove:

- X1 rappresenta il numero dei rispettivi pixel all’interno dell’immagine;

- X2 rappresenta il numero dei rispettivi pixel all’interno dell’area centrale dell’immagine in cui l’oggetto d’interesse è comunemente contenuto;

- X3 rappresenta il gradiente di distribuzione del pixel; il suo valore dipende dalla collocazione dei pixel col particolare livello di grigio all’interno dell’area dell’immagine esi calcola dalla somma dei valori di gradiente di ciascun pixel (il valore del gradiente aumenta avvicinandosi sempre più al centro dell’immagine secondo una funzione gaussiana per cui il pixel con un particolare livello di grigio situato al centro dell’immagine ha un valore più alto dei pixel con lo stesso livello di grigio situati in posizione più esterna);

- X4 rappresenta il valore di grigio del pixel (generalmente gran parte dei pixel che compongono lo sfondo dell’immagine hanno livelli di grigio più chiari rispetto a quelli associati all’oggetto).

In fase di analisi, i pixel che l’algoritmo associa all’oggetto vengono ingranditi mentre i pixel che l’algoritmo associa allo sfondo vengono soppressi.

Va notato che, per la natura del processo umano di riconoscimento dei suoni, è facile identificare e differenziare un suono di alta ampiezza all’interno di una sequenza di suoni

(18)

di bassa ampiezza [68]: dato che, in genere, lo sfondo dell’immagine occupa gran parte dell’area ed è più luminoso degli oggetti che sono contenuti nell’immagine stessa, si avrebbe una trasformazione dello sfondo in suoni ad alta ampiezza rispetto a quelli associati all’oggetto, ovvero le caratteristiche dello sfondo predominerebbero su quelle dell’oggetto di interesse.

La distribuzione della frequenza e dell’ampiezza del suono prodotto sono mostrate nella figura seguente (Fig.5), rispettivamente per l’immagine non filtrata (ovvero quella a cui non si è eliminato lo sfondo) e per l’immagine filtrata:

Immagine non filtrata Immagine filtrata

Fig.5: plot 3D dell’ampiezza del suono nei due casi di immagine non filtrata e filtrata [66].

L’immagine considerata viene dimezzata in due sottoimmagini: un’immagine di sinistra (IL) e un’altra di destra (IR).

I plot tridimensionali in cui l’asse X identifica il tempo dall’inizio del suono prodotto, l’asse Y la frequenza e l’asse Z l’ampiezza, rappresentano, rispettivamente, la distribuzione del suono prodotto, inviato all’orecchio destro (SR) o sinistro (SL) dell’utente.

Come si vede dalla figura, nell’immagine non filtrata il suono associato allo sfondo predomina su quello associato agli oggetti (la conversione in suono del bianco dello sfondo provoca un effetto dominante sul resto dell’immagine): ciò può causare confusione nella persona non vedente in fase di discriminazione dell’oggetto dallo sfondo.

(19)

Nell’immagine filtrata accade il contrario: il suono associato agli oggetti predomina su quello associato allo sfondo per cui sarà più facile per l’utente riconoscere gli oggetti stessi.

Con i sistemi sinora descritti si è voluto indicare lo schema generale e le caratteristiche di implementazione comunemente utilizzate per la realizzazione di una classe di dispositivi acustici di ausilio ai non vedenti, ovvero quelli che si basano su un processo di codifica sonora dell’immagine (Sonification).

A questa classe di dispositivi appartengono vari prototipi proposti: sia il Miniguide che il Sonic Pathfinder utilizzano sistemi sonori per discriminare gli oggetti che, potenzialmente, potrebbero ostacolare il cammino dell’utente: la distanza dell’oggetto dall’utente viene determinata dall’eco prodotto e fornita all’utente stesso sottoforma di tono sonoro con particolare grado d’intensità (all’avvicinarsi dell’utente all’oggetto, l’intensità del tono sonoro aumenta).

Il KASPA è un sistema più complesso, basato su una tecnologia sviluppata alla fine degli anni 60 da Lesile Kay [69]. Esso consiste di un emettitore di ultrasuoni FM e tre sensori piazzati lateralmente: il segnale ricevuto dall’eco viene abbinato al segnale d’uscita per produrre il suono udibile. La frequenza è inversamente proporzionale all’estensione sonora mentre il timbro sonoro fornisce informazioni circa le proprietà di riflessione dell’oggetto. Il SoundView [70,71] è un sistema che permette l’esplorazione di un’immagine attraverso l’utilizzo del tatto e dell’udito. L’immagine viene mappata su una superficie virtuale ruvida che l’utente può esplorare muovendo uno specifico puntatore dell’immagine: tale puntatore agisce come la puntina di un grammofono virtuale e il suono prodotto dipende dalla conformazione cromatica e dal moto dell’area esplorata.

4.4.1 Dispositivi che “parlano” e dispositivi che “avvisano”

Nonostante i notevoli sforzi profusi dalla ricerca scientifica nel campo dei dispositivi di codifica sonora delle immagini visive appena descritti, l’utilizzo più comune del suono in dispositivi di ausilio per non vedenti rimane ancora oggi il linguaggio sintetico: esiste una buona quantità di dispositivi in grado di fornire informazioni di tipo visivo semplicemente descrivendole all’utente in forma verbale.

Un non vedente che vuole accedere a file di testo o ad una pagina web può utilizzare software di tipo screen reader per ascoltare direttamente i contenuti delle pagine di testo che appaiono sul monitor del PC.

(20)

Uno screen reader è un software che lavora in background (residente in memoria) e che veglia sul sistema operativo attendendo la pressioni di tasti, la focalizzazione di un oggetto, l'attivazione di eventi. Ogni volta che accade una di queste azioni, esso si attiva, prende visione di ciò che è accaduto, memorizza i dati che sono stati modificati, li trasferisce al sintetizzatore, software o hardware, il quale li riproduce vocalmente.

Uno screen reader si comporta, quindi, col contenuto della schermata allo stesso modo in cui il software OCR (Optical Character Recognition) fa con il testo passato allo scanner pixel per pixel: esso cerca la lettera e altri simboli noti confrontandoli con un proprio database; quando li trova vi associa il corrispondente codice ASCII ed eventualmente l'emissione vocale.

Esempi di screen readers sono JAWS, Hal, Window-Eyes, Simply Talker, VIRGO e WinVision.

Sovente si tende ad abbinare gli screen-readers a specifici ausili alla navigazione di rete che permettono all’utente sia di accedere ai contenuti testuali, sia di focalizzare la struttura topologica della pagina web.

Grazie a questi ausili la National Federation of the Blind’s Newsline permette l’accesso ai principali quotidiani: utilizzando un telefono touch-tone, gli utenti possono selezionare una particolare sezione di interesse, scegliere articoli da leggere ed effettuare ricerche per parole chiave.

Una persona non vedente ben equipaggiata potrebbe, in teoria, usufruire delle informazioni di un coro di voci sintetiche riguardanti qualsiasi azione di particolare interesse: oggi, per esempio, sono disponibili audio descrittivi per non vedenti che vogliano seguire programmi televisivi, film, e spettacoli dal vivo.

Si potrebbe, pertanto, immaginare un’estrapolazione futura di tale tecnologia che, combinata con lo sviluppo di macchine “intelligenti” e col linguaggio sintetico, potrebbe supportare i non vedenti con una descrizione continua degli oggetti e degli eventi all’interno dello specifico ambiente.

Anche se non tutte le informazioni vengono restituite in forma ottimale servendosi di una descrizione verbale, l’uso intelligente del suono ha la notevole capacità di creare un’immagine dinamica ricca dell’ambiente circostante.

Esiste una classe di dispositivi che, in particolari ambienti e determinate situazioni, utilizzano segnali udibili per avvertire l’utente. Alcuni sono piuttosto semplici: il “Boil Alert” è un anello di vetro che urta contro il coperchio della pentola quando l’acqua raggiunge l’ebollizione. Esistono, ad esempio, dispositivi che attivano un segnale sonoro di

(21)

allarme quando il liquido in un bicchiere o in una tazza raggiunge un livello fissato, o che producono un impulso sonoro per ogni unità di insulina caricata in una siringa.

Sistemi di segnalazione sonora più complessi includono, ad esempio, campanelli indicatori di piano in un ascensore o segnalatori di passaggi pedonali. Questi ultimi sono ormai diventati molto comuni nell’ambiente urbano e, per essi, sono vengono previsti standard precisi.

I sistemi di segnalazione sonora sono i più semplici dispositivi di ausilio ai non vedenti che utilizzano un suono: l’informazione segnalata è tipicamente binaria ma la fonte sonora stessa, che per costruzione va intesa ferma, fornisce informazioni implicite aggiuntive sulla sua collocazione nell’ambiente.

La segnalazione sonora, quindi, può fornire fondamentali blocchi informativi al non vedente per la costruzione dell’intero ambiente sonoro e per la sua corretta interpretazione.

4.5 Conclusioni:

Come si è visto, gli utilizzi che si possono fare del suono nel campo degli ausili per non vedenti sono molteplici: segnalazioni specifiche, lettura di un file di testo, descrizione verbale di un’immagine, acquisizione di un’immagine reale e identificazione degli oggetti all’interno di un ambiente.

L’odierna ricerca in questo campo si è principalmente orientata verso lo sviluppo di sistemi complessi ad interfacce acustiche che possano, in qualche modo, supportare l’utente nell’individuazione dell’ambiente circostante in modo da consentire all’utente stesso un’adeguata conoscenza dell’ambito in cui eventualmente si muove ed opera.

Il suono, grazie alla varietà dei suoi parametri indicativi, permette di realizzare interfacce molto flessibili in grado di trasferire all’utente informazioni piuttosto accurate dell’ambiente che lo circonda. In teoria, dunque, almeno a livello informativo, ciò che il canale visivo toglie alla persona non vedente, può essere restituito con un inevitabile grado di approssimazione, dal canale uditivo.

Il successo dei dispositivi acustici di ausilio dipende, innanzitutto, dal grado di apprendimento dell’informazione sonora da parte dell’utente: maggiori sono le informazioni trasferite, più fine deve essere la capacità di discriminazione dei singoli suoni o delle singole sequenze sonore da parte dell’utente. Si deve, dunque, prevedere che l’utente, oltre a memorizzare e riconoscere istantaneamente quelle tracce sonore “fondamentali” la cui combinazione andrà a formare l’immagine totale, affini il senso dell’udito anche a piccole variazioni di durata, intensità, tono, volume del suono.

(22)

Lo sforzo richiesto all’utente, ammettendo che si possa raggiungere un adeguato grado di apprendimento, è certamente gravoso e questo rappresenta anche un valido motivo alla non eccessiva diffusione di dispositivi di questo tipo tra i non vedenti.

Dal punto di vista puramente implementativo, si può intuire che un sistema risultante dalla combinazione di interfacce sonore per il riconoscimento dell’immagine e di software per la descrizione sintetica vocale, può rappresentare un dispositivo di ausilio molto potente: in teoria, infatti, l’interfaccia può fornire una descrizione sufficientemente accurata delle dimensioni e della conformazione dell’ambiente in cui l’utente si trova e il supporto vocale può descrivere più dettagliatamente una qualche caratteristica di interesse.

I suoni utilizzati devono essere comprensibili e semplici da ricordare; ogni singolo suono o sequenza identificativa deve, inoltre, essere facilmente distinguibile dalle altre all’interno dell’ambiente sonoro. Questo significa, a livello realizzativo, utilizzare processi di conversione sonora dell’immagine molto accurati e precisi, ovvero processori molto potenti, e dispositivi di restituzione del segnale sonoro molto puliti, con inevitabili conseguenze in termini di eccessive dimensioni e costi poco accessibili per l’intera apparecchiatura.

Le difficoltà di realizzazione aumentano all’aumentare delle funzioni richieste al sistema: analizzare immagini statiche è certamente meno gravoso che analizzare immagini che variano dinamicamente. All’unità di elaborazione sarà, in quest’ultimo caso, richiesta una velocità di calcolo e una densità d’informazione restituita più alta.

Gli studi recenti sono orientati verso la realizzazione di sistemi ad interfacce acustiche che siano di dimensioni adeguate ad un comodo trasporto da parte dell’utente e che abbiano prestazioni soddisfacenti e costi relativamente contenuti.

La ricerca indirizzata alla comprensione della percezione sonora ed all’applicazione dei principi di trasformazione dell’immagine visiva in una sequenza globale di tracce sonore è in fase di crescita: essa si pone l’obiettivo primario di focalizzare le modalità con le quali i non vedenti percepiscono il loro mondo attraverso il suono. Una conoscenza più accurata del processo di percezione permetterebbe, infatti, l’ideazione e la costruzione di modelli di conversione più idonei e realistici nonché dispositivi di ausilio più consoni ed efficienti.

Riferimenti

Documenti correlati

• Il dispositivo subacqueo di acquisizione immagini dovrà essere concepito in modo che la frequenza di acquisizione delle immagini e della trasmissione dei report periodici possa

manuale identità visiva università degli studi di fir manuale identità visiva università degli studi di firenze Logo nero (versione positiva)A. uso corretto

Le azioni di movimento, variazione e ritmo, tipiche del basic design, sono alcune delle principali caratteristiche di una serie di progetti d’identità dinamica già

Qualora si effettui, invece, un confronto con i risultati delle corrispettive ROI circolari con tracciamento automatico si nota che i valori sono minori, ad eccezione della numero 3,

Keyword: hyperchaotic financial system; dynamic analysis, entropy analysis, fuzzy disturbance- observer based integral terminal sliding mode control method; dynamic

1 - L'alunno realizza elaborati personali e creativi sulla base di un'ideazione e una semplice progettazione, applicando le principali conoscenze e regole del linguaggio

Talora l'immagine appare appunto totalmente risolutiva, talora invece (come nel caso di Paolo) la pulsione, per soddisfarsi, ha necessità di trovare anche una via di

E proprio per non esser-si placato, perché l'incontro con la 'vergine dissoluta' non si era trasformato nel letterale godimento 'dissoluto' di una relazione extraconiugale; proprio