Software speaker-dependent e speaker-independent

Capitolo 2. Il riconoscimento del parlato

2.2 Funzionamento dei software di riconoscimento del parlato

2.2.2 Software speaker-dependent e speaker-independent

I sistemi di riconoscimento del parlato si dividono in due categorie: speaker-dependent e

speaker-independent.

2.2.2.1 Software speaker-dependent

I software speaker-dependent, o “speaker-specific” (Evans, 2003) vengono “addestrati” a riconoscere il modo di parlare di un determinato utente. In altre parole, apprendono e si adattano all’input vocale della persona che ne fa uso.

Poiché per sua stessa natura “il parlato varia con il genere, l’età, la provenienza geografica dell’interlocutore” (Sturari, 2012: 12), ciò si traduce, tra gli altri, in timbri, velocità d’eloquio, accenti e pronunce diversi da una persona all’altra. Per tale motivo, può risultare estremamente difficile per un software di ASR riconoscere input vocali così eterogenei. Questo tipo di software, calibrando il sistema sulla voce di una singola persona, e presupponendo che questa non modifichi nel tempo il proprio modo di esprimersi in maniera significativa, riduce drasticamente la quantità di errori imputabili al riconoscimento.

Per poter essere definito speaker-dependent, un software necessita di una sessione di addestramento, o training. In un primo momento, il sistema chiede all’utente di creare il proprio profilo vocale: questi legge un brano già presente nella memoria del software davanti a un microfono “con voce e velocità naturali” (Falletto, 2007: 53). In questo modo, il sistema registra e analizza la voce dell’utente al fine di ottenere alcune informazioni fisiche relative al suo modo di pronunciare le parole (timbro, prosodia, volume, tono, ritmo, ecc.). Dopo aver appreso le caratteristiche vocali dell’utilizzatore, il programma richiede un elenco di documenti (in diversi formati) scritti dall’utente stesso, per memorizzare il lessico, le strutture sintattiche da lui impiegate, le sue abitudini linguistiche, ecc. Successivamente, il programma esegue il test audio dell’ambiente circostante per “permettere al software di distinguere il

- 45 -

brusio di sottofondo (riverbero, rumori esterni continui, ecc.) dai suoni fonetici emessi dalla voce dell’utente” (Eugeni, 2008: 19). L’addestramento, poi, può proseguire anche durante l’utilizzo vero e proprio del software, nel caso in cui il programma non dovesse riconoscere correttamente una parola: l’utente la digita in un’apposita finestra e ne registra la pronuncia corrispondente, in modo che il programma crei un nuovo file vocale che abbini pronuncia e trascrizione di tale parola e che verrà inserito nel vocabolario di base. Questo meccanismo permette di tenere traccia delle correzioni effettuate dall’utente per evitare che, in un secondo momento, “gli stessi termini siano nuovamente riconosciuti in maniera scorretta” (Eugeni, 2008: 21), per cui si può dire che il software impari dagli errori commessi. Nell’effettuare il

matching dell’input vocale con l’enunciato corrispondente, il software confronta i risultati da

lui generati con i file vocali basati sul modo di parlare dell’utente. Grazie a tali caratteristiche, i sistemi di riconoscimento speaker-dependent offrono generalmente i risultati migliori in termini di precisione: tali software presentano un’accuratezza che può raggiungere il 98% (Falletto, 2007: 63).

2.2.2.2 Software speaker-independent

I software speaker-independent, a differenza di quelli speaker-dependent, non sono legati alla pronuncia di una determinata persona, ma permettono il riconoscimento di un parlato generico, indipendente dall’utente. Per questo motivo, tali sistemi non richiedono nessuna sessione di addestramento iniziale, ma possono essere utilizzati direttamente da qualsiasi utente.

Pertanto, il vocabolario di base di tali programmi è costituito da migliaia di registrazioni di voci appartenenti a diverse persone. Infatti, poiché sono progettati per essere utilizzati da chiunque, è necessario insegnare a tali sistemi tutti i diversi modi in cui ogni singola parola può essere pronunciata. Concretamente,

[...] non potendo effettuare il training sul parlatore, la complessità si sposta verso il database, che diventa molto grande e oneroso da costruire. Devono essere elaborate molte migliaia di ore di materiale audio con parole note, pronunciate da persone diverse.

(Falletto, 2007: 55)

Non disponendo del modello vocale di un unico utente, ma dovendo riconoscere input vocali che possono essere estremamente diversi l’uno dall’altro, i sistemi speaker-independent hanno una precisione inferiore rispetto a quelli speaker-dependent.

- 46 -

2.3 Impieghi

L’ASR cominciò a essere utilizzato negli anni Settanta. All’inizio, era stato ideato per determinati settori in cui le persone avevano bisogno di trascrivere un testo orale (ad esempio, quello politico, giuridico, meccanico, ecc.), ma per diversi motivi, ad esempio la necessità di avere il testo scritto in tempi brevissimi, l’impossibilità di usare le mani, ecc., non potevano utilizzare le altre tecniche esistenti.

Al giorno d’oggi, il riconoscimento del parlato è una tecnologia ampiamente diffusa, che trova applicazione in svariati ambiti, compresa la sfera quotidiana.

Innanzitutto, l’ASR trova applicazione in computer e tablet. I sistemi di riconoscimento del parlato, abbinati al modulo di trascrizione, vengono utilizzati per la dettatura vocale, ovvero vengono impiegati al posto della tastiera per dettare mail o altri documenti al computer in qualsiasi editor di testo (Notepad, Word, OpenOffice o la casella di testo di un programma di posta elettronica). Attualmente esistono diversi sistemi di dettatura: dai software professionali, a pagamento, ai servizi online gratuiti, che funzionano direttamente dal browser. Tra i programmi per la dettatura vocale al computer vi sono: Dragon NaturallySpeaking di Nuance, ViaVoice di IBM, Dictation, TalkTyper, XVoice, il sistema di dettatura vocale di Windows, quello di macOS, ecc.

Il riconoscimento del parlato trova applicazione anche negli smartphone. Tale tecnologia, ad esempio, permette di effettuare chiamate dettando il numero di telefono a voce, senza doverlo necessariamente digitare. Abilitando il riconoscimento del parlato, inoltre, è possibile dettare un testo al proprio smartphone, evitando di doverlo scrivere manualmente: può trattarsi di un SMS, un tweet, uno stato da caricare su un social network, un’email o un vero e proprio documento. Per i dispositivi dotati del sistema operativo Android, poi, l’applicazione Google Voice Search “fornisce all’utente la possibilità di effettuare una ricerca sul web pronunciando a voce le parole chiave” (Sturari, 2012: 15). Infine, sempre più smartphone sono dotati di bot (abbreviazione di robot), assistenti virtuali a cui è possibile chiedere informazioni semplicemente ponendo loro delle domande e che riescono a rispondere e a soddisfare le richieste dell’utente. Tra i bot più conosciuti vi è Siri, l’assistente digitale sui dispositivi Apple, e l’app Ask Ziggy su Windows Phone.

Un altro ambito di applicazione dell’ASR è costituito dalle automobili. Alcuni modelli, infatti, sono dotati di funzioni attivabili tramite comandi vocali, che permettono di comandare

- 47 -

con la voce il computer di bordo dell’auto per effettuare chiamate, selezionare una stazione radio, selezionare una canzone dallo smartphone o da una chiavetta USB, utilizzare il sistema di navigazione satellitare, ecc. I modelli più recenti, poi, possiedono un sistema che riconosce il parlato naturale, grazie al quale l’utente non deve necessariamente memorizzare i diversi comandi vocali, ma può utilizzare frasi comuni per comunicare con la propria auto.

Il riconoscimento del parlato viene utilizzato anche in televisione, per la produzione di sottotitoli in diretta. Tale tecnica è conosciuta come respeaking e consente di dare accesso a programmi televisivi o film in tempo reale a coloro che non possono fruirne (ad esempio, audiolesi o stranieri). Il respeaking può essere intralinguistico (ed è quindi la trascrizione del TP nella stessa lingua) oppure interlinguistico (questo tipo di respeaking prevede una traduzione del TP in tempo reale e può essere pertanto considerato una modalità ibrida di interpretazione simultanea). Anche se il respeaking interlinguistico è poco utilizzato, ne sono state documentate alcune esperienze (Marsh, 2006; De Korte, 2006). Al fine di comprendere meglio in che modo la tecnologia di ASR venga utilizzata per produrre i sottotitoli in diretta, è necessario illustrare brevemente la tecnica del respeaking. Il respeaker, mentre ascolta il testo di partenza prodotto da un oratore (ad esempio, dal conduttore di un telegiornale), lo ripete o lo traduce a voce alta, dettandolo a un software di riconoscimento del parlato, che trasforma il testo orale in testo scritto, ovvero in sottotitoli. In realtà, il respeaker non ripete passivamente il testo di partenza, ma lo riformula, apportando determinate modifiche e accorgimenti espressivi affinché il testo di arrivo sia funzionale al software di ASR e appaia adatto al formato di sottotitolo. In Gran Bretagna, il riconoscimento del parlato viene impiegato per la produzione di sottotitoli in tempo reale sia dalla televisione privata, che da quella pubblica (BBC) dal 2001: “For several years the BBC has been using speaker-independent speech recognition to assist television subtitling” (Evans, 2003). Il successo ottenuto dall’emittente di Stato britannica ha portato altre realtà in tutto il mondo ad adottare il respeaking per sottotitolare diverse tipologie di programmi televisivi.

L’Automatic Speech Recognition viene impiegato anche dai call center automatici. Questa tecnologia permette ai clienti di interagire con il sistema come farebbero con un operatore reale. Sul mercato sono disponibili diversi software che garantiscono precisione nel riconoscimento, incentivando così conversazioni naturali tra il cliente e il sistema. Inoltre, in passato i call center automatici, per rispondere al cliente, si avvalevano di registrazioni di una voce professionale. Oggi, invece, si utilizza sempre più spesso la sintesi vocale. Grazie ai

- 48 -

progressi raggiunti nell’ambito di tale tecnologia, i sistemi di sintesi vocale offrono un portafoglio vocale diversificato, disponibile in numerose lingue e voci personalizzate.

Infine, un ulteriore ambito di applicazione del riconoscimento del parlato è quello della domotica, o home automation. Poiché sempre più elettrodomestici avranno la possibilità di connettersi stabilmente a Internet e potranno essere gestiti tramite comandi vocali, in un futuro più o meno prossimo si potrà interagire quotidianamente con i propri elettrodomestici grazie al sistema di ASR. Il riconoscimento del parlato potrà essere impiegato, ad esempio, per impostare il forno, per accendere, regolare e spegnere la luce, l’aria condizionata o il riscaldamento, per avviare un ciclo di lavatrice, ecc.

Quelli sopra elencati costituiscono solo una parte della totalità degli impieghi (presenti e futuri) di questa tecnologia. L’ASR trova applicazione in numerosi ambiti perché presenta diversi vantaggi. In primo luogo, il riconoscimento avviene in genere in pochi secondi: ciò permette di velocizzare i tempi di scrittura di qualsiasi tipo di testo rispetto alla digitazione manuale. In secondo luogo, tale tecnologia consente di svolgere diverse attività contemporaneamente: ad esempio, mentre si sta cucinando o guidando, è possibile impostare il forno con la voce o scrivere un SMS dettandone il testo al computer di bordo dell’auto. Inoltre, in un software dedicato all’ASR, il riconoscimento è generalmente disponibile in molte lingue: ogni sistema, pertanto, è molto versatile e può essere utilizzato da un numero molto elevato di persone. Infine, si continua a investire su questa tecnologia perché, grazie ai risultati incoraggianti ottenuti nel corso degli anni, offre prestazioni sempre migliori. Negli anni Cinquanta, ad esempio, negli Stati Uniti vennero ideati i primi software, definiti “a parlato isolato” (Cecchi, 2013: 5), che erano in grado di riconoscere solamente parole singole, appartenenti a un set limitato di vocaboli. Oggi, invece, grazie ai progressi in questo campo e all’aumento della potenza di calcolo dei computer, i sistemi di ASR permettono all’utente di parlare in modo naturale, a una velocità normale e riconoscono quanto pronunciato con un buon livello di accuratezza: si tratta, quindi, di riconoscitori “a dettatura continua” (Falletto, 2007: 62) o “a parlato continuo” (Cecchi, 2013: 5). Grazie alle caratteristiche che presentano, i sistemi di riconoscimento del parlato sono impiegati in numerosi ambiti. Sempre più spesso, viene dunque meno la necessità di utilizzare interfacce utente come tastiere, interruttori o superfici touch. Avere la possibilità di “parlare” ai propri dispositivi (computer, tablet, smartphone, elettrodomestici, ecc.) è un traguardo importante nell’evoluzione della tecnologia. Dieci anni fa, ciò era già stato previsto da molti esperti, i quali erano convinti che

- 49 -

il riconoscimento del parlato avrebbe costituito “il nocciolo dell’interfaccia Uomo-Macchina del futuro” (Falletto, 2007: 64).

Nel documento La tecnologia Speech-to-Text nell’interpretazione simultanea dal francese verso l’italiano: indagine sperimentale sulla qualità (pagine 50-55)