• Non ci sono risultati.

Capitolo 2. Il riconoscimento del parlato

2.4 La Digitazione Vocale di Google Document

Uno dei numerosi servizi di riconoscimento del parlato disponibili sul mercato è la Digitazione Vocale di Google Documenti (in inglese Google Docs). Nonostante esista una vasta gamma di sistemi opensource e commerciali, gratuiti e a pagamento, dedicati all’ASR, questa sezione dell’elaborato si focalizza in modo particolare su tale strumento perché, come indicherò nel prossimo capitolo, verrà utilizzato durante l’esperimento previsto dalla ricerca. La Digitazione Vocale di Google Documenti si basa sulla tecnologia Speech-to-Text: l’input vocale prodotto dall’oratore, dopo essere stato riconosciuto, viene trasformato in testo scritto.

Google Documenti è un servizio online sviluppato da Google Inc., gratuito per utenti privati e a pagamento per le aziende e che non necessita di software aggiuntivi per funzionare. È un’applicazione web di Google inclusa in una suite per ufficio chiamata Google Apps for

Work. Quest’ultima comprende diversi prodotti e servizi, tra cui altre applicazioni web di

Google come Gmail, Google Calendar, Google Drive, Presentazioni, Fogli, ecc. Si tratta di uno dei molti servizi di cloud computing offerti da Google. Google Docs può essere utilizzato da computer, ma anche da smartphone e tablet, dopo aver scaricato l’app gratuita Documenti.

Nello specifico, Google Docs è un programma di elaborazione testi che consente di redigere documenti e condividerli con altri utenti. Un documento può essere aperto contemporaneamente dalle diverse persone con le quali è stato condiviso: queste possono lavorare sul testo e vedere le modifiche apportate dagli altri utenti in tempo reale. Tutti i documenti creati con Google Docs sono salvati per impostazione predefinita su Google Drive: ciò è possibile perché tutti i dati vengono inviati automaticamente ai server di Google.

Google Documenti funziona anche senza connessione su computer, tablet e smartphone: quando si è offline è possibile creare e modificare un documento, che però viene salvato solamente sul dispositivo in uso. Infatti, se tale documento è aperto contemporaneamente sui dispositivi di altri utenti, questi non riescono a vedere le modifiche apportate al testo fino a quando il dispositivo in questione non si riconnette a Internet. Infatti, non tutte le opzioni incluse in Google Docs funzionano offline.

- 50 -

Google Documenti costituisce un servizio particolarmente interessante ai fini della ricerca perché include una funzione di dettatura chiamata Digitazione Vocale (in inglese

Voice Typing), che permette di redigere testi sfruttando il riconoscimento del parlato di

Google. La Digitazione Vocale è stata introdotta da Google nel settembre 2015. Attualmente, è disponibile solo nei browser Chrome o sull’app Documenti nei dispositivi portatili Android e iOS. Si tratta di una funzionalità già inclusa in Google Docs e non di un componente aggiuntivo.

La Digitazione Vocale di Google Documenti si basa su un software speaker-independent: non richiede quindi un addestramento iniziale per apprendere il modello vocale dell’utente che ne fa uso, ma può essere utilizzato direttamente da chiunque. Inoltre, si tratta di un riconoscitore a parlato continuo, che riconosce flussi di parole pronunciate a una velocità naturale e non semplicemente singole parole o brevi enunciati. La Digitazione Vocale è disponibile in 90 lingue e accenti diversi: per la lingua inglese, ad esempio, può essere selezionato l’accento australiano, neozelandese, canadese, statunitense, britannico, irlandese, indiano, filippino e sudafricano. Si tratta, però, di una delle funzioni di Google Docs che non può essere utilizzata offline, ma che richiede una connessione a Internet perché i dati relativi all’input vocale vengono continuamente inviati ai server di Google: l’elaborazione dei dati, infatti, viene effettuata da tali server e non dal computer locale.

Per utilizzare la Digitazione Vocale è necessario, innanzitutto, attivare il microfono del computer (o collegarne uno esterno) e aprire un nuovo file su Google Documenti. Selezionando la voce Digitazione Vocale dal menu Strumenti, appare un pop-up con il simbolo di un microfono, come mostrato in Figura 2.

- 51 -

Cliccando sull’icona (che diventerà rossa) si attiva il microfono e si avvia la dettatura vocale.

Figura 3. Schermata della funzione Digitazione Vocale di Google Documenti con il microfono attivo.

A questo punto, l’utente può iniziare a dettare parlando “in modo chiaro, a un volume e ritmo normali” (Google, 2017). Nel punto in cui è stato posizionato il cursore inizierà a comparire la trascrizione del testo pronunciato così come viene riconosciuto dal modulo di ASR. Se l’utente commette un errore mentre sta dettando il testo o il software non riconosce correttamente una o più parole, l’utente può correggere la parte del testo in questione senza dover necessariamente disattivare il microfono. Inoltre, è possibile aggiungere i segni di punteggiatura al testo pronunciando alcune espressioni predefinite durante la dettatura (ad esempio, Punto, Virgola, Punto esclamativo, Punto interrogativo, Nuova riga, Nuovo paragrafo). Oltre a ciò, è possibile utilizzare alcuni comandi vocali per modificare il documento: ad esempio, i comandi vocali permettono di selezionare una o più parole o tutto il testo, formattarlo (inserire il grassetto, il corsivo, lettere maiuscole, apici, pendici, ecc.), aggiungere colonne o tabelle, creare elenchi, spostare il cursore all’interno del documento, interrompere e riattivare la digitazione vocale, ecc. Tuttavia, a differenza della punteggiatura che è disponibile in diverse lingue, i comandi vocali attualmente supportano solo l’inglese. Quando l’utente ha finito di dettare il proprio testo, può cliccare nuovamente sull’icona del microfono per disattivarlo.

Come indicato all’inizio di questo capitolo, per valutare le prestazioni di un software di riconoscimento del parlato si ricorre generalmente a due parametri: l’accuratezza e la velocità. Per quanto riguarda l’accuratezza della Digitazione Vocale di Google Documenti, il modulo di ASR di Google presenta un buon livello di precisione. Secondo Nasi,

- 52 -

Il sistema è in grado di riconoscere qualunque frase, anche le più tecniche ed articolate, indipendentemente dal timbro dell'utente e senza una preventiva attività di addestramento. Per migliorare il riconoscimento vocale, sebbene siano da preferire i luoghi più silenziosi, il sistema di Google è in grado di isolare il parlato dal rumore di fondo.

(Nasi, 2015)

Inoltre, il riconoscitore non mostra particolari problemi nell’elaborare un input vocale dettato a bassa voce (Nasi, 2015). Tuttavia, nonostante i commenti positivi di molti esperti riguardo all’accuratezza dimostrata dal riconoscimento di Google, in letteratura è stato sottolineato a più riprese che la Digitazione Vocale di Google Documenti non eguaglia la precisione offerta, ad esempio, da Dragon NaturallySpeaking. A questo proposito, però, è doveroso puntualizzare che il primo è un software gratuito e speaker-independent, mentre il secondo è a pagamento e speaker-dependent. Poiché le condizioni di partenza del riconoscimento sono molto diverse, la qualità dell’output dei due software risulta essere differente.

Oltre a ciò, le prestazioni della Digitazione Vocale di Google Docs possono essere valutate positivamente anche in termini di velocità di riconoscimento e trascrizione dell’input vocale. Sturari, ad esempio, parla di “tempi di risposta decisamente rapidi” (2012: 15). Il testo pronunciato, infatti, viene riconosciuto e trascritto con un brevissimo scarto temporale rispetto al momento della sua produzione orale: secondo Esposito, con la Digitazione Vocale di Google “the text will appear in real time” (2017).

In conclusione, la funzione Digitazione Vocale di Google Documenti costituisce un buono strumento nel panorama dei servizi di riconoscimento del parlato disponibili sul mercato. Secondo Sturari, l’ASR di Google garantisce buoni risultati perché la chiave del funzionamento del sistema “risiede nell’avere a disposizione enormi centri di calcolo con immense quantità di dati immagazzinate” (Sturari, 2012: 15). Inoltre, come precedentemente indicato, la qualità generale offerta dal riconoscitore del parlato di Google è dovuta anche all’impiego delle reti neurali ad apprendimento profondo (cfr. 2.2.1, p. 35). Sono notevoli gli sforzi profusi da Google per cercare di migliorare continuamente la tecnologia alla base dei propri servizi dedicati all’ASR. Infatti, come afferma Mike Cohen, a capo della speech

technology di Google,

We want to make speech ubiquitously available input/output mode, so that whenever the end user feels like that's the mode by which I want to interact, we want it to be available, and available with such high performance that when they prefer speech, they just naturally use it.

- 53 -