Valutazione dei sistemi automatici di interazione linguistica in italiano – Modulo A
4. Da Alexa a Google Home
Linguistica italiana II Mirko Tavosanis
A. a. 2018-2019
10 ottobre 2018
Oggi
Continua la panoramica sugli strumenti disponibili al singolo utente:
• Alexa
• Google Home
• Prima, però, un avviso: niente lezione domani,
ma vi chiedo di partecipare a un evento venerdì
Da HAL all’assistente vocale
• Museo degli strumenti per il calcolo (Vecchi Macelli, vicino alla Cittadella), Palazzina A1, venerdì 12 ottobre, dalle 15 alle 18
• Introduzione: ore 15
• 15:10-15:30 – Franco Cutugno
Interazione Naturale Multimodale: uomini e avatar che dialogano in ambienti virtuali tridimensionali
• 15:30-15:50 – Roberto Basili
Linguaggio naturale, apprendimento nelle macchine e robotica
• 15:50-16:10 – Maria Palmerini
Il riconoscimento del parlato: applicazioni, criticità e pregiudizi
• 16:10-17:00 – Tavola rotonda
Relatori e relatrici: Franco Cutugno, Mirko Tavosanis, Roberto Basili, Maria Palmerini, Roberto Pieraccini, Carlo Aliprandi
• 17:00-18:00
Demo della Guida Museo con Google Home.
Valutazione delle lingue
• Alexa non è disponibile in italiano ma può essere usata in Italia, con le lingue già supportate
• Provare a usare il sistema in lingua straniera (per esempi, in inglese) è interessante
• Mi sembra che vengano interpretate correttamente anche molte pronunce lontane dallo standard
• Per valutare le capacità, occorre innanzitutto una buona valutazione della lingua di chi interagisce con il sistema; non la faremo ora, ma mi sembra che il cambiamento di persona abbia conseguenze di rilievo, non del tutto dipendenti dalla qualità della pronuncia – persone diverse sembrano avere risultati diversi
• Preparatevi una domanda a testa!
Coniam (1999)
This paper explores the potential of the use of voice recognition technology with second language speakers of English. The study is a development of an earlier study conducted with a small group of native speakers (Coniam, 1998a, TEXT Technology 8.). The current study involves the analysis of the output produced by a small group of very competent second language subjects reading a text into the voice recognition software Dragon Systems ‘Dragon Naturally Speaking’. As the program is speaker-dependent and has to be trained to recognise each person's voice, subjects first spent about 45 minutes reading a training text of some 3800 words. As the test text, they then read a second text consisting of 1050 words. The output produced by the software was analysed in terms of words, sub-clausal
units, clauses and t-units. In terms of accuracy, the second language speakers' output on each category of analysis was significantly lower than that achieved by the native speakers. Nonetheless, the results were consistent in line with the
native speakers' scores; i.e. that the highest accuracy scores were achieved at the lowest (and most discrete) level of analysis, the word level, and the lowest scores at the t-unit, or sentence level of analysis. The paper concludes that voice
recognition technology is still an at early stage of development in terms of
accuracy and single-speaker dependency. Nonetheless, the fact that consistent results have emerged suggests that the development of an assessment tool, such as a reading aloud test via voice recognition technology and determining a score through an analysis of the output, may be a testing procedure with potential.
https://doi.org/10.1016/S0346-251X(98)00049-9
Controlli con Alexa
• Suleila Moussalli and Walcir Cardoso, Can you understand me?
Speaking robots and accented speech, in Kate Borthwick, Linda Bradley, Sylvie Thouësny (eds.). CALL in a climate of change:
adapting to turbulent global conditions - short papers from EUROCALL 2017, 2017, 978-2-490057-04-7, pp. 217-221.
<https://doi.org/10.14705/rpnet.2017.eurocall2017.9782490057047>.
<hal-01654066>
• Una descrizione un po’ vaga nei dettagli (e nelle informazioni linguistiche), ma interessante
• Gli autori dichiarano che, diversamente da quanto rilevato poco prima, la capacità del sistema di trascrivere correttamente il parlato era buona
• Soprattutto: lo studio può essere ripetuto in modo piuttosto semplice
• Non mi sembra ci siano ancora state valutazioni di «accento italiano con prodotti commerciali tipo Alexa»
Domande
• Occorre dire come prima cosa «Alexa»
• Poi, la domanda in inglese
• Per esempio: «Alexa, what time it is?»
• Le aree coperte sono poche (ne abbiamo parlato la settimana scorsa), ma fate qualche prova
Apple Homepod
• In distribuzione mondiale dal 9 febbraio 2018
• Si colloca in una fascia di prezzo superiore, rispetto ai prodotti Amazon e Google
• Integra Siri come assistente, con funzioni un po’ più limitate rispetto a Siri su iPhone e simili
• La qualità del suono viene descritta come il suo vantaggio principale rispetto a Echo o Google Home
• Esistono anche dispositivi indipendenti che promettono
alta qualità del suono integrandosi con Alexa o Google per la parte
di «intelligenza»: per esempio, il SonosOne di Sonos, che usa Alexa e prevede l’aggiunta
dell’assistente di Google
Google Home
• Il concorrente principale della famiglia Echo, anche se ancora molto in minoranza
• Introdotto sul mercato negli Stati Uniti nel novembre 2016, con estensione a molti paesi nell’anno successivo
• Introdotto sul mercato italiano il 27 marzo 2018
• Per l’interazione con l’utente usa l’Assistente di Google
• Le possibilità sono notevoli, visto l’inserimento nell’ecosistema di Google
• Disponibile nelle versioni completa e «Mini»
• Importante: c’è il supporto per l’italiano!
Google Home
Alcune caratteristiche dell’interfaccia
• Per il momento è sempre necessaria una frase di attivazione («Ehi, Google» / «OK, Google»), a parte alcune domande di follow-up
(sempre più numerose man mano che lo sviluppo procede)
• «Ehi, Google, che tempo fa?»
• «E domani? / Ehi, Google, e domani?»
• Esiste un’integrazione con altri tipi di informazione: «Ehi, Google, che tempo farà a Pasqua?» ma non «Ehi, Google, che tempo farà a Pasquetta?»
• Domande enciclopediche:
• «Ehi Google, chi è Roberto Fico?»
• Esito insoddisfacente: «Ehi, Google, che altre notizie hai su Roberto Fico?»
• C’è integrazione con Wikipedia
• Per la funzione «definizione» Google Home si serve quasi sempre del dizionario Devoto-Oli usato da WordReference
• In alcuni casi si basa sui risultati di una ricerca online
Prova domande
Provate a chiedere:
• «che cosa vuol dire…»
• «che tempo fa a… [nome di una città]»
• «che cos’è un…»
Più quello che vi viene in mente!
Qualità della voce?
• Proviamo a fare un confronto con Alexa: vi sembra che la voce
dell’assistente di Google sia migliore o peggiore di quella di
Alexa?
Qualità della voce?
• Proviamo a fare un confronto con Alexa: vi sembra che la voce dell’assistente di Google sia migliore o peggiore di quella di Alexa?
• A me sembra che la qualità sia leggermente inferiore, in particolare per la presenza di alcune pause che non si troverebbero nel parlato umano
• Tuttavia, forse solo un madrelingua può notare davvero
incertezze di questo tipo
Valutazione
• Come facciamo a dire se Google Home è meglio o peggio di Amazon Echo? O di Siri…
• Un punto di partenza sono le liste delle funzioni
• Una volta preparata una lista delle funzioni, diventa possibile usare una registrazione per preparare schemi di domande da sottoporre a più di un assistente
• Esistono anche complicazioni pratiche. Per esempio, per una
confrontabilità piena occorre registrare a parte le frasi di attivazione, cambiandole a seconda del dispositivo
• Tuttavia, per un corso di linguistica italiana direi che al momento il riferimento deve essere il solo Google Home
Metodi di valutazione
• Un sistema di dettatura funziona bene quando trascrive ciò che l’utente vuole che scriva
• Vedremo nelle prossime lezioni che questo permette di usare un indicatore semplice ed efficiente di valutazione: il WER, o «Word error rate»
• Un altoparlante intelligente funziona bene quando fa quello che l’utente vuole che faccia: non occorre che trascriva tutte le parole, basta che individui quelle che servono a capire il comando
• In effetti, il sistema usato per gli altoparlanti intelligenti sembra sostanzialmente identificazione di parole chiave (pattern matching)
• «Sveglia otto» ottiene gli stessi risultati di «Metti la sveglia alle otto»
• Con gli assistenti vocali compare anche una trascrizione delle richieste degli utenti, quindi volendo si può valutare la trascrizione… ma non è questo il centro dell’interesse
Voice Recognition Lift
Assistenti come docenti
⚫
Un punto importante è l’uso di assistenti vocali per insegnare lingue straniere
⚫
Alcuni corsi di lingua commerciali fanno già uso di sistemi di riconoscimento del parlato – ma l’uso è ancora piuttosto limitato (Rosetta Stone)
⚫
Questa però è una sfida interessante per la
didattica delle lingue: che cosa ci si può costruire attorno?
⚫
Ne parlerò le prossime due settimane in Messico e Guatemala, e spero di tornare con qualche
esperienza in più!
Contributo
• Catia Cucchiarini e Helmer Strik, Second language learners’ spoken discourse: practice and corrective feedback through automatic
speech recognition, cap. 8 di Innovative methods and technologies for electronic discourse analysis, a cura di Hwee Ling Lim e Fay Sudweeks, ISI, pp. 169-189.
• Un’analisi d’assieme dello stato dell’arte
Presupposto
• Nell’insegnamento della lingua ad adulti (L2) si riconosce l’importanza dei giudizi e delle correzioni – in aggiunta all’esposizione alla lingua target e ai tentativi basati sull’uso
• Tuttavia, giudizi e correzioni senza vincoli possono essere prodotti solo da esseri umani
• Si possono creare giudizi e correzioni «automatici» (= soluzione di esercizi scritti in un libro) solo in contesti vincolati
• Inoltre, giudizi e correzioni sono molto onerosi per gli insegnanti umani, quindi vengono forniti solo raramente
• Altro punto: in aula, per molti apprendenti è sgradevole esporsi a correzioni e commenti
• Conclusione: questa serie di fattori rende molto interessante lo sviluppo di sistemi automatici di correzione
Controllo
• Un aspetto interessante (pp. 177-178): al momento ci sono poche certezze sul modo migliore per rivolgersi agli apprendenti
• Per esempio, è meglio fornire spiegazioni articolate o limitarsi a ripetere le parole sbagliate, senza fornire commenti?
• La scarsità di informazioni “is mainly due to the impossibility so far to create appropriate research conditions to offer feedback that is
systematic, consistent, intensive, and clear enough to be perceived as such, and that provides opportunity for self-repair and modified
output” (p. 178)
• L’uso di sistemi informatici aiuterebbe a verificare meglio le prestazioni delle diverse tecniche
• Su un altro piano: la scarsità di esempi documentati di correzione è ancora oggi un problema (p. 181)
La pronuncia
• Una delle aree di maggior interesse per i sistemi informatici è la pronuncia
• In un libro su carta non si può avere nessuna registrazione; in un
corso su dischi, sì – ma manca naturalmente il fattore di correzione (le uniche attività che si possono avere sono il «ripeti»)
• Tra anni Novanta e primi Duemila si è visto che i sistemi sono in grado di fornire valutazioni «con un’alta correlazione» con le valutazioni umane
• Sono stati creati diversi sistemi di questo tipo, tra cui per esempio quelli di Rosetta Stone o Tell me More per l’inglese
• I risultati comunque non sono sempre soddisfacenti
• Per la conversazione, per esempio, Rosetta Stone si basa su una rete di tutori madrelingua
Riconoscimento
• Separare il riconoscimento dall’analisi
• Fase 1: riconoscimento (capire che cosa è stato detto)
• Fase 2: fornire una descrizione delle discrepanze
• Ovviamente, il riconoscimento è molto facile se si sa già che deve essere pronunciata una determinata parola; molto più difficile nel caso di una produzione libera
• Per situazioni in cui la scelta può essere limitata a varie opzioni, si hanno due fasi:
• Individuazione dell’enunciazione (tra quelle disponibili)
• Controllo dell’enunciazione (per vedere se davvero si tratta dell’enunciazione individuata)
Valutazioni di pronuncia
Per quantificare gli errori di pronuncia sono state proposte diverse metriche parziali (non c’è un indicatore di riferimento paragonabile a WER per la trascrizione o a BLEU per la traduzione automatica):
• Algoritmo GOP – «Goodness of pronounciation»
• Algoritmo wGOP – con pesi diversi per diversi suoni
• Controllo di tratti fonetici specifici con un classificatore
• Classificazione di errori noti
• Combinazione (con pesi variabili) dei sistemi precedenti
Valutazione del risultato
• Sono state fatte verifiche con gruppo di controllo
• Un gruppo di apprendenti riceve istruzioni linguistiche con feedback
• Un gruppo di controllo riceve le stesse istruzioni, ma senza feedback
• Alla fine, si misura la pronuncia dei due
• Per l’olandese, è risultato che la pronuncia di chi aveva ricevuto il feedback era effettivamente migliore
Estensione ad altri ambiti
• Dalla fonetica si può passare alla morfologia e alla sintassi
• Su questo è stato fatto lavoro anche per i testi scritti, ma con pochi risultati
• Alcune tecniche di aiuto possono essere anche semplici: per esempio, si chiede di combinare pezzi di frase precomposti e il riconoscimento vocale serve solo a determinare se è stata pronunciata la frase corretta
• Gli esempi forniti mi sembrano molto limitati
Valutazioni di Cucchiarini e Strik
• I sistemi disponibili non sono ancora adeguati a coprire tutti gli aspetti di una lingua
• Vincolare le risposte a parole determinate è in sostanza la soluzione più efficace (p. 179)
• Il resto è molto più incerto
• Del resto, non esiste ancora la conversazione libera!
Alexa Prize
• Un articolo di James Vlahos su «Wired» (27 febbraio 2018) descrive le procedure di
giudizio per l’Alexa Prize 2017
https://www.wired.com/story/inside- amazon-alexa-prize/
• I bot che si sono classificati meglio sono basati soprattutto su regole; il vincitore è in parte regole in parte intelligenza artificiale
• Attualmente è in corso l’edizione 2018, partita con 8 partecipanti sponsorizzati https://developer.amazon.com/alexaprize
• Obiettivo: «[to] create socialbots that can converse coherently and engagingly with humans on a range of current events and popular topics such as entertainment, sports, politics, technology, and fashion.”