2021

Tornando a fala artificial mais expressiva, natural e controlável

Compartilhe:

“Você disse que queria reservar um voo para Austin ou Boston?”

Até o ser humano às vezes teria dificuldade para diferenciar os nomes destas duas cidades. Eles soam muito parecidos. A Inteligência Artificial (IA) em um diálogo com uma pessoa também poderia facilmente se enganar.

A tecnologia de síntese de fala presente nos assistentes virtuais por voz poderia ajudar, ao imitar o tipo de expressividade que os humanos exibem naturalmente quando se comunicam entre si. Um artigo publicado recentemente pelo time de IBM Research [1] descreve um sistema desenvolvido pela IBM que pode enfatizar ou ressaltar certas palavras para melhorar a expressividade de uma frase, como acontece com a palavra “excelente” nesta sentença: “Essa é uma excelente ideia!”. Ou ainda ajudar com a ambiguidade existente em casos como o da similaridade entre as palavras Austin e Boston.

Essa é só uma das inovações na tecnologia de síntese de sequência a sequência (S2S). Parte da colaboração entre a equipe de IBM Research que trabalha com Inteligência Artificial para Text to Speech (Texto para Fala) o time de IBM Watson tem como objetivo levar essa funcionalidade de expressividade para o serviço IBM Watson Text to Speech (TSS). Nos últimos anos, o TTS atingiu um alto nível de performance com a introdução de arquiteturas neurais profundas de sequência a sequência, que proporcionam resultados de alta qualidade e que estão se aproximando do mesmo grau de percepção da fala natural.

A ideia principal é simples: se afastar de uma abordagem clássica que une vários módulos desenvolvidos de forma independente em um único modelo que treina todos os componentes de um extremo a outro. Essa escolha é efetiva, mas tem um custo. Uma vez que os diferentes componentes não são mais responsáveis por uma função específica, fica difícil intervir no processo de síntese para controlar um aspecto particular de saída.


Para resolver esse problema, a equipe da IBM propõe utilizar uma variante de múltiplos speakers baseada na arquitetura Tacotron-2 [2], que consiste em um codificador e um decodificador mediado por um mecanismo de atenção. Esse modelo-base utiliza uma representação da entrada de texto, além de alguns conhecimentos sobre a identidade do locutor, e os codifica mediante uma combinação de redes recorrentes convolucional e bidirecional. A sequência codificada é então enviada ao decodificador espectral que consulta um módulo de atenção para averiguar como alinhar a entrada codificada com as características acústicas da forma de onda de saída.

A estratégia da equipe para introduzir controlabilidade no sistema é simples. Sabemos que para ressaltar algumas palavras, os locutores tendem a se desviar do resto da frase em termos de propriedades prosódicas acústicas, como a velocidade da fala e a frequência fundamental.

Vejamos, por exemplo, a frase que poderia surgir em um diálogo com uma assistente: “Não entendi muito bem. Você disse que seu nome era Greg ou Craig?”. Se isso fosse um diálogo entre humanos, o locutor poderia transmitir a incerteza da situação ao aumentar o volume e o tom das palavras ressaltadas, articulando-as de forma mais clara e lenta, podendo até adicionar algumas pausas breves, porém perceptíveis.

Para que o sistema de síntese de fala faça o mesmo, a equipe expôs o modelo durante o treinamento de uma série de parâmetros acústicos prosódicos, extraídos dos resultados das formas de onda de treinamento. Isto deu ao sistema a oportunidade de associar essas entradas prosódicas com uma ênfase na saída. Durante a inferência, quando essas medidas não estavam disponíveis, um sistema preditivo treinado os completava separadamente. Para igualar o nível de ênfase desejado, o valor desses controles prosódicos poderia ser aumentado por padrões ou por compensações adicionais fornecidas pelo usuário.

Equipar os assistentes de voz com estas capacidades expressivas poderia ajudar a torná-los “mais humanos”, e também proporcionar um mecanismo mais eficiente de interação e uma experiência de usuário mais agradável.

*Caso queira saber mais detalhes sobre o treinamento e o trabalho dos pesquisadores, você pode encontrar mais detalhes e exemplos aqui .

[1] ” Estratégias supervisionadas e não supervisionadas para controlar o vocabulário estreito nas análises de fala sequência a sequência 

[2] Descrita em “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions”. J. Shen, R. R. Pang, R.J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R.A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning Wavenet on MEL spectrogram predictions,” in Proc. ICASSP, Calgary, Canada, 2018, pp. 4779-4783.

Comunicação IBM
Juliana Setembro
E-mail: jcayres@br.ibm.com


Assessoria de imprensa IBM
Weber Shandwick
E-mail:  ibmbrasil@webershandwick.com

Leia mais sobre
By comunica@br.ibm.com on 15 de julho de 2024

IBM se compromete com o “Apelo de Roma para a ética da IA enquanto Vaticano dá boas-vindas às religiões orientais ao compromisso

A IBM reafirmou sua liderança e o compromisso com o Apelo de Roma para a Ética da IA. Organizado pela Fundação RenAIssance do Vaticano, em colaboração com a Pontifícia Academia da Vida, Religiões pela Paz do Japão, Fórum de Abu Dhabi para a Paz dos Emirados Árabes Unidos e o Rabinato Chefe da Comissão de Relações Inter-religiosas de Israel, este último encontro para o Chamado de Roma acolhe a co-sinalização de líderes religiosos orientais e busca moldar o progresso técnico para apoiar o progresso da humanidade e inspirar a colaboração pacífica e a unidade global para o desenvolvimento ético de IA, o princípio central do documento.

Continuar lendo

By comunica@br.ibm.com on 12 de julho de 2024

BNP Paribas, em colaboração com a QuantumStreet AI, lança no Brasil o Índice Cross Asset Trend and AI

O BNP Paribas, e a QuantumStreet AI, líder global em soluções de investimento baseadas em inteligência artificial (IA), anunciam o lançamento no Brasil do novo Índice BNP Paribas Cross Asset Trend and AI. O objetivo é expandir sua oferta para outros países no futuro em um segundo momento.

Continuar lendo

By comunica@br.ibm.com on 8 de julho de 2024

Estudo da IBM: engajamento de fãs e mudanças no consumo esportivo revelam novas oportunidades para integrações tecnológicas, incluindo a IA

Uma nova pesquisa encomendada pela IBM (NYSE: IBM) revela uma crescente mudança geracional e aceitação de experiências que, impulsionadas pela tecnologia, afetarão o futuro do consumo de esportes.

Continuar lendo