O reconhecimento de fala, também conhecido como ASR (Automatic Speech Recognition), reconhecimento de fala por computador ou fala para texto, é um recurso que permite que um programa processe a fala humana em um formato escrito. Embora seja comumente confundido com o reconhecimento de voz, o reconhecimento de fala se concentra na conversão da fala de um formato verbal para um de texto, enquanto o reconhecimento de voz busca apenas identificar a voz de um usuário individual.
A IBM desempenha um papel proeminente no reconhecimento de fala desde o seu início, com o lançamento do "Shoebox" em 1962. Essa máquina tinha a capacidade de reconhecer 16 palavras diferentes, avançando no trabalho inicial da Bell Labs da década de 1950. No entanto, a IBM não parou por aí, mas continuou a inovar ao longo dos anos, lançando o aplicativo VoiceType Simply Speaking em 1996. Este software de reconhecimento de fala tinha um vocabulário de 42.000 palavras, suporte para inglês e espanhol e incluía um dicionário ortográfico de 100.000 palavras. Embora a tecnologia da fala tivesse um vocabulário limitado no início, atualmente ela é utilizada em um grande número de setores de mercado, como automotivo, tecnologia e assistência médica. Sua adoção só continuou a se acelerar nos últimos anos devido aos avanços em deep learning e big data. Pesquisas (link externo à IBM) mostram que esse mercado deve movimentar USD 24,9 bilhões até 2025.
IBM Watson Speech to Text
IBM Watson Text to Speech
Muitos aplicativos e dispositivos de reconhecimento de fala estão disponíveis, mas as soluções mais avançadas usam IA e aprendizado de máquina. Eles integram gramática, sintaxe, estrutura e composição de sinais de áudio e voz para compreender e processar a fala humana. Idealmente, eles aprendem à medida que avançam, evoluindo as respostas a cada interação.
O melhor tipo de sistema também permite que as organizações personalizem e adaptem a tecnologia aos seus requisitos específicos, desde o idioma e as nuances da fala até o reconhecimento da marca. Por exemplo:
Enquanto isso, o reconhecimento de voz continua avançando. Empresas como a IBM estão avançando em várias áreas para melhorar a interação entre homem e máquina.
Os caprichos da fala humana tornaram o desenvolvimento um desafio. Esta é considerada uma das áreas mais complexas da ciência da computação, envolvendo linguística, matemática e estatística. Os reconhecedores de fala são compostos de alguns componentes, como a entrada de voz, extração de recursos, vetores de recursos, um decodificador e uma saída de palavras. O decodificador utiliza modelos acústicos, um dicionário de pronúncia e modelos de idioma para determinar a saída apropriada.
A tecnologia de reconhecimento de voz é avaliada com base em sua taxa de precisão, ou seja, taxa de erro de palavra (WER) e velocidade. Uma série de fatores pode afetar a taxa de erro de palavra, como pronúncia, sotaque, densidade, volume e ruído de plano de fundo. Alcançar a paridade humana, ou seja, uma taxa de erro equivalente àquela de dois humanos falando, tem sido o objetivo dos sistemas de reconhecimento de voz há muito tempo. A pesquisa da Lippmann (link externo à ibm.com) (PDF, 352 KB) estima que a taxa de erro de palavra seja cerca de 4%, mas tem sido difícil replicar os resultados deste artigo.
Saiba mais sobre como a IBM fez progressos a esse respeito, alcançando recordes do setor no campo de reconhecimento de fala.
Diversos algoritmos e técnicas de computação são usados para reconhecer a fala em texto e melhorar a precisão da transcrição. A seguir temos breves explicações de alguns dos métodos mais usados:
Diversos setores já utilizam diferentes tecnologias de voz, ajudando empresas e consumidores a economizar tempo e até mesmo salvar vidas. Alguns exemplos incluem:
Automotivo: Reconhecedores de fala aumentam a segurança do motorista ao possibilitar o uso de sistemas de navegação e pesquisa de estações de rádio ativados por voz.
Tecnologia: Os agentes virtuais estão cada vez mais integrados dentro do nosso cotidiano, particularmente nos nossos dispositivos móveis. Usamos comandos de voz para acessá-los em nossos smartphones, como o Google Assistant ou a Siri da Apple, para executar tarefas como busca por voz ou em caixas de som, via Alexa da Amazon ou Cortana da Microsoft, para tocar música. Eles serão integrados cada vez mais aos produtos que usamos no dia a dia, impulsionando o movimento "Internet das Coisas".
Assistência médica: Médicos e enfermeiros utilizam aplicativos por ditado para captar e registrar diagnósticos e notas de tratamento de pacientes.
Vendas: a tecnologia de reconhecimento de voz tem algumas aplicações em vendas. Ela pode ajudar uma central de atendimento a transcrever milhares de chamadas telefônicas entre clientes e agentes para identificar padrões e problemas comuns de atendimento. Os chatbots de IA também podem falar com as pessoas por meio de uma página da web, respondendo a dúvidas comuns e resolvendo solicitações básicas sem precisar esperar que um agente da central de contato esteja disponível. Em ambas as instâncias, os sistemas de reconhecimento de voz ajudam a reduzir o tempo de resolução de problemas do consumidor.
Segurança: À medida que a tecnologia se integra em nosso cotidiano, os protocolos de segurança são uma prioridade crescente. A autenticação com base em voz inclui um nível viável de segurança.
Converta voz em texto com o reconhecimento e a transcrição de fala desenvolvidos com IA.
Converta textos em áudios com som natural em uma variedade de idiomas e vozes.
Software de cloud híbrida impulsionado por IA.
Possibilite a transcrição da fala em vários idiomas para uma variedade de casos de uso, incluindo, mas não limitando-se ao autoatendimento do cliente, assistência de agentes e análise da fala.
Veja como a Lingmo aprimora o reconhecimento de fala e o treinamento de modelos com menos dados.
Saiba como acompanhar e descobrir como usar tecnologias como a nuvem, a IA e a automação para acelerar a inovação e atender à evolução das expectativas dos clientes.