O que é reconhecimento de voz?

O reconhecimento de fala, também conhecido como ASR (Automatic Speech Recognition), reconhecimento de fala por computador ou fala para texto, é um recurso que permite que um programa processe a fala humana em um formato escrito. Embora seja comumente confundido com o reconhecimento de voz, o reconhecimento de fala se concentra na conversão da fala de um formato verbal para um de texto, enquanto o reconhecimento de voz busca apenas identificar a voz de um usuário individual.

A IBM desempenha um papel proeminente no reconhecimento de fala desde o seu início, com o lançamento do "Shoebox" em 1962. Essa máquina tinha a capacidade de reconhecer 16 palavras diferentes, avançando no trabalho inicial da Bell Labs da década de 1950. No entanto, a IBM não parou por aí, mas continuou a inovar ao longo dos anos, lançando o aplicativo VoiceType Simply Speaking em 1996. Este software de reconhecimento de fala tinha um vocabulário de 42.000 palavras, suporte para inglês e espanhol e incluía um dicionário ortográfico de 100.000 palavras. Embora a tecnologia da fala tivesse um vocabulário limitado no início, atualmente ela é utilizada em um grande número de setores de mercado, como automotivo, tecnologia e assistência médica. Sua adoção só continuou a se acelerar nos últimos anos devido aos avanços em deep learning e big data. Pesquisas (link externo à IBM) mostram que esse mercado deve movimentar USD 24,9 bilhões até 2025.

Produtos em destaque

IBM Watson Speech to Text

IBM Watson Text to Speech

Recursos principais do reconhecimento de fala efetivo

Muitos aplicativos e dispositivos de reconhecimento de fala estão disponíveis, mas as soluções mais avançadas usam IA e aprendizado de máquina. Eles integram gramática, sintaxe, estrutura e composição de sinais de áudio e voz para compreender e processar a fala humana. Idealmente, eles aprendem à medida que avançam, evoluindo as respostas a cada interação.

O melhor tipo de sistema também permite que as organizações personalizem e adaptem a tecnologia aos seus requisitos específicos, desde o idioma e as nuances da fala até o reconhecimento da marca. Por exemplo:

Ponderação de idioma: melhore a precisão, ponderando palavras específicas que são faladas com frequência (como nomes de produtos ou jargões do setor), além de termos já no vocabulário de base.
Rotulagem do locutor: produza uma transcrição que cite ou marque as contribuições de cada locutor para uma conversa com vários participantes.
Treinamento de acústica: trate do lado acústico do negócio. Treine o sistema para se adaptar a um ambiente acústico (como o ruído ambiente em uma central de atendimento) e estilos de locutores (como tom, volume e ritmo de voz).
Filtragem de palavrões: use filtros para identificar determinadas palavras ou frases e limpe o resultado da fala.

Enquanto isso, o reconhecimento de voz continua avançando. Empresas como a IBM estão avançando em várias áreas para melhorar a interação entre homem e máquina.

Algoritmos de reconhecimento de voz

Os caprichos da fala humana tornaram o desenvolvimento um desafio. Esta é considerada uma das áreas mais complexas da ciência da computação, envolvendo linguística, matemática e estatística. Os reconhecedores de fala são compostos de alguns componentes, como a entrada de voz, extração de recursos, vetores de recursos, um decodificador e uma saída de palavras. O decodificador utiliza modelos acústicos, um dicionário de pronúncia e modelos de idioma para determinar a saída apropriada.

A tecnologia de reconhecimento de voz é avaliada com base em sua taxa de precisão, ou seja, taxa de erro de palavra (WER) e velocidade. Uma série de fatores pode afetar a taxa de erro de palavra, como pronúncia, sotaque, densidade, volume e ruído de plano de fundo. Alcançar a paridade humana, ou seja, uma taxa de erro equivalente àquela de dois humanos falando, tem sido o objetivo dos sistemas de reconhecimento de voz há muito tempo. A pesquisa da Lippmann (link externo à ibm.com) (PDF, 352 KB) estima que a taxa de erro de palavra seja cerca de 4%, mas tem sido difícil replicar os resultados deste artigo.

Saiba mais sobre como a IBM fez progressos a esse respeito, alcançando recordes do setor no campo de reconhecimento de fala.

Diversos algoritmos e técnicas de computação são usados para reconhecer a fala em texto e melhorar a precisão da transcrição. A seguir temos breves explicações de alguns dos métodos mais usados:

Processamento de linguagem natural (NLP): embora o NLP não seja necessariamente um algoritmo específico usado no reconhecimento de fala, esta é a área de inteligência artificial que se concentra na interação entre humanos e máquinas por meio da linguagem através da fala e do texto. Muitos dispositivos móveis incorporam reconhecimento de voz em seus sistemas para realizar busca de fala, como por exemplo a Siri, ou para oferecer mais acessibilidade em relação ao envio de mensagens.
Modelos ocultos de markov (HMM): modelos ocultos de markov usam o modelo de cadeia de Markov como base, que estipula que a probabilidade de um determinado estado depende do estado atual, não de seus estados anteriores. Enquanto um modelo de cadeia de Markov é útil para eventos observáveis, como entradas de texto, os modelos ocultos de markov nos permitem incorporar eventos ocultos, como marcações de parte da fala, em um modelo probabilístico. Eles são utilizados como modelos de sequência no reconhecimento de voz, atribuindo rótulos a cada unidade, ou seja, palavras, sílabas, frases etc., na sequência. Estes rótulos criam um mapeamento com a entrada fornecida, permitindo que ele determine a sequência de rótulo mais adequada.
N-gramas: este é o tipo mais simples de modelo de linguagem (LM), que atribui probabilidades a sentenças ou frases. Um N-grama é sequência de N-palavras. Por exemplo, "peça uma pizza" é um trigrama ou 3-grama e "vamos pedir uma pizza" é um 4-grama. Gramática e a probabilidade de determinadas sequências de palavras são usadas para melhorar o reconhecimento e a precisão.
Redes neurais: utilizadas principalmente para algoritmos de deep learning, as redes neurais processam dados de treinamento imitando a interconectividade do cérebro humano por meio de camadas de nós. Cada nó é composto de entradas, pesos, um viés (ou limite) e uma saída. Se esse valor de saída exceder um determinado limite, ele "dispara" ou ativa o nó, passando dados para a camada seguinte na rede. As redes neurais aprendem essa função de mapeamento por meio do aprendizado supervisionado, ajustando-se com base na função de perda por meio do processo de descida de gradiente. Embora as redes neurais tendam a ser mais precisas e possam aceitar mais dados, isso tem um custo de eficiência de desempenho, visto que tendem a ser mais lentas para treinar em comparação com os modelos de linguagem tradicionais.
Diarização do locutor (SD): os algoritmos de diarização do locutor identificam e segmentam a fala pela identidade do locutor. Isso ajuda os programas a distinguir melhor os indivíduos em uma conversa e é frequentemente aplicado em centrais de atendimento, distinguindo clientes e agentes de vendas.

Casos de uso de reconhecimento de voz

Diversos setores já utilizam diferentes tecnologias de voz, ajudando empresas e consumidores a economizar tempo e até mesmo salvar vidas. Alguns exemplos incluem:

Automotivo: Reconhecedores de fala aumentam a segurança do motorista ao possibilitar o uso de sistemas de navegação e pesquisa de estações de rádio ativados por voz.

Tecnologia: Os agentes virtuais estão cada vez mais integrados dentro do nosso cotidiano, particularmente nos nossos dispositivos móveis. Usamos comandos de voz para acessá-los em nossos smartphones, como o Google Assistant ou a Siri da Apple, para executar tarefas como busca por voz ou em caixas de som, via Alexa da Amazon ou Cortana da Microsoft, para tocar música. Eles serão integrados cada vez mais aos produtos que usamos no dia a dia, impulsionando o movimento "Internet das Coisas".

Assistência médica: Médicos e enfermeiros utilizam aplicativos por ditado para captar e registrar diagnósticos e notas de tratamento de pacientes.

Vendas: a tecnologia de reconhecimento de voz tem algumas aplicações em vendas. Ela pode ajudar uma central de atendimento a transcrever milhares de chamadas telefônicas entre clientes e agentes para identificar padrões e problemas comuns de atendimento. Os chatbots de IA também podem falar com as pessoas por meio de uma página da web, respondendo a dúvidas comuns e resolvendo solicitações básicas sem precisar esperar que um agente da central de contato esteja disponível. Em ambas as instâncias, os sistemas de reconhecimento de voz ajudam a reduzir o tempo de resolução de problemas do consumidor.

Segurança: À medida que a tecnologia se integra em nosso cotidiano, os protocolos de segurança são uma prioridade crescente. A autenticação com base em voz inclui um nível viável de segurança.

Soluções relacionadas

IBM® Watson Speech to Text

Converta voz em texto com o reconhecimento e a transcrição de fala desenvolvidos com IA.

Conheça o IBM Watson Speech to Text

IBM® Watson Text to Speech

Converta textos em áudios com som natural em uma variedade de idiomas e vozes.

Conheça o IBM Watson Text to Speech

Soluções IBM® Cloud Pak

Software de cloud híbrida impulsionado por IA.

Conheça as soluções do Cloud Pak

Recursos

Descubra como a tecnologia do IBM Watson Speech to Text usa reconhecimento e transcrição de fala desenvolvidos com IA

Possibilite a transcrição da fala em vários idiomas para uma variedade de casos de uso, incluindo, mas não limitando-se ao autoatendimento do cliente, assistência de agentes e análise da fala.

O app de tradução tem 95% de precisão

Veja como a Lingmo aprimora o reconhecimento de fala e o treinamento de modelos com menos dados.

IBM Cloud Paks: um caminho para a transformação digital

Saiba como acompanhar e descobrir como usar tecnologias como a nuvem, a IA e a automação para acelerar a inovação e atender à evolução das expectativas dos clientes.

Dê o próximo passo

A IBM foi pioneira no desenvolvimento de ferramentas e serviços de reconhecimento de fala que permitem que as organizações automatizem seus processos de negócios complexos enquanto obtêm insights de negócios essenciais.O IBM Watson Speech to Text é uma solução nativa de cloud que usa algoritmos de IA de deep learning para aplicar conhecimento sobre gramática, estrutura de linguagem e composição de sinal de áudio/voz para criar reconhecimento de fala personalizável para a transcrição de texto ideal.

Teste o IBM Watson Speech to Text hoje mesmo