La conversión de voz a texto es el proceso de convertir palabras habladas en una transcripción de texto. A veces denominado voz a texto, está disponible principalmente como un servicio basado en software (SaaS).
Suele combinar la tecnología de reconocimiento del habla mediante inteligencia artificial, también conocida como reconocimiento automático del habla, con la transcripción. Un programa informático capta audio en forma de vibraciones de ondas sonoras y utiliza algoritmos lingüísticos para convertir la entrada de audio en caracteres digitales, palabras y frases.
El machine learning, el deep learning y los modelos de lenguaje de gran tamaño, como el Generative Pre-Trained Transformer (GPT) de OpenAI, han hecho que el software de conversión de voz a texto sea más avanzado y eficaz, ya que puede recopilar patrones en el lenguaje hablado a partir de un gran volumen de muestras de audio y texto.
La IA generativa se puede integrar con software de voz a texto para crear asistentes que puedan ayudar a los clientes a través de una llamada telefónica, o interactuar con aplicaciones habilitadas para voz. La IA generativa también puede convertir texto en voz, también conocido como texto a voz, en una voz realista y natural.
El software de conversión de voz a texto contiene varios componentes. Entre ellas figuran:
Entrada de voz: donde un micrófono captura las palabras habladas
Extracción de características: donde el ordenador identifica tonos y patrones distintivos en el discurso)
Decodificador: donde el algoritmo hace coincidir las características del habla con caracteres y palabras a través de un modelo de lenguaje
Salida de texto: donde el texto final se formatea con la puntuación y las mayúsculas correctas para que sea legible
En general, el proceso de conversión de voz a texto compone de los siguientes pasos:
Preprocesamiento de audio: una vez capturadas las grabaciones de audio, se preprocesan para mejorar la calidad y la precisión del reconocimiento. Esto incluye eliminar ruidos de fondo y frecuencias irrelevantes, estabilizar el nivel de volumen, segmentar el clip para facilitar su procesamiento y convertir el archivo de audio a un formato estándar.
Análisis de sonido y extracción de características: las señales de voz a menudo se representan como espectrogramas (enlace externo a ibm.com), que son representaciones visuales de frecuencias a lo largo del tiempo.1 Las partes relevantes de las grabaciones de audio se dividen en una secuencia de fonemas, que son la unidad de habla más pequeña que distingue una palabra de otra. Las principales clases de fonemas son las vocales y las consonantes (enlace externo a ibm.com).2 Los modelos y los descodificadores de lenguaje pueden asociar fonemas a palabras y luego a frases. Los modelos acústicos basados en el deep learning pueden predecir qué caracteres y palabras es probable que aparezcan a continuación en función del contexto.
Existen tres métodos principales para realizar el reconocimiento del habla: síncrono, asíncrono y en flujo continuo.
El reconocimiento sincrónico se produce cuando hay una conversión inmediata de voz a texto. Solo puede procesar archivos de audio de menos de un minuto. Se usa en los subtítulos en directo para las transmisiones de televisión.
El reconocimiento en tiempo real consiste en procesar el audio transmitido en tiempo real, por lo que pueden aparecer textos fragmentados mientras el usuario sigue hablando.
El reconocimiento asíncrono es cuando se envían archivos de audio pregrabados de gran tamaño para su transcripción. Es posible que se ponga en cola para su procesamiento y se envíe más tarde.
Empresas como Google3 (enlace externo a ibm.com), Microsoft4 (enlace externo a ibm.com), Amazon5 (enlace externo a ibm.com) e IBMofrecen software de voz a texto como API a través de la nube, lo que permite su uso junto con otras aplicaciones, herramientas y dispositivos.
Los iPhones de Apple tienen una función de dictado (enlace externo a ibm.com), que integra la tecnología de conversión de voz a texto incorporada en su iOS.6 Los usuarios de Android pueden descargarse aplicaciones como Gboard (enlace externo a ibm.com) para las funciones de conversión de voz a texto. Algunos dispositivos Pixel permiten a los usuarios escribir con la voz a través de Assistant.7 Existen varias opciones de software de conversión de voz a texto, tanto de código abierto como propietario.
Al principio de su evolución, el software de reconocimiento de voz se basaba en un banco de vocabulario limitado. Su reciente adopción por sectores que van desde la automoción a la sanidad se ha visto favorecida por los avances en ciencia de datos, deep learning e inteligencia artificial.
En la década de 1950, Bell Laboratories presentó el primer sistema de reconocimiento de voz (enlace externo a ibm.com) llamado AUDREY, que puede reconocer números hablados.8 Luego, en 1962, IBM presentó Shoebox, que podía reconocer números y 16 palabras diferentes.
Durante estas décadas (enlace externo a ibm.com), los informáticos idearon modelos de reconocimiento de fonemas y modelos estadísticos como los modelos ocultos de Markov, que siguen siendo algoritmos populares para el reconocimiento de voz.9 Alrededor de los años 70, un programa de Carnegie Mellon llamado HARPY permitía a los ordenadores reconocer 1000 palabras.
En los años 80, el sistema de transcripción Tangora de IBM utilizaba métodos estadísticos para reconocer hasta 20 000 palabras. Se utilizó en el primer dictado activado por voz para oficinistas y sentó las bases del moderno software de conversión de voz en texto. Este tipo de software continuó desarrollándose y mejorándose hasta que se comercializó en la década de 2000.
Cuando surgieron los algoritmos de machine learning y deep learning, sustituyeron a los modelos estadísticos, mejoraron la precisión del reconocimiento y permitieron ampliar las aplicaciones. El deep learning podría captar mejor los matices y las expresiones informales. Se pueden utilizar modelos de lenguaje de gran tamaño (LLM) para añadir contexto, lo que puede ayudar cuando la elección de palabras es más ambigua o si hay variaciones de acento en la pronunciación. A medida que surgieron los asistentes virtuales y los oradores inteligentes, pudieron integrar voz a texto con modelos de lenguaje de gran tamaño, procesamiento del lenguaje natural (PLN) y otros servicios basados en la nube.
Los modelos de deep learning de extremo a extremo, como los transformadores, son fundamentales para los grandes modelos de lenguaje. Se entrenan con grandes conjuntos de datos no etiquetados de pares audio-texto para aprender a corresponder las señales de audio con las transcripciones.
Durante este entrenamiento, la modelo aprende implícitamente cómo suenan las palabras y qué palabras es probable que aparezcan juntas en una secuencia. El modelo también puede deducir reglas gramaticales y de estructura lingüística que se aplican por sí solo. El deep learning consolida algunos de los pasos más tediosos de las técnicas tradicionales de conversión de voz a texto.
Hay varios casos de uso para los software de conversión de voz a texto:
El software de conversión de voz a texto puede transcribir automáticamente las interacciones con los clientes, enrutar las llamadas según sea necesario, obtener información de las conversaciones con los clientes y realizar análisis de opiniones.
Ejemplo: para los centros de llamadas de servicio de atención al cliente, los asistentes de voz de IA se pueden utilizar la conversión de voz a texto para gestionar las preguntas más fáciles y repetitivas de los clientes y dirigir las solicitudes más complejas a los agentes humanos.
Puede transcribir actas de reuniones en línea o webinars y crear subtítulos, subtítulos o doblajes en los vídeos. También puede utilizarse con un programa de traducción para ofrecer documentos transcritos a varios idiomas. Las aplicaciones especiales permiten transcribir para aplicaciones sanitarias, jurídicas y educativas.
Ejemplo: Amazon (enlace externo a ibm.com) ofrece un servicio de transcripción médica que utiliza la conversión de voz a texto para transcribir las conversaciones entre el médico y el paciente para las notas clínicas y subtitular las consultas a distancia.10
Mediante el procesamiento del lenguaje natural, el reconocimiento de voz puede extraer el significado del texto transcrito y extraer órdenes procesables y llevarlas a cabo. Esto puede ayudar a los usuarios a emitir comandos de voz como hacer llamadas telefónicas, buscar en Internet o controlar las luces, termostatos y otros dispositivos conectados en un hogar inteligente a través de chatbots o asistentes digitales como Alexa, Cortana, Google Assistant y Siri.
Ejemplo: Alexa de Amazon (enlace externo a ibm.com) utiliza ahora la conversión de voz a texto y de texto a voz para encender las luces, ajustar la temperatura de una habitación determinada o sugerir recetas basadas en las últimas compras en el supermercado.11
Las personas con discapacidad pueden utilizar estas aplicaciones para interactuar con ordenadores y teléfonos inteligentes sin tener que teclear físicamente. En su lugar, pueden dictar mensajes de texto, notas, correos electrónicos y más.
Ejemplo: los estudiantes que tienen dislexia o se han lesionado recientemente en los brazos pueden seguir escribiendo notas con la voz en un ordenador Microsoft (enlace externo a ibm.com).12 Esta capacidad funciona con los servicios de voz de Azure.
La IA puede revisar las transcripciones de vídeos y clips de audio para buscar contenido inapropiado y actuar como moderadora para marcar el material cuestionable para su revisión humana.
Ejemplo: Vatis Tech (enlace externo a ibm.com) ofrece una herramienta que utiliza la conversión de voz a texto para la monitorización de las redes sociales en marketing, de modo que puede ayudar a las marcas a identificar cuándo son tendencia y la intención que hay detrás de las interacciones con los clientes13
1. From Sound to Images, Part 1: A deep dive on spectrogram creation (enlace externo a ibm.com). Cornell Lab Macaulay Library. 19 de julio de 2021
2. Lecture 12: An Overview of Speech Recognition (enlace externo a ibm.com). Ciencias de la Computación de la Universidad de Rochester
3. Turn speech into text using Google AI (enlace externo a ibm.com). Google Cloud
4. Speech to text REST API (enlace externo a ibm.com). Microsoft
5. Amazon Transcribe API reference (enlace externo a ibm.com). AWS
6. Guía del usuario de iPhone (enlace externo a ibm.com). Apple
7. Escribir con la voz (enlace externo a ibm.com). Ayuda de Google
8. Audrey, Alexa, Hal, and more (enlace externo a ibm.com). Computer History Museum. 9 de junio de 2021
9. Speech Recognition: Past, Present, Future (enlace externo a ibm.com). Ciencias de la Computación de la Universidad Carnegie Mellon
10. Amazon Transcribe Medical (enlace externo a ibm.com). AWS
11. Alexa unveils new speech recognition, text-to-speech technologies (enlace externo a ibm.com). Amazon. 20 de septiembre de 2023
12. Use voice typing to talk instead of type on your PC (enlace externo a ibm.com). Microsoft
13. Media Monitoring Intelligence - Turn any Audio to Insights (enlace externo a ibm.com). Vatis Tech
Convertir la voz en texto utilizando el reconocimiento de voz y la transcripción impulsados por IA
Cree su asistente de IA con Orchestrate para optimizar los esfuerzos de su equipo y recuperar su tiempo.
Asóciese con IBM para integrar capacidades de voz en sus soluciones
Explore el tutorial
Pruebe watsonx
Empiece ahora
Véalo cuando le vaya
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io