¿Qué es un modelo de transformador?

Un modelo de transformador es un tipo de modelo de aprendizaje profundo presentado en 2017. Estos modelos se han convertido rápidamente en fundamentales en el procesamiento del lenguaje natural (PLN) y se han aplicado a una amplia gama de tareas en el aprendizaje automático y la inteligencia artificial.

El modelo se describió por primera vez en un documento de 2017 llamado "Atención es lo único que necesita" por Ashish Vaswani, un equipo de Google Brain y un grupo de la Universidad de Toronto. La publicación de este documento se considera un hito en el campo, dado que ahora se utilizan transformadores generalizados en aplicaciones como la capacitación de LLM.

Estos modelos pueden traducir texto y voz casi en tiempo real. Por ejemplo, hay aplicaciones que ahora permiten a los turistas comunicarse con los lugareños en la calle en su idioma principal. Ayudan a los investigadores a comprender mejor el ADN y a acelerar el diseño de fármacos. Pueden ayudar a detectar anomalías y prevenir fraudes en finanzas y seguridad. Los transformadores de visión se utilizan de manera similar para tareas de visión artificial.

La popular herramienta de generación de texto ChatGPT de OpenAI utiliza arquitecturas transformadoras para predicción, resumen, respuesta a preguntas y más, ya que permiten que el modelo se centre en los segmentos más relevantes del texto de entrada. El "GPT" que se ve en las distintas versiones de la herramienta (por ejemplo, GPT-2, GPT-3) significa “transformador generativo previamente capacitado”. Las herramientas de IA generativa basadas en texto, como ChatGPT, se benefician de los modelos transformadores porque pueden predecir más fácilmente la siguiente palabra en una secuencia de texto, basándose en conjuntos de datos grandes y complejos.

El modelo BERT, o Representaciones de codificadores bidireccionales de transformadores, se basa en la arquitectura del transformador. A partir de 2019, BERT se utilizó para casi todos los resultados de búsqueda de Google en inglés y se ha implementado en más de 70 idiomas.¹

El almacenamiento de datos para la IA

Descubra el poder de integrar una estrategia de data lakehouse en su arquitectura de datos, incluidas las mejoras para escalar la IA y las oportunidades de optimización de costos.

Contenido relacionado

Regístrese para obtener el libro electrónico sobre IA generativa

En qué se diferencian los modelos de transformadores

La innovación clave del modelo de transformador es no tener que depender de redes neuronales recurrentes (RNN) o redes neuronales convolucionales (CNN), enfoques de redes neuronales que tienen inconvenientes significativos. Los transformadores procesan secuencias de entrada en paralelo, lo que las hace muy eficientes para la capacitación y la inferencia, porque no se puede acelerar simplemente añadiendo más GPU. Los modelos de transformadores necesitan menos tiempo de capacitación que las arquitecturas de redes neuronales recurrentes anteriores, como la memoria a largo y a corto plazo (LSTM).

Los RNN y LSTM se remontan a las décadas de 1920 y 1990, respectivamente. Estas técnicas calculan cada componente de una entrada en secuencia (por ejemplo, palabra por palabra), por lo que el cálculo puede llevar mucho tiempo. Es más, ambos enfoques tienen limitaciones a la hora de retener el contexto cuando la "distancia" entre los fragmentos de información en una entrada es larga.

Dos grandes innovaciones

Los modelos con transformador aportan dos innovaciones principales. Considere estas dos innovaciones en el contexto de la predicción de textos.

Codificación posicional: en lugar de mirar cada palabra en el orden en que aparece en una oración, se asigna un número único a cada palabra. Esto proporciona información sobre la posición de cada token (partes de la entrada, como palabras o subpalabras en NLP) en la secuencia, lo que permite que el modelo considere la información secuencial de la secuencia.
Autoatención: la atención es un mecanismo que calcula los pesos de cada palabra de una oración en relación con cada otra palabra de la oración, por lo que el modelo puede predecir palabras que es probable que se utilicen en secuencia. Esta comprensión se aprende con el tiempo a medida que un modelo se capacita con muchos datos. El mecanismo de autoatención permite que cada palabra preste atención a todas las demás palabras de la secuencia en paralelo, sopesando su importancia para el token actual. De esta manera, se puede decir que los modelos de aprendizaje automático pueden "aprender" las reglas de la gramática, en función de las probabilidades estadísticas de cómo se usan típicamente las palabras en el lenguaje.

¿Cómo funcionan los modelos de transformadores?

Los modelos transformadores funcionan procesando datos de entrada, que pueden ser secuencias de tokens u otros datos estructurados, a través de una serie de capas que contienen mecanismos de autoatención y redes neuronales de retroalimentación. La idea central detrás de cómo funcionan los modelos transformadores se puede dividir en varios pasos clave.

Imaginemos que necesita convertir una frase del inglés al francés. Estos son los pasos que tendrías que dar para realizar esta tarea con un modelo de transformador.

Incrustaciones de entrada: la oración de entrada se transforma primero en representaciones numéricas llamadas incrustaciones. Estos capturan el significado semántico de los tokens en la secuencia de entrada. Para secuencias de palabras, estas incrustaciones se pueden aprender durante la capacitación u obtenerse a partir de incrustaciones de palabras previamente capacitadas.
Codificación posicional: la codificación posicional generalmente se introduce como un conjunto de valores o vectores adicionales que se agregan a las incorporaciones de tokens antes de introducirlas en el modelo transformador. Estas codificaciones posicionales tienen patrones específicos que codifican la información de posición.
Atención de múltiples cabezas: la autoatención opera en múltiples "cabezas de atención" para capturar diferentes tipos de relaciones entre tokens. Las funciones Softmax, un tipo de función de activación, se utilizan para calcular los pesos de atención en el mecanismo de autoatención.
Normalización de capas y conexiones residuales: el modelo utiliza la normalización de capas y las conexiones residuales para estabilizar y acelerar la capacitación.
Redes neuronales de retroalimentación: la salida de la capa de autoatención se pasa a través de capas de retroalimentación. Estas redes aplican transformaciones no lineales a las representaciones de tokens, permitiendo que el modelo capture patrones y relaciones complejas en los datos.
Capas apiladas: los transformadores suelen constar de varias capas apiladas una encima de la otra. Cada capa procesa la salida de la capa anterior, refinando gradualmente las representaciones. El apilamiento de varias capas permite que el modelo capture características jerárquicas y abstractas en los datos.
Capa de salida: En tareas de secuencia a secuencia como la traducción automática neuronal, se puede agregar un módulo decodificador separado en la parte superior del codificador para generar la secuencia de salida.
Capacitación: los modelos de transformadores se capacitan mediante aprendizaje supervisado, donde aprenden a minimizar una función de pérdida que cuantifica la diferencia entre las predicciones del modelo y la verdad fundamental para la tarea dada. La capacitación suele implicar técnicas de optimización como Adam o descenso de gradiente estocástico (SGD).
Inferencia: después de la capacitación, el modelo se puede utilizar para la inferencia sobre nuevos datos. Durante la inferencia, la secuencia de entrada se pasa a través del modelo previamente capacitado, y el modelo genera predicciones o representaciones para la tarea dada.

Soluciones relacionadas

Datos e IA

Soluciones de almacenamiento de datos

Escale las cargas de trabajo de analytics siempre activas en datos gobernados en toda su organización.

Más información sobre las soluciones de almacenamiento de datos

Datos e IA

IBM WATSONX.DATA

watsonx.data es un almacén de datos adecuado al propósito basado en la arquitectura de lakehouse abierta y respaldado por los formatos de consulta, gobernanza y datos abiertos para ayudar al acceso y compartir datos.

Más información sobre IBM watsonx.data

Recursos relacionados

IBM ayuda a las empresas a escalar las cargas de trabajo de IA

Obtenga más información sobre IBM Watsonx.data, un almacén de datos que ayuda a las empresas a unificar y controlar fácilmente sus datos estructurados y no estructurados.

El potencial disruptivo de las arquitecturas Open Data Lakehouse e IBM watsonx.data

Explore la arquitectura de lagos de datos abiertos y descubra cómo combina la flexibilidad y las ventajas de costos de los lagos de datos con el rendimiento de los almacenes de datos.

IBM watsonx.data: un almacén de datos abierto, híbrido y gestionado

Descubra cómo IBM watsonx.data ayuda a las empresas a abordar los desafíos del complejo panorama de datos actual y a escalar la IA para satisfacer sus necesidades.

Presto: dé sentido a todos sus datos, de cualquier tamaño y en cualquier lugar

Descubra cómo Presto, un motor de consultas SQL de código abierto rápido y flexible, puede ayudar a ofrecer la información que las empresas necesitan.

Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data

Reserve una demostración en vivo

Notas de pie de página

¹ Google’s BERT Rolls Out Worldwide, Search Engine Journal (enlace externo a IBM.com) 9 de diciembre de 2019