Todos los primeros tipos de mecanismos de atención realizaban lo que ahora se clasifica como atención cruzada. En la atención cruzada, las consultas y las claves provienen de diferentes fuentes de datos. Por ejemplo, en las tareas de traducción automática, las claves provienen de un corpus de texto en un idioma y las consultas de otro idioma; en las tareas de reconocimiento de voz, las consultas son datos de audio y las claves son datos de texto para transcribir ese audio.
En la autoatención, las consultas, las claves y los valores se extraen de la misma fuente. Mientras que los mecanismos de atención de Bahdanau y Luong se diseñaron explícitamente para la traducción automática, Cheng et al propusieron la autoatención, a la que llamaron "intraatención", como método para mejorar la lectura automática en general. Su mecanismo de atención, descrito en un artículo de 2016, exploraba no cómo los elementos de entrada contribuyen a una secuencia general, sino cómo los diferentes tokens de entrada se relacionan entre sí.
Considere un modelo de lenguaje que interprete el texto en inglés
"on Friday, the judge issued a sentence".
- El antecedente the
sugiere que judge
actúa como un sustantivo, haciendo referencia a la persona que preside un juicio, en lugar de un verbo que significa valorar o formarse una opinión.
- Ese contexto para la palabrajudge
sugiere que sentence
probablemente se refiere a una sanción legal, en lugar de una oración gramatical (también "sentence" en inglés).
- La palabraissued
además, implica que "sentence" se refiere al concepto legal, no al concepto gramatical.
- Por lo tanto, al interpretar la palabrasentence
, el modelo debe prestar mucha atención a judge
yissued
. También debería prestar atención a la palabrathe
. Puede ignorar más o menos las otras palabras. Un mecanismo de autoatención bien entrenado calcularía las ponderaciones de atención en consecuencia.
El artículo de Cheng et al se centró únicamente en la capacidad de autoatención para leer y comprender textos, pero pronto se dedujo que el modelado de relaciones intrasecuenciales también podría ser una herramienta poderosa para escribir textos. Un mayor desarrollo de la autoatención, junto con los modelos transformadores que permitió, condujo directamente a la llegada de la IA generativa moderna y los LLM autorregresivos que pueden generar texto original.