Les premiers types de mécanismes d’attention réalisaient tous ce que l’on appelle aujourd’hui l’attention croisée. Dans l’attention croisée, les requêtes et les clés proviennent de différentes sources de données. Par exemple, dans les tâches de traduction automatique, les clés proviennent d’un corpus de textes dans une langue et les requêtes d’une autre langue ; dans les tâches de reconnaissance vocale, les requêtes sont des données audio et les clés des données textuelles permettant de transcrire ces données audio.
Dans l’ auto-attention, les requêtes, les clés et les valeurs sont toutes tirées de la même source. Alors que les mécanismes d’attention Bahdanau et Luong étaient tous deux explicitement conçus pour la traduction automatique, Cheng et al.ont proposé l’ auto-attention(qu’ils ont appelée « intra-attention ») comme méthode pour améliorer la lecture automatique en général. Décrit dans un article de 2016, leur mécanisme d’attention a exploré non pas la façon dont les éléments d’entrée contribuent à une séquence globale, mais la façon dont les différents tokens d’entrée sont reliés les uns aux autres.
Considérons un modèle linguistique qui interprète le texte anglais
« Vendredi, le juge a prononcé une sentence. »
- Le mot précédent the
suggère que judge
est un nom, au sens de magistrat(e) chargé(e) de rendre la justice, et non un verbe signifiant prendre nettement position sur (une question).
- Ce contexte du mot judge
suggère que sentence
fait probablement référence à une décision juridique, plutôt qu’à une « phrase » grammaticale.
- Le mot issued
implique en outre que « sentence » fait référence au concept juridique, et non au concept grammatical.
- Par conséquent, lors de l’interprétation du mot sentence
, le modèle doit accorder une attention particulière à judge
etissued
. Il doit également prêter attention au mot the
. Il peut plus ou moins ignorer les autres mots. Un mécanisme d’auto-attention bien entraîné calculerait les poids d’attention en conséquence.
L’article de Cheng et al. s’est concentré uniquement sur la capacité de l’auto-attention à lire et à comprendre du texte, mais il a rapidement été constaté que la modélisation des relations intra-séquence pouvait également être un outil puissant pour la rédaction de texte. Le développement de l’auto-attention, ainsi que les modèles de transformeurs qu’elle a activés, ont conduit directement à l’avènement de l’IA générative moderne et des LLM autorégressifs, qui peuvent générer des textes originaux.