My IBM Se connecter S’abonner

Qu’est-ce qu’un modèle de transformeur ?

Qu’est-ce qu’un modèle de transformeur ?

Un modèle de transformeur est un type de modèle d’apprentissage profond introduit en 2017. Ces modèles sont rapidement devenus essentiels dans le traitement automatique du langage naturel (NLP) et ont été appliqués à un large éventail de tâches dans le domaine du machine learning et de l’intelligence artificielle.

Ce modèle a été décrit pour la première fois dans un article d’Ashish Vaswani de 2017 intitulé « Attention is All You Need », une équipe de Google Brain et un groupe de l’Université de Toronto. La publication de cet article est considérée comme un tournant dans ce domaine, étant donné la généralisation de l’utilisation des transformeurs dans des applications telles que l’entraînement des LLM.

Ces modèles peuvent traduire du texte et de la parole en temps quasi réel. Par exemple, il existe des applications qui permettent désormais aux touristes de communiquer avec les habitants de la destination dans leur langue maternelle. Ils permettent aux chercheurs de mieux comprendre l’ADN et d’accélérer la conception des médicaments. Ils peuvent permettre de détecter les anomalies et aider à prévenir les fraudes dans les domaines de la finance et de la sécurité. Les modèles Vision Transformer sont également utilisés pour les tâches de vision par ordinateur.

Le célèbre outil de génération de texte ChatGPT d’OpenAI utilise des architectures de transformeur pour la prédiction, la synthèse, la réponse aux questions et bien plus encore, car elles permettent au modèle de se concentrer sur les segments les plus pertinents du texte d’entrée. Le « GPT » qui s’affiche dans les différentes versions de l’outil (par exemple GPT-2, GPT-3) signifie « Generative Pre-trained Transformer » ou transformeur génératif pré-entraîné. Les outils d’IA générative basés sur le texte, tels que ChatGPT, peuvent tirer parti des modèles de transformeurs, car ces derniers peuvent prédire plus facilement le mot suivant dans une séquence de texte, sur la base de grands jeux de données complexes.

Le modèle BERT (Bidirectional Encoder Representations from Transformers) est basé sur l’architecture du transformeur. En 2019, le modèle BERT était utilisé pour presque tous les résultats de recherche Google en anglais et il a été déployé dans plus de 70 autres langues.1

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

En quoi les modèles de transformeur sont-ils différents ?

La principale innovation du modèle de transformeur est de ne pas avoir à s’appuyer sur des réseaux neuronaux récurrents (RNN) ou des réseaux de neurones convolutifs (CNN), des approches de réseaux neuronaux qui présentent des inconvénients importants. Les transformeurs traitent les séquences d’entrée en parallèle, ce qui les rend très efficaces pour l’entraînement et l’inférence, car il ne suffit pas d’ajouter des GPU pour accélérer les opérations. Les modèles de transformeurs nécessitent moins de temps d’entraînement que les précédentes architectures de réseaux neuronaux récurrents, comme la longue mémoire à court terme (LSTM).

Les RNN et la LSTM remontent respectivement aux années 1920 et 1990. Ces techniques calculent chaque composant d’une entrée en séquence (p. ex. mot par mot). Le calcul peut donc prendre beaucoup de temps. De plus, ces deux approches se heurtent à des limitations en matière de conservation du contexte lorsque la « distance » entre les informations d’une entrée est longue.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Deux innovations majeures

Les modèles de transformateurs apportent deux innovations principales. Mettons ces deux innovations dans le contexte de la prédiction de texte.

  1. Encodage positionnel : au lieu d’examiner chaque mot suivant l’ordre dans lequel il apparaît dans la phrase, un numéro unique est attribué à chaque mot. Ceci fournit des informations sur la position de chaque jeton (éléments de l’entrée comme les mots ou les sous-mots dans le NLP) dans la séquence, ce qui permet au modèle d’examiner les informations séquentielles de la séquence.

  2. Auto-attention : l’attention est un mécanisme qui calcule les pondérations de chaque mot d’une phrase par rapport à tous les autres mots de cette phrase, le but étant que le modèle puisse prédire les mots susceptibles d’être utilisés en séquence. Cette compréhension s’acquiert à mesure de l’entraînement du modèle sur de grandes quantités de données. Le mécanisme d’auto-attention permet à chaque mot d’être examiné en parallèle à tous les autres mots de la séquence, ce qui évalue leur importance pour le jeton actuel. Ainsi, on peut dire que les modèles de machine learning peuvent « apprendre » les règles de grammaire en se basant sur les probabilités statistiques de l’utilisation habituelle des mots dans la langue.

Comment fonctionnent les modèles de transformeurs ?

Les modèles de transformeurs traitent les données d’entrée, qui peuvent être des séquences de jetons ou d’autres données structurées, via une série de couches contenant des mécanismes d’autoattention et des réseaux neuronaux à propagation avant. L’idée de base derrière le fonctionnement des modèles de transformeurs comprend plusieurs étapes clés.

Imaginons que vous ayez besoin de traduire une phrase anglaise en français. Voici les étapes que vous devriez suivre pour accomplir cette tâche avec un modèle de transformeur.

  1. Plongements lexicaux d’entrée : la phrase d’entrée est d’abord transformée en représentations numériques appelées plongements lexicaux. Ceux-ci capturent la signification sémantique des jetons dans la séquence d’entrée. Pour les séquences de mots, ces plongements peuvent être appris lors de l’entraînement ou obtenus à partir de plongements lexicaux pré-entraînés.

  2. Encodage positionnel : l’encodage positionnel est généralement introduit sous la forme d’un ensemble de valeurs ou de vecteurs supplémentaires qui sont ajoutés aux plongements lexicaux du jeton avant de les introduire dans le modèle de transformeur. Ces encodages positionnels comportent des schémas spécifiques qui encodent les informations de position.

  3. Attention multi-tête : l’auto-attention est active dans plusieurs « têtes d’attention » pour capturer différents types de relations entre les jetons. Les fonctions Softmax, un type de fonction d’activation, sont utilisées pour calculer les pondérations d’attention dans le mécanisme d’auto-attention.

  4. Normalisation de couche et connexions résiduelles : le modèle utilise la normalisation de couche et les connexions résiduelles pour stabiliser et accélérer l’entraînement.

  5. Réseaux neuronaux à propagation avant : la sortie de la couche d’auto-attention est transmise à travers les couches de propagation. Ces réseaux appliquent des transformations non linéaires aux représentations de jetons, ce qui permet au modèle de capturer des schémas et des relations complexes dans les données.

  6. Couches empilées : les transformeurs se composent généralement de plusieurs couches empilées les unes sur les autres. Chaque couche traite la sortie de la couche précédente, ce qui affine progressivement les représentations. L’empilage de plusieurs couches permet au modèle de capturer des caractéristiques hiérarchiques et abstraites dans les données.

  7. Couche de sortie : dans les tâches de type séquence à séquence comme la traduction automatique neuronale, un module de décodage distinct peut être ajouté au-dessus de l’encodeur pour générer la séquence de sortie.

  8. Entraînement : les modèles de transformeurs sont entraînés à l’aide d’un apprentissage supervisé, où ils apprennent à minimiser une fonction de perte qui quantifie la différence entre les prédictions du modèle et la vérité terrain pour la tâche donnée. L’entraînement implique généralement des techniques d’optimisation comme Adam ou la descente de gradient stochastique (SGD).

  9. Inférence : après l’entraînement, le modèle peut être utilisé pour l’inférence sur de nouvelles données. Lors de l’inférence, la séquence d’entrée passe par le modèle pré-entraîné, qui génère des prédictions ou des représentations pour la tâche donnée.

Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 Google’s BERT Rolls Out Worldwide (lien externe à ibm.com), Search Engine Journal, 9 décembre 2019