Un modèle de transformeur est un type de modèle d’apprentissage profond introduit en 2017. Ces modèles sont rapidement devenus essentiels dans le traitement automatique du langage naturel (NLP) et ont été appliqués à un large éventail de tâches dans le domaine du machine learning et de l’intelligence artificielle.
Ce modèle a été décrit pour la première fois dans un article d’Ashish Vaswani de 2017 intitulé « Attention is All You Need », une équipe de Google Brain et un groupe de l’Université de Toronto. La publication de cet article est considérée comme un tournant dans ce domaine, étant donné la généralisation de l’utilisation des transformeurs dans des applications telles que l’entraînement des LLM.
Ces modèles peuvent traduire du texte et de la parole en temps quasi réel. Par exemple, il existe des applications qui permettent désormais aux touristes de communiquer avec les habitants de la destination dans leur langue maternelle. Ils permettent aux chercheurs de mieux comprendre l’ADN et d’accélérer la conception des médicaments. Ils peuvent permettre de détecter les anomalies et aider à prévenir les fraudes dans les domaines de la finance et de la sécurité. Les modèles Vision Transformer sont également utilisés pour les tâches de vision par ordinateur.
Le célèbre outil de génération de texte ChatGPT d’OpenAI utilise des architectures de transformeur pour la prédiction, la synthèse, la réponse aux questions et bien plus encore, car elles permettent au modèle de se concentrer sur les segments les plus pertinents du texte d’entrée. Le « GPT » qui s’affiche dans les différentes versions de l’outil (par exemple GPT-2, GPT-3) signifie « Generative Pre-trained Transformer » ou transformeur génératif pré-entraîné. Les outils d’IA générative basés sur le texte, tels que ChatGPT, peuvent tirer parti des modèles de transformeurs, car ces derniers peuvent prédire plus facilement le mot suivant dans une séquence de texte, sur la base de grands jeux de données complexes.
Le modèle BERT (Bidirectional Encoder Representations from Transformers) est basé sur l’architecture du transformeur. En 2019, le modèle BERT était utilisé pour presque tous les résultats de recherche Google en anglais et il a été déployé dans plus de 70 autres langues.1
La principale innovation du modèle de transformeur est de ne pas avoir à s’appuyer sur des réseaux neuronaux récurrents (RNN) ou des réseaux de neurones convolutifs (CNN), des approches de réseaux neuronaux qui présentent des inconvénients importants. Les transformeurs traitent les séquences d’entrée en parallèle, ce qui les rend très efficaces pour l’entraînement et l’inférence, car il ne suffit pas d’ajouter des GPU pour accélérer les opérations. Les modèles de transformeurs nécessitent moins de temps d’entraînement que les précédentes architectures de réseaux neuronaux récurrents, comme la longue mémoire à court terme (LSTM).
Les RNN et la LSTM remontent respectivement aux années 1920 et 1990. Ces techniques calculent chaque composant d’une entrée en séquence (p. ex. mot par mot). Le calcul peut donc prendre beaucoup de temps. De plus, ces deux approches se heurtent à des limitations en matière de conservation du contexte lorsque la « distance » entre les informations d’une entrée est longue.
Les modèles de transformateurs apportent deux innovations principales. Mettons ces deux innovations dans le contexte de la prédiction de texte.
Encodage positionnel : au lieu d’examiner chaque mot suivant l’ordre dans lequel il apparaît dans la phrase, un numéro unique est attribué à chaque mot. Ceci fournit des informations sur la position de chaque jeton (éléments de l’entrée comme les mots ou les sous-mots dans le NLP) dans la séquence, ce qui permet au modèle d’examiner les informations séquentielles de la séquence.
Auto-attention : l’attention est un mécanisme qui calcule les pondérations de chaque mot d’une phrase par rapport à tous les autres mots de cette phrase, le but étant que le modèle puisse prédire les mots susceptibles d’être utilisés en séquence. Cette compréhension s’acquiert à mesure de l’entraînement du modèle sur de grandes quantités de données. Le mécanisme d’auto-attention permet à chaque mot d’être examiné en parallèle à tous les autres mots de la séquence, ce qui évalue leur importance pour le jeton actuel. Ainsi, on peut dire que les modèles de machine learning peuvent « apprendre » les règles de grammaire en se basant sur les probabilités statistiques de l’utilisation habituelle des mots dans la langue.
Les modèles de transformeurs traitent les données d’entrée, qui peuvent être des séquences de jetons ou d’autres données structurées, via une série de couches contenant des mécanismes d’autoattention et des réseaux neuronaux à propagation avant. L’idée de base derrière le fonctionnement des modèles de transformeurs comprend plusieurs étapes clés.
Imaginons que vous ayez besoin de traduire une phrase anglaise en français. Voici les étapes que vous devriez suivre pour accomplir cette tâche avec un modèle de transformeur.
Plongements lexicaux d’entrée : la phrase d’entrée est d’abord transformée en représentations numériques appelées plongements lexicaux. Ceux-ci capturent la signification sémantique des jetons dans la séquence d’entrée. Pour les séquences de mots, ces plongements peuvent être appris lors de l’entraînement ou obtenus à partir de plongements lexicaux pré-entraînés.
Encodage positionnel : l’encodage positionnel est généralement introduit sous la forme d’un ensemble de valeurs ou de vecteurs supplémentaires qui sont ajoutés aux plongements lexicaux du jeton avant de les introduire dans le modèle de transformeur. Ces encodages positionnels comportent des schémas spécifiques qui encodent les informations de position.
Attention multi-tête : l’auto-attention est active dans plusieurs « têtes d’attention » pour capturer différents types de relations entre les jetons. Les fonctions Softmax, un type de fonction d’activation, sont utilisées pour calculer les pondérations d’attention dans le mécanisme d’auto-attention.
Normalisation de couche et connexions résiduelles : le modèle utilise la normalisation de couche et les connexions résiduelles pour stabiliser et accélérer l’entraînement.
Réseaux neuronaux à propagation avant : la sortie de la couche d’auto-attention est transmise à travers les couches de propagation. Ces réseaux appliquent des transformations non linéaires aux représentations de jetons, ce qui permet au modèle de capturer des schémas et des relations complexes dans les données.
Couches empilées : les transformeurs se composent généralement de plusieurs couches empilées les unes sur les autres. Chaque couche traite la sortie de la couche précédente, ce qui affine progressivement les représentations. L’empilage de plusieurs couches permet au modèle de capturer des caractéristiques hiérarchiques et abstraites dans les données.
Couche de sortie : dans les tâches de type séquence à séquence comme la traduction automatique neuronale, un module de décodage distinct peut être ajouté au-dessus de l’encodeur pour générer la séquence de sortie.
Entraînement : les modèles de transformeurs sont entraînés à l’aide d’un apprentissage supervisé, où ils apprennent à minimiser une fonction de perte qui quantifie la différence entre les prédictions du modèle et la vérité terrain pour la tâche donnée. L’entraînement implique généralement des techniques d’optimisation comme Adam ou la descente de gradient stochastique (SGD).
Inférence : après l’entraînement, le modèle peut être utilisé pour l’inférence sur de nouvelles données. Lors de l’inférence, la séquence d’entrée passe par le modèle pré-entraîné, qui génère des prédictions ou des représentations pour la tâche donnée.
Acquérez une compréhension approfondie des réseaux neuronaux, de leurs fonctions de base et des principes fondamentaux de leur construction.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
1 Google’s BERT Rolls Out Worldwide (lien externe à ibm.com), Search Engine Journal, 9 décembre 2019
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com