Qu’est-ce qu’un modèle de transformeur ?

Un modèle de transformeur est un type de modèle d’apprentissage profond qui a été introduit en 2017. Ces modèles sont rapidement devenus essentiels dans le traitement automatique du langage naturel (NLP) et ont été appliqués à un large éventail de tâches dans le domaine du machine learning et de l’intelligence artificielle.

Ce modèle a été décrit pour la première fois dans un article d’Ashish Vaswani de 2017 intitulé « Attention is All You Need », une équipe de Google Brain et un groupe de l’Université de Toronto. La publication de cet article est considérée comme un tournant dans ce domaine, étant donné la généralisation de l’utilisation des transformeurs dans des applications telles que l’entraînement des LLM.

Ces modèles peuvent traduire du texte et de la parole en temps quasi réel. Par exemple, il existe des applications qui permettent désormais aux touristes de communiquer avec les habitants de la destination dans leur langue maternelle. Ils permettent aux chercheurs de mieux comprendre l’ADN et d’accélérer la conception des médicaments. Ils peuvent permettre de détecter les anomalies et aider à prévenir les fraudes dans les domaines de la finance et de la sécurité. Les modèles Vision Transformer sont également utilisés pour les tâches de vision par ordinateur.

Le célèbre outil de génération de texte ChatGPT d’OpenAI utilise des architectures de transformeur pour la prédiction, la synthèse, la réponse aux questions et bien plus encore, car elles permettent au modèle de se concentrer sur les segments les plus pertinents du texte d’entrée. Le « GPT » qui s’affiche dans les différentes versions de l’outil (par exemple GPT-2, GPT-3) signifie « Generative Pre-trained Transformer » ou transformeur génératif pré-entraîné. Les outils d’IA générative basés sur le texte, tels que ChatGPT, peuvent tirer parti des modèles de transformeurs, car ces derniers peuvent prédire plus facilement le mot suivant dans une séquence de texte, sur la base de grands jeux de données complexes.

Le modèle BERT (Bidirectional Encoder Representations from Transformers) est basé sur l’architecture du transformeur. En 2019, le modèle BERT était utilisé pour presque tous les résultats de recherche Google en anglais et il a été déployé dans plus de 70 autres langues.¹

Le magasin de données pour l'IA

Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, avec des améliorations pour dimensionner l’IA et des possibilités d’optimisation des coûts.

Contenu connexe

Obtenir l’e-book sur l’IA générative

En quoi les modèles de transformeurs sont-ils différents ?

La principale innovation du modèle de transformeur est de ne pas avoir à s’appuyer sur des réseaux neuronaux récurrents (RNN) ou des réseaux de neurones convolutifs (CNN), des approches de réseaux neuronaux qui présentent des inconvénients importants. Les transformeurs traitent les séquences d’entrée en parallèle, ce qui les rend très efficaces pour l’entraînement et l’inférence, car il ne suffit pas d’ajouter des GPU pour accélérer les opérations. Les modèles de transformeurs nécessitent moins de temps d’entraînement que les précédentes architectures de réseaux neuronaux récurrents, comme la longue mémoire à court terme (LSTM).

Les RNN et la LSTM remontent respectivement aux années 1920 et 1990. Ces techniques calculent chaque composant d’une entrée en séquence (p. ex. mot par mot). Le calcul peut donc prendre beaucoup de temps. De plus, ces deux approches se heurtent à des limitations en matière de conservation du contexte lorsque la « distance » entre les informations d’une entrée est longue.

Deux innovations majeures

Les modèles de transformateurs apportent deux innovations principales. Mettons ces deux innovations dans le contexte de la prédiction de texte.

Encodage positionnel : Au lieu d’examiner chaque mot dans l’ordre dans lequel ils apparaissent dans la phrase, un numéro unique est attribué à chaque mot. Cela fournit des informations sur la position de chaque jeton (éléments de l’entrée, comme les mots ou les sous-mots dans le NLP) dans la séquence, permettant au modèle d’examiner les informations séquentielles de la séquence.
Autoattention : L’attention est un mécanisme qui calcule les poids de chaque mot d’une phrase par rapport à tous les autres mots de cette phrase, afin que le modèle puisse prédire les mots susceptibles d’être utilisés en séquence. Cette compréhension s’acquiert à mesure de l’entraînement du modèle sur de grandes quantités de données. Le mécanisme d’autoattention permet à chaque mot d'être examiné en parallèle à tous les autres mots de la séquence, en évaluant leur poids pour le jeton actuel. Ainsi, on peut dire que les modèles de machine learning peuvent « apprendre » les règles de grammaire en se basant sur les probabilités statistiques concernant l’utilisation habituelle des mots dans la langue.

Comment fonctionnent les modèles de transformeurs ?

Les modèles de transformeurs traitent les données d’entrée, qui peuvent être des séquences de jetons ou d’autres données structurées, via une série de couches contenant des mécanismes d’autoattention et des réseaux neuronaux à propagation avant. L’idée de base derrière le fonctionnement des modèles de transformeurs comprend plusieurs étapes clés.

Imaginons que vous ayez besoin de traduire une phrase anglaise en français. Voici les étapes que vous devriez suivre pour accomplir cette tâche avec un modèle de transformeur.

Plongements en entrée : La phrase en entrée est d’abord transformée en représentations numériques appelées plongements. Ceux-ci capturent la signification sémantique des jetons dans la séquence d’entrée. Pour les séquences de mots, ces plongements peuvent être appris lors de l’entraînement ou obtenus à partir de plongements lexicaux pré-entraînés.
Encodage positionnel : L’encodage positionnel est généralement introduit sous la forme d’un ensemble de valeurs ou de vecteurs supplémentaires qui sont ajoutés aux embeddings de jetons avant de les introduire dans le modèle de transformeur. Ces encodages positionnels comportent des schémas spécifiques qui encodent les informations de position.
Attention multi-tête : L’autoattention opère dans plusieurs « têtes d’attention » pour capturer différents types de relations entre les jetons. Les fonctions Softmax, un type de fonction d’activation, sont utilisées pour calculer les pondérations d’attention dans le mécanisme d’autoattention.
Normalisation de couche et connexions résiduelles : Le modèle utilise la normalisation de couche et les connexions résiduelles pour stabiliser et accélérer l’entraînement.
Réseaux neuronaux à propagation avant : La sortie de la couche d’autoattention est transmise à travers les couches de propagation. Ces réseaux appliquent des transformations non linéaires aux représentations de jetons, ce qui permet au modèle de capturer des schémas et des relations complexes dans les données.
Couches empilées : Les transformeurs se composent généralement de plusieurs couches empilées les unes sur les autres. Chaque couche traite la sortie de la couche précédente, affinant progressivement les représentations. L’empilage de plusieurs couches permet au modèle de capturer des caractéristiques hiérarchiques et abstraites dans les données.
Couche de sortie : Dans les tâches séquence à séquence comme la traduction automatique neuronale, un module de décodage distinct peut être ajouté au-dessus de l’encodeur pour générer la séquence de sortie.
Entraînement : Les modèles de transformeurs sont entraînés à l’aide d’un apprentissage supervisé, où ils apprennent à minimiser une fonction de perte qui quantifie la différence entre les prédictions du modèle et la vérité terrain pour la tâche donnée. L’entraînement implique généralement des techniques d’optimisation comme Adam ou la descente de gradient stochastique (SGD).
Inférence : Après l’entraînement, le modèle peut être utilisé pour l’inférence sur de nouvelles données. Lors de l’inférence, la séquence d’entrée passe par le modèle pré-entraîné, qui génère des prédictions ou des représentations pour la tâche donnée.

Solutions connexes

Données et IA

Solutions d’entrepôt de données

Faites évoluer des workloads permanents d’analyse et d’IA hautes performances sur des données gouvernées dans l’ensemble de votre organisation.

En savoir plus sur les solutions d’entrepôt de données

Données et IA

IBM watsonx.data

IBM watsonx.data est un entrepôt de données adapté à vos besoins, construit sur une architecture lakehouse ouverte et compatible avec les formats de requêtes, de gouvernance et de données ouvertes pour faciliter l’accès et le partage des données.

En savoir plus sur watsonx.data

Ressources connexes

IBM aide les entreprises à faire évoluer les charges de travail d’IA

Découvrez IBM watsonx.data, un entrepôt de données conçu pour permettre aux entreprises d’unifier et de gouverner leurs données structurées et non structurées.

Le potentiel disruptif des architectures de data lakehouse ouvertes et d’IBM watsonx.data

Découvrez l’architecture de data lakehouse ouverte qui combine la flexibilité et les économies de coût des data lakes avec les performances des entrepôts de données.

IBM watsonx.data : un entrepôt de données ouvert, hybride et gouverné

Découvrez comment IBM watsonx.data permet aux entreprises de faire face à la complexité du paysage des données actuel et de faire évoluer l’IA selon leurs besoins.

Presto : donnez du sens à toutes vos données, quelle que soit leur taille, où que vous soyez

Découvrez comment Presto, un moteur de requête SQL open source rapide et flexible peut vous aider à fournir les informations dont les entreprises ont besoin.

Passez à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data

Réserver une démo en direct

Notes de bas de page

{¹ Google’s BERT Rolls Out Worldwide, Search Engine Journal (lien externe à IBM.com) 9 décembre 2019