Qu’est-ce que l’apprentissage par renforcement basé sur les commentaires humains (RLHF) ?

Publication : 10 novembre 2023
Contributeurs : Dave Bbergmann

Qu'est-ce que le RLHF ?

L'apprentissage par renforcement basé sur les commentaires humains (RLHF) est une technique de machine learning dans laquelle un « modèle de récompense » est entraîné à l'aide de commentaires humains continus, puis utilisé pour optimiser les performances d'un agent d'intelligence artificielle par le biais de l'apprentissage par renforcement.

Le RLHF, également appelé apprentissage par renforcement basé sur les préférences humaines, est particulièrement adapté aux tâches dont les objectifs sont complexes, mal définis ou difficiles à spécifier. Par exemple, il serait peu pratique (voire impossible) pour une solution algorithmique de définir "drôle" en termes mathématiques, mais facile pour les humains d'évaluer les blagues générées par un grand modèle de langage (LLM).Ces commentaires humains, synthétisés dans une fonction de récompense, pourraient alors être utilisés pour améliorer les capacités d'écriture de blagues du LLM.

Dans un article de 2017, Paul F. Christiano d’OpenAI, ainsi que d’autres chercheurs d’OpenAI et de DeepMind, ont détaillé le succès du RLHF dans l’entraînement de modèles d’IA pour effectuer des tâches complexes comme les jeux Atari et la simulation de locomotion robotique.¹Suite à cette avancée, les jeux vidéo ont continué d’être un terrain d’essai important pour le RLHF : en 2019, des systèmes d’IA entraînés par le RLHF, comme OpenAI Five et AlphaStar de DeepMind, avaient battu les meilleurs joueurs professionnels humains dans des jeux beaucoup plus complexes, respectivement Dota 2² et StarCraft³.

Peut-être plus important encore, le document de 2017 d'OpenAI indique que sa méthodologie, en particulier l'introduction de l'algorithme d'optimisation de la politique proximale (PPO) pour la mise à jour des poids du modèle, a considérablement réduit le coût de la collecte et du traitement des commentaires humains nécessaires. Cela a ouvert la voie à l'intégration éventuelle du RLHF dans le domaine du traitement automatique du langage naturel (NLP), les progrès qui en résultent contribuant à placer les LLM et le RLHF à l'avant-garde de la recherche sur l'IA.

La première publication de code détaillant l'utilisation de RLHF sur les modèles de langage a été faite en 2019 par OpenAI⁴, qui a ensuite publié l'InstructGPT entraîné par le RLHF début 2022.⁵ Il s'agissait d'une étape cruciale pour pallier la différence entre les modèles GPT-3 et le GPT-3.5-turbo. qui ont alimenté le lancement de ChatGPT.

RLHF a depuis été utilisé lors de l'apprentissage des LLM de pointe d'OpenAI, de DeepMind, de Google⁶ et d'Anthropic.⁷

Créez des fworkflows d’IA responsables avec la gouvernance de l’IA

Découvrez les éléments constitutifs et les bonnes pratiques pour aider vos équipes à accélérer l’IA responsable.

Contenu connexe

Obtenir le guide sur les modèles de fondation

Comment fonctionne l'apprentissage par renforcement

Sur le plan conceptuel, l'apprentissage par renforcement (RL) vise à imiter la manière dont les êtres humains apprennent : les agents de l'IA apprennent de manière holistique par tâtonnements, motivés par de fortes motivations à réussir.

Pour mettre cette stratégie en pratique, un cadre mathématique pour l'apprentissage par renforcement comprend les éléments suivants :

Représentation d'état

La représentation d'état est constituée de toutes les informations disponibles sur la tâche à accomplir qui sont pertinentes quant aux décisions que l'agent d'intelligence artificielle pourrait prendre, y compris les variables connues et inconnues.Elle change généralement à chaque fois que l'agent prend une décision.

L'espace d’action

L'espace d'action contient toutes les décisions que l'agent d'IA peut prendre. Dans le contexte d'un jeu de société, par exemple, l'espace d'action est discret et bien défini : il se compose de tous les mouvements autorisés dont dispose le joueur IA à un moment donné Dans le contexte de la génération de texte, l'espace d'action est massif et comprend l'ensemble du « vocabulaire » des jetons disponibles pour un LLM.

Fonction de récompense

La récompense est la mesure du succès ou du progrès qui encourage l'agent d'IA. Dans certains cas, comme les jeux de société, la définition du succès (dans ce cas, gagner le jeu) est objective et directe. Mais lorsque la définition du « succès » est nébuleuse, la conception d'une fonction de récompense efficace peut constituer un défi de taille. Dans un cadre mathématique, ce commentaore doit être traduit en un signal de récompense : une quantification évolutive de commentaire positif (ou négatif).

Les contraintes

Une fonction de récompense pourrait être complétée par des pénalités (récompenses négatives) pour les actions jugées contre-productives par rapport à la tâche à accomplir. Par exemple, une entreprise pourrait vouloir interdire à un chatbot d'utiliser des blasphèmes ou d'autres termes vulgaires ; un modèle de voiture autonome pourrait être pénalisé en cas de collision ou de sortie de voie.

Politiques

Une politique est essentiellement la stratégie ou le « processus de pensée » qui détermine le comportement d'un agent d'intelligence artificielle. En termes mathématiques simples, une politique (« π ») est une fonction qui prend un état (« s ») en entrée et renvoie une action (« a ») : π (s) →a.

L'objectif d'un algorithme RL est d'optimiser une politique afin d'obtenir une récompense maximale. Dans l'apprentissage par renforcement profond, la politique est représentée sous la forme d'un réseau neuronal qui est continuellement mis à jour, en fonction de la fonction de récompense, au cours du processus d'apprentissage. L’agent d'IA apprend avec l’expérience, tout comme les humains.

Bien que le RL conventionnel ait obtenu des résultats impressionnants dans le monde réel dans de nombreux domaines, il peut s'avérer difficile de concevoir efficacement une fonction de récompense pour des tâches complexes pour lesquelles il est difficile d'établir une définition claire de la réussite. Le principal avantage du RLHF est sa capacité à saisir la nuance et la subjectivité en utilisant un commentaire humain positif au lieu d'objectifs formellement définis.

Le RLHF pour les grands modèles de langage

L'une des applications les plus connues du RLHF a été l'amélioration de la pertinence, de la précision et de l'éthique des LLM, en particulier dans le cadre de leur utilisation en tant que chatbots.

Les LLM, comme tous les modèles d'IA générative, visent à reproduire la distribution de probabilité des données d'apprentissage. Bien que les progrès récents aient favorisé l'utilisation des LLM comme moteurs pour les chatbots, ou même comme moteurs de raisonnement pour l'IA générale, ces modèles de langage utilisent simplement des modèles appris grâce à leurs données d'apprentissage pour prédire le(s) mot(s) suivant(s) dans une séquence donnée initiée par une invite. Fondamentalement, ces modèles ne répondent pas réellement à une invite : ils y ajoutent du texte.

En l'absence d'instructions très précises, les modèles de langage ont peu de chances de comprendre l'intention de l'utilisateur. Bien que le prompt engineering puisse contribuer à fournir le contexte nécessaire à un LLM pour adapter sa réponse aux besoins d'un utilisateur, il n'est pas pratique de requérir à une telle ingénierie pour chaque échange avec un chatbot.

En outre, alors que les LLM prêts à l'emploi ont été entraînés avec des méthodes conventionnelles à produire des résultats grammaticalement cohérents, l'entraînement des LLM à produire de « bons » résultats reste un problème épineux.Des concepts tels que la vérité, l'utilité, la créativité ou même ce qui rend un extrait de code exécutable dépendent beaucoup plus du contexte que du sens des mots et de la structure linguistique.

Pour améliorer les modèles linguistiques en matière d'interaction humaine, les data scientists se sont tournés vers l'apprentissage par renforcement basé sur les commentaires humains. Pour améliorer les modèles linguistiques en matière d'interaction humaine, les scientifiques des données se sont tournés vers l'apprentissage par renforcement avec commentaires humains. Les modèles InstructGPT améliorés par RLHF ont nettement surpassé leurs prédécesseurs GPT-3, notamment en termes de respect des instructions, d'exactitude des faits et d'absence d'hallucinations du modèle.⁵ De même, les recherches publiées par OpenAI lors du lancement de GPT-4 ont montré que le RLHF multipliait par deux l'exactitude des réponses aux questions contradictoires.⁸

Les avantages du RLHF peuvent même supplanter la valeur des ensembles de données d'entraînement plus importants, en permettant un développement de modèles plus efficace en termes de données : OpenAI a noté que ses spécialistes préféraient les résultats de la version à 1,3 milliard de paramètres d'InstructGPT aux résultats de la version à 175 milliards de paramètres de GPT-3.⁵

Comment fonctionne le RLHF ?

L'entraînement d'un LLM avec le RLHF se déroule généralement en quatre phases :

Modèles de pré-entraînement

Le RLHF est généralement utilisé pour affiner et optimiser un modèle pré-entraîné, plutôt que comme une méthode d'entraînement de bout en bout. Par exemple, InstructGPT a utilisé le RLHF pour améliorer le modèle GPT (Generative Pre-trained Transformer) préexistant. Dans son annonce de lancement d'InstructGPT, OpenAI a déclaré que "l'une des façons d'envisager ce processus est qu'il "débloque" des capacités que le GPT-3 possédait déjà, mais qu'il était difficile d'obtenir par le seul biais de l'ingénierie d'invite. »⁵

Le pré-entraînement reste de loin la phase la plus gourmande en ressources du RLHF. L'OpenAI a noté que le processus d'entraînement RLHF pour InstructGPT représentait moins de 2 % des calculs et des données nécessaires pour l'entraînement préalable de GPT-3.

Une mise au point supervisée

Avant le début de l'apprentissage par renforcement formel, la mise au point supervisée (SFT) est utilisée pour préparer le modèle à générer ses réponses dans le format attendu par les utilisateurs.

Comme nous l'avons déjà mentionné, le processus de pré-entraînement LLM optimise les modèles pour les compléter : prédire les mots suivants dans une séquence qui a débuté avec l'invite de l'utilisateur en reproduisant les schémas linguistiques appris pendant le pré-entraînement du modèle. Parfois, les LLM ne complètent pas une séquence de la manière souhaitée par l'utilisateur : par exemple, si l'utilisateur demande « apprenez-moi à faire un CV », le LLM peut répondre « en utilisant Microsoft Word. » Il s'agit d'une manière correcte de compléter la phrase, mais qui ne correspond pas à l'objectif de l'utilisateur.

La SFT utilise donc l'apprentissage supervisé pour entraîner des modèles capables de répondre de manière appropriée à différents types d'invites. Les experts humains créent des exemples étiquetés, en suivant le format (invite, réponse), pour montrer comment répondre aux invites dans différents cas d'utilisation, comme la réponse à des questions, la synthèse ou la traduction.

Ces données de démonstration, bien que puissantes, prennent du temps et sont coûteuses à produire. Plutôt que de créer de nouveaux exemples sur mesure, DeepMind a introduit l'approche consistant à "appliquer une heuristique de filtrage basée sur un format de dialogue écrit commun (style "transcription d'entretien")" pour isoler les combinaisons d'exemples d'invites/réponses appropriées dans leur ensemble de données MassiveWeb.⁹

Entraînement de modèle de récompense

Pour que le commentaire humain alimente une fonction de récompense dans l'apprentissage par renforcement, un modèle de récompense est nécessaire pour traduire la préférence humaine en un signal de récompense numérique. La conception d'un modèle de récompense efficace est une étape cruciale du RLHF, car il n'existe aucune formule mathématique ou logique directe permettant de définir de manière réaliste les valeurs humaines subjectives.

L'objectif principal de cette phase est de fournir au modèle de récompense suffisamment de données d'entraînement, composées de commentaires émanant directement d'évaluateurs humains, afin d'aider le modèle à apprendre à imiter la manière dont les préférences humaines attribuent des récompenses aux différents types de réponses du modèle. L'apprentissage peut ainsi se poursuivre en différé, sans qu'un être humain ne soit présent dans la boucle.

Un modèle de récompense doit prendre une séquence de texte et produire une valeur de récompense évolutive qui prédit, numériquement, dans quelle mesure un utilisateur humain récompenserait (ou pénaliserait) ce texte. Cette valeur évolutive est essentielle pour que la sortie du modèle de récompense puisse être intégrée à d'autres composants de l'algorithme RL.

Bien qu'il puisse sembler plus intuitif de simplement demander aux évaluateurs humains d'exprimer leur opinion sur chaque réponse de modèle sous forme de barème, en notant la réponse sur une échelle de 1 (la pire) à 10 (la meilleure), il est extrêmement difficile de faire en sorte que tous les évaluateurs humains s'accordent sur la valeur relative d'une note donnée, et encore plus de faire en sorte que les évaluateurs humains s'accordent sur ce qui constitue une « bonne » ou une « mauvaise » réponse isolée. Cela peut rendre l'évaluation directe sujette à des erreurs et difficile à calibrer.

Au lieu de cela, un système d'évaluation est généralement élaboré en comparant le commentaire humain pour différentes sorties de modèle. Une méthode courante consiste à demander aux utilisateurs de comparer deux séquences de texte analogues, comme les résultats de deux modèles de langage différents répondant à la même invite, dans le cadre de confrontations directes, puis d'utiliser un système d'évaluation Elo pour générer un classement agrégé de chaque élément de texte généré par rapport à l'autre. Un système simple pourrait permettre aux utilisateurs de « lever le pouce » ou de « baisser le pouce » pour chaque sortie, les sorties étant alors classées en fonction de leur favorabilité relative. Des systèmes plus complexes pourraient demander aux utilisateurs de fournir une évaluation globale et de répondre à des questions catégoriques sur les défauts de chaque réponse, puis d'agréger algorithmiquement ce retour d'information en un score de qualité pondéré.

Les résultats de l'un ou l'autre système de classement sont finalement normalisés en un signal de récompense évolutif pour guider l'entraînement du modèle de récompense.

L'optimisation des politiques

Le dernier obstacle du RLHF est de déterminer comment et dans quelle mesure le modèle de récompense doit être utilisé pour mettre à jour la politique de l'agent d'IA. L'un des algorithmes les plus efficaces utilisés pour la fonction de récompense qui met à jour les modèles RL est l'optimisation stratégique proximale (PPO).

Contrairement à la plupart des architectures de modèles de réseaux neuronaux et de machine learning, qui utilisent la descente de gradient pour minimiser leur fonction de perte et produire l'erreur la plus petite possible, les algorithmes d'apprentissage par renforcement utilisent souvent la montée de gradient pour maximiser la récompense.

Toutefois, si la fonction de récompense est utilisée pour former le LLM sans aucun dispositif de protection, le modèle de langage peut modifier considérablement ses pondérations au point de produire du charabia dans le but de « jouer » avec le modèle de récompense. La PPO fournit un moyen plus stable de mettre à jour la politique de l'agent d'IA en limitant la mise à jour de la politique à chaque itération d'apprentissage.

Tout d'abord, une copie du modèle initial est créée et ses paramètres d'entraînement sont gelés. L'algorithme PPO calcule une fourchette de [1-ε, 1+ε], dans laquelle ε est un hyperparamètre qui détermine approximativement jusqu'où la nouvelle politique (mise à jour) est autorisée à s'éloigner de l'ancienne politique (gelée). Il calcule ensuite un ratio de probabilité : le ratio de la probabilité qu'une action donnée soit entreprise par l'ancienne politique par rapport à la probabilité que cette action soit entreprise par la nouvelle politique. Si le rapport de probabilité est supérieur à 1+ε (ou inférieur à 1-ε), il est possible de réduire la portée de la mise à jour de la politique afin d'éviter tout changement radical susceptible de déstabiliser l'ensemble du modèle.

L'introduction de la PPO a constitué une alternative intéressante à son prédécesseur, l'optimisation de la politique de la zone de confiance (TRPO), qui offre des avantages similaires, mais qui est plus compliquée et plus coûteuse en termes de calcul que la PPO. Bien que d'autres cadres d'optimisation des politiques, tels que l'Advantage actor-critic (A2C), soient également viables, la PPO est souvent privilégiée en tant que méthodologie simple et rentable.

Limites du RLHF

Bien que les modèles RLHF aient donné des résultats impressionnants dans l'entraînement d'agents d'intelligence artificielle pour des tâches complexes allant de la robotique et des jeux vidéo à la PNL, l'utilisation du RLHF n'est pas sans limites.

Les données sur les préférences humaines coûtent cher. La nécessité de recueillir des entrées humaines directes peut créer un goulot d'étranglement coûteux qui limite l'évolutivité du processus RLHF. Anthropic¹⁰ et Google¹¹ ont tous deux proposé des méthodes d'apprentissage par renforcement basé sur les commentaires de l'IA (RLAIF), remplaçant une partie ou la totalité des commentaires humains par l'évaluation des réponses du modèle par un autre LLM, qui ont donné des résultats comparables à ceux du RLHF.

L'avis humain est très subjectif. Il est difficile, voire impossible, d'établir un consensus ferme sur ce qui constitue un résultat de "haute qualité", car les évaluateurs humains sont souvent en désaccord non seulement sur les faits allégués, mais aussi sur la signification d'un comportement « approprié » du modèle. Les désaccords humains empêchent donc la réalisation d'une véritable « vérité de fond » par rapport à laquelle les performances du modèle peuvent être jugées.

Les évaluateurs humains peuvent manquer de fiabilité, voire être intentionnellement hostiles et malveillants. Qu'il s'agisse d'opinions divergentes authentiques ou de trolls intentionnels du processus d'apprentissage, les indications humaines fournies au modèle ne le sont pas toujours en toute bonne foi. Dans un article de 2016, Wolf, et al ont affirmé que le comportement toxique devait être une attente fondamentale des interactions homme-robot et ont suggéré la nécessité d'une méthode pour évaluer la crédibilité de l'apport humain.¹² En 2022, Meta AI a publié un article sur les données humaines contradictoires (lien externe à ibm.com) qui étudie les méthodes automatisées « pour obtenir une efficacité d'apprentissage maximale à partir de données de haute qualité, tout en ayant une fiabilité maximale face à des données de faible qualité et contradictoires ». L'article identifie divers archétypes de « trolls » et les différentes façons dont ils déforment les données relatives aux commentaires.

Le RLHF pose le risque d'un surajustement et d'un biais. Si le commentaire humain est recueilli auprès d'un groupe démographique trop restreint, le modèle peut présenter des problèmes de performance lorsqu'il est utilisé par différents groupes ou lorsqu'il est invité à traiter des sujets pour lesquels les évaluateurs humains ont certains préjugés.

Solutions connexes

watsonx.ai

Entraînez, validez, ajustez et déployez en toute facilité des capacités d’IA générative et de machine learning ainsi que des modèles de fondation, et créez des applications d’IA beaucoup plus rapidement, avec seulement une fraction des données disponibles.

Découvrir watsonx.ai

Ressources du RLHF

Lancez-vous avec les API d'apprentissage par renforcement en ligne

Ce parcours d'apprentissage fournit une vue d'ensemble de l'apprentissage par renforcement automatisé et démontre l'utilisation des API d'IA automatisée pour la prise de décision afin de prendre en charge les cas d'utilisation généraux de l'apprentissage par renforcement en ligne.

Entraîner un agent logiciel à se comporter de manière rationnelle grâce à l'apprentissage par renforcement

Découvrez l'histoire et les principes fondamentaux de l'apprentissage par renforcement, puis réalisez une démonstration simple en utilisant la technique du « Q learning ». Inclut un exemple d'implémentation.

Une approche utile et responsable de l’IA avec IBM Consulting

Dans les première et deuxième parties de cette série de trois articles, nous avons examiné les définitions et les cas d'utilisation de l'IA générative. Cette partie explore l'approche adoptée par IBM Consulting lorsqu'il s'agit de s'engager dans des projets d'IA.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct

Notes de bas de page