Avec l’apprentissage par renforcement, l’agent apprend à prendre des décisions en interagissant avec un environnement. Cette méthode est utilisée dans la robotique et d’autres contextes décisionnels.
L’apprentissage par renforcement (RL) est un processus de machine learning axé sur la prise de décision autonome. Le terme « agent autonome » désigne tout système capable de prendre des décisions et de réagir à son environnement sans instructions directes de la part de l’humain. Les robots et les voitures autonomes en sont des exemples. Avec l’apprentissage par renforcement, les agents autonomes apprennent à effectuer des tâches selon la méthode essai-erreur, sans être guidés par l’humain.1 L’apprentissage par renforcement s’attaque notamment aux problèmes de prise de décision séquentielle dans un environnement incertain, et promet d’accélérer le développement de l’intelligence artificielle.
La littérature spécialisée oppose souvent l’apprentissage par renforcement à l’apprentissage supervisé et non supervisé. L’apprentissage supervisé s’appuie sur des données étiquetées manuellement pour faire des prédictions ou des classifications. L’apprentissage non supervisé vise à découvrir et à apprendre les schémas cachés dans les données non étiquetées. Contrairement à l’apprentissage supervisé, l’apprentissage par renforcement n’utilise pas d’exemples étiquetés de comportements corrects ou incorrects. Autre différence, l’apprentissage par renforcement s’appuie sur la méthode essai-erreur et sur la fonction de récompense, au lieu d’extraire des informations à partir des schémas cachés.2
Avec les méthodes d’apprentissage supervisé et non supervisé, on part du principe que chaque enregistrement de données d’entrée est indépendant des autres au sein du jeu de données, mais que chaque enregistrement actualise un modèle de distribution des données sous-jacent commun. Les modèles apprennent à prédire, et leur performance est mesurée selon la maximisation de la précision des prédictions.
Avec l’apprentissage par renforcement, en revanche, l’agent apprend à agir. Les données d’entrée sont considérées comme étant des tuples interdépendants, c’est-à-dire des séquences ordonnées de données, organisées en état-action-récompense. De nombreuses applications d’algorithmes d’apprentissage par renforcement visent à imiter les méthodes d’apprentissage du monde réel grâce au renforcement positif.
Notez que, si les deux sont rarement comparés dans la littérature spécialisée, l’apprentissage par renforcement est également distinct de l’apprentissage auto-supervisé. Ce dernier est une forme d’apprentissage non supervisé qui utilise des pseudo-étiquettes produites à partir de données d’entraînement non étiquetées comme « vérité terrain » pour mesurer la précision du modèle. L’apprentissage par renforcement, quant à lui, ne produit pas de pseudo-étiquettes. Il ne s’appuie pas non plus sur la vérité terrain, puisqu’il ne s’agit pas d’une méthode de classification, mais d’un apprentissage par l’action. Associés, les deux donnent toutefois des résultats prometteurs.3
L’apprentissage par renforcement repose essentiellement sur la relation entre un agent, un environnement et un objectif. La littérature spécialisée désigne cette relation comme processus de décision markovien (MDP).
Avec l’apprentissage par renforcement, l’agent apprend à résoudre les problèmes en interagissant avec son environnement. Ce dernier fournit des informations sur son état actuel. L’agent utilise ensuite ces informations pour déterminer la ou les mesures à prendre. Si cette mesure obtient un signal de récompense de la part de son environnement, l’agent est encouragé à la reproduire lorsqu’il se retrouve dans un état similaire. Ce processus se répète pour chaque nouvel état. Au fil du temps, les récompenses et les pénalités permettent à l’agent d’apprendre à agir dans cet environnement de manière à atteindre l’objectif spécifié.4
Dans le processus de décision markovien, l’espace d’états désigne l’ensemble des informations fournies par l’état d’un environnement. L’espace des actions désigne l’ensemble des actions que l’agent peut effectuer au sein d’un état.5
Ne disposant pas de données d’entrée étiquetées manuellement pour guider son comportement, l’agent d’apprentissage par renforcement doit explorer son environnement et tenter de nouvelles actions pour découvrir celles qui entraînent une récompense. Ces signaux de récompense permettent à l’agent d’apprendre à privilégier les actions ayant été récompensées, afin de maximiser son gain. Mais il doit également continuer à explorer de nouveaux états et actions. Il peut ainsi se servir de cette expérience par la suite pour améliorer sa prise de décision.
Les algorithmes RL exigent donc que l’agent exploite la connaissance des actions-états précédemment récompensées et en explore d’autres. L’agent ne peut pas se consacrer exclusivement à l’exploration ni à l’exploitation. Il doit tenter en permanence de nouvelles actions, tout en privilégiant celles qui entraînent la plus grande récompense cumulée.6
Au-delà du triptyque agent-environnement-objectif, quatre sous-éléments principaux caractérisent les problèmes d’apprentissage par renforcement.
- Politique. Le comportement de l’agent RL est défini en établissant une correspondance entre les états perçus de l’environnement et les actions que l’agent doit entreprendre lorsqu’il se trouve dans ces états. Il peut s’agir d’une fonction rudimentaire ou d’un processus informatique plus complexe. Par exemple, la politique guidant un véhicule autonome peut associer la détection des piétons à l’action d’arrêt.
- Signal de récompense. Il s’agit de l’objectif du problème RL. Chaque action de l’agent RL reçoit ou non une récompense de la part de son environnement. Le seul objectif de l’agent est de maximiser ses récompenses cumulées dans cet environnement. Pour les véhicules autonomes, le signal de récompense peut prendre diverses formes : réduire le temps de trajet ou le nombre de collisions, rester sur la route et sur la bonne voie, éviter les accélérations et décélérations extrêmes, etc. Cet exemple montre que le RL peut intégrer plusieurs signaux de récompense pour guider un agent.
- Fonction de valeur. Contrairement au signal de récompense, qui représente un avantage immédiat, la fonction de valeur est un avantage à long terme. La valeur désigne l’attrait d’un état par rapport à tous ceux qui sont susceptibles de suivre (avec les récompenses associées). Pour réduire le temps de trajet, un véhicule autonome peut quitter sa voie, rouler sur le trottoir et accélérer brusquement, mais ces trois actions peuvent réduire sa fonction de valeur globale. Ainsi, en tant qu’agent RL, le véhicule optera pour un temps de trajet légèrement plus long pour augmenter sa récompense dans ces trois domaines.
– Modèle. Il s’agit d’un élément facultatif des systèmes d’apprentissage par renforcement. Les modèles permettent aux agents de prédire le comportement de l’environnement selon les actions possibles. Les agents s’appuient ensuite sur les prédictions du modèle pour déterminer les actions possibles en fonction des résultats potentiels. Il peut s’agir du modèle qui guide le véhicule autonome et qui l’aide à prédire les meilleurs itinéraires, à savoir ce que l’on peut attendre des véhicules environnants, compte tenu de leur position et de leur vitesse, etc.7 Certaines approches axées sur les modèles utilisent une rétroaction humaine directe lors de l’apprentissage initial, avant de passer à l’apprentissage autonome.
Les agents collectent généralement leurs données d’apprentissage selon l’une de ces deux méthodes :
- En ligne. Ici, l’agent recueille les données en interagissant avec son environnement. Ces données sont traitées et collectées de manière itérative, au fur et à mesure que l’agent interagit avec cet environnement.
– Hors ligne. Lorsque l’agent n’a pas d’accès direct à l’environnement, il apprend grâce aux données enregistrées au sujet de cet environnement. On parle alors d’apprentissage hors ligne. Bon nombre de travaux de recherche se tournent vers l’apprentissage hors ligne en raison des difficultés pratiques liées à l’entraînement des modèles par interaction directe avec l’environnement.8
L’apprentissage par renforcement fait l’objet d’une recherche dynamique et continue. En effet, les développeurs proposent diverses approches en la matière. Les trois principales approches, largement abordées, sont la programmation dynamique, les méthodes de Monte-Carlo et la méthode des différences temporelles.
La programmation dynamique consiste à décomposer les tâches en tâches plus petites. Les problèmes sont ainsi modélisés sous forme de workflows de décisions séquentielles prises à des intervalles de temps discrets. Chaque décision est prise en fonction de l’état suivant susceptible d’en découler. La récompense de l’agent (r) pour une action donnée est définie en fonction de cette action (a), de l’état actuel de l’environnement (s) et du prochain état possible (s’) :
Cette fonction de récompense peut être utilisée pour encadrer les actions de l’agent. Déterminer la politique optimale régissant le comportement des agents est l’un des principaux aspects des méthodes de programmation dynamique dans l’apprentissage par renforcement. C’est là que l’équation de Bellman entre en jeu.
L’équation de Bellman est la suivante :
En bref, cette équation définit vt(s) comme la récompense totale attendue à partir de l’instant t et jusqu’à la fin du workflow décisionnel. On part du principe que l’agent commence par occuper l’état s à l’instant t. L’équation divise la récompense à l’instant t en récompense immédiate rt(s,a) (c’est-à-dire la formule de la récompense) et récompense totale attendue par l’agent. Pour maximiser sa fonction de valeur, à savoir la valeur totale de l’équation de Bellman, l’agent choisit systématiquement l’action qui reçoit un signal de récompense dans chaque état.9
La programmation dynamique repose sur un modèle qu’elle construit à partir de son environnement pour percevoir les récompenses, identifier les schémas et évoluer dans l’environnement. Les méthodes de Monte-Carlo, quant à elles, impliquent un environnement de type boîte noire, ce qui signifie qu’il n’y a pas de modèle.
Alors que la programmation dynamique prédit les états futurs potentiels et les signaux de récompense dans la prise de décision, les méthodes de Monte-Carlo sont exclusivement fondées sur l’expérience, puisqu’elles consistent à échantillonner séquences d’états, actions et récompenses uniquement par le biais de l'interaction avec l’environnement. L’apprentissage se fait donc selon la méthode essai-erreur, et non par le biais de distributions probabilistes.
Autre différence entre les méthodes Monte-Carlo et la programmation dynamique : la manière de déterminer la fonction de valeur. La programmation dynamique consiste à rechercher la plus grande récompense cumulée en sélectionnant systématiquement les actions récompensées dans les états successifs. Avec Monte-Carlo, en revanche, on fait la moyenne des retours pour chaque paire état-action. On doit donc attendre que toutes les actions d’un épisode donné (ou horizon de planification) soient effectuées pour calculer la fonction de valeur, puis mettre à jour sa politique.10
Selon la littérature spécialisée, les méthodes de différences temporelles (TD) associent programmation dynamique et méthodes Monte-Carlo. Comme avec la programmation dynamique, les méthodes TD consistent à mettre à jour sa politique, et donc l’estimation des états futurs, après chaque étape, sans attendre une valeur finale. Comme dans le cas de Monte-Carlo, l’apprentissage TD se fait par interaction brute avec l’environnement, et non par le biais d’un modèle de ce dernier.11
Comme son nom l’indique, la méthode TD consiste pour l’agent à réviser sa politique selon la différence entre les récompenses prévues et les récompenses reçues dans chaque état. Alors que la programmation dynamique et Monte-Carlo ne tiennent compte que de la récompense reçue, les méthodes TD consistent donc à évaluer la différence entre les attentes et la récompense reçue. L’agent s’appuie sur cette différence pour mettre à jour ses estimations pour l’étape suivante sans attendre l’horizon de planification des événements, contrairement à Monte-Carlo.12
Les méthodes TD comportent de nombreuses variantes. Parmi les plus importantes, citons les méthodes SARSA (état-action-récompense-état-action) et Q-learning. SARSA est une méthode de TD « on-policy », ce qui signifie qu’elle évalue et tente d’améliorer sa politique de décision. Q-learning est une méthode « off-policy », qui associe donc deux politiques : une pour l’exploitation (politique cible) et une pour l’exploration afin de générer un comportement (politique de comportement).13
Il existe de nombreuses autres méthodes d’apprentissage par renforcement. La programmation dynamique est une méthode axée sur la valeur : elle sélectionne les actions en fonction de leurs valeurs estimées, conformément à une politique qui vise à maximiser sa fonction de valeur. Les méthodes du gradient de la politique, quant à elles, consistent à apprendre une politique paramétrée permettant de sélectionner des actions sans consulter une fonction de valeur. Axées sur les politiques, ces méthodes sont considérées comme plus efficaces dans les environnements à haute dimension.14
Les méthodes acteur-critique s’appuient à la fois sur les valeurs et sur les politiques. Ce que l’on appelle « acteur » est un gradient de politique déterminant les actions à entreprendre, tandis que le « critique » est une fonction de valeur permettant d’évaluer les actions. Les méthodes acteur-critique sont une forme de TD. Plus précisément, ces méthodes consistent à évaluer la valeur d’une action donnée en fonction non seulement de sa propre récompense, mais aussi de la valeur possible de l’état suivant, que l’on ajoute à la récompense de l’action. Parce qu’elles mettent en œuvre une fonction de valeur et une politique dans la prise de décision, les méthodes acteur-critique présentent l’avantage de nécessiter moins d’interaction avec l’environnement.15
Axé principalement sur la prise de décision dans un environnement imprévisible, l’apprentissage par renforcement est un domaine d’intérêt central en robotique. Pour accomplir des tâches répétitives, le processus de prise de décision peut s’avérer simple. Mais les tâches plus complexes, comme les tentatives d’imitation du comportement humain ou l’automatisation de la conduite, impliquent une interaction avec des environnements réels, très variables et modifiables. Diverses études montrent qu’associer apprentissage par renforcement profond et réseaux neuronaux profonds facilite ces tâches, notamment la généralisation et la mise en correspondance des entrées sensorielles à haute dimension et des sorties des systèmes contrôlés.16 Les études indiquent que l’apprentissage par renforcement profond avec des robots repose fortement sur les jeux de données collectés ; c’est pourquoi les travaux récents explorent les moyens de collecter des données du monde réel17 et de réutiliser les données antérieures18 afin d’améliorer les systèmes d’apprentissage par renforcement.
Des études récentes indiquent que les techniques et les outils de traitement automatique du langage naturel, comme les grands modèles de langage (LLM), permettent d’améliorer la généralisation dans les systèmes d’apprentissage par renforcement, grâce à une représentation textuelle des environnements réels.19 De nombreuses études montrent que les environnements textuels interactifs constituent une alternative rentable aux environnements tridimensionnels lorsqu’il s’agit d’instruire les agents apprenants pour accomplir des tâches de prise de décision successives.20 L’apprentissage par renforcement profond sert également de base à la prise de décision textuelle des chatbots. En fait, l’apprentissage par renforcement s’avère plus efficace que les autres méthodes pour améliorer la réponse des chatbots.21
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Accédez à notre catalogue complet de plus de 100 cours en ligne en souscrivant aujourd’hui un abonnement individuel ou multiutilisateur afin d’élargir vos compétences dans certains de nos produits à un prix avantageux.
Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.
1 Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016.
2 Peter Stone, « Reinforcement Learning », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
3 Xiang Li, Jinghuan Shang, Srijan Das, Michael Ryoo, « Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels? », Advances in Neural Information Processing Systems, vol. 35, 2022, pages 30865 à 30881, https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html.
4 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
5 Brandon Brown et Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.
6 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018.
Brandon Brown et Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.
7 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani et Patrick Pérez, « Deep Reinforcement Learning for Autonomous Driving: A Survey », transactions de l’IEEE sur les systèmes de transport intelligents, vol. 23, n° 6, 2022, pages 4909 à 4926, https://ieeexplore.ieee.org/document/9351818.
8 Sergey Levine, Aviral Kumar, George Tucker et Justin Fu, « Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems », 2020, https://arxiv.org/abs/2005.01643. Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou et David Silver, « Online and Offline Reinforcement Learning by Planning with a Learned Model », Advances in Neural Information Processing Systems, vol. 34, 2021, pages 27580 à 27591, https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html.
9 Martin Puterman et Jonathan Patrick, « Dynamic Programming », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
10 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018. Phil Winder, Reinforcement Learning: Industrial Applications of Intelligent Agents, O’Reilly, 2020.
11 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018.
12 Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
13 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018.
14 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
15 Richard Sutton et Andrew Barto, Introduction to Reinforcement Learning, 2e édition, MIT Press, 2018.
16 Julian Ibarz, Jie Tan, Chelsea Finn, Mrinal Kalakrishnan, Peter Pastor et Sergey Levine, « How to train your robot with deep reinforcement learning: lessons we have learned », The International Journal of Robotics Research, vol. 40, 2021, pages 969 à 721, https://journals.sagepub.com/doi/full/10.1177/0278364920987859.
17 Saminda Wishwajith Abeyruwan, Laura Graesser, David B D’Ambrosio, Avi Singh, Anish Shankar, Alex Bewley, Deepali Jain, Krzysztof Marcin Choromanski et Pannag R Sanketi, « i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops », actes de la 6e conférence sur l’apprentissage robotique, PMLR, n° 205, 2023, pages 212 à 224, https://proceedings.mlr.press/v205/abeyruwan23a.html.
18 Homer Rich Walke, Jonathan Heewon Yang, Albert Yu, Aviral Kumar, Jędrzej Orbik, Avi Singh et Sergey Levine, « Don’t Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning », actes de la 6e conférence sur l’apprentissage robotique, PMLR, n° 205, 2023, pages 1652 à 1662, https://proceedings.mlr.press/v205/walke23a.html.
19 Nikolaj Goodger, Peter Vamplew, Cameron Foale et Richard Dazeley, « Language Representations for Generalization in Reinforcement Learning », actes de la 13e conférence asiatique sur le machine learning, PMLR, n° 157, 2021, pages 390 à 405, https://proceedings.mlr.press/v157/goodger21a.html. Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta et Jacob Andreas, « Guiding Pretraining in Reinforcement Learning with Large Language Models », actes de la 40e conférence internationale sur le machine learning, PMLR, n° 202, 2023, pages 8657 à 8677, https://proceedings.mlr.press/v202/du23f.html. Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh et Roy Fox, « Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling », actes de la 40e conférence internationale sur le machine learning, PMLR, n° 202, 2023, pages 26311 à 26325, https://proceedings.mlr.press/v202/nottingham23a.html.
20 Ruoyao Wang, Peter Jansen, Marc-Alexandre Côté et Prithviraj Ammanabrolu, « ScienceWorld: Is your Agent Smarter than a 5th Grader? », actes de la conférence 2022 sur les méthodes empiriques dans le traitement automatique du langage naturel, 2022, pages 11279 à 11298, https://aclanthology.org/2022.emnlp-main.775/. Peter Jansen, « A Systematic Survey of Text Worlds as Embodied Natural Language Environments », actes du 3e atelier Wordplay : quand le langage rencontre les jeux, 2022, pages 1 à 15, https://aclanthology.org/2022.wordplay-1.1.
21 Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q Weinberger et Ryan Mcdonald, « On the Effectiveness of Offline RL for Dialogue Response Generation », actes de la 40e conférence internationale sur le machine learning, PMLR, n° 202, 2023, pages 32088 à 32104, https://proceedings.mlr.press/v202/sodhi23a.html. Siddharth Verma, Justin Fu, Sherry Yang et Sergey Levine, « CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning », Actes de la conférence 2022 du chapitre nord-américain de l’Association for Computational Linguistics : Human Language Technologies, 2022, pages 4471 à 4491, https://aclanthology.org/2022.naacl-main.332/.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com