Les systèmes mono-agents intelligents interagissent avec leur environnement pour planifier, appeler les outils et produire des réponses de manière autonome. Les outils mis à la disposition d’un agent fournissent des informations qui ne sont pas disponibles pour l’agent autrement. Comme décrit précédemment, ces informations peuvent provenir d’une base de données acquise par le biais d’une API ou d’un autre agent. Il existe une distinction entre les systèmes mono-agents et multi-agents. Lorsqu’un autre agent est utilisé en tant qu’outil, cet agent secondaire fait partie des stimuli environnementaux de l’agent d’origine. Ces informations sont acquises et aucune autre coopération n’a lieu. En revanche, les systèmes multi-agents impliquent tous les agents de l’environnement pour modéliser les objectifs, la mémoire et le plan d’action de chacun.4 La communication entre les agents peut être directe ou indirecte en modifiant l’environnement partagé.
Chaque entité d’un système multi-agent est un agent autonome dans une certaine mesure. Cette autonomie est généralement visible par la planification de l’agent, l’appel des outils et le raisonnement général. Dans un système multi-agent, les agents restent autonomes, mais coopèrent et se coordonnent également dans des structures d’agents.3 Pour résoudre des problèmes complexes, la communication entre les agents et la résolution distribuée des problèmes sont essentielles. Ce type d’interaction entre agents peut être décrit comme l’apprentissage par renforcement multi-agent. Les informations partagées par cette forme d’apprentissage peuvent inclure des informations instantanées acquises par des capteurs ou des actions. De plus, les expériences d’un agent sous forme d’informations épisodiques peuvent être partagées. Ces épisodes peuvent être des séquences de sensations, d’actions et de politiques apprises. Enfin, les agents peuvent partager leurs expériences en temps réel pour éviter que d’autres agents n’apprennent de manière répétitive les mêmes politiques.5
Les agents individuels sont puissants par eux-mêmes. Ils peuvent créer des tâches secondaires, utiliser des outils et apprendre grâce à leurs interactions. Le comportement collectif des systèmes multi-agents augmente le potentiel de précision, d’adaptabilité et d’évolutivité. Les systèmes multi-agents ont tendance à être plus performants que les systèmes mono-agents en raison du plus grand nombre de ressources partagées, de l’optimisation et de l’automatisation. Au lieu que plusieurs agents apprennent les mêmes politiques, l’expérience acquise est partagée pour optimiser la complexité temporelle et l’efficacité.5