Accueil Thèmes Mise à l’échelle automatique Qu’est-ce que l’auto-scaling ?
Explorez l'optimisation des coûts du cloud
Illustration représentant une infrastructure de cloud hybride

Publication : 12 décembre 2023
Contributeurs : Gita Jackson, Michael Goodwin

Qu’est-ce que l’auto-scaling ?

L’auto-scaling, parfois appelé « dimensionnement automatique », est une fonctionnalité de cloud computing qui alloue automatiquement les ressources de calcul en fonction de la demande du système. 

L’auto-scaling permet de s’assurer que les applications disposent des ressources nécessaires pour maintenir une disponibilité constante et atteindre les objectifs de performance. Il permet également de promouvoir l’utilisation efficace des ressources cloud et de réduire les coûts dans ce domaine. Selon un livre blanc d’Infosys publié en 2023, les organisations qui migrent vers le cloud gaspillent environ 32 % des coûts associés.1 Parce qu'il a pour but de permettre une utilisation efficace des ressources, l’auto-scaling est un composant utile pour des pratiques FinOps performantes.

Lorsque les organisations configurent leur infrastructure cloud, elles provisionnent les ressources d’après des besoins « de référence » en matière de ressources informatiques, de stockage et de réseau. Mais la demande fluctue, par exemple, en fonction des pics ou des baisses dans le trafic réseau ou en fonction de l'utilisation des applications. Les fonctionnalités d’auto-scaling permettent d’adapter les ressources à la demande en temps réel en fonction d’indicateurs spécifiques comme l’utilisation du processeur ou la disponibilité de la bande passante, et ce sans intervention humaine.

L’auto-scaling peut être utilisé pour optimiser l’allocation des ressources de diverses manières : avec le dimensionnement prédictif, qui utilise les données historiques pour prédire la demande future, ou avec le dimensionnement dynamique, qui s’adapte en temps réel aux besoins en matière de ressources, comme défini par les politiques d’auto-scaling de l’organisation. Les politiques d’auto-scaling automatisent les cycles de vie des instances de cloud computing, en lançant et en arrêtant les machines virtuelles en fonction des besoins pour répondre à la demande en matière de ressources. L’auto-scaling est souvent utilisé en tandem avec un équilibrage de charge élastique pour tirer pleinement parti des ressources cloud disponibles.

Découvrir la démo interactive d’IBM Turbonomic

Limitez les dépenses liées au cloud tout en préservant les performances des applications grâce aux outils d’optimisation automatique et continue du cloud.

Contenu connexe

Abonnez-vous à la newsletter IBM

Équilibrage de charge et auto-scaling

Même si l’auto-scaling est lié à l’équilibrage de la charge, ces deux processus ne sont pas tout à fait identiques. Ils ont tous deux une influence sur l’allocation des ressources back-end et sont utilisés pour optimiser les performances et éviter le surprovisionnement. Ils sont souvent utilisés ensemble.

Les équilibreurs de charge répartissent le trafic entrant sur plusieurs serveurs pour réduire la charge sur un serveur particulier. Les équilibreurs de charge proposent souvent des fonctionnalités telles que les diagnostics d’intégrité, qui permettent de rediriger le trafic dans les instances en mauvaise santé vers des instances saines. L'équilibrage de la charge du trafic permet d’améliorer les performances des applications dans un environnement cloud.

L’auto-scaling, en revanche, ajuste la capacité du système en fonction de la demande afin de maintenir des performances constantes et d’éviter le surprovisionnement des ressources (pour utiliser uniquement le nécessaire). L’auto-scaling ajoute de nouveaux serveurs ou de nouvelles instances de calcul (ou les arrête) en fonction de la demande en matière de ressources et des politiques de dimensionnement automatique définies par l’organisation.

Fonctionnement de l’auto-scaling

La plupart des fournisseurs de cloud, comme IBM Cloud, Amazon Web Services (parfois appelé AWS Cloud), Microsoft Azure et Oracle Cloud Infrastructure, proposent des services d’auto-scaling sur leurs plateformes cloud. Ces services peuvent aider les organisations à configurer des stratégies d’auto-scaling pour répondre à leurs besoins et objectifs en matière de cloud computing.

Différents fournisseurs et plateformes offrent différentes fonctionnalités, capacités et tarifications, et les organisations auront différentes ressources disponibles, pour différents cas d’utilisation, mais en général, voici comment l’auto-scaling fonctionne :

Le processus commence par une configuration de lancement, ou un déploiement de base, où un ou plusieurs types d’instances sont déployés avec des fonctionnalités spécifiques en termes de capacité et de performance. Cela requiert souvent des appels d’API et une infrastructure en tant que code (IaC), un processus qui exploite le code pour provisionner et configurer les éléments de l’infrastructure informatique selon des spécifications prédéfinies.

Les organisations détermineront la capacité souhaitée et le type d’attributs dont l’instance a besoin en fonction du workload attendu pour cette instance. Lors de la mise en place d’une politique d’auto-scaling , l’organisation peut définir des objectifs et des seuils pour l’utilisation des couches de calcul, de stockage ou de réseau, qui lorsqu’ils sont atteints, déclenchent automatiquement une action spécifique pour répondre plus précisément aux demandes actuelles en matière de ressources. Il est possible de configurer les politiques de manière à ce que des notifications soient envoyées à chaque fois qu’une action de dimensionnement est initiée.

Groupes d’auto-scaling

Les organisations peuvent également configurer des groupes d’instances maintenant un nombre minimum ou maximum d’instances pour les workloads spécifiés, ou regrouper différents types d’instances pour gérer différents types de workloads. Voici les différents types d’instances :2

Instances à usage général

Les instances à usage général sont conçues pour une variété de workloads, notamment les serveurs web, les petites bases de données, et les environnements de développement et de test.

Instances optimisées pour le calcul

Ces instances sont optimisées pour les workloads nécessitant une grande puissance de calcul, comme les calculs hautes performances, le traitement par lots et la modélisation scientifique. Ces instances maximisent la puissance de calcul en utilisant des GPU et des processeurs comptant de nombreux cœurs.

Instances optimisées pour la mémoire

Ces instances à mémoire élevée sont optimisées pour les workloads gourmands en mémoire, comme les bases de données hautes performances, les caches distribués en mémoire et le traitement de données en temps réel/l’analytique du big data.

Instances optimisées pour le stockage

Ces instances sont optimisées pour les workloads gourmands en stockage comme le big data, l’entreposage de données et le traitement des journaux. Elles tirent parti de la mise en cache haute capacité et des disques SSD (Solid State Drive) pour prendre en charge les activités de lecture et d’écriture intenses des workloads.


Les groupes d’auto-scaling avec des types d’instances mixtes permettent aux équipes CloudOps et DevOps de répondre aux demandes en matière de ressources de manière plus précise et plus efficace. Par exemple, si les besoins en bande passante sont correctement satisfaits, mais que l’utilisation du processeur a dépassé le seuil établi dans les politiques d’auto-scaling, les instances de calcul peuvent être lancées tandis que les instances dédiées à la gestion du trafic réseau restent telles quelles.

Une fois que les équipes ont compris la demande du workload, elles peuvent même créer des modèles de configuration de lancement pour de nouvelles instances. Ces modèles définissent le type d’instance, les paramètres de configuration et d’autres politiques pour le lancement de nouvelles instances et leur contribution à l’environnement cloud global. Les entreprises d=peuvent ainsi automatiser entièrement les cycles de vie des machines virtuelles.

Types d’auto-scaling

Il existe plusieurs types de dimensionnement, et différentes méthodes d’auto-scaling :

Dimensionnement horizontal

Le dimensionnement horizontal, ou « scale-out », implique l’ajout de machines ou de nœuds dans un environnement de cloud computing. Vous pouvez également effectuer une mise à l’échelle en réduisant le nombre de nœuds dans l’environnement.

Dimensionnement vertical

Le dimensionnement vertical, ou « scale-up », est le processus qui consiste à ajouter de la puissance (RAM, processeur ou stockage, par exemple) aux nœuds existants dans votre environnement de cloud computing actuel.

Les politiques d’auto-scaling peuvent être prédictives, dynamiques ou planifiées.

Dimensionnement prédictif

Les politiques de dimensionnement prédictif utilisent l’intelligence artificielle (IA) et le machine learning pour anticiper les besoins futurs en ressources avant qu’ils ne surviennent, en fonction de l’utilisation historique.

Par exemple, une politique prédictive d’auto-scaling pourrait déterminer la probabilité d’une augmentation du trafic web pour une société d’e-commerce avant les fêtes de fin d'année et effectuer un dimensionnement horizontal ou vertical conformément à la politique définie. Cela peut contribuer à réduire la latence du réseau et les temps d’arrêt de manière proactive.

Mise à l’échelle dynamique

Les politiques de dimensionnement dynamique réagissent aux besoins en ressources au fur et à mesure qu’ils se manifestent, en ajustant l’allocation des ressources en fonction de l’utilisation en temps réel. Avec une politique de dimensionnement dynamique, les entreprises peuvent envoyer davantage de ressources à un nœud ou à un groupe d’auto-scaling en particulier, ou lancer des instances supplémentaires lorsqu’un seuil spécifique, tel qu’un pourcentage d’utilisation du processeur, est atteint.

Par exemple, si une organisation exécute une application web qui consomme des ressources importantes de manière irrégulière, une politique de dimensionnement dynamique peut être utilisée pour ajuster la disponibilité des ressources en fonction des besoins. Le dimensionnement dynamique est souvent accompagné d’un délai de retour au calme, pendant lequel d’autres ressources restent disponibles en cas de pics supplémentaires dans le trafic.

Dimensionnement planifié

Les politiques d’auto-scaling planifié allouent les ressources selon un calendrier prédéterminé. Par exemple, si une organisation sait que la demande en termes de trafic et de ressources est beaucoup plus élevée le soir, une politique d’auto-scaling peut être définie pour s’y adapter.

Avantages de l’auto-scaling

Lorsqu’il est mis en œuvre de manière efficace, l’auto-scaling peut jouer un rôle important dans l’optimisation de l’environnement de cloud computing d’une organisation et dans la réduction de l’ensemble des coûts liés au cloud.

En établissant des politiques d’auto-scaling robustes, les organisations peuvent réduire leur dépendance au provisionnement manuel et garantir des performances système plus cohérentes.

Réduire la configuration manuelle de l’infrastructure

Avec l’auto-scaling, un environnement cloud peut réagir en temps réel à la demande en ressources, et ce sans intervention humaine. C’est tout simplement plus efficace que le dimensionnement manuel. Cela permet de réduire l’épuisement professionnel, d’améliorer la cohérence de la configuration et du provisionnement, et de libérer les employés pour des tâches à plus forte valeur ajoutée.

Améliorer l’évolutivité

L’auto-scaling permet aux entreprises d'étendre leur environnement et leurs capacités de cloud computing de façon plus fluide, sans devoir consacrer davantage de personnel à la surveillance et au provisionnement des ressources.

Fournir des performances constantes

En s’assurant qu’un environnement cloud dispose des ressources de calcul, de réseau et de stockage dont il a besoin, quelle que soit l’activité ou la demande, l’auto-scaling permet de maintenir la cohérence et la fiabilité des performances des services cloud.

Amélioration de l’expérience utilisateur

Des applications web et des réseaux aux performances plus constantes entraînent un niveau de service plus cohérent pour l’utilisateur.

Réduire les coûts liés au cloud computing

Lorsqu’elles s’appuient sur le provisionnement manuel des ressources, les organisations les surprovisionnent souvent par précaution, simplement pour s’assurer de la disponibilité des ressources en cas de pic dans la demande. En utilisant une plateforme capable d’adapter automatiquement les ressources de calcul, de réseau et de stockage à la demande en temps réel, les entreprises peuvent éviter le surprovisionnement et n’utiliser que ce dont elles ont besoin. Cela se traduit par une facture réduite et un meilleur retour sur investissement dans le cloud.

Solutions connexes
Optimisation des coûts liés au cloud avec IBM Turbonomic

Grâce aux solutions d’automatisation alimentée par l’IA et d’optimisation du cloud de la plateforme IBM Turbonomic, vous pouvez garantir en permanence les performances des applications (traditionnelles et cloud natives) et optimiser les coûts. Les outils de gestion des coûts cloud de la plateforme fonctionnent avec les environnements de cloud public, de cloud privé, multicloud et de cloud hybride, et avec les principaux fournisseurs de cloud. 

Découvrir l’optimisation des coûts liés au cloud avec IBM Turbonomic Essayer Turbonomic gratuitement

IBM Turbonomic

La plateforme d’optimisation des coûts du cloud hybride IBM Turbonomic vous permet d’automatiser en continu et en temps réel les actions critiques garantissant proactivement l’utilisation la plus efficace des ressources de calcul, de stockage et de réseau dans vos applications, à toutes les couches de la pile. 

Découvrez IBM Turbonomic Essayer la démo interactive
Ressources Carhatt : Une marque légendaire réalise des ventes record pour les fêtes

Découvrez comment Carhartt a utilisé le logiciel d’optimisation des coûts du cloud hybride IBM Turbonomic pour aider son infrastructure de cloud hybride à gérer de nouveaux pics de demande parfois spectaculaires.

Bonnes pratiques à suivre pour choisir une solution d’optimisation du cloud

Lisez ce rapport exclusif de PeerPaper, qui présente les bonnes pratiques basées sur les analyses d'experts du secteur et les avis d'utilisateurs vérifiés d'IBM Turbonomic.

AIOps plus intelligente

Mettez l’automatisation alimentée par l’IA au service de votre entreprise pour garantir la performance des applications.

Opérationnalisation de l'automatisation FinOps

Lisez ce guide rapide pour explorer FinOps, cette discipline de gestion financière cloud en pleine croissance.

Présentation d’IBM Turbonomic

Apprenez comment la gestion des ressources transforme l'observabilité en action grâce à l'automatisation pilotée par l'IA.

Documentation IBM Turbonomic

Explorez la documentation de toutes les versions de la plateforme IBM Turbonomic.

Passez à l’étape suivante

IBM Turbonomic vous permet d’exécuter des applications de façon fluide, continue et rentable afin d’optimiser les performances des applications, tout en réduisant les coûts.

Découvrez Turbonomic Réserver une démonstration gratuite
Notes de bas de page

« Cloud cost optimization » ( lien externe à ibm.com), Sarika Nandwani, Infosys.com, 2023

« AWS EC2 instance types: Challenges and best practices for hosting your application in AWS », Christopher Graham, 23 août 2023