Qu'est-ce que le boosting ?

Découvrez les algorithmes de boosting et comment ils peuvent améliorer la puissance prédictive de vos initiatives d'exploration des données.

Le boosting est une méthode d'apprentissage ensembliste qui combine un ensemble d'apprenants faibles en un apprenant fort, afin de réduire les erreurs d'apprentissage. Dans le boosting, un échantillon aléatoire de données est sélectionné, doté d'un modèle, puis entraîné séquentiellement, c'est-à-dire que chaque modèle tente de compenser les faiblesses de son prédécesseur. À chaque itération, les règles faibles de chaque classificateur individuel sont combinées pour former une seule règle de prédiction forte.

Avant de continuer, explorons plus largement la catégorie de l'apprentissage ensembliste, en mettant en évidence deux des méthodes les plus connues : le bagging et le boosting.

Apprentissage ensembliste

L'apprentissage ensembliste donne du crédit à l'idée de la « sagesse des foules », qui suggère que la prise de décision d'un grand groupe de personnes est généralement meilleure que celle d'un spécialiste. De même, l'apprentissage ensembliste fait référence à un groupe (ou ensemble) d'apprenants de base, ou modèles, qui travaillent collectivement pour obtenir une prédiction finale de meilleure qualité. Un modèle unique, également appelé base ou apprenant faible, peut ne pas être performant individuellement en raison d'une variance élevée ou d'un biais important. Cependant, lorsque les apprenants faibles sont agrégés, ils peuvent former un apprenant fort, car leur combinaison réduit le biais ou la variance, ce qui permet au modèle d'être plus performant.

Les méthodes ensemblistes sont fréquemment illustrées à l'aide d'arbres de décision, car cet algorithme peut être sujet à un ajustement excessif (variance élevée et faible biais) lorsqu'il n'a pas été élagué, et il peut également se prêter à un ajustement insuffisant (variance faible et biais élevé) lorsqu'il est très petit, comme une souche de décision, qui est un arbre de décision à un seul niveau. Notez que lorsqu'un algorithme s'adapte trop ou pas assez à son ensemble de données d'apprentissage, il ne peut pas bien permettre la généralisation en nouveaux ensembles de données. Les méthodes ensemblistes sont donc utilisées pour contrecarrer ce comportement et permettre la généralisation du modèle à de nouveaux ensembles de données. Si les arbres de décision peuvent présenter une variance ou un biais élevé, il convient de noter que ce n'est pas la seule technique de modélisation qui exploite l'apprentissage ensembliste pour trouver le « point idéal » dans le compromis biais-variance.

Bagging et boosting

Le bagging et le boosting sont les deux principaux types de méthode d'apprentissage ensembliste. Comme le souligne cette étude (PDF, 242 Ko) (lien externe à ibm.com), la principale différence entre ces méthodes d'apprentissage réside dans la manière dont elles sont entraînées. Dans le bagging, les apprenants faibles sont entraînés en parallèle, alors que dans le boosting, ils apprennent de manière séquentielle. Cela signifie qu'une série de modèles est construite et qu'à chaque nouvelle itération du modèle, les poids des données mal classifiées dans le modèle précédent sont augmentés. Cette redistribution des poids permet à l'algorithme d'identifier les paramètres sur lesquels il doit se concentrer pour améliorer ses performances. AdaBoost, qui signifie « algorithme de boosting adaptatif », est l'un des algorithmes de boosting les plus utilisés, car il a été l'un des premiers de son genre. XGBoost, GradientBoost et BrownBoost sont les autres algorithmes de boosting.

Une autre différence entre le bagging et le boosting réside dans la manière dont ils sont utilisés. Par exemple, les méthodes de bagging sont généralement utilisées sur des apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes de boosting sont utilisées lorsque la variance est faible et le biais élevé. Alors que le bagging peut être utilisé pour éviter le surajustement, les méthodes de boosting peuvent être plus sujettes à ce dernier (lien externe à ibm.com), bien que cela dépende vraiment de l'ensemble de données. Cependant, l'ajustement des paramètres peut éviter ce problème.

Par conséquent, le bagging et le boosting ont également des applications différentes dans le monde réel. Le bagging est utilisé pour les processus d'approbation de prêts et la génomique statistique, tandis que le boosting intervient davantage dans les applications de reconnaissance d'images et les moteurs de recherche.

Produits à la une

SPSS Modeler

Types de boosting

Les méthodes de boosting sont axées sur la combinaison itérative d'apprenants faibles pour créer un apprenant fort capable de prédire des résultats plus précis. Pour rappel, un apprenant faible classifie les données légèrement mieux que la supposition aléatoire. Cette approche peut fournir de très bons résultats pour les problèmes de prédiction et peut même surpasser les réseaux neuronaux et les machines à vecteurs de support pour des tâches telles que la recherche d'images (PDF, 1,9 Mo) (lien externe à ibm.com).

Les algorithmes de boosting peuvent différer dans la façon dont ils créent et agrègent les apprenants faibles pendant le processus séquentiel. Les trois types de méthode de boosting les plus courants sont les suivants :

Boosting adaptatif ou AdaBoost : Yoav Freund et Robert Schapire sont à l'origine de la création de l'algorithme AdaBoost. Cette méthode fonctionne de manière itérative, en identifiant les points de données mal classifiés et en ajustant leurs poids pour réduire l'erreur d'entraînement. Le modèle continue à être optimisé de manière séquentielle jusqu'à ce qu'il donne le prédicteur le plus fort.
Boosting de gradient : en s'appuyant sur les travaux de Leo Breiman, Jerome H. Friedman a développé le boosting de gradient qui fonctionne en ajoutant séquentiellement des prédicteurs à un ensemble, chaque prédicteur corrigeant les erreurs de son prédécesseur. Cependant, au lieu de modifier les poids des points de données comme AdaBoost, le boosting de gradient s'entraîne sur les erreurs résiduelles du prédicteur précédent. On utilise le terme boosting de gradient, car il combine l'algorithme de descente de gradient et la méthode de boosting.
Boosting de gradient extrême : XGBoost est une implémentation du boosting de gradient conçue pour la vitesse et l'échelle de calcul. XGBoost utilise plusieurs cœurs du processeur, ce qui permet d'effectuer un apprentissage en parallèle pendant l'entraînement.

Avantages et défis du boosting

La méthode de boosting présente un certain nombre d'avantages et de défis majeurs lorsqu'elle est utilisée pour des problèmes de classification ou de régression.

Principaux avantages du boosting :

Facilité d'implémentation : le boosting peut être utilisé avec plusieurs options de réglage des hyperparamètres pour améliorer l'ajustement. Aucun prétraitement des données n'est nécessaire, et les algorithmes de boosting ont des routines intégrées pour traiter les données manquantes. En Python, la bibliothèque scikit-learn de méthodes ensemblistes (également appelée sklearn.ensemble) permet d'implémenter facilement les méthodes de boosting les plus courantes, notamment AdaBoost, XGBoost, etc.
Réduction des biais : les algorithmes de boosting combinent plusieurs apprenants faibles dans une méthode séquentielle, en améliorant itérativement les observations. Cette approche peut contribuer à réduire les biais élevés, couramment observés dans les arbres de décision et les modèles de régression logistique peu profonds.
Efficacité de calcul : comme les algorithmes de boosting ne sélectionnent que les fonctions qui augmentent leur puissance prédictive pendant l'entraînement, ils peuvent contribuer à réduire la dimensionnalité et à augmenter l'efficacité du calcul.

Principaux défis du boosting :

Surajustement : les chercheurs (lien externe à ibm.com) ne sont pas unanimes sur la question de savoir si le boosting peut réduire le surajustement ou l'exacerber. Nous l'incluons dans les défis parce que, dans les cas où il se produit, les prédictions ne peuvent pas être généralisées à de nouveaux ensembles de données.
Calcul intensif : l'entraînement séquentiel dans le boosting est difficile à mettre à l'échelle. Comme chaque estimateur est construit sur ses prédécesseurs, les modèles de boosting peuvent être coûteux en calcul, bien que XGBoost cherche à résoudre les problèmes d'extensibilité observés dans d'autres types de méthode de boosting. Les algorithmes de boosting peuvent être plus lents à entraîner que les algorithmes de bagging, car un grand nombre de paramètres peuvent également influencer le comportement du modèle.

Applications du boosting

Les algorithmes de boosting sont bien adaptés aux projets d'intelligence artificielle dans un large éventail de secteurs d'activité, notamment les suivants :

Soins de santé : le boosting vise à réduire les erreurs dans les prédictions de données médicales, telles que la prédiction des facteurs de risque cardiovasculaire et les taux de survie des patients atteints de cancer. Par exemple, des recherches (lien externe à ibm.com) montrent que les méthodes ensemblistes améliorent considérablement la précision de l'identification des patients qui pourraient bénéficier d'un traitement préventif des maladies cardiovasculaires, tout en évitant le traitement inutile des autres. De même, une autre étude (lien externe à IBM) a révélé que l'application du boosting à de multiples plateformes génomiques peut améliorer la prédiction du délai de survie au cancer.

Informatique : les arbres de régression auxquels est appliqué le boosting de gradient sont utilisés dans les moteurs de recherche pour classer des pages, tandis que l'algorithme de boosting Viola-Jones est utilisé pour la recherche d'images. Comme l'a noté Cornell (lien externe à ibm.com), les classificateurs renforcés permettent d'arrêter les calculs plus tôt lorsque la direction d'une prédiction est claire. Cela signifie qu'un moteur de recherche peut arrêter l'évaluation des pages moins bien classées, tandis que les analyseurs d'images ne prennent en compte que les images qui contiennent effectivement l'objet recherché.
Finance : le boosting est utilisé avec des modèles d'apprentissage en profondeur pour automatiser des tâches essentielles, notamment la détection des fraudes, l'analyse des prix, etc. Par exemple, les méthodes de boosting dans la détection des fraudes par carte de crédit et l'analyse des prix des produits financiers (lien externe à ibm.com) améliorent la précision de l'analyse des ensembles de données massives, afin de réduire les pertes financières.

Solutions connexes

SPSS Modeler

Boostez votre retour sur investissements et réduisez le délai de rentabilisation à l'aide d'un outil de science des données intuitif, fonctionnant par glisser-déposer.

Explorer IBM SPSS Modeler

Solutions IBM Cloud

Hybrides. Ouvertes. Résilientes. Votre plateforme et votre partenaire pour la transformation numérique.

Explorer les solutions cloud

Solutions Cloud Pak

Logiciel cloud hybride optimisé par l'IA.

Explorer les solutions Cloud Pak

Pour aller plus loin

Les solutions IBM prennent en charge le cycle de vie de l'apprentissage automatique de bout en bout. Découvrez comment les outils d'exploration de données IBM, tels qu'IBM SPSS Modeler, vous permettent de développer des modèles prédictifs pour les déployer dans des opérations métier ainsi que d'améliorer facilement la précision des modèles grâce à la modélisation. Pour en savoir plus sur les avantages des méthodes de boosting et de bagging, consultez la communauté de la science des données d'IBM.

Rejoindre la communauté de la science des données d'IBM dès aujourd'hui