Le bagging, ou bootsrap aggregation, est la méthode d'entraînement ensembliste couramment utilisée pour réduire la variance dans un fichier bruyant. Dans le bagging, un échantillon aléatoire de données dans un ensemble d'entraînement est sélectionné avec remplacement, ce qui signifie que les points de données individuels peuvent être choisis plusieurs fois. Après avoir généré plusieurs échantillons de données, ces modèles faibles sont ensuite entraînés indépendamment et, selon le type de tâche (régression ou classification, par exemple), la moyenne ou la majorité de ces prédictions produisent une estimation plus précise.
Pour rappel, l'algorithme de forêt aléatoire est considéré comme une extension de la méthode bagging, car il utilise à la fois le bagging et le caractère aléatoire de la fonction pour créer une forêt non corrélée d'arbres de décision.
L'entraînement ensembliste donne du crédit au concept de « sagesse des foules », qui suggère que la prise de décision d'un grand groupe de personnes est généralement meilleure que celle d'un spécialiste. De même, l'entraînement ensembliste fait référence à un groupe (ou ensemble) d'apprenants de base, ou modèles, qui travaillent collectivement pour obtenir une prédiction finale de meilleure qualité. Un modèle unique, également appelé base ou apprenant faible, peut ne pas être performant individuellement en raison d'une variance élevée ou d'un biais important. Cependant, lorsque les apprenants faibles sont agrégés, ils peuvent former un apprenant fort, car leur combinaison réduit le biais ou la variance, ce qui rend le modèle plus performant.
Les méthodes ensemblistes sont fréquemment illustrées à l'aide d'arbres de décision, car cet algorithme peut être sujet à un surajustement (variance élevée et faible biais) lorsqu'il n'a pas été élagué et il peut également se prêter à un ajustement insuffisant (variance faible et biais élevé) lorsqu'il est très petit, comme une souche de décision, qui est un arbre de décision à un seul niveau. Notez que lorsqu'un algorithme s'adapte trop ou pas assez à son ensemble d'entraînement, il ne peut pas bien permettre la généralisation aux nouveaux fichiers. Les méthodes ensemblistes sont donc utilisées pour contrecarrer ce comportement et permettre la généralisation du modèle aux nouveaux fichiers. Si les arbres de décision peuvent présenter une variance ou un biais élevé, il convient de noter que ce n'est pas la seule technique de modélisation qui exploite l'entraînement ensembliste pour trouver le « point idéal » dans le compromis biais-variance.
Le bagging et le boosting sont les deux principaux types de méthode d'entraînement ensembliste. Comme le souligne cette étude (PDF, 248 Ko) (lien externe à ibm.com), la principale différence entre ces méthodes d'entraînement réside dans la manière dont elles sont entraînées. Dans le bagging, les apprenants faibles sont entraînés en parallèle, alors que dans le boosting, ils apprennent de manière séquentielle. Cela signifie qu'une série de modèles est construite et qu'à chaque nouvelle itération du modèle, les poids des données mal classifiées dans le modèle précédent sont augmentés. Cette redistribution des poids permet à l'algorithme d'identifier les paramètres sur lesquels il doit se concentrer pour améliorer ses performances. AdaBoost, contraction de « adaptative boosting algorithm » (algorithme de boosting adaptatif), est l'un des algorithmes de boosting les plus utilisés, car il a été l'un des premiers du genre. XGBoost, GradientBoost et BrownBoost sont d'autres types d'algorithme de boosting.
Une autre différence entre le bagging et le boosting réside dans les scénarios dans lesquels ils sont utilisés. Par exemple, les méthodes de bagging sont généralement utilisées sur des apprenants faibles qui présentent une variance élevée et un faible biais, tandis que les méthodes de boosting le sont lorsque la variance est faible et le biais élevé.
En 1996, Léo Breiman (PDF, 829 Ko) (lien externe à ibm.com) a introduit l'algorithme de bagging qui comporte trois étapes de base :
La méthode bagging présente un certain nombre d'avantages et de défis majeurs lorsqu'elle est utilisée pour des problèmes de classification ou de régression. Les principaux avantages du bagging sont les suivants :
Les principaux défis du bagging sont les suivants :
La technique du bagging est utilisée dans un grand nombre de secteurs d'activité. Elle fournit des informations sur la valeur réelle et des perspectives intéressantes comme dans GRAMMY Debates with Watson. Exemples de cas d'utilisation :
IBM SPSS Modeler fournit des analyses prédictives permettant de reconnaître des modèles de données, d'obtenir des prévisions précises et d'améliorer la prise de décision.
Créez et mettez à l'échelle une IA fiable quel que soit le cloud. Automatisez le cycle de vie de l'IA pour ModelOps.
Explorez la communauté IBM Data Science pour en savoir plus sur la science des données et l'apprentissage automatique.