Les arbres de décision sont utilisés pour les tâches de classification et de régression dans le machine learning. Ils utilisent une structure hiérarchique en arborescence dans laquelle un nœud interne représente une caractéristique, la branche représente une règle de décision et chaque nœud feuille représente le résultat du jeu de données.
Les arbres de décision étant sujets au surajustement, les méthodes d’ensemble, comme le boosting, peuvent souvent être utilisées pour créer des modèles plus robustes. Le boosting combine plusieurs arbres faibles individuels, c’est-à-dire des modèles légèrement plus précis qu’une prédiction aléatoire, pour former un apprenant solide. Chaque apprenant faible est entraîné de façon séquentielle pour corriger les erreurs commises par les modèles précédents. Après des centaines d’itérations, les apprenants faibles sont convertis en apprenants solides.
Les forêts d’arbres décisionnels et les algorithmes de boosting sont des techniques populaires d’apprentissage par ensemble qui utilisent des arbres apprenants individuels pour améliorer les performances prédictives. Les forêts d’arbres décisionnels sont basées sur le concept de « bagging » (bootstrap aggregating) et entraînent chaque arbre indépendamment pour combiner leurs prédictions, tandis que les algorithmes de boosting utilisent une approche additive où les apprenants faibles sont formés de façon séquentielle pour corriger les erreurs des modèles précédents.