Accueil
Thèmes
random forest
La forêt d’arbres décisionnels est un algorithme de machine learning couramment utilisé, déposé par Leo Breiman et Adele Cutler, qui combine les résultats de plusieurs arbres de decision pour obtenir un résultat unique. Sa facilité d’utilisation et sa flexibilité ont favorisé son adoption, car il gère à la fois les problèmes de classification et de régression.
Le modèle de forêt d’arbres décisionnels étant composé de plusieurs arbres de decision , il serait utile de commencer par décrire brièvement l’algorithme de l’arbre de décision. Les arbres de décision commencent par une question de base, par exemple : « Dois-je surfer ? » À partir de là, vous pouvez poser une série de questions pour obtenir une réponse, par exemple : « S’agit-il d’une houle de longue durée ? » ou « Le vent souffle-t-il au large ? ». Ces questions constituent les nœuds de décision de l’arbre, agissant comme un moyen de diviser les données. Chaque question aide un individu à prendre une décision finale, ce qui est indiqué par le nœud feuille. Les observations qui correspondent aux critères suivront la branche « Oui » et celles qui ne répondent pas aux critères suivront le chemin alternatif. Les arbres de décision cherchent à trouver la meilleure division pour sous-ensemble les données, et ils sont généralement entraînés via l’algorithme CART ( Classification and Regression Tree ). Les indicateurs, tels que l’impunité de Gini, le gain d’information ou l’erreur quadratique moyenne (MSE), peuvent être utilisés pour évaluer la qualité de la fraction.
Cet exemple de forêt d’arbres décisionnels est un exemple de problème de classification, où les étiquettes de classe sont « surfer » et « ne pas surfer ».
Bien que les arbres de décision soient des algorithmes d’apprentissage supervisés courants, ils peuvent être sujets à des problèmes, tels que des biais et un surajustement. Cependant, lorsque plusieurs arbres de décision forment un ensemble dans l’algorithme de la forêt d’arbres décisionnels, ils prédisent des résultats plus précis, en particulier lorsque les arbres individuels ne sont pas corrélés les uns aux autres.
Les méthodes d’apprentissage d’ensemble sont constituées d’un ensemble de classificateurs (par ex. des arbres de décision) et leurs prédictions sont agrégées pour identifier le résultat le plus populaire. Les méthodes d’ensemble les plus connues sont le bagging, également connu sous le nom d’agrégation par bootstrap, et le boosting. En 1996, Leo Breiman (lien externe à ibm.com) a introduit la méthode d’ensachage ; dans cette méthode, un échantillon aléatoire de données d’un ensemble d’apprentissage est sélectionné et remplacé, ce qui signifie que les points de données individuels peuvent être sélectionnés plusieurs fois. Une fois que plusieurs échantillons de données ont été générés, ces modèles sont entraînés indépendamment, en fonction du type de tâche, c’est-à-dire de régression ou de classification : la moyenne ou la majorité de ces prévisions fournissent une estimation plus précise. Cette approche est couramment utilisée pour réduire la variance dans un jeu de données bruité.
L’algorithme de forêt d’arbres décisionnels est une extension de la méthode de bagging, car il utilise à la fois le bagging et l’incertitude des caractéristiques pour créer une forêt d’arbres décisionnels non corrélée. Le caractère aléatoire des caractéristiques, également connu sous le nom de bagging ou « méthode par sous-espace aléatoire » (lien externe à ibm.com), génère un sous-ensemble aléatoire de caractéristiques, ce qui garantit une faible corrélation entre les arbres de décision. C’est la principale différence entre les arbres de décision et les forêts d’arbres décisionnels. Alors que les arbres de décision prennent en compte toutes les divisions de caractéristiques possibles, les forêts d’arbres décisionnels ne sélectionnent qu’un sous-ensemble de ces caractéristiques.
Si nous revenons à la question « Dois-je surfer ? » par exemple, les questions que je pourrais poser pour déterminer la prédiction ne sont peut-être pas aussi complètes que celles de quelqu’un d’autre. En tenant compte de toute la variabilité potentielle des données, nous pouvons réduire le risque de surajustement, de biais et de variance globale, ce qui permet d’obtenir des prédictions plus précises.
Découvrez pourquoi IBM a été nommé leader dans le rapport IDC MarketScape : Worldwide AI Governance Platforms 2023.
Les algorithmes de forêt d’arbres décisionnels possèdent trois hyperparamètres principaux, qui doivent être définis avant l’entraînement. Il s’agit notamment de la taille des nœuds, du nombre d’arbres et du nombre de caractéristiques échantillonnées. A partir de là, le classificateur de forêt d’arbres décisionnels peut être utilisé pour résoudre les problèmes de regression ou de classification.
L’algorithme de forêt d’arbres décisionnels est composé d’un ensemble d’arbres de décision, et chaque arbre de l’ensemble est constitué d’un échantillon de données tiré d’un ensemble d’entraînement avec une option de remplacement, appelé bootstrapping. Sur cet échantillon d’entraînement, un tiers est mis de côté en tant que données de test, connu sous le nom d’échantillon hors sac (oob), sur lequel nous reviendrons plus tard. Un autre cas de mesure aléatoire est ensuite injecté par le biais de l’ensachage de fonctionnalités, ajoutant plus de diversité au jeu de données et réduisant la corrélation entre les arbres de décision. Selon le type de problème, la détermination de la prévision variera. Pour une tâche de regression, la moyenne des arbres de décision individuels sera calculée et, pour une tâche de classification, un vote majoritaire, c’est-à-dire la variable catégorielle la plus fréquente, donnera la classe prédite. Enfin, l’échantillon oob est ensuite utilisé pour la validation croisée, finalisant cette prédiction.
L’algorithme de forêt d’arbres décisionnels présente un certain nombre d’avantages et de défis clés lorsqu’il est utilisé pour résoudre des problèmes de classification ou de régression. En voici quelques-uns :
L’algorithme de forêt d’arbres décisionnels a été appliqué à de nombreux secteurs, leur permettant de prendre de meilleures décisions commerciales. Voici quelques cas d’utilisation :
IBM SPSS Modeler fournit une analyse prédictive pour vous aider à découvrir des modèles de données, à gagner en précision prédictive et à améliorer la prise de décision.
Découvrez comment les organisations du monde entier utilisent SPSS Modeler pour la préparation et la découverte de données, l’analyse prédictive, la gestion et le déploiement de modèles, et le ML pour monétiser les actifs de données.
Découvrez comment un réseau neuronal soigneusement conçu avec une structure de forêt d’arbres décisionnels peut avoir une meilleure capacité de généralisation.
Créer un modèle de forêt d’arbres décisionnels et l’optimiser avec un réglage d’hyperparamètres à l’aide de scikit-learn.