Accueil

Thèmes

random forest

Qu’est-ce qu’une forêt d’arbres décisionnels ?
Découvrir la solution de forêt d’arbres décisionnels d’IBM S’inscrire pour recevoir les dernières informations sur l’IA
Arbre illustré avec un organigramme
Qu’est-ce qu’une forêt d’arbres décisionnels ?

La forêt d’arbres décisionnels est un algorithme de machine learning couramment utilisé, déposé par Leo Breiman et Adele Cutler, qui combine les résultats de plusieurs arbres de decision pour obtenir un résultat unique. Sa facilité d’utilisation et sa flexibilité ont favorisé son adoption, car il gère à la fois les problèmes de classification et de régression.

Arbres de décisions

Le modèle de forêt d’arbres décisionnels étant composé de plusieurs arbres de decision , il serait utile de commencer par décrire brièvement l’algorithme de l’arbre de décision. Les arbres de décision commencent par une question de base, par exemple : « Dois-je surfer ? » À partir de là, vous pouvez poser une série de questions pour obtenir une réponse, par exemple : « S’agit-il d’une houle de longue durée ? » ou « Le vent souffle-t-il au large ? ». Ces questions constituent les nœuds de décision de l’arbre, agissant comme un moyen de diviser les données. Chaque question aide un individu à prendre une décision finale, ce qui est indiqué par le nœud feuille. Les observations qui correspondent aux critères suivront la branche « Oui » et celles qui ne répondent pas aux critères suivront le chemin alternatif.  Les arbres de décision cherchent à trouver la meilleure division pour sous-ensemble les données, et ils sont généralement entraînés via l’algorithme CART ( Classification and Regression Tree ). Les indicateurs, tels que l’impunité de Gini, le gain d’information ou l’erreur quadratique moyenne (MSE), peuvent être utilisés pour évaluer la qualité de la fraction.  

Cet exemple de forêt d’arbres décisionnels est un exemple de problème de classification, où les étiquettes de classe sont « surfer » et « ne pas surfer ».

Bien que les arbres de décision soient des algorithmes d’apprentissage supervisés courants, ils peuvent être sujets à des problèmes, tels que des biais et un surajustement. Cependant, lorsque plusieurs arbres de décision forment un ensemble dans l’algorithme de la forêt d’arbres décisionnels, ils prédisent des résultats plus précis, en particulier lorsque les arbres individuels ne sont pas corrélés les uns aux autres.

Méthodes d’ensemble

Les méthodes d’apprentissage d’ensemble sont constituées d’un ensemble de classificateurs (par ex. des arbres de décision) et leurs prédictions sont agrégées pour identifier le résultat le plus populaire. Les méthodes d’ensemble les plus connues sont le bagging, également connu sous le nom d’agrégation par bootstrap, et le boosting. En 1996, Leo Breiman (lien externe à ibm.com) a introduit la méthode d’ensachage ; dans cette méthode, un échantillon aléatoire de données d’un ensemble d’apprentissage est sélectionné et remplacé, ce qui signifie que les points de données individuels peuvent être sélectionnés plusieurs fois. Une fois que plusieurs échantillons de données ont été générés, ces modèles sont entraînés indépendamment, en fonction du type de tâche, c’est-à-dire de régression ou de classification : la moyenne ou la majorité de ces prévisions fournissent une estimation plus précise. Cette approche est couramment utilisée pour réduire la variance dans un jeu de données bruité.

Algorithme de forêt d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels est une extension de la méthode de bagging, car il utilise à la fois le bagging et l’incertitude des caractéristiques pour créer une forêt d’arbres décisionnels non corrélée. Le caractère aléatoire des caractéristiques, également connu sous le nom de bagging ou « méthode par sous-espace aléatoire » (lien externe à ibm.com), génère un sous-ensemble aléatoire de caractéristiques, ce qui garantit une faible corrélation entre les arbres de décision. C’est la principale différence entre les arbres de décision et les forêts d’arbres décisionnels. Alors que les arbres de décision prennent en compte toutes les divisions de caractéristiques possibles, les forêts d’arbres décisionnels ne sélectionnent qu’un sous-ensemble de ces caractéristiques.

Si nous revenons à la question « Dois-je surfer ? » par exemple, les questions que je pourrais poser pour déterminer la prédiction ne sont peut-être pas aussi complètes que celles de quelqu’un d’autre. En tenant compte de toute la variabilité potentielle des données, nous pouvons réduire le risque de surajustement, de biais et de variance globale, ce qui permet d’obtenir des prédictions plus précises.

IBM nommé leader par IDC

Découvrez pourquoi IBM a été nommé leader dans le rapport IDC MarketScape : Worldwide AI Governance Platforms 2023.

Contenu connexe S'inscrire pour recevoir l'e-book sur les workflows en matière d'IA responsable
Fonctionnement

Les algorithmes de forêt d’arbres décisionnels possèdent trois hyperparamètres principaux, qui doivent être définis avant l’entraînement. Il s’agit notamment de la taille des nœuds, du nombre d’arbres et du nombre de caractéristiques échantillonnées. A partir de là, le classificateur de forêt d’arbres décisionnels peut être utilisé pour résoudre les problèmes de regression ou de classification.

L’algorithme de forêt d’arbres décisionnels est composé d’un ensemble d’arbres de décision, et chaque arbre de l’ensemble est constitué d’un échantillon de données tiré d’un ensemble d’entraînement avec une option de remplacement, appelé bootstrapping. Sur cet échantillon d’entraînement, un tiers est mis de côté en tant que données de test, connu sous le nom d’échantillon hors sac (oob), sur lequel nous reviendrons plus tard. Un autre cas de mesure aléatoire est ensuite injecté par le biais de l’ensachage de fonctionnalités, ajoutant plus de diversité au jeu de données et réduisant la corrélation entre les arbres de décision. Selon le type de problème, la détermination de la prévision variera. Pour une tâche de regression, la moyenne des arbres de décision individuels sera calculée et, pour une tâche de classification, un vote majoritaire, c’est-à-dire la variable catégorielle la plus fréquente, donnera la classe prédite. Enfin, l’échantillon oob est ensuite utilisé pour la validation croisée, finalisant cette prédiction.

Avantages et inconvénients des forêts d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels présente un certain nombre d’avantages et de défis clés lorsqu’il est utilisé pour résoudre des problèmes de classification ou de régression. En voici quelques-uns :

Principaux avantages

  • Réduction du risque de surajustement : les arbres de décision courent le risque de surajustement car ils ont tendance à ajuster étroitement tous les échantillons dans les données d’entraînement. Cependant, lorsqu’il existe un nombre important d’arbres de décision dans une forêt d’arbres décisionnels, le classificateur ne surajuste pas le modèle puisque la moyenne des arbres non corrélés réduit la variance globale et l’erreur de prédiction.
  • Offre une flexibilité : étant donné que la forêt d’arbres décisionnels peut gérer à la fois les tâches de regression et de classification avec un degré élevé de précision, c’est une méthode populaire parmi les data scientists. Le regroupement de fonctionnalités fait également du classificateur de forêt d’arbres décisionnels un outil efficace pour estimer les valeurs manquantes, car il garantit la précision lorsqu’une partie des données est manquante.
  • Facilité pour déterminer l’importance des caractéristiques : la forêt d’arbres décisionnels permet d’évaluer facilement l’importance ou la contribution des variables au modèle. Il existe plusieurs façons d’évaluer l’importance d’une caractéristique. L’importance de Gini et la diminution moyenne de l’impureté (MDI) sont généralement utilisées pour mesurer la diminution de la précision du modèle lorsqu’une variable donnée est exclue. Cependant, l’importance de la permutation, également connue sous le nom de précision de diminution moyenne (MDA), est une autre mesure importante. Le MDA identifie la diminution moyenne de la précision en permutant de manière aléatoire les valeurs de caractéristiques dans les échantillons oob.

Principaux défis

  • Processus chronophage : étant donné que les algorithmes de forêt d’arbres décisionnels peuvent gérer de grands jeux de données, ils peuvent fournir des prédictions plus précises, mais peuvent être lents à traiter les données car ils calculent les données pour chaque arbre de décision.
  • Nécessite plus de ressources : étant donné que les forêts d’arbres décisionnels traitent de plus grands jeux de données, elles auront besoin de plus de ressources pour stocker ces données.
  • Plus de complexités : la prédiction d’un arbre de décision unique est plus facile à interpréter que celle d’une forêt d’arbres de décision.
Applications relatives aux forêts d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels a été appliqué à de nombreux secteurs, leur permettant de prendre de meilleures décisions commerciales. Voici quelques cas d’utilisation :

  • Finances : c’est un algorithme couramment utilisé car il réduit le temps consacré à la gestion des données et aux tâches de prétraitement. Il peut être utilisé pour évaluer les clients présentant un risque de crédit élevé, pour détecter les fraudes et les problèmes de tarification des options.
  • Santé : l’algorithme de forêt d’arbres décisionnels a des applications dans la biologie informatique (lien externe à ibm.com), permettant aux médecins de résoudre des problèmes tels que la classification des expressions génératives, la découverte de biomarqueurs et l’annotation de séquences. Par conséquent, les médecins peuvent faire des estimations sur les réponses médicamenteuses à des traitements spécifiques.
  • Commerce électronique : il peut être utilisé pour les moteurs de recommandation à des fins de vente croisée.
Solutions connexes
IBM SPSS Modeler

IBM SPSS Modeler fournit une analyse prédictive pour vous aider à découvrir des modèles de données, à gagner en précision prédictive et à améliorer la prise de décision.

Découvrir SPSS Modeler
Ressources Outil de science des données par glisser-déposer IBM SPSS Modeler

Découvrez comment les organisations du monde entier utilisent SPSS Modeler pour la préparation et la découverte de données, l’analyse prédictive, la gestion et le déploiement de modèles, et le ML pour monétiser les actifs de données.

Réseaux neuronaux inspirés par la forêt d’arbres décisionnels

Découvrez comment un réseau neuronal soigneusement conçu avec une structure de forêt d’arbres décisionnels peut avoir une meilleure capacité de généralisation.

Utiliser une forêt d’arbres décisionnels pour prédire les défauts de crédit avec Python

Créer un modèle de forêt d’arbres décisionnels et l’optimiser avec un réglage d’hyperparamètres à l’aide de scikit-learn.

Passez à l’étape suivante

IBM SPSS Modeler est une solution visuelle de science des données et de machine learning (ML) qui expose des modèles et des modèles cachés dans les données grâce à une approche ascendante de génération d'hypothèses. Les organisations du monde entier l’utilisent pour la préparation et la découverte de données, l’analyse prédictive, la gestion et le déploiement de modèles, et le ML pour monétiser les actifs de données.

Découvrir SPSS Modeler Essai gratuit de 30 jours