My IBM Se connecter S’abonner

Qu’est-ce qu’une forêt d’arbres décisionnels ?

Qu’est-ce qu’une forêt d’arbres décisionnels ?

La forêt d’arbres décisionnels est un algorithme de machine learning couramment utilisé, déposé par Leo Breiman et Adele Cutler, qui combine les résultats de plusieurs arbres de decision pour obtenir un résultat unique. Sa facilité d’utilisation et sa flexibilité ont favorisé son adoption, car il gère à la fois les problèmes de classification et de régression.

Arbres de décisions

Le modèle de forêt d’arbres décisionnels étant composé de plusieurs arbres de décision, il serait utile de commencer par décrire brièvement l’algorithme de l’arbre de décision. Les arbres de décision commencent par une question de base, par exemple : « Dois-je surfer ? » À partir de là, vous pouvez poser une série de questions pour obtenir une réponse, par exemple : « S’agit-il d’une houle de longue durée ? » ou « Le vent souffle-t-il au large ? ». Ces questions constituent les nœuds de décision de l’arbre, agissant comme un moyen de diviser les données. Chaque question aide un individu à prendre une décision finale, ce qui est indiqué par le nœud feuille. Les observations qui correspondent aux critères suivront la branche « Oui » et celles qui ne répondent pas aux critères suivront le chemin alternatif. Les arbres de décision cherchent à trouver la meilleure division pour sous-ensemble les données, et ils sont généralement entraînés via l’algorithme CART (Classification and Regression Tree). Les indicateurs, tels que l’impunité de Gini, le gain d’information ou l’erreur quadratique moyenne (MSE), peuvent être utilisés pour évaluer la qualité de la fraction.

Cet exemple de forêt d’arbres décisionnels est un exemple de problème de classification, où les étiquettes de classe sont « surfer » et « ne pas surfer ».

Bien que les arbres de décision soient des algorithmes d’apprentissage supervisés courants, ils peuvent être sujets à des problèmes, tels que des biais et un surajustement. Cependant, lorsque plusieurs arbres de décision forment un ensemble dans l’algorithme de la forêt d’arbres décisionnels, ils prédisent des résultats plus précis, en particulier lorsque les arbres individuels ne sont pas corrélés les uns aux autres.

Méthodes d’ensemble

Les méthodes d’apprentissage d’ensemble sont constituées d’un ensemble de classificateurs (par ex. des arbres de décision) et leurs prédictions sont agrégées pour identifier le résultat le plus populaire. Les méthodes d’ensemble les plus connues sont le bagging, également connu sous le nom d’agrégation par bootstrap, et le boosting. En 1996, Leo Breiman (lien externe à ibm.com) a présenté la méthode de bagging. Dans cette méthode, un échantillon aléatoire de données d’un ensemble d’apprentissage est sélectionné et remplacé, ce qui signifie que les points de données individuels peuvent être sélectionnés plusieurs fois. Une fois que plusieurs échantillons de données ont été générés, ces modèles sont entraînés indépendamment, en fonction du type de tâche (la régression ou la classification). La moyenne ou la majorité de ces prévisions fournissent une estimation plus précise. Cette approche est couramment utilisée pour réduire la variance dans un jeu de données où le bruit de fond est important.

Algorithme de forêt d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels est une extension de la méthode de bagging, car il utilise à la fois le bagging et l’incertitude des caractéristiques pour créer une forêt d’arbres décisionnels non corrélée. Le caractère aléatoire des caractéristiques, également connu sous le nom de bagging ou « méthode par sous-espace aléatoire » (lien externe à ibm.com), génère un sous-ensemble aléatoire de caractéristiques, ce qui garantit une faible corrélation entre les arbres de décision. C’est la principale différence entre les arbres de décision et les forêts d’arbres décisionnels. Alors que les arbres de décision prennent en compte toutes les divisions de caractéristiques possibles, les forêts d’arbres décisionnels ne sélectionnent qu’un sous-ensemble de ces caractéristiques.

Si nous revenons à la question « Dois-je surfer ? » par exemple, les questions que je pourrais poser pour déterminer la prédiction ne sont peut-être pas aussi complètes que celles de quelqu’un d’autre. En tenant compte de toute la variabilité potentielle des données, nous pouvons réduire le risque de surajustement, de biais et de variance globale, ce qui permet d’obtenir des prédictions plus précises.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Fonctionnement

Les algorithmes de forêt d’arbres décisionnels possèdent trois hyperparamètres principaux, qui doivent être définis avant l’entraînement. Il s’agit notamment de la taille des nœuds, du nombre d’arbres et du nombre de caractéristiques échantillonnées. A partir de là, le classificateur de forêt d’arbres décisionnels peut être utilisé pour résoudre les problèmes de regression ou de classification.

L’algorithme de forêt d’arbres décisionnels est composé d’un ensemble d’arbres de décision, et chaque arbre de l’ensemble est constitué d’un échantillon de données tiré d’un ensemble d’entraînement avec une option de remplacement, appelé bootstrapping. Sur cet échantillon d’entraînement, un tiers est mis de côté en tant que données de test, connu sous le nom d’échantillon hors sac (oob), sur lequel nous reviendrons plus tard. Un autre cas de mesure aléatoire est ensuite injecté par le biais de l’ensachage de fonctionnalités, ajoutant plus de diversité au jeu de données et réduisant la corrélation entre les arbres de décision. Selon le type de problème, la détermination de la prévision variera. Pour une tâche de regression, la moyenne des arbres de décision individuels sera calculée et, pour une tâche de classification, un vote majoritaire, c’est-à-dire la variable catégorielle la plus fréquente, donnera la classe prédite. Enfin, l’échantillon oob est ensuite utilisé pour la validation croisée, finalisant cette prédiction.

Avantages et inconvénients des forêts d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels présente un certain nombre d’avantages et de défis clés lorsqu’il est utilisé pour résoudre des problèmes de classification ou de régression. En voici quelques-uns :

Principaux avantages

  • Réduction du risque de surajustement : les arbres de décision courent le risque de surajustement car ils ont tendance à ajuster étroitement tous les échantillons dans les données d’entraînement. Cependant, lorsqu’il existe un nombre important d’arbres de décision dans une forêt d’arbres décisionnels, le classificateur ne surajuste pas le modèle puisque la moyenne des arbres non corrélés réduit la variance globale et l’erreur de prédiction.
  • Offre une flexibilité : étant donné que la forêt d’arbres décisionnels peut gérer à la fois les tâches de regression et de classification avec un degré élevé de précision, c’est une méthode populaire parmi les data scientists. Le regroupement de fonctionnalités fait également du classificateur de forêt d’arbres décisionnels un outil efficace pour estimer les valeurs manquantes, car il garantit la précision lorsqu’une partie des données est manquante.
  • Facilité pour déterminer l’importance des caractéristiques : la forêt d’arbres décisionnels permet d’évaluer facilement l’importance ou la contribution des variables au modèle. Il existe plusieurs façons d’évaluer l’importance d’une caractéristique. L’importance de Gini et la diminution moyenne de l’impureté (MDI) sont généralement utilisées pour mesurer la diminution de la précision du modèle lorsqu’une variable donnée est exclue. Cependant, l’importance de la permutation, également connue sous le nom de précision de diminution moyenne (MDA), est une autre mesure importante. Le MDA identifie la diminution moyenne de la précision en permutant de manière aléatoire les valeurs de caractéristiques dans les échantillons oob.

Principaux défis

  • Processus chronophage : étant donné que les algorithmes de forêt d’arbres décisionnels peuvent gérer de grands jeux de données, ils peuvent fournir des prédictions plus précises, mais peuvent être lents à traiter les données car ils calculent les données pour chaque arbre de décision.
  • Nécessite plus de ressources : étant donné que les forêts d’arbres décisionnels traitent de plus grands jeux de données, elles auront besoin de plus de ressources pour stocker ces données.
  • Plus de complexités : la prédiction d’un arbre de décision unique est plus facile à interpréter que celle d’une forêt d’arbres de décision.
Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Applications relatives aux forêts d’arbres décisionnels

L’algorithme de forêt d’arbres décisionnels a été appliqué à de nombreux secteurs, leur permettant de prendre de meilleures décisions commerciales. Voici quelques cas d’utilisation :

  • Finances : c’est un algorithme couramment utilisé car il réduit le temps consacré à la gestion des données et aux tâches de prétraitement. Il peut être utilisé pour évaluer les clients présentant un risque de crédit élevé, pour détecter les fraudes et les problèmes de tarification des options.
  • Santé : l’algorithme de forêt d’arbres décisionnels a des applications dans la biologie informatique (lien externe à ibm.com), ce qui permet aux médecins de résoudre des problèmes tels que la classification des expressions génératives, la découverte de biomarqueurs et l’annotation des séquences. Par conséquent, les médecins peuvent faire des estimations sur les réponses médicamenteuses à des traitements spécifiques.
  • Commerce électronique : il peut être utilisé pour les moteurs de recommandation à des fins de vente croisée.
Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct