La forêt d’arbres décisionnels est un algorithme de machine learning couramment utilisé, déposé par Leo Breiman et Adele Cutler, qui combine les résultats de plusieurs arbres de decision pour obtenir un résultat unique. Sa facilité d’utilisation et sa flexibilité ont favorisé son adoption, car il gère à la fois les problèmes de classification et de régression.
Le modèle de forêt d’arbres décisionnels étant composé de plusieurs arbres de décision, il serait utile de commencer par décrire brièvement l’algorithme de l’arbre de décision. Les arbres de décision commencent par une question de base, par exemple : « Dois-je surfer ? » À partir de là, vous pouvez poser une série de questions pour obtenir une réponse, par exemple : « S’agit-il d’une houle de longue durée ? » ou « Le vent souffle-t-il au large ? ». Ces questions constituent les nœuds de décision de l’arbre, agissant comme un moyen de diviser les données. Chaque question aide un individu à prendre une décision finale, ce qui est indiqué par le nœud feuille. Les observations qui correspondent aux critères suivront la branche « Oui » et celles qui ne répondent pas aux critères suivront le chemin alternatif. Les arbres de décision cherchent à trouver la meilleure division pour sous-ensemble les données, et ils sont généralement entraînés via l’algorithme CART (Classification and Regression Tree). Les indicateurs, tels que l’impunité de Gini, le gain d’information ou l’erreur quadratique moyenne (MSE), peuvent être utilisés pour évaluer la qualité de la fraction.
Cet exemple de forêt d’arbres décisionnels est un exemple de problème de classification, où les étiquettes de classe sont « surfer » et « ne pas surfer ».
Bien que les arbres de décision soient des algorithmes d’apprentissage supervisés courants, ils peuvent être sujets à des problèmes, tels que des biais et un surajustement. Cependant, lorsque plusieurs arbres de décision forment un ensemble dans l’algorithme de la forêt d’arbres décisionnels, ils prédisent des résultats plus précis, en particulier lorsque les arbres individuels ne sont pas corrélés les uns aux autres.
Les méthodes d’apprentissage d’ensemble sont constituées d’un ensemble de classificateurs (par ex. des arbres de décision) et leurs prédictions sont agrégées pour identifier le résultat le plus populaire. Les méthodes d’ensemble les plus connues sont le bagging, également connu sous le nom d’agrégation par bootstrap, et le boosting. En 1996, Leo Breiman (lien externe à ibm.com) a présenté la méthode de bagging. Dans cette méthode, un échantillon aléatoire de données d’un ensemble d’apprentissage est sélectionné et remplacé, ce qui signifie que les points de données individuels peuvent être sélectionnés plusieurs fois. Une fois que plusieurs échantillons de données ont été générés, ces modèles sont entraînés indépendamment, en fonction du type de tâche (la régression ou la classification). La moyenne ou la majorité de ces prévisions fournissent une estimation plus précise. Cette approche est couramment utilisée pour réduire la variance dans un jeu de données où le bruit de fond est important.
L’algorithme de forêt d’arbres décisionnels est une extension de la méthode de bagging, car il utilise à la fois le bagging et l’incertitude des caractéristiques pour créer une forêt d’arbres décisionnels non corrélée. Le caractère aléatoire des caractéristiques, également connu sous le nom de bagging ou « méthode par sous-espace aléatoire » (lien externe à ibm.com), génère un sous-ensemble aléatoire de caractéristiques, ce qui garantit une faible corrélation entre les arbres de décision. C’est la principale différence entre les arbres de décision et les forêts d’arbres décisionnels. Alors que les arbres de décision prennent en compte toutes les divisions de caractéristiques possibles, les forêts d’arbres décisionnels ne sélectionnent qu’un sous-ensemble de ces caractéristiques.
Si nous revenons à la question « Dois-je surfer ? » par exemple, les questions que je pourrais poser pour déterminer la prédiction ne sont peut-être pas aussi complètes que celles de quelqu’un d’autre. En tenant compte de toute la variabilité potentielle des données, nous pouvons réduire le risque de surajustement, de biais et de variance globale, ce qui permet d’obtenir des prédictions plus précises.
Les algorithmes de forêt d’arbres décisionnels possèdent trois hyperparamètres principaux, qui doivent être définis avant l’entraînement. Il s’agit notamment de la taille des nœuds, du nombre d’arbres et du nombre de caractéristiques échantillonnées. A partir de là, le classificateur de forêt d’arbres décisionnels peut être utilisé pour résoudre les problèmes de regression ou de classification.
L’algorithme de forêt d’arbres décisionnels est composé d’un ensemble d’arbres de décision, et chaque arbre de l’ensemble est constitué d’un échantillon de données tiré d’un ensemble d’entraînement avec une option de remplacement, appelé bootstrapping. Sur cet échantillon d’entraînement, un tiers est mis de côté en tant que données de test, connu sous le nom d’échantillon hors sac (oob), sur lequel nous reviendrons plus tard. Un autre cas de mesure aléatoire est ensuite injecté par le biais de l’ensachage de fonctionnalités, ajoutant plus de diversité au jeu de données et réduisant la corrélation entre les arbres de décision. Selon le type de problème, la détermination de la prévision variera. Pour une tâche de regression, la moyenne des arbres de décision individuels sera calculée et, pour une tâche de classification, un vote majoritaire, c’est-à-dire la variable catégorielle la plus fréquente, donnera la classe prédite. Enfin, l’échantillon oob est ensuite utilisé pour la validation croisée, finalisant cette prédiction.
L’algorithme de forêt d’arbres décisionnels présente un certain nombre d’avantages et de défis clés lorsqu’il est utilisé pour résoudre des problèmes de classification ou de régression. En voici quelques-uns :
L’algorithme de forêt d’arbres décisionnels a été appliqué à de nombreux secteurs, leur permettant de prendre de meilleures décisions commerciales. Voici quelques cas d’utilisation :
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez des approches d’apprentissage supervisées telles que les machines à vecteurs de support et les classificateurs probabilistes.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com