Los árboles de decisión se utilizan para tareas de clasificación o regresión en machine learning. Utilizan una estructura de árbol jerárquico en la que un nodo interno representa una característica, la rama representa una regla de decisión y cada nodo hoja representa el resultado del conjunto de datos.
Dado que los árboles de decisión tienden al sobreajuste, a menudo se pueden utilizar métodos conjuntos, como el boosting, para crear modelos más robustos. El boosting combina varios árboles débiles individuales, es decir, modelos que funcionan ligeramente mejor que el azar, para formar un aprendiz fuerte. Cada aprendiz débil se entrena secuencialmente para corregir los errores cometidos por los modelos anteriores. Después de cientos de iteraciones, los aprendices débiles se convierten en fuertes.
Los bosques aleatorios y los algoritmos de boosting son dos técnicas populares de aprendizaje por conjuntos que utilizan árboles de aprendices individuales para mejorar el rendimiento predictivo. Los bosques aleatorios se basan en el concepto de bagging (agregación de bootstrap) y entrenan cada árbol de forma independiente para combinar sus predicciones, mientras que los algoritmos de boosting utilizan un enfoque aditivo en el que los aprendices débiles se entrenan secuencialmente para corregir los errores de los modelos anteriores.