Nodos de árbol de decisión: conceptos básicos

Especifique las opciones básicas sobre cómo se crea el árbol de decisiones.

Algoritmo de desarrollo de árboles (sólo CHAID y Tree-AS) Seleccione el tipo de algoritmo de CHAID que desee utilizar. CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles para cada predictor, aunque necesita más tiempo pare realizar los cálculos.

Profundidad máxima del árbol Especifique el número máximo de niveles bajo el nodo raíz (el número de veces que se dividirá la muestra repetidamente). El valor predeterminado es 5; seleccione Personalizado y entre un valor para especificar un número diferente de niveles.

Poda del árbol (C&RT y QUEST únicamente)

Podar árbol para evitar sobreajuste La poda consiste en eliminar divisiones de nivel inferior que no contribuyen significativamente a la precisión del árbol. La poda puede ayudar a simplificar un árbol, que resultará más fácil de interpretar y, en determinados casos, mejora la generalización. Deje esta opción sin seleccionar para conservar un árbol completo sin podar.

Establecer diferencia máxima en riesgo (en errores estándar) Permite especificar una regla de poda más liberal. La regla de error estándar permite al algoritmo seleccionar el árbol más simple cuya estimación de riesgo es próxima (pero posiblemente superior) a la del subárbol con el riesgo menor. El valor indica el tamaño de la diferencia admisible en la estimación del riesgo entre el árbol podado y el árbol con el riesgo menor en términos de estimación del riesgo. Por ejemplo, si se especifica 2, podría seleccionarse un árbol cuya estimación de riesgo sea (2 x error estándar) mayor que la del árbol completo.

Máximo de sustitutos. Los sustitutos constituyen un método de gestión de valores perdidos. Para cada una de las divisiones del árbol, el algoritmo identifica los campos de entrada más parecidos al campo de división seleccionado. Estos campos serán los sustitutos de la división. Cuando debe clasificarse un registro que presenta un valor perdido para un campo de división, puede utilizarse su valor en un campo de sustituto para realizar la división. Si se aumenta este valor, se permitirá una mayor flexibilidad para la gestión de los valores perdidos. Sin embargo, pueden aumentar el uso de memoria y los tiempos de entrenamiento.