Reglas de modelo de árbol de decisión

La pestaña Modelo de un nugget de árbol de decisión muestra las reglas que definen el modelo. Opcionalmente, también se pueden mostrar un gráfico de importancia de los predictores y un tercer panel con información acerca del historial, frecuencias y sustitutos.

Nota: Si selecciona la opción Crear un modelo para conjuntos de datos muy grandes en la pestaña Opciones de generación del nodo CHAID (panel Objetivo), la pestaña Modelo solo muestra los detalles de la regla del árbol.

Reglas de árbol

El panel izquierdo muestra una lista de condiciones que definen la partición de los datos descubiertos por el algoritmo; esencialmente es una serie de reglas que se pueden utilizar para asignar registros individuales a los nodos hijo basándose en los valores de distintos predictores.

Los árboles de decisión funcionan particionando de forma recursiva los datos basados en valores de campos de entrada. Las particiones de los datos se denominan ramas. La rama inicial (a veces denominada raíz) engloba a todos los registros de datos. La raíz se divide en subconjuntos, o ramas hijas, basados en el valor de un determinado campo de entrada. Cada rama hija se puede dividir en subramas, que pueden, a su vez, volver a dividirse, y así sucesivamente. En el nivel inferior del árbol están las ramas que ya no tienen más divisiones. Dichas ramas se conocen como ramas terminales (u hojas).

Detalles de regla de árbol

El explorador de reglas muestra los valores de entrada que definen cada partición o rama y un resumen de los valores de los campos de salida para los registros de dicha división. Para obtener información general sobre cómo utilizar el explorador de modelos, consulte Examen de nuggets de modelo.

En el caso de las divisiones basadas en campos numéricos, la rama se representa mediante una línea con la forma:

nombrecampo relación valor [resumen]

donde relación es una relación numérica. Por ejemplo, una rama definida por valores mayores que 100 para el campo ingresos tendría la forma:

ingresos > 100 [resumen]

En el caso de divisiones basadas en campos simbólicos, la rama se representa mediante una línea con la forma:

nombrecampo = valor [resumen] o nombrecampo en [valores] [resumen]

donde valores representa los valores del campo que definen la rama. Por ejemplo, una rama que incluya registros donde el valor de región puede ser Norte, Oeste o Sur quedaría representada de la siguiente forma:

región en ["Norte" "Oeste" "Sur"] [resumen]

En el caso de las ramas terminales también se proporciona una predicción agregando una flecha y el valor predicho al final de la condición de la regla. Por ejemplo, una hoja definida por ingresos > 100 que predice un valor alto para el campo de salida quedaría representada de la siguiente forma:

ingresos > 100 [Modo: alto] →	alto

El resumen de la rama se define de forma diferente a los campos de salida numéricos y simbólicos. En el caso de los árboles con campos de salida numéricos, el resumen será el valor promedio de la rama y el efecto de la rama consistirá en la diferencia entre el promedio de la rama y el promedio de su rama padre. En el caso de árboles con campos de salida simbólicos, el resumen será la moda, o el valor más frecuente, si se trata de los registros de la rama.

Para describir completamente una rama, necesita incluir la condición que define la rama más las condiciones que definen las divisiones en la parte superior del árbol. Por ejemplo, en el árbol:

ingresos > 100
  región = "Norte"
  región en ["Sur" "Este" "Oeste"]
    ingresos < = 200

la rama representada por la segunda línea viene definida por las condiciones ingresos > 100 y región = "Norte".

Si pulsa en Mostrar u ocultar las cifras de ocurrencias y confianzas en la barra de herramientas, cada regla también mostrará información acerca del número de registros a los que se aplica la regla (Ocurrencias), así como la proporción de registros para los que la regla es verdadera (Confianza).

Importancia del predictor

Opcionalmente, en la pestaña Modelo también se puede mostrar un gráfico que indique la importancia relativa de cada predictor cuando se calcule el modelo. Normalmente, desea centrar sus esfuerzos de modelado en los predictores que importan más y considera eliminar o ignorar los que importan menos.

Nota: este gráfico sólo está disponible si se ha seleccionado Calcular importancia de predictor en la pestaña Analizar antes de generar el modelo. Consulte Importancia del predictor para obtener más información.

Información adicional del modelo

Si pulsa en la barra de herramientas la opción de mostrar el panel de información adicional, verá un panel con información detallada de la regla seleccionada en la parte inferior de la ventana. El panel de información contiene tres pestañas.

Historial. Esta pestaña rastrea las condiciones de división desde el nodo raíz hasta el nodo seleccionado. Así se obtiene una lista de condiciones que determina cuándo se asigna un registro al nodo seleccionado. Los registros para los que todas las condiciones sean verdaderas se asignarán a este nodo.

Frecuencias. En el caso de los modelos con campos objetivo simbólicos, esta pestaña muestra (para cada valor objetivo posible) el número de registros asignados a este nodo (en los datos de entrenamiento) que tienen dicho valor objetivo. La cifra de frecuencia, expresada como porcentaje (expresada con un máximo de tres decimales) también se muestra. En otros modelos con objetivos numéricos, esta pestaña está vacía.

Sustitutos. Si procede, se muestra cualquier sustituto del campo de división principal para el nodo seleccionado. Los sustitutos son campos alternativos que se usan en caso de que el valor predictor principal no esté presente en un determinado registro. El número máximo de sustitutos permitido para una división en particular se especifica en el nodo de generación de árbol, pero el número real depende de los datos de entrenamiento. En general, cuanto mayor sea la cantidad de datos perdidos, mayor será la probabilidad de usar sustitutos. En otros modelos de árboles de decisión esta pestaña está vacía.

Nota: Para que se incluya en el modelo, los sustitutos se deben identificar durante la fase de entrenamiento. Si la muestra de entrenamiento no tiene valores perdidos, no se identificarán sustitutos. Los registros con valores perdidos que se encuentren durante la comprobación o puntuación pasarán automáticamente al nodo hijo que tenga un mayor número de registros. Si se esperan valores perdidos durante la comprobación o puntuación, asegúrese de que los valores no están presentes en la muestra de entrenamiento. No hay sustitutos disponibles para los árboles CHAID.

Efecto

El efecto de un nodo es el aumento o la disminución del valor medio (valor previsto en comparación con el nodo padre). Por ejemplo, si el promedio de un nodo es 0,2 y el promedio de su padre es 0,6, el efecto para el nodo es 0,2-0,6=-0,4. Esta estadística solo se aplica para un objetivo continuo.