Nodo CHAID

CHAID, o detección automática de interacciones mediante chi-cuadrado (del inglés Chi-squared Automatic Interaction Detection), es un método de clasificación para generar árboles de decisión mediante estadísticos de chi-cuadrado para identificar divisiones óptimas.

CHAID examina en primer lugar las tablas de tabulación cruzada entre los campos de entrada y los resultados para, a continuación, comprobar la significación mediante una comprobación de independencia de chi-cuadrado. Si varias de estas relaciones son estadísticamente importantes, CHAID seleccionará el campo de entrada de mayor relevancia (el valor P más pequeño). Si una entrada cuenta con más de dos categorías, se compararán estas categorías y se contraerán las que no presenten diferencias en los resultados. Para ello, se unirá el par de categorías que presenten menor diferencia, y así sucesivamente. Este proceso de fusión de categorías se detiene cuando todas las categorías restantes difieren entre sí en el nivel de comprobación especificado. En el caso de campos de entrada nominales, pueden fundirse todas las categorías. Sin embargo, en los conjuntos ordinales, únicamente podrán fundirse las categorías contiguas.

CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles para cada predictor, aunque necesita más tiempo pare realizar los cálculos.

Requisitos. Los campos objetivo y de entrada pueden ser continuos o categóricos. Los nodos pueden dividirse en dos o más subgrupos en cada nivel. Todos los campos ordinales utilizados en el modelo deben disponer de almacenamiento numérico (no en cadenas). Si lo considera necesario, utilice a continuación el nodo Reclasificar para realizar las conversiones.

Puntos fuertes. A diferencia de los nodos C&RT y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones generarán más de dos ramas. Es por ello que tiende a crear un árbol más extenso que los métodos de desarrollo binarios. CHAID admite todos los tipos de entradas y acepta tanto variables de frecuencia como ponderaciones de casos.