Nodo de clúster bietápico

El nodo de clúster bietápico ofrece un método de análisis de clústeres. Se puede utilizar para agrupar el conjunto de datos en grupos distintos cuando no se sabe lo que son al principio. Al igual que los nodos Kohonen y K-medias, los modelos de clústeres bietápicos no utilizan un campo objetivo. En lugar de intentar predecir un resultado, el clúster Bietápico intenta revelar los patrones en el conjunto de campos de entrada. Los registros se agrupan de manera que los de un mismo grupo o clúster tiendan a ser similares entre ellos, y que los de otros grupos sean distintos.

El clúster Bietápico es un método de agrupación en clústeres de dos pasos. El primer paso es hacer una única pasada por los datos, durante la cual se comprimen los datos de entrada iniciales en un conjunto de subclústeres que se puede administrar. El segundo paso utiliza un método de agrupación en clústeres jerárquico para fundir progresivamente los subclústeres en clústeres cada vez más grandes, sin necesidad de realizar otra pasada por los datos. La agrupación en clústeres jerárquica tiene la ventaja de que no es necesario seleccionar el número de clústeres por adelantado. Muchos métodos de clúster jerárquico comienzan con registros individuales como clústeres iniciales y los van fundiendo sucesivamente para generar clústeres más grandes. Aunque estos métodos suelen no funcionar bien con grandes cantidades de datos, la agrupación en clústeres previa inicial Bietápica permite que la agrupación en clústeres jerárquica sea rápida incluso con grandes conjuntos de datos.

Nota: el modelo resultante depende, hasta cierto punto, del orden de los datos de entrenamiento. Reordenar los datos y regenerar el modelo puede dar como resultado un modelo de clústeres final distinto.

Requisitos. Para entrenar un modelo de clúster Bietápico, necesita uno o más campos con su rol establecido como Entrada. Se ignorarán los campos con el rol establecido como Objetivo, Ambos o Ninguno. El algoritmo de clústeres bietápicos no gestiona los valores perdidos. Los registros con elementos vacíos para cualquiera de los campos de entrada se ignorarán al crear el modelo.

Puntos fuertes. El clúster Bietápico puede gestionar distintos tipos de campos mezclados y conjuntos de datos grandes con eficacia. También tiene capacidad para comprobar varias soluciones de clústeres y seleccionar la mejor, por lo que no tendrá que saber el número de clústeres que hay que pedir al comienzo. El clúster Bietápico se puede configurar para que excluya automáticamente valores atípicos o casos muy extraños que puedan contaminar sus resultados.

IBM® SPSS Modeler tiene dos versiones distintas del nodo de clúster TwoStep:

Clúster TwoStep es el nodo tradicional que se ejecuta en IBM SPSS Modeler Server.
Clúster TwoStep-AS se puede ejecutar cuando está conectado a IBM SPSS Analytic Server.