Análisis de clústeres en dos fases

El procedimiento Análisis de clústeres en dos fases es una herramienta de exploración diseñada para descubrir las agrupaciones naturales (o clústeres) de un conjunto de datos que, de otra manera, no sería posible detectar. El algoritmo que emplea este procedimiento incluye varias atractivas características que lo hacen diferente de las técnicas de agrupación en clústeres tradicionales:

Tratamiento de variables categóricas y continuas. Al suponer que las variables son independientes, es posible aplicar una distribución normal multinomial conjunta en las variables continuas y categóricas.
Selección automática del número de clústeres. Mediante la comparación de los valores de un criterio de selección del modelo para diferentes soluciones de agrupación en clústeres, el procedimiento puede determinar automáticamente el número óptimo de clústeres.
Escalabilidad. Mediante la construcción de un árbol de características de clústeres (CF) que resume los registros, el algoritmo en dos fases puede analizar archivos de datos de gran tamaño.

Ejemplo. Las empresas minoristas y de venta de productos para el consumidor suelen aplicar técnicas de agrupación en clústeres a los datos que describen los hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes. Estas empresas adaptan sus estrategias de desarrollo de productos y de marketing en función de cada grupo de consumidores para aumentar las ventas y el nivel de fidelidad a la marca.

Medida de distancia. Esta opción determina cómo se calcula la similaridad entre dos clústeres.

Log-verosimilitud. La medida de la verosimilitud realiza una distribución de probabilidad entre las variables. Las variables continuas se supone que tienen una distribución normal, mientras que las variables categóricas se supone que son multinomiales. Se supone que todas las variables son independientes.
Euclídea. La medida euclídea es la distancia según una "línea recta" entre dos clústeres. Sólo se puede utilizar cuando todas las variables son continuas.

Número de clústeres. Esta opción permite especificar cómo se va a determinar el número de clústeres.

Determinar automáticamente. El procedimiento determinará automáticamente el número "óptimo" de clústeres, utilizando el criterio especificado en el grupo Criterio de agrupación en clústeres. Si lo desea, introduzca un entero positivo para especificar el número máximo de clústeres que el procedimiento debe tener en cuenta.
Especificar número fijo. Permite fijar el número de clústeres de la solución. Introduzca un número entero positivo.

Recuento de variables continuas. Este grupo proporciona un resumen de las especificaciones acerca de la tipificación de variables continuas realizadas en el cuadro de diálogo Opciones. Consulte el tema Opciones del análisis de clústeres en dos fases para obtener más información.

Criterio de agrupación en clústeres. Esta opción determina cómo el algoritmo de agrupación en clústeres determina el número de clústeres. Se puede especificar tanto el criterio de información bayesiano (BIC) como el criterio de información de Akaike (AIC).

Consideraciones sobre los datos para el análisis de clústeres en dos fases

Datos. Este procedimiento trabaja tanto con variables continuas como categóricas. Los casos representan los objetos a agrupar en clústeres y las variables representan los atributos en los que se va a basar la agrupación en clústeres.

Orden de casos. Observe que el árbol de características de clústeres y la solución final pueden depender del orden de los casos. Para minimizar los efectos del orden, ordene los casos aleatoriamente. Puede que desee obtener varias soluciones distintas con los casos ordenados en distintos órdenes aleatorios para comprobar la estabilidad de una solución determinada. En situaciones en que esto resulta difícil debido a unos tamaños de archivo demasiado grandes, se pueden sustituir varias ejecuciones por una muestra de casos ordenados con distintos órdenes aleatorios.

Supuestos. La medida de la distancia de la verosimilitud supone que las variables del modelo de clúster son independientes. Además, se supone que cada variable continua tiene una distribución normal (de Gauss) y que cada variable categórica tiene una distribución multinomial. Las comprobaciones empíricas internas indican que este procedimiento es bastante robusto frente a las violaciones tanto del supuesto de independencia como de las distribuciones, pero aún así es preciso tener en cuenta hasta qué punto se cumplen estos supuestos.

Utilice el procedimiento de correlaciones bivariadas para comprobar la independencia de dos variables continuas. Utilice el procedimiento de tablas cruzadas para comprobar la independencia de dos variables categóricas. Utilice el procedimiento de medias para comprobar la independencia entre una variable continua y una categórica. Utilice el procedimiento de exploración para comprobar la normalidad de una variable continua. Utilice el procedimiento de prueba de chi-cuadrado para comprobar si una variable categórica tiene especificada una distribución multinomial.

Para obtener un análisis de clústeres en dos fases

Esta característica requiere Statistics Base Edition.

Seleccione en los menús:
Analizar > Clasificar > Clúster de bietápico...
Seleccione una o varias variables categóricas o continuas.

Si lo desea, puede:

Ajustar los criterios utilizados para construir los clústeres.
Seleccionar los ajustes para el tratamiento del ruido, la asignación de memoria, la tipificación de las variables y la entrada del modelo de clúster.
Solicitar resultados del visor de modelos.
Guardar los resultados del modelo en el archivo de trabajo o en un archivo XML externo.

Este procedimiento pega la sintaxis de comandos TWOSTEP CLUSTER.