Análisis de clústeres en dos fases

El procedimiento Análisis de clústeres en dos fases es una herramienta de exploración diseñada para descubrir las agrupaciones naturales (o clústeres) de un conjunto de datos que, de otra manera, no sería posible detectar. El algoritmo que emplea este procedimiento incluye varias atractivas características que lo hacen diferente de las técnicas de agrupación en clústeres tradicionales:

Ejemplo. Las empresas minoristas y de venta de productos para el consumidor suelen aplicar técnicas de agrupación en clústeres a los datos que describen los hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes. Estas empresas adaptan sus estrategias de desarrollo de productos y de marketing en función de cada grupo de consumidores para aumentar las ventas y el nivel de fidelidad a la marca.

Medida de distancia. Esta opción determina cómo se calcula la similaridad entre dos clústeres.

Número de clústeres. Esta opción permite especificar cómo se va a determinar el número de clústeres.

Recuento de variables continuas. Este grupo proporciona un resumen de las especificaciones acerca de la tipificación de variables continuas realizadas en el cuadro de diálogo Opciones. Consulte el tema Opciones del análisis de clústeres en dos fases para obtener más información.

Criterio de agrupación en clústeres. Esta opción determina cómo el algoritmo de agrupación en clústeres determina el número de clústeres. Se puede especificar tanto el criterio de información bayesiano (BIC) como el criterio de información de Akaike (AIC).

Consideraciones sobre los datos para el análisis de clústeres en dos fases

Datos. Este procedimiento trabaja tanto con variables continuas como categóricas. Los casos representan los objetos a agrupar en clústeres y las variables representan los atributos en los que se va a basar la agrupación en clústeres.

Orden de casos. Observe que el árbol de características de clústeres y la solución final pueden depender del orden de los casos. Para minimizar los efectos del orden, ordene los casos aleatoriamente. Puede que desee obtener varias soluciones distintas con los casos ordenados en distintos órdenes aleatorios para comprobar la estabilidad de una solución determinada. En situaciones en que esto resulta difícil debido a unos tamaños de archivo demasiado grandes, se pueden sustituir varias ejecuciones por una muestra de casos ordenados con distintos órdenes aleatorios.

Supuestos. La medida de la distancia de la verosimilitud supone que las variables del modelo de clúster son independientes. Además, se supone que cada variable continua tiene una distribución normal (de Gauss) y que cada variable categórica tiene una distribución multinomial. Las comprobaciones empíricas internas indican que este procedimiento es bastante robusto frente a las violaciones tanto del supuesto de independencia como de las distribuciones, pero aún así es preciso tener en cuenta hasta qué punto se cumplen estos supuestos.

Utilice el procedimiento de correlaciones bivariadas para comprobar la independencia de dos variables continuas. Utilice el procedimiento de tablas cruzadas para comprobar la independencia de dos variables categóricas. Utilice el procedimiento de medias para comprobar la independencia entre una variable continua y una categórica. Utilice el procedimiento de exploración para comprobar la normalidad de una variable continua. Utilice el procedimiento de prueba de chi-cuadrado para comprobar si una variable categórica tiene especificada una distribución multinomial.

Para obtener un análisis de clústeres en dos fases

Esta característica requiere Statistics Base Edition.

  1. Seleccione en los menús:

    Analizar > Clasificar > Clúster de bietápico...

  2. Seleccione una o varias variables categóricas o continuas.

Si lo desea, puede:

Este procedimiento pega la sintaxis de comandos TWOSTEP CLUSTER.