二阶聚类分析

“二阶聚类分析”过程是一个探索工具,用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。此过程使用的算法有多个不错的特征使其区分于传统聚类技术:

示例。零售和消费者产品公司定期地对描述客户的购买习惯、性别、年龄、收入水平等的数据应用聚类技术。这些公司为每个消费者群体设计营销和产品开发战略,以增加销售额和建立品牌忠诚度。

距离测量。此选项确定如何计算两个聚类之间的相似性。

聚类数。此选项允许您指定如何确定聚类数。

连续变量计数。此组提供了在“选项”对话框中指定的连续变量标准化的摘要。请参阅 二阶聚类分析:选项主题以获取更多信息。

聚类准则。此选项确定自动聚类算法如何确定聚类数。可以指定 Bayesian 信息标准 (BIC) 或 Akaike 信息标准 (AIC)。

二阶聚类分析数据注意事项

数据。此过程既处理连续变量也处理分类变量。个案代表要聚类的对象,变量代表聚类所基于的属性。

个案顺序。注意,聚类特征树和最终解可能取决于个案顺序。要使顺序的影响降至最低程度,可随机个案等级排序的顺序。您可能想要通过以不同随机顺序排序的案例来得到多个不同的解,以验证给定解的稳定性。如果由于文件非常大而无法获取多个不同的解,可使用以不同的随机顺序排序的个案样本运行多次。

假设。似然距离测量假设聚类模型中的变量是独立的。而且,假设每个连续变量具有正态(高斯)分布,假设每个分类变量具有多项分布。经验内部检验表明,此过程对于违反独立性假设和分布假设均相当稳健,但您应尝试了解这些假设符合的程度。

使用双变量相关性过程可以检验两个连续变量的独立性。使用交叉表过程可检验两个分类变量的独立性。使用平均值过程可以检验连续变量与分类变量之间的独立性。使用探索过程可以检验连续变量的正态性。使用卡方检验过程可以检验分类变量是否具有指定的多项分布。

获取二阶聚类分析

此功能需要 Statistics Base Edition。

  1. 从菜单中选择:

    分析 > 分类 > 二阶聚类...

  2. 选择一个或多个分类变量或连续变量。

根据需要,您可以:

此过程将粘贴 TWOSTEP CLUSTER 命令语法。