二阶聚类分析
“二阶聚类分析”过程是一个探索工具,用来揭示数据集中的自然分组(或聚类),如果不揭示,这些分组是不明显的。此过程使用的算法有多个不错的特征使其区分于传统聚类技术:
- 分类变量和连续变量的处理。通过假设变量是独立的,可以假设分类变量和连续变量服从联合多项正态分布。
- 聚类数的自动选择。通过跨不同的聚类解比较模型选择准则的值,此过程可以自动确定最优的聚类数。
- 可缩放性。通过构造摘要记录的聚类特征 (CF) 树,二阶算法允许您分析大型数据文件。
示例。零售和消费者产品公司定期地对描述客户的购买习惯、性别、年龄、收入水平等的数据应用聚类技术。这些公司为每个消费者群体设计营销和产品开发战略,以增加销售额和建立品牌忠诚度。
距离测量。此选项确定如何计算两个聚类之间的相似性。
- 对数相似性。该似然度量假设变量服从某种概率分布。假设连续变量是正态分布,而假设分类变量是多项分布。假设所有变量均是独立的。
- 欧几里德距离。欧几里德距离测量是两个聚类之间的“直线”距离。它只能用于所有变量连续的情况。
聚类数。此选项允许您指定如何确定聚类数。
- 自动确定。此过程将使用在“聚类准则”组中指定的准则,自动确定“最好”的聚类数。或者,还可以输入一个正整数指定过程应考虑的最大聚类数。
- 指定固定值。允许您固定解中的聚类数。输入正整数。
连续变量计数。此组提供了在“选项”对话框中指定的连续变量标准化的摘要。请参阅 二阶聚类分析:选项主题以获取更多信息。
聚类准则。此选项确定自动聚类算法如何确定聚类数。可以指定 Bayesian 信息标准 (BIC) 或 Akaike 信息标准 (AIC)。
二阶聚类分析数据注意事项
数据。此过程既处理连续变量也处理分类变量。个案代表要聚类的对象,变量代表聚类所基于的属性。
个案顺序。注意,聚类特征树和最终解可能取决于个案顺序。要使顺序的影响降至最低程度,可随机个案等级排序的顺序。您可能想要通过以不同随机顺序排序的案例来得到多个不同的解,以验证给定解的稳定性。如果由于文件非常大而无法获取多个不同的解,可使用以不同的随机顺序排序的个案样本运行多次。
假设。似然距离测量假设聚类模型中的变量是独立的。而且,假设每个连续变量具有正态(高斯)分布,假设每个分类变量具有多项分布。经验内部检验表明,此过程对于违反独立性假设和分布假设均相当稳健,但您应尝试了解这些假设符合的程度。
使用双变量相关性过程可以检验两个连续变量的独立性。使用交叉表过程可检验两个分类变量的独立性。使用平均值过程可以检验连续变量与分类变量之间的独立性。使用探索过程可以检验连续变量的正态性。使用卡方检验过程可以检验分类变量是否具有指定的多项分布。
获取二阶聚类分析
此功能需要 Statistics Base Edition。
- 从菜单中选择:
- 选择一个或多个分类变量或连续变量。
根据需要,您可以:
- 调整构造聚类的标准。
- 选择噪声处理、内存分配、变量标准化和聚类模型输入的设置。
- 请求模型查看器输出。
- 将模型结果保存到工作文件或外部 XML 文件。
此过程将粘贴 TWOSTEP CLUSTER 命令语法。