twostepnode 属性
TwoStep 节点使用二阶聚类方法。 第一步完成简单数据处理,以便将原始输入数据压缩为可管理的子聚类集合。 第二步使用层级聚类方法将子聚类一步一步合并为更大的聚类。 TwoStep 具有一个优点,就是能够为训练数据自动估计最佳聚类数。 它可以高效处理混合的字段类型和大型的数据集。
示例
node = stream.create("twostep", "My node")
node.setPropertyValue("custom_fields", True)
node.setPropertyValue("inputs", ["Age", "K", "Na", "BP"])
node.setPropertyValue("partition", "Test")
node.setPropertyValue("use_model_name", False)
node.setPropertyValue("model_name", "TwoStep_Drug")
node.setPropertyValue("use_partitioned_data", True)
node.setPropertyValue("exclude_outliers", True)
node.setPropertyValue("cluster_label", "String")
node.setPropertyValue("label_prefix", "TwoStep_")
node.setPropertyValue("cluster_num_auto", False)
node.setPropertyValue("max_num_clusters", 9)
node.setPropertyValue("min_num_clusters", 3)
node.setPropertyValue("num_clusters", 7)
twostepnode 属性 |
值 | 属性描述 |
---|---|---|
inputs |
[field1 ... fieldN] | TwoStep 模型使用输入字段的列表,但不使用目标。 不识别权重字段和频率字段。 请参阅 公共建模节点属性 以获取更多信息。 |
standardize |
标志 | |
exclude_outliers |
标志 | |
percentage |
成员 | |
cluster_num_auto |
标志 | |
min_num_clusters |
成员 | |
max_num_clusters |
成员 | |
num_clusters |
成员 | |
cluster_label |
String Number |
|
label_prefix |
string | |
distance_measure |
Euclidean Loglikelihood |
|
clustering_criterion |
AIC BIC |