数据挖掘过程的几个阶段使用图形和图表来探索引入到 IBM® SPSS® Modeler中的数据。 例如,可将“散点图”或“分布”节点连接到数据源,以了解数据类型和数据分布。 然后可以执行记录和字段操作,以准备下游建模操作的数据。 图形的另一个常见用途是检查新导出字段的分布和它们之间的关系。
“图形”选项板含有以下节点:
|
|
“图形板”节点在单个节点中提供许多不同类型的图形。 使用此节点,可以选择要探索的数据字段,然后从适用于选定数据的字段中选择 一个图形。 节点将自动过滤出适用于字段选项的所有图形类型。 |
|
|
散点图节点可显示数字字段间的关系。 可通过使用点(散点)或线创建散点图。 |
|
|
“分布”节点显示符号(分类)值(例如抵押类型或性别)的出现次数。 通常,您可以使用“分布”节点来显示数据中的不平衡,然后可以在创建模型前使用“均衡”节点来纠正此类不均衡。 |
|
|
“直方图”节点显示数字字段的值的出现次数。 此节点经常用来在进行数据操作和模型构建前探索数据。 与“分布”节点相似,“直方图”节点经常用来揭示数据中的不平衡。 |
|
|
“收集”节点显示一个数字字段的值相对于另一个数字字段的值的分布。 (它创建类似于直方图的图形。) 图示说明值不断变化的变量或字段时,它 是有用的。 使用 3-D 图形表示时,还可以使用按分类显示分布的符号轴。 |
|
|
“多重散点图”节点创建在单个 X 字段上显示多个 Y 字段的散点图。 Y 字段被绘制为彩色的线;每条线相当于“样式”设置为线且“X 模式”设置为排序的散点图节点。 在探索多个变量随时间推移的变化情况时,多重散点图非常有用。 |
|
|
Web 节点说明两个或两个以上符号(分类)字段的值之间的关系强度。 此图使用不同粗细的线条来表示连接强度。 例如,您可以使用 Web 节点来探索电子商务网站上一组商品的购买之间的关系。 |
|
|
“时间散点图”节点显示一组或多组时间序列数据。 通常,您将首先使用“时间间隔”节点来创建 TimeLabel 字段,该字段将用于标注 x 轴。 |
|
|
“评估”节点有助于评估和比较预测模型。 评估图表显示模型预测特定结果的优劣程度。 它根据预测值和预测置信度对记录进行排序。 它将记录分成若干个相同大小的组(分位数),然后从高到底为每个分位数划分业务标准值。 在散点图中,将以单独的线条显示多个模型。 |
|
|
“地图可视化”节点可以接受多个输入连接,并在地图上将地理空间数据显示为一系列层。 每个层都是单个地理空间字段;例如,底层可能是国家或地区的地图,在其之上可能存在一个道路层、一个河流层和一个城镇层。 |
|
|
E-Plot (Beta) 节点显示数字字段之间的关系。 它与“绘图”节点类似,但是其选项不同,并且其输出使用特定于此节点的新图形界面。 使用 beta 级节点可运用新图形功能。 |
|
|
t-分布随机邻域嵌入 (t-SNE) 是用于可视化高维数据的工具。 其将数据点亲缘关系转换为可能性。 SPSS Modeler 中的此 t-SNE 节点是在 Python 中实现的,需要 scikit-learn© Python 库。 |
将图形节点添加到流后,可双击节点以打开用于指定选项的对话框。 绝大多数图形都含有一些独特的选项,这些选项会显示在一个或多个选项卡上。 除此以外,还有若干通用于所有图形的选项卡选项。 以下 主题 包含有关这些公共选项的更多信息。
配置图形节点的选项后,可通过对话框运行该节点或将它作为流的组成部分来运行。 可在已生成图形窗口中根据选择或数据区域生成“派生”(集合和标记)和“选择”节点,有效地将数据划分为多个“子集”。 例如,可使用此强大功能来识别和排除离群值。