读取模型评估结果

评估图表的解读方法在某种程度上取决于图表类型,但是,有些特点是所有评估图表共有的。对于累积图表而言,线位置越高(特别是当图表左侧线位置高时)表明模型越优秀。在很多情况下,在比较多个模型时,线会发生交叉。因此,一个模型的线可能会在某处较高;但在图表另一处,另一个模型的线较高。如果出现这种情况,您需要考虑要哪个部分的样本(由此确定 x 轴上点的位置),以确定选择哪个模型。

大多数非累积图表都极其相似。优秀模型的非累积图应该是左侧较高,右侧较低。(如果非累积图呈锯齿状,您可以减少分位数的数量,重新绘制并执行图形,由此获得较为平滑的图形。)线在图表左侧偏低而在右侧偏高,可能意味着模型预测结果较差的区域。一条在整个图形中平直的线条则说明此模型基本不能提供任何信息。

收益图。累积收益图的线从左至右的走势通常是从 0% 到 100%。对于良好的模型,收益图表向 100% 突增,然后趋于平稳。无法提供有用信息的模型将呈对角线状,即从左下角到右上角(选择了包含基线后将显示类似图表)。

效益图。累积效益图的线从左至右的走势通常为:起始于大于 1.0 的值,并渐渐下降,直到接近 1.0。图表的右侧边缘表示整个数据集,因此累积分位数的匹配与数据中的匹配的比例为 1.0。对于优秀模型的提升图,其线开始于图表左侧大于 1.0 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向 1.0 的方向迅速下降。如果模型不能提供任何信息,那么其线在整个图形中将始终围绕在 1.0 左右。(如果选择了包含基线,一条值为 1.0 的水平线将显示在图表中供您参考。)

响应图。累积响应图通常与效益图极其类似,只在尺度标准方面有所区别。通常,响应图开始于接近 100% 之处,并逐渐下降,最终将在延伸至图表右侧边缘时达到整体响应率(全部匹配/全部记录)。对于优秀模型的响应图,其线开始于图表左侧接近或等于 100% 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向整体响应率的方向迅速下降。如果模型不能提供任何信息,那么其线在整个图形中将始终围绕在整体响应率左右。(如果选择了包含基线,一条值相当于整体响应率的水平线将显示在图表中供您参考。)

利润图。累积利润图线从左至右的走势代表随着所选样本数量的增加,利润总和的增长。利润图通常开始于 0 附近,并在向右延伸的过程中,稳步增长直至在图表中部到达峰值或保持较高的值;随后,在向右侧边缘延伸的过程中,逐渐下降。优秀模型的利润图将在图表中部某处显示定义良好的峰值。而无法提供任何信息的模型,其线相对而言比较平直,也可能由于成本/收入结构的不同增加、降低或保持不变。

投资回报图。累积投资回报 (ROI) 图通常与响应图及提升图类似,只有在尺度标准方面有所差别。投资回报图通常开始于大于 0% 的值,并逐渐下降,直到达到整个数据集的整体 ROI(可能为负)。对于优秀模型的投资回报图,其线开始于图表左侧大于 0% 的值,且在向右移动的过程中,始终保持在较高的水平;然后,在图表右侧,向整体 ROI 的方向迅速下降。如果模型不能提供任何信息,则其线在整个图形中将始终围绕在整体 ROI 左右。

ROC 图表ROC 曲线的形状通常为累积增益图。该曲线开始于 (0,0) 坐标,结束于 (1,1) 坐标,方向为从左到右。图表曲线朝 (0,1) 坐标急剧上升随后趋于平稳,这表示分类器较好。将实例随机分类为匹配项或未匹配项的模型将呈对角线状,即从左下角到右上角(如果选择了包含基线,那么此对角线将显示在图表中)。如果未提供模型的置信度字段,那么模型将绘制为单个点。具有最优分类阈值的分类器位于最接近 (0,1) 坐标的位置或者图表的左上角。此位置表示正确分类为匹配项的实例数较多,并且错误分类为匹配项的实例数较少。对角线上方的点表示较好的分类结果。对角线下方的点表示较差的分类结果,这些结果比对实例进行随机分类的结果更差。