构建具有不同平衡水平的模型,会得到稍微不同的结果。下表给出了在同一个数据集上训练,但使用了不同平衡水平的同一个模型。错误否定率和错误肯定率都基于测试分区。
在具有不同平衡程度的数据集上训练的模型的总体准确度 方法 指令 错误否定率 错误肯定率 准确度训练 准确度测试 准确度差异 无 不适用 76.1% 32.0% 87.5% 87.5% 0.0% 提升 (25/75) 2.1070:接受 71.8% 44.4% 85.9% 86.4% -0.5% Boosting (33/67) 3.1200:接受 43.7% 53.5% 91.6% 84.4% 7.2%Boosting (40/60) 4.2000:接受 39.4% 57.4% 91.7% 82.6% 9.1% Boosting (50/50) 6.2409:接受 45.1% 60.2% 95.3% 81.6% 13.7% 组合 (50/50) 3.6204:接受 0.5801:拒绝 33.8% 60.5% 90.3% 80.6% 9.7%来自 的结果已在 中绘制成图,以演示在使用不同的平衡水平时,两种错误率之间的权衡。虚线表示一条高度主观性边界,人们可能在这里预计同一个空间存在其他平衡水平的高度主观性边界。
基于具有不同平衡水平的数据集的模型的错误否定率和错误肯定率之间的关系图 可通过许多方式评估这些模型,但出于平衡的目的,我们又回到了确定什么是正确的平衡的业务案例。如果您通过低成本渠道提供高收入产品,那么您可能愿意接受较高的错误肯定率,如果您通过高成本渠道销售低收入产品,则情况可能相反。
示例 6 中的优惠信息是针对现有帐户的补充性信用卡。向帐户中添加一张卡,意味着有另外一个人使用该信用卡帐户,进而在每次刷卡时为信用卡提供者创造收入。每个帐户的预计收入取决于许多不同因素,很可能需要我们建立一个模型来评估每年的预期收入和预期寿命。对于此示例,我们假设添加一张补充性信用卡带来的预期收入为 10 美元。
提供此优惠信息的成本也由多个组件组成,包括呼叫中心代理花费的时间,向可能已接受另一项优惠信息的帐户持有人提供此优惠信息所损失的收入,但为了简便起见,我们将成本设置为 2 美元。这将意味着,公司可以接受高达 80% 的错误肯定率,且仍能实现收支平衡。
确定要在任何用例中使用的正确的平衡指令很难,并且必须依靠一些反复试验来确定最适合业务目标的平衡水平。关键在于良好地理解业务目标,理解如何实现和使用预测模型。
结束语本文介绍了如何评估不同的方法和平衡水平,以及如何在 IBM SPSS Modeler 中部署平衡。使用所提供的测试数据集,您可以使用平衡节点,根据需要 boost 或 reduce 模型来得到期望的结果。通过实现动态平衡,平衡节点可随着分析的数据变化而变化。例如,当使用预测模型来选择应提供补充性信用卡的客户时,接受优惠信息的客户的比率将增加,从而改变数据中的平衡。数据通常是动态的,平衡系数可能也需要定期手动调节。您可以根据自己的业务目标,使用 IBM SPSS Modeler 确定您的数据的平衡系数应该是多少。 |