首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

使用平衡生成更相关的数据模型和数据结果-1

使用平衡生成更相关的数据模型和数据结果-1

要实现可靠的数据结果,在训练预测模型之前,首先需要根据特定业务目标来正确地平衡数据。一旦确定了数据的初始平衡,必须定期监视传入数据的平衡,因为随着时间的推移,最初的平衡可能发生改变。您可能需要进行调节,以保持数据平衡的准确性。
本文将介绍如何评估和实现不同业务目标的不同方法和平衡水平,以及如何使用 IBM SPSS Modeler 实现平衡。
理解平衡与加权之间的区别数据挖掘中的 “平衡数据” 类似于传统统计学中加权数据的概念,但有许多重要区别。
“在数据挖掘中,我们可以处理所有数据,而不只是处理一个代表性子集。”

传统统计学主要是为了将来自某个群体样本的结论外推到整个群体而设计的。例如,政治民意调查者可对 1,024                个将参与总统选举投票的人进行提问,然后利用获得的回复来预测总统选举的获胜者。在数据挖掘中,我们通常拥有的优势是,能使用涵盖整个关注群体的数据。例如,数据可包含所有购买了给定产品的客户,所有执行了给定任务的机器,某个学区的所有学生,等等。所以,在数据挖掘中,我们可以处理所有数据,而不只是一个代表性子集。
“在数据挖掘中,通常不需要执行调节来适应某个群体的分布系数。”

在传统统计学中,会使用加权来确保用于分析的样本拥有与被预测群体相同的组成。例如,如果样本的男女比例为                100:80,则设计的应用于样本的加权将该比例调节为与该群体中相同的                49:51。这类场景的加权模式可能非常复杂,而且根据样本和要执行的分析,需要考虑数十个不同维度。对于政治投票,比如上面的示例,需要校正性别、年龄、收入、地区、政治背景、房屋所有权、职业和其他许多因素的权重。这是一项高度复杂且专业的任务,需要您知道群体的真实分布才能完成。在数据挖掘中,我们很少需要执行这样的更正,因为我们通常会处理整个群体。
“对于涉及子集的数据挖掘项目,群体调节系数与传统统计学不同。”

如果数据挖掘项目中使用的数据来自一个样本,而该样本不是来自整个关注群体的随机样本,您可能需要考虑执行与加权类似的调节。在数据挖掘上下文中平衡数据,通常是为了扭曲                数据中的相对比例来更好地帮助建立模型,训练出更能解决基础业务问题的模型。从技术上讲,平衡的执行方式与加权非常相似(但不相同),但执行平衡的目的和原因完全不同,选择平衡因素的方式也完全不同。
了解何时使用平衡平衡通常用于帮助数据科学家创建一种能更好地解决业务问题的模型,这也是项目的目标,请注意,从技术角度讲,此目标可能与构建更准确的模型的目标不同。这些情形有许多示例,在许多示例所包含的数据集中,目标变量的分布已失真,或者至少有一个类别与其他类别相比没有足够的代表名额。
示例 1:保险欺诈尽管欺诈性保险索赔被视为财产保险公司的大问题,但与任何个人保险公司处理的索赔总数相比,识别出的欺诈性索赔数量非常小。在需要执行数据挖掘项目来识别潜在的欺诈性索赔,以进行进一步调查时,这会带来挑战。
考虑一个每年处理 800,000 件汽车保险索赔的虚构保险公司的情况。所有汽车保险索赔中高达 20%                的保险索赔可能包含欺诈元素,但这仅是实际被证明存在欺诈的索赔的很小一部分 — 通常仅占这些索赔的 2%(16,000                次索赔)。其他被怀疑存在欺诈的索赔要么被索赔人撤销,要么以比最初索赔金额更低的金额结算。
如果您想原封不动地使用该数据集来建立预测模型,用该模型来识别欺诈性索赔,很可能会得到一个具有 98%                的准确度的模型。只有在预测所有索赔不存在欺诈时才能实现此目标,而且尽管此技术是一个非常准确的模型,但它无法解决识别潜在的欺诈性索赔的基础业务问题。可能有一些算法(比如                “决策列表”)能更好地处理这类业务问题,但它们的作用仅此而已。
平衡数据可能是解决方案。在这种情况下,可使用平衡来增加欺诈性索赔的比例,方法是复制数据集中的 16,000                个已知欺诈性索赔,使算法能够创建一种能将适当数量索赔预测为欺诈性索赔的模型。
也可以使用平衡来额外强调某个数据子集,比如在怀疑模式可能随时间缓慢改变时,可以强调最近的观察结果。在这种情况下,平衡可能是                使用最近的观察结果的替代方案。
在                IBM SPSS Modeler 中部署平衡根据准确的用例,可通过多种方法在 IBM SPSS Modeler                中部署平衡。本文将介绍一个包含最常用方法的子集,但它们都可以根据需要来扩展或组合。
获取 SPSS Modeler如果您还没有 SPSS Modeler,可以 ,包括一个免费的 30 天试用帐户(一些国家可能有相关限制)。

平衡数据集的最简单方法就是使用内置的平衡 节点。在大部分情况下,此方法就足够了。
平衡节点根据节点中指定的平衡指令来复制或丢弃数据集中的记录。如果系数大于 1,则会导致将记录复制到数据集中,如果系数小于                1,则会导致丢弃记录。对于任何非整数系数,会随机选择要复制和丢弃的记录。不能选择设置随机种子,这意味着每次执行的结果可能都稍微不同。
使用训练分区除了在特殊情况下,应该仅对数据的训练分区应用平衡,而不应该对测试分区或验证分区应用平衡。否则,最后会获得不真实的分布结果。

该节点有一个 Only balance training data                选项,该选项默认已选择且应保留,除非平衡测试和验证数据具有有说服力的理由。
考虑一个包含 6 个观察结果的数据集,其中仅包含每个人的性别和他们查看的唯一网页数量。该数据集包含 4 位男性和 2                位女性。我们将在创建一个在两个性别间具有均匀分布的数据集时,检查平衡结果的效果。
使用平衡节点的                boosting当平衡中使用的系数导致来自一个不常见的类别的观察结果被复制时,就称为 boosting。示例 2 展示了 boosting。
示例 2:boosting。
应用了 boosting                    的平衡示例流
原始数据集有 4 位男性和 2 位女性。
IDGENDERNUM_PAGES A  Male                                                        181 B  Male                                                        191 C  Male                                                        142 D  Male                                                        164 E  Female                                                        175 F  Female                                                        188该数据中的男女比例为 2:1,但我们希望男女分布均匀。将平衡节点配置为在 GENDER = "Female" 时使用系数                2.0。
具有 boosting 女性数量的指令的平衡节点不满足条件的任何记录始终按原样传递。
在平衡的数据集中,具有 ID E 和 F 的记录分别在数据集中出现两次。
IDGENDERNUM_PAGES A  Male                                                        181 B  Male                                                        191 C  Male                                                        142 D  Male                                                        164 E  Female                                                        175 E  Female                                                        175 F  Female                                                        188 F  Female                                                        188数据集现在拥有均匀的男女分布,有 4 位男性和 4 位女性。
返回列表