首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

使用平衡生成更相关的数据模型和数据结果(2)

使用平衡生成更相关的数据模型和数据结果(2)

在                IBM SPSS Modeler 中部署平衡根据准确的用例,可通过多种方法在 IBM SPSS Modeler                中部署平衡。本文将介绍一个包含最常用方法的子集,但它们都可以根据需要来扩展或组合。
获取 SPSS Modeler如果您还没有 SPSS Modeler,可以 ,包括一个免费的 30 天试用帐户(一些国家可能有相关限制)。

平衡数据集的最简单方法就是使用内置的平衡 节点。在大部分情况下,此方法就足够了。
平衡节点根据节点中指定的平衡指令来复制或丢弃数据集中的记录。如果系数大于 1,则会导致将记录复制到数据集中,如果系数小于                1,则会导致丢弃记录。对于任何非整数系数,会随机选择要复制和丢弃的记录。不能选择设置随机种子,这意味着每次执行的结果可能都稍微不同。
使用训练分区除了在特殊情况下,应该仅对数据的训练分区应用平衡,而不应该对测试分区或验证分区应用平衡。否则,最后会获得不真实的分布结果。

该节点有一个 Only balance training data                选项,该选项默认已选择且应保留,除非平衡测试和验证数据具有有说服力的理由。
考虑一个包含 6 个观察结果的数据集,其中仅包含每个人的性别和他们查看的唯一网页数量。该数据集包含 4 位男性和 2                位女性。我们将在创建一个在两个性别间具有均匀分布的数据集时,检查平衡结果的效果。
使用平衡节点的                boosting当平衡中使用的系数导致来自一个不常见的类别的观察结果被复制时,就称为 boosting。示例 2 展示了 boosting。
示例 2:boosting。
应用了 boosting                    的平衡示例流
原始数据集有 4 位男性和 2 位女性。
IDGENDERNUM_PAGES A  Male                                                        181 B  Male                                                        191 C  Male                                                        142 D  Male                                                        164 E  Female                                                        175 F  Female                                                        188该数据中的男女比例为 2:1,但我们希望男女分布均匀。将平衡节点配置为在 GENDER = "Female" 时使用系数                2.0。
具有 boosting 女性数量的指令的平衡节点不满足条件的任何记录始终按原样传递。
在平衡的数据集中,具有 ID E 和 F 的记录分别在数据集中出现两次。
IDGENDERNUM_PAGES A  Male                                                        181 B  Male                                                        191 C  Male                                                        142 D  Male                                                        164 E  Female                                                        175 E  Female                                                        175 F  Female                                                        188 F  Female                                                        188数据集现在拥有均匀的男女分布,有 4 位男性和 4 位女性。
使用平衡节点的                Reducing Reduction 是 boosting 的替代方案,在平衡中使用的系数导致更常见类别中的观察结果被丢弃时,就会使用该术语。
示例 3:Reduction本例中使用的  是示例 2 中使用的相同流。
应用 reduction                    的简单的平衡示例流
原始数据集同样有 4 位男性和 2 位女性。
IDGENDERNUM_PAGES A  Male                                                        181 B  Male                                                        191 C  Male                                                        142 D  Male                                                        164 E  Female                                                        175 F  Female                                                        188数据中的男女比例仍为 2:1。我们仍想要均匀的男女比例。这一次,平衡节点配置为在 GENDER = "Male" 时使用系数                0.5。
具有减少男性数量的指令的平衡节点在平衡的数据集中,具有 ID B 和 D 的记录被从数据集丢弃。
IDGENDERNUM_PAGES A  Male  181  C  Male  142  E  Female  175  F  Female  188 该数据集现在具有均匀的分布,包含 2 位男性和 2 位女性。
因为该系数不是整数,所以每次执行时丢弃的记录会发生更改。
返回列表