该节点有一个 Only balance training data 选项,该选项默认已选择且应保留,除非平衡测试和验证数据具有有说服力的理由。
考虑一个包含 6 个观察结果的数据集,其中仅包含每个人的性别和他们查看的唯一网页数量。该数据集包含 4 位男性和 2 位女性。我们将在创建一个在两个性别间具有均匀分布的数据集时,检查平衡结果的效果。
使用平衡节点的 boosting当平衡中使用的系数导致来自一个不常见的类别的观察结果被复制时,就称为 boosting。示例 2 展示了 boosting。
示例 2:boosting。
应用了 boosting 的平衡示例流
原始数据集有 4 位男性和 2 位女性。 IDGENDERNUM_PAGES A Male 181 B Male 191 C Male 142 D Male 164 E Female 175 F Female 188该数据中的男女比例为 2:1,但我们希望男女分布均匀。将平衡节点配置为在 GENDER = "Female" 时使用系数 2.0。
具有 boosting 女性数量的指令的平衡节点不满足条件的任何记录始终按原样传递。
在平衡的数据集中,具有 ID E 和 F 的记录分别在数据集中出现两次。 IDGENDERNUM_PAGES A Male 181 B Male 191 C Male 142 D Male 164 E Female 175 E Female 175 F Female 188 F Female 188数据集现在拥有均匀的男女分布,有 4 位男性和 4 位女性。
使用平衡节点的 Reducing Reduction 是 boosting 的替代方案,在平衡中使用的系数导致更常见类别中的观察结果被丢弃时,就会使用该术语。
示例 3:Reduction本例中使用的 是示例 2 中使用的相同流。
应用 reduction 的简单的平衡示例流
原始数据集同样有 4 位男性和 2 位女性。 IDGENDERNUM_PAGES A Male 181 B Male 191 C Male 142 D Male 164 E Female 175 F Female 188数据中的男女比例仍为 2:1。我们仍想要均匀的男女比例。这一次,平衡节点配置为在 GENDER = "Male" 时使用系数 0.5。
具有减少男性数量的指令的平衡节点在平衡的数据集中,具有 ID B 和 D 的记录被从数据集丢弃。 IDGENDERNUM_PAGES A Male 181 C Male 142 E Female 175 F Female 188 该数据集现在具有均匀的分布,包含 2 位男性和 2 位女性。
因为该系数不是整数,所以每次执行时丢弃的记录会发生更改。