该节点有一个 Only balance training data 选项,该选项默认已选择且应保留,除非平衡测试和验证数据具有有说服力的理由。
考虑一个包含 6 个观察结果的数据集,其中仅包含每个人的性别和他们查看的唯一网页数量。该数据集包含 4 位男性和 2 位女性。我们将在创建一个在两个性别间具有均匀分布的数据集时,检查平衡结果的效果。
使用平衡节点的 boosting当平衡中使用的系数导致来自一个不常见的类别的观察结果被复制时,就称为 boosting。示例 2 展示了 boosting。
示例 2:boosting。
应用了 boosting 的平衡示例流
原始数据集有 4 位男性和 2 位女性。 IDGENDERNUM_PAGES A Male 181 B Male 191 C Male 142 D Male 164 E Female 175 F Female 188该数据中的男女比例为 2:1,但我们希望男女分布均匀。将平衡节点配置为在 GENDER = "Female" 时使用系数 2.0。
具有 boosting 女性数量的指令的平衡节点不满足条件的任何记录始终按原样传递。
在平衡的数据集中,具有 ID E 和 F 的记录分别在数据集中出现两次。 IDGENDERNUM_PAGES A Male 181 B Male 191 C Male 142 D Male 164 E Female 175 E Female 175 F Female 188 F Female 188数据集现在拥有均匀的男女分布,有 4 位男性和 4 位女性。