首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

使用平衡生成更相关的数据模型和数据结果-2

使用平衡生成更相关的数据模型和数据结果-2

使用平衡节点的                Reducing Reduction 是 boosting 的替代方案,在平衡中使用的系数导致更常见类别中的观察结果被丢弃时,就会使用该术语。
示例 3:Reduction本例中使用的  是示例 2 中使用的相同流。
应用 reduction                    的简单的平衡示例流
原始数据集同样有 4 位男性和 2 位女性。
IDGENDERNUM_PAGES A  Male                                                        181 B  Male                                                        191 C  Male                                                        142 D  Male                                                        164 E  Female                                                        175 F  Female                                                        188数据中的男女比例仍为 2:1。我们仍想要均匀的男女比例。这一次,平衡节点配置为在 GENDER = "Male" 时使用系数                0.5。
具有减少男性数量的指令的平衡节点在平衡的数据集中,具有 ID B 和 D 的记录被从数据集丢弃。
IDGENDERNUM_PAGES A  Male  181  C  Male  142  E  Female  175  F  Female  188 该数据集现在具有均匀的分布,包含 2 位男性和 2 位女性。
因为该系数不是整数,所以每次执行时丢弃的记录会发生更改。
组合使用                boosting 和 reduction也可以组合两种方法来创建一个平衡的数据集,其中包含 3 位男性和 3 位女性。将系数设置为丢弃 4 位男性中的 1 位,复制 2 位女性中的 1                位。
从图形生成平衡节点可从一个针对类别字段的 或从针对连续字段的 ,生成在两个或更多类别之间建立均匀分布的简单平衡节点。这是通过生成一个图形来显示数据集中的相关字段的真实分布,然后单击工具栏上的                    Generate 来完成的。
从图形创建平衡节点
来自示例 2 的  包含一个分布图和一个直方图,可以使用它们按这种方式生成平衡节点。
在 IBM SPSS Modeler 中,可通过多种不同方式 。
这些选项仅在存在于使用分布图和直方图节点创建的图形中,使用  创建的图形中不存在这些选项。
处理可重复的分配请记住,在使用非整数系数时,这种记录复制或丢弃是随机的,在数据每次                经过该节点时完成。这意味着,每次执行一个节点时,结果数据集都会不同。
一些节点包含 IBM SPSS Modeler 中的随机分配元素,比如  和 ,这些节点可以选择执行可重复的分区分配。平衡节点没有这样的选项。如果每次需要以完全相同的方式执行平衡,可使用缓存或导出。
使用缓存在平衡节点上启用                 是最简单的选项。这可以确保平衡节点连同数据集的剩余部分一起存储在一个临时文件或数据库表中,这个临时文件或数据库表将在填充后用于会话的剩余部分。填充缓存后,一个小图标(添加到节点的右上角)变为绿色。

但是该分配不会在会话之间持久化,而且每次关闭流并重新打开时,或者在出于其他某种原因而擦除缓存时,都会重新分配记录。对于包含大量字段的数据集,这可能还会导致一个不必要的大型临时文件,因为它实质上会创建整个数据集的副本。可以在  文章中找到更多的细节。
使用导出另一个可重复分配选项是,创建平衡数据集一次,然后将它连同一个或多个唯一标识每个记录的字段导出到一个文件或数据库表。然后,可以将导出的平衡结果与原始源数据合并,实现一种将在会话间持久化的平衡。
但是,如果平衡的细微变化导致估算模型的巨大变化,这应该解释为一种表明该模型不稳定的迹象,该问题可能比数据集不平衡更重大。
返回列表