浅析 IBM SPSS Modeler 和 CaDS 如何利用 Analytic Data View 构建预测分析数据模型

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-23 11:02 | 只看该作者

浅析 IBM SPSS Modeler 和 CaDS 如何利用 Analytic Data View 构建预测分析数据模型

分析数据视图概述预测分析通常需要在表中对不同的数据进行组织，使得表中的每一行都对应一个进行预测的实体。在表中，每一列代表该实体的一个可测量属性，其中一些属性可能通过对其他属性的值进行汇总派生而来。例如，表中的行可以表示客户这一实体，列则对应客户的姓名、性别、邮编以及客户在过去一年中购物超过 500 元的次数；其中最后一列就是根据客户的订单历史派生而来，而这些订单历史可能存在于一个或多个表中。另外，在整个的模型生命周期内可能涉及多个不同的数据集，而这些数据集将会应用于预测分析的不同阶段。例如，在预测模型开发初期将会使用到的历史数据；这类数据对于预测事件而言结果通常为已知，若要评估模型的有效性和准确性，则需要使用不同的数据验证候选模型；模型验证后，将其部署于生产中，用以在批过程中的针对多个实体生产评分或是在实时过程的针对单个实体产生评分；在决策管理过程中，若将模型与商业规则结合，则可通过模拟数据来验证结合结果。然而，尽管各个模型开发阶段所用到的数据集有所不同，但属性集在模型生命周期中必须保持一致；换言之，不同的数据集必须为模型提供相同的属性集。为解决这一问题，CaDS6.0 版本中引入了 ADV。
ADV 定义了一种结构，用于访问对预测分析模型和业务规则中所使用的实体进行描述的数据。视图将定义的数据结构与物理数据相关联，以便进行分析。分析数据视图的组件（各种数据源、数据结构）通过 IBM SPSS Modeler 流进行定义。分析人员可以利用数据模型的字段生成派生字段并在集合运算中使用。此外，分析人员也可以为分析数据视图的各种应用程序指定不同的数据源，并利用 IBM SPSS Modeler 对所定义的分析数据视图进行数据的挖掘与预测分析模型的训练。通过 ADV 的应用可以最大程度地将数据预处理和分析模型进行解耦，由此提高数据预处理过程以及建模过程的可重用性并且降低模型的维护成本。
ADV 由以下组件构成，这些组件能够满足预测分析的特殊需求（注：ADV 所使用的组件由 IBM® SPSS® Modeler 流进行定义，为保证能够在 CaDS 仓库中定义 ADV，则必须要为 CaDS Server 安装 IBM SPSS Modeler 适配器，更多详细信息，请参考 IBM SPSS Modeler 文档）：
（1）数据视图模式或数据模型：它定义了一个逻辑接口，用于将数据作为组织到相关表中的一组属性进行访问。此模型中的属性可由其他属性派生而来。
（2）一个或多个数据访问方案：这些方案提供了具有物理值的数据模型属性。通过指定哪个数据访问方案对于特定应用程序处于活动状态，用户能够方便地对可用于数据模型的数据加以控制。
图 1 展示了一个 ADV 实例，该 ADV 包含数据模型的两个访问方案。如图 1 所示，该数据模型包含三个表（Table），并在表 1 和表 2、表 2 和表 3 之间分别定义了相关关系。数据访问方案（Data Access Plan）1 使每个表与不同的 IBM SPSS Modeler 流（Stream）相关联。数据访问方案 2 使每个表与另外三个不同的 IBM SPSS Modeler 流相关联。在数据访问方案 1 中，模型从流 11、流 12、流 13 的终端节点检索数据；在方案 2 中，模型从流 21、流 22、流 23 的终端节点检索数据。通过改变所使用的数据访问方案，用户可对用于模型的数据进行切换。
图 1. 分析数据视图（ADV）

分析数据视图在 IBM SPSS Modeler 和 CaDS 中的应用启动 IBM SPSS Collaboration and Deployment Services Deployment Manager，登录到 CaDS 服务器，如图 2 所示，在内容存储库中的文件夹 ADV 上点击右键并依次选择新建->分析数据视图…
图 2. 创建分析数据视图

在弹出的创建分析数据视图的窗口中，输入分析数据视图名称，如 MyOrders，如图 3 所示：
图 3. 定义名称
在图 3 中，点击完成生成一个分析数据视图，新建的分析数据视图默认会自动打开，如图 4 所示：
图 4. 新建的分析数据视图

在图 4 中，点击数据视图表中的新建按钮来进行数据视图表的创建，在弹出的新建数据视图表的窗口中选择流文件，如 Customers.str，选择标签，如 LATEST，选择终端节点，如 Customer，如图 5 所示：
图 5. 新建数据视图表

在图 5 中点击确定按钮，系统将在数据视图模式中生成新的表，如图 6 所示：
图 6. 生成数据视图模式中的表

如图 6 中所示，用户可以编辑流字段和数据视图属性的映射关系，同时也可以选择对流文件中定义的源节点进行覆盖，此处以文件类型的源节点为例，如图 7 所示：
图 7. 覆盖源节点

用户可以在数据视图模式中可以定义多个表，并指定表之间的关联关系，如图 8 所示：
图 8. 在数据视图模式中定义多个表

在分析数据视图中，多个表之间的关联是通过定义集合属性来实现的。切换至数据视图配置页面，在数据视图模式中选择一张表，此处以 Customer 表为例，右键依次选择新建->新集合属性，如图 9 所示：
图 9. 新建集合属性

我们在 Customer 表中新建一个名称为 CusOrds 的集合属性。该属性通过 CustomerID 字段将 Customer 表和 Orders 表进行关联，其中 Customer 表的记录和 Orders 表的记录之间是一对多的关系，如图 10 所示：
图 10. 关联数据视图模式中的多个表

在创建好集合属性之后，就可以来创建派生属性了。在 Customer 表上点击右键依次选择新建->新派生属性，如图 11 所示：
图 11. 新建派生属性
我们在 Customer 表上新建一个名称为 MyOrders 的派生属性，该属性为整数类型。派生属性的定义如清单 1 所示：
清单 1. 派生属性的定义

1	<aggregation expression> where <condition expression>

参数 <aggregation expression> 和 <condition expression> 对应于数据模型中的文字表述元素、汇总运算符和条件运算符。表的派生属性的值依据相关联的表中的属性计算而得。本例中 MyOrders 用于统计表 Orders 中记录的个数。在如图 12 所示中，用户可以通过语法提示来编辑派生属性的定义。派生属性和它所在表的其他属性一样，可以用于后续的数据处理和实时评分。
图 12. 定义派生属性

收藏分享评分

回复引用

订阅 TOP

返回列表