如何利用 Scoring Alias 和 AB 关联规则高效管理数据挖掘模型（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-24 14:51 | 只看该作者

如何利用 Scoring Alias 和 AB 关联规则高效管理数据挖掘模型（1）

IBM SPSS Collaboration and             Deployment Services 及其家族产品随着社会的飞速发展、各行各业的商业越发激烈，为提高企业生产效率、保证其在日益激烈的环境中稳步发展，越来越多的企业借助于商业分析软件对其自身的业务进行商业挖掘以获得更好的发展，IBM             SPSS 预测分析软件提供了一系列先进、易用的数据挖掘产品使得企业能够快速建立数据挖掘模型，并将其部署于实际生产环境中。IBM SPSS             家族产品主要包括：IBM SPSS Modeler，IBM SPSS Statistics, IBM SPSS Analytic Server,             IBM SPSS Collaboration and Deployment Service 等，关于更多的产品信息，请访问  产品官方网站。其中 IBM SPSS Collaboration and Deployment Services（以下简称             CaDS）是一款管理和部署数据挖掘模型的企业级应用程序，它为 IBM SPSS             家族产品集成到完整的商业解决方案提供了企业级平台，使得这些解决方案能广泛部署和应用于商业预测分析，CaDS             卓越的控制和管理能力使得企业对预测分析模型的部署和应用变得容易，另外，它还提供了实时评分（Real Time             Scoring）功能使得企业能够根据数据挖掘模型进行实时的预测分析。
评分（Scoring）是指给预测模型提供输入数据并实时得出预测结果的过程。评分模型可以是用于在给定输入数据条件下生产输出值的任何工件，如：来自于 IBM SPSS             Modeler 的流文件（Stream）、IBM SPSS Statistics 的 PMML 文件。图 1 展示了 CaDS             一般评分的体系结构。图中的存储仓库（Repository）包含三个预测模型，配置 A 定义模型 1 的评分设置，配置 B 定义模型 2             的评分设置，配置 C 和 D 为模型 3 不同定义的评分设置。用户通过 CaDS             瘦客户端（Portal）将评分请求分，评分服务将生产评分结果并返回给用户。
图 1             一般评分体系结构

通常，用户为模型创建评分配置时，必须基于模型在存储库里的某个特定版本来完成，然而随着市场需求的不断变化，用于预测分析的模型可能需要对该模型进行，从而以纳入更多的影响因素，例如：新数据的可用性或是更好的预测分析算法，但在替换已有的预测分析模型之前，用户通常希望能够对新模型的性能进行评估以确定其是否优于已有模型，然而生产环境中的评分配置处于运行状态，如何在不影响现有预测分析工作的前提下，新的预测分析模型能够快速投入生产是一个亟待解决的问题，理想状态下，用户往往期待能够将一部分评分请求转发至新的预测分析模型进行处理，通过对比新旧模型的预测结果，做出更加明智的决定，为此             CaDS 提供了评分 A/B 关联集（Scoring A/B Association）及评分配置别名（Scoring Alias）。
评分配置别名评分配置别名（Scoring             Alias）为已有的评分配置提供固定名称，并最终将别名展示给评分用户，用户只需通过别名提交评分请求，此别名会将该请求传递到指定的评分配置并由该评分配置处理。客户机应用程序只需引用评分请求的别名，而不是引用真正的评分配置，从而预测模型的具体细节对应用户而言是透明的，当预测模型更新时，评分管理员只需简单地将此别名指向新的评分配置，在不中断用户业务的前提下实现模型的配置的无缝切换，当用户提交新的评分请求时，该请求将使用新的评分配置进行处理。图             2 展示了评分别名的体系结构。
图 2             评分别名的体系结构

如上图所示，当前存储库中包含两个评分模型及两个评分配置，配置 A 根据模型 1 进行评分配置，配置 B 根据模型 2 进行评分配置，另外还为评分配置             A 建立了别名，当评分客户将评分请求发送到此评分配置别名时，此别名将该评分请求路由到配置 A 并由其处理，模型 1             将生产的预测结果通过评分配置别名发送回客户端。
假定评分管理员发现模型 2             能够更好地完成预测分析，想在不影响整个正常过程但又不更改客户机应用程序前提下，完成新旧模型的替换，那么只需将此别名的配置更改为评分配置             B，此时新提交的评分请求将路由到评分配置 B，并最终交由模型 2 完成预测，随后模型 2             将产生的分析结果通过别名发送回客户端。由此可以看出，整个模型的更换对评分用户而言完全透明，且正在生产环境也并未收到任何影响。
评分配置关联集评分配置关联集（Scoring             Association）包含一个主评分配置和多个用于生成评分结果的备用评分配置，当用户向主评分配置提交评分请求时，主评分配置将根据关联集指定的分发百分比将一定比例的请求转发给相应的评分配置，随着时间的推移，用户可以比较所以模型生产的评分结果，以确定哪个模型的性能最佳。图             3 展示了一个评分配置关联集。
图 3 评分配置关联集

此关联集包含三个评分配置，即配置 A、配置 B 及配置 C，配置 A 定义了模型 1 的评分设置，配置 B 定义了模型 2 的评分设置，配置 C 定义了模型 3 的评分设置，其中配置 B 为此关联集的主配置，当评分客户端向配置 B 发送评分请求时，关联集则会根据百分比将 15%的评分请求路由到配置 A 处理、15%的评分请求路由到配置 C 处理，剩余的 70%则由配置 B 处理。若配置 A 或配置 C 从系统中删除，路由到该配置的评分请求将重新路由到配置 B，从而避免未运行或遇到导致其不可用的错误。

收藏分享评分

回复引用

订阅 TOP

返回列表