IBM 客户智能预测（Predictive Customer Intelligence）下的客户流失率预测模型-2

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2017-12-24 16:38 | 只看该作者

IBM 客户智能预测（Predictive Customer Intelligence）下的客户流失率预测模型-2

数据准备该模型主要采集到的数据字段如下：
源数据字段字段字段名称 AGE 年龄 LASTEST_NOTE_ATTITUDE - GENDER 性别 POLICYHOLDER_TENURE 保单时长 EDUCATION 教育情况 NUMBER_OF_COMPLAINTS 投诉次数 MARITAL_STATUS 婚姻情况 NUMBER_OF_OPEN_COMPLAINTS 公开投诉次数 EMPLOYEE_STATUS 职业状态 NO_OF_CLOSED_COMPLAINTS 已解决的投诉次数 INCOME 收入 NUMBER_OF_CLAIMS_FILED 提建议的次数 NUMBER_OF_POLICIES 保单数 NUMBER_OF_CLAIMS_DENIED 被拒绝的建议次数 TOTAL_PREMIUM 保险费 MONTHS_SINCE_LAST_CLAIM 最后一次建议次数 CLAIM_SETTLEMENT_DURATION 客户抱怨解决周期 CHURN 是否流失
以上数据在 modeler 中的数据类型如下图所示：
图 2. 数据类型展示

构建测试集和训练集以下介绍两个客户流失模型中的两个主要节点 - 分区节点和卡方自动交叉检验模型节点
分区节点

“分区”节点用于生成分区字段，将数据分割为单独的子集或样本，以供模型构建的训练、测试和验证阶段使用。通过用某个样本生成模型并用另一个样本对模型进行测试，可以预判此模型对类似于当前数据的大型数据集的拟合优劣。
图 3. 分区节点的参数细节

卡方自动交叉检验模型节点

卡方自动交互检测法（chi-squared automatic interaction detector, CHAID）最早由 Kass 于 1980             年提出，是一个用来发现变量之间关系的工具，是一种基于调整后的显着性检验（邦费罗尼检验）决策树技术。其核心思想是：根据给定的反应变量和解释变量对样本进行最优分割，按照卡方检验的显著性进行多元列联表的自动判断分组。利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素，它不仅可以处理非线性和高度相关的数据，而且可以将缺失值考虑在内，能克服传统的参数检验方法在这些方面的限制。CHAID             或卡方自动交互效应检测是一种通过使用卡方统计量识别最优分割来构建决策树的分类方法。CHAID 可用于预测（类似回归分析，CHAID 最初被称为             XAID）以及分类，并用于检测变量之间的相互作用。
CHAID 首先检查每个输入字段和结果之间的交叉表，然后使用卡方独立性检验来检验显著性。如果以上多个关系具有显著的统计意义，那么 CHAID             将选择最重要（p             值最小）的输入字段。如果输入具有两个以上的类别，那么将会对这些类别进行比较，然后将结果中未显示出差异的类别合并在一起。此操作通过将显示的显著性差异最低的类别对相继合并在一起来实现。当所有剩余类别在指定的检验级别上存在差异时，此类别合并过程将终止。对于名义输入字段，可以合并任何类别；对于有序集合，只能合并相邻的类别。
图 4.                   卡方自动交叉检验算法节点的参数细节

构建模型点击卡方自动交互检验模型运行按钮，等待模型运行完成将输入模型结果，整个模型如下图：
图 5. 模型流细节

点击上图中黄色的 CHAID，打开模型结果如下图：
图 6. 模型运行结果

上图显示了通过卡方自动交互模型得出重要的变量值从上到下依次为：TOTAL_PREMIUM,AVERAGE_NOTE_ATTITUDE,LATEST_NOTE_ATTITUDE,EMPLOYMENT_SATUS,INCOME,AGE,NUMBER_OF_CLAIMS_DENIED,NUMBVER_OF_CLAIMS_FILED,GENDER,其他没有显示在以上的变量表示这些变量与客户是否流失的目标值没有直接关系，在这里也不会作为标示出来。整个树形目录如下图，根节点为模型的预测结果。
图 7. 树形结果展示

点击预览按钮，会发现在数据最后面会出多$R-CHURN,$RC-CHURN 两个字段，$R-CHURN,标示预测的结果（结果 1 代表会流失，0 代表不会流失），$RC-CHURN 表示置信度（即预测值的概率）
图 8. 置信度

注意：以上有一个字段 Partition，这个字段是前面分区节点中创建的。这个节点只有两种类型，1_Training，2_Testing。之所以在决策模型中要引入分区节点，是因为决策树模型在生成树图形后，需要用测试数据对模型进行优化（一般也叫修剪枝），因此 2_Testing 的标识数据表示是对模型的优化数据。

收藏分享评分

回复引用

订阅 TOP

返回列表