首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

IBM 客户智能预测(Predictive Customer Intelligence)下的客户流失率预测模型-2

IBM 客户智能预测(Predictive Customer Intelligence)下的客户流失率预测模型-2

数据准备该模型主要采集到的数据字段如下:
源数据字段 字段  字段名称  AGE  年龄  LASTEST_NOTE_ATTITUDE - GENDER  性别  POLICYHOLDER_TENURE  保单时长  EDUCATION  教育情况  NUMBER_OF_COMPLAINTS  投诉次数  MARITAL_STATUS  婚姻情况  NUMBER_OF_OPEN_COMPLAINTS  公开投诉次数  EMPLOYEE_STATUS  职业状态  NO_OF_CLOSED_COMPLAINTS  已解决的投诉次数  INCOME  收入  NUMBER_OF_CLAIMS_FILED  提建议的次数  NUMBER_OF_POLICIES  保单数  NUMBER_OF_CLAIMS_DENIED  被拒绝的建议次数  TOTAL_PREMIUM  保险费  MONTHS_SINCE_LAST_CLAIM  最后一次建议次数  CLAIM_SETTLEMENT_DURATION  客户抱怨解决周期  CHURN  是否流失
以上数据在 modeler 中的数据类型如下图所示:
图 2. 数据类型展示构建测试集和训练集以下介绍两个客户流失模型中的两个主要节点 - 分区节点和卡方自动交叉检验模型节点
分区节点
“分区”节点用于生成分区字段,将数据分割为单独的子集或样本,以供模型构建的训练、测试和验证阶段使用。通过用某个样本生成模型并用另一个样本对模型进行测试,可以预判此模型对类似于当前数据的大型数据集的拟合优劣。
图 3.                    分区节点的参数细节卡方自动交叉检验模型节点
卡方自动交互检测法(chi-squared automatic interaction detector, CHAID)最早由 Kass 于 1980                年提出,是一个用来发现变量之间关系的工具,是一种基于调整后的显着性检验(邦费罗尼检验)决策树技术。其核心思想是:根据给定的反应变量和解释变量对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。利用卡方自动交互检测法可以快速、有效地挖掘出主要的影响因素,它不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的限制。CHAID                或卡方自动交互效应检测是一种通过使用卡方统计量识别最优分割来构建决策树的分类方法。CHAID 可用于预测(类似回归分析,CHAID 最初被称为                XAID)以及分类,并用于检测变量之间的相互作用。
CHAID 首先检查每个输入字段和结果之间的交叉表,然后使用卡方独立性检验来检验显著性。如果以上多个关系具有显著的统计意义,那么 CHAID                将选择最重要(p                值最小)的输入字段。如果输入具有两个以上的类别,那么将会对这些类别进行比较,然后将结果中未显示出差异的类别合并在一起。此操作通过将显示的显著性差异最低的类别对相继合并在一起来实现。当所有剩余类别在指定的检验级别上存在差异时,此类别合并过程将终止。对于名义输入字段,可以合并任何类别;对于有序集合,只能合并相邻的类别。
图 4.                    卡方自动交叉检验算法节点的参数细节构建模型点击卡方自动交互检验模型运行按钮,等待模型运行完成将输入模型结果,整个模型如下图:
图 5. 模型流细节点击上图中黄色的 CHAID,打开模型结果如下图:
图 6. 模型运行结果上图显示了通过卡方自动交互模型得出重要的变量值从上到下依次为:TOTAL_PREMIUM,AVERAGE_NOTE_ATTITUDE,LATEST_NOTE_ATTITUDE,EMPLOYMENT_SATUS,INCOME,AGE,NUMBER_OF_CLAIMS_DENIED,NUMBVER_OF_CLAIMS_FILED,GENDER,其他没有显示在以上的变量表示这些变量与客户是否流失的目标值没有直接关系,在这里也不会作为标示出来。整个树形目录如下图,根节点为模型的预测结果。
图 7. 树形结果展示点击预览按钮,会发现在数据最后面会出多$R-CHURN,$RC-CHURN 两个字段,$R-CHURN,标示预测的结果(结果 1 代表会流失,0                代表不会流失),$RC-CHURN 表示置信度(即预测值的概率)
图 8. 置信度注意:以上有一个字段                Partition,这个字段是前面分区节点中创建的。这个节点只有两种类型,1_Training,2_Testing。之所以在决策模型中要引入分区节点,是因为决策树模型在生成树图形后,需要用测试数据对模型进行优化(一般也叫修剪枝),因此                2_Testing 的标识数据表示是对模型的优化数据。
返回列表