首页
|
新闻
|
新品
|
文库
|
方案
|
视频
|
下载
|
商城
|
开发板
|
数据中心
|
座谈新版
|
培训
|
工具
|
博客
|
论坛
|
百科
|
GEC
|
活动
|
主题月
|
电子展
注册
登录
论坛
博客
搜索
帮助
导航
默认风格
uchome
discuz6
GreenM
»
MCU 单片机技术
»
PowerPC
» 一个使用 IBM SPSS Modeler 的文本分类框架(4)
返回列表
回复
发帖
发新话题
发布投票
发布悬赏
发布辩论
发布活动
发布视频
发布商品
一个使用 IBM SPSS Modeler 的文本分类框架(4)
发短消息
加为好友
look_w
当前离线
UID
1066743
帖子
8283
精华
0
积分
4142
阅读权限
90
在线时间
233 小时
注册时间
2017-6-23
最后登录
2019-5-18
论坛元老
UID
1066743
1
#
打印
字体大小:
t
T
look_w
发表于 2018-6-23 11:28
|
只看该作者
一个使用 IBM SPSS Modeler 的文本分类框架(4)
评估SPSS Modeler 流中的
Analysis
节点用于度量模型性能,对比预测的类值与每个分区组(培训、测试和验证)的原始值。它显示了向每个分区应用该模型时该模型的平均准确性。每个类别的分类准确性计算为正确分类的记录数量与该类别中的记录总数的比率。平均准确性对所有类别计算。
在 部分,我们给出了详细的实验设置和 Analysis 节点中给出的准确性结果。图 5 展示了如何配置 Analysis 节点来显示分类器在为每个分区分组的所有类别上的平均准确性。请注意,
Separate by partition
复选框已被选中,以便按培训、测试和验证分区来分离准确性结果。这将确保我们选择了最佳的参数值,将避免
过度拟合
的问题。在我们在培训和测试分区中拥有很高的准确性,在验证分区中拥有很低的准确性时,会发生过度拟合。这意味着模型是针对培训和测试数据而调整的,在分类任何新传入的数据上没有足够的一般性。
图 5. 配置 Analysis 节点来显示不同分区的总平均准确性
部署我们部署的解决方案是在基于 Java 的数据预处理程序和来自 SPSS Modeler 的模型构建流之间进行流程集成。有关的更多细节,请参阅补充文档中的第 2 小节,以便了解我们在本节中引用的补充文件的详细描述。我们将数据预处理组件部署为一个独立的 Java 程序,将特征矢量文件生成为 CSV(逗号分隔值)文件,然后在 SVM 分类器流中使用这个 CSV 文件作为输入。
Java 数据预处理程序拥有以下依赖项:
commons-lang3-3.3.2.jar
[8]
、
javacsv.jar
[9]
、
jxl.jar
[10]
。这些库可以使用 “参考资料” 部分中引用的相应链接来下载。要运行预处理模块,可执行以下步骤。
编辑配置文件 config.properties 中的输入和输出文件路径,以及特征选择过滤器的参数。配置文件包含每个变量的文档。我们将在下一节中给出参数选择的详细信息。
下载上面提到的必要的库,并将它们放在文件 SVM_FV_Gen_lib 中,该文件与特征矢量生成程序 SVM_FV_Gen.jar 位于相同的目录中。
使用命令 java -jar SVM_FV_Gen.jar config.properties 运行 SVM_FV_Gen.jar。
在配置文件中指定的输出目录中,您将找到生成的特征矢量 CSV 文件,这些文件使用了以下命名约定(图 6):
fv_textField_
<文本数据列标题名称>
_nfrac_
<顶部 IG 碎片值>
_commSim_
<常用词相似性阈值>
_minDF_
<最小文档频率阈值>
_removeAllDigits_
<用于删除全数字令牌的标志值>
.csv
图 6. 特征选择和特征矢量生成模型的示例输出
生成特征矢量
Experimentation setup and parameters selection
文件后,我们将它加载到 SPSS Modeler 流中来构建 SVM 模型。该模型使用我们创建的流来按以下方式构建:
在 SPSS Modeler 中,打开流 SVM_Stream.str。
选择来源
Input Data
节点的想要的特征矢量文件,如图 7 所示。 图 7. 选择特征矢量文件作为在 SPSS Modeler 中构建 SVM 模型的输入
使用
Run
按钮运行该流。如图 8 所示,该模型将生成为一个名为
Category_SVM
的
图标
。 图 8. 运行 SVM 模型构建器
收藏
分享
评分
回复
引用
订阅
TOP
返回列表
模拟电路
电源与功率管理
电商论坛
Pine A64
资料下载
方案分享
FAQ
行业应用
消费电子
便携式设备
医疗电子
汽车电子
工业控制
热门技术
智能可穿戴
3D打印
智能家居
综合设计
示波器技术
存储器
电子制造
计算机和外设
软件开发
分立器件
传感器技术
无源元件
资料共享
PCB综合技术
综合技术交流
EDA
MCU 单片机技术
ST MCU
Freescale MCU
NXP MCU
新唐 MCU
MIPS
X86
ARM
PowerPC
DSP技术
嵌入式技术
FPGA/CPLD可编程逻辑
模拟电路
数字电路
富士通半导体FRAM 铁电存储器“免费样片”使用心得
电源与功率管理
LED技术
测试测量
通信技术
3G
无线技术
微波在线
综合交流区
职场驿站
活动专区
在线座谈交流区
紧缺人才培训课程交流区
意见和建议