Board logo

标题: 一个使用 IBM SPSS Modeler 的文本分类框架(4) [打印本页]

作者: look_w    时间: 2018-6-23 11:28     标题: 一个使用 IBM SPSS Modeler 的文本分类框架(4)

评估SPSS Modeler 流中的 Analysis                节点用于度量模型性能,对比预测的类值与每个分区组(培训、测试和验证)的原始值。它显示了向每个分区应用该模型时该模型的平均准确性。每个类别的分类准确性计算为正确分类的记录数量与该类别中的记录总数的比率。平均准确性对所有类别计算。
在  部分,我们给出了详细的实验设置和 Analysis 节点中给出的准确性结果。图 5 展示了如何配置                Analysis 节点来显示分类器在为每个分区分组的所有类别上的平均准确性。请注意,Separate by partition                    复选框已被选中,以便按培训、测试和验证分区来分离准确性结果。这将确保我们选择了最佳的参数值,将避免过度拟合的问题。在我们在培训和测试分区中拥有很高的准确性,在验证分区中拥有很低的准确性时,会发生过度拟合。这意味着模型是针对培训和测试数据而调整的,在分类任何新传入的数据上没有足够的一般性。
图 5. 配置 Analysis 节点来显示不同分区的总平均准确性部署我们部署的解决方案是在基于 Java 的数据预处理程序和来自 SPSS Modeler 的模型构建流之间进行流程集成。有关的更多细节,请参阅补充文档中的第 2                小节,以便了解我们在本节中引用的补充文件的详细描述。我们将数据预处理组件部署为一个独立的 Java 程序,将特征矢量文件生成为 CSV(逗号分隔值)文件,然后在 SVM                分类器流中使用这个 CSV 文件作为输入。
Java 数据预处理程序拥有以下依赖项:commons-lang3-3.3.2.jar[8]javacsv.jar[9]jxl.jar[10]。这些库可以使用 “参考资料”                部分中引用的相应链接来下载。要运行预处理模块,可执行以下步骤。
图 6. 特征选择和特征矢量生成模型的示例输出
生成特征矢量 Experimentation setup and parameters selection 文件后,我们将它加载到 SPSS                Modeler 流中来构建 SVM 模型。该模型使用我们创建的流来按以下方式构建:





欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0