首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

一个使用 IBM SPSS Modeler 的文本分类框架(4)

一个使用 IBM SPSS Modeler 的文本分类框架(4)

评估SPSS Modeler 流中的 Analysis                节点用于度量模型性能,对比预测的类值与每个分区组(培训、测试和验证)的原始值。它显示了向每个分区应用该模型时该模型的平均准确性。每个类别的分类准确性计算为正确分类的记录数量与该类别中的记录总数的比率。平均准确性对所有类别计算。
在  部分,我们给出了详细的实验设置和 Analysis 节点中给出的准确性结果。图 5 展示了如何配置                Analysis 节点来显示分类器在为每个分区分组的所有类别上的平均准确性。请注意,Separate by partition                    复选框已被选中,以便按培训、测试和验证分区来分离准确性结果。这将确保我们选择了最佳的参数值,将避免过度拟合的问题。在我们在培训和测试分区中拥有很高的准确性,在验证分区中拥有很低的准确性时,会发生过度拟合。这意味着模型是针对培训和测试数据而调整的,在分类任何新传入的数据上没有足够的一般性。
图 5. 配置 Analysis 节点来显示不同分区的总平均准确性部署我们部署的解决方案是在基于 Java 的数据预处理程序和来自 SPSS Modeler 的模型构建流之间进行流程集成。有关的更多细节,请参阅补充文档中的第 2                小节,以便了解我们在本节中引用的补充文件的详细描述。我们将数据预处理组件部署为一个独立的 Java 程序,将特征矢量文件生成为 CSV(逗号分隔值)文件,然后在 SVM                分类器流中使用这个 CSV 文件作为输入。
Java 数据预处理程序拥有以下依赖项:commons-lang3-3.3.2.jar[8]javacsv.jar[9]jxl.jar[10]。这些库可以使用 “参考资料”                部分中引用的相应链接来下载。要运行预处理模块,可执行以下步骤。
  • 编辑配置文件 config.properties                    中的输入和输出文件路径,以及特征选择过滤器的参数。配置文件包含每个变量的文档。我们将在下一节中给出参数选择的详细信息。
  • 下载上面提到的必要的库,并将它们放在文件 SVM_FV_Gen_lib 中,该文件与特征矢量生成程序                        SVM_FV_Gen.jar 位于相同的目录中。
  • 使用命令 java -jar SVM_FV_Gen.jar config.properties 运行                        SVM_FV_Gen.jar。
  • 在配置文件中指定的输出目录中,您将找到生成的特征矢量 CSV 文件,这些文件使用了以下命名约定(图 6):
                            fv_textField_<文本数据列标题名称>_nfrac_<顶部 IG                        碎片值>_commSim_<常用词相似性阈值>_minDF_<最小文档频率阈值>_removeAllDigits_<用于删除全数字令牌的标志值>.csv
图 6. 特征选择和特征矢量生成模型的示例输出
生成特征矢量 Experimentation setup and parameters selection 文件后,我们将它加载到 SPSS                Modeler 流中来构建 SVM 模型。该模型使用我们创建的流来按以下方式构建:
  • 在 SPSS Modeler 中,打开流 SVM_Stream.str。
  • 选择来源 Input Data 节点的想要的特征矢量文件,如图 7 所示。 图 7. 选择特征矢量文件作为在 SPSS Modeler 中构建 SVM 模型的输入
  • 使用 Run 按钮运行该流。如图 8 所示,该模型将生成为一个名为 Category_SVM                        的图标。 图 8. 运行 SVM 模型构建器
返回列表