在表 1 中,我们给出了任何文本分类器的输入数据的骨架。
表 1. 任何文本分类器的输入数据模型的一般骨架ID文本数据记录类1T1y1IT2yjLT3ym
表 2 中给出了软件缺陷数据案例分析的输入数据的快照。
表 2. 来自软件缺陷输入数据的示例ID描述R_Trigger42797See this in regression run can't reproduce it.
03.06.25 JOB37915 +DFHKE0030 - Abend DC4/AKEX in Program DFHS2PP Entry Point 00000000_28F34DB8.
03.06.25 JOB37915 +DFHKE0040 - Instruction Address:00000000_01855F9E Offset in Program FFFFFFFF ...l_coverage42803It’s not possible to build the BSF stream because two modules DFHADWB0 and DFHADDRM build with RC=4.This is ...l_build42323I built an ICM to parse a schema that contains optional dateTime attributes.
on mapping level 2.2 I believe it provides a string representation but at level 3.0 CICS tries ...l_developer_test
在表 2 中,描述字段对应于表 1 中的文本数据,R_Trigger 字段表示该记录中描述的软件缺陷的类,对应于表 1 中的记录类字段。
数据预处理由于我们计划使用支持矢量机来构建文本分类器,所以我们需要预处理文本数据,以便基于词袋 表示将其转换为一组特征矢量,从而构建 SVM 分类器。换句话说,我们将每条文本记录 Ti 转换为矢量 xi=(x1,x2,...,xij,...,xik),其中 xij 是一个提取的词语。我们在后面将会看到,文档中每个提取的词语对应于一个将用于构建和运行文档分类器的特征。预处理阶段可分为两个主要的子阶段: