首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-4

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-4

实验五:解析和索引章节 1:创建一个索引字段对于内容分析集合,需要定义索引字段并指定每个索引字段属性。 在本实验习中,您将创建要定义的索引字段。 其中一些指标字段稍后定义为方面,并映射到文档中的 XML 字段。
  • 从"2017 年上市公司半年报分析"页面的"解析和索引"窗格中,单击铅笔图标配置此集合的解析和索引设置),然后单击链接索引字段。
图 36. 选择点击索引字段
  • 打开"索引字段定义"窗口。 已经存在的八个索引字段是与所有 Windows 文件系统抓取器相关联的本机元数据索引字段。
图 37. 存在的元数据索引字段点击创建一个索引字段
  • 在创建索引字段窗口中,键入字段名称文本框为资产负债表和选中可返回,自由文本搜索,文档摘要,字段搜索搜索和构面搜索。          展开浏览器窗口,然后单击底部的"确定"窗口创建字段。
图 38. 创建索引字段详细然后再添加一下字段
图 39. 添加字段现在索引字段由自定义的索引字段和本机自带的索引字段组成。可以选择在最右边或窗口导出的索引字段定义。可以保存索引字段定义并将其导入不同的集合。
一些原生索引字段是必需的;提取的字段是取决于爬去的集合的类型。 例如,字段列表中,有一些字段图标(索引字段名称列中的 X 图标)并不表示索引字段(如 date 和 title)。        其他本地字段可以被删除,如 body,directory,extension,filesize,modifieddate。        未使用的索引字段占用空间在索引中,因此如果不使用索引,则可以将其删除。
章节 2:创建构面上面已经定义了索引字段,现在需要配置这些索引字段为构面,作为每个更容易被理解的构面名称。 在本节中,将创建一个构面树将索引字段关联到树上的面节点。
  • 点击创建一个"构面树"
图 40. 创建一个“构面树”
  • 在创建构面树的窗口中,完成一下操作
  • 点击 My Keywords
  • 在"编辑构面"窗格中,可以更改现有构面。 更改构面路径
图 41. 更改构面路径现在已经定义了索引字段和构面树,然后需要将索引字段映射到每个文档中的标签。
  • 在"2017 年上市公司半年报分析"窗口的"解析和索引"窗格中,单击"铅笔"图标,单击更多>用于解析和内存分析建立的索引。将内存大小改写为了 4124M
  • 在"解析选项"窗口中,将索引线程数更改为 10.单击"确定"。需要在搜索和内容上增加搜索服务器的内存分析组件部分。
图 42. 选择“解析选项”图 43. 更改线程数
  • 关于"2017 年上市公司半年报分析"搜索和内容分析组件窗口中,单击"铅笔"图标,单击"搜索服务器的内存",改为 4124M
图 44. 选择“搜索服务器的内存”
  • 在 2017 上市公司半年报分析窗口中,单击操作>设置>编辑集合设置。
图 45. 选择“编辑集合设置”停止并启动解析和索引组件以使更改生效。
图 46. 选择“勇于解析和建立索引的内存”
返回列表