首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-2

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-2

创建一个集合
  • 在"管理控制台"窗口的"集合"选项卡上,单击"创建集合"按钮采集。
  • 在"创建集合"窗口中,完成以下步骤:
输入集合名称作为"2017 上市公司半年报分析",并选择集合类型为内容分析集合。
图 9. 输入集合名称
  • 对于解决方案程序包选项,保持默认值,不要应用解决方案包。
图 10. 选择“不应用解决方案程序包”对于文档缓存选项,选择选项,启用文档缓存。
  • 选项允许重新构建索引,而无需重新抓取数据源。
图 11. 选择“启用文档高速缓存”
  • 对于缩略图生成选项,选择启用缩略图。只能为特定类型的文档生成缩略图(例如,
Microsoft Office 和 PDF),本实验呢启用缩略图。
图 12. 选择“启用缩略生成”
  • 点击高级选项
输入收集说明,
图 13. 输入集合的描述说明集合安全:该选项一旦设置将不可更改,因此本实验不启用该选项
图 14. 选择“不启用集合安全性”文档重要性:可以选择静态企业搜索和内容分析工具使用的排名方法应用程序优先考虑结果。 对于本实验练习,保持默认值,不要应用任何静态排名(此选项可在创建集合后更改)。
图 15. 选择“不要应用任何静态排名”重复的文档检测:它允许您过滤掉重复或者来自搜索结果的重复项。 选择启用重复文档
从下拉式按钮进行检测。此选项也可以在之后更改该集合已创建。
图 16. 选择“不启用重复文档检测功能”关注词汇:帮助分析师可以快速的发现在特定领域的专业词汇,通过这个内容分析认为高度重要的术语。本实验启用自动识别术语。
图 17. 选择“启用自动标识关注词汇”情感分析:选择选项,启用情绪分析。解析器识别正,负或中性的情绪。因为该练习是财务报表分析,不存在情感分析,因为本实验禁用情感分析。
图 18. 选择“禁用观点分析”查询日志索引。 如果要提前提供类型,请启用此选项在企业搜索或 Content Analytics Miner 应用程序中支持(不能在创建集合后启用查询日志索引)。        保持默认,启用查询日志索引,用于本实验练习。
图 19. 选择“启用查询日志索引”基于规则的分类。 对于这个实验练习,启用基于规则的分类。
图 20. 选择“启用基于规则的分类”文档集群,能够提取提出的元数据索引中文件的子集(集群)的术语,并使用术语进行分类
内容。 保持默认状态,不要启用文档集群,为本实验练习。
图 21. 选择“不启用社交数据支持”社交数据支持。 保持默认状态,不启用社交数据。
叠加索引:。 保持默认值,不要启用叠加索引。
图 22. 选择“不启用叠加索引”N-gram 分段,仅适用于使用中文的集合,日语或韩语,白色空间不划分字边界。本例中启用 N-gram 分段
图 23. 选择“同时启用形态分段和          N-gram 分段”并且注意策略添加文档元数据的缺省构面。选中此复选框表示想要为某些文档属性自动创建方面(文件扩展名,文件大小和上次修改日期)。 选择此复选框此集合的分区数。 保持选项为 1.何时您创建一个企业搜索集合,可以选择创建多个索引分区。        内容分析集合会自动分区。分区启用系统平衡跨多个分区的数百万个文档的处理,使得每个分区处理大致相同数量的文档。
图 24. 保持选项为 1集合数据的位置:允许在默认值之间进行选择位置,D:\ Program Files \ IBM \ es \ esadmin \ data \        <collectionID>,或指定驱动器和收集数据所在的目录。 在生产环境中,收集数据可能需要非默认位置。 对于这个实验练习,保持收集数据的位置为默认位置。
图 25. 保持缺省位置选择集合标识:。 此选项允许您指定集合 ID,而默认 ID 不太有意义,可能导致您不得不查找系统将来生成 ID。 对于本实验练习,选择自定义 ID        按钮,并在单选按钮下方显示的文本框中输入 financial_report_analytics。集合 ID 必须遵守的规则。
图 26. 选择“定制标识”在"集合语言"窗格中,在"可用语言"框中选择中文,和单击两个框之间的箭头图标将中文移动到限制语言被使用的盒子。
图 27. 选择语言收集时区选项默认为 CA 服务器的时区,并用于转换文档日期值(在时代,自 1 月 1 日起的毫秒数,1970,00:00:00        GMT)到日期狗奶奶的年,月,日和小时元素。可以使用下拉列表将时区设置到您的位置。
图 28. 选择集合时区点击"确定"完成创建
  • 返回到管理控制台上的"集合"选项卡,可以看到刚刚创建的集合,如下图
图 29. 查看创建的集合
返回列表