首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-3

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-3

实验四:搜寻和导入章节 1:创建一个爬虫
  • 集合面板中有"搜寻和导入","解析和索引","搜索和内容分析"三个面板
  • 单击集合"2017 上市公司半年报分析"面板,扩展子面板
  • 在"解析和索引"窗格中,显示状态消息"正在等待",左边的红色方块状态消息是停止图标。 单击停止图标(红色方块)停止解析和索引过程。解析和索引状态消息已更改为已停止。          停止图标(红色正方形)已更改为绿色三角形(开始图标)。
  • 在搜寻和导入窗格中,新增一个"搜寻器"
图 30. 新增一个搜寻器
  • 在"搜寻器类型"选择 Windows 文件系统,然后单击下一步。
图 31. 选择“Windows 文件系统”类型
  • 在 windows 文件系统中完成一下步骤
  • 命名为 Windows 文件系统搜寻器 -财务报表
  • 向下滚动窗口以查看各种高级选项。输入描述,10000 文档,完全抓取。
  • 更改启动爬网程序会话选项以启动完全搜寻。这将确保如果更改文档的解析方式则会重新爬行所有内容。当集合更新完成,将从新爬去新增内容和修改内容。
图 32. 属性填写细节我们将所有的 2017 年上市公司的 PDF 文档放在 C:\Data\Fianial 目录下面,如图
图 33. 找到目录下数据将该目录设置为爬去目录,
图 34. 设置目录点击完成创建此集合,返回首页,点击绿色三角箭头,启动爬虫
图 35. 启动爬虫
返回列表