首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-1

Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-1

Watson Explorer (以下简称 WEX)历史源远流长!早在 1997 年,IBM        研究院就启动了一个做文本挖掘的项目,利用自然语言的技术来处理机器翻译和数据图书馆的的需求。1998 年,诞生了文本挖掘和知识管理系统(Text Analysis        and Knowledge Mining - TAKMI),这就是 Watson Explorer 的前身。它当年被用于分析约 50 万份 PC        用户联系记录,即呼叫中心的客户交互数据,极大改善了客服质量和显著地降低了成本,同时发现和定位了大量的产品问题。它最核心的技术就是基于 Unstructed Information        Mangement Architecture - UIMA 架构的自然语言处理功能。最终让这个产品一战成名还是 2011 年美国著名的人机智力竞赛:Jeopardy!        机器居然能在实时问答的智力抢答竞赛中战胜了人类。
简介本系列文章是一个 Watson Explorer 实战操作的系列文章,注重软件的操作,文章可能会出现自然语言处理的相关知识属于,但不会着重深入的讲解。该文档公包含下练习:
  • 练习 01:构建内容分析集合
  • 练习 02:使用 Content Analytics Miner
  • 练习 03:使用 Content Analytics Studio 创建注释
  • 练习 04:管理内容分析
  • 练习 05:使用 REST API
  • 练习 06:使用 Content Analytics Studio 进行更多注释(可选)
本文是该系列文章中的第一篇"构建内容分析集合",其他内容操作将在接下来的文章中体现。
本例中如无特殊说明,所有的操作都运行在同一的虚拟机中。本文并不会讲解 WEX 的具体安装启动的方法,如需要安装配置 WEX 相关操作,请访问 IBM knowledge center        查看相关文档。本例的虚拟机环境如下:
图 1. 虚拟机的环境配置该实例是以 2016 A 股财务报表为分析文本。
操作目标在本案例中,将演示 IBM Watson Explorer 内容的分析功能        Analytics(分析)发现结构化和非结构化内容数据的能力。介绍从文档中提取洞察力所需的管理和文本分析应用程序采集。
在管理应用程序中,您将创建一个包含从预填充的数据进行爬网的集合目录(即,中国上市公司 2017 年半年报),创建索引字段,构面,然后索引结构化和非结构化信息。        创建索引后,您将遍历分析应用程序来发现自然语言处理(NLP)的洞察力,发现各个方面之间的相互关系数据,随着时间的推移学习趋势,并预测可预见的事件。
要求需要有一个 Watson Explorer 的虚拟机
项目说明在本实验中,您可以从在中国上海证券交易所 2017 年的半年报创建内容分析系列。启动 CA        服务器。创建一个集合并定义抓取者年报信息。可以定义可用于搜索的构面收藏的内容。启动抓取工具将投诉输入收藏。解析和索引组件来解析和索引年报信息。最后,开始搜索和分析组件,以便搜索集合中的信息。在本课的实验练习中,需要选择或输入粗体打印的项目。        斜体项目指示应用程序的名称,窗口/屏幕的标题或字段名称。
实验一:启动 Content        Analytics 服务器和管理控制台章节 1:启动远程桌面
  • 从 windows 桌面点击 crtl+r 来启动 cmd 命令行
  • 在命令行里面输入 mstsc
图 2. 命令行输入
  • 输入远程 IP 点击链接
图 3. IP 输入
  • 输入账号密码后点击确定
图 4. 虚拟机的环境配置以上操作是进入远程桌面的操作
章节 2:启动 content        analytics 服务从 Windows 桌面任务栏中,右键 WEX 启动命令,选择以管理员方式运行。
图 5. 以管理员身份运行章节 3:就进入 content        analytics创建集合,可以使用 Watson Explorer 内容管理控制台分析应用程序
  • 输入 WEX 内容分析控制台,
  • 输入账号密码
图 6. 登陆
  • 进入内容分析控制台
图 7. 进入内容分析控制台实验二:浏览将要分析的数据数据分析本实验供了本练习中要使用的内容的背景信息。
要构建集合,需要了解您要包含的文档采集。 需要了解哪些领域(结构化和非结构化)可用和搜索文档需要哪些领域。对于这个练习,使用了中国 A 股上市公司 2017 年的财报分析。
通常情况下,需要确定为每个字段设置的配置值。 作为一个提醒,以下列表显示列和说明。
  • 可返回(Returnable) - 显示搜索结果中字段的值
  • 构面搜索(Faceted search) - 使该字段在搜索结果中显示为一个构面。
  • 免费文本搜索(Free text search) - 使用自由文本查询来搜索该字段
  • 字段搜索(Fielded search) - 按字段名称启用字段
  • 参数搜索(Parametric search) - 使用参数化查询启用该字段排序。不能同时启用此选项和文本可排序。
  • 可分析(Analyzable) - 使该字段能够作为文档内容进行分析
实验三:创建一个集合在这个实验中,创建一个集合
注意:如果在此实验期间的任何时间,收到一条所需系统服务之一的消息不运行,或解析器和索引或搜索和内容中的服务器存在问题分析组件,公共通信层或 CCL 可能已停止。
图 8. 启动 CCL以下步骤是启动 CCL
  • 从 Windows 桌面,双击桌面图标关闭,停止服务
  • 从 Windows 工具栏中,单击命令提示符图标以打开命令提示窗口。
  • 在命令提示符窗口中,输入 startccl -fg 启动内容分析公共通讯层在前台,按回车键。必须离开这个窗口打开以保持 CCL 运行。 最小化此窗口。
  • 从 Windows 工具栏中,右键单击并选择命令提示符打开命令提示窗口。
  • 从"命令提示符"窗口中,输入 esadmin start 以启动 Content Analytics 和按回车。这需要几分钟的时间才能开始。在消息中,按任意键继续...,按          Enter 键关闭窗口。
  • 有时,CCL 可能无法启动。 从 Windows 工具栏中,右键单击并选择命令提示符打开另一个命令提示符窗口。 输入 esadmin 检查并按 Enter 键。          您可以检查管理员的服务会话(管理
  • 控制台)和 searchapp(Content Analytics Miner)启动。 关闭此命令 esadmin 检查的提示窗口。
返回列表