首页
|
新闻
|
新品
|
文库
|
方案
|
视频
|
下载
|
商城
|
开发板
|
数据中心
|
座谈新版
|
培训
|
工具
|
博客
|
论坛
|
百科
|
GEC
|
活动
|
主题月
|
电子展
注册
登录
论坛
博客
搜索
帮助
导航
默认风格
uchome
discuz6
GreenM
»
MCU 单片机技术
»
PowerPC
» Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-1
返回列表
回复
发帖
发新话题
发布投票
发布悬赏
发布辩论
发布活动
发布视频
发布商品
Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-1
发短消息
加为好友
look_w
当前离线
UID
1066743
帖子
8283
精华
0
积分
4142
阅读权限
90
在线时间
233 小时
注册时间
2017-6-23
最后登录
2019-5-18
论坛元老
UID
1066743
1
#
打印
字体大小:
t
T
look_w
发表于 2018-3-17 11:59
|
只看该作者
Watson Explorer 实战操作,第 1 部分 如何构建一个内容分析集合-1
Watson Explorer (以下简称 WEX)历史源远流长!早在 1997 年,IBM 研究院就启动了一个做文本挖掘的项目,利用自然语言的技术来处理机器翻译和数据图书馆的的需求。1998 年,诞生了文本挖掘和知识管理系统(Text Analysis and Knowledge Mining - TAKMI),这就是 Watson Explorer 的前身。它当年被用于分析约 50 万份 PC 用户联系记录,即呼叫中心的客户交互数据,极大改善了客服质量和显著地降低了成本,同时发现和定位了大量的产品问题。它最核心的技术就是基于 Unstructed Information Mangement Architecture - UIMA 架构的自然语言处理功能。最终让这个产品一战成名还是 2011 年美国著名的人机智力竞赛:Jeopardy! 机器居然能在实时问答的智力抢答竞赛中战胜了人类。
简介本系列文章是一个 Watson Explorer 实战操作的系列文章,注重软件的操作,文章可能会出现自然语言处理的相关知识属于,但不会着重深入的讲解。该文档公包含下练习:
练习 01:构建内容分析集合
练习 02:使用 Content Analytics Miner
练习 03:使用 Content Analytics Studio 创建注释
练习 04:管理内容分析
练习 05:使用 REST API
练习 06:使用 Content Analytics Studio 进行更多注释(可选)
本文是该系列文章中的第一篇"构建内容分析集合",其他内容操作将在接下来的文章中体现。
本例中如无特殊说明,所有的操作都运行在同一的虚拟机中。本文并不会讲解 WEX 的具体安装启动的方法,如需要安装配置 WEX 相关操作,请访问 IBM knowledge center 查看相关文档。本例的虚拟机环境如下:
图 1. 虚拟机的环境配置
该实例是以 2016 A 股财务报表为分析文本。
操作目标在本案例中,将演示 IBM Watson Explorer 内容的分析功能 Analytics(分析)发现结构化和非结构化内容数据的能力。介绍从文档中提取洞察力所需的管理和文本分析应用程序采集。
在管理应用程序中,您将创建一个包含从预填充的数据进行爬网的集合目录(即,中国上市公司 2017 年半年报),创建索引字段,构面,然后索引结构化和非结构化信息。 创建索引后,您将遍历分析应用程序来发现自然语言处理(NLP)的洞察力,发现各个方面之间的相互关系数据,随着时间的推移学习趋势,并预测可预见的事件。
要求需要有一个 Watson Explorer 的虚拟机
项目说明在本实验中,您可以从在中国上海证券交易所 2017 年的半年报创建内容分析系列。启动 CA 服务器。创建一个集合并定义抓取者年报信息。可以定义可用于搜索的构面收藏的内容。启动抓取工具将投诉输入收藏。解析和索引组件来解析和索引年报信息。最后,开始搜索和分析组件,以便搜索集合中的信息。在本课的实验练习中,需要选择或输入粗体打印的项目。 斜体项目指示应用程序的名称,窗口/屏幕的标题或字段名称。
实验一:启动 Content Analytics 服务器和管理控制台章节 1:启动远程桌面
从 windows 桌面点击 crtl+r 来启动 cmd 命令行
在命令行里面输入 mstsc
图 2. 命令行输入
输入远程 IP 点击链接
图 3. IP 输入
输入账号密码后点击确定
图 4. 虚拟机的环境配置
以上操作是进入远程桌面的操作
章节 2:启动 content analytics 服务从 Windows 桌面任务栏中,右键 WEX 启动命令,选择以管理员方式运行。
图 5. 以管理员身份运行
章节 3:就进入 content analytics创建集合,可以使用 Watson Explorer 内容管理控制台分析应用程序
输入 WEX 内容分析控制台,
输入账号密码
图 6. 登陆
进入内容分析控制台
图 7. 进入内容分析控制台
实验二:浏览将要分析的数据数据分析本实验供了本练习中要使用的内容的背景信息。
要构建集合,需要了解您要包含的文档采集。 需要了解哪些领域(结构化和非结构化)可用和搜索文档需要哪些领域。对于这个练习,使用了中国 A 股上市公司 2017 年的财报分析。
通常情况下,需要确定为每个字段设置的配置值。 作为一个提醒,以下列表显示列和说明。
可返回(Returnable) - 显示搜索结果中字段的值
构面搜索(Faceted search) - 使该字段在搜索结果中显示为一个构面。
免费文本搜索(Free text search) - 使用自由文本查询来搜索该字段
字段搜索(Fielded search) - 按字段名称启用字段
参数搜索(Parametric search) - 使用参数化查询启用该字段排序。不能同时启用此选项和文本可排序。
可分析(Analyzable) - 使该字段能够作为文档内容进行分析
实验三:创建一个集合在这个实验中,创建一个集合
注意:如果在此实验期间的任何时间,收到一条所需系统服务之一的消息不运行,或解析器和索引或搜索和内容中的服务器存在问题分析组件,公共通信层或 CCL 可能已停止。
图 8. 启动 CCL
以下步骤是启动 CCL
从 Windows 桌面,双击桌面图标关闭,停止服务
从 Windows 工具栏中,单击命令提示符图标以打开命令提示窗口。
在命令提示符窗口中,输入 startccl -fg 启动内容分析公共通讯层在前台,按回车键。必须离开这个窗口打开以保持 CCL 运行。 最小化此窗口。
从 Windows 工具栏中,右键单击并选择命令提示符打开命令提示窗口。
从"命令提示符"窗口中,输入 esadmin start 以启动 Content Analytics 和按回车。这需要几分钟的时间才能开始。在消息中,按任意键继续...,按 Enter 键关闭窗口。
有时,CCL 可能无法启动。 从 Windows 工具栏中,右键单击并选择命令提示符打开另一个命令提示符窗口。 输入 esadmin 检查并按 Enter 键。 您可以检查管理员的服务会话(管理
控制台)和 searchapp(Content Analytics Miner)启动。 关闭此命令 esadmin 检查的提示窗口。
收藏
分享
评分
回复
引用
订阅
TOP
返回列表
模拟电路
FPGA/CPLD可编程逻辑
职场驿站
MCU 单片机技术
DSP技术
综合技术交流
数字电路
ARM
电商论坛
Pine A64
资料下载
方案分享
FAQ
行业应用
消费电子
便携式设备
医疗电子
汽车电子
工业控制
热门技术
智能可穿戴
3D打印
智能家居
综合设计
示波器技术
存储器
电子制造
计算机和外设
软件开发
分立器件
传感器技术
无源元件
资料共享
PCB综合技术
综合技术交流
EDA
MCU 单片机技术
ST MCU
Freescale MCU
NXP MCU
新唐 MCU
MIPS
X86
ARM
PowerPC
DSP技术
嵌入式技术
FPGA/CPLD可编程逻辑
模拟电路
数字电路
富士通半导体FRAM 铁电存储器“免费样片”使用心得
电源与功率管理
LED技术
测试测量
通信技术
3G
无线技术
微波在线
综合交流区
职场驿站
活动专区
在线座谈交流区
紧缺人才培训课程交流区
意见和建议