首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

使用基于 Eclipse 的工具创建、测试和发布文本提取器 (1)简介

使用基于 Eclipse 的工具创建、测试和发布文本提取器 (1)简介

随着消费者不断在社交网站中发布有关商业产品和服务的数字消息,越来越多的企业开始启动涉及社交媒体分析的大数据项目。此类项目的目标包括理解某一品牌的公众认知,评价市场营销活动的有效性,识别新的商业机遇或不利的业务因素,评估品牌的竞争能力等等。
尽管这些社交媒体分析项目的目标不尽相同,但是 IT 专业人员发现实现这些目标所需的技术包括如下几项:
  • 一个可以高效地处理海量数据的平台。
  • 一个可以从博客、消息板和社交网站上的其他帖子中提取上下文的文本分析引擎。
  • 一个开发环境,使程序员能够在该环境中创建特定于领域的文本数据分析软件。
  • 业务分析师用于分析文本数据的各种工具。
本文介绍了 IBM 提供的一个大数据平台 InfoSphere                BigInsights,它提供的技术可以使企业快速启动社交媒体数据分析项目。本文描述的许多文本分析功能也适用于社交媒体以外的其他类型的文本数据分析。此外,这里描述的大多数文本分析功能也包含在                InfoSphere Streams 中,InfoSphere Streams 是用于处理内存中大量流数据的附赠产品。
背景知识 利用 BigInsights 的预置资产 本文介绍 IBM 的大数据文本分析技术,探讨了如何使用它创建定制文本提取器来分析社交媒体数据。在许多情况下,您可能不希望从头构建所有分析方法,而这正是 IBM                    大数据应用程序加速器 (Accelerator) 发挥作用的地方。BigInsights 包括 IBM Accelerator for Social Data                    Analytics (SDA),可帮助您开始实现自己的社交数据应用程序。加速器 是软件组件,它提高了在 IBM                    大数据平台上实现某个用例的速度。它们包括源代码和对象代码,用户可以在需要时将它们用于自己的应用程序。
SDA 包括可定制的应用程序,允许终端用户使用社交媒体中的符号提取与产品、服务、事件等有关的反馈。加速器利用 BigInsights 和 InfoSphere                    Streams 提供社交媒体数据的静态 (at-rest) 和实时分析,此过程中使用了预置的连接器。SDA 包括各种软件工件,帮助企业开发社交媒体配置文件并识别                    “情绪”、“公众评价”,以及与某些品牌或产品相关的购买意向;此类分析对品牌管理和潜在客户识别应用程序有帮助。如您所料,许多工件都使用了我们在这里介绍的文本分析功能。
SDA 利用了 BigInsights 应用程序框架,这意味着可以通过 Web 工具对应用程序进行调度、配置参数和运行。参阅 ,了解有关的更多信息。

InfoSphere BigInsights 是一个旨在帮助企业发现和分析海量数据中隐含的业务洞察力的软件平台 —                这些数据通常被忽略或丢弃,因为使用传统方式实现这个目的非常困难或难以实现。此类数据的示例包括社交媒体数据、新闻提要、日志记录、点击流、电子传感器输出,甚至是一些传统的事务数据。
为了帮助企业有效地从这些数据中驱动价值,BigInsights 的企业版中包含了几个开源项目,包括 Apache Hadoop,以及大量 IBM                开发的技术。Hadoop 及其补充项目为数据密集型应用程序提供了一个高效的软件框架,这些应用程序需要利用分布式计算环境来实现高可扩展性。IBM                技术丰富了这一开源框架,提供了分析软件、企业软件集成、平台扩展和工具。这些 IBM 提供的扩展中包含一个文本分析引擎和基于 Eclipse 的应用程序开发工具。有关                BigInsights 的更多信息,请参阅 。
为了帮助您理解企业如何使用 BigInsights 分析文本,可以考虑这样一个常见的业务场景:分析师希望了解某个特定品牌或服务的市场反响、覆盖范围和公众评价。我们将使用                IBM Watson 作为样例品牌,并探讨社交媒体内容分析的一个简单方面。IBM Watson 是一个研究项目,它通过执行复杂的分析来回答以自然语言提出的问题。在                2011 年,IBM Watson 在 Jeopardy! 电视竞技节目中拔得头筹,击败了两个著名的参赛选手(参阅 )。
文本分析的关键方面 BigInsights 提供的文本分析工具和运行时技术包括一些关键技术,可帮助企业将结构和上下文与博客文章、新闻报道和其他文本数据关联起来:
  • 一种声明式语言,用于从文本数据中识别和提取内容:Annotation Query Language (AQL)                    使程序员能够创建匹配指定规则的 视图(记录集合)。
  • 由用户创建的或特定于域的词典                    :词典可以在输入文本中识别出相关的上下文,以便从文档中获得业务洞察。例如,一个行业词典,比如医疗、银行或保险业词典,可以帮助用户了解某个指定品牌(比如                    IBM Watson)与一个或多个特定行业的关系有多密切。
  • 用户为文本提取创建的规则:模式发现和正则表达式 (regex)                    构建工具使程序员能够指定文本的分析方式,从而分离出感兴趣的数据。例如,程序员可以指定在给定近似性 (proximity)                    的情况下,哪些关键字应当出现,哪些关键字不应当出现。如果 “IBM” 和 “software” 出现在一些 “Watson” 标记中,这样表明这段文本的内容与                    IBM Watson 软件项目有关。如果 “Bubba” 出现在 “Watson” 之前,那么表明文档很可能与 Bubba                    Watson(一名专业的高尔夫球手)有关,而不是与 IBM Watson 软件项目有关。
  • 起源跟踪和可视化 (Provenance tracking and                    visualization):文本分析通常是反复进行的,需要在规则(和词典)的基础上进一步构建规则(和词典),并随时间进行优化调整。优化需求通常是对样例数据进行测试后显现出来。跟踪和研究应用文本提取器生成的结果的最初目的是帮助程序员识别需要进一步优化的部分。
图 1 演示了 InfoSphere BigInsights and Streams 提供的 IBM 文本分析解决方案的架构。开发人员使用一种声明式语言 (AQL) 和                IBM 提供的工具创建可对文本数据进行分析的提取器。运行时引擎将透明地优化用 AQL 表示的声明式指令,十分类似于关系数据库管理系统中用基于成本的优化器优化                SQL。优化后的输出是一个编译后的方案,它定义 BigInsights 如何处理其分布式文件系统中保存的输入文档集合。
图 1. IBM 大数据文本分析架构 在 BigInsights 集群中部署文本提取器时,您可以通过 BigSheets(一种基于 Web                的工具,具有类似电子表格的界面)、Jaql(一种查询和脚本化语言)或 Java™ API 调用它们。
本文描述了一个简单的端到端文本分析场景,帮助您熟悉在 BigInsights 集群中开发、发布、部署和使用定制文本提取器应用程序的过程。该方法包括以下步骤:
  • 收集和准备样例数据。
  • 开发和测试提取器,以使用 Eclipse 插件分析文本。
  • 在 BigInsights 集群上发布和部署一个简单的文本分析应用程序。
  • 应用 BigSheets 的文本分析功能并查看样例结果。
让我们详细了解以上这些步骤。
返回列表