首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

使用 Hive 分析大型数据集-1

使用 Hive 分析大型数据集-1

简介大数据行业已掌握了收集和记录数兆字节数据的能力,但根据这些实时数据进行基本预测和制定决策仍是一项挑战,这也是 Apache Hive                如此之重要的原因。它将结构应用于数据,按照类似 SQL 的查询结构来查询此数据,以便在大型数据集上执行 Map 和 Reduce 任务。
InfoSphere BigInsights 是来自 IBM 的一个相似的专有系统。它基于开源 Apache Hadoop                项目,但包含用于企业部署的一些新增功能。它使得使用 Hadoop 以及构建由大型数据集驱动的应用程序变得更容易。和 Hive 一样,它为 Hadoop 提供了一个                SQL 界面,这样,用户无需学习新编程语言就可以访问 BigInsights 中的数据。它还针对无缝和故障转移技术为 BigInsights NameNode(又称为                MasterNode)提供了高可用性,从而减少了系统停机时间。
我们将介绍如何使用 Hive 分析调用数据记录 (CDR),以此作为实施大数据分析的一个示例。CDR                是电信领域内使用的一个术语,指可能用于向订户收取费用的任何事件。诸如呼叫启动、终止、持续和通过智能电话传输 Internet                数据之类的事件,都属于在数据存储中记录的服务以及用于计费用户的服务的示例。
开始之前建议您掌握以下技术和概念的基本知识。请参阅  部分,获取有关以下内容的教程:
  • 如何编写基本 SQL DDL 和 DML 脚本(如 select, create, insert)。
  • 如何编写和编译基本 Java™ 程序。
  • 如何将 Java 字节码包装成 Java Archive (JAR) 文件。
使用 CDR 作为一个示例InfoSphere BigInsights Quick Start EditionInfoSphere® BigInsights™ Quick Start Edition 是 InfoSphere BigInsights                    的免费赠送的可下载版本。使用 Quick Start Edition,您可以试用 IBM 为增加开源 Hadoop 的价值而构建的功能,如 Big                    SQL、文本分析和 BigSheets。我们提供的引导学习会尽可能地让您的体验更加顺利,这些体验包括分步的、自助的教程和视频,可帮助您开始让 Hadoop                        为您效力。没有任何时间和数据限制,您可以在您有时间的时候用大量数据进行试验。、,并 。

呼叫详细记录 (CDR),也被称为呼叫数据记录,是电话交换台或其他电信设备产生的数据记录,记录了通过设施或设备的电话的详细信息。CDR                由描述电信事务的数据字段组成。这些数据字段可以包含以下信息:
  • 订户电话号码
  • 接听方电话号码
  • 起始时间戳
  • 呼叫持续时间
  • 付费电话号码
  • 电话交换台设备 ID
  • 记录 ID
  • 呼叫处置或结果(不论呼叫状态是繁忙还是失败)
  • 呼叫进入交换台的线路
  • 呼叫离开交换台的线路
  • 呼叫类型(语音、消息等)
基于本文以及 CDR 的目的,我们还要使用另外一个称为网络日志的数据集。网络日志是在用户拨打电话、访问                Web、访问电子邮件或简单转移到另一个蜂窝站时的网络中心活动的记录。网络日志的一些相关数据字段如下所示:
  • 事件的时间戳
  • IMSI(与蜂窝站相关的惟一 ID)
  • IMEI(标识移动电话的惟一 ID)
  • 呼叫类型(语音呼叫、消息等的代码)
  • 蜂窝站类型(记录此信息的蜂窝站类型的代码)
  • 蜂窝站 ID(记录此信息的蜂窝站的 ID)
  • 订户电话号码
  • 纬度(蜂窝站的地理坐标)
  • 经度(蜂窝站的地理坐标)
电信提供商对评估各种趋势感兴趣,以便规划未来的升级和真实数据驱动的部署。例如,典型的提供商会希望了解哪台设备(如蜂窝站)发出了大部分呼叫。另一个有价值的数据点是确定哪些基站在当天不同的时段内(尤其是昼夜通信模式下)是最繁忙的中心,以及哪类呼叫经常发送到不同地点。我们将关联这两个大数据源,对于一个中等规模的蜂窝网络,这两个大数据源每天通常产生大约数百千兆字节的数据。
相关的值得一提的事情是,这些呼叫日志包含任何蜂窝网络上执行的每个蜂窝事务 (cellular transaction) 的数据。在最近的新闻中,Verizon                前所未有地访问了 National Security Agency (NSA),以便直接从 Verizon                的服务器获取呼叫日志。这被转化成了数百万个指定了呼叫方和接听方的号码、通话持续时间以及端点站的地点的呼叫日志条目。
返回列表