首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

以敏捷方式将单节点集群从 MapReduce Version 1 迁移到 YARN (1)简介

以敏捷方式将单节点集群从 MapReduce Version 1 迁移到 YARN (1)简介

简介在“” 中,我介绍了 YARN,这是         中的处理层的一种全新架构。YARN 明显改变了分布式应用程序的运行方式。它提供了改善的可伸缩性、更高的资源利用率,以及在同一个集群上运行更多种类的工作负载的选择。
因为 YARN 现在已经适用于生产环境,而且因为小型和大型 Hadoop 集群使用它都能获得明显的好处,所以没有理由不从 MRv1 迁移到 YARN。Yahoo!、Spotify 和        eBay 等公司已完成迁移,他们每天在 YARN 之上运行着数千个应用程序。大型 Hadoop 供应商也喜欢 YARN,而且为受 YARN 技术支持的 Hadoop        集群提供了广泛的支持。
本文解释并演示了如何以敏捷方式将单节点 Hadoop 集群从 MapReduce 迁移到 YARN。
敏捷迁移尽管 Cloudera 和 Hortonworks 等 Hadoop 供应商提供有关 YARN        安装的优秀且详细的文档,但他们遵循的都是一种非此即彼的方法。使用此方法,您首先需要执行几乎所有迁移步骤,然后要启动集群,确认它已正确迁移。如果迁移失败,则需要检查迁移步骤,确定在何处执行了错误配置。因为迁移到        YARN 是一个复杂的、容易出错的过程,所以可能很难排除一个几乎完成迁移的集群中的问题。
相反,本文将介绍如何使用一种包含快速而又频繁的迭代的敏捷方法。在第一次迭代中,只需安装必要的组件,启动 YARN        集群来验证它是否能够成功运行应用程序。在接下来的迭代中,扩展集群的功能并优化最重要的配置设置。这样做目的是拥有一个能够在每次迭代后处理用户应用程序的正常工作的 YARN        集群。使用此方法,管理员能够在每次迭代后临时暂停迁移过程,在以后方便的时候继续执行迁移。
迁移范围本文重点列出了从 MRv1 迁移到 YARN 所需的步骤。文中假设您已安装并能正常运行 Hadoop MRv1 集群。
YARN 可用于 Hadoop 2.x 版本中。如果使用的是 Hadoop 1.x,则需要先将 Hadoop Distributed File System (HDFS) 升级至        2.x 版,并确保您使用的其他任何组件(比如 Pig 和 Hive)与 Hadoop 2.x 兼容。
本文不会介绍升级 HDFS 和一些组件(比如 Pig 和 Hive)所需的步骤。
迁移环境为了演示迁移过程,我们将从一个单节点 Hadoop 集群开始,其中所有 Hadoop 后台进程都在一个独立的 Java™ 虚拟机 (JVM)          中运行。单节点集群通常被称为伪分布式集群。尽管单节点 Hadoop 集群对生产用途并不实际,但它提供了一种简单而又高效的方法来学习 Hadoop        基础知识和试验它的配置。
本迁移示例将使用 Ubuntu 12.04(包含 4 GB RAM、一个 4 核 CPU),以及从包含 Apache Hadoop (CDH4) 的 Cloudera 发行版安装的        Hadoop MRv1。尽管示例使用的是 CDH4,但也可以在不同发行版上使用这些步骤,比如标准 Apache Hadoop 或 Hortonworks Data Platform        2.0 (HDP2)。选择 CDH4 只是因为它为提供了针对 MRv1 的 Debian 包,可使用它来演示在 Ubuntu 服务器上从 MRv1 迁移到 YARN 的过程。
返回列表