Spark 部署及示例代码讲解（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-23 10:50 | 只看该作者

Spark 部署及示例代码讲解（1）

Spark 部署考虑到读者可能使用“ssh secure shell”这样的工具登陆 Linux，所以解释一下如何设置工具支持中文。
如何设置 ssh secure shell 支持中文只需要设置下/etc/sysconfig/i18n 文件内容如清单 1 所示。
清单 1. 文件内容

1
2
3

LANG="zh_CN.GB18030"
SUPPORTED="zh_CN.GB18030:zh_CN:zh:en_US.UTF-8:en_US:en"
SYSFONT="latarcyrheb-sun16"

保存之后,SSH 重新登录或运行命令 source ./i18n 就可以显示中文。
如果想要支持用户登陆后自动支持中文，可以把 source /etc/sysconfig/i18n 这一行代码加入到/etc/profile 这个文件内，这样可以确保 root 账户登陆时自动加载中文设置。
注意：本文所涉及的 Linux 操作系统是 CentosV6.5 版本，JDK 为 JDK7 版本，Spark 版本为 v1.2.1。
Spark 下载及安装去 Apache Spark 官网下载 Spark 源代码、编译好的安装文件，Apache 官方的下载地址为 http://spark.apache.org/downloads.html。
图 1. 下载网站截图

如图 1 所示，选择的是 v1.2.1 的源代码，由于是针对 Hadoop2.4 编译的安装文件，所以还需要下载 Hadoop2.4 的安装包。除此之外，Spark 依赖于 Java 和 Python，需要确保 Linux 服务器上安装了这两个软件的开发包。清单 2 所示代码可以查看两个软件的版本。
清单 2. 查看版本

1
2
3
4
5
6
7
8
9
10
11
12
13
14

[root@localhost:3 spark]# java -version
\java version "1.7.0_65"
OpenJDK Runtime Environment (rhel-2.5.1.2.el6_5-x86_64 u65-b17)
OpenJDK 64-Bit Server VM (build 24.65-b04, mixed mode)
[root@localhost:3 spark]# python -v
# installing zipimport hook
import zipimport # builtin
# installed zipimport hook
# /usr/lib64/python2.6/site.pyc matches /usr/lib64/python2.6/site.py
import site # precompiled from /usr/lib64/python2.6/site.pyc
# /usr/lib64/python2.6/os.pyc matches /usr/lib64/python2.6/os.py
import os # precompiled from /usr/lib64/python2.6/os.pyc
import errno # builtin
import posix # builtin

清单 2 所示，Java 版本是 1.7.0_65，Python 的版本是 2.6，自动进入到 Python 命令模式，可以通过按 Ctrl+D 退出刚才进入的 Python 命令模式。
Spark 文件下载完毕后，通过清单 3 所示命令解压缩文件。
清单 3. 解压缩文件

1 2	gunzip spark-1.2.1-bin-hadoop2.4.tgz tar xvf spark-1.2.1-bin-hadoop2.4.tar

这样基本上就可以算部署完毕了，对，就这么简单。
Spark 运行模式Spark             的运行模式多种多样、灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布式模式运行，而当以分布式集群的方式部署时，也有众多的运行模式可以供选择，这取决于集群的实际情况，底层的资源调度既可以依赖于外部的资源调度框架，也可以使用             Spark 内建的 Standalone 模式。对于外部资源调度框架的支持，目前的实现包括相对稳定的 Mesos 模式，以及还在持续开发更新中的 Hadoop YARN             模式。
在实际应用中，Spark 应用程序的运行模式取决于传递给 SparkContext 的 MASTER             环境变量的值，个别模式还需要依赖辅助的程序接口来配合使用，目前所支持的 MASTER 环境变量由特定的字符串或 URL 所组成。例如：
Local[N]：本地模式，使用 N 个线程。
Local Cluster[Worker,core,Memory]：伪分布式模式，可以配置所需要启动的虚拟工作节点的数量，以及每个工作节点所管理的 CPU             数量和内存尺寸。
Spark://hostname:port:Standalone 模式，需要部署 Spark 到相关节点，URL 为 Spark Master 主机地址和端口。
Mesos://hostname:port:Mesos 模式，需要部署 Spark 和 Mesos 到相关节点，URL 为 Mesos 主机地址和端口。
YARN standalone/Yarn cluster:YARN 模式一，主程序逻辑和任务都运行在 YARN 集群中。
YARN client:YARN 模式二，主程序逻辑运行在本地，具体任务运行在 YARN 集群中。

收藏分享评分

回复引用

订阅 TOP

返回列表