实践：使用 Apache Hadoop 处理日志

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-4-22 16:27 | 只看该作者

实践：使用 Apache Hadoop 处理日志

日志形态千差万别，但随着应用程序和基础架构的发展，结果产生了大量对用户有用的分布式数据。从 Web 和邮件服务器到内核和引导日志，许多现代的服务器拥有丰富的信息集。大量的分布式数据是 Apache Hadoop 的完美应用，就像日志文件（按时间排序的结构化文本数据）一样。
您可以使用日志处理来提取各种信息。其中最常用的一种用法是提取错误，或是对某个系统中的一些事件（比如登录失败）的发生次数进行计数。您还可以提取某些类型的性能数据，比如每秒连接数或每秒处理的事务数。其他有用的信息包括 Web 日志中的站点访问量（减少）的提取（映射）和构造。这一分析除了支持检测文件访问统计之外，还支持对惟一用户访问的检测。
概述关于本文通过练习开始工作之前，您可能想阅读以下文章：

这些练习将为您提供以下几方面的实践：

建立一个简单的 Hadoop 环境并运行它
与 Hadoop 文件系统 (HDFS) 进行交互
编写一个简单的 MapReduce 应用程序
编写一个过滤的 Apache Pig 查询
编写一个累计的 Pig 查询

先决条件要从这些练习中获得最大的益处，您应当掌握 Linux® 的基本应用知识。对虚拟设备有一些了解也有助于建立一个简单的环境。
练习 1. 建立一个简单的 Hadoop 环境并运行它要建立 Hadoop 环境并运行它，有两种方法。第一种是安装 Hadoop 软件，然后针对您的环境（最简单的情况是一个单节点实例，其中所有的守护程序都在单个节点上运行）对其进行配置。参见以了解有关的详细信息。
第二种（也是较为简单的一种）方法是通过使用（包含一个 Linux 映像和一个预配置的 Hadoop 实例）。Cloudera 虚拟机 (VM) 运行于 VMware、基于 Kernel 的虚拟机或 Virtualbox 之上。
选择一种方法，并完成安装。然后，完成以下任务：

通过发出一个 HDFS ls 命令来验证 Hadoop 是否正在运行。

练习 2. 与 HDFS 进行交互HDFS 是一种专用的文件系统，用来管理一个 Hadoop 集群内的数据和副本，并将它们分配给各个计算节点，以便高效处理它们。尽管 HDFS 是一种专用的文件系统，但它仍然可以实现许多典型的文件系统命令。要检索 Hadoop 的帮助信息，可发出 hadoop dfs 命令。请执行以下任务：

在 HDFS 内创建一个测试子目录。
使用 copyFromLocal 将一个文件从本地文件系统移动到 HDFS 子目录中。
对于额外的练习，请使用 hadoop dfs 命令查看 HDFS 内的文件。

练习 3. 编写一个简单的 MapReduce 应用程序按照中的演示，编写一个单词数映射和缩减应用程序非常简单。使用本文中演示的 Ruby 示例，开发一个 Python 映射和缩减应用程序，并在样例数据集上运行它们。回想一下，Hadoop 对映射的输出进行了排序，所以词语很可能是连续的，这为缩减程序 (reducer) 提供了一种有用的优化。
练习 4. 编写一个简单的 Pig 查询正如您在中所看到的，Pig 允许您构建一个简单的、可转换成 MapReduce 应用程序的脚本。在本练习中，您提取了所有的日志条目（来自 /var/log/messages），这些日志条目中包含单词 kernel: 和单词 terminating。

创建一个根据预定义的标准提取所有日志行的脚本。

练习 5. 编写一个聚合 Pig 查询日志消息由 Linux 内核（比如 kernel 或 dhclient）中的各种来源生成。在本例中，您需要找出生成日志消息的各种来源，以及每个来源生成的日志消息数量。

创建一个对每个日志来源生成的日志消息数进行计数的脚本。

练习解决方案具体的输出取决于特定的 Hadoop 安装和配置。
练习 1 的解决方案：建立一个简单的 Hadoop 环境并运行它在中，您在 HDFS 上执行了一个 ls 命令。展示了恰当的解决方案。
清单 1. 在 HDFS 上执行一个 ls 操作

1
2
3
4
5

$ hadoop dfs -ls /
drwxrwxrwx - hue    supergroup          0 2011-12-10 06:56 /tmp
drwxr-xr-x - hue    supergroup          0 2011-12-08 05:20 /user
drwxr-xr-x - mapred supergroup          0 2011-12-08 10:06 /var
$

所显示文件的多少取决于具体的使用。
练习 2 的解决方案：与 HDFS 进行交互在中，您在 HDFS 内创建了一个子目录，并将一个文件复制到这个子目录中。请注意，您是通过将内核消息缓冲器移动到某个文件中来创建测试数据的。对于额外的练习，请使用 cat 命令（参见）查看 HDFS 内的文件。
清单 2. 操作 HDFS

1
2
3
4
5
6
7
8
9

$ dmesg > kerndata
$ hadoop dfs -mkdir /test
$ hadoop dfs -ls /test
$ hadoop dfs -copyFromLocal kerndata /test/mydata
$ hadoop dfs -cat /test/mydata
Linux version 2.6.18-274-7.1.el5 (mockbuild@builder10.centos.org)...
...
e1000: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: RX
$

练习 3 的解决方案：编写一个简单的 MapReduce 应用程序在中，您用 Python 语言创建了一个简单的单词计数 MapReduce 应用程序。Python 实际上是实现单词计数示例的一种极好的语言。您可以在（由 Michael G. Noll 编著）中发现一个关于 Python MapReduce 的有用的整理文章。
本示例假设您执行了练习 2 的步骤（将数据摄入 HDFS）。提供了映射应用程序。
清单 3. 用 Python 编写的映射应用程序

1
2
3
4
5
6
7
8
9

#!/usr/bin/env python

import sys

for line in sys.stdin:
line = line.strip()
words = line.split()
for word in words:
print '%s\t1' % word

清单 4 提供了缩减应用程序。
清单 4. 用 Python 编写的缩减应用程序

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

#!/usr/bin/env python

from operator import itemgetter
import sys

last_word = None
last_count = 0
cur_word = None

for line in sys.stdin:
line = line.strip()

cur_word, count = line.split('\t', 1)

count = int(count)

if last_word == cur_word:
      last_count += count
else:
      if last_word:
         print '%s\t%s' % (last_word, last_count)
         last_count = count
      last_word = cur_word

if last_word == cur_word:
print '%s\t%s' % (last_word, last_count)

说明了在 Hadoop 中调用 Python MapReduce 示例的流程。
清单 5. 使用 Hadoop 测试 Python MapReduce

1
2
3
4
5
6
7
8
9
10
11
12
13

$ hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
  -file pymap.py -mapper pymap.py -file pyreduce.py -reducer pyreduce.py \
  -input /test/mydata -output /test/output
...
$ hadoop dfs -cat /test/output/part-00000
...
write 3
write-combining 2
wrong.  1
your 2
zone: 2
zonelists.  1
$

练习 4 的解决方案：编写一个简单的 Pig 查询在中，您提取了 /var/log/messages 日志条目，该条目同时包含了单词 kernel: 和单词 terminating。在这种情况下，您可以在本地模式下使用 Pig 查询本地文件（参见将文件加载到一个 Pig 关系（日志）中，过滤其内容，直到只剩下内核消息，然后过滤结果关系，以便获得终止消息。
清单 6. 提取所有的内核日志消息 + 终止日志消息

1
2
3
4
5
6
7
8

$ pig -x local
grunt> log = LOAD '/var/log/messages';
grunt> logkern = FILTER log BY $0 MATCHES '.*kernel:.*';
grunt> logkernterm = FILTER logkern BY $0 MATCHES '.*terminating.*';
grunt> dump logkernterm
...
(Dec 8 11:08:48 localhost kernel: Kernel log daemon terminating.)
grunt>

练习 5 的解决方案：编写一个聚合 Pig 查询在中，提取日志来源和根据 /var/log/messages 获得的日志消息计数。在这种情况下，需要为查询创建一个脚本，并在 Pig 的本地模式下执行它。在中，您加载了文件，并使用空格作为分隔符对输入进行解析。随后将已划分界限的字符串字段分配给指定的元素。使用 GROUP 运算符根据消息来源对消息进行分组，然后使用 FOREACH 运算符和 COUNT 来聚合您的数据。
清单 7. /var/log/messages 的日志来源和计数脚本

1
2
3
4
5

log = LOAD '/var/log/messages' USING PigStorage(' ') AS (month:chararray, \
day:int, time:chararray, host:chararray, source:chararray);
sources = GROUP log BY source;
counts = FOREACH sources GENERATE group, COUNT(log);
dump counts;

执行结果如所示。
清单 8. 执行您的日志来源脚本

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

$ pig -x local logsources.pig
...
(init:,1)
(gconfd,12)
(kernel:,505)
(syslogd,2)
(dhclient:,91)
(localhost,1168)
(gpm[2139]:,2)
[gpm[2168]:,2)
(NetworkManager:,292)
(avahi-daemon[3345]:,37)
(avahi-daemon[3362]:,44)
(nm-system-settings:,8)
$

收藏分享评分

回复引用

订阅 TOP

返回列表