Board logo

标题: Unix/Linux 系统自动化管理 日志管理篇(1) [打印本页]

作者: look_w    时间: 2018-6-13 15:21     标题: Unix/Linux 系统自动化管理 日志管理篇(1)

系统日志Unix/Linux中一个非常重要的功能组成部分。它可以按照某种规范记录下系统所产生的所有行为。我们可以使用系统日志所记录的信息进行系统排错,系统性能优化,或者根据这些信息调整系统的行为。另外,系统日志还可以为系统的安全管理提供重要的信息。
不同的操作系统可能会使用不同的日志方式,如AIX的Error log和Linux的syslog/syslog-ng。本文将分别论述在AIX上对Error log的监控和在Linux上对syslog/syslog-ng的监控。
AIX Error log 简介及其自动化监控机制大部分的 Unix/Linux 系统都使用 syslog 作为系统日志方式,AIX 也支持 syslog 机制,但是 AIX 操作系统及其主要应用程序相关的日志都使用 Error log 来记录日志,只有少量的应用程序使用 syslog。AIX syslog 和 Linux syslog 的功能以及配置非常类似,在此不再重复论述。
AIX Error log 机制是 AIX 基本系统 (Base Operating System) 的一部分,在缺省安装情况下无需进行任何配置即可使用 AIX Error log 机制。
AIX Error log 机制组件AIX Error log 机制主要由以下几个部分组成:
AIX Error log 配置AIX Error log 可以在不进行任何配置的情况下使用而且缺省配置基本上可以满足各种场景的使用需求,但 AIX 仍然提供了配置接口。通过配置接口可以修改设备文件 /dev/error 的缓冲区尺寸、日志文件的位置、日志文件的尺寸限制以及对重复日志的处理等等。AIX Error log 通过命令 /usr/lib/errdemon 进行配置。
AIX Error log 使用AIX Error log 机制启动后,操作系统或者应用程序将会通过 AIX Error log 记录所发生的事件或者错误。本节将给出日常使用 AIX Error log 的常用命令及其使用方法。AIX Error log 的使用主要有生成 Error log 报告和删除 Error log 条目。
生成 AIX Error log 报告
AIX 命令 errpt 可以用来生成 Error log 报告,errpt 提供了丰富的参数来指定源数据的范围和报告的格式。如 -d 参数可以用来指定只显示特定的错误种类,-s 和 -e 参数可以指定特定时间范围内的日志条目,-l 参数可以指定之显示特定序号的日志条目,-a 参数可以指定显示日志条目的详细信息。具体 errpt 的用法可参见 errpt 的 manpage。
在此列举 errpt 使用的一个例子并以此例子说明 AIX Error log 条目中各字段的含义。
清单 1. errpt 命令输出示例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
#errpt -a -l 2
---------------------------------------------------------
LABEL:          REBOOT_ID
IDENTIFIER:     2BFA76F6

Date/Time:       Mon Mar  2 21:38:21 2009
Sequence Number: 2
Machine Id:      00C0DD724C00
Node Id:         p6ml4n05
Class:           S
Type:            TEMP
WPAR:            Global
Resource Name:   SYSPROC

Description
SYSTEM SHUTDOWN BY USER

Probable Causes
SYSTEM SHUTDOWN

Detail Data
USER ID
          0
0=SOFT IPL 1=HALT 2=TIME REBOOT
          0
TIME TO REBOOT (FOR TIMED REBOOT ONLY)
          0
#




其中各主要字段的含义如下:
LABEL:为该事件预先定义的名称
IDENTIFIER:此事件的数字标识
Date/Time:事件发生的日期和时间
Sequence Number:事件序列号
Machine Id:此事件发生的节点处理器识别符
Node Id:此事件发生的节点名称
Class:事件的类别。AIX Error log 目前支持的类别有:
H: 硬件
S:软件
O:Informational 条目
U:无法确定事件的类别
Type:事件的严重程度,AIX Error log 目前支持的事件严重程度有:
PEND:设备或组件即将失效
PERF:设备或组件的性能已经低于可以接受的阈值
PERM:无法修复的错误。PERM 是所有错误中最严重的一种,PERM log 往往说明某个硬件或者软件组件已经失效并且无法修复。
TEMP:在若干次失败后某个错误被成功修复。TEMP 也可以用于标识 informational 条目。
UNKN:无法确定事件的严重程度
INFO:信息而并非错误
Resource Name:产生信息的组件名称
Description:事件的简短描述
Probable Causes:事件产生的可能原因
删除 AIX Error log
删除 AIX Error log 条目可以使用命令 errclear,errclear 也提供了选项用于指定删除的范围,如 -d 指定仅删除特定类别的事件,-l 指定仅删除特定序号的条目。通常情况下,errclear 可以被用作 cron 条目周期性执行用以清楚 Error log 文件。
手动生成 AIX Error log 条目
命令 errlogger 可以用于手动生成 AIX Error log 条目。手动生成 AIX Error log 条目可以用于测试 AIX Error log 功能或者测试下面将要论述的自动监控功能等。




欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0