首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

从 IBM PowerHA 集群中的资源故障中恢复-1

从 IBM PowerHA 集群中的资源故障中恢复-1

简介目前,有许多客户在其数据中心使用 Power 服务器,其中许多客户使用了 IBM AIX®                高可用性软件,通过灾难恢复管理让关键应用程序高度可用。本文将介绍在遇到由于错误输入而导致的任何应用程序或资源故障时,如何在不停止集群服务的情况下,使用                IBM PowerHA SystemMirror                特性让集群进入稳定状态。由于资源或应用程序中的错误输入,集群可能会进入不稳定状态,而资源组可能进入错误状态。PowerHA                提供的特性使得集群可以在更正错误输入后进入稳定状态,而且可以根据策略来激活资源,无需停止集群服务。本文将介绍资源组中包含应用程序故障的资源故障。
配置 PowerHA 集群有关 IBM PowerHA 是什么和如何在 AIX 系统上配置 PowerHA 的详细信息,请参阅  文章。本文将介绍如何配置包含 2 个节点的基础 PowerHA                集群。类似地,您可以创建多个集群,根据存储库磁盘来进行站点分离。基于站点的集群可以是延伸集群 (stretched cluster)                或链接集群,延伸集群位于配置链接集群的相同位置,其中数据中心位于不同的地理位置。
本文将介绍如何使用 4 节点延伸集群从集群中的应用程序故障中恢复。图 1 给出了一种 4 节点延伸集群设置。
图 1. 延伸集群的 PowerHA 集群配置在此集群中,创建了一个网络和 3 个资源组。RG1 是非并发资源组,其他两个资源组是并发资源组。集群从                    SiteANode1 创建,更改会通过验证和同步特性传播到集群中的所有节点。
以下 cltopinfo 实用程序输出显示了基本的集群信息。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
(0) root @ SiteANode1: /usr/es/sbin/cluster/utilities
# cltopinfo
Cluster Name:    test_cluster
Cluster Type:    Stretched
Heartbeat Type:  Multicast
Repository Disk: hdisk11 (00f601bbb83e6a40)
Cluster IP Address: 228.40.0.25
Cluster Nodes:
        Site A (siteA):
                SiteANode1
                SiteANode2
        Site B (siteB):
                SiteBNode1
                SitebNode2

There are four node(s) and one network(s) defined.

NODE SiteANode1:
        Network net_ether_01
                service_ip1     1.1.1.10
                SiteANode1        10.40.0.25

NODE SiteANode2:
        Network net_ether_01
                service_ip1     1.1.1.10
                SiteANode2        10.40.0.26

NODE SiteBNode1:
        Network net_ether_01
                service_ip1     1.1.1.10
                SiteBNode1        10.40.0.43

NODE SiteBNode2:
        Network net_ether_01
                service_ip1     1.1.1.10
                SiteBNode2        10.40.0.44

Resource Group RG1_conc
        Startup Policy   Online On All Available Nodes
        Fallover Policy  Bring Offline (On Error Node Only)
        Fallback Policy  Never Fallback
        Participating Nodes      SiteANode1 SiteANode2 SiteBNode1 SitebNode2

Resource Group RG2_conc
        Startup Policy   Online On All Available Nodes
        Fallover Policy  Bring Offline (On Error Node Only)
        Fallback Policy  Never Fallback
        Participating Nodes      SiteANode1 SiteANode2 SiteBNode1 SitebNode2

Resource Group RG1
        Startup Policy   Online On Home Node Only
        Fallover Policy  Fallover To Next Priority Node In The List
        Fallback Policy  Fallback To Higher Priority Node In The List
        Participating Nodes      SiteANode1 SiteANode2 SiteBNode1 SitebNode2
        Service IP Label                 service_ip1




将应用程序控制器脚本添加到                PowerHA假设有一个应用程序位于服务器中的主目录中,我们需要使用 PowerHA                让该应用程序高度可用。所以我们要有一个应用程序控制器启动和停止脚本,还要有监视器脚本,用来监视集群中的应用程序。一个应用程序将被添加到资源组中的一个卷组下,而且还会在该卷组上创建一个文件系统。
在本文中,已创建的应用程序 app1 有一个启动脚本、停止脚本和监视器脚本,还有控制器                    app1_test。此应用程序可通过文件系统 /fs1 和卷组                VG1 进行访问。该应用程序是资源组 RG1 下的一个资源。
以下是应用程序启动脚本、停止脚本和监视器脚本,它们在激活集群和挂载文件系统后执行基本的读/写操作。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
(0) root @ SiteANode1: /home/scripts  ----------------- Start script
# cat app1_start
#!/usr/bin/ksh
/home/scripts/app1 /fs1/a /fs1/b /fs1/c /fs1/d /fs1/e > /dev/null &

(0) root @ SiteANode1: /home/scripts ----------------- Stop script
# cat  app1_stop
#!/usr/bin/ksh
ps -ef | grep -w /home/scripts/app1 | grep -v grep | awk '{print $2}' | read pid
if [ $pid ]
then
       echo "printing that app1 is stopped"
        kill -9 $pid
fi

(0) root @ SiteANode1: /home/scripts --------------- Monitor scripts
# cat app_mon1
#!/usr/bin/ksh
ps -ef | grep -w /home/scripts/app1  | grep -v grep | awk '{print $2}'| read pid
if [ $pid ]
then
        return 0
fi
return 1




这一节将演示如何将应用程序控制器和监视器脚本添加到 PowerHA 集群中。
  • 添加应用程序控制器
使用 smit 命令打开 PowerHA 的 System Management Interface Tool                (SMIT)。在命令提示符上运行 smit hacmp 命令。在显示的 Cluster Applications and                Resource SMIT 屏幕上,选择
返回列表