IBM Support

rootvg全体障害に対するPowerHAの挙動

News


Abstract

PowerHAクラスター構成では、あるノードからのKAパケットがすべてのKA経路において途絶えると、PowerHAはそのノードのノード障害として認識します。
このテクニカルフラッシュは2011年4月21日に公開されたもので、情報はas-isとなっています。

Content

【概要】
PowerHAクラスター構成では、あるノードからのKAパケットがすべてのKA経路において途絶えると、PowerHAはそのノードのノード障害として認識します。
しかし、rootvgを構成する全てのディスクもしくはrootvgディスクへの全てのパスに問題が発生した場合、AIXがメモリー上で不完全な状態のまま稼働を続けてしまいKAパケットが途絶えず、サービスには影響があるにもかからず引き継ぎが行われない可能性があります。
この文章では、PowerHA構成におけるrootvgの冗長性の考慮および、その対応について例を挙げてご説明します。
【対象となる環境】
PowerHA for AIX V6.1以前のクラスター構成、かつrootvgを構成する全てのディスクもしくはrootvgディスクへの全ての経路にSPOFが存在する構成
【内容】
発生しうる問題
PowerHAクラスター構成では、あるノードからのKAパケットがすべてのKA経路において途絶えると、PowerHAはそのノードのノード障害として認識します。
しかし、OSの部分障害などでKAパケットが発信され続けるような障害は、ノード障害として検知できません。
PowerHA V6.1までのクラスターにおけるノードでは、rootvgの全てのディスク、もしくはrootvgディスクに接続する全てのパスに問題が発生した場合、AIXがメモリー上で不完全な状態のまま稼動し続けてKAパケットが飛び続け、引き継ぎが行われず、サービスが中断する可能性があります。
例えば、SANブート構成において、SANスイッチとストレージ間の全パス障害の様な、問題が発生した場合が該当します。
ここで、もしTCP/IPなどのKA経路が1経路でも使用可能であればKAパケットは途絶えず、結果としてPowerHAはノード障害として認識せず、引き継ぎも行いません。しかし、AIXとしては不完全な状況であり、サーバーの提供するサービスは中断する可能性が有ります。
PowerHA 7.1における対応
なお、PowerHA V7.1構成ではrootvgを構成するディスクを監視するデーモン(clevmgrdES)が追加されました。rootvgを構成する全てのディスクにアクセスできなくなると、デフォルトではシステムをKERNEL_PANICにより強制的にリブートし、引き継ぎを発生させます。
[ errpt サンプル]
---------------------------------------------------------------------------
LABEL: KERNEL_PANIC
IDENTIFIER: 225E3B63
Date/Time: Wed Mar 23 14:09:03 GMT+09:00 2011
Sequence Number: 113590
Machine Id: 000CEB3AD400
Node Id: ps700
Class: S
Type: TEMP
WPAR: Global
Resource Name: PANIC
Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
ASSERT STRING
PANIC STRING
System Halt because of rootvg failure
---------------------------------------------------------------------------
推奨される構成 (※ 2016/3/17 修正)
PowerHA を使用する場合、以下の何れかの様にして下さい。
  • rootvg に関して Single Point of Failure (以下 SPOF) を除去する設計とする
  • PowerHA V7.1を使用する
  • AIX V6.1 TL9 SP5 または V7.1 TL3 SP5 以降を使用し、rootvg を chvg -r y rootvg によりクリティカル VGとする (なお、PowerHA 7.2 以降では PowerHA が rootvg をデフォルトでクリティカル VG に変更します。)
例えば、Blade を使用した SAN ブート構成における FC アダプターの様に SPOF の除去が困難な場合には、PowerHA V7.1 もしくはクリティカルVG の使用をご検討下さい。
ただし、ブレードの FC アダプター障害時に AIX が不完全な状態で稼働し続けたという事例は報告されていません。万が一、その障害時にAIXが不完全な状態で稼働し続けたとしても対応できる様にする為のセーフティネットとしてのガイドとなります。
回避方法
rootvgに関するSPOFの除去が困難であり、かつPowerHA 7.1が使用できない場合には、何らかの作りこみによりノード障害を検知できるような仕組みを検討してください。
作りこみによるノード障害検知方法のデザインの例としては、以下が考えられます。
例1
(仮想化環境のみ)
対象ノードの外部より、対象ノードがサービスを提供できているかを定期的に確認する
確認が出来なくなった場合、HMCやIVM等に対して、対象ノードを強制停止するコマンドを発行する
例2
定期的にrootvgが配置されたディスク(デバイス)からの読み込みを行い、その実行結果からrootvg 障害を検知し、ノードを強制停止するコマンドを実行する。
例えば、下記のようなロジックのシェルスクリプトを実行する。
  1. 以下の 2.-3.を繰り返す
  2. それぞれのrootvgディスクから少量の読み込みを行う処理をバックグラウンドで実行する
  3. 全てのrootvgディスクに対して、2.の処理が一定時間以上実行中であることが確認されたか、連続してエラーで終了した場合、rootvg 障害と判断し、ノードを強制停止する。
具体的な使用コマンドとしては、ディスクからの読み込みに dd コマンド、コマンド実行中のチェックに ps コマンド、ノード強制停止コマンドとして halt コマンドを使用する事が考えられます。サンプルコードはIBMから入手可能ですので、社員にお問い合わせ下さい。
コマンド実行および結果は一定時間メモリー上でキャッシングされることを考慮する必要がありますので、実際の使用環境において事前に十分にテストしてください。
(2016/3/14追記)
クリティカル VG 機能は AIX V7.1 TL3 SP5, V6.1 TL9 SP5 より提供されています。
クリティカルVG: chvg コマンド -r y | n オプション
http://www.ibm.com/support/knowledgecenter/ssw_aix_61/com.ibm.aix.cmds1/chvg.htm?lang=en#chvg__chvg_sr(リンク切れ)
(追記ここまで)

[{"Type":"MASTER","Line of Business":{"code":"LOB08","label":"Cognitive Systems"},"Business Unit":{"code":"BU054","label":"Systems w\/TPS"},"Product":{"code":"SSPHQG","label":"PowerHA SystemMirror"},"ARM Category":[{"code":"a8m3p000000hAumAAE","label":"PowerHA System Mirror"}],"Platform":[{"code":"PF025","label":"Platform Independent"}],"Version":"All Versions"}]

Document Information

Modified date:
13 February 2023

UID

ibm16851853