IBM Support

ConfigRM メモリー・リークにより CAA クラスターでノード・ダウンが発生する問題 (2016/7/28 更新)

News


Abstract

IBM.ConfigRM サブシステム処理内のメモリー・リークの障害のため、CAA クラスターで予期せぬノード・ダウンが発生します。
このテクニカルフラッシュは2015年6月1日に公開されたもので、情報はas-isとなっています。

Content

【2016/7/28 追記】
新しい ifix (IV71572 の修正を含み、CAA の start/stop が不要)が提供されています。
従いまして、2015/7/14の追記事項につきましては、新しい ifix を適用して頂くことで、対応が不要になりました。
【2015/7/14 追記】
当テクニカル・フラッシュの現象に対応するために ConfigRM メモリー・リーク対応 APAR もしくは ifix を適用すると、shutdown コマンドの実行によりカーネル・パニックが発生する様になる可能性が有ります。(APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT)。
【参考】
テクニカル・フラッシュ「RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法」
APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
この障害 IV71572 の対応が必要となるケースにつきましては、当テクニカル・フラッシュの「解決策」後の解決策追記における考慮事項に記載しておりますので、ご参照ください。
概要
IBM.ConfigRM サブシステム処理内のメモリー・リークの障害のため、CAA クラスターで予期せぬノード・ダウンが発生します。
対象となるシステム
以下の (1) and (2) の条件を満たす場合、当現象が発生します。
(1) Cluster Aware AIX (CAA) クラスターを利用する機能/製品を使用しているシステム
  • PowerHA SystemMirror for AIX V7.1 以降が導入されている環境
or
  • Virtual I/O Server (VIOS) で Shared Storage Pool(SSP) を使用している環境
(2) 導入されている rsct.core.rmc のバージョンが以下に該当するシステム
  • rsct.core.rmc 3.1.5.0 から 3.1.5.8
or
  • rsct.core.rmc 3.2.0.0 から 3.2.0.4
<バージョンの確認方法>
# lslpp -l | grep rsct.core.rmc
※ VIOS では、oem_setup_env 実行後、UNIX root シェル内で実行してください。
出力例)
# lslpp -l | grep rsct.core.rmc
rsct.core.rmc 3.2.0.0 COMMITTED RSCT Resource Monitoring and
該当の RSCT のバージョンは以下の AIX、VIOS に含まれます。
  • AIX V6.1 TL 9
  • AIX V7.1 TL 3
  • VIOS V2.2.3
<バージョンの確認方法>
# oslevel -s
出力例)
# oslevel -s
7100-03-04-1441
AIX の TL とは別に RSCT のファイルセットを個別に該当レベルまでアップデートしている場合も対象となります。
障害内容
IBM.ConfigRM サブシステムがドメイン内の他メンバーからの問い合わせを受ける処理でメモリー・リークし、メモリーが確保できない状況でリソース管理の関数が失敗します。
結果として、IBM.ConfigRM は CAA ドメインが shutdown されたと認識し、RSCT ドメインをオフラインにします。その処理の中で cthags サブシステムが停止されます。
  • PowerHA 環境では、cthags を前提とする PowerHA のクラスター・マネージャーがダウンします
  • SSP 環境では、OS がクラッシュし、ノードが halt されます
発生条件
IBM.ConfigRM の起動後 4~8 ヶ月程で問題が発生すると報告されています。
当現象が発生するのは IBM.ConfigRM が管理しているドメインのグループ・リーダーのノードのみであり、その他のノードでは当該関数が発行されないために対象外です。
<グループ・リーダーになっているノードを確認するコマンド>
# lssrc -ls IBM.ConfigRM
出力例)
# lssrc -ls IBM.ConfigRM
Subsystem : IBM.ConfigRM
PID : 6357190
Cluster Name : xxxxxxxx
Node Number : 2
Daemon start time : 04/08/15 14:24:58
Daemon State: Online in m17_cluster, pinned, security disabled
ConfigVersion: 0xaa92179b0000006a
PeerNodes: 2
Group IBM.ConfigRM:
Providers: 2
GroupLeader: "hostname", 0x6e4afdf57edebf3, 1 << "hostname" のところにノード名が出力されます
TieBreaker GroupLeader: m17, 0x6e4afdf57edebf3, 1
Information from malloc about memory use:
Total Space : 0x011202f0 (17957616)
Allocated Space: 0x01063f28 (17186600)
Unused Space : 0x000b91d0 (758224)
Freeable Space : 0x00000000 (0)
<以下略>
業務への影響
システム停止が発生します。
PowerHA 環境でサービス・ノードのシステム・ダウンが発生した場合は、スタンバイ・ノードへのサービス引継ぎが発生します(引継ぎが完了するまで一時的に業務停止)。
SSP 環境で該当 VIOS のダウンが発生した場合は、冗長 VIOS 構成であれば、もう一方の VIOS にフェールオーバーされます(フェールオーバーが完了するまで一時的に VIOC のディスク I/O が停止)。
また、SSP 環境でダウンした VIOS が所属するクラスター内の他の VIOS へのディスク I/O が一時的に停止します。
解決策
下記 APAR の ifix を適用してください。
障害の発生するバージョン
障害の発生するファイルセットレベル
APAR番号
修正予定のバージョン・ファイルセットレベル
RSCT 3.1
AIX 6.1 TL09 Base ~ SP03
rsct.core.rmc 3.1.5.0 ~ 3.1.5.8
IV66606
AIX 6.1 TL09 SP05 (※1) または rsct.core.rmc 3.1.5.9 (※2)
AIX 7.1 TL03 Base ~ SP03
AIX 7.1 TL03 SP05 (※1) または rsct.core.rmc 3.1.5.9 (※2)
VIOS 2.2.3.0 ~ VIOS 2.2.3.3
VIOS 2.2.3.5 (※1) または rsct.core.rmc 3.1.5.9 (※2)
RSCT 3.2
AIX 6.1 TL09 SP04
rsct.core.rmc 3.2.0.0 ~ 3.2.0.4
IV69760
AIX 6.1 TL09 SP05
AIX 7.1 TL03 SP04
AIX 7.1 TL03 SP05
VIOS 2.2.3.4
VIOS 2.2.3.5
テクニカル・フラッシュ発行時点(2015/5/27)では、ifix は APAR に記載されている https の URL よりダウンロードが可能です。
ifix の適用方法などにつきましては、ご契約のサポート窓口にお問い合わせください。
※1 AIX 6.1 TL09/AIX 7.1 TL03 を SP05へアップデートする場合、アップデート後の RSCT のバージョンは V3.2 になります
※2 上記 APAR IV66606 の URL 内のリンク先 (Obtain the fix for this APAR) からダウンロード可能です
解決策追記 【2015/7/14 追記】 【2015/8/24 修正】 【2016/7/28 修正】
下記 APAR もしくは ifix を適用してください。
RSCT
障害の発生するバージョン
障害の発生するファイルセットレベル 
APAR番号
APAR提供
考慮事項
APAR もしくは最新 ifix 入手元
RSCT 3.1
 AIX 6.1 TL09 Base ~ SP03
 AIX 7.1 TL03 Base ~ SP03
 VIOS 2.2.3.0 ~ VIOS 2.2.3.3
 rsct.core.rmc 3.1.5.0 ~ 3.1.5.8
 IV66606
提供済み
個別APAR適用、もしくはSP適用による対応
  • IV66606  rsct.core.rmc 3.1.5.9 (RSCT は 3.1 レベルのまま)
  • AIX 6.1 TL09 SP05, AIX 7.1 TL03 SP05, VIOS 2.2.3.5 (RSCT は 3.2 レベルとなります)
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。
以下の新しい ifix 適用による対応
  • IV66606m8b.150817.epkg.Z (フラッシュ追記時点の最新)
  • IV66606.150319.epkg.Z
  • IV66606.2a.150306.epkg.Z
これらは、IV71572 (※3) の修正が含まれるコンボ ifix のため、IV71572 への対応は不要です。
以下の初期に提供された ifix による対応
IV66606.2.150225.epkg.Z
IV66606.1.150225.epkg.Z
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。
https://www.ibm.com/support/pages/apar/IV66606
RSCT 3.2
 AIX 6.1 TL09 SP04 ~
 AIX 7.1 TL03 SP04 ~
 VIOS 2.2.3.4
 rsct.core.rmc 3.2.0.0 ~ 3.2.0.4
 IV69760
提供済み
個別APAR適用、もしくはSP適用による対応
  • IV69760 rsct.core.rmc 3.2.0.5
  • AIX 6.1 TL09 SP05, AIX 7.1 TL03 SP05, VIOS 2.2.3.5
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。
以下の新しい ifix による対応
  • IV69760m5b.150817.epkg.Z (フラッシュ追記時点の最新)
  • IV69760.150319.epkg.Z
  • IV66606.3a.150306.epkg.Z
これらは、IV71572 (※3) の修正が含まれるコンボ ifix のため、IV71572 への対応は不要です。
以下の初期に提供された ifix による対応
  • IV66606.3.150225.epkg.Z
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。
https://www.ibm.com/support/pages/apar/IV69760
※3 【参考】
テクニカル・フラッシュ「RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法」
APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
回避策
IBM.ConfigRM の 4~8 ヶ月の連続稼動で発生する事象のため、定期的に OS を再起動することで予防してください。
OS 再起動のタイミングは、svmon コマンドで IBM.ConfigRM の使用メモリー量を監視し、 Esid:2 の Range の部分の差がなくなる前に実施してください(以下の例を参照)。
例)
以下の例では 65251 - 4503 = 60748 ページ空きがあります。
この差が 100 ページ以下になる前に OS の再起動を実施ください。
# ps -ef|grep IBM.Config
root 6357190 3604652 0 14:24:56 - 0:01 /usr/sbin/rsct/bin/IBM.ConfigRMd
# svmon -rwP 6357190
-------------------------------------------------------------------------------
Pid Command Inuse Pin Pgsp Virtual 64-bit Mthrd 16MB
6357190 IBM.ConfigRMd 27415 22330 0 27415 N Y N
PageSize Inuse Pin Pgsp Virtual
s 4 KB 5959 5850 0 5959
m 64 KB 1341 1030 0 1341
L 16 MB 0 0 0 0
S 16 GB 0 0 0 0
Vsid Esid Type Description PSize Inuse Pin Pgsp Virtual
9000 d work shared library text m 677 412 0 677
Addr Range: 0..760
4002 0 work kernel segment m 664 618 0 664
Addr Range: 0..1769
8143ca 2 work process private sm 4586 4572 0 4586    << Esid 2
Addr Range: 0..4503 : 65251..65535 << Rangeの部分が 0-4503, 65251-65535
80e527 f work shared library data sm 1257 1257 0 1257
Addr Range: 0..4870
8084e4 - work s 116 21 0 116
Addr Range: 0..545

[{"Type":"MASTER","Line of Business":{"code":"LOB08","label":"Cognitive Systems"},"Business Unit":{"code":"BU054","label":"Systems w\/TPS"},"Product":{"code":"SSPHQG","label":"PowerHA SystemMirror"},"ARM Category":[{"code":"a8m3p000000hAumAAE","label":"PowerHA System Mirror"}],"Platform":[{"code":"PF025","label":"Platform Independent"}],"Version":"All Versions"}]

Document Information

Modified date:
13 February 2023

UID

ibm16852113