Flashes (Alerts)
Abstract
IBM.ConfigRM サブシステム処理内のメモリー・リークの障害のため、CAA クラスターで予期せぬノード・ダウンが発生します。 解決策および回避策をお知らせします。
Content
更新ログ
(2015/07/15 11:30) IV71572情報を追記
(2015/08/24 19:43) 対象レベルの更新
(2016/07/28 11:39) 最新ifix情報の追記
(2016/07/28 13:53) タイトル修正
【2016/7/28 追記】
新しい ifix (IV71572 の修正を含み、CAA の start/stop が不要)が提供されています。
従いまして、2015/7/14の追記事項につきましては、新しい ifix を適用して頂くことで、対応が不要になりました。
【2015/7/14 追記】
当テクニカル・フラッシュの現象に対応するために ConfigRM メモリー・リーク対応 APAR もしくは ifix を適用すると、shutdown コマンドの実行によりカーネル・パニックが発生する様になる可能性が有ります。(APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT)。
【参考】
テクニカル・フラッシュ「RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法」
http://www-01.ibm.com/support/docview.wss?uid=jpn1J1012477
APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
https://www-304.ibm.com/support/entdocview.wss?uid=isg1IV71572
この障害 IV71572 の対応が必要となるケースにつきましては、当テクニカル・フラッシュの「解決策」後の解決策追記における考慮事項に記載しておりますので、ご参照ください。
【対象となるシステム】
以下の (1) and (2) の条件を満たす場合、当現象が発生します。
(1) Cluster Aware AIX (CAA) クラスターを利用する機能/製品を使用しているシステム
- PowerHA SystemMirror for AIX V7.1 以降が導入されている環境
- Virtual I/O Server (VIOS) で Shared Storage Pool(SSP) を使用している環境
(2) 導入されている rsct.core.rmc のバージョンが以下に該当するシステム
- rsct.core.rmc 3.1.5.0 から 3.1.5.8
- rsct.core.rmc 3.2.0.0 から 3.2.0.4
<バージョンの確認方法>
# lslpp -l | grep rsct.core.rmc
※ VIOS では、oem_setup_env 実行後、UNIX root シェル内で実行してください。
出力例) # lslpp -l | grep rsct.core.rmc rsct.core.rmc 3.2.0.0 COMMITTED RSCT Resource Monitoring and |
該当の RSCT のバージョンは以下の AIX、VIOS に含まれます。
- AIX V6.1 TL 9
- AIX V7.1 TL 3
- VIOS V2.2.3
<バージョンの確認方法>
# oslevel -s
出力例) # oslevel -s 7100-03-04-1441 |
AIX の TL とは別に RSCT のファイルセットを個別に該当レベルまでアップデートしている場合も対象となります。
【障害内容】
IBM.ConfigRM サブシステムがドメイン内の他メンバーからの問い合わせを受ける処理でメモリー・リークし、メモリーが確保できない状況でリソース管理の関数が失敗します。
結果として、IBM.ConfigRM は CAA ドメインが shutdown されたと認識し、RSCT ドメインをオフラインにします。その処理の中で cthags サブシステムが停止されます。
【発生条件】
IBM.ConfigRM の起動後 4~8 ヶ月程で問題が発生すると報告されています。
当現象が発生するのは IBM.ConfigRM が管理しているドメインのグループ・リーダーのノードのみであり、その他のノードでは当該関数が発行されないために対象外です。
<グループ・リーダーになっているノードを確認するコマンド>
# lssrc -ls IBM.ConfigRM
出力例) # lssrc -ls IBM.ConfigRM Subsystem : IBM.ConfigRM PID : 6357190 Cluster Name : xxxxxxxx Node Number : 2 Daemon start time : 04/08/15 14:24:58 Daemon State: Online in m17_cluster, pinned, security disabled ConfigVersion: 0xaa92179b0000006a PeerNodes: 2 Group IBM.ConfigRM: Providers: 2 GroupLeader: "hostname", 0x6e4afdf57edebf3, 1 << "hostname" のところにノード名が出力されます TieBreaker GroupLeader: m17, 0x6e4afdf57edebf3, 1 Information from malloc about memory use: Total Space : 0x011202f0 (17957616) Allocated Space: 0x01063f28 (17186600) Unused Space : 0x000b91d0 (758224) Freeable Space : 0x00000000 (0) <以下略> |
【業務への影響】
システム停止が発生します。
PowerHA 環境でサービス・ノードのシステム・ダウンが発生した場合は、スタンバイ・ノードへのサービス引継ぎが発生します(引継ぎが完了するまで一時的に業務停止)。
SSP 環境で該当 VIOS のダウンが発生した場合は、冗長 VIOS 構成であれば、もう一方の VIOS にフェールオーバーされます(フェールオーバーが完了するまで一時的に VIOC のディスク I/O が停止)。
また、SSP 環境でダウンした VIOS が所属するクラスター内の他の VIOS へのディスク I/O が一時的に停止します。
【解決策】
下記 APAR の ifix を適用してください。
障害の発生するバージョン | 障害の発生するファイルセットレベル | APAR番号 | 修正予定のバージョン・ファイルセットレベル |
RSCT 3.1 | |||
AIX 6.1 TL09 Base ~ SP03 | rsct.core.rmc 3.1.5.0 ~ 3.1.5.8 | IV66606 | AIX 6.1 TL09 SP05 (※1) または rsct.core.rmc 3.1.5.9 (※2) |
AIX 7.1 TL03 Base ~ SP03 | AIX 7.1 TL03 SP05 (※1) または rsct.core.rmc 3.1.5.9 (※2) | ||
VIOS 2.2.3.0 ~ VIOS 2.2.3.3 | VIOS 2.2.3.5 (※1) または rsct.core.rmc 3.1.5.9 (※2) | ||
RSCT 3.2 | |||
AIX 6.1 TL09 SP04 | rsct.core.rmc 3.2.0.0 ~ 3.2.0.4 | IV69760 | AIX 6.1 TL09 SP05 |
AIX 7.1 TL03 SP04 | AIX 7.1 TL03 SP05 | ||
VIOS 2.2.3.4 | VIOS 2.2.3.5 |
テクニカル・フラッシュ発行時点(2015/5/27)では、ifix は APAR に記載されている https の URL よりダウンロードが可能です。
IV66606: NODE DOWN IN CAA CLUSTER DUE TO CONFIGRM MEMORY LEAK
V69760: NODE DOWN IN CAA CLUSTER DUE TO CONFIGRM MEMORY LEAK
ifix の適用方法などにつきましては、ご契約のサポート窓口にお問い合わせください。
※1 AIX 6.1 TL09/AIX 7.1 TL03 を SP05へアップデートする場合、アップデート後の RSCT のバージョンは V3.2 になります
※2 上記 APAR IV66606 の URL 内のリンク先 (Obtain the fix for this APAR) からダウンロード可能です
解決策追記 【2015/7/14 追記】 【2015/8/24 修正】 【2016/7/28 修正】
下記 APAR もしくは ifix を適用してください。
RSCT | 障害の発生するバージョン | 障害の発生するファイルセットレベル | APAR番号 | APAR提供 | 考慮事項 | APAR もしくは最新 ifix 入手元 |
RSCT 3.1 | AIX 6.1 TL09 Base ~ SP03 AIX 7.1 TL03 Base ~ SP03 VIOS 2.2.3.0 ~ VIOS 2.2.3.3 | rsct.core.rmc 3.1.5.0 ~ 3.1.5.8 | IV66606 | 提供済み | 個別APAR適用、もしくはSP適用による対応
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。 以下の新しい ifix 適用による対応
これらは、IV71572 (※3) の修正が含まれるコンボ ifix のため、IV71572 への対応は不要です。 以下の初期に提供された ifix による対応
IV66606.1.150225.epkg.Z この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。 | http://www-01.ibm.com/support/docview.wss?uid=isg1IV66606 |
RSCT 3.2 | AIX 6.1 TL09 SP04 ~ AIX 7.1 TL03 SP04 ~ VIOS 2.2.3.4 | rsct.core.rmc 3.2.0.0 ~ 3.2.0.4 | IV69760 | 提供済み | 個別APAR適用、もしくはSP適用による対応
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。 以下の新しい ifix による対応
これらは、IV71572 (※3) の修正が含まれるコンボ ifix のため、IV71572 への対応は不要です。 以下の初期に提供された ifix による対応
この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。 | http://www-01.ibm.com/support/docview.wss?uid=isg1IV69760 |
※3 【参考】
テクニカル・フラッシュ「RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法」
http://www-01.ibm.com/support/docview.wss?uid=jpn1J1012477
APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
https://www-304.ibm.com/support/entdocview.wss?uid=isg1IV71572
【回避策】
IBM.ConfigRM の 4~8 ヶ月の連続稼動で発生する事象のため、定期的に OS を再起動することで予防してください。
OS 再起動のタイミングは、svmon コマンドで IBM.ConfigRM の使用メモリー量を監視し、 Esid:2 の Range の部分の差がなくなる前に実施してください(以下の例を参照)。
例) 以下の例では 65251 - 4503 = 60748 ページ空きがあります。 この差が 100 ページ以下になる前に OS の再起動を実施してください。 # ps -ef|grep IBM.Config root 6357190 3604652 0 14:24:56 - 0:01 /usr/sbin/rsct/bin/IBM.ConfigRMd # svmon -rwP 6357190 ------------------------------------------------------------------------------- Pid Command Inuse Pin Pgsp Virtual 64-bit Mthrd 16MB 6357190 IBM.ConfigRMd 27415 22330 0 27415 N Y N PageSize Inuse Pin Pgsp Virtual s 4 KB 5959 5850 0 5959 m 64 KB 1341 1030 0 1341 L 16 MB 0 0 0 0 S 16 GB 0 0 0 0 Vsid Esid Type Description PSize Inuse Pin Pgsp Virtual 9000 d work shared library text m 677 412 0 677 Addr Range: 0..760 4002 0 work kernel segment m 664 618 0 664 Addr Range: 0..1769 8143ca 2 work process private sm 4586 4572 0 4586 << Esid 2 Addr Range: 0..4503 : 65251..65535 << Rangeの部分が 0-4503, 65251-65535 80e527 f work shared library data sm 1257 1257 0 1257 Addr Range: 0..4870 8084e4 - work s 116 21 0 116 Addr Range: 0..545 |
以上
[{"Product":{"code":"SUPPORT","label":"IBM Worldwide Support"},"Business Unit":{"code":"BU051","label":"N\/A"},"Component":" ","Platform":[{"code":"","label":""}],"Version":"","Edition":"","Line of Business":{"code":"LOB33","label":"N\/A"}},{"Product":{"code":"SSO02QC","label":"IBM Virtual I\/O Server"},"Business Unit":{"code":"BU058","label":"IBM Infrastructure w\/TPS"},"Component":" ","Platform":[{"code":"","label":""}],"Version":"","Edition":"","Line of Business":{"code":"LOB57","label":"Power"}}]
Historical Number
A226712CA686B39249257E5200041DA6
Product Synonym
対象システム:Power Systems;PowerHA;VIOS;Virtual I/O Server;SSP;Shared Storage Pool;AIX
Was this topic helpful?
Document Information
Modified date:
26 September 2022
UID
jpn1J1012423