IBM Support

ConfigRM メモリー・リークにより CAA クラスターでノード・ダウンが発生する問題 (2016/7/28 更新)

Flashes (Alerts)


Abstract

IBM.ConfigRM サブシステム処理内のメモリー・リークの障害のため、CAA クラスターで予期せぬノード・ダウンが発生します。 解決策および回避策をお知らせします。

Content

更新ログ


(2015/07/15 11:30) IV71572情報を追記
(2015/08/24 19:43) 対象レベルの更新
(2016/07/28 11:39) 最新ifix情報の追記
(2016/07/28 13:53) タイトル修正


【2016/7/28 追記】

新しい ifix (IV71572 の修正を含み、CAA の start/stop が不要)が提供されています。
従いまして、2015/7/14の追記事項につきましては、新しい ifix を適用して頂くことで、対応が不要になりました。


【2015/7/14 追記】

当テクニカル・フラッシュの現象に対応するために ConfigRM メモリー・リーク対応 APAR もしくは ifix を適用すると、shutdown コマンドの実行によりカーネル・パニックが発生する様になる可能性が有ります。(APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT)。

【参考】
テクニカル・フラッシュ「RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法」
http://www-01.ibm.com/support/docview.wss?uid=jpn1J1012477

APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
https://www-304.ibm.com/support/entdocview.wss?uid=isg1IV71572

この障害 IV71572 の対応が必要となるケースにつきましては、当テクニカル・フラッシュの「解決策」後の解決策追記における考慮事項に記載しておりますので、ご参照ください。


【対象となるシステム】
以下の (1) and (2) の条件を満たす場合、当現象が発生します。

(1) Cluster Aware AIX (CAA) クラスターを利用する機能/製品を使用しているシステム
  • PowerHA SystemMirror for AIX V7.1 以降が導入されている環境
or
  • Virtual I/O Server (VIOS) で Shared Storage Pool(SSP) を使用している環境

(2) 導入されている rsct.core.rmc のバージョンが以下に該当するシステム
  • rsct.core.rmc 3.1.5.0 から 3.1.5.8
or
  • rsct.core.rmc 3.2.0.0 から 3.2.0.4

<バージョンの確認方法>

# lslpp -l | grep rsct.core.rmc
※ VIOS では、oem_setup_env 実行後、UNIX root シェル内で実行してください。

出力例)

# lslpp -l | grep rsct.core.rmc
rsct.core.rmc 3.2.0.0 COMMITTED RSCT Resource Monitoring and

該当の RSCT のバージョンは以下の AIX、VIOS に含まれます。
  • AIX V6.1 TL 9
  • AIX V7.1 TL 3
  • VIOS V2.2.3

<バージョンの確認方法>

# oslevel -s

出力例)

# oslevel -s
7100-03-04-1441

AIX の TL とは別に RSCT のファイルセットを個別に該当レベルまでアップデートしている場合も対象となります。


【障害内容】
IBM.ConfigRM サブシステムがドメイン内の他メンバーからの問い合わせを受ける処理でメモリー・リークし、メモリーが確保できない状況でリソース管理の関数が失敗します。

結果として、IBM.ConfigRM は CAA ドメインが shutdown されたと認識し、RSCT ドメインをオフラインにします。その処理の中で cthags サブシステムが停止されます。
  • PowerHA 環境では、cthags を前提とする PowerHA のクラスター・マネージャーがダウンします
  • SSP 環境では、OS がクラッシュし、ノードが halt されます



  • 【発生条件】
    IBM.ConfigRM の起動後 4~8 ヶ月程で問題が発生すると報告されています。
    当現象が発生するのは IBM.ConfigRM が管理しているドメインのグループ・リーダーのノードのみであり、その他のノードでは当該関数が発行されないために対象外です。

    <グループ・リーダーになっているノードを確認するコマンド>

    # lssrc -ls IBM.ConfigRM

    出力例)

    # lssrc -ls IBM.ConfigRM
    Subsystem : IBM.ConfigRM
    PID : 6357190
    Cluster Name : xxxxxxxx
    Node Number : 2
    Daemon start time : 04/08/15 14:24:58

    Daemon State: Online in m17_cluster, pinned, security disabled

    ConfigVersion: 0xaa92179b0000006a
    PeerNodes: 2
    Group IBM.ConfigRM:
    Providers: 2
    GroupLeader: "hostname", 0x6e4afdf57edebf3, 1 << "hostname" のところにノード名が出力されます
    TieBreaker GroupLeader: m17, 0x6e4afdf57edebf3, 1

    Information from malloc about memory use:
    Total Space : 0x011202f0 (17957616)
    Allocated Space: 0x01063f28 (17186600)
    Unused Space : 0x000b91d0 (758224)
    Freeable Space : 0x00000000 (0)

    <以下略>


    【業務への影響】
    システム停止が発生します。
    PowerHA 環境でサービス・ノードのシステム・ダウンが発生した場合は、スタンバイ・ノードへのサービス引継ぎが発生します(引継ぎが完了するまで一時的に業務停止)。
    SSP 環境で該当 VIOS のダウンが発生した場合は、冗長 VIOS 構成であれば、もう一方の VIOS にフェールオーバーされます(フェールオーバーが完了するまで一時的に VIOC のディスク I/O が停止)。
    また、SSP 環境でダウンした VIOS が所属するクラスター内の他の VIOS へのディスク I/O が一時的に停止します。


    【解決策】
    下記 APAR の ifix を適用してください。

    障害の発生するバージョン障害の発生するファイルセットレベルAPAR番号修正予定のバージョン・ファイルセットレベル
    RSCT 3.1
    AIX 6.1 TL09 Base ~ SP03 rsct.core.rmc 3.1.5.0 ~ 3.1.5.8 IV66606 AIX 6.1 TL09 SP05 (※1) または rsct.core.rmc 3.1.5.9 (※2)
    AIX 7.1 TL03 Base ~ SP03 AIX 7.1 TL03 SP05 (※1) または rsct.core.rmc 3.1.5.9 (※2)
    VIOS 2.2.3.0 ~ VIOS 2.2.3.3 VIOS 2.2.3.5 (※1) または rsct.core.rmc 3.1.5.9 (※2)
    RSCT 3.2
    AIX 6.1 TL09 SP04 rsct.core.rmc 3.2.0.0 ~ 3.2.0.4 IV69760 AIX 6.1 TL09 SP05
    AIX 7.1 TL03 SP04 AIX 7.1 TL03 SP05
    VIOS 2.2.3.4 VIOS 2.2.3.5

    テクニカル・フラッシュ発行時点(2015/5/27)では、ifix は APAR に記載されている https の URL よりダウンロードが可能です。
  • RSCT 3.1

  • IV66606: NODE DOWN IN CAA CLUSTER DUE TO CONFIGRM MEMORY LEAK
  • RSCT 3.2

  • V69760: NODE DOWN IN CAA CLUSTER DUE TO CONFIGRM MEMORY LEAK

    ifix の適用方法などにつきましては、ご契約のサポート窓口にお問い合わせください。
       ※1 AIX 6.1 TL09/AIX 7.1 TL03 を SP05へアップデートする場合、アップデート後の RSCT のバージョンは V3.2 になります
       ※2 上記 APAR IV66606 の URL 内のリンク先 (Obtain the fix for this APAR) からダウンロード可能です


    解決策追記 【2015/7/14 追記】 【2015/8/24 修正】 【2016/7/28 修正】

    下記 APAR もしくは ifix を適用してください。

    RSCT障害の発生するバージョン障害の発生するファイルセットレベルAPAR番号APAR提供考慮事項APAR もしくは最新 ifix 入手元
    RSCT 3.1 AIX 6.1 TL09 Base ~ SP03
     AIX 7.1 TL03 Base ~ SP03
     VIOS 2.2.3.0 ~ VIOS 2.2.3.3
     rsct.core.rmc 3.1.5.0 ~ 3.1.5.8 IV66606提供済み個別APAR適用、もしくはSP適用による対応
    • IV66606  rsct.core.rmc 3.1.5.9 (RSCT は 3.1 レベルのまま)
    • AIX 6.1 TL09 SP05, AIX 7.1 TL03 SP05, VIOS 2.2.3.5 (RSCT は 3.2 レベルとなります)

    • この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。

    以下の新しい ifix 適用による対応
    • IV66606m8b.150817.epkg.Z (フラッシュ追記時点の最新)
    • IV66606.150319.epkg.Z
    • IV66606.2a.150306.epkg.Z

    • これらは、IV71572 (※3) の修正が含まれるコンボ ifix のため、IV71572 への対応は不要です。

    以下の初期に提供された ifix による対応
      IV66606.2.150225.epkg.Z
      IV66606.1.150225.epkg.Z
      この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。
    http://www-01.ibm.com/support/docview.wss?uid=isg1IV66606
    RSCT 3.2 AIX 6.1 TL09 SP04 ~
     AIX 7.1 TL03 SP04 ~
     VIOS 2.2.3.4
     rsct.core.rmc 3.2.0.0 ~ 3.2.0.4 IV69760提供済み個別APAR適用、もしくはSP適用による対応
    • IV69760 rsct.core.rmc 3.2.0.5
    • AIX 6.1 TL09 SP05, AIX 7.1 TL03 SP05, VIOS 2.2.3.5

    • この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。

    以下の新しい ifix による対応
    • IV69760m5b.150817.epkg.Z (フラッシュ追記時点の最新)
    • IV69760.150319.epkg.Z
    • IV66606.3a.150306.epkg.Z

    • これらは、IV71572 (※3) の修正が含まれるコンボ ifix のため、IV71572 への対応は不要です。

    以下の初期に提供された ifix による対応
    • IV66606.3.150225.epkg.Z

    • この場合、副作用として IV71572 (※3) の障害が発生する為、必要に応じて回避を行ってください。
    http://www-01.ibm.com/support/docview.wss?uid=isg1IV69760

    ※3 【参考】

    テクニカル・フラッシュ「RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法」
    http://www-01.ibm.com/support/docview.wss?uid=jpn1J1012477

    APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
    https://www-304.ibm.com/support/entdocview.wss?uid=isg1IV71572


    【回避策】
    IBM.ConfigRM の 4~8 ヶ月の連続稼動で発生する事象のため、定期的に OS を再起動することで予防してください。
    OS 再起動のタイミングは、svmon コマンドで IBM.ConfigRM の使用メモリー量を監視し、 Esid:2 の Range の部分の差がなくなる前に実施してください(以下の例を参照)。

    例)
    以下の例では 65251 - 4503 = 60748 ページ空きがあります。
    この差が 100 ページ以下になる前に OS の再起動を実施してください。

    # ps -ef|grep IBM.Config
    root 6357190 3604652 0 14:24:56 - 0:01 /usr/sbin/rsct/bin/IBM.ConfigRMd

    # svmon -rwP 6357190

    -------------------------------------------------------------------------------
    Pid Command Inuse Pin Pgsp Virtual 64-bit Mthrd 16MB
    6357190 IBM.ConfigRMd 27415 22330 0 27415 N Y N

    PageSize Inuse Pin Pgsp Virtual
    s 4 KB 5959 5850 0 5959
    m 64 KB 1341 1030 0 1341
    L 16 MB 0 0 0 0
    S 16 GB 0 0 0 0

    Vsid Esid Type Description PSize Inuse Pin Pgsp Virtual
    9000 d work shared library text m 677 412 0 677
    Addr Range: 0..760
    4002 0 work kernel segment m 664 618 0 664
    Addr Range: 0..1769
    8143ca 2 work process private sm 4586 4572 0 4586    << Esid 2
    Addr Range: 0..4503 : 65251..65535 << Rangeの部分が 0-4503, 65251-65535
    80e527 f work shared library data sm 1257 1257 0 1257
    Addr Range: 0..4870
    8084e4 - work s 116 21 0 116
    Addr Range: 0..545


    以上

    [{"Product":{"code":"SUPPORT","label":"IBM Worldwide Support"},"Business Unit":{"code":"BU051","label":"N\/A"},"Component":" ","Platform":[{"code":"","label":""}],"Version":"","Edition":"","Line of Business":{"code":"LOB33","label":"N\/A"}},{"Product":{"code":"SSO02QC","label":"IBM Virtual I\/O Server"},"Business Unit":{"code":"BU058","label":"IBM Infrastructure w\/TPS"},"Component":" ","Platform":[{"code":"","label":""}],"Version":"","Edition":"","Line of Business":{"code":"LOB57","label":"Power"}}]

    Historical Number

    A226712CA686B39249257E5200041DA6

    Product Synonym

    対象システム:Power Systems;PowerHA;VIOS;Virtual I/O Server;SSP;Shared Storage Pool;AIX

    Document Information

    Modified date:
    26 September 2022

    UID

    jpn1J1012423