IBM Support

RSCT 3.1.5.6/3.2.0.2 以上の PowerHA V7 構成ノードにおいて shutdown を実行するとカーネル・パニックが発生する問題の対処方法

News


Abstract

rsct.basic.rte 3.1.5.6/3.2.0.2 以上で RSCT の仕様が変更になり、CAA の DMS(Deadman Switch) に加えて RSCT グループ・サービス (cthags) の DMS も使用される様になりました。
このテクニカルフラッシュは2015/7/8に公開されたもので、情報はas-isとなっています。

Content

問題の内容
rsct.basic.rte 3.1.5.6/3.2.0.2 以上で RSCT の仕様が変更になり、CAA の DMS(Deadman Switch) に加えて RSCT グループ・サービス (cthags) の DMS も使用される様になりました。
該当するバージョンの PowerHA ノードにおいて shutdown コマンドを発行すると、RSCT DMS タイムアウトが検知されて KERNEL_PANIC となり、例えば「クラッシュした場合に自動的に OS をリブート」する設定のシステムではダンプ取得後に (shutdown -F コマンドを発行したにも関わらず) システムが起動してきてしまう等の状況となる可能性が有ります。
【参考】
APAR IV71572: SHUTDOWN -F ON POWERHA MAY PANIC INSTEAD OF HALT
問題が発生する環境
PowerHA V7 以上且つ rsct.basic.rte のバージョンが 3.1.5.6/3.2.0.2 以上の環境
(AIXの SP では AIX 6.1 TL9 SP5/ AIX 7.1 TL3 SP5 に含まれています)
※ 個別に該当レベル以上の RSCT のファイルセットを適用されている環境も対象となります。
PowerHA クラスターが停止していても該当します。
<PowerHA のバージョンの確認方法>
# /usr/es/sbin/cluster/utilities/halevel
出力例)
# /usr/es/sbin/cluster/utilities/halevel
7.1.3
<RSCT のバージョンの確認方法>
# lslpp -L grep rsct.basic.rte
出力例)
# lslpp -L rsct.basic.rte
Fileset Level State Type Description (Uninstaller)
----------------------------------------------------------------------------
rsct.basic.rte 3.2.0.4 A F RSCT Basic Function
...
<AIX の TL/SP の確認方法>
# oslevel -s
出力例)
# oslevel -s
7100-03-05-1524
shutdown時に出力されるRSCT DMSのエラーログ例
# errpt -a
出力例)
# errpt -a -l 7776
---------------------------------------------------------------------------
LABEL: KERNEL_PANIC
IDENTIFIER: 225E3B63
Date/Time: Fri Jun 26 17:47:04 2015
Sequence Number: 7776
Machine Id: 00F62FC64C00
Node Id: p7108c
Class: S
Type: TEMP
WPAR: Global
Resource Name: PANIC
Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
ASSERT STRING
PANIC STRING
RSCT Dead Man Switch Timeout for CLUSTER; halting non-responsive node
解決策
2015/6/26時点で IV71572 の修正を含む TL/SP は存在しませんが、暫定修正(ifix)は入手可能です。
ifix の入手につきましては、ご契約のサポート窓口までお問合せください。
回避策
/etc/rc.d/rc2.d/Kcluster ファイルの編集により IV71572 の問題を回避可能です。
以下の例に従って、/etc/rc.d/rc2.d/Kcluster ファイルに赤字部分の行を追加してください。
編集例)
case "$1" in
start ) exit 0
;;
stop ) CLNAME=$(/usr/sbin/rsct/bin/ct_clusterinfo -c)
if [[ -n $CLNAME && $CLNAME != "IW" ]]; then
/usr/sbin/rsct/bin/hags_disable_client_kill -s cthags
/usr/sbin/rsct/bin/hags_stopdms -s cthags
stopsrc -s IBM.ConfigRM
exit 0
fi
;;
* ) echo "Usage: $0 (start | stop)"
exit 1
esac
exit 0

[{"Type":"MASTER","Line of Business":{"code":"LOB08","label":"Cognitive Systems"},"Business Unit":{"code":"BU054","label":"Systems w\/TPS"},"Product":{"code":"SSPHQG","label":"PowerHA SystemMirror"},"ARM Category":[{"code":"a8m3p000000hAumAAE","label":"PowerHA System Mirror"}],"Platform":[{"code":"PF025","label":"Platform Independent"}],"Version":"All Versions"}]

Document Information

Modified date:
13 February 2023

UID

ibm16851829