情報源としてのシステム・ログの使用
System Automation のすべてのサブシステムおよび RSCT によって生成されるメッセージは、トラブルシューティングおよび問題判別の最初の情報源です。
- Linux®: メッセージはシステム・ログ (
/var/log/messages
) に書き込まれます。 - AIX®: システム・ロガーはデフォルトでは構成されません。 メッセージは、エラー・ログに書き込まれます。
デバッグ・データを入手できるようにするため、ファイル
/etc/syslog.conf
で システム・ロガーを構成することをお勧めします。 必要な変更を行ったら、コマンド refresh –s syslogdを使用してsyslogd
をリサイクルする必要があります。 ログ・ファイルのロケーションは/etc/syslog.conf
に定義されています。
メッセージは、以下のイベントのシステム・ログに記録されています。
- サブシステムの開始。例えば、次のとおりです。
Mar 10 13:04:15 node1 RecoveryRM[5482]: (Recorded using libct_ffdc.a cv 2):::Error ID: 824....zgK22/WNI/8cU0B....................:::Reference ID: :::Template ID: 0:::Details File: :::Location: RSCT,IBM.RecoveryRMd.C,1.21.1.2,135 :::RECOVERYRM_INFO_0_ST IBM.RecoveryRM daemon has started.
- サブシステムの停止。例えば、次のとおりです。
Mar 10 13:04:28 node1 RecoveryRM[5482]: (Recorded using libct_ffdc.a cv 2):::Error ID: 822....AhK22/osT18cU0B....................:::Reference ID: :::Template ID: 0:::Details File: :::Location: RSCT,RecoveryRMDaemon.C,1.14,177 :::RECOVERYRM_2621_402_ER IBM.RecoveryRM daemon stopped by SRC command or exiting due to an error condition . Error id 0
- サブシステムのエラー。例えば、次のとおりです。
Mar 10 13:04:14 node1 srcmstr: src_error=-9035, errno=0, module='srchevn.c'@line:'251', 0513-035 The IBM.RecoveryRM Subsystem ended abnormally. SRC will try and restart it.
- サブクラスターの Quorum 状態に関連するメッセージ。例えば、次のとおりです。
Mar 9 16:13:07 node1 ConfigRM[31411]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID: :::Template ID: 0:::Details File: :::Location: RSCT,PeerDomain.C,1.99.11.1,15510 :::CONFIGRM_HASQUORUM_ST The operational quorum state of the active peer domain has changed to HAS_QUORUM. In this state, cluster resources may be recovered and controlled as needed by management applications.
IBM.ServiceIP
リソースの開始および停止。例えば、次のとおりです。Mar 8 09:41:08 node1 GblResRM[1886]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID: :::Template ID: 0:::Details File: :::Location: RSCT,ServiceIP.C,1.2.5,1360 :::GBLRESRM_IPONLINE IBM.ServiceIP assigned address on device. IBM.ServiceIP 10.67.78.89 eth1:1 Mar 8 09:42:44 node1 GblResRM[1886]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID: :::Template ID: 0:::Details File: :::Location: RSCT,ServiceIP.C,1.2.5,1434 :::GBLRESRM_IPOFFLINE IBM.ServiceIP removed address. IBM.ServiceIP 10.67.78.89
- クラス
IBM.Application
のリソースの StartCommand、StopCommand、または MonitorCommand はタイムアウトになります。例えば、次のとおりです。Mar 13 10:25:55 node1 GblResRM[24275]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID: :::Template ID: 0:::Details File: :::Location: RSCT,Application.C,1.2.1,2434 :::GBLRESRM_MONITOR_TIMEOUT IBM.Application monitor command timed out. Resource name resource1
ヒント: デフォルトでログに記録されるデータに加えて、
IBM.Application
リソースの StartCommand および StopCommand の実行を特定の場所に記録することをお勧めします。System Automation 用の既製のポリシーが備えるスクリプトは、デフォルトでは、リソースの StartCommand および StopCommand のすべての実行をシステム・ログに記録します。 以下の出力例で、リソースが NFS サーバー用の既製のポリシーの StartCommand から開始される際に、システム・ログに書き込まれるデータを示します。
Mar 13 10:34:31 node1 /usr/sbin/rsct/sapolicies/nfsserver/nfsserverctrl-
server:[27230]: NFS server started