lsb.acct

lsb.acct ファイルは、 LSFのバッチ・ジョブ・ログ・ファイルです。

管理 バッチ・デーモン (mbatchd) は、ジョブの完了または失敗ごとにレコードを生成します。 レコードは、ジョブ・ログ・ファイル lsb.acctに追加されます。

このファイルは LSB_SHAREDIR/cluster_name/logdir ディレクトリーにあります。ここで、 LSB_SHAREDIR パラメーターは lsf.conf で定義する必要があり、 cluster_namelsidによって返される LSF クラスターの名前です。

bacct コマンドは、現在の lsb.acct ファイルを出力に使用します。

lsb.acct 構造体

ジョブ・ログ・ファイルは、1 行に 1 レコードの ASCII ファイルです。 レコードのフィールドはブランクで区切られます。 いずれかのフィールドの値が使用できない場合は、文字ストリングの場合は二重引用符 ("") のペアがログに記録され、時刻と数値の場合は 0、リソース使用量の場合は -1 がログに記録されます。

自動アーカイブの構成

lsb.params の以下のパラメーターは、レコードが lsb.acctに記録される方法に影響します。
ACCT_ARCHIVE_AGE=
LSF アカウンティング・ログ・ファイルの自動アーカイブを使用可能にし、アーカイブ間隔を指定します。 LSF は、作成日からの時間が指定された日数を超えると、現在のログ・ファイルをアーカイブします。

デフォルトでは、 lsb.acctの存続期間に制限はありません。

Acct_archive_size=キロバイト
LSF アカウンティング・ログ・ファイルの自動アーカイブを使用可能にし、アーカイブしきい値を指定します。 LSF は、現在のログ・ファイルのサイズが指定されたキロバイト数を超えると、そのログ・ファイルをアーカイブします。

デフォルトでは、 lsb.acctのサイズに制限はありません。

ACCT_ARCHIVE_TIME=hh:mm
LSF アカウンティング・ログ・ファイル lsb.acctの自動アーカイブを使用可能にし、現在のログ・ファイルをアーカイブする時刻を指定します。

デフォルトでは、 lsb.acctをアーカイブする時間は設定されていません。

MAX_ACCT_ARCHIVE_FILE=整数
アーカイブされた LSF アカウンティング・ログ・ファイルの自動削除を有効にし、アーカイブ制限を指定します。

デフォルトでは、 lsb.acct.n 個のファイルは自動的に削除されません。

レコードおよびフィールド

レコードのフィールドはブランクで区切られます。 イベント・レコードの最初のストリングは、そのタイプを示します。 以下のタイプのイベントが記録されます。
  • ジョブ終了
  • イベント・データ・サーバー終了
  • ジョブのサイズ

ジョブ終了

ジョブが終了しました。

lsf.confで LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " が指定されている場合、古いデーモンおよびコマンド (LSF バージョン 6.0より前) は lsb.acct ファイル・フォーマットを認識できません。

フィールドの出現順は、以下のとおりです。
イベント・タイプ (%s)
これは JOB_FINISH です。
バージョン番号 (%s)
ログ・ファイル・フォーマットのバージョン番号
イベント時間 (%d)
イベントがログに記録された時刻 (エポックからの秒数)
jobId (%d)
ジョブの ID
userId (%d)
実行依頼者の UNIX ユーザー ID
オプション (%d)
ジョブ処理のビット・フラグ
numProcessors (%d)
最初に実行を要求されたプロセッサーの数
submitTime (%d)
ジョブ実行依頼時刻
beginTime (%d)
ジョブ開始時刻-ジョブはこの時刻以降に開始する必要があります。
termTime (%d)
ジョブ終了締切-この時刻までにジョブを終了する必要があります。
startTime (%d)
ジョブ・ディスパッチ時間-ジョブが実行のためにディスパッチされた時間
userName (%s)
実行依頼者のユーザー名
キュー (%s)
ジョブが投入されたジョブ待ち行列の名前
resReq (%s)
ユーザーによって指定されたリソース要件
dependCond (%s)
ユーザーによって指定されたジョブ依存関係条件
preExecコマンド (%s)
ユーザーによって指定された実行前コマンド
fromHost (%s)
サブミット・ホスト名
cwd (%s)
現行作業ディレクトリー (UNIX の場合は最大 4094 文字、Windows の場合は 512 文字)、または bsub -cwd で指定された現行作業ディレクトリー (そのコマンドが使用された場合)
inFile (%s)
入力ファイル名 (UNIX の場合は最大 4094 文字、Windows の場合は最大 512 文字)
outFile (%s)
出力ファイル名 (UNIX の場合は最大 4094 文字、Windows の場合は最大 512 文字)
errFile (%s)
エラー出力ファイル名 (UNIX の場合は 4094 文字まで、Windows の場合は 512 文字まで)
jobFile (%s)
ジョブ・スクリプト・ファイル名
numAsked(%d)
ジョブ・ディスパッチングが制限されるホスト名の数
askedHosts (%s)
ジョブ・ディスパッチングが制限されるホスト名のリスト (それぞれに%s )。最後のフィールド値が 0 の場合、この値のレコードには何も記録されません。 複数のホスト名がある場合は、追加の各ホスト名が独自のフィールドに戻されます。
numEx個のホスト (%d)
実行に使用されるプロセッサーの数

lsf.confに LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " が指定されている場合、このフィールドの値は、 execHosts フィールドにリストされているホストの数です。

ログに記録された値は、ジョブ終了時の割り振りを反映します。

execHosts (%s)
実行ホスト名のリスト (それぞれに%s )。最後のフィールド値が 0 の場合、この値のレコードには何も記録されません。

lsf.confに LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " が指定されている場合、このフィールドの値は短縮フォーマットでログに記録されます。

ログに記録された値は、ジョブ終了時の割り振りを反映します。

jStatus (%d)
ジョブ状況。 数値 32 は EXIT を表し、64 は DONE を表します。
hostFactor (%f)
最初の実行ホストの CPU 係数。
jobName (%s)
ジョブ名 (最大 4094 文字)。
コマンド (%s)
ユーザーによって指定された完全なバッチ・ジョブ・コマンド (UNIX の場合は最大 4094 文字、Windows の場合は 512 文字)。
lsfRusage
以下のフィールドには、ジョブのリソース使用情報が含まれます ( getrusage(2) を参照)。 一部のフィールドの値が (ジョブ出口またはオペレーティング・システム間の相違のために) 使用できない場合は、-1 がログに記録されます。 時間は秒単位で測定され、サイズは KB 単位で測定されます。
ru_utime (%f)
使用されたユーザー時間
ru_stime (%f)
使用されたシステム時刻
ru_maxrss (%f)
最大共有テキスト・サイズ
ru_ixrss (%f)
一定期間にわたる共有テキスト・サイズの整数 (KB 秒単位)
ru_ismrss (%f)
一定期間にわたる共有メモリー・サイズの整数 (Ultrix でのみ有効)
ru_idrss (%f)
一定期間にわたる非共有データ・サイズの整数
ru_isrss (%f)
一定期間にわたる非共有スタック・サイズの整数
ru_minflt (%f)
ページ再利用の数
ru_majflt (%f)
ページ・フォールトの数
ru_nswap (%f)
プロセスがスワップアウトされた回数。
ru_inblock (%f)
ブロック入力操作の数
ru_oublock (%f)
ブロック出力操作の数
ru_ioch (%f)
読み取りおよび書き込みの文字数 ( HP-UXでのみ有効)
ru_msgsnd (%f)
送信された System V IPC メッセージの数
ru_msgrcv (%f)
受信メッセージ数
ru_nsignals (%f)
受信したシグナルの数
ru_nvcsw (%f)
任意のコンテキスト・スイッチの数
ru_nivcsw (%f)
非自発的コンテキスト・スイッチの数
ru_exutime (%f)
使用された正確なユーザー時間 ( ConvexOSでのみ有効)
mailUser (%s)
ジョブ関連メールが送信されたユーザーの名前
projectName (%s)
LSF プロジェクト名 (最大 59 文字)
exitStatus (%d)
ジョブの UNIX 終了状況
maxNumプロセッサー (%d)
ジョブに指定されたプロセッサーの最大数
loginShell (%s)
ジョブに使用されるログイン・シェル
timeEvent (%s)
ジョブの時間イベント・ストリング- IBM® Spectrum LSF Process Manager のみ
idx (%d)
ジョブ配列指標
maxRMem (%d)
ジョブ内のすべてのプロセスの最大常駐メモリー使用量 (KB)
maxRSwap (%d)
ジョブ内のすべてのプロセスの最大仮想メモリー使用量 (KB)
inFileスプール (%s)
スプール入力ファイル (UNIX の場合は最大 4094 文字、Windows の場合は最大 512 文字)
commandSpool (%s)
スプール・コマンド・ファイル (UNIX の場合は最大 4094 文字、Windows の場合は最大 512 文字)
rsvId %s
120 文字未満の長さのユーザー・グループ名の事前予約 ID。例: "user2#0"

事前予約ユーザー・グループ名が 120 文字より長い場合は、最後に rsvId フィールド出力が表示されます。

sla (%s)
ジョブが実行される SLA サービス・クラス名
exceptMask (%d)
ジョブ例外処理
価値:
  • J_EXCEPT_OVERRUN 0x02
  • J_EXCEPT_UNDERUN 0x04
  • J_EXCEPT_IDLE 0x80
additionalInfo (%s)
HPC ジョブの配置情報
exitInfo (%d)
bacctによって表示される、対応する終了キーワードにマップされるジョブ終了理由。
warningAction (%s)
ジョブ警告アクション
warningTime期間 (%d)
ジョブ警告期間 (秒)
chargedSAAP (%s)
ジョブに請求された AAP
licenseProject (%s)
IBM Spectrum LSF License Scheduler プロジェクト名
アプリ (%s)
アプリケーション・プロファイル名
postExecコマンド (%s)
ジョブの終了後に実行ホストで実行する実行後コマンド
runtimeEstimation (%d)
ジョブの推定実行時間。実行依頼ホストの CPU 係数にランタイム推定値 (秒単位) を乗算して算出されます。
jobGroup名 (%s)
ジョブ・グループ名
requeueEvalues (%s)
終了値の再キューイング
options2 (%d)
ジョブ処理のビット・フラグ
resizeNotifyコマンド (%s)
サイズ変更要求時に最初の実行ホストで呼び出されるサイズ変更通知コマンド。
lastResize時間 (%d)
最終サイズ変更時刻。 ジョブ割り振りが変更されたときの最新の壁時計時刻。
rsvId %s
120 文字を超える長さのユーザー・グループ名の事前予約 ID。

事前予約ユーザー・グループ名が 120 文字より長い場合は、最後に rsvId フィールド出力が表示されます。

jobDescription (%s)
ジョブ記述 (最大 4094 文字)。
submitEXT
サブミット拡張フィールド。内部使用のために予約されています。
数値 (%d)
構造内のエレメントの数 (キーと値のペア)。
キー (%s)
内部使用のために予約されています。
値 (%s)
内部使用のために予約されています。
numHost日 (%d)
後続のホスト・ベース・リソース使用エントリー (hostRusage) の数。 デフォルトで有効になります。
hostRusage
以下のフィールドには、ジョブのホスト・ベースのリソース使用量情報が含まれます。 hostRusage のレポートを無効にするには、 lsf.confLSF_HPC_EXTENSIONS=NO_HOST_RUSAGE を設定します。
ホスト名 (%s)
ホストの名前。
メモリー (%d)
このホストで実行されているジョブのすべてのプロセスの常駐メモリー使用量の合計。
スワップ (%d)
このホストで実行されているジョブのすべてのプロセスの仮想メモリー使用量の合計。
utime (%d)
このホストで使用されたユーザー時間。
stime (%d)
このホストで使用されたシステム時刻。
options3 (%d)
ジョブ処理のビット・フラグ
runLimit (%d)
ジョブ実行依頼のランタイム制限
avgMem (%d)
ジョブの平均メモリー使用量
effectiveRes求人ポジション (%s)
ジョブに使用されるランタイム・リソース要件。
srcCluster (%s)
実行依頼クラスターの名前
srcJobID (%d)
実行依頼クラスターのジョブ ID
dstCluster (%s)
実行クラスターの名前。
dstJobID (%d)
実行クラスター・ジョブ ID
forwardTime (%d)
ジョブの転送時間。
flow_id (%d)
内部使用。
acJobWaitTime (%d)
内部使用のために予約されています。
totalProvision時間 (%d)
内部使用のために予約されています。
outdir (%s)
出力ディレクトリー。
runTime (%d)
ジョブが実行状態にあった時間 (秒単位)。 runTime には、 totalProvisionTimeが含まれます。
subcwd (%s)
実行依頼の現行作業ディレクトリー。
num_network (%d)
割り振られたネットワークの数。
networkAlloc
ネットワーク割り振り情報のリスト。 最後のフィールド値が 0 の場合、この値のレコードには何も記録されません。
networkID (%s)
networkID アレイが割り振られました。
num_window (%d)
割り振られたウィンドウ数の配列。
アフィニティー (%s)
アフィニティー割り振り情報。
serial_job_energy (%f)
シリアル・ジョブ・エネルギー・データ。
cpi (%f)
命令ごとのサイクル数。
GIPS (%f)
1 秒当たりのギガ命令数。
gbs (%f)
ギガバイト/秒。
浮動小数点 (%f)
ギガ浮動小数点演算/秒。
numAllocスロット (%d)
割り振られたスロットの数。
allocSlots(%s)
スロットが割り振られている実行ホスト名のリスト。
ineligiblePend時刻 (%d)
ジョブが不適格保留状態になっている時間 (秒)。
indexRangeCnt (%d)
成功したシグナルを示すエレメント範囲の数
indexRangeStart1 (%d)
最初の索引範囲の開始。
indexRangeEnd1 (%d)
最初の索引範囲の終わり。
indexRangeStep1 (%d)
最初の索引範囲のステップ。
indexRangeStartN (%d)
最後の索引範囲の開始。
indexRangeEndN (%d)
最後の索引範囲の終わり。
indexRangeStepN (%d)
最後の索引範囲のステップ。
requeueTime (%s)
ジョブの再キューイング時間。
numGPURusages (%d)
ホスト・ベース GPU rusage レコードの数。
gRusage
ホスト・ベース GPU rusage のリスト。 最後のフィールド値が 0 の場合、この値のレコードには何も記録されません。
ホスト名 (%s)
現在のホスト名。
numKVP (%d)
構造内のエレメントの数 (キーと値のペア)。
キー (%s)
将来の使用に備えて予約されています。
値 (%s)
将来の使用に備えて予約されています。
storageInfoC (%d)
ストレージ・ステージング情報の数。
storageInfoV (%d)
ストレージ・ステージング情報のリスト。 最後のフィールド値が 0 の場合、この値のレコードには何も記録されません。
finishKVP
numKVP (%d)
構造内のエレメントの数 (キーと値のペア)。
キー (%s)
将来の使用に備えて予約されています。
値 (%s)
将来の使用に備えて予約されています。
schedulingOverhead(%f)

ジョブのスケジューラー・オーバーヘッド (ミリ秒)。 これは、スケジューラーがジョブをディスパッチするために要した合計時間と、スケジューラーがリソースを新規ジョブに再割り振りするために要した時間です。

イベント・データ・サーバー終了

事前予約の有効期限が切れています。 フィールドの出現順は、以下のとおりです。
イベント・タイプ (%s)
これは EVENT_ADRSV_FINISH です。
バージョン番号 (%s)
ログ・ファイル・フォーマットのバージョン番号
イベント・ロギング時間 (%d)
イベントがログに記録された時刻 (エポックからの秒数)。例: "1038942015"
予約作成時刻 (%d)
事前予約が作成された時刻 (エポック以降の秒数)。以下に例を示します。1038938898
予約タイプ (%d)
事前予約要求のタイプ:
  • ユーザー予約 (RSV_OPTION_USER、 0x001として定義)
  • ユーザー・グループ予約 (RSV_OPTION_GROUP、 0x002として定義)
  • システム予約 (RSV_OPTION_SYSTEM、 0x004として定義)
  • 繰り返し予約 (RSV_OPTION_RECUR、 0x008として定義)

例:9ユーザー用に作成された繰り返し予約です。

作成者 ID (%d)
予約作成者の UNIX ユーザー ID。以下に例を示します。30408
予約 ID (rsvId %s)
例:user2#0
ユーザー名 (%s)
予約ユーザーのユーザー名。以下に例を示します。user2
時間枠 (%s)
予約の時間枠:
  • エポック以降の 1 回限りの予約 (秒単位)。以下に例を示します。1033761000-1033761600
  • 繰り返し予約。以下に例を示します。17:50-18:00
作成者名 (%s)
予約作成者のユーザー名。例:user1
期間 (%d)
予約の期間 (時、分、秒)。以下に例を示します。6006 時間、0 分、0 秒
リソースの数 (%d)
リソース・リスト内の予約済みリソース・ペアの数。以下に例を示します。22 つのリソース・ペア (hostA 1 hostB 1)
ホスト名 (%s)
予約ホスト名。例:hostA
CPU の数 (%d)
予約済み CPU の数。以下に例を示します。1

ジョブのサイズ

割り振りが変更されると、LSF は、 mbatchd が JOB_RESIZE_NOTIFY_DONE イベントを受信した後にイベントをログに記録します。 lastResizeTime および eventTimeから、以前のジョブ割り振りの所要時間を計算できます。 フィールドの出現順は、以下のとおりです。
バージョン番号 (%s)
バージョン番号。
イベント時間 (%d)
イベントがログに記録された時刻 (エポックからの秒数)。
jobId (%d)
ジョブの ID。
tdx (%d)
ジョブ配列指標。
startTime (%d)
実行中のジョブの開始時刻。
userId (%d)
コマンドを呼び出すユーザーの UNIX ユーザー ID
userName (%s)
実行依頼者のユーザー名
resizeType (%d)
サイズ変更イベント・タイプ、0、拡大、1 縮小。
lastResize時間 (%d)
ジョブ割り振りが以前に変更された壁時計時刻。 最初の lastResize時刻は、ジョブの開始時刻です。
numExecホスト (%d)
割り振りが変更される前の実行ホストの数。 LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " をサポートします。
execHosts (%s)
割り振りが変更される前の実行ホスト・リスト。 LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " をサポートします。
numResize個のホスト (%d)
サイズ変更中に実行に使用されたプロセッサーの数。 lsf.confに LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " が指定されている場合、このフィールドの値は、短形式でリストされているホストの数です。
resizeHosts (%s)
サイズ変更中の実行ホスト名のリスト。 lsf.confに LSF_HPC_EXTENSIONS = "SHORT_EVENTFILE " が指定されている場合、このフィールドの値は短縮フォーマットでログに記録されます。
numAllocスロット (%d)
割り振られたスロットの数。
allocSlots(%s)
スロットが割り振られている実行ホスト名のリスト。
numResizeスロット (%d)
サイズ変更を実行するために割り振られたスロットの数。
resizeSlots (%s)
サイズ変更のためにスロットが割り振られている実行ホスト名のリスト。