新增和已更改的配置参数和环境变量
以下配置参数和环境变量是 LSF 10.1的新增或已更改。
使用基于时间的自动配置的文件
使用 if-else 构造指定基于时间的自动配置的所有文件现在允许您在指定时间窗口 (包括 lsb.applications, lsb.hosts, lsb.params, lsb.queues和 lsb.resources) 时指定时区。 LSF 支持所有标准时区缩写。 如果未指定时区,那么 LSF 将使用本地系统时区。
install.config
- ENABLE_CGROUP: 在 LSF V 10.1 修订包 2 中,此新参数使 LSF 能够根据 Linux cgroup 内存和 卡普阿克特 子系统来跟踪进程的 CPU 和内存记帐。 如果设置为 Y,那么安装程序将在 lsf.conf 文件中设置参数,以在 LSF中启用这些功能。
- ENABLE_GPU: 在 LSF V 10.1 修订包 2 中,此新参数使 LSF 能够支持 GPU ,以便应用程序可以在 Linux 环境中使用 GPU 资源。 LSF 支持需要基于可用性的 GPU 的并行作业。 如果设置为 Y,那么安装程序会在 lsf.conf 文件中设置参数,以在 LSF中启用这些功能,并将资源定义添加到 GPU 资源的 lsf.cluster.cluster_name 和 lsf.shared 文件中。
lsb.applications
- ELIGIBLE_PEND_TIME_LIMIT: 指定应用程序概要文件中作业的合格暂挂时间限制。
- PEND_TIME_LIMIT: 指定应用程序概要文件中作业的暂挂时间限制。
- CONTAINER: 在 LSF V 10.1 修订包 1 中,此新参数使 Docker 容器作业能够使用 docker [] 关键字在应用程序概要文件中运行。
在 LSF V 10.1 修订包 2 中,通过使用 shifter [] 和 singularity [] 关键字,使 Shifter 和 Singularity 容器作业能够在应用程序概要文件中运行。
在 LSF V 10.1 修订包 3 中,通过在 option () 关键字中指定脚本的 at 符号 (@) 和完整文件路径,允许您指定要在容器作业运行之前运行的预执行脚本。 此脚本的输出用作容器启动选项。
在 LSF V 10.1 修订包 4 中, starter [] 关键字已过时。
- EXEC_DRIVER: 在 LSF V 10.1 修订包 4 中,此新参数指定应用程序概要文件的执行驱动程序框架。
- #INCLUDE: 在 LSF V 10.1 修订包 5 和修订包 6 中,现在可以在此文件中的任何位置使用此伪指令。 先前,只能在 lsb.applications 文件的开头使用此伪指令。
- PRIORITY: 在 LSF V 10.1 修订包 5 和修订包 6 中,此新参数指定在计算绝对优先级调度 (APS) 的作业优先级时用作因子的优先级。
- ESTIMATED_RUNTIME: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入此参数是为应用程序中的作业配置估算运行时,旨在替换 lsb.applications 文件中的现有 RUNTIME 参数。 还可以在队列级别 (lsb.queues 文件) 和集群级别 (lsb.params 文件) 进行配置。
- PLAN: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入了此参数以便在使用参数 ALLOCATION_PLANNER=Y启用基于计划的调度时使用。 此参数控制作业是否是基于计划的调度的候选者。 还可以在队列级别 (lsb.queues 文件) ,集群级别 (lsb.params 文件) 和作业级别进行配置。
- GPU_REQ: 在 LSF V 10.1 修订包 6 中,此新参数指定应用程序概要文件的 GPU 需求。
在 LSF V 10.1 修订包 8 中, GPU_REQ 具有以下更改:
- 现在可以在 GPU 需求中指定 aff=no ,以在保持 CPU 亲缘关系的同时放宽 GPU 亲缘关系。 缺省情况下, aff=no 设置为保持严格的 GPU-CPU 亲缘关系绑定。
- 现在,可以在 GPU 需求中指定 mps=yes,share ,以使 LSF 能够为具有相同资源需求的同一用户提交的所有作业共享每个主机一个 MPS 守护程序,并且这些作业在主机上使用相同的 MPS 守护程序。
- 现在,您可以在 GPU 需求中指定 mps=per_socket ,以允许 LSF 针对每个作业的每个套接字启动一个 MPS 守护程序。 您还可以使用 mps=per_socket,share 来启用 LSF ,以便为具有相同资源需求的同一用户提交的所有作业共享每个套接字的一个 MPS 守护程序,并且这些作业对套接字使用相同的 MPS 守护程序。
- 现在,您可以在 GPU 需求中指定 mps=per_gpu ,以允许 LSF 针对每个作业的每个 GPU 启动一个 MPS 守护程序。 您还可以使用 mps=per_gpu,share 来使 LSF 能够为具有相同资源需求的同一用户提交的所有作业共享每个 GPU 的一个 MPS 守护程序,并且这些作业对 GPU 使用相同的 MPS 守护程序。
- WATCHDOG: 在 LSF V 10.1 修订包 8 中,此新参数使 LSF 能够使用看守程序功能来定期运行外部脚本,以检查应用程序数据,日志和其他信息。 LSF 可以使用这些脚本来传递作业信息。
- 在 LSF V 10.1 修订包 8 中,可以为以下资源限制指定的最大整数将从 32 位 (2 ³ ¹) 增加到 64 位 (2 0 ³):
- 内存限制 (MEMLIMIT 参数)
- 交换限制 (SWAPLIMIT 参数)
- 核心文件大小限制 (CORELIMIT 参数)
- 堆栈限制 (STACKLIMIT 参数)
- 数据段大小限制 (DATALIMIT 参数)
- 文件大小限制 (FILELIMIT 参数)
- GPU_REQ: 在 LSF V 10.1 修订包 9 中,现在可以在 GPU 需求中指定 mps=yes,share, mps=per_socket,share和 mps=per_gpu,share ,以使 LSF 能够在主机,套接字或 GPU 上为具有相同资源需求的同一用户提交的作业共享 MPS 守护程序。
即,现在可以将 ",share" 添加到 mps 值以启用主机,套接字或 GPU 的 MPS 守护程序共享。
此外,现在可以通过指定 num=number/task 或 num=number/host来分配每个任务或每个主机的 GPU 数。 缺省情况下,仍为每个主机分配 GPU 数。
- RES_REQ: 在 LSF V 10.1 修订包 9 中,现在可以使用 /task, /job或 /host 关键字在 rusage 字符串中的数字值后指定 rusage 字符串中的资源预留方法 (按任务,按作业或按主机)。 只能为可使用的资源指定资源预留方法。
此外,现在可以通过在资源需求的 span 字符串中使用 stripe 关键字,使 LSF 能够跨候选主机的可用资源对并行作业的任务进行分割。
- DOCKER_IMAGE_AFFINITY: 在 LSF V 10.1 修订包 9 中,此新参数使 LSF 能够在提交或调度 Docker 作业时为已具有请求的 Docker 映像的执行主机提供首选项。
- GPU_REQ 在 LSF V 10.1 FP10 中具有以下更改:
- 现在,可以将 ",nocvd" 关键字添加到 GPU 资源需求字符串中的现有 mps 值,以禁用 MPS 作业的 CUDA_VISIBLE_DEVICES 环境变量。
- 现在可以在 GPU 资源需求字符串中指定 block=yes ,以启用已分配 GPU 的块分发。
- 现在,可以在 GPU 资源需求字符串中指定 gpack=yes ,以对共享方式 GPU 作业启用包调度。
- USE_PAM_CREDS 在 LSF V 10.1 FP10 中具有以下更改:
- 现在,您可以指定 session 关键字以允许 LSF 在使用 PAM 向 Linux 主机提交作业时打开 PAM 会话。
- 现在可以指定 limits 关键字以将 PAM 配置文件中指定的限制应用于应用程序。 这在功能上与启用 USE_PAM_CREDS=y 完全相同,不同之处在于您可以将 limits 与 session 关键字一起定义。
- CONTAINER: LSF V 10.1 FP11 使用此参数启用以下新容器:
- Pod Manager (Podman) 容器作业在应用程序概要文件中运行,方法是使用 docker [] 关键字通过 Docker 执行驱动程序运行 Podman 作业。 options [] 关键字指定 podman run 命令的 Podman 作业运行选项,这些选项将传递到作业容器。 由于 Podman 使用 Docker 执行驱动程序来运行 Podman 容器作业, podman 和 docker 命令选项不兼容,并且执行驱动程序许可权不相同,因此如果使用 LSF 来运行 Podman 容器作业,那么无法使用 LSF 来运行 Docker 容器作业。
- 通过使用新的 enroot [] 关键字在应用程序概要文件中运行 Enroot 容器作业,以使用 Enroot 执行驱动程序来运行 Enroot 作业。 options [] 关键字指定 enroot start 命令的 Enroot 作业运行选项,这些选项将传递到作业容器。
- EXEC_DRIVER: 在 LSF V 10.1 FP11 中,此参数指定以下容器作业的执行驱动程序框架:
- Pod Manager (Podman) 容器作业 (如果 LSF 配置为运行 Podman 容器作业而不是 Docker 容器作业)。 对于 Podman 作业,必须将 user 关键字设置为 default ,并且必须将 starter 和 controller 文件许可权设置为 0755。 podman 作业不需要 monitor 文件,但是如果使用该文件,那么还必须将 monitor 文件许可权设置为 0755。 由于 Podman 使用 Docker 执行驱动程序来运行 Podman 容器作业, podman 和 docker 命令选项不兼容,并且执行驱动程序许可权不相同,因此如果使用 LSF 来运行 Podman 容器作业,那么无法使用 LSF 来运行 Docker 容器作业。
- Enroot 容器作业。 starter 文件许可权必须设置为 0755。 将忽略 monitor 和 controller 文件。 此参数对于 Enroot 容器作业是可选的,缺省情况下为 context[user(default)] starter[/path/to/serverdir/enroot-starter.py] 。
- GPU_REQ 在 LSF V 10.1 FP11 中具有以下更改:
- GPU 需求字符串中新的 gvendor 关键字使 LSF 能够分配具有指定供应商类型的 GPU。 指定 gvendor=nvidia 以请求 Nvidia GPU ,指定 gvendor=amd 以请求 AMD GPU。
- 不推荐使用 GPU 需求字符串中的 nvlink=yes 关键字。 改为将 GPU 需求字符串中的 nvlink=yes 替换为 glink=nvlink 。
- GPU 需求字符串中新的 glink 关键字指定 GPU 之间的连接。 对于 Nvidia GPU 的 NVLink 连接,请指定 glink=nvlink ,对于 AMD GPU 的 xGMI 连接,请指定 glink=xgmi 。 请勿将 glink 与 nvlink 关键字配合使用,现在不推荐使用该关键字。
- 在 LSF V 10.1 FP12 中,不推荐使用以下参数,将在未来版本中除去这些参数:
- CHUNK_JOB_SIZE
- NETWORK_REQ
- 在 LSF V 10.1 FP13 中,受支持的 Podman 版本为 3.3.1。 对于 lsb.applications 和 lsb.queues 文件, CONTAINER 参数现在支持 podman 配置,并且需要 EXEC_DRIVER 参数 (具有必需的 [user(default)] 配置才能启动 Podman 作业) 和 controller[] 配置 (例如 controller[/path/to/serverdir/docker-control.py]) 才能运行 Podman 。
- 在 LSF V 10.1 FP13 中, CONTAINER 参数支持使用 app可用 [] 关键字在应用程序概要文件中运行App可用容器作业。 App物是奇异性的品牌产品名称。
lsb.globalpolicies (新建)
lsb.globalpolicies 文件定义多个集群的全局策略。 此文件是可选的,但需要此文件才能启用全局公平共享调度。 缺省情况下,它安装在 LSB_CONFDIR/cluster_name/configdir中。
全局公平共享策略在 GlobalFairshare 部分中定义。
更改 lsb.globalpolicies 文件后,请使用 badmin gpdrestart 命令来重新配置全局策略守护程序 (gpolicyd)。
- Limits 部分: 在 LSF V 10.1 FP10 中,现在可以在 Limits 部分中指定全局资源分配。
指定全局资源分配的方式与使用以下参数在 lsb.resources 文件的 Limit 部分中指定本地资源分配限制的方式相同: APPS, ELIGIBLE_PEND_JOBS, INELIGIBLE, JOBS, JOBS_PER_SCHED_CYCLE, LIC_PROJECTS, MEM, NAME, PROJECTS, QUEUES, RESOURCE, SLOTS, SWP, TMP和 USERS。
使用 LSF 多集群功能时,全局资源分配限制适用于所有集群。
- 每个使用者的限制: LSF V 10.1 FP11 ,现在可以通过指定以下新参数在 Limits 部分中指定全局每个使用者的资源分配: PER_APP, PER_LIC_PROJECT, PER_PROJECT, PER_QUEUE和 PER_USER。
- Resource 部分: 在 LSF 10.1 FP13 中,此新部分定义在所有集群之间共享的全局资源。
- ResourceMap 部分: 在 LSF 10.1 FP13 中,此新部分定义共享资源与其共享集群之间的映射。
- DistributePolicy 部分: 在 LSF 10.1 FP13 中,此新部分定义全局资源和全局限制的分发策略。
- ReservationUsage 部分: 在 LSF 10.1 FP13 中,此新部分定义了保留全局资源的方法。
lsb.hosts
- 在 ComputeUnit 部分中, MEMBER 参数现在允许在为主机名指定压缩表示法时使用冒号 (:) 来指定数字范围。 冒号与连字符 (-) 当前用于指定范围,并且可以在压缩表示法中交替使用。 您还可以使用前导零来指定主机名。
- #INCLUDE: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新伪指令将指定文件的内容插入到此配置文件中。
- 在 "主机" 部分中, HOST_NAME 参数现在支持主机名的压缩表示法。
使用方括号 ([]) 将多个数字括起来,并使用连字符 (-) 或冒号 (:) 来指定数字范围。 使用逗号 (,) 来分隔多个数字范围或分隔各个数字。 您还可以使用前导零来指定主机名。
使用多组方括号 (带有受支持的特殊字符) 来定义主机名中任意位置的多组非负整数。 例如, hostA[1,3]B[1-3] 包括 hostA1B1, hostA1B2, hostA1B3, hostA3B1, hostA3B2和 hostA3B3。
- 在 HostGroup 部分中, GROUP_MEMBER 参数现在允许冒号 (:) 在为主机名指定压缩表示法时指定数字范围。 冒号与连字符 (-) 当前用于指定范围,并且可以在压缩表示法中交替使用。 您还可以使用前导零来指定主机名。
使用多组方括号 (带有受支持的特殊字符) 来定义主机名中任意位置的多组非负整数。 例如, hostA[1,3]B[1-3] 包括 hostA1B1, hostA1B2, hostA1B3, hostA3B1, hostA3B2和 hostA3B3。
- LSF 10.1 FP13 ,在 HostGroup 部分中, GROUP_MEMBER 参数现在支持首选主机组,以指示将作业分派到特定主机组的首选项。 LSF 支持使用加号 (+) 以及一个正数,在您希望使用的主机组的名称之后。 数字越大表示首选度越高 (例如, (
hostA groupB+2 hostC+1) 表示 groupB 是最首选的, hostA 是最不首选的。
lsb.params
- JOB_ARRAY_EVENTS_COMBINE: 引入此参数是为了提高大型阵列作业的性能。 启用 (设置为 Y) 后,将生成更多特定于阵列作业的针对阵列作业或元素的操作的事件。 对于具有较大阵列大小的作业阵列,将提高 mbatchd 守护程序性能,因为特定于阵列作业的事件将使用操作。 启用此参数后,将在 lsb.events 文件中修改以下事件以适应数组下标范围:JOB_CLEAN,JOB_MODIFY2,JOB_MOVE,JOB_SIGNAL,JOB_STATUS和JOB_SWITCH. 在 lsb.acct 文件中,JOB_FINISH事件已修改。 在 lsb.stream 文件中,JOB_FINISH2事件已修改。 在 lsb.status 文件中,将修改 JOB_STATUS2 事件。
- JOB_INFO_EVENT_DUMP_INTERVAL: 控制重写作业信息事件文件的频率。 如果转储时间间隔太频繁,那么意味着 I/O 操作的负载较大。 如果转储时间间隔太短,那么事件重放将需要更长时间才能完成。 此参数指定时间间隔 (以分钟为单位)。 指定 1 到 2147483646 之间的任何正整数。 缺省时间间隔为 15 分钟。
- JOB_INFO_MEMORY_CACHE_SIZE: 配置要用于作业信息高速缓存的内存量。 作业信息高速缓存可以通过在内存中以压缩格式高速缓存作业信息 (例如,作业的环境变量,命令行和 eexec 数据) 来减少工作目录文件服务器上的负载。 将此参数设置为分配给高速缓存的作业信息的内存量 (MB)。 缺省情况下已启用高速缓存,缺省高速缓存大小为 1024 MB (1 GB)。 可通过将此参数设置为 0 来禁用高速缓存。 建议的最小高速缓存大小为 500 MB。 有效值大于或等于零且小于 MAX_INT。 可以使用命令 bparams -a 或 bparams -l来查看 JOB_INFO_MEMORY_CACHE_SIZE 参数的值。 使用的实高速缓存内存可能会影响 mbatchd 派生性能。
- JOB_SWITCH2_EVENT: 在 LSF 10.1中已废弃。 替换为 JOB_ARRAY_EVENTS_COMBINE 参数。
- RELAX_JOB_DISPATCH_ORDER: 允许 LSF 偏离标准作业优先级划分策略,以通过允许具有公共资源需求的多个作业在同一分配上连续运行来提高集群利用率。
缺省情况下,同一分配最多可复用 30 分钟。 您还可以通过指定具有最大值和可选最小值的 ALLOC_REUSE_DURATION 关键字来指定定制分配复用时间。
- DIAGNOSE_LOGDIR: 此参数不再需要启用 ENABLE_DIAGNOSE 。 除了查询源信息 (badmin diagnose -c query) 的日志文件的缺省位置外, DIAGNOSE_LOGDIR 参数也是调度作业存储区 (badmin diagnose -c jobreq) 的快照的缺省位置。 要将查询源信息日志文件保存到此位置,需要 ENABLE_DIAGNOSE 参数。
- CONDENSE_PENDING_REASONS: 先前,在安装 HIGH_THROUGHPUT 配置模板时设置为 Y。 如果未定义,那么 N 为缺省值。 对于此发行版,会将其从 HIGH_THROUGHPUT 配置模板中除去。 因此,缺省值始终为 N。
对于此发行版,当启用压缩暂挂原因功能时,单个键暂挂原因功能和分类的暂挂原因功能将被主原因 (如果有) 覆盖。
- MC_SORT_BY_SUBMIT_TIME -设置为 Y/y 时,允许执行集群上的转发作业根据其原始提交时间 (而不是其转发时间) 进行排序和运行。 仅在 IBM Spectrum LSF multicluster capability 中可用。
- PEND_REASON_MAX_JOBS: 在 LSF 10.1中已废弃。
- TRACK_ELIGIBLE_PENDINFO: 设置为 Y 以允许 LSF 确定暂挂作业是否符合调度条件,并使用符合条件的暂挂时间 (而不是总暂挂时间) 来确定用于自动作业优先级升级和绝对优先级调度的作业优先级。
- ELIGIBLE_PENDINFO_SNAPSHOT_INTERVAL: 指定 mbschd 将合格和不合格的暂挂信息转储到磁盘的时间间隔 (以分钟计)。 当 mbatchd 或 mbschd 重新启动时,将保存合格和不合格的暂挂信息。 缺省值为 5 分钟
- JOB_SCHEDULING_INTERVAL: 现在指定后续作业调度会话之间的最小时间间隔。 以秒为单位指定,或包含关键字ms以毫秒为单位指定。 值 0 表示后续会话之间没有最小时间间隔。 先前,此参数指定了 mbschd 在下次调度会话启动之前休眠的时间量。
- ESTIMATOR_MAX_JOBS_PREDICTION: 指定估计量预测的暂挂作业数,缺省情况下为 1000。
- ESTIMATOR_MAX_TIME_PREDICTION: 指定在估算器停止当前轮估算之前预测作业将启动的未来时间量 (以分钟为单位)。 缺省情况下,在预测作业将在一周 (10080 分钟) 内启动后,估算器将停止。
- ESTIMATOR_MAX_RUNTIME_PREDICTION: 指定估计量运行的时间量,最多为 ESTIMATOR_SIM_START_INTERVAL 参数的值。 缺省情况下,估计量在运行 30 分钟或 ESTIMATOR_SIM_START_INTERVAL 参数指定的时间量 (以较小者为准) 后停止。
- EVALUATE_JOB_DEPENDENCY_TIMEOUT: 在 LSF V 10.1 修订包 2 中,此新参数设置 mbatchd 守护程序在一个调度周期内评估作业依赖关系所花费的最大时间量 (以秒或毫秒为单位)。 此参数限制 mbatchd 在调度周期中对作业依赖关系进行求值所花费的时间量,这将限制作业依赖关系求值阻塞服务的时间量。 如果还定义了 EVALUATE_JOB_DEPENDENCY 参数,那么 EVALUATE_JOB_DEPENDENCY_TIMEOUT 参数将生效。
- EVALUATE_WAIT_CONDITION_TIMEOUT: 在 LSF V 10.1 修订包 2 中,此新参数指定对 mbatchd 守护程序在调度会话中评估 bwait 等待条件 所花费的时间量的限制。
- DEFAULT_BWAIT_TIMEOUT: 在 LSF V 10.1 修订包 2 中,此新参数指定用于在调度会话中评估 等待条件 的缺省超时时间间隔 (以分钟为单位)。
- MAX_PEND_JOBS: 在 LSF V 10.1 修订包 3 中,此参数已更改为指定暂挂的 "作业" ,而不是像先前版本的 LSF一样指定暂挂的 "作业槽"。
- MAX_PEND_SLOTS: 在 LSF V 10.1 修订包 3 中,已添加此新参数以指定 "作业槽" 并替换 MAX_PEND_JOBS的先前角色。
- FWD_JOB_FACTOR: 在 LSF V 10.1 修订包 4 中,此新参数定义转发的作业槽因子,在对公平共享策略进行用户优先级计算时,此因子会考虑转发的作业。
- JOB_GROUP_CLEAN: 在 LSF V 10.1 修订包 4 中,为 JOB_GROUP_CLEAN提供了新选项 "all" ,用于自动删除空的隐式作业组,即使它们具有限制也是如此。
- EADMIN_TRIGGER_INTERVAL: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入了此参数以在设置的时间间隔内调用 eadmin 脚本,即使没有作业异常也是如此。 缺省值为 0 ,这将禁用此功能,并且仅在发生作业异常时触发 eadmin 脚本。
- PERSIST_LIVE_CONFIG: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入了此参数以允许更新配置文件,从而进行实时重新配置。 这允许在策略更新或集群重新启动期间提交作业。 缺省值为 Y ,这将启用此功能。
如果 PERSIST_LIVE_CONFIG=Y LSF 将持久存储所有实时配置请求,以便它们在 mbatchd 重新启动后生效。
如果 PERSIST_LIVE_CONFIG=N LSF 将不会持久存储实时配置请求,并且这些请求将不会在 mbatchd 重新启动后生效。
- ALLOCATION_PLANNER: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入了此参数以启用基于计划的调度和预留功能。
- ESTIMATED_RUNTIME: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入此参数是为作业配置集群范围的估计运行时,旨在替换 lsb.applications 文件中的现有 RUNTIME 参数。 还可以在应用程序级别 (lsb.applications 文件) 和队列级别 (lsb.queues 文件) 进行配置。
- PLAN: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入了此参数以便在使用参数 ALLOCATION_PLANNER=Y启用基于计划的调度时使用。 此参数控制作业是否是基于计划的调度的候选者。 还可以在应用程序级别 (lsb.applications 文件) 和队列级别 (lsb.queues 文件) 进行配置。
- DEFAULT_PROJECT: 在 LSF V 10.1 修订包 6 中,项目名称现在可以长达 511 个字符 (以前,此限制为 59 个字符)。
- EGROUP_UPDATE_INTERVAL: 在 LSF V 10.1 修订包 7 中,此参数除了控制动态用户组信息之外,还控制自动更新动态主机组信息的时间间隔。 您还可以通过在时间间隔之后使用 m 关键字来指定时间间隔 (以分钟为单位)。
- GPU_RUN_TIME_FACTOR: 在 LSF V 10.1 修订包 7 中,此新参数定义 GPU 运行时间因子,该因子用于计算用户正在运行的 GPU 作业的总 GPU 运行时间。
- GPU_RUN_TIME_FACTOR: 在 LSF V 10.1 修订包 7 中,此新参数定义 GPU 运行时间因子,该因子用于计算公平共享调度策略时用户运行 GPU 作业的总 GPU 运行时间。
- ENABLE_GPU_HIST_RUN_TIME: 在 LSF V 10.1 修订包 7 中,此新参数允许在计算公平共享调度策略时使用历史 GPU 运行时。
- KILL_JOBS_OVER_RUNLIMIT: 在 LSF V 10.1 修订包 7 中,此新参数使 mbatchd 守护程序能够终止长时间在定义的 RUNLIMIT 值上运行的作业。
- CSM_VALID_SMT: 在 LSF V 10.1 修订包 8 中,此新参数定义 CSM 作业的有效 SMT 方式值的空格分隔列表。 如果未在队列或作业级别指定 SMT 方式,那么列表中的第一个值是 CSM 作业的缺省值。
- SECURE_INFODIR_USER_ACCESS: 在 LSF V 10.1 修订包 9 中,此参数现在具有新的关键字 G ,用于提供有关 bhist 和 bacct 命令针对其他用户的作业显示的信息的完整详细程度。 通过定义 SECURE_INFODIR_USER_ACCESS=G来启用此功能。
- SECURE_JOB_INFO_LEVEL: 在 LSF V 10.1 修订包 9 中,此参数现在具有额外的信息级别 5 ,用于显示属于其他用户的作业的摘要信息。 通过定义 SECURE_JOB_INFO_LEVEL=5来启用此信息级别。
- DOCKER_IMAGE_AFFINITY: 在 LSF V 10.1 修订包 9 中,此新参数使 LSF 能够在提交或调度 Docker 作业时为已具有请求的 Docker 映像的执行主机提供首选项。
- GPU_REQ_MERGE: 在 LSF V 10.1 修订包 9 中,此新参数允许单独合并 GPU 需求字符串中的所有单独选项。 任何指定的选项都将覆盖在较低优先顺序级别指定的任何选项。 如果未指定单个选项,但在较低级别显式指定了该选项,那么指定该选项的最高级别优先。
- SIMPLIFIED_GUARANTEE: 在 LSF V 10.1 FP10 中,此新参数对具有保证策略的作业所使用的程序包和槽池启用简化的调度算法。
- ATTR_CREATE_USERS: 在 LSF V 10.1 FP10 中,此新参数指定可以为属性亲缘关系调度创建主机属性的用户。
- ATTR_MAX_NUM: 在 LSF V 10.1 FP10 中,此新参数指定集群中可同时存在的最大主机属性数。
- ATTR_TTL: 在 LSF V 10.1 FP10 中,此新参数指定新创建的主机属性的生存时间 (TTL)。
- SAME_JOB_AFFINITY: 在 LSF V 10.1 FP10 中,此新参数使用户能够指定要在与另一个作业相同的主机或计算单元上运行的作业的亲缘关系首选项。 即,用户可以将 samehost 和 samecu 关键字与 bsub -jobaff 命令选项配合使用。
- GLOBAL_LIMITS: 在 LSF V 10.1 FP10 中,此新参数启用全局限制调度,这允许您在 lsb.globalpolicies 文件中指定全局资源分配限制。 使用 LSF 多集群功能时,全局资源分配限制适用于所有集群。
- RELAX_JOB_DISPATCH_ORDER: 在 LSF V 10.1 FP10 中,此参数现在具有 SHARE[] 关键字,用于放宽对可对已完成作业复用资源分配的暂挂作业的其他约束。
- JOB_DISPATCH_PACK_SIZE: 在 LSF V 10.1 FP10 中,此新参数指定在 LSF 在作业调度周期结束之前在决策包中发布决策之前可以累积的作业决策的最大数目。
- JOB_SCHEDULING_INTERVAL: 在 LSF V 10.1 FP10 中,现在可以指定作业调度周期的最长时间。 如果调度周期超过此时间,那么 mbschd 将跳过作业调度。 要指定最大时间,请添加第二个数字 (以秒为单位)。
- RESCHED_UPON_CSM_SETUP_ERROR: 在 LSF V 10.1 FP10 中,此新参数使 LSF 能够重新调度 IBM CSM 作业,这些作业是在 CSM 设置期间失败的暂存区或非传输作业 (如果它们使用指定的 CSM API 错误代码失败)。
- DEFAULT_RC_ACCOUNT_PER_PROJECT: 在 LSF V 10.1 FP11 中,此新参数使 LSF 能够将项目名称设置为通过 LSF 资源连接器借入的主机上的缺省帐户名称。
- ENABLE_RC_ACCOUNT_REQUEST_BY_USER: 在 LSF V 10.1 FP11 中,此新参数使用户能够在通过 LSF 资源连接器借用的主机上的作业级别分配特定帐户名称。 这允许用户使用 bsub -rcacct "rc_account_name" 命令选项来分配帐户名称。
- 在 LSF V 10.1 FP12 中,不推荐使用以下参数,将在未来版本中除去这些参数:
- CHUNK_JOB_DURATION
- ENABLE_DEFAULT_EGO_SLA
- MAX_PROTOCOL_INSTANCES
- NETWORK_REQ
- SIMPLIFIED_GUARANTEE: 现在已修正为 Y。
- STRIPING_WITH_MINIMUM_NETWORK
- FAIRSHARE_JOB_COUNT 参数: 在 LSF 10.1 FP13 中,此新参数使 LSF 能够使用公平共享调度算法中的作业数而不是作业槽数。
- JOB_GROUP_IDLE_TTL 参数: 在 LSF 10.1 FP13 中,此新参数定义所有作业离开作业组时作业组的生存时间 (TTL)。
lsb.queues
- RELAX_JOB_DISPATCH_ORDER: 允许 LSF 偏离标准作业优先级划分策略,以通过允许具有公共资源需求的多个作业在同一分配上连续运行来提高集群利用率。
缺省情况下,同一分配最多可复用 30 分钟。 您还可以通过指定具有最大值和可选最小值的 ALLOC_REUSE_DURATION 关键字来指定定制分配复用时间。
- ELIGIBLE_PEND_TIME_LIMIT 指定队列中作业的合格暂挂时间限制。
- PEND_TIME_LIMIT 指定队列中作业的暂挂时间限制。
- FWD_JOB_FACTOR: 在 LSF V 10.1 修订包 4 中,此新参数定义转发的作业槽因子,在对公平共享策略进行用户优先级计算时,此因子会考虑转发的作业。
- #INCLUDE: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新伪指令将指定文件的内容插入到此配置文件中。
- FWD_USERS: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新参数来指定在使用 LSF 多集群功能时可以将作业转发到远程集群的用户或用户组的列表。 这允许您阻止来自特定用户或用户组的作业转发到执行集群,并对提交集群设置限制。
- EXTENDABLE_RUNLIMIT: 在 LSF V 10.1 修订包 5 和修订包 6 中,如果其他作业不需要资源,那么可以使用此新参数使作业能够继续运行,以超过原始运行限制。
- ESTIMATED_RUNTIME: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入此参数是为队列中的作业配置估算的运行时,旨在替换 lsb.applications 文件中的现有 RUNTIME 参数。 还可以在应用程序级别 (lsb.applications 文件) 和集群级别 (lsb.params 文件) 进行配置。
- PLAN: 在 LSF V 10.1 修订包 5 和修订包 6 中,引入了此参数以便在使用参数 ALLOCATION_PLANNER=Y启用基于计划的调度时使用。 此参数控制作业是否是基于计划的调度的候选者。 还可以在应用程序级别 (lsb.applications 文件) ,集群级别 (lsb.params 文件) 和作业级别进行配置。
- CSM_REQ: 在 LSF V 10.1 修订包 5 和修订包 6 中,此参数指定 IBM 集群系统管理器 (CSM) bsub 作业提交命令选项的必需值。 这些设置覆盖作业级别 CSM 选项,并将系统级别分配标志附加到作业级别分配标志。
- 在 LSF V 10.1 修订包 8 中,现在可以使用 smt 关键字来指定 SMT 方式。
- GPU_REQ: 在 LSF V 10.1 修订包 6 中,此新参数指定队列的 GPU 需求。
- GPU_RUN_TIME_FACTOR: 在 LSF V 10.1 修订包 7 中,此新参数定义 GPU 运行时间因子,该因子用于计算公平共享调度策略时用户运行 GPU 作业的总 GPU 运行时间。
- ENABLE_GPU_HIST_RUN_TIME: 在 LSF V 10.1 修订包 7 中,此新参数允许在计算公平共享调度策略时使用历史 GPU 运行时。
- 在 LSF V 10.1 修订包 8 中,可以为以下资源限制指定的最大整数将从 32 位 (2 ³ ¹) 增加到 64 位 (2 0 ³):
- 内存限制 (MEMLIMIT 参数)
- 交换限制 (SWAPLIMIT 参数)
- 核心文件大小限制 (CORELIMIT 参数)
- 堆栈限制 (STACKLIMIT 参数)
- 数据段大小限制 (DATALIMIT 参数)
- 文件大小限制 (FILELIMIT 参数)
- GPU_REQ: 在 LSF V 10.1 修订包 8 中, GPU_REQ 具有以下更改:
- 现在可以在 GPU 需求中指定 aff=no ,以在保持 CPU 亲缘关系的同时放宽 GPU 亲缘关系。 缺省情况下, aff=no 设置为保持严格的 GPU-CPU 亲缘关系绑定。
- 现在,您可以在 GPU 需求中指定 mps=per_socket ,以使 LSF 能够在每个 GPU 主机上针对每个作业的每个套接字启动一个 MPS 守护程序。
- 现在,您可以在 GPU 需求中指定 mps=per_gpu ,以使 LSF 能够在每个 GPU 主机上针对每个 GPU 作业启动一个 MPS 守护程序。
- RES_REQ: 在 LSF V 10.1 修订包 9 中,现在可以使用 /task, /job或 /host 关键字在 rusage 字符串中的数字值后指定 rusage 字符串中的资源预留方法 (按任务,按作业或按主机)。 只能为可使用的资源指定资源预留方法。
此外,现在可以通过在资源需求的 span 字符串中使用 stripe 关键字,使 LSF 能够跨候选主机的可用资源对并行作业的任务进行分割。
- GPU_REQ: 在 LSF V 10.1 修订包 9 中,现在可以在 GPU 需求中指定 mps=yes,share, mps=per_socket,share和 mps=per_gpu,share ,以使 LSF 能够在主机,套接字或 GPU 上为具有相同资源需求的同一用户提交的作业共享 MPS 守护程序。
即,现在可以将 ",share" 添加到 mps 值以启用主机,套接字或 GPU 的 MPS 守护程序共享。
此外,现在可以通过指定 num=number/task 或 num=number/host来分配每个任务或每个主机的 GPU 数。 缺省情况下,仍为每个主机分配 GPU 数。
- RUN_WINDOW: 在 LSF V 10.1 修订包 9 中,此参数现在允许您在指定时间窗口时指定受支持的时区。 您可以指定多个时间窗口,但所有时间窗口条目都必须在是否设置时区方面保持一致。 即,所有条目都必须设置时区,或者所有条目都不能设置时区。
- DISPATCH_WINDOW: 在 LSF V 10.1 修订包 9 中,此参数现在允许您在指定时间窗口时指定受支持的时区。 您可以指定多个时间窗口,但所有时间窗口条目都必须在是否设置时区方面保持一致。 即,所有条目都必须设置时区,或者所有条目都不能设置时区。
- CONTAINER: 在 LSF V 10.1 修订包 9 中,此新参数使容器作业能够在队列中运行。 此参数的用法与 lsb.applications 文件中的 CONTAINER 参数相同。
- EXEC_DRIVER: 在 LSF V 10.1 修订包 9 中,此新参数指定队列的执行驱动程序框架。 此参数的用法与 lsb.applications 文件中的 EXEC_DRIVER 参数相同。
- DOCKER_IMAGE_AFFINITY: 在 LSF V 10.1 修订包 9 中,此新参数使 LSF 能够在提交或调度 Docker 作业时为已具有请求的 Docker 映像的执行主机提供首选项。
- GPU_REQ 在 LSF V 10.1 FP10 中具有以下更改:
- 现在,可以将 ",nocvd" 关键字添加到 GPU 资源需求字符串中的现有 mps 值,以禁用 MPS 作业的 CUDA_VISIBLE_DEVICES 环境变量。
- 现在可以在 GPU 资源需求字符串中指定 block=yes ,以启用已分配 GPU 的块分发。
- 现在,可以在 GPU 资源需求字符串中指定 gpack=yes ,以对共享方式 GPU 作业启用包调度。
- USE_PAM_CREDS 在 LSF V 10.1 FP10 中具有以下更改:
- 现在,您可以指定 session 关键字以允许 LSF 在使用 PAM 向 Linux 主机提交作业时打开 PAM 会话。
- 现在可以指定 limits 关键字以将 PAM 配置文件中指定的限制应用于队列。 这在功能上与启用 USE_PAM_CREDS=y 完全相同,不同之处在于您可以将 limits 与 session 关键字一起定义。
- MC_FORWARD_DELAY: 在 LSF V 10.1 FP10 中,此新参数指定作业转发行为以及 LSF 还原为缺省作业转发行为的作业提交和调度后的时间量。
- RELAX_JOB_DISPATCH_ORDER: 在 LSF V 10.1 FP10 中,此参数现在具有 SHARE[] 关键字,用于放宽对可对已完成作业复用资源分配的暂挂作业的其他约束。
- MAX_SBD_CONNS: 在 LSF V 10.1 FP10 中,此参数的缺省值更改为 2 * numOfHosts + 300。
- DISPATCH_BY_QUEUE: 在 LSF V 10.1 FP10 中,此参数已过时,并替换为 lsb.params 文件中的 JOB_DISPATCH_PACK_SIZE 参数。
- CONTAINER: LSF V 10.1 FP11 使用此参数启用以下新容器:
- Pod Manager (Podman) 容器作业在应用程序概要文件中运行,方法是使用 docker [] 关键字通过 Docker 执行驱动程序运行 Podman 作业。 options [] 关键字指定 podman run 命令的 Podman 作业运行选项,这些选项将传递到作业容器。 由于 Podman 使用 Docker 执行驱动程序来运行 Podman 容器作业, podman 和 docker 命令选项不兼容,并且执行驱动程序许可权不相同,因此如果使用 LSF 来运行 Podman 容器作业,那么无法使用 LSF 来运行 Docker 容器作业。
- 通过使用新的 enroot [] 关键字在应用程序概要文件中运行 Enroot 容器作业,以使用 Enroot 执行驱动程序来运行 Enroot 作业。 options [] 关键字指定 enroot start 命令的 Enroot 作业运行选项,这些选项将传递到作业容器。
- EXEC_DRIVER: 在 LSF V 10.1 FP11 中,此参数指定以下容器作业的执行驱动程序框架:
- Pod Manager (Podman) 容器作业 (如果 LSF 配置为运行 Podman 容器作业而不是 Docker 容器作业)。 对于 Podman 作业,必须将 user 关键字设置为 default ,并且必须将 starter 和 controller 文件许可权设置为 0755。 podman 作业不需要 monitor 文件,但是如果使用该文件,那么还必须将 monitor 文件许可权设置为 0755。 由于 Podman 使用 Docker 执行驱动程序来运行 Podman 容器作业, podman 和 docker 命令选项不兼容,并且执行驱动程序许可权不相同,因此如果使用 LSF 来运行 Podman 容器作业,那么无法使用 LSF 来运行 Docker 容器作业。
- Enroot 容器作业。 starter 文件许可权必须设置为 0755。 将忽略 context, monitor和 controller 设置。 此参数对于 Enroot 容器作业是可选的,缺省情况下为 context[user(default)] starter[/path/to/serverdir/enroot-starter.py] 。
- GPU_REQ 在 LSF V 10.1 FP11 中具有以下更改:
- GPU 需求字符串中新的 gvendor 关键字使 LSF 能够分配具有指定供应商类型的 GPU。 指定 gvendor=nvidia 以请求 Nvidia GPU ,指定 gvendor=amd 以请求 AMD GPU。
- 不推荐使用 GPU 需求字符串中的 nvlink=yes 关键字。 改为将 GPU 需求字符串中的 nvlink=yes 替换为 glink=nvlink 。
- GPU 需求字符串中新的 glink 关键字指定 GPU 之间的连接。 对于 Nvidia GPU 的 NVLink 连接,请指定 glink=nvlink ,对于 AMD GPU 的 xGMI 连接,请指定 glink=xgmi 。 请勿将 glink 与 nvlink 关键字配合使用,现在不推荐使用该关键字。
- 在 LSF V 10.1 FP12 中,不推荐使用以下参数,将在未来版本中除去这些参数:
- CHUNK_JOB_SIZE
- HOSTS (仅限allremote 和 all@cluster_name 关键字)
- MAX_PROTOCOL_INSTANCES
- MAX_SLOTS_IN_POOL
- NETWORK_REQ
- SLOT_POOL
- SLOT_SHARE
- STRIPING_WITH_MINIMUM_NETWORK
- USE_PRIORITY_IN_POOL
- 在 LSF V 10.1 FP13 中,新的 IMPT_JOBLIMIT 和 IMPT_TASKLIMIT 参数允许您指定可以在接收作业队列中配置的来自远程集群的 MultiCluster 作业或任务数。
- 在 LSF V 10.1 FP13 中,受支持的 Podman 版本为 3.3.1。 对于 lsb.applications 和 lsb.queues 文件, CONTAINER 参数现在支持 podman 配置,并且需要 EXEC_DRIVER 参数 (具有必需的 [user(default)] 配置才能启动 Podman 作业) 和 controller[] 配置 (例如 controller[/path/to/serverdir/docker-control.py]) 才能运行 Podman 。
- 在 LSF V 10.1 FP13 中, CONTAINER 参数支持App暂存器容器作业在队列中运行。 App物是奇异性的品牌产品名称。 此参数的用法与 lsb.applications 文件中的 CONTAINER 参数相同。
lsb.reasons
lsb.reasons 允许单独配置暂挂原因消息。 管理员可以清除消息并通知用户他们可以执行哪些操作来允许作业运行。 可以基于一个或多个暂挂原因以及特定资源的优先级来定制消息。
此文件是可选的。 缺省情况下,它安装在 config/lsbatch/<cluster_name>/configdir/lsb.reasons中。
更改 lsb.reasons 文件后,运行 badmin reconfig。
- #INCLUDE: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新伪指令将指定文件的内容插入到此配置文件中。
lsb.resources
- LOAN_POLICIES: 在 LSF V 10.1 修订包 1 中,现在可以允许队列在 LSF 确定这些队列中的作业是否可以借用未使用的保证资源时忽略 RETAIN 和 DURATION 贷款策略。 要使队列能够忽略 RETAIN 和 DURATION 贷款策略,请在 LOAN_POLICIES 参数定义中的队列名称前指定感叹号 (!)。
- #INCLUDE: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新伪指令将指定文件的内容插入到此配置文件中。
- JOBS_PER_SCHED_CYCLE: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新参数来设置在调度周期内为用户,用户组和队列分派的最大作业数的限制。 仅当限制使用者类型为 USERS, PER_USER, QUEUES或 PER_QUEUE时,才能设置作业分派限制。
- PER_PROJECT: 在 LSF V 10.1 修订包 6 中,每个项目名称现在最多可包含 511 个字符 (先前,此限制为 59 个字符)。
- PROJECTS: 在 LSF V 10.1 修订包 6 中,每个项目名称现在最多可包含 511 个字符 (先前,此限制为 59 个字符)。
- 在 LSF V 10.1 修订包 7 中, JOBS_PER_SCHED_CYCLE 参数重命名为 ELIGIBLE_PEND_JOBS。 仍保留旧的 JOBS_PER_SCHED_CYCLE 参数以实现向后兼容性。
- APPS: 在 LSF V 10.1 修订包 9 中,此新参数指定对其实施限制的一个或多个应用程序概要文件。 将对列出的所有应用程序概要文件实施限制。
- PER_APP: 在 LSF V 10.1 修订包 9 中,此新参数指定对其实施限制的一个或多个应用程序概要文件。 将对列出的每个应用程序概要文件实施限制。
- LOAN_POLICIES: 在 LSF V 10.1 FP10 中,现在不推荐使用 RETAIN 关键字并将其替换为 IDLE_BUFFER。
- HostExport 部分: 在 LSF V 10.1 FP12 中,不推荐使用 HostExport 部分,将在将来的版本中除去此部分。
- SharedResourceExport 部分: 在 LSF V 10.1 FP12 中,不推荐使用 SharedResourceExport 部分,将在将来的版本中除去此部分。
lsb.users
- UserGroup 部分中的 FS_POLICY : 此新参数为定义的用户组启用全局公平共享策略。 FS_POLICY 指定共享帐户将参与的全局公平共享策略。
- User 部分中的 MAX_PEND_JOBS : 在 LSF V 10.1 修订包 3 中,此参数已更改为指定暂挂的 "作业" ,而不是像先前版本的 LSF一样指定暂挂的 "作业槽"。
- User 部分中的 MAX_PEND_SLOTS : 在 LSF V 10.1 修订包 3 中,添加了此新参数以指定 "作业槽" 并替换 MAX_PEND_JOBS的先前角色。
- #INCLUDE: 在 LSF V 10.1 修订包 5 和修订包 6 中,可以使用此新伪指令将指定文件的内容插入到此配置文件中。
- User 和 UserGroup 部分中的 PRIORITY : 在 LSF V 10.1 修订包 5 和修订包 6 中,此新参数指定在计算绝对优先级调度 (APS) 的作业优先级时用作因子的优先级。
lsf.cluster。集群名称
- "主机" 部分中的 HOSTNAME 现在支持主机名的压缩表示法。
使用方括号 ([]) 将多个数字括起来,并使用连字符 (-) 或冒号 (:) 来指定数字范围。 使用逗号 (,) 来分隔多个数字范围或分隔各个数字。 您还可以使用前导零来指定主机名。
使用多组方括号 (带有受支持的特殊字符) 来定义主机名中任意位置的多组非负整数。 例如, hostA[1,3]B[1-3] 包括 hostA1B1, hostA1B2, hostA1B3, hostA3B1, hostA3B2和 hostA3B3。
lsf.conf
- LSB_BJOBS_FORMAT 参数现在具有以下字段:
- effective_plimit, plimit_remain, effective_eplimit和 eplimit_remain ,用于显示作业的暂挂时间限制,剩余暂挂时间,合格暂挂时间限制和剩余合格暂挂。 您可以使用 -p 选项来仅显示暂挂作业的信息。
- "pend_reason" 显示作业的暂挂原因字段。 如果作业没有暂挂原因 (例如,作业正在运行) ,那么pend_reason作业的字段为 NULL ,并显示连字符 (-).
- LSB_BCONF_PROJECT_LIMITS: 缺省情况下, LSF 不允许 bconf 命令创建基于项目的限制,因为如果集群没有基于项目的限制,那么 LSF 会更快地调度作业。 如果需要在集群运行时使用 bconf 命令来动态创建基于项目的限制,请将 LSB_BCONF_PROJECT_LIMITS 参数设置为 Y。
- LSB_BJOBS_PENDREASON_LEVEL: 此新参数设置用户输入命令 bjobs -p时的缺省行为,而不将级别 0 指定为 3。 对于已升级的集群,如果未配置 LSB_BJOBS_PENDREASON_LEVEL 参数,那么缺省情况下 bjobs -p 命令的级别为 0。 对于新集群, LSB_BJOBS_PENDREASON_LEVEL 参数在安装模板中设置为 1 ,缺省情况下显示单键原因。
- LSB_BMGROUP_ALLREMOTE_EXPAND: 在 IBM® Spectrum LSF 多集群功能 资源租赁模型中设置为 N 或 n 时, bmgroup 命令显示具有单个关键字的租赁主机allremote而不是显示为列表。 否则,将在HOSTS表单中的列host_name@cluster_name缺省情况下。
- LSB_DEBUG_GPD: 此新参数设置 gpolicyd的调试日志类。 仅记录属于指定日志类的消息。
- LSB_EXCLUDE_HOST_PERIOD: 指定主机从作业中排除的时间量 (以 mbatchd 休眠时间单位 (MBD_SLEEP_TIME) 为单位)。 当此时间到期时,将不再排除主机,并且作业可以再次在主机上运行。
此参数不适用于 IBM Spectrum LSF multicluster capability 作业租赁模型。
- LSB_ESUB_SINGLE_QUOTE: 当设置为 Y 或 y时,将使用单引号 (') 将写入 esub 进程的 $LSB_SUB_PARM_FILE 文件的 LSB_SUB_PROJECT_NAME 参数中的值括起来。 阻止 shell 处理参数值 (例如 $) 中的某些元字符。
否则,缺省情况下,写入 esub 进程的 $LSB_SUB_PARM_FILE 文件的 LSB_SUB_PROJECT_NAME 参数值将包含在双引号 (") 中。
- LSB_GSLA_PREFER_ADRSV_HOST: 设置为 Y 或 y时,保证的 SLA 首先尝试在没有高级预留的情况下预留主机。 LSB_GSLA_PREFER_ADRSV_HOST 确保提前预留不会干扰有保证的 SLA 作业调度。
- LSB_GPD_CLUSTER: 此新参数定义其主主机针对多个集群之间的全局公平共享策略启动 gpolicyd 的集群的名称。 必须为参与全局公平共享的每个集群配置 LSB_GPD_CLUSTER 参数。
- LSB_GPD_PORT: 此新参数定义用于与 gpolicyd通信的 TCP 服务端口。 必须为参与全局公平共享的每个集群配置 LSB_GPD_PORT 参数。
- LSB_MBD_MAX_SIG_COUNT: 在 LSF 10.1中已废弃。
- LSB_SUPPRESS_CUSTOM_REASONS: 此新参数允许个别用户禁用显示新的 "单键原因" 功能 (bjobs
-p1) 和 "分类暂挂原因" 功能 (bjobs -p2 和 bjobs -p3) 的定制暂挂原因。
缺省情况下, LSB_SUPPRESS_CUSTOM_REASONS 参数的值设置为 N。 此参数适用于除 -p0以外的所有 bjobs -p 级别。 命令 bjobs -p0用于在版本 10.1之前的样式中显示暂挂原因,而不使用单键原因或分类的暂挂原因功能。
- LSB_TERMINAL_SERVICE_PORT: 指定远程桌面协议 (RDP) 的终端服务端口号。 此端口用于 tssub 作业。
- LSB_TIME_GPD: 此新参数设置用于检查 gpolicyd 例程运行时间的计时级别。 时间使用情况以毫秒为单位记录。
- LSF_AUTH: 现在可以指定 LSF_AUTH=none 以禁用认证。 仅将 LSF_AUTH=none 参数用于性能基准测试。
- LSF_CONNECTION_CHANGE: 仅适用于 Windows。 设置为 Y 或 y时,只要 lsreghost 检测到与本地主机相关联的连接 (IP 地址) 总数发生更改,就会允许其向 LSF 服务器注册。 仅当为 LSF 主机启用了注册处理 (即,在 LSF 服务器上的 lsf.conf 文件中设置了 LSF_REG_FLOAT_HOSTS=Y ) 时,此参数才有效。
- LSF_CRAY_RUR_ACCOUNTING: 对于 Cray 上的 LSF 。 如果在 Cray 环境中未启用 RUR ,请指定 N 以禁用 RUR 作业记帐,或者提高性能。 缺省值为 Y (已启用)。
- LSF_CRAY_RUR_DIR: Cray RUR 数据文件的位置,这是可从任何潜在的第一个执行主机访问的共享文件系统。 缺省值为 LSF_SHARED_DIR/<cluster_name>/craylinux/<cray_machine_name>/rur。
- LSF_CRAY_RUR_PROLOG_PATH: RUR 序言脚本文件的文件路径。 缺省值为 /opt/cray/rur/default/bin/rur_prologue.py。
- LSF_CRAY_RUR_EPILOG_PATH: RUR 附日志脚本文件的文件路径。 缺省值为 /opt/cray/rur/default/bin/rur_epilogue.py。
- LSF_DISCARD_LOG: 如果日志记录队列已满,那么指定 mbatchd 和 mbschd 日志记录线程的行为。
如果设置为 Y,那么当日志记录队列已满时,日志记录线程将废弃级别低于 LOG_WARNING 的所有新消息。 LSF 稍后会记录废弃消息的摘要。
如果设置为 N,那么当日志记录队列已满时, LSF 会自动扩展日志记录队列的大小。
- LSF_LOG_QUEUE_SIZE: 指定在日志记录队列已满之前, mbatchd 和 mbschd 日志记录线程使用的日志记录队列中的最大条目数。
- LSF_LOG_THREAD: 如果设置为 N ,那么 mbatchd 和 mbschd 不会创建专用线程以将消息写入日志文件。
- LSF_PLATFORM_COMPATIBILITY: 允许与 LSF 10.1之后的较早版本的 IBM Platform 名称兼容。 在 lsf.conf 中将其设置为 y|Y 以启用 lsid ,并将 LSF 命令 -V 设置为显示 "IBM Platform LSF" 而不是 "IBM Spectrum LSF"。 LSF_PLATFORM_COMPATIBILITY 参数用于解决 LSF 10.1 与较低版本的 IBM Platform Process Manager之间的兼容性问题。
- LSF_REG_FLOAT_HOSTS: 设置为 Y 或 y时,对 LSF 主机启用注册处理,以便 LSF 服务器可以解析这些主机,而无需使用 DNS 服务器。
- LSF_REG_HOST_INTERVAL: 仅适用于 Windows。 指定 lsreghost 向 LSF 服务器发送更多注册消息的时间间隔 (以分钟计)。 仅当为 LSF 主机启用了注册处理 (即,在 LSF 服务器上的 lsf.conf 文件中设置了 LSF_REG_FLOAT_HOSTS=Y ) 时,此参数才有效。
- LSF_REPLACE_PIM_WITH_LINUX_CGROUP: 最小化 PIM 守护程序处理并行作业负载的影响。 PIM 定期收集作业进程,所有进程之间的关系,每个进程的内存使用情况以及每个进程的 CPU 时间。 这些操作可能会影响并行作业 (所谓的 操作系统抖动) 的执行。 要最小化操作系统抖动,您可以配置 LSF cgroup 功能。 此参数仅在 Linux上受支持。 在其他操作系统上,将忽略该参数。 LSF cgroup 功能部件不支持 PAM 作业,因此如果运行 PAM 作业,那么无法禁用 PIM。
- 在 LSF V 10.1 修订包 2 中, LSB_BJOBS_FORMAT 参数现在具有以下字段:
- jobindex 显示了作业数组下标。
- estimated_run_time 显示了作业的估计运行时间。
- ru_utime 和 ru_stime 显示从作业的资源使用情况信息中使用的用户时间和系统时间。
- nthreads 显示作业使用的线程数
- hrusage 显示了每个主机的资源使用情况信息。
- plimit 和 eplimit 显示暂挂时间限制和合格时间限制。
- licproject 显示了许可证项目信息。
- srcjobid, dstjobid和 source_cluster 显示提交集群作业标识,执行集群作业标识以及使用 LSF 多集群功能时提交集群的名称。
- LSF_INTELLIGENT_CPU_BIND: 在 LSF V 10.1 修订包 2 中,此新参数使 LSF 能够将定义的一组 LSF 守护程序绑定到 CPU。
- LSB_BWAIT_REREG_INTERVAL: 在 LSF V 10.1 修订包 2 中,此新参数指定将等待条件从 bwait 命令重新注册到 mbatchd 守护程序的缺省时间间隔 (以分钟计)。
- LSF_HOST_CACHE_NTTL: 在 LSF V 10.1 修订包 2 中,此参数的缺省值从 20s 增加到 60s,这是最大有效值。
- LSB_QUERY_PORT: 在 LSF V 10.1 修订包 2 中,此参数的值现在在安装时设置为 6891 ,这将启用多线程 mbatchd 作业查询守护程序并指定 mbatchd 守护程序用于 LSF 查询请求的端口号。
- LSB_QUERY_ENH: 在 LSF V 10.1 修订包 2 中,此参数的值现在在安装时设置为 Y ,这会将多线程查询支持扩展至批处理查询请求 (除了 bjobs 个查询请求)。
- LSF_DCGM_PORT:在 LSF 版本 10.1 Fix Pack 2中,这个新参数启用 NVIDIA 数据中心GPU管理器(DCGM)功能,并指定 LSF 用于与DCGM守护进程通信的端口号。
- LSF_ENABLE_TMP_UNIT: 在 LSF V 10.1 修订包 2 中,此新参数允许 LSF_UNIT_FOR_LIMITS 参数定义的单元也将集群范围内的单元应用于 tmp 资源。
- LSB_RC_MAX_INSTANCES_PER_TEMPLATE: 在 LSF V 10.1 修订包 2 中, LSF 资源连接器的此新参数指定可以针对集群中任何资源提供程序的任何模板启动的最大资源实例数。 缺省值为 50。
- LSB_BHOSTS_FORMAT: 在 LSF V 10.1 修订包 2 中,此新参数定制 bhosts 命令显示的特定字段。
- LSB_BQUEUES_FORMAT: 在 LSF V 10.1 修订包 2 中,此新参数定制 bqueues 命令显示的特定字段。
- LSB_HMS_TIME_FORMAT: 在 LSF V 10.1 修订包 2 中,此新参数显示定制 bjobs -o 命令输出中的时间hh:mm:ss格式。 此参数设置仅适用于 bjobs -o 或 bjobs -o -json 命令输出。
- LSB_PROFILE_MBD: 在 LSF V 10.1 修订包 3 中,此新参数配置 mbatchd 守护程序概要分析程序以跟踪 mbatchd 在关键功能上所花费的时间。
- LSB_PROFILE_SCH: 在 LSF V 10.1 修订包 3 中,此新参数配置 mbschd 守护程序概要分析程序以跟踪 mbschd 在关键功能上所花费的时间。
- 在 LSF V 10.1 修订包 3 中, LSB_BJOBS_FORMAT 选项现在具有以下字段:
- 如果作业与提前预留相关联,那么 rsvid 将显示预留标识。
- LSF_LSLOAD_FORMAT: 在 LSF V 10.1 修订包 3 中,此新参数定制 lsload 命令显示的特定字段。
- LSB_GPU_NEW_SYNTAX: 在 LSF V 10.1 修订包 3 中,此新参数使 bsub -gpu 选项能够提交需要 GPU 资源的作业。
- LSF_ENABLE_BEAT_SERVICE: 在 LSF V 10.1 修订包 4 中,此新参数启用将能源记帐集成到 LSF 中的 lsfbeat 工具。 IBM Spectrum LSF Explorer 在使用 Beats 收集每个主机的能源数据时使用 Elasticsearch 。 启用此工具后, LSF 可以从 IBM Spectrum LSF Explorer 查询数据, bjobs 和 bhosts 向用户显示作业级别或主机级别的能量。
- LSF_QUERY_ES_SERVERS: 在 LSF V 10.1 修订包 4 中,此新参数指定 LSF Explorer 服务器以检索日志记录。 使用此参数使受支持的命令 (由 LSF_QUERY_ES_FUNCTIONS 参数定义) 能够使用 LSF Explorer 来获取日志记录,而不是解析日志文件以获取数据。
- LSF_QUERY_ES_FUNCTIONS: 在 LSF V 10.1 修订包 4 中,此新参数指定使用 LSF Explorer 检索作业记录的命令和函数。
- LSF_LSLOAD_FORMAT: 在 LSF V 10.1 修订包 4 中,此参数现在具有以下字段:
- gpu_status* 显示了 GPU 的状态 (ok,error,或warning)。 如果报告的 GPU 超过 1 个,那么将从 0 开始向资源名称追加索引。 例如, gpu_status0 和 gpu_status1。
- gpu_error* 显示了详细的错误或警告消息 (如果 gpu_status* 字段不是ok。如果报告的 GPU 超过 1 个,那么将从 0 开始向资源名称追加索引。 例如, gpu_status0 和 gpu_status1。
- LSB_GPU_AUTOBOOST: 在 LSF V 10.1 修订包 4 中,此参数现在已过时,因为 LSF 会同步 GPU 自动升降以解决先前需要禁用自动升降的任何问题。
- LSF_HWLOC_DYNAMIC: 在 LSF V 10.1 修订包 4 中,此新参数使 LSF 能够在需要时从系统库路径动态装入硬件位置 (hwloc) 库。 如果 LSF 无法装入库,那么 LSF 将缺省使用静态库中的 hwloc 函数。
- LSB_ESWITCH_METHOD: 在 LSF V 10.1 修订包 4 中,此新参数指定适用于所有作业切换请求的必需 eswitch 可执行文件。
- LSF_MC_FORWARD_FAIRSHARE_CHARGE_DURATION: 在 LSF V 10.1 修订包 4 中,此新参数指定 LSF 从用户优先级计算中除去转发的作业以进行公平共享调度的持续时间。 如果对 LSF 多集群功能 作业转发模型启用了全局公平共享调度,那么将使用此参数。
- LSB_START_EBROKERD: 在 LSF V 10.1 修订包 4 中,此新参数使 mbatchd 守护程序能够在 mbatchd 启动,重新配置或检测到旧 ebrokerd 守护程序退出时启动 ebrokerd 守护程序。 这是使用预先预留规定和后置脚本所必需的。 如果配置并正在使用 LSF 资源连接器,那么 ebrokerd 守护程序也会自动启动。
- LSF_MQ_BROKER_HOSTS: 在 LSF V 10.1 修订包 4 中, LSF 资源连接器的此新参数支持 bhosts -rc 和 bhosts -rconly 命令选项以获取 LSF 资源连接器提供程序主机信息。
- MQTT_BROKER_HOST: 在 LSF V 10.1 修订包 4 中, LSF 资源连接器的新参数。 如果不使用随 LSF提供的 MQTT 消息代理守护程序 (mosquitto) ,请指定运行 mosquitto 的主机名。 MQTT 消息代理从 ebrokerd 接收提供程序主机信息,并为要显示的 bhosts -rc 和 bhosts -rconly 命令选项发布该信息。
- LSF_MQ_BROKER_PORT: 在 LSF V 10.1 修订包 4 中, LSF 资源连接器的新参数。 如果不使用 LSF随附的 MQTT 消息代理守护程序 (mosquitto) ,请为 MQTT 消息代理守护程序 (mosquitto) 指定可选的 TCP 端口。 MQTT 消息代理从 ebrokerd 接收提供程序主机信息,并为要显示的 bhosts -rc 和 bhosts -rconly 命令选项发布该信息。
- EBROKERD_HOST_CLEAN_DELAY: 在 LSF V 10.1 修订包 4 中, LSF 资源连接器的此新参数指定延迟 (以分钟计) ,在此延迟之后, ebrokerd 守护程序将除去有关放弃或回收的主机的信息。 此参数允许 bhosts -rc 和 bhosts -rconly 命令选项在取消供应后一段时间内获取 LSF 资源连接器提供程序主机信息。
- LSF_UGROUP_TRANSFER: 在 LSF V 10.1 修订包 5 中,此新参数将辅助用户组标识从提交主机传输到执行主机以执行作业,从而克服 NFS 限制的 16 个用户组。
- LSF_UDP_PORT_RANGE: 在 LSF V 10.1 修订包 5 和修订包 6 中,此新参数定义要由 LSF 守护程序使用的 UDP 端口范围。 如果定义了 UDP 套接字,那么 LSF 守护程序的 UDP 套接字将绑定到指定范围内的一个端口。
- LSF V 10.1 修订包 5 和修订包 6 现在具有用于使用 IBM 集群系统管理器 (CSM) 运行作业的以下参数:
- LSB_JSM_DEFAULT 指定 CSM 作业的 bsub -jsm 选项的缺省值。
- LSB_STAGE_IN_EXEC 指定用于直接数据登台的脚本中的阶段 (例如, IBM CAST 突发缓冲区)。
- LSB_STAGE_OUT_EXEC 指定直接数据登台的登台输出脚本。
- LSB_STAGE_STORAGE 指定要报告用于直接数据登台的可用存储空间的资源名称。
- LSB_STAGE_TRANSFER_RATE 指定脉冲串缓冲区的估计数据传输速率。 LSF 使用此值来计算数据阶段的预测持续时间。
- LSB_STEP_CGROUP_DEFAULT 指定 CSM 作业的 bsub -step_cgroup 选项的缺省值。
- 在 LSF V 10.1 修订包 6 中, LSB_BJOBS_FORMAT 参数现在具有以下字段:
- 如果通过在 lsf.conf 文件中设置 LSF_QUERY_ES_FUNCTIONS="gpfsio" 或 "all" 来启用对 IBM Spectrum LSF Explorer 的 IBM Spectrum Scale I/O 记帐,那么 gpfsio 将显示 IBM Spectrum Scale 上的作业使用情况 (I/O) 数据。
- LSF_QUERY_ES_FUNCTIONS: 在 LSF V 10.1 修订包 6 中,此参数现在允许您指定 gpfsio 函数,这将启用 IBM Spectrum Scale I/O 记帐和 IBM Spectrum LSF Explorer。
- LSF_GPU_AUTOCONFIG: 在 LSF V 10.1 修订包 6 中,此新参数控制 LSF 是否允许自动使用 GPU 资源。
- LSB_GPU_NEW_SYNTAX: 在 LSF V 10.1 修订包 6 中,此参数现在将 extend 作为新关键字。 如果设置了 LSB_GPU_NEW_SYNTAX=extend ,那么可以使用 bsub -gpu 选项, lsb.queues 文件中的 GPU_REQ 参数, lsb.applications 文件中的 GPU_REQ 参数或 lsf.conf 文件中的 LSB_GPU_REQ 参数来指定 gmem, gmodel, gtile和 nvlink GPU 需求。
- LSB_GPU_REQ: 在 LSF V 10.1 修订包 6 中,此新参数指定集群的缺省 GPU 需求。
- LSB_GSLA_DISPLAY_ALLOC_HOSTS: 在 LSF V 10.1 修订包 7 中,此新参数使 bsla 命令能够显示有关正在使用 (分配) 来自保证 SLA 的每个保证池的保证主机的信息。
- LSB_BSUB_PARSE_SCRIPT: 在 LSF V 10.1 修订包 7 中,此新参数使 bsub 命令能够从命令行装入,解析和运行作业脚本。
- LSF_LSHOSTS_FORMAT: 在 LSF V 10.1 修订包 7 中,此新参数定制 lshosts 命令显示的特定字段。
- LSB_STAGE_MAX_STAGE_IN: 在 LSF V 10.1 修订包 7 中,此新参数指定在主机上运行的并发暂存区进程的最大数目,这将阻止 LSF 启动过多的暂存区进程以将文件传输到主机。
- LSF_STAGE_STORAGE: 在 LSF V 10.1 修订包 7 中,此参数现在允许您指定用于报告总存储空间的资源以及用于报告可用存储空间的资源。 这将阻止 LSF 分配比可用的存储空间更多的存储空间,因为资源信息可能已过时。 对于作业处理文件传输而不是 LSF 的直接数据登台作业,可能会发生此情况,因为 LSF 无法可靠地预测这些作业的存储器使用情况。
- LSB_PLAN_KEEP_RESERVE: 在 LSF V 10.1 修订包 7 中,此新参数使 LSF 能够保留针对具有计划的作业的资源预留,即使该计划不再有效,直到 LSF 根据更新后的资源可用性创建新计划为止。
- 在 LSF V 10.1 修订包 7 中, LSB_BJOBS_FORMAT 参数现在具有以下字段:
- nreq_slot 显示了为作业请求的槽的计算数量。
- gpu_num 显示作业正在使用的物理 GPU 数。
- gpu_mode 显示了作业正在使用的 GPU 计算方式 (shared或exclusive_process).
- gpu_alloc 显示了基于作业的 GPU 分配信息。
- j_exclusive 显示请求的作业是否独占分配的 GPU (即,如果无法与其他作业共享这些 GPU)。
- kill_reason 显示了用户指定的终止作业的原因。
- LSF_IMAGE_INFO_PUBLISH_INTERVAL: 在 LSF V 10.1 修订包 7 中,此新参数指定 lim 进程派生新进程以收集主机 Docker 容器映像信息的时间间隔。
- LSF_IMAGE_INFO_EXPIRE_INTERVAL: 在 LSF V 10.1 修订包 7 中,此新参数指定在信息到期之前 mosquitto 中的主机映像信息可用时间。
- LSF_EXT_SERVERDIR: 在 LSF V 10.1 修订包 7 中,此新参数指定 eauth 和 esub.application 二进制文件所在的安全目录。
- LSF_ENV_OVERRIDE: 在 LSF V 10.1 修订包 7 中,此新参数指定环境变量值和 $LSF_ENVIDR/lsf.conf 文件参数是否可以覆盖 /etc/lsf.conf 文件中的参数设置。
- LSB_GPU_REQ 在 LSF V 10.1 修订包 8 中具有以下更改:
- 现在可以在 GPU 需求中指定 aff=no ,以在保持 CPU 亲缘关系的同时放宽 GPU 亲缘关系。 缺省情况下, aff=no 设置为保持严格的 GPU-CPU 亲缘关系绑定。
- 现在,您可以在 GPU 需求中指定 mps=per_socket ,以允许 LSF 针对每个作业的每个套接字启动一个 MPS 守护程序。
- 现在,您可以在 GPU 需求中指定 mps=per_gpu ,以允许 LSF 针对每个作业的每个 GPU 启动一个 MPS 守护程序。
- LSF_AC_PNC_URL:在 LSF 版本 10.1 Fix Pack 8中,这个新参数指定了 URL 和 LSF Application Center 通知服务器的监听端口,用于发送通知。 如果未指定侦听端口,那么缺省端口号为 80。
- LSB_RC_TEMPLATE_REQUEST_DELAY: 在 LSF V 10.1 修订包 8 中, LSF 资源连接器的此新参数指定当 ebrokerd 守护程序迂到某些提供程序错误时, LSF 在重复模板请求之前等待的时间量 (以分钟为单位)。
- LSB_RC_MQTT_ERROR_LIMIT: 在 LSF V 10.1 修订包 8 中, LSF 资源连接器的此新参数指定每个主机提供程序在 Mosquitto 中存储的最大 API 错误消息数。 此参数指定 badmin rc error 命令针对每个主机提供程序显示的最大消息数。
- LSB_GPU_REQ: 在 LSF V 10.1 修订包 9 中,现在可以在 GPU 需求中指定 mps=yes,share, mps=per_socket,share和 mps=per_gpu,share ,以使 LSF 能够在主机,套接字或 GPU 上为具有相同资源需求的同一用户提交的作业共享 MPS 守护程序。
即,现在可以将 ",share" 添加到 mps 值以启用主机,套接字或 GPU 的 MPS 守护程序共享。
此外,现在可以通过指定 num=number/task 或 num=number/host来分配每个任务或每个主机的 GPU 数。 缺省情况下,仍为每个主机分配 GPU 数。
- LSB_BUSERS_FORMAT: 在 LSF V 10.1 修订包 9 中,此新参数定制 busers 命令显示的特定字段。
- LSF_DATA_BSUB_CHKSUM: 在 LSF V 10.1 修订包 9 中,此新参数使 bsub 和 bmod 命令能够对具有数据需求的作业的文件和文件夹执行完全健全性检查,并为每个文件和文件夹生成散列。 如果未指定,那么将在传输作业上执行这些操作。
- LSB_JOB_REPORT_MAIL: 在 LSF V 10.1 修订包 9 中,现在可以为 sbatchd 守护程序指定 ERROR ,以仅在作业退出时 (即,作业处于以下状态时) 发送邮件Exit状态)。 这将确保仅在发生作业错误时发送电子邮件通知。
- 在 LSF V 10.1 修订包 9 中, LSB_BJOBS_FORMAT 参数现在具有 ask_hosts 字段,此字段显示由 bsub -m 命令选项指定的所请求主机的列表。
- LSB_MEMLIMIT_ENF_CONTROL: 在 LSF V 10.1 修订包 9 中,现在可以从内存限制实施中排除交换阈值,并仅指定内存阈值。 要排除交换阈值,请为交换阈值指定值 0。
- LSF_DATA_NO_SSH_CHK_HOSTS: 在 LSF V 10.1 修订包 9 中,此新参数指定不需要 ssh 的数据主机的列表。 如果使用已提交作业的数据规范指定的主机与此列表中的其中一个主机匹配,那么 LSF 假定提交主机可以直接访问数据规范中的文件。
- 在 LSF V 10.1 FP10 中, LSB_BJOBS_FORMAT 参数现在具有以下字段:
- suspend_reason 显示了用户指定的暂挂 (停止) 作业的原因。
- resume_reason 显示了用户指定的恢复作业的原因。
- kill_issue_host 显示发出作业终止请求的主机。
- suspend_issue_host 显示发出作业暂挂 (停止) 请求的主机。
- resume_issue_host 显示发出作业恢复请求的主机。
- LSB_SUBK_SHOW_JOBID: 在 LSF V 10.1 FP10 中,此新参数启用 bsub -K 命令选项以在作业完成后显示该作业的作业标识。
- LSB_GPU_REQ 在 LSF V 10.1 FP10 中具有以下更改:
- 现在,可以将 ",nocvd" 关键字添加到 GPU 资源需求字符串中的现有 mps 值,以禁用 MPS 作业的 CUDA_VISIBLE_DEVICES 环境变量。
- 现在可以在 GPU 资源需求字符串中指定 block=yes ,以启用已分配 GPU 的块分发。
- 现在,可以在 GPU 资源需求字符串中指定 gpack=yes ,以对共享方式 GPU 作业启用包调度。
- LSB_NCPU_ENFORCE: 在 LSF V 10.1 FP10 中,现在已在安装新 LSF 安装时启用此参数 (即,设置为 1)。
- LSB_MAX_JOB_DISPATCH_PER_SESSION: 在 LSF V 10.1 FP10 中,此参数的缺省值更改为 15000。
- LSF_ACCEPT_NUMCLIENTS: 在 LSF V 10.1 FP10 中,此新参数指定在每个调度周期内 mbatchd 接受的到 mbatchd 端口的新客户机连接的最大数目。 先前,此值固定为 1。
- LSF_GPU_RESOURCE_IGNORE: 在 LSF V 10.1 FP10 中,此新参数使 mbatchd 和 mbschd 守护程序能够忽略 GPU 资源。 这意味着显示 LSF 资源的 lsload -s, lsload -l和 bhosts -l 命令不再显示有关 GPU 资源的信息。 即,这些选项不显示gpu_<num>n资源
- LSF_ROOT_REX: 在 LSF V 10.1 FP10 中,此参数已过时,不再允许本地和远程主机中的作业具有 root 用户执行特权。 以 root 用户身份执行的任何操作都必须改为以 LSF 管理员身份执行。
- LSF_ROOT_USER: 在 LSF V 10.1 FP10 中,此新参数使 root 用户能够作为 LSF 命令行中的有效用户执行操作。重要信息: 仅启用 LSF_ROOT_USER=Y 作为临时配置设置。 完成操作后,必须禁用此参数以确保集群保持安全。
- LS_ROOT_USER: 在 LSF V 10.1 FP10 中,此新参数使 root 用户能够从 LSF 命令行以有效用户身份运行 LSF License Scheduler 命令 (bladmin, blkill, globauth和 taskman)。重要信息: 仅启用 LS_ROOT_USER=Y 作为临时配置设置。 完成操作后,必须禁用此参数以确保集群保持安全。
- LSF_ADDON_HOSTS: 在 LSF V 10.1 FP10 中,此新参数指定需要 root 用户特权才能远程执行命令的 LSF Application Center, LSF RTM或 LSF Explorer 主机的列表。
- LSB_BJOBS_FORMAT: 在 LSF V 10.1 FP11 中,此参数现在允许您显示以下资源字段的单元前缀:mem,max_mem,avg_mem,memlimit,swap,swaplimit,corelimit,stacklimit和hrusage(针对hrusage,单元前缀用于mem和swap(仅适用于资源)。
此外,这些资源字段的缺省宽度 (除了hrusage从 10 增加到 15。 即,以下输出字段现在具有从 10 增加到 15 的缺省宽度:mem,max_mem,avg_mem,memlimit,swap,swaplimit,corelimit和stacklimit.
- LSF_DISABLE_LSRUN: 在 LSF V 10.1 FP11 中,此参数现在还允许 RES 拒绝来自 lsmake 命令的远程连接,以及拒绝来自 lsrun 和 lsgrun 命令的远程连接。
- LSF_GPU_RESOURCE_IGNORE: 在 LSF V 10.1 FP11 中,如果 LSF_GPU_AUTOCONFIG 设置为 Y 并且 LSB_GPU_NEW_SYNTAX 设置为 Y 或 extend,那么将 LSF_GPU_RESOURCE_IGNORE 设置为 Y 还将启用 LSF 以除去所有内置 GPU 资源 (gpu_<num>n) 从 管理 主机 LIM。 LSF 对 管理 主机 LIM 使用不同的方法来收集集群中的 GPU 信息。
- LSB_GPU_NEW_SYNTAX: 在 LSF V 10.1 FP11 中,如果启用了 GPU 抢占 (即, lsb.params 文件中的 PREEMPTABLE_RESOURCES 参数包含 ngpus_physical 资源) ,那么设置 LSB_GPU_NEW_SYNTAX=extend 将除去对 GPU 抢占的若干限制:
- 非 GPU 作业现在可以抢占较低优先级的 GPU 作业。
- 不再需要为自动作业迁移配置 GPU 作业,然后重新运行以由更高优先级的作业先发制人。 即,不再需要定义 MIG 参数,并且不再需要在 lsb.queues 或 lsb.applications 文件中将 RERUNNABLE 参数设置为 yes 。 确保正确配置 MIG, RERUNNABLE或 REQUEUE 参数,以确保在抢占作业后正确释放 GPU 资源。
- GPU 作业不再需要将 mode=exclusive_process 或 j_exclusive=yes 设置为被其他 GPU 作业抢占。 如果 GPU 仅由一个共享方式作业使用,那么 GPU 作业也可以使用 mode=shared 。
如果有多个作业在 GPU 上运行,那么更高优先级的 GPU 作业无法抢占共享方式 GPU 作业。
设置 LSB_GPU_NEW_SYNTAX=Y 将启用具有先前限制的 GPU 抢占 (如 LSF V 10.1 修订包 7 中所引入)。
- LSB_KRB_IMPERSONATE: 在 LSF V 10.1 FP11 中,如果启用了外部认证 (文件 lsf.conf中的LSF_AUTH=艾奥特 ) ,那么此新参数将启用 Kerberos 用户模拟。
- LSF_STRICT_CHECKING: 在 LSF V 10.1 FP11 中,现在可以将此参数设置为 ENHANCED,这使 LSF 除了允许更严格地检查 LSF 守护程序之间以及 LSF 命令与守护程序之间的通信之外,还可以向每个授权请求添加校验和。
- LSF_AUTH_QUERY_COMMANDS: 在 LSF V 10.1 FP11 中,此新参数启用查询命令认证。
- LSF_MANAGE_MIG: 在 LSF V 10.1 FP11 中,此新参数启用动态迁移调度。
- LSB_BHOSTS_FORMAT: 在 LSF V 10.1 FP11 中,此参数具有新的 mig_alloc 关键字,用于在 bhosts 定制输出中显示迁移分配信息。
- LSB_BHOSTS_FORMAT: 在 LSF V 10.1 FP11 中,此参数具有新的 mig_alloc 关键字,用于在 bhosts 定制输出中显示迁移分配信息。
- LSF_ENV_OVERRIDE: 在 LSF V 10.1 FP12 中,此参数的缺省值更改为 N。
- 在 LSF V 10.1 FP12 中,不推荐使用以下参数,将在未来版本中除去这些参数:
- LSB_CHUNK_RUSAGE
- LSB_CPUSET_BESTCPUS
- LSB_CPUSET_DISPLAY_CPULIST
- LSB_GPU_NEW_SYNTAX: 现在已修正为 extend。
- LSF_CPUSETLIB
- LSF_GPU_AUTOCONFIG: 现在已修正为 Y。
- LSF_GPU_RESOURCE_IGNORE: 现在已修正为 Y。
- LSF_PAM_APPL_CHKPNT
- LSF_PAM_CLEAN_JOB_DELAY
- LSF_PAM_HOSTLIST_USE
- LSF_PAM_PLUGINDIR
- LSF_PAM_USE_ASH
- LSF_PE_NETWORK_NUM
- LSF_PE_NETWORK_UPDATE_INTERVAL
- LSF_SHELL_AT_USERS
- LSF_STRICT_RESREQ: 现在已修正为 Y。
- LSF_TOPD_PORT
- LSF_TOPD_TIMEOUT
- LSF_STRICT_CHECKING: 在 LSF V 10.1 FP12 中,此参数的缺省值现在为 ENHANCED。
- LSF_AUTH_QUERY_COMMANDS: 在 LSF V 10.1 FP12 中,此参数的缺省值现在为 Y。
- LSF_ADDON_HOSTS:在 LSF 版本 10.1 Fix Pack 12中,如果您运行的是 LSF Application Center、 LSF Explorer、 LSF Process Manager 或 LSF RTM ,则现在需要此参数。
- LSB_BQUEUES_FORMAT 参数现在具有以下限制和资源字段:
- max_corelimit, max_cpulimit, default_cpulimit, max_datalimit, default_datalimit, max_filelimit, max_memlimit, default_memlimit, max_processlimit, max_runlimit, default_runlimit, max_stacklimit, max_swaplimit, max_tasklimit, min_tasklimit, default_tasklimit, max_threadlimit, default_threadlimit, res_req, hosts.
- 以下资源限制字段显示与其对应的最大资源限制字段相同的内容: corelimit, cpulimit, datalimit, filelimit, memlimit, processlimit, runlimit, stacklimit, swaplimit, tasklimit和 threadlimit。
例如,corelimit 与 max_corelimit 是相同的。
- LSB_BWAIT_IN_JOBS: 在 LSF 10.1 FP13 中,此新参数指定 LSF 是否可以在作业中使用 bwait 命令。
- LSF_GPU_AUTOCONFIG: 在 LSF 10.1 FP13 中,此参数的缺省值从 N 更改为 Y。
- LSB_GPU_NEW_SYNTAX: 在 LSF 10.1 FP13 中,此参数的缺省值从未定义更改为 extend。
- LSF_GPU_RESOURCE_IGNORE: 在 LSF 10.1 FP13 中,此参数的缺省值从 N 更改为 Y。
- 从 LSF V 10.1 FP13 开始,支持主机名作为参数选项的现有 LSF 命令现在也接受主机组。 有关受影响的命令的详细信息,请参阅 battr, bresume, brvs, lshosts和 lsload。
lsf.datamanager
- CACHE_REFRESH_INTERVAL: 在 LSF V 10.1 修订包 9 中,将此参数添加到 "参数" 部分,以通过设置文件高速缓存的刷新时间间隔来限制数据管理器的传输作业数。 这是由于更改了提交到数据管理器的作业的缺省行为。 是否存在文件或文件夹以及用户是否可以访问这些文件或文件夹,发现文件或文件夹的大小和修改,以及从 bsub 和 bmod 命令生成散列都将移至传输作业。 这将使提交和修改具有和不具有数据需求的作业的性能相等。
lsf.licensescheduler
- "参数和功能部件" 部分中的 LM_RESERVATION : 在 LSF V 10.1 修订包 3 中,此新参数使 LSF License Scheduler 能够支持 FlexNet Manager 预留关键字 (RESERVE)。 LSF License Scheduler 将 FlexNet Manager 许可证选项文件中的 RESERVE 值视为 OTHERS 令牌而不是 FREE 令牌。 RESERVE 值现在包含在 blstat 命令输出的 OTHERS 值中,并且不再包含在 FREE 值中。
- 在 LSF 版本 10.1 Fix Pack 12中,以下参数已被弃用并删除:
- ACCINUSE_INCLUDES_OWNERSHIP
- FAST_DISPATCH: 现在已修正为 Y。
- GROUP
- LOCAL_TO
- LS_ACTIVE_PERCENTAGE
- Clusters 部分: 在 LSF 10.1 FP13 中,此新部分指定要作为全局资源共享的许可证以及将共享这些许可证的集群。
lsf.sudoers
- 在 LSF V 10.1 FP10 中,必须为 LSF 管理命令启用 setuid 位才能使用 lsf.sudoers 文件。 在 LSF 主主机和候选主机上运行 hostsetup --setuid 命令选项。 由于这允许 LSF 管理命令以 root 用户特权运行,因此如果您不希望这些 LSF 命令以 root 用户特权运行,请不要启用 setuid 位。
- LSF_EAUTH_OLDKEY: 在 LSF V 10.1 FP12 中,此参数指定 eauth 用于在指定新的 eauth 密钥之后对用户认证数据进行加密和解密的先前密钥。 要使用此参数,还必须定义 LSF_EAUTH_OLDKEY_EXPIRY 参数以指定旧密钥的到期日期。
- LSF_EAUTH_OLDKEY_EXPIRY: 在 LSF V 10.1 FP12 中,此参数指定先前 eauth 键 (LSF_EAUTH_OLDKEY_EXPIRY 参数) 的到期日期,在此日期之后,先前键不再起作用,只有新的 LSF_EAUTH_KEY 参数起作用。
lsf.task
在 LSF V 10.1 FP12 中,不推荐使用此文件,将在将来的版本中除去此文件。
lsf.usermapping (新建)
在 LSF V 10.1 FP11 中, lsf.usermapping 文件定义新 bsubmit 命令的用户映射策略。 lsf.usermapping 文件允许您将多个作业执行用户和用户组映射到单个提交用户或用户组。 在 $LSF_ENVDIR 目录中创建 lsf.usermapping 文件。
awsprov_templates.json
- interfaceType: 在 LSF V 10.1 FP10中,此新参数指定是否将 Elastic Fabric Adapter (EFA) 网络接口连接到实例。
- launchTemplateId: 在 LSF V 10.1 修订包 FP10中,此新参数指定 AWS 启动模板。
- launchTemplateVersion: 在 FP10中,此新参数指定要选择的特定版本的 AWS 启动模板。
azureccprov_templates.json (新增)
在 LSF V 10.1 修订包 9 中, azureccprov_templates.json 文件定义 LSF 资源需求请求与 LSF 资源连接器的 Microsoft Azure CycleCloud 实例之间的映射。
- imageName: 在 LSF V 10.1 FP10 中,此新参数指定集群节点使用专用定制 Azure 映像或 Marketplace 映像。 您可以在 Azure 门户网站中找到定制映像的此标识作为映像的资源标识。
- interruptible: 在 LSF V 10.1 FP11 中,此新参数支持使用现货 VM。
- maxPrice: 在 LSF V 10.1 FP11 中,此新参数定义 Azure 回收 VM 之前现货 VM 的最大允许价格。
googleprov_config.json
- GCLOUD_REGION: 在 LSF V 10.1 FP12 中,此新参数指定 LSF 资源连接器用于批量 API 端点的缺省区域。 googleprov_templates.json 文件中定义的区域将覆盖此处定义的区域。
googleprov_templates.json
- hostProject: 在 LSF V 10.1 FP10 中,此新参数指定要生成 VPN 和子网值的主机项目标识,而不是 Google Cloud 项目标识 (即 googleprov_config.json 文件中的 GCLOUD_PROJECT_ID 参数)。 如果未指定,那么 LSF 资源连接器将使用 Google Cloud 项目标识来生成 VPN 和子网。
- launchTemplateId: 在 LSF V 10.1 FP12 中,此新参数指定启动模板标识。 指定此参数和 zone 参数以启用启动实例模板。
hostProviders.json
- preProvPath: 在 LSF V 10.1 修订包 2 中,此新参数指定预供应脚本的绝对路径文件, LSF 资源连接器在创建实例并成功启动之后但在将其标记为已分配给 LSF 集群之前运行。
- postProvPath: 在 LSF V 10.1 修订包 2 中,此新参数指定 LSF 资源连接器在实例成功终止之后但在从 LSF 集群中除去之前运行的供应后脚本的绝对文件路径。
- provTimeOut: 在 LSF V 10.1 修订包 2 中,此新参数指定在预供应脚本或后供应脚本结束之前运行的最大时间量 (以分钟为单位)。 使用此参数可避免供应前或供应后程序无限制地运行。 缺省值为 10 分钟。 如果设置为 0 ,那么将对 LSF 资源连接器禁用预供应和后供应。
ibmcloudgen2_config.json (新增)
在 LSF 版本 10.1 Fix Pack 11 中, ibmcloudgen2_config.json 文件管理资源连接器必须在 IBM Cloud Virtual Servers for Virtual Private Cloud Gen 2 (IBM Cloud Gen 2) 上执行的远程管理功能。
ibmcloudgen2_templates.json (新增)
在 LSF 版本 10.1 Fix Pack 11 中, ibmcloudgen2_templates.json 文件定义了 LSF 资源需求请求与 IBM Cloud Virtual Servers for Virtual Private Cloud Gen 2 (IBM Cloud Gen 2) 实例之间的映射,用于 LSF 资源连接器。
policy_config.json (新建)
在 LSF V 10.1 修订包 2 中, policy_config.json 文件为 LSF 资源连接器的资源提供程序配置定制策略。 资源策略插件读取此文件。
文件的缺省位置为 <LSF_TOP>/conf/resource_connector/policy_config.json。
policy_config.json 文件包含指定策略的 JSON 列表。 每个策略都包含一个名称,一个使用者,可以为该使用者启动的最大实例数以及可以在指定时间段内启动的最大实例数。
环境变量
- LSB_BMGROUP_ALLREMOTE_EXPAND: 在 IBM Spectrum LSF 多集群功能 资源租赁模型中, bmgroup 命令现在显示在HOSTS表单中的列host_name@cluster_name缺省情况下。
如果配置了 LSB_BMGROUP_ALLREMOTE_EXPAND=N ,那么租赁的主机由单个关键字表示allremote而不是显示为列表。
- epsub 环境变量 LSB_SUB_JOB_ID 指示由 LSF分配的已提交作业的标识,如 bjobs所示。 值为-1表示mbatchd拒绝了作业提交。
- epsub 环境变量 LSB_SUB_JOB_QUEUE 指示从中分派已提交作业的最终队列的名称,其中包括 esub进行的任何队列修改。
- epsub 环境变量 LSB_SUB_JOB_ERR 指示已提交作业的错误号 (如果作业提交失败) ,并由 epsub 用于确定作业提交失败的原因。 如果已成功提交或修改作业,那么此环境变量的值为 LSB_NO_ERROR (或 0)
- LSB_BHOSTS_FORMAT: 在 LSF V 10.1 修订包 2 中,此新环境变量定制 bhosts 命令显示的特定字段。
- LSB_BQUEUES_FORMAT: 在 LSF V 10.1 修订包 2 中,此新环境变量定制 bqueues 命令显示的特定字段。
- LSB_HMS_TIME_FORMAT: 在 LSF V 10.1 修订包 2 中,此新环境变量显示来自定制 bjobs -o 命令输出的时间hh:mm:ss格式。 此环境变量设置仅适用于 bjobs -o 或 bjobs -o -json 命令输出。
- NOCHECKVIEW_POSTEXEC: 在 LSF V 10.1 修订包 3 中, LSF Integration for Rational ClearCase 的此环境变量已过时,因为守护程序包装器不再运行 checkView 函数来检查 ClearCase 视图,这意味着不再需要此环境变量。
- LSB_DATA_PROVENANCE: 在 LSF V 10.1 修订包 4 中,此新环境变量启用数据出处工具以跟踪作业的数据输出文件。
- LSB_DEFAULTPROJECT: 在 LSF V 10.1 修订包 6 中,项目名称现在可以长达 511 个字符 (以前,此限制为 59 个字符)。
- LSB_PROJECT_NAME: 在 LSF V 10.1 修订包 6 中,项目名称现在可以长达 511 个字符 (以前,此限制为 59 个字符)。
- LSB_DOCKER_IMAGE_AFFINITY: 在 LSF V 10.1 修订包 9 中,此新环境变量允许 LSF 在提交或调度 Docker 作业时为已具有所请求 Docker 映像的执行主机提供首选项。
- LSB_BUSERS_FORMAT: 在 LSF V 10.1 修订包 9 中,此新环境定制 busers 命令显示的特定字段。
- LSF_AC_JOB_NOTIFICATION: 在 LSF V 10.1 修订包 9 中,此新环境请求在作业达到任何指定状态时通知用户。