主页 Z 软件 Z 事务 Lifeline IBM Multi-site Workload Lifeline

让 z/OS 上运行的业务关键型工作负载在中断期间实现连续可用性

阅读 IBM 红皮书

Multi-site Workload Lifeline 又称为 Lifeline,是一款用于监控和路由工作负载的软件,旨在通过在两个站点之间分配 TCP/IP 工作负载的连接以及 IBM® MQ 集群工作负载的消息,来平衡关键工作负载事务,从而确保近乎连续的可用性。

此产品既可以作为独立产品提供,也可作为 GDPS Continuous Availability 解决方案的组成部分提供。

在发生中断时,与传统灾难恢复相比,IBM Multi-site Workload Lifeline 有助于将关键工作负载恢复时间从几小时缩短到几分钟。它检测工作负载故障并重新路由到另一个站点,以缩短计划外中断的恢复时间。它将工作负载切换到另一个站点以尽量减少中断,从而减轻计划内中断的影响。

Lifeline 支持以下工作负载类型:

  • 基于 TCP/IP 的工作负载。

  • Linux on z Systems 工作负载

  • SNA 工作负载

  • IBM MQ 集群工作负载。

  • Db2 综合系统路由工作负载

最新消息

Lifeline V2.5 近期更新摘要

对远程命令 API 和 IBM MQ 多集群工作负载的支持

优势 提高性能

将新的工作负载连接路由到处理能力最强的应用程序、服务器和系统,从而缩短事务响应时间。更高效地使用系统资源。

实现更高可用性

在应用程序、系统或站点发生中断期间,将新的工作负载连接路由到其他可用的应用程序。可以最大限度减少维护更新或其他计划内事件造成的中断。

缩短恢复时间

将新的工作负载连接与处理能力最强的应用程序和系统相结合,从而缩短响应时间。将工作负载发生故障后的恢复时间从数小时缩短到数分钟。

提高可扩展性

按需添加应用程序实例。自动监控添加的实例,并将其包括在工作负载路由决策中。

改进工作负载迁移、提高利用率

将工作负载从一个站点路由到另一个站点,以尽量减少中断。可以同时将查询工作负载连接分配给两个站点。

简化灾难恢复程序

添加更简单的无中断灾难恢复测试程序,无需中断生产站点即可验证是否仍然可以在恢复站点上访问工作负载。

IBM Multi-site Workload Lifeline 有助于我们了解某个站点是否正常,以及数据是否已同步。只有在部署 IBM Multi-site Workload Lifeline 后,IBM GDPS Continuous Availability (GDPS CA) 才能完成工作负载切换,以实现持续可用性。 数据中心高级经理 一家大型亚洲银行
功能
对工作负载应用负载均衡

对于针对 TCP/IP 应用程序的工作负载,Lifeline 使用两层负载均衡。Lifeline 指示第一层负载均衡器将工作负载连接路由到所选站点中的第二层负载均衡器,然后第二层负载均衡器将连接路由到该站点中的应用程序。Lifeline 依靠 IBM MQ 集群处理使用消息传送的工作负载。Lifeline 指示集群将工作负载消息路由到所选站点中的 IBM MQ 队列管理器,然后队列管理器将消息提供给应用程序。

深入了解外部负载均衡器 深入了解内部负载平衡器
站点路由建议

对于使用两层负载均衡器的工作负载,Lifeline 根据两个站点中的工作负载应用程序、z/OS 系统和 Linux on IBM Z Systems(如果适用)的可用性和运行状况,为第一层负载均衡器提供站点连接路由建议。对于使用 IBM MQ 集群的工作负载,Lifeline 根据两个站点中的 IBM MQ 队列管理器和 z/OS 系统的可用性和运行状况,为集群提供站点消息路由建议。

深入了解 IBM MQ 集群
Lifeline 代理

Lifeline 代理在两个站点中存在工作负载的每个 z/OS 系统和 Linux on Z 管理客户机上启动。代理负责监控位于其系统上的工作负载应用程序,并向 Lifeline 顾问报告这方面的信息。z/OS 上的代理还负责与 IBM MQ 队列管理器通信,以监控和影响 IBM MQ 集群中的 IBM MQ 消息路由。

深入了解 Lifeline 代理
Lifeline 顾问

Lifeline 顾问在 z/OS 系统上启动,可以作为主顾问或辅助顾问启动。主顾问负责与所有 Lifeline 代理通信,以确定工作负载是否可用。主顾问会向 IBM MQ 集群代理提供 IBM MQ 消息分发规则,并为这些工作负载的 TCP 连接负载均衡器提供路由建议。辅助顾问负责监控主顾问的可用性,并在主顾问发生故障时接替主顾问履行其职责。

深入了解 Lifeline 顾问
工作负载配置

为 Multi-site Workload Lifeline 配置的每个工作负载划分为活动/备用工作负载或活动/查询工作负载。

活动/备用工作负载

 

活动/备用工作负载仅在一个站点中处于活动状态。Lifeline 指示负载均衡器和 IBM MQ 队列管理器将传入的连接和消息路由到活动站点。在进行数据库更新时,数据库复制软件会将这些更改从工作负载的活动实例异步传输到备用实例。在备用站点中,工作负载的备用实例处于活动状态并准备好接收工作。来自活动站点的更新数据近乎实时地应用于备用站点中运行的数据库子系统。

活动/查询工作负载

活动/查询工作负载可在一个或两个站点中处于活动状态。Lifeline 会向负载均衡器提供路由建议,从而智能地平衡两个站点之间的连接。使用 IBM MQ 消息的工作负载不能归类为活动/查询工作负载。当关联的活动/备用工作负载进行数据库更新时,Lifeline 会监控数据库复制延迟,以确保当某一站点上的复制数据库所含数据与活动站点数据库中的数据相比处于严重过时状态时,不会将连接路由到该站点。

深入了解 Multi-Site Workload Lifeline 配置示例
技术细节

在准备使用 Multi-site Workload Lifeline 时,您需要确定要让哪些工作负载实现连续可用性,并评估访问这些工作负载的应用程序的方式。

要求
  • 所有 z/OS 系统都应该是 z/OS 2.5 或更高版本。
  • 所有 Linux on z Systems 客户机都必须使用 SUSE Linux Enterprise Server (SLES) 12 SP4 或更高版本,或是 Red Hat Enterprise Linux Server 7.9 或更高版本。
  • 托管 Linux on z Systems 客户机的 z/VM 必须是 z/VM 6.4 或更高版本。
查看所有其他要求
资源 转换为 IBM MQ 集群

了解如何将附带共享通道的现有 MQ 环境转换为集群,以及如何配置 Lifeline 以支持使用 MQ 集群的工作负载。

将 IBM Multi-site Workload Lifeline 与 F5 BIG-IP 集成

阅读描述 Lifeline 与 F5 的 BIG-IP 本地流量管理器集成的用例。

相关产品 IBM z/OS Communications Server

用于开发和共享大型机工作负载的安全平台。

IBM GDPS

自动执行大型机任务和灾难恢复,以实现弹性目标。

IBM z/OS Parallel Sysplex

利用集群技术增强服务器通信,该项技术支持最多 32 个 IBM z/OS 系统进行连接并充当单个逻辑计算平台。

IBM Data Replication

通过基于日志的变更数据采集与事务完整性,支持大规模的数据集成与整合、仓储以及分析计划。

进一步了解 IBM Z 的弹性

常见问题解答

IBM Multi-site Workload Lifeline 如何实现连续可用性?

Lifeline 可以跨两个综合系统或运行这些系统的站点,监控工作负载应用程序以及这些应用程序所在的系统。Lifeline 可控制针对这些工作负载应用程序的连接和 MQ 消息的路由,从而确保将这些连接和 IBM MQ 消息发送到活动站点中的最佳工作负载应用程序。
如果检测到活动站点中的工作负载出现故障,Lifeline 可在几秒钟内自动将工作负载切换到备用站点中的工作负载应用程序。或者,Lifeline 也可以生成警报消息,而自动化产品捕获这些消息后可自行切换工作负载。

我的企业是否需要连续的工作负载可用性?

如果您的企业符合以下情况之一,则需要具有连续的工作负载可用性。

  • 根据行业法规,您的企业必须 24x7 全天候运营。
  • 其他企业依赖于您企业的始终在线可用性,例如,如果您的企业属于金融和保险行业。
  • 您的企业没有实行恢复程序,例如,在非综合系统环境中,并且没有磁盘复制功能。
持续可用性与灾难恢复有何不同?

现有的灾难恢复解决方案利用基于磁盘的复制,将本地站点中的系统使用的所有磁盘镜像复制到远程站点。在进行磁盘复制时,不能使用这些磁盘副本。如果在本地站点中发生故障,则需要在远程站点中重新启动系统和工作负载应用程序,然后才能重新访问工作负载。通常,这可能需要一小时或更长时间才能完成。
借助启用了 Lifeline 的连续可用性解决方案,可以使用软件数据复制(例如 InfoSphere Data Replication for Db2)在本地站点和远程站点之间保持数据同步。主要区别在于,两个站点中的系统均处于活动状态,并使用 Lifeline 监控两个站点中的工作负载。如果在本地站点中发生故障,Lifeline 将检测工作负载故障,并将所有新的工作负载连接路由到备用站点。因此,可以在几秒钟内重新访问工作负载,而灾难恢复解决方案需要一小时或更长的时间。

Lifeline 如何充当 GDPS Continuous Availability 解决方案的重要组成部分?

Lifeline 通过其监控和工作负载路由功能在 GDPS 持续可用性解决方案中发挥不可或缺的作用,同时提供以下优势:

  • 提高性能:新的工作负载连接将路由到最有能力处理它们的应用程序、服务器和系统中,从而缩短事务响应时间。系统资源可更有效地进行使用。
  • 提高可用性:在一些应用程序和系统发生故障时,可以将新的工作负载连接路由到可用的应用程序和系统。可以最大限度减少维护更新或其他计划内事件造成的中断。
  • 缩短恢复时间:将恢复时间目标从几小时缩短到几分钟。通过磁盘复制,传统灾难恢复解决方案重新启动系统或应用程序以在备用站点上进行恢复。这通常需要几小时的时间,并且 IT 服务在此期间中断。通过在 GDPS Continuous Availability 解决方案中使用 Lifeline,可以在几分钟内将工作负载切换到备用站点。
了解更多信息
Lifeline 是否仅作为 GDPS Continuous Availability 解决方案的一部分提供?

不。虽然 Lifeline 通常被用作 GDPS 连续可用性解决方案的其中一部分,但也可部署在该解决方案之外。
如果您的企业拥有自己的自动化功能,则可使用 Lifeline 和软件数据复制产品在两个站点中保持数据同步。
在其他情况下,如果您的企业拥有未启用综合系统的工作负载应用程序,则无法使用 GDPS 连续可用性解决方案。通过使用 Lifeline 和软件数据复制产品在两个站点中保持数据同步,可为这些工作负载类型提供“类似综合系统”的恢复功能。

了解更多信息
Lifeline 如何缩短计划内中断的维护窗口?

Lifeline 提供了在计划内中断期间正常切换应用程序及其数据源(Lifeline 称为工作负载)的功能。通过使用简单的 Lifeline 命令,可以轻松执行从一个站点到另一个站点的工作负载迁移,从而最大限度减少计划内事件(例如定期维护活动)的中断时间。

了解更多信息
Lifeline 如何在计划外中断期间为关键工作负载提供近乎连续的可用性?

Lifeline 可提高可用性,因为新的连接和消息可从发生故障的工作负载应用程序和系统中路由出去。Lifeline 可通过将连接和消息路由到可处理额外工作的工作负载应用程序和系统来缩短响应时间,并将恢复时间从几小时缩短为几分钟。

是否最初需要为 Lifeline 配置站点中运行的所有工作负载?

不需要。Lifeline 的众多好处之一是,它不像灾难恢复解决方案那样是一个全有或全无的解决方案。仅需要为 Lifeline 配置最关键的工作负载以提供连续可用性,而所有其他工作负载(包括批处理)使用现有的灾难恢复过程进行恢复。可以随时在 Lifeline 中添加其他工作负载。

将某个工作负载定义到 Lifeline 时,该工作负载具有哪些特征?

工作负载的特征取决于工作负载类型。对于基于 TCP 的工作负载,特征是 TCP 应用程序的 IP 地址和端口号。对于基于 SNA 的工作负载,特征是 SNA 应用程序的 SNA 应用程序名称。对于基于 IBM MQ 的工作负载,特征是发送工作负载的 IBM MQ 消息的 MQ 集群队列和 MQ 队列管理器。对于基于 Db2 DRDA 的工作负载,特征是 Db2 别名和 Db2 子系统的 IP 地址和端口号。对于 Linux on Z 工作负载,特征是 zVM 上运行的 Linux on Z 客户机。

Lifeline 如何控制工作负载应用程序连接路由?

Lifeline 依靠支持服务器/应用程序状态协议 (SASP) 的负载均衡器;在 RFC 4678 中介绍了该协议。该协议允许 Lifeline 定期向启用了 SASP 的负载均衡器发送路由建议,以指示负载均衡器如何在一组可能跨两个站点的工作负载应用程序之间路由工作负载连接。F5 Big-IP Switch Local Traffic Manager 是建议与 Lifeline 一起使用的负载均衡器。

Lifeline 如何控制工作负载 MQ 消息路由?

Lifeline 可与管理工作负载所用队列的 MQ 队列管理器通信,并指示 IBM MQ 队列管理器有资格在其中接收 IBM MQ 消息的 MQ 集群。站点中的工作负载发生故障后,Lifeline 还可确保在工作负载切换期间将任何搁置的 MQ 消息传输到备用站点中的 IBM MQ 管理器。

后续步骤

了解 Multi-site Workload Lifeline 如何在发生中断后帮助缩短关键工作负载的恢复时间。安排与 IBM Z 代表进行 30 分钟的免费会议。

更多探索方式 文档 支持 IBM Redbooks 支持与服务 全球金融 灵活定价 教育与培训 社区 开发者社区 业务合作伙伴 资源