什么是数据中心管理?
2023 年 6 月 21 日
阅读时长 5 分钟

为了向利益相关者提供重要的 IT 服务,组织需要确保其私有数据中心正常运行、安全和合规。数据中心管理涵盖了实现此目标所需的任务和管理工具。负责执行这些任务的人称为数据中心经理。

数据中心经理的职责是什么?

数据中心经理无论是在现场还是远程,都要执行一般维护工作,例如软件和硬件升级、一般清理或决定服务器的物理布局,并对任何损害数据中心性能、安全性和合规性的威胁或事件采取主动或被动措施。

数据中心经理的典型职责包括以下几点:

  • 执行设备安装和退役等生命周期任务
  • 维护服务级别协议 (SLA)
  • 确保履行许可和合同义务
  • 识别并解决 IT 问题,例如边缘计算设备与数据中心之间的连接问题
  • 保护数据中心网络,确保灾难恢复的备份系统和流程落实到位
  • 监测数据中心环境的能源效率(如照明、散热等)
  • 管理和分配资源,实现预算支出效益最大化
  • 确定最优的服务器和线缆布局
  • 制定自然灾害或其他突发事件导致业务中断时的应急预案
  • 对系统进行必要的更新和修复,同时尽量缩短停机时间并降低对 IT 运营和业务功能的影响(也称为变更管理)

针对希望掌握或提升技能和知识以胜任数据中心管理工作的 IT 学生和专业人士,业界提供了认证项目。

数据中心管理的常见挑战

驾驭复杂性

从本质上讲,企业数据中心内的资产管理非常复杂。数据中心通常由多家供应商的硬件和软件组成,包含大量应用程序和工具。数据中心环境还可以与多家云服务提供商的私有云环境共存并交互。每个硬件组件、软件实例和云环境都可以有自己的合同条款、保修规则、用户界面或许可权限。打补丁或升级时,数据中心的每个元素也都有独特的流程和程序需要遵循。复杂性本身就是一个挑战,同时它还是数据中心管理中面临的许多其他挑战的一个促成因素(如果不是直接原因的话)。

满足 SLA 要求

数据中心的多供应商环境非常复杂,数据中心经理可能很难确保所有 SLA 都得到遵守。这些 SLA 可能涵盖:

  • 应用程序可用性
  • 数据保留
  • 恢复速度
  • 网络正常运行时间和可用性

跟踪保修状态

在复杂的环境中,数据中心经理可能很难及时掌握哪些设备的保修期已经结束,或者每份保修合同具体包含哪些内容。如果保修信息不可见,就可能在原本属于保险范围内的组件上花费不必要的费用。

成本

对于私有数据中心来说,IT 人员、能源和冷却成本可能会消耗掉有限预算中的大部分,而这些预算通常被视为组织的非增值成本。

监控

数据中心经理可能被迫使用性能不足或过时的设备来监控其复杂的数据中心运行情况。这可能会导致无法全面了解系统性能,工作负载分配效率低下。容量规划也会受到负面影响,因为依赖不同或过时设备的数据中心经理可能没有准确的指标,从而难以评估数据中心是否能满足当前业务的需求。

资源有限

由于预算限制,数据中心经理经常在有限的人员、电力和空间下工作。在许多情况下,他们还缺乏有效管理这些有限资源所需的适当工具。有限的资源可能会妨碍服务管理,导致组织内的业务用户和其他利益相关者在使用 IT 系统时遇到延迟或资源不足的问题。

实现可持续发展目标

许多组织正在努力减少其碳足迹,想方设法降低其数据中心的能源消耗并转向绿色能源。数据中心经理的任务是实施硬件和程序以减少数据中心环境的碳足迹,同时有效管理现有数据中心复杂性和有限的资源。

如何克服数据中心管理挑战

DCIM 软件

数据中心经理可以使用数据中心基础架构管理 (DCIM) 解决方案来简化管理任务并实现 IT 性能优化。DCIM 软件提供了一个集中式平台,数据中心经理可以在其中实时监控、测量、管理、控制数据中心的所有元素 - 从本地 IT 组件到供暖、制冷和照明等数据中心设施。

借助 DCIM 解决方案,数据中心经理可以获得数据中心的单一简化视图,并能更好地了解整个 IT 基础架构中发生的情况。

DCIM 解决方案提供以下方面的可见性:

  • 电源和散热状态
  • 哪些 IT 设备和软件组件已准备好升级
  • 所有组件的许可/合同条款和 SLA
  • 设备健康和安全状态
  • 能源消耗和电源管理
  • 网络带宽和服务器容量
  • 占地面积
  • 所有物理数据中心资产的位置

DCIM 解决方案还能帮助数据中心经理采用虚拟化技术来整合和更好地管理其数据中心的 IT 资源。更先进的 DCIM 解决方案甚至可以自动执行任务,省去手动操作,让数据中心经理有更多时间处理其他事务,同时降低成本。

主机托管数据中心

主机托管数据中心是一种第三方服务,可为组织提供物理空间和设施管理,以存放和管理其私有服务器和相关 IT 资产。虽然组织仍要负责配备人员和管理其数据中心组件,但主机托管服务可以减轻与构建、运行、维护物理空间相关的负担和成本。

支持可持续发展的硬件、混合云和 AI 解决方案

硬件、混合云和 AI 解决方案可帮助数据中心经理实现其组织的可持续发展目标,同时更大限度地提高数据中心性能。例如,合适的服务器可以大大降低能耗并节省物理空间 - 在某些情况下,能耗降低高达 75%,空间节省高达 67%。

数据中心管理和 IBM

您需要有足够的电能来完成工作,但也不需要太多,在不使用设备时没必要浪费电能。使用混合云和 AI 帮助简化运营、节约能源并提高性能,让可持续发展成为真正的业务驱动力,同时为您带来投资回报。

减少占地面积:IBM® LinuxONE Rockhopper 4 服务器可将能耗降低 75%,占用空间减少 67%(与具有类似条件和位置的 x86 服务器处理相同的工作负载相比)[1]。企业可以借助节能数据中心、整合的工作负载以及改进的基础架构节省成本,并减少占用空间。

能源使用自动化:利用 IBM® Turbonomic 实现能源使用自动化,提高能源效率。测量、分析和智能管理资源,确保应用程序始终准确使用所需资源。

简化数据管理:通过统一的 IBM® Storage FlashSystem 平台系列获得市场先进的性能和效率,让您能够跨本地、混合云和容器化环境简化管理,降低运营复杂性。

 
作者
IBM Education IBM Education
脚注

[1] 作对比的 IBM 机器类型 3932 Max 68 型号由 CPC 抽屉和支持网络和外部存储器的 I/O 抽屉组成,其中每个机架具有 68 个 IFL 和 7 TB 内存,而作对比的 36 个 x86 服务器(2 个 Skylake Xeon Gold 芯片,40 个内核)共有 1440 个内核。IBM 机器类型 3932 Max 68 型号的功耗在系统上测量,并使用 IBM 机器类型 3932 Max 68 型号配置的 IBM 功耗估算器进行过确认。x86 功率值基于 2023 年 2 月的 IDC QPI 功率值,根据 IBM 对 x86 服务器的测量和现场观测值,该功率值已降至 55%。作对比的 x86 服务器功耗约为 .6083千瓦时,这是 IDC QPI 系统功耗值的 55%。计算节省量时,假设全球数据中心电源使用效率 (PUE) 系数为 1.55,并使用此系数计算冷却所需的额外电力。PUE 基于 Uptime Institute 2022 年全球数据中心调查(ibm.com 外部链接)。 计算 x86 系统的占用空间需要 3 个机架。结果可能会因客户具体使用情况和位置而异。