我的 IBM 登录 订阅

什么是 AI 基础设施?

2024 年 6 月 3 日

作者

Mesh Flinders

Author, IBM Think

Ian Smalley

Senior Editorial Strategist

什么是 AI 基础设施?

人工智能 (AI) 基础设施,也称为 AI 堆栈,这一术语是指创建和部署 AI 驱动的应用程序和解决方案所需的硬件和软件。

强大的 AI 基础设施使开发人员能够有效地创建和部署 AI 和 机器学习 (ML) 应用程序,例如 OpenAI 的 ChatGPT 等聊天机器人、面部和语音识别以及计算机视觉。各行各业各种不同规模的企业都依靠 AI 基础设施来帮助他们实现 AI 雄心壮志。在我们讨论 AI 基础设施的重要性及其工作原理之前,让我们先看一些关键术语。

什么是人工智能?

AI 是一种允许计算机模拟人类思考和解决问题方式的技术。当与其他技术(例如互联网、传感器、机器人等)结合使用时,AI 技术可以执行通常需要人工输入的任务,例如操作车辆、回答问题或从大量数据中提供见解。许多 AI 最流行的应用都依赖于机器学习模型,这是一个专门关注数据和算法的 AI 领域。

什么是机器学习 (ML)?

ML 是 AI 的一个重点领域,它利用数据和算法来模仿人类的学习方式,并随着时间的推移提高答案的准确性。ML 依靠决策过程来做出预测或分类信息,依靠误差函数来评估其工作的准确性,以及大型语言模型 (LLM) 和模型优化过程来减少已知示例和模型估计之间的差异。ML 算法会重复这一“评估和优化”过程,直到达到所定义的模型精度阈值。

要了解有关 AI 和 ML 之间细微差别的更多信息,请查看我们的博客“AI 与机器学习、深度学习、神经网络:有什么区别?

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

AI 基础设施与 IT 基础设施

随着企业发现越来越多的 AI 使用方法,建立必要的基础设施以支持其发展已变得至关重要。无论是部署 ML 来刺激供应链创新,还是准备发布生成式 AI 聊天机器人,拥有正确的基础设施都至关重要。

AI 项目需要定制基础设施的主要原因是运行 AI 工作负载所需的大量电力。为了实现这种能力,AI 基础设施依赖于云环境的低延迟图形处理单元 (GPU) 的处理能力,而不是传统 IT 基础设施环境中典型的传统中央处理器 (CPU)。

此外,AI 基础设施专注于专为云、AI 和 ML 任务设计的硬件和软件,而不是 IT 基础设施青睐的个人电脑、软件和本地部署数据中心。在 AI 生态系统中,软件堆栈通常包括 ML 库和框架(如 TensorFlow 和 PyTorch)、编程语言(如 Python 和 Java)以及分布式计算平台(如 Apache SparkHadoop)。

专家荟萃 | 播客

解码 AI:每周新闻摘要

加入我们的世界级专家团队,包括工程师、研究人员、产品负责人等,他们将穿透 AI 的喧嚣,为您带来最新的 AI 新闻和见解。

AI 基础设施的优势

除了为客户开发尖端应用提供支持外,投资 AI 基础设施的企业通常还能看到其流程和工作流的巨大改进。以下是开发强大 AI 基础设施的企业可以预期的六大最常见好处:

提高了可扩展性和灵活性

由于 AI 基础设施通常基于云,因此它比其本地部署 IT 前身更具可扩展性和灵活性。随着支持 AI 应用程序所需的数据集变得越来越大和复杂,AI 基础设施旨在随之扩展,使组织能够根据需要增加资源。灵活的云基础设施具有高度的适应性,并且与较传统的 IT 基础设施相比,它可以随着企业需求的变化而轻松扩展或缩减。

更高的性能和速度

AI 基础设施利用最新的高性能计算 (HPC) 技术,例如 GPU 和张量协议单元 (TPU),为支撑 AI 功能的 ML 算法提供支持。AI 生态系统具有并行处理能力,大大减少了训练 ML 模型所需的时间。由于速度在许多 AI 应用(如高频交易应用程序和无人驾驶汽车)中至关重要,因此提高速度和性能是 AI 基础设施的关键特征。

更多合作

强大的 AI 基础设施不仅涉及硬件和软件,还为开发人员和工程师提供了在构建 AI 应用程序时更有效地协同工作所需的系统和流程。AI 系统依靠 MLOps 实践(一种旨在简化和自动化 ML 模型创建的 AI 开发生命周期),使工程师能够更有效地构建、共享和管理他们的 AI 项目。

提升合规性

随着人们对数据隐私和 AI 的关注与日俱增,监管环境也变得更加复杂。因此,强大的 AI 基础设施必须确保在开发新的 AI 应用时,在数据管理和数据处理过程中严格遵守隐私法。AI 基础设施解决方案可确保所有适用法律和标准得到严格遵守,并确保 AI 合规性得到执行,从而保护用户数据,使企业免受法律和声誉损失。

降低成本

虽然投资 AI 基础设施可能很昂贵,但尝试在传统 IT 基础设施上开发 AI 应用程序和功能的相关成本可能更高。AI 基础设施可确保在 AI 项目的开发和部署过程中优化资源以及利用最佳可用技术。与试图在过时、低效的 IT 基础设施上完成 AI 计划相比,投资于强大的 AI 基础设施能为 AI 计划带来更好的投资回报率 (ROI)。

利用生成式 AI 功能

生成式 AI,也称为 Gen AI,是一种可以使用用户的简单提示创建自己的内容的 AI,包括文本、图像、视频和计算机代码。自生成式 AI 应用程序 ChatGPT 两年前推出以来,全球各地的企业一直在热切尝试利用这项新技术的新方法。生成式 AI 可以成倍地提高企业和个人的生产力。但它也伴随着真正的风险。AI 基础设施具有围绕生成式 AI 的强大框架,可以帮助企业安全、负责任地发展其能力。

AI 基础设施是如何工作的?

为了向工程师和开发人员提供构建高级 AI 和 ML 应用程序所需的资源,AI 基础设施依赖于现代硬件和软件的混合。通常,AI 基础设施分为四个部分:数据存储和处理、计算资源、ML 框架和 MLOps 平台。下面更详细地介绍一下它们的功能。

数据存储和处理

AI 应用程序需要在大型数据集上进行训练才能有效。希望部署强大的 AI 产品和服务的企业需要投资于可扩展的数据存储和管理解决方案,例如本地部署或基于云的数据库、数据仓库和分布式文件系统。此外,通常还需要 Pandas、SciPy 和 NumPy 等数据处理框架和数据处理库来处理和清理数据,然后才能用于训练 AI 模型。

计算资源

ML 和 AI 任务需要大量的计算能力和资源才能运行。精心设计的 AI 基础设施通常包括图形处理单元 (GPU) 和张量处理单元 (TPU) 等专用硬件,以提供并行处理能力并加快 ML 任务的速度。

图形处理单元 (GPU):GPU 通常由 Nvidia 或 Intel 制造,是用于训练和运行 AI 模型的电子电路,因为它们具有一次执行多项操作的独特能力。通常,AI 基础设施包括用于加速 AI 任务中常见的矩阵和矢量计算的 GPU 服务器。

张量处理单元 (TPU):TPU 是为加速 AI 工作负载中的张量计算而定制的加速器。它们的高吞吐量和低延迟使其成为许多 AI 和深度学习应用的理想选择。

机器学习框架

ML 框架提供了 AI 设计、训练和部署 ML 模型所需的特定资源。TensorFlow 和 PyTorch 等 ML 框架支持 AI 应用程序所需的各种功能,包括加速 GPU 任务和对三种 ML 训练至关重要的功能:监督训练、无监督训练和强化训练。强大的 ML 框架可以加快机器学习过程,并为开发人员提供开发和部署 AI 应用程序所需的工具。

MLOps 平台

MLOps 是一个涉及一系列具体实践的过程,旨在帮助自动执行和加速机器学习。MLOps 平台可帮助开发人员和工程师进行数据收集和模型训练,一直到应用程序启动后的验证、故障排除和应用程序监控。MLOps 平台支撑着 AI 基础设施的功能,帮助数据科学家、工程师和其他相关人员成功推出支持 AI 的全新工具、产品和服务。

构建强大 AI 基础设施的六个步骤

以下是各种规模和行业的企业可以采取的六个步骤来构建他们所需的 AI 基础设施:

1. 确定预算和目标

在您调查希望构建和维护有效 AI 基础设施的企业可用的众多选项之前,重要的是要明确说明您需要从中得到什么。您想解决哪些问题?您愿意投资多少?明确回答这些问题是一个良好的开端,有助于简化您在选择工具和资源时的决策过程。

2. 选择合适的硬件和软件

选择适合您需求的正确工具和解决方案是创建您可以信赖的 AI 基础设施的重要一步。从 GPU 和 TPU 到加速机器学习,再到构成软件堆栈的数据库和 ML 框架,在选择资源时您将面临许多重要的选择。始终牢记您的目标和您愿意进行的投资水平,并相应地评估您的选择。

3. 找到合适的网络解决方案

快速、可靠的数据流对于 AI 基础设施的功能至关重要。高带宽、低延迟网络(如 5G)支持在存储和处理之间快速安全地移动大量数据。此外,5G 网络提供公共和私有网络实例,以增加隐私、安全性和可定制性。如果没有合适的网络,世界上最好的 AI 基础设施工具将毫无用处,无法让它们按照设计的方式运行。

4. 在云和本地部署解决方案之间做出选择

AI 基础设施的所有组件都在云和本地提供,因此在决定哪个适合您之前,考虑两者的优势非常重要。虽然 AWS、Oracle、IBM 和 Microsoft Azure 等云供应商提供了更大的灵活性和可扩展性,允许企业以更便宜的即用即付模式使用某些功能,但本地 AI 基础设施也有其优势,通常可以提供更多控制并提高特定工作负载的性能。

5. 制定合规措施

AI 和 ML 是受到高度监管的创新领域,随着越来越多的公司在该领域推出应用程序,它只会受到越来越密切的关注。目前管理该行业的大多数法规都与数据隐私和安全有关,如果违反这些法规,可能会导致企业遭受破坏性罚款和声誉损害。

6. 实施和维护解决方案

建立 AI 基础设施的最后一步是启动和维护它。除了将要使用它的开发人员和工程师团队外,您还需要一些方法来确保硬件和软件保持最新状态,并遵循您制定的流程。这通常包括定期更新软件和运行系统诊断程序,以及审查和审计流程和工作流。

相关解决方案

相关解决方案

IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示