我的 IBM

什么是机器学习管道？

机器学习管道是一系列互连的数据处理和建模步骤，旨在自动化、标准化和简化构建、训练、评估和部署机器学习模型的过程。

机器学习管道是机器学习系统开发与生产中的关键组成部分，它可帮助数据科学家和数据工程师管理端到端机器学习流程的复杂性，并可帮助他们为各类应用开发出准确且可扩展的解决方案。

机器学习管道的优点

机器学习管道具备诸多优点。

模块化：借助管道，您可将机器学习流程分解为模块化且定义明确的若干步骤。每个步骤均可单独进行开发、测试和优化，从而可更轻松地管理和维护工作流程。
可再现性：机器学习管道可让实验更易重现。通过定义管道中的步骤顺序及其参数，您便可准确地重新创建整个流程，从而确保实现一致的结果。如果某一步骤失败或模型性能下降，则可对管道进行配置，以发出警报或采取纠正措施。
效率：管道可以自动执行许多日常任务，例如数据预处理、特征工程和模型评估。此效率提升可节省大量时间，并降低出错风险。
可扩展性：管道可轻松进行扩展，从而处理大型数据集或复杂的工作流程。随着数据和模型复杂性的上升，您可以调整管道而不必从头开始重新配置所有内容（可能十分耗时）。
实验：通过修改管道中的各个步骤，您可对不同的数据预处理技术、特征选择和模型进行实验。凭借此灵活性，您便可实现快速迭代和优化。
部署：管道有助于将机器学习模型部署到生产中。一旦您建立了明确定义的模型训练和评估管道，就可以轻松地将其集成到您的应用程序或系统中。
协作：借助管道，数据科学家和工程师团队更易开展协作。由于会对此工作流程进行拆解和记录，团队成员便更易理解该项目并为其做出贡献。
版本控制和文档：您可以使用版本控制系统来跟踪管道代码和配置的变化，从而确保在需要时可回滚到以前的版本。结构明晰的管道有助于更好地记录每个步骤。

专家荟萃 | 播客

解码 AI：每周新闻摘要

加入我们的世界级专家团队，包括工程师、研究人员、产品负责人等，他们将穿透 AI 的喧嚣，为您带来最新的 AI 新闻和见解。

观看片段

机器学习管道的各个阶段

机器学习技术正在快速发展，但我们仍可确定构建和部署机器学习和深度学习模型流程中所涉及的某些普遍步骤。

数据收集：在此初始阶段，会从各种数据源（例如数据库、API 或文件）收集新数据。此数据摄取操作通常涉及原始数据，而此类数据可能需预处理后才能发挥作用。
数据预处理：此阶段涉及清理、转换和准备用于建模的输入数据。常见的预处理步骤包括处理缺失值、对分类变量进行编码、调整数值特征以及将数据拆分为训练集和测试集。
特征工程：特征工程是指通过数据来创建新特征或选择相关特征的流程，而这些特征可提高该模型的预测能力。此步骤通常要求具备领域知识和创造力。
模型选择：在此阶段，需根据问题类型（如分类、回归）、数据特征和性能要求来选择合适的机器学习算法。您可能还要考虑超参数调整。
模型训练：使用所选算法并通过训练数据集来训练所选模型。其中涉及对训练数据中的潜在模式和关系进行学习。此外，也可使用预先训练好的模型，而不是训练一个新模型。
模型评估：训练结束后，使用单独的测试数据集或通过交叉验证来评估该模型的性能。常见的评估指标取决于具体问题，但其中可能包括准确度、精确度、召回率、F1-分数、均方误差或其他指标。
模型部署：一旦开发出满意的模型并完成评估，便可将其部署到生产环境，以便它对新的、未见过的数据进行预测。部署可能涉及创建 API 并与其他系统集成。
监控和维护：部署完成后，必须持续监控该模型的性能，并按需对其进行再训练，以适应不断变化的数据模式。此步骤可确保该模型在实际环境中保持准确性和可靠性。

不同机器学习生命周期的复杂性各不相同，且可能涉及其他步骤，具体则取决于实际用例，例如超参数优化、交叉验证和特征选择。机器学习管道的目标是实现这些流程的自动化和标准化，从而更轻松地为各种应用程序开发和维护 ML 模型。

机器学习管道的历史

机器学习管道的发展历史与机器学习和数据科学领域的发展密切相关。虽然数据处理工作流程的概念先于机器学习出现，但我们眼下所知的机器学习管道的正规化和广泛运用却是近期才发展起来的。

早期的数据处理工作流程（2000 年代以前）：在机器学习实现广泛运用之前，数据处理工作流程主要用于数据清理、转换和分析等任务。这些工作流程通常由人工操作，且需编写脚本或使用电子表格软件等工具。但在此期间，机器学习却并非这些流程的核心组成部分。

机器学习的兴起（2000 年代）：2000 年代初期，随着算法、算力和大型数据集的出现，机器学习开始逐渐崭露头角。研究人员和数据科学家开始将机器学习应用于各个领域，从而致使对系统化与自动化工作流程的需求不断上升。

数据科学的腾飞（2000 年代末至 2010 年代初）：作为一个结合了统计学、数据分析和机器学习的多学科领域，“数据科学”在此时期开始流行起来。在此时期，数据科学工作流程实现了正规化，其中包括数据预处理、模型选择和评估，而这些工作流程如今均已成为机器学习管道的必要组成部分。

机器学习库和工具的发展（2010 年代）：进入 2010 年代，机器学习库和工具的发展简化了管道的创建。scikit-learn（适用于 Python）和 caret（适用于 R）等库为构建和评估机器学习模型提供了标准化的 API，从而使构建管道变得更为轻松。

AutoML 的腾飞（2010 年代）：在此时期，出现了自动化机器学习 (AutoML) 工具和平台，而它们旨在自动执行构建机器学习管道的流程。这些工具通常会自动执行超参数调整、特征选择和模型选择等任务，从而可让非专家人士更易通过可视化效果和教程来了解机器学习。例如，Apache Airflow 便是可用于构建数据管道的一种开源工作流程管理平台。

与 DevOps 相集成（2010 年代）：机器学习管道开始与 DevOps 实践相集成，从而实现机器学习模型的持续集成和部署 (CI/CD)。此集成突出了 ML 管道中对可再现性、版本控制和监控的需求。该集成被称为机器学习运营（或 MLOps），它可帮助数据科学团队有效管理 ML 编排管理的复杂性。在实时部署中，管道会在某一请求的几毫秒时间内回复该请求。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

资源

提升您的 ML 专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

AI 实际应用报告

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

什么是机器学习管道？