机器学习管道是指一系列互连的数据处理与建模步骤,它旨在自动执行、标准化和简化构建、训练、评估和部署机器学习模型的相关流程。
阅读并了解为什么 IBM 在《IDC MarketScape:2023 年全球 AI 治理平台》报告中被评为领导者。
立即注册,获取有关生成式 AI 的电子书
机器学习管道具备诸多优点。
模块化:借助管道,您可将机器学习流程分解为模块化且定义明确的若干步骤。每个步骤均可单独进行开发、测试和优化,从而可更轻松地管理和维护工作流程。
可再现性:机器学习管道可让实验更易重现。通过定义管道中的步骤顺序及其参数,您便可准确地重新创建整个流程,从而确保实现一致的结果。如果某一步骤失败或模型性能下降,则可对管道进行配置,以发出警报或采取纠正措施。
可扩展性:管道可轻松进行扩展,从而处理大型数据集或复杂的工作流程。随着数据和模型复杂性的上升,您可以调整管道而不必从头开始重新配置所有内容(可能十分耗时)。
实验:通过修改管道中的各个步骤,您可对不同的数据预处理技术、特征选择和模型进行实验。凭借此灵活性,您便可实现快速迭代和优化。
部署:管道有助于将机器学习模型部署到生产环境中。一旦为模型训练与评估建立明确的管道,您便可轻松将其集成到您的应用程序或系统中。
协作:借助管道,数据科学家和工程师团队更易开展协作。由于会对此工作流程进行拆解和记录,团队成员便更易理解该项目并为其做出贡献。
版本控制和文档:您可以使用版本控制系统来跟踪管道代码和配置的变化,从而确保在需要时可回滚到以前的版本。结构明晰的管道有助于更好地记录每个步骤。
如今,机器学习技术正在快速发展,但我们仍可确定构建和部署机器学习与深度学习模型流程中所涉及的某些普遍步骤。
数据收集:在此初始阶段,会从各种数据源(例如数据库、API 或文件)收集新数据。此数据摄取操作通常涉及原始数据,而此类数据可能需预处理后才能发挥作用。
数据预处理:此阶段涉及清理、转换和准备用于建模的输入数据。常见的预处理步骤包括处理缺失值、对分类变量进行编码、调整数值特征以及将数据拆分为训练集和测试集。
特征工程:特征工程是指通过数据来创建新特征或选择相关特征的流程,而这些特征可提高该模型的预测能力。此步骤通常要求具备领域知识和创造力。
模型选择:在此阶段,需根据问题类型(如分类、回归)、数据特征和性能要求来选择合适的机器学习算法。此外,您还可考虑调整超参数。
模型训练:使用所选算法并通过训练数据集来训练所选模型。其中涉及对训练数据中的潜在模式和关系进行学习。此外,也可使用预先训练好的模型,而不是训练一个新模型。
模型评估:训练结束后,使用单独的测试数据集或通过交叉验证来评估该模型的性能。常见的评估指标取决于具体问题,但其中可能包括准确度、精确度、召回率、F1-分数、均方误差或其他指标。
模型部署:一旦开发出满意的模型并完成评估,便可将其部署到生产环境,以便它对新的、未见过的数据进行预测。部署可能涉及创建 API 以及与其他系统相集成。
监控和维护:部署完成后,必须持续监控该模型的性能,并按需对其进行再训练,以适应不断变化的数据模式。此步骤可确保该模型在实际环境中保持准确性和可靠性。
不同机器学习生命周期的复杂性各不相同,且可能涉及其他步骤,具体则取决于实际用例,例如超参数优化、交叉验证和特征选择。机器学习管道的目标是实现这些流程的自动化和标准化,从而更轻松地为各种应用程序开发和维护 ML 模型。
机器学习管道的发展历史与机器学习和数据科学领域的发展密切相关。虽然数据处理工作流程的概念先于机器学习出现,但我们眼下所知的机器学习管道的正规化和广泛运用却是近期才发展起来的。
早期的数据处理工作流程(2000 年代以前):在机器学习实现广泛运用之前,数据处理工作流程主要用于数据清理、转换和分析等任务。这些工作流程通常由人工操作,且需编写脚本或使用电子表格软件等工具。但在此期间,机器学习却并非这些流程的核心组成部分。
机器学习的兴起(2000 年代):2000 年代初期,随着算法、算力和大型数据集的出现,机器学习开始逐渐崭露头角。研究人员和数据科学家开始将机器学习应用于各个领域,从而致使对系统化与自动化工作流程的需求不断上升。
数据科学的腾飞(2000 年代末至 2010 年代初):作为一个结合了统计学、数据分析和机器学习的多学科领域,“数据科学”在此时期开始流行起来。在此时期,数据科学工作流程实现了正规化,其中包括数据预处理、模型选择和评估,而这些工作流程如今均已成为机器学习管道的必要组成部分。
机器学习库和工具的发展(2010 年代):进入 2010 年代,机器学习库和工具的发展简化了管道的创建。scikit-learn(适用于 Python)和 caret(适用于 R)等库为构建和评估机器学习模型提供了标准化的 API,从而使构建管道变得更为轻松。
AutoML 的腾飞(2010 年代):在此时期,出现了自动化机器学习 (AutoML) 工具和平台,而它们旨在自动执行构建机器学习管道的流程。这些工具通常会自动执行超参数调整、特征选择和模型选择等任务,从而可让非专家人士更易通过可视化效果和教程来了解机器学习。例如,Apache Airflow 便是可用于构建数据管道的一种开源工作流程管理平台。
与 DevOps 相集成(2010 年代):机器学习管道开始与 DevOps 实践相集成,从而实现机器学习模型的持续集成和部署 (CI/CD)。此集成突出了 ML 管道中对可再现性、版本控制和监控的需求。该集成被称为机器学习运营(或 MLOps),它可帮助数据科学团队有效管理 ML 编排管理的复杂性。在实时部署中,管道会在某一请求的几毫秒时间内回复该请求。
借助我们的下一代 AI 和数据平台,将 AI 功用提升数倍。IBM watsonx 集业务工具、应用程序和解决方案于一体,旨在降低 AI 使用成本和障碍,同时优化 AI 结果和使用可靠性。
在整个企业中有效运行 AI,从而以合乎道德标准的方式快速获益。我们的商业级 AI 产品和分析解决方案组合丰富多样,它们旨在减少采用 AI 过程中的障碍,构建正确的数据基础,并以结果和使用可靠性为导向进行优化。
重新构想如何使用 AI:我们的多元化全球团队由超过 20,000 名 AI 专家组成,可以帮助您快速而自信地设计和扩展整个企业的 AI 和自动化,利用我们自己的 IBM watsonx 技术和开放式合作伙伴生态系统,遵守道德,互相信任,在任何云端交付所需 AI 模型。