主页 topics AutoML 什么是自动化机器学习?
了解 AutoML 如何帮助构建可重复且可解释的 AI 解决方案
订阅 IBM 时事通讯
黑色和蓝色渐变背景
什么是自动化机器学习?

近年来,自动化机器学习 (AutoML) 已成为业界和学术届人工智能 (AI) 研究的热门话题。AutoML 在为受监管行业中提供 AI 解决方案方面前景广阔,能够提供可解释且可重复的结果。即便是没有数据科学职位目前所需的理论背景的用户,也能通过 AutoML 更多地参与 AI 开发。 

当前原型数据科学管道中的每一步,例如数据预处理、特征工程和超参数优化,都必须由机器学习专家亲自完成。 相比之下,采用 AutoML 可以简化开发过程,只需几行代码即可开始开发机器学习模型。 

可将 AutoML(无论是构建分类器还是训练回归)看成一种广义搜索概念,具有专门的搜索算法,用于为 ML 管道的每个组成部分寻找最优解决方案。 AutoML 可帮助构建系统,支持特征工程、超参数优化和神经架构搜索这三个数据科学关键部分的自动化,有望实现“平民化”机器学习。 

认识 watsonx.ai

轻松训练、验证、调优和部署基础模型及机器学习模型

AutoML 的类型

在数据科学管道中,数据科学团队必须执行许多步骤以构建预测模型。 即便是经验丰富的数据科学家和 ML 工程师团队,也会受益于 AutoML 更快的速度以及透明度。 数据科学家必须从假设开始,收集合适的数据集,尝试完成一些数据可视化工作,设计额外的功能以利用所有可用信号,使用超参数(链接位于 IBM 外部)训练模型;此外,要实现最先进的深度学习,他们还必须为深度神经网络设计最优架构,而且最好能在 GPU 上运行。

 

自动化特征工程


数据特征是机器学习模型输入数据的一部分,而特征工程是指数据科学家从现有数据中获取新信息的转换过程。特征工程是机器学习工作流程中的关键增值过程之一,性能堪堪可接受的模型与性能优异的模型之间的区别就在于特征的质量。 原始数据的这些数学转换被读入到模型中,并作为机器学习过程的核心发挥作用。 自动化特征工程  (PDF 1.7 MB)  (AFE)(链接位于 IBM 外部)是一种消除人工以机器方式探索可行特征组合空间的过程。

人工方式的特征工程是现代“炼金术”,在时间方面成本很高:构建单个特征通常需要数小时,这仅仅是最低准确度分数所需的时间,生产级准确度基线可能需要数百小时。 通过自动完成特征空间的探索,AutoML 帮助数据科学团队将这一阶段的耗时从几天缩短到几分钟。

自动化特征工程的优点不仅仅在于减少数据科学家人工干预的时间。 生成的特征通常具有清晰的可解释性。 在医疗保健或金融等受到严格监管的行业中,可解释性非常重要,因为可解释性有助于降低采用 AI 的难度。 此外,让数据科学家或分析师明确了解这些特征会带来好处,它们可使高质量模型更具吸引力和可操作性。 自动生成的特征也有可能找到新的 KPI,以供组织进行监控和采取行动。 一旦数据科学家完成了特征工程,他们就必须通过战略特征选择来优化模型。

 

自动化超参数优化


超参数是机器学习算法的一部分,最易于理解的比喻是,可以将其看成是微调模型性能的杠杆,但每一个调整通常会产生巨大的影响。 在小规模数据科学建模中,可由人工轻松设置超参数,并通过反复试验进行优化。

对于深度学习应用,超参数的数量呈指数增长,因此由数据科学团队以人工方式完成超参数的优化在时间上而言完全不可能。 自动化超参数优化 (HPO)(链接位于 IBM 外部)将团队从在整个事件空间中探索和优化超参数的艰巨任务中解放出来,可以集中精力对特征和模型进行迭代和试验。

机器学习流程自动化的另一个优势是,数据科学家可以专注于思考创建模型的原因,而不是创建模型的方法。考虑到许多企业可用的数据量极其巨大,并且可以用这些数据回答海量的问题,因此分析团队可以关注应优化模型的哪些方面,一个典型例子就是在医疗检测领域最大程度减少误报。

神经架构搜索 (NAS)


深度学习中最复杂、最耗时的过程就是创建神经架构。数据科学团队要花费大量时间来选择合适的层和学习率,最终通常只是针对模型中的权重,就像在许多语言模型中一样。神经架构搜索 (NAS)(链接位于 IBM 外部)的实质就是“使用神经网络设计神经网络”,是机器学习中从自动化受益最明显的领域之一。

NAS 搜索首先选择要尝试的架构。 NAS 的结果取决于评判每个架构的指标。 有几种常见的算法可用于神经架构搜索。 如果潜在的架构数量很少,可以随机选择架构进行测试。 基于梯度的方法将离散的搜索空间转化为连续表示,事实证明这种方法非常有效。数据科学团队还可以尝试进化算法,也就是随机评估架构,减少应用变更,传播更成功的子架构,同时修剪不成功的子架构。

神经架构搜索是实现 AI 平民化的关键 AutoML 要素之一。 然而,这些搜索往往伴随着非常高的碳足迹。 业界尚未对这些权衡进行研究,目前正在探索的 NAS 方法是生态成本优化。

相关链接

数据科学

机器学习

AutoAI

AutoML 的使用策略

自动化机器学习听起来像是技术解决主义的灵丹妙药,让组织用它取代成本不菲的数据科学家,但实际并非如此,使用自动化机器学习还需要组织采取智慧的策略。数据科学家在设计试验、将结果转化为业务成果以及维护机器学习模型的整个生命周期方面始终是不可或缺的角色。 那么,跨职能团队如何利用 AutoML 优化时间利用率,加快实现模型价值的速度呢?

融合 AutoML API 的最优工作流程是使用它并行处理工作负载,缩短用于人力密集型任务上的时间。 数据科学家无需花费数天时间进行超参数调优,而是可以同时在多种模型上自动执行此过程,随后测试哪个模型的表现最好。  

此外,目前还有一些 AutoML 功能可帮助不同技能水平的团队成员为数据科学管道做出贡献。 数据分析师即使没有 Python 专业知识,也可以借助工具包(例如 Watson Studio 上的 AutoAI),使用他们自己通过查询提取的数据,轻松训练预测模型。 借助 AuotML,数据分析师可以对数据进行预处理,构建机器学习管道,并生成经过充分训练的模型,以用于验证自己的假设,而无需整个数据科学团队协助。

AutoML 和 IBM 研究院

IBM 研究人员和开发人员为 AutoML 的成长和发展做出了巨大贡献。 IBM 通过多种方式帮助形成新一代 AI 方法,包括正在进行的 IBM Watson 上的 AutoAI 产品开发工作,以及 IBM 研究人员在开源自动化数据科学库 Lale(链接位于 IBM 外部)方面的工作。 虽然 Lale 是开源项目,但实际上是 AutoAI 中许多功能的核心。 

Lale 为使用 Python 作为机器学习技术栈核心的数据科学团队提供半自动化库,可无缝集成到 scikit-learn(链接位于 IBM 外部)管道中,与 auto-sklearn(链接位于 IBM 外部)或 TPOT (链接位于 IBM 外部)之类的库不同。 Lale 在自动化、正确性检查和互操作性方面完胜 scikit-learn。 虽然 Lale 基于 scikit-learn 范式,但它不断从其他 Python 库以及 Java 和 R 等语言库吸收转换器和运算符。 

相关解决方案
AutoAI

快速构建和训练高质量的预测模型。 简化 AI 生命周期管理。

探索 AutoAI
IBM Watson Studio

在任何云端构建和扩展可信 AI。 实现面向 ModelOps 的 AI 生命周期自动化。

了解 IBM Watson® Studio
采取下一步行动

Watson Studio 和 AutoAI 可帮助数据科学团队在整个 AI/ML 生命周期中快速实现自动化。 团队首先使用一组机器学习模型原型,利用其预测能力加快产品的面市速度。 Watson Studio 中的 AutoAI 简化自动化特征工程、自动化超参数优化和机器学习模型选择等过程的速度。 它可以帮助数据科学团队和数据分析团队快速评估自己的假设,在证明模型的有效性后,便可以将模型部署到 QA 或生产环境中使用。  

了解 IBM Watson Studio