AI 模型是一种程序,经过一组数据的训练,可识别某些模式或做出某些决策,而无需进一步的人工干预。人工智能模型将不同算法应用于输入的相关数据,以实现通过编程设置的任务或输出。
简而言之,AI 模型的定义是其自主做出决策或预测的能力,而不是模拟人类智能。最早成功的 AI 模型包括 20 世纪 50 年代初的跳棋和国际象棋游戏:这些模型使程序能够直接响应人类对手的动作,而不是遵循一系列预先设定的动作。
不同类型的 AI 模型更适合特定的任务或领域,它们的特定决策逻辑对于这些任务或领域是最有用或最相关的。复杂系统通常同时使用多个模型,使用整套学习方法,如 bagging、boosting 或 stacking。
随着 AI 工具变得越来越复杂和多功能,需要越来越多的数据和越来越强大的算力来训练和执行它们,这带来了挑战。与之相应,旨在在单个领域中执行特定任务的系统正在让位于基础模型,这些模型在大型、未标记的数据集上进行预训练,并能够用于各种应用。这些多功能基础模型可以针对特定任务进行微调。
尽管这两个术语在这种情况下经常可以互换使用,但它们的含义并不完全相同。
简单来说,AI 模型用于进行预测或决策,而算法则是 AI 模型的运行逻辑。
AI 模型可以实现决策自动化,但只有具备机器学习 (ML) 能力的模型才能随着时间的推移自主优化其性能。
虽然所有机器学习模型都是 AI,但并非所有 AI 都涉及机器学习。最基本的 AI 模型是一系列 if-then-else 语句,其规则由数据科学家明确编程。此类模型也称为规则引擎、专家系统、知识图谱 或符号 AI。
机器学习模型使用统计 AI,而不是符号 AI。基于规则的 AI 模型必须明确编程,而 ML 模型则通过将其数学框架应用于样本数据集来“训练”,该数据集的数据点作为模型未来真实世界预测的基础。
ML 模型技术通常可以分为三大类别:监督学习、无监督学习和强化学习。
深度学习是无监督学习的进一步演变,其神经网络结构试图模仿人脑。多层互连节点在一个称为前向传播的过程中逐步摄取数据、提取关键特征、识别关系并优化决策。另一个称为反向传播的过程则应用能够计算误差并相应地调整系统权重和偏差的模型。大多数先进的 AI 应用程序,例如支持现代聊天机器人的大语言模型 (LLM),都利用了深度学习。它需要大量的计算资源。
区分机器学习模型的一种方法是按基本方法论区分:大多数可分为生成式或判别式。区别在于它们如何在给定空间中建模数据。
生成式 算法通常需要无监督学习,对数据点的分布 进行建模,旨在预测给定数据点出现在特定空间中的联合概率 P(x,y)。因此,生成式计算机视觉模型可以识别诸如“看起来像汽车的事物通常有四个轮子”或“眼睛不太可能出现在眉毛上方”之类的相关性。
这些预测可以为生成式模型认为极有可能的输出提供信息。例如,在文本数据上训练的生成式模型可以提供拼写和自动完成建议;在最复杂的层面上,它可以生成全新的文本。从本质上讲,当 LLM 输出文本时,它已经计算出该单词组装序列成为给出提示之回应的概率很高。
生成式模型的其他常见用例包括图像合成、作曲、风格转换和语言翻译。
生成式模型的示例包括:
对于判别式模型和生成式模型,虽然在某些实际用例中,一种模型的性能通常优于 另一种,但许多任务都可以通过其中任何一种模型来完成。例如,判别式模型在自然语言处理 (NLP) 中有很多用途,并且在机器翻译(需要生成翻译文本)等任务中通常比生成式 AI 表现更好。
同样,生成式模型也可以利用贝叶斯定理进行分类。生成式模型不会像判别式模型那样确定实例位于决策边界的哪一侧,而是可以确定每个类生成实例的概率,并选择概率较高者。
许多 AI 系统同时采用这两种模型。例如,在生成式对抗网络中,使用生成式模型生成样本数据,然后利用判别式模型确定该数据是“真”还是“假”。判别式模型的输出用于训练生成式模型,直到判别器无法再辨别“假”的生成数据。
对模型进行分类的另一种方法是根据其所处理任务的性质。大多数经典的 AI 模型算法要么执行分类,要么执行回归。有些模型同时适用于这两种功能,并且大多数基础模型都利用这两种功能。
有时,这个术语可能会令人困惑。例如,逻辑回归是一种用于分类的判别式模型。
机器学习中的“学习”是通过在样本数据集上训练模型来实现的。然后将这些样本数据集中辨别的概率趋势和相关性应用于系统功能的性能。
在监督和半监督学习中,这些训练数据必须由数据科学家进行审慎的标记,以优化结果。如果进行适当的特征提取,监督式学习总体上需要的训练数据量低于无监督式学习。
理想情况下,ML 模型根据真实世界的数据进行训练。直观地说,这最能确保模型反映它旨在分析或复制的真实情况。但仅仅依赖真实世界的数据并不总是可行、实用或最佳。
模型的参数越多,训练时所需的数据就越多。随着深度学习模型规模的不断扩大,获取这些数据变得越来越困难。这在 LLM 中尤为明显:Open-AI 的 GPT-3 和开源 BLOOM 都有超过 1,750 亿个参数。
尽管使用公开数据很方便,但它也会带来监管问题,比如数据必须匿名化,以及实际问题。例如,实用社交媒体话题组训练的语言模型可能会“学习”习惯或不准确性,因此对于企业使用来说并不理想。
合成数据提供了另一种解决方案:使用较小的真实数据集生成与原始数据非常相似的训练数据,从而避免隐私问题。
机器学习模型根据真实世界数据进行训练必然会吸收那些数据中反映出的社会偏见。如果不消除这种偏见,那么在任何领域,如医疗保健或招聘领域,这种模式都会持续存在并加剧不公平现象。数据科学研究已经产生了 FairIJ 等算法和 FairReprogram 等模型优化技术,以解决数据中固有的不公平问题。
基础模型 也称为基模型或预训练模型,是在大规模数据集上预训练的深度学习模型,用于学习一般特征和模式。它们可以作为微调或适应更具体的 AI 应用的起点。
开发人员无需从头开始构建模型,而是可以更改神经网络层、调整参数或调整架构,以满足特定领域的需求。这增加了经过验证的大模型的知识和专业知识的广度和深度,从而节省了模型训练的大量时间和资源。因此,基础模型可以加快 AI 系统的开发和部署。
针对专门任务微调预训练模型最近已经让位于提示微调技术,该技术为模型引入前端提示,以引导模型进行所需类型的决策或预测。
根据麻省理工学院 - IBM Watson AI 实验室联合主任 David Cox 的说法,重新部署经过训练的深度学习模型(而不是训练或重新训练新模型)可以将计算机和能源消耗减少 1000 倍以上,从而节省大量成本 1。
复杂的测试对于优化至关重要,因为它可以衡量模型是否经过良好的训练以实现其预期任务。不同的模型和任务适合于不同的指标和方法。
测试模型的性能需要一个对照组来进行判断,因为根据训练模型所用的数据来测试模型可能会导致过拟合。在交叉验证 中,部分训练数据被搁置或重新采样,以创建对照组。变体包括非穷举方法(如 K 折、留出以及蒙特卡罗交叉验证)或穷举方法(如留 p 交叉验证)。
这些常见指标包括离散的结果值,如真正 (TP)、真负 (TN)、假正 (FP) 和假负 (FN)。
由于回归算法预测连续值而不是离散值,因此,它们通过不同的指标来衡量,其中 "N" 代表观测值的数量。以下是用于评估回归模型的常见指标。
部署和运行 AI 模型需要具有足够处理能力和存储容量的计算设备或服务器。未能充分规划 AI 管道和计算资源可能会导致原本成功的原型无法超越概念验证阶段。
IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。
企业认识到,他们无法使用不信任的基础模型来扩展生成式 AI。下载摘录内容以了解为何 IBM 及其旗舰产品“Granite 模型”被评为“出色表现者”。
了解如何使用最新的 AI 技术和基础架构,不断推动团队提高模型性能并超越竞争对手。
深入了解企业级基础模型的价值,为所有行业提供信任、性能和成本效益。
1“什么是提示微调?”,IBM Research,2023 年 2 月 15 日。
2“机器学习模型评估”,Geeksforgeeks.org,2022 年。