什么是 AI 模型？| IBM

什么是 AI 模型？

AI 模型是一种程序，经过一组数据的训练，可识别某些模式或做出某些决策，而无需进一步的人工干预。人工智能模型将不同算法应用于输入的相关数据，以实现通过编程设置的任务或输出。

简而言之，AI 模型的定义是其自主做出决策或预测的能力，而不是模拟人类智能。最早成功的 AI 模型包括 20 世纪 50 年代初的跳棋和国际象棋游戏：这些模型使程序能够直接响应人类对手的动作，而不是遵循一系列预先设定的动作。

不同类型的 AI 模型更适合特定的任务或领域，它们的特定决策逻辑对于这些任务或领域是最有用或最相关的。复杂系统通常同时使用多个模型，使用整套学习方法，如 bagging、boosting 或 stacking。

随着 AI 工具变得越来越复杂和多功能，需要越来越多的数据和越来越强大的算力来训练和执行它们，这带来了挑战。与之相应，旨在在单个领域中执行特定任务的系统正在让位于基础模型，这些模型在大型、未标记的数据集上进行预训练，并能够用于各种应用。这些多功能基础模型可以针对特定任务进行微调。

算法与模型

尽管这两个术语在这种情况下经常可以互换使用，但它们的含义并不完全相同。

算法是通常用数学语言或伪代码描述的程序，应用于数据集以实现特定的功能或目的。
模型是应用于数据集的算法的输出结果。

简单来说，AI 模型用于进行预测或决策，而算法则是 AI 模型的运行逻辑。

AI 学院

为您的用例选择适合的 AI 模型

对于 AI 模型而言，越大并不一定越好。了解如何找到适合您业务需求的模型。然后获取指南手册，以帮助您采取行动。

转到视频集

AI 模型和机器学习

AI 模型可以实现决策自动化，但只有具备机器学习 (ML) 能力的模型才能随着时间的推移自主优化其性能。

虽然所有机器学习模型都是 AI，但并非所有 AI 都涉及机器学习。最基本的 AI 模型是一系列 if-then-else 语句，其规则由数据科学家明确编程。此类模型也称为规则引擎、专家系统、知识图谱 或符号 AI。

机器学习模型使用统计 AI，而不是符号 AI。基于规则的 AI 模型必须明确编程，而 ML 模型则通过将其数学框架应用于样本数据集来“训练”，该数据集的数据点作为模型未来真实世界预测的基础。

ML 模型技术通常可以分为三大类别：监督学习、无监督学习和强化学习。

监督学习：监督学习也称为“经典”机器学习，需要人类专家来标注训练数据。数据科学家训练图像识别模型识别狗和猫，他们必须将样本图像标注为“狗”或“猫”，并告知这些主要标注的关键特征（例如大小、形状或皮毛）。然后，该模型可以在训练期间，使用这些标注来推断“狗”和“猫”的典型视觉特征。
无监督学习：与监督学习技术不同，无监督学习不假设外部存在“正确”或“错误”答案，因此不需要标注。这些算法检测数据集中的固有模式，将数据点分组为聚类并提供预测。例如，Amazon 等电子商务企业使用无监督关联模型来支持推荐引擎。
强化学习：在强化学习中，模型通过系统地奖励正确输出（或惩罚错误输出），以反复试验的方式进行全面学习。强化模型用于为社交媒体建议、算法股票交易甚至自动驾驶汽车提供信息。

深度学习是无监督学习的进一步演变，其神经网络结构试图模仿人脑。多层互连节点在一个称为前向传播的过程中逐步摄取数据、提取关键特征、识别关系并优化决策。另一个称为反向传播的过程则应用能够计算误差并相应地调整系统权重和偏差的模型。大多数先进的 AI 应用程序，例如支持现代聊天机器人的大语言模型 (LLM)，都利用了深度学习。它需要大量的计算资源。

生成式模型与判别式模型

区分机器学习模型的一种方法是按基本方法论区分：大多数可分为生成式或判别式。区别在于它们如何在给定空间中建模数据。

生成式模型

生成式 算法通常需要无监督学习，对数据点的分布进行建模，旨在预测给定数据点出现在特定空间中的联合概率 P(x,y)。因此，生成式计算机视觉模型可以识别诸如“看起来像汽车的事物通常有四个轮子”或“眼睛不太可能出现在眉毛上方”之类的相关性。

这些预测可以为生成式模型认为极有可能的输出提供信息。例如，在文本数据上训练的生成式模型可以提供拼写和自动完成建议；在最复杂的层面上，它可以生成全新的文本。从本质上讲，当 LLM 输出文本时，它已经计算出该单词组装序列成为给出提示之回应的概率很高。

生成式模型的其他常见用例包括图像合成、作曲、风格转换和语言翻译。

生成式模型的示例包括：

扩散模型：扩散模型会逐渐向训练数据中添加高斯噪声，直到无法识别为止，然后学习反向“去噪”过程，从随机种子噪声中合成输出（通常是图像）。
变分自编码器 (VAE)：VAE 由压缩输入数据的编码器和学习逆向处理并映射可能数据分布的解码器组成。
转换器模型：转换器模型使用称为“注意力”或“自注意力”的数学方法来确定一系列数据中的不同元素是如何相互影响的。OpenAI 的 Chat-GPT 中的 "GPT" 代表“生成式预训练转换器”。

判别式模型

判别算法通常需要监督学习，它对数据类别之间的边界（或“决策边界”）进行建模，旨在预测给定数据点 (x) 属于某个类别 (y) 的条件概率 P(y|x)。判别式计算机视觉模型可以通过识别一些关键差异（例如“如果没有轮子，就不是汽车”）来学习“汽车”和“非汽车”之间的区别，从而可以忽略生成式模型必须考虑的许多相关性。因此，判别式模型往往需要较少的算力。

判别式模型天然地适合情感分析等分类任务，但它们还有很多用途。例如，决策树和随机森林模型将复杂的决策过程分解为一系列节点，其中每个“叶子”代表一个潜在的分类决策。

用例

对于判别式模型和生成式模型，虽然在某些实际用例中，一种模型的性能通常优于 另一种，但许多任务都可以通过其中任何一种模型来完成。例如，判别式模型在自然语言处理 (NLP) 中有很多用途，并且在机器翻译（需要生成翻译文本）等任务中通常比生成式 AI 表现更好。

同样，生成式模型也可以利用贝叶斯定理进行分类。生成式模型不会像判别式模型那样确定实例位于决策边界的哪一侧，而是可以确定每个类生成实例的概率，并选择概率较高者。

许多 AI 系统同时采用这两种模型。例如，在生成式对抗网络中，使用生成式模型生成样本数据，然后利用判别式模型确定该数据是“真”还是“假”。判别式模型的输出用于训练生成式模型，直到判别器无法再辨别“假”的生成数据。

分类模型与回归模型

对模型进行分类的另一种方法是根据其所处理任务的性质。大多数经典的 AI 模型算法要么执行分类，要么执行回归。有些模型同时适用于这两种功能，并且大多数基础模型都利用这两种功能。

有时，这个术语可能会令人困惑。例如，逻辑回归是一种用于分类的判别式模型。

回归模型

回归模型预测连续值（例如价格、年龄、大小或时间）。它们主要用于确定一个或多个自变量 (x) 与因变量 (y) 之间的关系：给定 x，预测 y 的值。

线性回归等算法以及分位数回归等相关变体在预测、分析定价弹性和评估风险等任务中非常有用。
多项式回归和支持向量回归 (SVR) 等算法对变量之间的复杂非线性关系进行建模。
某些生成式模型，如自回归和变分自编码器，不仅考虑了过去和未来值之间的相关关系，还考虑了因果关系。这使得它们对于预测天气情景和预测极端气候事件特别有用。

分类模型

分类模型用于预测离散值。因此，它们主要用于确定适当的标签或进行分类。这可以是二元分类（如“是或否”、“接受或拒绝”）或多类分类（如推荐产品 A、B、C 或 D 的推荐引擎）。

分类算法用途广泛，从简单分类到深度学习网络中自动提取特征，再到医疗保健进步（如放射学中的诊断图像分类）。

常见示例包括：

朴素贝叶斯：一种常用于垃圾邮件过滤和文档分类的生成式监督学习算法。
线性判别式分析：用于解决影响分类的多个特征之间的矛盾重叠问题。
逻辑回归：预测连续概率，然后将其用作分类范围的代理。

训练 AI 模型

机器学习中的“学习”是通过在样本数据集上训练模型来实现的。然后将这些样本数据集中辨别的概率趋势和相关性应用于系统功能的性能。

在监督和半监督学习中，这些训练数据必须由数据科学家进行审慎的标记，以优化结果。如果进行适当的特征提取，监督式学习总体上需要的训练数据量低于无监督式学习。

理想情况下，ML 模型根据真实世界的数据进行训练。直观地说，这最能确保模型反映它旨在分析或复制的真实情况。但仅仅依赖真实世界的数据并不总是可行、实用或最佳。

不断增加的模型规模和复杂度

模型的参数越多，训练时所需的数据就越多。随着深度学习模型规模的不断扩大，获取这些数据变得越来越困难。这在 LLM 中尤为明显：Open-AI 的 GPT-3 和开源 BLOOM 都有超过 1,750 亿个参数。

尽管使用公开数据很方便，但它也会带来监管问题，比如数据必须匿名化，以及实际问题。例如，实用社交媒体话题组训练的语言模型可能会“学习”习惯或不准确性，因此对于企业使用来说并不理想。

合成数据提供了另一种解决方案：使用较小的真实数据集生成与原始数据非常相似的训练数据，从而避免隐私问题。

消除偏见

机器学习模型根据真实世界数据进行训练必然会吸收那些数据中反映出的社会偏见。如果不消除这种偏见，那么在任何领域，如医疗保健或招聘领域，这种模式都会持续存在并加剧不公平现象。数据科学研究已经产生了 FairIJ 等算法和 FairReprogram 等模型优化技术，以解决数据中固有的不公平问题。

过拟合和欠拟合

过拟合发生在机器学习模型与训练数据拟合得太紧密时，从而导致样本数据集中不相关的信息（或“噪声”）影响模型的性能。欠拟合恰恰相反，属于训练不当或不足。

基础模型

基础模型 也称为基模型或预训练模型，是在大规模数据集上预训练的深度学习模型，用于学习一般特征和模式。它们可以作为微调或适应更具体的 AI 应用的起点。

开发人员无需从头开始构建模型，而是可以更改神经网络层、调整参数或调整架构，以满足特定领域的需求。这增加了经过验证的大模型的知识和专业知识的广度和深度，从而节省了模型训练的大量时间和资源。因此，基础模型可以加快 AI 系统的开发和部署。

针对专门任务微调预训练模型最近已经让位于提示微调技术，该技术为模型引入前端提示，以引导模型进行所需类型的决策或预测。

根据麻省理工学院 - IBM Watson AI 实验室联合主任 David Cox 的说法，重新部署经过训练的深度学习模型（而不是训练或重新训练新模型）可以将计算机和能源消耗减少 1000 倍以上，从而节省大量成本 ¹。

测试 AI 模型

复杂的测试对于优化至关重要，因为它可以衡量模型是否经过良好的训练以实现其预期任务。不同的模型和任务适合于不同的指标和方法。

交叉验证

测试模型的性能需要一个对照组来进行判断，因为根据训练模型所用的数据来测试模型可能会导致过拟合。在交叉验证 中，部分训练数据被搁置或重新采样，以创建对照组。变体包括非穷举方法（如 K 折、留出以及蒙特卡罗交叉验证）或穷举方法（如留 p 交叉验证）。

分类模型指标

这些常见指标包括离散的结果值，如真正 (TP)、真负 (TN)、假正 (FP) 和假负 (FN)。

准确率 是正确预测与总预测的比率：(TP+TN) / (TP+TN+FP+FN)。它对于不平衡的数据集效果不佳。
精度用于衡量正预测值的准确率：TP/(TP+FP)。
召回率 用于衡量成功捕获正例的频率：TP/(TP+FN)。
F1 分数 是精度和召回率的调和平均值：(2×精度×召回率)/(精度+召回率)。它对精度（鼓励假负）和召回率（鼓励假正）之间的取舍进行平衡。
混淆矩阵 直观地表示算法对每种潜在分类的置信度（或混淆度）。

回归模型指标²

由于回归算法预测连续值而不是离散值，因此，它们通过不同的指标来衡量，其中 "N" 代表观测值的数量。以下是用于评估回归模型的常见指标。

平均绝对误差 (MAE) 以绝对值衡量预测值 (y_pred) 与实际值 (y_actual) 之间的平均差异：∑(y_pred – y_actual) / N。
均方误差 (MSE) 对平均误差进行平方，以更大力度惩罚异常值：∑(y_pred - y_actual)² / N。
均方根误差 (RSME) 使用与结果相同的单位衡量标准偏差：√ (∑(y_pred – y_actual)² / N)。
平均绝对百分比误差 (MAPE) 将平均误差表示为百分比。

部署 AI 模型

部署和运行 AI 模型需要具有足够处理能力和存储容量的计算设备或服务器。未能充分规划 AI 管道和计算资源可能会导致原本成功的原型无法超越概念验证阶段。

像 PyTorch、Tensorflow 和 Caffe2 这样的开源机器学习框架只需几行代码即可运行机器学习模型。
中央处理器 (CPU) 是学习不需要大量并行计算的算法的有效算力来源。
图形处理单元 (GPU) 具有更强大的并行处理能力，更适合处理庞大的数据集和深度学习神经网络的数学复杂性。

如何选择合适的基础模型

了解如何选择适当的方法来准备数据集和应用基础模型。

脚注

¹“什么是提示微调？”，IBM Research，2023 年 2 月 15 日。

²“机器学习模型评估”，Geeksforgeeks.org，2022 年。

什么是 AI 模型？