什么是零样本学习？| IBM

发布日期：2024 年 1 月 24 日
撰稿人：Dave Bergmann

什么是零样本学习？

零样本学习 (ZSL) 是一种机器学习场景；在此场景中，AI 模型经训练可对对象或概念进行识别和分类，而事先不知道这些类别或概念的任何示例。

用于分类或回归的大多数最先进深度学习模型均会通过监督学习进行训练，而这需要大量相关数据类的标注示例。模型可通过对标注训练数据集进行预测来“学习”；数据标签则可为每个训练示例提供潜在答案的范围和正确答案（或基本事实）。此处的“学习”是指调整模型权重，以将模型的预测与基本事实之间的差异最小化。此过程需要足够多的标注样本来进行多轮训练和更新。

监督学习虽然功能强大，但在某些现实场景中却并不实用。对大量数据样本进行注释既昂贵又耗时，而在罕见疾病和新发现物种等领域，则可能很少或根本没有任何先例。以图像识别任务为例：根据一项研究，人类可识别约 30,000 个可单独区分的物体类别。¹就时间、成本和计算资源而言，如果 AI 模型必须根据每个类的标注数据进行显式训练，它们则远不及人类的能力。

由于机器学习模型需要能以最低训练开销来快速推广到大量语义类别，于是便催生出 n 样本学习：它是机器学习的其中一种，且包括小样本学习 (FSL) 和单样本学习。小样本学习通常会使用迁移学习和基于元学习的方法来训练模型，以便仅使用少量标注训练示例（在单样本学习中，则为单个标注示例）来快速识别新类。

与所有 n 样本学习一样，零样本学习并非指代任何特定的算法或神经网络架构，而是指学习问题自身的本质：在 ZSL 中，此模型不会根据任何未知类的标注示例（要求在训练后对这些示例进行预测）进行训练。

此问题提出未考虑该类是否已存在于（尽管未标注）训练数据中。例如，某些大型语言模型 (LLM) 非常适合 ZSL 任务，因为它们会通过对大量文本语料库的自监督学习进行预训练，而这些语料库可能包含对未知数据类的偶然引用或了解。在缺少可借鉴标注示例的情况下，ZSL 方法均依赖于使用此类辅助知识来进行预测。

鉴于其多功能性和丰富用例，零样本学习已成为数据科学中日益引人注目的研究领域，尤其是在计算机视觉和自然语言处理 (NLP)领域。

广义零样本学习 (GSZL)

在传统 ZSL 环境下，此模型会根据特定数据集（包含来自未知数据类的样本）进行测试。虽然对于开发和验证零样本方法很有用，但它无法反映最常见的现实情况：广义零样本学习 (GSZL) 是指特定的零样本学习问题；其中，此模型负责分类的数据点可能属于未知类或已知类（即，此模型已通过标注示例所“学习”的类）。

GSZL 还须克服另一挑战：分类器的倾向是偏向于预测它在训练中已知的类，而不是它尚未接触过的类。因此，GSZL 通常需借助额外技术来降低此偏差。

为什么 AI 治理是扩展企业 AI 的当务之急

了解采用 AI 的障碍，特别是缺乏 AI 治理和风险管理解决方案。

相关内容

注册以获取有关基础模型的指南

零样本学习是如何工作的？

在模型经训练所要学习的类别中缺少标注示例的情况下，零样本学习问题会利用辅助信息：文本描述、属性、嵌入式表示或与当前任务相关的其他语义信息。

零样本学习技术通常不会直接对各类之间的决策边界进行建模，而是输出用于表示给定输入属于某些类的可能性的概率向量。GSZL 方法可能会添加一个初步鉴别器，以便首先确定该样本是属于已知类还是新类，然后再相应处理。

了解标签

在监督学习以及少样本学习 (FSL) 中，该模型可通过直接观察每个类的一个或多个标注示例来学习识别不同的类。如果没有这些明确的注释作为指导，零样本学习便需对标签的含义有个初步了解。

打个简单的比方，有一名儿童想知道鸟儿长什么样子。在类似于监督学习 (FSL) 的流程中，此儿童可通过查看动物画册中标注为“鸟”的图像来进行学习。此后，她就能认出某只鸟，因为这只鸟与她已见过的鸟图像类似。但在 ZSL 场景中，却未提供此类标注示例。相反，此儿童可能会阅读有关鸟类的百科全书条目，并从中了解到它们是长有羽毛、喙和翅膀且可在空中飞翔的中小型动物。如此一来，即便她从未见过鸟也能在现实中认出鸟来，因为她已掌握鸟的概念。

如前所述，LLM 已展现出针对 ZSL 的先天潜力，而这源于它们可对用于命名数据类的单词的含义进行初步了解。

迁移学习

为了最大限度地减少训练所需的时间和资源，以及识别未知类所需的辅助信息量，ZSL 常会利用迁移学习（将训练后的模型重新用于新任务），而不是从头开始训练模型。

迁移学习在 ZSL 方法中得到了突出使用，而这些方法可将类和样本表示为语义嵌入。例如，用于执行零样本文本分类的模型可能会使用基于转换器的模型（如 BERT），而该模型已根据大量语言数据语料库进行预训练，从而可将单词或字转换为向量嵌入。同样，零样本图像分类模型可能会重新利用预训练的卷积神经网络 (CNN)（如 ResNet 或 U-Net），因为该网络已学习有利于识别可为分类提供信息的重要图像特征的筛选器权重。

迁移学习对于 GSZL 尤为重要；其中，该模型对已知类别的知识可用作有关未知类的辅助信息。例如，某一物体检测模型已学会识别灰熊。其中的具体训练方法为：不向该模型提供北极熊的标注示例来训练它识别北极熊，而是通过训练让其了解北极熊看起来像灰熊，但皮毛呈白色。

这种将所学知识迁移到新任务和不同类的流程也被称为领域适应。

基于属性的方法

基于属性的零样本学习方法采用的逻辑类似于传统监督学习的逻辑。分类器不会直接根据每个数据类的标注示例进行训练，而是根据某些数据类的标注特征进行训练，例如颜色、形状或其他关键特征。

虽然目标类在训练中无法直接获知，但当未知类的属性与训练数据中存在的属性类相似时，则可推断出该类的标签。

一旦分类器学习完所有相关特征，它便可利用不同类的语义描述。当目标类的标注示例不可用但其表征特征的标注示例相对丰富时，此方法便特别有用。例如，某一模型可通过老虎和斑马的图像学习“条纹”，同时它还可通过金丝雀的图像学习“黄色”，并通过苍蝇的图像学习“飞虫”。虽然训练集中缺少蜜蜂图像，但该模型此时便可对蜜蜂进行零样本分类，因为它可将蜜蜂理解为已学习特征的某种组合：“黄色条纹状飞虫”。

基于属性的 ZSL 方法虽在适当情况下用途广泛且非常有用，但它也存在重大缺陷：

它们依赖以下关键假设：每个类均可用单个属性向量进行描述，但事实并非总是如此。Mall、Hariharan 和 Bala 引用了美国金翅雀的一系列示例：它们的颜色和羽毛图案会因性别、年龄和繁殖状况而有所差异。同时，他们还引用了室外羽毛球场的示例：它们在颜色、表面以及存在（或不存在）规范划线方面差异很大。²
对单个属性的示例进行注释可能与对给定类的示例进行注释一样昂贵和耗时。
基于属性的方法无法推广到其属性未知或在可用样本不存在的类。

基于嵌入的方法

很多 ZSL 方法会将类和样本都表示为语义嵌入：即，矢量表示；这些表示可用于反映不同数据点的特征或含义（以及相互之间的关系）。然后，通过测量给定样本的语义嵌入与其可能所属不同类的嵌入之间的相似性，便可确定分类。

将数据点表示为嵌入后，便会使用与 K 最近邻算法相似的原理来确定分类：使用某种距离指标（例如，余弦相似度、欧几里得距离或瓦瑟斯坦距离）来测量输入数据的嵌入与每个潜在类的对应嵌入的近似程度。当该数据样本的嵌入与给定类的嵌入越接近（或越相似）时，它属于该类的可能性便越高。

这些嵌入可通过多种方式生成。例如：

BERT、word2vec 或 GloVe（全局向量）等预训练的模型和算法可轻松输出单词或字（例如，类标签的名称）的矢量嵌入。
同样，ResNet（或类似 ViT 这样基于转换器的图像编码器）一类的预训练 CNN 的编码器网络也可对图像执行相同的操作。
自动编码器可学习样本或类的潜在表示（即压缩后的低维编码，而这些编码可用于分隔给定数据输入中最明显的变量）。
作为迁移学习的替代品，各种神经网络架构均可根据相关的训练数据上从头开始训练，例如，根据有标注示例的相关数据类的样本进行训练，从而输出有效的嵌入。

联合嵌入空间
由于基于嵌入的方法通常会处理不同数据形式（或模态）的辅助信息和矢量空间嵌入（例如，用于描述类标签的单词嵌入，以及可能属于该类的照片的图像嵌入），因此它们需要一种方法来简化不同数据类型的嵌入之间的比较。

要进行比较，必须对不同类型和大小的向量嵌入进行归一化处理，并将其投射到一个共享的高维语义空间（也称为联合嵌入空间），以便可在其中对这些嵌入进行“一比一”的比较。抽象地说，这与查找最小公分母来比较不同分数的概念类似。不同嵌入源之间的强关联映射对模型的归纳性能至关重要。³

此外，某些零样本学习模型还使用对比学习来更好地对齐来自不同模型或算法的语义嵌入：通过使用语义嵌入对，对比学习可训练模型以最小化“正”对（例如，犬图像的嵌入和“狗”一词的图像）之间的距离，并最大化“负”（非匹配）对之间的距离。

联合端到端训练
确保不同模型的嵌入之间保持一致的其中一种有效方法是：以并行方式联合训练这些模型。例如，OpenAI 的 对比语言-图像预训练 (CLIP) 模型是根据一个超大未标注数据集来训练的，而该数据集包含从互联网获取的 400 多万对图像-标题对。⁴

这些配对可用于从头开始联合训练图像编码器和文本编码器，从而使用对比损失来最大限度地提高图像嵌入与其相应描述文字嵌入之间的余弦相似度。如此可形成自然的零样本分类能力：CLIP 无需微调即可对 27 个不同的图像分类数据集展示出强大的分类性能。

基于生成的方法

生成式 AI 为零样本学习问题提供了另一种解决方案：使用辅助信息生成样本数据。

基于生成的方法可利用未知类的语义表示来生成样本，而对这些样本进行标注后，便可将其用于将学习问题转换为标准监督学习。虽然未标注样本（或密切相关的已知类的表示）或许有助于样本合成，但在零样本情况下，此过程却常主要依赖于语义描述。

LLM 可降低生成高质量描述所需的工作量：在其“DALL-E 3 文本到图像生成模型”的发布论文中，OpenAI 指出：相对于“真实情况”描述文字，综合描述文字更能提高模型性能。⁵

变分自动编码器
变分自动编码器 (VAE) 属于自监督生成模型，它们可将训练数据的潜在表示作为潜在变量的参数化分布进行学习。换言之，它们可学会不将数据类编码为静态语义嵌入，而是编码为潜在空间中的概率分布值。随后，解码器可用于从该潜空间生成随机样本。条件 VAE (CVAE) 可通过最大化所选变量的概率来限制合成样本的属性。

生成式对抗网络 (GANS)
GAN 由两个在对抗性零和游戏中联合训练的神经网络所组成：其中存在一个使用语义属性和高斯噪声来合成样本的生成器，以及一个用于确定样本是真还是“假”（即，由生成器合成而来）的鉴别器。鉴别器的反馈可用于训练生成器，直到鉴别器无法再区分真样本和假样本。自 2014 年最初 GAN 论文发表以来，已完成大量修改来完善和稳定此过程。

VAEGAN
VAE 和 GAN 均存在缺点：

VAE 较为稳定，但鉴于其从潜在空间重建样本的方式，因而往往会生成模糊的图像。
GAN 可学会生成高质量图像，但易出现不稳定，因为它们必须融合两个独立且互不相同的训练流程。

尽管目前已制定大量修改来完善和稳定这两个流程，但将这两种模型架构相结合却会在零样本情况下产生可喜的结果。⁶

大型语言模型 (LLM)
LLM 还可用于合成标注样本：例如，使用 Llama 2 等自回归模型可生成样本，而这些样本可用于训练双向语言模型（如 Sentence-BERT）以执行文本分类任务。

脚注

^{所有链接均为 ibm.com 外部链接}¹ “Recognition-by-components: A theory of human image understanding,”《心理学评论》第 94 期（115–147 页），1987 年。
²“Zero-shot Learning Using Multimodal Descriptions”，IEE/CVF 计算机视觉与模式识别会议 (CVPR) 研讨会论文集，2022 年。
³“Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation”，arXiv，2021 年 4 月 18 日。
⁴“CLIP: Connecting text and images”，OpenAI，2021 年 1 月 5 日。
⁵“Improving Image Generation with Better Captions”，OpenAI，2023 年。
⁶“Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning”，PubMed，2023 年 1 月 13 日。