自监督学习 (SSL) 在计算机视觉和自然语言处理 (NLP) 等领域特别有用,因为这些领域需要大量标注数据来训练最先进的人工智能 (AI) 模型。由于这些标记数据集需要人类专家进行耗时的注释,因此收集足够的数据可能非常困难。自监督方法可以更省时,更具成本效益,因为它们取代了部分或全部需要手动标记训练数据的方法。
要训练深度学习模型以完成需要精度的任务,例如分类或回归,必须能够将模型对给定输入的输出预测与对该输入的“正确”预测(通常称为标准答案)进行比较。通常,手动标记的训练数据作为标准答案:因为这种方法需要直接的人工干预,所以称为“监督”学习。在自监督学习中,任务的设计使得可以从未标记的数据中推断出“标准答案”。
在 SSL 中,任务分为两类:假托任务和下游任务。 在假托任务中,SSL 用于训练 AI 系统来学习非结构化数据的有意义表示。这些已知表示随后可以用作下游任务的输入,例如监督学习任务或强化学习任务。在新任务上重用预训练的模型被称为“迁移学习”。
自监督学习用于训练各种复杂的深度学习架构,以执行各种任务,从 BERT 和 GPT 等基于 Transformer 的大型语言模型 (LLM) 到变分自编码器 (VAE) 和生成式对抗网络 (GAN) 等图像合成模型,再到 SimCLR 和动量对比 (MoCo) 等计算机视觉模型。
尽管自监督学习在技术上是无监督学习的一个子集(因为它不需要标记数据集),但它与监督学习密切相关,因为它根据标准答案优化性能。
自监督学习是无监督学习的一个子集:所有自监督学习技巧都是无监督学习,但大多数无监督学习并不需要自我监督。
无监督学习和自监督学习在训练过程中都不使用标签:这两种方法都学习未标记数据中的内在相关性和模式,而不是从带注释的数据集中外部强加的相关性。除了对无标记数据的共同关注之外,自监督学习和无监督学习之间的差异在很大程度上反映了无监督学习和监督学习之间的差异。
使用传统无监督学习的问题不会根据任何预先已知的标准答案来衡量结果。例如,无监督关联模型可以通过了解哪些产品经常一起购买,为电子商务推荐引擎提供动力。该模型的实用性并非源于复制人类的预测,而是源于发现人类观察者不明显的相关性。
自我监督学习确实根据标准答案来衡量结果,尽管它隐式地源自未标记的训练数据。与监督模型一样,自监督模型使用损失函数进行优化:一种测量标准答案与模型预测之间的差异(“损失”)的算法。在训练期间,自监督模型在反向传播期间使用梯度下降来调整模型权重,从而最大限度地减少损失(从而提高准确性)。
在这一关键差异的驱动下,这两种方法专注于不同用例:无监督模型用于不需要损失函数的聚类、异常检测和降维等任务,而自监督模型用于典型监督学习的分类和回归任务。
虽然监督学习和自监督学习主要用于相同类型的任务,并且都需要标准答案通过损失函数优化性能,但自监督模型在未标记数据上进行训练,而监督学习则需要标记数据集进行训练。
标记数据集在模型训练中非常有效:注释训练数据允许模型直接学习这些注释所反映的关键特征和相关性。通过在训练期间最小化模型预测与人类专家手动注释的“预测”之间的差异,监督模型学会对新的(未标记的)输入数据做出正确推断。
尽管先进的监督方法具有很高的准确性,但注释大量的训练往往是研究过程中的瓶颈。例如,在需要特定像素预测的实例分割等计算机视觉任务中,注释训练数据必须在像素级别上完成。这既昂贵又耗时,限制了可用的训练数据量以及大多数企业和研究人员获取这些数据的能力。
相比之下,自监督模型使用各种技术从输入数据本身的结构中获取监督信号,完全摒弃标记。例如,通过随机隐藏(或“屏蔽”)句子的部分内容,并使用原始(未标记的)句子作为标准答案,让自监督模型预测隐藏的单词。
与不涉及人类标记数据的自监督学习不同,半监督学习同时使用标记和未标记数据来训练模型。例如,半监督模型可能使用少量标记数据点来推断其余未标记训练数据集的标签,然后继续使用整个数据集进行监督学习。尽管它们的动机相似,但由于两种方法都规避了监督学习对大型标记数据集的需求,因此它们各自的方法是不同的。
自监督学习任务旨在使得损失函数可以使用未标记的输入数据作为标准答案。这使得模型能够在没有标记或注释的情况下学习输入数据的准确、有意义的表示。
自监督学习的目标是最大限度地减少或完全取代对标记数据的需求。标记数据相对稀缺且昂贵,而无标记数据则丰富且相对便宜。本质上,假托任务从未标记数据中产生“伪标签”。“假托”一词意味着训练任务本身并没有(不一定)有用:它之所以有用,仅仅是因为它向模型传授了对后续下游任务有用的数据表示。因此,假托任务通常也被称为表示学习。
使用 SSL 预训练的模型通常会针对其特定的下游任务进行微调:这种微调通常涉及真正的监督学习(尽管仅使用监督学习训练模型所需的一小部分标记数据)。
尽管 SSL 的学科在方法和用例方面各不相同,但使用 SSL 训练的模型使用两种机器学习技术中的一种(或两种):自预测学习和对比学习。
自编码器是一种经过训练的神经网络,可以压缩(或编码)输入数据,然后使用该压缩表示形式重建(或解码)原始输入数据。他们经过训练,使用原始输入本身作为参考标准来最大限度地减少重建错误。
尽管自编码器架构各不相同,但它们通常会引入某种形式的瓶颈:当数据通过编码器网络时,每层的数据容量逐渐降低。这迫使网络只学习隐藏在输入数据中的最重要模式(称为潜在变量或潜在空间),因此,尽管现在信息较少,但解码器网络仍可以准确地重建原始输入。
对此基本框架的修改使自编码器能够学习有用的特征或函数。
自回归模型利用过去的行为来预测未来的行为。其工作逻辑是,任何具有固有顺序的数据(如语言、音频或视频)都可以通过回归进行建模。
自回归算法对时间序列数据进行建模,使用前一个时间步长的值来预测后一个时间步长的值。而在传统回归算法中,如用于线性回归的算法,自变量用于预测目标值(或因变量),在自回归中,自变量和因变量本质上是相同的:这称为自回归,因为回归是对变量本身执行的。
自回归主要用于因果语言模型,例如 LLM 的 GPT、LLaMa 和 Claude 系列,这些模型擅长文本生成和问答等任务。在预训练中,为语言模型提供从未标记的训练数据中提取的示例句子的开头,并负责预测下一个单词,并将示例句子的“实际”下一个单词作为标准答案。
另一种自监督学习方法包括屏蔽未标记数据样本的某些部分,并为模型分配预测或重建缺失信息的任务。损失函数使用原始(预屏蔽)输入作为标准答案。例如,屏蔽自编码器就像去噪音频编码器的反向:它们学会预测和恢复缺失的信息,而不是移除无关信息。
屏蔽也用于训练屏蔽语言模型:从样本句子中省略随机词语,然后训练模型来填补这些词语。虽然像 BERT 这样的屏蔽语言模型(以及许多基于其架构的模型,如 BART 和 RoBERTa)在文本生成方面往往不如自回归模型,但它们具有双向性的优势:它们不仅可以预测下一个单词,还可以预测前一个单词或序列中后面出现的单词。这使它们非常适合翻译、摘要和搜索等需要较强语境理解能力的任务。
固有关系预测培训模型在数据样本以某种方式转换后,仍能保持其对数据样本的理解。例如,旋转输入图像,并要求模型预测相对于原始输入图像的旋转变化度数和方向。5
对比自监督学习方法为模型提供多个数据样本,并要求它们预测这些样本之间的关系。使用这些方法训练的模型通常是判别模型,而不是生成式模型。
对比模型通常使用数据-数据对进行训练,而自动关联模型则使用数据-标签对(其中标记由数据自行生成)进行训练。利用这些数据-数据对,对比方法可以训练模型来区分相似和不相似的事物。
这些配对通常通过数据增强创建:对未标记的数据应用不同类型的转换或干扰,以创建新的实例或增强视图。例如,常见的图像数据增强技术包括旋转、随机裁剪、翻转、噪点、滤波和着色。数据增强增加了数据的可变性,并将模型暴露给不同的视角,这有助于确保模型学习捕获有意义的动态语义表示。
基于实例判别的模型将训练设为一系列二元分类任务:使用一个数据样本作为目标(或“锚点”),其他数据样本被确定为“正面”(匹配)或“负面”(不匹配)。
在计算机视觉中,此类方法(例如 SimCLR 或 MoCo)通常从一批未标记的原始图像开始,并应用随机的变换组合来生成增强图像样本对(或集)。然后,将这些增强图像中的每一个编码成向量表示,并使用对比损失函数来最小化正匹配(源自同一原始图像的增强图像对)之间向量表示的差异,并最大化负匹配之间的差异。
因此,实例识别方法可以训练模型学习不同类别的表示,由于随机数据增强,这些表示可以抵御微小变化(例如特定图像中的颜色、透视或可见部分)。因此,这些表示可以很好地推广到下游任务。
自监督学习已用于为各种任务和学科预训练人工智能模型。
IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
深入探讨监督学习方法,如支持向量机和概率分类器。
学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。
1“Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award”, Association for Computing Machinery,2019 年 3 月 27 日
2 Facebook,Yann LeCun,2019 年 4 月 30 日
3“Self-taught learning: transfer learning from unlabeled data”,Proceedings of the 24th international conference on machine learning,2007 年 6 月 20 日
4 Lecture: Energy based models and self-supervised learning, YouTube,2020 年上传
5“Learning to see by moving”, arXiv,2015 年 9 月 14 日
6“Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning”,arXiv,2020 年 9 月 10 日
7“Barlow Twins: Self-Supervised Learning via Redunancy Reduction”,arXiv,2021 年 6 月 14 日
8“VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding”,arXiv,2021 年 10 月 1 日
9“Active Contrasting Learning of Audio-Visual Video Representations”, Proceedings of the International Conference on Learning Representations,2021 年
10“Cross-modal Contrastive Learning for Speech Translation”,arXiv,2022 年 5 月 5 日
11“Understanding searches better than ever before”,Google,2019 年 10 月 25 日
12“End-to-End Query Term Weighting”,Google,2023 年
13“WaveNet: A Generative Model for Raw Audio”,arXiv,2016 年 9 月 19 日
14“Wave2vec: State-of-the-art speech recognition through self-supervision”,Meta,2019 年 9 月 19 日
15“Self-supervised learning for medical image classification: a systematic review and implementation guidelines”,Nature,2023 年 4 月 26 日
16“Momentum Contrast for Unsupervised Visual Representation Learning”,arXiv,2019 年 11 月 13 日(2020 年 3 月 23 日最后修订)
17“Deep Projective Rotation Estimation through Relative Supervision”,arXiv,2022 年 11 月 21 日
18“Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms”,arXiv,2021 年 5 月 29 日
19“Masked Motion Encoding for Self-Supervised Video Representation Learning”,The Computer Vision Foundation,2022 年 10 月
20“High-Resolution Image Synthesis with Latent Diffusion Models”,arXiv,2021 年 12 月 21 日(2022 年 4 月 13 日最后修订)
21“DALL-E: Creating images from text”,OpenAI,2021 年 1 月 5 日