什么是深度学习？| IBM

更新日期：2024 年 6 月 17 日
撰稿人：Jim Holdsworth、Mark Scapicchio

什么是深度学习？

深度学习是机器学习的一个分支，采用多层神经网络（称为深度神经网络）来模拟人脑的复杂决策能力。某种形式的深度学习可为我们当今生活中的大部分人工智能 (AI) 应用程序提供动力。

深度学习和机器学习之间的主要区别在于底层神经网络架构的结构。“非深度”传统机器学习模型使用具有一到两个计算层的简单神经网络。深度学习模型使用三个或更多层（通常是数百或数千层）来训练模型。

虽然监督学习模型需要结构化的已标记输入数据才能产生准确的输出，但深度学习模型可以使用无监督学习。通过无监督学习，深度学习模型可以从原始的非结构化数据中提取出准确输出所需的特征、特性和关系。此外，这些模型甚至可以评估和完善其输出，以提高精度。

深度学习是数据科学的一个方面，可驱动众多能够提升自动化技术的应用程序和服务，无需人工干预即可执行分析和物理任务。这让众多日常产品和服务得以实现，例如数字助理、支持语音的电视遥控器、信用卡欺诈检测、自动驾驶汽车和生成式 AI。

通过 AI 治理构建负责任的 AI 工作流程

了解构建块和最佳实践以帮助您的团队加速开发负责任的 AI。

相关内容

立即注册，获取有关生成式 AI 的电子书

开启 AI 之旅

了解如何扩展 AI

深入了解 AI Academy

深度学习的工作原理

深度学习神经网络或人工神经网络尝试结合数据输入、权重和偏差来模仿人脑。这些元素协同工作，以准确识别、分类和描述数据中的对象。

深度神经网络由多层互连节点组成，每个节点都建立在前一层的基础上，以细化和优化预测或分类。这种通过网络进行的计算是前向传播。深度神经网络的输入层和输出层称为可视层。深度学习模型在输入层提取数据进行处理，在输出层进行最终预测或分类。

另一个称作反向传播的过程使用梯度下降等算法计算预测中的误差，然后在各层反向传播函数的权重和偏差来进行调整，以此训练模型。正向传播和反向传播共同支持神经网络进行预测并相应地纠正错误。算法会逐渐变得更加准确。

这些是用最简单的术语来描述最简单的深度神经网络类型。然而，深度学习算法非常复杂，并且不同类型的神经网络可以解决特定的问题或处理特定的数据集。例如，

卷积神经网络 (CNN) 主要用于计算机视觉和图像分类应用，可以检测图像内的特征和模型，帮助完成目标检测或识别等任务。 2015 年，一个 CNN 首次在物体识别挑战中击败了人类。
循环神经网络 (RNN) 利用顺序或时间序列数据，通常用于自然语言和语音识别应用程序。

深度学习模型的类型

深度学习算法非常复杂，并且有不同类型的神经网络来处理特定问题或数据集。这里有六个。每个模型都有自己的优势，这里大致按照其开发顺序进行介绍，每个后续模型均经过调整，以克服先前模型中的弱点。

它们普遍存在的一个潜在弱点在于，深度学习模型通常是“黑匣”，因此很难理解其内部工作原理，并带来了可解释性挑战。但这可以通过高精度和可扩展性的整体优势取得平衡。

CNN

卷积神经网络（CNN 或 ConvNets）主要用于计算机视觉和图像分类应用程序。它们可以检测图像和视频中的特征和模式，从而实现对象检测、图像识别、模式识别和人脸识别等任务。这些网络利用线性代数，尤其是矩阵乘法的原理来识别图像中的模式。

CNN 是一种特定类型的神经网络，由节点层组成，包含一个输入层、一个或多个隐藏层和一个输出层。每个节点都与另一个节点相连，具有一个关联的权重和阈值。如果任何单个节点的输出高于指定的阈值，那么该节点将被激活，并将数据发送到网络的下一层。否则，不会将数据传递到网络的下一层。

CNN 至少由三种主要类型的层组成：卷积层、池化层和全连接 (FC) 层。针对复杂的用途，CNN 可能包含多达数千个层，每层均建立在之前的层之上。通过“卷积”（处理和返工原始输入）可以发现详细的模式。随着层级的递进，CNN 的复杂性也逐步增加，能够识别图像的更多部分。靠前的层关注于简单的特征，比如颜色和边缘。随着图像数据沿着 CNN 的层级逐渐推进，它开始识别对象中更大的元素或形状，直到最终识别出预期的对象。

CNN 与其他神经网络的不同之处在于其在图像、语音或音频信号输入方面表现出的卓越性能。在 CNN 出现之前，人们通常使用耗时的人工特征抽取方法来识别图像中的对象。不过，CNN 现在为图像分类和对象识别任务提供了一种更具可扩展性的方法，并可处理高维数据。CNN 可以在各层之间交换数据，以提供更高效的数据处理。虽然池化层中会丢失大量信息，但这仍可能会被 CNN 的优势所抵消，因为 CNN 可以帮助降低复杂性、提高效率并限制过度拟合的风险。

CNN 还存在其他缺点，即计算十分耗费时间和预算，且需要许多图形处理单元 (GPU)。它们还需要具有跨领域知识且训练有素的专家，并对配置、超参数和配置进行仔细的测试。

RNN

递归神经网络 (RNN) 通常用于自然语言和语音识别应用程序，因为它们使用顺序或时间序列数据。RNN 可通过其反馈回路来识别。这些学习算法主要用于使用时间序列数据对未来结果进行预测。用例包括股票市场预测或销售预测，或序数或时间问题，例如语言翻译、自然语言处理 (NLP)、语音识别和图像字幕。这些功能通常会整合到 Siri、语音搜索和 Google Translate 等流行应用程序中。

RNN 使用其“记忆”，从先前的输入中获取信息，用于影响当前的输入和输出。传统的深度神经网络假设输入和输出相互独立，而 RNN 的输出则取决于序列中的先验元素。虽然未来的事件也有助于确定给定序列的输出，但单向递归神经网络无法在其预测中解释这些事件。

RNN 在网络的每一层之间共享参数，并在网络的每一层内共享相同的权重参数，通过反向传播和梯度下降过程调整权重，以促进强化学习。

RNN 使用通过时间的反向传播 (BPTT) 算法来确定梯度，专门针对序列数据，因此与传统的反向传播略有不同。BPTT 的原理与传统的反向传播相同，即模型通过计算从输出层到输入层的误差进行自我训练。BPTT 与传统方法的不同之处在于，BPTT 对每个时间步长的误差进行求和，而前馈网络不需要对误差进行求和，因为它们不会在每一层共享参数。

与其他神经网络类型相比，RNN 的优势之一在于它同时使用二进制数据处理和内存。RNN 可以规划多个输入和输出，以便 RMM 可以产生一对多、多对一或多对多的输出，而不是单个输入只能产生一个结果。

RNN 中也提供一些选项。例如长短期记忆 (LSTM) 网络通过学习长期依赖关系并采取行动，比简单的 RNN 更具优势。

然而，RNN 往往会遇到两个基本问题，即梯度爆炸和梯度消失。这些问题由梯度的大小决定，梯度是沿误差曲线的损失函数的斜率。

当梯度消失或过小时，它会继续变小，更新权重参数，直到它们变得微不足道，即：零 (0)。出现这种情况时，算法将不再学习。
梯度爆炸：梯度太大时会发生这种情况，并创建不稳定的模型。这种情况下，模型权重会变得过大，最终表示为 NaN（非数字）。针对此类问题的一种解决方案是减少神经网络中的隐藏层数量，从而消除 RNN 模型中的复杂性。

最后的一些缺点：RNN 可能还需要较长的训练时间，并且难以在大型数据集上使用。当 RNN 具有很多层和很多参数时，优化 RNN 会增加复杂性。

自动编码器和变分自动编码器

深度学习通过添加对图像、语音和其他复杂数据类型的分析，来超越数字数据分析。实现这一目标的第一类模型是变分自动编码器 (VAE)。这是首批被广泛用于生成逼真图像和语音的深度学习模型，通过让模型更易于扩展，为深度生成建模提供支持 - 这是我们所认为的生成式 AI 的基石。

自动编码器的工作原理是将未标记的数据编码为压缩表示形式，然后将数据解码回其原始形式。普通自动编码器可用于多种用途，包括重建损坏或模糊的图像。变分自动编码器不仅具有重建数据的关键能力，还具备输出原始数据变化的能力。

这种生成新颖数据的能力引发了一系列新技术的快速涌现，从生成式对抗网络 (GAN) 到扩散模型，这些技术能够生成更加真实（但虚假）的图像。通过这种方式，VAE 为当今生成式 AI 奠定了基础。

自动编码器由编码器和解码器模块组成，这种架构也是当今大型语言模型的基础。编码器将数据集压缩为密集表示形式，在抽象空间中将相似的数据点更紧密地排列在一起。解码器从这个空间中取样，以创建新内容，同时保留数据集最重要的特征。

自动编码器的最大优势是能够处理大批量数据并以压缩形式显示输入数据，因此最重要的方面脱颖而出——实现异常检测和分类任务。这也加快了传输速度，并降低了存储需求。自动编码器可以在未标记的数据上进行训练，因此可以在标记数据不可用的时候使用。使用无监督训练具有节省时间的优势：深度学习算法可以自动学习并获得准确性，而无需手动执行特征工程。此外，VAE 可以生成新的样本数据，用于生成文本或图像。

自动编码器也存在缺点。深层或复杂结构的训练会耗费大量计算资源。无监督训练期间，模型可能会忽略所需属性，而只是简单地复制输入数据。自动编码器还可能会忽略结构化数据中的复杂数据链接，因此无法正确识别复杂的关系。

GAN

生成式对抗网络 (GAN) 是一种神经网络，可用于人工智能 (AI) 内外部，以创建类似于原始训练数据的新数据。其中可能包括看起来像人脸的图像，但这些图像是生成的，而非由真人拍摄。名称中的“对抗”部分来自 GAN 的两个组件之间的来回切换：生成器和判别器。

生成器会创建一些内容：图像、视频或音频，然后产生一种扭曲的输出。例如，一匹马可以在一定的准确度上变成一匹斑马。结果取决于输入以及此用例的生成模型中每层的训练程度。
判别器是一种对抗，将生成结果（假图像）与数据集中的真实图像进行比较。判别器会试图区分真假图像、视频或音频。

GAN 会自我训练。生成器创建虚假内容，而判别器则学习识别生成器的虚假内容和真实示例之间的差异。如果判别器能识别出虚假内容，那么生成器就会受到惩罚。反馈回路会一直持续到生成器成功产生判别器无法区分的输出为止。

GAN 的主要优势在于能够创建出与原始图像难以区分的真实输出，进而可用于进一步训练机器学习模型。设置 GAN 进行学习非常简单，因为它们是通过使用未标记的数据或进行少量标记来进行训练的。然而，其潜在的缺点是，生成器和判别器可能会在很长一段时间内来回竞争，从而造成较大的系统损耗。训练的一个限制是可能需要大量输入数据才能获得令人满意的输出。另一个潜在的问题，是当生成器产生的输出集有限，而不是更广泛的种类时，会出现“模式崩溃”。

扩散模型

扩散模型是一种生成式模型，使用渐进式噪声添加和去噪的前向和反向扩散过程进行训练。扩散模型生成的数据（通常是图像）与其接受训练的数据相似，但随后会覆盖用于训练这些模型的数据。扩散模型会逐渐将高斯噪声添加到训练数据中，直到无法识别为止，然后学习一个反向的“去噪”过程，可以从随机噪声输入中合成输出（通常是图像）。

扩散模型会学习如何能够最小化生成的样品与所需目标的差异的。任何差异都会经过量化，并更新模型参数，以尽量减少损失 - 训练模型以生成与真实训练数据非常相似的样本。

除了图像质量之外，扩散模型的优势还在于不需要对抗性训练，这可以加快学习过程，并提供严密的过程控制。训练比使用 GAN 时更稳定，扩散模型不容易出现模式崩溃。

但是，与 GAN 相比，扩散模型需要更多的计算资源来训练，包括更多的微调。IBM® Research 还发现，这种形式的生成式 AI 可以被隐藏的后门劫持，使攻击者能够控制图像创建过程，从而诱骗 AI 扩散模型生成被操纵的图像。

变压器模型

转换器模型将编码器 - 解码器架构与文本处理机制相结合，彻底改变了语言模型的训练方式。编码器将未经注释的原始文本转换为嵌入式表示形式；解码器将这些嵌入式表示形式与模型之前的输出结果结合起来，连续预测句子中的每个单词。

通过填空猜测，编码器可以学习单词和句子之间的关系，从而构建强大的语言表示，而无需标记词性和其他语法特征。事实上，转换器可以在一开始就进行预训练，而无需考虑特定任务。学习了这些强大的表示形式之后，便可以对模型进行专门化处理（数据会少很多），以便执行请求的任务。

多项创新使之成为可能。转换器可以同时处理句子中的单词，从而实现并行文本处理，并加速训练。早期的技术，包括递归神经网络 (RNN)，一个接一个地处理单词。转换器还会学习单词的位置及其关系 - 这种上下文信息可支持其推断含义并消除单词的歧义，例如长句中的“它”。

通过消除预先定义任务的需求，转换器能够在大量原始文本上实现语言模型预训练，从而使其规模得到大幅增长。以前，收集已标记数据是为了在特定任务中训练一个模型。借助转换器，一个使用大量数据训练的模型可以通过对少量已标记任务特定数据进行微调来适应多个任务。

语言转换器现在用于非生成式任务，如分类和实体提取，以及生成式任务，包括机器翻译、摘要和问答。转换器能够生成令人信服的对话、文章和其他内容，这让很多人十分意外。

自然语言处理 (NLP) 转换器可提供非凡的功能，因为它们可以并行运行，同时处理序列的多个部分，从而大大加快训练速度。转换器还可以跟踪文本中的长期依赖关系，使其能够更清楚地了解整体上下文，并生成更优质的输出。此外，转换器更具可扩展性和灵活性，可根据任务进行定制。

至于局限性，转换器因其复杂性，需要大量的计算资源和较长的训练时间。此外，训练数据必须准确、公正且丰富，才能产生准确的结果。

深度学习用例

深度学习的使用与日俱增。以下是目前深度学习帮助企业提高效率和为客户提供更优质的服务的几种方式。

应用程序现代化

生成式 AI 可以增强开发人员的能力，并缩小应用程序现代化和 IT 自动化领域不断扩大的技能差距。出于大型语言模型 (LLM) 技术和自然语言处理 (NLP) 的最新突破，用于编码的生成式 AI 得以成为现实。它采用了深度学习算法，以及经过现有源代码的大量数据集训练的大型神经网络。训练代码通常来自开源项目生成的公开代码。

程序员可以输入纯文本提示来描述他们希望代码执行的操作。生成式 AI 工具会建议代码片段或完整功能，并通过处理重复性任务和减少手动编码来简化编码流程。生成式 AI 还可以将代码从一种语言翻译成另一种语言，从而简化代码转换或现代化项目，例如通过将 COBOL 翻译为 Java 来更新旧版应用程序。

计算机视觉

计算机视觉是人工智能 (AI) 的一个领域，包括图像分类、对象检测和语义分割。它使用机器学习和神经网络来训练计算机和学习系统，从数字图像、视频和其他视觉输入中获取有意义的信息，并在系统发现缺陷或问题时提出建议或采取行动。如果说 AI 让计算机能够思考，那么计算机视觉则是让计算机能够看见、观察和理解。

由于计算机视觉系统通常经过训练来检查产品或观察生产资产，因此通常它每分钟可以分析数千种产品或流程，并发现难以察觉的缺陷或问题。计算机视觉可用于从能源和公用事业到制造和汽车的各行各业。

计算机视觉需要大量数据，然后会一遍又一遍地对这些数据进行分析，直到辨别并最终识别出图像。例如，为了训练计算机识别汽车轮胎，需要向其提供大量轮胎图像和轮胎相关物品，以了解差异并识别轮胎，尤其是没有缺陷的轮胎。

计算机视觉使用算法模型支持计算机自学视觉数据的上下文。如已向模型输入了足够多的数据，计算机会“查看”这些数据，并教会自己如何分辨不同的图像。算法可支持机器自行学习，而不是由人对其进行编程来识别图像。

计算机视觉令系统能够从数字图像、视频和其他视觉输入中获取有意义的信息，并根据这些输入采取行动。这种提供建议的能力让它有别于图像识别任务。目前可以看到的计算机视觉的一些常见应用领域包括：

汽车：虽然无人驾驶汽车时代尚未完全到来，但底层技术已开始在汽车中应用：可通过车道线检测等功能，提高驾驶员和乘客的安全性。
医疗保健：计算机视觉已纳入放射学技术，帮助医生在健康的解剖结构中更有效地识别肿瘤。
营销：社交媒体平台可以提示谁可能会出现在已发布在个人档案中的照片上，从而更轻松地在相册中标记朋友。
零售：视觉搜索已纳入一些电子商务平台，帮助品牌企业建议在现有衣橱中补充哪些商品。

客户关怀

AI 正在帮助企业深入理解和满足日益增长的消费者需求。随着高度个性化的网上购物、直接面向消费者的模式和快递服务的兴起，生成式 AI 可以进一步帮助释放各种各样的优势，从而改善客户服务、人才转型和应用程序的性能。

AI 通过利用客户反馈和购买习惯中得出的宝贵洞察信息，帮助企业采用以客户为中心的方法。这种数据驱动的方法有助于改善产品设计和包装，提高客户满意度，并增加销售额。

生成式 AI 还可以作为客户服务的认知助手，根据会话历史、情感分析和客户服务中心记录提供上下文指导。此外，生成式 AI 还能实现个性化购物体验，培养客户忠诚度，并提供竞争优势。

数字化劳动力

企业可以通过构建和部署机器人流程自动化 (RPA) 和数字劳动力来扩充其员工队伍，与人类合作以提高生产力，或在需要备份时提供帮助。例如这可以帮助开发人员加快旧版软件的更新。

数字劳动力使用基础模型，通过在没有技术障碍的条件下快速可靠地实现自助服务自动化，来自动执行并提高知识型工作者的工作效率。为了自动执行任务或调用 API，基于 LLM 的企业级槽填充模型可以识别会话中的信息，并收集完成操作或调用 API 所需的所有信息，而无需太多手动操作。

数字劳动力自动化建立在模型驱动的会话指令和演示的基础上，可供知识型工作者实现自助服务自动化，而无需技术专家为知识型工作者记录和编码重复的动作流程。例如，为了加快应用程序创建速度，无代码数字学徒可以通过有效地教授、监督和验证代码，来帮助缺乏编程专业知识的最终用户。

生成式 AI

生成式 AI（亦称 gen AI）是一种 AI 类别，根据用户的提示或请求自主创建文本、图像、视频、数据或其他内容。

生成式 AI 依赖于深度学习模型，此类模型可以从现有内容的模式中学习，并根据训练生成新的类似内容。生成式 AI 在多个领域均已得到应用，其中包括客户服务、市场营销、软件开发和研究，并通过自动化的快捷内容创建和增强，为简化企业工作流程提供了巨大的潜力。

生成式 AI 擅长处理各种数据源，例如电子邮件、图像、视频、音频文件和社交媒体内容。这些非结构化数据构成了创建模型和生成式 AI 持续训练的支柱，因此随着时间的推移可以保持有效性。使用这些非结构化数据，可以通过聊天机器人增强客户服务，并促进更有效的电子邮件路由。在实践过程中，这可能意味着引导用户找到适当的资源，无论是让他们与正确的客服联系，还是将他们引导至用户指南和常见问题解答。

尽管生成式 AI 存在备受争议的局限性和风险，但许多企业仍在勇往直前，谨慎探索组织如何能利用生成式 AI 来改进内部工作流程，并增强产品和服务。这是一个新领域：如何提高工作场所的效率，同时又不产生法律或道德问题。

面向开发人员的生成式 AI

自然语言处理和语音识别

NLP 将计算语言学（基于规则的人类语言建模）与统计和机器学习模型相结合，支持计算机和数字设备识别、理解和生成文本和语音。NLP 为应用程序和设备提供支持，这些应用程序和设备可以将文本从一种语言翻译成另一种语言，响应键入或口头的命令，并基于语音识别或验证用户。它有助于汇总大量文本，评估文本或语音的意图或情感，并按需生成文本或图形或其他内容。

统计 NLP 是 NLP 的一个子集，可将计算机算法与机器学习和深度学习模型相结合。这种方法有助于自动提取、分类和标记文本和语音数据的元素，然后为这些元素的每种可能含义分配统计可能性。如今，基于 RNN 的深度学习模型和学习技术让 NLP 系统能够在工作时“学习”，并从大量原始、非结构化和未标记的文本和语音数据集中提取更准确的含义。

语音识别 - 也称为自动语音识别 (ASR)、计算机语音识别或语音转文字，是一种支持程序将人类语音处理成书面格式的功能。

虽然语音识别通常与语音识别混淆，但语音识别侧重于将语音从口头格式转换为文本格式，而语音识别仅旨在识别单个用户的声音。

行业应用程序

现实世界的深度学习应用是我们日常生活的一部分，但在大多数情况下，它们已经无缝集成到产品和服务中，用户意识不到后台进行的复杂数据处理。其中一些示例包含以下内容：

执法

深度学习算法可以分析和学习交易数据来识别危险模式，指出可能存在欺诈或犯罪活动。语音识别、计算机视觉和其他深度学习应用可从声音和视频记录、图像和文档中提取模型和证据，提高调查分析的效率和有效性，通过深度学习进而帮助执法部门更快速准确地分析大量数据。

金融服务

金融机构经常使用深度学习预测分析来推动股票的算法交易，评估贷款审批的业务风险，检测欺诈行为，并帮助客户管理信贷和投资组合。

客户服务

许多组织在客户服务流程中使用深度学习技术。聊天机器人应用于各种应用、服务和客户服务门户网站，是一种简单的 AI 形式。传统的聊天机器人使用自然语言甚至视觉识别，这在类似于呼叫中心的菜单中很常见。然而，更加成熟的聊天机器人解决方案试图通过学习来确定对含糊不清的问题是否存在多种回答。根据收到的回答，聊天机器人尝试直接回答这些问题或将对话转至人工客服。

像苹果的 Siri、Amazon Alexa 或 Google Assistant 这样的虚拟助手通过使用语音识别功能扩展聊天机器人的回答。这创建了一种以个性化方式吸引用户使用的新方法。

医疗行业

自医院记录和图像实现数字化以来，医疗保健行业从深度学习功能中获益颇丰。图像识别应用程序为医学成像专家和放射科医生提供支持，深度学习帮助他们在更短的时间内分析和评估更多的图像。