什么是转换器模型？| IBM

主页

topics

什么是转换器模型？

什么是转换器模型？

将转换器模型与 watsonx.ai 搭配使用

订阅 AI 最新消息

包含云朵、饼图、图形的组合拼贴插图

什么是转换器模型？

转换器模型是于 2017 年推出的一种深度学习模型。这些模型已迅速成为自然语言处理 (NLP) 的基础模型，并已广泛应用于机器学习和人工智能领域的各种任务。

在 2017 年由 Ashish Vaswani、Google Brain 的团队以及来自多伦多大学的团体所共同发表的一篇名为《Attention is All You Need》的论文中，首次介绍了该模型。鉴于目前转换器已在训练 LLM 等应用中的广泛使用程度，此论文的发表即被视为该领域的一大分水岭。

这些模型可近乎实时地翻译文本和语音。例如，现在已有某些应用程序允许游客使用自己的主要语言在街上与当地人进行交流。它们有助于研究人员更好地了解 DNA 并加快药物设计。它们有助于检测异常情况，并防止出现金融与安全领域的欺诈行为。同样，视觉转换器也被用于计算机视觉任务。

OpenAI 出品的流行 ChatGPT 文本生成工具利用转换器架构进行预测、总结、问答等，因为此类架构可让该模型专注于输入文本中相关度最高的部分。该工具的各个版本中出现的“GPT”（例如 GPT-2、GPT-3）代表“生成式预训练转换器”。ChatGPT 等基于文本的生成式 AI 工具可从转换器模型中受益，因为此类工具可根据大型复杂数据集更轻松地预测文本序列中的下一个单词或字。

BERT 模型（即，来自转换器的双向编码器表示）以转换器架构作为基础。截至 2019 年，几乎所有采用英语的谷歌搜索结果均已使用 BERT，并已推广到其他 70 多种语言。¹

AI 数据存储

了解将湖仓一体战略集成到数据架构的强大之处，其中包括用于扩展 AI 的增强功能以及成本优化机会。

相关内容

立即注册，获取有关生成式 AI 的电子书

不同转换器模型有何差异

转换器模型的关键创新在于不必依赖循环神经网络 (RNN) 或卷积神经网络 (CNN)，因为这些神经网络方法存在重大缺陷。转换器可并行处理输入序列，因此在训练和推理方面效率极高，因为您无法通过增加 GPU 来加快处理速度。较之以前的循环神经网络架构（例如，长短期记忆 (LSTM)），转换器模型所需的训练时间更短。

RNN 和 LSTM 的历史可分别追溯到上世纪 20 年代和 90 年代。这些技术会按顺序计算输入的每个分量（即，逐字计算），因此计算用时可能很长。更为重要的是，当输入中各信息片段之间的“距离”很长时，这两种方法在保留上下文方面均存在局限性。

两项重大创新

转换器模型具备两大创新点。例如，在预测文本的背景下审视这两项创新。

位置编码：不按每个单词或字在句子中出现的顺序进行编码，而是为每个单词或字分配一个唯一编号。此方法可提供有关序列中每个标记（即，输入的组成部分，例如 NLP 中的单词或子词片段）的位置的信息，以便该模型能考虑该序列的序列信息。
自注意力：注意力是一种机制，它可用于计算句子中每个单词或字的权重，因为这些单词或字与句子中的其他每个单词或字均相关，因此该模型可预测可能会依次使用的单词或字。随着时间的推移，这种理解便会随着模型通过大量数据进行训练而逐渐加深。自注意力机制允许每个单词或字同时关注序列中的其他每个单词或字，从而权衡它们对当前标记的重要性。如此一来，机器学习模型便可根据单词或字在语言中的典型使用方式的相关统计概率来“学习”语法规则。

转换器模型如何工作？

工作时，转换器模型会通过一系列包含自注意力机制和前馈神经网络的层来处理输入数据（可能为标记序列或其他结构化数据）。转换器模型工作原理背后的核心思想可分解为几个关键步骤。

假设您需要将一个英语句子转换成法语。使用转换器模型完成此任务所需执行的步骤如下。

输入嵌入：首先，将输入句子转换为名为“嵌入”的数字表示。这些表示会捕捉输入序列中标记的语义。对于单词序列或字序列，这些嵌入则可在训练过程中进行学习，同时也可从预训练的单词嵌入或字嵌入中获取。
位置编码：位置编码通常会作为一组附加值或向量而引入，而这些附加值或向量会在将其馈送至转换器模型之前先添加到标记嵌入中。这些位置编码具有可对位置信息进行编码的特定模式。
多头注意力：自注意力通过多个“注意力头”来工作，以便捕捉各标记之间不同类型的关系。Softmax 函数是一种激活函数，它们可用于计算自注意力机制中的注意力权重。
层归一化和残差连接：该模型使用层归一化和残差连接来稳定和加快训练。
前馈神经网络：自注意力层的输出会通过前馈层进行传递。这些网络会将非线性转换应用于标记表示，以便该模型能捕获数据中的复杂模式和关系。
堆叠层：转换器通常由多层相互叠加而形成。每一层均会处理前一层的输出，从而逐步完善这些表示。通过堆叠多个层，该模型便可捕获数据中的分层与抽象特征。
输出层：在序列到序列任务（如，神经机器翻译）中，可在编码器的基础上添加单独的解码器模块，以便生成输出序列。
训练：转换器模型会通过监督学习法进行训练，从而学习如何使损失函数最小化，而该函数可量化该模型的预测与给定任务的基本事实之间的差异。训练通常涉及 Adam 或随机梯度下降 (SGD) 等优化技术。
推理：训练后，该模型可用于对新数据进行推理。推理期间，输入序列会通过预训练模型进行传递，而该模型会为给定任务生成预测或表示。

相关解决方案

数据与 AI

数据仓库解决方案

针对整个组织中的已治理数据，扩展始终在线的高性能分析和 AI 工作负载。

了解有关数据仓库解决方案的更多信息

数据与 AI

IBM watsonx.data

IBM watsonx.data 是一个基于开放式湖仓一体架构的适用数据存储，支持查询、管理和开放数据格式，帮助访问和共享数据。

了解有关 IBM watsonx.data 的更多信息

相关资源

IBM 帮助企业扩展 AI 工作负载

了解有关 IBM watsonx.data 的更多信息，该数据存储可帮助企业轻松统一和管理其结构化和非结构化数据。

开放式湖仓一体架构和 IBM watsonx.data 的颠覆性潜力

探索开放式湖仓一体架构，了解其如何将数据湖的灵活性和成本优势与数据仓库的性能结合在一起。

IBM watsonx.data：一个开放、混合、受监管的数据存储

了解 IBM watsonx.data 如何帮助企业应对当今复杂数据环境的挑战并扩展 AI 以满足相关需求。

Presto：随时随地理解任何大小的所有数据

了解快速灵活的开源 SQL 查询引擎 Presto 如何助力提供企业所需的洞察。

采取后续步骤

借助 IBM watsonx.data 随时随地扩展所有数据的 AI 工作量，IBM watsonx.data 是基于开放式湖仓一体架构构建的适用数据存储。

深入了解 watsonx.data

预约实时演示

脚注

¹ Google BERT 全球正式上线，Search Engine Journal（IBM.com 外部链接）2019 年 12 月 9 日