大语言模型 (LLM) 是一类基础模型,经过大量数据训练,使其能够理解和生成自然语言和其他类型的内容,以执行各种任务。大语言模型(LLM)是当前人工智能研究与企业级 AI 应用的核心技术之一。无论是在自然语言处理、知识问答,还是在多轮对话与生成式内容创建中,大语言模型都展现出强大的语义理解和生成能力,正在被越来越多的企业用于推动 AI 转型与自动化升级。
LLM 就像一台巨大的统计预测机,可以重复预测序列中的下一个单词。它们学习文本中的模式,并生成遵循这些模式的语言。
LLM 实现了人机交互方式的重大飞跃,因其是首个能大规模处理非结构化人类语言的 AI 系统,实现了与机器的自然交流。传统搜索引擎和其他编程系统使用算法匹配关键词,而 LLM 能捕捉更深层的语境、细微差别和推理逻辑。LLM 经过训练,能适配涉及文本解析的多种应用场景,如总结文章、调试代码或起草法律条款。当具备智能体能力时,LLM 可不同程度地自主执行原需人工完成的各种任务。
LLM 是数十年自然语言处理 (NLP) 与机器学习研究进展的集大成者,其发展直接推动了 2010 年代末至 2020 年代人工智能的爆发式进步。流行的 LLM 已成为家喻户晓的名词,使生成式 AI 成为公众关注的焦点。LLM 在企业中也获广泛应用,各组织在众多业务职能和用例中投入巨大资源。
公众可通过多种接口便捷使用 LLM,包括Anthropic 的 Claude、OpenAI 的ChatGPT、Microsoft 的 Copilot、Meta 的 Llama 系列,Google 的 Gemini 助手及其 BERT、PaLM 模型。IBM 在 watsonx.ai 上维护 Granite 模型系列。该系列已成为 watsonx Assistant 和 watsonx Orchestrate 等其他 IBM 产品的生成式 AI 支柱。
训练始于海量数据,它们来自书籍、文章、网站、代码等文本源的数十亿甚至数万亿词汇。数据科学家负责清理和预处理工作,以消除错误、重复及不良内容。
在“词元化”过程中,文本被分解为更小的机器可读单元,称为“词元”。词元可以是单词、子词或字符等较小单位。此举实现了语言标准化,使生僻词和新颖词汇也能被一致处理。
LLM 初始训练采用自监督学习,这是一种使用未标记数据进行监督学习的机器学习技术。自监督学习不需要标记数据集,但与监督学习密切相关,因为它根据“基本事实”优化性能。在自监督学习中,任务的设计使得可以从未标记的数据中推断出“基本事实”。模型不再像监督学习那样被告知每个输入的"正确答案",而是自行探索数据中的模式、结构或关联。
模型通过转换器网络传递词元。转换器模型于 2017 年推出,其价值在于自注意力机制允许在不同时刻“关注”不同词元。这项技术是转换器的核心和主要创新点。自注意力机制之所以有用,部分原因在于它允许AI 模型计算词元之间的关系和依赖性,特别是文本中彼此远离的词元之间的关系和依赖性。转换器架构还支持并行化处理,效率远超早期方法。这些特性使得 LLM 能够处理前所未有的庞大数据集。
文本被拆分为词元后,每个词元被映射为称为嵌入向量的数字序列。神经网络由多层人工神经元构成,每个神经元执行数学运算。转换器由其中许多层组成,每层都会微调嵌入向量,使其逐层转化为更丰富的语境表征。
此过程的目标是让模型学习词汇间的语义关联,例如在关于狗的文章中,“吠叫”与“狗”在向量空间中的距离应比“吠叫”与“树”更近,这是基于文中与狗相关的周边词汇。转换器还添加了位置编码,为每个词元提供其在序列中的位置信息。
为了计算注意力,每个嵌入都使用学习到的权重矩阵投射到三个不同的向量中:查询向量、键向量和值向量。查询向量表征特定词元的“搜索意图”,键向量表征每个词元包含的信息,值向量则根据相应注意力权重缩放后"返回"每个键向量的信息。
随后通过计算查询向量与键向量的相似度得出对齐分数。这些分数经归一化为注意力权重后,决定每个值向量有多少信息流入当前词元的表征。该过程允许模型灵活地关注相关语境,同时忽略不太重要的标记(如“树”)。
因此,自注意力机制能够比早期架构更有效地在所有词元之间建立“加权”连接。该模型为词元之间的每种关系赋予权重。LLM 可以有数十亿或数万亿个这样的权重,这些权重是 LLM 参数的一种类型,是机器学习模型中控制数据处理和预测方式的内部配置变量。参数数量指模型中此类变量的总数,部分 LLM 包含数百亿参数。所谓小型语言模型规模和范围较小,参数相对较少,适用于在小型设备或资源受限环境中部署。
在训练期间,该模型对从训练数据中提取的数百万个示例进行预测,并且损失函数会对每个预测的误差进行量化。通过进行预测,然后通过反向传播算法和梯度下降更新模型权重的迭代循环,模型“学习”生成查询、键和值向量的层级权重。
一旦这些权重得到充分优化,模型就能接收任何词元的原始嵌入,并为其生成查询向量、键向量和值向量。当这些向量与为所有其他词元生成的向量交互时,将生成“更好”的对齐分数,进而生成注意力权重,帮助模型生成更好的输出。最终得到的结果是学习了语法规则、事实知识、推理结构、写作风格等模式的模型。
训练后(或在额外训练的"预训练"背景下),可通过微调使 LLM 在特定场景中更实用。例如,在通用知识大数据集上训练的基础模型,可基于法律问答语料微调,从而创建一个用于法律领域的聊天机器人。
以下是一些最常见的微调方式。从业者可以使用一种方法或多种方法的组合。
微调通常是在有监督的情况下进行,使用的标记数据集要小得多。模型会更新其权重,以更好地匹配新的基本事实(在本例中为标记数据)。
预训练旨在赋予模型广泛通用知识,而微调使通用模型适配摘要、分类或客服等具体任务。这些功能适配代表了新型任务类型。监督微调产生的输出更接近人工提供的示例,所需资源远少于从头训练。
监督微调也适用于特定于域的定制,例如在医疗文档上训练模型,使其能够回答医疗保健相关的问题。
为进一步完善模型,数据科学家经常使用基于人类反馈的强化学习 (RLHF),这是一种微调形式,即人类对模型输出进行排序,模型经过训练后会偏好人类排序较高的输出。RLHF 常用于对齐过程,使 LLM 输出实用、安全且符合人类价值观。
RLHF 在 风格对齐方面尤为有效,可调整 LLM,以更随意、幽默或符合品牌调性的方式回应。风格对齐涉及对同类任务进行训练,但以特定风格生成输出。
大型语言模型经过训练后,其工作原理是:首先对提示进行分词,将其转换为嵌入向量,然后使用转换器逐词元生成文本,计算所有潜在后续词元的概率,输出最可能选项。这个过程称为推理,一直重复到输出完成。模型并非预先“知道”最终答案;它运用训练中学到的所有统计关联逐词元预测,每次预测一个词元,为每一步做出最合理的猜测。
从通用 LLM 获取特定领域知识的最简单、最快捷的方法是通过提示工程,这不需要额外的训练。用户可以通过各种方式修改提示。例如,“以训练有素的医疗专业人士口吻回答”的提示可能产生更相关结果(注意:不推荐使用 LLM 获取医疗建议!)。
LLM 还通过其他策略控制输出,如 LLM 温度参数控制推理期间生成文本的随机性,或 top-k/top-p 采样将候选词元限制为最可能选项,平衡创造力与连贯性。
上下文窗口是模型生成文本时能一次性“看到”并使用的最大词元数。早期 LLM 窗口较短,但新一代 LLM 具备数十万词元的上下文窗口,支持整篇研究论文摘要、大型代码库辅助编程、与用户长时间连续对话等用例。
检索增强生成 (RAG) 是一种将预训练模型与外部知识库连接起来的方法,使它们能够以更高的准确性提供更相关的响应。所检索的信息会传递到模型的上下文窗口中,使模型生成响应时可直接利用,无需重新训练。例如,通过将 LLM 连接至动态天气服务数据库,LLM 可为用户检索当日天气预报信息。
从零开始构建 LLM 是一个复杂且资源密集型的过程。最流行的 LLM 是海量数据、GPU、能源和人类专业知识的结果,因此大多数 LLM 都是由拥有雄厚资源的大型科技公司构建和维护。
不过,所有开发人可通过 API 使用大多数模型。开发人可以使用预训练模型来构建聊天机器人、知识检索系统、自动化工具等。为更好控制数据与定制化,许多开源模型可本地或云端部署。Github、Hugging Face、Kaggle 和其他平台让所有人都能参与 AI 开发。
开发人员可以将 LLM 作为各种 AI 应用的基础。AI 领域最令人兴奋的发展之一是智能体系统。AI 智能体不仅会思考,还会行动。LLM 本身只是根据上下文生成文本,但通过与内存、API、决策逻辑和其他外部系统集成,可以执行预订航班或自动驾驶等具体任务。
LLM 正在重新定义业务流程,其跨行业多场景的通用性已得到验证。
文本生成: LLM 可以执行各种内容创建任务,例如根据提示起草电子邮件、博客文章或法律备忘录。
文本摘要:LLM 能够将长篇文章、新闻报道、研究报告、公司文档和客户历史记录,提炼成符合目标输出格式与风格的精简文本。
代码生成:代码辅助平台帮助开发人员构建应用程序,查找代码中的错误并发现多种编程语言中的安全问题,甚至在它们之间进行“翻译”。
情感分析:分析客户语气,以便更好地了解大规模客户反馈。
语言翻译:自动翻译工具通过流畅的翻译和多语言功能,为各语言和地域的组织提供更广泛的覆盖范围。
推理: LLM 可以解决数学问题、规划多步骤流程以及用更简单的术语解释复杂的概念。
LLM 虽是强大工具,但存在若干局限。首要问题是准确性。在产生幻觉时,模型会生成看似合理实则错误或误导性的信息。LLM 也可能反映和放大其训练数据中存在的偏见,生成不公正或冒犯性内容。此外,LLM 资源需求巨大:训练和运行LLM需要大量算力与能源,引发成本与环境担忧。
从业者可以通过全面的人工智能治理来减轻LLM的这些负面影响,即帮助确保人工智能系统和工具的安全性和合乎道德性的流程、标准和保障措施。治理的关键部分之一是根据基准评估模型。LLM 基准测试提供量化评分,便于模型比较。由于 LLM 是能够执行各种任务的通用系统,其评估需涵盖多个维度而非单一基准。研究人员和从业者会考量准确性、效率、安全性、公平性和稳健性等特质来判断模型性能。
LLM 还需进行对齐性与安全性评估,例如采用红队测试,评估者故意诱导模型生成不安全或偏见响应以暴露缺陷。公平性和偏见评估可以帮助从业者防止 LLM 重现有害的刻板印象或错误信息。
LLM 通常还根据效率进行评估。速度、能耗、词元吞吐量、内存占用量以及处理长上下文窗口的能力是用于评估 LLM 获得输出效率的一些常见指标。
LLM 的历史可以追溯到计算和自然语言处理的早期,当时研究人员使用基于规则的系统和统计方法对文本进行建模。这些早期方法能捕捉局部词汇模式,但无法理解长距离依赖或深层语义。
2010 年代,神经网络兴起带来了重大转折,Word2Vec 和 GloVe 等词嵌入技术将词汇表示为连续空间中的向量,使模型能够学习语义关系。循环神经网络 (RNN) 和长短期记忆 (LSTM) 网络等序列模型的出现更好地处理了序列数据。
2017 年,Vaswani 等人在具有里程碑意义的论文《Attention is All You Need》中引入了编码器-解码器转换器架构。[1]转换器使大数据集训练模型成为可能,标志着现代 LLM 时代的开启。Google 的 BERT(2018 年)是一种纯编码器转换器,展示了转换器在理解语言方面的力量,而 OpenAI 的生成式预训练转换器 (GPT) 系列基于纯解码器变体,证明了互联网规模文本的生成式预训练能实现流畅语言生成。同期,编码器-解码器模型(如 Google 的 T5 和 Facebook 的 BART)展示了完整的序列到序列设计在翻译和摘要等任务中的优势。GPT-2 (2019) 因其生成连贯段落的能力而备受关注,而拥有 1750 亿参数的 GPT-3(2020 年)则确立了 LLM 在 AI 领域的变革性地位。
此外,新的架构也在挑战转换器在 LLM 中的受欢迎程度。Mamba 利用状态空间模型对的工作进行建模,该模型具有选择性更新功能,可有效过滤和组合过去的信息,从而捕捉到长距离的依赖关系。扩散 LLM 从随机噪声开始,在学习模型的指导下逐步对其进行降噪,直到出现连贯的文本。这两种架构的效率都比转换器高得多。
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1. “Attention is all you need”, Vaswani et al, arXiv, 12 June 2017