我的 IBM 登录 订阅

什么是小型语言模型?

2024 年 10 月 31 日

作者

什么是小型语言模型?

小型语言模型 (SLM) 是能够处理、理解和生成自然语言内容的人工智能 (AI) 模型。顾名思义,SLM 的规模和范围比大型语言模型 (LLM) 小。

就规模而言,SLM 的参数范围从几百万到几十亿不等,而 LLM 则具有数千亿甚至数万亿参数。参数是模型在训练期间要学习的内部变量,例如权重和偏差。这些参数会影响机器学习模型的行为和执行方式。

小型语言模型比大型模型更紧凑、更高效。因此,SLM 需要较少的内存和计算能力,非常适合资源受限的环境(如边缘设备和移动应用程序),甚至非常适合 AI 推理(即模型生成对用户查询的响应)必须在没有数据网络时离线完成的场景。

小型语言模型的工作原理

LLM 是 SLM 的基础。与大型语言模型一样,小型语言模型采用基于神经网络的架构,称为转换器模型。转换器已成为自然语言处理 (NLP) 的基础,并充当生成式预训练转换器 (GPT) 等模型的构建块。

以下是转换器架构的简要概述:

● 编码器将输入序列转换为称为嵌入的数字表示,以捕捉输入序列中词元的语义和位置。

● 自我关注机制允许转换器将注意力“集中”在输入序列中最重要的词元上,而不管这些词元的位置如何。

● 解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

模型压缩

模型压缩技术的应用是为了从一个更大的模型中建立一个更精简的模型。压缩模型需要在缩小模型的同时,尽可能保留模型的准确性。以下是一些常见的模型压缩方法:

● 修剪

● 量化

● 低秩分解

● 知识提炼

修剪

修剪会从神经网络中删除不太重要、冗余或不必要的参数。通常修剪的参数包括对应于神经元之间连接的数值权重(在这种情况下,权重将设置为 0)、神经元本身或神经网络中的层。

已修剪的模型通常需要在修剪后进行微调,以弥补准确性方面的损失。了解何时修剪了足够的参数非常重要,因为过度修剪会降低模型的性能。

量化

量化可将高精度数据转换为低精度数据。例如,模型权重和激活值(分配给神经网络中神经元的 0 到 1 之间的数字)可以表示为 8 位整数,而不是 32 位浮点数。量化可以减少计算量,加快推理速度。

量化可以纳入模型训练中(称为量化感知训练或 QAT),也可以在训练后完成(称为训练后量化或 PTQ)。PTQ 不需要像 QAT 那样多的算力和训练数据,但 QAT 可以生成更准确的模型。

低秩分解

低秩分解将大的权重矩阵分解为较小的低秩矩阵。这种更紧凑的近似可以减少参数、降低计算量并简化复杂的矩阵运算。

不过,低阶因式分解的计算量很大,实施起来也比较困难。与剪枝一样,因式分解后的网络也需要进行微调,以挽回任何精度损失。

知识提炼

知识提炼涉及将预训练的“教师模型”的学习转移到“学生模型”。学生模型经过训练,不仅可以匹配教师模型的预测,还可以模仿其底层推理过程。因此,较大模型的知识本质上会被“提炼”成较小的模型。

知识提炼是很多 SLM 的常用方法。通常使用离线提炼方案,其中教师模型的权重会被冻结,在提炼过程中不能更改。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

小型语言模型示例

虽然较大的模型仍然是许多企业的技术选择,但较小的模型正在迅速普及。以下是一些常见的 SLM 示例:

● DistilBERT

● Gemma

● GPT-4o mini

● Granite

● Llama

● Ministral

● Phi

DistilBERT

DistilBERT 是 Google 的开创性 BERT 基础模型的精简版。BERT 采用知识提炼技术,比其前代产品体积缩小 40%,速度提高 60%,同时仍保留 BERT 97% 的自然语言理解能力。1

BERT 的其他缩小版本包括 440 万个参数的微型、1,130 万个参数的迷你、2,910 万个参数的小型和 4,170 万个参数的中型。2同时,还有专为移动设备量身定制的 MobileBERT。3

Gemma

Gemma 采用与 Google Gemini LLM 相同的技术打造和提炼,有 20 亿、70 亿和 90 亿参数规模可供选择。4Gemma 可通过 Google AI Studio 以及 Kaggle 和 Hugging Face 平台获取。

Gemini 还有更轻量级的变体 Gemini 1.5 Flash-8B 和 Gemini 1.0 Nano,专为在移动设备上运行而设计。5

GPT-4o mini

GPT-4o mini 是 OpenAI GPT-4 系列的 AI 模型的一部分,为 ChatGPT 生成式 AI 聊天机器人提供支持。GPT-4o mini 是 GPT-4o 较小的经济高效变体。它具有多模态功能,接受文本和图像输入并生成文本输出。

ChatGPT 免费版、Plus 版、团队版和企业版用户可以访问取代 GPT-3.5 的 GPT-4o mini。开发人员可通过各种应用程序编程接口 (API) 访问 GPT-4o mini。

Granite

Granite是 IBM LLM 基础模型的旗舰系列。Granite 3.0 系列包括具有 20 亿和 80 亿参数的基础预训练模型和指令调整模型。Granite 3.0 还具有专家混合 (MoE) SLM,可实现最低延迟,并具有优化变体,可加快模型推理速度。

这些开源模型不仅在特定语言任务中表现出色,而且在网络安全等企业领域中也很出色,它们可以作为 AI 代理使用工具或函数调用来自主执行任务,还可以执行检索增强生成 (RAG) 任务,即从外部知识库中检索事实,使模型基于最准确的最新信息。

Granite 3.0 模型可在 IBM watsonx 组合中的产品上以及通过 Google Vertex AI、Hugging Face、NVIDIA(作为 NIM 微服务)、Ollama 和 Replicate 用于商业用途。

Llama

Llama 是 Meta 的开源语言模型系列。Llama 3.2 有 10 亿和 30 亿两种参数规模,6甚至比 Llama 2 早期的 70 亿参数版本还要小。7

这些多语言文本模型的量化版本大小已减小到略大于一半的规模,速度提高了 2 到 3 倍。6可通过 Meta、Hugging Face 和 Kaggle 获取这些 SLM。

Ministral

Les Ministraux 是一组来自 Mistral AI 的 SLM。Ministral 3B 是该公司最小的模型,有 30 亿个参数,而具有 80 亿个参数的 Ministral 8B 是 Mistral 7B 的后继者;Mistral 7B 是 Mistral AI 发布的首批 AI 模型之一。这两个模型都可以通过 Mistral 访问。8

在评估知识、常识、数学和多语言技能的基准方面,Ministral 8B 的表现优于 Mistral 7B。为了实现快速推理,Ministral 8B 使用滑动窗口注意力,这是一种关注输入序列中某些固定大小“窗口”的动态机制,使模型一次只专注于几个单词。8

Phi

Phi 是 Microsoft 的一套小型语言模型。Phi-2 有 27 亿个参数,而 Phi-3-mini 有 38 亿个参数。9

由于具有较长的上下文窗口(模型可以考虑的最大文本量),Phi-3-mini 可以对大型文本内容进行分析和推理。Microsoft 表示,其 70 亿参数的 SLM Phi-3-small 将在未来推出。Phi-3-mini 可在 Microsoft Azure AI Studio、Hugging Face 和 Ollama 上访问。9

结合 LLM 和 SLM

AI 开发的进步带来了能够最大限度地发挥 LLM 和 SLM 合力的优化方法:

混合 AI 模式:混合 AI 模型可以在内部运行较小的模型,当需要较大的数据语料库来响应提示时,则访问公有云中的 LLM。

智能路由:智能路由可以应用于更有效地分配 AI 工作量。可以创建路由模块来接受查询、评估查询并选择最合适的模型来引导查询。小型语言模型可以处理基本请求,而大型语言模型可以处理更复杂的请求。

小型语言模型的优点

越大并不总是越好,而 SLM 在尺寸上的不足可以通过以下优势得到弥补:

可及性:研究人员、AI 开发人员和其他个人可以深入了解和试验语言模型,而无需投资多个 GPU(图形处理单元)或其他专门设备。

效率:SLM 的精益性使其较不资源密集,从而可实现快速训练和部署。

有效性能:这种效率并不以牺牲性能为代价。小型模型的性能与大型模型相当,甚至更好。例如,GPT-4o mini 在语言理解、问答、推理、数学推理和代码生成 LLM 基准测试方面超过了 GPT-3.5 Turbo。10GPT-4o mini 的性能也接近尺寸更大的 GPT-4o 系列其他模型。10

更好的隐私和安全控制:由于 SLM 规模较小,可以在私有云计算环境或本地环境中部署,从而加强数据保护,更好地管理和缓解网络安全威胁。这对于金融或医疗保健等行业来说尤其有价值,因为隐私和安全对这些行业至关重要。

降低延迟:参数更少意味着处理时间更短,这使得 SLM 能够快速响应。例如,Granite 3.0 1B-A400M 和 Granite 3.0 3B-A800M 的总参数量分别为 10 亿和 30 亿,而它们在推理中的活动参数量为别为 4 亿和 8 亿。这样,两个 SLM 就可以最大限度地减少延迟,同时提供较高的推理性能。

更具环境可持续性:由于需要的计算资源较少,小型语言模型消耗的能源也较少,从而减少了碳足迹。

降低成本:企业可以节省开发、基础设施和运营费用,例如获取大量高质量的训练数据和使用先进的硬件,否则这些都是运行大规模模型所必需的。

小语言模型的局限性

与 LLM 一样,SLM 仍然必须应对 AI 的风险。对于希望将小型语言模型集成到其内部工作流中或针对特定应用进行商业实施的企业来说,这是一个需要考量的因素。

偏差较小的模型可以从大型模型中存在的偏差中吸取教训,这种连锁效应可以体现在它们的输出中。

复杂任务性能下降:由于 SLM 通常针对特定任务进行微调,因此它们可能不太擅长需要全面主题知识的复杂任务。例如,Microsoft 指出,其“Phi-3 模型在事实知识基准方面的表现不佳,因为模型规模较小会导致保留事实的能力较低”。9

有限泛化:小型语言模型缺乏广泛的知识库,因此它们可能更适合有针对性的语言任务。

幻觉验证 SLM 的结果对于确保其生成的结果事实正确至关重要。

小型语言模型用例

企业可以在特定领域的数据集上对 SLM 进行微调,以满足企业的特定需求。这种适应性意味着小型语言模型可用于各种实际应用:

聊天机器人由于 SLM 具有低延迟和会话式 AI 功能,因此可以支持客服聊天机器人,快速实时响应查询。此外,它们还可以作为代理式 AI 聊天机器人的支柱,代表用户完成提供响应之外的任务。

内容摘要例如,Llama 3.2 1B 和 3B 模型可用于总结智能手机上的讨论以及创建日历事件等操作项。6类似地,Gemini Nano 可以总结录音和谈话记录。11

生成式 AI紧凑型模型可用于完成和生成文本和软件代码。例如,granite-3b-code-instruct 和 granite-8b-code-instruct 模型可用于根据自然语言提示生成、解释和翻译代码。

语言翻译:很多小型语言模型都是多语言的,并且接受过英语以外的语言训练,因此它们可以在不同语言之间快速翻译。由于它们能够理解上下文,因此它们可以生成近似准确的翻译,同时保留了原始文本的细微差别和含义。

预测性维护精益模型足够小,可以直接部署在本地边缘设备上,如传感器或物联网 (IoT) 设备。这意味着制造商可以将 SLM 视为从安装在机器和设备的传感器收集数据并实时分析这些数据以预测维护需求的工具。

情感分析除了处理和理解语言之外,SLM 还善于以客观的方式对大量文本进行整理和分类。这使它们适合分析文本并衡量文本背后的情感,从而帮助了解客户反馈。

车辆导航辅助:像 SLM 这样快速、小巧的模型可以在车载计算机上运行。由于具有多模态功能,小语言模型可以将语音命令与图像分类相结合,例如,识别车辆周围的障碍物。它们甚至可以利用其 RAG 功能,检索公路法规或道路规则中的详细信息,帮助驾驶员做出更安全、更明智的驾驶决策。

脚注

所有链接均为 ibm.com 外部链接

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter,arXiv,2020 年 3 月 1 日

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models,arXiv,2019 年 9 月 25 日

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices,arXiv,2020 年 4 月 14 日

4 Gemma explained: An overview of Gemma model family architectures,Google for Developers,2024 年 8 月 15 日

5 Gemini Models,Google DeepMind,访问日期:2024 年 10 月 17 日

6 Introducing Llama 3.2,Meta,访问日期:2024 年 10 月 17 日

7 Meta and Microsoft Introduce the Next Generation of Llama,Meta,2023 年 7 月 18 日

8 Un Ministral, des Ministraux,Mistral AI,2024 年 10 月 16 日

9 Introducing Phi-3: Redefining what’s possible with SLMs,Microsoft,2024 年 4 月 23 日

10 GPT-4o mini: advancing cost-efficient intelligence,OpenAI,2024 年 7 月 18 日

11 Gemini Nano,Google DeepMind,访问日期:2024 年 10 月 21 日

AI 学院

为您的用例选择适合的 AI 模型

对于 AI 模型而言,越大并不一定越好。了解如何找到适合您业务需求的模型。然后获取指南手册,以帮助您采取行动。

相关解决方案

相关解决方案

基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

了解 watsonx.ai 深入了解 IBM Granite AI 模型