什么是 Google Gemma？| IBM

作者

Staff Writer

IBM Think

什么是 Google Gemma？

Gemma 是 Google 免费开放的小型语言模型 (SLM) 系列。它们采用与 Gemini 系列大型语言模型 (LLM) 相同的技术构建，被视为 Gemini 的“轻量级”版本。

由于 Gemma 模型比 Gemini 模型更加精简，因此它们可以在笔记本电脑和移动设备上部署，同时还针对 NVIDIA 图形处理单元 (GPU) 和 Google Cloud 张量处理单元 (TPU) 进行了优化。然而与 Gemini 不同，Gemma 不支持多语言，也不支持多模态。

这些“文本转文本”人工智能 (AI) 模型的名称源自同一个拉丁单词，意思是“宝石”。Gemma 是一组开放模型，Google 免费提供模型权重访问，这些模型可免费用于个人及商业用途与再分发。¹

Gemma 的第一代型号于 2024 年 2 月推出¹，第二代型号于 2024 年 6 月发布²。

Gemma 模型系列

Gemma 的 AI 模型集合包含 Gemma 和 Gemma 2 作为其核心，还有一些更专业的模型，这些模型针对特定任务进行了优化，并具有不同的基础架构。Gemma 系列中的模型具有基本或预训练变体，以及指令调整的变体。

Gemma

Gemma 是第一代 Gemma 型号。Gemma 2B 最小，有 20 亿个参数，而 Gemma 7B 有 70 亿个参数。这些模型使用代码和数学数据集以及网络文档中主要为英语的内容进行训练。³

Gemma 2

Gemma 2 是第二代 Gemma 系列。Google 表示，与前代产品相比，Gemma 2 性能更好，AI 推理的效率更高（模型对用户查询生成响应情况下）。²

该模型提供 20、90 和 270 亿个参数规格。其训练数据集包括英文网络文档、代码和科学文章。⁴

CodeGemma

此“文本转代码”模型针对编码任务进行了微调。它支持多种编程语言，包括 C++、C#、Go、Java、JavaScript、Kotlin、Python 和 Rust。⁵

CodeGemma 具有用于代码完成和代码生成的 7B 预训练变体，用于自然语言代码聊天和指令跟随的 7B 指令调整变体，以及用于快速代码完成的 2B 预训练变体。⁵

DataGemma

DataGemma 系列由经过微调的 Gemma 和 Gemma 2 模型组成，这些模型使用来自 Google 的 Data Commons（公共统计数据存储库）的数据来补充它们的响应。DataGemma RIG 模型应用检索交错生成来创建自然语言查询，以便从 Data Commons 获取数据。同时，DataGemma RAG 模型采用检索增强生成从 Data Commons 获取数据，这可以增强模型的提示。⁶

PaliGemma

该视觉语言模型接受图像和文本作为输入，并产生文本作为输出。因此，它非常适合回答有关图像的问题、检测图像中的对象、生成图像标题以及读取图像中嵌入的文本。其底层架构由视觉转换器图像编码器和从 Gemma 2B 初始化的转换器文本解码器组成。⁷

PaliGemma 拥有一组通用的预训练模型和一组在某些研究数据集上进行微调的研究型模型。Google 指出，大多数 PaliGemma 模型需要微调，并且在部署给用户之前必须测试输出。⁸

RecurrentGemma

RecurrentGemma 使用由 Google 研究人员开发的循环神经网络架构。这使其推理速度更快（尤其是在生成长序列时），并且需要的内存比 Gemma 少。它提供 2B 和 9B 预训练和指令调整模型。⁹

Gemma 用例

CodeGemma 和 PaliGemma 有自己特定的用例。但总的来说，人们可以使用 Gemma 执行自然语言处理 (NLP) 和自然语言理解任务，包括：

构建会话式 AI 助理和聊天机器人
编辑和校对
问题解答和研究
文本生成，如电子邮件、广告文案和其他内容
文本摘要，尤其适用于冗长文件和大量报告或研究论文

Google Gemma 的工作原理是什么？

Gemma 基于转换器模型，这是一种 2017 年由 Google 推出的神经网络架构。¹⁰

下面简要介绍一下转换器模型的工作原理：

编码器将输入序列转换为称为嵌入的数字表示，以捕捉输入序列中词元的语义和位置。

自我关注机制允许转换器“将注意力集中”在输入序列中最重要的词元上，而不管这些词元的位置如何。

解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

但是，Gemma 使用了转换器架构的一种变体，被称为仅解码器转换器。¹¹在此模型中，输入序列会直接输入解码器，而解码器仍会使用嵌入和注意力机制来生成输出序列。

Gemma 模型架构

Gemma 的第一代型号通过一些架构元素对转换器进行了改进：

神经网络的每一层都应用旋转位置嵌入，而不是绝对位置嵌入。嵌入也在输入和输出之间共享，以压缩模型。³

Gemma 7B 采用多头注意力，其中多个“注意力头”具有自己的键和值，以捕获词元之间不同类型的关系。相比之下，Gemma 2B 采用多查询注意力，其中所有注意力头共享一组键和值，从而提高速度并减轻内存负载。¹¹

Gemma 2 模型架构

Gemma 2 使用比 Gemma 更深的神经网络。以下是其他一些值得注意的架构差异：⁴

对于其神经网络的每隔一层，Gemma 2 会在局部滑动窗口注意力和全局注意力之间交替。局部滑动窗口注意力是一种动态机制，用于关注输入序列中某些固定大小的“窗口”，使模型一次只专注于几个单词。与此同时，全局注意力会关注序列中的每个词元。

Gemma 2 还采用了分组查询注意力，这是一种“分而治之”的方法，将查询拆分为更小的组，并分别计算每个组内的注意力。

此外，Gemma 2 2B 和 9B 模型应用了知识提炼，这需要通过训练较小的模型来模拟较大模型的推理过程并匹配其预测，从而将较大模型的知识“提炼”为较小模型。

指令调整

在指令调整方面，Gemma 和 Gemma 2 都应用了监督微调和基于人类反馈的强化学习 (RLHF)，以使模型更好地遵循指令。⁴监督微调使用面向指令的任务的标记示例来教模型如何构建其响应。同时，RLHF 使用奖励模型将人工评估者的质量评级转化为数字奖励信号，帮助模型了解哪些响应将获得积极的反馈。

Gemma 性能

在涉及代码生成、常识推理、语言理解、数学推理和问答等 LLM 基准测试中，对 Gemma 7B 性能的评估表明，它可与 Llama 3 8B 和 Mistral 7B 等类似规模的 SLM 相媲美。Gemma 2 9B 和 27B 的表现甚至更好，在大多数基准测试中超过了 Llama 3 8B 和 Mistral 7B。¹²

然而，Meta 和 Mistral 发布的最新 SLM Llama 3.2 3B 和 Ministral 3B 在各种基准测试中超越了 Gemma 2 2B。¹³ Microsoft 的 Phi-3-mini（一种包含 38 亿参数的语言模型）也比 Gemma 7B 获得了更高的性能。¹⁴

人们如何访问 Gemma？

可通过以下平台获取 Gemma 模型：

Google AI Studio

Hugging Face（也集成到 Hugging Face 转换器中）

Kaggle

Vertex AI Model Garden

此外，开发人员还可以在开源机器学习框架（例如 JAX、LangChain、PyTorch 和 TensorFlow）中以及通过 Keras 3.0 等应用程序编程接口 (API) 实现模型。此外，由于 Gemma 包含跨 NVIDIA GPU 的优化，开发人员可以使用 NVIDIA 工具（包括 NeMo 框架）来微调模型和 TensorRT-LLM，进而优化模型，以便在 NVIDIA GPU 上进行高效推理。

对于企业 AI 开发，Gemma 模型可以在 Google Cloud Vertex AI 和 Google Kubernetes Engine (GKE) 上部署。对于算力有限的用户，Google Colab 可免费提供对基于云的 GPU 和 TPU 等计算资源的访问。