Gemma 是 Google 免费开放的小型语言模型 (SLM) 系列。它们采用与 Gemini 系列大型语言模型 (LLM) 相同的技术构建,被视为 Gemini 的“轻量级”版本。
由于 Gemma 模型比 Gemini 模型更加精简,因此它们可以在笔记本电脑和移动设备上部署,同时还针对 NVIDIA 图形处理单元 (GPU) 和 Google Cloud 张量处理单元 (TPU) 进行了优化。然而与 Gemini 不同,Gemma 不支持多语言,也不支持多模态。
这些“文本转文本”人工智能 (AI) 模型的名称源自同一个拉丁单词,意思是“宝石”。Gemma 是一组开放模型,Google 免费提供模型权重访问,这些模型可免费用于个人及商业用途与再分发。1
Gemma 的第一代型号于 2024 年 2 月推出1,第二代型号于 2024 年 6 月发布2。
Gemma 是第一代 Gemma 型号。Gemma 2B 最小,有 20 亿个参数,而 Gemma 7B 有 70 亿个参数。这些模型使用代码和数学数据集以及网络文档中主要为英语的内容进行训练。3
该视觉语言模型接受图像和文本作为输入,并产生文本作为输出。因此,它非常适合回答有关图像的问题、检测图像中的对象、生成图像标题以及读取图像中嵌入的文本。其底层架构由视觉转换器图像编码器和从 Gemma 2B 初始化的转换器文本解码器组成。7
PaliGemma 拥有一组通用的预训练模型和一组在某些研究数据集上进行微调的研究型模型。Google 指出,大多数 PaliGemma 模型需要微调,并且在部署给用户之前必须测试输出。8
RecurrentGemma 使用由 Google 研究人员开发的循环神经网络架构。这使其推理速度更快(尤其是在生成长序列时),并且需要的内存比 Gemma 少。它提供 2B 和 9B 预训练和指令调整模型。9
CodeGemma 和 PaliGemma 有自己特定的用例。但总的来说,人们可以使用 Gemma 执行自然语言处理 (NLP) 和自然语言理解任务,包括:
Gemma 的第一代型号通过一些架构元素对转换器进行了改进:
神经网络的每一层都应用旋转位置嵌入,而不是绝对位置嵌入。嵌入也在输入和输出之间共享,以压缩模型。3
Gemma 7B 采用多头注意力,其中多个“注意力头”具有自己的键和值,以捕获词元之间不同类型的关系。相比之下,Gemma 2B 采用多查询注意力,其中所有注意力头共享一组键和值,从而提高速度并减轻内存负载。11
Gemma 2 使用比 Gemma 更深的神经网络。以下是其他一些值得注意的架构差异:4
对于其神经网络的每隔一层,Gemma 2 会在局部滑动窗口注意力和全局注意力之间交替。局部滑动窗口注意力是一种动态机制,用于关注输入序列中某些固定大小的“窗口”,使模型一次只专注于几个单词。与此同时,全局注意力会关注序列中的每个词元。
Gemma 2 还采用了分组查询注意力,这是一种“分而治之”的方法,将查询拆分为更小的组,并分别计算每个组内的注意力。
此外,Gemma 2 2B 和 9B 模型应用了知识提炼,这需要通过训练较小的模型来模拟较大模型的推理过程并匹配其预测,从而将较大模型的知识“提炼”为较小模型。
在指令调整方面,Gemma 和 Gemma 2 都应用了监督微调和基于人类反馈的强化学习 (RLHF),以使模型更好地遵循指令。4监督微调使用面向指令的任务的标记示例来教模型如何构建其响应。同时,RLHF 使用奖励模型将人工评估者的质量评级转化为数字奖励信号,帮助模型了解哪些响应将获得积极的反馈。
在涉及代码生成、常识推理、语言理解、数学推理和问答等 LLM 基准测试中,对 Gemma 7B 性能的评估表明,它可与 Llama 3 8B 和 Mistral 7B 等类似规模的 SLM 相媲美。Gemma 2 9B 和 27B 的表现甚至更好,在大多数基准测试中超过了 Llama 3 8B 和 Mistral 7B。12
然而,Meta 和 Mistral 发布的最新 SLM Llama 3.2 3B 和 Ministral 3B 在各种基准测试中超越了 Gemma 2 2B。13 Microsoft 的 Phi-3-mini(一种包含 38 亿参数的语言模型)也比 Gemma 7B 获得了更高的性能。14
可通过以下平台获取 Gemma 模型:
Google AI Studio
Hugging Face(也集成到 Hugging Face 转换器中)
Kaggle
Vertex AI Model Garden
此外,开发人员还可以在开源机器学习框架(例如 JAX、LangChain、PyTorch 和 TensorFlow)中以及通过 Keras 3.0 等应用程序编程接口 (API) 实现模型。此外,由于 Gemma 包含跨 NVIDIA GPU 的优化,开发人员可以使用 NVIDIA 工具(包括 NeMo 框架)来微调模型和 TensorRT-LLM,进而优化模型,以便在 NVIDIA GPU 上进行高效推理。
对于企业 AI 开发,Gemma 模型可以在 Google Cloud Vertex AI 和 Google Kubernetes Engine (GKE) 上部署。对于算力有限的用户,Google Colab 可免费提供对基于云的 GPU 和 TPU 等计算资源的访问。
与其他 AI 模型一样,Google Gemma 继续努力应对 AI 的风险,包括:
偏差:较小的模型可以从大型模型中存在的偏差中学习,这种连锁效应可以反映在其结果中。
幻觉:验证和监控 Gemma 等 SLM 的输出对于确保它们生成的内容准确且事实上正确十分重要。
侵犯隐私:Google 指出,Gemma 和 Gemma 2 的训练数据集已经过过滤,删除了某些个人信息和其他敏感数据。4不过,个人用户和企业在使用数据对 Gemma 进行微调时仍需谨慎,以免泄露任何个人或专有数据。
在安全和安保方面,Google 对 Gemma 进行了多项指标的评估,包括攻击性网络安全、CBRN(化学、生物、辐射和核)知识、自我扩散(自主复制能力)和说服力。Gemma 在 CBRN 领域的知识水平较低。同样,该模型在攻击性网络安全、自我扩散和说服力方面的能力也很低。4
Google 还发布了负责任的生成式 AI 工具包,帮助 AI 研究人员和开发人员构建负责任且安全的 AI 应用程序。1
所有链接均为 ibm.com 外部链接
1 Gemma: Introducing new state-of-the-art open models,Google,2024 年 2 月 21 日
2 Gemma 2 is now available to researchers and developers,Google,2024 年 6 月 27 日
3 Gemma: Open Models Based on Gemini Research and Technology,Google DeepMind,2024 年 2 月 21 日
4 Gemma 2: Improving Open Language Models at a Practical Size,Google DeepMind,2024 年 6 月 27 日
5 CodeGemma 模型卡片,Google AI for Developers,2024 年 8 月 5 日
6 Knowing When to Ask — Bridging Large Language Models and Data,arXiv,2024 年 9 月 10 日
7 PaliGemma 模型卡片,Google AI for Developers,2024 年 8 月 5 日
8 PaliGemma,Google AI for Developers,2024 年 8 月 5 日
9 RecurrentGemma 模型卡片,Google AI for Developers,2024 年 8 月 5 日
10 Transformer: A Novel Neural Network Architecture for Language Understanding,Google Research,2017 年 8 月 31 日
11 解析 Gemma:Gemma 模型系列架构概述,Google for Developers,2024 年 8 月 15 日
12 Gemma 开放模型,Google AI for Developers,访问日期:2024 年 11 月 5 日
13 Un Ministral, des Ministraux,Mistral AI,2024 年 10 月 16 日
14 Introducing Phi-3: Redefining what’s possible with SLMs,Microsoft,2024 年 4 月 23 日
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。