DeepSeek：审视热潮

作者

Senior Staff Writer, AI Models

IBM Think

2025 年 1 月发布的 DeepSeek-R1 带来了大量报道 DeepSeek 的文章，其中可能会令人困惑的一点是：DeepSeek 深度求索即是一家公司的名称，也是该公司所制作模型的名称，DeepSeek 还是在此类模型上运行的聊天机器人的名称。鉴于报道的数量和人们对 AI 领域发生重大转变所带来的经济影响的兴奋，一般读者可能很难区分事实与猜测和虚构。

下面是一个简单的指南，可帮助您冷静审视有关 DeepSeek 的其他文章，区分信号与噪声，避开炒作和夸张。我们首先将简要介绍 DeepSeek 公司的历史，解释 DeepSeek 每个新模型之间的区别，并展开说明其最有趣的创新（但不涉及太多技术细节）。

以下是我们将要介绍内容的提要：

什么是 DeepSeek？
DeepSeek-R1 究竟是什么？我们将解释微调过程（“R1”）和他们执行了微调的大语言模型 (LLM) - DeepSeek-V3。
什么是 DeepSeek-V3？我们将深入介绍它与其他 LLM 的不同之处。
DeepSeek-R1 的成本是多少？我们将要消除一些重大的误解。
什么是 DeepSeek-R1-Ditil？尽管名称相似，但 R1-Distill 模型与 R1 有本质区别。
您为什么需要了解这些？我们将指明标题可能具有怎样的误导性。
DeepSeek 之后：开源大模型的未来

什么是 DeepSeek？

DeepSeek 是一个位于中国杭州的 AI 研究实验室。这也是该公司开发的开放权重生成式 AI 模型的名称。2025 年 1 月下旬，他们的 DeepSeek-R1 LLM 在主流科技和金融新闻中被广泛报道，其性能可与 OpenAI、Anthropic 和 Google 的顶级专有模型相媲美，但构建成本却低得多。

DeepSeek 公司诞生自幻方量化公司；后者是一家中国对冲基金公司，由三位计算机科学家于 2016 年创立，专注于算法交易策略。2019 年，该公司利用其交易运营的收益建立了一家 AI 驱动的子公司 - 幻方 AI，据报道，该公司在深度学习训练基础设施上投资了 2800 万美元，并在 2021 年将该投资增加了五倍。

到 2023 年，幻方的 AI 研究已经发展到值得建立一个专注于 AI 的独立实体的程度，更具体地说，是专注于开发通用人工智能 (AGI)。由此产生的研究实验室被命名为 DeepSeek，幻方量化是其主要投资者。从 2023 年 11 月的 DeepSeek-Coder 开始，DeepSeek 开发了一系列备受推崇的开放权重模型，主要关注数学和编码性能。

2024 年 12 月，该实验室发布了 DeepSeek-V3，这是 DeepSeek-R1 的基础 LLM。DeepSeek-V3 和 DeepSeek-R1 的突破性性能使该实验室成为生成式 AI 未来开发领域意想不到的领导者。

什么是 DeepSeek-R1？

DeepSeek-R1 是一个推理模型，它通过微调 LLM (DeepSeek-V3) 来生成一个广泛的逐步思维链 (CoT) 过程，然后再决定最终提供给用户的“输出”。其他推理模型包括 OpenAI 的 o1（基于 GPT-4o）和 o3、Google 的 Gemini Flash 2.0 Thinking（基于 Gemini Flash）和阿里巴巴的开源 QwQ（“Qwen with Questions”）（基于其 Qwen2.5 模型）。

推理模型背后的直觉来自早期研究，该研究表明，仅添加短语“逐步思考”即可显着改善模型输出。ⁱGoogle DeepMind 的后续研究推测，扩大测试时间计算（用于生成输出的资源量）可以像扩大训练时间计算（用于训练模型的资源）一样提高模型性能。

尽管推理模型速度较慢且成本较高（您仍然必须生成（并支付）用于“思考”最终响应的所有词元，并且这些词元会占用您可用的上下文窗口），但自 OpenAI 发布 o1 以来，它们一直推进着最先进性能的前沿。最值得注意的是，其强调训练模型，优先考虑规划和预见，这使它们擅长某些涉及 LLM 以前无法处理的复杂数学和推理问题的任务。

有关推理模型的更多信息，请查看这份来自 Maarten Grootendorst 的精彩视觉指南。

为什么 DeepSeek-R1 很重要？

DeepSeek-R1 在数学、代码和推理任务方面的性能可与领先模型相媲美，包括 OpenAI 的 o1 和 Anthropic 的 Claude 3.5 Sonnet。无论哪种模式是“最佳”模式（这是主观的，要视具体情况而定），对于开源模型来说，这都是一项了不起的成就。但 R1 最重要的方面是它向开源社区引入的训练技术。

通常，将标准 LLM 从未经训练转变为可供最终用户使用的过程如下：

预训练：DeepSeek-R1 模型通过自监督学习来学习语言模式。
监督微调 (SFT)：DeepSeek-R1 模型从标记的示例中学习如何应用这些语言模式。
强化学习 (RL)：DeepSeek-R1 模型被引导向更具体、更抽象的考虑因素。对于标准的面向聊天的模型，此步骤通常需要基于人类反馈的强化 (RLHF) 学习，以使响应更有用且无害。对于推理模型，RL 用于激励更深层次、更长时间的“思考过程”。

对于像 o1 这样的专有推理模型来说，最后一步的具体细节通常是严格保护的商业机密。但 DeepSeek 已经发布了一份技术论文，详细介绍了他们的流程。

DeepSeek-R1 的工作原理

在首次尝试将 DeepSeek-V3 转变为推理模型时，DeepSeek 跳过了 SFT，直接从预训练转为简单的强化学习方案：

模型查询：向模型提问。提示它在“<think>”和“</think>”之间输出它的思维过程，并在“<answer>”和“</answer>”之间输出它的最终答案。
准确性奖励：根据模型的答案质量（例如生成的代码运行得如何）来奖励模型。
格式奖励：对在回复中正确使用“<think>”和“<answer>”格式的模型进行奖励。

由此产生的模型（他们将其发布为“DeepSeek-R1-Zero”）学会了生成复杂的思路链并采用战略，在数学和推理任务上取得了令人印象深刻的性能。该过程简单明了，避免了为 SFT 提供昂贵的标签数据。不幸的是，正如技术论文所解释的那样：“DeepSeek-R1-Zero 遇到了无休止重复、可读性差和语言混合等挑战。”

为了训练 R1-Zero 的后续版本 DeepSeek-R1，DeepSeek 修改了流程：

从一些传统的 SFT 开始，以避免“冷启动”
使用 R1-Zero 样式的强化学习，并附加奖励项来避免语言混合
使用得到的 RL 调优模型（和基本 DeepSeek-V3 模型）又生成了 800,000 个 SFT 示例
添加了更多 SFT
添加了更多 R1-Zero 风格的强化学习内容
使用基于人类反馈的传统强化学习 (RLHF)

但是，微调过程只是故事的一半。另一半是 R1 的基础模型：DeepSeek-V3。

什么是 DeepSeek-V3？

DeepSeek-V3 是 DeepSeek-R1 的骨干，是一个纯文本、6710 亿 (671B) 参数的混合专家 (MoE) 语言模型。截至 2025 年 2 月，它可以说是可用的最强大的开源 LLM，尤其擅长数学、推理和编码任务。更重要的是，它比其他领先的 LLM 更快、更便宜。

6710 亿个参数意味着这是一个巨大的模型。作为背景信息，当 Meta 于 2024 年 7 月发布 Llama 3.1 405B（比 DeepSeek-V3 小 40%）时，他们的官方公告将其描述为“世界上最大规模、最强大的公开可用基础模型”。ⁱⁱ最初的 ChatGPT 模型 GPT-3.5 有 1,750 亿个参数。值得注意的是，包括 OpenAI、Anthropic 和 Google 在内的大多数主要开发者都不会披露其专有模型的参数量。

参数量越大，模型的知识“容量”和复杂性就越高。更多的参数意味着调整模型的方法更多，这意味着更强的适应训练数据细节的能力。但是增加模型的参数量也会增加计算要求，从而使其速度更慢、成本更高。

那么 DeepSeek-V3（以及 DeepSeek-R1）是如何做到又快速又便宜的呢？答案主要在于混合专家架构以及 DeepSeek 如何对其进行修改。

什么是混合专家 (MoE) 模型？

混合专家 (MoE) 架构将神经网络各层划分为单独的子网络（或专家网络），并添加一个将词元路由到选定“专家”的门控网络。在训练过程中，每个“专家”最终会变为专门处理一种特定类型的词元（例如，一个专家可能学习专注于标点符号，而另一个专家则处理介词），并且门控网络学会了将每个词元路由给最合适的专家。

MoE 模型不会为每个词元激活模型的所有参数，而是仅激活最适合该词元的“专家”。DeepSeek-V3 的总参数量为 6710 亿，但活跃参数量仅为 370 亿。换句话说，它读取或输出的每个词元时仅使用 6710 亿个参数中的 370 亿个。

如果做得好，这种 MoE 方法可以平衡其总参数量的容量与活动参数量的效率。从广义上讲，这解释了 DeepSeek-V3 如何同时提供大型模型的能力和较小模型的速度。

当 Mistral AI 于 2023 年底发布 Mixtral 8x7B 时，MoE 引起了广泛关注，而有传言称 GPT-4 就使用了 MoE。尽管一些模型提供商，尤其是 IBM^® Granite、Databricks、Mistral 和 DeepSeek，自那时以来一直在开发 MoE 模型，但许多提供商仍然专注于传统的“密集”模型。

那么，如果 MoE 如此出色，为什么没有被更普遍地采用呢？有两种简单的解释：

由于 MoE 更加复杂，因此它们的训练和微调也更具挑战性。
虽然 MoE 架构降低了计算成本，但它并不会降低存储成本：尽管不会立即激活每个参数，但仍然需要将所有这些参数存储在内存中，以便为给定词元激活这些参数。因此，MoE 所需的 RAM 与相同大小的密集模型一样多，这仍然是一个主要瓶颈。

DeepSeek 的 MoE 有何独特之处？

DeepSeek-V3 对 MoE 基本架构进行了许多巧妙的工程修改，提高了稳定性，同时减少了内存使用量，进而降低了计算需求。其中一些修改是于 2024 年 5 月在其前身 DeepSeek-v2 中引入的。以下是 3 项值得注意的创新：

多头潜注意力 (MLA)

支持 LLM 的注意力机制需要执行大量矩阵乘法（在图表中通常缩写为“matmul”）来计算每个词元与其他词元的关系。在信息从输入到最终输出的过程中，所有这些中间计算都必须存储在内存中。

多头潜注意力 (MLA) 最早在 DeepSeek-V2 中引入，将每个矩阵“分解”为 2 个较小的矩阵。这使乘法的数量增加了一倍，但大大减少了需要存储在内存中的所有内容的大小。换句话说，它降低了内存成本（同时增加了计算成本），这对 MoE 来说非常有用，因为它们具有较低的计算成本（但内存成本较高）。

使用 FP8（浮点 8 位数）进行训练

简而言之：DeepSeek-V3 中每个参数具体值的小数点位数比通常的更少。这会降低精度，但会提高速度并进一步减少内存使用量。通常，模型以更高的精度（通常是 16 位或 32 位）进行训练，然后量化压缩到 FP8。

多词元预测 (MTP)

多词元预测听起来就是：模型不是每次只预测一个词元，而是先预测接下来的一些词元，这说起来容易做起来难。

DeepSeek-R1 的构建成本仅为 550 万美元吗？

不。从技术上讲，DeepSeek 在 DeepSeek-V3 预训练的最终轮次中据报道花费了约 557.6 万美元。然而，这个数字被严重地断章取义了。

DeepSeek 尚未公布为构建 DeepSeek-R1 所花费的数据和计算费用。广泛报道的“600 万美元”数字是专门针对 DeepSeek-V3 的。

此外，仅引用预训练的最终轮次成本会产生误导。正如 IBM 的 Granite 技术产品管理总监 Kate Soule 在 Mixture of Experts Podcast 的一集中所说的那样：“这就像说如果我要跑一场马拉松，我比赛中要跑的距离只有 26.2 英里。而实际上，你要进行数月的训练、练习，跑上数百或数千英里，直到那一场比赛到来。”

甚至 DeepSeek-V3 论文中也明确表示，557.6 万美元只是基于 NVIDIA H800 GPU 平均租赁价格对最终训练轮次成本的估算值。这不包括先前所有的研究、实验和数据成本，也不包括他们的实际训练基础设施：SemiAnalysis 的一份报告估计，自 2023 年以来，DeepSeek 已在 GPU 上投资超过 5 亿美元，此外还要加上员工工资、设施和其他典型的业务费用。

需要明确的是，对于这种规模和能力的模型，仅花费 557.6 万美元完成一个预训练轮次仍然令人印象深刻。作为对比，同一份 SemiAnalysis 报告指出，Anthropic 的 Claude 3.5 Sonnet，全球最强 LLM（截至 2025 年初）的另一个竞争者，其预训练成本为数千万美元。同样的设计效率还使 DeepSeek-V3 能够以比竞争对手低得多的成本（和延迟）运行。

但是，那种认为范式已经发生了巨大转变，或者西方 AI 开发商无缘无故花费了数十亿美元，而现在只需低至 7 位数的总成本就能开发出新的前沿模型的观点是错误的。

DeepSeek-R1-distill 模型

DeepSeek-R1 给人留下了深刻的印象，但它毕竟只是 DeepSeek-v3 的一个版本，后者是一个巨大的模型。尽管效率很高，但对于许多用例，它仍然太大且占用大量内存。

DeepSeek 没有开发较小版本的 DeepSeek-V3 然后对这些模型进行微调，而是采用了更直接和可复制的方法：对 Qwen 和 Llama 模型系列中的较小开源模型使用知识蒸馏，使它们的行为类似 DeepSeek-R1。他们将这些模型命名为“DeepSeek-R1-Distill”。

从本质上讲，知识蒸馏是模型压缩的一种抽象形式。知识蒸馏不是直接使用训练数据训练模型，而是训练“学生模型”模拟更大的“教师模型”处理训练数据的方式。学生模型的参数经过调整后，不仅能产生与教师模型相同的最终输出结果，还能产生与教师模型相同的思维过程，包括中间计算、预测或思维链步骤。

尽管名称如此，但“DeepSeek-R1-Distill”模型实际上并不是 DeepSeek-R1。它们是经过微调后，行为类似 DeepSeek-R1 的 Llama 和 Qwen 模型的特殊版本。虽然多种 R1-distill 模型的尺寸令人印象深刻，但它们无法与“真正的”DeepSeek-R1 相提并论。

因此，如果某个平台声称提供或使用“R1”，最好先确认他们说的是哪种“R1”。

关于 DeepSeek 的误导性报道

在无与伦比的公众兴趣和不熟悉的技术细节之间，围绕 DeepSeek 及其模型的炒作有时会导致对一些基本事实的重大误报。

例如，2 月初出现了大量关于加州大学伯克利分校的团队如何仅花费 30 美元就“重新创建”或“复制”了DeepSeek-R1 的报道。^{iii iv v}这个标题非常引人注目，如果这是真的，那么将带来令人难以置信的影响，但它在多个方面都是根本不准确的：

Berkeley 团队没有重新创建 R1 的微调技术。他们根据 DeepSeek 技术论文中的指南复制了 R1-Zero 的仅 RL 微调技术。
伯克利团队并没有对 DeepSeek-V3（作为 DeepSeek-R1 和 DeepSeek-R1-Zero 的骨干的 671B 参数模型）进行微调。相反，他们对小型开源 Qwen2.5 模型进行了微调（并在 1.5B、3B 和 7B 版本上取得了成功）。很自然地，微调 1.5B 参数的模型比微调 671B 参数的模型要便宜得多，因为前者的规模实际上仅为后者的数百分之一。
他们只测试了以 R1-Zero 为灵感的微型模型在一项特定数学任务中的性能。正如工程师 Jiaya Pan 澄清的那样，他们的实验并未涉及代码或一般推理。

简而言之，加州大学伯克利分校的团队没有以 30 美元的价格重新创建 DeepSeek-R1。他们只是表明，DeepSeek 的实验性、仅强化学习的微调方法 R1-Zero 可用于教授小型模型解决复杂的数学问题。他们的工作有趣、令人印象深刻，而且非常重要。但是，如果不对 DeepSeek 的模型产品有相当详细的了解（许多忙碌的读者（和作者）没有时间了解），很容易产生错误的想法。

DeepSeek 之后：开源大模型的未来

随着开发人员和分析师花更多时间研究这些模型，热潮可能会稍微平息下来。就像单靠智商测试不足以雇用员工一样，原始的基准测试结果也不足以确定任何模型是否最适合您的特定用例。模型和人一样，有无形的优势和劣势，需要时间来理解。

这些 DeepSeek 新模型在正式环境中的长期有效性和实用性需要一段时间才能确定。正如 WIRED 在 1 月份报道的那样，DeepSeek-R1 在安全和越狱测试中表现不佳。可能需要在解决这些问题后，才能使 R1 或 V3 适合大多数企业使用。

同时，新模型将问世，并继续推动技术发展。考虑到作为与 DeepSeek 模型对比的领先闭源模型，GPT-4o 和 Claude 3.5 Sonnet 于去年夏天首次发布：用生成式 AI 的术语来说，那已经是上辈子的事了。R1 发布后，阿里巴巴宣布即将发布他们自己的大规模开源 MoE 模型 Qwen2.5-Max，声称该模型在各方面都胜过 DeepSeek-V3。^vi 更多提供商可能会效仿。

最重要的是，行业和开源社区将尝试 DeepSeek 提出的令人兴奋的新想法，并针对新模型和技术予以整合或调整。开源创新的美妙之处在于，进步可以惠及所有人。

AI 学院