2025 年的 AI 趋势:回顾与展望

一位戴着眼镜、沉思中的老人将未来主义城市景观与数字数据可视化效果融为一体

作者

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

值此 2025 年行至年中之际,我们可以回顾本年度迄今主导的人工智能趋势,并展望未来半年可能出现的进展。

鉴于 AI 发展的广度和深度,任何关于 AI 趋势的总结都不可能做到详尽无遗。这篇文章也不例外。我们将范围缩小到一个包括 10 项内容的清单:5 项发展推动了今年上半年的发展,另外 5 项发展我们预计在未来几个月内将发挥重要作用。

到目前为止我们所看到的:
  • 大幅降低推理成本
  • 更合理的推理模型
  • 数字资源日益枯竭
  • 混合专家 (MoE) 模型回归
  • AI 行动落后于 AI 宏大愿景
接下来我们将了解:
  • 基准饱和与多样化
  • 超越转换器模型
  • 具身人工智能、机器人技术与世界模型
  • 隐私与个性化
  • AI 同事和情感后果

AI 的发展趋势不仅来自 AI 模型与算法本身的进步,更源于生成式 AI 能力所应用的、不断扩展的用例范围。随着模型变得能力更强、用途更广、效率更高,它们所赋能的 AI 应用程序、工具及其他 AI 驱动的工作流也同步发展。因此,要真正理解当今 AI 生态系统的演进,需结合背景理解机器学习突破的因果关联。

本文主要探讨其现实影响可能在数月内显现的持续趋势:换言之,即主要在 2025 年期间产生切实影响的趋势。当然,也存在其他更具长期性和广为人知的 AI 计划。例如,尽管近期在个别区域出现了全自动驾驶汽车的进展——美国少数城市启动了机器人出租车试点,并在奥斯陆、日内瓦及中国 16 个城市开展了海外试验——但它们真正普及可能仍需数年时间。

AI 领域的许多其他重要宏观趋势,如 AI 智能体的出现,或 AI 对搜索行为和 SEO 的破坏,都是广泛的、多方面的,在其他地方已经有了很好的报道,而关注那些尚未受到媒体广泛关注的更有针对性的发展。

也就是说,在清单上。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

我们所看到的

进步未必需要持续涌入全新理念。2025 年上半年许多最重要的 AI 趋势,实则反映了行业应用现有理念方式的变化——其中一些务实高效,另一些则效果欠佳。

大幅降低推理成本

当今模型不仅明显优于早期模型,其运行成本也大幅降低。参考 SemiAnalysis 图表:不到两年间,为在 MMLU 基准测试中达到同等性能,处理每个令牌的成本已降至原来的几十分之一。对于持续追踪历代模型性能指标的人来说,这早已不是新闻。然而,纵观全局,这种持续加速的进步势头,比单纯审视当前模型已然令人惊叹的能力,更能充分说明生成式 AI 热潮并非空穴来风。

一项研究估计算法改进的年均速度约为400%:换言之,一年后仅需四分之一算力即可达成今日成果——这还计入计算硬件(参见摩尔定律)或合成训练数据的同步提升。据传拥有约 1.8 万亿参数的初代 GPT-4 1,在代码能力常用测试 HumanEval 中得分为 67%。而两年后发布的 IBM Granite 3.3 2B Instruct 模型,其参数量仅为前者的 1/900,却取得了 80.5% 的成绩。2

这种模型经济的指数级扩张,才是推动 AI 智能体新时代到来的关键。大型语言模型 (LLM) 变得越来越实用,甚至比它们变得更强大的速度还要快,这使得部署复杂的多智能体系统成为可能;在这些系统中,模型骨干可以自主规划、执行和协调复杂的任务,而不会使推理成本飙升。

更合理的推理模型

OpenAI 推出的 o1 模型,为提升模型性能提供了新的途径。该模型在高度专业的数学和编程基准测试上对先前最先进性能的惊人提升,引发了一场所谓的“推理模型”角逐。它们在需要逻辑决策的任务上性能的增强,将在智能体 AI 的发展中发挥重要作用。但正如 AI 领域的常态,近期业界已从最初对原始性能的狂热追逐,转向探寻最具实用价值的落地方案。

推理模型背后的设计理念源于一项研究:该研究表明,扩展推理时计算资源(用于生成输出)对模型性能的提升效果,可与扩展训练时计算资源(用于训练模型)相媲美。这一洞察分析催生了一系列微调技术,旨在激励模型在生成最终输出前产生更长、更复杂的“思维过程”——这类技术被统称为推理扩展

但推理扩展也意味着推理成本和延迟的增加。用户必须为模型在“思考”最终响应时生成的所有词元付费(并等待),而那些思考词元会占用可用的上下文窗口。有些用例可以证明额外的时间和计算是合理的,但也有很多场景表明这是对资源的浪费。然而,在逐个任务、逐个提示的基础上不断地从推理模型切换到“标准”模型是不切实际的。

目前,解决方案是“混合推理模型”。今年二月,IBM Granite 3.2 成为首个提供可开关“思考”模式的大语言模型,允许用户在需要时利用推理能力,不需要时则优先考虑效率。3当月晚些时候,Anthropic 的 Claude 3.7 Sonnet 紧随其后,为 API 用户新增了细粒度控制模型“思考”时长的功能。4Google 也为 Gemini 2.5 Flash 引入了类似的“思考”模块化功能。5阿里巴巴的 Qwen3 则与 IBM Granite 类似,支持开启或关闭思考功能。

持续进行的研究旨在深化我们对推理模型“思考”时实际发生过程的理解,并探究延展的思维链 (CoT) 推理轨迹对结果的实际贡献程度。四月份发布的一篇论文指出,对于某些任务,推理模型无需输出思维过程也能有效工作。与此同时,Anthropic 当月早些时候的研究断言,展示给用户的 CoT 结果可能并未真实反映模型实际的“思考”过程。

数字资源的耗尽

人工智能的发展始终高度依赖利用诸如维基百科和 GitHub 等开源知识库。未来它们的重要性只会与日俱增,尤其是在多家知名 AI 开发商被曝光使用盗版图书种子训练模型之后——此举很可能会阻碍继续使用此类替代来源。对于运营这些宝贵开源资源的组织而言,当前形势已造成严重压力。

尽管一系列诉讼案件已让公众意识到数据采集(无论是合法、非法还是处于灰色地带)对知识产权造成的损害,但人工智能系统对数据的渴求如何伤害知识库本身,却较少受到关注。正如维基媒体基金会在四月份关于爬虫流量的公告中所阐明:“[我们的]内容免费,[但]基础设施并非如此。”维基媒体尤其遭遇了来自为训练生成式 AI 模型而采集数据的数据爬虫的流量冲击,其规模可能已达不可持续的程度。自 2024 年 1 月以来,用于下载维基媒体多媒体内容的带宽使用量已增长了 50%。

流量本身的增长已令人担忧,但更关键的是这些流量的性质,它们对有限的资源施加了不成比例的压力。人类浏览行为是可预测的:我们的流量集中在热门页面并遵循逻辑模式,这使得自动化处理和缓存策略能有效分配带宽。但与人类不同,爬虫会不加区分地抓取不起眼的页面,这常常迫使数据中心直接为其提供服务。这不仅在通常情况下成本高昂且效率低下,而且在基础设施需要响应现实世界实际使用高峰时,可能带来灾难性后果。

正如 Ars Technica 所报道,该问题普遍存在,且许多人认为爬虫及其运营公司存在蓄意的掠夺性行为,加剧了问题。诸如 Perplexity 等多家公司被指控暗中规避 robots.txt 协议,甚至绕过付费墙采集数据。当网站试图限制爬虫访问速率时,爬虫便切换至不同 IP;当其 ID 被直接屏蔽时,它们便改用备用 ID 字符串。一位开源基础设施管理者发现其网络近 25% 的流量来自 ChatGPT 爬虫,他将其描述为“简直是对整个互联网的 DDoS 攻击”。

作为回应,许多项目都在积极采取防御措施。一个开源项目 Anubis 强制机器人在获得访问权限之前解决计算难题。另一个项目 Nepenthes 将 AI 爬虫送入“无限迷宫”。著名的网络基础设施提供商 Cloudflare 最近推出了一项他们称之为“AI 迷宫”的功能,该功能使用了类似(尽管不那么激进)的方法。Wikimedia 正在筹划一项新举措,即 WE5:负责任地使用基础设施,旨在提供结构解决方案。

商业 AI 开发力量与开放知识库能否协作制定出相互适配的协议,其影响将极为深远,不仅关乎 AI 的未来,更关乎互联网自身的未来。

混合专家模型的回归

尽管专家混合模型 (MoE) 的理念可追溯至1991年,但直到 Mistral AI 在 2023 年末发布其 Mixtral 模型,它才真正进入主流 自然语言处理 (NLP) 或生成式 AI 领域。6尽管该模型及其架构引起了广泛关注——甚至有传言 (尽管从未证实)称 OpenAI 的 GPT-4 在发布时就是 MoE 模型——但它很大程度上并未促使行业偏离对传统“稠密” LLM 的关注。

DeepSeek-R1 之后,关注点似乎发生了改变。DeepSeek-R1 及其微调之前的 DeepSeek-V3 基础模型最终证明,MoE 模型完全有能力提供最先进的性能,以补充其已经得到验证的计算效率。

当前新一代模型(包括但不限于 Meta Llama 4、阿里巴巴的 Qwen3 和 IBM Granite 4.0 纷纷采用这一架构,充分印证了对稀疏 MoE 模型兴趣的再度兴起。像 OpenAI、Anthropic 或 Google 等公司的一些领先闭源模型也可能是 MoE 架构,不过这类闭源模型的架构信息极少披露。

未来几年,随着令人印象深刻的容量和性能日益商品化,稀疏模型提供的推理速度和效率可能会成为更高的优先事项。

行动滞后于 AI 的宏大愿景

未来总是难以预测。前几代 AI 模型的迅猛发展曾让许多人预期,将于 2025 年发布的模型将在通向通用人工智能 (AGI) 的道路上迈出实质性步伐。尽管 OpenAI、Meta 及其他资金最雄厚的 AI 领域参与者的最新模型无疑令人印象深刻,但它们远非革命性的突破

在实践落地层面,进展并不均衡。许多曾在 2023 年底对所在机构 AI 应用前景持乐观态度的企业领导者,在 2024 年逐渐意识到其 IT 基础设施尚未做好规模化部署 AI 的准备

AI 分析师们常说的一句话是,AI 将接管琐碎的重复性工作,从而腾出时间让人类专注于大局和创造性思维。但到目前为止,有关 AI 采用的数据并不一定反映现实情况。IBM 商业价值研究院 (IBV) 开展的一项研究发现,事实恰恰相反,至少在零售行业的内容供应链中是如此:88% 的零售商表示使用生成式 AI 进行“创意构思/概念化”,74% 的零售商表示使用生成式 AI 进行“内容创作和编辑”。与此同时,大多数日常工作仍然是人类专属:只有 23% 的零售商使用生成式 AI 按渠道生成内容变体,只有 10% 的零售商将其用于按地理位置生成内容变体。

总体而言,并非机构未积极推动 AI 应用——最新 IBM 商业价值研究院 (IBV) 报告显示它们确实在推进,尤其在 AI 智能体领域——而是进展速度并非简单线性。从实验阶段到正式运营的转型鲜少一帆风顺。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

后续趋势

到 2025 年下半年(一直到次年年初),将会有一些因素对当前的生成式 AI 时代自初期以来的某些现状产生有意义的颠覆。

AI 基准测试将呈现饱和与多元化态势

本质上并不存在完美的 AI 性能基准(或基准组合)。任何基准都受制于古德哈特定律:“当度量成为目标时,它便不再是有效的度量标准”。尽管如此,采用标准化、透明管理的性能度量仍有利于模型开发,也能帮助负责选择具体 AI 解决方案和模型的企业决策者进行同质化比较。

行业最初形成共识的首套“标准”基准,源自 Hugging Face 平台的 Open LLM 排行榜。当其基准趋于饱和(即大多数模型评估得分趋同导致难以区分优劣)后,该排行榜于 2024 年 6 月采用全新且难度显著提升的评估体系。开源与闭源模型再次围绕“V2 版”排行榜的评估基准形成统一测试标准。但至 2025 年 3 月,Hugging Face 彻底终止了 Open LLM 排行榜的运营

排行榜的终止以及对其所倡导一套标准基准的背离,既源于也引发了我们使用模型和评估其性能方式的多样化。

  • 只报告与领域相关的评估,而忽略更广泛的或非领域内的基准,或许对于专门用于特定领域(如编码或数学)的模型最为有益。
  • 多模式 AI 模型展现出的性能必须超越排行榜基准评估的特定于文本的任务。多模态模型开发人员可能会选择报告他们认为最相关或最良好的评估,而不是用数十个数值指标让读者不知所措。
  • 特定的基准数据集已经使用了很长时间,以至于它们的一些任务现在可能会被有意或无意地泄露到模型训练数据集中。这会使评估本身受到损害。
  • 根据人工智能的具体用途,某些基准可能并不重要。例如,对于移动应用程序或简单的 AI 智能体进行了优化的模型,在 GPQA(衡量博士级别知识的基准)上表现不佳可能并不重要。

与定量评估相比,使用更多的定性模型比较方法(例如流行的 Chatbot Arena)已经有一些势头。但这些也是不完美的。最近,多位受人尊敬的学术和开源研究人员发表了一篇论文,指称 Chatbot Arena 的一些做法存在问题,严重偏袒那些最大的模型提供商。该论文发布之前,已有对 Meta 于 Llama 4 发布期间操弄 Chatbot Arena 的指控。

现实情况是,不存在最佳基准。最佳实践可能是组织制定自己的基准,以最好地反映他们所关心的任务的性能。企业不会仅根据智商测试来招聘员工,也不应该只根据标准化测试选择模型。

超越转换器

转换器模型于 2017 年首次推出,在很大程度上引领了生成式 AI 的到来,并且仍然是从图像生成到时间序列模型再到 LLM 等各个领域的支柱。虽然转换器肯定不会很快消失,但也有一些后来者即将出现。

转换器存在一个关键的弱点:其计算复杂度随上下文长度呈平方级增长。换句话说,每当上下文长度翻倍时,自注意力机制消耗的资源并非仅仅翻倍——而是增至四倍。这种“平方级瓶颈”本质上限制了传统 LLM 的速度和效率,尤其在处理较长序列或需要整合扩展对话中早期信息时。对转换器架构的持续优化仍在催生更强大的前沿模型,但其成本正变得极其高昂

Mamba(于 2023 年首次提出)则是一种完全不同的模型架构——具体而言是一种状态空间模型——它有望在 LLM 领域首次对转换器构成有力挑战。该架构已被证明能在大多数语言建模任务中匹敌转换器(仅在少样本提示等上下文学习任务上例外),且其计算需求随上下文长度呈线性增长。简而言之,Mamba 理解上下文的方式本质上更高效:转换器的自注意力机制必须审视每一个令牌并反复决定关注哪些;而 Mamba 的选择性机制仅保留其判定为重要的令牌。

当谈到转换器或 mamba 时,AI 的未来可能不是“非此即彼”的情况:事实上,研究表明,两者的混合比单独使用要好。去年,已经发布了几种 Mamba 或 Mamba /转换器混合模型。大多数模型仅为学术研究,但值得注意的例外包括 Mistral AI 的 Codestral Mamba 和 AI2I 的混合 Jamba 系列。最近,即将推出的 IBM Granite 4.0 系列将使用转换器和 Mamba-2 架构的混合体。

最重要的是,Mamba 及混合模型降低的硬件要求将显著减少硬件成本,进而有助于持续普及人工智能。

具身人工智能与世界模型

多模态 AI 模型的出现标志着 LLM 扩展到文本之外,但 AI 发展的下一个前沿旨在将这些多模态能力带入现实世界。

这一新兴领域主要归属于“具身人工智能”范畴。风险投资公司正日益加大对追求先进、由生成式 AI 驱动的人形机器人初创企业的投入,例如 Skild AI、Physical Intelligence 和 1X Technologies。

另有一系列研究关注“世界模型”,旨在直接、全面地模拟现实世界的互动,而不是通过语言、图像和视频数据等媒介间接、离散地模拟。World Labs 是斯坦福大学李飞飞主导创立的一家初创公司,主要因开发了为现代计算机视觉铺平道路的 ImageNet 数据集而闻名。该公司在去年年底筹集了 2.3 亿美元

该领域的一些实验室正在“虚拟世界”(如电子游戏)中进行实验:例如,Google DeepMind 的 Genie 2 是“一个能够生成无穷无尽、可操控动作、可交互的 3D 环境的基础世界模型”。游戏产业自然可能成为世界模型经济潜力的首个直接受益者。

包括 Meta 首席 AI 科学家、“深度学习三巨头”之一的 Yann LeCun 7在内的许多(但非全部)顶尖 AI 专家认为,通向 AGI 的真正路径是世界模型,而非 LLM。在公开评论中,LeCun 常提及莫拉维克悖论 (Moravec's paradox)——这一反直觉观点认为,在 AI 领域,复杂的推理技能相对容易实现,但儿童能轻易完成的简单感知运动与感知任务却并非如此。8

基于此,一些有趣的研究尝试旨在通过将 AI 具身于机器人中,并以教导婴幼儿的方式教导它,从而让 AI 理解概念而非仅仅是词语

隐私与个性化 AI

AI 智能体的长期愿景在于,它们将利用 AI 自主执行复杂的、特定场景的任务,几乎无需人工干预。为了让 AI 智能体能够根据特定工作场所或情境中错综复杂的实际需求(如同一位称职的员工或助手那样)进行个性化的决策,它需要在实际工作中学习。换句话说 ,它必须完整保留每次 AI 生成交互的详尽历史记录及其结果。

然而,收集并永久保留每一次交互的记忆,可能与人工智能领域的核心数字隐私理念相冲突,尤其是在使用云端部署的闭源模型时(而非本地部署开源模型)。

例如,今年 4 月,OpenAI 宣布 ChatGPT 将自动记住用户与其进行的每一次对话,以推进其开发“伴随用户一生、逐渐了解用户的 AI 系统”的目标。但值得注意的是,该功能并在欧盟、英国、瑞士、挪威、冰岛或列支敦士登推出——这可能是因为它触犯了当地现有的隐私法律和人工智能法规。9

一个模型不仅要保存其与用户的所有个性化交互,还要利用这些交互进行模型的进一步训练和优化——这种做法是否从根本上符合“被遗忘权”等 GDPR 核心原则,仍有待观察。

AI 同事及其情感后果

事实上,AI(尤其是 AI 智能体)的未来将日益个性化,其程度可能使得 AI 的影响超越技术或经济层面,延伸至心理领域。

2024 年底,微软人工智能首席执行官 Mustafa Suleyman 撰写博文,宣称其公司的目标是“为每个人创造一个 AI 伴侣”。Meta 首席执行官 Mark Zuckerberg 在近期的一次播客访谈中,提出用“AI 朋友”来应对该国的“孤独流行病”。10越来越多的初创公司正在推出 AI 同事

这其中潜藏着固有的危险,主要源于人类在历史上就倾向于对早期、功能简陋的聊天机器人产生情感依赖。当数百万人每天与个性化的聊天机器人互动时,对 AI 同事产生情感依赖的风险将变得复杂、影响深远且难以避免。

未来展望

随着我们进入人工智能的关键一年,了解和适应新兴趋势对于最大限度地发挥潜力、最大程度降低风险和负责任地扩大生成式 AI 的采用至关重要。

相关解决方案
IBM® watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解人工智能解决方案
人工智能 (AI) 咨询服务

IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

¹ 《GPT-4架构、数据集、成本等遭泄露》, The Decoder,2023 年 7 月 11 日
²《IBM Granite 3.3 2B 模型卡片》, Hugging Face,2025 年 4 月 16 日
³  《为 Granite 赋予推理能力》, IBM,2025 年 2 月 7 日
⁴ 《Claude 3.7 Sonnet 与 Claude Code》,  Anthropic,2025 年 2 月 24 日
⁵  《Gemini 思考》, Google,2025 年。
⁶ 《自适应局部专家混合》, Neural Computation, 1991 年 3 月 1 日
⁷ 《2018 年图灵奖:计算机界“诺贝尔奖“授予” AI 教父》, The Verge,2019 年 3 月 27 日
⁸ @YLeCun 于 X 平台(原 Twitter),通过 XCancel,2024 年 2 月 20 日
⁹ 《ChatGPT 现可记住您的旧对话》, The Verge,2025 年 4 月 11 日
¹⁰ 《Meta CEO 马克·扎克伯格展望 AI 聊天机器人成为朋友的未来——但并非所有人都信服》, Entrepreneur,2025 年 5 月 8 日