推理: 新一轮大模型之战的竞争焦点

2025年3月以来,AI大模型的发布骤然加速。百度、阿里、OpenAI、谷歌、DeepSeek、xAI等为代表的行业领军者纷纷发布重磅更新和全新模型,标志着AI竞争进入了白热化阶段。大模型市场的激烈竞争引发了一个热门话题:开源和闭源之争。
2025-05-08 17:19:25  |   作者:航标  |   来源:IT精选

推理: 新一轮大模型之战的竞争焦点

2025年3月以来,AI大模型的发布骤然加速。百度、阿里、OpenAI、谷歌、DeepSeek、xAI等为代表的行业领军者纷纷发布重磅更新和全新模型,标志着AI竞争进入了白热化阶段。大模型市场的激烈竞争引发了一个热门话题:开源和闭源之争。
2025-05-08 17:19:25
作者:航标
来源:IT精选

2025年3月以来,AI大模型的发布骤然加速。百度、阿里、OpenAI、谷歌、DeepSeek、xAI等为代表的行业领军者纷纷发布重磅更新和全新模型,标志着AI竞争进入了白热化阶段。这场角逐不仅关乎它们各自技术是否领先,更预示着哪种技术将会成为主流。

大模型进入新一轮的竞争周期

4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),共计8个模型版本,分别是2款MoE模型和6款密集模型。

bfd92ee7-b7cc-4cb4-9f29-f5c700b3463b_Top+20++open+source+AI+models+and+tools.jpg

其中,每款模型均在同尺寸开源模型中取得最佳性能:千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能;千问3的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如32B版本的千问3模型可跨级超越Qwen2.5-72B性能。

一天后,DeepSeek 也有重要发布——推出了专门面向数学定理证明的专用模型DeepSeek-Prover-V2。和上一代v1.5相比,Prover-V2的参数规模相较于前一代V1.5版本的7B规模增加了近百倍,这让其在数学测试集上的效率和正确率更高。另外,有报道称,备受期待的DeepSeek R2也可能在今年的5月份发布。

稍早几天的4月25日,百度云刚刚发布了两个重磅模型:文心4.5 Turbo和深度思考模型X1 Turbo,相比前一代,这两款模型性能更强大,同时成本更低。比如,文心4.5 Turbo与前代相比,在多模态理解效果上提升超过 30%,学习效率提高近 2 倍,长文本处理速度提升 2 倍,代码生成效率提高 40%。

实际上,不只是阿里、百度等中国领先的大模型厂商,最近一段时间OpenAI、xAI以及Google等都有重磅发布。

xAI在2月份刚刚发布了Grok-3,第一次引入超级推理模式(Think Mode)和深度搜索模式(DeepSearch),以及提供多模态支持。

OpenAI在4月份发布了o3和o4-mini,o3 被认为是 OpenAI 目前最强大的推理系统。3月25日OpenAI还发布了集成在其旗舰模型GPT-4o中的原生图像生成能力。另外,GPT-5和o3 Pro很快也将上线

Google在3月份推出了Gemini 2.5 Pro,被定义“思维模型”,强调推理思考能力,Google称其为迄今为止最智能的AI模型。

Anthropic 于 2025 年 2 月 25 日推出了 Claude 3.7 Sonnet ,这是全球首个混合推理模型。另外,最近AWS宣布目前亚马逊功能最强大的模型,适用于处理复杂推理任务,并可作为教师模型来蒸馏定制模型。

推理代表生成式AI的未来

如此密集的新模型发布和重大更新,目的都是为了抢夺更多的话语权和市场,也预示着大模型领域的竞争进入高峰期。而透过这些密集的发布,可以发现大家都在发力推理能力上。这不奇怪,有业内专家认为推理将成为大模型的重要技术演进趋势。

一般而言,传统大模型(如ChatGPT)擅长处理需要广泛常识性知识的问题,但仅限于训练数据中的信息,容易产生幻觉。而推理模型会生成一系列中间步骤,将问题拆解为子问题,并通过逻辑推理组合出最终答案,因此在很多问题,特别是复杂问题上,推理系统能提供更好的结果,也更少犯错误。

另外,推理模型展示了思考过程,也更容易被审计。因此,推理模型被一些专家认为代表了生成式AI的未来。

11-os-llm--1-.jpg

推理模型与传统模型的能力不同源于传统LLM 和推理模型采用不同的训练方法。比如传统LLM是无监督的,意味着模型处理大量未标注文本,并从中学习如何根据上下文预测每个单词,在微调阶段可能使用监督学习。而推理模型通常从一开始就采用监督学习,主要方法包括:思维链训练以及强化学习。

OpenAI去年12月发布的首款推理模型 o1让人们感受到了推理模型的魅力,不久前推出的o3 和 o4-mini也属于推理模型。而真正让推理模型出圈的还是DeepSeek R1,作为一款低成本同时性能非常优秀的推理模型,甚至激活了AI一体机市场。

业界知名的推理模型还有谷歌的Gemini 2.5 Pro、xAI的Grok-3和Anthropic的Claude 3.7 Sonnet等。其中,Claude 3.7 Sonnet更是率先实现了混合推理,4月底新发布的千问3的一大亮点也正是混合推理。

所谓混合推理,就是一个模型能同支持两种思考模式:即思考模式和非思考模式(也称快思考和慢思考)。思考模式,就是模型逐步推理,经过深思熟虑后给出最终答案;而非思考模式就是模型提供快速、近乎即时的响应。

这么做的好处是能更好地平衡性能和成本:复杂的问题可以通过扩展推理步骤来解决,但需要更多算力;而简单的问题则可以直接快速作答,无需延迟,只需要较少的算力。比如,Qwen3可以人为设定算力成本,从而决定到底用多少资源来达成任务。

然而,混合推理模型技术难度更高,因为混合推理模型是通过推理和非推理的混合训练做到的,这需要模型学习两种不同的输出分布,远比做单纯的推理模型要难。

除了复杂的推理能力之外,多模态也成为各个大模型竞争的焦点。DeepSeek R1尽管大获成功、广受好评,但其在多模态存在明显不足,而多模态的模型能够同时处理各种类型的数据,能够提供更好的答案。

实际上,多模态的模型也更贴近人类的思维习惯和认知习惯,从而能更全面、更准确地理解和生成与人类世界相关的信息。有消息称,DeepSeek R1的后续版本R2将首次实现文本、图像、视频和代码等的多模态统一处理框架。百度在文心4.5 Turbo和X1 Turbo的发布会上也特别强调了这两个模型的多模态处理能力。

开源大模型强势崛起

大模型市场的激烈竞争还引发了一个热门话题:开源和闭源之争。在DeepSeek R1问世之前,Meta因为Llama而成为开源模型的扛旗者,尽管开源大模型不少,但整体而言,与OpenAI和Anthropic所领导的闭源模型相比有差距,不少人并不看好开源大模型技术路线。而DeepSeek R1问世一下子扭转了这一局势,因为其开源战略收获了商业上的巨大成功,极大地提振了开源模型一方的信心。

虽然今年4月Meta旗下的Llama 4发布后因为效果不佳而遭诸多批评,但大模型阵营仍然保持不断壮大,包括阿里巴巴、字节跳动以及谷歌的Gemma都选择了开源其部分或全部模型。

目前,Meta 的Llama 模型系列的下载量已达到 12 亿次下载,衍生模型数万个,由 Llama 提供支持的 Meta AI 助手已覆盖约 10 亿用户。

“开源的部分价值在于可以进行组合搭配。因此,如果另一个模型(如 DeepSeek)更好,或者 Qwen 更擅长某项工作,那么开发人员就有能力从不同模型中汲取最优秀的智能部分,并生产出所需要的东西。这就是我认为开源在质量上基本上会超越所有闭源(模型)的部分原因。”扎克伯格曾公开表示。

阿里Qwen正在成为开源大模型的另一个领头羊。截至目前,阿里通义已开源了 200 余个模型,全球下载量超 3 亿次,Qwen 衍生模型数超 10 万个。4月份新发布的Qwen3都会开源。

值得一提的是,DeepSeek 开源成功也让OpenAI反思自己的策略。今年 3 月底,OpenAI 宣布计划在今年发布自 GPT-2 以来的首个“开源”语言模型,并希望其在推理能力上超越其他同类开源推理模型。该模型将采用高度宽松的许可协议,几乎不设使用或商业化的限制。

不过,业内专家指出,开源与闭源并是非此即彼,而是可以相互融合、相互补充。例如,一些大公司或研究机构在推出开源大模型的同时,也会提供闭源的定制化服务或解决方案。这种融合模式既能够发挥开源模式的优势,又能够兼顾闭源模式的需求。未来开源与闭源两种模式将长期并存,相互竞争与促进。

小结

当前,大模型仍处于早期,推理模型正逐步成为生成式AI演进的重要方向。随着强化学习、思维链训练等技术的发展,在开源的加持下,推理模型将在医疗、金融、制造、物流等多个关键领域发挥越来越重要的作用。毕竟,大多数AI场景(尤其是生产场景)需要的是能独立思考、解决问题的智能体,而不只是说话流畅的机器人。