
2025,国产推理大模型的“五军之战”?

如果AI停留在模型层,那它只是一个工具,只有在AI真正落地,在不同场景的行业生根发芽,具备特定行业特定问题的解决方案,且国产自主可控,整个中国的AI行业才有继续向前的动力。
自年初DeepSeek横空出世,无论是国外的OpenAI,国内的新锐“六小虎”到老牌大厂,都在加速布局推理大模型的研发与应用。
无论是今年“新上牌桌”的DeepSeek,后来居上的字节豆包,还是国产路线自主可控的科大讯飞,专利数量一骑绝尘的阿里通义,加上拥有国内最大潜在用户群体,摸着DeepSeek过河的腾讯混元,一个季度过去,各家纷纷迭代了最新的推理大模型。起码在国产推理大模型领域,已经形成了“五军之战”的竞争态势。
相较传统的基础大模型,推理大模型通过海量多模态数据的强化训练,不仅显著提升了跨领域知识迁移能力,更在复杂场景下的逻辑推理和问题解决层面取得突破。
其技术升级方向,已从单纯的语言处理转向STEM领域的深度渗透——在科研数据处理、工程设计优化、数学建模等专业场景中,推理模型正在不断替代传统分析工具,甚至在医疗诊断、金融风控等垂直领域中,不断展现令人惊艳的潜力。
依托各自的优势领域,各家也正在重构属于自己的AI技术生态:以DeepSeek为代表的创业公司聚焦STEM领域的垂直突破,通过打造科研辅助平台积累技术势能;老牌巨头如阿里云、腾讯云则依托云计算基础设施,推动推理模型向产业端的规模化落地,科大讯飞则在不断提升模型性能,比肩国际一线水平的同时,寻求底层算力的国产化替代,以求在不断激烈的国内外竞争中,保持产品和技术的自主可控。
对各路大模型厂商而言,推理大模型,无疑是一把通往AI时代的钥匙和机遇。无论是专业工具型应用,还是面向C端消费者的App,科技厂商之间的生态位争夺日趋白热化——他们心中都很明白,谁能跑出AI时代第一个超级应用,谁就能成为AI时代的“超级大厂”。
01 国产推理大模型的“涌现时刻”
在DeepSeek横空出世之前,OpenAI等一众欧美厂商,试图用高成本、高算力、高参数的“三高策略”,成为AI时代的垄断者,进而收割全世界。大大小小的国产厂商,不管技术实力高低,背靠资源多少,只要入局AI大模型,无一例外都要走上这条“力大砖飞”的技术路径。
春节前后推出的DeepSeek,则用更低的效能标准,比肩头部的模型性能告诉行业,训练一个推理大模型“并没有那么贵”。
从整体参数上看,DeepSeek的参数规模,相较主流大模型降低90%,训练成本降低80%,但整体性能,并不比国外一线大模型差;加之开源API免费调用,为推理大模型的发展,提供了一条截然不同的新路径——仅需激活37亿参数,即可部署满血版R1推理模型,推理效率较传统架构提升3倍以上。
有验证过的技术路径在前,国内一线大模型厂商随之迎头追赶,大有后来居上的趋势:
阿里旗下的Qwen团队,于3月推出了开源大语言模型(LLM)QwQ-32B,对标OpenAI的o1-preview。QwQ-32B采用了多阶段强化学习训练方法,在数学问题、编码能力和通用问题解决能力上得到增强。
相比DeepSeek-R1,QwQ-32B的显存需求更小——通常在GPU上需要24GB vRAM,满血版DeepSeek-R1则需要超过1500GB vRAM。
腾讯押注推理大模型的时间相对较晚,但自混元接入DeepSeek之后,追赶速度相较以往快了不少——35天“更新”30次后,混元大模型团队于3月21日推出了自研深度思考模型混元T1正式版。它摒弃了以往的纯Transformer架构,转而将混合Mamba架构应用于推理大模型。
相对于DeepSeek,T1正式版的吐字速度达到了60~80token/s,实际生成速度快于DeepSeek-R1。在体现推理模型基础能力的常见基准测试上,如大语言模型评估增强数据集MMLU-PRO中,混元T1取得87.2分,超越了DeepSeek-R1,落后于o1。
字节方面,于4月发布的最新推理模型Seed-Thinking-v1.5,同样采用DeepSeek-R1的MoE架构,但参数量降低至200B总参数和20B激活参数。相比前者671B总参数和37B激活参数,轻量化的趋势更为明显。
在多项性能自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。执行GPQA任务时,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。
科大讯飞方面,则是在4月21日官宣了旗下深度推理大模型——星火X1的升级。相较其他国内厂商,升级版星火X1首创了“直觉快思考”与“深度慢思考”双模式融合架构。
具体而言,快思考模式支持实时翻译、百科问答等低延迟任务;慢思考模式则通过多步骤逻辑链拆解复杂问题(如数学证明、法律条文解析),模拟人类专家的推理过程。
针对更复杂场景的数据稀缺问题,升级版X1则提出了基于问题难度的分阶段训练框架。通过动态调整强化学习更新速度,显著提升长思维链(如50步推理)的稳定性和准确性,在数学竞赛题(如AIME、MATH 500)上的准确率较前代提升12%。
从参数规模而言,星火X1的模型参数规模较业界同类模型有所缩减,但在整体性能上,已经能够与OpenAI的o1模型及DeepSeek的R1模型相抗衡。
02 全国产算力,为什么是趋势
整体来看,DeepSeek的轻量化技术路径,很大程度上改写了推理大模型的进化规则。各家厂商技术路径虽有些许差异,参数规模的“轻量化”和企业级应用的提速确是实实在在。
但对各家厂商而言,推理大模型的推出只是产业端应用的第一步。随着推理大模型领域愈发激烈的全球化竞争,各家厂商势必要依据自身的行业生态,进行相关的产业化布局。
譬如,腾讯依托自身的C端用户优势,率先在C端发力。AppGrowing数据显示,截至2月27日,腾讯元宝在27天里投放共花了2.81亿元。对应的C端用户数量则不断上升——到3月3日为止,元宝在苹果应用商店的下载量甚至超过DeepSeek,到达榜首。
在“见真章”的B端,腾讯经过C端用户的迭代反馈,推出了混合专家模型MoE架构,并通过腾讯混元+开源模型的多模型解决方案,开始在政务、零售、金融、工业等30多个行业落地。这对于底层架构和算力支持,无疑提出了更高的要求。
更兼愈发激烈的中美科技博弈,使得基于先进算力的推理大模型,面临迫在眉睫的制裁风险。4月16日,美国政府突然宣布,对英伟达H20芯片实施“无限期出口许可限制”。
这意味着,从算力层面开始的国产替代,将不再是一种战略选择,而成为一种生存刚需。
在此背景下,科大讯飞的模型训练和模型推理,选择使用全国产算力平台,无疑具有行业示范效应。
早在两年前,科大讯飞即与华为合作,建设了首个万卡国产算力平台“飞星一号”,最高能支持万亿参数大模型训练。科大讯飞董事长刘庆峰在今年年初透露,“飞星二号”将在2025年交付使用首批算力。
今年3月,讯飞与华为昇腾团队,实现在国产算力集群上,MoE模型的大规模跨节点专家并行集群推理,这也是业界首个基于国产算力的全新解决方案。一个月后,MoE模型的集群推理性能实现翻番。同时,华为昇腾910B的推理效率,相对A100,也从原先的从55%提升到85%。
就产品意义而言,基于全国产算力升级后的星火X1,在知识问答、数学能力等通用任务上效果显著提升,不仅是70B参数大模型中最好的深度推理模型,而且在参数量小于业界同类模型的情况下,获得了比肩国际顶尖模型水平的效果。
全国产的行业意义远不止于此。讯飞星火X1根植于完全自主可控的大模型底座,在模型迭代时,可以实现更加灵活的参数规模调整,和更深的训练优化。行业大模型的效果相比通用款,提升约在10%左右;叠加具体场景调优,效果可进一步提升10%到20%。
成本方面,星火X1通过“快思考、慢思考统一模型”,也显著降低了硬件资源需求。以国产昇腾910B为参考系,星火X1做行业落地定制(SFT和强化学习)需要16张卡,满血版 DeepSeek需要256张卡,硬件投入约为后者的 1/16。
推理方面,星火X1模型仅需4张华为910B算力卡即可完成私有化部署,对比DeepSeek满血版R1模型,在性能类似的情况下硬件投入只需要 1/8。
更少的算力需求,不输友商的模型效果,这无疑从战略层面,论证了基于国产算力训练的全栈自主可控的大模型,具备登顶业界最高水平的可行性和创新的可持续性。
03 走入中国AI的下一个十年
一如科大讯飞董事长刘庆峰所言,“今天是一个通用模型和专用模型相结合——‘通专结合’,端测模型和云端模型相结合,软件和硬件相结合的、全新的大模型落地时代。”
如果AI停留在模型层,那它只是一个工具,只有在AI真正落地,在不同场景的行业生根发芽,具备特定行业特定问题的解决方案,且国产自主可控,整个中国的AI行业才有继续向前的动力。
若将视角投向产业应用端,我们大可发现,推理大模型的国内外竞争,本质上仍然是中国AI产业从技术跟跑到生态领跑的战略转型。
站在2025年回望,这场始于模型性能追逐的“五军之战”,到产业端落地的不断深入,终将成为产业生态的全面融合。谁先将推理能力转化为行业生产力,谁就能在AI产业竞赛中穿越周期,引领变革。