本文作者:访客

商汤在下一盘具身智能的大棋

访客 2025-07-23 16:40:54 43976
商汤在下一盘具身智能的大棋摘要: 面对产业转折点,商汤将发布具身智能“大脑”计划。文|赵艳秋 周路平2025世界人工智能大会(WAIC2025)将在本...

面对产业转折点,商汤将发布具身智能“大脑”计划。

商汤在下一盘具身智能的大棋

文|赵艳秋 周路平

2025世界人工智能大会(WAIC2025)将在本周末火爆开场。近日,商汤科技提前释放出重要消息:将在大会上揭晓一款全新的具身智能“大脑”。

据商汤官方公众号预告,7月27日的WAIC2025大模型论坛中,商汤将揭晓这款集成了感知能力、视觉导航、多模态交互的智能“大脑”系统,为机器人、智能设备等智能终端提供赋能。

实际上,商汤入局具身智能“大脑”赛场,业界并未感到意外。具身智能的研究与产业落地,主要由两路人马推进:一路是计算机视觉领域的研究和从业者,如李飞飞;另一路是机器人领域的从业者。而商汤起家于计算机视觉,如今加码具身智能,不仅在情理之中,甚至可以说,这是它必然要落子的一步。

01

布局具身智能“大脑”

具身智能“大脑”已成为全球人工智能的核心竞争点。OpenAI与机器人公司Figure AI联手打造通用机器人,谷歌推出具身智能RT-2模型,英伟达聚焦世界模型和仿真。国内如华为也在今年6月刚发布包含“大脑”的CloudRobo具身智能平台。商汤则是最早一批入局者,在不断演化其技术路径。

为何全球科技企业对这一赛道高度重视?实际上,本轮具身智能热潮,本质上就是大模型与机器人技术的深度融合带来的。在“前大模型时代”,机器人是“只会一种技能的工人”——送餐的不会打螺丝,打螺丝的不会倒咖啡。本体泛化、任务泛化和场景泛化,成为具身智能三大瓶颈。

转折发生在2022年。随着ChatGPT等大模型的崛起,人工智能具备了自然语言理解、内容生成和深度推理能力,业界开始设想,能否让机器人拥有一个“更聪明的大脑”?这样,它就能打破本体限制,完成更复杂、更灵活的任务。

这便是具身智能“大脑”的重要意义。不过,目前该领域仍处在探索阶段,技术路线还未“收敛”。一些业内人士提出,当前主要有三种:

VLA 模型(Vision-Language-Action):输入语言+图像,输出动作。优势是结构简洁,但在物理属性识别、利用物理规律与足够的控制轨迹上存在不足。

“大小脑”架构:将“规划”与“执行”分工,提高系统的模块化和解释性,但仍面临泛化挑战。

世界模型:对比前两者,雄心则更大,对环境状态、物理规律、时序逻辑等进行建模,强调多模态信息融合和推理能力,目标是让智能体理解世界、预测变化、规划行为。

从商汤目前披露的信息看,虽然未明确押注某一技术路线,但其分阶段演进的方式,指向了对“世界模型”能力的持续积累。

在过去几年,商汤在具身智能“大脑”上的探索和布局似乎可分为四个阶段:

第一步:从“看”到“动”,构建视觉-感知-决策闭环。

2022年8月,商汤推出家用机器人“元萝卜”,首次将视觉算法与机械手深度结合,完成棋子识别与遮挡环境下的精准抓取。这标志着商汤初步建立了“视觉-感知-决策”的闭环,机器人开始具备与物理世界互动的基础框架。

传统人工智能是“开环”的,坐在云端“思考”、“看见”世界。但一旦涉及操作,就要形成一个复杂的闭环——感知必须转化为“理解”,并进一步驱动动作执行。这是具身智能的出发点。

第二步:“日日新V5.5 - V6”发布,多模态融合与推理能力迈向认知中枢。

2025年4月,商汤推出“日日新V6”多模态大模型,核心突破在于模态融合,支持长思维链、多模态推理与规划能力,尝试解决长期困扰具身智能的难题——稍微复杂、步骤多、时间跨度长,传统系统就“断链”。就像是机器人的“大脑皮层”,从“接收信号”跃升到“理解意图”。

极为重要的是,它已被傅利叶、归墟等机器人公司接入合作,意味着商汤具备了平台级技术输出能力,从研发走向产业赋能,进入战略跃迁阶段。

这一系列能力的进化并非一蹴而就。早在2024年7月商汤发布的“日日新V5.5”,是这一融合路线的重要中继站:基于6000亿参数模型性能升级,广泛引入合成高阶思维链数据,在数理逻辑、指令跟随等方面表现突出,并首次推出原生流式多模态交互体验模型“日日新5o”,推动AI从“响应输入”走向“理解场景”。

此外,“日日新5.5 Lite”等端侧模型也大幅提升效率与普及能力,拉近大模型与用户之间的距离。

2024年底,商汤更是率先推出“日日新融合大模型”,领先实现原生融合模态训练,成功打破语言模型与多模态模型各自为政的局限。该模型在SuperCLUE和OpenCompass两大权威榜单中同时夺冠,成为“双冠王”,意味着商汤首次在深度推理与多模态融合领域实现“模型一统”的实质性突破,这一系列创新,为V6的能力跃升创造了条件。

第三步:“大脑”平台化,走向世界模型。

接下来,商汤即将发布具身智能“大脑平台”,标志着其从单点能力向系统能力的整合与跃升。

而且,商汤在智驾领域布局积累很早。世界模型是其重点突破方向。商汤智驾品牌“绝影”构建的“开悟”,已经能理解物理规律、学习交通规则,在实际场景中落地。

而车和机器人,本质上都是具身智能体。具备感知、导航、交互等能力,是它们的共同诉求。商汤或将自动驾驶中构建的“世界模型”经验迁移到机器人领域,推动具身智能大脑的的进一步演进。

这次产品发布,标志着商汤具身智能战略,进入“平台化”的新阶段,并走向产业输出。背后是商汤长期的技术预埋与战略耐心。

02

商汤的准备

除了具身智能的大脑,商汤通过WAIC 2025释放了另外一个明确信号:具身智能是“算力密度×数据密度×生态密度”的竞争。

这几年,算力需求井喷,算力的密度很大程度上决定了模型演进和应用落地的速度,尤其是具身智能需要实现对物理世界的感知和理解,涉及多种模态,对算力的消耗有增无减。

有数据统计,具身智能场景的算力消耗占比已从2023年的12%跃升至28%。而英伟达的芯片在今年一季度的销售额,有30%流向具身智能设备。

过去多年,商汤在算力上的投资巨大。早在2018年,商汤就打造了国内首个AI千卡集群原型机。两年后,又建立了国内首个智算中心。到2024年底,商汤大装置的算力规模达到23000PetaFlops,超过了一些主要大城市的公共智能算力。今年4月,商汤又发布了商汤大装置SenseCore 2.0,朝着“最懂大模型的AI基础设施”发力。

商汤做大装置,其初心是提高AI模型的生产效率和降低使用成本。但大装置+大模型的结合,让商汤在算力层面的能力得到了大幅提升。比如商汤对模型推理过程,做预填充和解码的分离,提升GPU硬件利用率并降低推理延迟。

商汤大装置已帮商汤拿下了不少智算和大模型订单。比如南方电网基于商汤大装置,实现从模型、平台算法到底层算力的100%国产化,构建了全栈国产电力AI基础设施。而一家基建行业头部设计院依托商汤大装置的国产芯片及底座平台,开发了工程勘察设计领域大语言模型、多模态大模型,解决了知识传承困难、融合性差和应用程度低等难题。

IDC的报告显示,商汤大装置在2024年下半年稳居国内AI大模型解决方案市场第二位。

如今,商汤已经成长为“大装置-大模型-应用”三位一体的AI厂商。

除了算力,高质量数据是具身智能发展的一大卡点。尽管大脑架构和技术路线正在快速演化,但所有路线最终都绕不开一个共识:数据,是具身智能最难啃的那块骨头。

而且有业内人士提出,具身智能和大模型一样,同样存在Scaling Law。在他们的试验中,每多采10倍数据,机器人错误率就会降低大约10倍。如果想从99%的成功率提高到99.9%,意味着要多采10倍数据,但成本也呈指数级上升。

目前,具身智能的高质量数据来自于线下采集的真实数据、仿真合成数据以及互联网数据。但两者各有优劣。比如特斯拉和Google都选择用摇操获取数据,但背后的成本投入巨大。据悉,Google 做十几万条数据,用时十多个月,花了上千万美元。

在业内看来,更加现实的做法是,利用互联网视频数据、合成数据,直接做到几个9,再用真实数据进行强化学习。

人类80%以上的信息获取来自视觉,商汤是以机器视觉起家,在视觉信息的处理上,有着一系列经验技术。

同时,商汤也在推动融合模态的数据合成与融合任务的增强训练。比如在预训练阶段,商汤不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据。在后训练阶段,商汤构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。

另外,除了算力、数据、模型等底层能力的积累,商汤在生态方面也在持续投入,通过旗下私募基金国香资本投资了一批具身智能企业,包括银河通用机器人、众擎机器人、钛虎机器人、鹿明机器人等十几家企业。这些企业覆盖了具身智能全产业链,比如众擎机器人主攻本体和运控,钛虎机器人主攻关节模组。

这种生态密度,让商汤比其他大模型厂商更贴近产业需求,了解产业动向。同时这些被投企业又给商汤提供了丰富的落地场景和真实数据,加速产业落地。

不难发现,从算力基础设施,再到数据和生态,商汤在具身智能所需的各环节,也都在悄然押注和投入。

商汤即将推出具身智能“大脑”,恰逢2025年该产业由概念验证走向初步产品化、平台化的关键拐点。大模型与机器人融合,正加速从实验室走向现实世界。头部科技公司和研究机构的布局提速,已经掀起了具身智能的竞争热潮。

与此同时,政策与资本的双重推力也不容小觑:2025年政府工作报告中,具身智能作为新兴产业首次被写入其中。具身智能正在制造、无人零售、接待、健康医疗等产业渗透。仅在今年上半年,具身智能相关领域融资金额已经超过了200亿元,融资事件达130件,远超2024年全年。具身智能的 “黄金时代” 已悄然拉开序幕。

从商汤在具身智能“大脑”的技术布局以及其在算力、数据、生态等关键环节形成闭环能力来看,其在具身智能领域绝非偶然的战略试探,而是其基于技术基因的必然延伸,更有望成为撬动其第二增长曲线的最佳支点。

从一系列信息的分析看,商汤在具身智能领域的动作,既是对自身能力边界的重构,更是对下一代智能形态的提前卡位。当机器人与智能设备真正成为 “有大脑的具身智能体”之后,具身智能,或将成为商汤握住连接未来的关键钥匙。

阅读
分享