商汤配售25亿港元，托举“具身智能平台”的底气何在？

图片来源：视觉中国

7月24日早间，商汤科技发布公告拟配售25亿港元，将用于持续扩大商汤大装置的规模与场景覆盖，支持生成式人工智能的研发，探索人工智能在创新垂直领域的技术融合与实践，包括但不限于具身智能等方面的应用。结合近期有媒体报道称，商汤将成立独立具身智能公司，及蓝鲸新闻获悉，在本周即召开的WAIC 2025年世界人工智能大会上，商汤科技将发布具身智能平台“大脑”。商汤对具身智能领域的系列加码投入引人关注。

这一消息并不令人意外。从下棋机器人到人形交互体，再到多模态大模型，商汤在“让AI走进里世界”这条路上，已经悄然积累多年。之所以在这场行业盛会上发布成果，既是公司多年积累的结果，也是因为具身智能技术的发展已经达到可以落地验证的阶段。

商汤具身智能的技术践行：从“视觉识别”起步，再到“感知—决策”的系统闭环

很多人提到具身智能，第一反应是大语言模型之后的新技术风口。2025年上半年，中国人形机器人行业融资也刷新纪录。

但对商汤来说，它不是风口，而是一条技术路径的自然延伸。这条路径的起点，是商汤创立之初即在计算机视觉识别领域展现出超前的技术能力；中间完成了技术再次跨越，是多模态能力的突破；如今的阶段性成果，则是在视觉、感知、交互、决策等多个能力闭环之后，将其统一汇聚为一个平台式的产品。

商汤为什么能走到这一步？

答案不止是“AI能力强”那么简单，而是长期技术积累、多场景落地经验、算力基础与产业布局的多重结合，构成了其打造具身智能平台的系统性底盘。

最早让公众注意到商汤在具身智能上的尝试，是一款面向家庭的AI下棋机器人“元萝卜”。

这款产品看似轻巧，却暗藏了多项计算机视觉、机械控制与人机交互的集成技术。商汤首次将视觉算法与机械手深度结合，完成棋子识别与遮挡环境下的精准抓取。这标志着商汤初步建立了“视觉-感知-决策”的闭环。它能识别棋盘布局，理解人的动作，并准确地操控机械臂完成落子。机器人开始具备与物理世界互动的基础框架。

可以说，“元萝卜”是一个典型案例：用感知系统让AI看到世界，用决策系统理解信息，这种“视觉-感知—决策”一体化闭环，正是具身智能的基本结构。而“元萝卜”的落地，也说明商汤正在将抽象的算法真正转化为具体的交互能力，让AI变的能看、能思考、能决策。

当时商汤科技董事长兼CEO徐立在发布会中谈到布局机器人的原因：“通过创新和领先的人工智能技术，打造一个能够真正‘思考’和‘行动’的机器人产品，让产业级AI技术走进千家万户，与孩子、长辈进行真实互动。”

机器人和具身的背后，技术之一的“感知”层至关重要，也构成了商汤切入具身智能的有力基石。长期以来，商汤在图像识别、三维重建、人脸检测等方向上构建了完整的视觉技术栈，也服务了大量知名企业客户，有大量的软硬一体的实践经验。这种面向现实场景的工程能力，在后来的机器人项目中转化为精准的目标识别与控制能力。

商汤的具身智能方法论：多模态融合与推理能力迈向认知中枢，AI要真正“像人一样”

商汤在具身智能上的路径更具确定性，也更早跑通了从平台到产品的转化。有了坚实的底层支撑，商汤也在持续推进模型能力的升级。

商汤意识到，AI要真正“像人一样”，不仅要能看、能听、能说、能交互，甚至能在物理空间进行数字世界的交互。这就需要把视觉、语言、语音、动作等多模态的信息融合在一起，并通过一个强大的认知模型进行推理和决策。为此，商汤投入多年研发，构建了自己的大模型体系“日日新SenseNova”，并在2025年发布V6版本。其核心突破在于模态融合与多模态推理和规划能力，通过“长思维链”“全局记忆”等技术机制，拥有了多模态理解、复杂推理与对现实世界的感知表达能力。其为解决长期困扰具身智能的难题奠定了重要的综合技术能力，譬如复杂题、步骤多、时间跨度长等就会宕机。

其中，SenseNova V6 Omni拥有国内最强的多模态交互能力；国内首个支持10分钟中长视频深度解析的大模型，已在具身智能等领域实现多行业、多场景落地。例如，傅利叶人形机器人在引入SenseNova大模型后，拥有了类人的感知表达能力，能进行自然语言互动与任务执行；归墟机器人的“飞燕”则主打情感陪伴与心理健康支持，搭载的是商汤专为交互设计的轻量模型Omni版本。

在这些技术能力和系统性解决方案基础上，商汤又开始推进更具系统性的产业布局，他们投资了银河通用、众擎机器人、钛虎机器人、鹿明机器人等机器人企业，通过“大脑+身体”的组合方式推动产品落地。

在这些合作中可以看到，商汤不仅提供算法模型，更像是在输出一种完整的具身智能解决方案。这种系统性整合能力，恰恰是目前行业中极为稀缺的资源。

业内人士指出，目前国内不少企业虽然在具身智能的单一模块上有所突破，比如有做机械臂的，有做语音交互的，也有做导航算法的，但真正能从“算力-模型-系统集成-终端部署”实现全链条闭环的企业，凤毛麟角。商汤作为一家起家于算法、深耕于平台、扩展至生态的公司，恰恰具备这种从0到1、再从1到10的能力延展。

目前，商汤已经在不同场景中试水落地其多模态交互模型比如智慧座舱、智慧文旅、AI教育、具身机器人交互等等，其涉入场景都强调“真实互动”而非“虚拟体验”。这意味着具身智能在商汤定义中，更多指向的是AI对真实物理世界的可解释性与控制能力，而不仅仅是生成内容或回答问题的能力。

据蓝鲸新闻了解，商汤即将在WAIC发布的具身智能平台，集成了感知能力、视觉导航、多模态交互的智能“大脑”系统，为机器人、智能设备等智能终端提供赋能。它不仅仅是一款平台型产品，更是商汤十余年AI技术路径的一次汇聚与再出发。

如今，全球范围内关于“具身智能”的竞争正在拉开序幕，特斯拉的Optimus、人形机器人Figure等相继亮相。但这些路线大多基于欧美产业链与文化背景，更多聚焦于通用场景、重硬件。而商汤的路线相对内敛，它从一个一个真实可控的落地场景出发，通过技术模块的积累，逐步构建起系统平台，然后再用平台反哺新场景的拓展。它体现出的是一家AI企业的产业现实感、技术耐心和战略稳健。

如果说大模型时代的第一阶段是“AI能说话”，那么具身智能时代的第一阶段就是“AI能动起来”。未来要走得更远，还需要AI能够真正理解人、理解世界，并在这个过程中建立起与环境的有效互动。商汤正在尝试解决的，正是这道比“语言生成”更复杂的系统题。

具身智能的最终图景，或许不在于造出一个能替代人类的机器人，而在于让AI真正成为陪伴人类生产生活“第二智能体”。这是一条更漫长但也更具确定性的道路，已经走了十年的商汤，也将在新技术的变革起点上重新出发。