157,671
图片来源:视觉中国
7月24日早间,商汤科技发布公告拟配售25亿港元,将用于持续扩大商汤大装置的规模与场景覆盖,支持生成式人工智能的研发,探索人工智能在创新垂直领域的技术融合与实践,包括但不限于具身智能等方面的应用。结合近期有媒体报道称,商汤将成立独立具身智能公司,及蓝鲸新闻获悉,在本周即召开的WAIC 2025年世界人工智能大会上,商汤科技将发布具身智能平台“大脑”。商汤对具身智能领域的系列加码投入引人关注。
这一消息并不令人意外。从下棋机器人到人形交互体,再到多模态大模型,商汤在“让AI走进里世界”这条路上,已经悄然积累多年。之所以在这场行业盛会上发布成果,既是公司多年积累的结果,也是因为具身智能技术的发展已经达到可以落地验证的阶段。
商汤具身智能的技术践行:从“视觉识别”起步,再到“感知—决策”的系统闭环
很多人提到具身智能,第一反应是大语言模型之后的新技术风口。2025年上半年,中国人形机器人行业融资也刷新纪录。
但对商汤来说,它不是风口,而是一条技术路径的自然延伸。这条路径的起点,是商汤创立之初即在计算机视觉识别领域展现出超前的技术能力;中间完成了技术再次跨越,是多模态能力的突破;如今的阶段性成果,则是在视觉、感知、交互、决策等多个能力闭环之后,将其统一汇聚为一个平台式的产品。
商汤为什么能走到这一步?
答案不止是“AI能力强”那么简单,而是长期技术积累、多场景落地经验、算力基础与产业布局的多重结合,构成了其打造具身智能平台的系统性底盘。
最早让公众注意到商汤在具身智能上的尝试,是一款面向家庭的AI下棋机器人“元萝卜”。

这款产品看似轻巧,却暗藏了多项计算机视觉、机械控制与人机交互的集成技术。商汤首次将视觉算法与机械手深度结合,完成棋子识别与遮挡环境下的精准抓取。这标志着商汤初步建立了“视觉-感知-决策”的闭环。它能识别棋盘布局,理解人的动作,并准确地操控机械臂完成落子。机器人开始具备与物理世界互动的基础框架。
可以说,“元萝卜”是一个典型案例:用感知系统让AI看到世界,用决策系统理解信息,这种“视觉-感知—决策”一体化闭环,正是具身智能的基本结构。而“元萝卜”的落地,也说明商汤正在将抽象的算法真正转化为具体的交互能力,让AI变的能看、能思考、能决策。
当时商汤科技董事长兼CEO徐立在发布会中谈到布局机器人的原因:“通过创新和领先的人工智能技术,打造一个能够真正‘思考’和‘行动’的机器人产品,让产业级AI技术走进千家万户,与孩子、长辈进行真实互动。”
机器人和具身的背后,技术之一的“感知”层至关重要,也构成了商汤切入具身智能的有力基石。长期以来,商汤在图像识别、三维重建、人脸检测等方向上构建了完整的视觉技术栈,也服务了大量知名企业客户,有大量的软硬一体的实践经验。这种面向现实场景的工程能力,在后来的机器人项目中转化为精准的目标识别与控制能力。
商汤的具身智能方法论:多模态融合与推理能力迈向认知中枢,AI要真正“像人一样”
商汤在具身智能上的路径更具确定性,也更早跑通了从平台到产品的转化。有了坚实的底层支撑,商汤也在持续推进模型能力的升级。
商汤意识到,AI要真正“像人一样”,不仅要能看、能听、能说、能交互,甚至能在物理空间进行数字世界的交互。这就需要把视觉、语言、语音、动作等多模态的信息融合在一起,并通过一个强大的认知模型进行推理和决策。为此,商汤投入多年研发,构建了自己的大模型体系“日日新SenseNova”,并在2025年发布V6版本。其核心突破在于模态融合与多模态推理和规划能力,通过“长思维链”“全局记忆”等技术机制,拥有了多模态理解、复杂推理与对现实世界的感知表达能力。其为解决长期困扰具身智能的难题奠定了重要的综合技术能力,譬如复杂题、步骤多、时间跨度长等就会宕机。
其中,SenseNova V6 Omni拥有国内最强的多模态交互能力;国内首个支持10分钟中长视频深度解析的大模型,已在具身智能等领域实现多行业、多场景落地。例如,傅利叶人形机器人在引入SenseNova大模型后,拥有了类人的感知表达能力,能进行自然语言互动与任务执行;归墟机器人的“飞燕”则主打情感陪伴与心理健康支持,搭载的是商汤专为交互设计的轻量模型Omni版本。
在这些技术能力和系统性解决方案基础上,商汤又开始推进更具系统性的产业布局,他们投资了银河通用、众擎机器人、钛虎机器人、鹿明机器人等机器人企业,通过“大脑+身体”的组合方式推动产品落地。
在这些合作中可以看到,商汤不仅提供算法模型,更像是在输出一种完整的具身智能解决方案。这种系统性整合能力,恰恰是目前行业中极为稀缺的资源。
业内人士指出,目前国内不少企业虽然在具身智能的单一模块上有所突破,比如有做机械臂的,有做语音交互的,也有做导航算法的,但真正能从“算力-模型-系统集成-终端部署”实现全链条闭环的企业,凤毛麟角。商汤作为一家起家于算法、深耕于平台、扩展至生态的公司,恰恰具备这种从0到1、再从1到10的能力延展。
目前,商汤已经在不同场景中试水落地其多模态交互模型比如智慧座舱、智慧文旅、AI教育、具身机器人交互等等,其涉入场景都强调“真实互动”而非“虚拟体验”。这意味着具身智能在商汤定义中,更多指向的是AI对真实物理世界的可解释性与控制能力,而不仅仅是生成内容或回答问题的能力。
据蓝鲸新闻了解,商汤即将在WAIC发布的具身智能平台,集成了感知能力、视觉导航、多模态交互的智能“大脑”系统,为机器人、智能设备等智能终端提供赋能。它不仅仅是一款平台型产品,更是商汤十余年AI技术路径的一次汇聚与再出发。
如今,全球范围内关于“具身智能”的竞争正在拉开序幕,特斯拉的Optimus、人形机器人Figure等相继亮相。但这些路线大多基于欧美产业链与文化背景,更多聚焦于通用场景、重硬件。而商汤的路线相对内敛,它从一个一个真实可控的落地场景出发,通过技术模块的积累,逐步构建起系统平台,然后再用平台反哺新场景的拓展。它体现出的是一家AI企业的产业现实感、技术耐心和战略稳健。
如果说大模型时代的第一阶段是“AI能说话”,那么具身智能时代的第一阶段就是“AI能动起来”。未来要走得更远,还需要AI能够真正理解人、理解世界,并在这个过程中建立起与环境的有效互动。商汤正在尝试解决的,正是这道比“语言生成”更复杂的系统题。
具身智能的最终图景,或许不在于造出一个能替代人类的机器人,而在于让AI真正成为陪伴人类生产生活“第二智能体”。这是一条更漫长但也更具确定性的道路,已经走了十年的商汤,也将在新技术的变革起点上重新出发。