对话大晓机器人董事长王晓刚:不押注VLA,押注世界模型
扫描到手机,新闻随时看
扫一扫,用手机看文章
更加方便分享给朋友
搜狐科技《超级瓦力——对话具身智能50人》栏目第13期,对话大晓机器人CEO王晓刚。

划重点
1. 现有技术路线存在缺陷,包括VLA模型,它不太理解真实的物理世界和物理规律。
2. 很多公司在做本体,但真正缺乏的是理解世界的大脑、能解决实际问题的产品。
3. 明年国内将出现大量即时零售仓储应用场景,这类场景需要7×24小时服务,机器人能够充分发挥优势。
出品|搜狐科技
作者|常博硕
编辑|杨锦
2025年,具身智能无疑是最拥挤也最焦虑的赛道之一。
在这个赛博世界里,人形机器人价格已经被压缩至万元以内,看似繁荣的背后,技术路线的分歧也愈发尖锐。
VLA、端到端、强化学习、世界模型……各种名词被频繁提及,却很少有人真正回答一个问题:机器人究竟该如何真正“理解”这个世界?
就在这个背景下,商汤科技联合创始人王晓刚,选择以一种新的方式,加入竞争。
2025年12月,商汤科技联合创始人、执行董事王晓刚出任大晓机器人董事长。
大晓的切入点显得异常克制:不涌入拥挤的本体赛道,不押注VLA,不追逐短期演示效果,而是将全部筹码,押在一个被反复提及却逐渐成为行业共识的方向上——世界模型。
“VLA是以机器为中心的范式,它并不需要真正理解物理世界。”王晓刚在多次采访中反复强调这一判断。
在他看来,当下主流具身方案的核心问题并不在算力或者参数规模,而是研究范式本身的起点就存在偏差。
过去两年,随着大语言模型和多模态模型的突破,行业普遍期待把“会说话的大脑”直接装进机器人身体里。VLA模型正是这一思路的典型产物。
输入语言、视觉信号,输出动作序列,仿佛机器人只要模仿得足够多,就能获得通用能力。但在王晓刚看来,这种路径天然受困于本体结构和数据效率,难以支撑真正的长时序、复杂任务,更谈不上跨场景泛化。
相比之下,大晓选择了一条更“底层”的路线。
以人为中心的环境式采集、开悟世界模型,再加上具身交互,三层架构共同构成了大晓具身技术体系的核心。
在具身智能尚未形成技术收敛的当下,大晓的入局,或许并不意味着终极答案已经出现,但它至少清晰地提出了一个问题和新的解法:
当机器人真正走向物理世界,究竟是“会做动作”更重要,还是“理解世界”更重要?
而这个问题,很可能决定下一阶段具身智能竞争的方向。
带着对行业的困惑与技术路线选择的疑问,搜狐科技等媒体与王晓刚进行了一场深入的对话。
以下为搜狐科技等媒体与大晓机器人董事长王晓刚的采访实录(经编辑)
一、大晓到底做什么?
媒体:想问一下大晓机器人的名字是如何确定的,以及这些名字背后有着怎样的意义?
王晓刚:它取自大程名字里的一个字,也用了我名字中的一个字。我和陶大程(大晓首席科学家,澳大利亚科学院院士、新加坡南洋理工大学杰出教授)本身都是汤晓鸥教授的学生。
媒体:大晓机器人主要侧重于机器人本体还是大脑?如果侧重大脑,技术路线是世界模型、VLA还是端到端?
王晓刚:大晓机器人在产品化落地方面,输出的是软硬一体的方案。
当前我们能够看到现有技术路线的明显缺陷,包括VLA模型,是以机器为中心的,通过输入指令、图像和视频,直接输出动作,它不太需要去理解真实的物理世界和物理规律。
简单粗暴地使用端到端或VLA,并不能解决具身智能对“大脑”的期望。
媒体:ACE技术范式具体意味着什么,又能实现怎样的效果?
王晓刚:我们提出的世界模型分为三部分。一是多模态的理解,包含图像、视频、相机位置、3D轨迹,还有力学元素、触觉等一系列内容。
其次,理解物理世界后,需要生成长时动静态交互场景,这些交互行为需具备物理规律和因果思维链,并形成长时间记忆。
三是预测功能,根据所选机器人本体、观察到的图像及视频状态,可预测机器人后续动作。这种“理解-合成-预测”的融合能力,正是世界模型的核心。
媒体:大晓机器人在硬件方面,包括传感器、电机、减速器、控制器等,是与哪些企业合作?
王晓刚:我们投资的企业中,钛虎、鹿明等都会有合作关系,它们与硬件相关。在传感器方面,我们与影石Insta360合作,将全景相机的能力赋予到机器人上,这是一个关键的零部件亮点。
二、为何现在入局?
媒体:商汤科技将具身智能业务剥离出来成为一个独立的公司,是出于哪些方面的考量?
王晓刚:商汤过去更多聚焦于ToB软件业务,近年来随着大模型的发展,我们布局了大装置和基础设施,但在端侧的软硬协同整体产品方面仍有空白。机器人的出现提供了一个良好契机,让我们有机会实现软硬件整合。
媒体:您认为目前具身智能这个行业的头部卡位已经完成了吗?新创业公司的机会点在哪?
王晓刚:我认为头部卡位还没有完成,这个领域还远未成熟,目前行业技术路线存在明显缺陷。比如特斯拉和Figure AI都放弃了以真机为主的技术路线,转向以视觉为主的技术路线。但视觉为主的技术路线并非终极方案,所以我们提出了“以人为中心”的ACE研究范式。
第二点看场景落地,目前能够成规模量产的机器人场景,要么是提供情绪价值的表演性质产品,要么是作为科研平台存在,尚未出现能大幅提升生产力的规模化应用。
第三点是产业链层面,机器人行业的产业链分工尚未完善,成本依然很高。因此,我认为整个机器人产业的格局远远没有确定下来。
媒体:现在具身智能赛道竞争非常激烈,人形机器人价格已降到万元以内。商汤在这个节点加入具身智能赛道,背后的契机是什么?大晓的核心竞争力体现在哪里?
王晓刚:第一点是我们看到了一个与以往不同的新研究范式,也就是以人为中心的ACE研究范式。
如果一直沿着原有的范式前进,追赶或超越会非常困难,只有在这种革命性变化出现时,我们才有机会实现突破。
第二点是产业落地。商汤过去十几年积累了几千家客户,覆盖众多行业方向,,当我们进入这个领域时,能够快速实现规模化的场景落地,让机器人的价值成倍放大。
媒体:对于大晓机器人来说,有没有明确的短期或长期目标?或者说,想要在行业内达到一个什么样的位置?
王晓刚:短期的话,除了提供情绪价值的表演类机器人外,我们认为能够规模化落地的,是搭载了导航能力与各类AI应用能力的四足机器狗。
中期看好工业场景与商业服务场景,其中会优先选择闪购仓、前置仓这类商业服务场景。明年国内将出现大量前置仓与闪购仓,这类场景需要大量人力支持7×24小时服务,机器人能够充分发挥在这类环境中的优势。
更远期的目标则指向五年后的家庭场景,但这更多涉及前沿技术的探索。
三、为什么不押注 VLA
媒体:以人为中心收集环境的数据优化世界模型的路径,涉及到无穷无尽的场景、动作,它是可以去穷举的吗?
王晓刚:基于VLA训练出来的模型,会被受困于它的本体。世界模型采取了可能是更本质的方式,能覆盖更多的场景。关键是你这套范式是不是一个能够很容易拓展的,有一千个人、一万个人在用这种方式采集数据,能够产生回流。
媒体:所以这是我们开源最本质的原因是吗?
王晓刚:对,一旦开源以后别人可以给你各种反馈,给你提供各种场景。这也是中国和其他的国家在人工智能发展路径上一个很差异化的点。
媒体:未来机器人能够做的事情会有哪些关键的变化?
王晓刚:在世界模型的加持下,对于泛化性世界模型应该有突破机会。像前置仓的场景,有上万的SKU,零售场景用VLA很难把这个规模达到上万种不同的类别,但是在新的范式下是有可能做到这一点的。
声明:本文由入驻焦点开放平台的作者撰写,除焦点官方账号外,观点仅代表作者本人,不代表焦点立场。
