对话智源黄铁军、王仲远:世界模型是具身智能突破关键,AI自进化后将不可控

搜狐焦点华北区 2026-06-16 16:59:52
用手机看
扫描到手机,新闻随时看

扫一扫,用手机看文章
更加方便分享给朋友

智源大会聚焦世界模型与具身智能,推动AI从语言走向物理世界,探索AI新范式。

出品 | 搜狐科技

作者 | 梁昌均

“智能之路——吾道一以贯之。”在6月13日落幕的第八届智源大会上,北京大学教授黄铁军在闭幕演讲中如此作结这些年探寻智能之路的感悟。

他另一更为人熟知的身份是——北京智源研究院理事长。

2018年,也就是GPT-1出现的那一年,以及成为AI主流架构的Transformer诞生的后一年,黄铁军作为创始院长参与成立智源研究院,其成为国内最早开启大模型研究的机构之一。

六年后,黄铁军卸任院长成为智源理事长,具备丰富产研经验的王仲远接任院长,两人携手开启新一轮的智能之旅。

当年春节期间,Sora横空出世,预示着大模型从语言加速拓展到多模态领域。虽然Sora最终走向关闭结局,但其提出的世界模拟器概念一定程度启发了如今火爆的世界模型。

智源也未停止探索脚步。从悟道系列,到悟界系列,智源的研究重心从语言模态扩展到多模态,再到如今的世界模型,持续推动AI从数字世界走向物理世界。

此次大会,智源带来多款基座模型,包括全球首个通用世界基座模型悟界·Physis-v0.1、全球首个理解与生成统一的多模态神经科学大模型悟界·Brainμ1.0等,并透露正在研发具身智能模型悟界·RoboBrain Orca。

智源希望定义推动AI技术的新变革、新范式。搜狐科技参会也感受到,今年智源大会重点已转向世界模型、具身智能,有关论坛爆满,具身CEO们成为被观众围堵的明星新势力。

大会前后,搜狐科技先后对话了黄铁军和王仲远。他们分享了AI下一代发展范式,阐释了为何世界模型将是具身智能突破和迈向AGI的必经之路,以及对AI未来发展的思考。

从预测Token到预测状态

如果要评选出今年智源大会最热的一个词,那可能非世界模型莫属。这正反映了智源在AI前沿方向上的探索和引领——从大语言模型,到多模态,再到世界模型。

这背后也将是一次重大的AI范式的转变。

“Next Token Prediction做到极致之后,我们深刻感觉到AI正在孕育巨大的范式变革,就是演进到Next State Prediction或者Next Physical State Prediction。”王仲远表示。

早在两年前,智源就提出世界模型将是AI下一个重要的演化方向,随后发布悟界·Emu3和·Emu3.5,推进多模态世界模型的演进,并希望构建面向物理世界的AI基座模型。

世界模型并非全新概念。早在1943年,心理学家Kenneth提出的“心智模型”被广泛被认为是世界模型的理论源头。

随着具身智能爆发,以及图灵奖得主杨立昆、斯坦福李飞飞等人的推崇,世界模型今年以来越来越受关注。但概念缺乏共识,如视频生成模型到底是不是世界模型,业内就存在争论。

李飞飞此前发文就提到,世界模型是当今AI领域最重要、最被滥用的术语之一。计算机视觉、机器人学、强化学习和生成式AI都在声称正在构建世界模型,但所指的东西截然不同。

她按照功能将世界模型分为三类:输出像素的渲染器,输出状态的模拟器,输出行动的规划器。“当三者开始融合,实现统一的世界模型,才意味着AI真正走向理解世界。”

智源则根据技术路线对世界模型进行了分类。第一类是以语言为中心的世界模型,如大语言模型、VLM、VLA。第二类是以像素为中心,如视频生成模型,以及WAM(世界动作模型)。

第三类是以三维结构为中心的世界模型,包括3D重建,李飞飞提出的空间智能即为此类。第四类则是以视觉表征为轴心的世界模型,杨立昆提出的JEPA就是以此为起点。

“这些都是在往真正的世界模型走近的过程,可能都抓住了某一个方面的特征,就跟盲人摸象一样,世界模型大概现在还处这么一个早期的阶段。”黄铁军表示。

王仲远认为,这些世界模型距离真正面向物理世界的基座模型都有很大距离,现在对怎么训练世界模型,技术没有收敛,数据远远不够,没有找到方法路径,也需要开展评测等工作。

他表示,智源希望正本清源,让大家意识到世界模型的核心本质是下一个物理状态的预测。只有当行业形成共识以后,训练模型的数据和方法才会收敛和归拢。

对于世界模型面临的瓶颈,王仲远认为,数据肯定是缺乏的,特别是真实物理世界的数据。

在黄铁军看来,世界模型的数据模式将发生变化,不再是之前的离线、静态方式,而是要需要越来越多的在线、实时的交互性的数据。

“随着穿戴式设备越来越多,人在工作生活中更多地被数字化,这些第一视角、实时同步采集的数据,将成为未来世界模型特别重要的数据来源。”黄铁军表示。

王仲远甚至判断,随着AI硬件越来越多,并不断采集大量真实物理世界数据以后,有了物理世界的互联网,才有可能真正催生跨时代的世界模型。

对于世界模型,智源希望走一条新路——语言和视觉融合,即潜空间表征。通过压缩各类多模态数据,原生统一训练、统一建模,在统一潜空间表征各种真实物理世界的状态。

“我们认为将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径。”王仲远表示,不排除世界模型也将形成大一统。

黄铁军表示,作为研究机构,智源做世界模型会坚持独创的技术路线,已经证明可行的部分,会批判地用,但一定也会有创新和领先的地方。

具身智能突破的关键

谈及世界模型和AGI的关系,黄铁军认为,世界模型是其中最重要的部分,就像大脑是人身体最重要的部分一样。

“但原则上讲,世界模型是为具身智能而生的。”黄铁军解释称,具身智能的刚需或特点是很多时候是靠机器人看见、听见,感知此时此刻是这样,然后推想未来什么样。

因此,真正面向具身智能的世界模型应该是:要有传感器,包括眼睛、听觉、触觉,在尽可能多的输入情况下,又能对未来一段时间做出推测,而且要精准、准确。

王仲远同样认为,世界模型很有可能是具身智能实现更大突破的重要基座模型的关键,而具身模型将是世界模型很重要的应用场景。

目前,具身智能行业提到的世界模型更多的是以像素为中心(如VLA)或者以视频生成和Action的联合训练,并聚焦某个或某些场景进行布局。

“这是目前大多数具身智能企业的做法,不需要泛化到所有的场景里面去,能把其中明确的场景做好就可以了。”

黄铁军认为,做VLA还是世界模型,这两件事并不矛盾。“企业一定是用比较成熟的技术来解决比较明确、特定场景的问题,但从研究机构角度来说,肯定还是希望具身智能实现通用水平。”

不过,王仲远认为,这类技术路线依然是治标不治本的方法。

他提到,为什么现在机器人不能像人类一样到处走,执行各种任务?因为缺乏世界常识、物理规律,虽然可以在操作台、流水线上很好完成一些特定任务,但不具备泛化性和通用性。

但不同于人对真实物理规律很容易理解,目前具身模型还难以掌握物理规律、物理常识等知识,也不具备时间和空间等感知和决策推演,导致模型难以在真实世界规模应用。

黄铁军表示,目前还有很多优化工作要做。现在能采到图像、采到视频,就直接拿来训练,还没到精细化考虑视觉信号到底应该怎么表达、计算应该如何更有效,这些工作才刚开始。

同时,他认为,目前具身智能采集和获取数据的方式应该进行模型变革,要考虑成本、合理性、便利性等因素。

“现在机器人行业都在搞很多数据采集中心,用机器人或人控制机器人去采集数据,这可能是一种成本不一定合理的方式,而人戴上设备边工作边采数据的方式则相对合理。这些第一视角的数据是很好去训练具身智能或世界模型的数据,成本比原来要降很多。”

黄铁军强调,机器人一定要对物理世界有自己的模型,掌握万事万物的规律,但现在还在早期阶段。虽然目前行业有各自打法,将来可能会有通用的具身大脑作为基础,每种机器人或每个企业根据需要再去微调,再去做自己的垂类模型。

他判断,短期以人作为参照物,至少在做工作的时候,机器人大概未来两三年有可能达到人的水平,同时希望它像人一样在有限的低功耗情况下更灵敏、更精确。

AI自进化后将不可控

对于世界模型的未来,王仲远判断,真正的世界模型诞生至少还需要好几年的时间,很可能卡在一个地方三五年都没有突破,也可能突然就突破了。

“未来三到五年都会是世界模型持续演进和迭代的阶段,期待随着数字世界大模型的成熟,能够加速面向物理世界AI基座模型、世界模型的迭代和演进。”

这也正是黄铁军分享的“吾道一以贯之”的内在含义。“智源虽然做了这么多方向,但主线就是做越来越强的智能系统,越来越像人。”

这具体有两个方法论。一个是结构决定功能,Transformer就是结构,可能有革命性的变革。“AI长远发展,需要探索比Transformer更强大、更高效的神经结构和身体结构。”

另一个则是功能塑造结构,原来通过语言、多模态,现在利用实时数据、脑数据去训练,都是为了把模型的功能运转起来。

黄铁军还回顾了智源大会两年前的提出的AGI演进五级时间表,认为目前已达到Level 1(认知超人),人类面临“躺平”或“理性信任”的选择,具身超人的Level 1预计2035年左右实现,最高层级的Level 5表示脱离人类知识和大脑架构,可能意味着AGI独自探索宇宙。

随着AI能力的越发强大,人类社会对它的风险担忧也越发强烈。Anthropic此前发文表示,AI将朝着递归自我进化(CSI)的方向演进。图灵奖得主辛顿则多次表示,AI系统已经具备了某种程度的自主意识。

黄铁军表示,这涉及到意识的定义,如果狭义的意识是人的意识,AI肯定还没有,但现在很多AI系统确实表现出来一种有意识的智能主体的行为反馈。

“你怎么对待它,它的行为会产生很大的不同,图灵测试也是从行为的角度来定义。从这个意义上讲,说AI有意识,也不能说不合理。”

对于AI是否会自我进化,黄铁军认为,这是可行的,但是不可控。从它现在具备的智能行为来说,它有可能实现复制自己、保护自己,甚至自进化。

“AI真正的自进化差不多已经在危险边缘,一旦实现自进化,智能程度远超人类之后,那真的不可控。”

这可能会给人类社会带来巨大的变化冲击。“人类现在有很多不可控,外星人来了,行星撞地球,不是只有AI不可控。”黄铁军则相对乐观地相信,AI和人有很大概率可以共存。

王仲远表示,目前AI安全问题更多不再是畅想类,而是实实在在的问题。“我们还是非常乐观地相信会创造出新的增量价值和新的机会,人类要和新技术共存,伴随演进和演化。”

他强调,全世界已经经历过几轮大的技术发展,都有应对经验,相信人类社会有能力应对。“但这不是一家科研机构能单独解决的,而是需要大家共同努力。”

声明:本文由入驻焦点开放平台的作者撰写,除焦点官方账号外,观点仅代表作者本人,不代表焦点立场。