对话光象科技CEO张涛:具身智能不存在泡沫,未来不会取代自动化设备和人
扫描到手机,新闻随时看
扫一扫,用手机看文章
更加方便分享给朋友

出品 | 搜狐科技
作者 | 梁昌均
“人形机器人是不是过10年或15年进入家庭,我无法下定论。但基于之前的技术发展历程和客观规律来讲,我们觉得它没有这么快。”
从阿里高德离职加入具身智能创业大潮的张涛,虽然最终目标同样希望让机器人走进家庭,但他对这个实现过程有着更为清醒的认知。
此前,行业内有乐观声音认为三年内就有望实现,这让张涛恍惚中想起了15年前的自动驾驶。“那时候我们讲明年或者两三年,L4就满街跑,结果到今天还没有实现。”
这个判断一定程度影响了张涛创业的选择。去年他联合清华大学车辆与运载学院党委书记、人工智能学院教授李升波成立了光象科技,张涛担任CEO,希望共同推动通用具身智能技术的产业化应用。
这家公司把落地方向优先选在了B端,并率先切入汽车制造场景。在6月10日的技术开放日上,张涛发布了号称行业首个工业级自进化具身智能机器人Phi-Bot X1。
他介绍称,光象科技已围绕汽车制造中的上下料、质检等典型工位完成真实场景验证,并已与某国际车厂、蔚来等企业达成合作。
张涛表示,接下来公司还会从汽车制造拓展到3C电子、轨道车辆、工程机械等工业领域,整体路径是从工业到商业,最后到家庭服务。
对于为何选择这样的路径,张涛解释称,具身智能最好的落地方式是从单点做突破,而不是多点开花。“对标自动驾驶,从L2往L4去做可能是更合理的路径,今天的具身智能同理。”
当然,不可否认,当下的具身智能还面临不少挑战,核心在于模型和数据瓶颈。究竟是做VLA,还是世界模型;是采集真实数据,还是采用仿真数据,行业吵翻了天。
张涛的判断是,以模仿学习或监督学习为核心的VLA不会是终局,因为数据量级差太多。
在他看来,如果数据问题解决了,具身智能的长期AGI就不远了。“今天的VLA、世界模型在模型结构和训练范式上有差异,但核心都是由数据驱动的端到端范式。”
今年以来,行业企业包括不少大厂都在纷纷加强数据采集工作,但路径依然还未收敛。张涛更看好仿真数据,因为其是唯一有可能实现数据指数级扩增的方案。
张涛还谈到了行业定位和市场竞争,强调具身机器人在工厂场景里不是要取代传统的工业机器人或人,而是要追求效率的最佳组合。“具身智能是一个大赛道,不会只存在一家或几家。”
他还提到,行业里很多具身机器人并没有去干该干的事情,如双足人形机器人去搬箱子,毫无必要。“行业要更多面向真实场景需求,做真正发挥具身智能机器人价值的事情。”
虽然目前具身智能目前应用多数还停留在科研教育、商业服务等领域,还未真正规模化走进工业和家庭场景,但资本热潮还在持续,宇树等多家企业也已开启上市。
“虽然现在融资看起来很热,但我们并不认为这是泡沫,因为具身智能,尤其是它在物理环境真实泛化产生的价值是非常高的,对比未来的价值,现在的投入并没有那么高。”
张涛还呼吁,要尊重整个行业的发展规律,路要一步一步走。“具身智能行业未来也会经历波峰波谷,我们还是尽可能坚定地按照自身的技术和业务节奏去推进。”
以下是对话精编:
一、VLA不会是具身智能终局,数据解决了AGI也就不远了
Q:对具身智能的技术路线,有观点认为,VLA不太够用,您怎么看?公司技术壁垒是什么?
张涛:我们会以强化学习为最核心的技术能力做具身智能。过去绝大部分VLA模型都采用模仿学习,这种方式是不是终局,能不能走到最后,我们的结论是不太可能。
为什么?如果要用模仿学习或监督学习的方式完成通用具身智能模型开发,对数据量的要求很高。今天具身的数据量级基本在几十万到几百万,而且非常分散。具身要解决几百个、几千个任务,需要的数据量级大概是十亿、百亿。
但强化学习能够突破,在探索和试错的过程当中,通过奖励信号让模型自己学到什么样的方式和策略是最优的,能够不断迭代,得到性能提升,这种方式可能会走到最后。
Q:今年行业都在加速获取具身数据,公司看好什么类型的数据?
张涛:目前为止,我们还没有看到非常明确的数据范式收敛。第一人称视角数据相比遥操作数据,虽然能更好地降成本并体现泛化通用操作能力。但数据规模与成本之间的关系仍然是线性的,没有变成指数级别。
因此,我们认为它可能也未必是最终路径。我们会更优先采用仿真数据,这是唯一有可能实现数据指数级扩增的方案。
如果数据问题解决了,具身智能的长期AGI就不远了。今天的VLA、世界模型,在模型结构和训练范式上有差异,但核心都是由数据驱动的端到端范式,没有本质区别。
对强化学习来说,最合适的方式是在仿真环境里做强化,能够保证更大的安全性和更大并行的训练规模。这条技术路线,无论是从逻辑上,还是从规模上,都是更可行性的方案。
二、具身机器人不是要去替换自动化设备和人
Q:公司在商业场景上选择先去做汽车制造领域,是出于什么考虑?
张涛:我们讨论过是To C还是To B,是做工业还是进家庭,这无所谓对错。要看具身智能的本质,机器人需要在某个环境下去完成某个任务,要找到一条真实可落地的路径。
我们认为具身智能最好的方式是在一个点上去做突破,而不是多点开花。对标自动驾驶,我认为从L2往L4去做可能是一条更合理的路径,今天的具身智能同理。
汽车制造是目前最大规模、复杂度程度最高的行业,而且有非常好的一致性和标准化,对品控、时间节拍和效率的要求也非常高,这对具身机器人落地而言是非常好的练兵场。
接下来我们还会不断拓展其他工业场景,像轨道车辆、轮船、零部件、工程机械、3C电子等,我们整个路径是从工业到商业再到家庭服务。
Q:在工业场景,很多人认为机械臂等传统应用型机器人更有发展前景,具身机器人是泡沫,您怎么看?如何看待未来的市场格局?
张涛:我们做具身智能机器人,并不是让机器人去替换自动化设备,更不是替换人,而是期望把工业自动化设备、具身机器人和人进行整合,产生最高的效率。
自动化设备的技术路线、工位需求和具身机器人完全不同,它们事先设定好轨迹,重复即可,通过运控算法和本体能力保证极高的定位精度就可以实现。
具身智能核心是端到端的AI驱动,没有必要做这件事,要做的事情需要非常好的灵活性、鲁棒性,并且能够面向不同的工位做到很好的泛化操作,所以跟他们没有直接的竞争关系。
Q:公司的客户主要是车厂,但现在也有不少车厂,比如理想都在做机器人,长期来看他们有什么壁垒?公司如何与之竞争?
张涛:现在很多车厂都在做机器人,但他们最终要服务的是C端客户。他们更关注的事情是怎么样在继手机和汽车之后的下一代智能终端,开发通用机器人,而且走入家庭。这也在我们未来的目标之内,但目前我们跟车厂做的机器人不存在竞争关系。
当然,这些车厂有很好的制造能力和模型、资金能力,会成为具身智能行业非常优秀的玩家。但具身智能是一个大赛道,不会只存在一家或者几家,每个细分场景中都会有一批头部公司。
三、具身智能没有泡沫,人形机器人不会很快进入家庭
Q:您怎么看目前具身智能公司的商业模式?公司如何选择自己的落地路径?
张涛:整个行业还在非常早期的阶段,有卖机器人的,有卖软件的,有去做租赁的,卖工具平台服务的,都还在探索的阶段,具体哪个会成为未来主流,可能还要时间。
今天行业很多具身机器人并没有去干该干的事情,如用双足人形机器人去搬箱子,毫无必要。我们希望行业更多面向真实场景需求,做真正发挥具身智能机器人价值的事情。
我们希望做软硬一体化的具身智能的完整产品。今天具身智能行业是不成熟的,我们希望能够为生产力服务,路径是首先把能够解决真实问题的机器人造出来,卖出去,去干活,再把数据收回来,然后再去产生更多的数据和更强大的模型,从而再去拓展范围。
Q:您此前说人形机器人落地还需十年,但行业有观点认为几年就可以进入家庭,您怎么看?未来进入家庭的机器人会是什么形态?
张涛:行业里有观点讲三年人形机器人就能够进入家庭干活了,恍惚中我好像回到了15年前的自动驾驶,那时候我们讲明年或者两三年,L4就满街跑,结果到今天还没有实现。
人形机器人是不是过10年或15年进入家庭,我无法下定论。但基于之前的技术发展历程和客观规律来讲,我们觉得它没有这么快。
机器人走进家庭,人形是不是最好的?我觉得这没有答案,还是要回到让机器人进入家庭,到底想让它提供什么样的价值。如果去做铺床叠被、整理东西、擦桌子,确实不需要双足。
有些机器人做得非常拟人,它提供的价值不在功能层面,更多是情感价值,这确实需要人形,而且是拟人度非常高的人形,所以关键是取决于到底想让机器人提供什么样的价值。
Q:有观点认为目前具身智能有泡沫,资本都聚集到头部,估值上百亿的公司越来越多,对新入局的公司可能会越来越艰,您怎么看待这种局面?
张涛:虽然现在融资看起来很热,但我们并不认为这是泡沫。具身智能尤其是它在物理环境真实泛化产生的价值是非常高的,对比未来的价值,现在的投入并没有那么高。
当然,我们还是要尊重行业发展规律,未来是有那么大的市场,但路总要一步一步走。具身智能行业未来也会经历波峰波谷,我们还是尽可能坚定地按照自身的技术和业务节奏推进。
声明:本文由入驻焦点开放平台的作者撰写,除焦点官方账号外,观点仅代表作者本人,不代表焦点立场。
