时间:2025-08-09 19:33 作者:杨小栖
宇树王兴兴最新演讲:数据不是具身智能的最大挑战,宇树 王兴兴
智东西
作者 陈骏达
编辑 李水青
智东西8月9日报道,今天,宇树科技创始人兼CEO、CTO王兴兴在2025世界机器人大会上,分享了他对全球机器人行业发展现状的最新观点。王兴兴认为,人形机器人行业已经走到“ChatGPT时刻”的前夜,最快1-2年就能迎来这一时刻。
王兴兴认为,由于政策支持与需求爆发,2025年上半年,人形机器人整机与零部件厂商平均实现了50%-100%的增长,幅度惊人。然而,行业内还存在几大误区:
首先,人形机器人大规模应用的最大问题,并不是硬件,而是具身智能。虽然硬件在量产工程化上仍有提升空间,但具身智能问题更为明显,还无法驱动机器人自主地完成任务,这背后的原因并不是大家普遍关注的数据问题,而是模型架构问题。
王兴兴称,未来2到5年,智能机器人技术的重心是端到端的具身智能AI模型。当前行业常见的VLA(视觉-语言-动作)模型,在他看来属于“傻瓜式架构”,他个人对这类模型持怀疑态度。由视频生成模型(或是世界模型)驱动机器人控制,是他眼中有望更快收敛的技术路径。
同时,机器人研究还需要在强化学习Scaling Law(扩展定律)上实现突破,从而让每次训练的速度越来越快,学习新技能的效果越来越好。随着机器人日益普及,分布式的算力将成为大势所趋,有望突破机器人本体搭载算力的限制,并满足实际应用过程中对安全性和通信延迟的要求。
王兴兴还在演讲中回顾了宇树科技的发展,从2013年研发机器狗X dog原型机开始,并获得8万元的第一桶金,再到2023年应客户需求推出首款人形机器人,他认为,机器人与AI的发展始终是一个全球共创的过程,他也鼓励更多企业和高校参与到这一过程中。
以下是王兴兴部分精彩演讲内容的整理(智东西在不改变原意的前提下,进行了一定程度的增删修改):
我分享一下我个人对全球人形机器人行情的看法。今年上半年,最大的特点就是由于机器人行业非常火爆,以及政策的相关支持,整机厂商、零部件厂商,平均实现了50%到100%的增长。增长幅度还是非常吓人的,这对整个行业而言都是十分罕见的,需求端拉动了整个的行业的发展。
海外市场方面,特斯拉作为行业代表,计划今年量产数千台人形机器人,并将发布第三代Optimus人形机器人,值得重点关注。此外,全球企业对机器人行业的热情高涨,包括英伟达、苹果、Meta、OpenAI等企业都持续在推动这一领域的发展。
我分享几个个人的观点,未必准确。
第一点,对于机器人本体来说,很多人可能会有这样一个误区:机器人目前没有大规模应用、功能不够完善的原因,是硬件不够好,或者成本比较高。
其实目前的硬件,无论是整机还是灵巧手,从某种意义上来说完全是够用的。当然不够好,还需要优化,更大的问题是量产,工程上的问题肯定是很多的。
但是在技术层面上,或者从AI的角度来说,目前的硬件是完全是够用的。目前最大的挑战还是具身智能,或者说AI技术的发展,完全不够用。这也是限制当前机器人,尤其是人形机器人大规模的应用的最大问题。
目前,机器人行业所处的位置,就像是ChatGPT诞生前的1-3年左右,目前业界已经发现了类似的方向以及技术路线,但是没人把它做出来。
ChatGPT出来的前几年,做语音AI的已经做了十几年,近二十年了,但是大家一直觉得他很傻瓜,很弱智,根本完全没法用。ChatGPT出来后,它实现了比一般人还要强的能力。机器人还没有到达这一临界点。
对于机器人的AI技术,我觉得临界点可能是这样的:当一个人形机器人能够进入一个完全陌生的环境(比如从未见过的会场),我跟他说“把这瓶水带给某位观众”,或是“整理一下这个房间”,而它能够顺畅自主地完成任务,这就是人形机器人的ChatGPT时刻。
如果进展快的话,可能未来的1-2年或者2-3年,我们就能实现这一目标,最慢的话3-5年也有很大概率能实现。
目前,具身智能不够用的问题,究竟是模型还是数据导致的?我反而感觉目前全球范围内,大家对机器人数据这个问题的关注度有点太高了。现在最大的问题是反而是模型的问题,并不是数据问题。
对于具身智能和机器人来说,模型架构都还不够好,也不够统一。大家对模型问题的关注度高,反而对数据的问题关注很多。因为在大语言模型领域,大家觉得我有足够多的数据,尤其有足够多的好的数据的时候,我就能把模型训练的越来好。
但是在具身智能,在机器人领域,大家可以发现,很多情况下有了数据,会发现这个数据用不起来。
相对比较火的就是VLA模型。VLA是一个相对比较傻瓜式的架构,我个人对VLA模型还是保持一个比较怀疑的态度。VLA模型在与真实世界交互时,它的数据质量、能采集的数据是不太够用的。
有个简单的想法,就是在VLA模型上面加一个RL的训练,这是一个非常自然的想法。但是我个人感觉,包括我们公司目前尝试下来VLA模型加RL训练,我觉得还是不够的,模型架构还是得再升级和优化。
这里也简单分享一下我们过去做的一些事情。大家也可以关注到,谷歌发布了他们全新一代的视频生成模型,或者某种意义上是一个视频驱动的一个世界模型。还有,去年的时候,当OpenAI发布了视频生成模型以后,大家会有一个很自然的想法:我可以控制一个视频生成模型,跟他说“帮我生成一个机器人,去整理一下房间”。
如果模型生成的视频中,机器人可以完成任务,那我是不是能让这个视频生成模型直接去驱动一个机器人完成任务。这个想法非常简单直接,我们去年的时候就去做了这个事情。
大家可以看到,右上角的视频其实是生成出来的,不是用摄像头采集的。我们用一个预训练的视频生成模型,重新训练了一下,让他先去生成一个机器人动作的视频,然后再控制一个机器人去做,这个技术是能实现的。包括谷歌的视频生成世界模型,他们也想实现这个效果。
我觉得这个路线的方向可能会比VLA模型发展得要快,收敛概率还更大。但我不敢打包票,可能还是有很多问题。其中有个很大的问题就是,视频生成模型太关注视频生成的质量了,导致对GPU的消耗有点大。
对机器人干活来说,某种意义上你并不需要很高精度的视频生成质量,你只要驱动机器人去干活就行了。大家可以关注谷歌的视频生成模型,还是非常有意思的。整个模型的架构还是非常简单粗暴的,就是把机器人的一些动作序列控制,直接对齐到模型的架构上。
另外一点,大家也知道,目前机器人跳跳舞、打格斗效果其实不错了,但实际上面临一个很大的问题,如果要进一步机器人能力提升,也就是机器人RL的Scaling Law,还是做得非常不好。
举个最简单的例子,我训练一个机器人做新的动作、跳新的舞蹈,都要重新训练,还是从头开始训练,这是非常不好的一个事情。我们是希望机器人每次做一个新的训练的时候,可以在过去训练基础上进行。
理论上我做RL训练的时候,每次训练的速度应该越来越快,学习新技能的效果越来越好。但是全行业内,目前整个机器人在RL的Scaling Law,没有人做出来,做好。我觉得这是非常值得做的一个方向。
因为RL Scaling Law在语言模型上已经是充分验证过的事情。但在机器人的运动控制上面,大家才刚刚开始。
我个人感觉,在未来2到5年,智能机器人技术的重心是端到端的具身智能AI模型。我觉得模型本身是最重要的。
然后就是更低成本的,更高寿命的硬件,这个是毋庸置疑的。大家也知道,哪怕对于汽车行业来说,已经一百多年了,哪怕到今天,一家企业要做很好的一辆汽车出来,工程量还是非常大的。
对机器人行业来说,未来如果每年要生产制造几百万、几千万甚至几亿的人体机器人,它的工程量挑战还是非常惊人的。
同时,低成本的大规模的算力也很重要。在人形机器人上,或者在移动机器人本体上,其实没办法直接部署大规模的算力。它的尺寸只有这么大,它的电池只有这么大,它部署算力的功耗是有限制的。
我个人感觉在人形机器人上,最多只能部署峰值功耗为100瓦的算力,平时工作的时候算力只有小几十瓦,简单说就只有大概几个手机的算力水平。
但是,未来机器人还是需要大规模算力的,而且我觉得可能是分布式的算力。机器人干活的时候,我们希望其通信延迟比较低的,如果在北京干活的机器,数据中心在上海或者在内蒙,延迟实在是太大了。
我个人感觉,未来在工业领域大规模运用人形机器人时,工厂里面可以有个分布式的服务器,所有的机器人直接连接工厂里的局部服务器就好了。服务器的安全性、通信延迟是可以接受的。
或者换一个话题,如果一个小区每家每户有一个机器人的时候,在这个小区可能是有分布式的集群算力中心的,可以保证延迟与安全性。并且,如果有新客户想买一个人形机器人的时候,他不需要给这部分算力的建设花钱,成本也会更低很多。
我觉得分布式算力会是机器人行业未来非常重要的一个领域,可能比目前算力的分布还要更广一些。
另外一点,大家也知道,在AI领域、机器人领域一直是一个全球共创的过程。中国的企业、美国的企业,包括英伟达等,已经做出了很多贡献。
在AI领域,没有一家大公司能保证,只要有足够的人、有足够的资源,我就能永远领先。OpenAI和DeepSeek已经证明了,AI的创新永远伴随着一些随机性,伴随着更多的聪明年轻人的。所以很多情况下都是很多公司、高校做出的贡献,还是要全球共创出来的。谢谢大家。
1、惊呆!广州照明大王,四个创始人竟然公开内斗!,广州照明展会时间表2021地址