时间:2025-07-28 11:22 作者:邪恶火锅
让机器人“心灵手巧”(科技视点·一线探创新)
本报记者 谷业凯
图①:灵宝机器人具身算法工程师王思成在演示机器人抓取物体。 图②:灵宝机器人模仿学习算法工程师孙建涌在调试机器人夹爪。 图③:灵宝机器人具身操作中心负责人周明才对人形机器人进行调试。 以上图片均为北京中科慧灵机器人技术有限公司提供
习近平总书记强调,“推进中国式现代化,科学技术要打头阵,科技创新是必由之路”“在激烈的国际竞争中,我们要开辟发展新领域新赛道、塑造发展新动能新优势,从根本上说,还是要依靠科技创新”。
在高校院所、企业车间,一线科研人员瞄准科技前沿,潜心研究、创新攻关,为加快建设科技强国,实现高水平科技自立自强持续奋斗。本版今起推出“一线探创新”系列报道,通过记者在科研一线的亲身体验和近距离观察,一起来感受和了解创新成果的孕育过程。
——编 者
机器人拿起咖啡杯、穿针引线,甚至弹奏钢琴,都属于具身操作,背后有一套软硬件系统支撑。作为具身智能的关键技术之一,具身大脑的目标是让机器人“心灵手巧”,从而与外界实现互动。
如今,这项赋予机器人“灵动感”的技术,正进入关键突破与激烈竞逐阶段。北京海淀东升科技园里,北京中科慧灵机器人技术有限公司(以下简称“灵宝机器人”)的“极客”们正在这一新赛道上奋力奔跑、不断突破。
让机器人通过“模仿学习”掌握技能
灵宝机器人的研发现场既像不太“规范”的实验室,也像不那么“标准化”的生产车间。顶棚上的轨道纵横交错,各种操作台遍布其中。记者行走其间,经常要侧身、抬脚,设备多到容纳不下一条固定的步行“动线”。
灵宝机器人成立于2023年,由中国科学院自动化研究所研究员张正涛创办,专注研发面向场景落地的通用人形机器人和具身智能产品。具身操作是灵宝机器人的技术专长之一,他们研发的具身智能机器人可以用0.3毫米的螺丝刀完成笔记本电脑主板装配,精度甚至能达到头发丝的1/5。
像人类的双手一样,具身操作需要兼具感知和操作能力。视觉语言动作模型(VLA)是实现这两项能力的重要途径——通过融合视觉感知、语言理解与动作控制来打造“端到端”决策系统,并开展“泛化学习”,就像一个动作版的大语言模型。
在研发现场,记者看到,灵宝机器人具身算法工程师王思成正在使用视觉语言动作模型和一台末端执行器为二指夹爪的机器人,来模拟训练抓取动作。
抓取是人手最基本的动作之一。操作台上放着一个盘子,里面盛放的是网球、香蕉和猕猴桃。“抓取网球。”王思成先在电脑里敲上几行代码,再起身来到机器人前念出一段语音指令。
看似有些笨拙的训练过程,却有极高的技术目标。“传统的机器人抓取,要先检测目标,再算出空间坐标,最后完成动作,操作流程是相对固定的。”王思成解释,“而我们知道,人类在抓取物体的时候可不是这样操作的,我们既不会‘检测’,也不会计算空间坐标,而是利用直觉和反馈产生动作,我们正是要让机器人具备这样的能力。”
不需要设置固定的算法流程,只需输入视觉图像,让机器人学习视觉图像中哪些要素跟操作相关。简单演示几遍,它就可以模仿、学习人类的抓取动作。“我们让机器人通过‘模仿学习’掌握技能。”王思成说。
目前,算法还没那么先进,还需要收集大量数据才能让机器人熟练地抓取。“肯定比人要笨一些,难点就在于怎样用尽可能少的数据,让它学会更多技能。”王思成说,“拿抓取来说,使用一般的开源模型要采集三四十条数据才能学会,我们不断改进算法,现在5到10条数据就能学会了。”
同样是抓取,对人类来说,抓不同物体,动作、力度也会有细微差别。在王思成他们的努力下,这种细微差别也能在机器人的二指夹爪上实现。“这是自适应力控夹爪,遇到软的物体,它的力度也会做相应调整。也就是说抓网球和猕猴桃,它的力度也是略有不同的。”王思成说。
这项开发工作已进行了近1年。“我们已有相关论文成果发表。”更让王思成有成就感的是,系统还在“跑分”平台上名列前茅,部分性能指标已经达到业内领先水平。
实现动态场景下的抓、拿、放
一只鞋被重复放置在传送带上,机器人将它抓起,然后放置在专门压鞋的机器上。灵宝机器人模仿学习算法工程师孙建涌用一个3D鼠标,操作机器人进行抓取训练,“这是制鞋场景下的一个标准动作,现在它已经能抓取了,但是抓得还没有那么紧、那么好。”
自动化设备在国内制造业已不鲜见,但在制鞋领域还不多。灵宝机器人商业化中心负责人张淼解释:“我们做过调研,一条制鞋自动化生产线需要上千万元投资,只适合生产一些销量较大的‘爆款鞋’。由于柔性化程度不够,生产线在不同鞋款间‘切换’的成本很高,这成为提升自动化率的一大障碍。”
孙建涌训练的机器人,要适应的正是柔性化的制鞋流程。他告诉记者:“鞋分左右脚,鞋码在35码到45码之间,要在动态场景下完成抓、拿、放,这些都是通过真机在线强化学习实现的。”
按照过去的思路,这套动作需要现场采集数据、再设计一套指令。现在用视觉数据和真机在线强化学习,普通工人用3D鼠标就可以“手把手”教机器人操作,“有点像‘抓娃娃’,系统慢慢学会后,稍微纠个错就行,能够在不同款式间快速‘切换’,也极大降低了训练使用的门槛。”孙建涌解释。
现在,训练这样的机器人来抓取一款鞋,只需1小时左右。“如果没抓到或者抓偏了,机器人还能自动调整。这是强化学习相比于模仿学习的一大优点。”孙建涌说,模仿学习往往是基于“成功经验”,强化学习除了依赖“投喂”的成功经验,还能自己探索并覆盖各种情况。
3个月来,孙建涌所在的团队常在实验室和工厂两头跑。“很多问题都要在生产一线解决,比如有的传送带比较光滑,反光就会影响视觉判断。”孙建涌举例,其他如传送带速度、相机视野里鞋的密集度等,都需要在算法层面一点点改进。
更加柔性化以兼容更多应用场景
研发现场,占据“C位”的是一台人形机器人,身上还挂着不少线缆。作为实验机型,很多“极限测试”都在它身上开展。同时,它也是今年北京人形机器人半程马拉松赛上少数没有摔倒的参赛选手之一。
在前期研发的基础上,灵宝机器人团队很多成果已经用在了人形机器人上。去年11月,公司发布的首款全尺寸双足人形机器人灵宝CASBOT 01,就搭载了结合具身智能、柔顺力控和精密操作等技术的五指仿生灵巧手,能执行双指旋拧、指间夹取等操作任务。
张淼介绍,作为执行操作任务的关键部件,五指仿生灵巧手单手重量800克、额定负载达5公斤,集成了触觉、力觉和视觉的多源感知系统。通过优化控制算法和动作规划,该灵巧手能够模拟人手的灵活性,可有效解决精细化作业场景中的“灵巧”与“作业”两大难题。
“操作是具身智能的核心能力,对于产业发展具有重要意义。”在灵宝机器人具身操作中心负责人周明才看来,目前具身智能已经实现了“形似”,但如何使其像人类那样去感知和操作,仍是一个逐步发展的过程。特别是随着个性化需求增多,让具身智能更加柔性化,以兼容更多应用场景,是研发的一个重要目标。
“近年来,国内具身智能发展很快,特别是产业链不断完善。像常见的触觉传感器,有压阻式的、电容式的,一些新的器件也逐步加入进来,可以说处在一个‘百花齐放’的状态。哪种技术路线最优?我想这也是一个逐步‘收敛’的过程。但正是有了这些基础,我们做算法开发才能更加得心应手。”周明才说。
灵宝机器人对产学研融合有着深刻的理解。周明才说:“我们会把一些最新的研究成果应用到产品中去。同时,我们的最新产品也会提供给学术界做前沿研究,这是个紧密互动、螺旋式上升的过程。”
《 人民日报 》( 2025年07月28日 19 版)
1、现在市面上卖的土鸡蛋都很小个,小时候大家养的来杭鸡,鸡蛋还是比较大个的