

你有没有发现,现在机器人demo越来越多了?
打开社交媒体,各种机械臂流畅操作的视频层出不穷。但当你真正想引入到工厂或服务场景时,却发现效果大打折扣——这到底是怎么回事?
上周,我在深圳亲眼见证了一场可能改变行业认知的机器人黑客松,答案就藏在其中。
当我晚上9点抵达比赛现场时,原本以为会是少数人的战场。结果一进门,整个人都惊呆了!
灯还亮着,地上支起一排排帐篷。机械臂24小时不停运转,选手们围在工位前采集数据、训练模型、盯着评测结果。有人困得不行,就在场边睡一会儿,醒来继续干。
现场流传着一句话:“我可以歇着,卡不能歇。”
这是全球最大规模的线下具身智能开发者大赛之一!主办方为所有参赛队伍免费开放高质量数据集、数采设备、训练环境和高性能双臂操作平台,还有算力资源。
最震撼的是什么?
参赛队伍可以在3天内,完成从数据采集、模型训练到真机部署的整个闭环!而通常情况下,专业研究实验室完成类似搭建至少需要6个月!
比赛设置了四类核心能力:抓取放置、语言理解、精细操作和长时序决策。对应到具体任务,就是套环、按指令分类水果、插电源线、拼写单词等。
你知道吗?许多由00后大学生组成的团队,借助主办方提供的算力、数据和基础模型,只用两天时间,就能让机器人完成pick-and-place这类常见于论文和演示视频中的任务,做出一个“看起来很像那么回事”的demo!
比赛分为A榜和B榜两个阶段。A榜任务公开,选手可以围绕明确目标进行训练和优化;B榜则不会提前公布具体任务和数据分布,更侧重考察模型在真实环境中的泛化能力。
比赛第一天,大家的成绩普遍不高,套环任务的成功率大多只有20%到70%。但到了第二天,很多团队已经迅速摸清了自己擅长的方向,开始集中优化,一些团队甚至在单一任务上出现明显过拟合,成功率逼近100%!
就在大家以为胜利在望时,主办方放出了隐藏的B榜。
当任务不再已知,原本围绕单一目标优化出来的模型,很快暴露出局限!
获得三等奖的南京邮电大学参赛者袁浩宽表示,他们选择的是“按指令分类水果”任务。到了B榜阶段,比赛不仅新增了水果种类,还加入了干扰项,并改变了抓取与放置的空间结构。
“之前针对A榜做的微调基本用不上了,只能回到base model,重新采集更有多样性的真机数据。”
他们在现场补采了约30条随机摆放的数据,微调了约1小时、总计约1万步,但效果依然不理想,主要问题在于数据量和多样性都不够。
这也不是个别队伍的偶发问题,而是许多队伍在B榜阶段的共同反馈。针对单一任务做出高分并不算太难,但一旦任务开始引入泛化要求,比如增加水果种类、改变摆放方式,模型就很难稳定跟上。
在这场黑客松里我看到两件事:
一方面,任务适配的速度确实在变快,机器人进入真实场景的门槛正在被拉低;另一方面,哪些团队是在认真做base model,哪些团队只是借助现成基座和任务微调做出表面成绩,也会以更快的方式被区分出来。
一个开源基座模型,加上一些现场采集的数据,再配几张算力卡,围绕特定任务做短周期微调,就有机会复现论文或宣传视频里的效果。
这样的结果当然不是毫无价值,它说明现有基座模型和工具链已经足以支撑某些任务的快速实现;但它也不应被误读为“模型已经具备通用能力”。因为这类demo的前提,往往是明确任务、固定环境和有限变量,而不是开放世界中的持续适应。
真正把具身公司拉开差距的,是谁拥有更强的base model,谁能在任务变化、环境变化和连续执行中保持稳定。
也就是说,认真做基座模型的团队,与套壳做过拟合的团队,未来的差距只会越来越大!
赛场上的教训,也在某种程度上印证了主办方自变量的思路。
对很多参赛队伍来说,比赛很快暴露出一个问题:后训练和参数微调可以补足一部分能力,但到了某个阶段,决定模型上限的仍然是基础模型本身。
基于这一判断,自变量在场景选择上没有选择更容易通过工程手段优化效果的场景,而是将家庭等更复杂的环境放在相对靠前的位置,希望在真实交互中积累数据,并据此持续迭代基础模型。
自变量CTO王昊表示,公司的核心方向是“保持基模不停往前迭代”。在他看来,团队当然可以去场景里做探索,验证基模能力,看看它是否能在某些场景里实现规模化应用;但有一点必须克制,即不要为了让机器人在垂直场景里更快落地,而堆太多针对性的模型系统和工程补丁。
比如发现视觉上有盲区,就再加一个视觉小模型去做检测和弥补,这类方法“短期来看可以帮助你加快落地,但是长期来看,对基模的提升是有害的”。
这句话不止技术判断,也是商业判断!
从外部合作轮廓看,自变量并非没有工业客户,但它投入更多精力的场景,明显偏向家庭、养老院、酒店等服务环境。
王昊并不回避这一点。他表示,从产品战略和商业策略来说,自变量希望机器人能够尽早大规模部署,更早进入商业场景,而家庭、养老院、酒店这样的服务场景之所以重要,是因为“这种场景才能给我们提供数据的来源”。
与此同时,自变量认为家庭是最复杂、最开放的环境之一,朝着这样的复杂场景推进能力,再回头覆盖更垂直的场景,本质上是一个先做通用、再做“降维”的过程:当基模足够强时,垂类场景对模型提出的额外要求反而会下降。
而通用能力,最终还是要落回基础模型能力。
这也是为什么,具身厂商开始把目标指向“具身原生”的模型。
今天几乎所有具身公司都在讲自己的“数据金字塔”,但不同公司对金字塔底部到底该放什么,理解并不相同。
以星海图和自变量为例,两家公司都强调Egocentric data的重要性,但对这个概念的理解其实并不一样。星海图的Egocentric核心数据基座,更多是指人类第一视角视频。自变量的Egocentric数据则包括人的可穿戴设备。
王昊表示:“从自由度视角来看,Egocentric的数据完全和人的自由度一致,所有的手持式、穿戴各种设备是介于人的自由度和机器的自由度之间的形态。”
看起来这只是数据分类方法的不同,实际上对应的却是对“通用能力从哪里来”的不同判断。有人认为,先让模型拥有大量人类视角经验最重要;有人认为,要尽快获得更贴近机器人控制结构的数据;也有人更看重真机接管、遥操作和真实任务反馈。
看上去所有人都在谈数据,但真正的分歧,往往恰恰藏在对数据最底层定义的不同里!
三天时间,足够做出一个像模像样的结果。这意味着,demo不再稀缺,甚至不再可信。
真实世界需要的是基模能力的持续提升,需要真正“hands dirty”的过程——去理解模型、理解硬件、理解数据,也理解那些不会出现在视频里的失败与边界。
在这样的标准下,很多差距才刚刚开始显现。
金句: 当demo不再稀缺,真正的差距才刚刚开始显现。
互动问题: 你觉得现在的机器人demo有多少是真正具备泛化能力的?评论区聊聊你的看法!
引导语: 如果这篇文章让你对机器人行业有了新认识,别忘了点赞支持!分享给更多对AI和机器人感兴趣的朋友,一起探讨行业的真实进展!