具身智能、人形机器人领域在模型端比如在视觉-语言-动作(Vision-Language-Action,VLA)模型、预训练阶段在过去一年里有明显提升,但一旦进入真实场景,机器人能否稳定、高效、长时间地完成具体任务,仍然是一个问号。1月6日,智元机器人具身研究中心对外发布SOP(ScalableOnlinePost-training:可扩展的在线后训练,下简称“SOP”)——一套面向真实世界部署的在线后训练系统。
值得注意的是,这是一套通用的机器人框架,可以即插即用地使用任意后训练算法。通俗地来理解,SOP提供的是一套“底座系统”,不同的训练方法都可以放到这套系统里运行。

智元机器人合伙人、高级副总裁兼首席科学家罗剑岚7日在接受包括澎湃科技(www.thepaper.cn)表示,“SOP框架是机器人迈向真实世界场景作业的第一步,也是关键一步。如果这一步做不稳,后面所有的探索都是空谈。”
要让机器人在真实场景里大规模运行,通用机器人必须同时满足两个看似矛盾的要求:在复杂多变的环境中保持稳定性与可靠性、在处理差异巨大的任务时,仍具备良好的泛化能力。
在传统路径中,机器人通常经历“开发—训练—部署—结束”的单向流程:模型在实验室训练完成后被部署到现实环境,一旦遇到新问题,往往需要重新回到离线训练阶段。
当前主流的VLA预训练模型,虽然已经具备了强大的通用性,但真实世界的部署受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减,往往需要通过后训练获得更高的任务成功率。
而SOP试图打破这条传统路径。SOP的核心目标是,让机器人在真实世界中实现分布式、持续地在线学习,即边干活、边学习、边纠错。
罗剑岚告诉澎湃科技,在这套训练与运行框架下,让机器人执行越难的任务,越容易产生价值高的负面数据。

为验证SOP的效果,智元研究团队让模型在真实环境中连续运行长达36小时,执行重复的衣物折叠任务。
相比预训练模型,结合SOP的HG-Dagger(Human-GuidedDAgger:人类引导的交互式模仿学习方法)人类引导的方法在物品繁杂的商超场景中实现了33%的综合性能提升。比如在商超补货、叠衣服、纸盒装配等任务上均取得了明显的提升。
对于灵巧操作任务,比如叠衣服和纸盒装配,SOP的引入不仅提升了任务的成功率,结合在线经验学习到的错误恢复能力,还能明显提升策略操作的吞吐量。更重要的是,这些任务始终使用的是同一个通用模型。
在具体的落地应用层面,罗剑岚认为,不同场景有不同程度的落地难度。
工业制造场景对机器人的泛化性要求较少,但对整体作业完成的成功率、节拍和鲁棒性要求非常高;家庭服务和商业超市场景尽管对作业完成的成功率和性能不严苛,但场景更加开放、长尾任务更多,但风险相对可控;医疗护理则对安全、合规和可解释性提出了最高要求,需要从辅助性场景逐步切入。
罗剑岚表示,现阶段最容易落地且能明确产生商业价值的场景是工业制造和部分商业服务场景。2026年会在商业超市和部分家庭场景慢慢铺开落地。