11月3日,智元创新(上海)科技有限公司(简称:智元机器人)对外宣布该公司研发的真机强化学习技术,首次实现从学术论文阶段走向工业应用,目前在与龙旗科技合作的验证产线中成功落地。相关第三方可验证的实验数据将在后续部署中公布。

智元展示此次落地的真机强化学习方案 。

真机强化学习(Real-World Reinforcement Learning)技术是指,让AI算法直接在真实物理设备上进行强化学习(RL)训练的技术。简单来说,它让机器人不只在虚拟仿真环境里学会策略,而是直接在真机上通过试错学习最优行为。

国外多项学术研究显示,强化学习在工业机器人中的应用具有巨大潜力,但从仿真环境到真机再到工业规模的稳定部署仍面临较多挑战,在机器人研究领域,目前更多的是停留在研究阶段,并未大规模走向工业产线应用。

据了解,这项真机强化学习技术,可让机器人在真实产线中自主学习、持续优化作业策略,新技能训练与稳定部署仅需数十分钟,且性能全程不降级。在换线、换型或流线调整时,该系统只需最小的硬件改动和标准化部署流程,即可显著提升柔性、压缩部署时间与成本。

智元机器人合伙人、首席科学家罗剑岚告诉澎湃科技(www.thepaper.cn),目前这套方案已进入常态化作业状态,最大的突破点在于其性能真正将AI模型部署在工厂中,实现100%的准确率。在联调机制下,落地工业产线的故障率已经被控制在产线验收范围内。

罗剑岚称,工业产线较为保守,传统自动化设备在具有不确定性的场景下,难以同时兼顾高精度、高成功率和通用性,而真机强化学习技术能更好地解决这一问题。真机强化学习技术约80%将应用于集中上下料与柔性换线环节。

长期以来,精密制造产线面临刚性瓶颈。传统机械臂依赖复杂夹具设计与场地改造,调试周期长、换型成本高;“视觉+力控”等柔性方案虽有改进,却存在参数敏感、部署复杂等问题,难以适配消费电子行业高频产品迭代需求。

相较于传统方案,真机强化学习技术具备三大核心优势:极速部署、超高适配和柔性换型,可在不同工位和产品线上快速迁移与复用。其训练周期从“数周”缩短至“数十分钟”,效率实现指数级提升;自主克服来料位置偏差、尺寸公差等扰动,在长周期运行中持续保持工业级稳定性与100%任务完成率。

不过,相较于仿真学习,真机强化学习技术或面临成本高昂等问题。在成本控制方面,罗剑岚表示,真机强化学习技术的优势体现在两方面:显性成本方面直接与产能挂钩,提升了生产效率;隐性成本方面,具有高模块化、高柔性率特征,在不同工序间切换非常便捷,只需极小程度的硬件调整。

罗剑岚强调,“随着经验的积累,这一系统在新产线上部署会更快,成本也会越来越低。”他表示,这是一套可管理、可复制、可拓展的工具,未来会将其打造成通用模板进行推广,像搭乐高积木一样,从3C逐步扩展到汽车、家电、医疗等领域。

澎湃新闻记者 喻琰 实习生 赵蕊