广告

具身智能走向规模化的三大核心技术:算法、数据到控制器

2025-05-22 汽车电子设计 阅读:
具身智能正在从实验室模型逐步迈向规模化应用的边缘。
 

具身智能正成为人工智能走向真实世界的关键载体,本质是将认知智能与物理执行系统深度融合,使机器能够通过感知、理解与行动协同完成任务。6klednc

◎ 在算法层面,上层模型主导语义理解和任务规划,下层控制聚焦高频率、高精度的运动执行;
◎ 数据方面,从真实世界的动作捕捉到仿真生成与网络视频预训练构建出多维训练闭环;
◎ 硬件则以SoC为基础,形成面向AI决策与实时控制的双层控制器架构。

我们聚焦当前具身智能产业链中关键技术环节,从算法演化、数据来源、控制器演进等核心路径展开剖析,分析其所面临的技术挑战与产业落地路径。6klednc

 6klednc

01
 

  具身智能的核心:6klednc

算法框架的分层演进6klednc

具身智能的算法结构可理解为“大脑”与“小脑”的协同。大脑模型处理感知输入与语义意图,小脑则负责将抽象任务翻译为具体动作。6klednc

在上层控制中,VLA(视觉-语言-动作)模型逐渐成为标准路径,其基本逻辑是将自然语言指令转化为操作动作,完成从语义到运动的跨模态映射。6klednc

Google DeepMind在RT系列中探索了这种路径的可能性。RT-2引入视觉语言模型预训练能力,使机器人具备对复杂任务和人类行为的推理能力,RT-X则通过多机器人多任务训练实现泛化扩展。6klednc

国内方案如智元启元大模型则采用ViLLA结构,融合多模态输入与隐式动作规划器,在小样本任务上展现出良好迁移性。6klednc

上层算法快速演进,三大技术难题仍在制约其工程落地。6klednc

◎ 其一,缺乏大规模真实机器人交互数据,使得训练数据不足成为制约模型泛化的重要瓶颈;
◎ 其二,长时任务中的动作编排依赖清晰的层级规划与状态记忆能力,现有模型在复杂任务的阶段切换与错误恢复上表现仍不稳定;
◎ 其三,虚拟环境训练的策略无法直接迁移至真实世界,面对物理环境中的摩擦、阻力等微小扰动,往往会出现操作失败。

在下层控制中,MPC与WBC等经典控制算法仍被广泛采用。6klednc

这些方法依赖明确的动力学建模与目标轨迹优化,适合结构清晰的任务场景。6klednc

◎ Agility Robotics在Cassie双足机器人上采用MPC控制框架,在地形稳定性控制中实现良好性能。

然而,在不确定环境下,强化学习(RL)逐渐成为补充路径。6klednc

◎ 波士顿动力通过模拟环境中的RL训练,使Atlas具备复杂地形适应能力。
◎ 宇树G1机器人所使用的BeamDojo系统,则通过密集奖励函数对不规则地面行走策略进行优化,有效提升复杂场景下的运动成功率。
相比之下,模仿学习(IL)为解决稀疏反馈问题提供了另一思路。
◎ 字节GR-2模型利用互联网上的视频资源进行大规模预训练,结合少量真实数据微调,显著提高了任务执行的准确率。
02
 

  数据飞轮:6klednc

驱动模型迭代的核心要素6klednc

具身智能的学习能力根基于高质量数据,当前数据获取策略呈现出以真实数据为核心、合成数据为补充、网络数据为增量的三层体系。真实数据是构建物理交互模型的基础,尽管采集成本高,但其精度与语义丰富性仍无法被仿真替代。6klednc

遥操作系统已成为主流采集方式。6klednc

◎ Mobile ALOHA系统通过VR与姿态映射同步人类动作,实现高质量的机械臂控制示教。
◎ 智元的AgiBot World平台则利用全身动捕系统,在多样化场景中采集大量原子级别的运动轨迹,构建用于下游模型训练的数据集。
◎ 动作捕捉方面凌云光FZMotion系统可实现亚毫米级精度,用于桌面操作等高精度需求;
◎ 诺亦腾惯性系统则在动态遮挡条件下具备稳定性,适合大范围活动记录。
◎ 特斯拉Optimus的训练体系融合了上述两类捕捉方案,构建了完整的行为数据获取系统。

采集效率仍是硬约束因素。6klednc

单机器人每日仅能产生不足24小时的高质量数据,且采集场景受限于物理空间与人力投入。6klednc

因此,数据增强策略成为提质增效的重要路径。GR-2通过多视角模拟与背景扰动生成更多样本,使得模型在未见场景下的成功率提高了约30%。6klednc

合成数据以其高效性与成本优势,成为训练数据量扩展的主要方式。6klednc

◎ NVIDIA Omniverse通过域随机化机制模拟不同环境特征,并结合轨迹拼接技术实现演示数据的规模放大。
◎ 在MimicGen系统中,数倍于原始演示的数据被构造出来用于模型训练,合成数据存在策略迁移率偏低的问题,但借助对抗训练等域自适应算法,可以有效缩小仿真与现实之间的行为差异。

网络视频数据则补充了长尾行为模式。6klednc

◎ RT-2利用开源视频数据获得对物体属性与人类意图的基本理解;
◎ OpenVLA将大量真实演示与视频数据融合,显著提升了模型的指令理解能力。
问题在于此类数据往往缺乏结构化标注,需经过去重、剪辑与语义标注等预处理环节方能用于训练,采用自监督方法对非结构化视频进行动作特征提取,使得数据利用效率大幅提升。
03
 

  机器人控制器:6klednc

具身智能的硬件基座6klednc

控制器承担着“大脑”与“小脑”之间的桥梁功能,支持从感知到决策再到执行的全链路运算过程。6klednc

6klednc

控制器的硬件架构以SoC芯片为核心,软件平台则需要具备实时性与可扩展性。6klednc

 大脑控制器要求处理图像、语言与任务规划等复杂计算,主流方案普遍采用异构架构,例如Jetson AGX Orin所提供的275 TOPS算力,已能满足高精度视觉与大语言模型的运行需求。6klednc

国产方案如旭日5、瑞芯微RK3588,在算力与功耗之间找到平衡,在部分轻量级机器人系统中得到应用。6klednc

● 小脑控制器需要微秒级中断响应,以支持双足、人形等高动态控制需求。6klednc

◎ 国讯芯微的NSPIC-R006NP+控制器通过多核设计与并行执行能力,提供了足够的执行实时性。
接口设计是控制器实用性的关键因素。
◎ 天准星智001平台集成多路USB与雷达传感器接入能力,并内置4G/5G通信模块,为边缘计算与云端交互提供保障。
◎ 地平线RDK S100具备百TOPS级算力与多模态接口资源,支持复杂控制场景下的数据融合处理。

在软件栈方面,Linux/ROS由于生态成熟成为通用平台,但面对工业级实时控制需求,微内核架构的RTOS逐渐被采纳。6klednc

◎ 鸿道Intewell系统通过虚拟化手段提升多任务响应能力,并兼容ROS算法模块,增强平台通用性。
◎ 黑莓QNX则因其稳定性在工业应用中得到广泛部署,天准星智与QNX合作,推出针对机器人任务优化的嵌入式平台,强化了系统鲁棒性。

当前整合企业逐步向自研控制器方向转型,以实现软硬件深度耦合。6klednc

◎ 特斯拉在Optimus上搭载自研FSD芯片与Dojo训练系统,从训练到执行实现闭环;
◎ 控制器产业正处于由集成到分层协作转变的阶段,与自动驾驶域控制器的发展路径呈现相似趋势。
小结
具身智能正在从实验室模型逐步迈向规模化应用的边缘。
在算法方面,上层语言规划与下层运动控制的结合为通用能力提供了初步结构,RT-X、Helix等双层架构正在验证其泛化与实时性能;
数据层面,围绕真实采集与合成生成的数据闭环体系开始形成,数据的自进化能力成为模型迭代的基础;
硬件侧,SoC芯片与控制器平台逐步形成大脑-小脑的硬件协同系统,为算法部署与执行效率提供了有力保障。
具身智能将逐步向算法融合、数据闭环与硬件革新三大方向演进。
未来,具身系统不再是单体智能的集合,而是多智能体系统中的有机节点。在AI与机器人技术全面融合的路径中,具身智能所代表的“通用物理智能体”形态,正成为推动产业边界扩展的重要力量。
责编:Ricardo
文章来源及版权属于汽车电子设计,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子设计
博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了