在经历了AI大模型的爆发之后,人类迎来了另一个科技革命的前夜——人形机器人(Humanoids)。
摩根士丹利最新研报指出,到2050年,全球人形机器人市场年收入有望达到4.7万亿美元,累计部署量达10亿台。这一体量几乎是当前全球汽车产业的两倍,预示着“物理AI”将成为未来几十年最具颠覆性的产业浪潮。
在这一颠覆性浪潮中,中国不仅有机会成为最大应用市场,更可能凭借完备的制造体系、工程人才储备和成本控制能力,在核心零部件、自主操作系统与工程集成能力上实现“由量到质”的跃迁。
我们跟着大摩的这篇报告,一起剖析技术发展路径与产业实现逻辑,系统分析中国能否在这一“物理AI革命”中成为最大赢家。
工程起点:
为什么是人形机器人?
在机器人发展历史中,“形态”的选择始终围绕功能性与成本权衡展开。
与轮式或履带式机器人相比,人形形态的最大价值,在于其对人类环境的通用适应性:楼梯、门把手、工具、座椅、驾驶舱等均为人类设计,人形结构几乎无需改造环境即可部署。
这意味着,在未来融合了VLA(Vision-Language-Action)模型的通用智能后,人形机器人将具备“即插即用”的潜能。
工程挑战:感知-理解-执行的闭环
人形机器人的核心挑战不是能否造出双腿、手臂,而是如何构建完整的“感知-理解-动作”闭环。
工程上这意味着:
从工程实现路径看,当前产业正处于技术进步期(2025–2035),关键在于打通各子系统耦合瓶颈,逐步向高度集成化、低功耗、低延迟、高冗余容错结构演进。
成本转折点:从实验平台向消费品转化
当前人形机器人BOM成本高达5万~20万美元,主要卡在“柔性执行系统 + 智能模型融合”两个点。
但随着下列趋势推进,行业将在2035年前后触达“拐点”:
这将使人形机器人在商业场景(制造/物流/客服)中达到TCO拐点,进入批量部署期(2035–2045),并于2045年后进入家庭端普及期。
价值链解构:
谁控制“大脑”,
谁占据“制造高地”?
摩根士丹利提出,人形机器人的产业结构由“大脑”模型、“身体”硬件及集成控制系统三部分组成。在工程实现维度上,每一层都存在“成本-性能-通用性”之间的技术权衡。
机器人模型:从VLM到VLA的通用化演进
当前VLA(视觉-语言-动作)模型的构建路径在架构思路上与大语言模型(LLM)有一定共性,但在工程实现上提出了更为复杂的要求。
这类模型不仅需要融合3D视觉输入、语言语义理解,还需集成多目标路径规划能力,以支撑机器人在真实环境中的智能行为。
数据采集高度依赖“真实物理交互”,其成本远高于传统文本或图像数据的获取;更重要的是,模型必须能够适配硬件反馈机制,实现在100毫秒以内的“感知-决策-动作”闭环控制,对实时性和系统协同提出极高要求。
从工程角度看,目前仍面临多重挑战:
中国企业如优必选、傅利叶、小米等已开始布局自主VLA模型训练,并结合寒武纪、地平线、华为昇腾等国产芯片进行边缘推理优化,初步形成技术积累。
相较于英伟达的GR00T和谷歌Gemini Robotics等国际领先方案,仍存在代际差距,核心问题在于跨模态统一数据集的建设滞后以及工程优化工具链的积累不足,这将成为下一阶段突破的关键方向。
集成制造系统:软硬协同是核心壁垒
机器人并非简单的“硬件堆砌”,真正的竞争力在于系统级的深度集成与工程化能力。当前,领先的机器人企业正从机构设计、动作控制、供电与热管理、冗余与安全机制等多个维度构筑工程护城河。
目前,国际领先企业如特斯拉Optimus、Apptronik与Agility Robotics普遍采用模块化设计理念,提升系统的可迭代性与场景适应力。
相比之下,中国厂商亟需补强“运动控制系统”这一长期短板,重点发展具备高带宽、抗干扰与快速响应能力的闭环控制系统,推动软硬实时协同,从而实现从硬件到系统层面的全面突破。
核心零部件:中国制造的“反击战场”
在人形机器人核心部件的设计与选型中,减速器、丝杠电机和力/扭矩传感器是决定整机性能的关键环节。
从工程突破到产业跃迁,中国应扮演怎样的角色?
人形机器人产业的核心不是“是否能造出一个机器⼈”,而是“能否以产业化逻辑,大规模造出可靠、安全、经济的人形机器人”。
这要求国家与企业在以下三个维度协同布局: