广告

辅助驾驶从VLM与VLA:2025年下半年的核心转变

2025-04-29 汽车电子设计 阅读:
在2025年,我们看到VLA通过3D高斯表征、MoE架构和Diffusion模型,实现了高效的空间理解、逻辑推理和轨迹生成,英伟达的Thor芯片、NVIDIA Cosmos世界模型和NRE引擎为VLA提供了强大的算力支持和仿真环境,加速了技术从实验室到量产的转化。

 CPLednc

 CPLednc

辅助驾驶技术正从基于规则和模块化的传统范式,迈向由视觉语言模型(VLM)和视觉-语言-动作模型(VLA)驱动的新阶段。CPLednc

 CPLednc

● VLM作为车辆的“认知核心”,通过统一处理多模态感知数据和自然语言信息,使车辆能够理解复杂的交通场景、遵守抽象的交通规则并响应人类指令。CPLednc

 CPLednc

● VLA则在VLM的理解基础上,深度融合感知、理解与车辆控制,实现端到端、拟人化的驾驶行为。CPLednc

 CPLednc

01
 

从VLM到VLACPLednc

传统的自动驾驶依赖精确的环境建模和规则编程,难以应对现实世界的复杂性与模糊性。CPLednc

视觉语言模型(VLM)旨在解决这一问题,构建车辆的“认知核心”。CPLednc

VLM的关键在于能够统一处理来自摄像头、激光雷达等传感器的感知数据,以及交通规则文本、导航信息、自然语言指令等语言数据。通过强大的模型架构,VLM能将这些异构信息编码到共同的特征空间,实现跨模态的关联与推理CPLednc

这使得车辆不仅仅是识别障碍物,更能理解场景的深层含义,例如识别特定标志牌并结合交通法规判断当前行为是否合法,或理解用户“靠边停车”的语音指令并规划执行。CPLednc

● VLM的应用广泛,例如:CPLednc

◎ 场景语义解析: 识别并理解“潮汐车道”、“施工绕行”等复杂交通语境,生成符合规则的驾驶决策。CPLednc

◎ 智能人车交互: 理解自然语言指令(如“切换驾驶模式”),或识别视觉兴趣点(如充电桩)并与之关联。CPLednc

◎ 高阶安全判断: 分析复杂场景(如无保护左转)下潜在风险,辅助决策。CPLednc

实现这些能力需要强大的计算支持,VLM的出现,让自动驾驶系统从“看清”迈向“看懂”,是实现更高层级自主性的前提。理解世界仅仅是第一步,将理解转化为恰当的行动是自动驾驶的最终目标。CPLednc

视觉-语言-动作模型(VLA)正是负责这一转化过程,实现从感知、理解到车辆控制的端到端连接。VLA将来自VLM或其他感知模块的环境理解,与车辆的转向、加速、制动等控制指令深度耦合,学习直接从输入到输出的映射。CPLednc

它形成了一个端到端(End-to-End)的闭环接收感知和语言输入,内部进行决策,直接输出控制信号。这种模式简化了传统系统的复杂层级,有望提升系统整体响应速度和鲁棒性。CPLednc

采用Diffusion模型生成驾驶轨迹,并结合ODE采样器优化规划过程,显著提升了轨迹生成质量和复杂路况下的博弈能力,这代表了VLA在行为生成层面的重要进展。CPLednc

VLM和VLA并非孤立工作,而是紧密协同, VLM理解场景、规则和指令,为VLA提供宏观的驾驶意图和策略指导(例如:根据导航规划变道、识别危险需避让)。 CPLednc

VLA根据VLM的指导和实时的感知信息,生成并执行精确的车辆轨迹和控制动作。VLA的执行结果(成功或失败)可作为反馈,反向优化VLM对场景的理解和决策逻辑,形成持续学习的闭环。CPLednc

02
 

VLA+英伟达Thor,CPLednc

“空间智能体”CPLednc

在导入VLA的状态中,理想汽车是很快的。MindVLA(视觉-语言-行动模型)开始向融合空间智能、语言智能和行为智能的物理人工智能迈进。CPLednc

围绕3D空间理解、高效模型架构、增强逻辑推理、优化轨迹生成、高精度仿真以及卓越泛化能力,让车辆具备感知、思考和自主行动的能力。CPLednc

● 3D高斯(3D Gaussian)作为核心中间表征,这是其空间智能的基础。CPLednc

 CPLednc

与传统的点云或体素表示相比,3D高斯能同时捕捉物体的几何形状和外观信息,具有更强的语义表达能力和多粒度、多尺度的几何表达灵活性。这使得系统能更全面、高效地感知和理解复杂的3D环境。CPLednc

结合海量数据上的自监督学习,系统能自动从无标注数据中提取有效的3D特征,大幅提升环境感知的精度和效率,为后续决策奠定坚实基础。CPLednc

为了在计算资源有限的车端环境运行大规模模型,采用了MoE(Mixture of Experts)架构并引入稀疏注意力(Sparse Attention)CPLednc

MoE允许模型在拥有庞大参数量的同时,针对特定输入只激活部分“专家”网络,实现计算的稀疏化,从而在不牺牲模型规模的前提下,维持较高的端侧推理效率。CPLednc

● 逻辑推理能力是提升的核心,通过训练LLM基座模型学习人类思考模式,并有机结合**“快思考”(实时响应)和“慢思考”(深度推理),模型能根据不同驾驶情境灵活切换决策模式,提升决策的安全性和合理性。CPLednc

同时,为了最大化利用NVIDIA Drive AGX算力,小词表、投机推理和并行解码等技术,结合英伟达的推理优化,实现了高达7倍的推理效率提升,确保复杂推理也能满足实时性要求。CPLednc

● 扩散模型(Diffusion Model)优化驾驶轨迹,以生成高质量复杂数据闻名,应用于轨迹生成有望生成更平滑、更自然、更具博弈性的驾驶路径。通过自车行为生成与他车轨迹预测的联合建模,系统能更好地预测交通参与者的行为并进行合理应对。CPLednc

通过构建人类偏好数据集并引入RLHF(基于人类反馈的强化学习)微调,能更好地对齐人类驾驶习惯,显著提升复杂和极端场景下的安全底线。CPLednc

NVIDIA Drive AGX平台和生态的支撑,在世界模型、NRE、模型训练加速以及端侧优化部署等领域的技术进展。CPLednc

小结
在2025年,我们看到VLA通过3D高斯表征、MoE架构和Diffusion模型,实现了高效的空间理解、逻辑推理和轨迹生成,英伟达的Thor芯片、NVIDIA Cosmos世界模型和NRE引擎为VLA提供了强大的算力支持和仿真环境,加速了技术从实验室到量产的转化。
责编:Ricardo
文章来源及版权属于汽车电子设计,EDN电子技术设计仅作转载分享,对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如有疑问,请联系Demi.xia@aspencore.com
汽车电子设计
博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了