广告

机器人版的ChatGPT,谷歌新模型泛化能力大幅提高

2023-07-31 17:41:27 综合报道 阅读:
7月28日,Google DeepMind宣布以训练AI聊天机器人的方式训练了一款全新的机器人模型Robotic Transformer 2(RT-2),这是一种新颖的视觉-语言-动作(VLA)模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。

7月28日,Google DeepMind宣布以训练AI聊天机器人的方式训练了一款全新的机器人模型Robotic Transformer 2(RT-2),这是一种新颖的视觉-语言-动作(VLA)模型,可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。g2Cednc

g2Cednc

据了解,RT-2机器人项目,是去年年底发布的RT-1的迭代版本,与前代模型相比,这一代模型的泛化能力有所提高,在新的、未见过的任务上表现更好。简单来说,RT-2不但可以理解人类发出的直接指令,还可以对人类的指令进行推理,并将其转变为机器人能理解的控制指令,从而分阶段的完成任务,比如“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这些指令,RT-2都可以很好的完成。g2Cednc

而RT-2之所以可以顺利的完成这些抽象概念的任务,主要归功于其具备三大能力:符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition):g2Cednc

  • 符号理解是指RT-2可以从视觉语言预训练中转移语义知识,直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有“红牛”,但它却能从大模型的知识中理解并掌握“红牛”的外貌,并拿取物品,其他示例还包括“将苹果移到3号位置”或“将可乐罐推到心形上”。
  • 推理是RT-2的核心优势,它将高容量视觉语言模型(VLM)的各种推理能力用于任务控制,要求机器人掌握数学、视觉推理和多语言理解三大技能。如“将香蕉放到2+1的总和的位置”(数学推理)、“将苹果移到相同颜色的杯子里”(视觉推理)、用西班牙语发命令“mueve la manzana al vaso verde”(多语言理解)。
  • 人类识别是以人类为中心的理解和识别能力,RT-2可以完成“将可乐递给Taylor Swift”这类任务。

g2Cednc

根据介绍,在符号理解、推理和人类识别这三个细分能力上,RT-2比RT-1和另一种视觉预训练方法Visual Cortex(VC-1)要好得多,性能最高是其他方法的3倍以上。泛化能力评估上,通过与多个基线模型的多类细分测试,表明RT-2性能提高了大约2倍。同时,研究人员在机器人任务的开源Language Table套件上进行评估,模拟中实现了90%的成功率,高于之前的基线,包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。g2Cednc

责编:Ricardo
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了