广告

称可超越ChatGPT,微软推出新人工智能模型——Kosmos-1

2023-03-03 14:40:53 综合报道 阅读:
微软推出了 Kosmos-1,据称它是一种多模式大型语言模型 (MLLM),不仅可以对语言提示做出反应,还可以对视觉线索做出反应,可用于一系列任务,包括图像说明、视觉问题回答等等。

微软推出了 Kosmos-1,据称它是一种多模式大型语言模型 (MLLM),不仅可以对语言提示做出反应,还可以对视觉线索做出反应,可用于一系列任务,包括图像说明、视觉问题回答等等。ALSednc

OpenAI的ChatGPT帮助普及了LLM的概念,如GPT(生成性预训练转化器)模型,以及将文本提示或输入转化为输出的可能性。 ALSednc

虽然人们对这些聊天功能印象深刻,但微软的 AI 研究人员在一篇名为“Language Is Not All You Need: Aligning Perception with Language Models”的论文中表明,LLM在处理多模态输入时仍有困难,例如图像和音频提示。这篇论文认为,要超越类似于 ChatGPT 的能力,需要将感知与语言模型结合起来,在现实世界中进行多模态感知,或在现实世界中获取知识"接地气",实现人工通用智能(AGI)。ALSednc

论文说:"更重要的是,解锁多模态输入极大地拓宽了语言模型在更多高价值领域的应用,如多模态机器学习、文档智能和机器人技术"。ALSednc

微软表示,其Kosmos-1 MLLM可以感知一般模式,遵循指令(零样本学习),并在上下文中学习(少样本学习)。"论文说:"我们的目标是使感知与LLM保持一致,这样模型就能看到并说话。ALSednc

在输出演示中,Kosmos-1面对一张小猫的图像、一个人拿着一张纸、嘴角挂着微笑。提示是:“解释为什么这张照片很有趣?” Kosmos-1 的回答是: "猫咪戴着面具,让猫咪露出了笑容"。ALSednc

其他例子显示它:从一张图片中感知到网球运动员有一个马尾巴;从一张10:10的钟面图片中读出时间;从一张4+5的图片中计算出总和;根据GitHub的描述页面回答 "什么是TorchScale?"(这是一个PyTorch机器学习库);以及从一个Apple Watch的表面读取心率。ALSednc

每个例子都展示了像Kosmos-1这样的MLLM在多种情况下自动执行任务的潜力,从告诉Windows 10用户如何重新启动他们的电脑(或任何其他有视觉提示的任务),到阅读网页以启动网络搜索,解释来自设备的健康数据,为图像加上字幕,等等。然而,该模型不包括视频分析功能。ALSednc

研究人员还测试了 Kosmos-1 在零样本 Raven IQ 测试中的表现。结果发现“当前模型与成年人的平均水平之间存在巨大的性能差距”,但也发现其准确性显示了 MLLM 通过将感知与语言模型对齐来“在非语言环境中感知抽象概念模式”的潜力。 ALSednc

鉴于微软计划使用基于 Transformer 的语言模型使 Bing 成为谷歌搜索的更好竞争对手,对“网页问答”的研究很有趣。   ALSednc

“网页问答的目的是从网页中找到问题的答案。它需要模型理解文本的语义和结构。网页的结构(如表格、列表和HTML布局)起着关键作用在信息的排列和显示方式中的作用。这项任务可以帮助我们评估我们的模型理解网页语义和结构的能力,”研究人员解释道。ALSednc

ALSednc

图片:微软ALSednc

责编:Demi
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 具有双频控制的E类谐振升压DC/DC转换器 Power Electronics News分析了一个以E类双频信号驱动运行的DC/DC升压转换器。
  • 国产SSD主控芯片发布,让存算一体与可信计算兼得 忆芯科技高端企业级芯片及方案发布会在合肥举行。“集成电路是整个可信根的根。没有集成电路是不行的,尽管软件定义,但是一定要软硬结合,以硬件为根。”沈昌祥院士认为。
  • A17 Bionic最新基准测试曝光,多核性能比早期结果慢11%? 据称网上出现了A17 Bionic的新性能数据,显示它在多核工作负载中比之前曝光的数据慢了11%,所谓的Geekbench 6分数是由Revengus发现的,他在韩国网站DCInside上偶然发现了新的A17 Bionic数字。通过下面给出的图片,苹果的第一个3纳米SoC在单核和多核结果中获得了3,019分和7,860分,值得一提的是,此前曝光的基准测试数据单核和多核分数分别为3,986和8,841。
  • 一种高性能半导体材料可以帮助减少热量排放 研究团队创造了一种氧化物陶瓷材料,解决了长期困扰热电发电机的效率问题。这些设备可以从热能中发电,包括发电厂的热能排放,这导致了全球变暖。
  • 三星也玩“P”月亮,“空间变焦”技术被指造假 很多网友一定已经看过三星 Galaxy S23 Ultra 的视频广告了,一位女士拍摄了一张月球的详细照片——陨石坑等等,她对面的邻居握着望远镜问道:“Can you send me that?”。而这段视频,也被一位网友指认为三星“空间变焦”(Space Zoom)登月照片造假的证据。
  • AC/DC电源尺寸在继续缩小 无论AC/DC电源是开放式还是封闭式,甚至是台式适配器,用于医疗应用和工业应用的最新电源设备都有一些共同点:它们提供了更小的解决方案尺寸并实现了更高的功率密度,同时提供更高的效率。
  • 从“吸血鬼设备”中节省家庭用电 家用电器浪费了大约20%的电力。这些能源吸血鬼有可能通过减少不断增长的需求来节省资金和能源。
  • 激光显示的四大核心器件国产化进程:自研芯片技术亟待提 激光显示的四大核心器件国产化程度从高到低依次为抗光幕布、激光光源、镜头、光成像芯片。技术突破下,预计未来3-5年内激光产业链国产化程度从45-55%提高至75%-80%,实现从技术领先到产业领先的跨越。
  • 中国科学家刷新纪录,达成百兆比特率的实时量子密钥分发 近日,中国科学技术大学潘建伟、徐飞虎等与上海微系统所、济南量子技术研究院、哈尔滨工业大学等单位的科研人员合作,通过发展高保真度集成光子学量子态调控、高计数率超导单光子探测等关键技术,首次在国际上实现百兆比特率的实时量子密钥分发,实验结果将此前的成码率纪录提升一个数量级。
  • PUF技术进展:可省去ID注册阶段的新PUF IP问世 物理不可克隆功能(physically unclonable function, PUF)技术运用了简单、经济高效且灵活、无需存储密钥的方式,建立信任根(Root of Trust)。然而,当PUF应用于替芯片产生特定密钥,还要确保不同芯片间ID的低重复率仍具有挑战性... 
  • 磁子电子学新突破,可用于芯片和雷达的光诱导磁子态 日前,据上海科技大学官网消息,上海科技大学物质科学与技术学院陆卫教授课题组在光子-磁子相互作用及强耦合调控方向取得重要进展。研究团队首次在铁磁绝缘体单晶中发现了一种全新的磁共振,命名为光诱导磁子态(pump-induced magnon mode, PIM)。
  • 原子钟在数据中心的作用:原子从对数据造成不利影响到带 利用原子钟授时现已成为数据中心不可或缺的组成部分。目前,通过全球定位系统(GPS)和其他全球导航卫星系统(GNSS)网络传输的原子钟时间已使全球各地的服务器实现了同步,并且部署在各个数据中心的原子钟可在传输时间不可用时保持同步。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了