广告

超越英伟达的,不会是另一款GPU——鲲云数据流架构AI芯片利用率提升10倍以上

2020-06-26 09:35:32 Challey 阅读:
跨界竞争不仅仅存在与商业模式中,技术体系的创新也能带来跨界竞争。AI行业的GPU竞争就是一例。鲲云数据流架构AI芯片利用率提升10倍以上,在AI芯片高端领域开启了性能大比拼

跨界竞争不仅仅存在与商业模式中,技术体系的创新也能带来跨界竞争。AI行业的GPU竞争就是一例。B2vednc

AI芯片领域的GPU一直采用传统的冯诺依曼架构,即串行指令集架构。B2vednc

B2vednc

这是指令集架构图,它的优点是可控制性强,缺点是芯片需要根据指令进行运算并等待结果才能执行下一个指令,因此有高延时,芯片利用率低的缺点。B2vednc

理论的数据流架构如下:B2vednc

B2vednc

B2vednc

数据流架构的特点是:计算单元无需等待,无冗余指令,线性性能大幅提升。B2vednc

因此采用数据流架构的芯片能够同时解决冯诺依曼指令集架构中的芯片利用率低和延时高的问题,可以说:鱼与熊掌兼得,这是技术创新带来的好处。B2vednc

6月23日,鲲云科技在深圳发布了自主研发的AI芯片CAISA,这款芯片就是基于数据流架构,也是全球首款数据流架构AI芯片。它的定位是高性能AI推理,并已经完成量产。B2vednc

 B2vednc

CAISA的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯片利用率上最高可提升11.6倍。第三方测试数据显示仅用1/3的峰值算力,CAISA芯片可以实现英伟达T4最高3.91倍的实测性能。鲲云科技的定制数据流技术不依靠更大的芯片面积和制程工艺,通过数据流动控制计算顺序来提升实测性能,为用户提供了更高的算力性价比。B2vednc

超高芯片利用率,定制数据流芯片架构完成3.0升级B2vednc

CAISA 定制数据流芯片架构,相较于上一代芯片架构,CAISA3.0在架构效率和实测性能方面有了大幅的提升,并在算子支持上更加通用,支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度选择,架构的可拓展性大大提高,在AI芯片内,每一个CAISA都可以同时处理AI工作负载,进一步提升了CAISA架构的性能,在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率,实测性能线性提升。同时新一代CAISA架构对编译器RainBuilder的支持更加友好,软硬件协作进一步优化,在系统级别上为用户提供更好的端到端性能。B2vednc

B2vednc

CAISA3.0架构图B2vednc

CAISA3.0架构继续保持在数据流技术路线的全球领先地位,指令集架构采用冯诺依曼计算方式,通过指令执行次序控制计算顺序,并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元,并采用动态配置方式保证对于人工智能算法的通用支持,突破指令集技术对于芯片算力的限制。此次升级,CAISA架构解决了数据流架构作为人工智能计算平台的三大核心挑战:B2vednc

  1. 高算力性价比:在保持计算正确前提下,通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限,让芯片内的每个时钟、每个计算单元都在执行有效计算;
  2. 高架构通用性:在保证每个算法在CAISA上运行能够实现高芯片利用率的同时,CAISA3.0架构通用支持所有主流CNN算法;
  3. 高软件易用性:通过专为CAISA定制的编译工具链实现算法端到端自动部署,用户无需底层数据流架构背景知识,简单两步即可实现算法迁移和部署,降低使用门槛。

具体来讲,鲲云CAISA3.0架构的三大技术突破主要通过以下的技术方式实现:B2vednc

  1. 高算力性价比:时钟级准确的计算

CAISA3.0架构由数据流来驱动计算过程,无指令操作,可以实现时钟级准确的计算,最大限度的减少硬件计算资源的空闲时间。CAISA3.0架构通过数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求。上述设计使CNN算法的计算数据在CAISA3.0内可以实现不间断的持续运算,最高可实现95.4%的芯片利用率,在同等峰值算力条件下,可获得相对于GPU 3倍以上的实测算力,从而为用户提供更高的算力性价比。B2vednc

  1. 高架构通用性:流水线动态重组

CAISA3.0架构可以通过流水线动态重组实现对不同深度学习算法的高性能支持。通过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、局部数据流网、局部数据流缓存的分层设计,在数据流配置器控制下,CAISA架构中的数据流连接关系和运行状态都可以被自动化动态配置,从而生成面向不同AI算法的高性能定制化流水线。在保证高性能的前提下,支持用户使用基于CAISA3.0架构的计算平台实现如目标检测、分类及语义分割等广泛的人工智能算法应用。B2vednc

  1. 高软件易用性:算法端到端自动化部署

B2vednc

RainBuilder架构图B2vednc

专为CAISA3.0架构配备的RainBuilder编译工具链支持从算法到芯片的端到端自动化部署,用户和开发者无需了解架构的底层硬件配置,简单两步即可实现算法快速迁移和部署。RainBuilder编译器可自动提取主流AI开发框架(TensorFlow,Caffe,Pytorch,ONNX等)中开发的深度学习算法的网络结构和参数信息,并面向CAISA结构进行优化;工具链中的运行时(Runtime)和驱动(Driver)模块负责硬件管理并为用户提供标准的API接口,运行时可以基于精确的CAISA性能模型,实现算法向CAISA架构的自动化映射,同时提供可以被高级语言直接调用的API接口;最底层的驱动可以实现对用户透明的硬件控制。RainBuilder工具链使用简单,部署方便,通用性强,可以让用户快速和低成本的部署和迁移已有算法到CAISA硬件平台上。B2vednc

首款量产数据流AI芯片,CAISA带来AI芯片研发新方向B2vednc

B2vednc

CAISA芯片B2vednc

作为全球首款采用数据流技术的AI芯片,CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA引擎提供超过340Gbps的带宽。B2vednc

B2vednc

CAISA芯片架构图B2vednc

作为一款面向边缘和云端推理的人工智能芯片,CAISA可实现最高95.4%的芯片利用率,为客户提供更高的算力性价比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通过数据流网络中算子的不同配置和组合,CAISA芯片可支持绝大多数的CNN算法。针对CAISA芯片,鲲云提供RainBuilder 3.0工具链,可实现推理模型在芯片上的端到端部署,使软件工程师可以方便的完成CAISA芯片在AI应用系统中的集成。B2vednc

B2vednc

鲲云科技创始人牛昕宇发布全球首款数据流AI芯片B2vednc

高算力性价比的AI计算平台星空加速卡系列产品发布B2vednc

B2vednc

星空加速卡系列产品图B2vednc

发布会上,鲲云科技创始人和CEO牛昕宇博士还发布了基于CAISA芯片的星空系列边缘和数据中心计算平台,X3加速卡和X9加速卡,并公布了由人工智能产业技术联盟(AIIA)测试的包括ResNet-50, YOLO v3等在内的主流深度学习网络的实测性能。B2vednc

星空X3加速卡发布B2vednc

星空X3加速卡是搭载单颗CAISA 芯片的数据流架构深度学习推断计算平台,为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格特点,X3加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等,满足边缘和高性能场景中的AI计算需求。相较于英伟达边缘端旗舰产品Xavier,X3可实现1.48-4.12倍的实测性能提升。B2vednc

CAISA X3B2vednc

XavierB2vednc

X3 vs XavierB2vednc

模型名称B2vednc

网络来源B2vednc

数据集B2vednc

吞吐(batch=4,FPS)B2vednc

延时(batch=4, ms)B2vednc

芯片利用率B2vednc

模型名称B2vednc

网络来源B2vednc

数据集B2vednc

吞吐(batch=128,FPS)B2vednc

延时(batch=128, ms)B2vednc

芯片利用率B2vednc

芯片利用率B2vednc

延时降低B2vednc

吞吐率B2vednc

ResNet-50B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

1306.93B2vednc

3.06B2vednc

92.3%B2vednc

ResNet-50B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

879.00B2vednc

145.70B2vednc

21.1%B2vednc

4.37B2vednc

47.61B2vednc

1.49B2vednc

ResNet-152B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

460.27B2vednc

8.68B2vednc

95.4%B2vednc

ResNet-152B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

310.90B2vednc

411.66B2vednc

21.9%B2vednc

4.35B2vednc

47.43B2vednc

1.48B2vednc

YOLOv3B2vednc

DarkNetB2vednc

COCOB2vednc

125.75B2vednc

31.06B2vednc

82.4%B2vednc

YOLOv3B2vednc

GitHub*B2vednc

COCOB2vednc

30.50B2vednc

4190.86B2vednc

6.8%B2vednc

12.10B2vednc

134.93B2vednc

4.12B2vednc

SSD-ResNet50B2vednc

NVIDIAB2vednc

COCOB2vednc

182.16B2vednc

21.96B2vednc

77.1%B2vednc

SSD-ResNet50B2vednc

NVIDIAB2vednc

COCOB2vednc

DNRB2vednc

DNRB2vednc

-B2vednc

-B2vednc

-B2vednc

-B2vednc

U-Net IndustrialB2vednc

NVIDIAB2vednc

COCO2017B2vednc

54.01B2vednc

74.07B2vednc

65.0%B2vednc

U-Net IndustrialB2vednc

NVIDIAB2vednc

COCO2017B2vednc

DNRB2vednc

DNRB2vednc

-B2vednc

-B2vednc

-B2vednc

-B2vednc

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxtB2vednc

B2vednc

X3 vs Xavier芯片利用率对比图B2vednc

B2vednc

X3 vs Xavier 性能对比图B2vednc

B2vednc

X3 vs Xavier 延时对比图B2vednc

星空X9加速卡发布B2vednc

星空X9加速卡为搭载4颗CAISA 芯片的深度学习推断板卡,峰值性能43.6TOPS,主要满足高性能场景下的AI计算需求。同英伟达旗舰产品T4相对,X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在实测性能方面,X9在ResNet50可达5240FPS,与T4性能接近,在YOLO v3、UNet Industrial等检测分割网络,实测性能相较T4有1.83-3.91倍性能提升。在达到最优实测性能下,X9处理延时相比于T4降低1.83-32倍。实测性能以及处理延时的大幅领先,让数据流架构为AI芯片的发展提供了提升峰值性能之外的另一条技术路线。B2vednc

CAISA X9B2vednc

T4B2vednc

X9 vs T4B2vednc

模型名称B2vednc

网络来源B2vednc

数据集B2vednc

吞吐(batch=16,FPS)B2vednc

延时(batch=16, ms)B2vednc

芯片利用率B2vednc

模型名称B2vednc

网络来源B2vednc

数据集B2vednc

吞吐(batch=128,FPS)B2vednc

延时(batch=128, ms)B2vednc

芯片利用率B2vednc

芯片利用率B2vednc

延时降低B2vednc

吞吐率B2vednc

ResNet-50B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

5227.72B2vednc

3.06B2vednc

92.3%B2vednc

ResNet-50B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

5415.00B2vednc

23.64B2vednc

32.1%B2vednc

2.88B2vednc

7.73B2vednc

0.97B2vednc

ResNet-152B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

1841.08B2vednc

8.68B2vednc

95.4%B2vednc

ResNet-152B2vednc

TensorFlowB2vednc

ImageNet 50000B2vednc

1935.25B2vednc

66.14B2vednc

33.6%B2vednc

2.84B2vednc

7.62B2vednc

0.95B2vednc

YOLOv3B2vednc

DarkNetB2vednc

COCOB2vednc

503.00B2vednc

31.06B2vednc

82.4%B2vednc

YOLOv3B2vednc

GitHub*B2vednc

COCOB2vednc

128.80B2vednc

993.78B2vednc

7.1%B2vednc

11.64B2vednc

32.00B2vednc

3.91B2vednc

SSD-ResNet50B2vednc

NVIDIAB2vednc

COCOB2vednc

728.64B2vednc

21.96B2vednc

77.1%B2vednc

SSD-ResNet50B2vednc

NVIDIAB2vednc

COCOB2vednc

212.00B2vednc

150.94B2vednc

7.5%B2vednc

10.25B2vednc

6.87B2vednc

3.44B2vednc

U-Net IndustrialB2vednc

NVIDIAB2vednc

COCO2017B2vednc

216.04B2vednc

74.07B2vednc

65.0%B2vednc

U-Net IndustrialB2vednc

NVIDIAB2vednc

COCO2017B2vednc

118.00B2vednc

135.59B2vednc

11.9%B2vednc

5.46B2vednc

1.83B2vednc

1.83B2vednc

*模型参考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxtB2vednc

B2vednc

X9 vs T4 芯片利用率对比图B2vednc

X9 vs T4 性能对比图B2vednc

X9 vs T4 延时对比图B2vednc

鲲云科技通过CAISA数据流架构提高芯片利用率,同样的实测性能,对芯片峰值算力的要求可大幅降低3-10倍,从而降低芯片的制造成本,为客户提供更高的算力性价比。目前星空X3加速卡已经实现量产,星空X9加速卡将于今年8月推出市场。鲲云科技成为国内首家在发布会现场披露Benchmark的AI芯片公司。B2vednc

商业落地B2vednc

AI芯片最难的是商业落地,目前这款数据流AI芯片已与多家行业巨头达成战略合作,成为英特尔全球旗舰FPGA合作伙伴,与浪潮、戴尔达成战略签约,在AI计算加速方面开展深入合作;与山东产业技术研究院共建山东产研鲲云人工智能研究院,推进人工智能芯片及应用技术的规模化落地。B2vednc

明星产品“星空”加速卡已在电力、教育、航空航天、智能制造、智慧城市、安监生产、轨道交通、智能遥感等领域落地。B2vednc

B2vednc

用于数据中心小型服务器B2vednc

B2vednc

浪潮AI服务器使用了鲲云科技的CAISA  AI芯片B2vednc

B2vednc

X3加速卡已经量产,X9计划8月份推出B2vednc

打败你的往往不是同行,而是跨界。这是商业模式上的跨界竞争,在技术领域其实也是一样,我们一直在诟病几十年的冯诺依曼计算架构的性能,却一直没有突破,在AI领域,GPU芯片的领先者一直是英伟达,尽管英伟达的GPU是基于传统的指令集架构,但是其性能一直是行业最优的,尽管在理论界早就有了能够突破芯片利用率和高延时缺点的可定制的数据流架构,但一直未有实质性突破。如今,鲲云科技发布了全球首款数据流AI芯片CAISA,我们期待它成为技术领域的跨界竞争者。B2vednc

B2vednc

责编:ChalleyB2vednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 讲述很有意思
Challey
资深产业分析师
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • Nothing Phone 1 官方承认品控缺陷,但拆解后有新发现 前一加手机联合创始人裴宇创立的 Nothing 公司在国外备受关注,但Nothing Phone 1发布之后却被网友爆料大量翻车现场。目前官方也已承认了Nothing Phone 1 在前摄开孔位置附近出现了坏点或绿晕的问题。但Nothing Phone 1也并非一无是处,著名的 JerryRigEverything 耐用性测试就称其“超级坚固”。
  • 拆解一个中国产的“树莓派”开发笔记本,售价279美元值 “树莓派”在全球市越来越受欢迎,甚至有家长开始让孩子用树莓派学习开发产品。有中国厂商嗅到,率先开发出了基于“树莓派”笔记本——CrowPi L ,外观看和普通笔记本差不多, 但却是基于树莓派Raspberry Pi 4B 开发板的套件,专为 STEM 教育而设计,带有可选的电子模块和教程。EDN发现有外媒对其进行了拆解,接下来将这篇拆解文章分享给大家:
  • 售价将超50万美元,乔布斯的Apple-1原型机电路板长什么 这块在 1976 年由史蒂夫-沃兹尼亚克手工焊接的 Apple Computer A 印刷电路板被史蒂夫-乔布斯用来向保罗-特雷尔演示 Apple-1 电脑,后者是加州山景城 The Byte Shop 的老板。这台原型机在“苹果车库”里保存了很多年,然后在大约 30 年前由史蒂夫-乔布斯交给了它现在的主人。当时,乔布斯已被苹果公司赶走。乔布斯当时认为这个原型不是要供奉的东西,而是要被重新利用的东西。
  • iFixit 拆解M2 MacBook Ai:没有散热器,但有用途不明的加 日前,iFixit发表了M2 MacBook Air的拆解视频,表示在M2 MacBook Air 中发现了新增的端口,以及加速度计。
  • M2 Pro 和 M2 Max 或是苹果首款采用台积电3nm 工艺的 M1 Pro 和 M1 Max 最多可配置 10 核 CPU 和 32 核 GPU。借助 M2 Pro 和 M2 Max,Apple 有望突破这一门槛,为这两个领域带来更多的核心数量。目前M2 Pro相关的爆料很少,但据称M2 Max 有12 核 GPU 和 38 核 GPU。12 核 CPU 将包括 10 个性能核心和两个能效核心。
  • 适用于CSP GaN FET的简单高性能散热管理解决方案 本文将演示芯片级封装(CSP) GaN FET提供的散热性能为什么至少能与硅MOSFET相当,甚至更胜一筹。GaN FET由于其卓越的电气性能,尺寸可以减小,从而能在不违背温度限制的同时提高功率密度。本文还将通过PCB布局的详细3D有限元仿真对这种行为进行展示,同时还会提供实验验证,对分析提供支持。
  • 研究人员开发出新设计框架,用于构建下一代模拟计算芯片 印度科学研究所 (IISc) 的研究人员开发了一种设计框架,用于构建下一代模拟计算芯片组,与目前大多数电子设备中的数字芯片相比,该芯片组速度更快、功耗更低。
  • 拆解最新款M2 MacBook Pro ,苹果用旧硬件改造的“新” iFixit指出,即使是新款 M2 MacBook Pro 的底盖也与 2020 年推出的版本相同。两款机型的底部均刻有型号“A2338”以及相同的 FCC ID。这意味着苹果只是简单地回收了旧硬件,并在板上安装了新芯片。
  • 雷军官宣自研电池管理芯片“澎湃 G1”,及小米 12S系列 今日(7月1日),雷军在个人微博官宣新的自研芯片——小米澎湃G1电池管理芯片,该芯片将于7月4日与小米12S系列共同发布。此外,还分享了小米电池技术新进展、小米自研FBO焕新存储技术以及最新升级的叶脉冷泵散热技术。
  • Arm发布第二代 Armv9 CPU及首款移动端支持光追的GPU 日前,Arm推出了基于Armv9架构新一代的CPU,包括Arm Cortex-X3、Arm Cortex-A715等,同时还带来了其首款在移动端支持硬件光线追踪的GPU——Immortalis GPU。这是自Arm去年3月发布全新v9架构、5月发布第一代基于v9架构产品后的第二次更新。
  • 用M2芯片升级M1 MacBook Pro,结果…… 虽然新款 MacBook 与上一代机型的硬件和外形尺寸大致相同,但 M2 芯片的升级带来了主要的性能和电池增益。YouTuber用户@ Luke Miani尝试使用 M2 芯片升级 M1 MacBook Pro。该UP主想知道,既然设计结构相同,那么将 M1 芯片换成 M2 芯片能否成功……
  • 三星电子“试生产”3纳米,据称首位客户为中国半导体厂 据韩媒报道,三星电子计划最早于本周开始试产采用GAA工艺的3nm产品,并称第一个客户是中国的半导体公司。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了