广告

美国初创公司为AI设计出史上最大芯片,集成1.2万亿晶体管

2019-08-20 网络整理 阅读:
初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列Cerebras Wafer Scale Engine,旨在取代英伟达(Nvidia) GPU在训练神经网络方面的主导地位。但同时,网友从多方面对这块“史上最大的芯片”提出了质疑……

EETimes加利福尼亚州圣何塞报道,初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列Cerebras Wafer Scale Engine(下文简称“WSE”),旨在取代英伟达(Nvidia) GPU在训练神经网络方面的主导地位。w0xednc

数据显示,这颗面积达到46,225平方毫米的芯片功耗为15千瓦,封装了400,000个内核,并且仅支持在极少数系统中运行,至少已有一家客户采用。w0xednc

Cerebras Wafer Scale Engine拥有1.2万亿个晶体管。Cerebras Systems芯片是在单个晶圆上互连的单芯片。这些互连设计使这些芯片全部保持高速运行状态,万亿个晶体管可以全部一起工作。w0xednc

通过这种方式,Cerebras Wafer Scale Engine成为有史以来最大的处理器,它专门设计用于处理AI应用问题。该公司在本周在斯坦福大学举行的Hot Chips会议上讨论这款“世界最大”的芯片的设计。w0xednc

026ednc20190819w0xednc

Cerebras器件比Nvidia GPU,以及用于AI培训的任何其他竞争对手芯片大得多。 (图片:Cerebras)w0xednc

WSE还包含3,000倍的高速片上存储器,并且具有10,000倍的存储器带宽。w0xednc

该芯片来自Andrew Feldman领导的团队,后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格卖给了AMD。Cerebras Systems的联合创始人兼首席硬件架构师Sean Lie将将在Hot Chips大会上展示Cerebras Wafer Scale Engine。这家位于加州Los Altos的公司拥有194名员工。w0xednc

芯片尺寸在AI任务中非常重要,因为大尺寸芯片可以更快地处理信息,在更短的时间内给出答案。这能够减少“训练时间”,使研究人员能够测试更多想法,使用更多数据并解决新问题。谷歌、Facebook、OpenAI、腾讯、百度和许多企业都认为,今天制约AI发展的基本限制是训练模型需要的时间太长。因此,缩短训练时间有望消除整个行业取得进步的主要瓶颈。w0xednc

当然,芯片制造商通常不会制造这么大的芯片。在单个晶片的制造过程中通常会出现一些杂质。如果一种杂质会导致一块芯片发生故障,那么晶圆上的多种杂质就会导致多块芯片出问题。实际制造出的芯片产量仅占实际工作芯片的一小部分。如果晶圆上只有一个芯片,它有杂质的几率是100%,杂质会使芯片失效。但是 Cerebras Systems 的芯片设计是留有裕量的,能够保证一个或者少量杂质不会使整个芯片失效。w0xednc

单晶圆提供超级计算机级的计算能力

“Cerebras WSE”专为人工智能设计而设计,其中包含了不少基础创新,解决了限制芯片尺寸的长达数十年的技术挑战 - 如良品率,功率传送、封装等,推动了最先进技术的发展。和包装,每个架构决策都是为了优化AI工作的性能。结果是,Cerebras WSE根据工作量提供了数百或数千倍的现有解决方案的性能,只需很小的功耗和空间。”Cerebras Systems首席执行官的Fieldman说。w0xednc

通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是一种多级计算反馈回路。输入在循环中移动速度越快,循环学习的速度越快,即训练时间越短。可以通过加速循环内的计算和通信来加速输入的循环速度。w0xednc

Cerebras WSE芯片面积比目前最大的GPU大56.7倍, 并提供更多核心进行计算,有更多核心靠近内存,因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上,因此所有通信都在芯片上进行,通信带宽高、延迟低,因此核心组可以以最高效率进行协作。w0xednc

Cerebras WSE中的46,225平方毫米的芯片面积上包含40万个AI优化核心,无缓存、无开销的计算内核,以及和18千兆字节的本地化分布式超高速SRAM内存。内存带宽为每秒9 PB。这些核心通过细粒度、全硬件、片上网状连接通信网络连接在一起,可提供每秒100 petabits的总带宽。更多核心、更多本地内存和低延迟高带宽结构,共同构成了面向AI加速任务的最佳架构。w0xednc

“虽然AI在一般意义上被使用,但没有两个数据集或两个AI任务是相同的。新的AI工作负载不断涌现,数据集也在不断变大,”Tirias Research首席分析师兼创始人Jim McGregor在一份声明中表示。w0xednc

“随着AI的发展,芯片和平台解决方案也在不断发展。Cerebras WSE是半导体和平台设计方面的一项惊人的工程成就,它在单个晶圆级的解决方案中提供了超级计算机级的计算能力、高性能内存和带宽。”w0xednc

Cerebras 表示,如果没有多年来与台积电(TSMC)的密切合作,他们不可能取得这个创纪录的成就。台积电是全球最大的半导体代工厂,在先进工艺技术方面处于领先地位。WSE芯片由台积电采用先进的16nm制程技术制造。w0xednc

开创性的晶圆级集成

就其本身而言,Cerebras提供这种晶圆尺寸级别的器件,在产量、功耗和发热量方面都遇到了挑战。它申请了约30项专利,迄今已发行约6项。w0xednc

例如,台积电经典的300毫米晶圆可能包含“少量的100个缺陷,” Feldman说。 Cerebras为其Swarm互连提供冗余链路,以便绕过有缺陷的区块,并分配“超过(区块数)1%的链路量作为备用。”w0xednc

迄今为止,该公司已经生产了100多块晶圆,所有晶圆都能在可接受的水平上运行。为了给它们供电和冷却,Cerebras设计了自己的电路板和冷却板,为每块芯片垂直提供电力和水冷。机架包括一个闭环系统,用于空气冷却水。w0xednc

Cerebras还与合作伙伴合作设计了一台用于处理和对齐晶圆的机器。 “我们公司拥有流体、材料科学家和制造工程师,”Feldman说。w0xednc

这家创业公司与台积电合作,发明了一种方法,将其互连放置在区块之间的划线中,这个区域通常被保留,作为芯片之间的隔离区。w0xednc

027ednc20190819w0xednc

一种特别设计的电路板和冷却板,垂直地将电力和冷却水输送到每块芯片上。w0xednc

400000个AI优化的内核

WSE包含40万个AI优化的计算内核(compute cores)。这种计算内核被称为稀疏线性代数核(Sparse Linear Algebra Cores, SLAC),具有灵活性、可编程性,并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性保证了内核能够在不断变化的机器学习领域运行所有的神经网络算法。w0xednc

由于稀疏线性代数内核是为神经网络计算进行优化的,因此它们可实现业界最佳利用率——通常是GPU的3倍或4倍。此外,WSE核心还包括Cerebras发明的稀疏捕获技术,以加速在稀疏工作负载(包含0的工作负载)上的计算性能,比如深度学习。w0xednc

零在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是0。然而,乘以0是浪费硅,功率和时间的行为,因为没有新的信息。w0xednc

因为GPU和TPU是密集的执行引擎——引擎的设计永远不会遇到0——所以它们即使在0时也会乘以每一个元素。当50-98%的数据为零时,如深度学习中经常出现的情况一样,大多数乘法都被浪费了。由于Cerebras的稀疏线性代数核心永远不会乘以零,所有的零数据都被过滤掉,可以在硬件中跳过,从而可以在其位置上完成有用的工作。w0xednc

比GPU大3000倍的片上内存

内存是每一种计算机体系结构的关键组成部分。靠近计算的内存意味着更快的计算、更低的延迟和更好的数据移动效率。高性能的深度学习需要大量的计算和频繁的数据访问。这就要求计算核心和内存之间要非常接近,而在GPU中却不是这样,GPU中绝大多数内存都很慢,而且离计算核心很远。w0xednc

Cerebras Wafer Scale Engine包含了比迄今为止任何芯片都要多的内核和本地内存,并且在一个时钟周期内拥有18 GB的片上内存。WSE上的核心本地内存的集合提供了每秒9 PB的内存带宽——比最好的GPU大3000倍的片上内存和10000倍的内存带宽。w0xednc

在通信架构上,由于在 WSE 上使用了中继处理器,集群通信的架构突破了传统通信技术中部分功率消耗而导致的带宽和延时的问题。通过使用二维阵列结构将 400,000 个基于 WSE 的处理器连接在一起,集群架构实现了低延时以及高带宽的特性,其总体带宽可以高达每秒 100 拍字节(1017 字节/每秒)。即使没有安装任何的额外软件,这样的集群结构也可以支持全局信息处理,并由相应的处理器对所接收到的信息进行处理。w0xednc

网友提出质疑:噱头比实际作用大?

据了解,该初创公司从资深投资者那里筹集了超过2亿美元,成为第一个将晶圆级集成商业化、开创封装和晶圆处理新技术的公司。该公司押注人工智能培训市场,认为它将从七个超大规模数据中心供应商,扩展到数百家公司,覆盖从制药到金融科技等希望将搜集到的数据留给自己的行业。w0xednc

但同时,网友从多方面对这块“史上最大的芯片”提出了质疑称:面向训练端的巨无霸芯片,眼球搏尽,可实用性在哪?新的SLAC内核结构貌似具有通用性,但软件和工具链呢?还有良率、散热、能耗以及产品形态如何定义?数据中心对产品形态和能耗的要求是极其苛刻的。w0xednc

网友@杨光民 :这种芯片干嘛用?除了炫耀?芯片业竞争已经异化了,合适才是最好的。w0xednc

@小小西 :这种芯片对于科研有一些价值,但在实用性方面,我说的直白点基本没用。封装和散热是问题,什么系统可以有效运行它也是一个问题。除了感受一下这些技术参数外,看不出来有啥价值w0xednc

知乎网友@very funny:说白了,假设原来wafer出一千个die,这个料还是一千个die,但die之间有互联,中测后不做切割封装,直接用,坏掉的die直接屏蔽,芯片间互联还是有的,本质和基板上做n颗并行计算核心没什么差别。不然纯数字逻辑做那么大,不说生产,光后端cts就能要狗命。w0xednc

知乎网友@从头再来 :根本就晶圆不切割罢了,说白了就是die互相连接了,并且这样一个die出错,整个就废了,流片良率估计很低。噱头比实际作用大多了。w0xednc

此外也有网友表示要从两方面来看,@李久坤 两方面看,如果是实用,那这种巨大工程做出来的东西肯定是不行的;如果看作是人类对于更好AI芯片的探索,伟大的发明都需要迈出第一步。w0xednc

读者们你们怎么看?欢迎在文章下方留言评论。w0xednc

责编:Demi Xiaw0xednc

  • 不是做芯片的,不知道这样做的难度。但是倘若像这家公司所说,单个有杂质不影响通讯的画,这也够牛掰的。

    应用场景还是用的,功耗能量比也许更低,利用芯片级通讯速率减少因保证兼容性和抗干扰到来的速率下降。
    但肯定不是未来的方向。
  • 高级黑,赞一个
  • 还是有用的, 试想在数据中心里, 如何把56颗GPU连起来?又如何冷下来?用这就简单了!
  • 强烈建议Cerebras进攻CIS行业,大画幅数码单反/微单不再是梦,可彻底革新成像领域。
本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • Microchip模拟嵌入式SuperFlash技术助力存算一体创新 SuperFlash memBrain存储器解决方案使知存科技片上系统(SoC)能够满足最苛刻的神经处理成本、功耗和性能要求
  • 用TinyML开始设计——开发评估套件 本文中展示的开发套件和评估板得到一些流行的机器学习库和用于 TinyML 工作流程资源的支持,包括用于微控制器的 Google TensorFlow Lite 和 Edge Impulse,因而它们能够成为您第一个项目的理想起点。
  • “中国IC设计成就奖”提名产品简介:全志科技高性能智能 高性能三重异构智能语音应用处理器R329芯片,采用业界先进的半导体工艺,首款集成Arm中国周易语音处理器。集成DSP、NPU、64位CPU及丰富的外设接口,创新突破了低功耗、边缘语音AI超级算力、多重异构通讯、多核调度等关键技术,处于国内领先水平。
  • “中国IC设计成就奖”提名产品简介:追萤3D AI芯片Ai310 埃瓦科技自主研发的追萤 3D AI芯片创新的采用了异构架构 SOC 设计和微内核架构设计,包含 NPU 神经网络加速核、3D 立体匹配加速核、ISP 核等功能性处理核心;其中 NPU 神经网络加速核基于可重构以及片上多级存储和缓存设计,使数据可高效送达加速核心,使该芯片拥有领先的高效智能处理能力、分析以及低功耗管理的能力;其设计架构的资源复用性使硬件计算单位可灵活分配,适应于不同场景的计算需求;在 3D 视觉算法加速方面创新的采用了自研立体匹配算法的 3D 加速微内核架构设计,可有效加速双目立体视觉、结构光等多种 3D 视觉算法。
  • “中国IC设计成就奖”提名产品简介:ada200优势 1.九天睿芯,感存算一体芯片,可以在功耗和性能满足”低功耗AI场景“的同时,成本也大幅度下降。2.采用模数混合的存内计算架构,ADA200相比传统数字芯片,1/3成本,1/10功耗。
  • “中国IC设计成就奖”提名产品简介:面向边缘视觉分析的 面向边缘视觉分析的数据流AI芯片CAISA是鲲云科技自主研发的专为人工智能图像提供高性能计算加速的AI芯片产品,是全球首个量产的数据流AI芯片。
  • “中国IC设计成就奖”提名产品简介:人工智能语音芯片CI 1、人工神经网络硬件引擎架构:具备高计算性能,进行神经网络计算时相当于数十个CPU并行计算的能力;低访问带宽和低功耗,通过并行计算和共用神经元权重参数,大幅降低访问带宽及功耗;高可配置性,支持神经元层数和节点数、神经网络结构的配置。 2、单、双、及麦克风阵列降噪增强技术:支持各种平稳、非平稳环境噪声抑制;可支持线阵、圆阵结构等常用麦阵结构;采用定向波束形成与自适应信号处理技术相结合;拾取方向动态可调;支持单声道、立体声等回声抑制;采用独立研发的空间预测技术,支持强回声情况下回声抑制;与降噪处理技术相结合;自动增益调节、高通、带通滤波等。 3、低功耗和可靠性设计技术:具备低功耗集成电路设计技术,包括基于活动语音检测的低功耗控制技术和时钟门控技术。 4、逻辑设计技术:掌握了语音信号处理IP的设计方法,包括算法硬件化、定点、浮点运算处理等。同时积累了整套SoC设计所需的控制类IP,并成功通过流片验证。
  • “中国IC设计成就奖”提名产品简介:智能安防AI SoC芯片 亿智SV826是2021年推出的高性能的安防AI SoC芯片,主要面向视频编解码AI摄像机产品。
  • “中国IC设计成就奖”提名产品简介:低功耗视觉AIoT SoC 亿智SH516芯片是亿智电子2021年推出的一款低功耗的智能视觉AIoT SoC芯片。
  • “中国IC设计成就奖”提名产品简介:高性能大算力全场景 - AI性能跑分更强,超越Nvidia Orin - 应用当前先进的安全技术和研发流程 - 国内唯一可获得、支持快速量产的整车智能计算平台芯片
  • “中国IC设计成就奖”提名产品简介:高端AIoT芯片RV1126 RK3568是瑞芯微的高端AIoT芯片。
  • “中国IC设计成就奖”提名产品简介:玉龙人工智能芯片Yu 玉龙(YULONG)是欧比特公司推出的新一代嵌入式人工智能系列处理器芯片,是目前市面上唯一的军用级人工智能芯片,并且实现了自主可控国产化生产。芯片聚焦于前端图像处理、前端信号处理和智能控制,芯片具有深度学习、神经网络算法的平台加速能力。Yulong810APro芯片为异构多核架构(CPU+AI加速器),采用FD-SOI生产工艺,具有高性能、高可靠、低功耗的特点,芯片面向航空航天、智能安防、机器人、AIoT、智能制造、智慧交通等应用场景。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了