美国初创公司为AI设计出史上最大芯片，集成1.2万亿晶体管-EDN 电子技术设计

 初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列Cerebras Wafer Scale Engine，旨在取代英伟达（Nvidia） GPU在训练神经网络方面的主导地位。但同时，网友从多方面对这块“史上最大的芯片”提出了质疑……

EETimes加利福尼亚州圣何塞报道，初创公司Cerebras将在Hot Chips上展出号称是“世界上最大”的半导体器件——一个16nm工艺、晶圆大小的处理器阵列Cerebras Wafer Scale Engine（下文简称“WSE”），旨在取代英伟达（Nvidia） GPU在训练神经网络方面的主导地位。Bt7ednc

数据显示，这颗面积达到46,225平方毫米的芯片功耗为15千瓦，封装了400,000个内核，并且仅支持在极少数系统中运行，至少已有一家客户采用。Bt7ednc

Cerebras Wafer Scale Engine拥有1.2万亿个晶体管。Cerebras Systems芯片是在单个晶圆上互连的单芯片。这些互连设计使这些芯片全部保持高速运行状态，万亿个晶体管可以全部一起工作。Bt7ednc

通过这种方式，Cerebras Wafer Scale Engine成为有史以来最大的处理器，它专门设计用于处理AI应用问题。该公司在本周在斯坦福大学举行的Hot Chips会议上讨论这款“世界最大”的芯片的设计。Bt7ednc

026ednc20190819 Bt7ednc

Cerebras器件比Nvidia GPU，以及用于AI培训的任何其他竞争对手芯片大得多。（图片：Cerebras）Bt7ednc

WSE还包含3,000倍的高速片上存储器，并且具有10,000倍的存储器带宽。Bt7ednc

该芯片来自Andrew Feldman领导的团队，后者曾创建微型服务器公司SeaMicro，并以3.34亿美元的价格卖给了AMD。Cerebras Systems的联合创始人兼首席硬件架构师Sean Lie将将在Hot Chips大会上展示Cerebras Wafer Scale Engine。这家位于加州Los Altos的公司拥有194名员工。Bt7ednc

芯片尺寸在AI任务中非常重要，因为大尺寸芯片可以更快地处理信息，在更短的时间内给出答案。这能够减少“训练时间”，使研究人员能够测试更多想法，使用更多数据并解决新问题。谷歌、Facebook、OpenAI、腾讯、百度和许多企业都认为，今天制约AI发展的基本限制是训练模型需要的时间太长。因此，缩短训练时间有望消除整个行业取得进步的主要瓶颈。Bt7ednc

当然，芯片制造商通常不会制造这么大的芯片。在单个晶片的制造过程中通常会出现一些杂质。如果一种杂质会导致一块芯片发生故障，那么晶圆上的多种杂质就会导致多块芯片出问题。实际制造出的芯片产量仅占实际工作芯片的一小部分。如果晶圆上只有一个芯片，它有杂质的几率是100％，杂质会使芯片失效。但是 Cerebras Systems 的芯片设计是留有裕量的，能够保证一个或者少量杂质不会使整个芯片失效。Bt7ednc

单晶圆提供超级计算机级的计算能力

“Cerebras WSE”专为人工智能设计而设计，其中包含了不少基础创新，解决了限制芯片尺寸的长达数十年的技术挑战 - 如良品率，功率传送、封装等，推动了最先进技术的发展。和包装，每个架构决策都是为了优化AI工作的性能。结果是，Cerebras WSE根据工作量提供了数百或数千倍的现有解决方案的性能，只需很小的功耗和空间。”Cerebras Systems首席执行官的Fieldman说。Bt7ednc

通过加速神经网络训练的所有元素来实现这些性能提升。神经网络是一种多级计算反馈回路。输入在循环中移动速度越快，循环学习的速度越快，即训练时间越短。可以通过加速循环内的计算和通信来加速输入的循环速度。Bt7ednc

Cerebras WSE芯片面积比目前最大的GPU大56.7倍，并提供更多核心进行计算，有更多核心靠近内存，因此内核可以高效运行。由于这些大量的内核和内存位于单个芯片上，因此所有通信都在芯片上进行，通信带宽高、延迟低，因此核心组可以以最高效率进行协作。Bt7ednc

Cerebras WSE中的46,225平方毫米的芯片面积上包含40万个AI优化核心，无缓存、无开销的计算内核，以及和18千兆字节的本地化分布式超高速SRAM内存。内存带宽为每秒9 PB。这些核心通过细粒度、全硬件、片上网状连接通信网络连接在一起，可提供每秒100 petabits的总带宽。更多核心、更多本地内存和低延迟高带宽结构，共同构成了面向AI加速任务的最佳架构。Bt7ednc

“虽然AI在一般意义上被使用，但没有两个数据集或两个AI任务是相同的。新的AI工作负载不断涌现，数据集也在不断变大，”Tirias Research首席分析师兼创始人Jim McGregor在一份声明中表示。Bt7ednc

“随着AI的发展，芯片和平台解决方案也在不断发展。Cerebras WSE是半导体和平台设计方面的一项惊人的工程成就，它在单个晶圆级的解决方案中提供了超级计算机级的计算能力、高性能内存和带宽。”Bt7ednc

Cerebras 表示，如果没有多年来与台积电(TSMC)的密切合作，他们不可能取得这个创纪录的成就。台积电是全球最大的半导体代工厂，在先进工艺技术方面处于领先地位。WSE芯片由台积电采用先进的16nm制程技术制造。Bt7ednc

开创性的晶圆级集成

就其本身而言，Cerebras提供这种晶圆尺寸级别的器件，在产量、功耗和发热量方面都遇到了挑战。它申请了约30项专利，迄今已发行约6项。Bt7ednc

例如，台积电经典的300毫米晶圆可能包含“少量的100个缺陷，” Feldman说。 Cerebras为其Swarm互连提供冗余链路，以便绕过有缺陷的区块，并分配“超过（区块数）1％的链路量作为备用。”Bt7ednc

迄今为止，该公司已经生产了100多块晶圆，所有晶圆都能在可接受的水平上运行。为了给它们供电和冷却，Cerebras设计了自己的电路板和冷却板，为每块芯片垂直提供电力和水冷。机架包括一个闭环系统，用于空气冷却水。Bt7ednc

Cerebras还与合作伙伴合作设计了一台用于处理和对齐晶圆的机器。 “我们公司拥有流体、材料科学家和制造工程师，”Feldman说。Bt7ednc

这家创业公司与台积电合作，发明了一种方法，将其互连放置在区块之间的划线中，这个区域通常被保留，作为芯片之间的隔离区。Bt7ednc

027ednc20190819 Bt7ednc

一种特别设计的电路板和冷却板，垂直地将电力和冷却水输送到每块芯片上。Bt7ednc

400000个AI优化的内核

WSE包含40万个AI优化的计算内核(compute cores)。这种计算内核被称为稀疏线性代数核(Sparse Linear Algebra Cores, SLAC)，具有灵活性、可编程性，并针对支持所有神经网络计算的稀疏线性代数进行了优化。SLAC的可编程性保证了内核能够在不断变化的机器学习领域运行所有的神经网络算法。Bt7ednc

由于稀疏线性代数内核是为神经网络计算进行优化的，因此它们可实现业界最佳利用率——通常是GPU的3倍或4倍。此外，WSE核心还包括Cerebras发明的稀疏捕获技术，以加速在稀疏工作负载(包含0的工作负载)上的计算性能，比如深度学习。Bt7ednc

零在深度学习计算中很普遍。通常，要相乘的向量和矩阵中的大多数元素都是0。然而，乘以0是浪费硅，功率和时间的行为，因为没有新的信息。Bt7ednc

因为GPU和TPU是密集的执行引擎——引擎的设计永远不会遇到0——所以它们即使在0时也会乘以每一个元素。当50-98%的数据为零时，如深度学习中经常出现的情况一样，大多数乘法都被浪费了。由于Cerebras的稀疏线性代数核心永远不会乘以零，所有的零数据都被过滤掉，可以在硬件中跳过，从而可以在其位置上完成有用的工作。Bt7ednc

比GPU大3000倍的片上内存

内存是每一种计算机体系结构的关键组成部分。靠近计算的内存意味着更快的计算、更低的延迟和更好的数据移动效率。高性能的深度学习需要大量的计算和频繁的数据访问。这就要求计算核心和内存之间要非常接近，而在GPU中却不是这样，GPU中绝大多数内存都很慢，而且离计算核心很远。Bt7ednc

Cerebras Wafer Scale Engine包含了比迄今为止任何芯片都要多的内核和本地内存，并且在一个时钟周期内拥有18 GB的片上内存。WSE上的核心本地内存的集合提供了每秒9 PB的内存带宽——比最好的GPU大3000倍的片上内存和10000倍的内存带宽。Bt7ednc

在通信架构上，由于在 WSE 上使用了中继处理器，集群通信的架构突破了传统通信技术中部分功率消耗而导致的带宽和延时的问题。通过使用二维阵列结构将 400,000 个基于 WSE 的处理器连接在一起，集群架构实现了低延时以及高带宽的特性，其总体带宽可以高达每秒 100 拍字节（1017 字节/每秒）。即使没有安装任何的额外软件，这样的集群结构也可以支持全局信息处理，并由相应的处理器对所接收到的信息进行处理。Bt7ednc

网友提出质疑：噱头比实际作用大？

据了解，该初创公司从资深投资者那里筹集了超过2亿美元，成为第一个将晶圆级集成商业化、开创封装和晶圆处理新技术的公司。该公司押注人工智能培训市场，认为它将从七个超大规模数据中心供应商，扩展到数百家公司，覆盖从制药到金融科技等希望将搜集到的数据留给自己的行业。Bt7ednc

但同时，网友从多方面对这块“史上最大的芯片”提出了质疑称：面向训练端的巨无霸芯片，眼球搏尽，可实用性在哪？新的SLAC内核结构貌似具有通用性，但软件和工具链呢？还有良率、散热、能耗以及产品形态如何定义？数据中心对产品形态和能耗的要求是极其苛刻的。Bt7ednc

网友@杨光民：这种芯片干嘛用？除了炫耀？芯片业竞争已经异化了，合适才是最好的。Bt7ednc

@小小西：这种芯片对于科研有一些价值，但在实用性方面，我说的直白点基本没用。封装和散热是问题，什么系统可以有效运行它也是一个问题。除了感受一下这些技术参数外，看不出来有啥价值Bt7ednc

知乎网友@very funny：说白了，假设原来wafer出一千个die，这个料还是一千个die，但die之间有互联，中测后不做切割封装，直接用，坏掉的die直接屏蔽，芯片间互联还是有的，本质和基板上做n颗并行计算核心没什么差别。不然纯数字逻辑做那么大，不说生产，光后端cts就能要狗命。Bt7ednc

知乎网友@从头再来：根本就晶圆不切割罢了，说白了就是die互相连接了，并且这样一个die出错，整个就废了，流片良率估计很低。噱头比实际作用大多了。Bt7ednc

此外也有网友表示要从两方面来看，@李久坤两方面看，如果是实用，那这种巨大工程做出来的东西肯定是不行的；如果看作是人类对于更好AI芯片的探索，伟大的发明都需要迈出第一步。Bt7ednc

读者们你们怎么看？欢迎在文章下方留言评论。Bt7ednc

责编：Demi XiaBt7ednc

不是做芯片的，不知道这样做的难度。但是倘若像这家公司所说，单个有杂质不影响通讯的画，这也够牛掰的。

应用场景还是用的，功耗能量比也许更低，利用芯片级通讯速率减少因保证兼容性和抗干扰到来的速率下降。
但肯定不是未来的方向。
高级黑，赞一个
还是有用的，试想在数据中心里，如何把56颗GPU连起来？又如何冷下来？用这就简单了！
强烈建议Cerebras进攻CIS行业，大画幅数码单反/微单不再是梦，可彻底革新成像领域。

阅读全文，请先

人工智能 EDA/IP/IC设计产业前沿处理器/DSP 制造/工艺/封装

上一篇： 老工程师教你如何“驯服”振荡运算放大器 下一篇： 买得起5G手机却用不起5G套餐？为何5G套餐定价高？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。
增强自主移动机器人的安全性如何设计出能安全有效地与人类协作的 AMR 系统，需要考虑哪些关键要素？本文进行了探讨。
JEDEC最终确定HBM4标准，内存大厂的更新进度如何？近日，JEDEC宣布发布HBM4 DRAM标准，为AI和HPC提供更高的带宽、效率和容量···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

美国初创公司为AI设计出史上最大芯片，集成1.2万亿晶体管

单晶圆提供超级计算机级的计算能力

开创性的晶圆级集成

400000个AI优化的内核

比GPU大3000倍的片上内存

网友提出质疑：噱头比实际作用大？