DPU，如何在ChatGPT的浪潮中快速崛起？-EDN 电子技术设计

 ChatGPT的“横空出世”，给科技领域再次带来一场新的革命。随后，谷歌推出Bard，百度测试文心一言，全球各巨头以及垂直细分领域的大型企业均迅速加入了这场AI的革命之中；工程师们更是跃跃欲试，或直接投入其中并为之“痴迷”，又或站在不同的“高度”审视着这场科技盛筵，内心却在寻找真正的高速入口。或许，ChatGPT引发的AI变革将成为二十多年以来的又一次科技大潮。然而，与2000年前后的互联网浪潮相比，这次基于大语言模型的生成式AI并非真的“横空出世”，它的背后其实是付出了巨大的代价。

ChatGPT的“横空出世”，给科技领域再次带来一场新的革命。随后，谷歌推出Bard，百度测试文心一言，全球各巨头以及垂直细分领域的大型企业均迅速加入了这场AI的革命之中；工程师们更是跃跃欲试，或直接投入其中并为之“痴迷”，又或站在不同的“高度”审视着这场科技盛筵，内心却在寻找真正的高速入口。或许，ChatGPT引发的AI变革将成为二十多年以来的又一次科技大潮。然而，与2000年前后的互联网浪潮相比，这次基于大语言模型的生成式AI并非真的“横空出世”，它的背后其实是付出了巨大的代价。Egxednc

ChatGPT成功背后的巨大算力付出

ChatGPT于2022年11月30日发布，短短5天内，它的用户注册量超过100万，2个月内超过了一个亿，令全世界的科技巨头和工程师们怦然心动。Egxednc

Egxednc

即使当下全球最火爆的视频社交软件TikTok也花了13个月才使注册用户达到1亿Egxednc

ChatGPT能有如此瞩目的表现，除了技术架构以外，主要归功于持续、巨大的算力投入。Egxednc

持续、巨大的算力投入

其实，ChatGPT的GPT模型采用的Transformer架构最早是由 Google Brain 的一个团队于2017 年提出。Egxednc

而GPT模型则于 2018 年由 OpenAI 作为 GPT-1 首次推出，2019 年发展到GPT-2，2020 年发展到GPT-3，2022年发展到 InstructGPT 和 ChatGPT。Egxednc

GPT模型的迭代发展过程中最重要的一个变化是参数的指数级增长。Egxednc

GPT-2模型有15亿个参数，GPT-3有1750亿个参数，GTP-3的升级版GPT-3.5有2000亿个参数，GPT-4发布时，OpenAI没有再披露参数的数量、模型的大小以及使用的硬件，很显然其参数数量或许超乎想象。Egxednc

2020年5月，微软投资了10亿美金与OpenAI独家合作打造了Azure AI超算平台。这个超算平台的性能位居全球前五（处于中国国家超级计算机中心天河 2A 之后，德克萨斯高级计算机中心的 Frontera 之前），拥有超过28.5万个CPU核心、1万个GPU、每个GPU拥有400Gbps网络带宽，算力峰值每秒可以执行 23.5 到 61.4 个万亿浮点运算，主要用于大规模分布式AI模型训练。当时并未对外透露详情，实际上就是为GPT-3模型打造。Egxednc

即使投入如此之巨，时隔两年多之后， OpenAI才正式推出ChatGPT。Egxednc

在ChatGPT获得成功之后，2023年1月，微软拟对OpenAI继续追加100亿美金的投入，当时业界猜测这或许是微软想急于摘取胜利果实，获得丰富回报，控制OpenAI的举措，这种余音绕梁不过2月，美东时间3月14日，OpenAI就宣布推出大型多模态模型GPT-4。Egxednc

可想而知，微软投入的100亿美金大部分将用在GPT-4之中和之后的模型训练上。Egxednc

在算力方面，据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》中介绍，训练15亿参数的GPT-2模型只需要几十 petaflop/s-day，而训练GPT-3 1750亿参数在预训练期间消耗了数千 petaflop/s-day的算力。Egxednc

Egxednc

训练期间使用的总算力，来源：OpenAI论文《Language Models are Few-Shot Learners》Egxednc

而多模态GPT-4及之后的模型，随着参数的增长，所需要的算力激增远超摩尔定律的翻倍增长。Egxednc

芯片和服务器投入

需要的GPU芯片：3万多片/每天Egxednc

根据Similarweb的数据，截至2023年1月底，ChatGPT官网chat.openai.com网站在2023/1/27-2023/2/3一周吸引的每日访客数量高达2500万。假设以比较稳定的状态，每日每用户提问约10个问题，则每日约有2.5亿次咨询量。Egxednc

假设每次查询在单台DGX A800上约消耗30.8ms，则一天共需消耗1,025,980个GPU运行小时。Egxednc

如此算来，平均每天大约需要42,479片NVIDIA的顶级GPU同时进行计算，才可满足当前ChatGPT的访问量。Egxednc

需要的服务器：约5,343台，成本约为10.7亿美元Egxednc

选择NVIDIA目前性能最好，也是投入成本产出效益最高的GPU来搭建服务器集群，单机搭载8片GPU，AI算力性能约为5PetaFLOP/s，单机最大功率约为6.5kw，售价约为20万美元/台。Egxednc

选择标准机柜：19英寸、42U。单个服务器尺寸约为6U，则标准机柜可放下约7个服务器。单个标准机柜的成本为140万美元，构成的性能矩阵为：56个GPU、算力35PetaFLOP/s、最大功率45.5kw。Egxednc

那么，运营ChatGPT需要的服务器数量为：42,479/8≈5343台，成本约为10.7亿美元。Egxednc

同时，需要的标准机柜约为764个。Egxednc

除了上面的硬件投入成本，每天还需要大量的电力投入。Egxednc

电力投入

根据上面的测算，运行ChatGPT需要764个标准机柜，消耗的电量约：764*45.5kw*24h=834,288kwh/日。参考Hashrate Index统计，假设美国平均工业电价约为0.08美元/kwh。则每日电费约为834,288*0.08≈6.6万美元/日。Egxednc

Egxednc

GPT-4及之后：投入成本更多，带来三大挑战

ChatGPT需要不断进化，主要依赖模型的不断迭代升级，这不仅仅需要不断的高额成本投入，也带来了巨大的挑战，主要有三个方面。Egxednc

1、模型升级，参数呈指数级增长，带宽出现瓶颈Egxednc

从AI发展与受限制的硬件趋势看到，AI模型每2-3年，规模增长1个数量级以上，芯片峰值算力平均每两年提升3倍，落后于AI模型的发展，然而，内存性能方面落后更多，平均每两年内存容量增长80%；通信带宽方面提升40%，在延迟方面几乎不变，也跟不上模型的发展。Egxednc

当前，GTP-4模型已经发布，虽然官方没有公布其参数数量，但应该远超过GTP-3的1750亿。这种增长模型的变化，一方面会带来对内存带宽和内存大小的挑战，因为在整个训练过程中需要存储大量的数据，同时也需要处理大量的数据集，所以对内存性能是一个挑战。Egxednc

另一个重要的方面是GPU与CPU之间的通信带宽问题。在数据中心中，每时每刻都有大量的数据在进行传输，主机在收发数据时，根据传统的架构，需要进行海量的⽹络协议处理。这些协议处理都是由 CPU 完成，消耗了大量的性能和资源，以至于被称为“ Datacenter Tax（数据中心税）”。Egxednc

而随着AI的快速发展，特别是大语言模型ChatGPT类的人工智能的火爆，巨大的数据量传输和同样海量的处理数据开销增加导致了通信带宽出现瓶颈。Egxednc

2、电力逐渐无法满足Egxednc

但OpenAI预计，随着模型迭代，需要的计算资源每三到四个月会翻倍。Egxednc

按四个月翻倍计算，到2026年初服务器费用将增长512倍，届时需要投入近4000亿美金（还不算过程中的累积投入）；每天的耗电量更是达到惊人的3亿度，这个消耗量将是巨大的。Egxednc

据测算，目前全球数据中心一年使用的电力是200T瓦时，即2000亿度，人工智能运算占用全球电力使用量的2%。随着这类数据中心部署的增长，到2030年，（人工智能）电力的使用份额预计会达到5%。Egxednc

Egxednc

但是世界各个国家的电力生产能力不同，这将给数据中心带来巨大的挑战。Egxednc

3、全球节能减排环境治理的要求Egxednc

与此同时，为了人类的环境，世界各国制定了节能减排计划，要求社会和企业减少碳排放。Egxednc

其中，中国力争2030年前实现碳达峰，2060年前实现碳中和；欧盟2021年头版《欧盟气候时法》明确“2030年比1990年碳排放减少55%、2050年实际发现碳中和”的目标；美国承诺到2030年，在2005年的水平上减排50%~52%，拜登上台后宣布2050年实现净零排放；日本提出在2013年水平上，至2030年减排45%~50%，韩国最近发布政府方案，争取到2030年较2018年减排11.4%。Egxednc

而电力行业是碳减排的关键所在。基于麦肯锡全球碳中和模型的测算，为达成1.5摄氏度控温目标，全球电力行业需要在2050年前减少99%以上的碳排放，也就是要达到零碳排放。Egxednc

一方面是人工智能的不断高速发展，另一方面却是对算力和电力的巨大需求，这实际上与节能减排是一对矛盾。因此，为了绿色地球，人工智能的发展必须要求能够降低能耗，符合大势和人类的发展要求。Egxednc

同时，尽管ChatGPT推出之后就受到了全球的热捧，但其盈利模式也还在探索之中，这类大语言模型人工智能的发展也面临着投资回报的问题。Egxednc

如何拯救算力的巨大支出，提升ROI？

从上面的分析看，要调和ChatGPT等人工智能的发展与全球节能减排要求之间的矛盾，需要解决的问题有：内存大小和带宽问题、通信带宽问题、以及电力消耗问题。Egxednc

要解决这些问题，主要就是要优化驱动ChatGPT等人工智能的芯片和数据中心的问题，提升其性能，减少其能耗。Egxednc

“横空出世”的DPU——驱动数据中心网络的引擎Egxednc

其实，在ChatGPT爆发之前，GPU巨头NVIDIA就已经着手解决这些问题。他们采用的方式正是基于上面的问题和痛点所在。内存方面，不断提升内存速度和带宽，升级内存架构。NVIDIA在其擅长的GPU方面不断推陈出新，更重要的举措是在新的通信带宽领域推出了DPU，能够大大缩减成本，提升性能、降低能耗。Egxednc

2019 年 3 月，NVIDIA花费 69 亿美元收购了以色列芯片公司 Mellanox 。NVIDIA将 Mellanox 的 ConnectX 系列高速网卡技术与自己的已有技术相结合，于 2020 年正式推出两款 DPU 产品：BlueField-2 DPU 和 BlueField-2X DPU 。这些产品一经推出就得到云服务提供商以及许多原设备制造商和软件合作伙伴的支持，因为其解决了数据中心带宽瓶颈的问题。Egxednc

2021年，科技界首次详细介绍了 NVIDIA BlueField DPU（数据处理器）的内部结构。Egxednc

Egxednc

这是用于加速现代数据中心的芯片—— 一个由硬件加速器和通用 ARM 核心组成的阵列，可用于加速网络、安全和存储工作。Egxednc

这个架构推出后，被应用于几个全球最大的云计算平台以及一台 TOP500 超级计算机，并与新一代防火墙集成。它很快就在多家顶级 OEM 的系统中被使用，这些系统拥有十多个其他合作伙伴提供的软件支持。Egxednc

NVIDIA 创始人兼首席执行官黄仁勋将 DPU 描述为：“未来计算的三大支柱之一，CPU 用于通用计算，GPU 用于加速计算，而 DPU 则用于数据中心的数据移动和处理。”Egxednc

推动数据中心转型Egxednc

2021年前后，云计算和 AI 正在突破数据中心规模和性能的界限，在这个关键时间点，全球主要的科技巨头，包括百度、Palo Alto Networks、Red Hat和VMware等行业领导者，均采用了 BlueField DPU构建高性能、零信任的数据中心，并采用最新的BlueField-3 DPU为下一波的应用程序提供强力支持。Egxednc

2021年，是NVIDIA BlueField DPU大放异彩的一年。Egxednc

百度为其具有扩展性的裸机云基础设施部署了 NVIDIA 的 BlueField DPU，可以对硬件实现直接访问，性能稳定而又可预测。传统的裸机基础设施缺乏虚拟化云提供的运行灵活性和敏捷性。通过使用 BlueField DPU高速网络和租户隔离的能力，百度可以轻松地向中国为数众多的客户提供裸机计算实例。NVIDIA 的 BlueField DPU使百度将裸机从硬件定义的服务器基础设施转变为软件定义、硬件加速的云平台。Egxednc

Red Hat与 NVIDIA 密切合作，部署在包含 50000 个节点的机组上，实现了 GPU 加速的 AI 计算并推动整个堆栈的创新，使这种尖端的基础设施可通过 BlueField DPU 软件定义、硬件加速的高效引擎，节省高达 7000 万美元。Egxednc

为满足 5G 对数据处理的严格要求，Palo Alto Networks 集成了搭载 NVIDIA BlueField DPU 的新一代行业领先的防火墙，其由软件定义、硬件加速的防火墙架构，可提供 100Gb/s 的线速安全处理。Egxednc

VMware 与 NVIDIA 携手为 30 万余家使用 VMware 虚拟化平台的机构组织构建高性能、更安全、更高效的 AI 就绪型云平台。Egxednc

提升数据中心效率Egxednc

NVIDIA DPU与爱立信、Red Hat 和 VMware 合作进行的一系列测试显示，使用 NVIDIA BlueField-2 DPU 的服务器的功耗最多可降低24%。在某个测试案例中，这些服务器的性能相比于仅使用 CPU 时提升了 53 倍。Egxednc

数据中心能够变得更加环保，实现节能减排，这要归功于 DPU加速的高效网络。Egxednc

电力成本减少近 200 万美元Egxednc

爱立信的研究人员测试了运营商是否可以使用智能网卡（具有 DPU 功能的网卡）来减少这些大型工作负载的功耗。在测试中，他们让 CPU 减速运行或进入睡眠状态，同时使用一块 NVIDIA ConnectX 智能网卡处理网络任务。Egxednc

结果表明，在满负荷网络上运行的服务器的 CPU 能耗从 190 瓦降至 145 瓦，下降了 24%。单靠应用这一个 DPU ，一个大型数据中心可在三年间削减近 200 万美元的电力成本。Egxednc

Egxednc

爱立信在三种场景下在 DPU 上运行 5G 网络用户平面功能Egxednc

爱立信 CTO Erik Ekudden强调了这项工作的重要性，他写道：“电信服务供应商正越发急迫地想要找到并实施能够降低网络能耗的创新型解决方案。” 他认为 DPU 技术 “可在各种流量条件下节约能源”。Egxednc

用度减少 70%，性能提升至原来的 54 倍Egxednc

在 Red Hat OpenShift 上的 DPU 测试结果更为惊人。Egxednc

在测试中，BlueField-2 DPU 需处理用于管理便携式应用程序和代码包所需的各项虚拟化、加密和网络任务。Egxednc

DPU 将网络对于 CPU 的需求降低了 70%，从而释放出大量 CPU，用于运行其他应用。此外，它们还使网络任务的速度大幅提升，达到了原来的 54 倍。Egxednc

BlueField-3 DPU的神秘面纱，伴随着DOCA揭开Egxednc

类似摩尔定律，BlueField DPU每 18 个月会更新一代。BlueField-2的下一个版本BlueField-3，是最新的DPU。NVIDIA 创始人兼首席执行官黄仁勋先生在 GTC 2021 主题演讲中揭开了 BlueField-3 的神秘面纱，这是公司历经多年创新的结晶。Egxednc

Egxednc

NVIDIA 的 BlueField-3 DPU 率先支持 400Gb/s 以太网和 InfiniBand 网络，其处理能力高达上一代产品的 10 倍。Egxednc

Egxednc

黄仁勋还宣布，NVIDIA 推出的DOCA是功能强大的应用程序框架，可支持开发者在 NVIDIA 的 BlueField DPU 上迅速创建应用程序和服务。每一代 BlueField DPU 都支持 DOCA，随着每代 DPU 的演进，原先开发的应用程序可以完全兼容。Egxednc

Egxednc

有了DOCA，对于客户来说，这意味着在目前 BlueField DPU上运行的应用程序和数据中心基础设施，在不久的未来将能不加修改地加速运行在 BlueField-3 DPU上。Egxednc

DOCA，会是下一个CUDA吗？

NVIDIA介绍DOCA是“为DPU注入了灵魂”，实际上DOCA是NVIDIA针对DPU开发者提供的软件开发框架，是一个一站式平台并有活跃的社区。说起NVIDIA的开发平台和社区，工程师们就会想起十多年前NVIDIA 举办的第一次CUDA活动。Egxednc

CUDA最初的使命与崛起Egxednc

2006年，NVIDIA CUDA（Compute Unified Device Architecture）架构问世，与此同时，NVIDIA图形处理器出货量达到5亿台。Egxednc

Egxednc

2007年，在美国加州圣克拉拉市，NVIDIA举办了第一届CUDA（Compute Unified Device Architecture）技术大会，这是一种并行计算平台和编程模型，可用于利用NVIDIA GPU的强大计算能力。CUDA使开发人员能够使用C语言，C ++，Fortran等编程语言来编写GPU加速的应用程序。Egxednc

在第一届CUDA技术大会上，NVIDIA展示了许多基于CUDA的应用程序，包括物理模拟，图像处理和生物信息学。此外，NVIDIA还介绍了CUDA的架构和编程模型，并提供了一些实用的编程技巧和最佳实践。Egxednc

自那时以来，CUDA已成为一种广泛使用的GPU编程平台和编程模型，用于各种科学，工程和商业应用程序。Egxednc

2008年NVIDIA推出CUDA SDK2.0版本，大幅提升了CUDA的使用范围。使得CUDA技术愈发成熟。Egxednc

2009年，NVIDIA在第一届 GPU 技术大会上发布了 FERMI 架构，这是新一代CUDA GPU架构。Egxednc

2011年，清华大学微电子研究所副教授邓仰东在国内正式全面介绍CUDA，邓教授也成为国内系统化讲授CUDA技术的第一人。Egxednc

但即使如此，当时的CUDA也远远没有现在这么火热，因为，那时的CUDA主要还是用于GPU图形处理器的加速开发，人工智能还只是在很小的范围内萌芽，远没有出现当今各行各业AI化和ChatGPT带起的火热浪潮。Egxednc

截止2023年初，以CUDA开发为主的NVIDIA开发者社区，中国注册开发者人数超过88万人，全球总的注册开发者人数400多万，占超过20%的比例。Egxednc

当前，CUDA社区的开发者大部分都是在进行人工智能的设计与研发，处于全球最顶尖的人工智能工程师行列。Egxednc

如今，NVIDIA又针对DPU推出了DOCA开发平台和社区，历史会不会重演呢？Egxednc

DOCA露面Egxednc

2021年Hot Chips大会上，NVIDIA BlueField DPU”横空出世“，让科技界欢呼，而让处理器架构师着迷的好消息是用户只需要将现有的软件对接熟悉的高级软件接口，就可以使用 DPU，他们不需要很多软件移植的额外工作。Egxednc

这些接口 API 都集中在一个被称为NVIDIA DOCA的软件栈中。这个类似于CUDA的栈包括了驱动程序、库、工具、文档、示例应用和运行时环境，可在整个数据中心的数千个 DPU 上进行配置、部署和编排服务。Egxednc

Egxednc

DOCA 提供一个用于在 DPU 上快速开发网络、存储和安全应用的软件平台Egxednc

2022 年 4 月 16 - 17 日，经过紧张激烈的竞赛，首届 NVIDIA DPU 中国黑客松圆满收官，这是NVIDIA为其DOCA平台和社区举办的一次竞赛活动。Egxednc

DPU首届中国黑客松竞赛Egxednc

报名首届 NVIDIA DPU 中国黑客松竞赛的队伍有69支，其中10 支被入选最终竞赛。Egxednc

Egxednc

从2022年 4 月 16 日上午 9 点正式开始，10支参赛队伍经过 24 小时的紧张软件编程与系统开发，于 17 日上午向中国评委呈现最终项目成果并进行评分。最终项目成果同时被送至国际评委进行评分，通过综合国内和国际评委的评分，最终 4 支队伍脱颖而出，获得这次黑客松竞赛大奖。Egxednc

其中冠军队为PDSL 团队，队长：杨豪迈，队员：郭一兴、刘鹏宇。Egxednc

在这次黑客松竞赛中，开发者通过 NVIDIA DOCA 软件框架构建创新的数据中心加速应用程序，支持用于人工智能、网络、存储和安全的 NVIDIA BlueField DPU 卸载、加速和隔离功能。这种新的加速将引领新一代人工智能驱动的数据中心及云计算变革浪潮。Egxednc

当时，全球有 2000 多名 DOCA 早期开发者，其中42%的开发者来自中国。Egxednc

Egxednc

随着DOCA的继续发展，半年多以后，截止2023年1月，全球有超过4600名开发者，其中56%来自中国。中国的开发者有来自互联网大厂、创业公司、企业和学校，还有来自大学的教授等等。Egxednc

DOCA到底是什么？Egxednc

DOCA是NVIDIA提供的免费的用于BlueField DPU的软件开发框架，可以卸载、加速和隔离基础设施操作，支持超大规模、企业、超级计算和超融合基础设施，为BlueField DPU 硬件迭代提供软件兼容性。Egxednc

Egxednc

DOCA提供了SDK和RUNTIME组件Egxednc

Egxednc

同时，DOCA提供了服务组件，可以加速数据中心服务(例如: 遥测)，简化部署，从NGC目录获取并快速启动，在各种环境中移植，通过内置的 DOCA Runtime 提供基础服务容器等等。Egxednc

Egxednc

DOCA是NVIDIA为其DPU打造的可编程软件平台：Egxednc

Egxednc

如果要用一句话来描述DOCA的话，那就是：DOCA之于DPU，正如 CUDA 之于 GPU。Egxednc

DOCA，或缔造下一个王者Egxednc

CUDA当时推出来仅仅是为了进行GPU图形加速，以给游戏和图形工作程序更好的体验。但是，随着GPU芯片在深度学习等人工智能领域的应用，CUDA一跃成为了最前沿的技术开发平台，目前，CUDA已经是全球最火热也最有价值的编程平台之一。Egxednc

DOCA会不会成为下一个王者呢？Egxednc

随着GPU硬件与人工智能进入深水区，CUDA也不可避免的要进行二次深度沉淀，同时，基于CUDA的开发也已经很成熟。人工智能的硬件发展也处于一个亟待突破的瓶颈期。Egxednc

DOCA是为了更快更高效的提升人工智能的效益与性能，能够解决当前最重要的成本投入与性能瓶颈问题，也就是解决人工智能算力与性能的痛点。这也是目前全球微软、谷歌、亚马逊、百度等巨头和人工智能细分垂直领域的企业在人工智能开拓方面的痛点。Egxednc

然而，基于AI本身的特点，譬如ChatGPT就能自行进行编程，DOCA会不会很快就被AI所取代呢？Egxednc

笔者认为，DOCA在目前阶段还不可能被替代，因为所积累的数据和程序不够，无法满足AI学习达到“自学成才”的效果。Egxednc

未来，DOCA之于DPU，或许正如CUDA之于GPU一样，会缔造下一个编程王者。Egxednc

结语：NVIDIA的“非预见性”到“预见性”变革

NVIDIA在2000年前还只是一个做图形处理器的公司，从1993年成立到1999年这段时间，在显卡市场中还没有占据什么领先优势。Egxednc

当NVIDIA于1999年8月推出GeForce 256显卡之后，打开了个人电脑游戏加速市场，很快就占据了GPU市场70％以上的份额。在此之前，GPU显示芯片都属于固定功能的芯片，而GeForce 256的出现，成为了第一款“集成了转换、照明、三角形设置／剪裁和渲染引擎的单芯片处理器”，能够每秒处理至少1000万个多边形，让GPU可以从CPU手里接管大量几何运算的工作，解决通用计算无法解决的问题，极大地推动了PC游戏、创意设计等对GPU的需求。Egxednc

这可能是NVIDIA对GPU市场的第一次“非预见性变革”。Egxednc

2006年，英伟达推出了通用计算架构CUDA，以及通用计算硬件Tesla GPU。但在当时，深度学习只有一些大型企业、研究机构需要GPU来进行药物发明、天气建模、金融分析等高性能计算任务。Egxednc

2009年，NVIDIA举办了首届“GPU技术会议”，向“使用GPU解决重要计算工作的开发者、工程师和科研人员”推广。Egxednc

2012年深度学习三巨头之一Geoffrey Hinton及其学生Alex，使用GPU来加速训练深度神经网络，在ImageNet竞赛中一鸣惊人，掀开了人工智能历史上第三次浪潮的大幕。Egxednc

在推出GPU图形卡的时候，很少有人想到它能够用于深度学习、神经网络等人工智能前沿技术，正是由于有了CUDA，以及与开发人员的互动，CUDA与GPU一起推动了人工智能必需的高速计算的发展，大大加速了人工智能发展的进程。Egxednc

这应该算是NVIDIA对人工智能算力的第二次“非预见性变革”。Egxednc

人工智能在沉淀发展了几年之后，ChatGPT“横空出世”，一经推出，就受到了全世界的高度关注和热捧。然而，在高度智能的背后，是巨大的成本和算力投入，这与企业的ROI和全球节能减排的目标是矛盾的。Egxednc

这时，NVIDIA把早已研发的秘密武器——DPU和DOCA推出，它们能够大大缩减人工智能计算的成本，提升计算效能，解决当下痛点。Egxednc

或许，DPU将是NVIDIA对高速计算的第三次变革，这一次，属于“预见性变革”。Egxednc

用黄仁勋本人的说法，“NVIDIA历史上几次具有里程碑意义的关键技术推出，背后其实都是对自家 GPU 技术的发展成果进行了“泛化”（generalize），发现它可以做更多不同的事情”。Egxednc

而这些，都已经或正在成为计算时代的变革力量。Egxednc

人工智能在ChatGPT的火爆带动之下再次迎来新的浪潮，智能物联网（AIoT）的发展也正如日中天。AIoT市场持续扩大，主要得益于AIoT技术和产品的不断演进，并持续满足市场需求。未来几年，在产业驱动、消费驱动以及政策驱动的多重因素助推下，AIoT产业仍将保持高速增长。长期来看，AIoT产业驱动应用市场潜力巨大，将成为远期增长点。Egxednc

为了帮助行业上下游企业更好地把握AIoT市场发展商机，全球领先的专业电子机构媒体AspenCore将携手深圳市新一代信息通信产业集群联合主办【2023国际AIoT生态发展大会】，将于2023年6月8日在深圳南山科兴科学园国际会议中心盛大举行！Egxednc

预登记通道现已开启，长按立即报名参会！Egxednc

责编：Challey

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

Challey

资深产业分析师

进入专栏

上一篇： 一张卡能用四家运营商的网络？全球首个5G异网漫游试商用 下一篇： 国产芯片的新里程碑，龙芯3A6000比肩英特尔10代酷睿

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
5个必备的FPGA设计小贴士在本文中，我们将分享一些有用的技巧，帮助您快速开始设计，避免常见的设计陷阱。通过掌握这些关键技巧，可以确保您在开发工业设备、医疗设备、智能家居设备、自动驾驶汽车和机器人应用时，更顺利、更高效的进行设计流程，最终成功实现FPGA设计···
基于SRAM的FPGA技术创新：快速安全启动机制深度解析在可编程逻辑器件领域，基于SRAM的FPGA经常被误解···
瑞萨电子广受欢迎的RA0系列推出新产品，卓越的功耗、更低成本RA0E2适用于消费电子、小家电、工业系统控制与楼宇自动化等领域···
SiC MOSFET 如何提高 AI 数据中心的电源转换能效随着数据中心耗电量急剧增加，行业更迫切地需要能够高效转换电力的功率半导体···
Cadence 利用 NVIDIA Grace Blackwell 加速 AI 融合设计专业知识与加速计算，推动科技创新、实现能效和工程生产力方面的突破性进展，引领全球生活新范式···
Certus-N2的边缘网络奇旅随着“下一代小型FPGA平台”Nexus™ 2和基于该平台的首个器件系列Certus™-N2通用FPGA的面世，莱迪思(Lattice)公司在小型FPGA领域的领先地位再次得到强化···
基于STM32MP1和2的嵌入式Linux安全保护机制，值得思考的工程师着力于提升产品质量和功能安全，却未能制定信息安全事故应急方案，甚至有些团队不重视数据的价值，在设计中没有缜密考虑信息安全，存在亡羊补牢的思想，这导致多数企业看不到人为错误或新型攻击向量对用户或企业造成的严重损害或损失···
倒置的LM337，一条功率处理DAC的不寻常道路此设计实例通过将倒置的LM337稳压器与一个简单的PWM电路合并，形成了一个20V、1A电流源，从而走上了功率处理DAC的不寻常道路···
Microchip 推出集成高性能模拟外设的32位PIC32A单片机采用200 MHz CPU集成业界领先的模拟外设，提供高性价比系统级解决方案···
AMD 推出第五代 AMD EPYC 嵌入式处理器，为网络、存储与高性能“Zen 5”架构可提供服务器级性能与效率，并结合专属打造的功能，以优化产品寿命和系统弹性，思科和 IBM 是首批采用第五代 AMD EPYC 嵌入式 CPU 为下一代平台提供支持的技术合作伙伴···
小尺寸FPGA如何发挥大作用与许多类型的器件一样，人们很容易陷入这样的误区：大芯片比小器件更好，更有影响力。然而，就FPGA而言，更小的芯片往往具有最大的应用范围和影响力···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

DPU，如何在ChatGPT的浪潮中快速崛起？

ChatGPT成功背后的巨大算力付出

持续、巨大的算力投入

芯片和服务器投入

电力投入

GPT-4及之后：投入成本更多，带来三大挑战

如何拯救算力的巨大支出，提升ROI？

DOCA，会是下一个CUDA吗？

结语：NVIDIA的“非预见性”到“预见性”变革