算力兵器谱：从一体机，超节点再到万卡集群-EDN 电子技术设计

 2025年上半年最火的AI产品是什么？绝对是DeepSeek一体机，没有之一···

sglednc

1. 一体机 (All-in-One Machine)sglednc

sglednc

2025年上半年最火的AI产品是什么？sglednc

绝对是DeepSeek一体机。sglednc

没有之一。sglednc

一体机，顾名思义，就是将计算、存储和部分互联功能集成在单个机箱内的智算机器。sglednc

一般配置 1到2颗通用型 CPU，核心数量适中，主要负责操作系统运行、任务调度以及一些非计算密集型的工作负载。sglednc

当然AI一体机中少不了GPU，通常配备 1到8块高性能 GPU。sglednc

这些 GPU 通过 PCIe 总线直接连接到 CPU，实现高速数据传输。sglednc

sglednc

实际部署在多 GPU 配置中，NVIDIA 的 NVLink 等专有互联技术可能用于 GPU 之间的高带宽、低延迟通信，这种互联虽然仅限于单机箱内部，实际部署中也比较少见。sglednc

所以一体机的数据交互，主要依靠 PCIe 总线作为 CPU 与 GPU 之间以及 GPU 内部的主要互联方式。通常不涉及外部高速网络互联，因为其设计初衷是作为独立的计算工作站。sglednc

一体机的架构特点：高度集成、部署简单、占用空间小。最重要就是便宜。sglednc

典型应用：企业或者个人 AI 开发工作站、小型深度学习模型训练、边缘 AI 推理、图形渲染和设计等。例如DeepSeek一体机就是一种典型的产品形态。sglednc

sglednc

2. 超节点 (Supernode)sglednc

sglednc

一体机一般最多8张卡，算力有限。sglednc

因此更大规模的智算设备形态，超节点就应运而生。sglednc

超节点是比一体机更大规模的AI计算单元，它由多个计算节点（通常是服务器）通过高速网络互联而成，形成一个逻辑上的高性能计算模块。sglednc

一个超节点内部通常承载着强大的并行计算能力。sglednc

一个超节点可能由多台服务器组成，每台服务器通常配置2颗或更多 CPU，因此整个超节点可能拥有数十颗 CPU，提供强大的通用计算和任务管理能力。超节点内部集成了大量 GPU，数量远超一体机。每台服务器可能配置8块、16块甚至更多 GPU，因此一个超节点可能包含几十到上百块 GPU，为大规模并行计算提供核心算力。而超节点的实物如下图所示，看起来就是一个平平无奇的机柜。但是超节点的互联方式与一体机不同。超节点内部GPU之间进行级联（scale up），沿用 PCIe 总线。但是最重要的是通过 NVLink（对于 NVIDIA GPU）把GPU连到了一起。当然对于其GPU厂家，也有其他的（类似NVLINK）互联方式，实现 CPU 与 GPU 之间以及同一服务器内多 GPU 之间的高速互联。上图可以看到，超节点GPU和CPU之间，通过PCIe互联，而GPU之间通过NVSwitch实现NVLINK的互联，NVLINK的能够提供几个Tbps的互联带宽。这个比PCIe要快一个数量级。而最近另一个比较有名的超节点的例子，就是华为的CLOUDMatrix384，这个通过UB Switch实现了384个NPU和CPU的互联。类似于NVLINK和UB Switch这些GPU之间scale up的互联协议是实现超节点各家的杀手锏。同样从华为的例子来看，超节点的互联的带宽是很高的。例如华为CLOUDMatrix384的一个GPU的UB接口达到了196GBX2的吞吐能力。 sglednc

超节点典型应用：很多超节点就是训推一体，既可以推理也可以训练，在训练方面，可以实现中等规模 AI 模型训练（如百亿参数级别）、复杂科学模拟、数据密集型分析、企业级高性能计算任务。sglednc

3. 智算集群 (Intelligent Computing Cluster)sglednc

当然，超节点可以实现几百张GPU的互联，如果是LLM大规模的训练的话，那么就会使用上万张GPU，那就变成万卡互联，甚至十万卡互联。sglednc

这就是智算集群，或者叫做万卡集群或者十万卡集群sglednc

这是目前最顶级的超大规模计算基础设施。sglednc

它由数千甚至上万个计算节点通过多层级、高带宽的互联网络组成，旨在提供无与伦比的计算能力，以支持超大规模 AI 模型训练、前沿科学研究和复杂工程仿真。sglednc

智算集群包含海量的 CPU。集群中的每个计算节点都配置多颗高性能 CPU，整个集群的 CPU 数量可能达到数千甚至上万颗。CPU 主要负责集群管理、任务调度、数据预处理和一些通用计算任务。万卡集群的核心是海量的 GPU，数量可以从数千到上万块。这些 GPU 分布在数百甚至上千个计算节点中，形成一个庞大的并行计算资源池。下图就是马斯克同志搞得十万卡集群的部分机柜。从智算集群的架构来看，智算集群的互联是其最复杂也最关键的部分，旨在确保数万块 GPU 之间的高效通信。网卡集群可以看做很多智算节点的互联：在节点内部（专业术语scale up）依然采用 PCIe 总线和 NVLink（对于 NVIDIA GPU）实现节点内部 GPU 与 CPU 的高速互联。在节点之间（专业术语scale out）：这是智算集群的精髓。它采用多层级、高带宽、低延迟的 RDMA 网络，并构建高度复杂的网络拓扑结构，例如多层 Fat-Tree、Dragonfly+、或定制的环形/网格拓扑。因此，万卡智算集群引入了高速 RDMA (Remote Direct Memory Access) 网络，如 InfiniBand 或 RoCE (RDMA over Converged Ethernet)，用于超节点内部不同服务器节点之间的高带宽、低延迟通信。上图就是通过双层的交换机，连接不同的智算节点之间高速网卡（例如400G或者800G的网卡，一般是每块网卡对于一块高速GPU）。例如上图，每个GPU都要配合一张NIC（网卡（紫色所示）），从而在外部交换机上实现高速的互联。这就是10万卡的集群的特色，不但是有PCIe的Switch，要有GPU之间的NVlink，还要有高速的（400G/800G）的RDMA网卡以及高速的51.2T/102.4T的交换机（400G*128/800G*128）。这些智算服务器节点或者超节点通过网络连接起来，然后通过软硬件协同设计，并结合高性能通信库（如 NCCL），优化集群级的集体通信操作（All-reduce, All-gather等），确保数万块 GPU 能够像一个统一的计算单元一样协同工作。这么大的集群，是很容易出问题的，一次训练需要几个月，但是集群无故障工作的时间也就是几天到几周。因此庞大的规模要求集群网络具备强大的容错能力、智能的负载均衡机制和快速的故障恢复能力。sglednc