Nvidia表示,它选择AMD最新的EPYC服务器处理器而不是Intel Xeon作为该芯片制造商的新DGX A100深度学习系统,因为它需要从其新A100中榨取尽可能多的汁液,以实现GPU的性能跨越式增长。
这家总部位于加州圣克拉拉的公司于周四发布了A100和DGX A100,这是新数据中心GPU的明星之作,该GPU结合了推理和训练加速功能。尽管新的GPU和系统功能是主要吸引力,但DGX A100的CPU选择标志着GPU强大功能的显着偏离。
Nvidia以前曾依靠英特尔的Xeon处理器为其前两个DGX系统提供CPU计算能力,但随着DGX A100的改变,后者具有两个64核AMD EPYC 7742处理器。
Nvidia DGX Systems副总裁兼总经理Charlie Boyle告诉CRN,选择采用AMD第二代EPYC Rome系列中顶级处理器之一的决定归结于速度,核心数量和吞吐量。
他在一份声明中说:“我们始终围绕充分利用GPU来开始DGX设计。我们在DGX A100中使用的新Nvidia A100 GPU带来了巨大的飞跃,性能和功能。”“要使系统中的GPU保持数据供应,我们需要一个具有尽可能多的内核和PCI通道的快速CPU。我们使用的AMD CPU每个都有64个内核,许多PCI通道并支持PCIe Gen4。”
除了AMD EPYC 7742提供的高性能和核心数量之外,另一个关键是CPU对PCIe 4.0的支持,它比PCIe 3.0快得多。另一方面,英特尔第二代至强可扩展处理器仅支持PCIe 3.0。
“ DGX A100是第一个全PCIe Gen4加速系统,其带宽是PCIe Gen3的两倍。我们系统中的所有IO均为Gen4:GPU,Mellanox CX6 NIC,AMD CPU和我们用来流式传输的NVMe驱动器AI数据,”博伊尔说。
但是,尽管前两个DGX系统和新的DGX A100之间的CPU供应商有所变化,但Boyle认为,除了性能有所提高之外,客户不会注意到其他区别。
他说:“在系统级别,我们进行软件工程工作,以使客户看不到CPU体系结构之间的差异。”“我们的客户可以采用在上一代DGX系统上运行的应用程序,而无需进行任何更改就可以在新的DGX A100上运行它们-应用程序运行得更快。”
总部位于马萨诸塞州普利茅斯的高性能计算系统开发商Microway的战略客户和HPC计划副总裁Eliot Eshelman说,他对Nvidia决定采用AMD EPYC的决定并不感到惊讶,该公司与Intel,AMD和Nvidia合作用于新的DGX系统,因为这全都在于减少瓶颈数量。
他说:“英特尔仍在PCIe Gen3上,因此它的带宽是AMD的一半。我觉得这很容易。
与英特尔,AMD和Nvidia合作的系统构建商的一位高管表示,AMD EPYC对八通道内存的支持也使该芯片制造商比英特尔略逊一筹,后者在其可插拔的至强可扩展处理器中最多支持六个内存通道。
他说:“八通道内存,PCIe 4.0和高核数都使AMD在选择过程中具有优势。默认情况下,它必须这样做。”“这就是AMD EPYC Rome在某些细分市场上具有极强竞争力的原因。不仅仅是价格合理,而且价格合理。它们还为您提供了核心,IO和内存寻址方面的显着优势。”