随着主要技术公司集中大量资源来满足每年对更高性能的需求,人工智能领域正在看到快速发展。我们已经看到NVIDIA和AMD积极考虑AI和HPC来积极构建下一代GPU,但看来英国AI芯片设计师Graphcore的竞争已经到来,后者发布了第二代AI芯片,直接与NVIDIA的竞争对手竞争。A100 Tensor Core GPU加速器。
Graphcore的GC200是用于AI任务的大型7nm芯片,旨在与NVIDIA的A100 GPU竞争-IPU可提供多达250 Teraflops的AI计算
为此,Graphcore宣布了其新型Colossus MK2 GC200 IPU或专门为机器智能提供动力的智能处理单元。就像它的名字一样,该芯片本身具有巨大的设计,并且比其前身MK1的性能提高了8倍。
微软与Graphcore合作,为Azure云中的AI应用程序提供动力
“我们100%专注于AI的硅处理器,以及可插入现有中心的构建系统。如果已经可以正常工作,为什么我们要构建CPU或GPU?这只是一个不同的工具箱。” 通过Graphcore的首席执行官Nigel Toon
Colossus MK2 GC200在台积电的7nm工艺节点上制造,管芯尺寸为823 mm2。相比之下,它几乎与NVIDIA A100 GPU加速器一样大,后者的尺寸为826mm2。该芯片不仅在尺寸上是个庞然大物,而且在密度方面也很强大,板载总共594亿个晶体管,而NVIDIA A100 GPU上只有542亿个晶体管。与NVIDIA旗舰芯片加速器相比,它在Graphcore芯片上显示出更高的密度。
为了使GC200正常工作,它配置了1472个IPU标题,每个标题都具有IPU内核和处理器内存储器。每个IPU内核有6个并行执行的线程,这使芯片中的线程总数为8832(1472个内核/串行处理器)。对于内存,该芯片采用了一个片上解决方案,该解决方案可为每个IPU提供900 MB的容量,并提供47.5 TB / s的内存带宽。Graphcore的容量较小,但带宽解决方案更高,并表示从理论上讲,一次使用多个机架可以得到更大的容量,并且与由A100 GPU组成的机架相比,内存池最终会更高。
为了实现互连,该芯片使用IPU-Exchange结构,该结构为所有IPU提供8 TB / s的带宽。该芯片由10条IPU链路组成,其中芯片到芯片的带宽为320 GB / s。MK200还支持PCIe Gen 4(x16)接口。至于计算输出,MK200可提供250个峰值FP16(具有稀疏性)的TFLOP和62.5个TFPOP(具有稀疏性)峰值的FP32性能。NVIDIA A100 GPU总共提供312个TFLOP FP16(624个TFLOP具有稀疏性)和19.5个TFLOP FP32(具有156个TFLOP具有稀疏性)。