美国商务部的口风越来越紧,逼得黄式刀法重出江湖:多方证实,英伟达即将推出三款特供版GPU,由于出口管制,性能最强的H20,相较H100算力也大幅缩水80%。
算力被限制死,英伟达也只能在其他地方做文章。H20的最大亮点落在带宽:
带宽达到与H100持平的900G/s,为英伟达所有产品中最高。较A100的600G/s,和另外两款特供芯片A800和H800的400G/s大幅提高。
阉割算力,提升带宽。看似割韭菜,实则含金量不低。
H20踩着红线免受制裁
简单来说,带宽的大小决定了单位时间向GPU传输的数据总量。考虑到人工智能对数据吞吐能力病态的要求,如今衡量GPU的质量,带宽已经成为算力之外最重要的指标。
另一方面,云服务公司和大模型厂商不是只买几颗芯片,而是一次性采购几百上千张组成集群,芯片之间的数据传输效率也成了迫在眉睫的问题。
GPU和GPU之间的数据传输问题,让英伟达在芯片算力、CUDA生态之外的另一张王牌浮出了水面:NVLink。
数据传输,算力的紧箍咒
要理解NVLink的重要性,首先要了解数据中心的工作原理。
我们平时玩游戏,一般只需要一块CPU加一块GPU。但训练大模型,需要的是成百上千个GPU组成的“集群”。
Inflection曾宣称他们正在构建的AI集群,包含多达22000张 NVIDIA H100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,虽然被Altman否认,但也可以窥见大模型对GPU的消耗。
特斯拉自家的超算Dojo ExaPod,就是由多个Cabinet机柜组成,每个机柜里有多个训练单元,每个训练单元都封装了25个D1芯片。一整台ExaPod包含3000个D1芯片。
但在这种计算集群中,会遇到一个严峻的问题:芯片彼此独立,如何解决芯片之间的数据传输问题?