发布日期:2024-12-27 00:57 点击次数:104
近日国产 探花,让外洋科技圈提早过上了圣诞节。
由于硅、封装以及芯片背板的问题,的Blackwell GPU曾屡次传出蔓延发布的信息,但这并莫得让英伟达的脚步放缓。
快播在线在GB200和B200发布6个月后,英伟达就晓谕将推出全新的GPU GB300和B300。外界看来似乎是一个按序渐进的进程,但事实上,这口角常高效的迭代。全新GPU为大模子的推理和考验性能带来雄伟的提高,对大模子公司和存储供应商来说,无疑是一份雄伟的圣诞礼物。
B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺作念了一个调整遐想,专用于磋磨芯片,使得B300浮点运算比B200高50%,GB300和B300的热遐想功耗隔离达到1.4KW和1.2KW,比较之下,GB200和B200的热遐想功耗隔离为1.2KW和1KW。
此外,B300的内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量加多到288GB,但引脚速率将保握不变,是以每个GPU的内存带宽仍然是8TB/s。不外,并莫得收到黄仁勋带来的礼物,因为至少在异日的9个月内,他们皆莫得契机拿到GB200和GB300的订单。
GPU卷内存的背后,是大模子的下一场战事「推理」
英伟达矫正GPU内存的背后,是为餍足OpenAI O3对推感性能的更高条目。
OpenAI O3接收KVCache时候对模子的推理能力进行优化,即通过缓存综合力机制中的键(Key)和值(Value)来减少冗余磋磨,从而提高模子推理的速率。关节等于缓存之前的旧数据,仅对新输入的Token进行磋磨,是以对缓存的性能建议了更高的条目。
下图是在不同批处理大小下,使用H100和H200两种GPU处理长序列时,Meta开源大模子Llama3.1405B在FP8(8位浮点数示意法)精度下的处理速率。输入设备为1000个Token,输出19000个Token,由此模拟OpenAI o1和o3模子中的念念维链。
H100升级到H200的两个矫恰是:内存更高,速率更快。
由于更多的内存带宽(H200 4.8TB/s vs H100 3.35TB/s),在系数可比较的批处理中,交互斥逐频繁提高43%。
H200起首比H100更高的批处理,但本钱抑遏了3倍。
内存容量提高,在多个维度皆会产生影响。
由于请乞降反应之间的恭候时刻很长,推理模子可能会带来倒霉的用户体验。若是粗俗裁减推理时刻,这将加多用户的付费意愿。
3倍的本钱互异是雄伟的。在中代升级中,硬件产物粗俗终了3倍的变化,这在某种进度上,比摩尔定律、黄氏定律或其他系数硬件矫正速率皆要快得多。
在大模子竞赛中,最具能力和互异化的模子粗俗收取权贵的溢价,头部模子的毛利率零碎70%,而落伍模子毛利率低于20%。
天然,英伟达并不是独逐个家不错提高内存容量的公司。ASIC相似不错作念到,且事实上AMD在这方面可能处于更有意的地位,MI300X的192GB、MI325X的256GB以及MI350X的288GB,这些产物的内存容量比英伟达要高。
GB200 NVL72和GB300 NVL72在性能和本钱方面皆有很大的提高,在推理中使用NVL72的关节是它使得72个GPU粗俗处理褪色个问题,并分享内存,且蔓延极低。寰宇上莫得其他加快器领有全互联的交换结合以及粗俗通过交换机进行全约简操作。GB200 NVL72和GB300 NVL72为终了好多关节功能带来了调动性的变化:
更高的交互性使得念念维链的蔓延更低。
72个GPU漫步KVCache,以终了更长的念念维链(增强智能)。
与典型的8个GPU行状器比较,更好的批量大小扩张,使得本钱更低。
在处理褪色问题时,不错搜索更多的样本,以提高准确性,最终提高模子性能。
因此,NVL72的推感性价比比之前提高了10倍以上,终点是在长推理链上。KVCache占用内存对经济效益是致命的,但NVL72粗俗将推理长度扩张到10万以上token并在高批量中进行。
英伟达的「回身」,供应链的「飘浮」
英伟达在GB300的遐想上有很大的改变,关于GB200, 英伟达提供通盘Bianca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM一集结成在一块印刷电路板上)以及交换托盘和铜背板。
关于GB300,英伟达不再提供通盘Bianca板,只提供“SXM Puck”模块上的B300以及BGA封装上的Grace CPU。HMC(夹杂内存立方体)将由好意思国初创公司Axiado提供,替换掉了之前的供应商Aspeed。此外,交换托盘和铜背板将仍由英伟达提供。
客户当今需要自主采购磋磨板上其余的组件,外部存储器将接收LPCAMM模块,而不是焊合的LPDDR5X,好意思光或将成为这些模块的主要供应商。
向SXM Puck的飘浮,为更多的OEM和ODM提供了参与供应磋磨托盘的契机,往时惟有纬创资通和工业富联不错出产Bianca板。在此次供应商调整中,纬创资通成为最大输家,因为他们失去了Bianca板的份额。相对而言,工业富联诚然失去了Bianca板的份额,但他们是SXM Puck模块的独家制造商,这部分带来的收益饱胀不错对消掉Bianca板带来的赔本。英伟达诚然想找更多其他的SXM Puck模块供应商,但目下还莫得本体下单。
另一个紧要变化是VRM(电压颐养模块),诚然SXM Puck上有一些VRM,但大部分的VRM将由超大规模厂商或者OEM成功从VRM供应商处采购。
此外,英伟达还在GB300平台上提供了800G ConnectX-8 NIC(汇集接口卡),这使得在InfiniBand和以太网上的横向扩张带宽翻倍。由于上市时刻的影响,英伟达之前取消了GB200的ConnectX-8,况兼撤废了在Bianca板上启用PCIe Gen 6(PCI Express接口的最新一代圭臬)。
阛阓信息标明,GB200和GB300的蔓延发布,给硅谷的大厂们带来了很大的影响。而这背后传递出的信号是从第三季度,多数订单转向了GB300。扫尾上周,系数大厂皆决定使用GB300。一部分原因是更高的性能和更大的内存,另一方面,英伟达照旧适度了大厂模子考验的运谈。
受制于产物上市时刻、机架、冷却和电源功率密度的紧要变化,大厂在行状器层级无法对GB200进行太多更变。这导致Meta撤废了但愿从博通和英伟达两个渠谈采购汇集接口卡(NICs)的但愿,转而饱胀依赖英伟达。谷歌也撤废了自家的汇集接口卡,聘请与英伟达衔尾。
硅谷大厂们风气了本钱优化,从CPU到汇集,再到螺丝和金属板。
亚马逊是一个例外,定制化让他们“被动”聘请了次优建立。由于亚马逊使用了PCIe交换机和斥逐较低的200G弹性织物适配器NIC,无法像Meta、谷歌、微软、甲骨文、X和Coreweave那样部署NVL72,因此不得不使用NVL36,这也导致每个GPU的本钱更高,因为背板和交换机内容更多。
GB300的出现为亚马逊带来蜕变,大厂粗俗定制主板、冷却系统等功能。这使得亚马逊粗俗构建我方的定制主板,跟着更多组件接收水冷,以及K2V6 400G NIC在2025年第三季度扶植HVM(硬件凭空化解决),亚马逊相似不错使用NVL72架构,并大幅改善其总体领有本钱(TCO)。
本文由雷峰网编译自:https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#b300-gb300-not-just-an-incremental-upgrade