欢迎访问本站,持续更新中…

NVIDIA Blackwell Ultra:算力狂魔,但散热怎么办?

封面

NVIDIA 又发新品了。

Blackwell Ultra。

看到这个名字的时候,我正在机房里巡检。说实话,听到"Ultra"我脑子里就两个反应:第一,性能肯定又炸裂了;第二,电费单子又要涨了。

这次发布会的 PPT 做得很黄(字面意思,NVIDIA 那种标志性的黄),满屏都是"10x Training Efficiency"(10 倍训练效率)和"5x Faster Inference"(5 倍推理速度)。

10 倍。

我盯着那个数字看了半天,心里盘算了一下。

去年我们用 A100 跑一个 70B 模型的微调,花了大概两周。后来换了 H100,缩短到三天。现在 Blackwell Ultra 说能再快 10 倍?

那岂不是说……几小时就能搞定?

但这事儿没那么简单。

发布会演示归演示,真实落到我们这种搞工程的人手里,往往就是另一番景象了。

我先去翻了技术白皮书。

Blackwell Ultra 的核心架构确实猛。它用了新一代的 NVLink 交换机架构,带宽直接干到了 1.8TB/s(你没看错,是 TB)。这意味着什么?意味着在一台 DGX 机柜里,GPU 之间通信的瓶颈被大大缓解了。

以前做分布式训练的时候,最头疼的不是 GPU 算得慢,而是 GPU 之间“等数据”的时间太长。尤其是在做 MoE(混合专家)模型的时候,不同的专家模型分散在不同的卡上,All-to-All 通信的开销能把人逼疯。

这次 NVLink 的提升,正好打在痛点上。

而且,白皮书里提到一个细节:Direct-to-Chip Liquid Cooling(芯片级直液冷)。

嗯,终于不吹风扇了。

以前机房里那些 H100 服务器,风扇转起来跟直升机起飞一样。夏天去机房巡检,不戴耳罩根本待不住。现在改成液冷了,理论上噪音会小很多,散热效率也更高。

但——液冷这事儿,坑也不少。

内容

去年我们测试过一家国产厂商的液冷方案。当时看着挺好,TDP 降了 30%,机房 PUE 也好看。结果跑了不到三个月,接头处开始渗液。

虽然量很小,但你知道在机房里看到冷却液是什么心情吗?

吓得我们赶紧停机排查。最后是密封圈老化导致的。

所以 Blackwell Ultra 虽然官方说支持液冷,但我更关心的是:NVIDIA 提供的液冷套件到底包不包含快速接头和维护服务?还是说只卖你冷板,剩下的你自己搞定?

如果还要我们自己搞管路、做检漏、买冷却液,那运维成本可就上去了。

另外,价格。

虽然还没公布,但按照黄仁勋的刀法,Ultra 版本肯定不便宜。

我估计单卡价格会介于 H100 和 B200 之间,但考虑到它是“优化版”,性价比可能不如直接上 B200。

不过对于很多中小企业来说,B200 可能太贵了,而且不一定买得到(产能爬坡你懂的)。Blackwell Ultra 如果能以相对亲民的价格提供接近 B200 的性能,那确实是个不错的选择。

还有一个点:软件生态。

NVIDIA 最可怕的不是硬件,是 CUDA 护城河。

Blackwell Ultra 肯定完美兼容现有的 CUDA 代码。你昨天写的训练脚本,今天换上 Ultra 卡,大概率不用改一行代码就能跑起来——甚至还会自动利用新架构的特性进行优化。

这一点,其他厂商(比如 AMD、Intel 甚至那些做 ASIC 的初创公司)很难比。

他们可能硬件参数很漂亮,但迁移成本太高。你得改代码、调算子、适配新框架。工程师的时间也是钱啊。

所以我的结论是:

如果你现在手头有 H100 集群,而且主要跑的是大模型训练或者高并发推理,Blackwell Ultra 值得升级。特别是那个 NVLink 带宽的提升,对 MoE 架构和多卡并行训练的加速是实打实的。

但如果你还在用 V100 或者 A100,而且预算有限,那再等等也许更好。因为 B200 的产能上来后,Ultra 的价格可能会松动。

反正我是打算先观望一下。

等第一批拿到卡的大厂开始在博客上分享实测数据——特别是散热和稳定性方面的——我再决定要不要申请预算。

毕竟,机房漏水这种事,经历一次就够了。

金句

关于维基框架

维基框架(Wiki Framework)是一套面向复杂业务场景的轻量级开发框架,支持多语言、多协议、多部署形态。适用于企业级应用开发、微服务架构、云原生部署等场景。