英伟达新“王炸” 未发先难产

业界 | 2024-12-26| 5

继B200/GB200芯片交付推迟后,英伟达或又面临新品难产的问题。

12月24日,据Wccftech报道,英伟达最新旗舰芯片B300/GB300的参数已经确认。其中B300的显存规格从上代产品的192Gb提升至288Gb;GB300平台将首次使用LPCAMM内存模块设计,并配备带宽提升至1.6Tbps的光模块,以确保数据高速传输。

在性能大幅提升的同时,B300/GB300的功耗也被拉到史无前例的高度,TDP(热设计功耗)达到1400W。作为对比,Hopper架构的拳头产品H100芯片,其TDP为350W。

这对于服务器的散热设计来说,无疑是个巨大的挑战。

而就在上周,天风国际分析师郭明錤在研报中表示,英伟达在为B300/GB300开发测试DrMos技术时,发现芯片存在严重的过热问题,这可能会影响B300/GB300的量产进度。

尽管黄仁勋此前曾多次表示,英伟达未来将严格遵循一年一换代的原则,但旗下GPU在改用Blackwell架构后,不止一次出现跳票的情况。

Blackwell架构,真有问题?

在郭明錤发布的研报中,指出了B300/GB300目前面临的问题:由AOS(Alpha & Omega Semiconductor)公司提供的5*5 DrMos方案在测试中过热。

先来说说DrMos是什么。

这是英特尔在2004年推出的技术,主要原理是将驱动器和MOS集成在一起,以减小多个元件的空间占用以及降低寄生参数带来的负面影响,从而提升转换效率和功率密度。

简单地来说,它就是一个高度集成的电源解决方案。

英伟达新“王炸” 未发先难产_https://www.btna.cn_业界_第1张

消费级显卡RTX3060上的DrMos,由AOS供应

在英伟达Hooper架构芯片上,包括H100/A100/H800/A800在内,其DrMos方案全部由MPS(Monolithic Power Systems)供应,可能是基于不把鸡蛋放在同一个篮子的原则,在Blackwell架构芯片上,英伟达开始测试AOS的方案。

那是否能说明,AOS应该为B300芯片的过热问题背锅呢?

恐怕并不能。

首先,AOS的5*5 DrMos芯片是一款散热能效高,且十分成熟的方案设计,这在行业内已经得到广泛验证。

其次,郭明錤的财报中也提到了,有产业链人士指出,B300的发热问题除了DrMos芯片本身之外,还源于系统芯片管理的设计不足。

这已经不是Blackwell第一次被曝出存在设计问题。

今年8月,据《The Information》报道,B200在台积电流片过程中,发现设计存在缺陷。

起初业内认为可能是台积电的N4P制程工艺存在问题,但在与高盛的投资人沟通会中,黄仁勋说出了问题所在:由于GPU芯片、LSI桥、RDL中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲。

100%是英伟达的责任。

在芯片设计被曝出缺陷后,B200/GB200芯片的交付时间从今年3季度被推迟至4季度。而且从实际情况来看,现阶段仍没有公司拿到B200芯片,从公开资料中得知,马斯克凭借10.8亿美元的订单,获得了B200芯片的优先交付权,这些芯片将被用于增强xAI的超级计算集群Colossus。

而即便是获得优先交付权xAI,也得等到明年1月份才能收到B200芯片。

回到B300芯片上,这是一枚原定在明年3月GTC大会上发布的旗舰产品,现在却面临未发布先难产的问题。

完全垄断AI服务器芯片的英伟达,为什么会在Blackwell上一再翻车。

一个很重要的原因是,英伟达过于追求芯片性能上断代领先,从而导致Blackwell系列芯片作为量产型产品,几乎变成一个实验性平台。

比如CoWoS-L封装技术的应用。

这里需要说一个背景是,Blackwell是一枚基于MCM(多芯片封装)设计的GPU,即在同一个芯片上集成两颗GPU die。

为了配合英伟达的需求,台积电方面首次将CoWoS-L技术应用在这枚芯片的封装上。而在此之前,CoWoS-L封装也没有经过大规模验证。

有业内人士指出,CoWoS-L封装现阶段的良率可能在90%左右,作为一项后段工艺,这个数字很不理想。

需求是否过于乐观?

在Blackwell架构芯片推出后,知名华尔街投行Keybanc Capital Markets曾发出了一份预测:

Blackwell芯片将推动英伟达数据中心业务的收入,从2024财年(截至2024年1月)的475亿美元增长到2025年的2000多亿美元。

众所周知,在大模型的训练与部署中,英伟达的GPU居功至伟,但BlackWell架构芯片真的能凭一己之力带动业绩翻倍上涨吗?

即便忽略掉B200/B300的延期交付问题,仅从市场需求来看,可能并不是特别的乐观。

对于各大互联网公司来说,一个首当其冲的问题是,如果大规模引入基于Blackwell芯片的服务器,那么算力中心的建设成本将会被大大提高。

因为B200芯片高达1000W的TDP实际上已超过了传统风冷散热的极限,许多服务器厂商为了解决散热问题,不得以堆砌3D VC(真空腔均热板)的数量和面积,由此导致在42U的标准服务器机柜中,可容纳的芯片越来越少。

而到了B300芯片上,风冷散热方案无论如何修修补补都无法压住1400W的功耗,必须全面改用液冷。

但对于已经搭建好计算中心的厂商而言,改用液冷会导致其成本骤增。比如在传统服务器机房中在搭建时都会对空调系统进行重点设计,一些大型计算中心的空调系统可以支持0°以下的送风。

如果改用液冷,则意味着在加入配套基础设施的同时,过去花大价钱打造的空调系统沦为闲置。

另外就是服务器本身的价格问题。现阶段,一组基于GB200的AI服务器根据带宽配置的差异,定价约在200-300万美元之间,而如果这些服务器全部基于GB300改用液冷方案,价格甚至可能会翻倍。

还有一个很重要的问题是,市场对于最先进GPU的需求是否强烈?

就在12月14日的NeurIPS大会上,OpenAI联合创始人Ilya Sutskever)表示,大模型预训练即将结束,因为AI的化石燃料数据已经用尽了。

如果Ilya的判断没有问题,一个显而易见的转变将是大模型的研究重心将从训练转向推理,在这样的背景下,虽然英伟达Blackwell系列芯片具备强大的训推一体能力,但有多少厂商未来愿意持续性地高成本投入,还有待观察。

相关推荐相关推荐

三场与AI有关的死亡

三场与AI有关的死亡

2024年,无数人在谈论AI。兴奋的创业者、热情的投资人、担心工作出现变化的普通人,大家都在猜测和规划与AI有关的未来。

业界 5 2024-12-26
AI眼镜形态席卷可穿戴市场!谷歌眼镜几次“流产”,将靠AI翻盘

AI眼镜形态席卷可穿戴市场!谷歌眼镜几次“流产”,将靠AI翻盘

电子发烧友网报道(文/莫婷婷)在ChatGPT进化史上,绕不开的一家厂商是谷歌。2024年12月,谷歌发布 Gemini 2.0,该产品被称为登顶AI巅峰、秒杀ChatGPT O1。始终走在AI技术前沿的谷歌,始终在寻找AI技术的最佳落地场景,可穿戴设备是其中一个目标。

业界 5 2024-12-26
英飞凌:30年持续领跑碳化硅技术,成为首选的零碳技术创新伙伴

英飞凌:30年持续领跑碳化硅技术,成为首选的零碳技术创新伙伴

2024年,全球极端天气频发,成为有气象记录以来最热的一年,飓风、干旱等灾害比往年更加严重。在此背景下,推动社会的绿色低碳转型,提升发展的“绿色含量”已成为广泛共识。在经济社会踏“绿”前行的过程中,第三代半导体尤其是碳化硅作为关键支撑,如何破局 ...

业界 5 2024-12-26
叫板鸿蒙智行!补齐短板,比亚迪高阶智驾“天神之眼”CNOA全国开通

叫板鸿蒙智行!补齐短板,比亚迪高阶智驾“天神之眼”CNOA全国开通

电子发烧友原创 章鹰 软件定义汽车,是2016年百度高级副总裁、自动驾驶事业部总经理王劲提出的概念。其核心思想是,决定未来汽车的是以人工智能为核心的软件技术,而不再是汽车的马力大小,是否真皮沙发座椅,机械性能好坏。2021年,英伟达创始人兼首 ...

业界 4 2024-12-26
国产汽车芯片现状解读:高端少、占比低,该如何破局?

国产汽车芯片现状解读:高端少、占比低,该如何破局?

电子发烧友网报道(文/吴子鹏)近日,中国汽车芯片产业创新战略联盟全体成员大会暨上海车规集成电路全产业链技术创新战略联盟全体大会在上海星河湾酒店成功举办,大会由中国汽车芯片联盟产业创新战略联盟、上海市闵行区人民政府、上海车规集成电路全产业 ...

业界 6 2024-12-26
字节今年AI投入接近BAT三家总和!明年有望直接翻倍

字节今年AI投入接近BAT三家总和!明年有望直接翻倍

【btna科技消息】12月26日消息,浙商证券在其报告中指出,字节跳动在AI上加大流量投放、扩大资本开支、大力扩张团队,研发投入显著领先同行。

业界 6 2024-12-26
好心让同事搭乘电动自行车便车 结果被撞还被同事起诉赔钱

好心让同事搭乘电动自行车便车 结果被撞还被同事起诉赔钱

【btna科技消息】12月26日消息,好心让他人搭乘便车,结果发生事故,提供便车的车主需要担责吗?据报道,近日,无锡市锡山区人民法院披露了一起典型案件。

业界 6 2024-12-26
博帝发布P400 V4 PCIe 4.0 SSD:配轻薄石墨烯散热片

博帝发布P400 V4 PCIe 4.0 SSD:配轻薄石墨烯散热片

【btna科技消息】12月26日消息,博帝推出新款P400 V4 PCIe 4.0 SSD。其配备了高效轻薄的石墨烯散热片,专为提升耐用性而设计。

业界 6 2024-12-26
代号珠峰!OPPO Find X8 Ultra影像尘埃落定

代号珠峰!OPPO Find X8 Ultra影像尘埃落定

【btna科技消息】12月26日消息,OPPO Find X8 Ultra会在春节后登场,该机代号珠峰,暗示是一款巅峰影像旗舰。

业界 5 2024-12-26
英伟达新“王炸” 未发先难产

英伟达新“王炸” 未发先难产

继B200/GB200芯片交付推迟后,英伟达或又面临新品难产的问题。 12月24日,据Wccftech报道,英伟达最新旗舰芯片B300/GB300的参数已经确认。其中B300的显存规格从上代产品的192Gb提升至288Gb;GB300平台将首次使用LPCAMM内存模块设计,并配备带宽提升至1.6T ...

业界 5 2024-12-26