马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

科技 | 2024-10-30| 8

10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus ;AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球最强大的AI超级计算机集群。

早在今年7月下旬,马斯克就在X平台上宣布,自己已经启动了世界上最强大的 AI 集群。这座AI集群从开始建设到完成组装仅花了122天就完成了,目前已经上线运行了约3个月。

根据ServeTheHome曝光的信息来看,庞大的Colossus ;AI超级计算机集群采用的是超威电脑(Supermicro)的服务器,其基于NVIDIA HGX H100方案,每个服务器中拥有8个H100 GPU,封装在 Supermicro 的 4U 通用 GPU 液冷系统内,为每个 GPU 提供简单的热插拔液冷。

这些服务器装载在机架内,每个机架可容纳 8 台服务器,也就是说每个机架内有 64 个 GPU。1U 歧管夹在每个 HGX H100 之间,提供服务器所需的液体冷却。每个机架的底部是另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。

△四组 xAI 的 HGX H100 服务器机架,每组可容纳八台服务器。(图片来源:ServeTheHome)

△xAI Colossus GPU 服务器的后部访问。每台服务器有 9 根以太网电缆,每台服务器有 4 个电源。电源和液体冷却软管也可见。(图片来源:ServeTheHome)

这些机架以 8 个为一组配对,每个阵列有 512 个 GPU。每台服务器都有四个冗余电源,GPU 机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。

Colossus 集群中有超过 1500 个 GPU 机架,或近 200 个机架阵列。据英伟达首席执行官黄仁勋称,这 200 个阵列的 GPU 仅用了三周时间就完成了安装。

由于 AI 超级集群不断训练模型的高带宽要求,xAI 在其网络互连性方面提供了超大的带宽。

目前每个显卡都有一个 400GbE 的专用 NIC(网络接口控制器),每台服务器还有一个额外的 400Gb NIC。这意味着每台 HGX H100 服务器都有每秒 3.6 TB 的以太网速率。整个集群都在以太网上运行,而不是 InfiniBand 或其他在超级计算领域标配的连接。

△仰望一大片的黄色以太网电缆,将 xAI Colossus 集群连接在一起。多层过宽的电缆线路嵌入天花板中。(图片来源:ServeTheHome)

△xAI 的 Colossus CPU 计算服务器,看起来与该站点中也广泛使用的 Supermicro 存储服务器完全相同。(图片来源:ServeTheHome)

当然,像 xAI 旗下Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU 才能运行。

Colossus集群当中的存储和 CPU 计算机服务器的详细信息仍未曝光,不过这些服务器也大多采用 Supermicro 机箱。一波又一波的 NVMe 转发 1U 服务器内部带有某种 x86 平台 CPU,可容纳存储和 CPU 计算,还具有后入式液体冷却功能。

另外,在该超级计算机集群的外面,还可以看到一些大量捆绑的特斯拉 Megapack 电池(每个最多可容纳 3.9 MWh)。

该电池阵列的是为了应对突发停电的临时备用电源,其可以在毫秒之间快速提供供电,相比柴油发电机反应要快得多,可以使得有足够时间去启动其他备用电源。

以上就是关于【马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU】的相关消息了,希望对大家有所帮助!

Tags: ,

相关推荐相关推荐

苹果开始奋起直追:Siri即将脱胎换骨

苹果开始奋起直追:Siri即将脱胎换骨

据报道,苹果希望通过使用类似于Chat-GPT等AI竞争对手的先进大语言模型让Siri更具对话性、更智能,但这一举措要到2026年才能准备就绪。

科技 5 2024-11-25
游戏科学跻身Steam总收入榜第十:超越R星、2K

游戏科学跻身Steam总收入榜第十:超越R星、2K

11月25日消息,据数据分析平台Gamalytic数据显示,《黑神话:悟空》开发商 游戏科学 以10亿美元的总收入位列Steam平台厂商总收入榜第十名。

科技 6 2024-11-25
曝比亚迪明年推出第二代刀片电池

曝比亚迪明年推出第二代刀片电池

11月25日消息,据财联社最新报道,比亚迪欧洲汽车销售事业部中亚地区总经理曹爽在第二十九届联合国气候变化大会(COP29)期间接受CGTN采访时表示,2025年比亚迪计划推出新一代刀片电池,将提高汽车的续航里程,并延长电池本身的使用寿命。

科技 5 2024-11-25
小米回应升级澎湃OS 2后耗电量增加:系统重新编译 3天内恢复

小米回应升级澎湃OS 2后耗电量增加:系统重新编译 3天内恢复

小米澎湃OS 2发布以来,整体流畅度和稳定性获得了一致好评,不过还是有部分用户遇到了一些困扰。

科技 3 2024-11-25
中国特供版RTX 5090D百分百确认!为了它 索泰不惜搬家

中国特供版RTX 5090D百分百确认!为了它 索泰不惜搬家

11月25日消息,我们都知道,RTX 5090不会在中国内地和港澳生产销售;我们知道,会有一个特供版RTX 5090D。现在,它终于得到了确凿证据。

科技 6 2024-11-25
小米手机内存拓展不会额外耗电 这类人群建议开启

小米手机内存拓展不会额外耗电 这类人群建议开启

11月25日消息,今日,小米发布澎湃OS答网友问第二集,回答了大家日常用机中,要不要打开内存拓展功能的问题。

科技 4 2024-11-25
小米SUV新谍照曝光:并未采用对开门设计

小米SUV新谍照曝光:并未采用对开门设计

小米SUV的最新谍照近日曝光,揭示了其设计细节并打破了之前的对开门传闻。 图中可以看到,代号165的小米SUV后车门向传统方向(左后方)开启,表明并非所有版本都会采用对开门设计。 尽管车身被严密包裹,但车门的开启方式清晰可见。 这款SUV的设计风格 ...

科技 3 2024-11-25
博主喷DEI游戏获马斯克支持 玩家疾呼:快收购育碧!

博主喷DEI游戏获马斯克支持 玩家疾呼:快收购育碧!

近日,海外博主的抨击游戏行业DEI内容的帖子获得了马斯克的点赞转发,同时也收获了不少玩家的认可。

科技 3 2024-11-25
谷歌地图错误导航致印度仨男子坠桥身亡

谷歌地图错误导航致印度仨男子坠桥身亡

11月25日消息,盲目相信导航并不可取,走错路事小,丢掉性命就真的悲剧了。 据印度当地媒体报道,当地时间11月23日,印度三名男子驱车前往婚礼现场途中从立交桥上坠落,三人均不幸身亡。 报道称,当时三人驾车自古尔冈前往北方邦的巴雷利,没想到在巴雷利 ...

科技 4 2024-11-25
平台混战网易云音乐再发声:已下线大量广告位、正持续扩充版权库

平台混战网易云音乐再发声:已下线大量广告位、正持续扩充版权库

11月25日消息,今天,网易云音乐公开喊话QQ音乐,称其自定义播放器背景等功能为抄袭,要求QQ音乐少一点跟随式更新,多一点真正的创新。

科技 3 2024-11-25