AI争霸战开启！OpenAI急建10万块GB200超算马斯克10万块H100月末

来源：未知(原创/投稿/转载) 编辑：大黄蜂时间：2024-07-21

　　【新智元导读】马斯克官宣xAI建造的世界最大超算集群，由10万块H100搭建，预计本月末开始投入训练。另一边，OpenAI再次加码，将打造由10万块GB200组成的超算，完全碾压xAI。

　　另一边，xAI也在打造号称「世界上最大超算集群」，由100k H100组成，并将在本月末投入训练。

　　与此同时，xAI也在自行建设10万块H100搭建的集群，目标是实现最快的训练完成时间，计划本月晚些时候开始训模型。

　　我们决定自行建设10万块H100芯片系统，以及下一代主要系统的原因是，我们的核心竞争力取决于能否比其他AI公司更快。这是赶上竞争对手的唯一途径。

　　甲骨文是一家优秀的公司，还有另一家公司（暗指微软）在参与OpenAI的GB200集群项目中也表现出很大潜力。但是，当我们的命运取决于成为速度最快的公司时，我们必须亲自掌控，而不能只做一个旁观者。

　　今年5月，Information曾报道，xAI一直在讨论一项多年协议，即从甲骨文租用英伟达AI芯片。

　　其中就包括，马斯克要求超算建造的速度，完全超越了甲骨文勺想象。还有甲骨文勺担心xAI首选地点没有足够的电力供应。

　　现在，xAI在田纳西州孟菲斯市，正建起自己的AI数据中心，其中用到了Dell和Supermicro出货的英伟达芯片。

　　其实，在此之前，xAI已经从甲骨文租用了许多英伟达芯片，成为这家云计算GPU供应商最大的客户之一。

　　从马斯克最新回应中，可以看出，甲骨文芯片数量已经从5月份的16000块增长到了24000块。

　　不过，马斯克依旧希望建造一台配备10万块英伟达GPU的超级计算机，将其称为「Gigafactory of Compute」。

　　老马在5月曾向投资者表示，希望在2025年秋季之前让这台超级计算机运行起来，而且他将个人负责按时交付超级计算机，因为这对于开发LLM至关重要。

　　之所以Grok模型迭代至关重要，因其为X社交应用订阅套餐的一部分，起价为每月8美元，包含了各种功能。

　　虽然帖子中，并没有指明位置。但在6月的时候，Greater Memphis Chamber的主席表示，xAI正在孟菲斯的伊莱克斯工厂建造一台超算。

　　另外，Supermicro的CEO Charles Liang还曾发布了一张自己与马斯克在数据中心的合影，也证实这家公司和xAI的合作关系。

　　值得一提的是，上个月马斯克宣布xAI已经完成，惊人的60亿美元B轮融资，公司估值达到240亿美元。

　　两位知情人士透露，甲骨文与微软的交易，涉及一个由10万块英伟达即将推出的GB200芯片组成的集群。

　　有网友对此惊叹道，集群中英伟达GB200芯片数量，大致相当于英特尔80286处理器中的晶体管数量我很惊讶在我的有生之年能看到这一幕。

　　所以理论上你可以用100,000个GB200在不到2天内训练出GPT-4，尽管这是在理想条件下，可能并不完全现实。

　　但这确实让人不禁想象，他们用这个超级计算机集群在90天内能训练出什么样的AI模型，而这个集群预计将在2025年第二季度投入运行。

　　据熟悉GPU云定价的人士称，假设两家公司签署了一份多年期协议，那么租用这样一个集群的成本可能会在两年内达到50亿美元左右。

　　甲骨文将从英伟达购买芯片，然后租给微软，微软再把芯片提供给OpenAI。毕竟，这已经成为微软和OpenAI互利互惠一贯的做法了。

　　而且，云计算供应商之间相互租用服务器的情况，其实并不常见，但对英伟达芯片的强烈需求，才导致了这场不寻常的交易。

栏目分类

随机推荐