微软工程师:美国同一个州部署超过10万片H100,电网就会崩溃!

NVIDIA公开最快AI超级电脑Eos:集成了4608个H100!

随着AI对于高性能芯片的需求越来越大,电力供应问题也成为值得担忧的议题。

虽然Open AI的GPT-5尚未发布,但目前有消息称OpenAI似乎已着手训练GPT-6,而外传7月发布Llama 3的Meta,也有望提早至6月推出。

AI新创公司OpenPipe的联合创办人Kyle Corbitt在社群平台X上分享,GPT-5有望4月下旬发布,Meta Llama 3则是6月发布,以打败另一间法国小新创Mistral。

Kyle Corbitt还表示,其与微软工程师讨论了有关GPT-6的训练集群项目及在新版本中遇到的问题。该微软工程师抱怨对不同区域的GPU之间无限级别连接(infiniband-class links),实在非常痛苦。

那么“为何不将训练集群集中同一个区域呢?”对此,该微软工程师表示,有尝试过,但无法在同一个州(a single state)部署超过10万片H100 GPU,否则会导致电网瘫痪。

根据英伟达的资料显示,H100 GPU的峰值功耗为700瓦。那么10万张H100 GPU的峰值功耗将高达7000万瓦,如果在算上这些GPU所需要配套的其他部件及散热所需的功耗,整体的功耗可能将达到1亿瓦。

而根据资料显示,2020年美国电力比较充沛的加州电网总发电量达19万GWh,换算下来,每个小时的发电量约为21.7GWh,虽然这个量不小,但是也是不够用。在2020年8月,受热浪影响,加州在周末还实施了轮流停电措施。如果一下子要增加1亿Wh能耗的AI数据中心,显然这对于电力系统将会带来巨大的负担。

根据市场调研机构Factorial Funds的报告显示,OpenAI的文字生成视频模型Sora一个月内使用4,200至10,500片H100 GPU,其中单个H100能在约12分钟内生成一个一分钟视频,或者每小时约5个一分钟视频。而在Sora高峰时期需要72万个H100 GPU。也就是这么庞大的一个AI数据中心每小时的能耗将会超过7.2亿Wh。

Kyle Corbitt也进一步指出,不确定新GPT版本叫GPT-5、GPT-4.5还是带企业扩展的GPT-4J。但不可否认的是,越强大的AI出来,开发这些模型的成本也就越来越高,面临的环境问题也越大。

编辑:芯智讯-浪客剑

 

0

付费内容

查看我的付费内容