微软工程师：美国同一个州部署超过10万片H100，电网就会崩溃！

2024年03月28日

随着AI对于高性能芯片的需求越来越大，电力供应问题也成为值得担忧的议题。

虽然Open AI的GPT-5尚未发布，但目前有消息称OpenAI似乎已着手训练GPT-6，而外传7月发布Llama 3的Meta，也有望提早至6月推出。

AI新创公司OpenPipe的联合创办人Kyle Corbitt在社群平台X上分享，GPT-5有望4月下旬发布，Meta Llama 3则是6月发布，以打败另一间法国小新创Mistral。

Kyle Corbitt还表示，其与微软工程师讨论了有关GPT-6的训练集群项目及在新版本中遇到的问题。该微软工程师抱怨对不同区域的GPU之间无限级别连接（infiniband-class links），实在非常痛苦。

那么“为何不将训练集群集中同一个区域呢？”对此，该微软工程师表示，有尝试过，但无法在同一个州（a single state）部署超过10万片H100 GPU，否则会导致电网瘫痪。

根据英伟达的资料显示，H100 GPU的峰值功耗为700瓦。那么10万张H100 GPU的峰值功耗将高达7000万瓦，如果在算上这些GPU所需要配套的其他部件及散热所需的功耗，整体的功耗可能将达到1亿瓦。

而根据资料显示，2020年美国电力比较充沛的加州电网总发电量达19万GWh，换算下来，每个小时的发电量约为21.7GWh，虽然这个量不小，但是也是不够用。在2020年8月，受热浪影响，加州在周末还实施了轮流停电措施。如果一下子要增加1亿Wh能耗的AI数据中心，显然这对于电力系统将会带来巨大的负担。

根据市场调研机构Factorial Funds的报告显示，OpenAI的文字生成视频模型Sora一个月内使用4,200至10,500片H100 GPU，其中单个H100能在约12分钟内生成一个一分钟视频，或者每小时约5个一分钟视频。而在Sora高峰时期需要72万个H100 GPU。也就是这么庞大的一个AI数据中心每小时的能耗将会超过7.2亿Wh。

Kyle Corbitt也进一步指出，不确定新GPT版本叫GPT-5、GPT-4.5还是带企业扩展的GPT-4J。但不可否认的是，越强大的AI出来，开发这些模型的成本也就越来越高，面临的环境问题也越大。

编辑：芯智讯-浪客剑

微软工程师：美国同一个州部署超过10万片H100，电网就会崩溃！

付费内容

Trending now