太平洋科技笔记本

AI运算受限电力？微软工程师：同一州集中部署超10万片H100，电网会崩溃

小烂毛整合编辑：杨玥锴发布于：2024-03-28 12:02

随着AI的运算需求日益增长，能源消耗问题也引起了公众的关注。尽管OpenAI尚未发布其最新的语言模型GPT-5，但有传言称该公司已经开始着手训练下一代模型GPT-6，并可能在7月发布。此外，社交媒体上有消息称，原计划在7月发布Llama 3的Meta公司，可能会提前至6月推出。

AI新创公司OpenPipe的联合创始人Kyle Corbitt在社交平台上分享了这些信息。他透露，GPT-5有望在4月下旬发布，而Meta的Llama 3则可能在6月发布，以期超越法国的新创公司Mistral。

Corbitt在另一篇文章中提到，他曾与微软的工程师讨论过关于GPT-6的训练集群项目以及在新版本中遇到的问题。该工程师抱怨，对于不同区域的GPU之间的无限级别链接（infiniband-class links）的处理非常困难。

当Corbitt询问为何不将训练集群集中在同一个区域时，对方回应称，他们曾尝试过，但在同一个州（a single state）放置超过10万片H100 GPU会导致电网瘫痪。

目前尚不清楚微软工程师所指的"a single state"是指同一个州还是同一个状态。然而，根据市调机构Factorial Funds的报告，OpenAI的文字生成影片模型Sora在一个月内使用了4200至10500片H100 GPU。在Sora的高峰时期，可能需要72万个H100 GPU，这可能会导致七个州的电网崩溃。

Corbitt指出，虽然目前还不确定新的GPT版本会被称为GPT-5、GPT-4.5还是带有企业扩展的GPT-4J，但不可否认的是，随着AI模型的强大，开发这些模型的成本也在逐渐增加，同时，环境问题也日益严重。

OpenAI刚刚免费发布了GPT-4 Turbo，而GPT-5计划在今年晚些时候发布。

AI GPT

小烂毛

原创栏目