英伟达H100用11分钟训完GPT-3PyTorch创始人：不要只看时间

时间:2023-07-01 浏览次数:663

　　为啥呢？原来在最新的 MLPerf 基准测试中，英伟达 H100 GPU 芯片组在以下八项基准测试中全部创下了新纪录，同时成为唯一一个跑完所有测试的硬件平台。

　　LLM 训练测试中还使用了专注于 GPU 加速的云计算服务提供商 CoreWeave 提供的 NVIDIA HGX H100 基础设施，在多个规模上联合提交了 LLM 工作负载。

　　这里不要只关注「11 分钟」，因为这就像说「ResNet-50 在 MNIST（其实这里他想说的是 CIFAR100）上，5 秒内训练达到了 80％的准确率。」

　　在他看来，该基准测试并不是完整的 GPT-3。MLPerf 的 LLM 基准只提供了一个开始的检查点，然后必须达到目标损失。

　　不过他也承认，从 H100 在其软件生命周期早期这一点来看，以此规模实现现在这种性能也相当惊人。

　　所以，最新 MLPerf 基准测试中 11 分钟训完 GPT-3 是不是被误解呢？评论区的小伙伴也可以发表下自己的观点。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。