中国 DeepSeek 称其热门 AI 模型的训练成本仅为 29.4 万美元
Deepseek 的标志
Deepseek 标志。路透社/Dado Ruvic
北京 9 月 18 日(路透社)——中国人工智能开发商DeepSeek表示,其在训练 R1 模型上花费了 294,000 美元,远低于美国竞争对手的数据,这篇论文可能会重新引发有关北京在人工智能开发竞赛中地位的争论。
这家总部位于杭州的公司罕见地更新了其对 R1 培训成本的首次估算,该更新出现在周三发表在学术期刊《自然》上的一篇同行评议文章中。
DeepSeek 在 1 月份发布了所谓的低成本人工智能系统,这促使全球投资者抛售科技股,因为他们担心新模型可能威胁到包括 Nvidia (NVDA.O)在内的人工智能领导者的主导地位。
自此以后,该公司和创始人梁文峰基本上从公众视野中消失了,除了推出一些新的产品更新。
《自然》杂志的文章将梁列为共同作者之一,文章称 DeepSeek 专注于推理的 R1 模型训练成本为 29.4 万美元,使用了 512 块 Nvidia H800 芯片。1 月份发表的早期版本并未包含此信息。
美国人工智能巨头 OpenAI 首席执行官萨姆·奥特曼 (Sam Altman) 在 2023 年表示,他所谓的“基础模型训练”的成本“远远超过” 1 亿美元——尽管他的公司尚未给出任何发布的详细数字。
人工智能聊天机器人所依赖的大语言模型的训练成本是指运行一组强大的芯片数周或数月来处理大量文本和代码所产生的费用。
Deepseek 对其开发成本和所用技术的一些声明受到了美国公司和官员的质疑。
文中提到的 H800 芯片是英伟达为中国市场设计的,此前美国于 2022 年 10 月宣布,英伟达不得向中国出口功能更强大的 H100 和 A100 人工智能芯片。
美国官员今年6月向路透社透露,DeepSeek 获得了“大量”在美国出口管制实施后采购的 H100 芯片。英伟达当时向路透社表示,DeepSeek 使用的是合法采购的 H800 芯片,而非 H100 芯片。
在《自然》杂志文章的补充信息文件中,该公司首次承认确实拥有 A100 芯片,并表示已在开发的准备阶段使用过这些芯片。
研究人员写道:“关于 DeepSeek-R1 的研究,我们利用 A100 GPU 为较小模型的实验做准备。” 他们补充道,在此初始阶段之后,R1 在 512 个 H800 芯片集群上进行了总计 80 小时的训练。
路透社此前报道称,DeepSeek 之所以能够吸引中国最聪明的人才,是因为它是国内少数几家运营 A100 超级计算集群的公司之一。
|