王浩然:预训练、后训练和推理所需的算力结构有何不同?

王浩然:预训练、后训练和推理所需的算力结构有何不同?
2025年04月03日 18:32 市场资讯

专题:《中国科技——敢!2025年诺安基金科技投资报告》发布会

  预训练:在预训练阶段模型要在海量通用数据上进行训练,如训练一个大语言模型,需要十亿甚至万亿字的文本数据,模型参数众多。以xAI的Grok-3为例,使用了10万张 GPU进行训练,预计训练成本接近100亿美元。

  后训练:后训练是基于已经完成预训练的模型,在特定任务上进行微调,以DeepSeekV3为例,其使用了2048张英伟达H800,训练成本约为558万美元。

  推理:推理是将已经训练好的大模型对具体的场景进行应用。以满血版671B的DeepSeekR1推理模型为例,通常2台H20服务器即可运行,成本约200万人民币。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:胡尊波

诺安基金

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 04-15 众捷汽车 301560 --
  • 04-14 天有为 603202 --
  • 04-08 宏工科技 301662 --
  • 04-07 肯特催化 603120 15
  • 03-31 泰禾股份 301665 10.27
  • 新浪首页 语音播报 相关新闻 返回顶部