专题:《中国科技——敢!2025年诺安基金科技投资报告》发布会
预训练:在预训练阶段模型要在海量通用数据上进行训练,如训练一个大语言模型,需要十亿甚至万亿字的文本数据,模型参数众多。以xAI的Grok-3为例,使用了10万张 GPU进行训练,预计训练成本接近100亿美元。
后训练:后训练是基于已经完成预训练的模型,在特定任务上进行微调,以DeepSeekV3为例,其使用了2048张英伟达H800,训练成本约为558万美元。
推理:推理是将已经训练好的大模型对具体的场景进行应用。以满血版671B的DeepSeekR1推理模型为例,通常2台H20服务器即可运行,成本约200万人民币。

海量资讯、精准解读,尽在新浪财经APP
责任编辑:胡尊波
VIP课程推荐
加载中...
APP专享直播
热门推荐
收起
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)