推广 热搜:     系统  行业  参数  中国  教师  机械  设备  基金 

深度拆解:DeepSeek-V3是怎么训练的

   日期:2025-02-22     移动:http://mip.tpjde.com/quote/13254.html

这两天,DeepSeek-V3 低调发布,在国际上狠狠秀了一波肌肉:只用了 500 多万美金的成本,带来了不输 Claude 3.5 的成绩,并开源! 

深度拆解:DeepSeek-V3是怎么训练的

下面,让我们以更加系统的方式,来看看这次的 DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个维度来拆解 V3,所用到的图表、数据源于技术报告:《DeepSeek-V3 Technical Report》。 

性能

DeepSeek-V3 的性能优势,在各项基准测试中得到了充分验证。 

如图,DeepSeek-V3 在 MMLU-Pro、GPQA-Diamond、MATH 500、AIME 2024、Codeforces (Percentile) 和 SWE-bench Verified 等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在 MATH 500 和 AIME 2024 这类考察高级数学推理能力的测试中,DeepSeek-V3 的表现尤为突出,大幅超越其他模型。 

在与 DeepSeek-V2-base、Qwen2.5 72B base 和 LLaMA-3.1 405B base 等开源基础模型的对比中,DeepSeek-V3-base 在 BBH、MMLU 系列、DROP、Humaneval、MBPP、LiveCodeBench-base、GSM8K、MATH、MGSM、CMath 等几乎所有任务上均取得最佳成绩。 

经过指令微调后,DeepSeek-V3 的性能进一步提升。在与包括 GPT-4o、Claude-3.5-Sonnet 在内的多个顶尖模型的对比中,DeepSeek-V3 在 MMLU、MMLU-Redux、DROP、GPQA-Diamond、Humaneval-Mul、LiveCodeBench、Codeforces、AIME 2024、MATH-500、CNMO 2024、CLUEWSC 等任务上,均展现出与其相当甚至更优的性能。  

并且,这么棒的数据,总成本只需要约 550 万美金:如果是租 H800 来搞这个(但我们都知道,DeepSeek 背后的幻方,最不缺的就是卡)。 

架构

DeepSeek-V3 的这次发布,伴随三项创新:Multi-head Latent Attention (MLA)、DeepSeekMoE 架构以及无额外损耗的负载均衡策略。 

Multi-head Latent Attention (MLA):高效处理长文本

MLA 通过将 Key (K) 和 Value (V) 联合映射至低维潜空间向量 (cKV),显著降低了 KV Cache 的大小,从而提升了长文本推理的效率。DeepSeek-V3 中 MLA 的 KV 压缩维度 (dc) 设置为 512,Query 压缩维度 (d') 设置为 1536,解耦 Key 的头维度 (dr) 设置为 64。这种设计在保证模型性能的同时,大幅减少了显存占用和计算开销。 

DeepSeekMoE 架构:稀疏激活,高效扩展

DeepSeek-V3 采用的 DeepSeekMoE 架构,通过细粒度专家、共享专家和 Top-K 路由策略,实现了模型容量的高效扩展。每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个 Token 选择 8 个路由专家,最多路由至 4 个节点。这种稀疏激活的机制,使得 DeepSeek-V3 能够在不显著增加计算成本的情况下,拥有庞大的模型容量。 

无额外损耗的负载均衡:MoE 的关键优化

DeepSeek-V3 提出了一种创新的无额外损耗负载均衡策略,通过引入并动态调整可学习的偏置项 (Bias Term) 来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度 (γ) 在预训练的前 14.3T 个 Token 中设置为 0.001,剩余 500B 个 Token 中设置为 0.0;序列级平衡损失因子 (α) 设置为 0.0001。 

以上图(报告第 28 页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了额外负载损失(Aux-Loss-based)的模型,分工更为明确,这表明该策略能更好地释放MoE的潜力。 

工程

DeepSeek-V3 的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存管理和低精度训练等多个方面。 

DualPipe 流水线并行:双向奔赴,消弭气泡

DeepSeek-V3 采用了一种名为 DualPipe 的创新流水线并行策略。与传统的单向流水线 (如 1F1B) 不同,DualPipe 采用双向流水线设计,即同时从流水线的两端馈送 micro-batch。这种设计可以显著减少流水线气泡 (Pipeline Bubble),提高 GPU 利用率。 

此外,DualPipe 还将每个 micro-batch 进一步划分为更小的 chunk,并对每个 chunk 的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。 

单个 forward 和 backward chunk 的重叠策略(原报告第 12页)。 如图,如何将一个 chunk 划分为 attention、all-to-all dispatch、MLP 和 all-to-all combine 等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示 forward,绿色表示 "backward for input",蓝色表示 "backward for weights",紫色表示 PP communication,红色表示 barriers。 

8 个 PP rank 和 20 个 micro-batch 的 DualPipe 调度示例(原报告第 13页)。通过在 8 个 PP rank 上,20 个 micro-batch 的 DualPipe 调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,GPU 利用率得到了极大提升。 

DualPipe 在流水线气泡数量和激活内存开销方面均优于 1F1B 和 ZeroBubble 等现有方法。(原报告第 13页) 

通信优化:多管齐下,突破瓶颈

跨节点 MoE 训练的一大挑战是巨大的通信开销。DeepSeek-V3 通过一系列精细的优化策略,有效地缓解了这一瓶颈。 

内存管理:精打细算,极致利用

DeepSeek-V3 在内存管理方面也做到了极致,通过多种策略最大程度地减少了内存占用。 

FP8 低精度训练:精度与效率的平衡

DeepSeek-V3 通过 FP8 混合精度训练,在保证模型精度的同时,大幅降低显存占用并提升训练速度。 

预训练

DeepSeek-V3 的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多 Token 预测等多个方面。 

数据构建

DeepSeek-V3 的预训练语料库规模达到了 14.8 万亿 Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型 DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅提升了数学和编程相关数据在整体数据中的占比,这直接增强了模型在相关领域的推理能力,使其在 MATH 500、AIME 2024 等数学基准测试和 Humaneval、LiveCodeBench 等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,提升了模型的多语言处理能力。 

为了保证数据质量,DeepSeek 开发了一套完善的数据处理流程,着重于最小化数据冗余,同时保留数据的多样性。此外,他们还借鉴了近期研究 (https://arxiv.org/abs/2404.10830,Ding et al., 2024) 中提出的文档级打包 (document Packing) 方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更完整的语义信息。 

针对代码数据,DeepSeek-V3 借鉴了 DeepSeekCoder-V2 中采用的 Fill-in-Middle (FIM) 策略,以 0.1 的比例将代码数据构造成 <|fim_begin|> pre<|fim_hole|> suf<|fim_end|> middle<|eos_token|> 的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而提升代码生成和补全的准确性。 

分词器与词表:兼顾效率与准确性

DeepSeek-V3 采用了基于字节级 BPE (Byte-level BPE) 的分词器,并构建了一个包含 128K 个 token 的词表。为了优化多语言的压缩效率,DeepSeek 对预分词器 (Pretokenizer) 和训练数据进行了专门的调整。 

与 DeepSeek-V2 相比,新的预分词器引入了将标点符号和换行符组合成新 token 的机制。这种方法可以提高压缩率,但也可能在处理不带换行符的多行输入 (例如 few-shot 学习的 prompt) 时引入 token 边界偏差 (Token Boundary Bias) (Lundberg, 2023)。为了减轻这种偏差,DeepSeek-V3 在训练过程中以一定概率随机地将这些组合 token 拆分开来,从而让模型能够适应更多样化的输入形式,提升了模型的鲁棒性。 (下图来自 Token Boundary Bias 的原文)

模型配置与超参数

DeepSeek-V3 的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。 

1. 模型配置:

DeepSeek-V3 的 Transformer 层数设置为 61 层,隐藏层维度为 7168。所有可学习参数均采用标准差为 0.006 的随机初始化。在 MLA 结构中,注意力头的数量 (nh) 设置为 128,每个注意力头的维度 (dh) 为 128,KV 压缩维度 (dc) 为 512,Query 压缩维度 (d') 为 1536,解耦的 Key 头的维度 (dr) 为 64。除了前三层之外,其余的 FFN 层均替换为 MoE 层。每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个专家的中间隐藏层维度为 2048。每个 Token 会被路由到 8 个专家,并且最多会被路由到 4 个节点。多 Token 预测的深度 (D) 设置为 1,即除了预测当前 Token 之外,还会额外预测下一个 Token。此外,DeepSeek-V3 还在压缩的潜变量之后添加了额外的 RMSNorm 层,并在宽度瓶颈处乘以了额外的缩放因子。 

2. 训练超参数:

DeepSeek-V3 采用了 AdamW 优化器,β1 设置为 0.9,β2 设置为 0.95,权重衰减系数 (weight_decay) 设置为 0.1。最大序列长度设置为 4K。学习率方面,采用了组合式的调度策略:在前 2K 步,学习率从 0 线性增加到 2.2 × 10^-4;然后保持 2.2 × 10^-4 的学习率直到模型处理完 10T 个 Token;接下来,在 4.3T 个 Token 的过程中,学习率按照余弦曲线 (Cosine Decay) 逐渐衰减至 2.2 × 10^-5;在最后的 500B 个 Token 中,学习率先保持 2.2 × 10^-5 不变 (333B 个 Token),然后切换到一个更小的常数学习率 7.3 × 10^-6 (167B 个 Token)。梯度裁剪的范数设置为 1.0。Batch Size 方面,采用了动态调整的策略,在前 469B 个 Token 的训练过程中,Batch Size 从 3072 逐渐增加到 15360,并在之后的训练中保持 15360 不变。 

为了实现 MoE 架构中的负载均衡,DeepSeek-V3 采用了无额外损耗的负载均衡策略,并将偏置项的更新速度 (γ) 在预训练的前 14.3T 个 Token 中设置为 0.001,在剩余的 500B 个 Token 中设置为 0.0。序列级平衡损失因子 (α) 设置为 0.0001,以避免单个序列内的极端不平衡。多 Token 预测 (MTP) 损失的权重 (λ) 在前 10T 个 Token 中设置为 0.3,在剩余的 4.8T 个 Token 中设置为 0.1。 

长上下文扩展与多 Token 预测:锦上添花

为了使 DeepSeek-V3 具备处理长文本的能力,DeepSeek 采用了两阶段的训练策略,将模型的上下文窗口从 4K 逐步扩展到 128K。他们采用了 YaRN (Peng et al., 2023a) 技术,并将其应用于解耦的共享 Key (k)。在长上下文扩展阶段,DeepSeek-V3 的超参数保持不变:scale 设置为 40,β 设置为 1,ρ 设置为 32,缩放因子设置为 0.1 ln n + 1。 

上图(报告第 23 页) 的 "Needle In A Haystack" (NIAH) 测试结果清晰地展示了 DeepSeek-V3 在处理长文本方面的卓越能力。 

此外,DeepSeek-V3 还采用了多 Token 预测 (MTP) 策略 (2.2 节,第 10 页),要求模型在每个位置预测未来的多个 Token,而不仅仅是下一个 Token。图 3 (第 10 页) 详细展示了 MTP 的实现方式。  

这种策略增强了模型的预见能力,并提供了更丰富的训练信号,从而提升了训练效率。表 4 (第 26 页) 的消融实验结果证明了 MTP 策略的有效性。 

后训练

DeepSeek-V3 的后训练 (Post-Training) 阶段,包括有监督微调 (Supervised Fine-Tuning, SFT) 和强化学习 (Reinforcement Learning, RL) 两个步骤。 

有监督微调 (SFT)

SFT 阶段,DeepSeek-V3 在一个包含 1.5M 指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不同的数据构建策略,以最大程度地激发模型的潜能。 

数据构建策略 

推理数据 (Reasoning Data): 对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek 采用了基于 DeepSeek-R1 模型生成的高质量推理数据。DeepSeek-R1 模型在推理任务上表现出色,但其生成的响应往往存在过度推理、格式不规范、长度过长等问题。为了兼顾 R1 模型生成数据的高准确性与标准答案的简洁性,SFT 阶段的数据构建采用了以下策略:

表 9 (第 34 页) 展示了从 DeepSeek-R1 蒸馏知识对性能的提升。 可以看到,在 LiveCodeBench-CoT 和 MATH-500 任务上,经过 R1 蒸馏后,模型的 Pass@1 指标分别提升了 6.3 和 8.6 个百分点,证明了该策略的有效性。

非推理数据 (Non-Reasoning Data): 对于创意写作、角色扮演、简单问答等非推理类任务,则利用 DeepSeek-V2.5 生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。

训练细节: 

强化学习 (RL)

为了使 DeepSeek-V3 更好地对齐人类偏好,DeepSeek 采用了强化学习 (RL) 技术,并构建了基于规则的奖励模型 (Rule-based RM) 和基于模型的奖励模型 (Model-based RM) 相结合的奖励机制。 

作为奖励模型,在 RewardBench 上的表现上,DeepSeek 多个方面超越或持平 GPT-4o 和 Claude-3.5-sonnet。  

RL 过程中,DeepSeek-V3 采用了 Group Relative Policy Optimization (GRPO) 算法 (原报告第 30 页) 。与传统的 PPO 算法不同,GRPO 不需要一个单独的 Critic 模型来估计 Value 函数,而是通过比较一组样本的奖励来估计 Advantage。具体流程如下: 

数据配比

在后训练过程中,DeepSeek-V3 整合了多种类型的数据,数据来源和配比如下: 

1. 数学推理类数据: 主要来自 DeepSeek-R1 模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为 25%。

2. 代码生成类数据: 包括了从开源代码库中精选的代码片段,以及利用 DeepSeek-R1 模型生成的代码补全和代码解释数据。这类数据占比约为 20%。

3. 通用领域对话数据: 涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用 DeepSeek-V2.5 生成,并经过人工校验。这类数据占比约为 45%。

4. 安全和伦理类数据: 包含了用于提升模型安全性和符合伦理规范的指令和响应数据,占比约为 10%。

本文地址:http://www.tpjde.com/quote/13254.html    推平第 http://www.tpjde.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号