DeepSeek-V3 技術報告總結

官網: https://www.deepseek.com/

Github 連結: https://github.com/deepseek-ai/DeepSeek-V3

線上體驗 DeepSeek V3 https://chat.deepseek.com/

DeepSeek-V3 技術報告總結

DeepSeek-V3 是一個強大的混合專家(MoE)語言模型,總參數量為 671 億,每個令牌激活 37 億參數。該模型採用了多頭潛在注意力(MLA)和 DeepSeekMoE 架構,以實現高效的推理和經濟的訓練。以下是 DeepSeek-V3 的主要特點和成就:

1. 模型架構

  • 多頭潛在注意力(MLA):減少鍵值緩存(KV cache)的大小,同時保持與標準多頭注意力(MHA)相當的性能。
  • DeepSeekMoE 架構:使用細粒度專家並隔離一些專家作為共享專家,以提高訓練效率。
  • 輔助損失無需負載平衡策略:通過動態調整偏置項來確保專家負載平衡,避免性能下降。
  • 多令牌預測(MTP):通過預測多個未來令牌來提高模型性能和推理效率。

2. 基礎設施

  • 計算集群:使用 2048 個 NVIDIA H800 GPU,通過 NVLink 和 InfiniBand 進行互連。
  • 訓練框架:採用 HAI-LLM 框架,支援管道並行、專家並行和數據並行。
  • FP8 訓練:首次在極大規模模型上驗證 FP8 混合精度訓練的可行性,顯著降低訓練成本和記憶體使用。

3. 訓練策略

  • 數據構建:使用 14.8 億兆高品質和多樣化的令牌進行預訓練。
  • 超參數設置:詳細描述了預訓練、上下文延展和後訓練的超參數設置。
  • 上下文延展:分兩個階段將上下文長度延展至 32K 和 128K。
  • 後訓練:包括監督微調(SFT)和強化學習(RL),並引入獎勵模型和自我獎勵機制。

4. 評估與性能

  • 評估基准:在多個標準和開放評估基准上進行評估,涵蓋知識、代碼、數學和推理等領域。
  • 性能表現:DeepSeek-V3 在開放源碼模型中表現最強,特別是在代碼和數學領域,並與領先的閉源模型(如 GPT-4 和 Claude-3.5-Sonnet)表現相當。

5. 經濟高效的訓練成本

  • 總訓練成本:僅需 2.788 萬個 H800 GPU 小時,假設 H800 GPU 的租用價格為每小時 2 美元,總訓練成本約為 557.6 萬美元。
  • 穩定訓練:整個訓練過程穩定,未出現不可恢復的損失波動或回滾情況。

6. 貢獻與未來方向

  • 貢獻:提出輔助損失無需負載平衡策略、多令牌預測訓練目標、FP8 混合精度訓練框架和高效的訓練基礎設施。
  • 未來方向:探索硬件設計建議,如通信硬件和計算硬件的改進,以進一步提升訓練和推理效率。

DeepSeek-V3 是一個強大且經濟高效的語言模型,其在架構、訓練和部署方面的創新為未來大規模語言模型的發展提供了寶貴的參考。

相關連結:

Share:

More Posts