DeepSeek

DeepSeek R1 究竟在蒸餾什麼?

這幾天 DeepSeek 新聞太多,搞得不去研究一下好像不好意思說自己有在關注 AI。

翻了下 DeepSeek R1 的論文,我印象最深刻的是它的蒸餾技術,讓原本沒什麼用得小模型也能有了更強的推理能力,我覺得這點對於未來的 On Device AI 推動會有蠻大的幫助的。而且因為是 Open Source,全球很多機構已經開始嘗試復現,未來會釋出更多更好的模型。

在目前 AI 領域中,模型越大通常代表著較強的推理能力,特別是在處理數學、程式碼、科學推理等任務時表現出色。不過,這些超大模型的計算成本極高,一般人很難負擔得起(其實就連中大型公司也沒辦法負擔)。

但是呢,如果透過一個夠強大的語言模型(如本文的重點 R1)來產生高品質的推理數據集,再透過蒸餾技術讓小模型也能擁有類似的推理能力,就能大幅降低運算成本,並且提升小型模型在特定任務上的表現。

來看一下蒸餾小模型的流程:

DeepSeek R1:強化學習與多階段優化

DeepSeek R1 是 DeepSeek-AI 團隊開發的推理模型,主要經過三個重要的訓練階段:

  1. DeepSeek-R1-Zero(純 RL 訓練)

    • 透過 純強化學習 訓練,不使用監督微調(Supervised Fine-Tuning, SFT),讓模型自行學習推理能力。
    • 在數學、程式碼與科學推理方面表現出色。
  2. DeepSeek R1(冷啟動 + RL)

    • 先蒐集 高品質的冷啟動數據 來進行 SFT,提高模型的可讀性與穩定性。
    • 接著進行強化學習,進一步提升推理能力。

這樣訓練出來的 DeepSeek R1,不只能解決數學證明、程式碼競賽、複雜的推理題,還能清楚說明它的思考過程(Chain-of-Thought, CoT)。

什麼是蒸餾?

在 AI 領域中,蒸餾(Distillation)是一種讓小模型學習大模型能力的技術。透過讓小模型模仿大模型的輸出結果,它可以:

  • 保留大模型的推理能力
  • 大幅降低運算成本
  • 提升小模型在特定任務上的表現

如何進行蒸餾?

蒸餾過程主要透過高品質數據的監督微調來進行,具體步驟如下:

第一步:產生優質數據

研究團隊利用 DeepSeek R1 產生了 約 60 萬筆推理數據,並額外蒐集 約 20 萬筆非推理數據,共計 80 萬筆。這些數據涵蓋:

  • 數學推理
  • 程式碼競賽
  • 科學與邏輯推理
  • 一般問答

這些數據不只包含最後答案,還有完整的推理過程。例如:

教師模型(DeepSeek R1)輸出範例

<think>
步驟 1:計算距離的公式是:
  距離 = 速度 × 時間

步驟 2:帶入已知數值:
  距離 = 60 公里/小時 × 2.5 小時

步驟 3:計算結果:
  距離 = 150 公里
</think>

<answer> 150 公里 </answer>

第二步:微調小型模型

接著,研究團隊選擇了 Qwen 和 Llama 這兩個系列作為學生模型,透過監督微調讓它們學習 DeepSeek R1 的推理模式:

  • Qwen2.5-7B
  • Qwen2.5-14B
  • Qwen2.5-32B
  • Llama-3.1-8B
  • Llama-3.3-70B

透過 SFT 訓練,小模型逐漸學會:

  1. 如何拆解複雜問題
  2. 如何組織連續思考(CoT)
  3. 如何產生清晰易懂的答案

第三步:測試與調整

訓練完成後,研究團隊用各種基準測試來評估模型效果。結果顯示,透過蒸餾技術,就算是 7B 或 14B 的小模型,也能在數學、程式碼推理等任務上,達到甚至超越未經推理優化的 32B 模型!

模型AIME 2024 (pass@1)AIME 2024 (cons@64)MATH-500 (pass@1)GPQA Diamond (pass@1)LiveCodeBench (pass@1)CodeForces 分數
OpenAI-o1-mini63.6%80.090.0%60.0%53.8%1820
QwQ-32B-Preview50.0%60.090.6%54.5%41.9%1316
DeepSeek-R1-Distill-Qwen-7B55.5%83.392.8%49.1%37.6%1189
DeepSeek-R1-Distill-Qwen-14B69.7%80.093.9%59.1%53.1%1481
DeepSeek-R1-Distill-Qwen-32B72.6%83.394.3%62.1%57.2%1691
DeepSeek-R1-Distill-Llama-8B50.4%80.089.1%49.0%39.6%1205
DeepSeek-R1-Distill-Llama-70B70.0%86.794.5%65.2%57.5%1633

為什麼 DeepSeek 團隊的蒸餾這麼有效?

主要有三個關鍵原因:

  1. 它讓小模型學習「如何推理」,而不是只有「記住答案」。
  2. 它透過思維鏈(CoT)來強化推理能力,讓小模型能夠舉一反三。
  3. 使用高品質的 DeepSeek R1 數據,確保小模型學到的都是精華。

結論

它透過 SFT 訓練,讓 Qwen 和 Llama 等小模型學會 DeepSeek R1 的推理方式。即使沒有用到強化學習,這些小模型在數學、程式碼推理上也能有接近 OpenAI o1-mini 的水準。

這種技術讓小模型變得更強、更有效率,感覺家家戶戶都可以部署自己 AI 的時代快到了,甚至可以在手機就可以直接跑“可以解決問題”的 AI 模型了。