DeepSeek

DeepSeek R1 究竟在蒸餾什麼？

這幾天 DeepSeek 新聞太多，搞得不去研究一下好像不好意思說自己有在關注 AI。

翻了下 DeepSeek R1 的論文，我印象最深刻的是它的蒸餾技術，讓原本沒什麼用得小模型也能有了更強的推理能力，我覺得這點對於未來的 On Device AI 推動會有蠻大的幫助的。而且因為是 Open Source，全球很多機構已經開始嘗試復現，未來會釋出更多更好的模型。

在目前 AI 領域中，模型越大通常代表著較強的推理能力，特別是在處理數學、程式碼、科學推理等任務時表現出色。不過，這些超大模型的計算成本極高，一般人很難負擔得起(其實就連中大型公司也沒辦法負擔)。

但是呢，如果透過一個夠強大的語言模型(如本文的重點 R1)來產生高品質的推理數據集，再透過蒸餾技術讓小模型也能擁有類似的推理能力，就能大幅降低運算成本，並且提升小型模型在特定任務上的表現。

來看一下蒸餾小模型的流程：

DeepSeek R1：強化學習與多階段優化

DeepSeek R1 是 DeepSeek-AI 團隊開發的推理模型，主要經過三個重要的訓練階段：

DeepSeek-R1-Zero（純 RL 訓練）：
- 透過 純強化學習 訓練，不使用監督微調（Supervised Fine-Tuning, SFT），讓模型自行學習推理能力。
- 在數學、程式碼與科學推理方面表現出色。
DeepSeek R1（冷啟動 + RL）：
- 先蒐集 高品質的冷啟動數據 來進行 SFT，提高模型的可讀性與穩定性。
- 接著進行強化學習，進一步提升推理能力。

這樣訓練出來的 DeepSeek R1，不只能解決數學證明、程式碼競賽、複雜的推理題，還能清楚說明它的思考過程（Chain-of-Thought, CoT）。

什麼是蒸餾？

在 AI 領域中，蒸餾（Distillation）是一種讓小模型學習大模型能力的技術。透過讓小模型模仿大模型的輸出結果，它可以：

保留大模型的推理能力
大幅降低運算成本
提升小模型在特定任務上的表現

如何進行蒸餾？

蒸餾過程主要透過高品質數據的監督微調來進行，具體步驟如下：

第一步：產生優質數據

研究團隊利用 DeepSeek R1 產生了 約 60 萬筆推理數據，並額外蒐集 約 20 萬筆非推理數據，共計 80 萬筆。這些數據涵蓋：

數學推理
程式碼競賽
科學與邏輯推理
一般問答

這些數據不只包含最後答案，還有完整的推理過程。例如：

教師模型（DeepSeek R1）輸出範例

<think>
步驟 1：計算距離的公式是：
  距離 = 速度 × 時間

步驟 2：帶入已知數值：
  距離 = 60 公里/小時 × 2.5 小時

步驟 3：計算結果：
  距離 = 150 公里
</think>

<answer> 150 公里 </answer>

第二步：微調小型模型

接著，研究團隊選擇了 Qwen 和 Llama 這兩個系列作為學生模型，透過監督微調讓它們學習 DeepSeek R1 的推理模式：

Qwen2.5-7B
Qwen2.5-14B
Qwen2.5-32B
Llama-3.1-8B
Llama-3.3-70B

透過 SFT 訓練，小模型逐漸學會：

如何拆解複雜問題
如何組織連續思考（CoT）
如何產生清晰易懂的答案

第三步：測試與調整

訓練完成後，研究團隊用各種基準測試來評估模型效果。結果顯示，透過蒸餾技術，就算是 7B 或 14B 的小模型，也能在數學、程式碼推理等任務上，達到甚至超越未經推理優化的 32B 模型！

模型	AIME 2024 (pass@1)	AIME 2024 (cons@64)	MATH-500 (pass@1)	GPQA Diamond (pass@1)	LiveCodeBench (pass@1)	CodeForces 分數
OpenAI-o1-mini	63.6%	80.0	90.0%	60.0%	53.8%	1820
QwQ-32B-Preview	50.0%	60.0	90.6%	54.5%	41.9%	1316
DeepSeek-R1-Distill-Qwen-7B	55.5%	83.3	92.8%	49.1%	37.6%	1189
DeepSeek-R1-Distill-Qwen-14B	69.7%	80.0	93.9%	59.1%	53.1%	1481
DeepSeek-R1-Distill-Qwen-32B	72.6%	83.3	94.3%	62.1%	57.2%	1691
DeepSeek-R1-Distill-Llama-8B	50.4%	80.0	89.1%	49.0%	39.6%	1205
DeepSeek-R1-Distill-Llama-70B	70.0%	86.7	94.5%	65.2%	57.5%	1633

為什麼 DeepSeek 團隊的蒸餾這麼有效？

主要有三個關鍵原因：

它讓小模型學習「如何推理」，而不是只有「記住答案」。
它透過思維鏈（CoT）來強化推理能力，讓小模型能夠舉一反三。
使用高品質的 DeepSeek R1 數據，確保小模型學到的都是精華。

結論

它透過 SFT 訓練，讓 Qwen 和 Llama 等小模型學會 DeepSeek R1 的推理方式。即使沒有用到強化學習，這些小模型在數學、程式碼推理上也能有接近 OpenAI o1-mini 的水準。

這種技術讓小模型變得更強、更有效率，感覺家家戶戶都可以部署自己 AI 的時代快到了，甚至可以在手機就可以直接跑“可以解決問題”的 AI 模型了。

DeepSeek R1 究竟在蒸餾什麼？#

DeepSeek R1：強化學習與多階段優化#

什麼是蒸餾？#

如何進行蒸餾？#

第一步：產生優質數據#

教師模型（DeepSeek R1）輸出範例#

第二步：微調小型模型#

第三步：測試與調整#

為什麼 DeepSeek 團隊的蒸餾這麼有效？#

結論#