DeepSeek R1 究竟在蒸餾什麼?
這幾天 DeepSeek 新聞太多,搞得不去研究一下好像不好意思說自己有在關注 AI。
翻了下 DeepSeek R1 的論文,我印象最深刻的是它的蒸餾技術,讓原本沒什麼用得小模型也能有了更強的推理能力,我覺得這點對於未來的 On Device AI 推動會有蠻大的幫助的。而且因為是 Open Source,全球很多機構已經開始嘗試復現,未來會釋出更多更好的模型。
在目前 AI 領域中,模型越大通常代表著較強的推理能力,特別是在處理數學、程式碼、科學推理等任務時表現出色。不過,這些超大模型的計算成本極高,一般人很難負擔得起(其實就連中大型公司也沒辦法負擔)。
但是呢,如果透過一個夠強大的語言模型(如本文的重點 R1)來產生高品質的推理數據集,再透過蒸餾技術讓小模型也能擁有類似的推理能力,就能大幅降低運算成本,並且提升小型模型在特定任務上的表現。
來看一下蒸餾小模型的流程:
DeepSeek R1:強化學習與多階段優化
DeepSeek R1 是 DeepSeek-AI 團隊開發的推理模型,主要經過三個重要的訓練階段:
DeepSeek-R1-Zero(純 RL 訓練):
- 透過 純強化學習 訓練,不使用監督微調(Supervised Fine-Tuning, SFT),讓模型自行學習推理能力。
- 在數學、程式碼與科學推理方面表現出色。
DeepSeek R1(冷啟動 + RL):
- 先蒐集 高品質的冷啟動數據 來進行 SFT,提高模型的可讀性與穩定性。
- 接著進行強化學習,進一步提升推理能力。
這樣訓練出來的 DeepSeek R1,不只能解決數學證明、程式碼競賽、複雜的推理題,還能清楚說明它的思考過程(Chain-of-Thought, CoT)。
什麼是蒸餾?
在 AI 領域中,蒸餾(Distillation)是一種讓小模型學習大模型能力的技術。透過讓小模型模仿大模型的輸出結果,它可以:
- 保留大模型的推理能力
- 大幅降低運算成本
- 提升小模型在特定任務上的表現
如何進行蒸餾?
蒸餾過程主要透過高品質數據的監督微調來進行,具體步驟如下:
第一步:產生優質數據
研究團隊利用 DeepSeek R1 產生了 約 60 萬筆推理數據,並額外蒐集 約 20 萬筆非推理數據,共計 80 萬筆。這些數據涵蓋:
- 數學推理
- 程式碼競賽
- 科學與邏輯推理
- 一般問答
這些數據不只包含最後答案,還有完整的推理過程。例如:
教師模型(DeepSeek R1)輸出範例
<think>
步驟 1:計算距離的公式是:
距離 = 速度 × 時間
步驟 2:帶入已知數值:
距離 = 60 公里/小時 × 2.5 小時
步驟 3:計算結果:
距離 = 150 公里
</think>
<answer> 150 公里 </answer>
第二步:微調小型模型
接著,研究團隊選擇了 Qwen 和 Llama 這兩個系列作為學生模型,透過監督微調讓它們學習 DeepSeek R1 的推理模式:
- Qwen2.5-7B
- Qwen2.5-14B
- Qwen2.5-32B
- Llama-3.1-8B
- Llama-3.3-70B
透過 SFT 訓練,小模型逐漸學會:
- 如何拆解複雜問題
- 如何組織連續思考(CoT)
- 如何產生清晰易懂的答案
第三步:測試與調整
訓練完成後,研究團隊用各種基準測試來評估模型效果。結果顯示,透過蒸餾技術,就算是 7B 或 14B 的小模型,也能在數學、程式碼推理等任務上,達到甚至超越未經推理優化的 32B 模型!
模型 | AIME 2024 (pass@1) | AIME 2024 (cons@64) | MATH-500 (pass@1) | GPQA Diamond (pass@1) | LiveCodeBench (pass@1) | CodeForces 分數 |
---|---|---|---|---|---|---|
OpenAI-o1-mini | 63.6% | 80.0 | 90.0% | 60.0% | 53.8% | 1820 |
QwQ-32B-Preview | 50.0% | 60.0 | 90.6% | 54.5% | 41.9% | 1316 |
DeepSeek-R1-Distill-Qwen-7B | 55.5% | 83.3 | 92.8% | 49.1% | 37.6% | 1189 |
DeepSeek-R1-Distill-Qwen-14B | 69.7% | 80.0 | 93.9% | 59.1% | 53.1% | 1481 |
DeepSeek-R1-Distill-Qwen-32B | 72.6% | 83.3 | 94.3% | 62.1% | 57.2% | 1691 |
DeepSeek-R1-Distill-Llama-8B | 50.4% | 80.0 | 89.1% | 49.0% | 39.6% | 1205 |
DeepSeek-R1-Distill-Llama-70B | 70.0% | 86.7 | 94.5% | 65.2% | 57.5% | 1633 |
為什麼 DeepSeek 團隊的蒸餾這麼有效?
主要有三個關鍵原因:
- 它讓小模型學習「如何推理」,而不是只有「記住答案」。
- 它透過思維鏈(CoT)來強化推理能力,讓小模型能夠舉一反三。
- 使用高品質的 DeepSeek R1 數據,確保小模型學到的都是精華。
結論
它透過 SFT 訓練,讓 Qwen 和 Llama 等小模型學會 DeepSeek R1 的推理方式。即使沒有用到強化學習,這些小模型在數學、程式碼推理上也能有接近 OpenAI o1-mini 的水準。
這種技術讓小模型變得更強、更有效率,感覺家家戶戶都可以部署自己 AI 的時代快到了,甚至可以在手機就可以直接跑“可以解決問題”的 AI 模型了。