DeepSeek 究竟在蒸餾什麼?On Device AI的春天要來了嗎?
DeepSeek R1 究竟在蒸餾什麼? 這幾天 DeepSeek 新聞太多,搞得不去研究一下好像不好意思說自己有在關注 AI。 翻了下 DeepSeek R1 的論文,我印象最深刻的是它的蒸餾技術,讓原本沒什麼用得小模型也能有了更強的推理能力,我覺得這點對於未來的 On Device AI 推動會有蠻大的幫助的。而且因為是 Open Source,全球很多機構已經開始嘗試復現,未來會釋出更多更好的模型。 在目前 AI 領域中,模型越大通常代表著較強的推理能力,特別是在處理數學、程式碼、科學推理等任務時表現出色。不過,這些超大模型的計算成本極高,一般人很難負擔得起(其實就連中大型公司也沒辦法負擔)。 但是呢,如果透過一個夠強大的語言模型(如本文的重點 R1)來產生高品質的推理數據集,再透過蒸餾技術讓小模型也能擁有類似的推理能力,就能大幅降低運算成本,並且提升小型模型在特定任務上的表現。 來看一下蒸餾小模型的流程: DeepSeek R1:強化學習與多階段優化 DeepSeek R1 是 DeepSeek-AI 團隊開發的推理模型,主要經過三個重要的訓練階段: DeepSeek-R1-Zero(純 RL 訓練): 透過 純強化學習 訓練,不使用監督微調(Supervised Fine-Tuning, SFT),讓模型自行學習推理能力。 在數學、程式碼與科學推理方面表現出色。 DeepSeek R1(冷啟動 + RL): 先蒐集 高品質的冷啟動數據 來進行 SFT,提高模型的可讀性與穩定性。 接著進行強化學習,進一步提升推理能力。 這樣訓練出來的 DeepSeek R1,不只能解決數學證明、程式碼競賽、複雜的推理題,還能清楚說明它的思考過程(Chain-of-Thought, CoT)。 什麼是蒸餾? 在 AI 領域中,蒸餾(Distillation)是一種讓小模型學習大模型能力的技術。透過讓小模型模仿大模型的輸出結果,它可以: 保留大模型的推理能力 大幅降低運算成本 提升小模型在特定任務上的表現 如何進行蒸餾? 蒸餾過程主要透過高品質數據的監督微調來進行,具體步驟如下: 第一步:產生優質數據 研究團隊利用 DeepSeek R1 產生了 約 60 萬筆推理數據,並額外蒐集 約 20 萬筆非推理數據,共計 80 萬筆。這些數據涵蓋:...