創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
deepseek 正式發(fā)布 DeepSeek-R1,并同步開源模型權(quán)重。 開源 DeepSeek-R1 推理大模型,與 o1 性能相近。
開源 DeepSeek-R1-Zero,預(yù)訓(xùn)練模型直接 RL,不走 SFT。
開源用 R1 數(shù)據(jù)蒸餾的 Qwen、Llama 系列小模型,蒸餾模型超過 o1-mini 和 QWQ。
模型開源的同時,技術(shù)報告也同步放出:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
1.引言
近年來,大型語言模型(LLMs)通過后訓(xùn)練技術(shù)不斷優(yōu)化,逐漸接近人工通用智能(AGI)。后訓(xùn)練在提升推理任務(wù)準(zhǔn)確性、符合社會價值觀和用戶偏好方面表現(xiàn)出色,且計算資源消耗較少。OpenAI 的 o1 系列模型通過增加推理“思考鏈條”長度,顯著提升了數(shù)學(xué)、編程和科學(xué)推理能力,但更有效的推理擴(kuò)展方法仍是研究熱點(diǎn)。
本文首次嘗試通過純強(qiáng)化學(xué)習(xí)(RL)提升語言模型的推理能力,以 DeepSeek-V3-Base 為基礎(chǔ),采用 GRPO 框架訓(xùn)練。經(jīng)過數(shù)千步訓(xùn)練后,DeepSeek-R1-Zero 在推理基準(zhǔn)測試中表現(xiàn)出色,例如在 AIME 2024 上的 Pass@1 分?jǐn)?shù)從 15.6% 提升至 86.7%(多數(shù)投票后),接近 OpenAI-o1-0912 的水平。但該模型存在可讀性差和語言混用的問題。
為解決這些問題,研究團(tuán)隊(duì)推出 DeepSeek-R1,引入冷啟動數(shù)據(jù)和多階段訓(xùn)練流程,最終使其性能達(dá)到與 OpenAI-o1-1217 相當(dāng)?shù)乃健4送,研究團(tuán)隊(duì)還通過知識蒸餾將 DeepSeek-R1 的能力傳遞到較小模型,如 Qwen2.532B,發(fā)現(xiàn)其效果優(yōu)于單獨(dú)使用 RL。開源的蒸餾模型在推理基準(zhǔn)測試中創(chuàng)下新紀(jì)錄,表明大型基礎(chǔ)模型的推理模式對提升推理能力至關(guān)重要。
2.相關(guān)研究
SFT:之前的研究通常依賴 SFT 來增強(qiáng)模型性能。然而,SFT 需要大量標(biāo)注數(shù)據(jù),成本高且耗時。 推理時擴(kuò)展:OpenAI 的 o1 系列模型通過增加 CoT 推理長度來實(shí)現(xiàn)推理能力擴(kuò)展,但測試時擴(kuò)展的挑戰(zhàn)仍然存在。 基于過程的獎勵模型(PRM):一些研究采用過程獎勵模型引導(dǎo)模型進(jìn)行推理。然而,這些模型在實(shí)際應(yīng)用中存在局限性。 強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)已被用于提升推理能力,但通常與 SFT 數(shù)據(jù)結(jié)合使用,難以探索純 RL 的潛力。 搜索算法:如蒙特卡洛樹搜索(MCTS)等算法也被用于增強(qiáng)推理,但效果有限。
3.主要貢獻(xiàn)
首次驗(yàn)證了純強(qiáng)化學(xué)習(xí)在 LLM 中顯著增強(qiáng)推理能力的可行性(DeepSeek-R1-Zero),即無需預(yù)先的 SFT 數(shù)據(jù),僅通過 RL 即可激勵模型學(xué)會長鏈推理和反思等能力。
提出了多階段訓(xùn)練策略(冷啟動->RL->SFT->全場景 RL),有效兼顧準(zhǔn)確率與可讀性,產(chǎn)出 DeepSeek-R1,性能比肩 OpenAI-o1-1217。
展示了知識蒸餾在提升小模型推理能力方面的潛力,并開源多個大小不一的蒸餾模型(1.5B~70B),為社區(qū)提供了可在低資源環(huán)境中也能獲得高推理能力的模型選擇。
![]() |
機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 紫外線消毒機(jī)器人 消毒機(jī)器人價格 展廳機(jī)器人 服務(wù)機(jī)器人底盤 核酸采樣機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |