快手Klear-Reasoner登頂8B模型 GPPO算法雙效強(qiáng)化穩(wěn)定性與探索能力

每日快訊

2025

08/21

17:57

評(píng)論

在大語(yǔ)言模型的競(jìng)爭(zhēng)中，數(shù)學(xué)與代碼推理能力已經(jīng)成為最硬核的“分水嶺”。從 OpenAI 最早將 RLHF 引入大模型訓(xùn)練，到 DeepSeek 提出 GRPO 算法，我們見證了強(qiáng)化學(xué)習(xí)在推理模型領(lǐng)域的巨大潛力。然而，想要復(fù)現(xiàn)這些頂尖成果，并不只是“多喂點(diǎn)數(shù)據(jù)、跑幾輪訓(xùn)練”這么簡(jiǎn)單。現(xiàn)實(shí)是，很多中小規(guī)模的開源推理模型，在 AIME 這樣的高難數(shù)學(xué)競(jìng)賽題、或 LiveCodeBench 這樣的復(fù)雜代碼評(píng)測(cè)中，依然與閉源 SOTA 存在明顯差距。

最近，快手 Klear 語(yǔ)言大模型團(tuán)隊(duì)推出了全新的 Klear-Reasoner 模型，基于 Qwen3-8B-Base 打造，在數(shù)學(xué)與代碼的多個(gè)權(quán)威基準(zhǔn)測(cè)試中達(dá)到同規(guī)模模型的 SOTA 水平，并完整公開了訓(xùn)練細(xì)節(jié)與全流程 pipeline。

論文鏈接：https://arxiv.org/pdf/2508.07629

Hugging Face：https://huggingface.co/Suu/Klear-Reasoner-8B

GitHub：https://github.com/suu990901/KlearReasoner/tree/main

Klear-Reasoner 在 AIME2024、AIME2025、LiveCodeBench V5 和 V6 等基準(zhǔn)測(cè)試中，不僅全面超越同規(guī)模的強(qiáng)力開源模型（包括 DeepSeek 蒸餾版 DeepSeek-R1-0528-8B），更是在 AIME2024 上取得了 90.5%、AIME2025 上取得了 83.2% 的驚人成績(jī)，直接登頂 8B 模型榜首。

在這些成果的背后，最核心的技術(shù)創(chuàng)新是Klear團(tuán)隊(duì)提出的 GPPO（Gradient-Preserving Clipping Policy Optimization）算法 ——一種在保留訓(xùn)練穩(wěn)定性的同時(shí)，大幅提升探索能力的強(qiáng)化學(xué)習(xí)優(yōu)化方法。

傳統(tǒng)clip的隱性代價(jià)

在PPO和GRPO等常用的策略優(yōu)化方法中，clip是控制訓(xùn)練穩(wěn)定性的重要手段，它通過限制策略更新幅度，避免模型一步走得太遠(yuǎn)而導(dǎo)致崩潰。Klear團(tuán)隊(duì)在實(shí)踐中發(fā)現(xiàn)，clip 機(jī)制在保護(hù)穩(wěn)定性的同時(shí)，也切斷了模型獲取最有價(jià)值學(xué)習(xí)信號(hào)的通道，模型變得保守，不敢嘗試新路徑，遇到錯(cuò)誤也修正遲緩。

GPPO方法：保留梯度的“溫和”方案

為解決以上問題，Klear團(tuán)隊(duì)提出的 GPPO（Gradient-Preserving Clipping Policy Optimization）算法，GPPO的核心思想很直接：不丟棄任何梯度，并且對(duì)其進(jìn)行溫和回傳。通過 GPPO，推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn)，讓它們既敢于嘗試，也能迅速糾錯(cuò)。

在與現(xiàn)有方法的對(duì)比中（包括DAPO的clip-higher以及MiniMax-M1的CISPO方法），GPPO在數(shù)學(xué)和代碼任務(wù)上都表現(xiàn)出優(yōu)勢(shì)。

數(shù)學(xué)強(qiáng)化學(xué)習(xí)訓(xùn)練中GPPO、GRPO（帶Clip Higher策略）與CISPO的對(duì)比。

實(shí)驗(yàn)洞察

除了提出GPPO算法外，Klear團(tuán)隊(duì)在論文中對(duì)訓(xùn)練流程的多個(gè)關(guān)鍵環(huán)節(jié)進(jìn)行了深入實(shí)驗(yàn)與分析，揭示了長(zhǎng)思維鏈推理模型成功背后的幾個(gè)核心要素，為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線：

·SFT階段：質(zhì)量?jī)?yōu)先，數(shù)據(jù)可靠性比數(shù)量更重要

實(shí)驗(yàn)表明，與數(shù)據(jù)量大但質(zhì)量參差的數(shù)據(jù)源相比，來自少數(shù)高質(zhì)量數(shù)據(jù)源的樣本更具訓(xùn)練效率和效果優(yōu)勢(shì)。

高質(zhì)量數(shù)學(xué)數(shù)據(jù)Top-K子集組合對(duì)監(jiān)督微調(diào)（SFT）性能的影響。

·SFT階段：高難樣本容錯(cuò)反而能促進(jìn)學(xué)習(xí)

對(duì)于簡(jiǎn)單任務(wù)，錯(cuò)誤樣本的引入會(huì)明顯影響性能，但對(duì)于高難度任務(wù)，保留部分帶瑕疵的推理路徑，反而能夠提升模型表現(xiàn)。

通過三組實(shí)驗(yàn)分析了數(shù)據(jù)正確性對(duì)模型性能的影響，分別在簡(jiǎn)單（Easy）、困難（Hard）和整體（Overall）任務(wù)集上對(duì)比了純正確數(shù)據(jù)（Only True）與含錯(cuò)誤數(shù)據(jù)的混合數(shù)據(jù)（Mixed）的表現(xiàn)差異。表格中加粗?jǐn)?shù)值標(biāo)識(shí)了各組內(nèi)的最優(yōu)性能結(jié)果。

·RL階段：軟獎(jiǎng)勵(lì)優(yōu)于硬獎(jiǎng)勵(lì)

在代碼任務(wù)的強(qiáng)化學(xué)習(xí)階段，使用軟獎(jiǎng)勵(lì)（根據(jù)通過測(cè)試用例的通過率）比硬獎(jiǎng)勵(lì)（完全通過得分，否則為零）更有效

代碼強(qiáng)化學(xué)習(xí)中軟獎(jiǎng)勵(lì)與硬獎(jiǎng)勵(lì)策略的對(duì)比。在軟獎(jiǎng)勵(lì)設(shè)置中，獎(jiǎng)勵(lì)值等于測(cè)試用例通過率；而在硬獎(jiǎng)勵(lì)設(shè)置中，僅當(dāng)所有測(cè)試用例均通過時(shí)給予正向獎(jiǎng)勵(lì)，否則給予負(fù)向獎(jiǎng)勵(lì)。

·RL階段：代碼數(shù)據(jù)測(cè)試用例過濾

在代碼RL數(shù)據(jù)準(zhǔn)備階段，Klear團(tuán)隊(duì)調(diào)用DeepSeek-R1-0120為每個(gè)prompt生成了16條回復(fù)，只有pass@16大于0.5的數(shù)據(jù)會(huì)被保留

在LiveCodeBench V5基準(zhǔn)（avg@4指標(biāo)）上，使用過濾與未過濾數(shù)據(jù)的代碼強(qiáng)化學(xué)習(xí)性能對(duì)比。Filter表示使用過濾數(shù)據(jù)的強(qiáng)化學(xué)習(xí)結(jié)果，而w/o Filter代表使用原始未過濾數(shù)據(jù)集的結(jié)果。

Klear-Reasoner 的推出，不僅是一份性能亮眼的開源權(quán)重，更為社區(qū)貢獻(xiàn)了一條可復(fù)現(xiàn)、可推廣的推理模型監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)路線。通過 GPPO，推理模型可以在穩(wěn)定性與探索力之間找到新的平衡點(diǎn)，讓它們既敢于嘗試，也能迅速糾錯(cuò)。這對(duì)于未來的數(shù)學(xué)、代碼，甚至其他RLVR任務(wù)，都有著重要的參考價(jià)值。

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強(qiáng)化穩(wěn)定性與探索能力

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

快手Klear-Reasoner登頂8B模型 GPPO算法雙效強(qiáng)化穩(wěn)定性與探索能力

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！