Klear 語(yǔ)言大模型團(tuán)隊(duì)完成,核心作者蘇振鵬,潘雷宇,呂民軒,胡文憑,張富崢,周國(guó)睿等。快手 Klear 語(yǔ)言大模型團(tuán)隊(duì)聚焦在基礎(chǔ)語(yǔ)言大模型研發(fā)、Agent RL 等前沿技術(shù)創(chuàng)新等方向,積累務(wù)實(shí)的探索 AGI 的能力邊界,并不斷推進(jìn) AI 領(lǐng)域新技術(shù)和新產(chǎn)品的發(fā)展。此前,該團(tuán)隊(duì)已開源了 Klear-46B-A2.5B 和 Klear-Reasoner-8B 等模型,其中 Klear-Reasoner-8B 在數(shù)學(xué)和代碼的基準(zhǔn)測(cè)試上達(dá)到了同參數(shù)級(jí)別模型的 SOTA 效果。
近年來(lái),隨著 OpenAI O1、Deepseek R1、KIMI K2 等大模型不斷展示出復(fù)雜推理與思維鏈能力,強(qiáng)化學(xué)習(xí)已成為推動(dòng)語(yǔ)言模型智能躍升的關(guān)鍵技術(shù)環(huán)節(jié)。相比傳統(tǒng)的監(jiān)督微調(diào),RL 通過(guò)獎(jiǎng)勵(lì)信號(hào)直接優(yōu)化模型行為,使模型能夠在訓(xùn)練中自我探索、自我修正。
然而,這一階段的訓(xùn)練并非穩(wěn)態(tài)過(guò)程。業(yè)界在大規(guī)模 RLVR 實(shí)踐中普遍發(fā)現(xiàn),模型熵的失衡,即探索與利用的不協(xié)調(diào),是導(dǎo)致模型訓(xùn)練不穩(wěn)定、性能難以提升的核心原因。針對(duì)這一長(zhǎng)期瓶頸,快手 Klear 團(tuán)隊(duì)提出了一種新的強(qiáng)化學(xué)習(xí)算法 CE-GPPO(Coordinating Entropy via Gradient-Preserving Policy Optimization),該方法以「熵」為核心視角,重新審視 RL 中梯度裁剪機(jī)制的本質(zhì)影響,并對(duì)應(yīng)地提出了梯度保留策略,在保證訓(xùn)練穩(wěn)定的前提下,納入裁剪區(qū)間外的梯度使模型能夠在訓(xùn)練過(guò)程中達(dá)到探索與收斂的平衡。
