浙江網(wǎng)站建設(shè)企業(yè)軟文類型
1.簡介
這篇文章提出了一種名為“強化預(yù)訓(xùn)練”(Reinforcement Pre-Training,簡稱 RPT)的新型預(yù)訓(xùn)練范式,旨在通過強化學(xué)習(xí)(Reinforcement Learning,簡稱 RL)提升大型語言模型(LLMs)在下一個詞元預(yù)測任務(wù)中的表現(xiàn)。傳統(tǒng)的下一個詞元預(yù)測任務(wù)通常依賴于自監(jiān)督學(xué)習(xí),而 RPT 則將這一任務(wù)重新定義為一個推理過程,激勵模型在預(yù)測之前進行深入思考,并通過可驗證的獎勵信號來評估預(yù)測的正確性。
文章的核心貢獻在于,RPT 不僅顯著提高了下一個詞元預(yù)測的準確性,還為后續(xù)的強化微調(diào)提供了更強大的預(yù)訓(xùn)練基礎(chǔ)。通過將大規(guī)模未標注文本數(shù)據(jù)轉(zhuǎn)化為通用的強化學(xué)習(xí)任務(wù),RPT 實現(xiàn)了無需外部標注或領(lǐng)域特定獎勵函數(shù)的可擴展預(yù)訓(xùn)練。此外,RPT 使用基于規(guī)則的獎勵信號,有效避免了復(fù)雜獎勵模型可能帶來的獎勵劫持問題,同時通過推理過程促進了模型對上下文的深入理解,增強了泛化能力。
總的來說,《Reinforcement Pre-Training》為大型語言模型的預(yù)訓(xùn)練提供了一種新的思路,通過強化學(xué)習(xí)激勵模型進行推理,不僅提升了模型的預(yù)測能力,還為后續(xù)的微調(diào)和泛化提供了更堅實的基礎(chǔ)。這一方法為未來語言模型的發(fā)展開辟了新的方向,有望推動自然語言處理技術(shù)在更多復(fù)雜任務(wù)中的應(yīng)用。
論文地址:https://arxiv.org/abs/2506.08007
-
-
2.論文詳解
簡介
大型語言模型(LLMs)在廣泛的任務(wù)中展現(xiàn)出了卓越的能力,這主要得益于其在海量文本語料上通過可擴展的下一個詞元預(yù)測目標實現(xiàn)的自我監(jiān)督范式。這種自我監(jiān)督的預(yù)訓(xùn)練方法已被證明是一種有效的通用預(yù)訓(xùn)練方法。與此同時,強化學(xué)習(xí)(RL)作為一種強大的技術(shù),被用于微調(diào)大型語言模型,使其與人類偏好對齊,或增強特定技能,例如復(fù)雜推理。然而,目前在大型語言模型訓(xùn)練中應(yīng)用強化學(xué)習(xí)面臨著可擴展性和通用性的挑戰(zhàn)?;谌祟惙答伒膹娀瘜W(xué)習(xí)雖然在對齊方面效果顯著,但依賴于昂貴的人類偏好數(shù)據(jù),并且其學(xué)習(xí)到的獎勵模型容易受到獎勵劫持的影響,限制了其可擴展性。另一方面,使用可驗證獎勵的強化學(xué)習(xí)(RLVR)利用客觀的、基于規(guī)則的獎勵,通常來自問答對。雖然這種方法減少了獎勵劫持的風(fēng)險,但RLVR通常受到可驗證答案的標注數(shù)據(jù)稀缺的限制,使其應(yīng)用局限于特定領(lǐng)域的微調(diào),而非通用預(yù)訓(xùn)練。
在本研究中,作者引入了一種名為強化預(yù)訓(xùn)練(RPT)的新范式,彌合了可擴展的自我監(jiān)督預(yù)訓(xùn)練與強化學(xué)習(xí)的力量之間的差距。RPT將基本的下一個詞元預(yù)測(next-token predict)任務(wù)重新定義為一個下一個詞元推理(next-token reason)過程。對于預(yù)訓(xùn)練語料中的任何給定上下文,模型被激勵在預(yù)測下一個詞元之前對其進行推理。它根據(jù)預(yù)測的正確性相對于語料中真實的下一個詞元獲得一個可驗證的內(nèi)在獎勵。這種方法將通常用于下一個詞元預(yù)測的大量未標注文本數(shù)據(jù)轉(zhuǎn)化為一個用于通用強化學(xué)習(xí)的龐大數(shù)據(jù)集,無需外部標注或特定領(lǐng)域的獎勵函數(shù)。
作者的實驗表明,RPT顯著提高了預(yù)測下一個詞元的準確性。RPT還為后續(xù)的強化微調(diào)提供了一個更穩(wěn)健的預(yù)訓(xùn)練基礎(chǔ),從而實現(xiàn)了更好的最終任務(wù)性能。擴展曲線顯示,在RPT框架下,增加的訓(xùn)練計算量能夠持續(xù)提高下一個詞元預(yù)測的準確性,顯示出其作為一種可持續(xù)擴展策略的潛力。這些結(jié)果表明,強化預(yù)訓(xùn)練是一種有效且有前景的新范式,能夠推動大型語言模型預(yù)訓(xùn)練的發(fā)展。
-
初步
下一個詞元預(yù)測(next token predict,NTP)
下一個詞元預(yù)測是現(xiàn)代大型語言模型的基本訓(xùn)練目標。給定來自訓(xùn)練語料的輸入序列 ,模型被訓(xùn)練以最大化以下目標函數(shù): ?
其中 ?表示語言模型的參數(shù)。
使用可驗證獎勵的強化學(xué)習(xí)(RLVR)
RLVR采用強化學(xué)習(xí)目標,通過可驗證答案來增強特定技能。RLVR需要一個標注好的問答對數(shù)據(jù)集 。對于數(shù)據(jù)集中的特定問答對
,大型語言模型
生成一個回答
。一個確定性的驗證器?V 計算可驗證獎勵 r = V(o, a),模型被訓(xùn)練以最大化預(yù)期獎勵: ?
-
強化預(yù)訓(xùn)練
預(yù)訓(xùn)練任務(wù):下一個詞元推理
作者提出了語言建模的下一個詞元推理任務(wù)。給定來自訓(xùn)練語料的輸入序列 ,對于每個位置
,前綴
被視為上下文,而真實的下一個詞元是
。在下一個詞元推理任務(wù)中,模型
需要在生成下一個詞元的預(yù)測
之前,生成一個思維鏈推理序列,記為
。整體模型響應(yīng)為
,
。
如圖2所示,下一個詞元推理的長思維鏈過程可能涉及各種推理模式,如頭腦風(fēng)暴、自我批評和自我糾正。下一個詞元推理任務(wù)將預(yù)訓(xùn)練語料重構(gòu)為一個龐大的推理問題集,將預(yù)訓(xùn)練從學(xué)習(xí)表面詞元級相關(guān)性轉(zhuǎn)變?yōu)槔斫馄浔澈蟮碾[藏知識,并使強化學(xué)習(xí)擴展成為可能。
?
使用強化學(xué)習(xí)進行預(yù)訓(xùn)練
強化預(yù)訓(xùn)練(RPT)通過策略強化學(xué)習(xí)訓(xùn)練大型語言模型(LLMs)執(zhí)行下一個詞元推理,如圖3所示。對于上下文 ,我們提示語言模型
生成 G?個響應(yīng)(思維軌跡),
。每個響應(yīng)
由一個思維鏈推理序列
和一個最終預(yù)測序列
組成。
為了驗證 的正確性,作者引入了前綴匹配獎勵,這支持驗證跨越多個詞元或涉及詞匯表外詞元的預(yù)測。設(shè)
和
分別表示真實完成序列
和預(yù)測
的字節(jié)序列。用 l?表示
的字節(jié)長度。作者定義真實完成序列中詞元的累積字節(jié)長度為有效邊界,并用
表示這個集合。形式上,對于
的第 i?個輸出的獎勵
定義為:
其中當預(yù)測的字節(jié)序列是真實完成序列的精確前綴且其長度 l?匹配任何有效詞元邊界時,獎勵為1。
設(shè) D?為所有 的集合,模型被訓(xùn)練以最大化預(yù)期獎勵:
?預(yù)訓(xùn)練設(shè)置
作者使用OmniMATH數(shù)據(jù)集進行強化預(yù)訓(xùn)練。OmniMATH包含了4428個來自官方(如AoPS Wiki和AoPS論壇)的競賽級數(shù)學(xué)問題和解答。由于許多詞元即使沒有推理也很容易預(yù)測,作者在強化預(yù)訓(xùn)練之前執(zhí)行了詞元級別的數(shù)據(jù)過濾。特別地,作者使用DeepseekR1-Distill-Qwen-1.5B作為一個小型代理模型。對于每個詞元,作者計算代理模型在前16個下一個詞元上的熵。通過應(yīng)用熵閾值,作者過濾掉低熵位置,優(yōu)先訓(xùn)練需要更大計算努力來預(yù)測的具有挑戰(zhàn)性的詞元。
對于每個詞元位置 t,作者使用一個小型代理模型(proxy model)來計算該位置上可能的下一個詞元的不確定性。代理模型會預(yù)測接下來可能出現(xiàn)的前 16 個詞元的概率分布。
低熵:如果一個詞元位置的熵值很低,說明代理模型對該位置的下一個詞元非常確定,即只有一個或少數(shù)幾個詞元的概率很高。這種位置通常比較容易預(yù)測,因為模型可以很容易地確定正確的詞元。
高熵:如果一個詞元位置的熵值很高,說明代理模型對該位置的下一個詞元非常不確定,即有多個可能的詞元都有較高的概率。這種位置通常需要更多的計算努力來預(yù)測。
在所有實驗中,作者使用Deepseek-R1-Distill-Qwen-14B作為基礎(chǔ)模型。R1-DistillQwen-14B由于其基本推理能力,是強化學(xué)習(xí)的良好起點。作者使用verl庫實現(xiàn)訓(xùn)練框架,并使用vllm進行推理。作者采用GRPO算法。
在訓(xùn)練期間,作者采用8k的訓(xùn)練長度,學(xué)習(xí)率為,零KL懲罰,以及256個問題的批量大小。對于每個問題,采樣G=8個響應(yīng),對于展開過程,作者使用溫度為0.8。從每個響應(yīng)中,作者直接提取跟隨特殊標記‘</think>’后的最后一個\boxed{}中的完整序列作為模型對下一個詞元的預(yù)測。從500步開始,作者使用動態(tài)采樣來提高訓(xùn)練效率。作者的主要實驗的總訓(xùn)練步數(shù)為1000。
評估
一旦模型經(jīng)過預(yù)訓(xùn)練,作者可以直接在下游任務(wù)上進行下一個詞元預(yù)測和強化微調(diào)。作者使用這些設(shè)置來證明強化預(yù)訓(xùn)練提高了大型語言模型的語言建模能力和推理能力。
語言建模 鑒于下一個詞元推理目標,我們的模型可以自然地用于語言建模。我們報告下一個詞元預(yù)測的準確率,以評估RPT的語言建模性能和擴展屬性。
下游任務(wù)的強化微調(diào) 作者以預(yù)訓(xùn)練后微調(diào)的方式,使用RPT模型進行持續(xù)的強化學(xué)習(xí)微調(diào)。由于RPT使預(yù)訓(xùn)練過程與強化學(xué)習(xí)對齊,因此在訓(xùn)練后期預(yù)訓(xùn)練和強化學(xué)習(xí)之間的目標差距被最小化。作者評估強化預(yù)訓(xùn)練過程是否進一步提高了最終任務(wù)上的后訓(xùn)練性能。
-
實驗
語言建模
作者在來自O(shè)mniMATH的200個樣本的保留驗證集上評估語言建模性能。遵循作者設(shè)置中描述的基于熵的數(shù)據(jù)過濾策略,作者根據(jù)難度對驗證集中的詞元位置進行分類。具體來說,作者使用R1-Distill-Qwen-14B計算每個詞元位置的熵。然后,如果它們的熵分別超過0.5、1.0和1.5的閾值,則將位置指定為屬于簡單、中等或困難的分割。
為了進行比較,作者報告了以兩種不同方式評估的R1-Distill-Qwen-14B的性能:(1)標準下一個詞元預(yù)測,選擇概率最高的詞元;(2)下一個詞元推理,在最終預(yù)測之前生成一個思維鏈。作者還包括了Qwen2.5-14B的結(jié)果,因為它是R1-Distill-Qwen-14B的基礎(chǔ)模型。
如表1所示,與R1-Distill-Qwen-14B相比,RPT-14B在所有難度級別上都實現(xiàn)了持續(xù)更高的下一個詞元預(yù)測準確率。值得注意的是,它與一個明顯更大的模型,即R1-Distill-Qwen-32B的性能相匹配(圖4)。這些結(jié)果表明,強化預(yù)訓(xùn)練在捕捉詞元生成背后的復(fù)雜推理信號方面是有效的,并在提高大型語言模型的語言建模能力方面具有強大的潛力。
強化預(yù)訓(xùn)練的尺度特性?
在本節(jié)中,作者研究了強化預(yù)訓(xùn)練的擴展屬性。下面,作者特別分析了RPT與訓(xùn)練計算量C的擴展行為。作者使用以下冪律形式來模擬這種關(guān)系:,其中?P(C) 表示在驗證集上的下一個詞元預(yù)測準確率。
,
和?A 是要估計的參數(shù)。
作者評估了RPT在不同訓(xùn)練步驟(100、200、400、800、1000和1200)的下一個詞元預(yù)測準確率,并將其轉(zhuǎn)換為相應(yīng)的訓(xùn)練計算量。為了評估數(shù)據(jù)難度的影響,作者考慮了通過熵閾值0.5(簡單)、1.0(中等)和1.5(困難)過濾的驗證分割。更高的閾值對應(yīng)于對大型語言模型更具挑戰(zhàn)性的輸入。對于每個難度級別,作者根據(jù)方程(5)擬合結(jié)果。作者使用決定系數(shù)來衡量擬合的好壞,這量化了擴展曲線與觀察到的數(shù)據(jù)的擬合程度。
如圖5所示,隨著訓(xùn)練計算量的增加,RPT的下一個詞元預(yù)測準確率可靠地提高。在所有難度級別上的高值表明,擬合曲線準確地捕捉了性能趨勢。?
使用RPT進行微調(diào)
為了研究RPT模型是否可以更有效地通過RLVR進行微調(diào),作者從Skywork-OR1中隨機抽取具有可驗證答案的問題進行進一步訓(xùn)練。作者使用256個示例進行訓(xùn)練,200個用于測試。遵循SkyworkOR1的數(shù)據(jù)過濾流程,作者使用R1-Distill-Qwen-32B來識別訓(xùn)練中的挑戰(zhàn)性實例。作者將訓(xùn)練批量大小和PPO小批量大小都設(shè)置為64,并訓(xùn)練模型15個周期。在評估期間,驗證的最大詞元數(shù)設(shè)置為32000,溫度為0.6。
如表2所示,經(jīng)過強化預(yù)訓(xùn)練的模型在進一步通過RLVR訓(xùn)練時達到了更高的上限。當使用下一個詞元預(yù)測目標在同一數(shù)據(jù)上持續(xù)訓(xùn)練時,模型的推理能力顯著下降。隨后的RLVR僅帶來緩慢的性能提升。這些結(jié)果表明,在有限的數(shù)據(jù)下,強化預(yù)訓(xùn)練可以快速將從下一個詞元推理中學(xué)到的加強推理模式轉(zhuǎn)移到最終任務(wù)中。
結(jié)束任務(wù)時的Zero-shot性能?
作者評估了RPT-14B在最終任務(wù)上的zero-shot性能。為了進行比較,作者評估了R1-Distill-Qwen-14B和R1-Distill-Qwen-32B的下一個詞元預(yù)測性能,以及RPT-14B與R1-Distill-Qwen-14B的推理性能。
作者的評估涉及兩個廣泛認可的基準測試:MMLU-Pro,一個全面的多任務(wù)理解基準,評估大型語言模型在各個領(lǐng)域中的能力;SuperGPQA,一個涵蓋285個學(xué)科的研究生級推理問題的大規(guī)?;鶞省T谕评碓O(shè)置下,作者將最大詞元數(shù)設(shè)置為12,288,溫度設(shè)置為0.8。按照之前的工作,作者使用多項選擇問題格式進行評估,并報告準確率。
如表3所示,RPT-14B在所有基準測試中始終優(yōu)于R1-Distill-Qwen-14B(無論是使用標準下一個詞元預(yù)測還是作為推理模型進行評估)。值得注意的是,它還超過了明顯更大的R1-Distill-Qwen-32B(在下一個詞元預(yù)測下),在SuperGPQA上提高了7個百分點,在MMLU-Pro上大約提高了22個百分點。
下一個標記推理模式分析
作者分析了下一個詞元推理和明確問題解決之間推理模式的差異。遵循之前的研究,作者統(tǒng)計測量了模型響應(yīng)中包含推理指示關(guān)鍵詞(例如,“分解”,“或者”)的比例。
作者的分析比較了兩個模型在OmniMATH數(shù)據(jù)集上的思考過程,即R1-Distill-Qwen-14B的問題解決和RPT-14B的下一個詞元推理,基于每個模型的200個采樣響應(yīng)。作者將推理模式分為六種類型:過渡(切換策略)、反思(自我檢查)、分解(分解問題)、假設(shè)(提出和驗證假設(shè))、發(fā)散思維(探索可能性)和演繹(邏輯推理)。
如圖6所示,RPT-14B的下一個詞元推理過程與R1-Distill-Qwen-14B的問題解決明顯不同,假設(shè)模式的使用增加了161.8%,演繹模式的使用增加了26.2%。相比之下,問題解決過程更多地依賴于分解模式,這突出顯示下一個詞元推理引發(fā)了與結(jié)構(gòu)化問題解決在質(zhì)量上不同的推理過程。
作者還在表4中提供了推理模式的一個示例。該示例揭示了模型參與了一個審議過程,而不僅僅是簡單的模式匹配。它分析了更廣泛的語義上下文(“計算向量大小”),識別關(guān)鍵短語(“復(fù)習(xí)一些...”),然后集思廣益并權(quán)衡多種可能的延續(xù)。這涉及到假設(shè)生成(“下一部分很可能是...”),考慮替代方案(“或者,它可能是...”),以及反思結(jié)構(gòu)線索(“帶有標題的markdown”)甚至細粒度的詞元級細節(jié)(“可能有一個空格”)。這種多方面的推理,包括高級語義理解和低級文本特征,展示了模型通過理性探索來推斷下一個詞元的努力,這與RPT培養(yǎng)超越表面相關(guān)性的更深層次理解的目標一致。
-
-?
總結(jié)?
《Reinforcement Pre-Training》這篇文章提出了一種創(chuàng)新的預(yù)訓(xùn)練方法,旨在通過強化學(xué)習(xí)提升大型語言模型(LLMs)在下一個詞元預(yù)測任務(wù)中的表現(xiàn)。該方法的核心在于將下一個詞元預(yù)測重新定義為一個推理任務(wù),激勵模型在預(yù)測之前進行深入的思考,并通過可驗證的獎勵信號來評估預(yù)測的正確性。這種方法不僅顯著提高了下一個詞元預(yù)測的準確性,還為后續(xù)的強化微調(diào)提供了更強大的預(yù)訓(xùn)練基礎(chǔ)。
文章通過一系列實驗驗證了 RPT 方法的有效性。實驗結(jié)果表明,RPT 在不同難度級別的下一個詞元預(yù)測任務(wù)中均表現(xiàn)出色,尤其是在中等和高難度數(shù)據(jù)上,其性能提升更為顯著。此外,RPT 還展現(xiàn)出了良好的可擴展性,隨著訓(xùn)練計算量的增加,模型的預(yù)測準確性持續(xù)提升。在零樣本設(shè)置下,RPT 在多個下游任務(wù)(如 SuperGPQA 和 MMLU-Pro)上也取得了優(yōu)異的性能,超越了標準的下一個詞元預(yù)測模型以及更大規(guī)模的模型。
為了進一步提高訓(xùn)練效率,作者引入了一種基于熵的數(shù)據(jù)篩選策略。通過計算代理模型在前 16 個下一個詞元上的熵,作者能夠識別出那些對模型來說更具挑戰(zhàn)性的詞元位置,并通過應(yīng)用熵閾值過濾掉低熵位置。這種策略使得模型能夠?qū)W⒂谀切┬枰笥嬎闩眍A(yù)測的詞元,從而提升模型對復(fù)雜語義和邏輯關(guān)系的學(xué)習(xí)能力。
此外,文章還對 RPT 模型的推理模式進行了分析,發(fā)現(xiàn) RPT 模型在推理過程中更多地依賴于假設(shè)生成、邏輯推理等復(fù)雜的推理模式,而不是簡單的模式匹配或問題分解。這種推理模式的轉(zhuǎn)變使得模型能夠更深入地理解上下文,從而生成更準確的預(yù)測。
總的來說,《Reinforcement Pre-Training》為大型語言模型的預(yù)訓(xùn)練提供了一種新的思路,通過強化學(xué)習(xí)激勵模型進行推理,不僅提升了模型的預(yù)測能力,還為后續(xù)的微調(diào)和泛化提供了更堅實的基礎(chǔ)。這一方法為未來語言模型的發(fā)展開辟了新的方向,有望推動自然語言處理技術(shù)在更多復(fù)雜任務(wù)中的應(yīng)用。
如果你覺得這篇文章對你有幫助,或者對這個話題感興趣,別忘了點贊、收藏和關(guān)注我哦!你的支持是我持續(xù)創(chuàng)作的動力,也讓更多人能看到這些有價值的內(nèi)容!感謝你的支持,一起學(xué)習(xí),共同進步!🚀📚💖