當前位置：首頁 > news >正文

浙江網(wǎng)站建設(shè)企業(yè)軟文類型

news 2025/7/5 17:53:50

浙江網(wǎng)站建設(shè)企業(yè),軟文類型,平臺搭建一條龍,東莞網(wǎng)站建設(shè)推廣公司1.簡介這篇文章提出了一種名為“強化預(yù)訓(xùn)練”（Reinforcement Pre-Training，簡稱 RPT）的新型預(yù)訓(xùn)練范式，旨在通過強化學(xué)習(xí)（Reinforcement Learning，簡稱 RL）提升大型語言模型（LLMs&…

1.簡介

這篇文章提出了一種名為“強化預(yù)訓(xùn)練”（Reinforcement Pre-Training，簡稱 RPT）的新型預(yù)訓(xùn)練范式，旨在通過強化學(xué)習(xí)（Reinforcement Learning，簡稱 RL）提升大型語言模型（LLMs）在下一個詞元預(yù)測任務(wù)中的表現(xiàn)。傳統(tǒng)的下一個詞元預(yù)測任務(wù)通常依賴于自監(jiān)督學(xué)習(xí)，而 RPT 則將這一任務(wù)重新定義為一個推理過程，激勵模型在預(yù)測之前進行深入思考，并通過可驗證的獎勵信號來評估預(yù)測的正確性。

文章的核心貢獻在于，RPT 不僅顯著提高了下一個詞元預(yù)測的準確性，還為后續(xù)的強化微調(diào)提供了更強大的預(yù)訓(xùn)練基礎(chǔ)。通過將大規(guī)模未標注文本數(shù)據(jù)轉(zhuǎn)化為通用的強化學(xué)習(xí)任務(wù)，RPT 實現(xiàn)了無需外部標注或領(lǐng)域特定獎勵函數(shù)的可擴展預(yù)訓(xùn)練。此外，RPT 使用基于規(guī)則的獎勵信號，有效避免了復(fù)雜獎勵模型可能帶來的獎勵劫持問題，同時通過推理過程促進了模型對上下文的深入理解，增強了泛化能力。

總的來說，《Reinforcement Pre-Training》為大型語言模型的預(yù)訓(xùn)練提供了一種新的思路，通過強化學(xué)習(xí)激勵模型進行推理，不僅提升了模型的預(yù)測能力，還為后續(xù)的微調(diào)和泛化提供了更堅實的基礎(chǔ)。這一方法為未來語言模型的發(fā)展開辟了新的方向，有望推動自然語言處理技術(shù)在更多復(fù)雜任務(wù)中的應(yīng)用。

論文地址：https://arxiv.org/abs/2506.08007

2.論文詳解

簡介

大型語言模型（LLMs）在廣泛的任務(wù)中展現(xiàn)出了卓越的能力，這主要得益于其在海量文本語料上通過可擴展的下一個詞元預(yù)測目標實現(xiàn)的自我監(jiān)督范式。這種自我監(jiān)督的預(yù)訓(xùn)練方法已被證明是一種有效的通用預(yù)訓(xùn)練方法。與此同時，強化學(xué)習(xí)（RL）作為一種強大的技術(shù)，被用于微調(diào)大型語言模型，使其與人類偏好對齊，或增強特定技能，例如復(fù)雜推理。然而，目前在大型語言模型訓(xùn)練中應(yīng)用強化學(xué)習(xí)面臨著可擴展性和通用性的挑戰(zhàn)?；谌祟惙答伒膹娀瘜W(xué)習(xí)雖然在對齊方面效果顯著，但依賴于昂貴的人類偏好數(shù)據(jù)，并且其學(xué)習(xí)到的獎勵模型容易受到獎勵劫持的影響，限制了其可擴展性。另一方面，使用可驗證獎勵的強化學(xué)習(xí)（RLVR）利用客觀的、基于規(guī)則的獎勵，通常來自問答對。雖然這種方法減少了獎勵劫持的風(fēng)險，但RLVR通常受到可驗證答案的標注數(shù)據(jù)稀缺的限制，使其應(yīng)用局限于特定領(lǐng)域的微調(diào)，而非通用預(yù)訓(xùn)練。

在本研究中，作者引入了一種名為強化預(yù)訓(xùn)練（RPT）的新范式，彌合了可擴展的自我監(jiān)督預(yù)訓(xùn)練與強化學(xué)習(xí)的力量之間的差距。RPT將基本的下一個詞元預(yù)測（next-token predict）任務(wù)重新定義為一個下一個詞元推理（next-token reason）過程。對于預(yù)訓(xùn)練語料中的任何給定上下文，模型被激勵在預(yù)測下一個詞元之前對其進行推理。它根據(jù)預(yù)測的正確性相對于語料中真實的下一個詞元獲得一個可驗證的內(nèi)在獎勵。這種方法將通常用于下一個詞元預(yù)測的大量未標注文本數(shù)據(jù)轉(zhuǎn)化為一個用于通用強化學(xué)習(xí)的龐大數(shù)據(jù)集，無需外部標注或特定領(lǐng)域的獎勵函數(shù)。

作者的實驗表明，RPT顯著提高了預(yù)測下一個詞元的準確性。RPT還為后續(xù)的強化微調(diào)提供了一個更穩(wěn)健的預(yù)訓(xùn)練基礎(chǔ)，從而實現(xiàn)了更好的最終任務(wù)性能。擴展曲線顯示，在RPT框架下，增加的訓(xùn)練計算量能夠持續(xù)提高下一個詞元預(yù)測的準確性，顯示出其作為一種可持續(xù)擴展策略的潛力。這些結(jié)果表明，強化預(yù)訓(xùn)練是一種有效且有前景的新范式，能夠推動大型語言模型預(yù)訓(xùn)練的發(fā)展。

初步

下一個詞元預(yù)測（next token predict，NTP）
下一個詞元預(yù)測是現(xiàn)代大型語言模型的基本訓(xùn)練目標。給定來自訓(xùn)練語料的輸入序列 $x_0, \ldots, x_T$ ，模型被訓(xùn)練以最大化以下目標函數(shù)： ? $\mathcal{J}_{\text{NTP}}(\theta) = \sum_{t=1}^{T} \log P(x_t \mid x_0, x_1, \ldots, x_{t-1}; \theta)$
其中 $\theta$ ?表示語言模型的參數(shù)。

使用可驗證獎勵的強化學(xué)習(xí)（RLVR）
RLVR采用強化學(xué)習(xí)目標，通過可驗證答案來增強特定技能。RLVR需要一個標注好的問答對數(shù)據(jù)集 $D = \{(q, a)\}$ 。對于數(shù)據(jù)集中的特定問答對 $(q, a) \in D$ ，大型語言模型 $\pi_\theta$ 生成一個回答 $o \sim \pi_\theta(\cdot | q)$ 。一個確定性的驗證器?V 計算可驗證獎勵 r = V(o, a)，模型被訓(xùn)練以最大化預(yù)期獎勵： ? $\mathcal{J}_{\text{RLVR}}(\theta) = \mathbb{E}_{(q,a) \sim \mathcal{D}, \, o \sim \pi_\theta(\cdot \mid q)} \left[ r(o, a) \right]$

強化預(yù)訓(xùn)練

預(yù)訓(xùn)練任務(wù)：下一個詞元推理

作者提出了語言建模的下一個詞元推理任務(wù)。給定來自訓(xùn)練語料的輸入序列 $x_0 \ldots x_T$ ，對于每個位置 $t \in \{1, \ldots, T\}$ ，前綴 $x_{<t}$ 被視為上下文，而真實的下一個詞元是 $x_t$ 。在下一個詞元推理任務(wù)中，模型 $\pi_\theta$ 需要在生成下一個詞元的預(yù)測 $y_t$ 之前，生成一個思維鏈推理序列，記為 $c_t$ 。整體模型響應(yīng)為 $o_t = (c_t, y_t)$ ， $o_t \sim \pi_\theta(\cdot | x_{<t})$ 。

如圖2所示，下一個詞元推理的長思維鏈過程可能涉及各種推理模式，如頭腦風(fēng)暴、自我批評和自我糾正。下一個詞元推理任務(wù)將預(yù)訓(xùn)練語料重構(gòu)為一個龐大的推理問題集，將預(yù)訓(xùn)練從學(xué)習(xí)表面詞元級相關(guān)性轉(zhuǎn)變?yōu)槔斫馄浔澈蟮碾[藏知識，并使強化學(xué)習(xí)擴展成為可能。

使用強化學(xué)習(xí)進行預(yù)訓(xùn)練

強化預(yù)訓(xùn)練（RPT）通過策略強化學(xué)習(xí)訓(xùn)練大型語言模型（LLMs）執(zhí)行下一個詞元推理，如圖3所示。對于上下文 $x_{<t}$ ，我們提示語言模型 $\pi_\theta$ 生成 G?個響應(yīng)（思維軌跡）， $\{o_i^t\}_{i=1}^G$ 。每個響應(yīng) $o_i^t = (c_i^t, y_i^t)$ 由一個思維鏈推理序列 $c_i^t$ 和一個最終預(yù)測序列 $y_i^t$ 組成。

為了驗證 $y_i^t$ 的正確性，作者引入了前綴匹配獎勵，這支持驗證跨越多個詞元或涉及詞匯表外詞元的預(yù)測。設(shè) $x_{\geq t}$ 和 $y_i^t$ 分別表示真實完成序列 $x_{\geq t}$ 和預(yù)測 $y_i^t$ 的字節(jié)序列。用 l?表示 $y_i^t$ 的字節(jié)長度。作者定義真實完成序列中詞元的累積字節(jié)長度為有效邊界，并用 $L_{gt}$ 表示這個集合。形式上，對于 $x_{<t}$ 的第 i?個輸出的獎勵 $r_i^t$ 定義為： $r_t^i = \begin{cases} 1 & \text{if } \bar{y}_t^i = \bar{x}_{\geq t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases}$

其中當預(yù)測的字節(jié)序列是真實完成序列的精確前綴且其長度 l?匹配任何有效詞元邊界時，獎勵為1。

設(shè) D?為所有 $\{x_{<t}\}_{t=1}^T$ 的集合，模型被訓(xùn)練以最大化預(yù)期獎勵： $\mathcal{J}_{\text{RPT}}(\theta) = \mathbb{E}_{(x_{<t}, x_{\geq t}) \sim \mathcal{D}, \{o_t^i\}_{i=1}^G \sim \pi_\theta(\cdot | x_{<t})} \left[ r_t^i \right]$ $\mathcal{J}_{\text{RPT}}(\theta) = \mathbb{E}_{(x_{<t}, x_{\geq t}) \sim \mathcal{D}, \{o_t^i\}_{i=1}^G \sim \pi_\theta(\cdot | x_{<t})} \left[ r_t^i \right]$

?預(yù)訓(xùn)練設(shè)置

作者使用OmniMATH數(shù)據(jù)集進行強化預(yù)訓(xùn)練。OmniMATH包含了4428個來自官方（如AoPS Wiki和AoPS論壇）的競賽級數(shù)學(xué)問題和解答。由于許多詞元即使沒有推理也很容易預(yù)測，作者在強化預(yù)訓(xùn)練之前執(zhí)行了詞元級別的數(shù)據(jù)過濾。特別地，作者使用DeepseekR1-Distill-Qwen-1.5B作為一個小型代理模型。對于每個詞元，作者計算代理模型在前16個下一個詞元上的熵。通過應(yīng)用熵閾值，作者過濾掉低熵位置，優(yōu)先訓(xùn)練需要更大計算努力來預(yù)測的具有挑戰(zhàn)性的詞元。

對于每個詞元位置 t，作者使用一個小型代理模型（proxy model）來計算該位置上可能的下一個詞元的不確定性。代理模型會預(yù)測接下來可能出現(xiàn)的前 16 個詞元的概率分布。

低熵：如果一個詞元位置的熵值很低，說明代理模型對該位置的下一個詞元非常確定，即只有一個或少數(shù)幾個詞元的概率很高。這種位置通常比較容易預(yù)測，因為模型可以很容易地確定正確的詞元。

高熵：如果一個詞元位置的熵值很高，說明代理模型對該位置的下一個詞元非常不確定，即有多個可能的詞元都有較高的概率。這種位置通常需要更多的計算努力來預(yù)測。

在所有實驗中，作者使用Deepseek-R1-Distill-Qwen-14B作為基礎(chǔ)模型。R1-DistillQwen-14B由于其基本推理能力，是強化學(xué)習(xí)的良好起點。作者使用verl庫實現(xiàn)訓(xùn)練框架，并使用vllm進行推理。作者采用GRPO算法。

在訓(xùn)練期間，作者采用8k的訓(xùn)練長度，學(xué)習(xí)率為 $1\times 10^{-6}$ ，零KL懲罰，以及256個問題的批量大小。對于每個問題，采樣G=8個響應(yīng)，對于展開過程，作者使用溫度為0.8。從每個響應(yīng)中，作者直接提取跟隨特殊標記‘</think>’后的最后一個\boxed{}中的完整序列作為模型對下一個詞元的預(yù)測。從500步開始，作者使用動態(tài)采樣來提高訓(xùn)練效率。作者的主要實驗的總訓(xùn)練步數(shù)為1000。

評估

一旦模型經(jīng)過預(yù)訓(xùn)練，作者可以直接在下游任務(wù)上進行下一個詞元預(yù)測和強化微調(diào)。作者使用這些設(shè)置來證明強化預(yù)訓(xùn)練提高了大型語言模型的語言建模能力和推理能力。

語言建模 鑒于下一個詞元推理目標，我們的模型可以自然地用于語言建模。我們報告下一個詞元預(yù)測的準確率，以評估RPT的語言建模性能和擴展屬性。

下游任務(wù)的強化微調(diào) 作者以預(yù)訓(xùn)練后微調(diào)的方式，使用RPT模型進行持續(xù)的強化學(xué)習(xí)微調(diào)。由于RPT使預(yù)訓(xùn)練過程與強化學(xué)習(xí)對齊，因此在訓(xùn)練后期預(yù)訓(xùn)練和強化學(xué)習(xí)之間的目標差距被最小化。作者評估強化預(yù)訓(xùn)練過程是否進一步提高了最終任務(wù)上的后訓(xùn)練性能。

實驗

語言建模

作者在來自O(shè)mniMATH的200個樣本的保留驗證集上評估語言建模性能。遵循作者設(shè)置中描述的基于熵的數(shù)據(jù)過濾策略，作者根據(jù)難度對驗證集中的詞元位置進行分類。具體來說，作者使用R1-Distill-Qwen-14B計算每個詞元位置的熵。然后，如果它們的熵分別超過0.5、1.0和1.5的閾值，則將位置指定為屬于簡單、中等或困難的分割。

為了進行比較，作者報告了以兩種不同方式評估的R1-Distill-Qwen-14B的性能：（1）標準下一個詞元預(yù)測，選擇概率最高的詞元；（2）下一個詞元推理，在最終預(yù)測之前生成一個思維鏈。作者還包括了Qwen2.5-14B的結(jié)果，因為它是R1-Distill-Qwen-14B的基礎(chǔ)模型。

如表1所示，與R1-Distill-Qwen-14B相比，RPT-14B在所有難度級別上都實現(xiàn)了持續(xù)更高的下一個詞元預(yù)測準確率。值得注意的是，它與一個明顯更大的模型，即R1-Distill-Qwen-32B的性能相匹配（圖4）。這些結(jié)果表明，強化預(yù)訓(xùn)練在捕捉詞元生成背后的復(fù)雜推理信號方面是有效的，并在提高大型語言模型的語言建模能力方面具有強大的潛力。

強化預(yù)訓(xùn)練的尺度特性?

在本節(jié)中，作者研究了強化預(yù)訓(xùn)練的擴展屬性。下面，作者特別分析了RPT與訓(xùn)練計算量C的擴展行為。作者使用以下冪律形式來模擬這種關(guān)系： $P(C) = \frac{A}{C^\alpha} + P^*$ ，其中?P(C) 表示在驗證集上的下一個詞元預(yù)測準確率。 $P^*$ ， $\alpha$ 和?A 是要估計的參數(shù)。

作者評估了RPT在不同訓(xùn)練步驟（100、200、400、800、1000和1200）的下一個詞元預(yù)測準確率，并將其轉(zhuǎn)換為相應(yīng)的訓(xùn)練計算量。為了評估數(shù)據(jù)難度的影響，作者考慮了通過熵閾值0.5（簡單）、1.0（中等）和1.5（困難）過濾的驗證分割。更高的閾值對應(yīng)于對大型語言模型更具挑戰(zhàn)性的輸入。對于每個難度級別，作者根據(jù)方程（5）擬合結(jié)果。作者使用決定系數(shù) $R^2$ 來衡量擬合的好壞，這量化了擴展曲線與觀察到的數(shù)據(jù)的擬合程度。

如圖5所示，隨著訓(xùn)練計算量的增加，RPT的下一個詞元預(yù)測準確率可靠地提高。在所有難度級別上的高 $R^2$ 值表明，擬合曲線準確地捕捉了性能趨勢。?

使用RPT進行微調(diào)

為了研究RPT模型是否可以更有效地通過RLVR進行微調(diào)，作者從Skywork-OR1中隨機抽取具有可驗證答案的問題進行進一步訓(xùn)練。作者使用256個示例進行訓(xùn)練，200個用于測試。遵循SkyworkOR1的數(shù)據(jù)過濾流程，作者使用R1-Distill-Qwen-32B來識別訓(xùn)練中的挑戰(zhàn)性實例。作者將訓(xùn)練批量大小和PPO小批量大小都設(shè)置為64，并訓(xùn)練模型15個周期。在評估期間，驗證的最大詞元數(shù)設(shè)置為32000，溫度為0.6。

如表2所示，經(jīng)過強化預(yù)訓(xùn)練的模型在進一步通過RLVR訓(xùn)練時達到了更高的上限。當使用下一個詞元預(yù)測目標在同一數(shù)據(jù)上持續(xù)訓(xùn)練時，模型的推理能力顯著下降。隨后的RLVR僅帶來緩慢的性能提升。這些結(jié)果表明，在有限的數(shù)據(jù)下，強化預(yù)訓(xùn)練可以快速將從下一個詞元推理中學(xué)到的加強推理模式轉(zhuǎn)移到最終任務(wù)中。

結(jié)束任務(wù)時的Zero-shot性能?

作者評估了RPT-14B在最終任務(wù)上的zero-shot性能。為了進行比較，作者評估了R1-Distill-Qwen-14B和R1-Distill-Qwen-32B的下一個詞元預(yù)測性能，以及RPT-14B與R1-Distill-Qwen-14B的推理性能。

作者的評估涉及兩個廣泛認可的基準測試：MMLU-Pro，一個全面的多任務(wù)理解基準，評估大型語言模型在各個領(lǐng)域中的能力；SuperGPQA，一個涵蓋285個學(xué)科的研究生級推理問題的大規(guī)?；鶞省Ｔ谕评碓O(shè)置下，作者將最大詞元數(shù)設(shè)置為12,288，溫度設(shè)置為0.8。按照之前的工作，作者使用多項選擇問題格式進行評估，并報告準確率。

如表3所示，RPT-14B在所有基準測試中始終優(yōu)于R1-Distill-Qwen-14B（無論是使用標準下一個詞元預(yù)測還是作為推理模型進行評估）。值得注意的是，它還超過了明顯更大的R1-Distill-Qwen-32B（在下一個詞元預(yù)測下），在SuperGPQA上提高了7個百分點，在MMLU-Pro上大約提高了22個百分點。

下一個標記推理模式分析

作者分析了下一個詞元推理和明確問題解決之間推理模式的差異。遵循之前的研究，作者統(tǒng)計測量了模型響應(yīng)中包含推理指示關(guān)鍵詞（例如，“分解”，“或者”）的比例。

作者的分析比較了兩個模型在OmniMATH數(shù)據(jù)集上的思考過程，即R1-Distill-Qwen-14B的問題解決和RPT-14B的下一個詞元推理，基于每個模型的200個采樣響應(yīng)。作者將推理模式分為六種類型：過渡（切換策略）、反思（自我檢查）、分解（分解問題）、假設(shè)（提出和驗證假設(shè)）、發(fā)散思維（探索可能性）和演繹（邏輯推理）。

如圖6所示，RPT-14B的下一個詞元推理過程與R1-Distill-Qwen-14B的問題解決明顯不同，假設(shè)模式的使用增加了161.8%，演繹模式的使用增加了26.2%。相比之下，問題解決過程更多地依賴于分解模式，這突出顯示下一個詞元推理引發(fā)了與結(jié)構(gòu)化問題解決在質(zhì)量上不同的推理過程。

作者還在表4中提供了推理模式的一個示例。該示例揭示了模型參與了一個審議過程，而不僅僅是簡單的模式匹配。它分析了更廣泛的語義上下文（“計算向量大小”），識別關(guān)鍵短語（“復(fù)習(xí)一些...”），然后集思廣益并權(quán)衡多種可能的延續(xù)。這涉及到假設(shè)生成（“下一部分很可能是...”），考慮替代方案（“或者，它可能是...”），以及反思結(jié)構(gòu)線索（“帶有標題的markdown”）甚至細粒度的詞元級細節(jié)（“可能有一個空格”）。這種多方面的推理，包括高級語義理解和低級文本特征，展示了模型通過理性探索來推斷下一個詞元的努力，這與RPT培養(yǎng)超越表面相關(guān)性的更深層次理解的目標一致。

總結(jié)?

《Reinforcement Pre-Training》這篇文章提出了一種創(chuàng)新的預(yù)訓(xùn)練方法，旨在通過強化學(xué)習(xí)提升大型語言模型（LLMs）在下一個詞元預(yù)測任務(wù)中的表現(xiàn)。該方法的核心在于將下一個詞元預(yù)測重新定義為一個推理任務(wù)，激勵模型在預(yù)測之前進行深入的思考，并通過可驗證的獎勵信號來評估預(yù)測的正確性。這種方法不僅顯著提高了下一個詞元預(yù)測的準確性，還為后續(xù)的強化微調(diào)提供了更強大的預(yù)訓(xùn)練基礎(chǔ)。

文章通過一系列實驗驗證了 RPT 方法的有效性。實驗結(jié)果表明，RPT 在不同難度級別的下一個詞元預(yù)測任務(wù)中均表現(xiàn)出色，尤其是在中等和高難度數(shù)據(jù)上，其性能提升更為顯著。此外，RPT 還展現(xiàn)出了良好的可擴展性，隨著訓(xùn)練計算量的增加，模型的預(yù)測準確性持續(xù)提升。在零樣本設(shè)置下，RPT 在多個下游任務(wù)（如 SuperGPQA 和 MMLU-Pro）上也取得了優(yōu)異的性能，超越了標準的下一個詞元預(yù)測模型以及更大規(guī)模的模型。

為了進一步提高訓(xùn)練效率，作者引入了一種基于熵的數(shù)據(jù)篩選策略。通過計算代理模型在前 16 個下一個詞元上的熵，作者能夠識別出那些對模型來說更具挑戰(zhàn)性的詞元位置，并通過應(yīng)用熵閾值過濾掉低熵位置。這種策略使得模型能夠?qū)Ｗ⒂谀切┬枰笥嬎闩眍A(yù)測的詞元，從而提升模型對復(fù)雜語義和邏輯關(guān)系的學(xué)習(xí)能力。

此外，文章還對 RPT 模型的推理模式進行了分析，發(fā)現(xiàn) RPT 模型在推理過程中更多地依賴于假設(shè)生成、邏輯推理等復(fù)雜的推理模式，而不是簡單的模式匹配或問題分解。這種推理模式的轉(zhuǎn)變使得模型能夠更深入地理解上下文，從而生成更準確的預(yù)測。

如果你覺得這篇文章對你有幫助，或者對這個話題感興趣，別忘了點贊、收藏和關(guān)注我哦！你的支持是我持續(xù)創(chuàng)作的動力，也讓更多人能看到這些有價值的內(nèi)容！感謝你的支持，一起學(xué)習(xí)，共同進步！🚀📚💖

查看全文

http://m.aloenet.com.cn/news/40832.html

国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡