字節(jié)跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

2025/4/12 13:46:13 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 4 月 12 日消息，字節(jié)跳動于 4 月 8 日發(fā)布博文，其 Seed 研究團隊推出 VAPO 強化學習訓練框架，目標提升大型語言模型在復雜、冗長任務中的推理能力。

現(xiàn)有挑戰(zhàn)

在大型語言模型（LLM）的強化學習（RL）訓練中，價值導向方法（Value-based reinforcement learning methods）因能精確追溯每個動作對后續(xù)回報的影響，展現(xiàn)出巨大潛力。然而，應用于長鏈式推理（CoT）任務時，價值模型面臨三大挑戰(zhàn)。

首先，價值模型初始化會引入偏差；其次，傳統(tǒng)方法難以適應復雜任務中的序列長度差異；最后，驗證任務中獎勵信號稀疏，優(yōu)化過程面臨探索與利用的權衡，這些問題限制了價值導向方法的實際效果。

VAPO 簡介

字節(jié)跳動最新推出的 VAPO 框架全稱為 Value Augmented Proximal Policy Optimizationd（增強價值的近端政策優(yōu)化），基于 PPO 框架，通過三項創(chuàng)新技術應對上述挑戰(zhàn)。

字節(jié)跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

首先，VAPO 模型構建了細致的價值訓練框架，增強模型對復雜任務的理解。其次，引入長度自適應廣義優(yōu)勢估計（GAE）機制，能根據(jù)響應長度動態(tài)調(diào)整參數(shù)，優(yōu)化長短序列的訓練效果。最后，VAPO 整合了多項先前研究技術，形成協(xié)同增效的系統(tǒng)。

在不依賴特定監(jiān)督微調(diào)（SFT）數(shù)據(jù)的情況下，Qwen2.5-32B 模型通過 VAPO 優(yōu)化后，在 AIME24 基準測試中將得分從 5 分提升至 60.4 分，超越 DeepSeek R1 的 47 分，超過此前 SOTA 方式 DAPO（50 分）10 分，僅用 60% 的更新步驟即達成業(yè)界領先。

相較于傳統(tǒng) Proximal Policy Optimization（PPO）算法，VAPO 改進了數(shù)學推理能力，訓練曲線更為平滑，優(yōu)化過程更穩(wěn)定。

測試顯示，歸因于其價值模型提供的細粒度信號，VAPO 在長序列任務中表現(xiàn)出色，得分增長更快。盡管后期訓練熵值降低可能限制探索，VAPO 通過平衡設計確保了穩(wěn)定性和可重復性。

VAPO 的成功源于其綜合優(yōu)化設計。消融研究驗證了七項技術的有效性：價值預訓練防止崩潰，解耦 GAE 支持長回答優(yōu)化，自適應 GAE 平衡短長回答，剪裁策略鼓勵探索，詞級損失增加長回答權重，正例語言模型損失提升 6 分，分組采樣貢獻 5 分。

字節(jié)跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

這些改進使 VAPO 在探索與利用間找到最佳平衡，顯著優(yōu)于無價值導向的 GRPO 和 DAPO 方法。VAPO 不僅提升了數(shù)學推理能力，還為 LLM 在復雜推理任務中的應用提供了新方向。

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

字節(jié)跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

相關文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

字節(jié)跳動推出 VAPO 框架：突破 AI 推理極限，Qwen2.5-32B 提分 12 倍超 Deepseek-R1

相關文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人