91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

字節(jié)跳動推出 VAPO 框架:突破 AI 推理極限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

2025/4/12 13:46:13 來源:IT之家 作者:故淵 責編:故淵

IT之家 4 月 12 日消息,字節(jié)跳動于 4 月 8 日發(fā)布博文,其 Seed 研究團隊推出 VAPO 強化學習訓練框架,目標提升大型語言模型在復雜、冗長任務中的推理能力。

現(xiàn)有挑戰(zhàn)

在大型語言模型(LLM)的強化學習(RL)訓練中,價值導向方法(Value-based reinforcement learning methods)因能精確追溯每個動作對后續(xù)回報的影響,展現(xiàn)出巨大潛力。然而,應用于長鏈式推理(CoT)任務時,價值模型面臨三大挑戰(zhàn)。

首先,價值模型初始化會引入偏差;其次,傳統(tǒng)方法難以適應復雜任務中的序列長度差異;最后,驗證任務中獎勵信號稀疏,優(yōu)化過程面臨探索與利用的權衡,這些問題限制了價值導向方法的實際效果。

VAPO 簡介

字節(jié)跳動最新推出的 VAPO 框架全稱為 Value Augmented Proximal Policy Optimizationd(增強價值的近端政策優(yōu)化),基于 PPO 框架,通過三項創(chuàng)新技術應對上述挑戰(zhàn)。

首先,VAPO 模型構建了細致的價值訓練框架,增強模型對復雜任務的理解。其次,引入長度自適應廣義優(yōu)勢估計(GAE)機制,能根據(jù)響應長度動態(tài)調(diào)整參數(shù),優(yōu)化長短序列的訓練效果。最后,VAPO 整合了多項先前研究技術,形成協(xié)同增效的系統(tǒng)。

在不依賴特定監(jiān)督微調(diào)(SFT)數(shù)據(jù)的情況下,Qwen2.5-32B 模型通過 VAPO 優(yōu)化后,在 AIME24 基準測試中將得分從 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超過此前 SOTA 方式 DAPO(50 分)10 分,僅用 60% 的更新步驟即達成業(yè)界領先。

相較于傳統(tǒng) Proximal Policy Optimization(PPO)算法,VAPO 改進了數(shù)學推理能力,訓練曲線更為平滑,優(yōu)化過程更穩(wěn)定。

測試顯示,歸因于其價值模型提供的細粒度信號,VAPO 在長序列任務中表現(xiàn)出色,得分增長更快。盡管后期訓練熵值降低可能限制探索,VAPO 通過平衡設計確保了穩(wěn)定性和可重復性。

VAPO 的成功源于其綜合優(yōu)化設計。消融研究驗證了七項技術的有效性:價值預訓練防止崩潰,解耦 GAE 支持長回答優(yōu)化,自適應 GAE 平衡短長回答,剪裁策略鼓勵探索,詞級損失增加長回答權重,正例語言模型損失提升 6 分,分組采樣貢獻 5 分。

這些改進使 VAPO 在探索與利用間找到最佳平衡,顯著優(yōu)于無價值導向的 GRPO 和 DAPO 方法。VAPO 不僅提升了數(shù)學推理能力,還為 LLM 在復雜推理任務中的應用提供了新方向。

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知

镇坪县| 丹寨县| 柞水县| 益阳市| 眉山市| 临洮县| 凌源市| 高密市| 安泽县| 香港| 秀山| 利辛县| 民和| 莎车县| 石嘴山市| 阿克陶县| 弥勒县| 祁东县| 祁连县| 梁平县| 哈密市| 定远县| 康定县| 鄯善县| 三河市| 宝山区| 即墨市| 东城区| 常德市| 昌都县| 汉源县| 桂平市| 吴忠市| 博白县| 启东市| 九龙城区| 大丰市| 连江县| 绩溪县| 涟水县| 辽宁省|