字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術(shù)細節(jié)公開，4 月 17 日開放接口

2025/4/14 12:44:37 來源：IT之家作者：清源責編：清源

評論：

感謝IT之家網(wǎng)友西窗的線索投遞！

IT之家 4 月 14 日消息，IT之家從豆包大模型團隊獲悉，字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術(shù)細節(jié)今日公開，該模型將于 4 月 17 日通過火山引擎開放接口供用戶體驗。

該模型在數(shù)學、編程、科學推理等專業(yè)領(lǐng)域及創(chuàng)意寫作等通用任務(wù)中表現(xiàn)突出，同時，模型采用 MoE 架構(gòu)，總參數(shù) 200B，激活參數(shù)為 20B，具備顯著的推理成本優(yōu)勢，單位推理成本相比 DeepSeek R1 降低 50%。

技術(shù)報告鏈接：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

模型各方面具體表現(xiàn)：

專業(yè)領(lǐng)域：數(shù)學推理（AIME 2024 得分 86.7，追平 OpenAI o3-mini-high）、編程競賽（Codeforces pass@8 達 55.0%，接近 Gemini 2.5 Pro）、科學推理（GPQA 得分 77.3%，接近 o3-mini-high），均達到或接近業(yè)界第一梯隊水平。
通用任務(wù)：人類評估表現(xiàn)超 DeepSeek R1 8%，覆蓋多場景需求。
成本優(yōu)勢：單位推理成本相比 DeepSeek R1 降低 50%，實現(xiàn)性能與效率的平衡。

字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術(shù)細節(jié)公開，4 月 17 日開放接口

數(shù)據(jù)體系：融合可驗證與創(chuàng)意性數(shù)據(jù)

針對推理與生成任務(wù)的不同需求，團隊優(yōu)化了數(shù)據(jù)處理策略：

可驗證數(shù)據(jù)（如數(shù)學、代碼題）：通過百萬級數(shù)據(jù)三重清洗（人工篩選 → 模型過濾 → 多模型驗證），保留 10 萬道高難度題目；設(shè)計答案整數(shù)化改造、離線沙箱驗證等機制，確保模型輸出真實推理過程；
非可驗證數(shù)據(jù)（如創(chuàng)意寫作）：基于豆包 1.5 Pro 訓(xùn)練集，剔除低價值樣本，采用兩兩對比獎勵法，優(yōu)化生成質(zhì)量；
全新評測基準：構(gòu)建了超難數(shù)學數(shù)據(jù)集 BeyondAIME（100 道無答案題干題目），解決現(xiàn)有測試區(qū)分度不足問題。

獎勵模型：雙軌體系校準訓(xùn)練方向

團隊提出雙軌獎勵機制，兼顧“對錯分明”與“見仁見智”任務(wù)：

可驗證任務(wù)：開發(fā)了兩代驗證器（Seed-Verifier → Seed-Thinking-Verifier），從字符匹配升級為推理步驟逐行對比（訓(xùn)練 / 測試集準確率超 99%），杜絕模型“獎勵欺騙”；
非可驗證任務(wù)：引入 pairwise 對比訓(xùn)練，通過千萬次“AB 測試”，捕捉人類對創(chuàng)意、情感等的隱性偏好，避免“眾口難調(diào)”；
雙軌融合：針對混合場景設(shè)計協(xié)調(diào)機制，硬指標（對錯）與軟偏好（優(yōu)劣）互補，支撐全場景訓(xùn)練。

訓(xùn)練方法：“監(jiān)督精調(diào) + 強化學習”雙階段優(yōu)化

Seed-Thinking-v1.5 采用“打基礎(chǔ) + 磨能力”的全鏈路訓(xùn)練：

監(jiān)督精調(diào)（SFT）：基于 40 萬高質(zhì)量實例（30 萬可驗證 +10 萬非可驗證數(shù)據(jù)），結(jié)合人工與模型協(xié)同篩選，構(gòu)建長思考鏈數(shù)據(jù)集，確保模型“像人類一樣思考”；
強化學習（RL）：通過三重數(shù)據(jù)引擎（可驗證 / 通用 / 混合數(shù)據(jù)）、算法創(chuàng)新（價值預(yù)訓(xùn)練、解耦 GAE 等）以及在線數(shù)據(jù)適配技術(shù)，解決訓(xùn)練不穩(wěn)定、長鏈推理斷層等問題，動態(tài)調(diào)整數(shù)據(jù)分布以保持最佳訓(xùn)練狀態(tài)。

訓(xùn)練框架：支撐 20B MoE 的底層架構(gòu)

為應(yīng)對 20B MoE（總參數(shù) 200B）的復(fù)雜訓(xùn)練需求，團隊優(yōu)化了底層架構(gòu)：

HybridFlow 編程模型：支持算法快速探索與分布式并行運行；
流式推理系統(tǒng)（SRS）：通過“流式推理”技術(shù)解耦模型演進與異步推理，將訓(xùn)練速度提升 3 倍，萬億參數(shù)下穩(wěn)定性達 95%；
三層并行架構(gòu)：結(jié)合張量 / 專家 / 序列并行，動態(tài)均衡負載，基于 KARP 算法優(yōu)化 GPU 算力利用率。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術(shù)細節(jié)公開，4 月 17 日開放接口

模型各方面具體表現(xiàn)：

數(shù)據(jù)體系：融合可驗證與創(chuàng)意性數(shù)據(jù)

獎勵模型：雙軌體系校準訓(xùn)練方向

訓(xùn)練方法：“監(jiān)督精調(diào) + 強化學習”雙階段優(yōu)化

訓(xùn)練框架：支撐 20B MoE 的底層架構(gòu)

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術(shù)細節(jié)公開，4 月 17 日開放接口

模型各方面具體表現(xiàn)：

數(shù)據(jù)體系：融合可驗證與創(chuàng)意性數(shù)據(jù)

獎勵模型：雙軌體系校準訓(xùn)練方向

訓(xùn)練方法：“監(jiān)督精調(diào) + 強化學習”雙階段優(yōu)化

訓(xùn)練框架：支撐 20B MoE 的底層架構(gòu)

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

字節(jié)跳動最新思考模型 Seed-Thinking-v1.5 技術(shù)細節(jié)公開，4 月 17 日開放接口