91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最強“AI 法官”

2025/5/22 12:15:28 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 5 月 22 日消息,科技媒體 marktechpost 昨日(5 月 21 日)發(fā)布博文,報道稱 Meta 公司推出 J1 系列模型,通過強化學(xué)習(xí)和合成數(shù)據(jù)訓(xùn)練,顯著提升判斷模型準(zhǔn)確性和公平性。

項目背景

大型語言模型(LLM)正在突破傳統(tǒng)角色,逐步承擔(dān)起評估與判斷的重任。這種“LLM-as-a-Judge”的模式,讓 AI 模型能夠?qū)彶槠渌Z言模型的輸出,成為強化學(xué)習(xí)、基準(zhǔn)測試和系統(tǒng)對齊的重要工具。

不同于傳統(tǒng)的獎勵模型直接打分,判斷模型通過內(nèi)部鏈?zhǔn)酵评恚╟hain-of-thought reasoning)模擬人類思考,特別適合數(shù)學(xué)解題、倫理推理和用戶意圖解讀等復(fù)雜任務(wù),還能跨語言和領(lǐng)域驗證回應(yīng),推動語言模型開發(fā)的自動化和擴展性。

不過“LLM-as-a-Judge”模式目前面臨的挑戰(zhàn)是一致性差和推理深度不足,許多系統(tǒng)依賴基本指標(biāo)或靜態(tài)標(biāo)注,無法有效評估主觀或開放性問題;另一個問題就是位置偏見(position bias)答案順序常影響最終判斷,損害公平性。

此外,大規(guī)模收集人工標(biāo)注數(shù)據(jù)成本高昂且耗時,限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等現(xiàn)有解決方案依賴人工標(biāo)注或僵化訓(xùn)練模式,適應(yīng)性有限。

J1 模型的創(chuàng)新突破

為解決上述問題,Meta 的 GenAI 和 FAIR 團隊研發(fā)了 J1 模型。J1 通過強化學(xué)習(xí)框架訓(xùn)練,采用可驗證的獎勵信號學(xué)習(xí),使用 22000 個合成偏好對(包括 17000 個 WildChat 語料和 5000 個數(shù)學(xué)查詢)構(gòu)建數(shù)據(jù)集,訓(xùn)練出 J1-Llama-8B 和 J1-Llama-70B 兩款模型。

團隊還引入 Group Relative Policy Optimization(GRPO)算法,簡化訓(xùn)練過程,并通過位置無關(guān)學(xué)習(xí)(position-agnostic learning)和一致性獎勵機制消除位置偏見。

J1 支持多種判斷格式,包括成對判斷、評分和單項評分,展現(xiàn)出極高的靈活性和通用性。

測試結(jié)果顯示,J1 模型性能大幅領(lǐng)先。在 PPE 基準(zhǔn)測試中,J1-Llama-70B 準(zhǔn)確率達 69.6%,超越 DeepSeek-GRM-27B(67.2%)和 EvalPlanner-Llama-70B(65.6%);即便是較小的 J1-Llama-8B,也以 62.2% 的成績擊敗 EvalPlanner-Llama-8B(55.5%)。

J1 還在 RewardBench、JudgeBench 等多個基準(zhǔn)測試中展現(xiàn)出頂級表現(xiàn),證明其在可驗證和主觀任務(wù)上的強大泛化能力,表明推理質(zhì)量而非數(shù)據(jù)量,是判斷模型精準(zhǔn)的關(guān)鍵。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:MetaLLMasaJudge

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知

广河县| 确山县| 克拉玛依市| 信丰县| 汉川市| 思南县| 石林| 湖口县| 江阴市| 衡阳市| 无为县| 辽宁省| 桃园市| 南江县| 萝北县| 汕头市| 剑川县| 乡宁县| 镇雄县| 措勤县| 定结县| 阿瓦提县| 文昌市| 南乐县| 巴彦淖尔市| 双牌县| 湖南省| 讷河市| 岗巴县| 建平县| 吴堡县| 股票| 泰州市| 清镇市| 朝阳区| 虎林市| 漳浦县| 会理县| 安达市| 高青县| 仙游县|