91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達(dá)發(fā)布新 RL 范式:受 DeepSeek-R1 啟發(fā),重塑 AI 模型外部工具能力

2025/5/14 14:03:30 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發(fā)布博文,報(bào)道稱英偉達(dá)聯(lián)合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發(fā),采用新型強(qiáng)化學(xué)習(xí)(RL)范式,強(qiáng)化模型推理能力。

大型語言模型(LLMs)通過外部工具提升性能已成為熱門趨勢(shì),這些工具幫助 LLMs 在搜索引擎、計(jì)算器、視覺工具和 Python 解釋器等領(lǐng)域表現(xiàn)出色。但現(xiàn)有研究依賴合成數(shù)據(jù)集,無法捕捉明確的推理步驟,導(dǎo)致模型僅模仿表面模式,而非真正理解決策過程。

為了提升 LLMs 的工具使用能力,現(xiàn)有方法探索了多種策略。主要包括兩方面:第一,數(shù)據(jù)集整理和模型優(yōu)化。研究者創(chuàng)建大規(guī)模監(jiān)督數(shù)據(jù)集,并應(yīng)用監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)強(qiáng)化學(xué)習(xí)等技術(shù),將 LLMs 與外部工具整合,擴(kuò)展其功能。

第二,改進(jìn)推理過程。從傳統(tǒng)的訓(xùn)練時(shí)擴(kuò)展轉(zhuǎn)向測(cè)試時(shí)復(fù)雜策略。早期方法依賴步驟級(jí)監(jiān)督和學(xué)習(xí)獎(jiǎng)勵(lì)模型,指導(dǎo)推理軌跡。

這些方法雖有效,卻仍受限于合成數(shù)據(jù)的不足。研究者指出,通過這些策略,LLMs 能處理單輪或多輪工具調(diào)用,但缺乏自主推理的深度。

英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué),組建專業(yè)團(tuán)隊(duì),合作開發(fā) Nemotron-Research-Tool-N1 系列,針對(duì)現(xiàn)有方法的局限性,借鑒 DeepSeek-R1 的成功,開發(fā)輕量級(jí)監(jiān)督機(jī)制,專注于工具調(diào)用的結(jié)構(gòu)有效性和功能正確性。

Nemotron-Research-Tool-N1  系列并非依賴顯式標(biāo)注的推理軌跡,而是采用二元獎(jiǎng)勵(lì)機(jī)制,讓模型自主發(fā)展推理策略。

研究者統(tǒng)一處理了 xLAM 和 ToolACE 等數(shù)據(jù)集(提供單輪和多輪工具調(diào)用軌跡)的子集,并設(shè)計(jì)了輕量級(jí)提示模板,指導(dǎo)工具生成過程。

該模板使用 <think>...</think > 標(biāo)簽明確指示中間推理,并用 < tool_call>...</tool_call > 標(biāo)簽封裝工具調(diào)用,這樣避免了過度擬合特定提示模式。

主干模型為 Qwen2.5-7B / 14B,并測(cè)試了 LLaMA 系列變體,以評(píng)估泛化能力。在 BFCL 基準(zhǔn)測(cè)試中,Nemotron-Research-Tool-N1-7B / 14B 模型表現(xiàn)出色,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調(diào)模型。

與相同數(shù)據(jù)源的 SFT 基準(zhǔn)相比,該模型優(yōu)勢(shì)明顯,證明了 RL 方法的有效性。在 API-Bank 基準(zhǔn)上,Tool-N1-7B / 14B 的準(zhǔn)確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結(jié)果驗(yàn)證了新方法的潛力,幫助 LLMs 更自主地生成推理策略。研究者總結(jié)認(rèn)為,這標(biāo)志著從傳統(tǒng) SFT 向 RL 范式的轉(zhuǎn)變。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,英偉達(dá)Deepseek

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知

门源| 富蕴县| 滕州市| 神木县| 宁国市| 崇左市| 夏河县| 左云县| 武安市| 齐齐哈尔市| 洛隆县| 光泽县| 蒲江县| 循化| 旅游| 洱源县| 克什克腾旗| 潍坊市| 水城县| 嵊州市| 集贤县| 昭通市| 襄汾县| 梁平县| 新邵县| 奉新县| 武汉市| 梓潼县| 如皋市| 商都县| 阿拉尔市| 罗田县| 双峰县| 团风县| 林甸县| 涿州市| 甘肃省| 田林县| 达州市| 湾仔区| 景宁|