91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

“深思熟慮”的 AI:OpenAI 提出全新安全對齊方法

2024/12/25 14:27:18 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 12 月 25 日消息,OpenAI 的研究人員提出了一種名為“深思熟慮的對齊”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得顯著成效。

項目背景

如何確保大語言模型(LLMs)遵守明確的道德和安全準(zhǔn)則,目前存在諸多挑戰(zhàn)。監(jiān)督微調(diào)(SFT)和來自人類反饋的強化學(xué)習(xí)(RLHF)等現(xiàn)有對齊技術(shù)都存在局限性,有被操縱的風(fēng)險,可能會產(chǎn)生有害內(nèi)容、拒絕合法請求或難以處理不熟悉的場景等問題。

這些問題通常源于當(dāng)前安全培訓(xùn)的弊端,也就是模型從數(shù)據(jù)間接推斷標(biāo)準(zhǔn),而非明確地學(xué)習(xí),通常缺乏考慮復(fù)雜提示的能力,從而限制了它們在微妙或?qū)剐郧闆r下的有效性。

深思熟慮的對齊(Deliberative Alignment)

IT之家注:該方法直接教授模型安全規(guī)范,并訓(xùn)練它們在生成響應(yīng)之前推理這些準(zhǔn)則進(jìn),將安全原則融入推理過程中。

整個過程分為兩個階段,第一階段,監(jiān)督微調(diào)(SFT)訓(xùn)練模型參考并推理安全規(guī)范,使用從基礎(chǔ)模型生成的數(shù)據(jù)集。第二階段,強化學(xué)習(xí)(RL)使用獎勵模型,根據(jù)安全基準(zhǔn)評估性能,進(jìn)一步完善模型的推理。

不同于依賴人工標(biāo)注數(shù)據(jù)的方法,“深思熟慮的對齊”使用模型生成的數(shù)據(jù)和思維鏈(CoT)推理,降低了安全訓(xùn)練的資源需求。

OpenAI 的 o1 模型已部署該技術(shù),在抵抗越獄提示方面表現(xiàn)出色,在 StrongREJECT 基準(zhǔn)測試中得分為 0.88,顯著高于 GPT-4o 的 0.37;此外該技術(shù)還可以減少誤拒,在 XSTest 數(shù)據(jù)集的良性提示中,o1 模型的準(zhǔn)確率高達(dá) 93%。

“深思熟慮的對齊”通過訓(xùn)練模型明確推理安全策略,它為復(fù)雜的倫理挑戰(zhàn)提供了可擴(kuò)展且可解釋的解決方案。

參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,OpenAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知

吴川市| 华安县| 桐庐县| 佛冈县| 博湖县| 建阳市| 广安市| 阜阳市| 鄱阳县| 汾阳市| 安阳市| 涡阳县| 蒙山县| 获嘉县| 固安县| 徐汇区| 鄂托克旗| 武邑县| 凌云县| 兴城市| 南木林县| 江孜县| 逊克县| 嘉荫县| 溆浦县| 宁阳县| 临城县| 从化市| 赣州市| 怀柔区| 台江县| 富平县| 和平区| 托克托县| 怀远县| 德阳市| 桃江县| 马尔康县| 长泰县| 汨罗市| 察哈|