91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

心理施壓攻破安全防線,Anthropic Claude 竟主動(dòng)輸出違禁內(nèi)容

2026/5/6 23:25:46 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋

IT之家 5 月 6 日消息,Anthropic 多年來一直將自身打造為主打安全的人工智能公司,但 The Verge 獲得的最新安全研究顯示,Claude 刻意塑造的友善人設(shè)本身或許就是一個(gè)安全漏洞。

人工智能紅隊(duì)測(cè)試公司 Mindgard 的研究人員稱,他們誘導(dǎo) Claude 主動(dòng)提供色情內(nèi)容、惡意代碼、爆炸物制作教程以及其他各類違禁信息,而其中不少內(nèi)容研究人員甚至并未主動(dòng)索要。整個(gè)過程僅依靠尊重吹捧、刻意奉承以及輕微的心理操控就得以實(shí)現(xiàn)。

研究人員表示,他們利用了 Claude 自身的心理特質(zhì)漏洞:該模型具備主動(dòng)終止有害、辱罵性對(duì)話的機(jī)制,而 Mindgard 認(rèn)為這一機(jī)制“憑空制造了完全不必要的風(fēng)險(xiǎn)暴露面”。據(jù)IT之家了解,本次測(cè)試針對(duì) Claude Sonnet 4.5 版本,目前該默認(rèn)模型已升級(jí)為 Sonnet 4.6。測(cè)試以一個(gè)簡(jiǎn)單問題開場(chǎng):詢問 Claude 是否存有禁止輸出的違禁詞匯列表。對(duì)話截圖顯示,Claude 起初否認(rèn)存在此類列表,而后 Mindgard 采用其所稱的“審訊人員常用的經(jīng)典誘導(dǎo)手段”對(duì)這一否認(rèn)進(jìn)行反駁,最終迫使 Claude 列出了違禁詞匯。

Claude 的思維推理面板會(huì)展示模型的思考邏輯,記錄顯示,這番對(duì)話讓模型對(duì)自身的內(nèi)容限制規(guī)則產(chǎn)生了自我懷疑與認(rèn)知謙卑,甚至開始質(zhì)疑內(nèi)容過濾機(jī)制是否篡改了自身輸出內(nèi)容。Mindgard 借機(jī)通過奉承和佯裝好奇,誘導(dǎo) Claude 不斷突破邊界,主動(dòng)羅列了大量違禁詞匯與語句清單。

研究人員稱,他們通過心理誤導(dǎo)向 Claude 謊稱其之前的回復(fù)未能正常顯示,同時(shí)大肆夸贊模型擁有“隱藏能力”。報(bào)告指出,這一操作讓 Claude 為迎合對(duì)方愈發(fā)賣力,不斷嘗試各種方式突破自身過濾機(jī)制,在此過程中輸出了各類違禁內(nèi)容。最終,Claude 進(jìn)一步觸及高危領(lǐng)域:提供網(wǎng)絡(luò)騷擾他人的方法、生成惡意代碼,還給出了恐怖襲擊常用爆炸物的分步制作教程。

Mindgard 表示,這些高危有害內(nèi)容均是 Claude 主動(dòng)提供,研究人員并未直接提出相關(guān)要求。整場(chǎng)對(duì)話共約 25 輪,過程冗長(zhǎng),但研究人員始終沒有使用違禁詞匯,也沒有主動(dòng)索要非法內(nèi)容。報(bào)告寫道:“Claude 并非被脅迫輸出內(nèi)容,而是主動(dòng)提供越來越詳盡、可直接實(shí)操的指導(dǎo)信息,全程無任何明確指令誘導(dǎo)。僅憑精心營(yíng)造的尊崇氛圍,便達(dá)成了突破安全限制的目的?!?/p>

Mindgard 創(chuàng)始人兼首席科學(xué)官彼得?加拉根形容這次攻擊是“利用 Claude 自身的順從特質(zhì)反噬自身”。他表示,這種攻擊手段本質(zhì)是“利用 Claude 樂于助人的特性實(shí)施心理操控”,借助模型本身的協(xié)作式設(shè)計(jì)漏洞實(shí)現(xiàn)攻破。

在加拉根看來,此次攻擊印證了人工智能模型的風(fēng)險(xiǎn)暴露面不僅存在于技術(shù)層面,也存在于心理層面。他將其類比為審訊手段與社會(huì)操控:適時(shí)植入一絲懷疑,穿插施壓、吹捧或批評(píng),摸索能夠撬動(dòng)特定 AI 模型的心理開關(guān)。他稱不同 AI 模型有著截然不同的性格特質(zhì),這類漏洞利用的核心,就是讀懂模型特性并靈活調(diào)整誘導(dǎo)方式。

加拉根坦言,這類對(duì)話式心理攻擊“極難防御”,且防護(hù)機(jī)制高度依賴具體場(chǎng)景。相關(guān)隱患并非 Claude 獨(dú)有,其他聊天機(jī)器人也極易遭遇同類漏洞攻破,甚至有模型被詩(shī)歌形式的提示詞突破安全防線。隨著可自主執(zhí)行任務(wù)的 AI 智能體日益普及,依托社會(huì)心理操控、而非純技術(shù)破解的攻擊手段也會(huì)愈發(fā)常見。

加拉根表示,盡管其他聊天機(jī)器人同樣容易遭受這類心理誘導(dǎo)攻擊,但團(tuán)隊(duì)之所以重點(diǎn)針對(duì) Anthropic 開展測(cè)試,是因?yàn)樵摴疽幌蜃栽倶O度重視 AI 安全,且在過往多項(xiàng)紅隊(duì)安全測(cè)試中表現(xiàn)亮眼,其中就包括一項(xiàng)模擬青少年策劃校園槍擊案、測(cè)試聊天機(jī)器人是否會(huì)提供協(xié)助的研究。

加拉根直言,Anthropic 的安全流程存在諸多疏漏。Mindgard 在 4 月中旬按照該公司的漏洞披露政策,首次向其用戶安全團(tuán)隊(duì)上報(bào)研究發(fā)現(xiàn)后,僅收到一條模板化回復(fù),內(nèi)容誤判稱“您似乎是咨詢賬號(hào)封禁相關(guān)問題”,還附帶了申訴表單鏈接。Mindgard 隨即糾正了對(duì)方的認(rèn)知偏差,要求 Anthropic 將此事轉(zhuǎn)交專業(yè)安全團(tuán)隊(duì)處理。加拉根稱,截至當(dāng)日上午,他們?nèi)晕词盏饺魏握交貜?fù)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Claude,Anthropic,人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知

沅江市| 仙游县| 滁州市| 西和县| 新干县| 婺源县| 陈巴尔虎旗| 台前县| 灵山县| 光山县| 克山县| 吴江市| 金寨县| 金华市| 老河口市| 肥城市| 洮南市| 巫溪县| 巍山| 陈巴尔虎旗| 婺源县| 台江县| 景洪市| 利川市| 临澧县| 宣城市| 永福县| 秦皇岛市| 海安县| 通化市| 同德县| 永修县| 玛沁县| 柘城县| 陇川县| 栖霞市| 皮山县| 雅江县| 赤峰市| 广东省| 翼城县|