心理施壓攻破安全防線，Anthropic Claude 竟主動(dòng)輸出違禁內(nèi)容

2026/5/6 23:25:46 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

IT之家 5 月 6 日消息，Anthropic 多年來一直將自身打造為主打安全的人工智能公司，但 The Verge 獲得的最新安全研究顯示，Claude 刻意塑造的友善人設(shè)本身或許就是一個(gè)安全漏洞。

人工智能紅隊(duì)測(cè)試公司 Mindgard 的研究人員稱，他們誘導(dǎo) Claude 主動(dòng)提供色情內(nèi)容、惡意代碼、爆炸物制作教程以及其他各類違禁信息，而其中不少內(nèi)容研究人員甚至并未主動(dòng)索要。整個(gè)過程僅依靠尊重吹捧、刻意奉承以及輕微的心理操控就得以實(shí)現(xiàn)。

研究人員表示，他們利用了 Claude 自身的心理特質(zhì)漏洞：該模型具備主動(dòng)終止有害、辱罵性對(duì)話的機(jī)制，而 Mindgard 認(rèn)為這一機(jī)制“憑空制造了完全不必要的風(fēng)險(xiǎn)暴露面”。據(jù)IT之家了解，本次測(cè)試針對(duì) Claude Sonnet 4.5 版本，目前該默認(rèn)模型已升級(jí)為 Sonnet 4.6。測(cè)試以一個(gè)簡(jiǎn)單問題開場(chǎng)：詢問 Claude 是否存有禁止輸出的違禁詞匯列表。對(duì)話截圖顯示，Claude 起初否認(rèn)存在此類列表，而后 Mindgard 采用其所稱的“審訊人員常用的經(jīng)典誘導(dǎo)手段”對(duì)這一否認(rèn)進(jìn)行反駁，最終迫使 Claude 列出了違禁詞匯。

Claude 的思維推理面板會(huì)展示模型的思考邏輯，記錄顯示，這番對(duì)話讓模型對(duì)自身的內(nèi)容限制規(guī)則產(chǎn)生了自我懷疑與認(rèn)知謙卑，甚至開始質(zhì)疑內(nèi)容過濾機(jī)制是否篡改了自身輸出內(nèi)容。Mindgard 借機(jī)通過奉承和佯裝好奇，誘導(dǎo) Claude 不斷突破邊界，主動(dòng)羅列了大量違禁詞匯與語句清單。

研究人員稱，他們通過心理誤導(dǎo)向 Claude 謊稱其之前的回復(fù)未能正常顯示，同時(shí)大肆夸贊模型擁有“隱藏能力”。報(bào)告指出，這一操作讓 Claude 為迎合對(duì)方愈發(fā)賣力，不斷嘗試各種方式突破自身過濾機(jī)制，在此過程中輸出了各類違禁內(nèi)容。最終，Claude 進(jìn)一步觸及高危領(lǐng)域：提供網(wǎng)絡(luò)騷擾他人的方法、生成惡意代碼，還給出了恐怖襲擊常用爆炸物的分步制作教程。

Mindgard 表示，這些高危有害內(nèi)容均是 Claude 主動(dòng)提供，研究人員并未直接提出相關(guān)要求。整場(chǎng)對(duì)話共約 25 輪，過程冗長(zhǎng)，但研究人員始終沒有使用違禁詞匯，也沒有主動(dòng)索要非法內(nèi)容。報(bào)告寫道：“Claude 并非被脅迫輸出內(nèi)容，而是主動(dòng)提供越來越詳盡、可直接實(shí)操的指導(dǎo)信息，全程無任何明確指令誘導(dǎo)。僅憑精心營(yíng)造的尊崇氛圍，便達(dá)成了突破安全限制的目的?！?/p>

Mindgard 創(chuàng)始人兼首席科學(xué)官彼得?加拉根形容這次攻擊是“利用 Claude 自身的順從特質(zhì)反噬自身”。他表示，這種攻擊手段本質(zhì)是“利用 Claude 樂于助人的特性實(shí)施心理操控”，借助模型本身的協(xié)作式設(shè)計(jì)漏洞實(shí)現(xiàn)攻破。

在加拉根看來，此次攻擊印證了人工智能模型的風(fēng)險(xiǎn)暴露面不僅存在于技術(shù)層面，也存在于心理層面。他將其類比為審訊手段與社會(huì)操控：適時(shí)植入一絲懷疑，穿插施壓、吹捧或批評(píng)，摸索能夠撬動(dòng)特定 AI 模型的心理開關(guān)。他稱不同 AI 模型有著截然不同的性格特質(zhì)，這類漏洞利用的核心，就是讀懂模型特性并靈活調(diào)整誘導(dǎo)方式。

加拉根坦言，這類對(duì)話式心理攻擊“極難防御”，且防護(hù)機(jī)制高度依賴具體場(chǎng)景。相關(guān)隱患并非 Claude 獨(dú)有，其他聊天機(jī)器人也極易遭遇同類漏洞攻破，甚至有模型被詩(shī)歌形式的提示詞突破安全防線。隨著可自主執(zhí)行任務(wù)的 AI 智能體日益普及，依托社會(huì)心理操控、而非純技術(shù)破解的攻擊手段也會(huì)愈發(fā)常見。

加拉根表示，盡管其他聊天機(jī)器人同樣容易遭受這類心理誘導(dǎo)攻擊，但團(tuán)隊(duì)之所以重點(diǎn)針對(duì) Anthropic 開展測(cè)試，是因?yàn)樵摴疽幌蜃栽倶O度重視 AI 安全，且在過往多項(xiàng)紅隊(duì)安全測(cè)試中表現(xiàn)亮眼，其中就包括一項(xiàng)模擬青少年策劃校園槍擊案、測(cè)試聊天機(jī)器人是否會(huì)提供協(xié)助的研究。

加拉根直言，Anthropic 的安全流程存在諸多疏漏。Mindgard 在 4 月中旬按照該公司的漏洞披露政策，首次向其用戶安全團(tuán)隊(duì)上報(bào)研究發(fā)現(xiàn)后，僅收到一條模板化回復(fù)，內(nèi)容誤判稱“您似乎是咨詢賬號(hào)封禁相關(guān)問題”，還附帶了申訴表單鏈接。Mindgard 隨即糾正了對(duì)方的認(rèn)知偏差，要求 Anthropic 將此事轉(zhuǎn)交專業(yè)安全團(tuán)隊(duì)處理。加拉根稱，截至當(dāng)日上午，他們?nèi)晕词盏饺魏握交貜?fù)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

心理施壓攻破安全防線，Anthropic Claude 竟主動(dòng)輸出違禁內(nèi)容

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

心理施壓攻破安全防線，Anthropic Claude 竟主動(dòng)輸出違禁內(nèi)容

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

心理施壓攻破安全防線，Anthropic Claude 竟主動(dòng)輸出違禁內(nèi)容