首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時(shí)代>人工智能

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

2026/4/30 17:21:02 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

感謝IT之家網(wǎng)友 Domado 的線索投遞！

IT之家 4 月 30 日消息，今日，阿里千問宣布推出 Qwen-Scope—— 基于 Qwen3 系列和 Qwen3.5 系列模型訓(xùn)練所得的可解釋性模塊。

據(jù)介紹，阿里千問在 Qwen 隱藏層插入稀疏自編碼器（SAE）并加以訓(xùn)練，通過施加稀疏性約束，自動(dòng)提取出高度解耦、低冗余且更具可解釋性的隱藏空間特征。Qwen-Scope 不僅可以用于分析 Qwen 模型行為的內(nèi)在機(jī)制，也在模型優(yōu)化上有著巨大潛力，應(yīng)用場景包括推理結(jié)果定向控制、數(shù)據(jù)分類與合成、模型訓(xùn)練與優(yōu)化、評估樣本分布分析與對比等。

IT之家附官方詳細(xì)介紹如下：

Qwen-Scope 核心亮點(diǎn)包括：

推理：無需顯式給出自然語言指令，實(shí)現(xiàn)推理結(jié)果定向控制；
數(shù)據(jù)：僅需少量種子數(shù)據(jù)便可收集用于數(shù)據(jù)分類的特征，顯著降低數(shù)據(jù)依賴；同時(shí)可以使用未激活特征信息定向構(gòu)造數(shù)據(jù)，補(bǔ)足長尾能力；
訓(xùn)練：通過分析語言混用和重復(fù)生成等低錯(cuò)問題，定位異常激活特征，在監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段輔助模型訓(xùn)練，降低此類回復(fù)出現(xiàn)頻率；
評估：計(jì)算不同樣本間或不同評測集間特征激活模式，聯(lián)合判斷評測冗余程度，指導(dǎo)挑選評測集、提升評測能力覆蓋度、降低評測成本。

整體概覽

本次 Qwen-Scope 開源的權(quán)重涉及 7 個(gè)大模型，覆蓋 Qwen3 及 Qwen3.5 系列的稠密模型和混合專家模型，共有 14 組稀疏自編碼器權(quán)重。為了使得稀疏自編碼器特征分布廣、語義含義強(qiáng)、訓(xùn)練過程穩(wěn)定可靠，我們從對應(yīng)模型的預(yù)訓(xùn)練數(shù)據(jù)采樣了 0.5B 詞元數(shù)據(jù)規(guī)模進(jìn)行訓(xùn)練。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

實(shí)踐

大家可以借助 Qwen-Scope 對 Qwen 系列模型進(jìn)行分析和開發(fā)，下面我們會(huì)在推理、評測、數(shù)據(jù)、訓(xùn)練四個(gè)角度分別展示 Qwen-Scope 的用途，詳細(xì)內(nèi)容可以參考技術(shù)報(bào)告。

推理：模型行為的分析與可控的結(jié)果

通過控制特征的激活，實(shí)現(xiàn)對推理結(jié)果的定向控制，如語言、實(shí)體、風(fēng)格的定向修改，而無需顯式的給出自然語言指令。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

數(shù)據(jù)：分類與合成

Qwen-Scope 對模型表示做了各個(gè)方向的解析和歸納，所以它可以用來作為數(shù)據(jù)處理工具，在數(shù)據(jù)分類和數(shù)據(jù)合成上均可提供數(shù)據(jù)處理思路。在毒性數(shù)據(jù)分類場景下，我們可以基于少量種子數(shù)據(jù)，分析毒性樣本在 SAE 特征上的激活模式，并篩選出與毒性高度相關(guān)的特征用于分類。整個(gè)過程無需額外訓(xùn)練分類器，顯著降低了標(biāo)注和訓(xùn)練成本；同時(shí)，即使只依賴少量啟動(dòng)數(shù)據(jù)，也能獲得較高的分類準(zhǔn)確率，大幅降低了對大規(guī)模標(biāo)注數(shù)據(jù)的依賴。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

在數(shù)據(jù)合成場景中，Qwen-Scope 還可以幫助識別已有數(shù)據(jù)中激活次數(shù)少甚至未激活的毒性文本特征，并定向合成補(bǔ)充樣本。相比傳統(tǒng)合成數(shù)據(jù)方案，這種方式具有更強(qiáng)的可控性和針對性，能夠更高效地覆蓋長尾能力，使訓(xùn)練數(shù)據(jù)能效比提升至約 15 倍。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

訓(xùn)練：定向優(yōu)化

Qwen-Scope 的特征也可以應(yīng)用在訓(xùn)練階段。例如，當(dāng)我們發(fā)現(xiàn)模型存在語言混用現(xiàn)象（比如英文回復(fù)中異常出現(xiàn)中文詞）時(shí)，我們可以定位到異常激活特征，并在監(jiān)督微調(diào)階段，針對異常激活特征設(shè)計(jì)損失函數(shù)，引導(dǎo)模型降低 badcase 出現(xiàn)的頻率。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

再比如重復(fù)生成問題，這是一種低頻現(xiàn)象，很難在強(qiáng)化學(xué)習(xí)階段被采樣到。為此，我們可以通過控制相應(yīng)特征從而提高采樣出異常回復(fù)的頻率，增加學(xué)習(xí)獎(jiǎng)勵(lì)密度，以方便模型在強(qiáng)化學(xué)習(xí)階段充分優(yōu)化這一問題。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

評估：測試樣本的缺失與冗余

評估是大模型開發(fā)的核心之一，如今待評估能力、維度越來越多，樣本規(guī)模越來越大，哪些評測集存在冗余，哪些領(lǐng)域覆蓋不足是一個(gè)關(guān)鍵問題。通過 Qwen-Scope，我們可以對測試集的特征覆蓋度進(jìn)行分析以判斷不同評測集之間的評測冗余程度。如下圖所示，我們發(fā)現(xiàn)部分常用評測集在所激活特征上存在互相覆蓋關(guān)系，致使部分評測集會(huì)受重復(fù)評估影響導(dǎo)致實(shí)用意義相比而言會(huì)更小。我們希望此類分析方法，可以方便大家挑選出覆蓋度更高的、評測成本更低的測試樣本和評測集。

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

總結(jié)

Qwen-Scope 不僅可以用于分析模型行為，更可以深入模型內(nèi)部，將復(fù)雜的參數(shù)運(yùn)算轉(zhuǎn)化為人類可理解的概念與規(guī)律。它不僅僅能“看懂”模型，更能“改進(jìn)”模型。實(shí)踐證明，它可以在推理、評估、數(shù)據(jù)、訓(xùn)練等階段，向我們提供模型優(yōu)化思路、指導(dǎo)優(yōu)化方向。可解釋性，不僅是事后分析的工具，也可以是驅(qū)動(dòng)模型進(jìn)化的核心引擎之一。我們歡迎社區(qū)反饋，同時(shí)更希望可以看到大家發(fā)揮創(chuàng)造力，展示更多的、有趣的用法！

試用

大家可以前往 Huggingface 或魔搭體驗(yàn) Qwen-Scope。

鏈接地址

Hugging Face：

https://huggingface.co/spaces/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921MGq3Tu

Modelscope：

https://modelscope.cn/studios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4ios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4

技術(shù)報(bào)告：

https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

看穿大模型的“小心思”：阿里千問開源可解釋性模塊 Qwen-Scope

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人