IT之家 4 月 30 日消息,今日,阿里千問宣布推出 Qwen-Scope—— 基于 Qwen3 系列和 Qwen3.5 系列模型訓(xùn)練所得的可解釋性模塊。

據(jù)介紹,阿里千問在 Qwen 隱藏層插入稀疏自編碼器(SAE)并加以訓(xùn)練,通過施加稀疏性約束,自動(dòng)提取出高度解耦、低冗余且更具可解釋性的隱藏空間特征。Qwen-Scope 不僅可以用于分析 Qwen 模型行為的內(nèi)在機(jī)制,也在模型優(yōu)化上有著巨大潛力,應(yīng)用場景包括推理結(jié)果定向控制、數(shù)據(jù)分類與合成、模型訓(xùn)練與優(yōu)化、評估樣本分布分析與對比等。
IT之家附官方詳細(xì)介紹如下:
Qwen-Scope 核心亮點(diǎn)包括:
推理:無需顯式給出自然語言指令,實(shí)現(xiàn)推理結(jié)果定向控制;
數(shù)據(jù):僅需少量種子數(shù)據(jù)便可收集用于數(shù)據(jù)分類的特征,顯著降低數(shù)據(jù)依賴;同時(shí)可以使用未激活特征信息定向構(gòu)造數(shù)據(jù),補(bǔ)足長尾能力;
訓(xùn)練:通過分析語言混用和重復(fù)生成等低錯(cuò)問題,定位異常激活特征,在監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段輔助模型訓(xùn)練,降低此類回復(fù)出現(xiàn)頻率;
評估:計(jì)算不同樣本間或不同評測集間特征激活模式,聯(lián)合判斷評測冗余程度,指導(dǎo)挑選評測集、提升評測能力覆蓋度、降低評測成本。
整體概覽
本次 Qwen-Scope 開源的權(quán)重涉及 7 個(gè)大模型,覆蓋 Qwen3 及 Qwen3.5 系列的稠密模型和混合專家模型,共有 14 組稀疏自編碼器權(quán)重。為了使得稀疏自編碼器特征分布廣、語義含義強(qiáng)、訓(xùn)練過程穩(wěn)定可靠,我們從對應(yīng)模型的預(yù)訓(xùn)練數(shù)據(jù)采樣了 0.5B 詞元數(shù)據(jù)規(guī)模進(jìn)行訓(xùn)練。

實(shí)踐
大家可以借助 Qwen-Scope 對 Qwen 系列模型進(jìn)行分析和開發(fā),下面我們會(huì)在推理、評測、數(shù)據(jù)、訓(xùn)練四個(gè)角度分別展示 Qwen-Scope 的用途,詳細(xì)內(nèi)容可以參考技術(shù)報(bào)告。
推理:模型行為的分析與可控的結(jié)果
通過控制特征的激活,實(shí)現(xiàn)對推理結(jié)果的定向控制,如語言、實(shí)體、風(fēng)格的定向修改,而無需顯式的給出自然語言指令。

數(shù)據(jù):分類與合成
Qwen-Scope 對模型表示做了各個(gè)方向的解析和歸納,所以它可以用來作為數(shù)據(jù)處理工具,在數(shù)據(jù)分類和數(shù)據(jù)合成上均可提供數(shù)據(jù)處理思路。在毒性數(shù)據(jù)分類場景下,我們可以基于少量種子數(shù)據(jù),分析毒性樣本在 SAE 特征上的激活模式,并篩選出與毒性高度相關(guān)的特征用于分類。整個(gè)過程無需額外訓(xùn)練分類器,顯著降低了標(biāo)注和訓(xùn)練成本;同時(shí),即使只依賴少量啟動(dòng)數(shù)據(jù),也能獲得較高的分類準(zhǔn)確率,大幅降低了對大規(guī)模標(biāo)注數(shù)據(jù)的依賴。

在數(shù)據(jù)合成場景中,Qwen-Scope 還可以幫助識別已有數(shù)據(jù)中激活次數(shù)少甚至未激活的毒性文本特征,并定向合成補(bǔ)充樣本。相比傳統(tǒng)合成數(shù)據(jù)方案,這種方式具有更強(qiáng)的可控性和針對性,能夠更高效地覆蓋長尾能力,使訓(xùn)練數(shù)據(jù)能效比提升至約 15 倍。

訓(xùn)練:定向優(yōu)化
Qwen-Scope 的特征也可以應(yīng)用在訓(xùn)練階段。例如,當(dāng)我們發(fā)現(xiàn)模型存在語言混用現(xiàn)象(比如英文回復(fù)中異常出現(xiàn)中文詞)時(shí),我們可以定位到異常激活特征,并在監(jiān)督微調(diào)階段,針對異常激活特征設(shè)計(jì)損失函數(shù),引導(dǎo)模型降低 badcase 出現(xiàn)的頻率。

再比如重復(fù)生成問題,這是一種低頻現(xiàn)象,很難在強(qiáng)化學(xué)習(xí)階段被采樣到。為此,我們可以通過控制相應(yīng)特征從而提高采樣出異常回復(fù)的頻率,增加學(xué)習(xí)獎(jiǎng)勵(lì)密度,以方便模型在強(qiáng)化學(xué)習(xí)階段充分優(yōu)化這一問題。

評估:測試樣本的缺失與冗余
評估是大模型開發(fā)的核心之一,如今待評估能力、維度越來越多,樣本規(guī)模越來越大,哪些評測集存在冗余,哪些領(lǐng)域覆蓋不足是一個(gè)關(guān)鍵問題。通過 Qwen-Scope,我們可以對測試集的特征覆蓋度進(jìn)行分析以判斷不同評測集之間的評測冗余程度。如下圖所示,我們發(fā)現(xiàn)部分常用評測集在所激活特征上存在互相覆蓋關(guān)系,致使部分評測集會(huì)受重復(fù)評估影響導(dǎo)致實(shí)用意義相比而言會(huì)更小。我們希望此類分析方法,可以方便大家挑選出覆蓋度更高的、評測成本更低的測試樣本和評測集。

總結(jié)
Qwen-Scope 不僅可以用于分析模型行為,更可以深入模型內(nèi)部,將復(fù)雜的參數(shù)運(yùn)算轉(zhuǎn)化為人類可理解的概念與規(guī)律。它不僅僅能“看懂”模型,更能“改進(jìn)”模型。實(shí)踐證明,它可以在推理、評估、數(shù)據(jù)、訓(xùn)練等階段,向我們提供模型優(yōu)化思路、指導(dǎo)優(yōu)化方向。可解釋性,不僅是事后分析的工具,也可以是驅(qū)動(dòng)模型進(jìn)化的核心引擎之一。我們歡迎社區(qū)反饋,同時(shí)更希望可以看到大家發(fā)揮創(chuàng)造力,展示更多的、有趣的用法!
試用
大家可以前往 Huggingface 或魔搭體驗(yàn) Qwen-Scope。
鏈接地址
Hugging Face:
https://huggingface.co/spaces/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921MGq3Tu
Modelscope:
https://modelscope.cn/studios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4ios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4
技術(shù)報(bào)告:
https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。