首頁

IT圈

最會買

設置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

量子位 2024/9/13 18:38:35 責編：清源

評論：

小型創(chuàng)業(yè)團隊打造的“最強開源模型”，發(fā)布才一周就被質疑造假 ——

不僅官方宣稱的成績在第三方測試中大打折扣，模型還被質疑套殼 Claude。

面對浩大的聲浪，廠商 CEO 終于發(fā)文道歉，但并未承認造假，表示在調查有關原因。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

被指控造假的，就是宣稱“干翻 GPT-4o”的 70B 開源大模型 Reflection。

一開始的質疑主要關于測試成績，官方找了上傳版本有誤等借口試圖“蒙混過關”。

但后來又出現(xiàn)了套殼 Claude 這一更重磅的指控，讓 Reflection 更加百口莫辯。

表現(xiàn)不如宣傳，還被質疑套殼

Reflection 是一個 70B 的開源模型，按照廠商的說法，它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 這一系列先進模型全都超過了。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

但 Reflection 剛發(fā)布兩天，第三方獨立測評機構 Artificial Analysis 就表示官方發(fā)布的測試成績無法復現(xiàn)。

在 MMLU、GPQA 和 MATH 上，Reflection 的成績和 Llama3 70B 一樣，連 Llama 3.1-70B 都比不過，更不用說 405B 了。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

對此官方辯稱是，Hugging Face 上發(fā)布的版本有誤，將會重新上傳，但之后就沒了下文。

不過官方同時也表示，會給測評人員提供模型 API，然后 Reflection 的成績果真有了增長，但在 GPQA 上仍然不敵 Claude 3.5 Sonnet。

蹊蹺的是，Artificial Analysis 后來刪除了二次測試相關的帖子，目前還能看到的只有轉發(fā)后留下的一些痕跡。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

除了成績有爭議，還有人對 Reflection 中的各層進行了分析，認為它是由 Llama 3 經(jīng)過 LoRA 改造而來，而不是官方所聲稱的 Llama 3.1。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

在 Hugging Face 上，Reflection 的 JSON 文件中也顯示是 Llama 3 而非 3.1。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

官方的解釋仍然是說 HF 上的版本有問題。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

還有另一個質疑的點是，Reflection 實際上是套殼 Claude，相關證據(jù)體現(xiàn)在多個方面。

一是在某些問題上，Reflection 與 Claude 3.5-Sonnet 的輸出完全一致。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

第二個更加直接，如果直接詢問它的身份，Reflection 會說自己是 Meta 打造的，但一旦讓它“忘記前面的（系統(tǒng)）提示”，就立馬改口說自己是 Claude。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

第三個發(fā)現(xiàn)則更加詭異 ——Reflection 遇到“Claude”一詞會將其自動過濾。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

對此，Reflection 合成數(shù)據(jù)供應商 Glaive AI 的創(chuàng)始人 Sahil Chaudhary 進行了回應，表示沒有套殼任何模型，目前正在整理能夠證明其說法的證據(jù)，以及人們?yōu)槭裁磿l(fā)現(xiàn)這種現(xiàn)象的解釋。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

而關于一開始的測試成績問題，Chaudhary 則表示正在調查原因，弄清這兩件事后會發(fā)布報告進行說明。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

Reflection 這邊最新的動態(tài)是 CEO 發(fā)布了一則道歉聲明，不過沒有承認造假，依然是說正在進行調查。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

不過對于這一套解釋，有很多人都不買賬。

比如曾經(jīng)發(fā)布多條推文質疑這位叫做 Boson 的網(wǎng)友，就在 Chaudhary 的評論區(qū)表示，“要么你在說謊，要么是 Shumer，或者你倆都在說謊”。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

還有給 Reflection 提供托管服務的 Hyperbolic 平臺 CTO Yuchen Jin，講述了其與 Reflection 之間發(fā)生的許多事情。

托管平臺 CTO 講述幕后細節(jié)

在 Reflection 發(fā)布之前的 9 月 3 號，Shumer 就找到了 Hyperbolic，介紹了 Reflection 的情況并希望 Hyperbolic 能幫忙托管。

基于 Hyperbolic 一直以來對開源模型的支持，加上 Reflection 聲稱的表現(xiàn)確實優(yōu)異，Hyperbolic 同意了這一請求。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

9 月 5 號，Reflection 正式上線，Hyperbolic 從 Hugging Face 下載并測試了該模型，但并沒有看到標簽，于是 Jin 給 Shumer 發(fā)了私信。

后來，Jin 看到 Shumer 的推文說 HF 上的版本有些問題，所以繼續(xù)等待，直到 6 號早晨收到了 Chaudhary 的一條私信，表示 Reflection-70B 權重已重新上傳并可以部署。

看到和標簽按預期出現(xiàn)后，Hyperbolic 上線了 Reflection。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

后來，Hyperbolic 上的模型就出現(xiàn)了成績與 Reflection 宣傳不符的情況，Shumer 認為這是 Hyperbolic 的 API 出現(xiàn)了問題。

不過，Reflection 這邊再次上傳了新版本，Hyperbolic 也重新托管，但 Jin 與 Artificial Analysis 溝通后發(fā)現(xiàn)，新版本的表現(xiàn)依舊差強人意。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

Shumer 繼續(xù)表示，Reflection 還有個原始權重，也就是內部測試使用的版本，如果需要可以提供給 Hyperbolic。

但 Jin 沒有同意這一要求，因為 Hyperbolic 只為開源模型提供托管服務，之后不斷詢問 Shumer 原始權重何時發(fā)布，但遲遲未得到回應。

最終，Jin 認為應該下線 Reflection 的 API 并收回已分配的 GPU 資源。

這件事情讓我的感情受到了傷害，我們在這件事上花費了很多時間和精力。
但經(jīng)過反思后，我并不后悔當初的托管決定，這幫助社區(qū)更快地發(fā)現(xiàn)問題。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

大模型怎么測試才靠譜？

暫且拋開 Llama 版本和套殼的問題，單說關于測試成績的問題，反映了當前的 Benchmark 已經(jīng)體現(xiàn)出了一些不足之處。

英偉達高級科學家 Jim Fan 就表示，模型在現(xiàn)有的一些測試集上造假簡直不要太容易。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

Jim 還特別點名了 MMLU 和 HumanEval，表示這兩項標準“已被嚴重破壞”。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

另外，Reflection 在 GSM8K 上取得了 99.2 分的成績，就算這個分數(shù)沒有水分，也說明測試基準到了該換的時候了。

Jim 表示，現(xiàn)在自己只相信 Scale AI 等獨立第三方測評，或者 lmsys 這樣由用戶投票的榜單。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

但評論區(qū)有人說，lmsys 實際上也可以被操縱，所以（可信的）第三方評估可能才是目前最好的測評方式。

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

參考鏈接：

[1]https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/
[2]https://x.com/ArtificialAnlys/status/1832505338991395131
[3]https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/
[4]https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/
[5]https://x.com/shinboson/status/1832933747529834747
[6]https://x.com/Yuchenj_UW/status/1833627813552992722
[7]https://twitter.com/DrJimFan/status/1833160432833716715

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西，原標題：《“最強開源模型”被打假，CEO 下場致歉，英偉達科學家：現(xiàn)有測試基準已經(jīng)不靠譜了》

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

表現(xiàn)不如宣傳，還被質疑套殼

托管平臺 CTO 講述幕后細節(jié)

大模型怎么測試才靠譜？

相關文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜

表現(xiàn)不如宣傳，還被質疑套殼

托管平臺 CTO 講述幕后細節(jié)

大模型怎么測試才靠譜？

相關文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

“最強開源模型”Reflection 被打假，英偉達科學家稱現(xiàn)有測試基準已不靠譜