首頁(yè)

IT圈

最會(huì)買(mǎi)

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應(yīng)用

App客戶(hù)端
要知App
軟媒魔方

首頁(yè) > 智能時(shí)代>人工智能

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

量子位 2025/1/2 11:14:46 責(zé)編：汪淼

評(píng)論：

微軟又把 OpenAI 的機(jī)密泄露了？？在論文中明晃晃寫(xiě)著：

o1-preview 約 300B 參數(shù)，GPT-4o 約 200B，GPT-4o-mini 約 8B……

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

英偉達(dá) 2024 年初發(fā)布 B200 時(shí)，就攤牌了 GPT-4 是 1.8T MoE 也就是 1800B，這里微軟的數(shù)字更精確，為 1.76T。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

除此之外，論文中給 OpenAI 的 mini 系列，Claude3.5 Sonnet 也都附上了參數(shù)，總結(jié)如下：

o1-preview 約 300B；o1-mini 約 100B
GPT-4o 約 200B；GPT-4o-mini 約 8B
Claude 3.5 Sonnet 2024-10-22 版本約 175B
微軟自己的 Phi-3-7B，這個(gè)不用約了就是 7B

雖然論文中后面也有免責(zé)聲明：

確切數(shù)據(jù)尚未公開(kāi)，這里大部分?jǐn)?shù)字是估計(jì)的。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

但還是有不少人覺(jué)得事情沒(méi)這么簡(jiǎn)單。

比如為什么唯獨(dú)沒(méi)有放谷歌 Gemini 模型的參數(shù)估計(jì)？或許他們對(duì)放出來(lái)的數(shù)字還是有信心的。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

也有人認(rèn)為，大多數(shù)模型都是在英偉達(dá) GPU 上運(yùn)行的，所以可以通過(guò) token 生成速度來(lái)估計(jì)。

只有谷歌模型是在 TPU 上運(yùn)行的，所以不好估計(jì)。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

而且微軟也不是第一次干這事了。

2023 年 10 月，微軟就在一篇論文里“意外”曝出 GPT-3.5-Turbo 模型的 20B 參數(shù)，在后續(xù)論文版本中又刪除了這一信息。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

就說(shuō)你是故意的還是不小心的？

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

微軟這篇論文說(shuō)了什么

實(shí)際上，原論文介紹了一項(xiàng)與醫(yī)學(xué)相關(guān)的 benchmark——MEDEC。

12 月 26 日就已經(jīng)發(fā)布，不過(guò)是比較垂直領(lǐng)域的論文，可能非相關(guān)方向的人都不會(huì)看，年后才被列文虎克網(wǎng)友們發(fā)現(xiàn)。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

研究起因是，據(jù)美國(guó)醫(yī)療機(jī)構(gòu)調(diào)查顯示，有 1/5 的患者在閱讀臨床筆記時(shí)報(bào)告發(fā)現(xiàn)了錯(cuò)誤，而 40% 的患者認(rèn)為這些錯(cuò)誤可能影響他們的治療。

而且另一方面，LLMs (大語(yǔ)言模型）被越來(lái)越多的用于醫(yī)學(xué)文檔任務(wù)（如生成診療方法）。

因此，MEDEC 此番有兩個(gè)任務(wù)。一是識(shí)別并發(fā)現(xiàn)臨床筆記中的錯(cuò)誤；二是還能予以改正。

為了進(jìn)行研究，MEDEC 數(shù)據(jù)集包含 3848 份臨床文本，其中包括來(lái)自三個(gè)美國(guó)醫(yī)院系統(tǒng)的 488 份臨床筆記，這些筆記之前未被任何 LLM 見(jiàn)過(guò)。

它涵蓋五種類(lèi)型的錯(cuò)誤（診斷、管理、治療、藥物治療和致病因子），這些錯(cuò)誤類(lèi)型是通過(guò)分析醫(yī)學(xué)委員會(huì)考試中最常見(jiàn)的問(wèn)題類(lèi)型選擇的，并由 8 位醫(yī)療人員參與錯(cuò)誤標(biāo)注。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

而參數(shù)泄露即發(fā)生在實(shí)驗(yàn)環(huán)節(jié)。

按照實(shí)驗(yàn)設(shè)計(jì)，研究者將選取近期主流的大模型和小模型來(lái)參與筆記識(shí)別和糾錯(cuò)。

而就在介紹最終選定的模型時(shí)，模型參數(shù)、發(fā)布時(shí)間一下子都被公開(kāi)了。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

對(duì)了，省去中間過(guò)程，這項(xiàng)研究得出的結(jié)論是：Claude 3.5 Sonnet 在錯(cuò)誤標(biāo)志檢測(cè)方面優(yōu)于其他 LLM 方法，得分為 70.16，第二名是 o1-mini。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

網(wǎng)友：按價(jià)格算合理

每一次，ChatGPT 相關(guān)模型架構(gòu)和參數(shù)泄露，都會(huì)引起軒然大波，這次也不例外。

2023 年 10 月，微軟論文聲稱(chēng) GPT-3.5-Turbo 只有 20B 參數(shù)的時(shí)候，就有人感嘆：難怪 OpenAI 對(duì)開(kāi)源模型這么緊張。

2024 年 3 月，英偉達(dá)確認(rèn) GPT-4 是 1.8T MoE，而 2000 張 B200 可以在 90 天內(nèi)完成訓(xùn)練的時(shí)候，大家覺(jué)得 MoE 已經(jīng)且仍將是大模型架構(gòu)趨勢(shì)。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

這一次，基于微軟估計(jì)的數(shù)據(jù)，網(wǎng)友們主要有幾個(gè)關(guān)注點(diǎn)：

如果 Claude 3.5 Sonnet 真的比 GPT-4o 還小，那 Anthropic 團(tuán)隊(duì)就擁有技術(shù)優(yōu)勢(shì)。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

以及不相信 GPT-4o-mini 只有 8B 這么小。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

不過(guò)此前也有人根據(jù)推理成本來(lái)算，4o-mini 的價(jià)格是 3.5-turbo 的 40%，如果 3.5-turbo 的 20B 數(shù)字準(zhǔn)確，那么 4o-mini 剛好是 8B 左右。

不過(guò)這里的 8B 也是指 MoE 模型的激活參數(shù)。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

總之，OpenAI 大概是不會(huì)公布確切數(shù)字了。

此前阿爾特曼征集 2024 年新年愿望，最后公布的清單中還有“開(kāi)源”。2025 年的最新版本里，開(kāi)源已經(jīng)被去掉了。

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

論文地址：

https://arxiv.org/pdf/2412.19260

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：夢(mèng)晨、一水，原標(biāo)題《4o-mini 只有 8B，o1 也才 300B！微軟論文意外曝光 GPT 核心機(jī)密》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

微軟這篇論文說(shuō)了什么

網(wǎng)友：按價(jià)格算合理

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密

微軟這篇論文說(shuō)了什么

網(wǎng)友：按價(jià)格算合理

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

4o-mini 只有 8B、o1 也才 300B，微軟論文意外曝光 GPT 核心機(jī)密