首頁

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

投稿

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

2026/3/18 15:11:12 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

感謝IT之家網(wǎng)友 Alita的迷弟、LL J、Skyraver、ZERO_A_ONE、補(bǔ)藥吖的線索投遞！

IT之家 3 月 18 日消息，今日 MiniMax 稀宇科技發(fā)布新一代 Agent 旗艦大模型 M2.7，首次展示“模型自我進(jìn)化”路徑。該模型通過構(gòu)建 Agent Harness 體系，據(jù)稱能讓模型深度參與自身訓(xùn)練與優(yōu)化流程。公司稱，在部分研發(fā)場景中，M2.7 可承擔(dān)約 30%—50% 的工作量，并在內(nèi)部評測集上實(shí)現(xiàn)約 30% 的效果提升。

在涵蓋多種編程語言的 SWE-Pro 中，M2.7 以 56.22% 的正確率追平 GPT-5.3-Codex；在 Repo 級代碼生成基準(zhǔn) VIBE-Pro 上，M2.7 得分 55.6%，幾乎與 Opus 4.6 持平。

IT之家附官方詳細(xì)介紹如下：

M2.7 能夠自行構(gòu)建復(fù)雜 Agent Harness，并基于 Agent Teams、復(fù)雜 Skills、Tool Search tool 等能力，完成高度復(fù)雜的生產(chǎn)力任務(wù)。例如，在研發(fā) M2.7 的過程中，我們基于模型構(gòu)建強(qiáng)化學(xué)習(xí) Harness 中的數(shù)十個復(fù)雜的 skills，更新自己的 memory，驅(qū)動模型自身的強(qiáng)化學(xué)習(xí)，并基于結(jié)果優(yōu)化強(qiáng)化學(xué)習(xí)過程和 Harness，開啟模型的自我進(jìn)化。

M2.7 在真實(shí)的軟件工程中有優(yōu)異的表現(xiàn)，包括端到端的完整項(xiàng)目交付，分析日志排查 Bug、代碼安全，機(jī)器學(xué)習(xí)等。在基準(zhǔn)測試 SWE-Pro 中，M2.7 得分 56.22%，幾乎接近 Opus 最好的水平。這一能力同樣延伸到了端到端的完整項(xiàng)目交付場景（VIBE-Pro 55.6%）以及對復(fù)雜工程系統(tǒng)的深層理解 Terminal Bench 2（57.0%）。
在專業(yè)辦公領(lǐng)域，我們提升了模型在各領(lǐng)域的專業(yè)知識和任務(wù)交付能力，在 GDPval-AA 的 ELO 得分是 1495，為開源最高。M2.7 對 Office 三件套 Excel / PPT / Word 的復(fù)雜編輯能力顯著提升，能更好地完成多輪修改和高保真的編輯。M2.7 具備與復(fù)雜環(huán)境交互的能力，M2.7 在 40 個復(fù)雜 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。在 OpenClaw 的使用中，M2.7 相比于 M2.5 也有了顯著的提升，在 MM-Claw 的評測中接近 Sonnet 4.6。
M2.7 具備優(yōu)秀的身份保持能力和情商，除了生產(chǎn)力使用外，給互動娛樂場景的創(chuàng)新也準(zhǔn)備了空間。

基于上述能力，M2.7 也在顯著加速我們自身向一個 AI Native 組織的進(jìn)化。

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

01、構(gòu)建模型自我進(jìn)化智能體

在最開始，我們分享一個我們內(nèi)部讓 M2 系列模型自我進(jìn)化的實(shí)踐，這也是對模型 Agent 能力邊界的探索。

Agent Harness 通常依賴復(fù)雜的 Skills、記憶系統(tǒng)和其他組件來提升模型對不同工作環(huán)境的適應(yīng)能力。在此基礎(chǔ)上，我們在 M2 的早期版本中，將其引導(dǎo)為一個研究型 Agent 框架 —— 它能夠與不同的研究項(xiàng)目組進(jìn)行交互和協(xié)作。該系統(tǒng)覆蓋了數(shù)據(jù)流水線、訓(xùn)練環(huán)境、評測基礎(chǔ)設(shè)施、跨團(tuán)隊(duì)協(xié)作、持久化記憶 —— 讓研究員可以驅(qū)動它來交付更好的模型。研究 Agent 驅(qū)動著產(chǎn)出下一代模型的迭代循環(huán)。研究員在每一層引導(dǎo)方向，模型在每一層負(fù)責(zé)構(gòu)建。

以一個 RL 場景為例：研究員從一個實(shí)驗(yàn)想法出發(fā)，與 Agent 展開討論。Agent 協(xié)助進(jìn)行文獻(xiàn)調(diào)研，持續(xù)跟蹤預(yù)設(shè)的實(shí)驗(yàn)規(guī)格，完成數(shù)據(jù)流水線及其他對接工作，并啟動實(shí)驗(yàn)。實(shí)驗(yàn)運(yùn)行期間，它會自動監(jiān)控和分析實(shí)驗(yàn)狀態(tài)，并自動觸發(fā)日志讀取、問題排查、指標(biāo)分析、代碼修復(fù)、合并請求以及冒煙測試，識別并配置那些細(xì)微但關(guān)鍵的變更。這些工作過去可能需要來自不同團(tuán)隊(duì)的多位同事協(xié)作完成，而現(xiàn)在研究員只需在關(guān)鍵決策和討論時介入。這大幅加速了問題發(fā)現(xiàn)和實(shí)驗(yàn)迭代，從而更快地交付模型。在這個場景下，M2.7 能夠勝任 30-50% 的工作流。

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

我們在迭代過程中也意識到，模型自主迭代 harness 的能力也至關(guān)重要。我們內(nèi)部的 harness 會自主收集反饋，建立內(nèi)部任務(wù)的評測集，并基于此不斷迭代自己的 Agent 架構(gòu)、Skills / MCP 實(shí)現(xiàn)和記憶機(jī)制，來更好和更高效的完成任務(wù)。

舉個例子，我們讓 M2.7 優(yōu)化一個內(nèi)部腳手架上模型的軟件工程開發(fā)表現(xiàn)。M2.7 全程自主運(yùn)行，執(zhí)行“分析失敗軌跡 → 規(guī)劃改動 → 修改腳手架代碼 → 運(yùn)行評測 → 對比結(jié)果 → 決定保留或回退”的迭代循環(huán)超過 100 輪。

這個過程中 M2.7 發(fā)現(xiàn)了針對模型的有效優(yōu)化：系統(tǒng)性搜索溫度、頻率懲罰、存在懲罰等采樣參數(shù)的最優(yōu)組合；為模型設(shè)計(jì)更具體的工作流指引（如修復(fù)后自動搜索其他文件中的相同 bug 模式）；在腳手架的 Agent Loop 中添加循環(huán)檢測等優(yōu)化。最終在內(nèi)部評測集上效果提升 30%。

我們相信，未來的 AI 自我進(jìn)化會逐步向完全自動化過渡，包括完全自主的協(xié)調(diào)數(shù)據(jù)構(gòu)建、模型訓(xùn)練、推理架構(gòu)、評測等等。我們用 M2.7 參與了 MLE Bench Lite 的 22 個機(jī)器學(xué)習(xí)任務(wù)測試，幾乎囊括了研發(fā)的所有環(huán)節(jié)。

我們設(shè)計(jì)和實(shí)現(xiàn)了一個簡易的腳手架來引導(dǎo) Agent 進(jìn)行自主優(yōu)化，核心的模塊包括短時記憶、自反饋以及自優(yōu)化三個模塊。具體來講，Agent 完成每輪迭代后會形成一個短時記憶文件，同時對當(dāng)前輪次的結(jié)果進(jìn)行自反饋，從而給下一輪次提供潛在的優(yōu)化方向，下一輪次基于所有歷史輪次的記憶及自反饋鏈進(jìn)行下一步的自優(yōu)化。

我們總共測試三次，每次有 24 小時來迭代進(jìn)化，從下圖中能夠看到 M2.7 隨時間不斷取得更高的性能。最好的一次取得 9 枚金牌，5 枚銀牌，1 枚銅牌。三次平均是 66.6% 的得牌率，此成績僅次于 Opus-4.6 (75.7%)、GPT-5.4 (71.2%)，和 Gemini-3.1 (66.6%) 持平。

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

02、真實(shí)的軟件工程

在編程等代碼生成類任務(wù)上，M2.7 更深入地打磨了真實(shí)軟件工程所需的編程能力，覆蓋日志分析與 Bug 定位、代碼重構(gòu)、代碼安全、機(jī)器學(xué)習(xí)、安卓開發(fā)等方向。

以線上最常見的線上生產(chǎn)環(huán)境故障調(diào)試為例 —— 這類任務(wù)不僅需要生成代碼，還需要很強(qiáng)的綜合推理能力。面對我們實(shí)際的生產(chǎn)環(huán)境告警，M2.7 能關(guān)聯(lián)監(jiān)控指標(biāo)與部署時間線做因果推理，對軌跡采樣做統(tǒng)計(jì)分析并提出精準(zhǔn)假設(shè)，主動連接數(shù)據(jù)庫執(zhí)行驗(yàn)證根因，定位到代碼倉庫中缺失的索引遷移文件，甚至知道用非阻塞建索引先止血，再提 MR。

從可觀測性分析、數(shù)據(jù)庫專業(yè)知識到 SRE 級別的決策判斷 —— 這不只是一個會寫代碼的模型，而是一個真正理解生產(chǎn)系統(tǒng)的模型。相比傳統(tǒng)的人工排障流程，基于 M2.7，我們已多次將線上生產(chǎn)系統(tǒng)故障的恢復(fù)時間縮短到三分鐘以內(nèi)。

在單項(xiàng)編程能力上，M2.7 已具備國際一線模型水準(zhǔn)。在涵蓋多種編程語言的 SWE-Pro 中，M2.7 以 56.22% 的正確率追平 GPT-5.3-Codex；而在更貼近真實(shí)工程場景的 SWE Multilingual（76.5）和 Multi SWE Bench（52.7）中展現(xiàn)出更顯著優(yōu)勢。

這一能力同樣延伸到了端到端的完整項(xiàng)目交付場景。在 Repo 級代碼生成基準(zhǔn) VIBE-Pro 上，M2.7 得分 55.6%，幾乎與 Opus 4.6 持平 —— 這意味著無論是 Web、Android、iOS 還是 Simulation 類需求，都可以直接交給 M2.7 完成。

更值得關(guān)注的，是對復(fù)雜工程系統(tǒng)的深層理解。在對系統(tǒng)認(rèn)知要求極高的 Terminal Bench 2（57.0%）和 NL2Repo（39.8%）中，M2.7 同樣表現(xiàn)穩(wěn)健，進(jìn)一步印證了它不只擅長代碼生成，更能深入理解軟件系統(tǒng)的運(yùn)行邏輯與協(xié)作流程。

為了提升開發(fā)效率，一個比較重要的特性是原生的 Agent Teams （多智能體協(xié)作）。Agent Teams 對模型提出了范式級要求：角色邊界、對抗性推理、協(xié)議遵循、行為分化 —— 這些無法通過提示詞，必須內(nèi)化為模型的原生能力。

Agent Teams 場景下，模型需要穩(wěn)定錨定角色身份、主動挑戰(zhàn)隊(duì)友的邏輯與倫理盲區(qū)、在復(fù)雜狀態(tài)機(jī)中自主決策。下面是我們內(nèi)部使用的一個做產(chǎn)品原型開發(fā)的 Agent Teams，里面包含了做產(chǎn)品原型的一個最小組織。

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

Agent Teams 協(xié)作模擬演示

03、專業(yè)辦公

除了軟件工程外，Agent 開始在辦公場景中變得越來越有用，我們認(rèn)為這是兩個核心能力：

專業(yè)知識與任務(wù)交付能力。 模型需要具備各領(lǐng)域的專業(yè)知識，理解用戶的需求。在衡量這一能力的 GDPval-AA 的評測中，M2.7 在 45 個模型中的 ELO 得分是 1500，僅次于 Opus 4.6、Sonnet 4.6 和 GPT5.4，超過了 GPT5.3。在最常見的辦公文件處理上，我們系統(tǒng)性地優(yōu)化了模型處理 Word、Excel 和 PPT 的能力。M2.7 在各種 Agent Harness 上，既能夠基于模版和 skills 直接生成文件，也能夠遵從用戶的交互指令，對已有的文件做多輪的高保真編輯，最終給出可編輯的產(chǎn)物。
與復(fù)雜環(huán)境的交互能力。 泛化的日常場景意味著模型需要靈活適應(yīng)各類上下文、調(diào)用各種 skills 和工具、并在長程交互中保持穩(wěn)定的指令遵循。M2.7 在這些方面有大幅提升。在 Toolathon 上，M2.7 的正確率 46.3%，達(dá)到了全球第一梯隊(duì)水平。真實(shí)工作場景中的 Agent Harness 往往也需要理解和調(diào)用大量復(fù)雜的 skills。在 MM-Claw 的測試中，M2.7 在 40 個復(fù)雜 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。

我們測試了在 Finance 領(lǐng)域的專業(yè)水準(zhǔn)，與上代模型相比，模型的能力提升顯著。例如，在 Finance 領(lǐng)域一個閱讀研報并建模公司未來營收的場景，M2.7 可以自主閱讀公司的年報與業(yè)績溝通會紀(jì)要，交叉比對多篇研報，獨(dú)立設(shè)計(jì)假設(shè)并構(gòu)建營收預(yù)測模型，再基于模版產(chǎn)出 PPT 和研究報告 —— 像一個初級分析師一樣理解、判斷、輸出，并在多輪交互中自我修正。從業(yè)者的評價是：產(chǎn)出物已經(jīng)可以作為初稿直接進(jìn)入后續(xù)工作流程。

下面是一個關(guān)于臺積電的例子。

任務(wù)：基于臺積電年報和業(yè)績溝通會信息，構(gòu)建臺積電的營收模型，讀取多個研報，設(shè)計(jì)對應(yīng)的假設(shè)，基于最新的信息對臺積電營收建模，然后基于 PPT 模版產(chǎn)出 PPT ，并寫一個 Word 文檔研究報告和 Excel 圖表。

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

① PPT 報告演示

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

② Word 調(diào)研報告

最近 OpenClaw 爆火為代表的 Agent 社區(qū)蓬勃發(fā)展，我們很高興看到 M2 系列模型幫助到了社區(qū)的繁榮。我們基于 OpenClaw 中的常用任務(wù)，構(gòu)建了一個評測集 MM-Claw，涵蓋個人學(xué)習(xí)規(guī)劃，到辦公文檔的處理與交付、定時的專業(yè)信息調(diào)研與投資建議、代碼開發(fā)與維護(hù)等工作與生活中形形色色的真實(shí)需求。M2.7 在這個測試中達(dá)到了接近 Sonnet 4.6 的水平，正確率是 62.7%。

04、互動娛樂

在 OpenClaw 等 Agent 腳手架的使用過程中，不少用戶在使用 Agent 完成工作的同時，還希望模型具備比較高的情商和復(fù)雜人設(shè)保持能力。在有人設(shè)的情況下，用戶不再只是讓模型機(jī)械完成任務(wù)，而是開始自然于與 Agent “相處”。這促使我們思考，產(chǎn)品與交互設(shè)計(jì)、內(nèi)容創(chuàng)作、甚至娛樂體驗(yàn)的構(gòu)建，都可以被 AI 原生驅(qū)動的可能性。我們認(rèn)為這會讓 Agentic 模型的使用從單純的生產(chǎn)力能進(jìn)一步拓展到互動娛樂。為此，我們在 M2.7 中極大加強(qiáng)了人設(shè)保持和對話能力。

基于此，我們構(gòu)建了一個 Agent 交互系統(tǒng) OpenRoom，它將 AI 互動置入一個萬物皆可互動的 Web GUI 空間。在這里，對話即驅(qū)動，實(shí)時產(chǎn)生視覺反饋與場景交互，角色可以主動地與環(huán)境交互。我們認(rèn)為這個框架擴(kuò)展性較高，能夠隨著模型 Agentic 能力的提升和社區(qū)的共建持續(xù)進(jìn)化，探索出更多人與 Agent 之間全新的交互方式。為了促進(jìn)這個領(lǐng)域的創(chuàng)新，我們已將這個原型項(xiàng)目開源（這個里面的代碼大部分也是 AI 寫的）：

項(xiàng)目地址： github.com/ MiniMax-AI/OpenRoom

立即體驗(yàn)： openroom.ai

MiniMax M2.7 已在 MiniMax Agent 與開放平臺上全量上線，期待用戶和開發(fā)者朋友們能在 MiniMax M2.7 上探索出更多有趣場景。

MiniMax Agent：agent.minimaxi.com

API 服務(wù)：platform.minimaxi.com

Coding Plan 訂閱：platform.minimaxi.com/subscribe/coding-plan

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

相關(guān)文章

91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑

相關(guān)文章

91精品色婷,日韩少妇中出,国产精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本大胆成人

MiniMax 發(fā)布新一代 Agent 大模型 M2.7，首次展示模型自我進(jìn)化路徑