IT之家 5 月 26 日消息,微軟研究院本月發(fā)布開源網(wǎng)頁智能體框架 Webwright,讓 AI 模型在終端里編寫 Playwright(瀏覽器自動(dòng)化庫)代碼、執(zhí)行 bash 命令、查看日志并反復(fù)修正。
IT之家援引博文介紹,常見網(wǎng)頁智能體采用“截圖或 DOM 狀態(tài) → 預(yù)測(cè)下一次點(diǎn)擊、輸入或滾動(dòng)”模式,而微軟 Webwright 讓模型直接在終端中寫 Playwright 代碼、執(zhí)行 shell 命令、檢查日志、截圖和報(bào)錯(cuò),再持續(xù)修改腳本。
在架構(gòu)方面,該框架采用 Runner、Model Endpoint 和終端環(huán)境 3 個(gè)核心組件。公開信息顯示,Runner 約 150 行代碼,模型接口約 550 行,環(huán)境部分約 300 行,總計(jì)約 1000 行,沒有多智能體編排,也沒有復(fù)雜分層規(guī)劃。

在執(zhí)行流程上,Runner 把當(dāng)前上下文發(fā)給模型,模型返回思考內(nèi)容與一條 shell 命令,環(huán)境執(zhí)行后再返回終端輸出、日志、截圖或錯(cuò)誤棧,隨后進(jìn)入下一輪。
相較一次只預(yù)測(cè)一個(gè)低級(jí)動(dòng)作,代碼方式更適合表達(dá)多步網(wǎng)頁任務(wù),例如完整填寫表單、選擇日期、跨頁面重復(fù)操作,也更容易借助循環(huán)、函數(shù)和抽象復(fù)用能力。
團(tuán)隊(duì)重點(diǎn)解決了 2 個(gè)工程問題。首先是“過早宣告完成”,模型可能在任務(wù)沒真正結(jié)束后就聲稱成功。
為此,Webwright 加入一個(gè)門控步驟:模型必須先生成自檢配置,再在全新文件夾里運(yùn)行最終腳本,結(jié)合日志和截圖通過自我反思判斷成功或失敗,之后才能輸出完成標(biāo)記。
其次是上下文膨脹,長(zhǎng)軌跡編碼容易超出上下文限制,因此系統(tǒng)每 20 步會(huì)把歷史壓縮成一份摘要。
基準(zhǔn)測(cè)試方面,Webwright 在 Online-Mind2Web 和 Odysseys 上都給出較強(qiáng)表現(xiàn)。前者包含 300 個(gè)任務(wù)、覆蓋 136 個(gè)常用網(wǎng)站,基于 GPT-5.4 的 Webwright 整體準(zhǔn)確率達(dá)到 86.67%,在 100 步預(yù)算下位列公開 harness 配方前列。

Odysseys 關(guān)注跨多網(wǎng)站的長(zhǎng)鏈路瀏覽任務(wù),任務(wù)指令平均 272.3 個(gè)詞。2026 年 4 月榜單最佳模型 Opus 4.6 得分為 44.5%,而 Webwright+GPT-5.4 達(dá)到 60.1%,相對(duì)此前最佳結(jié)果提升 35.1%,比基礎(chǔ) GPT-5.4 的 33.5% 高出 26.6 個(gè)百分點(diǎn),提升 81.49%。



參考
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。