91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

微軟亮劍智能辦公:解決“知行不一”難題,讓 AI 替你干活、老板還夸你效率高

2025/11/18 9:51:19 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 11 月 18 日消息,微軟亞洲研究院于 11 月 16 日發(fā)布博文,介紹了名為 UI-Evol 的新組件,旨在解決計(jì)算機(jī)使用 AI 智能體(computer-use AI agents)因軟件界面頻繁變更而導(dǎo)致的準(zhǔn)確性與可靠性不足問(wèn)題。

IT之家援引博文介紹,計(jì)算機(jī)使用智能體是一種新興的人工智能系統(tǒng),它能像人類(lèi)一樣通過(guò)圖形用戶(hù)界面(GUI)自主操作各類(lèi)軟件,以完成填寫(xiě)表單、管理工作流等復(fù)雜任務(wù)。

盡管前景廣闊,這類(lèi)智能體在實(shí)際應(yīng)用中卻表現(xiàn)不佳。它們通常依賴(lài)從網(wǎng)絡(luò)獲取的外部知識(shí),來(lái)理解屏幕內(nèi)容并執(zhí)行操作,但常常無(wú)法將這些知識(shí)成功轉(zhuǎn)化為行動(dòng),這一難題被稱(chēng)為“知識(shí)-行動(dòng)鴻溝”(knowledge-action gap)。

微軟援引的一項(xiàng)研究凸顯了該問(wèn)題的嚴(yán)重性:即便 AI 智能體獲得了高達(dá) 90% 的正確指令,其任務(wù)的最終成功率也僅有 41%。

此外,這些 AI 智能體的行為難以預(yù)測(cè),每次執(zhí)行相同任務(wù)時(shí)都可能采用不同的方式,表現(xiàn)出極大的不穩(wěn)定性,這嚴(yán)重阻礙了它們?cè)趯?shí)際場(chǎng)景中的應(yīng)用。

圖 1:上圖展示了正確的外部知識(shí)在實(shí)際應(yīng)用中仍然無(wú)法發(fā)揮作用。下圖展示了 UI-Evol 如何通過(guò)將知識(shí)與軟件環(huán)境相結(jié)合來(lái)縮小這一差距,從而實(shí)現(xiàn)更可靠的性能。

微軟亞洲研究院為解決這一核心挑戰(zhàn),開(kāi)發(fā)了一款名為 UI-Evol 的即用型組件。該組件能無(wú)縫集成到智能體的工作流程中,其設(shè)計(jì)思路并非僅僅依賴(lài)外部的靜態(tài)知識(shí),而是讓智能體直接從真實(shí)的軟件界面中獲取指導(dǎo)。

UI-Evol 能夠持續(xù)更新和優(yōu)化其對(duì)界面的理解,通過(guò)將知識(shí)與軟件環(huán)境動(dòng)態(tài)對(duì)齊,幫助智能體更準(zhǔn)確、更可靠地完成任務(wù),從而有效彌合理論知識(shí)與實(shí)際操作之間的差距。這項(xiàng)研究成果已被 ICML 2025 計(jì)算機(jī)使用智能體研討會(huì)接收。

UI-Evol 的工作原理分為兩個(gè)關(guān)鍵階段。第一階段是“回溯”(retrace),系統(tǒng)會(huì)精確記錄下智能體為完成某項(xiàng)任務(wù)所執(zhí)行的每一步操作,包括所有的點(diǎn)擊、按鍵等具體行為,從而捕獲一套完整的、可驗(yàn)證的行動(dòng)軌跡。

圖 2:UI-Evol 的兩個(gè)階段通過(guò)智能體的實(shí)際行為來(lái)完善外部指令,從而產(chǎn)生在實(shí)踐中有效的指導(dǎo)。

第二階段是“審?!保╟ritique),系統(tǒng)會(huì)將這套實(shí)際行動(dòng)軌跡與外部指令進(jìn)行比對(duì)。一旦發(fā)現(xiàn)不匹配之處,UI-Evol 便會(huì)調(diào)整知識(shí)庫(kù),使其反映真正在軟件中行之有效的操作步驟。通過(guò)這兩個(gè)階段的循環(huán),外部的通用指令被逐步演化為經(jīng)過(guò)實(shí)踐檢驗(yàn)的、高度可靠的智能體行動(dòng)指南。

研究團(tuán)隊(duì)在頂尖水平的計(jì)算機(jī)使用智能體 Agent S2 上,使用 OSWorld 基準(zhǔn)測(cè)試對(duì) UI-Evol 進(jìn)行了評(píng)估。OSWorld 專(zhuān)為評(píng)測(cè)多模態(tài)智能體在真實(shí)軟件和工作流中的開(kāi)放式任務(wù)而設(shè)計(jì)。

結(jié)果表明,UI-Evol 不僅顯著提升了任務(wù)成功率,還解決了一個(gè)長(zhǎng)期存在的難題 ——“高行為標(biāo)準(zhǔn)差”,即智能體在執(zhí)行相同任務(wù)時(shí)行為不一致的問(wèn)題。集成 UI-Evol 后,基于 GPT-4o 等先進(jìn)大語(yǔ)言模型的智能體表現(xiàn)出更高的穩(wěn)定性與可預(yù)測(cè)性。

OSWorld 上的實(shí)驗(yàn)結(jié)果?!癝R”表示成功率。結(jié)果表明,計(jì)算機(jī)用戶(hù)智能體的行為通常難以預(yù)測(cè)。采用 UI-Evol 后,性能得到提升,其行為也變得更加穩(wěn)定。

以上圖源:微軟亞洲研究院

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知

长丰县| 江陵县| 南昌县| 云安县| 车险| 开化县| 斗六市| 西平县| 鹤山市| 博白县| 葫芦岛市| 太谷县| 普宁市| 镇宁| 太原市| 崇州市| 临武县| 襄樊市| 莱芜市| 章丘市| 漯河市| 江达县| 中超| 浮山县| 诸暨市| 汉寿县| 环江| 福安市| 鄂尔多斯市| 安岳县| 赤城县| 鄯善县| 丹巴县| 启东市| 洮南市| 孟津县| 浦县| 扶绥县| 丰镇市| 崇仁县| 侯马市|