91精品色婷,日韩少妇中出,国产 精一区二区三,欧美视频精品在线二区,婷婷久久日韩欧美,亚洲天堂性爱视频,亚洲香蕉一区,国产自产观看精品一区,日本 大胆成人

在《我的世界》里挖鉆石把 AI 難哭了,DeepMind 最新算法終于扳回顏面

量子位 2023/1/23 13:13:13 責(zé)編:夢(mèng)澤

又一個(gè) AI 老大難問(wèn)題,被 DeepMind 攻克了:

一只名叫 DreamerV3 的 AI,在啥也不知道的情況下被丟進(jìn)《我的世界》(MineCraft)里,摸爬滾打 17 天,還真就學(xué)會(huì)了如何從 0 開(kāi)始挖鉆石。

就是從擼樹(shù)開(kāi)始的那種

要知道,之前為了攻克這個(gè)問(wèn)題,CMU、微軟、DeepMind 和 OpenAI 還聯(lián)手在 NeurIPS 上拉了個(gè)比賽,叫 MineRL。

結(jié)果搞了三四年,AI 們也沒(méi)能在不參考人類(lèi)經(jīng)驗(yàn)的情況下,完成挖鉆石任務(wù)。

此前表現(xiàn)最好的 VPT 選手,為了達(dá)成這一成就,可是狂看了 70000 + 小時(shí)《我的世界》游戲視頻,并且用上了 720 個(gè) V100……

這不 DeepMind 的最新結(jié)果一出,研究人員都開(kāi)心壞了。

MineRL 的發(fā)起人之一、前 OpenAI 研究科學(xué)家 William Guss 就第一時(shí)間跑來(lái)發(fā)表賀電:

4 年了,“鉆石挑戰(zhàn)”終于被攻克了!

今年剛拿到了 NeurIPS 杰出數(shù)據(jù)集和基準(zhǔn)論文獎(jiǎng)的 MineDojo 作者、英偉達(dá) AI 科學(xué)家范麟熙則表示:

AI 玩轉(zhuǎn) MineCraft 背后,有個(gè)莫拉維克悖論:一些任務(wù)對(duì)于人類(lèi)而言很困難(比如圍棋),但對(duì) AI 來(lái)說(shuō)很簡(jiǎn)單。但像 MineCraft 這樣人類(lèi)高玩無(wú)數(shù)的游戲,情況卻相反。

DreamerV3 能在沒(méi)有任何人工數(shù)據(jù)輔助的情況下收集鉆石,這讓我感到非常興奮。

如何做到

所以,這個(gè) 0 基礎(chǔ)挖鉆石任務(wù),到底有啥難點(diǎn)?

首先,在《我的世界》里,初始世界是完全隨機(jī)生成的。

即使是人類(lèi)玩家,想要快速挖到鉆石,也得有相當(dāng)豐富的經(jīng)驗(yàn)。比如,知道怎么推算鉆石的位置、掌握一些挖掘竅門(mén)(如魚(yú)骨挖礦法)等。

排除掉經(jīng)驗(yàn)的因素,對(duì)于 AI 來(lái)說(shuō),這個(gè)挖鉆石的過(guò)程也挺復(fù)雜,至少得要 7 個(gè)步驟

第一步,玩家在空手進(jìn)入《我的世界》中時(shí),需要先擼樹(shù)來(lái)獲取木塊:

第二步,得用木塊用來(lái)合成工作臺(tái):

第三步,在工作臺(tái)上合成木鎬,用來(lái)挖圓石:

第四步,獲得圓石之后,需要合成一個(gè)石鎬,用來(lái)快速挖鐵礦:

第五步,為了將鐵礦合成鐵錠,還需要做一個(gè)熔爐來(lái)燒鐵:

第六步,合成鐵鎬,用來(lái)挖鉆石:

第七步,尋找鉆石,然后用鐵鎬挖出鉆石:

p.s. 有玩家測(cè)試過(guò),在 AI 知道鉆石等各種資源坐標(biāo)的情況下(開(kāi)外掛),也需要 2-3 分鐘才能搞定。

這也就意味著,AI 必須在有限時(shí)間里,做出大量決策。

那么既然不能參考人類(lèi)高手的經(jīng)驗(yàn),自然就需要強(qiáng)化學(xué)習(xí)(Reinforcement Learning)出馬。

具體而言,DeepMind 的研究人員提出了一種基于世界模型的通用算法。

在整體架構(gòu)上,DreamerV3 由 3 個(gè)神經(jīng)網(wǎng)絡(luò)組成:世界模型、評(píng)委(critic)和演員(actor)。

世界模型要做的,是把環(huán)境輸入編碼為離散的表征,并通過(guò)預(yù)測(cè)來(lái)指導(dǎo)下一步要執(zhí)行的操作。

而評(píng)委和演員則會(huì)根據(jù)抽象出來(lái)的表征進(jìn)行學(xué)習(xí)。其中,評(píng)委網(wǎng)絡(luò)會(huì)輸出一個(gè)標(biāo)量值來(lái)代表行動(dòng)價(jià)值,從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動(dòng)。

這里面的一個(gè)核心點(diǎn)在于,DeepMind 的研究人員希望 DreamerV3 不僅僅能處理同類(lèi)型的問(wèn)題,還可以用固定超參數(shù),掌握跨領(lǐng)域任務(wù)。

因此,研究人員需要系統(tǒng)地解決世界模型、評(píng)委和演員等各個(gè)組件中信號(hào)大小不同,以及穩(wěn)定平衡目標(biāo)的問(wèn)題。

研究人員發(fā)現(xiàn):

以前的世界模型,需要根據(jù)復(fù)雜 3D 環(huán)境的視覺(jué)輸入,對(duì)表征損失進(jìn)行不同的縮放,在訓(xùn)練過(guò)程中還得調(diào)整不少超參數(shù),但這里面其實(shí)有許多沒(méi)必要的細(xì)節(jié)。

而如果把自由比特(free bits)和 KL 平衡(KL balancing)結(jié)合起來(lái),就可以在不調(diào)整超參數(shù)的情況下讓 DreamerV3 在不同領(lǐng)域中學(xué)習(xí)。

KL 平衡是上一代 DreamerV2 中提出的一項(xiàng)新技術(shù)。能夠使預(yù)測(cè)向表征移動(dòng)的速度比表征向預(yù)測(cè)移動(dòng)的速度更快,帶來(lái)更精確的預(yù)測(cè)。

自由比特避免了簡(jiǎn)單環(huán)境下的過(guò)度擬合。

DreamerV3 的三大塊都用上了固定超參數(shù),具體如下:

實(shí)驗(yàn)結(jié)果

也就是說(shuō),DreamerV3 如今成了世界上第一個(gè)純靠自己摸索,就能在《我的世界》里速挖鉆石的 AI。

并且 DreamerV3 的本事可不只是玩 MC。

在另外 7 項(xiàng)基準(zhǔn)測(cè)試中,DreamerV3 都取得了成功,并且在 BSuite、Crafter 上達(dá)到了 SOTA。

值得一提的是,在這些任務(wù)中,訓(xùn)練智能體所用到的 GPU 資源都僅為 1 塊 V100。研究人員表示,這意味著有更多的實(shí)驗(yàn)室能跑得動(dòng)這一模型。

另外,在需要時(shí)空推理的三維空間中,DreamerV3 也能快速進(jìn)行學(xué)習(xí)。

在 DeepMind 為強(qiáng)化學(xué)習(xí)專(zhuān)門(mén)打造的 3D 平臺(tái) DMLab 上,DreamerV3 在任務(wù)中使用的交互次數(shù)僅為 IMPALA 的 1/130。

目前,DreamerV3 的代碼是 coming soon 的狀態(tài)。

感興趣的小伙伴可以蹲一波~

參考鏈接:

  • [1]https://danijar.com/project/dreamerv3/

  • [2]https://twitter.com/DeepMind/status/1613159943040811010

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:魚(yú)羊 Alex

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:我的世界DeepMind

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知

汽车| 都昌县| 乌海市| 古田县| 犍为县| 武威市| 区。| 乳源| 友谊县| 封开县| 綦江县| 文昌市| 威海市| 西乌珠穆沁旗| 衢州市| 永嘉县| 称多县| 邻水| 红桥区| 靖宇县| 宜宾县| 资兴市| 海丰县| 辛集市| 湟中县| 洪湖市| 寻乌县| 漳州市| 清远市| 漠河县| 保靖县| 赞皇县| 周宁县| 富平县| 广河县| 南川市| 旬邑县| 富阳市| 镇宁| 育儿| 交城县|