九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
人類一敗涂地?DeepMind推出Agent57,在所有雅達利游戲上超越人類玩家
機器之心報道

機器之心編輯部


讓單個智能體完成盡可能多的任務(wù)是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智能的必經(jīng)之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利游戲中實現(xiàn)了超越人類的表現(xiàn)。時隔數(shù)月,DeepMind 在這一方向上更進一步,在 57 款雅達利游戲中全面超越人類,在這一領(lǐng)域尚屬首次。


DeepMind 在最新發(fā)布的預印本論文和博客中介紹了這一進展。他們構(gòu)建了一個名為 Agent57 的智能體,該智能體在街機學習環(huán)境(Arcade Learning Environment,ALE)數(shù)據(jù)集所有 57 個雅達利游戲中實現(xiàn)了超越人類的表現(xiàn)。

如果這一說法成立,Agent57 可以為構(gòu)建更加強大的 AI 決策模型奠定基礎(chǔ)。它還能夠隨著計算量的增加而擴展,訓練時間越長,得分也越高。

論文鏈接:https://arxiv.org/pdf/2003.13350.pdf

57 款雅達利游戲

利用游戲來評估智能體性能是強化學習研究中的一個普遍做法。游戲中的環(huán)境是對真實環(huán)境的一種模擬,通常來說,智能體在游戲中能夠應(yīng)對的環(huán)境越復雜,它在真實環(huán)境中的適應(yīng)能力也會越強。街機學習環(huán)境包含 57 款雅達利游戲,可以為強化學習智能體提供各種復雜挑戰(zhàn),因此被視為評估智能體通用能力的理想試驗場。

為什么要選擇雅達利游戲?原因有以下幾點:

1. 足夠多樣化,可以評估智能體的泛化性能
2. 足夠有趣,可以模擬在真實環(huán)境中可能遇到的情況;
3. 由一個獨立的組織構(gòu)建,可以避免實驗偏見。

在雅達利游戲中,我們希望智能體能夠在盡可能多的游戲中表現(xiàn)良好,對當前所處的游戲做出最少的假設(shè),而且不使用特定于某個游戲的信息。

DeepMind 對雅達利游戲的挑戰(zhàn)很早就開始了。2012 年,他們創(chuàng)建了 Deep Q-Network(DQN)算法來挑戰(zhàn)雅達利的 57 種游戲,此后又經(jīng)過了多次改進。但遺憾的是,經(jīng)過改進的 DQN 也始終沒有克服四種比較難的游戲:Montezuma's Revenge、Pitfall、Solaris 和 Skiing。此次新發(fā)布的 Agent57 改變了這一局面。


DQN 的改進歷程(圖片來源于 DeepMind 官方博客)

強化學習的挑戰(zhàn)

為實現(xiàn)目前的 SOTA 表現(xiàn),DeepMind 的 Agent57 使用強化學習算法,并同時運行在多臺電腦上,這些 AI 賦能的智能體在環(huán)境中選擇能夠最大化獎賞的動作去執(zhí)行。強化學習在電子游戲領(lǐng)域已經(jīng)展現(xiàn)出了極大的潛力——OpenAI 的 OpenAI Five 和 DeepMind 的 AlphaStar RL 智能體分別打敗了 99.4% 的 Dota 2 玩家和 99.8% 的星際 2 玩家。然而研究人員指出,這并不意味著目前的強化學習方法就無懈可擊了。

RL 中存在長期信度分配(credit assignment)問題,也就是根據(jù)信度選取最能夠產(chǎn)生之后好/壞結(jié)果的動作。當獎賞信號具有延遲并且信度分配需要跨越較長動作序列時,以上問題變得尤為困難。另外 RL 還存在探索和災難性遺忘的問題。智能體在游戲中獲得第一個正獎賞之前,可能需要執(zhí)行上百個動作,并且智能體很容易被困在從隨機數(shù)據(jù)里尋找規(guī)律的過程中,或當學習新的信息時突然忘記之前已學到的信息。

NGU(Never Give Up)是一種在兩個層面上通過從內(nèi)部產(chǎn)生固有獎賞來增強獎勵信號的技術(shù):在單個 episode 中的短期新穎激勵和跨越多個 episode 的長期新穎激勵。使用 episodic 記憶,NGU 學會了一系列用于探索和利用(exploring and exploiting)的策略,最終目標是利用習得策略獲得游戲的最高得分。

為解決以上問題,DeepMind 團隊在 NGU 基礎(chǔ)上構(gòu)建了新的 RL 算法。NGU 的缺陷之一為:其通過不同策略來收集相同數(shù)量的經(jīng)驗,而忽略了不同策略在學習過程中的貢獻。與之不同的是,DeepMind 的實現(xiàn)將其探索策略貫穿在智能體的整個生命周期中,這使得智能體能夠根據(jù)其所處的不同游戲有針對性地學習策略。

兩種 AI 模型+元控制器:Agent 57實現(xiàn)最佳策略選擇

Agent57 總體框架(圖片來源于 DeepMind 官方博客)

至于 Agent57 的具體架構(gòu),它通過將眾多 actor 饋入到學習器可以采樣的一個中央存儲庫(經(jīng)驗回溯緩沖器),進而實現(xiàn)數(shù)據(jù)收集。該緩沖器包含定期剪枝的過渡序列,它們是在與獨立、按優(yōu)先級排列的游戲環(huán)境副本交互的 actor 進程中產(chǎn)生的。

DeepMind 團隊使用兩種不同的 AI 模型來近似每個狀態(tài)動作的價值(state-action value),這些價值能夠說明智能體利用給定策略來執(zhí)行特定動作的好壞程度,這樣就使得 Agent57 智能體可以適應(yīng)與獎勵相對應(yīng)的均值與方差。他們還整合了一個可以在每個 actor 上獨立運行的元控制器,從而可以在訓練和評估時適應(yīng)性地選擇使用哪種策略。

Agent57 與其他算法的性能對比。圖源:DeepMind。

研究者表示,這個元控制器具有以下兩大優(yōu)勢:其一,得益于訓練中的策略優(yōu)先級選擇,它可以使得 Agent57 分配更多的網(wǎng)絡(luò)容量來更好地表征與手邊任務(wù)最相關(guān)策略的狀態(tài)行動值函數(shù);其二,它以一種自然的方式在評估時選擇最佳策略。

實驗結(jié)果

為評估 Agent57 的性能,DeepMind 團隊將這種算法與 MuZero、R2D2 和 NGU 等領(lǐng)先算法進行了對比。實踐可知 MuZero 在全部 57 種游戲中達到了最高平均分(5661.84)和最高中值(2381.51),但也在 Venture 等游戲中表現(xiàn)很差,得分只到和隨機策略相當?shù)乃健?/span>

實際上,與 R2D2(96.93)和 MuZero(89.92)相比,Agent57 的總體表現(xiàn)上限更高(100),訓練 50 億幀即在 51 種游戲上超越了人類,訓練 780 億幀后在 Skiing 游戲上超越了人類。

隨后研究人員分析了使用 meta-controller 的效果。與 R2D2 相比其性能可以提高近 20%,即使在 Solaris 和 Skiing 這種智能體需要收集長時間段信息才能學習所需反饋的長期回報游戲中,也有明顯的效果。


谷歌在博客中表示:「Agent57 最終在所有基準測試集最困難的游戲中都超過了人類水平。但這并不意味著 Atari 研究的結(jié)束,我們不僅要關(guān)注數(shù)據(jù)效率,也需要關(guān)注總體表現(xiàn)……未來的主要改進可能會面向 Agent57 在探索、規(guī)劃和信度分配上?!?/span>

足夠驚艷,但有炒作之嫌?

在 DeepMind 推出 Agent57 之后,其宣稱在所有雅達利游戲上超越人類的口號吸引了業(yè)內(nèi)人士的關(guān)注。但也有網(wǎng)友提出了一些疑問。

下面這位網(wǎng)友對 DeepMind 宣稱的「human」提出了質(zhì)疑,認為 Agent57 超越的只是「average human」。他以《蒙提祖瑪?shù)膹统稹窞槔?,表?Agent57 的分數(shù)(9352.01)只是超越了「average human」(4753.30),但并未打破人類玩家的記錄 1219200.0。


另外,也有人指出了 DeepMind 的研究總是側(cè)重于在雅達利等游戲上的性能表現(xiàn),應(yīng)該更多地關(guān)注現(xiàn)實世界的實際問題。


不過,人們對于從 DQN 到 Agent57 這一算法改進的「系統(tǒng)樹」保持了肯定的態(tài)度。這一方向?qū)τ趶娀瘜W習的進步究竟有多大意義,還需要時間來驗證。


參考鏈接:
https://deepmind.com/blog/article/Agent57-Outperforming-the-human-Atari-benchmark
https://venturebeat.com/2020/03/31/deepminds-agent57-beats-humans-at-57-classic-atari-games/


文為機器之心報道,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
?------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
廣告 & 商務(wù)合作:bd@jiqizhixin.com
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepMind的人工智能現(xiàn)在可以玩全部57款雅達利游戲,但它還不夠萬能
斯坦福提出無需人類示范的強化學習算法SOORL
DeepMind全能AI:完全自學規(guī)則,攻破多款游戲,表現(xiàn)碾壓人類!
DeepMind回應(yīng)一切:AlphaStar兩百年相當于人類多長時間?
OpenAI聯(lián)手DeepMind發(fā)布增強學習新突破,最佳獎勵函數(shù)可智能化生成(附論文)
除了下棋打游戲,DeepMind開始研究如何讓AI像人類大腦一樣“預判未來”
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服