色天天躁夜夜躁天干天干,国产盗摄一区二区三区

Dota2也被AI占領(lǐng)了！OpenAI打出4200逆天高分超過(guò)90%人類(lèi)玩家

2018.06.27

6月26日消息，美國(guó)時(shí)間25日，著名非營(yíng)利性機(jī)構(gòu)OpenAI宣布人工智能界的新驚喜：AI已能像人類(lèi)一樣“組隊(duì)”，在5v5對(duì)戰(zhàn)中完虐Dota 2人類(lèi)玩家，并且平均天梯分?jǐn)?shù)超過(guò)4200分（超過(guò)將近90%的DOTA2玩家，去年中國(guó)平均天梯分為3274分）。

OpenAI的支持者、特斯拉創(chuàng)始人伊隆·馬斯克（Elon Musk）表示：“OpenAI首次在競(jìng)爭(zhēng)激烈的電子競(jìng)技中擊敗世界頂尖玩家，這遠(yuǎn)比圍棋、象棋等傳統(tǒng)棋盤(pán)游戲更加復(fù)雜?！?div style="height:15px;">

一、AI團(tuán)戰(zhàn)首秀，表現(xiàn)神乎其技

Dota 2是一個(gè)非常復(fù)雜的實(shí)時(shí)戰(zhàn)略游戲。兩個(gè)分別由5名玩家組成的隊(duì)伍相互進(jìn)攻，圍剿并摧毀對(duì)方玩家的基地。這款游戲擁有115個(gè)可玩英雄，每個(gè)英雄都擁有獨(dú)特的技能和屬性，這意味著對(duì)于人類(lèi)而言，完美操作應(yīng)對(duì)游戲的全部可能性基本上是不可能的。然而，AI或許可以打破這一局限性。

▲Dota 2頂級(jí)職業(yè)玩家Dendi

去年8月的Dota 2國(guó)際邀請(qǐng)賽TI7上，Open AI的機(jī)器人在1v1比賽中完虐Dota 2頂級(jí)職業(yè)玩家Dendi。Dendi是世界知名Dota 2職業(yè)選手、solo高手，玩法靈活，經(jīng)常玩出神級(jí)操作，曾帶領(lǐng)Navi戰(zhàn)隊(duì)拿下TI1冠軍和TI2、TI3亞軍。在這場(chǎng)人機(jī)對(duì)戰(zhàn)中，AI的表現(xiàn)相當(dāng)彪悍，出手嫻熟狠厲，卡兵、壓制、補(bǔ)給等操作樣樣在行，幾乎刀刀致命，就連假動(dòng)作和秀走位也展現(xiàn)超高水平。AI第一場(chǎng)僅用10分鐘就擊敗Dendi，第二局一開(kāi)場(chǎng)就進(jìn)塔強(qiáng)殺Dendi，逼得Dendi直接認(rèn)輸并拒絕進(jìn)行第三場(chǎng)比賽。

▲OpenAI Dota團(tuán)隊(duì)的一個(gè)分支，拿著筆記本電腦，去年擊敗了Dota 1v1世界頂級(jí)專(zhuān)業(yè)玩家。

昨日，OpenAI的AI系統(tǒng)華麗升級(jí)，推出OpenAI Five系統(tǒng)首次挑戰(zhàn)5v5團(tuán)戰(zhàn)，并成功擊敗Open AI內(nèi)最好的員工團(tuán)隊(duì)。這場(chǎng)比賽由專(zhuān)業(yè)評(píng)論員Blitz和OpenAI Dota團(tuán)隊(duì)成員Christy Dennison參與評(píng)論，并被社區(qū)群眾圍觀。

在此次對(duì)戰(zhàn)中，團(tuán)隊(duì)降低了一定的團(tuán)戰(zhàn)難度：其一，對(duì)手非頂尖職業(yè)選手；其二，AI暫時(shí)只會(huì)使用5位英雄；其三，要求人類(lèi)玩家不能使用真假眼。這些限制使得OpenAI Five參與的比賽比最具挑戰(zhàn)性的人類(lèi)版本更簡(jiǎn)單。

迄今為止，OpenAI Five已在和如下團(tuán)隊(duì)發(fā)生過(guò)對(duì)戰(zhàn)：

1、最強(qiáng)OpenAI員工團(tuán)隊(duì)：2500 MMR；

2、觀看OpenAI員工比賽的最強(qiáng)觀眾（包括評(píng)論第一場(chǎng)OpenAI員工比賽的Blitz）：4000-6000 MMR；

3、 Valve員工團(tuán)隊(duì)：2500-4000 MMR；

4、業(yè)余隊(duì)：4200 MMR，團(tuán)隊(duì)訓(xùn)練；

5、半職業(yè)隊(duì)：5500 MMR，團(tuán)隊(duì)訓(xùn)練。

其中，MMR（MATCH MAKING RATING）指匹配等級(jí)，用來(lái)確保玩家能夠和真實(shí)實(shí)力相近的玩家對(duì)抗，并且影響玩家在賽后能夠獲得或者輸?shù)舳嗌俜e分。經(jīng)過(guò)一段時(shí)間，玩家積分將會(huì)逐漸向其隱藏MMR值靠近。

OpenAI Five在4月23日的版本首次擊敗腳本基線(xiàn)，5月15日版本與第一隊(duì)平分秋色，贏輸各一場(chǎng)。在6月6日和1-3隊(duì)的對(duì)決中，新版本OpenAI Five贏得所有比賽。隨后團(tuán)隊(duì)進(jìn)行了呵4、5隊(duì)的非正式比賽，原以為AI會(huì)輸，孰料OpenAI Five前三場(chǎng)比賽就打贏兩場(chǎng)。

在比賽中，OpenAI Five為了控制敵方，反復(fù)犧牲自己的安全路徑，迫使對(duì)方團(tuán)隊(duì)難以防御。為了從游戲早期到中期比對(duì)手更快，OpenAI Five做出兩個(gè)行動(dòng)：（1）建立成功的ganks（玩家在地圖上移動(dòng)以埋伏對(duì)手英雄）；（2）在對(duì)手集合前先行組隊(duì)推塔。

此外，OpenAI Five還有些非主流的打法，比如把前期經(jīng)驗(yàn)和錢(qián)給輔助英雄。它的優(yōu)先級(jí)能讓傷害值漲的更快，使其快速贏得團(tuán)戰(zhàn)。研究團(tuán)隊(duì)稱(chēng)，OpenAI Five平均每分鐘執(zhí)行150-170次動(dòng)作，而理論上每4幀觀察到的最大值是450，這個(gè)時(shí)間掌控對(duì)于人類(lèi)而言已經(jīng)趨于完美。OpenAI Five的平均反應(yīng)時(shí)間也比人類(lèi)更快，僅為80ms。

▲ 在OpenAI員工和機(jī)器人進(jìn)行比賽后頒發(fā)獎(jiǎng)杯，機(jī)器人獎(jiǎng)杯由其團(tuán)隊(duì)的Susan Zhang代領(lǐng)

專(zhuān)業(yè)Dota比賽評(píng)論員Blitz表示：“感覺(jué)就好像五個(gè)知道優(yōu)秀總體戰(zhàn)略的無(wú)私玩家協(xié)同合作，機(jī)器人的團(tuán)隊(duì)合作令人深受沖擊。”

二、“刻苦”學(xué)習(xí)：每天玩180年的游戲

OpenAI Five通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我學(xué)習(xí)，每天通過(guò)積累的游戲經(jīng)驗(yàn)需要人類(lèi)用180年才能獲得，如此“勤學(xué)苦練”，擁有超強(qiáng)策略能力似乎也并不是什么值得意外的事。

五個(gè)神經(jīng)網(wǎng)絡(luò)組成的團(tuán)隊(duì)大大增加了AI系統(tǒng)對(duì)計(jì)算能力的需求，OpenAI Five使用在256個(gè)GPU和128,000個(gè)CPU內(nèi)核上運(yùn)行的擴(kuò)展版近端策略?xún)?yōu)化進(jìn)行訓(xùn)練。對(duì)每個(gè)英雄使用單獨(dú)的LSTM并且不使用人類(lèi)數(shù)據(jù)，它學(xué)習(xí)可識(shí)別的策略。

1、模型結(jié)構(gòu)

每個(gè)OpenAI Five的網(wǎng)絡(luò)都包含一個(gè)單層有1024個(gè)單元的LSTM，它可以通Valve的Bot API查看當(dāng)前的游戲狀態(tài)，并通過(guò)幾個(gè)可能的動(dòng)作做出下一步操作，比如延遲此動(dòng)作的刻度數(shù)量、要選擇的動(dòng)作數(shù)量以及單位周?chē)W(wǎng)格中此動(dòng)作的X或Y坐標(biāo)等等。

2、勘探環(huán)境

為了能夠及時(shí)作出有效應(yīng)變，OpenAI Five需要長(zhǎng)期不斷地探索環(huán)境。OpenAI Five通過(guò)探索獲得對(duì)應(yīng)的獎(jiǎng)勵(lì)值，以衡量人們?cè)谟螒蛑凶龀龅倪M(jìn)攻、輔助等決定，在減去平均獎(jiǎng)勵(lì)后為OpenAI Five的下一步行動(dòng)提供選擇的基準(zhǔn)。

3、協(xié)調(diào)

OpenAI Five的英雄神經(jīng)網(wǎng)絡(luò)之間并沒(méi)有具體的通信渠道，它們通過(guò)被研究人員稱(chēng)為“團(tuán)隊(duì)精神”的超參數(shù)控制團(tuán)隊(duì)合作?！皥F(tuán)隊(duì)精神”范圍從0到1，對(duì)OpenAI Five的每個(gè)英雄如何權(quán)衡多少個(gè)人獎(jiǎng)勵(lì)與團(tuán)隊(duì)獎(jiǎng)勵(lì)提供了權(quán)值設(shè)置，從而使得系統(tǒng)因地制宜地學(xué)習(xí)新策略。

4、快速

OpenAI Five使用通用RL訓(xùn)練系統(tǒng)Rapid，研究人員已經(jīng)使用Rapid解決了OpenAI的競(jìng)爭(zhēng)性自我對(duì)局（Competitive Self-Play）等其他問(wèn)題。研究團(tuán)隊(duì)使用自己的NCCL2封裝來(lái)并行GPU計(jì)算和網(wǎng)絡(luò)數(shù)據(jù)傳輸，并采用Kubernetes，Azure和GCP后端。

三、挑戰(zhàn)比AlphaGo更高的難度

人們提到AI里程碑式的進(jìn)步，往往會(huì)想到AI戰(zhàn)勝?lài)?guó)際象棋或圍棋世界冠軍。如今，新的AI的里程碑則是在像StarCraft或Dota 這樣復(fù)雜的視頻游戲中表現(xiàn)超越人類(lèi)。比傳統(tǒng)棋牌游戲難度更大的是，復(fù)雜的視頻游戲開(kāi)始捕捉現(xiàn)實(shí)世界的混亂和連續(xù)移動(dòng)。這需要能夠適應(yīng)這類(lèi)游戲規(guī)則的系統(tǒng)具有很高的通用性。

玩Dota 2的AI面臨以下幾個(gè)難點(diǎn)：

1、持續(xù)時(shí)間長(zhǎng)

Dota游戲以每秒30幀的速度運(yùn)行，平均時(shí)間為45分鐘，每場(chǎng)游戲平均80,000幀。OpenAI Five每4幀觀察一次，產(chǎn)生20,000次移動(dòng)。幾乎所有的舉動(dòng)是戰(zhàn)略性的。

2、觀察范圍受限

象棋和圍棋都是全信息游戲，而Dota游戲中敵人可以隱藏，比賽需要根據(jù)不完整的數(shù)據(jù)進(jìn)行推斷，并且需要實(shí)時(shí)掌握對(duì)手的狀態(tài)信息。AI暫時(shí)不具備對(duì)視野的控制能力，玩的版本要求雙方只能在游戲既定視野中對(duì)戰(zhàn)，不能根據(jù)能力改變視野。

3、高度連續(xù)的動(dòng)作空間

在Dota中，每個(gè)英雄可以采取數(shù)十個(gè)動(dòng)作。研究人員將每個(gè)英雄的空間分割成170,000個(gè)可能的行動(dòng)；不計(jì)連續(xù)部分，每幀平均有大約1000次有效操作。而圍棋的平均動(dòng)作數(shù)為250步，國(guó)際象棋則更少，僅有35步。

4、高維度連續(xù)的觀察空間

Dota在包含十個(gè)英雄、數(shù)十個(gè)建筑物、幾十個(gè)NPC單位以及諸如符文、樹(shù)木和病房等一系列游戲特征，這些特征將持續(xù)在梯田上移動(dòng)。OpenAI Five模型通過(guò)Valve的Bot API觀察Dota游戲的狀態(tài)，其中大約20,000個(gè)浮點(diǎn)數(shù)被用于表示允許人類(lèi)訪(fǎng)問(wèn)的所有信息。相比之下，國(guó)際象棋棋盤(pán)大約需70個(gè)枚舉值，一個(gè)Go棋盤(pán)大約需400個(gè)枚舉值。

Dota規(guī)則也非常復(fù)雜，游戲已經(jīng)被開(kāi)發(fā)了十多年，擁有數(shù)十萬(wàn)行復(fù)雜代碼。這個(gè)邏輯需要幾毫秒的時(shí)間才能執(zhí)行，而對(duì)于國(guó)際象棋和圍棋而言，只需要幾納秒。此外，游戲每?jī)芍芨乱淮?，它大環(huán)境語(yǔ)義也在不斷改變。針對(duì)這些問(wèn)題，OpenAI Five團(tuán)隊(duì)使用Proximal Policy Optimization的大規(guī)模版本進(jìn)行學(xué)習(xí)，其使用的CPU、圖形處理器、游戲每秒觀察數(shù)等各種參數(shù)都較去年的OpenAI 1v1機(jī)器人有了全面的提升。

根據(jù)當(dāng)前版本OpenAI Five的測(cè)試比賽表現(xiàn)，評(píng)論員Blitz估計(jì)它大致是Dota玩家的中間水平。在比賽過(guò)程中，研究人員發(fā)現(xiàn)，OpenAI Five會(huì)做出一些專(zhuān)業(yè)策略，比如為了長(zhǎng)期的團(tuán)隊(duì)回報(bào)而做出暫時(shí)的自我犧牲，以殘血將人類(lèi)玩家誘出高地。這些觀察大大增加了研究人員的信心，對(duì)于游戲中還沒(méi)有整合進(jìn)來(lái)的一些元素，他們將在后續(xù)盡快加上。

結(jié)語(yǔ)：劍指TI8，我們的目標(biāo)是星辰大海

這僅僅是個(gè)開(kāi)始。盡管OpenAI Five還有很大的障礙需要克服，耗費(fèi)了大量的人力和財(cái)力，它的野心又怎么可能止步于和業(yè)余玩家對(duì)局？OpenAI Five的研究團(tuán)隊(duì)稱(chēng)，他們正在專(zhuān)注于優(yōu)化系統(tǒng)，希望它能超越人類(lèi)的表現(xiàn)。

有了去年1v1的完勝成績(jī)，今年8月下旬，在加拿大溫哥華舉行的頂級(jí)Dota 2賽事TI8上，OpenAI Five將進(jìn)軍5v5團(tuán)戰(zhàn)，與真正的專(zhuān)業(yè)選手戰(zhàn)隊(duì)一決高下。在此之前的7月28日，OpenAI Five會(huì)先行與頂級(jí)玩家對(duì)戰(zhàn)，并通過(guò)Twitch的實(shí)況轉(zhuǎn)播和大家見(jiàn)面。

如果OpenAI Five能打出漂亮的一仗，它將分食DeepMind的AlphaGo系列帶給人們的雷霆。真實(shí)世界的AI部署要處理的難題遠(yuǎn)遠(yuǎn)比在國(guó)際象棋、圍棋、Atari游戲中的問(wèn)題更加復(fù)雜，“協(xié)作型”AI技將有望學(xué)會(huì)真實(shí)世界中復(fù)雜而混亂的重要任務(wù)。比如，通過(guò)相互配合在在線(xiàn)交易或廣告競(jìng)價(jià)排名中拿下訂單，在組隊(duì)完成多樣化生產(chǎn)制造任務(wù)，甚至是完成外科手術(shù)等等。這些都會(huì)使人類(lèi)雙手得到進(jìn)一步解放。

OpenAI希望有朝一日，借助和Dota 2比賽的經(jīng)驗(yàn)構(gòu)建更加通用的系統(tǒng)，為人類(lèi)社會(huì)做出貢獻(xiàn)。

原文來(lái)自：OpenAI，The Verge，F(xiàn)inancial Times

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

Dota2團(tuán)戰(zhàn)AI擊敗人類(lèi)最全解析：能團(tuán)又能gank，AI一日人間180年

DOTA2人類(lèi)戰(zhàn)隊(duì)終結(jié)AI狂勝戰(zhàn)績(jī)：601-2，勝利來(lái)之不易

AI攻克Dota 2！5v5團(tuán)戰(zhàn)首次擊敗人類(lèi)，已超90%人類(lèi)玩家

Dota2如何變相推動(dòng)了ChatGPT的誕生

你可能不相信，有一天AI都比你好玩兒了｜葡萄視點(diǎn)

官方揭秘OpenAI Five打敗人類(lèi)：遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年

更多類(lèi)似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区