九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
Dota2也被AI占領(lǐng)了!OpenAI打出4200逆天高分 超過(guò)90%人類(lèi)玩家
6月26日消息,美國(guó)時(shí)間25日,著名非營(yíng)利性機(jī)構(gòu)OpenAI宣布人工智能界的新驚喜:AI已能像人類(lèi)一樣“組隊(duì)”,在5v5對(duì)戰(zhàn)中完虐Dota 2人類(lèi)玩家,并且平均天梯分?jǐn)?shù)超過(guò)4200分(超過(guò)將近90%的DOTA2玩家,去年中國(guó)平均天梯分為3274分)。
OpenAI的支持者、特斯拉創(chuàng)始人伊隆·馬斯克(Elon Musk)表示:“OpenAI首次在競(jìng)爭(zhēng)激烈的電子競(jìng)技中擊敗世界頂尖玩家,這遠(yuǎn)比圍棋、象棋等傳統(tǒng)棋盤(pán)游戲更加復(fù)雜?!?div style="height:15px;">
一、AI團(tuán)戰(zhàn)首秀,表現(xiàn)神乎其技
Dota 2是一個(gè)非常復(fù)雜的實(shí)時(shí)戰(zhàn)略游戲。兩個(gè)分別由5名玩家組成的隊(duì)伍相互進(jìn)攻,圍剿并摧毀對(duì)方玩家的基地。這款游戲擁有115個(gè)可玩英雄,每個(gè)英雄都擁有獨(dú)特的技能和屬性,這意味著對(duì)于人類(lèi)而言,完美操作應(yīng)對(duì)游戲的全部可能性基本上是不可能的。然而,AI或許可以打破這一局限性。
▲Dota 2頂級(jí)職業(yè)玩家Dendi
去年8月的Dota 2國(guó)際邀請(qǐng)賽TI7上,Open AI的機(jī)器人在1v1比賽中完虐Dota 2頂級(jí)職業(yè)玩家Dendi。Dendi是世界知名Dota 2職業(yè)選手、solo高手,玩法靈活,經(jīng)常玩出神級(jí)操作,曾帶領(lǐng)Navi戰(zhàn)隊(duì)拿下TI1冠軍和TI2、TI3亞軍。在這場(chǎng)人機(jī)對(duì)戰(zhàn)中,AI的表現(xiàn)相當(dāng)彪悍,出手嫻熟狠厲,卡兵、壓制、補(bǔ)給等操作樣樣在行,幾乎刀刀致命,就連假動(dòng)作和秀走位也展現(xiàn)超高水平。AI第一場(chǎng)僅用10分鐘就擊敗Dendi,第二局一開(kāi)場(chǎng)就進(jìn)塔強(qiáng)殺Dendi,逼得Dendi直接認(rèn)輸并拒絕進(jìn)行第三場(chǎng)比賽。
▲OpenAI Dota團(tuán)隊(duì)的一個(gè)分支,拿著筆記本電腦,去年擊敗了Dota 1v1世界頂級(jí)專(zhuān)業(yè)玩家。
昨日,OpenAI的AI系統(tǒng)華麗升級(jí),推出OpenAI Five系統(tǒng)首次挑戰(zhàn)5v5團(tuán)戰(zhàn),并成功擊敗Open AI內(nèi)最好的員工團(tuán)隊(duì)。這場(chǎng)比賽由專(zhuān)業(yè)評(píng)論員Blitz和OpenAI Dota團(tuán)隊(duì)成員Christy Dennison參與評(píng)論,并被社區(qū)群眾圍觀。
在此次對(duì)戰(zhàn)中,團(tuán)隊(duì)降低了一定的團(tuán)戰(zhàn)難度:其一,對(duì)手非頂尖職業(yè)選手;其二,AI暫時(shí)只會(huì)使用5位英雄;其三,要求人類(lèi)玩家不能使用真假眼。這些限制使得OpenAI Five參與的比賽比最具挑戰(zhàn)性的人類(lèi)版本更簡(jiǎn)單。
迄今為止,OpenAI Five已在和如下團(tuán)隊(duì)發(fā)生過(guò)對(duì)戰(zhàn):
1、最強(qiáng)OpenAI員工團(tuán)隊(duì):2500 MMR;
2、觀看OpenAI員工比賽的最強(qiáng)觀眾(包括評(píng)論第一場(chǎng)OpenAI員工比賽的Blitz):4000-6000 MMR;
3、 Valve員工團(tuán)隊(duì):2500-4000 MMR;
4、 業(yè)余隊(duì):4200 MMR,團(tuán)隊(duì)訓(xùn)練;
5、 半職業(yè)隊(duì):5500 MMR,團(tuán)隊(duì)訓(xùn)練。
其中,MMR(MATCH MAKING RATING)指匹配等級(jí),用來(lái)確保玩家能夠和真實(shí)實(shí)力相近的玩家對(duì)抗,并且影響玩家在賽后能夠獲得或者輸?shù)舳嗌俜e分。經(jīng)過(guò)一段時(shí)間,玩家積分將會(huì)逐漸向其隱藏MMR值靠近。
OpenAI Five在4月23日的版本首次擊敗腳本基線(xiàn),5月15日版本與第一隊(duì)平分秋色,贏輸各一場(chǎng)。在6月6日和1-3隊(duì)的對(duì)決中,新版本OpenAI Five贏得所有比賽。隨后團(tuán)隊(duì)進(jìn)行了呵4、5隊(duì)的非正式比賽,原以為AI會(huì)輸,孰料OpenAI Five前三場(chǎng)比賽就打贏兩場(chǎng)。
在比賽中,OpenAI Five為了控制敵方,反復(fù)犧牲自己的安全路徑,迫使對(duì)方團(tuán)隊(duì)難以防御。為了從游戲早期到中期比對(duì)手更快,OpenAI Five做出兩個(gè)行動(dòng):(1)建立成功的ganks(玩家在地圖上移動(dòng)以埋伏對(duì)手英雄);(2)在對(duì)手集合前先行組隊(duì)推塔。
此外,OpenAI Five還有些非主流的打法,比如把前期經(jīng)驗(yàn)和錢(qián)給輔助英雄。它的優(yōu)先級(jí)能讓傷害值漲的更快,使其快速贏得團(tuán)戰(zhàn)。研究團(tuán)隊(duì)稱(chēng),OpenAI Five平均每分鐘執(zhí)行150-170次動(dòng)作,而理論上每4幀觀察到的最大值是450,這個(gè)時(shí)間掌控對(duì)于人類(lèi)而言已經(jīng)趨于完美。OpenAI Five的平均反應(yīng)時(shí)間也比人類(lèi)更快,僅為80ms。
▲ 在OpenAI員工和機(jī)器人進(jìn)行比賽后頒發(fā)獎(jiǎng)杯,機(jī)器人獎(jiǎng)杯由其團(tuán)隊(duì)的Susan Zhang代領(lǐng)
專(zhuān)業(yè)Dota比賽評(píng)論員Blitz表示:“感覺(jué)就好像五個(gè)知道優(yōu)秀總體戰(zhàn)略的無(wú)私玩家協(xié)同合作,機(jī)器人的團(tuán)隊(duì)合作令人深受沖擊。”
二、“刻苦”學(xué)習(xí):每天玩180年的游戲
OpenAI Five通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自我學(xué)習(xí),每天通過(guò)積累的游戲經(jīng)驗(yàn)需要人類(lèi)用180年才能獲得,如此“勤學(xué)苦練”,擁有超強(qiáng)策略能力似乎也并不是什么值得意外的事。
五個(gè)神經(jīng)網(wǎng)絡(luò)組成的團(tuán)隊(duì)大大增加了AI系統(tǒng)對(duì)計(jì)算能力的需求,OpenAI Five使用在256個(gè)GPU和128,000個(gè)CPU內(nèi)核上運(yùn)行的擴(kuò)展版近端策略?xún)?yōu)化進(jìn)行訓(xùn)練。對(duì)每個(gè)英雄使用單獨(dú)的LSTM并且不使用人類(lèi)數(shù)據(jù),它學(xué)習(xí)可識(shí)別的策略。
1、模型結(jié)構(gòu)
每個(gè)OpenAI Five的網(wǎng)絡(luò)都包含一個(gè)單層有1024個(gè)單元的LSTM,它可以通Valve的Bot API查看當(dāng)前的游戲狀態(tài),并通過(guò)幾個(gè)可能的動(dòng)作做出下一步操作,比如延遲此動(dòng)作的刻度數(shù)量、要選擇的動(dòng)作數(shù)量以及單位周?chē)W(wǎng)格中此動(dòng)作的X或Y坐標(biāo)等等。
2、勘探環(huán)境
為了能夠及時(shí)作出有效應(yīng)變,OpenAI Five需要長(zhǎng)期不斷地探索環(huán)境。OpenAI Five通過(guò)探索獲得對(duì)應(yīng)的獎(jiǎng)勵(lì)值,以衡量人們?cè)谟螒蛑凶龀龅倪M(jìn)攻、輔助等決定,在減去平均獎(jiǎng)勵(lì)后為OpenAI Five的下一步行動(dòng)提供選擇的基準(zhǔn)。
3、協(xié)調(diào)
OpenAI Five的英雄神經(jīng)網(wǎng)絡(luò)之間并沒(méi)有具體的通信渠道,它們通過(guò)被研究人員稱(chēng)為“團(tuán)隊(duì)精神”的超參數(shù)控制團(tuán)隊(duì)合作?!皥F(tuán)隊(duì)精神”范圍從0到1,對(duì)OpenAI Five的每個(gè)英雄如何權(quán)衡多少個(gè)人獎(jiǎng)勵(lì)與團(tuán)隊(duì)獎(jiǎng)勵(lì)提供了權(quán)值設(shè)置,從而使得系統(tǒng)因地制宜地學(xué)習(xí)新策略。
4、快速
OpenAI Five使用通用RL訓(xùn)練系統(tǒng)Rapid,研究人員已經(jīng)使用Rapid解決了OpenAI的競(jìng)爭(zhēng)性自我對(duì)局(Competitive Self-Play)等其他問(wèn)題。研究團(tuán)隊(duì)使用自己的NCCL2封裝來(lái)并行GPU計(jì)算和網(wǎng)絡(luò)數(shù)據(jù)傳輸,并采用Kubernetes,Azure和GCP后端。
三、挑戰(zhàn)比AlphaGo更高的難度
人們提到AI里程碑式的進(jìn)步,往往會(huì)想到AI戰(zhàn)勝?lài)?guó)際象棋或圍棋世界冠軍。如今,新的AI的里程碑則是在像StarCraft或Dota 這樣復(fù)雜的視頻游戲中表現(xiàn)超越人類(lèi)。比傳統(tǒng)棋牌游戲難度更大的是,復(fù)雜的視頻游戲開(kāi)始捕捉現(xiàn)實(shí)世界的混亂和連續(xù)移動(dòng)。這需要能夠適應(yīng)這類(lèi)游戲規(guī)則的系統(tǒng)具有很高的通用性。
玩Dota 2的AI面臨以下幾個(gè)難點(diǎn):
1、持續(xù)時(shí)間長(zhǎng)
Dota游戲以每秒30幀的速度運(yùn)行,平均時(shí)間為45分鐘,每場(chǎng)游戲平均80,000幀。OpenAI Five每4幀觀察一次,產(chǎn)生20,000次移動(dòng)。幾乎所有的舉動(dòng)是戰(zhàn)略性的。
2、觀察范圍受限
象棋和圍棋都是全信息游戲,而Dota游戲中敵人可以隱藏,比賽需要根據(jù)不完整的數(shù)據(jù)進(jìn)行推斷,并且需要實(shí)時(shí)掌握對(duì)手的狀態(tài)信息。AI暫時(shí)不具備對(duì)視野的控制能力,玩的版本要求雙方只能在游戲既定視野中對(duì)戰(zhàn),不能根據(jù)能力改變視野。
3、高度連續(xù)的動(dòng)作空間
在Dota中,每個(gè)英雄可以采取數(shù)十個(gè)動(dòng)作。研究人員將每個(gè)英雄的空間分割成170,000個(gè)可能的行動(dòng);不計(jì)連續(xù)部分,每幀平均有大約1000次有效操作。而圍棋的平均動(dòng)作數(shù)為250步,國(guó)際象棋則更少,僅有35步。
4、高維度連續(xù)的觀察空間
Dota在包含十個(gè)英雄、數(shù)十個(gè)建筑物、幾十個(gè)NPC單位以及諸如符文、樹(shù)木和病房等一系列游戲特征,這些特征將持續(xù)在梯田上移動(dòng)。OpenAI Five模型通過(guò)Valve的Bot API觀察Dota游戲的狀態(tài),其中大約20,000個(gè)浮點(diǎn)數(shù)被用于表示允許人類(lèi)訪(fǎng)問(wèn)的所有信息。相比之下,國(guó)際象棋棋盤(pán)大約需70個(gè)枚舉值, 一個(gè)Go棋盤(pán)大約需400個(gè)枚舉值。
Dota規(guī)則也非常復(fù)雜,游戲已經(jīng)被開(kāi)發(fā)了十多年,擁有數(shù)十萬(wàn)行復(fù)雜代碼。這個(gè)邏輯需要幾毫秒的時(shí)間才能執(zhí)行,而對(duì)于國(guó)際象棋和圍棋而言,只需要幾納秒。此外,游戲每?jī)芍芨乱淮?,它大環(huán)境語(yǔ)義也在不斷改變。針對(duì)這些問(wèn)題,OpenAI Five團(tuán)隊(duì)使用Proximal Policy Optimization的大規(guī)模版本進(jìn)行學(xué)習(xí),其使用的CPU、圖形處理器、游戲每秒觀察數(shù)等各種參數(shù)都較去年的OpenAI 1v1機(jī)器人有了全面的提升。
根據(jù)當(dāng)前版本OpenAI Five的測(cè)試比賽表現(xiàn),評(píng)論員Blitz估計(jì)它大致是Dota玩家的中間水平。在比賽過(guò)程中,研究人員發(fā)現(xiàn),OpenAI Five會(huì)做出一些專(zhuān)業(yè)策略,比如為了長(zhǎng)期的團(tuán)隊(duì)回報(bào)而做出暫時(shí)的自我犧牲,以殘血將人類(lèi)玩家誘出高地。這些觀察大大增加了研究人員的信心,對(duì)于游戲中還沒(méi)有整合進(jìn)來(lái)的一些元素,他們將在后續(xù)盡快加上。
結(jié)語(yǔ):劍指TI8,我們的目標(biāo)是星辰大海
這僅僅是個(gè)開(kāi)始。盡管OpenAI Five還有很大的障礙需要克服,耗費(fèi)了大量的人力和財(cái)力,它的野心又怎么可能止步于和業(yè)余玩家對(duì)局?OpenAI Five的研究團(tuán)隊(duì)稱(chēng),他們正在專(zhuān)注于優(yōu)化系統(tǒng),希望它能超越人類(lèi)的表現(xiàn)。
有了去年1v1的完勝成績(jī),今年8月下旬,在加拿大溫哥華舉行的頂級(jí)Dota 2賽事TI8上,OpenAI Five將進(jìn)軍5v5團(tuán)戰(zhàn),與真正的專(zhuān)業(yè)選手戰(zhàn)隊(duì)一決高下。在此之前的7月28日,OpenAI Five會(huì)先行與頂級(jí)玩家對(duì)戰(zhàn),并通過(guò)Twitch的實(shí)況轉(zhuǎn)播和大家見(jiàn)面。
如果OpenAI Five能打出漂亮的一仗,它將分食DeepMind的AlphaGo系列帶給人們的雷霆。真實(shí)世界的AI部署要處理的難題遠(yuǎn)遠(yuǎn)比在國(guó)際象棋、圍棋、Atari游戲中的問(wèn)題更加復(fù)雜,“協(xié)作型”AI技將有望學(xué)會(huì)真實(shí)世界中復(fù)雜而混亂的重要任務(wù)。比如,通過(guò)相互配合在在線(xiàn)交易或廣告競(jìng)價(jià)排名中拿下訂單,在組隊(duì)完成多樣化生產(chǎn)制造任務(wù),甚至是完成外科手術(shù)等等。這些都會(huì)使人類(lèi)雙手得到進(jìn)一步解放。
OpenAI希望有朝一日,借助和Dota 2比賽的經(jīng)驗(yàn)構(gòu)建更加通用的系統(tǒng),為人類(lèi)社會(huì)做出貢獻(xiàn)。
原文來(lái)自:OpenAI,The Verge,F(xiàn)inancial Times
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Dota2團(tuán)戰(zhàn)AI擊敗人類(lèi)最全解析:能團(tuán)又能gank,AI一日人間180年
DOTA2人類(lèi)戰(zhàn)隊(duì)終結(jié)AI狂勝戰(zhàn)績(jī):601-2,勝利來(lái)之不易
AI攻克Dota 2!5v5團(tuán)戰(zhàn)首次擊敗人類(lèi),已超90%人類(lèi)玩家
Dota2如何變相推動(dòng)了ChatGPT的誕生
你可能不相信,有一天AI都比你好玩兒了|葡萄視點(diǎn)
官方揭秘OpenAI Five打敗人類(lèi):遷移學(xué)習(xí)10個(gè)月訓(xùn)練4.5萬(wàn)年
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服