亚洲欧美日韩国产色另类,国产精品午夜久久,福利片午夜

人類在 Dota2 國際大賽上打敗 OpenAI，但 AI 贏回來也只是時(shí)間問題

yangtz008 >《AI、大數(shù)據(jù)、區(qū)塊鏈、科普資安、隱私》

2018.08.26

在理解游戲目標(biāo)和制定戰(zhàn)略這件事上，人類玩家是主動(dòng)的，而人工智能是被動(dòng)的。

OpenAI 曾在 2017 年戰(zhàn)勝 Dota2 世界頂級(jí)玩家 Dendi，本月初戰(zhàn)勝了由職業(yè)選手和解說員組成的半職業(yè)戰(zhàn)隊(duì)，這一系列出彩的表現(xiàn)提升了人們對(duì)人工智能再次奪冠的期望。8 月 22 日在溫哥華舉行的 TI8 上，OpenAI 聯(lián)合創(chuàng)始人兼 CTO 格雷格·布羅克曼（Greg Brockman）帶著全新的 OpenAI Five 如期而至，卻接連兩場(chǎng)輸給巴西站隊(duì)和中國戰(zhàn)隊(duì)，據(jù)悉，巴西戰(zhàn)隊(duì)目前世界排名第 14 位，這至少說明一直想挑戰(zhàn)人類「最強(qiáng)」的人工智能，目前還不能在 Dota2 電競(jìng)場(chǎng)上打敗人類。

機(jī)器的短板

正如專注于游戲領(lǐng)域 AI 研究的邁克·庫克在 Twitter 上所說，「機(jī)器人在即時(shí)即地的反應(yīng)上做得很好，但宏觀層面決策的表現(xiàn)卻很糟糕。」Open AI 計(jì)劃在當(dāng)?shù)貢r(shí)間周三、周四、周五連比三場(chǎng)，由于比賽采取三局兩勝制，OpenAI 在輸給中國戰(zhàn)隊(duì)之后，就結(jié)束 TI8 之旅。

兩場(chǎng)比賽分別持續(xù)了 51 分鐘和 45 分鐘，從數(shù)據(jù)來看，OpenAI Five 在比賽開始的前 20-35 分鐘內(nèi)確實(shí)有很大的勝算。以 AI 的計(jì)算能力來看，OpenAI Five 不乏出彩的表現(xiàn)，比如「圍剿」孤立的英雄，近距離進(jìn)行技能釋放，血量計(jì)算等。在與巴西戰(zhàn)隊(duì) paiN 的較量中，AI 也拿到比對(duì)手更多的「人頭」。畢竟，人工智能就是一臺(tái)機(jī)器，可以獲取游戲后端給予的精確的數(shù)字反饋，比如英雄狀態(tài)和英雄間距離等信息。但是在戰(zhàn)略上，人工智能遠(yuǎn)不及人類，執(zhí)著于擊打 Roshan、莫名其妙的在家、塔下插眼、在沒有對(duì)手的時(shí)候放大收野。

這種精準(zhǔn)的計(jì)算和不穩(wěn)定的戰(zhàn)略恰好反映了 AI 是如何學(xué)會(huì)打 Dota 的，OpenAI 使用強(qiáng)化學(xué)習(xí)訓(xùn)練 AI 從頭自學(xué)，在一遍遍嘗試中堅(jiān)持下來有效的動(dòng)作。因此也導(dǎo)致了 OpenAI Five 在面對(duì)訓(xùn)練中沒有遇到的情況時(shí)束手無策，從事 OpenAI Dota 項(xiàng)目的軟件工程師蘇珊·張表示，「如果 AI 在比賽中遇見了之前從未有過的情況，很難立即調(diào)整。同時(shí)，在訓(xùn)練過程中，機(jī)器人在判斷采取何種行動(dòng)時(shí)，最多會(huì)提前 14 分鐘。沒有任何一種機(jī)制讓機(jī)器人部署超過 14 分鐘的長(zhǎng)期戰(zhàn)略?！顾?，AI 的這一缺陷，在兩場(chǎng)比賽中展露無遺。

在比賽開始前，格雷格·布羅克曼曾對(duì) The Verge 表示，公司曾進(jìn)行一場(chǎng)內(nèi)部員工投票，認(rèn)為 OpenAI Five 獲勝的可能性不到 50%，這是普遍的共識(shí)。但是他補(bǔ)充說，真正重要的是 AI 的進(jìn)步速度。AI 在接近某戰(zhàn)隊(duì)水平時(shí)，就與他們打比賽，一、兩周之后，AI 就能超過他們，這樣的事情已經(jīng)「驗(yàn)證」很多次了。

不可否認(rèn)的是 AI 強(qiáng)大的學(xué)習(xí)能力，即便完敗巴西、中國戰(zhàn)隊(duì)，OpenAI 的 AI 選手也遠(yuǎn)遠(yuǎn)超越早期的電子競(jìng)技機(jī)器人。

「OpenAI Five」

在體育和游戲中，人工智能與人類的對(duì)抗有著悠久的歷史。IBM 開發(fā)的深藍(lán)計(jì)算機(jī)在 1996 年成為了第一個(gè)與世界象棋冠軍較量并贏得比賽的電腦系統(tǒng)。戰(zhàn)勝越來越具有挑戰(zhàn)性的人類冠軍則慢慢成為衡量人工智能進(jìn)步的標(biāo)準(zhǔn)。

2016 年 3 月，AlphaGo 與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn)，以 4：1 的總比分勝出；之后，AlphaGo 以網(wǎng)絡(luò)圍棋手「Master」的身份為與中日韓數(shù)十位圍棋高手進(jìn)行對(duì)決，以 60 勝零負(fù)收?qǐng)?。此后，DeepMind 團(tuán)隊(duì)公布全新強(qiáng)化學(xué)習(xí)算法——AlphaZero，僅僅通過自我對(duì)弈的方式就達(dá)到超越人類的水平。

去年，谷歌旗下的 DeepMind 和馬斯克創(chuàng)建的非盈利研究實(shí)驗(yàn)室 OpenAI 合作研究一種根據(jù)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)的新方法，并發(fā)表論文《Deep reinforcement learning from human preferences》（根據(jù)人類偏好進(jìn)行的深度強(qiáng)化學(xué)習(xí)）。要建立一個(gè)安全的 AI 系統(tǒng)，其中很重要的一步是不再讓人類給 AI 系統(tǒng)寫目標(biāo)函數(shù)，因?yàn)檫@都可能導(dǎo)致 AI 行為偏離軌道或引發(fā)危險(xiǎn)。新算法只需要人類逐步告訴 AI，兩種 AI 推薦的動(dòng)作中哪一種更好，AI 由此推測(cè)人類的需求進(jìn)行學(xué)習(xí)，比如新算法用來自人類評(píng)價(jià)員的 900 次二選一反饋學(xué)會(huì)了后空翻。OpenAI 和 DeepMind 希望通過新算法來提高人工智能的安全性。

DeepMind 憑借 AlphaGo 不負(fù)眾望，同樣專注在強(qiáng)化學(xué)習(xí)領(lǐng)域的 OpenAI 則是放眼于 Dota2 上，因?yàn)樵跀?shù)學(xué)計(jì)算上，電競(jìng)游戲比象棋或者圍棋更復(fù)雜。這件看似「不正經(jīng)」的事情，對(duì)于人工智能來說卻是巨大的挑戰(zhàn)，游戲中需要 AI 團(tuán)隊(duì)協(xié)同作戰(zhàn)、布局長(zhǎng)期戰(zhàn)略、制定復(fù)雜決策。如果賦予 AI 的這些技能可以通過游戲磨練「精進(jìn)」，便可以加以運(yùn)用到現(xiàn)實(shí)生活中。這也恰巧符合 OpenAI 的建立初衷——吸取所有的人類優(yōu)點(diǎn)，建立安全的通用機(jī)器人。

OpenAI 曾在 2017 年 1v1 戰(zhàn)勝 Dota2 世界頂級(jí)玩家 Dendi，并于今年 6 月 25 日宣布能在 5V5 對(duì)戰(zhàn)上打敗頂級(jí)業(yè)余玩家。OpenAI 開發(fā)了一套名為「OpenAI Five」的算法，把 AI 放進(jìn)虛擬環(huán)境中，從自我對(duì)抗中學(xué)習(xí)，程序員設(shè)置獎(jiǎng)勵(lì)機(jī)制，讓 AI 一遍一遍地訓(xùn)練自己，據(jù)悉 OpenAI Five 每天的訓(xùn)練量相當(dāng)于玩 180 年的游戲。而從此前 OpenAI Five 戰(zhàn)勝半職業(yè)戰(zhàn)隊(duì)的戰(zhàn)績(jī)來看，這套訓(xùn)練方法似乎取得了一定成效。

可是在面對(duì)頂級(jí)玩家時(shí)，OpenAI Five 則沒那么幸運(yùn)，雖然格雷格表示，「周三晚上的比賽，證實(shí)了 OpenAI Five 已經(jīng)很接近人類的電競(jìng)能力?！沟?OpenAI 的技術(shù)人員菲利普·沃爾斯基也承認(rèn)了面對(duì)職業(yè)選手，OpenAI 會(huì)稍顯「底氣不足」。他還說到，在準(zhǔn)備整個(gè)項(xiàng)目時(shí)，團(tuán)隊(duì)經(jīng)歷了很多不眠之夜。就算回家休息的時(shí)候，也在擔(dān)心是否上傳了正確的參數(shù)。但是 OpenAI 的 Dota 之旅還遠(yuǎn)沒有結(jié)束，「我們想要機(jī)器人在越來越少的限制下玩游戲?！?/p>

AI 在這幾場(chǎng)比賽中所缺失的也正凸顯了目前機(jī)器學(xué)習(xí)的局限性，在看似「不起眼」的策略、規(guī)劃制定上，人工智能貌似還差得很遠(yuǎn)。格雷格曾在 8 月初 OpenAI Five 戰(zhàn)勝半職業(yè)戰(zhàn)隊(duì)之后發(fā)推祝賀，「已經(jīng)準(zhǔn)備好迎戰(zhàn) TI8」，但是現(xiàn)在看來 OpenAI 在 Dota2 上要走的路還有很長(zhǎng)。

參考：

PRO GAMERS FEND OFF ELON MUSK-BACKED AI BOTS—FOR NOW

（http://t.cn/RkuxlX4）

AI bots trained for 180 years a day to beat humans at Dota 2

（http://t.cn/RrxmWiS）

Dota 2 pro players win match against Elon Musk’s AI bots

（http://t.cn/RkuxDwH）

OpenAI, DeepMind double team to make future AI machines safer

（http://t.cn/RkuJLYv）

責(zé)任編輯：宋德勝

頭圖來源：OpenAI

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。