日本玖玖视频,天天色天天射天天干,国产一区二区三区小说

Twitter 開源增強(qiáng)學(xué)習(xí)框架Torch

2016.09.17

1 新智元報(bào)道

機(jī)器學(xué)習(xí)的進(jìn)步由多個(gè)領(lǐng)域的創(chuàng)新和創(chuàng)意驅(qū)動(dòng)。從人類學(xué)習(xí)事物的方式獲得啟發(fā)，增強(qiáng)學(xué)習(xí)（RL）指的是系列算法，能夠通過(guò)試錯(cuò)的回饋來(lái)進(jìn)行提升，可以進(jìn)一步優(yōu)化未來(lái)的表現(xiàn)。

棋類游戲和電子游戲通常都會(huì)有定義明確的回饋函數(shù)，這使得用增強(qiáng)學(xué)習(xí)算法來(lái)直接進(jìn)行優(yōu)化成為可能。然而，隨著算法的不斷進(jìn)步，RL 在解決現(xiàn)實(shí)問(wèn)題上也可以得到應(yīng)用，比如，高自由度的機(jī)器人控制以及大規(guī)模的推薦任務(wù)，這些任務(wù)往往附帶著復(fù)雜的目標(biāo)。

Twitter Cortex 采用最先進(jìn)的機(jī)器學(xué)習(xí)方法來(lái)提升Twitter的產(chǎn)品質(zhì)量。Twitter正在把增強(qiáng)學(xué)習(xí)當(dāng)成一種學(xué)習(xí)范式來(lái)進(jìn)行探索，為了達(dá)到這一目的，Twitter Cortex 開發(fā)了一個(gè)用于發(fā)展增強(qiáng)學(xué)習(xí)的框架。今天，Twitter 正式向全世界開源這一框架——torch-twrl 。

增強(qiáng)學(xué)習(xí)算法（或智能體）的目標(biāo)是通過(guò)與任務(wù)（或者環(huán)境）進(jìn)行互動(dòng)，學(xué)會(huì)執(zhí)行復(fù)雜的、新穎的任務(wù)。為了開發(fā)有效的算法，快速地迭代和測(cè)試是至關(guān)重要的，torch-twrl 的目標(biāo)就是讓落實(shí)和創(chuàng)新變得迅速和容易。

借鑒其他的增強(qiáng)學(xué)習(xí)框架，torch-twrl 希望提供：

一個(gè)在Lua/Torch 中的、擁有最小函數(shù)依賴的增強(qiáng)學(xué)習(xí)框架；
定義清晰的、模塊化的代碼帶來(lái)的快速開發(fā)；
與Open AI 的增強(qiáng)學(xué)習(xí)基準(zhǔn)框架Gym 的無(wú)縫對(duì)接。

Gym 提供了對(duì)增強(qiáng)學(xué)習(xí)環(huán)境的深度匯總。torch-twrl 通過(guò)HTTP API 與這些環(huán)境進(jìn)行互動(dòng)。torch-twrl 提供了一個(gè)簡(jiǎn)答且模塊化的方法，讓開發(fā)者可以使用自己已經(jīng)擁有的Torch/Lua 代碼來(lái)開始使用增強(qiáng)學(xué)習(xí)進(jìn)行開發(fā)。

如果你想要開始試用 torch-twrl ，你可以在Github 上找到主要的文件包：https://github.com/twitter/torch-twrl。根據(jù)安裝指導(dǎo)，你可以隨時(shí)解決 RL 問(wèn)題。

torch-twrl 使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測(cè)試變得更加簡(jiǎn)便了。以下是如何解決一個(gè)經(jīng)典的增強(qiáng)學(xué)習(xí)控制難題的案例。為了讓你更好地體會(huì)到這有多么簡(jiǎn)單，我們采納了一個(gè)簡(jiǎn)便的腳本，來(lái)運(yùn)行一個(gè)基本的策略梯度智能體，用于解決經(jīng)典的增強(qiáng)學(xué)習(xí)車擺難題。

實(shí)驗(yàn)開始前，首先需要設(shè)置你的環(huán)境和智能體實(shí)驗(yàn)參數(shù)。智能體要求有一個(gè)策略、一個(gè)模型和一個(gè)使用相關(guān)參數(shù)的學(xué)習(xí)更新。

以上的實(shí)驗(yàn)結(jié)果來(lái)自O(shè)penAI Gym 的排行榜（Leaderboard）。當(dāng)你使用 torch-twrl 運(yùn)行一個(gè)算法，可以選擇自動(dòng)地把結(jié)果上傳到排行榜上，它能自動(dòng)創(chuàng)造一個(gè)好的結(jié)果圖，生成一個(gè)關(guān)于結(jié)果的簡(jiǎn)短GIF 圖。

在把你的結(jié)果與其他的方法進(jìn)行對(duì)比時(shí)，排行榜也很有價(jià)值。

基本的RL框架中，會(huì)有一個(gè)智能體與環(huán)境進(jìn)行交互，智能體的構(gòu)成是：

模型：智能體模型描繪出行動(dòng)的狀態(tài)

策略：如何選擇活動(dòng)

學(xué)習(xí)更新：模型如何用收到的反饋進(jìn)行更新

Note：許多別的參數(shù)也可以進(jìn)行設(shè)置，具體的參數(shù)包括：策略、學(xué)習(xí)更新、模型、監(jiān)控等，完整的描述參見我們提供的文檔。（https://github.com/twitter/torch-twrl）

我們希望torch-twrl 作為一個(gè)RL 框架可以不斷發(fā)展，與 RLLab 一樣，讓 Torch 和 Lua 上的開發(fā)者進(jìn)行使用。增強(qiáng)學(xué)習(xí)的研究是一個(gè)非?；钴S的領(lǐng)域，其中包括了各種各樣的環(huán)境以及對(duì)最先進(jìn)算法的采用。我們正計(jì)劃擴(kuò)大關(guān)于新的 RL 算法的資料庫(kù)。

雖然目前基于Torch，已經(jīng)有一些很好的增強(qiáng)學(xué)習(xí)框架，我們想要的是一個(gè)從零開始搭建的框架，可以將外部依賴降到最小，這樣就能更好地解決Twitter的內(nèi)部問(wèn)題。

為了幫助你開始，我們提供了一個(gè)最小隨機(jī)的智能體、一個(gè)基于增強(qiáng)學(xué)習(xí)的策略梯度智能體、一個(gè)SARSA 和 Q-learning 的 TD（Lambda）。如果想?yún)⑴c貢獻(xiàn)，歡迎到Github上交流。

AI WORLD搶先看

神秘中國(guó)“大狗”機(jī)器人亮相2016世界人工智能大會(huì)

看過(guò)美國(guó)波士頓動(dòng)力大狗機(jī)器人意猶未盡？其實(shí)，我國(guó)“四足仿生機(jī)器人”的研究也早在幾年前開展，

神秘的國(guó)產(chǎn)機(jī)器人大狗即將亮相北京·AI WORLD 2016大會(huì)現(xiàn)場(chǎng)。

先來(lái)一睹為快

機(jī)器人大狗來(lái)自山東大學(xué)，由我國(guó)自主研發(fā)，技術(shù)水平國(guó)際領(lǐng)先。

山東大學(xué)李貽斌教授

大會(huì)還特別邀請(qǐng)到山東大學(xué)機(jī)器人研究中心主任李貽斌教授在AI WORLD2016-技術(shù)分論壇分享“中國(guó)大狗”的研發(fā)之路。

想近距離接觸機(jī)器人大狗，了解大狗背后的故事？

『AI WORLD 2016 世界人工智能大會(huì)』

10月18日·北京·國(guó)家會(huì)議中心

我們不見不散！

戳閱讀原文，啟航期5折搶票，倒計(jì)時(shí)僅剩最后一天！

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

154 萬(wàn) AI 開發(fā)者用數(shù)據(jù)告訴你，中國(guó) AI 如何才能彎道超車？| 中國(guó) AI 應(yīng)用開發(fā)者報(bào)告

2021 年最受歡迎的深度學(xué)習(xí)軟件

【 Microsoft & AI 】AI也能種黃瓜了，你想嘗嘗嗎？

2019人工智能進(jìn)展與趨勢(shì)

【重磅】馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

Science子刊：為機(jī)器人復(fù)制腦代碼，無(wú)限接近人類決策

更多類似文章 >>

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区