九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Twitter 開源增強(qiáng)學(xué)習(xí)框架Torch

1 新智元報(bào)道

機(jī)器學(xué)習(xí)的進(jìn)步由多個(gè)領(lǐng)域的創(chuàng)新和創(chuàng)意驅(qū)動(dòng)。從人類學(xué)習(xí)事物的方式獲得啟發(fā),增強(qiáng)學(xué)習(xí)(RL)指的是系列算法,能夠通過(guò)試錯(cuò)的回饋來(lái)進(jìn)行提升,可以進(jìn)一步優(yōu)化未來(lái)的表現(xiàn)。

棋類游戲和電子游戲通常都會(huì)有定義明確的回饋函數(shù),這使得用增強(qiáng)學(xué)習(xí)算法來(lái)直接進(jìn)行優(yōu)化成為可能。然而,隨著算法的不斷進(jìn)步,RL 在解決現(xiàn)實(shí)問(wèn)題上也可以得到應(yīng)用,比如,高自由度的機(jī)器人控制以及大規(guī)模的推薦任務(wù),這些任務(wù)往往附帶著復(fù)雜的目標(biāo)。

Twitter Cortex 采用最先進(jìn)的機(jī)器學(xué)習(xí)方法來(lái)提升Twitter的產(chǎn)品質(zhì)量。Twitter正在把增強(qiáng)學(xué)習(xí)當(dāng)成一種學(xué)習(xí)范式來(lái)進(jìn)行探索,為了達(dá)到這一目的,Twitter Cortex 開發(fā)了一個(gè)用于發(fā)展增強(qiáng)學(xué)習(xí)的框架。今天,Twitter 正式向全世界開源這一框架——torch-twrl 。

增強(qiáng)學(xué)習(xí)算法(或智能體)的目標(biāo)是通過(guò)與任務(wù)(或者環(huán)境)進(jìn)行互動(dòng),學(xué)會(huì)執(zhí)行復(fù)雜的、新穎的任務(wù)。為了開發(fā)有效的算法,快速地迭代和測(cè)試是至關(guān)重要的,torch-twrl 的目標(biāo)就是讓落實(shí)和創(chuàng)新變得迅速和容易。

借鑒其他的增強(qiáng)學(xué)習(xí)框架,torch-twrl 希望提供:

  • 一個(gè)在Lua/Torch 中的、擁有最小函數(shù)依賴的增強(qiáng)學(xué)習(xí)框架;

  • 定義清晰的、模塊化的代碼帶來(lái)的快速開發(fā);

  • 與Open AI 的增強(qiáng)學(xué)習(xí)基準(zhǔn)框架Gym 的無(wú)縫對(duì)接。

Gym 提供了對(duì)增強(qiáng)學(xué)習(xí)環(huán)境的深度匯總。torch-twrl 通過(guò)HTTP API 與這些環(huán)境進(jìn)行互動(dòng)。torch-twrl 提供了一個(gè)簡(jiǎn)答且模塊化的方法,讓開發(fā)者可以使用自己已經(jīng)擁有的Torch/Lua 代碼來(lái)開始使用增強(qiáng)學(xué)習(xí)進(jìn)行開發(fā)。

如果你想要開始試用 torch-twrl ,你可以在Github 上找到主要的文件包:https://github.com/twitter/torch-twrl。根據(jù)安裝指導(dǎo),你可以隨時(shí)解決 RL 問(wèn)題。

torch-twrl 使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測(cè)試變得更加簡(jiǎn)便了。以下是如何解決一個(gè)經(jīng)典的增強(qiáng)學(xué)習(xí)控制難題的案例。為了讓你更好地體會(huì)到這有多么簡(jiǎn)單,我們采納了一個(gè)簡(jiǎn)便的腳本,來(lái)運(yùn)行一個(gè)基本的策略梯度智能體,用于解決經(jīng)典的增強(qiáng)學(xué)習(xí)車擺難題。

實(shí)驗(yàn)開始前,首先需要設(shè)置你的環(huán)境和智能體實(shí)驗(yàn)參數(shù)。智能體要求有一個(gè)策略、一個(gè)模型和一個(gè)使用相關(guān)參數(shù)的學(xué)習(xí)更新。

以上的實(shí)驗(yàn)結(jié)果來(lái)自O(shè)penAI Gym 的排行榜(Leaderboard)。當(dāng)你使用 torch-twrl 運(yùn)行一個(gè)算法,可以選擇自動(dòng)地把結(jié)果上傳到排行榜上,它能自動(dòng)創(chuàng)造一個(gè)好的結(jié)果圖,生成一個(gè)關(guān)于結(jié)果的簡(jiǎn)短GIF 圖。

在把你的結(jié)果與其他的方法進(jìn)行對(duì)比時(shí),排行榜也很有價(jià)值。

基本的RL框架中,會(huì)有一個(gè)智能體與環(huán)境進(jìn)行交互,智能體的構(gòu)成是:

模型:智能體模型描繪出行動(dòng)的狀態(tài)

策略:如何選擇活動(dòng)

學(xué)習(xí)更新:模型如何用收到的反饋進(jìn)行更新

Note:許多別的參數(shù)也可以進(jìn)行設(shè)置,具體的參數(shù)包括:策略、學(xué)習(xí)更新、模型、監(jiān)控等,完整的描述參見我們提供的文檔。(https://github.com/twitter/torch-twrl)

我們希望torch-twrl 作為一個(gè)RL 框架可以不斷發(fā)展,與 RLLab 一樣,讓 Torch 和 Lua 上的開發(fā)者進(jìn)行使用。增強(qiáng)學(xué)習(xí)的研究是一個(gè)非?;钴S的領(lǐng)域,其中包括了各種各樣的環(huán)境以及對(duì)最先進(jìn)算法的采用。我們正計(jì)劃擴(kuò)大關(guān)于新的 RL 算法的資料庫(kù)。

雖然目前基于Torch,已經(jīng)有一些很好的增強(qiáng)學(xué)習(xí)框架,我們想要的是一個(gè)從零開始搭建的框架,可以將外部依賴降到最小,這樣就能更好地解決Twitter的內(nèi)部問(wèn)題。

為了幫助你開始,我們提供了一個(gè)最小隨機(jī)的智能體、一個(gè)基于增強(qiáng)學(xué)習(xí)的策略梯度智能體、一個(gè)SARSA 和 Q-learning 的 TD(Lambda)。如果想?yún)⑴c貢獻(xiàn),歡迎到Github上交流。

AI WORLD先看

神秘中國(guó)“大狗”機(jī)器人亮相2016世界人工智能大會(huì)

看過(guò)美國(guó)波士頓動(dòng)力大狗機(jī)器人意猶未盡?其實(shí),我國(guó)“四足仿生機(jī)器人”的研究也早在幾年前開展,

神秘的國(guó)產(chǎn)機(jī)器人大狗即將亮相北京·AI WORLD 2016大會(huì)現(xiàn)場(chǎng)。

先來(lái)一睹為快

機(jī)器人大狗來(lái)自山東大學(xué),由我國(guó)自主研發(fā),技術(shù)水平國(guó)際領(lǐng)先。

山東大學(xué)李貽斌教授

大會(huì)還特別邀請(qǐng)到山東大學(xué)機(jī)器人研究中心主任李貽斌教授在AI WORLD2016-技術(shù)分論壇分享“中國(guó)大狗”的研發(fā)之路。

想近距離接觸機(jī)器人大狗,了解大狗背后的故事?

『AI WORLD 2016 世界人工智能大會(huì)』

10月18日·北京·國(guó)家會(huì)議中心

我們不見不散!

戳閱讀原文,啟航期5折搶票,倒計(jì)時(shí)僅剩最后一天!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
154 萬(wàn) AI 開發(fā)者用數(shù)據(jù)告訴你,中國(guó) AI 如何才能彎道超車?| 中國(guó) AI 應(yīng)用開發(fā)者報(bào)告
2021 年最受歡迎的深度學(xué)習(xí)軟件
【 Microsoft & AI 】AI也能種黃瓜了,你想嘗嘗嗎?
2019人工智能進(jìn)展與趨勢(shì)
【重磅】馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析
Science子刊:為機(jī)器人復(fù)制腦代碼,無(wú)限接近人類決策
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服