智東西(公眾號:zhidxcom)
編 | 元琛
導語:從AlphaGo開始,人機大戰(zhàn)層出不窮,機器學習、深度學習的概念也越發(fā)普及。實現(xiàn)強人工智能的捷徑,似乎就在眼前。
有這樣一個場景:兩個機器人面對兩扇關著的門,他們向前伸出“手”,但卻完全沒有抓住門把手。 于是他們重新開始,這一次他們正面觸到了門把手,還敲響了門框。 他們又試一次, 又試一次,不斷嘗試。經過幾個小時的試驗和錯誤, 最后,他們可以輕松地抓住門把手,把門打開。
一直以來,雖然有很多類型的機器人都可以做到這件事,但上面描述的這兩個機器人明顯有所不同:它們由谷歌研發(fā),具備自我學習的能力,是依靠自己學會了“開門”。依靠一種稱為“強化學習”的技術,他們訓練自己執(zhí)行一個特定的任務,一遍又一遍地重復它,仔細記錄這個過程。 大名鼎鼎的圍棋人工智能AlphaGo正是基于相同的技術原理?,F(xiàn)在,它將機器人技術推向了一個全新的領域。
除了幾個視頻和兩篇博客文章外,谷歌拒絕對外透露這項研究。目前已知的是該研究由加利福尼亞大學伯克利分校的機器人學家謝爾蓋·萊文主導。當然,該項目仍處于早期階段。但對于機器行業(yè)來說,它顯然代表了一個更寬廣的可能性——機器可以自己學習做事,而不用嚴格遵守工程師預先設計的程序辦事。
人們都希望,強化學習和相關方法可以促進自動機器人的發(fā)展。畢竟。這些方法已經成功地促進了純數(shù)字領域中許多技術的進步。而隨著上述技術的不斷進步,機器人硬件也在迅速演變。在那些谷歌發(fā)布的網絡視頻中,機器人的這一改變也被強調提出。諷刺的是,這樣的技術研究完全無視了特朗普政府要給美國工業(yè)帶來更多的工作機會的誓言——美國企業(yè)已經用機器人取代了大量的人類工作,而現(xiàn)在研究人員正在研發(fā)的自主學習機器無疑將能夠替代更多的人類工作。
Ronnie Vuine與哈佛認知科學家Joscha Bach一起創(chuàng)立了機器人公司Micropsi?!拔覀兏信d趣的是能夠與人類互動的機器人,”他說, “想象一下,機器人完成一部分工作后把它交還給人類手中,或者從人類手中領取一部分工作。 今天,這樣的設想還未能實現(xiàn)。”
1.試驗和錯誤
強化學習并不是一項全新技術。兩年前,當Google收購倫敦人工智能實驗室DeepMind并使用這項技術構建以超人力方式玩經典“雅達利”游戲的系統(tǒng)時,強化學習就已經出現(xiàn)了。這個游戲需要用一個槳和一個彈跳球來擊倒一堵磚墻,經過訓練學習,DeepMind的AI最終可以令人難以置信地輕松通關。
然后,實驗室對人工智能下圍棋運用了相同的技術,提前計劃十年突破了這項歷史悠久的游戲。 DeepMind創(chuàng)始人Demis Hassabis和他的團隊將大約3000萬局圍棋記錄植入到機器的深層神經網絡 ——這是一種模式識別系統(tǒng),它能夠通過分析大量的數(shù)據(jù)來完成學習任務。 一旦系統(tǒng)學習了某項游戲,它就會通過和自己不斷的“對戰(zhàn)”,來達到更高競技水平。
強化學習特別適合游戲。該技術由“獎勵功能”驅動,系統(tǒng)會自動追蹤哪些動作能夠帶來獎勵,哪些不帶獎勵。在游戲中,獎勵是顯而易見的:更多的積分。 但是在現(xiàn)實生活中,獎勵功能有時不太明顯,有時則會更多。比如,對于谷歌的機器人來說,獎勵就是成功打開門。
2.廣闊新天地
當然,打開門只是進入新世界的一小步。要實現(xiàn)更遠大的目標,對于研究項目來說正變得極為復雜、需要極速更新,更不用說也是極為昂貴的。 這就解釋了一大疑問:為什么許多研究人員在將強化學習應用到現(xiàn)實世界,以改進機器人的游戲能力之前,要使用數(shù)字模擬來進行探索。
比如OpenAI,它是由埃隆·馬斯克投入十億美元創(chuàng)建的人工智能實驗室。 它構建了一個名為Universe的掃描軟件平臺,其中AI“代理”可以使用強化學習來掌握從游戲到Web瀏覽器的各種計算機應用程序。 在理論上,這可以幫助實現(xiàn)現(xiàn)實生活中的智能操作代理。 如果你能教一個AI玩一個駕駛游戲,同理,你可以教會它開車。
Prowler.io是英國劍橋的一家創(chuàng)業(yè)公司,它正沿著同樣的道路前進。今天,這個小團隊的研究人員正在建立可以學習指導大型多人游戲《虛擬世界》的代理。 但隨著時間的推移,他們計劃將這項工作擴展到現(xiàn)實世界中的機器人和無人駕駛汽車。
當今,真正的無人駕駛汽車不應該是具體的如何操作問題,不應是基于工程師編制的那一套龐大的規(guī)則做出決定。因為這并非是真正的自動駕駛,并非是真正的自主決策。 Prowler的創(chuàng)始人兼CEO Vishal Chatrath將他以前的AI公司賣給了蘋果公司,他認為強化學習和相關技術對于建設真正的無人駕駛汽車至關重要 ——汽車自己可以做一切人類駕駛者能做的事情。
在柏林,如同Google一樣,Micropsi已經將這些技術推廣到現(xiàn)實中。 該公司成立于2014年,著眼于為制造業(yè)及其他工業(yè)目的來制造機器人。它首先建立了機器人模擬系統(tǒng),通過強化學習進行訓練。 公司網站上的視頻展示了這樣一個系統(tǒng):一個虛擬機器人手臂正學習用虛擬手指的指尖來使虛擬桿保持平衡。 該系統(tǒng)模擬重力和機器人動作,并且獎勵功能自動追蹤該虛擬桿掉落與否。 “為使虛擬桿不掉落,我們每秒鐘給機器人一個cookie,”Vuine說。 “如果桿掉了,就懲罰它。”現(xiàn)在,公司正在將這些相同的技術應用到一個稱為通用機器人的現(xiàn)實機器上。
3.現(xiàn)實的問題
麻煩的是,現(xiàn)實世界也需要新技術。Vuine聲稱他的公司可以解決計算機模擬中出現(xiàn)的任何機器人問題,但模擬畢竟只是模擬,并非現(xiàn)實。 “如果你在模擬中做到了,那么在現(xiàn)實中也不一定可以做到,”他承認這一點,“現(xiàn)實情況很難完全模擬出來?!睋Q句話說,你可以通過模擬來構建一個能夠保持虛擬桿平衡的機器人,但是要教它將插頭插入插座,則需要真正的插頭和插座?!?/p>
由于有一個明顯并簡單的獎勵機制,將插頭插入插座的任務無疑十分容易。然而,現(xiàn)實中的大多數(shù)行為更難以評價。當你將諸多任務串在一起時,這些獎勵系統(tǒng)會變得非常復雜。 Carnegie Mellon研究員Abhinav Gupta正在使用來自Google的資金探索類似技術,希望解決如何在短期內有效地使用強化學習的問題。
Chatrath認為,至少現(xiàn)在,要現(xiàn)實世界中真正應用AI,最好方法是先通過那些小而簡單的機器實現(xiàn),比如說玩具 。這一設想的原理很簡單:系統(tǒng)可以通過學習使用簡單的機器,將他們所學到的應用到更復雜的機器上。很明顯,機器人不只是有一種學習方式。他們的學習方法有很多。
機器們已經開始學習了。
原文來自:wired
聯(lián)系客服