眾所周知,“鋼鐵俠”馬斯克在涉獵了互聯(lián)網(wǎng)、新能源、航天、管道交通等科技領域之后,始終沒有停下探索的腳步,而在當下大熱的人工智能領域自然也是少不了他的身影。2015年他聯(lián)合Y Combinator總裁阿爾特曼、天使投資人彼得·蒂爾(Peter Thiel)等硅谷巨頭投資10億美元成立人工智能非營利組織OpenAI。主要的目的就是希望能夠預防由人工智能技術的發(fā)展所引發(fā)的災難,努力推動人工智能向健康積極的方向發(fā)展。
就在昨天,OpenAI向外界發(fā)布了其具有里程碑意義的一項研究——單次模仿學習算法(one-shot imitation learning)。據(jù)悉,這種算法的絕妙之處在于允許人們使用虛擬現(xiàn)實工具來向人工智能傳達任務指令,操作者只需要進行一次動作演示,之后人工智能就可以參照人類的動作進行模仿學習。
而這也已經(jīng)不是OpenAI第一次推出人工智能相關的技術了。在2016年12月,OpenAI推出了一個開源平臺Universe,基于這個平臺,用戶可以使利用游戲、網(wǎng)絡瀏覽器和各種軟件來訓練人工智能。通過這種方法,AI系統(tǒng)將會變得更加智能,可以像人類一樣操作計算機,解決我們所遇到的一切問題,而Universe的角色就成了AI系統(tǒng)訓練平臺。
圖丨Universe訓練AI所用的游戲
本周,OpenAI又推出了用于機器人仿真的開源軟件Roboschool,它基于增強學習研究平臺OpenAI Gym而開發(fā)的,提供了十幾個新的操作環(huán)境,讓用戶可以在模擬環(huán)境中訓練一個或多個機器人。
圖丨Roboschool的訓練畫面
不過,相較以往,單次模仿學習算法的進步之處在于不需要人類操作者將動作反復重復,只要一次就足夠人工智能來“領悟學習”。為了驗證這一算法的可靠性,OpenAI進行了立方塊堆疊的實驗。
在實驗中,OpenAI嘗試“教”機械臂按順序堆疊一批彩色的立方塊,那么佩戴著VR設備的操作者就會首先在虛擬現(xiàn)實的環(huán)境中手動完成這一任務。然后,OpenAI就會使用其為機械臂專門開發(fā)的“眼睛”——視覺網(wǎng)絡來仔細觀察每一個動作。值得一提的是,視覺網(wǎng)絡是一種基于成千上萬個模擬圖像而訓練出來的神經(jīng)網(wǎng)絡,它是OpenAI早先很重要的一個研究項目,重點就是要用不斷變化的模擬數(shù)據(jù)來強化對人工智能的訓練。
圖丨OpenAI的完整演示視頻
但到這里,大家可能會有一個疑問,那就是為什么OpenAI沒有選取現(xiàn)實世界中的照片或影像來供人工智能進行學習呢?畢竟這么做可以令機器人更直接的適應現(xiàn)實中的應用需要。其實,OpenAI的研究人員在這方面也是有所考量的。
首先,收集真實世界中的圖像不僅費時費力,而且花費的成本也將是天文數(shù)字。反觀模擬數(shù)據(jù),可以更快、更有效率的達到相同的學習效果。也正因此,OpenAI為最新的人工智能算法提供的都是有著不同風格背景和紋理的虛擬圖像。
另外很重要的一點,相較于真實世界的圖像,人工智能算法在對虛擬圖像進行分析的時候可以不用考慮現(xiàn)實場景的因素,可直接對機器人觀察到的虛擬圖像進行識別。
圖丨OpenAI使用的虛擬圖像
接下來,OpenAI的算法會將從視覺網(wǎng)絡中收集到的信息傳送給第二層神經(jīng)網(wǎng)絡——仿真網(wǎng)絡,并以此來指導機械臂的動作。仿真網(wǎng)絡的作用是分析出每一個動作背后的真實含義,并將其推廣到新的應用場景中。那么它是怎么實現(xiàn)的呢?
仿真網(wǎng)絡會從幾十個不同的任務中得到訓練,而每個不同的任務又都會包括上千次的示范演示。每次訓練,仿真網(wǎng)絡都可以觀察到兩個演示案例,所不同的是,仿真網(wǎng)絡可以全方位的反復觀摩第一個演示案例,但第二個演示案例僅會被展示一次。在這之后,研究人員就會使用監(jiān)督學習來預測演示者下一步會采取什么樣的行動。所以,很顯然機器人必須要從第一次展示中了解到大量的相關信息才能有效的預測下一步的行動。
而在立方塊堆疊的應用案例中,該算法的訓練目標就是要將不同擺放方式的立方塊按相同的順序搭成同樣的“方塊塔”。
圖丨無論現(xiàn)實中的立方塊如何擺放,機械臂都可以將它們擺成統(tǒng)一的樣式
到目前為止,演示所用到的一切數(shù)據(jù)還只是模擬數(shù)據(jù),而沒有任何真實世界的影像或圖片。OpenAI的技術人員Josh Tobin解釋說:“盡管機器人的動作與人類所演示的還略有不同,但它已經(jīng)可以順利地執(zhí)行任務了。假以時日,或許人類只要進行一次演示,就可以讓機器人毫厘不差地完成好各種不同的任務?!?div style="height:15px;">
圖丨OpenAI的科學家Josh Tobin
而OpenAI的研究團隊也沒有止步于此,他們的遠期目標是讓人工智能擁有快速學習的能力,并且可以適應環(huán)境中不可預測的變化。Tobin說,“人類的嬰兒天生就擁有模仿別人的能力,而也正是這種能力使得我們可以快速的學習,我希望機器人也可以很快具備這種能力?!?div style="height:15px;">
事實上,不僅是OpenAI,越來越多的AI研究專家都在探索讓人工智能變得無所不能的方法,為此,他們打造了可以自學、甚至可以互相學習的AI系統(tǒng)。而我們周圍的世界和生活也正是因為這一次次的進步而變得更美好。