文|Jeremy Bao、Junwu Zhang、陳茜,編輯|陳茜
5月中旬,特斯拉在股東大會上發(fā)布了人形機器人Optimus“擎天柱”的新進展。
在Demo里面,這個人形機器人已經可以很流暢地做一系列動作了,包括走路,并且利用視覺學習周圍的環(huán)境;手臂力道控制很精確,可以不打碎雞蛋;整個手掌看上去也很柔性,可以拿捏不同物品。
可以看出來,特斯拉的機器人發(fā)展還是挺快的,要知道,就在幾個月前,2022年9月的特斯拉人工智能日上,馬斯克首次亮相Optimus的時候,在舞臺上整個機器人看著還挺笨拙的,能做的動作非常有限,連走路都做不到,還是好幾個人給抬上舞臺的,整個受到外界的一陣嘲諷。
現(xiàn)在進展如果真的這么快,或許真如馬斯克所說,在不到十年的時間中,人們就可以給父母買一個機器人作為生日禮物了。ChatGPT加上AI機器人,感覺我都不用工作了,直接可以收拾行李環(huán)游世界去了。
然而,往壞了想,又感覺終結者里的機器人就要破殼而出了,很可怕。所以,我也非常矛盾,就像輿論上支持和反對AI機器人的兩派在不?;ハ嗥芤粯?,我到底期不期待AI機器人的到來呢?
但是,在《硅谷101》團隊做完AI機器人的調研之后發(fā)現(xiàn):AI機器人的ChatGPT時刻還遠未到來。
所以,這篇文章我們來聊聊,為什么AI機器人這么難做?現(xiàn)在進展到哪兒了?特斯拉的機器人有什么優(yōu)勢?為什么歷史上谷歌收購了十多家機器人公司但最終面臨階段性失利?為什么OpenAI放棄機器人研發(fā)?還有如今AI大模型對機器人能帶來什么進展?
首先,要來定義一下什么叫做“AI機器人”。
這個概念其實在學術界有一個很fancy酷炫的名字,叫做具身智能,Embodied Intelligence,顧名思義,就是具有身體的人工智能,是AI進入我們物理世界進行交互的載體。但是“具身智能”這個詞太學術了可能很多人不熟悉,所以在這個視頻中,我們就把具身智能定義為AI機器人。
AI機器人和機器人有什么不同呢?或者換個問法,AI機器人和AI有什么不同呢?
這幅圖就能簡單解答這兩個問題:機器人可以分別兩類,一類是非智能機器人,一類是有智能機器人,AI機器人。同時人工智能也有兩類,一個是虛擬世界中的,比如說ChatGPT,還有一個就是有手有腳能在真實世界中交互的。這幅圖就是機器人和人工智能交接的這個賽道,就是有智能的AI機器人,也就是:具身智能。
關于非智能機器人和AI機器人我們來舉幾個例子,幫大家辨別一下。
目前為止,基本上所有工業(yè)機器人只能被編程為執(zhí)行重復的一系列的運動,這就是前者,非智能機器人,更多是像個機器。
這幾年蠻流量的咖啡機器人就是一個很好的例子,比如說美國這邊有個公司叫Cafe X,就是一個機械手臂來給顧客做咖啡。雖然看上去有點smart,但它是完全沒有智能的。所有的運動軌跡,杯子的位置,握杯的力度,反轉搖晃杯子的方式和力度都是提前編程好的。
那怎么才算具有智能的AI機器人呢?我們還是拿咖啡機器人舉例,如果我們將機器人加上“感知”功能,比如說加上相機等視覺識別的AI算法,讓這個咖啡機器人的手臂可以和外界交互,根據杯子的不同高低遠近的位置,不同杯子的顏色大小,不同咖啡的品類,通過對外界“感知”而做出不同的決定,這就是AI機器人了。
再舉一個非智能機器人和AI機器人的例子,也是我們《硅谷101》的AI研究小組其中一個成員之前工作過的機器人公司,那家公司研究的一個項目就是夾娃娃。不是游戲廳的那種夾娃娃機,而是讓機械手臂去分揀玩具等商品。
如果100次任務每次周圍環(huán)境、障礙物都相同,而且都是把同一個娃娃從固定位置A拿起來放到固定位置B結束,那就是非智能機器人,現(xiàn)在已經可以做得很好了。但如果同樣的100次任務,娃娃的起始位置都不同,比如說你給機械手臂一個大袋子,里面有各種不同娃娃,還得讓機器人從口袋里面把特定的娃娃給識別挑出來,這就是智能機器人的范疇了。簡而言之,AI算法能幫助機器人去執(zhí)行更復雜的任務,讓機器人從“機器”進化成“機器人”,重音在最后一個字。
從這兩個分類來看,非智能機器人已經開始了大規(guī)模的應用,包括在最新巴菲特股東年會中芒格說“現(xiàn)在汽車工廠里面已經有很多機器人”都是這種用來組裝汽車,給車噴漆這樣的非智能機器人。但對于AI機器人來說,如今還在非常早的階段、困難非常多,連一些簡單AI的機器人投入市場都接連遭遇失敗。
為什么我們一定要發(fā)展具身呢?為什么AI機器人一定要有一個實體呢?這也很簡單,現(xiàn)在無論生成式AI多么先進,都只能在電腦中幫人類完成虛擬任務,寫寫文件,編編程,畫畫圖,聊聊天,就算之后有了各種API接口、AI可以進行各種軟件調用,可以幫你定下機票,回下郵件,完成各種文件工作,但在現(xiàn)實環(huán)境中,很多問題AI還是無法幫助人類完成的。
所以,當ChatGPT引發(fā)生成式人工智能熱潮之際,AI機器人賽道也迎來了非常大的關注。
包括:2022年12月13日,谷歌發(fā)布多任務模型Robotics Transformer 1,簡稱RT-1,用以大幅推進機器人總結歸納推理的能力;2023年3月,谷歌和德國柏林工業(yè)大學共同發(fā)布可以用于機器人的通用大語言模型PaLM-E,它和谷歌母公司Alphabet的機器人公司Everyday Robots結合,可以指導機器人完成復雜的任務;就在同月,OpenAI旗下的風險投資基金領投挪威人形機器人公司1X,總融資額2350萬美元,似乎預示著OpenAI在大模型機器人應用的新布局;還有就是我們開頭說到的,特斯拉也在快速發(fā)展人形機器人Optimus;同時,在硅谷,各種AI機器人創(chuàng)業(yè)公司也是如火如荼。
但是,雖然有了這些進展,AI機器人的研發(fā)還是非常難。除了硬件的挑戰(zhàn)之外,還有軟件和數(shù)據上的挑戰(zhàn)。所以接下來,我們試圖來解釋一下,為什么AI機器人這么難。
首先來說說硬件。
科技媒體TechCrunch硬件領域的編輯Brian Heater曾經說過“如果硬件發(fā)展很困難,那么機器人技術幾乎是不可能的?!?/strong>
要理解這一層,我們首先要理解一個機器人的大致組成:
根據科技內容網站ReHack的解釋,常見的機器人由5個部分組成:
1.感知系統(tǒng),也就是傳感器,比如攝像頭、麥克風、距離感應器等等,相當于人的眼睛、鼻子和耳朵,這是機器人的【五官】
2.驅動系統(tǒng),比如驅動輪子的馬達、機械臂上的液壓動力系統(tǒng)或者氣動系統(tǒng),相當于人的【肌肉】
3.末端執(zhí)行系統(tǒng),相當于人的手,它可以是機械手,也可能是機械臂上的一把螺絲刀或者噴槍,用以和外界環(huán)境進行物理交互,是【四肢】
4.能源供應,比如電源或者電池,這是【能量】
5.運算系統(tǒng)及其軟件,將所有上面的系統(tǒng)整合起來,完成任務,相當于機器人的【大腦】。
前四點都是硬件的難點,第五點是軟件我們下個章節(jié)來講。
首先,機器人感知系統(tǒng)需要把機器人各種“內部狀態(tài)信息”和“環(huán)境信息”從“信號”轉變?yōu)闄C器人自身或者機器人之間能夠理解和應用的“數(shù)據”還有“信息”。也就是說,我們要讓機器人理解周圍的環(huán)境。怎么做呢?
我們就在機器人身上安各種的傳感器,包括光,聲音,溫度,距離,壓力,定位,接觸等等,讓機器人能通過五官來收集接近人類感知外界的信息。目前,多種傳感器都得到迅速地發(fā)展,但傳感器的精度和可靠性依然是需要解決的難題。比如說,相機進水,進沙塵之后,或者顛簸之后相機的校準就容易失效,長期使用之后像素點就會壞死啦等等硬件問題都會直接導致機器識別的不準確。
其次,機器人的肌肉,也就是驅動系統(tǒng)。我們人類一共有78個關節(jié),我們依靠這些關節(jié)來進行精準的動作,包括我們的肩、肘、腕、指。
如果要重現(xiàn)在機器人上,每一個關節(jié)的技術門檻和成本都很高,并且一邊要求體積小、精度高、重量輕,但另外一邊又要求抗摔耐撞。比如說,當機器人快速運動的時候,驅動力輸出功率很高,要保證不會因為發(fā)熱問題而燒壞,同時又要就具備緩沖能力,來保護“機器人關節(jié)”不怕撞擊。所以,要協(xié)同這么多關節(jié)部位,還要考慮這么多因素,確實很挑戰(zhàn)。
還有就是末端執(zhí)行系統(tǒng),就是“手”,這個也是非常難的,比如說機器人手指的柔軟度,抓握的力度怎么協(xié)同非常重要。比如說機器人握雞蛋這個任務,勁兒使大了吧,雞蛋就碎了,如果勁兒小了吧,雞蛋握不住就摔地上也碎了。
比如說波士頓動力開發(fā)的Atlas機器人,雖然可以靈活的各種跑酷,但它的手掌呢,之前的版本直接就是個球,之后變成了夾子的形狀。
但特斯拉發(fā)布的“擎天柱”倒是展示出和人手非常相似的機械手,官方說,擎天柱擁有11個精細的自由度,結合控制軟件,能完成像人手一樣復雜靈巧的操作,并能承擔大約9公斤的負重,所以在最新的demo視頻中,我們也能看到特斯拉機器人在硬件上的一定優(yōu)勢,包括能控制力度的抓握很多物品,并且不會打碎雞蛋。
再來說說能源供應。剛才我們說波士頓動力的Atlas機器人,雖然各種炫技動作很酷,但必須配置功率很大的液壓驅動,
波士頓動力官網描述說,Atlas配置了28個液壓驅動器才能讓機器人完成各種爆發(fā)力超強的動作,而這樣的代價是,制造成本居高不下,難以走出實驗室完成商業(yè)化,所以我們看到,目標將售價降到2萬美元的特斯拉“擎天柱”人形機器人后來選用了穩(wěn)定性、性價比更高的電機驅動方案,也是成本考慮。
好,除了這四大塊,大家是不是已經覺得機器人硬件太難了:這么復雜的系統(tǒng),這么多不同的硬件,將他們整合在一起、協(xié)同工作、而且還要讓合適的部位有合適的力量、速度和準確性來做需要的工作,更是難上加難。然而,機器人的身體還不是最難的。接下來,我們說說機器人的軟件部分,也就是機器人的腦子。
我們再來分拆一下機器人的軟件部分:當我們給機器人一個任務的時候,比如,從一堆娃娃的袋子里去揀起其中一個特定的娃娃,機器人的軟件系統(tǒng)一般要經歷以下的三層:
第一層:理解任何需求和環(huán)境(perception)
機器人會通過傳感器了解周圍環(huán)境,搞明白,裝娃娃的袋子在哪里?袋子在桌上還是地上,整個房間長什么樣?我要去挑的娃娃長什么樣子?
第二層:拆解成任務(behavior planning)和路徑規(guī)劃(motion planning)
明白任務之后,機器人需要將任務拆解成:先去走過去,舉起手臂,識別娃娃,撿起來,再把娃娃放在桌上。同時,基于拆分好的步驟,計劃好,我應該用輪子跑多遠,機械臂該怎么動,怎么拿取物體,使多大勁兒等等。
第三層:驅動硬件執(zhí)行任務(execution)
把運動規(guī)劃轉變成機械指令發(fā)到機器人的驅動系統(tǒng)上,確定能量、動量、速度等合適后,開始執(zhí)行任務。
我們來說說這三層軟件在AI上的難點。
第一層的難點在于視覺等環(huán)境識別和理解,包括識別未知物體以及識別物體的未知姿態(tài)。
比如說,機器人在識別娃娃的時候,有可能橫著的時候可以識別,但豎著放、反著放就難以識別了,更別提當一個籃子里有上百個娃娃的時候,每個娃娃都有不同姿態(tài),那就更難識別了。
第二層的難點在于AI輸出的不穩(wěn)定性。AI拆解任務的時候,每一次的解法可能不同,導致任務拆解不一致,這會產生意想不到的結果。這個的根本原因還是AI的黑匣子問題,我們用激勵去追求輸出的結果,但AI選擇實現(xiàn)這個結果的路徑可能出現(xiàn)不穩(wěn)定性,這一點我們在《OpenAI黑手黨》那個視頻中也有講。比如說,機器人從籃子的一百個娃娃中挑選出其中一個,然后放在桌上這個任務。人的路徑規(guī)劃是穩(wěn)穩(wěn)的夾起來,然后平穩(wěn)的移動,然后釋放在桌上,但機器人可能就甩一個胳膊直接甩到桌上去。
第三層對發(fā)展AI的悖論在于,硬件執(zhí)行任務的驅動需要精準控制,而數(shù)學公式這樣的100%準確率為基礎、并且實現(xiàn)更高頻運作的“控制論”更適合執(zhí)行這一層任務,但目前AI做不到100%準確,速度也更慢,耗時耗力,因此,這一層對AI的需求目前并不強烈,業(yè)界還是采用的傳統(tǒng)控制論方式。
除了這三層的AI難點之外,軟件還有一大難點就是數(shù)據難以收集。而數(shù)據收集正是AI自我學習的必要條件。我們在《OpenAI黑手黨》那一集中講過,OpenAI曾經有機器人部門,但后來放棄了這條線就是因為機器人學習的數(shù)據太難收集了。
所以事實證明,只要我們能夠獲取數(shù)據,我們就能夠取得巨大的進步。實際上,有許多領域都擁有非常非常豐富的數(shù)據。而最終,正是這一點在機器人技術方面束縛了我們。
所以,數(shù)據是人工智能的根基,就算是世界最頂級的AI公司,也會為機器人領域沒有數(shù)據發(fā)愁。不管是文字、圖片、視頻、還是編程的大語言模型,都有全互聯(lián)網海量的數(shù)據用來訓練,才能在今天實現(xiàn)技術的突破。但是機器人用什么數(shù)據訓練呢?那需要在真實世界中親自采集數(shù)據,并且目前不同機器人公司、不同機器人的訓練數(shù)據還不能通用,采集成本也非常高。
比如你要訓練機器人擦桌子,人類要遠程操控這臺機器人給它演示,配上這個動作的文字描述,成為一個個數(shù)據點。你以為一個任務演示一遍就行了嗎?當然不是,你運行的時候得從各個角度、各個不同的傳感器采集數(shù)據,甚至不同的光影效果的數(shù)據也都得采集,不然你的機器人就只能白天擦桌子,晚上擦不了,左邊能擦,右邊擦不了。
再比如說,訓練谷歌的RT-1模型用的數(shù)據集有700個任務的13萬個數(shù)據點,13臺機器人花了17個月才采集完,時間花了這么多,但采集的效率非常的低下。
做個對比,ChatGPT的訓練數(shù)據估計有3000億個單詞,13萬和3000億,這個對比是不是太明顯了。也難怪當年OpenAI放棄機器人,去All in語言大模型了,因為明顯后者的數(shù)據參數(shù)更好采集。
人的交互過程中有55%的信息通過視覺傳達,如儀表、姿態(tài)、肢體語言等;有38%的信息通過聽覺傳達,如 說話的語氣、情感、語調、語速等;剩下只有7%來自純粹的語義,所以ChatGPT這樣的人工智能聊天助手能輸入的部分僅占人類交互中的7%。而要讓人工智能達到具身智能,那么剩下的信息,視覺,肢體,聽覺,觸摸等方式的數(shù)據采集,是需要給到機器人去學習的。
有沒有什么低成本的數(shù)據采集方法呢?現(xiàn)在的做法是:在虛擬世界中訓練機器人,也就是模擬,Simulation。
目前,大多機器人公司的路徑都是先在模擬器中訓練機器人,跑通了再拿到真實事件中訓練。比如說谷歌之前的EveryDay Robots就大量運用了模擬技術,在他們的模擬器中有2.4億臺機器人在接受訓練,在模擬的加持下,訓練機器人拿東西這個任務,原來需要50萬個數(shù)據,在模擬的幫助下現(xiàn)在只需要5000個數(shù)據了。各個角度、不同光影的數(shù)據也可以被自動化,不用一個一個采集了。
但是,Simulation也不是萬能的解決方案,首先它本身的成本也不低,需要大量的算力支持;其次虛擬世界和真實世界依舊存在著巨大的差距,在虛擬世界跑通的事兒,到了真實世界可能會遇到無數(shù)的新問題,所以,數(shù)據收集的挑戰(zhàn)依然是巨大的。
所以講到這里,我們總結一下,數(shù)據采集難,三層任務AI化難,再加上對硬件的控制和整合,其中的統(tǒng)一性和準確性都是非常嚴峻的難題。在過去十年,AI機器人的發(fā)展并沒有人們一度想象中那么樂觀。并且,在實驗室中看似已經解決的問題,到了實驗室外的商用探索中,又出現(xiàn)了各種新的問題。
講到這里,我們就不得不說說谷歌十年押注AI機器人但最終沒能成功的故事,其實也反映了AI機器人上的發(fā)展困境。
在2012年前后,深度學習、3D視覺、自主規(guī)劃和柔順控制等技術的發(fā)展,讓機械臂有了更好的“眼睛和大腦”,同時增加了環(huán)境感知和復雜規(guī)劃能力,可以去處理更靈活的任務。
也就是我們剛才說到的第一和第二層任務上,AI在軟件上的應用出現(xiàn)了進步。
所以在2012年,如果大家還有記憶的話(這就是一個暴露年齡的話題),一些科技巨頭當時開始瘋狂的收購智能機器人。比如說,谷歌在2012到2013年間,一口氣收購了包括波士頓動力在內的11家機器人公司。
當時,谷歌內部管機器人這條件線的人叫安迪-魯賓,是不是聽著耳熟?沒錯,他正是安卓系統(tǒng)的創(chuàng)始人。
但同時很多人不知道的是,他還是個機器人迷,大家看安卓的英文Android這個詞,英文原意就是“人型機器人”,而且安卓的標志也是個綠色的小機器人。
魯賓從2013年就開始秘密在谷歌組建機器人部門,大家看當時他收購的這些公司,除了波士頓動力之外,還有研究雙足機器人的Schaft公司,研究人形機器人的Meka Robotics,研究機械手臂的Redwood Robotics,計算機視覺人工智能公司Industrial Perception,制造基于機械臂的機器人攝影攝像系統(tǒng)Bot&Dolly,生產小型及全向滾輪和移動裝置的Holomni公司,大家看看這些公司,谷歌顯然意識到了AI在機器人中的重要性,希望結合AI推進機器人的發(fā)展。
谷歌這樣的科技巨頭開啟收購熱潮背后的邏輯可能在于:谷歌這樣以軟件見長的公司,在比較不擅長的硬件 以及軟硬件結合的部分,是發(fā)展智能機器人難以逾越的技術壁壘。所以,我們推測,谷歌可能一度認為,在AI機器人的軟件方面,因為第一層和第二層技術的進步,買來各種硬件公司整合在一起,再把軟件蓋在上面,AI機器人說不定就能邁出重大的進展。
經過十年的發(fā)展,當年的機器人明星公司們發(fā)現(xiàn),在實際市場用途中,還遠不能保證準確率和統(tǒng)一度。
比如說倉庫分揀這個活兒,一個訓練有素的工人可以達到95%的準確度,如果機器人低于這個準確率,那就意味著還需要有人來監(jiān)督輔助機器人的運行,工廠老板們一算賬,既要買機器人又得雇傭人類,還不如全雇人類做呢。所以機器人的準確度一般要達到95%以上甚至99%才能真正有商業(yè)價值,但現(xiàn)實是:如今AI機器人可以做到90%,但從90%到100%的最后10%,現(xiàn)在無法突破。而在這一天到來之前,機器人就很難替代人工,并且有時候還會宕機導致整個生產線癱瘓,因此客戶也不愿意買單,所以準確率達不到、那么投入商用就遙遙無期,而這又意味著谷歌不斷燒錢但看不到回報 。
安迪·魯賓在2014年爆出性丑聞離開了谷歌,之后收購的這11家公司經過各種重組,有的被再出售,比如說波士頓動力被賣給了軟銀,然后又被賣給了韓國現(xiàn)代,賣給現(xiàn)代的時候估值只有谷歌收購時候的三分之一,還有的團隊被解散,比如說Schaft公司,之后谷歌內部孵化出了兩條線,致力于工業(yè)機器人軟件和操作系統(tǒng)研發(fā)的Intrinsic以及通用機器人Everyday Robots??上?,這兩個團隊都在最近的谷歌大裁員中,相當一部分人被裁掉,其中Every Robots部門不再被列為單獨項目,很多員工被并入了Google Research或其它團隊。我們開頭舉例的那個夾娃娃公司Vicarious,也因為融資不理想被谷歌收購,而很快成為了谷歌裁員的重點目標,連Vicarious的創(chuàng)始人都離開了谷歌。
講谷歌失敗的的機器人發(fā)展線并不僅僅是因為谷歌的辦公室政治和性丑聞,而是想說明AI機器人行業(yè)發(fā)展的一個縮影:AI機器人在軟件和硬件上還都需要解決的問題太多、挑戰(zhàn)太大。
而現(xiàn)在,重要的問題來了,ChatGPT的出現(xiàn),能否打破這個僵局呢?
記得我們團隊在跟幾位從事機器人和AI工作的科學家吃飯的時候,我問了這個問題:現(xiàn)在這么熱的AI大模型,能幫助AI機器人什么呢?其中一個AI專家說了兩個字:信心。然后我們一桌人都笑翻了,雖然這是個段子,但也得到了在座專家一致的認同。
與最近爆火的生成式AI不同,機器人似乎還沒有到所謂的ChatGPT時刻,很多機器人產品里都沒有或者只有很少量的AI,更多是通過computer vision建立視覺,而更底層的動態(tài)規(guī)劃和機械控制仍使用傳統(tǒng)機械控制論的思路去解決,并不能算是真正有學習能力的機器人。
比如,從嚴格定義上來看,大名鼎鼎的波士頓機器人公司似乎就不是一個AI驅動的公司,更像是個傳統(tǒng)機器人公司,特別是,他們的AI研究院在2022年才成立。
但一個積極的現(xiàn)象是:各家機器人公司對AI的整合都越來越多,搭載了更多AI的機器人也更受到資本的青睞。比如我們在《OpenAI黑手黨》那期節(jié)目提到的Covariant公司,他們工業(yè)機器人的主打賣點,就加載了預訓練的AI模型,可以在沒有特別訓練的情況下就執(zhí)行貨物分揀任務,分揀的東西變化了之后也可以自主的適應。
如今,現(xiàn)階段大模型對機器人的應用大多停留在科研階段,還非常早期。其中,AI大模型無法在根本上幫助具身智能的一個原因在于,大模型提高的是通用性,而AI機器人需要解決的問題是準確性,這個鑰匙和鎖對不上。很簡單的一個例子:如今像ChatGPT這樣的大模型的準確度,在一些領域上,有時候還沒有經過了充分訓練的小模型的準確度高。ChatGPT能通用地回答各種問題,但它的回答不免出現(xiàn)常識錯誤,我們可以對這些錯誤一笑而過;但如果同樣的事情發(fā)生在機器人上,帶來的可能就是停工停產,經濟損失,甚至更嚴重的事故。
但是,盡管如此,從未來前景來看,大模型還是能給機器人領域帶來一些的正面推動的:
首先,在自然語言交流上,我們再回到機器人軟件的三層模型來看,谷歌發(fā)布的擁有5620億個參數(shù)的多模態(tài)視覺語言模型Palm-e主要解決的是第一層及第二層的部分問題,因為這一部分之前要靠編程來告訴機器人怎么做,而現(xiàn)在機器人可以聽懂自然語言,并將自然語言任務直接拆解成可執(zhí)行的部分。
同時,在2023年4月初,Meta發(fā)布了名為Segment Anything的通用AI大模型,簡稱SAM。我們《硅谷101》音頻的嘉賓Jim Fan在聊SAM的這一期節(jié)目中稱“SAM是圖像識別領域的'GPT時刻”,因為SAM使得計算機視覺可以分割一個從未見過的物體。而這會在第一層軟件上為視覺識別帶來非常大的幫助。
其次,像谷歌的RT-1主要解決的是三層模型中的第二層問題,也就是如何將任務和環(huán)境信息轉化成動作規(guī)劃。研究人員發(fā)現(xiàn),在Transformer大模型的加持下,機器人執(zhí)行從未做過的任務的成功率明顯上升,對不同環(huán)境甚至有干擾情況下的成功率也有上升。這是邁向通用機器人的重要一步。也就是說,機器人可以執(zhí)行之前從未執(zhí)行過的任務了。
再者,在數(shù)據上得到提升。在RT-1中,研究人員使用了不同型號的機器人的數(shù)據來訓練模型,結果發(fā)現(xiàn)自己機器人執(zhí)行任務的準確率提升了。雖然這方面的研究還比較早期,但如果未來有大模型能使用不同機器人的數(shù)據進行預訓練,可能會進一步提高準確度,那么這意味著,機器人AI的通用訓練集也能實現(xiàn)了。
這幾個進展是目前的大模型熱潮除了給AI機器人賽道帶來“信心”之外,還切實帶來的進步,但即使如此,我們現(xiàn)在還在非常非常早期的階段。也有業(yè)內人士告訴《硅谷101》,雖然這四個模型的發(fā)布振奮了AI機器人市場的熱情,但Palm-e和和RT-1的技術對于行業(yè)來說都不是全新的消息,因此,這四個模型能如何賦能AI機器人,還需要我們進一步去驗證。
另外,雖然特斯拉最新發(fā)布的視頻沒有對Optimus做任何技術上的解析,但馬斯克透露,特斯拉已經打通了FSD和機器人的底層模塊,實現(xiàn)了一定程度的算法復用。我們知道,F(xiàn)SD算法指的是特斯拉全自動駕駛,是Full Self-Driving系統(tǒng)的縮寫。FSD的這個算法讓車輛可以實現(xiàn)自主導航和自動駕駛功能,包括讓車輛能夠在各種交通環(huán)境下進行感知、決策和控制。如果,這一套基于神經網絡和計算機視覺的技術算法也可以移到AI機器人上,相信會對軟件方面幫助不少。
但是同時,我們還想強調一點,在AI機器人流派中,還有很多其它的嘗試正在進行,不一定大模型神經網絡能夠成為具身智能的解藥,大模型也不一定是我們能達到通用人工智能的解藥。我們今天講述的具身智能發(fā)展派的做法是在人工智能上將軟件和硬件分開各自迭代,然后將兩者融合的方式去做AI機器人。但目前學術界,也有一些新的流派在產生,認為人類現(xiàn)在訓練具身智能的方式還只是單純的輸入的輸出,但是,具身智能也許需要更加多通道的全面的跨模態(tài)交互,因為這樣的行為交互才最能體現(xiàn)機器對環(huán)境的認知試探和反饋,才能在和環(huán)境的互動過程中學習和成長。
比如說,斯坦福人工智能實驗室前主任李飛飛博士在2021年提出了DERL的概念,是Deep Evolutionary Reinforcement Learning 深度進化強化學習的縮寫,這是一種非常新的發(fā)展具身智能的思路。
與其人們設計出具身智能的最終形態(tài)身軀再強加上AI軟件來驅動,李飛飛博士提出,智能生物的智能化程度,和它的身體結構之間,存在很強的正相關性,不如讓AI自己選擇具身的進化。而這樣的具身不一定是人形機器人。也就是說,對于智能生物來說,身體不是一部等待加載“智能算法”的機器,而是身體本身就參與了算法的進化。
李飛飛博士說她通過回溯5.3億年前的寒武紀生命大爆發(fā)找到了靈感,當時,許多物種首次出現(xiàn)。如今共識的科學理論認為,當時新物種的爆發(fā)部分原因,是由眼睛的出現(xiàn)所驅動的,視覺讓生物們第一次看清楚周圍的世界,而通過視覺,物種的身體“需要在快速變化的環(huán)境中移動、導航、生存、操縱和改變”,從而自行進化。
也就是說,地球上所有的智力活動,都是生物通過自己的身體,真真切切地與環(huán)境產生交互之后,通過自身的學習和進化所遺留下來的“智力遺產”。那么,具身智能,也就是AI機器人,為什么會是一個例外呢?為什么不是自己進化,還是讓人類設定最終形態(tài)呢?
所以,李飛飛博士在這個DERL,也就是深度進化強化學習的論文中,提到了生物進化論與智能體進化的關系,并且借鑒了進化論的理論,制造了一個假設的智能體,名為“Unimal”。
就是圖中身上長滿了小棍的這個東西,是universal和animal拼起來的一個詞,然后規(guī)定了模擬環(huán)境的虛擬宇宙中的三條規(guī)則:
第一條規(guī)則:這個宇宙中存在大量的虛擬生命agents,這些agents的具身,就是這些像小棍一樣的肢體和頭部拼接起來的虛擬生命。這些具身代表著不同的基因代碼,模擬出不同環(huán)境下進化出的不同具身。大家可以看到,平地,崎嶇不平的山路,和前面有障礙物的環(huán)境下,具身會進化出不同的結構,有的像八爪章魚一樣,有的像小狗一樣的四足結構,反正就是非常不一樣。
第二條規(guī)則是:這些形態(tài)各異的虛擬具身,都需要在自己的一生中,通過使用機器學習算法來適應不同的環(huán)境,比如平坦的地面、充滿障礙的沙丘,在這些環(huán)境中完成不同的任務,像是巡邏、導航、躲避障礙物、搬運箱子等等。
第三條規(guī)則是:通過一段時間的學習訓練之后,虛擬具身之間要相互比賽,只有表現(xiàn)最突出的一部分能夠被保留下來。然后,它們的基因代碼經過相互組合之后,產生大量新的身體結構,再重復第一和第二條規(guī)則中學習適應各類環(huán)境和任務的過程。
要注意的是,上一代虛擬生命遺留給下一代的,只有它們的身體結構,而不包括它們在一生中學習到的經驗和算法。
通過搭建這樣一個虛擬宇宙,研究人員在里面使用各種條件,對上千個具身形態(tài)進行了嚴酷的篩選。最終發(fā)現(xiàn):一個物種在前幾代通過長期和艱苦的深度學習獲得的行為,在后幾代中會變成一種類似本能的習慣。
如說,某個具身的祖輩花了很長時間才學會跑步,但是在經過幾代進化之后,它們的后代生下來沒多久就自己會跑了。
李飛飛團隊的研究人員說,在學習和進化的雙重壓力下,最終只有那些在結構上有優(yōu)勢的身體結構,才能夠被保留下來,進行進化。這些結構由于可以更容易學習到更先進的算法,于是在每一代的競爭中就積累下了大量的優(yōu)勢。研究人員把這種身體結構上的優(yōu)勢叫做“形態(tài)智能”。在算力相同的情況下,具備形態(tài)智能優(yōu)勢的生物可以更快獲得學習上的優(yōu)勢,從而贏得殘酷的生存競爭。這其實是驗證了19世紀末著名的“鮑德溫效應”。
所以,這篇論文得到的結論是,DERL深度進化強化學習使得大規(guī)模模擬成為現(xiàn)實,通過學習形態(tài)智能的進化過程可以加速強化學習。而李飛飛博士也表示:“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能”。也就是說,將進化論放進人工智能領域,用“具身智能”而非純粹的“算法智能”,來加快人工智能機器人的進化速度,也許是能更快推進具身智能前進的方式。
目前,研究依然還是非常早期的階段,所有訓練也還只在的模擬器中,但這已經讓之后的具身智能發(fā)展充滿了各種懸念:最終出現(xiàn)在我們面前的具身智能,可能不是我們想象中的機器人形態(tài),更有可能是一種渾身插滿各種木棍兒的小人也說不定。
所以,我們這個視頻在結尾得到的結論就是:AI機器人,也就是具身智能的發(fā)展,沒那么容易。這個賽道還沒有等到自己的ChatGPT時刻,我們開頭描述的那些場景距離實現(xiàn)還早著呢,所以大家既不用擔心終結者很快到來、也不用興奮很快會有AI機器人能幫我們去遛狗排隊買咖啡。
但是,具身智能的出現(xiàn),是“機器人”Robot這個詞最開始發(fā)明的時候,就在人類的想象中的。
大家猜猜英文Robot是怎么來的?
這個詞最早其實出現(xiàn)在1920年捷克文學家卡雷爾·恰佩克的三幕劇《羅素姆萬能機器人》(Rossum's Universal Robots),而Robot這個詞源于捷克語的“robota”,意思是“苦力”和“奴隸”的意思,之后成為了機器人的專有名詞。
而這個三幕劇講的什么故事呢?
這個故事講述的是,羅素姆這個工廠大規(guī)模制造和生產機器人,本來初衷是完成所有人類不愿做的工作和苦差事,從而解放人類投身于更美好、更高的事物。但后來,機器人發(fā)覺人類十分自私和不公正,終于造反了,因此消滅了人類。但是,機器人不知道如何制造自己,認為自己很快就會滅絕,所以它們開始尋找人類的幸存者,但一直沒有找到。最后,一對感知能力優(yōu)于其它機器人的男女機器人相愛了。這時機器人進化為人類,世界又起死回生了。
100多年前,機器人Robot這個詞誕生的時候,小說家卡雷爾·恰佩克似乎就覺得終有一天,具身智能會來到人類世界,并且和人類的關系變得破朔迷離,機器人可以消滅人類,也可以進化為人類。我不知道是否有一天,這個幻想的故事會真實抵達我們的世界,但稍微能安撫大家的是,至少在現(xiàn)在,我們依然距離這個故事還很遙遠。
聯(lián)系客服