選自Quanta magazine
作者:Allison Whitten
機器之心編譯
編輯:張倩
在前段時間的一篇文章中,李飛飛指出了計算機視覺未來的幾個重要方向,其中最重要的一個就是具身智能。她認為,具身智能將成為 AI 領(lǐng)域的下一個「北極星問題」之一。那么,具身智能是什么?為什么如此重要?現(xiàn)在發(fā)展到什么程度了?這篇文章進行了詳細分析。
2009 年,當時在普林斯頓大學工作的計算機科學家李飛飛主導構(gòu)建了一個改變?nèi)斯ぶ悄軞v史的數(shù)據(jù)集——ImageNet。它包含了數(shù)百萬張有標簽的圖像,可以用來訓練復雜的機器學習模型,以識別圖像中的物體。
2015 年,機器的識別能力超過了人類。李飛飛也在不久之后轉(zhuǎn)向了新的目標,去尋找她所說的另一顆「北極星」(此處的「北極星」指的是研究人員所專注于解決的關(guān)鍵科學問題,這個問題可以激發(fā)他們的研究熱情并取得突破性的進展)。
她通過回溯 5.3 億年前的寒武紀生命大爆發(fā)找到了靈感,當時,許多陸生動物物種首次出現(xiàn)。一個有影響力的理論認為,新物種的爆發(fā)部分是由眼睛的出現(xiàn)所驅(qū)動的,這些眼睛讓生物第一次看到周圍的世界。李飛飛認為,動物的視覺不會孤零零地產(chǎn)生,而是「深深地嵌在一個整體中,這個整體需要在快速變化的環(huán)境中移動、導航、生存、操縱和改變,」她說道,「所以我就很自然地轉(zhuǎn)向了一個更加活躍的 AI 領(lǐng)域?!?/span>
如今,李飛飛的工作重點集中在 AI 智能體上,這種智能體不僅能接收來自數(shù)據(jù)集的靜態(tài)圖像,還能在三維虛擬世界的模擬環(huán)境中四處移動,并與周圍環(huán)境交互。
這是一個被稱為「具身 AI」的新領(lǐng)域的廣泛目標。它與機器人技術(shù)有所重疊,因為機器人可以看作是現(xiàn)實世界中具身 AI 智能體和強化學習的物理等價物。李飛飛等人認為,具身 AI 可能會給我們帶來一次重大的轉(zhuǎn)變,從識別圖像等機器學習的簡單能力,轉(zhuǎn)變到學習如何通過多個步驟執(zhí)行復雜的類人任務,如制作煎蛋卷。
今天,具身 AI 的工作包括任何可以探測和改變自身環(huán)境的智能體。在機器人技術(shù)中,AI 智能體總是生活在機器人身體中,而真實模擬中的智能體可能有一個虛擬的身體,或者可能通過一個移動的相機機位來感知世界,而且還能與周圍環(huán)境交互?!妇呱淼暮x不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能,」李飛飛解釋說。
這種交互性為智能體提供了一種全新的——在許多情況下是更好的——了解世界的方式。這就相當于,之前你只是觀察兩個物體之間可能的關(guān)系,而現(xiàn)在,你可以親自實驗并讓這種關(guān)系發(fā)生。有了這種新的理解,想法就會付諸實踐,更大的智慧也會隨之而來。隨著一套新的虛擬世界的建立和運行,具身 AI 智能體已經(jīng)開始發(fā)揮這種潛力,在他們的新環(huán)境中取得了重大進展。
「現(xiàn)在,我們沒有任何證據(jù)證明存在不通過與世界互動來學習的智能,」德國奧斯訥布呂克大學的具身 AI 研究者 Viviane Clay 說。
走向完美模擬
雖然研究人員早就想為 AI 智能體創(chuàng)造真實的虛擬世界來探索,但真正創(chuàng)建的時間才只有五年左右。這種能力來自于電影和視頻游戲行業(yè)對圖像的改進。2017 年,AI 智能體可以像在家里一樣逼真地描繪室內(nèi)空間——雖然是虛擬的,但卻是字面上的「家」。艾倫人工智能研究所的計算機科學家構(gòu)建了一個名為 AI2-Thor 的模擬器,讓智能體在自然的廚房、浴室、客廳和臥室中隨意走動。智能體可以學習三維視圖,這些視圖會隨著他們的移動而改變,當他們決定近距離觀察時,模擬器會顯示新的角度。
這種新世界也給了智能體一個機會去思考一個新維度「時間」中的變化。西蒙弗雷澤大學的計算機圖形學研究員 Manolis savva 說,「這是一個很大的變化。在具身 AI 設(shè)定中,你有這些時間上的連貫信息流,你可以控制它?!?/span>
這些模擬的世界現(xiàn)在已經(jīng)足夠好,可以訓練智能體完成全新的任務。它們不僅可以識別一個物體,還可以與它互動,撿起它并在它周圍導航。這些看似很小的步驟對任何智能體來說都是理解其環(huán)境的必要步驟。2020 年,虛擬智能體擁有了視覺以外的能力,可以聽到虛擬事物發(fā)出的聲音,這為其了解物體及其在世界上的運行方式提供了一種新的視角。
可以在虛擬世界(ManipulaTHOR environment)中運行的具身 AI 智能體以不同的方式學習,可能更適合更復雜的、類人的任務。
不過,模擬器也有自己的局限?!讣词棺詈玫哪M器也遠不如現(xiàn)實世界真實,」斯坦福大學計算機科學家 Daniel Yamins 說。Yamins 與麻省理工學院和 IBM 的同事共同開發(fā)了 ThreeDWorld,該項目重點關(guān)注在虛擬世界中模擬現(xiàn)實生活中的物理現(xiàn)象,如液體的行為以及一些物體如何在一個區(qū)域是剛性的,而在另一個區(qū)域又是柔性的。
這是一項非常具有挑戰(zhàn)性的任務,需要讓 AI 以新的方式去學習。
與神經(jīng)網(wǎng)絡進行比較
到目前為止,衡量具身 AI 進展的一種簡單方法是:將具身智能體的表現(xiàn)與在更簡單的靜態(tài)圖像任務上訓練的算法進行比較。研究人員指出,這些比較并不完美,但早期結(jié)果確實表明,具身 AI 的學習方式不同于它們的前輩,有時候比它們的前輩學得還好。
在最近的一篇論文(《Interactron: Embodied Adaptive Object Detection》)中,研究人員發(fā)現(xiàn),一個具身 AI 智能體在檢測特定物體方面更準確,比傳統(tǒng)方法提高了近 12%。該研究的合著者、艾倫人工智能研究所計算機科學家 Roozbeh Mottaghi 表示,「目標檢測領(lǐng)域花了三年多的時間才實現(xiàn)這種水平的改進。而我們僅通過與世界的交互就取得了很大的進步?!?/span>
其他論文已經(jīng)表明,當你把目標檢測算法做成具身 AI 的形式,并讓它們探索一次虛擬空間或者隨處走動收集對象的多視圖信息時,該算法會取得進步。
研究人員還發(fā)現(xiàn),具身算法和傳統(tǒng)算法的學習方式完全不同。要想證明這一點,可以想想神經(jīng)網(wǎng)絡,它是每個具身算法和許多非具身算法學習能力背后的基本成分。神經(jīng)網(wǎng)絡由許多層的人工神經(jīng)元節(jié)點連接而成,它松散地模仿人類大腦中的網(wǎng)絡。在兩篇獨立的論文中,研究人員發(fā)現(xiàn),在具身智能體的神經(jīng)網(wǎng)絡中,對視覺信息作出反應的神經(jīng)元較少,這意味著每個單獨的神經(jīng)元在作出反應時更有選擇性。非具身網(wǎng)絡的效率要低得多,需要更多的神經(jīng)元在大部分時間保持活躍。其中一個研究小組(由即將任紐約大學教授的 Grace Lindsay 領(lǐng)導)甚至將具身和非具身的神經(jīng)網(wǎng)絡與活體大腦中的神經(jīng)元活動(老鼠的視覺皮層)進行了比較,發(fā)現(xiàn)具身的神經(jīng)網(wǎng)路最接近活體。
Lindsay 很快指出,這并不一定意味著具身化的版本更好,它們只是不同。與物體檢測論文不同的是,Lindsay 等人的研究比較了相同神經(jīng)網(wǎng)絡的潛在差異,讓智能體完成了完全不同的任務,因此他們可能需要工作方式不同的神經(jīng)網(wǎng)絡來完成他們的目標。
雖然將具身神經(jīng)網(wǎng)絡與非具身神經(jīng)網(wǎng)絡相比是一種衡量改進的方法,但研究人員真正想做的并不是在現(xiàn)有的任務上提升具身智能體的性能,他們的真正目標是學習更復雜、更像人類的任務。這是最令研究人員興奮的地方,他們看到了令人印象深刻的進展,尤其是在導航任務方面。在這些任務中,智能體必須記住其目的地的長期目標,同時制定一個到達目的地的計劃,而不會迷路或撞到物體。
在短短幾年的時間里,Meta AI 的一位研究主管、佐治亞理工學院計算機科學家 Dhruv Batra 領(lǐng)導的團隊在一種被稱為「point-goal navigation」的特定導航任務上取得了很大進展。在這項任務中,智能體被放在一個全新的環(huán)境中,它必須在沒有地圖的情況下走到某個坐標(比如「Go to the point that is 5 meters north and 10 meters east」)。
Batra 介紹說,他們在一個名叫「AI Habitat」的 Meta 虛擬世界中訓練智能體,并給了它一個 GPS 和一個指南針,結(jié)果發(fā)現(xiàn)它可以在標準數(shù)據(jù)集上獲得 99.9% 以上的準確率。最近,他們又成功地將結(jié)果擴展到一個更困難、更現(xiàn)實的場景——沒有指南針和 GPS。結(jié)果,智能體僅借助移動時看到的像素流來估計自身位置就實現(xiàn)了 94% 的準確率。
Meta AI Dhruv Batra 團隊創(chuàng)造的「AI Habitat」虛擬世界。他們希望提高模擬的速度,直到具身 AI 可以在僅僅 20 分鐘的掛鐘時間內(nèi)達到 20 年的模擬經(jīng)驗。
Mottaghi 說,「這是一個了不起的進步,但并不意味著徹底解決了導航問題。因為許多其他類型的導航任務需要使用更復雜的語言指令,比如「經(jīng)過廚房去拿臥室床頭柜上的眼鏡」,其準確率仍然只有 30% 到 40% 左右。
但導航仍然是具身 AI 中最簡單的任務之一,因為智能體在環(huán)境中移動時不需要操作任何東西。到目前為止,具身 AI 智能體還遠遠沒有掌握任何與對象相關(guān)的任務。部分挑戰(zhàn)在于,當智能體與新對象交互時,它可能會出現(xiàn)很多錯誤,而且錯誤可能會堆積起來。目前,大多數(shù)研究人員通過選擇只有幾個步驟的任務來解決這個問題,但大多數(shù)類人活動,如烘焙或洗碗,需要對多個物體進行長序列的動作。要實現(xiàn)這一目標,AI 智能體將需要更大的進步。
在這方面,李飛飛可能再次走在了前沿,她的團隊開發(fā)了一個模擬數(shù)據(jù)集——BEHAVIOR,希望能像她的 ImageNet 項目為目標識別所做的那樣,為具身 AI 作出貢獻。
這個數(shù)據(jù)集包含 100 多項人類活動,供智能體去完成,測試可以在任何虛擬環(huán)境中完成。通過創(chuàng)建指標,將執(zhí)行這些任務的智能體與人類執(zhí)行相同任務的真實視頻進行比較,李飛飛團隊的新數(shù)據(jù)集將允許社區(qū)更好地評估虛擬 AI 智能體的進展。
一旦智能體成功完成了這些復雜的任務,李飛飛認為,模擬的目的就是為最終的可操作空間——真實世界——進行訓練。
「在我看來,模擬是機器人研究中最重要、最令人興奮的領(lǐng)域之一?!估铒w飛說到。
機器人研究新前沿
機器人本質(zhì)上是具身智能體。它們寄居在現(xiàn)實世界的某種物理身體內(nèi),代表了最極端的具身 AI 智能體形式。但許多研究人員發(fā)現(xiàn),即使是這類智能體也能從虛擬世界的訓練中受益。
Mottaghi 說,機器人技術(shù)中最先進的算法,如強化學習等,通常需要數(shù)百萬次迭代來學習有意義的東西。因此,訓練真實機器人完成艱巨任務可能需要數(shù)年時間。
機器人可以在現(xiàn)實世界中不確定的地形中導航。新的研究表明,虛擬環(huán)境中的訓練可以幫助機器人掌握這些技能以及其他技能。
但如果先在虛擬世界中訓練它們,速度就要快得多。數(shù)千個智能體可以在數(shù)千個不同的房間中同時訓練。此外,虛擬訓練對機器人和人來說都更安全。
2018 年,OpenAI 的研究人員證明了:智能體在虛擬世界中學到的技能可以遷移到現(xiàn)實世界,因此很多機器人專家開始更加重視模擬器。他們訓練一只機械手去操作一個只在模擬中見過的立方體。最新的研究成果還包括讓無人機學會在空中避免碰撞,將自動駕駛汽車部署在兩個不同大陸的城市環(huán)境中,以及讓四條腿的機器狗在瑞士阿爾卑斯山完成一小時的徒步旅行(和人類所花的時間一樣)。
未來,研究人員還可能通過虛擬現(xiàn)實頭顯將人類送入虛擬空間,從而縮小模擬和現(xiàn)實世界之間的差距。英偉達機器人研究高級主管、華盛頓大學教授 Dieter Fox 指出,機器人研究的一個關(guān)鍵目標是構(gòu)建在現(xiàn)實世界中對人類有幫助的機器人。但要做到這一點,它們必須首先接觸并學習如何與人類交互。
Fox 說,利用虛擬現(xiàn)實技術(shù)讓人類進入這些模擬環(huán)境,然后讓他們做出演示、與機器人交互,這將是一種非常強大的方法。
無論身處模擬還是現(xiàn)實世界,具身 AI 智能體都在學習如何更像人,完成的任務更像人類的任務。這個領(lǐng)域在各個方面都在進步,包括新的世界、新的任務和新的學習算法。
「我看到了深度學習、機器人學習、視覺甚至語言的融合,」李飛飛說,「現(xiàn)在我認為,通過這個面向具身 AI 的『登月計劃』或『北極星』,我們將學習智能的基礎(chǔ)技術(shù),這可以真正帶來重大突破?!?/span>
李飛飛探討計算機視覺「北極星」問題的文章。鏈接:https://www.amacad.org/publication/searching-computer-vision-north-stars
原文鏈接:https://www.quantamagazine.org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/
聯(lián)系客服