大數(shù)據(jù)文摘編輯組出品
DeepMind又來搞事情了!而且這次的事情還搞上了Science雜志。
今天,Science雜志公開發(fā)表了一篇DeepMind的論文《神經(jīng)場景表示和渲染(Neural scene representation and rendering)》。包括DeepMind老板Demis Hassabis在內(nèi),這篇論文共有22名作者。這也是DeepMind的新研究首次在Science雜志發(fā)布。
如此龐大的作者軍團,po出的論文成果也非常有趣其重磅,具體來說就是,通過少量二維的局部圖片,想象整個三維空間的立體結(jié)構(gòu)。
通常來說,算法需要幾百萬張人類標注過的圖片才能識別視覺傳感器的數(shù)據(jù)。而GQN的工作原理類似人眼,是一種無監(jiān)督學(xué)習(xí)方法,不依賴帶標記的數(shù)據(jù),而且能夠推廣到各種不同的場景中。
DeepMind自己的總結(jié)是:生成查詢網(wǎng)絡(luò)(Generative Query Network)在沒有人為監(jiān)督的情況下學(xué)習(xí):(1)抽象地描述場景元素;(2)通過從任何攝像機角度渲染來“想象”場景中的未觀察部分。
有點抽象?拿一個最常見的場景——走迷宮來舉例。GQN能觀察迷宮的片段截圖,從多個視角推想出迷宮的整體構(gòu)造。
盡管目前這一成果還僅限于受過合成場景的訓(xùn)練,但是,已經(jīng)有不少業(yè)內(nèi)人士開始想象其使用場景了。比如說,想象一下把這一網(wǎng)絡(luò)應(yīng)用在視頻游戲甚至VR游戲中,你可以因此實時獲取精準提煉各種視角的游戲場景,就像置身真實世界一樣。
想想是不是有點激動,DeepMind創(chuàng)始人哈比薩斯也一樣,今天他也難得發(fā)推特,介紹了這一成果:我一直著迷于大腦如何在大腦的眼睛中構(gòu)建圖像。我們新推出的Science論文介紹了GQN:一種新模型,能夠從一些2D快照中重新創(chuàng)建各角度3D場景。
先來看看DeepMind這篇新論文到底在講什么吧!
公眾號后臺回復(fù)“GQN”下載論文~
不想閱讀論文的同學(xué)可以觀看一下論文演示的視頻喲~~~
一個可以“想象”場景的計算機程序
為了訓(xùn)練計算機“識別”由視覺傳感器提供的場景的元素,計算機科學(xué)家通常使用數(shù)百萬張人類煞費苦心地標記的圖像。DeepMind開發(fā)了一種人工視覺系統(tǒng),稱為生成查詢網(wǎng)絡(luò)(GQN)。在這一網(wǎng)絡(luò)下,不需要繁雜的標記數(shù)據(jù)即可創(chuàng)建場景。
GQN首先使用從不同視點獲取的圖像,并創(chuàng)建一個場景的抽象描述,學(xué)習(xí)它的本質(zhì)。接下來,基于這種表示,網(wǎng)絡(luò)從一個新的、任意的視角來預(yù)測場景的樣子。
一個計算機視覺系統(tǒng)可以從其他任意視點的幾個2D視圖中,預(yù)測一個3D場景。
當涉及到我們?nèi)绾卫斫庖粋€視覺場景時,我們的眼睛所能看到的不僅僅是直觀的視覺,因為我們的大腦會運用頭腦中的儲備知識,將感性認識轉(zhuǎn)化成理性認識。
例如,當你第一次進入一個房間時,你會立刻認出里面的物品以及它們的位置。如果你看到一張桌子的三條腿,你會推斷桌子的第四條腿被藏了起來。即使你不能看到房間里的所有東西,你也很可能可以勾畫出它的布局,或者想象從另一個角度看它會是什么樣子。
這些視覺和認知任務(wù)對人類來說似乎毫不費力,但它們對我們的人工系統(tǒng)構(gòu)成了重大挑戰(zhàn)。
當前,最先進的視覺識別系統(tǒng)都是用人類產(chǎn)生的帶注釋圖像的大數(shù)據(jù)集來訓(xùn)練的。
獲取這些數(shù)據(jù)是一個代價高昂且耗時的過程,需要每個人對數(shù)據(jù)集中每個場景中的每個對象進行標記。因此,通常只有一小部分場景的總體內(nèi)容被捕獲,這限制了在這些數(shù)據(jù)上進行訓(xùn)練的人工視覺系統(tǒng)。當我們開發(fā)出在現(xiàn)實世界中運行的更復(fù)雜的機器時,我們希望它們充分了解它們的環(huán)境:最近的座位在哪里?這沙發(fā)是什么料子的?哪個光源產(chǎn)生了所有的陰影?電燈開關(guān)可能在哪里?
讓機器學(xué)會腦補
學(xué)會去看
▼
論文作者之一Ali Eslami自述研究過程
在這項發(fā)表在Science上的成果中,DeepMind介紹了生成查詢網(wǎng)絡(luò)(GQN)。在這個框架內(nèi),機器學(xué)習(xí)只通過對他們在場景中移動時獲得的數(shù)據(jù)進行訓(xùn)練來感知周圍環(huán)境。 就像嬰兒和動物一樣,GQN嘗試理解其觀察到的周圍世界,通過這種方式來學(xué)習(xí)。 通過這些,GQN學(xué)習(xí)了可能合理的場景及其幾何屬性,而不需要任何對場景內(nèi)容的人為標注。
GQN模型由兩部分組成:表示網(wǎng)絡(luò)和生成網(wǎng)絡(luò)。 表示網(wǎng)絡(luò)將代理人的觀察結(jié)果作為其輸入并產(chǎn)生描述基礎(chǔ)場景的表示(矢量)。 然后生成網(wǎng)絡(luò)從以前未觀察到的角度預(yù)測(“想像”)場景。
到底什么是GQN?
表征網(wǎng)絡(luò)無法獲知,生成網(wǎng)絡(luò)將被要求預(yù)測哪些視角,因此,它必須盡可能準確地找到描述場景真實布局的有效方式。
通過簡潔的分布式表征,其可以捕獲最重要的特征(如對象位置、顏色和房間布局)來實現(xiàn)此目的。 在訓(xùn)練期間,生成器學(xué)習(xí)環(huán)境中的典型對象、特征、關(guān)系和規(guī)律。 這一共享的“概念集”使表征網(wǎng)絡(luò)能夠以高度壓縮和抽象的方式描述場景,并將其留給生成網(wǎng)絡(luò),以在必要時填寫詳細信息。
例如,表示網(wǎng)絡(luò)將簡潔地將“藍色立方體”表示為一小組數(shù)字,而生成網(wǎng)絡(luò)將知道如何將其自身表現(xiàn)為來自特定視點的像素。
我們在模擬3D世界的一系列程序性生成環(huán)境中,對GQN進行了受控實驗,其中包含隨機位置、顏色、形狀和紋理中的多個對象,并使用隨機光源和重度遮擋。在對這些環(huán)境進行設(shè)置后,我們使用GQN的表示網(wǎng)絡(luò)來形成新的、以前未觀察到的場景的表示。 在實驗中我們展示了GQN的幾個重要特性:
GQN的生成網(wǎng)絡(luò)可以以非常精確的方式,從新視角去“想象”以前未觀測到的場景。 當給出場景表征和新的攝像機視角時,它就可以生成非常清晰的圖像,而不需要事先規(guī)定透視法、遮擋法或照明法。
因此我們可以說,這種生成網(wǎng)絡(luò)是一個從數(shù)據(jù)中學(xué)習(xí)的渲染器:
GQN的表示網(wǎng)絡(luò)可以學(xué)會對對象進行計數(shù)、本地化和分類,而無需任何對象級標簽。 即使它的表示可能非常小,但GQN在查詢視點處的預(yù)測具有高度的準確性,幾乎無法與基本事實區(qū)分。
這意味著表示網(wǎng)絡(luò)的準確感知,例如識別組成下面這個場景的方塊的精確配置:
GQN能夠表示、衡量和減少不確定性。 即使場景內(nèi)容不完全可見,GQN也能夠解釋其信息的不確定性,并且可以將場景的多個局部視圖組合起來,形成一個整體。
下圖顯示了它的第一人稱和自上而下進行的場景預(yù)測。
該模型通過預(yù)測的多樣性來表達其不確定性,這種不確定性隨著它在迷宮中的移動而逐漸減?。ɑ疑F體指示觀察位置,黃色錐體指示查詢位置):
正如全文開頭所說,GQN的這一特性,在游戲場景中可以完美應(yīng)用。
此外,GQN的表征允許魯棒式的數(shù)據(jù)高效強化學(xué)習(xí)。 當給定GQN的緊湊表示時,與無模型基線智能體相比,最先進的深度強化學(xué)習(xí)智能體會以更高效的數(shù)據(jù)方式完成任務(wù),如下圖所示。 對于這些智能體,編碼在生成網(wǎng)絡(luò)中的信息可以被看作是對環(huán)境的“先天”知識:
使用GQN,我們可以觀察到,與使用原始像素的標準方法相比,策略學(xué)習(xí)的迭代次數(shù)少了 4 倍,但收斂表現(xiàn)一致且有更加數(shù)據(jù)高效。
DeepMind表示,GQN的誕生基于近期在多視圖幾何、生成建模、無監(jiān)督學(xué)習(xí)和預(yù)測學(xué)習(xí)方面的有關(guān)工作的大量成果。它演示了一種學(xué)習(xí)緊湊、基礎(chǔ)的物理場景表示的新方法。更重要的是,這一方法不需要特定領(lǐng)域的工程或耗時的場景內(nèi)容標記,它允許將相同的模型應(yīng)用于各種不同的環(huán)境。它還可以使用一個強大的神經(jīng)渲染器,能夠從新的視角生成精確的場景圖像。
與更傳統(tǒng)的計算機視覺技術(shù)相比,DeepMind承認,這一新方法仍然有許多限制,且目前只接受過合成場景的訓(xùn)練。然而,隨著新的數(shù)據(jù)源可用以及我們的硬件功能取得進展,DeepMind期望能夠獲取GQN框架在更高分辨率下,真實場景圖像中的應(yīng)用。
在未來的工作中,探索GQN在場景理解的更廣泛方面的應(yīng)用也很重要,例如通過跨空間和時間的查詢來學(xué)習(xí)物理和運動的常識概念,以及在虛擬和增強現(xiàn)實中的應(yīng)用。
盡管在方法準備付諸實踐之前我們還有很多研究需要完成,但DeepMind相信,這項工作是邁向完全自主場景理解的一大步。
聯(lián)系客服