国产精品国产色综合色,澳门毛片精品一区二区三区,国产精品午夜激爽毛片

大數(shù)據(jù)文摘編輯組出品

DeepMind又來搞事情了！而且這次的事情還搞上了Science雜志。

今天，Science雜志公開發(fā)表了一篇DeepMind的論文《神經(jīng)場景表示和渲染（Neural scene representation and rendering）》。包括DeepMind老板Demis Hassabis在內(nèi)，這篇論文共有22名作者。這也是DeepMind的新研究首次在Science雜志發(fā)布。

如此龐大的作者軍團，po出的論文成果也非常有趣其重磅，具體來說就是，通過少量二維的局部圖片，想象整個三維空間的立體結(jié)構(gòu)。

通常來說，算法需要幾百萬張人類標注過的圖片才能識別視覺傳感器的數(shù)據(jù)。而GQN的工作原理類似人眼，是一種無監(jiān)督學(xué)習(xí)方法，不依賴帶標記的數(shù)據(jù)，而且能夠推廣到各種不同的場景中。

DeepMind自己的總結(jié)是：生成查詢網(wǎng)絡(luò)（Generative Query Network）在沒有人為監(jiān)督的情況下學(xué)習(xí)：（1）抽象地描述場景元素;（2）通過從任何攝像機角度渲染來“想象”場景中的未觀察部分。

有點抽象？拿一個最常見的場景——走迷宮來舉例。GQN能觀察迷宮的片段截圖，從多個視角推想出迷宮的整體構(gòu)造。

盡管目前這一成果還僅限于受過合成場景的訓(xùn)練，但是，已經(jīng)有不少業(yè)內(nèi)人士開始想象其使用場景了。比如說，想象一下把這一網(wǎng)絡(luò)應(yīng)用在視頻游戲甚至VR游戲中，你可以因此實時獲取精準提煉各種視角的游戲場景，就像置身真實世界一樣。

想想是不是有點激動，DeepMind創(chuàng)始人哈比薩斯也一樣，今天他也難得發(fā)推特，介紹了這一成果：我一直著迷于大腦如何在大腦的眼睛中構(gòu)建圖像。我們新推出的Science論文介紹了GQN：一種新模型，能夠從一些2D快照中重新創(chuàng)建各角度3D場景。

先來看看DeepMind這篇新論文到底在講什么吧！

公眾號后臺回復(fù)“GQN”下載論文~

不想閱讀論文的同學(xué)可以觀看一下論文演示的視頻喲~~~

一個可以“想象”場景的計算機程序

為了訓(xùn)練計算機“識別”由視覺傳感器提供的場景的元素，計算機科學(xué)家通常使用數(shù)百萬張人類煞費苦心地標記的圖像。DeepMind開發(fā)了一種人工視覺系統(tǒng)，稱為生成查詢網(wǎng)絡(luò)(GQN)。在這一網(wǎng)絡(luò)下，不需要繁雜的標記數(shù)據(jù)即可創(chuàng)建場景。

GQN首先使用從不同視點獲取的圖像，并創(chuàng)建一個場景的抽象描述，學(xué)習(xí)它的本質(zhì)。接下來，基于這種表示，網(wǎng)絡(luò)從一個新的、任意的視角來預(yù)測場景的樣子。

一個計算機視覺系統(tǒng)可以從其他任意視點的幾個2D視圖中，預(yù)測一個3D場景。

當涉及到我們?nèi)绾卫斫庖粋€視覺場景時，我們的眼睛所能看到的不僅僅是直觀的視覺，因為我們的大腦會運用頭腦中的儲備知識，將感性認識轉(zhuǎn)化成理性認識。

例如，當你第一次進入一個房間時，你會立刻認出里面的物品以及它們的位置。如果你看到一張桌子的三條腿，你會推斷桌子的第四條腿被藏了起來。即使你不能看到房間里的所有東西，你也很可能可以勾畫出它的布局，或者想象從另一個角度看它會是什么樣子。

這些視覺和認知任務(wù)對人類來說似乎毫不費力，但它們對我們的人工系統(tǒng)構(gòu)成了重大挑戰(zhàn)。

當前，最先進的視覺識別系統(tǒng)都是用人類產(chǎn)生的帶注釋圖像的大數(shù)據(jù)集來訓(xùn)練的。

獲取這些數(shù)據(jù)是一個代價高昂且耗時的過程，需要每個人對數(shù)據(jù)集中每個場景中的每個對象進行標記。因此，通常只有一小部分場景的總體內(nèi)容被捕獲，這限制了在這些數(shù)據(jù)上進行訓(xùn)練的人工視覺系統(tǒng)。當我們開發(fā)出在現(xiàn)實世界中運行的更復(fù)雜的機器時，我們希望它們充分了解它們的環(huán)境：最近的座位在哪里?這沙發(fā)是什么料子的?哪個光源產(chǎn)生了所有的陰影?電燈開關(guān)可能在哪里?

讓機器學(xué)會腦補

學(xué)會去看

▼

論文作者之一Ali Eslami自述研究過程

在這項發(fā)表在Science上的成果中，DeepMind介紹了生成查詢網(wǎng)絡(luò)（GQN）。在這個框架內(nèi)，機器學(xué)習(xí)只通過對他們在場景中移動時獲得的數(shù)據(jù)進行訓(xùn)練來感知周圍環(huán)境。就像嬰兒和動物一樣，GQN嘗試理解其觀察到的周圍世界，通過這種方式來學(xué)習(xí)。通過這些，GQN學(xué)習(xí)了可能合理的場景及其幾何屬性，而不需要任何對場景內(nèi)容的人為標注。

GQN模型由兩部分組成：表示網(wǎng)絡(luò)和生成網(wǎng)絡(luò)。 表示網(wǎng)絡(luò)將代理人的觀察結(jié)果作為其輸入并產(chǎn)生描述基礎(chǔ)場景的表示（矢量）。然后生成網(wǎng)絡(luò)從以前未觀察到的角度預(yù)測（“想像”）場景。

到底什么是GQN？

表征網(wǎng)絡(luò)無法獲知，生成網(wǎng)絡(luò)將被要求預(yù)測哪些視角，因此，它必須盡可能準確地找到描述場景真實布局的有效方式。

通過簡潔的分布式表征，其可以捕獲最重要的特征（如對象位置、顏色和房間布局）來實現(xiàn)此目的。在訓(xùn)練期間，生成器學(xué)習(xí)環(huán)境中的典型對象、特征、關(guān)系和規(guī)律。這一共享的“概念集”使表征網(wǎng)絡(luò)能夠以高度壓縮和抽象的方式描述場景，并將其留給生成網(wǎng)絡(luò)，以在必要時填寫詳細信息。

例如，表示網(wǎng)絡(luò)將簡潔地將“藍色立方體”表示為一小組數(shù)字，而生成網(wǎng)絡(luò)將知道如何將其自身表現(xiàn)為來自特定視點的像素。

我們在模擬3D世界的一系列程序性生成環(huán)境中，對GQN進行了受控實驗，其中包含隨機位置、顏色、形狀和紋理中的多個對象，并使用隨機光源和重度遮擋。在對這些環(huán)境進行設(shè)置后，我們使用GQN的表示網(wǎng)絡(luò)來形成新的、以前未觀察到的場景的表示。在實驗中我們展示了GQN的幾個重要特性：

GQN的生成網(wǎng)絡(luò)可以以非常精確的方式，從新視角去“想象”以前未觀測到的場景。 當給出場景表征和新的攝像機視角時，它就可以生成非常清晰的圖像，而不需要事先規(guī)定透視法、遮擋法或照明法。

因此我們可以說，這種生成網(wǎng)絡(luò)是一個從數(shù)據(jù)中學(xué)習(xí)的渲染器：

GQN的表示網(wǎng)絡(luò)可以學(xué)會對對象進行計數(shù)、本地化和分類，而無需任何對象級標簽。即使它的表示可能非常小，但GQN在查詢視點處的預(yù)測具有高度的準確性，幾乎無法與基本事實區(qū)分。

這意味著表示網(wǎng)絡(luò)的準確感知，例如識別組成下面這個場景的方塊的精確配置：

GQN能夠表示、衡量和減少不確定性。即使場景內(nèi)容不完全可見，GQN也能夠解釋其信息的不確定性，并且可以將場景的多個局部視圖組合起來，形成一個整體。

下圖顯示了它的第一人稱和自上而下進行的場景預(yù)測。

該模型通過預(yù)測的多樣性來表達其不確定性，這種不確定性隨著它在迷宮中的移動而逐漸減?。ɑ疑F體指示觀察位置，黃色錐體指示查詢位置）：

正如全文開頭所說，GQN的這一特性，在游戲場景中可以完美應(yīng)用。

此外，GQN的表征允許魯棒式的數(shù)據(jù)高效強化學(xué)習(xí)。當給定GQN的緊湊表示時，與無模型基線智能體相比，最先進的深度強化學(xué)習(xí)智能體會以更高效的數(shù)據(jù)方式完成任務(wù)，如下圖所示。對于這些智能體，編碼在生成網(wǎng)絡(luò)中的信息可以被看作是對環(huán)境的“先天”知識：

使用GQN，我們可以觀察到，與使用原始像素的標準方法相比，策略學(xué)習(xí)的迭代次數(shù)少了 4 倍，但收斂表現(xiàn)一致且有更加數(shù)據(jù)高效。

DeepMind表示，GQN的誕生基于近期在多視圖幾何、生成建模、無監(jiān)督學(xué)習(xí)和預(yù)測學(xué)習(xí)方面的有關(guān)工作的大量成果。它演示了一種學(xué)習(xí)緊湊、基礎(chǔ)的物理場景表示的新方法。更重要的是，這一方法不需要特定領(lǐng)域的工程或耗時的場景內(nèi)容標記，它允許將相同的模型應(yīng)用于各種不同的環(huán)境。它還可以使用一個強大的神經(jīng)渲染器，能夠從新的視角生成精確的場景圖像。

與更傳統(tǒng)的計算機視覺技術(shù)相比，DeepMind承認，這一新方法仍然有許多限制，且目前只接受過合成場景的訓(xùn)練。然而，隨著新的數(shù)據(jù)源可用以及我們的硬件功能取得進展，DeepMind期望能夠獲取GQN框架在更高分辨率下，真實場景圖像中的應(yīng)用。

在未來的工作中，探索GQN在場景理解的更廣泛方面的應(yīng)用也很重要，例如通過跨空間和時間的查詢來學(xué)習(xí)物理和運動的常識概念，以及在虛擬和增強現(xiàn)實中的應(yīng)用。

盡管在方法準備付諸實踐之前我們還有很多研究需要完成，但DeepMind相信，這項工作是邁向完全自主場景理解的一大步。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区