機(jī)器之心 & ArXiv Weekly
參與:楚航、羅若天、梅洪源
本周重要論文包括 AI 繪圖神器ControlNet、Transformer 模型綜述等研究。
目錄
Transformer models: an introduction and catalog
High-throughout Generative Inference of Large Language Models with a Single GPU
Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
Adding Conditional Control to Text-to-Image Diffusion Models
EVA3D: Compositional 3D Human Generation from 2D image Collections
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Transformer models: an introduction and catalog
作者:Xavier Amatriain
論文地址:https://arxiv.org/pdf/2302.07730.pdf
摘要:自 2017 年提出至今,Transformer 模型已經(jīng)在自然語言處理、計(jì)算機(jī)視覺等其他領(lǐng)域展現(xiàn)了前所未有的實(shí)力,并引發(fā)了 ChatGPT 這樣的技術(shù)突破,人們也提出了各種各樣基于原始模型的變體。
由于學(xué)界和業(yè)界不斷提出基于 Transformer 注意力機(jī)制的新模型,我們有時(shí)很難對這一方向進(jìn)行歸納總結(jié)。近日,領(lǐng)英 AI 產(chǎn)品戰(zhàn)略負(fù)責(zé)人 Xavier Amatriain 的一篇綜述性文章或許可以幫助我們解決這一問題。
推薦:本文的目標(biāo)是為最流行的 Transformer 模型提供一個(gè)比較全面但簡單的目錄和分類,還介紹了 Transformer 模型中最重要的方面和創(chuàng)新。
論文 2:High-throughout Generative Inference of Large Language Models with a Single GPU
作者:Ying Sheng 等
論文地址:https://github.com/FMInference/FlexGen/blob/main/docs/paper.pdf
摘要:傳統(tǒng)上,大語言模型(LLM)推理的高計(jì)算和內(nèi)存要求使人們必須使用多個(gè)高端 AI 加速器進(jìn)行訓(xùn)練。本研究探索了如何將 LLM 推理的要求降低到一個(gè)消費(fèi)級(jí) GPU 并實(shí)現(xiàn)實(shí)用性能。、
近日,來自斯坦福大學(xué)、UC Berkeley、蘇黎世聯(lián)邦理工學(xué)院、Yandex、莫斯科國立高等經(jīng)濟(jì)學(xué)院、Meta、卡耐基梅隆大學(xué)等機(jī)構(gòu)的新研究提出了 FlexGen,這是一種用于運(yùn)行有限 GPU 內(nèi)存的 LLM 的高吞吐量生成引擎。下圖為 FlexGen 的設(shè)計(jì)思路, 利用塊調(diào)度來重用權(quán)重并將 I/O 與計(jì)算重疊,如下圖 (b) 所示,而其他基線系統(tǒng)使用低效的逐行調(diào)度,如下圖 (a) 所示。
推薦:跑 ChatGPT 體量模型,從此只需一塊 GPU:加速百倍的方法來了。
論文 3:Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
作者:Guangji Bai 等
論文地址:https://arxiv.org/pdf/2205.10664.pdf
摘要:在領(lǐng)域泛化 (Domain Generalization, DG) 任務(wù)中,當(dāng)領(lǐng)域的分布隨環(huán)境連續(xù)變化時(shí),如何準(zhǔn)確地捕捉該變化以及其對模型的影響是非常重要但也極富挑戰(zhàn)的問題。
為此,來自 Emory 大學(xué)的趙亮教授團(tuán)隊(duì),提出了一種基于貝葉斯理論的時(shí)間域泛化框架 DRAIN,利用遞歸網(wǎng)絡(luò)學(xué)習(xí)時(shí)間維度領(lǐng)域分布的漂移,同時(shí)通過動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)以及圖生成技術(shù)的結(jié)合最大化模型的表達(dá)能力,實(shí)現(xiàn)對未來未知領(lǐng)域上的模型泛化及預(yù)測。
本工作已入選 ICLR 2023 Oral (Top 5% among accepted papers)。如下為 DRAIN 總體框架示意圖。
推薦:漂移感知?jiǎng)討B(tài)神經(jīng)網(wǎng)絡(luò)加持,時(shí)間域泛化新框架遠(yuǎn)超領(lǐng)域泛化 & 適應(yīng)方法。
論文 4:Large-scale physically accurate modelling of real proton exchange membrane fuel cell with deep learning
作者:Ying Da Wang 等
論文地址:https://www.nature.com/articles/s41467-023-35973-8
摘要:為了保障能源供應(yīng)和應(yīng)對氣候變化,人們的焦點(diǎn)從化石燃料轉(zhuǎn)向清潔和可再生能源,氫以其高能密度和清潔低碳的能源屬性可以在能源轉(zhuǎn)型變革中發(fā)揮重要作用。氫燃料電池,尤其是質(zhì)子交換膜燃料電池 (PEMFC),由于高能量轉(zhuǎn)換效率和零排放操作,成為這場綠色革命的關(guān)鍵。
PEMFC 通過電化學(xué)過程將氫轉(zhuǎn)化為電能,反應(yīng)的唯一副產(chǎn)品是純水。然而,如果水不能正常流出電池,隨后「淹沒」系統(tǒng),PEMFC 可能會(huì)變得低效。到目前為止,由于燃料電池體積非常小且結(jié)構(gòu)非常復(fù)雜,工程師們很難理解燃料電池內(nèi)部排水或積水的精確方式。
近日,悉尼新南威爾士大學(xué)的研究團(tuán)隊(duì)開發(fā)了一種深度學(xué)習(xí)算法(DualEDSR),來提高對 PEMFC 內(nèi)部情況的理解,可以從較低分辨率的 X 射線微計(jì)算機(jī)斷層掃描中生成高分辨率的建模圖像。該工藝已經(jīng)在單個(gè)氫燃料電池上進(jìn)行了測試,可以對其內(nèi)部進(jìn)行精確建模,并有可能提高其效率。下圖展示了本研究中生成的 PEMFC 域。
推薦:深度學(xué)習(xí)對燃料電池內(nèi)部進(jìn)行大規(guī)模物理精確建模,助力電池性能提升。
論文 5:A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
作者:Ce Zhou 等
論文地址:https://arxiv.org/pdf/2302.09419.pdf
摘要:這篇近百頁的綜述梳理了預(yù)訓(xùn)練基礎(chǔ)模型的演變史,讓我們看到 ChatGPT 是怎么一步一步走向成功的。
推薦:從 BERT 到 ChatGPT,百頁綜述梳理預(yù)訓(xùn)練大模型演變史。
論文 6:Adding Conditional Control to Text-to-Image Diffusion Models
作者:Lvmin Zhang 等
論文地址:https://arxiv.org/pdf/2302.05543.pdf
摘要:本文提出了一種端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu) ControlNet,該架構(gòu)可以通過添加額外條件來控制擴(kuò)散模型(如 Stable Diffusion),從而改善圖生圖效果,并能實(shí)現(xiàn)線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)的圖、通過手部關(guān)鍵點(diǎn)還能優(yōu)化手部的生成等。
推薦:AI 降維打擊人類畫家,文生圖引入 ControlNet,深度、邊緣信息全能復(fù)用。
論文 7:EVA3D: Compositional 3D Human Generation from 2D image Collections
作者:Fangzhou Hong 等
論文地址:https://arxiv.org/abs/2210.04888
摘要:在 ICLR 2023 上,南洋理工大學(xué) - 商湯科技聯(lián)合研究中心 S-Lab 團(tuán)隊(duì)提出了首個(gè)從二維圖像集合中學(xué)習(xí)高分辨率三維人體生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三維生成模型已經(jīng)在靜止物體上達(dá)到了很驚艷的效果。但是在人體這種更加復(fù)雜且可形變的類別上,三維生成依舊有很大的挑戰(zhàn)。
本文提出了一個(gè)高效的組合的人體 NeRF 表達(dá),實(shí)現(xiàn)了高分辨率(512x256)的三維人體生成,并且沒有使用超分模型。EVA3D 在四個(gè)大型人體數(shù)據(jù)集上均大幅超越了已有方案,代碼已開源。
推薦:ICLR 2023 Spotlight | 2D 圖像腦補(bǔ) 3D 人體,衣服隨便搭,還能改動(dòng)作。
本周 10 篇 CV 精選論文是:
本周 10 篇 ML 精選論文是:
聯(lián)系客服