胡璇 騰訊研究院高級(jí)研究員

胡曉萌 騰訊研究院研究員、博士后

內(nèi)容生產(chǎn)，特別是創(chuàng)意工作，一向被認(rèn)為是人類(lèi)的專(zhuān)屬和智能的體現(xiàn)。牛津大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)邁克爾·伍爾德里奇2019年寫(xiě)作的《人工智能全傳》一書(shū)中，“撰寫(xiě)有趣的故事”被列為人工智能“遠(yuǎn)未實(shí)現(xiàn)”的任務(wù)之一。

如今，AI正大步邁入數(shù)字內(nèi)容生產(chǎn)領(lǐng)域。AIGC（AI Generated Content）不僅在寫(xiě)作、繪畫(huà)、作曲多項(xiàng)領(lǐng)域達(dá)到“類(lèi)人”表現(xiàn)，更展示出在大數(shù)據(jù)學(xué)習(xí)基礎(chǔ)上的非凡創(chuàng)意潛能。2023年3月15日，多模態(tài)信息處理標(biāo)桿GPT-4模型正式發(fā)布，使生成內(nèi)容的準(zhǔn)確度及合規(guī)性進(jìn)一步提升。數(shù)字內(nèi)容生產(chǎn)的人機(jī)協(xié)作新范式正在形成，創(chuàng)作者和更多普通人得以跨越“技法”和“效能”限制，盡情揮灑內(nèi)容創(chuàng)意。

也有人擔(dān)憂(yōu)，AI是否會(huì)讓創(chuàng)作者們集體“失業(yè)”，甚至讓“創(chuàng)作”本身走向衰頹，就像機(jī)械復(fù)制時(shí)代的藝術(shù)品可能失去“靈韻”那樣。換言之，AIGC的流行給了我們一個(gè)重新審視“創(chuàng)作”是什么、是否為人所獨(dú)有這些問(wèn)題的機(jī)會(huì)。

本文將分析AIGC改變數(shù)字內(nèi)容創(chuàng)作的現(xiàn)狀、關(guān)鍵突破和挑戰(zhàn)，并嘗試探討以上問(wèn)題。

AIGC正在成為互聯(lián)網(wǎng)

內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施

數(shù)字內(nèi)容正邁入強(qiáng)需求、視頻化、拼創(chuàng)意的升級(jí)周期，AIGC恰逢其會(huì)。線(xiàn)上生活成為常態(tài)，一方面，用戶(hù)創(chuàng)作內(nèi)容大幅解放生產(chǎn)力，例如短視頻就是將原本需要長(zhǎng)制作周期、高注意投入的視頻，變成了可以源源不斷產(chǎn)出的“工業(yè)品”和“快消品”；另一方面，作為核心的創(chuàng)意仍舊稀缺，需要新的模式輔助創(chuàng)作者持續(xù)產(chǎn)生、迭代和驗(yàn)證創(chuàng)意。種種因素，都需要更加低成本、高效能的新工具與方式。

AIGC正在越來(lái)越多地參與數(shù)字內(nèi)容的創(chuàng)意性生成工作，以人機(jī)協(xié)同的方式釋放價(jià)值，成為未來(lái)互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施。

從范圍上看，AIGC逐步深度融入到文字、代碼、音樂(lè)、圖片、視頻、3D多種媒介形態(tài)的生產(chǎn)中，可以擔(dān)任新聞、論文、小說(shuō)寫(xiě)手，音樂(lè)作曲和編曲者，多樣化風(fēng)格的畫(huà)手，長(zhǎng)短視頻的剪輯者和后期處理工程師，3D建模師等多樣化的助手角色，在人類(lèi)的指導(dǎo)下完成指定主題內(nèi)容的創(chuàng)作、編輯和風(fēng)格遷移工作。

從效果上看，AIGC在基于自然語(yǔ)言的文本、語(yǔ)音和圖片生成領(lǐng)域初步令人滿(mǎn)意，特別是知識(shí)類(lèi)中短文，插畫(huà)等高度風(fēng)格化的圖片創(chuàng)作，創(chuàng)作效果可以與有中級(jí)經(jīng)驗(yàn)的創(chuàng)作者相匹敵；在視頻和3D等媒介復(fù)雜度高的領(lǐng)域處于探索階段。盡管AIGC對(duì)極端案例的處理、細(xì)節(jié)把控、成品準(zhǔn)確率等方面仍有許多進(jìn)步空間，但蘊(yùn)含的潛力令人期待。

從方式上看，AIGC的跨文字、圖像、視頻和3D的多模態(tài)加工是熱點(diǎn)。吳恩達(dá)（Andrew Ng）認(rèn)為多模態(tài)是2021年AI的最重要趨勢(shì)，AI 模型在發(fā)現(xiàn)文本與圖像間關(guān)系中取得了顯著進(jìn)步，如OPEN AI的CLIP能匹配圖像和文本，Dall·E生成與輸入文本對(duì)應(yīng)的圖像；DeepMind的Perceiver IO可以對(duì)文本、圖像、視頻和點(diǎn)云進(jìn)行分類(lèi)。典型應(yīng)用包括如文本轉(zhuǎn)換語(yǔ)音TTS（Text To Speech）、文本生成圖片（Text-to-Image），廣義來(lái)看AI翻譯、圖片風(fēng)格化也可以看作是兩個(gè)不同“模態(tài)“間的映射。

上圖：原圖，AIGC的典型場(chǎng)景及發(fā)展趨勢(shì)，來(lái)自紅杉資本

下圖：使用有道智云AI翻譯后的結(jié)果

關(guān)鍵突破：自然語(yǔ)言技術(shù)

解放創(chuàng)作力

AIGC對(duì)創(chuàng)作者的解放體現(xiàn)在：“只要會(huì)說(shuō)話(huà)，你就能創(chuàng)作”，無(wú)需懂得原理，不用學(xué)習(xí)代碼，或者Photoshop等專(zhuān)業(yè)工具。創(chuàng)作者以自然語(yǔ)言向AI描述腦海中的要素甚至想法（術(shù)語(yǔ)是給出“prompt”）后，AI就能生成對(duì)應(yīng)的結(jié)果。這也是人機(jī)互動(dòng)從打孔紙帶，到編程語(yǔ)言，圖形界面后的又一次飛躍。

自然語(yǔ)言是不同數(shù)字內(nèi)容類(lèi)型間轉(zhuǎn)化的根信息和紐帶，比如“貓”這個(gè)詞語(yǔ)就是加菲貓的圖片，音樂(lè)劇《貓》和無(wú)數(shù)內(nèi)容的索引，這些不同的內(nèi)容類(lèi)型可以稱(chēng)為“多模態(tài)”。

AIGC此輪浪潮，最大底層進(jìn)化就在AI對(duì)自然語(yǔ)言“理解”和“運(yùn)用”能力的飛躍，這離不開(kāi)2017年Google發(fā)布的Transformer，它開(kāi)啟了大型語(yǔ)言模型（Large Language Model，簡(jiǎn)稱(chēng)LLM）時(shí)代。有了這一強(qiáng)大的特征提取器，后續(xù)的GPT、BERT等語(yǔ)言模型突飛猛進(jìn)，不僅質(zhì)量高、效率高，還能以大數(shù)據(jù)預(yù)訓(xùn)練+小數(shù)據(jù)微調(diào)的方式，擺脫了對(duì)大量人工調(diào)參的依賴(lài)，在手寫(xiě)、語(yǔ)音和圖像識(shí)別、語(yǔ)言理解方面的表現(xiàn)大幅突破，所生成的內(nèi)容也越來(lái)越準(zhǔn)確和自然。

但大模型意味著極高的研究和使用門(mén)檻，例如GPT-3有1750 億參數(shù)量，既需要大算力集群也不向一般用戶(hù)開(kāi)放。2022年，部署在Discord論壇上、以聊天機(jī)器人形式提供的midjourney成為了第一個(gè)用戶(hù)友好型AIGC應(yīng)用，帶來(lái)AI繪畫(huà)熱潮，一位設(shè)計(jì)師用其生成的圖片甚至在線(xiàn)下比賽中獲獎(jiǎng)。

使用簡(jiǎn)單文字即可交流的低門(mén)檻，類(lèi)似搜索引擎的使用方式，一下子點(diǎn)燃了普通用戶(hù)對(duì)AI使用的熱情。緊接著，基于擴(kuò)散模型（Diffusion Models）的一系列文本生成圖片（Text-to-Image）產(chǎn)品，如Stable Diffusion等，把AI繪畫(huà)從設(shè)計(jì)圈帶向大眾。開(kāi)源的Stable Diffusion僅需一臺(tái)電腦就能運(yùn)行，截至2022年10月已有超過(guò)20萬(wàn)開(kāi)發(fā)者下載，累計(jì)日活用戶(hù)超過(guò)1000萬(wàn)；而面向消費(fèi)者的DreamStudio則已獲得了超過(guò)150萬(wàn)用戶(hù)，生成超過(guò)1.7億圖片。其驚艷的藝術(shù)風(fēng)格、以及圖像涉及的版權(quán)、法律等問(wèn)題也引發(fā)了諸多爭(zhēng)議。

Diffusion的震撼感還沒(méi)消散，ChatGPT橫空出世，真正做到和人類(lèi)“對(duì)答如流”，能理解各式各樣的需求，寫(xiě)出回答、短文和詩(shī)歌創(chuàng)作、代碼寫(xiě)作、數(shù)學(xué)和邏輯計(jì)算等。不僅如此，人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)技術(shù)讓ChatGPT能持續(xù)學(xué)習(xí)人類(lèi)對(duì)回答的建議和評(píng)價(jià)，朝更加正確的方向前進(jìn)，因此以不到GPT3的1%的參數(shù)實(shí)現(xiàn)了極佳的效果。盡管ChatGPT仍存在一些缺陷，例如引用不存在的論文和書(shū)籍、對(duì)缺乏數(shù)據(jù)的問(wèn)題回答質(zhì)量不佳等，但它仍然是人工智能史上的里程碑，并上線(xiàn)兩個(gè)月后用戶(hù)數(shù)突破1億，成為史上用戶(hù)數(shù)增長(zhǎng)最快的消費(fèi)者應(yīng)用。

下一挑戰(zhàn)：向“在場(chǎng)”的

3D互聯(lián)網(wǎng)進(jìn)發(fā)

在文、圖、視頻后，數(shù)字技術(shù)演進(jìn)的重要方向是從“在線(xiàn)”走向“在場(chǎng)”，AIGC將成為打造3D互聯(lián)網(wǎng)的基石。人們將在在虛擬空間構(gòu)建仿真世界，在現(xiàn)實(shí)世界“疊加“虛擬增強(qiáng)，實(shí)現(xiàn)真正的臨場(chǎng)感。隨著XR、游戲引擎、云游戲等等各種交互、仿真、傳輸技術(shù)的突破，信息傳輸越來(lái)越接近無(wú)損，數(shù)字仿真能力真假難辨，人類(lèi)的交互和體驗(yàn)將到達(dá)新階段。

目前AIGC在3D模型領(lǐng)域還處于探索階段，一條路徑是以擴(kuò)散模型為基礎(chǔ)分兩步走：先由文字生成圖片，再生成包含深度的三維數(shù)據(jù)。谷歌和英偉達(dá)在這一領(lǐng)域較為領(lǐng)先，先后發(fā)布了自己的文字生成3D的AI模型。但從生成效果看，距離現(xiàn)在人工制作的3D內(nèi)容的平均質(zhì)量還有距離；生成速度也未能盡如人意。

2022年10月，谷歌率先發(fā)布了DreamFusion，但其缺點(diǎn)也很顯著，首先擴(kuò)散模型僅對(duì)64x64的圖像生效，導(dǎo)致生成3D的質(zhì)量不高；其次場(chǎng)景渲染模型不僅需要海量樣本，也在計(jì)算上費(fèi)時(shí)費(fèi)力，導(dǎo)致生成速度較慢。隨后，英偉達(dá)發(fā)布了Magic3D，面對(duì)提示語(yǔ)“一只坐在睡蓮上的藍(lán)色毒鏢蛙”，用大約40分鐘生成了一個(gè)帶有紋理的3D模型。相比谷歌，Magic3D生成速度更快、效果更好，還能在連續(xù)生成過(guò)程中保留相同的主題，或者將風(fēng)格遷移到3D模型中。

Magic3D（第1、3列）與DreamFusion（第2、4列）對(duì)比

第二條路徑是借助AI來(lái)“合成”不同視角下同一物品的照片，從而直接生成3D。英偉達(dá)在2022年12月的NeurIPS 上展示了生成式 AI 模型——GET3D（Generate Explicit Textured 3D 的縮寫(xiě)），可根據(jù)其所訓(xùn)練的建筑物、汽車(chē)、動(dòng)物等 2D 圖像類(lèi)別，即時(shí)合成 3D 模型。和上文中的輸出物相比，模型和紋理更精細(xì)，更采取了一般3D工具的通用格式，能直接用到構(gòu)建游戲、機(jī)器人、建筑、社交媒體等行業(yè)設(shè)計(jì)的數(shù)字空間，比如建筑物、戶(hù)外空間或整座城市的 3D 表達(dá)。GET3D在英偉達(dá)A100 GPU 上訓(xùn)練而成，使用了不同角度拍攝的約 100 萬(wàn)張照片，每秒可生成約 20 個(gè)物體。結(jié)合團(tuán)隊(duì)的另一項(xiàng)技術(shù)，AI生成的模型能夠區(qū)分出物體的幾何形狀、光照信息和材質(zhì)信息，使可編輯性大幅加強(qiáng)。

NVIDIA GET3D基于AI生成的模型示例

可行路徑：與游戲中的程序化生成技術(shù)相結(jié)合

盡管如此，AIGC在3D側(cè)的能力，距離打造3D互聯(lián)網(wǎng)仍有不小的距離。而游戲中較為成熟的程序化內(nèi)容生成（PCG，Procedural Content Generation）技術(shù)，可能是AIGC邁過(guò)深水區(qū)的一大助力。

從技術(shù)路徑上，AI生成3D難以沿用“大力出奇跡”的老辦法，即單靠喂給AI海量的輸入來(lái)提升效果。首先，信息量不同，一張圖片和一個(gè)3D模型相比相差一個(gè)維度，體現(xiàn)在存儲(chǔ)上就是數(shù)據(jù)量級(jí)不同；其次，圖片和3D的存儲(chǔ)及顯示原理不同，如果說(shuō)2D是像素點(diǎn)陣在顯示器的客觀陳列，3D則是實(shí)時(shí)、快速、海量的矩陣運(yùn)算，就像對(duì)著模型在1秒內(nèi)進(jìn)行幾十次“拍照”。為了準(zhǔn)確計(jì)算得到每個(gè)像素點(diǎn)，“渲染”在顯示器上，需要考慮的因素至少有（1）模型幾何特征，通常用幾千上萬(wàn)個(gè)三角面來(lái)表示（2）材質(zhì)特征，模型本身的顏色，是強(qiáng)反射的金屬，還是漫反射的布料（3）光線(xiàn)，光源是點(diǎn)狀的嗎，顏色和強(qiáng)度如何。最后，原生3D模型的數(shù)據(jù)相對(duì)較少，僅游戲、影視、數(shù)字孿生等領(lǐng)域有少量積累，遠(yuǎn)不如已存在了數(shù)千年、可以以非數(shù)字化形態(tài)存在的圖像那么多，例如ImageNet中就包含了超過(guò)1400萬(wàn)張圖片。

用計(jì)算機(jī)幫助創(chuàng)作者這件事，游戲界已經(jīng)探索了四十多年。用算法生成的游戲內(nèi)容首次出現(xiàn)在1981年的游戲Rogue（Toy and Wichman）中，地圖隨機(jī)，每局不同。3D時(shí)代，程序化生成技術(shù)大量應(yīng)用于美術(shù)制作，因?yàn)槠湫枰揞~時(shí)間和人力成本，以2018年發(fā)售的游戲《荒野大鏢客2》為例，先后有六百余名美術(shù)參與，歷經(jīng)8年才完成約60平方公里的虛擬場(chǎng)景。

程序化生成在效能和可控度上介于純手工和AIGC之間。例如2016年發(fā)布、主打宇宙探險(xiǎn)的獨(dú)立游戲《無(wú)人深空》（No Man's Sky），用PCG構(gòu)造了一系列生成規(guī)則和參數(shù)，聲稱(chēng)能創(chuàng)造出1840億億顆不同的星球，每個(gè)星球都有形態(tài)各異的環(huán)境和生物。

游戲《無(wú)人深空》中使用程序化生成的海洋生物示例

2022年的Epic打造的交互內(nèi)容《黑客帝國(guó)：覺(jué)醒》在最新虛幻引擎和程序化生成加持下，打造出栩栩如生、高度復(fù)雜的未來(lái)城市，共包括700萬(wàn)個(gè)美術(shù)資產(chǎn)，包括7000棟建筑、38000輛可駕駛的車(chē)和超過(guò)260公里的道路，其中每個(gè)資產(chǎn)由數(shù)百萬(wàn)個(gè)多邊形組成。

Epic使用虛幻5引擎和程序化生成技術(shù)高效制作《黑客帝國(guó)：覺(jué)醒》中的龐大城市

程序化生成和AI的結(jié)合更成為熱門(mén)學(xué)術(shù)領(lǐng)域，每年人工智能與游戲的頂級(jí)學(xué)會(huì)——IEEE Transactions on Games都會(huì)為程序化生成開(kāi)辟專(zhuān)門(mén)的討論板塊。劇情、關(guān)卡、場(chǎng)景、角色，每個(gè)板塊都有大量的研究和實(shí)踐成果在推進(jìn)。

創(chuàng)作到底是什么？

關(guān)于創(chuàng)作，有一句經(jīng)典論斷——天才是99%的汗水，加上1%的靈感。愛(ài)迪生認(rèn)為那1%的靈感最重要。AIGC則向我們證明，99%的汗水能產(chǎn)生質(zhì)變。善用AI的創(chuàng)作者，或許才是“完全體”。

首先，AI和自然人的創(chuàng)作過(guò)程，沒(méi)有那么大的差異：一部作品的誕生，一個(gè)作者的成長(zhǎng)，都建立在大量對(duì)經(jīng)典的觀察、參照、模仿、提煉基礎(chǔ)上，并非一蹴而就。而創(chuàng)新往往也有跡可循，或者是對(duì)主流的揚(yáng)棄甚至反叛，或者是對(duì)多種元素的加成和融合。因此，如知識(shí)產(chǎn)權(quán)制度，也是在鼓勵(lì)創(chuàng)作的基礎(chǔ)上，給予貢獻(xiàn)者以對(duì)等的獎(jiǎng)勵(lì)，而非一刀切地拒絕模仿。

其次，人作為創(chuàng)作核心這一點(diǎn)沒(méi)有變化：AI面向任務(wù)，人類(lèi)面向創(chuàng)造。一方面，人類(lèi)信息系統(tǒng)紛繁復(fù)雜，遠(yuǎn)非幾個(gè)“prompt”輸入就能概括。正如一位網(wǎng)友說(shuō)，AI代替不了我，因?yàn)樗斫獠涣死习宓男枨?。沒(méi)有五年經(jīng)驗(yàn)的乙方，也解讀不來(lái)甲方口中的“要大氣”。另一方面，AI成長(zhǎng)的養(yǎng)料仍然由人提供，AI更可靠可信也依賴(lài)著人的使用與反饋?！皵嗄獭庇?021年的ChatGPT可不知道2022年世界杯的戰(zhàn)果。

從實(shí)用的視角，AIGC將賦予普通用戶(hù)更多的創(chuàng)作權(quán)力和自由。從PGC、UGC到AIGC的發(fā)展路徑可見(jiàn)，普通人越來(lái)越多的參與到創(chuàng)作之中，數(shù)字內(nèi)容不僅呈現(xiàn)數(shù)量上的指數(shù)級(jí)增長(zhǎng)，類(lèi)型和風(fēng)格也走向了更加包容和多元的生態(tài)。未來(lái)，用戶(hù)可以使用手機(jī)拍攝的一系列照片，通過(guò)AIGC工具生成一個(gè)可以使用的3D渲染圖。采用這種創(chuàng)造內(nèi)容的方式，我們可以想象未來(lái)的數(shù)字空間將不再完全由開(kāi)發(fā)人員構(gòu)建，而是利用AIGC響應(yīng)用戶(hù)的輸入按需生成。

AIGC工具對(duì)專(zhuān)業(yè)人士的杠桿效應(yīng)更顯著：如果對(duì)普通人的增益是從0到1，對(duì)專(zhuān)業(yè)人士則可能是從1到10，使他們能集中精力處理更頂層、更有價(jià)值的事情：比如立意，風(fēng)格，構(gòu)圖，元素組合和后處理，或者怎樣在前期制作盡可能多樣的demo來(lái)找尋更好的方案。運(yùn)用AI也正成為新的職業(yè)能力，善于“施咒”的大觸們前赴后繼地開(kāi)發(fā)著AI近乎無(wú)限的潛能，并社交平臺(tái)上留下讓人望洋興嘆的作品。

更長(zhǎng)期看，創(chuàng)作和藝術(shù)的歷史是螺旋上升的歷史，是某一種風(fēng)格數(shù)量極大豐富、質(zhì)量巔峰造極之后的突破、突變與跨界，也是一個(gè)時(shí)代精神情感的凝結(jié)。我們有理由相信，AIGC變革下創(chuàng)新依舊存在，甚至?xí)铀侔l(fā)展。

參考資料來(lái)源:

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区