近日,時隔了13年之久的《阿凡達(dá)2》上映讓全球的目光再次聚焦,觀眾們不僅對電影中虛擬世界的瑰麗景致心生向往,更被影片中皮膚真實(shí)細(xì)膩,紋理和汗珠都纖毫畢現(xiàn)的數(shù)字人所震撼。
與第一代相比,如今的數(shù)字人在顏值、表情、神態(tài)、動作方面都有質(zhì)的飛躍。而這背后離不開計算機(jī)視覺、AI、感知、智能交互、動畫、智能建模、三維圖形等各種技術(shù)的支持。
在感嘆數(shù)字人越來越強(qiáng)大且真實(shí)的同時,不禁也會發(fā)問,作為橫跨數(shù)實(shí)世界的新物種,數(shù)字人何時會成為虛擬世界的主角?
關(guān)于這個問題,在日前舉辦的科技向善創(chuàng)新周“T3未來科技對話”專題論壇上,騰訊聯(lián)合企業(yè)大咖、學(xué)術(shù)專家共同給出了答案。他們“從內(nèi)而外”的為大家剖析了數(shù)字人的“今世來生”。
01
蓬勃數(shù)字技術(shù)力外溢
讓數(shù)字人精致到每個毛孔
數(shù)字人要跨越虛擬感與真實(shí)感的界限,優(yōu)質(zhì)的外表是必須的。只有更貼近真實(shí)的人,才容易引起情感的共鳴。
上海科技大學(xué)虞晶怡教授在論壇上對此表示認(rèn)同?!巴ㄟ^建模、渲染、動作捕捉和AI驅(qū)動等關(guān)鍵技術(shù)構(gòu)成底層架構(gòu),能夠讓數(shù)字人的外貌更加精致、形象更加逼真,動作更加自然。”換句話說就是技術(shù)進(jìn)步是數(shù)字人擁有“好看皮囊”的第一推動力。
以阿凡達(dá)為例,《阿凡達(dá)2》所有存儲數(shù)據(jù)總量為18.5PB,而《阿凡達(dá)1》只有1PB。好看的背后是數(shù)據(jù)量的爆炸倍增,而數(shù)據(jù)量背后的支撐則是澎湃的技術(shù)力為底座。
建模是數(shù)字人誕生的第一步。建模目前主流技術(shù)仍為靜態(tài)掃描,但動態(tài)光場成為未來重點(diǎn)發(fā)展方向。相比靜態(tài)重建技術(shù),具有高視覺保真度的動態(tài)光場三維重建技術(shù)不僅可以重建人物的幾何模型,還可一次性獲取動態(tài)的人物模型數(shù)據(jù),并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果,成為數(shù)字人建模重點(diǎn)發(fā)展方向。
動作捕捉讓數(shù)字人活潑好動起來。動作捕捉是指通過數(shù)字手段記錄現(xiàn)實(shí)人們的運(yùn)動過程,再將捕捉采集的動作遷移至數(shù)字人,是目前數(shù)字人動作生成的主要方式。當(dāng)下動作捕捉方案最高可實(shí)現(xiàn)毫米級誤差。
渲染則是數(shù)字人實(shí)現(xiàn)“升華”的關(guān)鍵??植拦刃?yīng)由日本機(jī)器人專家提出,認(rèn)為人們對機(jī)器人的親和度隨著仿真程度增加而增高,但當(dāng)達(dá)到一個較高的臨界點(diǎn)時,親和度會突然跌入谷底,產(chǎn)生排斥、恐懼和困惑等負(fù)面心理。
數(shù)字人恐怖谷效應(yīng)主要由數(shù)字人外表、表情動作上與真人的差異帶來,其中外表真實(shí)感的關(guān)鍵就是皮膚材質(zhì)的真實(shí)感,無論是塑料感還是蠟像感都會給人類帶來不適。渲染技術(shù)的進(jìn)步,使數(shù)字人皮膚紋理變得真實(shí),是突破恐怖谷效應(yīng)關(guān)鍵。
而這些技術(shù)的實(shí)現(xiàn)背后都需要強(qiáng)大的算力支持。在《阿凡達(dá)1》的視覺效果制作中,制作工作室為了渲染其中美輪美奐的特效場景,動用了占地10000平方英尺的服務(wù)器群,其中有4,000臺物理服務(wù)器,共有35,000個處理器核心。在2009年11月的世界500強(qiáng)超級計算機(jī)排名中,該渲染服務(wù)器群位列第193至197名。
《阿凡達(dá)2》的超級渲染更是夸張,為了完成部分畫面的渲染任務(wù),制作工作室調(diào)用了六千個處理器渲染了一年之久。可以說,數(shù)字人產(chǎn)業(yè)的發(fā)展在一定程度上給芯片等算力硬件產(chǎn)業(yè)帶來了大量的需求和落地應(yīng)用場景。就像目前最尖端的圖像顯示技術(shù)也是游戲?qū)?D圖形運(yùn)算能力的需求,才不斷推高了CPU和GPU的迭代。
但面對全新的大規(guī)模視頻特效制作,光靠硬件集群已經(jīng)難以滿足面向未來應(yīng)用的需求,云技術(shù)的高性能計算集群、渲染能力,為長期技術(shù)演進(jìn)提供了新選擇。
騰訊研究院院長司曉認(rèn)為,未來可期的正是云帶來的渲染和生成能力?!安灰欢ㄐ枰I芯片,通過云計算的加持、通過AI能力的進(jìn)一步進(jìn)化,大家就可以按需索取,云技術(shù)提供的可擴(kuò)展性、靈活性和安全性服務(wù)正幫助數(shù)字人在云中渲染,讓它們達(dá)到真假難辨的程度?!彼緯栽谡搲姓f到。
數(shù)字人擁有了精致的面容和靈活的動作跨越恐怖谷效應(yīng)后,會讓人覺得數(shù)字人和真人無異,但數(shù)字人在真實(shí)感上依然欠缺,如何才能突破數(shù)字人虛擬感與真實(shí)感的界限?
02
深度學(xué)習(xí)與AIGC
賦予數(shù)字人有創(chuàng)造力的靈魂
英偉達(dá)副總裁沈威認(rèn)為,多模態(tài)交互和深度學(xué)習(xí)是數(shù)字人真正的靈魂。
多模態(tài)交互即將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和計算機(jī)圖形學(xué)相結(jié)合,充分模擬人與人之間自然真實(shí)的交互方式,實(shí)現(xiàn)“聽得懂,看得見,說得出”的人機(jī)交互效果。
擁有多模態(tài)交互能力的AI數(shù)字人,不僅能夠呈現(xiàn)傳統(tǒng)語音對話無法展現(xiàn)的多媒體信息,通過結(jié)合視覺AI技術(shù),還能完成身份識別、手勢識別、情感識別等多項(xiàng)交互任務(wù),讓交互過程更加豐富且高效。
具備足夠自然和擬真的多模態(tài)交互能力,是數(shù)字人在更廣泛的應(yīng)用場景中逐步趨近真人角色的關(guān)鍵。
從AI技術(shù)上,當(dāng)多模態(tài)交互讓數(shù)字人有了驅(qū)動以及對話,如果沒有一個非常好的AI大腦,數(shù)字人也只能局限在答非所問的“傻瓜”。
在價值層面深度學(xué)習(xí)將賦予數(shù)字人智慧的大腦,深度學(xué)習(xí)也是數(shù)字人核心創(chuàng)造力的源泉。
每一個數(shù)字人背后都需要一個會深度學(xué)習(xí)的大腦,使其可以基于語音語義理解等技術(shù),結(jié)合不同領(lǐng)域的知識庫和海量數(shù)據(jù)訓(xùn)練,進(jìn)行深度學(xué)習(xí)和自我迭代,讓自己變得越來越“聰明”,越來越專業(yè),從而能夠快速適應(yīng)瞬息萬變的市場變化和細(xì)分化的場景需求,不斷打破既有的應(yīng)用邊界,持續(xù)創(chuàng)造新價值和新體驗(yàn)。
時下大火的AIGC則打破數(shù)字人規(guī)模天花板并給予自我生產(chǎn)力。
由于數(shù)字人涉及云端渲染、動捕、NLP等技術(shù),對技術(shù)和資金投入要求高,從前期的設(shè)備投入到后期的人力時間,都在一定程度上阻礙了數(shù)字人的大規(guī)模發(fā)展。
傳統(tǒng)流程中,每一個數(shù)字人依賴各環(huán)節(jié)工程師匠心獨(dú)運(yùn)而成。以人物建模為例,傳統(tǒng)建模環(huán)節(jié)大概要花費(fèi)數(shù)月時間。此外,要讓模型動起來,前面的準(zhǔn)備工作以及后續(xù)的動畫制作及優(yōu)化環(huán)節(jié)也需要花費(fèi)數(shù)月時間,無論是時間成本還是人工成本都是一個相對較大的投入。
AIGC重塑生產(chǎn)流程,可以輔助數(shù)字人自動化生成,是數(shù)字人生產(chǎn)力之本,可以加速數(shù)字人生產(chǎn),降低制作門檻和成本投入。數(shù)字人誕生后還能通過AIGC進(jìn)行二次內(nèi)容生產(chǎn),實(shí)現(xiàn)內(nèi)容的批量化。
目前,基于各項(xiàng)融合技術(shù)的數(shù)字人已經(jīng)展現(xiàn)出了它的應(yīng)用價值,在金融、政務(wù)等垂直領(lǐng)域已有了落地應(yīng)用。但隨著行業(yè)發(fā)展,數(shù)字人產(chǎn)業(yè)早已不在最初單一的方向上駐足停留,如何去切入更合適的行業(yè)進(jìn)行規(guī)?;瘧?yīng)用,是數(shù)字人們的下一個征程。
03
數(shù)字人產(chǎn)業(yè)已向更多維度邁進(jìn)
在早期階段,數(shù)字人缺乏大規(guī)模的商用場景,數(shù)字人的首要落腳點(diǎn)主要是以創(chuàng)建IP影響力或打造粉絲經(jīng)濟(jì),包括虛擬偶像、虛擬KOL、虛擬演員、虛擬主播等。
基于IP和內(nèi)容運(yùn)營,賦予它們獨(dú)特的人設(shè)和人格特質(zhì),以此來吸引不同受眾群體的關(guān)注,從而形成一定規(guī)模的流量基礎(chǔ)和情感鏈接。再通過諸如直播帶貨、跨界品牌代言、IP授權(quán)周邊衍生品、娛樂演藝等多種手段,實(shí)現(xiàn)價值閉環(huán)或進(jìn)行商業(yè)化變現(xiàn)。
相對真人IP,數(shù)字人IP的可塑性更強(qiáng)。包括形象、人設(shè)及背景故事的創(chuàng)作自由度為數(shù)字人IP的商業(yè)創(chuàng)新帶來了更大的想象空間,重塑粉絲經(jīng)濟(jì)。
尤其在品牌自建數(shù)字人的路徑中,契合品牌調(diào)性和消費(fèi)者心理預(yù)期的數(shù)字人,更有利于品牌理念的有效傳遞和快速破圈,進(jìn)而獲得更多收益。同時,數(shù)字人也更具可控性,不會受到人設(shè)崩塌、負(fù)面新聞、檔期或合約問題等不確定性因素影響,商業(yè)安全性和穩(wěn)定性高。
在C端落地后,數(shù)字人簡單的B端應(yīng)用場景也被開發(fā),以替代真人服務(wù)、實(shí)現(xiàn)降本增效為目的,這類應(yīng)用場景普遍集中在服務(wù)型數(shù)字人,包括虛擬客服、虛擬前臺、虛擬導(dǎo)游、虛擬主持人等。
它們能夠“7×24小時”在崗不間斷地提供服務(wù)支持,尤其針對標(biāo)準(zhǔn)化、重復(fù)性高的真人服務(wù)可以實(shí)現(xiàn)數(shù)字化替代,并結(jié)合業(yè)務(wù)流程自動化,幫助企業(yè)進(jìn)一步提高生產(chǎn)效率、降低人工服務(wù)成本,為企業(yè)數(shù)字化轉(zhuǎn)型提供新路徑。
相對真人服務(wù),數(shù)字人具有較高的靈活度,不受主觀、時間、環(huán)境或外界不確定因素影響,企業(yè)可控性強(qiáng),可以保證服務(wù)的穩(wěn)定性和連續(xù)性,也能降低企業(yè)因不確定性所帶來的隱性成本問題。
同時,數(shù)字人的邊際效益遞增現(xiàn)象顯著。雖然前期數(shù)字人制作需要一定投入,但數(shù)字資產(chǎn)復(fù)制使用的邊際成本很低,單個數(shù)字人的可變成本也低于真人,可以不斷優(yōu)化服務(wù)精度、擴(kuò)展業(yè)務(wù)廣度,從而提升企業(yè)數(shù)字人力資產(chǎn)的投入產(chǎn)出效率。
自2020年以來,數(shù)字人已經(jīng)在直播、綜藝等文娛領(lǐng)域,乃至北京冬奧會等傳統(tǒng)體育領(lǐng)域中有了大范圍的落地應(yīng)用。這恰恰說明數(shù)字人的價值,不僅僅是停留在虛擬偶像和客服上,而是還有更廣闊的應(yīng)用場景。
隨著人工智能及相關(guān)技術(shù)的逐步成熟,通過深度學(xué)習(xí)和認(rèn)知泛化,在“內(nèi)外”在技術(shù)的加持下,數(shù)字人將會突破應(yīng)用邊界成為超級助手,特別是在全真互聯(lián)時代下。
04
全真互聯(lián)
數(shù)字人的真正歸屬
2020年,馬化騰在年度特刊《三觀》前言中首次提出了全真互聯(lián)概念。
全真互聯(lián)是通過多種終端和形式,實(shí)現(xiàn)對真實(shí)世界全面感知、連接、交互的一系列技術(shù)集合與數(shù)實(shí)融合創(chuàng)新模式。
一直以來,騰訊都是中國互聯(lián)網(wǎng)的引領(lǐng)者。全新的概念加上低調(diào)務(wù)實(shí)的騰訊,全真互聯(lián)讓行業(yè)充滿了期待。
近日,騰訊聯(lián)合埃森哲發(fā)布《全真互聯(lián)白皮書》,全面呈現(xiàn)這一面向未來的技術(shù)體系和應(yīng)用場景。
基于沉浸式的“全真”體驗(yàn)與可操作的“互聯(lián)”交互,全真互聯(lián)的最終目的是要解決真實(shí)場景中的實(shí)際問題。數(shù)實(shí)融合將成為全真互聯(lián)的主戰(zhàn)場。
全真互聯(lián)不僅可以支撐人和組織的能力邊界延伸,也能幫助產(chǎn)業(yè)發(fā)展進(jìn)化到全域全真的數(shù)實(shí)融合新模式。
從這一角度理解,全真互聯(lián)一開始就離實(shí)際應(yīng)用落地以及商業(yè)化要更近。
在騰訊的設(shè)想中,全真互聯(lián)將在溝通協(xié)同、研發(fā)生產(chǎn)、運(yùn)營管理、營銷服務(wù)等產(chǎn)業(yè)全鏈條中都有巨大的應(yīng)用潛力。
在溝通協(xié)同方面,全真互聯(lián)能夠降低跨時空溝通成本,提升作業(yè)效率。在研發(fā)生產(chǎn)方面,全真互聯(lián)能夠加速復(fù)雜產(chǎn)品研發(fā),支撐跨地域無阻作業(yè)。在運(yùn)營管理方面,全真互聯(lián)能夠助力空間智慧化管理和企業(yè)高質(zhì)量運(yùn)營。在營銷服務(wù)方面,全真互聯(lián)能夠擴(kuò)大營銷半徑,提升服務(wù)溫度。
所以可以預(yù)測在全真互聯(lián)時代中數(shù)字人將成為交互新入口并大放異彩。
全真互聯(lián)時代的信息交互載體或許將不再僅是APP,也不會僅是各種網(wǎng)頁或網(wǎng)站,可能將會變成一個可實(shí)時交互的數(shù)字人??赡芩阉骱蟮慕Y(jié)果就是咨詢的數(shù)字人,它可以與你進(jìn)行實(shí)時交互,還能夠圖文并茂地為你講述和呈現(xiàn)所有關(guān)于搜索內(nèi)容的事情。
除了實(shí)現(xiàn)像電影“頭號玩家”一樣創(chuàng)建每一個人高保真的虛擬分身并在虛擬世界中任意玩耍,數(shù)字人的應(yīng)用方向不僅遵循真實(shí)世界的替代邏輯,更在于滿足用戶與數(shù)字世界的連接和交互需求,實(shí)現(xiàn)對于數(shù)字世界的直接操作。這些數(shù)字人將成為我們在數(shù)字世界的AI代理人。
通過與它們的直接交互,可以隨機(jī)應(yīng)變地針對用戶個性化、多樣化需求,提供全天候、全方位的人性化陪伴和智能化服務(wù),成為人們通向虛實(shí)融合世界的超級入口。
或許未來能通過虛擬數(shù)字人辦銀行卡、辦護(hù)照,在人力所不能覆蓋的范圍發(fā)揮它的價值,在各行業(yè)提供永續(xù)動力。
社會生產(chǎn)生活也正因?yàn)槿婊ヂ?lián)與數(shù)字人的耦合發(fā)生著深刻改變。
隨著音視頻、物聯(lián)網(wǎng)、人工智能、數(shù)字孿生、區(qū)塊鏈、XR等技術(shù)已經(jīng)相對成熟或高速發(fā)展中。預(yù)計2040年,量子計算、全息投影、折疊光路、腦機(jī)接口等前沿技術(shù)有望迎來進(jìn)一步突破,支撐全真互聯(lián)與數(shù)字人全面應(yīng)用。
據(jù)了解,技術(shù)上騰訊目前在音視頻、數(shù)字孿生、3D引擎、實(shí)時渲染、邊緣計算、安全、區(qū)塊鏈等領(lǐng)域已經(jīng)做好了技術(shù)儲備,并建立了核心優(yōu)勢。
應(yīng)用上,騰訊目前已將全真互聯(lián)在金融、工業(yè)、文旅、地產(chǎn)、教育、能源、農(nóng)業(yè)等場景進(jìn)行了嘗試。
隨著技術(shù)的不斷迭代演進(jìn),全真互聯(lián)將通過多種終端和形式,實(shí)現(xiàn)對真實(shí)世界全面感知、連接,并不斷拓展技術(shù)的應(yīng)用邊界和應(yīng)用場景,產(chǎn)生更多數(shù)實(shí)融合的創(chuàng)新模式。屬于全真互聯(lián)的美好世界,也正在我們眼前徐徐展開。
聯(lián)系客服