九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
音樂驅(qū)動數(shù)字人技術(shù)詳解

導(dǎo)讀 本文主題為音樂驅(qū)動數(shù)字人的算法和實(shí)踐。

主要圍繞下面四點(diǎn)展開:

1. 音樂驅(qū)動體系 Music XR Maker

2. 音樂生成數(shù)字人舞蹈

3. 歌聲驅(qū)動數(shù)字人口型

4. 歌聲驅(qū)動數(shù)字人歌唱表情

分享嘉賓|董治 騰訊音樂 天琴實(shí)驗(yàn)室 計(jì)算機(jī)視覺負(fù)責(zé)人

編輯整理|蘇麗萍 彩訊股份

出品社區(qū)|DataFun


01

音樂驅(qū)動體系 Music XR Maker
Music XR Maker 源于天琴實(shí)驗(yàn)室,天琴實(shí)驗(yàn)室是騰訊音樂首個(gè)音視頻實(shí)驗(yàn)室,致力于通過 AI 科技提升音娛視聽體驗(yàn),也是騰訊音樂的首個(gè)音視頻技術(shù)研發(fā)中心。天琴實(shí)驗(yàn)室在視頻、視覺方面主要做的事情包括兩方面,一方面是 Music XR Maker 以及圖像渲染技術(shù),另一方面是視頻相關(guān),比如視頻理解、音樂視頻化、視頻質(zhì)量提升等。
1. 音樂驅(qū)動在數(shù)字人技術(shù)棧中的定位
在數(shù)字人技術(shù)棧中,音樂驅(qū)動的定位可分為三個(gè)部分:
① 形象構(gòu)建:在形象構(gòu)建過程中,涉及到的技術(shù)包括模型制作、拍照捏臉、拍攝建模、服飾生成等。
② 人物驅(qū)動:人物驅(qū)動分成兩個(gè)體系,第一個(gè)是基于中之人,背后有真實(shí)人物在驅(qū)動;第二個(gè)是 AI 驅(qū)動。在音頻和視覺上,兩個(gè)體系都有對應(yīng)的實(shí)現(xiàn):在音頻聲音這塊,中之人直接用中之人的聲音,AI 驅(qū)動在說話方面有 TTS 技術(shù),歌曲歌聲方面對應(yīng)有歌聲合成技術(shù)。在面捕這塊,可以實(shí)時(shí)把中之人的面部表情捕捉到位,AI 生成則有說話口型生成、歌唱口型生成、說話表情生成、歌唱表情生成等。在動作和手勢方面,也有相應(yīng)的動作捕捉、手勢捕捉,在音樂領(lǐng)域也有對應(yīng)的舞蹈動作生成和樂器手勢生成。
③ 可視化渲染:當(dāng)成功將建立的模型驅(qū)動起來后,需要讓普通用戶看得到模型,這就涉及到可視化渲染。比如虛擬偶像視頻分發(fā)到各種視頻平臺、虛擬主播開虛擬直播、互動娛樂多人互動等。

2. Music XR Maker 音樂驅(qū)動研發(fā)體系建設(shè)
Music XR Maker 著重音樂,可以理解為基于音樂內(nèi)容做虛擬元素的創(chuàng)建,實(shí)質(zhì)是屬于 AI 驅(qū)動當(dāng)中的音樂驅(qū)動,可以驅(qū)動的項(xiàng)目包括歌聲合成、歌唱口型生成、舞蹈動作生成、樂器手勢生成、歌唱表情生成等,還包括后續(xù)將會逐步迭代加入的場景燈效舞美。Music XR Maker 音樂驅(qū)動研發(fā)體系建設(shè)包括:
① 數(shù)據(jù)源:建設(shè) Music XR Maker 體系在數(shù)據(jù)層面分成兩個(gè)部分:一是建模動作口型生成必須要有數(shù)據(jù)來源,目前大部分來源是動捕或面捕數(shù)據(jù),還有手勢捕捉數(shù)據(jù)等;二是既然把數(shù)據(jù)跟音樂關(guān)聯(lián),就要有非常強(qiáng)的音樂理解能力,包括音樂風(fēng)格、情緒、音樂旋律、能量、歌曲的節(jié)奏、段落等。
② AI 生成:有了基礎(chǔ)數(shù)據(jù)后,就通過核心 AI 生成的算法把兩方面數(shù)據(jù)進(jìn)行關(guān)聯(lián)。算法有兩種類型:一類是端到端模型,包括分類預(yù)測模型、關(guān)聯(lián)點(diǎn)預(yù)測、生成類模型等;另一類是 AI 編排生成算法,相對復(fù)雜且涉及多種步驟,還會使用到類似搜索或推薦等做法,可以分成召回、排序、重排三個(gè)階段:在召回階段,對輸入信號進(jìn)行關(guān)聯(lián)解析數(shù)據(jù);在排序階段,根據(jù)歌曲節(jié)奏、歌曲熱度、個(gè)性化等排序;在重排階段,進(jìn)行時(shí)序連貫性、段落關(guān)聯(lián)性等調(diào)整。
③ 3D 渲染:通過 AI 生成得到驅(qū)動數(shù)據(jù)后,要打通完整商業(yè)化鏈條還需要進(jìn)行 3D 渲染,這是必不可少的一環(huán)。首先需要渲染引擎,像常用的 Unity 、UE,還需要專業(yè)的 3D 數(shù)據(jù)格式,像 SMPL、GLB、FBX 等;同時(shí)也需要生產(chǎn)力工具,像 Blender、Maya 等。
④ 產(chǎn)品應(yīng)用:對企業(yè)來說,最后一環(huán)就是真正落地應(yīng)用到具體產(chǎn)品。落地應(yīng)用分兩種類型:一種是有用戶參與的互動娛樂應(yīng)用,以 QQ 音樂的音樂世界、音樂直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等為代表;另一種是在娛樂公司比較常見的虛擬人代表,比如已公開的扇寶、安可、持續(xù)在研發(fā)的虛擬人項(xiàng)目,曝光的場景包括虛擬偶像視頻、虛擬直播、重要節(jié)點(diǎn)開虛擬演唱會等,都是虛擬偶像展現(xiàn)的地方。

02

音樂生成數(shù)字人舞蹈
1. 虛擬人舞蹈的產(chǎn)生方式
數(shù)字人舞蹈的生成方式大致分成三種:
① 動捕棚:采用目前比較新的多目動捕設(shè)備、慣性捕捉,得到的效果是真正影視級效果,也是目前能接觸到的最佳效果。但存在價(jià)格昂貴,人力、設(shè)備成本高等問題。應(yīng)用場景來說,可用于精品視頻輸出。
② 視頻復(fù)刻:屬于單目動捕,用于普通的低精度場景效果還不錯(cuò),但運(yùn)用到非常激烈的快節(jié)奏舞蹈,特別是運(yùn)用到高精度模型,效果上存在細(xì)節(jié)丟失。這種方式人力成本相對較低,所以在低精度模型場景上應(yīng)用較多。視頻復(fù)刻有個(gè)非常明顯的優(yōu)勢是其他方式達(dá)不到的,它可以很好抓住熱點(diǎn)。現(xiàn)在的短視頻類平臺每隔一段時(shí)間都會出一些熱點(diǎn)舞蹈,通過這種方式可以快速的把熱門舞蹈實(shí)時(shí)復(fù)刻出來。
③ 基于音樂生成:屬于純算法生成,效果依賴數(shù)據(jù)質(zhì)量和算法自身好壞。存在的問題是數(shù)據(jù)獲取困難,優(yōu)勢在于可以批量生產(chǎn)場景。在批量場景下,可以和精品視頻進(jìn)行互補(bǔ),在日常視頻輸出可以用到這種基于音樂生成舞蹈的方案。

2. 音樂生成數(shù)字人舞蹈的業(yè)內(nèi)方案
業(yè)內(nèi)有很多音樂生成數(shù)字人舞蹈的方案,大致有如下幾種:
① 基于生成的方案:非常具有想象力的方案,但商用可能存在不可控情況。
② 基于 codebook:對比于生成的方案進(jìn)行改進(jìn),加入了 codebook 等方式,對生成的舞蹈規(guī)律有一定約束,是非常不錯(cuò)的方案。
③ 基于舞蹈編排:實(shí)驗(yàn)的難度和實(shí)現(xiàn)的可行性更高一些。

面向商用的舞蹈生成如何做,有三點(diǎn)因素需要考慮:一是舞蹈動作本身是美觀的動作;二是舞蹈動作和音樂的節(jié)奏、韻律要和諧一致;三是音樂和舞蹈的風(fēng)格也要一致。所以在 AI 編舞時(shí)重點(diǎn)會關(guān)注音樂特征,包括音樂本身的特性、音樂節(jié)奏等,對舞蹈也會做對應(yīng)匹配,包括舞蹈屬性、風(fēng)格、情緒、節(jié)奏快慢等。綜合來看,商用舞蹈生成是在有原始音頻文件后,通過一些方法提取音頻特征,接著通過特征回歸到舞蹈動作,最后將這些動作合理的拼接起來。

3. TME 天琴方案
下方是 TME 天琴方案的生成算法截圖。當(dāng)拿到一段音樂后,切成一幀一幀的小片段,接著對每一幀提取對應(yīng)的音樂屬性特征,包括旋律、節(jié)奏等最能代表音樂和舞蹈的特征,然后去匹配最合適的舞蹈片段,同時(shí)基于音樂節(jié)奏、風(fēng)格類型,對召回的片段進(jìn)行重新排序,過濾掉不太適合的片段,最終把對應(yīng)的片段進(jìn)行拼接,就形成一段完整舞蹈。這里還涉及一個(gè)問題,舞蹈動作可能前后段連接有問題,可通過平滑算法進(jìn)行過渡來解決。
這個(gè)方案實(shí)際應(yīng)用起來比較簡單,而且可以直接使用。但這個(gè)方案存在一定問題,因?yàn)橄胂罅Σ粔?,生成的方案多樣性略差?/strong>
另外一套方案是基于生成的方案。輸入一段音頻信號,對應(yīng)的原始樣本音頻會關(guān)聯(lián)到對應(yīng)的舞蹈,輸入模型中經(jīng)過一個(gè)過程,還原回最初的舞蹈動作。在這個(gè)過程中,要把音頻信號特征和舞蹈信號特征盡量拉齊,盡量表達(dá)更廣泛的含義。
當(dāng)音樂生成數(shù)字人舞蹈完成后,可以進(jìn)行主觀評測。針對同樣一首歌,把生成的舞蹈和手 K 的舞蹈動作發(fā)給普通用戶進(jìn)行對比,選取兩種方式對比:第一個(gè)方式是直接對比生成結(jié)果和手 K 結(jié)果,讓用戶選擇哪種更好;第二個(gè)方式是把生成結(jié)果和手 K 結(jié)果分別進(jìn)行打分。經(jīng)過評測發(fā)現(xiàn),兩種方式的結(jié)論類似,生成結(jié)果已經(jīng)接近手 K 的效果,總體效果不錯(cuò)。
4. 數(shù)字人舞蹈的商用路徑
在數(shù)字人舞蹈的商用路徑方面理解如下:
首先,通過動捕棚拍攝、CP 手 K 效果最好,會應(yīng)用到虛擬偶像、虛擬主播的精品 MV、形象宣傳片,同時(shí)這類高質(zhì)量舞蹈數(shù)據(jù)可以保留下來。
第二,單目的視頻復(fù)刻主要用到虛擬主播、虛擬偶像、用戶互動娛樂場景的爆款舞蹈生成。生成數(shù)據(jù)可以經(jīng)過人工篩選,把中質(zhì)量舞蹈數(shù)據(jù)保留下來。
最后,把之前保留下來的高質(zhì)量舞蹈數(shù)據(jù)和中質(zhì)量舞蹈數(shù)據(jù),作為 AI 舞蹈生成模型的數(shù)據(jù)來源,生成的舞蹈數(shù)據(jù)就作為量產(chǎn)數(shù)據(jù),用在虛擬偶像、虛擬主播、用戶互娛場景,批量生產(chǎn)更多的舞蹈動作。 

03
歌聲驅(qū)動數(shù)字人口型
1. 歌聲驅(qū)動數(shù)字人口型方案
歌聲驅(qū)動數(shù)字人口型有兩種實(shí)現(xiàn)方案:
① 專業(yè)面捕方案有專業(yè)設(shè)備、配套軟件,優(yōu)點(diǎn)是效果最佳,無限表情基。廣泛應(yīng)用于超寫實(shí)虛擬人場景。
② 普通光學(xué)攝像頭方案:通過普通手機(jī)攝像頭可以實(shí)現(xiàn),一般場景下效果完全可接受,標(biāo)準(zhǔn) 52 BS。適用于一般的虛擬人場景。

2. 口型驅(qū)動數(shù)據(jù)集構(gòu)建
在口型驅(qū)動數(shù)據(jù)數(shù)據(jù)建設(shè)上,把全民 K 歌軟件的用戶 K 歌視頻畫面保留下來,同時(shí)錄入用戶唱歌干聲數(shù)據(jù)。通過前面提到的單目動捕方案,把唱歌畫面進(jìn)行口型識別,拿到口型 BS 數(shù)據(jù),再加上保留下來的用戶唱歌干聲數(shù)據(jù),同時(shí)輸入到歌聲口型驅(qū)動模型。

歌唱驅(qū)動和說話驅(qū)動有差別:說話時(shí)嘴巴動的頻率比較快,但是唱歌時(shí)因?yàn)橐豢跉獬氯?,嘴巴表現(xiàn)更有連貫性;同時(shí)說話時(shí)嘴巴動的幅度沒有歌唱時(shí)幅度大,這也是專門做歌唱口型驅(qū)動模型的原因。
3. TME 口型驅(qū)動模型
TME 口型驅(qū)動模型的方案同時(shí)用到兩部分?jǐn)?shù)據(jù):一個(gè)是用戶輸入的干聲數(shù)據(jù),一個(gè)是歌詞文件(歌詞文件經(jīng)過前處理,對歌詞文件和音頻做對齊,拿到每一個(gè)字精準(zhǔn)的時(shí)間戳)。對輸入音頻和歌詞做 Encoder 處理后,進(jìn)行融合。把融合結(jié)果輸入到另一個(gè)面部匹配預(yù)測模塊,該模塊會將當(dāng)前幀的歌詞、音頻信息同之前全部幀的信息放在一起,做一個(gè) Decoder 處理。最終預(yù)測到整首歌匹配變化后再轉(zhuǎn)換為所需要的模型參數(shù)。
4. 實(shí)時(shí)性解決方案
前面是異步生成視頻的場景,實(shí)時(shí)性如何解決有如下考慮:先離線生成預(yù)設(shè)  BlendShape,輸入測試文件及干聲數(shù)據(jù),干聲來源于兩個(gè)部分:一是之前用戶唱的優(yōu)秀作品干生;二是歌曲原唱,通過技術(shù)提取原唱的干聲,然后把各式文件和綜合干聲,通過前面的口型驅(qū)動模型,得到預(yù)設(shè) BlendShape。等到真正實(shí)施時(shí),用戶實(shí)時(shí)干聲經(jīng)過音頻映射模型,得到實(shí)時(shí)音頻分析結(jié)果,和前面的預(yù)設(shè) BlendShape 進(jìn)行融合,最后得到實(shí)時(shí) BlendShape。這樣就解決了實(shí)時(shí)性問題,同時(shí)兼?zhèn)淇谛蜕傻男Ч?nbsp;

實(shí)時(shí)性解決方案的相關(guān)技術(shù)已經(jīng)上線應(yīng)用,在全民 K 歌 8.0 的 QQ 秀可以體驗(yàn)到:一個(gè)場景是用戶入唱時(shí),會有 K 歌秀界面,一邊唱一邊可以看到 QQ 秀虛擬人的動作、口型等;另一個(gè)是在歌房場景也有類似體驗(yàn)。
04
歌聲驅(qū)動數(shù)字人歌唱表情
當(dāng)做好數(shù)字人歌唱口型后,發(fā)現(xiàn)人顯得比較呆。分析專業(yè)歌手演唱表演,發(fā)現(xiàn)唱歌時(shí)要表達(dá)歌唱情感,除了口型之外,歌唱時(shí)的面部表情、手勢、動作都要同時(shí)具備,三者合一的完整表現(xiàn)才能突出演唱者當(dāng)時(shí)的強(qiáng)烈情感。
1. 歌唱表情數(shù)據(jù)的采集
歌聲驅(qū)動數(shù)字人歌唱表情的實(shí)現(xiàn)需要進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)采集時(shí)先找到帶表情的演唱視頻樣本,通過面捕拿到面部表情,通過動捕拿到動作,通過手捕拿到手勢,然后把表情、動作和手勢合一,融入歌唱表情段,經(jīng)過人工表情打標(biāo)后放入歌唱表情庫。
2. 歌唱表情的合理驅(qū)動
采集到歌唱表情之后,需要合理的驅(qū)動起來。經(jīng)過歌詞文本分析拿到歌唱時(shí)歌詞的表情信息,確定整個(gè)歌唱表演的表情基調(diào)。此時(shí)可以從龐大的各種類型表情庫里,挑選出合適的表情,適合于在歌曲或者歌曲的某一個(gè)片段安插表情。
05

總結(jié)與展望

這兩年上線了很多與虛擬人或元宇宙相關(guān)的平臺和產(chǎn)品,娛樂公司、明星、大型商業(yè)公司、海量主播、普通用戶等很多都有自身的虛擬形象,虛擬形象將變得越來越普遍。
中之人面臨越來越多的問題,比如成本問題、管理問題、虛擬形象的靈魂歸屬于虛擬偶像本身還是中之人。
AI 驅(qū)動技術(shù)面臨快速升級,包括形象創(chuàng)建技術(shù)、視覺驅(qū)動技術(shù)、音頻歌聲合成技術(shù)等。TME 以音樂為核心進(jìn)行技術(shù)建設(shè),包括音樂驅(qū)動數(shù)字人舞蹈、數(shù)字人歌唱口型、數(shù)字人歌唱表情等,未來還有其他方面。
總體來說,數(shù)字人的未來在于技術(shù)。
06
問答環(huán)節(jié)
Q1:動捕數(shù)據(jù)或公開數(shù)據(jù)集重定向到模型驅(qū)動有問題時(shí)如何處理?
A1:確實(shí)會存在重定向的問題。主要是先重定向到一些標(biāo)準(zhǔn)模型,然后再通過人工發(fā)現(xiàn)有問題的數(shù)據(jù),對有問題的數(shù)據(jù)進(jìn)行分類:如通過手動可以小范圍解決的,就進(jìn)行修復(fù);如解決不了,就直接把數(shù)據(jù)拋棄掉。
Q2:音樂生成數(shù)字人舞蹈的客觀評測方法?
A2:因?yàn)橐魳飞蓴?shù)字人舞蹈是偏向主觀的一個(gè)領(lǐng)域,生成的東西不可能跟原始的一樣,如果跟原始一樣,那就沒有什么意義了。所以音樂生成數(shù)字人舞蹈更多的是一些主觀評測。
Q3:現(xiàn)在主要研究的是卡通類型的數(shù)字人嗎?
A3:現(xiàn)在主要研究的是在卡通類型的數(shù)字人,目前沒有太涉及寫實(shí)虛擬人方面。

Q4:拼接的單元是小節(jié)嗎?

A4:拼接的單元不是小節(jié)。這里涉及到一些細(xì)節(jié),比如根據(jù)音樂的節(jié)奏進(jìn)行切分,并不是簡單的切幾秒鐘舞蹈片段,需要把舞蹈片段切的更便于后續(xù)的拼接。
今天的分享就到這里,謝謝大家。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服