極市導(dǎo)讀
本文將重點(diǎn)對近些年來基于3D模型和深度學(xué)習(xí)模型的人臉正面化生成方法的主要進(jìn)展和部分具有代表性的研究成果進(jìn)行介紹,并通過實(shí)驗(yàn)對比和分析,總結(jié)了人臉正面化生成研究中的難點(diǎn)和熱點(diǎn),以及可能的發(fā)展趨勢。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
論文下載地址:
https://www.researchgate.net/publication/347731732_Multi-view_frontal_face_image_generation_A_survey
不同視角的人臉圖像降低了人臉識(shí)別的精度,人臉正面化圖像生成是人臉識(shí)別領(lǐng)域中重要的研究課題。為深入了解人臉正面化生成模型的發(fā)展,把握當(dāng)前研究的熱點(diǎn)和趨勢,針對現(xiàn)有基于3D模型、基于深度學(xué)習(xí)和基于混合模型的方法進(jìn)行了歸納總結(jié),介紹了現(xiàn)有人臉正面化生成常用的數(shù)據(jù)集,并通過實(shí)驗(yàn)對比分析現(xiàn)有模型的性能。其目的在于從本質(zhì)上了解現(xiàn)有人臉正面化生成的優(yōu)勢; 對人臉正面化生成的關(guān)鍵問題進(jìn)行梳理,并對未來的發(fā)展趨勢進(jìn)行展望。
多視角人臉正面化圖像生成指從一個(gè)或多個(gè)視角的非正面圖像生成正面化的人臉圖像。正面化的人臉圖像在人臉識(shí)別,視頻監(jiān)控,身份驗(yàn)證等方面有較廣泛的應(yīng)用,尤其是人臉識(shí)別領(lǐng)域。近年來,人臉識(shí)別技術(shù)得到了廣泛的發(fā)展如人臉考勤,人臉偵察,人臉支付,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)熱潮,人臉識(shí)別的應(yīng)用和準(zhǔn)確率更是達(dá)到了一個(gè)較高的水準(zhǔn)。然而由于非正面的面部識(shí)別紋理信息通常比正面面部識(shí)別性差、正面和側(cè)面的共同特征非常有限、姿態(tài)變化會(huì)導(dǎo)致面部實(shí)質(zhì)變形等原因,現(xiàn)有的許多人臉識(shí)別算法在大姿態(tài)的非正面人臉圖像中識(shí)別人臉仍然是具有挑戰(zhàn)性的問題,姿態(tài)問題也成了限制非受限環(huán)境下人臉識(shí)別效果的主要因素,因此如何從大姿態(tài)的非正面人臉圖像中恢復(fù)出正面人臉圖像是一項(xiàng)很有價(jià)值的研究。
目前,人臉正面化圖像生成問題在國內(nèi)外已經(jīng)得到了廣泛的研究,如Lee等利用特征空間中的線性變換在2004年和2006年結(jié)合主成分分析提出了生成正面視圖圖像的方法。2012年li Y等基于最小二乘法實(shí)現(xiàn)了人臉正面化轉(zhuǎn)正。2005侯榆青等[14]利用邊緣點(diǎn)集的協(xié)方差矩陣的特征值與特征矢量實(shí)現(xiàn)了人臉正面化圖像的生成;李海彥等利用仿射變換和成像原理相結(jié)合對待識(shí)別的多姿態(tài)人臉圖像進(jìn)行姿態(tài)調(diào)整,將其調(diào)整為近似于正面人臉的方法;王科俊等結(jié)合圖像旋轉(zhuǎn)公式實(shí)現(xiàn)了人臉圖像的平面旋轉(zhuǎn)校正;上述傳統(tǒng)的人臉正面化成技術(shù)主要是對不同姿態(tài)的人臉進(jìn)行幾何代數(shù)變換得到矯正后的正面人臉,這種基于幾何代數(shù)變換的正面化生成方法計(jì)算簡單快速,但是生成效果并不理想,會(huì)存在局部扭曲的問題,且有很大的局限性,只能解決小角度(小姿態(tài))情況下的人臉正面化生成。隨著3D模型的提出和深度學(xué)習(xí)的發(fā)展,一些研究者將3D模型和深度學(xué)習(xí)模型運(yùn)用到了人臉正面化生成領(lǐng)域。
基于此,本文將重點(diǎn)對近些年來基于3D模型和深度學(xué)習(xí)模型的人臉正面化生成方法的主要進(jìn)展和部分具有代表性的研究成果進(jìn)行介紹,并通過實(shí)驗(yàn)對比和分析,總結(jié)了人臉正面化生成研究中的難點(diǎn)和熱點(diǎn),以及可能的發(fā)展趨勢。
由于3D數(shù)據(jù)對視角變化天然的魯棒性,基于3D的方法可以十分理想地解決正臉生成問題。其中三維形變模型(3D morphable model,3DMM) 是由Blanz等提出的一種人臉3D可變形的人臉模型,3DMM作為描述人臉形狀的平均模型,是實(shí)現(xiàn)3D人臉重建和3D人臉識(shí)別常用的模型之一。該算法的思路是利用一個(gè)人臉數(shù)據(jù)庫構(gòu)造一個(gè)平均人臉形變模型,在給出新的人臉圖像后,將人臉圖像與模型進(jìn)行匹配結(jié)合,修改模型相應(yīng)的參數(shù),將模型進(jìn)行形變,直到模型與人臉圖像的差異減到最小,然后對紋理進(jìn)行優(yōu)化調(diào)整,即可完成人臉建模。因此算法主要有兩個(gè)步驟,第一步是從人臉數(shù)據(jù)庫中所有臉構(gòu)建出一個(gè)平均的臉部模型,第二步完成形變模型與照片的匹配。針對步驟一,首先將人臉分成兩種向量:形狀向量和紋理向量。形狀向量S包含了X,Y,Z的坐標(biāo)信息,定義如公式1所示,其中n表示模型的定點(diǎn)數(shù):
紋理信息T包含了R,G,B顏色值信息,定義如公式2所示:
然后由m個(gè)臉部模型建立三維形變的臉部模型,其中每一個(gè)都包含相應(yīng)的S~i~, T~i~兩種向量。新的三維形變臉部模型公式定義如下:
其中,m表示采集的人臉樣本數(shù),a和b為參數(shù)系數(shù)。
最后由公式(3)和公式(4)線性組合成新的臉部模型,如公式5所示:
針對步驟二,在形變模型的基礎(chǔ)上,對于一張給定的人臉照片,首先將模型與人臉照片進(jìn)行配準(zhǔn),然后對模型的參數(shù)進(jìn)行調(diào)整,使其與照片中的人臉差異值達(dá)到最小即可,即模型 與輸入的圖像 之間的歐氏 距離最小。
基于3D模型生成人臉正面化的思路是通過構(gòu)建三維人臉模型,對測試人臉圖像進(jìn)行模型參數(shù)的匹配,進(jìn)而獲得完整的三維人臉數(shù)據(jù),從而獲得正面人臉圖像。
現(xiàn)有一些方法直接基于3DMM進(jìn)行正面人臉圖像的生成如王錢慶等提出了BFM-3DMM模型,先利用改進(jìn)的AAM模型進(jìn)行人臉對齊,然后利用BFM-3DMM模型進(jìn)行初步校正,最后利用SFS算法進(jìn)行人臉再校正,實(shí)驗(yàn)表明該算法不僅能生成歐洲人的正面圖像,同樣能夠?qū)崿F(xiàn)亞洲人臉的正面化生成。
Seung-Hyuk Jeon等基于3DMM模型提出了一種從單個(gè)圖像中的非正面人臉生成正面人臉的方法。該方法的前視3DMM由非前視旋轉(zhuǎn)3DMM生成。3DMM表面的可見性通過對應(yīng)3DMM前視與非前視的可見面積比來測量。正面視圖3DMM的可見區(qū)域是通過對人臉圖像進(jìn)行分段仿射扭曲來繪制的,同時(shí)利用人臉的對稱特性繪制不可見區(qū)域。
Asthana等提出了一種新穎的3D姿勢歸一化方法,將非正面人臉圖像映射到一個(gè)對齊的三維人臉模型上, 通過調(diào)整這個(gè)三維模型的姿態(tài)獲得正面人臉圖像。該方法自動(dòng)將3D人臉模型穩(wěn)固地?cái)M合到2D輸入圖像而無需任何人工干預(yù)的情況。此外,該方法可以處理連續(xù)范圍的姿勢,因此不限于一組離散的預(yù)定姿勢角,以成功運(yùn)用到標(biāo)準(zhǔn)人臉識(shí)別測試儀上,并可產(chǎn)生出色的結(jié)果。
Hassner等[21]提供了一種簡單有效的人臉正面化生成方法,該方法首先尋找查詢照片與三維人臉模型表面2D-3D對應(yīng)關(guān)系,然后通過使用一種健壯的面部特征檢測方法在兩幅圖像中尋找相同的地標(biāo),將查詢點(diǎn)與渲染的模型正面視圖上的點(diǎn)進(jìn)行匹配,最后通過使用3D模型的幾何圖形將查詢的面部特征投影回參考坐標(biāo)系,可以生成正面人臉圖像。
還有一些方法考慮到3DMM模型本身存在的問題,在3DMM模型的基礎(chǔ)上提出了人臉正面化生成模型。如Fang等提出了一種基于姿態(tài)估計(jì)的正面人臉圖像合成方法,該方法通過建立平均三維人臉模型進(jìn)行姿態(tài)估計(jì),以避免3DMM方法中復(fù)雜的迭代計(jì)算;采用壓縮感知理論對原型 樣本進(jìn)行篩選,以提高形變模型的精度;將原始紋理與重建紋理相結(jié)合構(gòu)建綜合紋理,以保留人臉圖像的細(xì)節(jié)信息。
Zhu等考慮到傳統(tǒng)的3DMM存在運(yùn)算速率慢等問題,提出一種基于三維變形模型(3DMM)的高保真位姿和表情歸一化(HPEN)方法,通過估計(jì)整個(gè)圖像的深度信息,從而可以很容易地修正姿態(tài)和表情的三維變換,以保留盡可能多的身份信息。為了保證姿態(tài)歸一化后的人臉區(qū)域到背景的平滑過渡,除了人臉區(qū)域外,HPEN還對人臉外部區(qū)域和背景的深度進(jìn)行了估計(jì)。該方法可以自動(dòng)生成具有正面位姿和中性表情的自然人臉圖像。
除上述方法外基于3DMM進(jìn)行人臉正面化生成的方法還有FPCA模型,MDF模型等。
基于3DMM的方法由于使用的是致密的3D數(shù)據(jù),因而可以實(shí)現(xiàn)正臉形狀和紋理的理想合成,但是基于3D模型方法的人臉矯正一般是利用3DMM模型來擬合人臉,然后通過對稱操作或者其他操作來補(bǔ)全側(cè)臉圖像由于自遮擋導(dǎo)致的信息缺失,這樣在矯正大角度人臉時(shí)會(huì)出現(xiàn)明顯的人為對稱痕跡。而且3DMM需要大量掃描后的人臉模型進(jìn)行平均人臉模型的創(chuàng)建,因此也存在計(jì)算量大,生成速度慢等缺點(diǎn)。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究的新領(lǐng)域,通過模仿人腦的機(jī)制來解釋數(shù)據(jù),讓機(jī)器自動(dòng)學(xué)習(xí)良好的特征,免去人工選取過程,相較于基于3D的模型,基于深度學(xué)習(xí)的模型減少了計(jì)算的復(fù)雜度,提高了生成速率,在一定程度上解決了人為對稱帶來的生成圖像的質(zhì)量問題。根據(jù)所用網(wǎng)絡(luò)模型的不同,基于深度學(xué)習(xí)的人臉正面化生成模型又可細(xì)分為基于自編碼器的模型,基于卷積神經(jīng)網(wǎng)絡(luò)的模型和基于生成式對抗網(wǎng)絡(luò)的模型。
2.1.1自編碼器介紹
自編碼器(Autoencoder,AE),是一種利用反向傳播算法使得輸出值等于輸入值的神經(jīng)網(wǎng)絡(luò),它先將輸入壓縮成潛在空間表征,然后通過這種表征來重構(gòu)輸出,簡單講,AE可以被視為一個(gè)三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)可以看作由兩部分組成: 一個(gè)由函數(shù)表示的編碼器和一個(gè)生成重構(gòu)的解碼器。
自編碼器在訓(xùn)練的過程中需要加入一些約束,使它只能近似地復(fù)制,并只能復(fù)制與訓(xùn)練數(shù)據(jù)相似的輸入。這些約束強(qiáng)制模型考慮輸入數(shù)據(jù)的哪些部分需要被優(yōu)先復(fù)制,因此,它往往能學(xué)習(xí)到數(shù)據(jù)的有用特征。近年來,自編碼器與潛變量模型理論的聯(lián)系將自編碼器帶到了生成式建模的前沿。
2.1.2基于自編碼器的模型
基于3D重建的模型由于依賴于已有的3D模型,所以生成的正面化圖像存在偽影的問題,而基于自編碼器的多視角人臉正面化圖像生成模型中編碼器負(fù)責(zé)提取圖像的特征,解碼器負(fù)責(zé)合成人臉正面圖像,不依賴于先驗(yàn)知識(shí),可以更好的合成人臉正面圖像,因此自編碼器現(xiàn)已成功運(yùn)用到人臉正面化生成中。
如2014年Kan等針對由姿態(tài)差異引起的臉部外表變化比由身份差異引起的變化大的問題,提出了堆疊步進(jìn)自編碼器 ( Stacked Progressive Auto-Encoder,SPAE)的非正面人臉圖像轉(zhuǎn)換為正面人臉圖像的方法。具體來說,堆疊網(wǎng)絡(luò)的每個(gè)淺漸進(jìn)式自動(dòng)編碼器被設(shè)計(jì)為將處于較大姿勢的面部圖像映射到處于較小姿勢的面部圖像,同時(shí)將那些圖像以較小的姿勢保持不變。然后,堆疊多個(gè)這些淺自動(dòng)編碼器可以將非正面人臉圖像逐步轉(zhuǎn)換為正面人臉圖像,這意味著姿勢變化逐步縮小為零。因此,堆疊網(wǎng)絡(luò)的最頂層隱藏層的輸出包含非常小的姿勢變化,可用作姿勢識(shí)別的姿勢穩(wěn)健特征。
2017年歐陽寧等在堆疊自編碼器的基礎(chǔ)上,結(jié)合多任務(wù)學(xué)習(xí)( Multi- task Learning,MtL),提出了基于多任務(wù)學(xué)習(xí)的多姿態(tài)人臉重建與識(shí)別方法,即多任務(wù)學(xué)習(xí)堆疊自編碼器( Multi-task Learning Stacked Auto-Encoder,MtLSAE)。2019年徐海月等基于編解碼網(wǎng)絡(luò)提出了一種多姿態(tài)人臉圖像正面化方法-多任務(wù)卷積編解碼網(wǎng)絡(luò)(MCEDN)。
2020年Xin Yu等提出了一種可同時(shí)實(shí)現(xiàn)圖像正面化生成和超分辨率的變換判別神經(jīng)網(wǎng)絡(luò)(MTDN)。MTDN由兩部分組成:一個(gè)組合了自動(dòng)編碼器,空間轉(zhuǎn)換網(wǎng)絡(luò)層,上采樣層和殘差塊層的多尺度變換上采樣網(wǎng)絡(luò),以及一個(gè)由卷積層,最大池化層和全連接層組成的判別網(wǎng)絡(luò)。多尺度變換上采樣網(wǎng)絡(luò)旨在以不同分辨率接收和超分辨LR圖像,而判別網(wǎng)絡(luò)的發(fā)展則是迫使超分辨臉部變得逼真。MIDN能夠在不同的大姿勢中有效地對齊和升采樣低分辨率圖像,并且升采樣的圖像類似于其對應(yīng)的高分辨率的圖像。
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)基本概念
借鑒人腦超大規(guī)模的、復(fù)雜互聯(lián)的結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)經(jīng)歷了從淺層神經(jīng)網(wǎng)絡(luò)到深度神經(jīng)網(wǎng)絡(luò)的重要變革。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNNs)作為最重要的深度模型之一, 由于具有良好的特征提取能力和泛化能力, 在通用圖像分類、圖像檢測、光學(xué)字符識(shí)別等領(lǐng)域都是表現(xiàn)最好的,在人臉識(shí)別、視覺跟蹤、自然語言處理、自動(dòng)駕駛、圖像超分重建等問題上相較淺層模型具有顯著優(yōu)勢。
CNN由輸入層、卷積層、激活函數(shù)、池化層、全連接層組成,其結(jié)構(gòu)如圖4所示,其中卷積層遵循權(quán)值共享原則,來進(jìn)行特征提取,通常會(huì)使用多層卷積層得到更深層次的特征圖;激活函數(shù)的作用是保證數(shù)據(jù)輸入與輸出是可微的;池化層往往在卷積層之后,其作用是對輸入的特征圖進(jìn)行壓縮提取主要特征,防止過擬合發(fā)生;全連接層的作用是連接所有的特征,將輸出值送給分類器,達(dá)到分類的目的。
圖4. 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
2.2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的模型
通過結(jié)合局部感受野、共享權(quán)重、空間或時(shí)間上的池化降采樣三大特點(diǎn),CNN可充分利用人臉圖像本身包含的局部性等特征,所具有的強(qiáng)魯棒性和容錯(cuò)能力可保證對空間平移、扭曲、縮放一定程度上的位移的不變性[37,40]。此外CNN的局部連接、權(quán)值共享及池化操作也可有效降低網(wǎng)絡(luò)模型的復(fù)雜度、減少訓(xùn)練參數(shù)數(shù)目,更易于訓(xùn)練和優(yōu)化。
Nourabadi等在2013年提出了一種基于CNN的利用單張人臉圖像來解決姿態(tài)變化問題的方法。首先,通過姿勢分類器模型估計(jì)每個(gè)圖像的姿勢。然后,除了使用2D圖像信息以外,還使用估計(jì)的姿勢代碼來重構(gòu)深度圖。最后,使用估計(jì)的深度圖和姿勢代碼提供用于身份識(shí)別的人臉正面化圖像。該方法通過深度重建雙向模型將圖像旋轉(zhuǎn)到正面,獲得了最佳的身份識(shí)別精度。
Zhu等在2014年基于CNN提出一種新的深度學(xué)習(xí)框架恢復(fù)人臉圖像的正面圖像。與在受控2D環(huán)境中評估或使用3D信息的現(xiàn)有人臉正面化生成方法不同,該框架可直接從具有復(fù)雜變體的人臉圖像到其標(biāo)準(zhǔn)視圖中學(xué)習(xí)變換。在訓(xùn)練階段,為避免手動(dòng)訓(xùn)練從標(biāo)準(zhǔn)視圖圖像標(biāo)記標(biāo)簽的昂貴過程,設(shè)計(jì)了一種新的度量標(biāo)準(zhǔn),可以自動(dòng)為每個(gè)身份選擇或合成標(biāo)準(zhǔn)視圖圖像。
Yim J等在2015年提出了一個(gè)多任務(wù)學(xué)習(xí)框架,通過訓(xùn)練一個(gè)DNN網(wǎng)絡(luò),將一幅人臉和一個(gè)表示目標(biāo)姿態(tài)的二值編碼作為輸入,在保持人臉I(yè)D同時(shí)將任意姿態(tài)和光照人臉旋轉(zhuǎn)到目標(biāo)姿態(tài),且目標(biāo)姿態(tài)可以人為控制。
Aaron S等在2017年通過在包含2D圖像和3D面部模型或掃描的適當(dāng)數(shù)據(jù)集上訓(xùn)練CNN來解決人臉重建中大型面部姿勢,表情和不均勻照明上建立密集的對應(yīng)關(guān)系局限性的問題。該方法的CNN只需處理單個(gè)2D面部圖像,不需要精確對齊,也無需建立圖像之間的密集對應(yīng)關(guān)系,就可以用于任意的面部姿勢和表情的生成,并且可以用于繞過3D可變形模型的構(gòu)建和擬合來重建整個(gè)3D面部幾何形狀包括面部的不可見部分。
ZhangZhihong等在2018年在2014年提出了一種基于外觀流的人臉正面卷積神經(jīng)網(wǎng)絡(luò)(A3F-CNN)。具體來說,A3F-CNN學(xué)習(xí)在非正面和正面之間建立密集的對應(yīng)關(guān)系。一旦建立了對應(yīng)關(guān)系,就可以通過顯式地"移動(dòng)"來自非正面像素的像素來合成正面。通過這種方式,合成的正臉可以保留精細(xì)的面部紋理。為了提高訓(xùn)練的收斂性,提出了一種由外流引導(dǎo)的學(xué)習(xí)策略。另外,應(yīng)用生成對抗性網(wǎng)絡(luò)損失來獲得更具真實(shí)感的面部,并引入了面部鏡像方法來處理自遮擋問題。結(jié)果表明,在受控和非受控照明環(huán)境下,A3F-CNN都可以合成更多逼真的人臉。
圖5. A3F-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖
Yudong Guo等在2019年提出了一種新穎的基于CNN的框架來實(shí)現(xiàn)實(shí)時(shí)的詳細(xì)人臉逆向渲染。具體來說,該框架為每個(gè)幀使用兩個(gè)CNN,即CoarseNet和FineNet。第一個(gè)完全估計(jì)粗尺度幾何,反照率,照明和姿勢參數(shù),第二個(gè)重建在像素級別編碼的精細(xì)尺度幾何。借助結(jié)構(gòu)良好的大規(guī)模訓(xùn)練數(shù)據(jù),該框架可以實(shí)時(shí)恢復(fù)詳細(xì)的幾何形狀,反照率,照明,姿勢和投影參數(shù)。
2.3.1 生成式對抗網(wǎng)絡(luò)基本概念
Goodfellow等在2014年首次提出了生成式對抗網(wǎng)絡(luò)( generative adversarial networks,GAN),GAN采用了博弈論中二人零和博弈的思想(即二人的利益之和為零,一方的所得正是另一方的所失),由一個(gè)生成器和一個(gè)判別器構(gòu)成。生成器捕捉真實(shí)數(shù)據(jù)樣本的潛在分布,并生成新的數(shù)據(jù)樣本;判別器是一個(gè)二分類器,判別輸入的是真實(shí)數(shù)據(jù)還是生成數(shù)據(jù)。生成器和判別器均可采用深度神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn),其結(jié)構(gòu)如圖6所示。
圖6. GAN網(wǎng)絡(luò)結(jié)構(gòu)圖
近年來,專家學(xué)者針對原始GAN框架本身存在的問題和在實(shí)際應(yīng)用中存在的問題,在原始GAN的基礎(chǔ)上做出改進(jìn),如針對原始GAN的輸入隱變量z是非結(jié)構(gòu)化的,不知道隱變量中的每一位數(shù)分別控制著什么屬性的問題,CGAN采用監(jiān)督學(xué)習(xí)的方式,將隨機(jī)噪聲z和類別標(biāo)簽c作為生成器的輸入,判別器則將生成的樣本/真實(shí)樣本與類別標(biāo)簽作為輸入,以此學(xué)習(xí)標(biāo)簽和圖片之間的關(guān)聯(lián)性;針對GAN網(wǎng)絡(luò)在訓(xùn)練過程中需要成對的訓(xùn)練樣本的問題,CycleGAN采用兩個(gè)鏡像對稱的GAN構(gòu)成了一個(gè)環(huán)形網(wǎng)絡(luò),形成一個(gè)由數(shù)據(jù)域A到數(shù)據(jù)域B的普適性映射,學(xué)習(xí)數(shù)據(jù)域A和B的風(fēng)格之間的變換而非具體的數(shù)據(jù)a和b之間的一一映射關(guān)系,實(shí)現(xiàn)了輸入的兩張圖片可以是任意的兩張圖片,也就是非對稱圖片的目的。
2.3.2 基于生成式對抗網(wǎng)絡(luò)的模型
相比其他深度學(xué)習(xí)模型,GAN生成的數(shù)據(jù)的復(fù)雜度和維度是線性相關(guān)的,要生成一個(gè)更大的圖像,不會(huì)像傳統(tǒng)模型一樣面臨指數(shù)上升的計(jì)算量,它只是一個(gè)神經(jīng)網(wǎng)絡(luò)線性增大的過程。其次,GAN先驗(yàn)假設(shè)非常少,可以在不對人臉圖像進(jìn)行任何的顯式參數(shù)分布假設(shè)的情況下生成更高質(zhì)量的正面化人臉圖像^[74]^。因此相較于其他網(wǎng)絡(luò),GAN更適合用于人臉正面化生成。
Rui Huang等基于GAN網(wǎng)絡(luò)提出了一種同時(shí)感知全局結(jié)構(gòu)和局部細(xì)節(jié)的雙通道生成對抗網(wǎng)絡(luò)(TP_GAN),用于人臉正面化生成。TP_GAN網(wǎng)絡(luò)為了很好地約束病態(tài)合成問題,進(jìn)一步在訓(xùn)練過程中引入了對抗性損失、對稱性損失和身份保持損失。提出的TP-GAN不僅能獲得令人信服的感知結(jié)果,而且在大姿態(tài)人臉識(shí)別方面也能取得較好的效果。
圖7. TP_GAN網(wǎng)絡(luò)結(jié)構(gòu)圖
Jiaxin Ma提出的PWGAN是一種基于姿態(tài)加權(quán)的生成對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)增加了一個(gè)預(yù)先訓(xùn)練好的姿態(tài)認(rèn)證模塊來學(xué)習(xí)人臉姿態(tài)信息。充分利用了位姿信息,使生成網(wǎng)絡(luò)更加了解人臉特征,獲得更好的生成效果。
Jie Cao等觀察到現(xiàn)有模型生成的人臉正面化圖像的真實(shí)感和身份保持之間沒有明確的關(guān)系定義,因此基于GAN,提出了一種三維輔助雙生成對抗網(wǎng)絡(luò)(AD-GAN)來精確地將輸入人臉圖像的偏航角旋轉(zhuǎn)到任意指定的角度。該模型可以改變輸入人臉圖像的姿態(tài),同時(shí)保持圖像的真實(shí)感。
傳統(tǒng)的姿態(tài)不變?nèi)四樧R(shí)別方法要么是對非正面人臉圖像進(jìn)行逐型正面化,要么是從非正面人臉圖像中學(xué)習(xí)姿態(tài)不變的再現(xiàn)。Luan Tran等認(rèn)為更可取的做法是聯(lián)合執(zhí)行這兩項(xiàng)任務(wù),以允許它們相互利用,基于此提出了具有三種不同新奇性的糾纏表示學(xué)習(xí)生成對抗網(wǎng)絡(luò)(DR-GAN)。DR-GAN在CGAN網(wǎng)絡(luò)的基礎(chǔ)上,增加了一些新的特性,包括編碼器-解碼器結(jié)構(gòu)生成器、位姿編碼、鑒別器中的位姿分類以及一個(gè)集成的多圖像融合方案。
圖8. DR_GAN網(wǎng)絡(luò)結(jié)構(gòu)圖
Zhu-Liang Chen等提出了一種基于條件生成對抗網(wǎng)絡(luò)(cGAN)的視頻監(jiān)控場景中用于識(shí)別人臉的方法,該方法可以從視頻中輸入多個(gè)姿勢變化的人臉。實(shí)驗(yàn)結(jié)果表明,該方法可以從真實(shí)視頻監(jiān)控場景收集的來自19個(gè)人的43276張面部圖像的數(shù)據(jù)集上,生成合適的正面面部并將面部識(shí)別能力提高20%左右。
基于生成式對抗網(wǎng)絡(luò)進(jìn)行人臉正面化生成的模型還有FIGAN,PIGAN,PPN-GAN,CAPG-GAN,F(xiàn)NM等,在GAN網(wǎng)絡(luò)的基礎(chǔ)上,針對生成對抗網(wǎng)絡(luò)存在訓(xùn)練難和訓(xùn)練不穩(wěn)定,對于身份信息也無法很好地保持等問題,對GAN網(wǎng)絡(luò)進(jìn)行了改進(jìn)和優(yōu)化,使得模型適用于所有角度的人臉正面化生成。
綜上,基于深度學(xué)習(xí)的人臉生成方法,是借助深度學(xué)習(xí)強(qiáng)大的擬合能力來合成虛擬視角的人臉,以生成正面化的人臉圖像,表1羅列了基于深度學(xué)習(xí)模型優(yōu)缺點(diǎn)。
單一的網(wǎng)絡(luò)模型,往往所提取的特征類別單一,不能覆蓋所有的特征信息。采用多個(gè)模型融合的方式,可以利用不同模型的特性,發(fā)揮不同模型的生成人臉正面化圖像的優(yōu)勢。同時(shí)權(quán)衡不同模型的相關(guān)與制約關(guān)系,考慮到不同模型的優(yōu)化目標(biāo),可以獲得更好的生成效果?,F(xiàn)有基于混合模型的人臉正面化生成模型大多是3D模型和深度學(xué)習(xí)模型的集合,如3D模型+自編碼器,3D模型+卷積網(wǎng)絡(luò),3D模型+GAN網(wǎng)絡(luò)。
3D模型+自編碼器的模型如Shangzhe Wu等基于自動(dòng)編碼器和3D神經(jīng)渲染模型提出了一種不需要外部超視覺,直接從單視圖圖像中學(xué)習(xí)三維可變形物體信息的方法。該方法通過預(yù)測對稱映射來對可能對稱但不一定對稱的對象進(jìn)行建模,并使用模型的其他組件端到端的學(xué)習(xí)。
圖9. Shangzhe Wu等提出的方法
3D模型+卷積網(wǎng)絡(luò)的模型如Ding Y等為了提高3D人臉識(shí)別算法的準(zhǔn)確率,開發(fā)了一種有效的姿勢融合算法,該算法可將人臉正面化并組合多個(gè)輸入。該算法基于深度特征提取器的卷積神經(jīng)網(wǎng)絡(luò)(CNN)從規(guī)范化的規(guī)范彩色圖像中提取2D特征。然后,將在3D面部網(wǎng)格上計(jì)算出的面部界標(biāo)之間的表達(dá)不變測地距離作為3D幾何特征。最后,我們將這些2D和3D功能連接起來,以訓(xùn)練人臉識(shí)別的SVM模型。針對人臉轉(zhuǎn)正部分該算法使用3D旋轉(zhuǎn)矩陣為這些變化建模,并反轉(zhuǎn)旋轉(zhuǎn)以使人臉正面化。同時(shí)為了估算旋轉(zhuǎn)參數(shù),將3D面部的鼻子區(qū)域與標(biāo)準(zhǔn)正面平均面部的鼻子模板進(jìn)行比較,然后將它們?nèi)诤弦垣@得具有完整面部標(biāo)志集的正面模型。通過實(shí)驗(yàn)和與最先進(jìn)方法的比較,我們證明了我們的方法可以實(shí)現(xiàn)最高的面部識(shí)別率,并且對于姿勢和表情變化具有魯棒性。
圖10. Ding等提出的方法
3D模型+GAN網(wǎng)絡(luò)的模型如Xi Yin等基于3DMM模型和GAN網(wǎng)絡(luò)提出了一種新穎的深度3D可變形模型條件化的人臉正面化生成對抗網(wǎng)絡(luò)FF-GAN,該框架融合了來自深度3DMM和面部識(shí)別CNN的元素。Cao等^[63]^提出了一種高保真位姿不變模型(HF-PIM),以獲得高分辨率的真實(shí)感和保身份的正面化結(jié)果。HF-PIM結(jié)合了3D和基于GAN的方法的優(yōu)點(diǎn),通過一種新的面部紋理融合扭曲程序?qū)喞獔D像進(jìn)行正面處理。
Hang Zhou等為解決生成結(jié)果受到數(shù)據(jù)源的規(guī)模和范圍的限制,提出了一種新穎的無監(jiān)督框架,該框架利用3D人臉建模和CycleGAN來構(gòu)成我們的構(gòu)建塊,可以在不損失細(xì)節(jié)的情況下將3D旋轉(zhuǎn)和面部渲染應(yīng)用到任意角度。
圖11. hangzhou等提出的方法
綜上,現(xiàn)有基于混合模型的方法,充分利用了3D模型,卷積網(wǎng)絡(luò)模型,編碼器模型和生成式對抗網(wǎng)絡(luò)模型的優(yōu)點(diǎn),通過兩個(gè)模型或者多個(gè)模型的組合,達(dá)到了不同模型之間的優(yōu)勢互補(bǔ),解決了單一模型中數(shù)據(jù)源規(guī)模和范圍受限制,生成圖像細(xì)節(jié)丟失,人臉正面圖像存在偽影等問題。由于GAN網(wǎng)絡(luò)能夠重建圖像細(xì)節(jié),3D模型和GAN網(wǎng)絡(luò)的組合是近年來廣泛使用的模型。
本節(jié)針對近年來人臉正面化生成常用的數(shù)據(jù)集進(jìn)行了詳細(xì)的介紹。
FERET是由FERET項(xiàng)目創(chuàng)建,此圖像集包含大量的人臉圖像,并且每幅圖中均只有一個(gè)人臉。該數(shù)據(jù)集中,同一個(gè)人的照片有不同表情、光照、姿態(tài)和年齡的變化。包含1萬多張多姿態(tài)和光照的人臉圖像,是人臉識(shí)別領(lǐng)域應(yīng)用最廣泛的人臉數(shù)據(jù)庫之一。但是其中的多數(shù)人是西方人,且每個(gè)人所包含的人臉圖像的變化比較單一。
Multi_PIE是由美國卡耐基梅隆大學(xué)建立。所謂"PIE"就是姿態(tài)(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE人臉數(shù)據(jù)庫是在CMU-PIE人臉數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的。包含337位志愿者的75000多張多姿態(tài),光照和表情的面部圖像。其中的姿態(tài)和光照變化圖像也是在嚴(yán)格控制的條件下采集的,目前已經(jīng)逐漸成為人臉識(shí)別領(lǐng)域的一個(gè)重要的測試集合。
LFW提供的人臉圖片均來源于生活中的自然場景,包含了5749名受試者的13000多張面部圖像,這些圖像中存在不同的姿勢,表情,光照和遮擋方式。
CelebA是CelebFaces Attribute的縮寫,意即名人人臉屬性數(shù)據(jù)集,其包含10177個(gè)名人身份的202599張人臉圖片,每張圖片都做好了特征標(biāo)記,包含人臉bbox標(biāo)注框、5個(gè)人臉特征點(diǎn)坐標(biāo)以及40個(gè)屬性標(biāo)記,CelebA由香港中文大學(xué)開放提供,廣泛用于人臉相關(guān)的計(jì)算機(jī)視覺訓(xùn)練任務(wù)。
CFP由500名受試者組成,每個(gè)受試者有10張正面和4張側(cè)面圖像。
CAS-PEAL是中科院計(jì)算技術(shù)研究所在2003年完成的包含1040位志愿者的共99450幅人臉的圖片的數(shù)據(jù)庫。該數(shù)據(jù)庫涵蓋了手勢,表情,裝飾,光照,背景,距離和時(shí)間等特征的變化。
IJB-A包括5396張圖像和20412個(gè)視頻幀,用于500個(gè)受試者,這是一個(gè)不受控制的姿態(tài)變化的挑戰(zhàn)。與以前的數(shù)據(jù)庫不同,IJB-A定義了人臉模板匹配,其中每個(gè)模板包含不同數(shù)量的圖像。它由10個(gè)文件夾組成,每個(gè)文件夾是整個(gè)集合的一個(gè)不同的分區(qū)。
表2和表3給出了不同模型在LFW和IJB-A數(shù)據(jù)集上的ACC,AUC,Verification和Identification的結(jié)果。
綜合上述分析,基于3D重建模型的方法依賴于大量掃描的人臉三維數(shù)據(jù)實(shí)現(xiàn)目標(biāo)人臉的正面化生成,此方法的缺陷在于依賴大量,準(zhǔn)確且精細(xì)的三維掃描數(shù)據(jù),計(jì)算量大,比較耗時(shí);基于CNN端到端的方法,不需要大量的三維掃描人臉數(shù)據(jù)從輸入人臉圖像中提取對應(yīng)的參數(shù)向量,可通過一系列網(wǎng)絡(luò)約束,還原出各個(gè)角度下的人臉圖像,但形變可控性不強(qiáng),完全依賴于網(wǎng)絡(luò)中的監(jiān)督信息;基于GAN的模型充分利用了生成式對抗網(wǎng)絡(luò)的優(yōu)點(diǎn),實(shí)現(xiàn)了大姿態(tài)人臉的正面化生成,但是生成的圖像容易出現(xiàn)身份信息丟失的現(xiàn)象?;诨旌夏P偷姆椒ㄔ诙亢投ㄐ苑治鲋芯憩F(xiàn)較優(yōu)。
本文針對人臉正面化生成問題進(jìn)行了分析,分別從基于3D模型的方法,基于深度學(xué)習(xí)的方法和基于混合模型的方法三個(gè)方面進(jìn)行了詳細(xì)的介紹,并通過實(shí)驗(yàn)對比分析了不同模型的實(shí)驗(yàn)效果,從目前基于發(fā)展?fàn)顩r來看,以下幾個(gè)方面的工作仍然值得關(guān)注:
現(xiàn)有算法優(yōu)化。現(xiàn)有人臉正面化生成模型在大多數(shù)場景和自然環(huán)境下具有較好的穩(wěn)健性和魯棒性,但是對于極端的壞境(如圖片具有嘈雜的紋理和陰影,具有極端的關(guān)照等),生成的正面人臉的質(zhì)量偏低,因此對更加復(fù)雜的圖像,可以在現(xiàn)有算法的基礎(chǔ)上使用多個(gè)規(guī)范視圖或者不同的3D模型結(jié)合新提出的算法或模型,構(gòu)建更加穩(wěn)定高效的人臉正面化生成模型。
與人臉屬性編輯的組合。人臉屬性包括表情,姿態(tài),性別,年齡等。單一的對姿態(tài)進(jìn)行矯正雖然能夠提高識(shí)別的準(zhǔn)確率,但是忽略了其他屬性對人臉識(shí)別的影響,考慮對多種屬性進(jìn)行編輯,同時(shí)解耦各個(gè)屬性之間的相關(guān)性,使得生成的人臉圖像更符合真實(shí)圖像,進(jìn)一步提高識(shí)別的準(zhǔn)確率。
實(shí)際應(yīng)用場景需求。目前人臉正面化生成研究在人臉識(shí)別領(lǐng)域已經(jīng)得到了認(rèn)可,但是該研究大多是以理論研究為基礎(chǔ),應(yīng)用于實(shí)際場景的較少,因此如何把現(xiàn)有的模型和具體的實(shí)際場景如視頻監(jiān)控,刑偵識(shí)別等需求相結(jié)合是一個(gè)非常有價(jià)值的研究方向。
總之,在未來的工作中,在人臉正面化工作的基礎(chǔ)上,重點(diǎn)需要在信息融合,真實(shí)場景應(yīng)用等方面展開研究,因此仍需研究者提出更多有創(chuàng)新性、實(shí)用性的模型和方法。
作者: 寧欣^1,2,3^,南方哲^2,3^,許少輝^2,3^,于麗娜^1^,張麗萍^1,2,3^
單位信息: 1、中國科學(xué)院半導(dǎo)體研究所 高速電路與神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室,2、威富集團(tuán)形象認(rèn)知計(jì)算聯(lián)合實(shí)驗(yàn)室,3、深圳市威富視界有限公司
引用本文為: Ning Xin, Nan Fangzhe, Xu Shaohui, Yua Lina, Liping, Zhang. Multi‐view frontal face image generation: A survey.[J]. Concurrency and Computation: Practice and Experience, 2020:e6147.https://doi.org/10.1002/cpe.6147
聯(lián)系客服