歐陽寧, 馬玉濤, 林樂平
(1.認知無線電與信息處理省部共建教育部重點實驗室(桂林電子科技大學),廣西 桂林 541004; 2.桂林電子科技大學 信息與通信學院,廣西 桂林 541004) (*通信作者電子郵箱lin_leping@163.com)
基于多任務學習的多姿態(tài)人臉重建與識別
歐陽寧1,2, 馬玉濤2, 林樂平1,2*
(1.認知無線電與信息處理省部共建教育部重點實驗室(桂林電子科技大學),廣西 桂林 541004; 2.桂林電子科技大學 信息與通信學院,廣西 桂林 541004) (*通信作者電子郵箱lin_leping@163.com)
針對當前人臉識別中姿態(tài)變化會影響識別性能,以及姿態(tài)恢復過程中臉部局部細節(jié)信息容易丟失的問題,提出一種基于多任務學習的多姿態(tài)人臉重建與識別方法——多任務學習堆疊自編碼器(MtLSAE)。該方法通過運用多任務學習機制,聯合考慮人臉姿態(tài)恢復和臉部局部細節(jié)信息保留這兩個相關的任務,在步進逐層恢復正面人臉姿態(tài)的同時,引入非負約束稀疏自編碼器,使得非負約束稀疏自編碼器能夠學習到人臉部的部分特征;其次在姿態(tài)恢復和局部信息保留兩個任務之間通過共享參數的方式來學習整個網絡框架;最后將重建出來的正臉圖像通過Fisherface進行降維并提取具有判別信息的特征,并用最近鄰分類器來識別。實驗結果表明,MtLSAE方法獲得了較好的姿態(tài)重建質量,保留的局部紋理信息清晰,而且與局部Gabor二值模式(LGBP)、基于視角的主動外觀模型(VAAM)以及堆疊步進自編碼器(SPAE)等經典方法相比,識別率性能得以提升。
多任務學習;姿態(tài)恢復;局部細節(jié)信息;自編碼器;共享參數
人臉識別在證件驗證、刑偵破案、視頻監(jiān)控、入口控制等安全領域有著廣泛的應用,一直是計算機視覺領域中的研究熱點。研究者們將人臉識別方法應用到了可控[1]和非可控環(huán)境[2-3]中,且均取得了重大進展,但是無論在哪一種環(huán)境中,由姿態(tài)變化引起的識別性能降低仍是一項巨大的挑戰(zhàn)。
近年來,為了解決由姿態(tài)變化帶來的識別問題,研究者們主要集中在運用2D和3D方法兩大類。Zhang等[4]提出基于人臉表達的非統(tǒng)計方法,通過連接局部Gabor二進制模式(Local Gabor Binary Pattern, LGBP)映射圖的所有局部區(qū)域中的直方圖來將人臉圖像建模為直方圖序列;Asthana等[5]通過3D姿態(tài)歸一化方法,提出全自動姿態(tài)不變人臉識別方法,該方法利用基于視角的主動外觀模型(View-based Active Appearance Model, VAAM)將3D模型匹配到2D圖像中;Ho等[6]提出一種利用馬爾可夫隨機場(Markov Random Field, MRF)從非正面人臉圖像重建虛擬正面人臉角度的方法。隨著深度學習研究的發(fā)展,基于深度學習的人臉姿態(tài)恢復取得了很大的進步。Zhu等[7]利用深度卷積網絡(Deep Convolutional Network, DCN)在特征提取層中將任意姿態(tài)和光照的人臉圖像編碼成臉部身份保留(Face Identity-Preserving, FIP)特征,然后通過重建層將FIP特征解碼成沒有光照和角度的正臉;而在文獻[8]中,他們又在多層感知器(MultiLayer Perceptron, MLP)的基礎上,提出一個多視角感知(Multi-View Perceptron, MVP)的深度神經網絡。上述兩種方法都獲得了較好的人臉姿態(tài)重建效果。文獻[7]中的DCN含有3個局部連接層和2個池化層,而文獻[8]中的MVP含有3層只有確定神經元以及3層既有確定神經元又有隨機神經元共6層的網絡結構。它們需要訓練和微調較多的權值參數,要求硬件配置具有強大的計算能力。此外,深度自編碼網絡(Deep Auto-Encoder, DAE)[9]是將多姿態(tài)人臉圖像通過多個隱含層直接映射成正臉圖像,而Kan等[10]針對由姿態(tài)差異引起的臉部外表變化比由身份差異引起的變化大的問題,提出了堆疊步進自編碼器(Stacked Progressive Auto-Encoder, SPAE)的人臉重建方法,該方法通過建模側臉和正臉之間復雜的非線性變換,用一種淺層步進自編碼的方式將較大姿態(tài)的人臉圖像逐步映射成較小姿態(tài)的圖像,直至角度為0°。這種方法相比卷積神經網絡和3D等方法方便簡單,訓練參數少,而且取得了很好的正臉重建效果;但是在某種程度上,這種方法會使得恢復出的正臉圖像的局部細節(jié)信息不清晰,導致識別率降低。
針對以上方法中的不足,本文運用多任務學習(Multi-task Learning, MtL)[11-12]方法聯合考慮人臉姿態(tài)恢復和臉部局部信息保留這兩個相互制約但是又相關的任務,在堆疊自編碼器的基礎上,提出了基于多任務學習的多姿態(tài)人臉重建與識別方法,即多任務學習堆疊自編碼器(Multi-task Learning Stacked Auto-Encoder, MtLSAE)。MtLSAE方法在使用堆疊自編碼器步進逐層恢復正面人臉姿態(tài)的同時[10],又引入基于部分特征表達的非負約束稀疏自編碼器[13],來保留輸入數據的局部特征信息,從而提高輸入數據的重建質量。然后通過在編碼過程中共享參數,將姿態(tài)恢復和局部信息保留這兩個互相有著制約關系的任務又聯系到了一起。最后將重建出來的正面人臉圖像通過Fisherface[14]方法進行降維,再用最近鄰分類器進行識別。實驗仿真結果顯示,用本文方法重建出來的人臉圖像不僅消除了姿態(tài)誤差,而且臉部的局部紋理信息更清晰,獲得了較好的姿態(tài)重建質量,并且與其他針對姿態(tài)變化的人臉識別方法相比,識別率有了較大的提升。
1.1 多任務人臉重建框架
圖1 多任務學習結構
1.2 自編碼器
自編碼器(Auto-Encoder,AE)[9]是一種盡可能復現輸入信號的無監(jiān)督神經網絡,由編碼器和解碼器兩部分組成,它使用反向傳播(BackPropagation,BP)算法,使目標值等于輸入值,即:
(1)
編碼過程:AE的編碼過程是將輸入向量x∈Rdx通過編碼函數f(x)映射到隱含層h∈Rdh中,即:
h=f(x)=sf(W1x+b1)
(2)
其中:W1∈Rdh×dx,b1∈Rdh×1,dx和dh分別是輸入數據的維數和隱含層節(jié)點個數。
(3)
其中:W2∈Rdx×dh,b2∈Rdx×1。上述公式中的sf和sg分別是編碼器和解碼器的激活函數,它是sigmoid函數、雙曲正切函數或是rectifier函數[15],本文使用sigmoid激活函數,其表達式如下:
s(t)=sigmoid(t)=(1+e-t)-1
(4)
(5)
其中,N是訓練樣本的數量。這樣,整個AE通過不斷迭代更新參數來減小誤差,從而能夠更好地提取輸入層的特征。
MtLSAE人臉重建方法由預訓練和微調兩部分組成,圖2為整個多任務學習堆疊自編碼器的網絡結構,由三個AE堆疊而成,前一個AE訓練得到的共享隱含層特征h作為后一個AE的輸入,如此堆疊三個AE。整個網絡結構簡單,便于實現。其中圖2(a)是多任務學習人臉重建結構圖,圖2(b)是網絡微調結構圖。
2.1 多任務網絡預訓練學習過程
在預訓練過程中用多任務學習方法來學習姿態(tài)恢復和局部信息保留這兩個任務,通過在編碼過程中共享參數,整個模型能夠得到很好的人臉重建效果。模型總的損失函數如式(6)所示:
J=Jpose+αJlocal
(6)
其中:Jpose表示圖2任務1中堆疊步進自編碼器的損失函數,Jlocal表示圖2任務2中非負約束稀疏自編碼器的損失函數,α用來權衡兩個任務的相對重要程度。
圖2 多任務學習堆疊自編碼器網絡結構
在任務1中,有角度p1~pk,其中pk>pk-1>…>p1>0,與此對稱的角度為-pi(i=1,2,…,k),以p0表示正臉姿態(tài),所以共2k+1種姿態(tài)。將各姿態(tài)的圖像作為第一層AE的輸入,在輸出時候將-pk和pk角度的圖像分別映射到-pk-1和pk-1,其余角度分別映射到本身;接著將第一層AE學習到的隱含層特征h1作為第二層AE的輸入,且在解碼時將所有-pk-1和pk-1角度的圖像再依次映射到-pk-2和pk-2,以此類推,不斷堆疊和映射,使得最后一個自編碼器的輸出圖像角度全為p0,整個過程通過步進的方式逐步消除了角度誤差。每一層AE的重建誤差通過均方誤差來建立,如式(7)所示:
(7)
其中:xlarger表示每一層AE中帶有較大姿態(tài)的人臉圖像的輸入,f(·)表示每一層AE的編碼函數,g(·)則是解碼函數,xsmaller表示每一層AE期望映射的較小姿態(tài)的圖像,N是訓練樣本個數。
在任務2中,主要任務聚集在圖像局部信息的保留。通過非負約束稀疏自編碼器,來約束AE中的權值W,使其為非負。對權值使用了非負約束時,只有部分權值是非零的,因此,權值會變得稀疏,從而輸入數據在編碼過程將被分解為一些稀疏的部分,而在解碼過程又將這些稀疏部分組合到一起來重建輸入數據,整個過程提高了稀疏性和重建質量。第二個任務的本質是重建輸入數據,損失函數如式(8)所示:
Jlocal=JAE+λJwd+βJsparse
(8)
(9)
(10)
s.t.Wjk<0
(11)
(12)
上述的兩個任務通過總的損失函數J來建立,通過最小化誤差函數J,使用梯度下降法來更新網絡參數,公式如下所示:
(13)
(14)
其中,η>0是學習速率。本文使用共軛梯度(ConjugateGradient,CG)優(yōu)化算法來求解總的目標函數式(6)的最小值點。CG通過一系列線搜索來找到誤差函數最小值的方向,自動調整學習速率以得到合適的步長,最終能夠使W、b快速收斂到一個局部最優(yōu)解[18]。
2.2 網絡微調學習過程
網絡微調結構圖如圖2(b)所示,由一個輸入層、三個隱含層以及一個輸出層構成。在預訓練之后,網絡中的權值和偏置向量有了初始值,在微調階段,以各姿態(tài)的人臉圖像作為輸入,以正臉姿態(tài)的圖像作為期望輸出,從而對網絡進行微調,且通過最小化式(15)的損失函數來訓練網絡。
(15)
通過預訓練和微調過程,本文將輸出層重建出來的人臉圖像通過Fisherface對其進行降維,最后用最近鄰分類器來識別。
本文在MultiPIE數據庫[19]上驗證了MtLSAE算法的有效性。該數據庫包含337個人共754 204張不同姿態(tài)、表情、光照的人臉圖片,這些圖片在不同時期采集得到且存儲于四個文件中,每個文件中每個人有15種姿態(tài),在同一個姿態(tài)下又包含20種不同的光照。本文選取MultiPIE數據庫的一個子集,包含-45°~+45°角度范圍內的7種姿態(tài),姿態(tài)間的角度間隔為15°。所選取的人臉圖像均在正常光照條件下成像,并具有正常表情。圖像大小對齊裁剪為40×32,同時選取四個文件中前200個人中的198人共4 046張圖片作為訓練圖片,其余的137個人中選取90人共1 659張圖片用來做測試;在測試集中選取正臉圖像為參考圖像(Galleryimages),其余各姿態(tài)為測試圖像(Probeimages)。
實驗中選取局部Gabor二值模式(LGBP)、深度自編碼器(DAE)、基于視角的主動外觀模型(VAAM)、馬爾可夫隨機場(MRF)、堆疊步進自編碼器(SPAE)進行識別率對比實驗,而且還與SPAE方法進行了細節(jié)圖的對比,以驗證本文方法的性能。實驗中總的損失函數式(6)和非負約束稀疏自編碼器的損失函數式(8)中的參數α、λ、β的選取以及隱含層節(jié)點個數的設置通過交叉驗證[20]的方法來獲得,即為了選擇好的模型,設置不同的參數取值在訓練集上訓練模型,從而得到不同的模型,在測試集上評價各個模型的測試誤差,從而選出性能指標最好的模型。本文經交叉驗證,取經驗值α=0.05,λ=0.001,β=0.01。在自編碼器中,如果隱含層節(jié)點個數過少,網絡不具有良好的學習能力和信息處理能力;反之,節(jié)點個數過多,不僅會大幅度增加網絡結構的復雜性,而且網絡在學習過程中更易陷入局部極小點,從而使網絡的學習速度變得很慢。對此,比較了不同節(jié)點數對網絡性能的影響,如表1所示。
從表1中可以看出,當隱含層節(jié)點數均為2 500時,網絡性能最好,原因在于節(jié)點數過多,學習到的隱含層特征含有過多的冗余信息,會降低網絡的學習效率;反之,由于姿態(tài)恢復是非線性的變換,節(jié)點數太少時,人臉重建圖像又不能得到更好的表達,也會降低網絡性能。所以本文中,隱含層節(jié)點個數設置為2 500。
表1 不同隱含層節(jié)點數對應的平均識別率對比
本文方法的各姿態(tài)重建效果如圖3所示,圖4為本文方法和SPAE方法的細節(jié)效果圖對比,表2為各方法的識別率對比,表3是不同姿態(tài)重建方法的結構相似度(StructuralSIMilarityindex,SSIM)對比。從圖3中可以看出,本文方法重建出的正臉圖像不僅保持了個體內在的形狀和結構特性,而且對于戴眼鏡以及臉部有胡子的人臉圖像原圖,在正臉重建過程中這些信息都得以很好地保留,這說明本文方法對保持局部紋理信息具有一定的作用,在人臉姿態(tài)重建過程中不會丟失太多臉部局部信息。在圖4(a)和圖4(b)中,本文方法重建出的人臉圖像保留的眼鏡邊框更清晰,而且從視覺觀測上來看,圖(a)嘴和人中穴處的胡子與圖(b)的眉梢都要比SPAE的結果清晰,細節(jié)紋理信息保留更全面;同樣在圖4(c)中,雖然SPAE看起來較平滑,但是在嘴唇下面的胡子處丟失了細節(jié)信息,而MtLSAE看起來保留的細節(jié)信息更多;在圖4(d)中,MtLSAE的眉毛明顯要比SPAE的清晰,且眉弓的角度更明顯,視覺效果好。由于本文中的圖像均選取為40×32大小的低分辨率圖像,所以圖4中的對比圖像是在放大的情況下得到的,雖然放大后的圖像整體看起來模糊,但是仍然可以對比出細節(jié)信息。
表2為在MultiPIE數據庫上不同姿態(tài)重建方法識別率對比。從表中可以看出,當姿態(tài)角度很小時,如在±15°,除了LGBP算法以外,各算法的性能均很好,識別率都有很大的提升;當姿態(tài)角度增大時,即在±30°和±45°時,上述各算法的性能都有所下降,雖然本文方法在±45°也下降了一些,但是整體而言仍要高于其他方法,保持了較高的識別率。表3是當姿態(tài)角度為-45°、-30°、+30°、+45°時,MtLSAE方法與SPAE方法的重建正臉圖像與原始正臉圖像SSIM對比結果。從表3中可以看到,MtLSAE算法在+30°與+45°時的SSIM優(yōu)于SPAE方法,-45°時兩種方法的SSIM大致相當??梢娂幢阕藨B(tài)角度偏轉較大時,MtLSAE算法仍可以獲得不錯的重建效果,且重建后的圖像可以保持較好的人臉結構特性;與SPAE方法相比,SSIM稍為占優(yōu)。
圖3 用MtLSAE算法從各姿態(tài)重建出來的正臉圖像與原圖像對比
圖4 SPAE方法與本文MtLSAE方法的細節(jié)對比
Tab. 2 Comparison of recognition rate for different posturesrestructured by different methods on MultiPIE database%
通過上述實驗結果分析,本文MtLSAE算法重建出來的正臉圖像,不僅消除了姿態(tài)變化帶來的誤差,而且在姿態(tài)恢復過程中使得人臉的局部紋理信息更清晰,結構特性保持較好,且性能優(yōu)于對比的其他算法,取得了較好的成果。
表3 不同姿態(tài)重建方法的SSIM對比
本文提出了基于多任務學習堆疊自編碼器的人臉重建與識別方法,該方法運用多任務學習機制,在通過堆疊自編碼器逐層恢復人臉姿態(tài)的同時,學習非負約束稀疏自編碼器,從而使得在每一層網絡中,姿態(tài)變化減小的同時又保留了這一層輸入數據的局部信息。這兩個相關但又相互制約的任務通過在編碼過程中共享參數來學習整個網絡,使得在堆疊自編碼器的頂層重建出來的人臉圖片,不僅消除了姿態(tài)差異,還保留了臉部的局部信息。實驗結果顯示,本文方法取得了很好的人臉重建效果,一定程度上提高了人臉重建質量,達到了預期效果。未來的研究工作將尋求更好的重建方法,同時考慮光照和表情在姿態(tài)重建中的影響,融合多種影響識別性能的因素來重建人臉,以此進一步提高識別率;同時也要考慮參數的優(yōu)化設置,如權重衰減參數和稀疏懲罰因子對重建效果的影響。
)
[1]TANX,TRIGGSB.Enhancedlocaltexturefeaturesetsforfacerecognitionunderdifficultlightingconditions[J].IEEETransactionsonImageProcessing, 2010, 19(6): 1635-1650.
[2]HUANGGB,RAMESHM,BERGT,etal.Labeledfacesinthewild:adatabaseforstudyingfacerecognitioninunconstrainedenvironments[R].Cambridge:UniversityofMassachusetts, 2007: 49.
[3]GüNTHERM,COSTA-PAZOA,DINGC,etal.The2013facerecognitionevaluationinmobileenvironment[C]//ICB2013:Proceedingsofthe2013InternationalConferenceonBiometrics.Piscataway,NJ:IEEE, 2013: 1-7.
[4]ZHANGW,SHANS,GAOW,etal.LocalGaborBinaryPatternHistogramSequence(LGBPHS):anovelnon-statisticalmodelforfacerepresentationandrecognition[C]//ICCV’05:ProceedingsoftheTenthIEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2005, 1: 786-791.
[5]ASTHANAA,MARKSTK,JONESMJ,etal.Fullyautomaticpose-invariantfacerecognitionvia3Dposenormalization[C]//ICCV’11:Proceedingsofthe2011InternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2011: 937-944.
[6]HOHT,CHELLAPPAR.Pose-invariantfacerecognitionusingMarkovrandomfields[J].IEEETransactionsonImageProcessing, 2013, 22(4): 1573-1584.
[7]ZHUZ,LUOP,WANGX,etal.Deeplearningidentity-preservingfacespace[C]//ICCV’13:Proceedingsofthe2013IEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2013: 113-120.
[8]ZHUZ,LUOP,WANGX,etal.Multi-viewperceptron:adeepmodelforlearningfaceidentityandviewrepresentations[C]//NIPS2014:AdvancesinNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2014: 217-225.
[9]BENGIOY.LearningdeeparchitecturesforAI[J].FoundationsandTrendsinMachineLearning, 2009, 2(1): 1-127.
[10]KANM,SHANS,CHANGH,etal.StackedProgressiveAuto-Encoders(SPAE)forfacerecognitionacrossposes[C]//CVPR’14:Proceedingsofthe2014IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2014: 1883-1890.
[11]SHIELDSTJ,AMERMR,EHRLICHM,etal.Action-affectclassificationandmorphingusingmulti-taskrepresentationlearning[J/OL].arXivpreprintarXiv:1603.06554, 2016 〖2016- 03- 21〗.https://arxiv.org/abs/1603.06554.
[12]ARGYRIOUA,EVGENIOUT,PONTILM.Multi-taskfeaturelearning[C]//NIPS2006:AdvancesinNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2007, 19: 41-48.
[13]HOSSEINI-ASLE,ZURADAJM,NASRAOUIO.Deeplearningofpart-basedrepresentationofdatausingsparseautoencoderswithnonnegativityconstraints[J].IEEETransactionsonNeuralNetworksandLearningSystems, 2015, 27(12): 1-13.
[14]BELHUMEURPN,HESPANHAJP,KRIEGMANDJ.Eigenfacesvs.fisherfaces:recognitionusingclassspecificlinearprojection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1997, 19(7): 711-720.
[15]NAIRV,HINTONGE.RectifiedlinearunitsimproverestrictedHoltzmannmachines[C]//ICML-10:Proceedingsofthe27thInternationalConferenceonMachineLearning.Haifa:Omnipress, 2010: 807-814.
[16]GRAVELINESC.Deeplearningviastackedsparseautoencodersforautomatedvoxel-wisebrainparcellationbasedonfunctionalconnectivity[D].Ontario,Canada:TheUniversityofWesternOntario, 2014: 1-76.
[17]LEEH,EKANADHAMC,NGAY.SparsedeepbeliefnetmodelforvisualareaV2 [C]//NIPS2007:AdvancesinNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2008: 873-880.
[18]NGA,NGIAMJ,FOOCY,etal.UFLDLTutorial[EB/OL]. (2013- 04- 07) 〖2016- 08- 26].http://deeplearning.stanford.edu/wiki/index.php/Gradient_checking_and_advanced_optimization.
[19]GROSSR,MATTHEWSI,COHNJ,etal.TheCMUmulti-pose,illumination,andexpression(Multi-PIE)facedatabase,TR- 07- 08 [R].Pittsburgh:CMURoboticsInstitute, 2007.
[20] 李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012:14-15. (LIH.StaticalLearningMethods[M].Beijing:TsinghuaUniversityPress, 2012: 14-15.)
ThisworkispartiallysupportedbytheNaturalScienceFoundationofChina(61362021, 61661017),theNaturalScienceFoundationofGuangxi(2013GXNSFDA019030, 2014GXNSFDA118035),theScientificandTechnologicalInnovationAbilityandConditionConstructionPlanofGuangxi(1598025-21),theScientificandTechnologicalDevelopmentProjectofGuilin(20150103-6).
OUYANG Ning, born in 1972, M. S., professor. His research interests include digital image processing, intelligent information processing.
MA Yutao, born in 1991, M. S. candidate. Her research interests include face recognition, deep learning.
LIN Leping, born in 1980, Ph. D. Her research interests include pattern recognition, intelligent information processing, image signal processing.
Multi-pose face reconstruction and recognition based on multi-task learning
OUYANG Ning1,2, MA Yutao2, LIN Leping1,2*
(1.KeyLaboratoryofCognitiveRadioandInformationProcessing,MinistryofEducation(GuilinUniversityofElectronicTechnology),GuilinGuangxi541004,China; 2.SchoolofInformationandCommunication,GuilinUniversityofElectronicTechnology,GuilinGuangxi541004,China)
To circumvent the influence of pose variance on face recognition performance and considerable probability of losing the facial local detail information in the process of pose recovery, a multi-pose face reconstruction and recognition method based on multi-task learning was proposed, namely Multi-task Learning Stacked Auto-encoder (MtLSAE). Considering the correlation between pose recovery and retaining local detail information, multi-task learning mechanism was used and sparse auto-encoder with non-negativity constraints was introduced by MtLSAE to learn part features of the face when recovering frontal images using step-wise approach. And then the whole net framework was learned by sharing parameters between above two related tasks. Finally, Fisherface was used for dimensionality reduction and extracting discriminative features of reconstructed positive face image, and the nearest neighbor classifier was used for recognition. The experimental results demonstrate that MtLSAE achieves good pose reconstruction quality and makes facial local texture information clear; on the other hand, it also achieves higher recognition rate than some classical methods such as Local Gabor Binary Pattern(LGBP), View-Based Active Appearance (VAAM) and Stacked Progressive Auto-encoder (SPAE).
multi-task learning; pose recovery; local detail information; auto-encoder; sharing parameter
2016- 08- 01;
2016- 09- 07。
國家自然科學基金資助項目(61362021,61661017); 廣西自然科學基金資助項目(2013GXNSFDA019030,2014GXNSFDA118035);廣西科技創(chuàng)新能力與條件建設計劃項目(桂科能1598025- 21); 桂林科技開發(fā)項目(20150103- 6)。
歐陽寧(1972—),男,湖南寧遠人,教授,碩士,主要研究方向:數字圖像處理、智能信息處理; 馬玉濤(1991—),女,內蒙古烏蘭察布人,碩士研究生,主要研究方向:人臉識別、深度學習; 林樂平(1980—),女,廣西桂平人,博士,主要研究方向:模式識別、智能信息處理、圖像信號處理。
1001- 9081(2017)03- 0896- 05
10.11772/j.issn.1001- 9081.2017.03.896
TP391.3
A