亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深層自編碼器的單幅人臉圖像超分辨率技術(shù)

2019-02-13 01:36:06朱樸懷朱航霖張劍

計(jì)算機(jī)時(shí)代 2019年1期

朱樸懷朱航霖張劍

摘? 要：在視頻監(jiān)控中，常常需要根據(jù)低分辨率圖像辨識(shí)身份，此時(shí)人臉圖像超分辨率技術(shù)將起到重要作用。為此提出一種基于深層自編碼器的深度學(xué)習(xí)方法，用基于深層自編碼器的深度前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高-低圖像塊間的映射關(guān)系，結(jié)合分塊超分辨率和基于鄰域嵌入的殘差增強(qiáng)得到最終結(jié)果。該算法得到的高分辨率圖像與真實(shí)圖像整體上較為相似，并具有一定細(xì)節(jié)信息。該技術(shù)在數(shù)字娛樂(lè)、安全監(jiān)控等領(lǐng)域有潛在應(yīng)用價(jià)值。

關(guān)鍵詞：人臉超分辨率; 自編碼器; 深度學(xué)習(xí); 前饋神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào)：TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼：A? ? ?文章編號(hào)：1006-8228（2019）01-67-04

Abstract： In video surveillance， identifying a person with low-resolution face is a common problem， and face super-resolution plays important role in this context. This paper proposes an auto-encoder-based deep learning method to address this problem in which multiple deep feed forward neural network based on auto-encoders are trained to learn the mapping from the low-resolution image blocks to their high-resolution counterparts. Then the high-resolution image can be obtained by using both block-wise super-resolution and neighbor embedding-based residue compensation. Images produced by this method share global similarity with the ground truth high-resolution faces and contain obvious local details. This technique has potential application value in digital entertainment， security monitoring and other fields.

Key words： face super-resolution; auto-encoder; deep learning; feed forward neural network

0 引言

在視頻監(jiān)控中，攝像頭拍攝的人臉圖像往往具有較低分辨率，對(duì)身份識(shí)別產(chǎn)生了不利影像。因此，研究基于單幅圖像的人臉超分辨率（Face Super-Resolution，F(xiàn)SR）技術(shù)將具有重要意義。

基于單幅圖像的FSR技術(shù)主要依靠機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)。核心思想是利用機(jī)器學(xué)習(xí)方法得到高-低分辨率樣本圖像之間的映射關(guān)系，基于此對(duì)給定的低分辨率人臉圖像進(jìn)行超分辨率。Liu等人利用線性子空間分析建立映射，實(shí)現(xiàn)全局超分辨率，并利用馬爾可夫隨機(jī)域?qū)D像的殘差信息進(jìn)行建模，從而增強(qiáng)重建圖像的局部細(xì)節(jié)[1]。Zhuang等人利用流形學(xué)習(xí)實(shí)現(xiàn)全局超分辨率，采用局部鄰域嵌入技術(shù)增強(qiáng)圖像的局部細(xì)節(jié)信息[2]。Li等人采用非參數(shù)化貝葉斯方法對(duì)低分辨率圖像聚類，再用回歸建立低分辨率類簇到高分辨率圖像的映射[3]。Liu等人用SIFT流方法計(jì)算測(cè)試圖像和樣本集中低分辨率圖像的對(duì)應(yīng)關(guān)系，在貝葉斯框架下利用高分辨率樣本圖像得到超分辨率后的圖像[4]。另外有人使用張量分析計(jì)算低分辨率圖像的重建系數(shù)，并用該系數(shù)組合高分辨率樣本圖像得到超分辨率結(jié)果[5]。

近年來(lái)，由于神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域中的巨大成就，不少研究者利用深度學(xué)習(xí)解決FSR問(wèn)題。Zhou提出一個(gè)雙通道的卷積神經(jīng)網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)圖像特征提取和FSR[6]。最近又有人使用基于小波的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)多尺度FSR[7]。盡管卷積神經(jīng)網(wǎng)絡(luò)取得了很好的結(jié)果，但網(wǎng)絡(luò)的優(yōu)化異常復(fù)雜，過(guò)多的參數(shù)使訓(xùn)練過(guò)程不易逼近全局最優(yōu)解。相比而言，深層自編碼器（Auto-encoder）構(gòu)造簡(jiǎn)單，優(yōu)化目標(biāo)明確，并且可以無(wú)監(jiān)督的方式提取特征[8]。鑒于這些特點(diǎn)，Auto-encoder獲得一批研究者的關(guān)注。Zhang利用Auto-encoder進(jìn)行了三維人臉的重構(gòu)[9]，Hong利用Auto-encoder實(shí)現(xiàn)了三維人體的姿態(tài)估算[10]。

本文提出一種基于深度Auto-encoder的FSR方法。在訓(xùn)練中，把高-低分辨率樣本圖像對(duì)拆分成塊，為每一對(duì)高-低分辨率圖像塊訓(xùn)練多層Auto-encoder，用其參數(shù)初始化深度前饋神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)基于塊的超分辨率。在此基礎(chǔ)上構(gòu)造低分辨率塊對(duì)應(yīng)的高分辨率殘差塊。在測(cè)試中，把低分辨率圖像劃分成塊，利用每一塊對(duì)應(yīng)的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行基于塊的超分辨率。利用鄰域嵌入方法基于樣本構(gòu)造高分辨率殘差塊，以增強(qiáng)人臉的局部細(xì)節(jié)。

1 基于Auto-encoder的人臉圖像超分辨率

1.1 訓(xùn)練

首先，將成對(duì)的高-低分辨率樣本圖像分塊，用同一位置上的成對(duì)圖像塊訓(xùn)練一個(gè)基于Auto-encoder的深度前饋神經(jīng)網(wǎng)絡(luò)，能根據(jù)輸入的低分辨率圖像塊得到高分辨率圖像塊，過(guò)程如圖1所示。

為簡(jiǎn)單起見，圖1中圖像被分為4塊，實(shí)際執(zhí)行中分塊數(shù)遠(yuǎn)大于4。用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)為每個(gè)低分辨率圖像塊生成相應(yīng)的高分辨率圖像塊，并計(jì)算與真實(shí)高分辨率樣本塊之間的殘差，目的是為圖像細(xì)節(jié)增強(qiáng)做準(zhǔn)備，過(guò)程如圖2所示。

1.1.1 Auto-encoder

一個(gè)Auto-encoder是一個(gè)非線性激活函數(shù)和一個(gè)線性變換的復(fù)合函數(shù)，能從原始數(shù)據(jù)中提取特征，其目標(biāo)是根據(jù)這個(gè)特征盡可能好地重構(gòu)原始數(shù)據(jù)。Auto-encoder可以用兩層神經(jīng)網(wǎng)絡(luò)（一層全連接層和一層激活層）實(shí)現(xiàn)。目標(biāo)函數(shù)是：

其中xi是一個(gè)樣本，W，b和c是Auto-encoder的參數(shù)，是根據(jù)原始數(shù)據(jù)重構(gòu)的數(shù)據(jù)，h_i是隱層特征，g（）是激活函數(shù)：

實(shí)際應(yīng)用中，常把若干Auto-encoder堆疊在一起形成一個(gè)深層結(jié)構(gòu)，使低層Auto-encoder的輸出成為相鄰的高一層Auto-encoder的輸入。該深層結(jié)構(gòu)可用一個(gè)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。

1.1.2 位置相關(guān)的端到端深度神經(jīng)網(wǎng)絡(luò)

針對(duì)每一位置上的高-低分辨率樣本圖像塊，利用兩個(gè)多層Auto-encoder分別提取高-低分辨率圖像塊特征，用其權(quán)重分別初始化兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)，其中一個(gè)前饋神經(jīng)網(wǎng)絡(luò)連接低分辨率圖像塊和低分辨率特征，另一個(gè)前饋神經(jīng)網(wǎng)絡(luò)連接高分辨率特征和高分辨率圖像塊。用一個(gè)全連接層連接低分辨率特征和高分辨率特征，從而構(gòu)造了一個(gè)端到端的前饋深度神經(jīng)網(wǎng)絡(luò)，能根據(jù)給定的低分辨率圖像塊直接輸出高分辨率圖像塊。示意圖如圖3所示。

假設(shè)用來(lái)提取低分辨率圖像的Auto-encoder共有L1層，用來(lái)提取高分辨率圖像特征的Auto-encoder共有L2層，則上述深度前饋神經(jīng)網(wǎng)絡(luò)包含L1+L2+1層。為簡(jiǎn)單起見，該神經(jīng)網(wǎng)絡(luò)每一層都用全連接層實(shí)現(xiàn)。其前L1層參數(shù)用低分辨率圖像對(duì)應(yīng)的Auto-encoder初始化，第L1+1層參數(shù)隨機(jī)初始化，第L1+2層直到第L1+L2+1層參數(shù)用高分辨率圖像對(duì)應(yīng)的Auto-encoder初始化。

1.2 測(cè)試

給定一幅低分辨率人臉圖像，首先將其按照訓(xùn)練中的方式拆分成若干同樣規(guī)格的圖像塊，把每一個(gè)圖像塊輸入相應(yīng)位置上的深度前饋神經(jīng)網(wǎng)絡(luò)，得到相應(yīng)的高分辨率圖像塊。把所有的高分辨率圖像塊按位置排列在一起，得到比較光滑的高分辨率人臉圖像。排列圖像時(shí)，若相鄰圖像塊有重疊，則對(duì)像素取平均作為輸出。

對(duì)于每個(gè)低分辨率圖像塊，在相應(yīng)位置上的樣本圖像塊中進(jìn)行K近鄰搜索，找到歐氏距離最近的K個(gè)圖像塊，計(jì)算由K個(gè)圖像塊線性重構(gòu)當(dāng)前低分辨率圖像塊的組合系數(shù)。用這些系數(shù)組合與K近鄰塊對(duì)應(yīng)的高分辨率殘差塊，得到當(dāng)前低分辨率圖像塊對(duì)應(yīng)的高分辨率殘差塊。按類似的方法把所有高分辨率殘差塊拼接起來(lái)形成高分辨率殘差圖像。假設(shè)I為輸入的低分辨率圖像塊，是相應(yīng)位置上的K個(gè)近鄰，則

其中{w1，w2，…，wK}是組合系數(shù)。

將光滑高分辨率圖像和高分辨率殘差圖像相加，得到最終的人臉超分辨率結(jié)果。整個(gè)測(cè)試流程如圖4。

2 實(shí)驗(yàn)結(jié)果

2.1 數(shù)據(jù)集

本文在韓國(guó)PF01人臉數(shù)據(jù)庫(kù)上測(cè)試。該數(shù)據(jù)庫(kù)包含103人的1，751張不同光照、姿態(tài)和表情的面部圖像。為每個(gè)人挑出一張正面、均勻光照且無(wú)表情的圖像，裁剪得到152*200大小的人臉面部區(qū)域。對(duì)圖像下采樣獲得大小為38*50的小圖，構(gòu)造包含103個(gè)人的高-低分辨率成對(duì)圖像的樣本集。

2.2 實(shí)現(xiàn)細(xì)節(jié)

對(duì)高-低分辨率圖像分塊。兩種分辨率的圖像均分為190塊，高分辨率圖像塊尺寸為8×20像素，低分辨率圖像塊尺寸為2×5像素。將8×20像素的圖像拉伸為160維向量，2×5像素的圖像拉伸為10維向量。所有高分辨率圖像塊形成一個(gè)160×103的矩陣，低分辨率圖像塊形成一個(gè)10×103的矩陣。用三層Auto-encoder提取高分辨率圖像塊的特征，連同輸入層每層隱含神經(jīng)元個(gè)數(shù)分別是 [160 100 50 10]，用兩層Auto-encoder提取低分辨率圖像塊的特征，連同輸入層每層隱含神經(jīng)元個(gè)數(shù)分別是[10 20 10]。

2.3 結(jié)果與結(jié)論

在103對(duì)圖像中隨機(jī)選擇80對(duì)作為訓(xùn)練集，剩余23對(duì)作為測(cè)試集。圖5顯示了在測(cè)試數(shù)據(jù)集中隨機(jī)選擇的6幅低分辨率圖像和相應(yīng)的高分辨率圖像。其中左起第一列為雙線性插值方法的結(jié)果，第二列為本文方法的結(jié)果，第三列為真實(shí)高分辨率圖像。從圖5的結(jié)果不難發(fā)現(xiàn)，本文方法的結(jié)果在整體輪廓上比雙線性插值的結(jié)果更接近真實(shí)圖像，同時(shí)具有較明顯的局部細(xì)節(jié)信息。

3 結(jié)束語(yǔ)

本文提出一種基于Auto-encoder的端到端前饋深度神經(jīng)網(wǎng)絡(luò)，實(shí)現(xiàn)了基于圖像塊劃分的人臉超分辨率。同時(shí)，利用鄰域嵌入方法為高分辨率圖像補(bǔ)充局部細(xì)節(jié)信息。實(shí)驗(yàn)表明恢復(fù)后的圖像基本能表現(xiàn)真實(shí)高分辨率圖像的總體特征，同時(shí)具有一定的細(xì)節(jié)信息。

本文提出的基于圖像塊的人臉超分辨率框架具有普適性。Auto-encoder簡(jiǎn)單易行，但在特征的語(yǔ)義表達(dá)方面可能會(huì)有欠缺，將來(lái)擬采用其他深度神經(jīng)網(wǎng)絡(luò)（卷積神經(jīng)網(wǎng)絡(luò)）實(shí)現(xiàn)這一框架。同時(shí)，殘差圖像的生成也擬利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。

參考文獻(xiàn)（References）：

[1] C. Liu， H. Shum， C. Zhang. A two-step approach to hallucinating faces： global parametric model and local nonparametric model [A]. 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition [C]. Kauai， Hawaii： IEEE Computer Society，2001：192-198

[2] Y. Zhuang， J. Zhang， F. Wu. Hallucinating faces： LPH super-resolution and neighbor reconstruction for residue compensation[J].Pattern Recognition，2007.40（11）：3178-3194

[3] M. Li， D. Xu， R. Yi， X. He. Face hallucination based on nonparametric Bayesian learning[A]. 2015 IEEE International Conference on Image Processing[C]. Québec： IEEE Computer Society，2015：986-990

[4] M. F. Tappen， C. Liu. A Bayesian approach to alignment-based image hallucination[A].2012 European Conference on Computer Vision[C]. Florence： Springer，2012：23-249

[5] W. Liu， D. Lin， X. Tang. Hallucinating faces： tensor patch super-resolution and coupled residue compensation[A]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. Boston： IEEE Computer Society， 2005：478-484

[6] E. Zhou， H. Fan， Z. Cao， Y. Jiang， Q. Yin. Learning face hallucination in the wild [A]. Twenty-Ninth AAAI Conference on Artificial Intelligence[C]. Hyatt Regency， Austin： AAAI， 2015：3871-3877

[7] H. Huang， R. He， Z. Sun， T. Tan. Wavelet-SRNet： A Wavelet-based CNN for multi-scale face super resolution [A]. 2018 IEEE International Conference on Computer Vision [C]. Venice： IEEE Computer Society，2018：1698-1706

[8] G. E. Hinton， R. R. Salakhutdinov. Reducing the dimen-sionality of data with neural networks[J]. Science，2006.313（5786）：504-507

[9] J. Zhang， K. Li， Y. Liang， N. Li. Learning 3D faces from?2D images via stacked contractive Autoencoder[J].Neurocomputing，2017.257：67-78

[10] J. Yu， C. Hong， Y. Rui， D. Tao. Multitask Autoencoder?model for recovering human poses. IEEE Transactions on Industrial Electronics[J]. 2018.65（6）：5060-5068