黃克斌,胡瑞敏,王 鋒,韓 鎮(zhèn),盧 濤,江俊君
(1.黃岡師范學(xué)院數(shù)字媒體技術(shù)系,湖北黃岡438000;2.武漢大學(xué)國(guó)家多媒體軟件工程技術(shù)研究中心,湖北武漢430072)
視頻監(jiān)控具有實(shí)時(shí)、可視、可記錄及信息量大等特點(diǎn),在安防、交通、生產(chǎn)管理等各應(yīng)用領(lǐng)域發(fā)揮重大作用。監(jiān)控視頻中的人臉圖像是辨識(shí)關(guān)鍵人物最直接的線索。但是在實(shí)際監(jiān)控應(yīng)用中,由于攝像頭和人臉距離通常較遠(yuǎn),視頻監(jiān)控系統(tǒng)的帶寬和存儲(chǔ)資源有限等原因,往往導(dǎo)致監(jiān)控視頻中人臉圖像的分辨率較低,難以達(dá)到辨識(shí)要求。人臉超分辨率技術(shù)也叫做人臉幻象技術(shù)(Face Hallucination)[1],它能夠在不改變硬件環(huán)境的情況下,從一幅或多幅低分辨率輸入人臉圖像中,重建出一幅高分辨率的人臉圖像,達(dá)到改善人臉圖像的清晰度的目的。該技術(shù)在安防監(jiān)控、計(jì)算機(jī)視覺等領(lǐng)域中具有重要的應(yīng)用。
自Baker和Ce Liu等人提出“人臉幻象”的概念之后,人臉超分辨率的研究就受到了廣泛的關(guān)注,出現(xiàn)了一系列的人臉超分辨率算法,如基于子空間的方法[2-4]、基于流形的方法[5-6]和基于稀疏表示的方法[7-9]等。本研究中主要關(guān)注基于稀疏表示的人臉超分辨率方法。
稀疏表示(Sparse Representation)被認(rèn)為是一種新型、有效而且魯棒的特征表示方式,成功地應(yīng)用于一系列實(shí)際問題中,是目前最熱門的研究課題之一[10]。Yang等首次將壓縮感知的思想應(yīng)用到超分辨率領(lǐng)域,提出了基于稀疏表示的自然圖像超分辨率算法[7]。該方法充分利用稀疏表示符合人眼感知特性的優(yōu)勢(shì),自動(dòng)選取近鄰個(gè)數(shù),避免了人為指定近鄰塊個(gè)數(shù)會(huì)導(dǎo)致合成信息不足或過(guò)擬合的弊端,取得了較好的超分辨率效果。在Yang的基礎(chǔ)上,Chang等提出基于稀疏表示和雙字典學(xué)習(xí)的人臉?biāo)孛鑸D像合成方法[8],Jung等提出了基于稀疏表示和原始樣本塊字典的人臉超分辨率算法[9]。
盡管基于稀疏表示的人臉超分辨率方法比其他方法取得了更好的效果,但是,已有的基于稀疏表示的方法較少考慮樣本數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu),這影響了冗余字典的表達(dá)能力。最近研究表明,保持?jǐn)?shù)據(jù)內(nèi)部的局部拓?fù)浣Y(jié)構(gòu)能有效改善稀疏編碼的效果[11-13]。因此,本文提出了一種基于圖約束字典和加權(quán)稀疏表示的人臉超分辨率算法,算法包括訓(xùn)練和重建兩個(gè)階段。在訓(xùn)練階段,三方面措施被用于提高冗余字典的表達(dá)能力:一是利用人臉的位置信息對(duì)樣本進(jìn)行聚類,保持人臉塊的全局信息;二是利用圖約束稀疏編碼進(jìn)行字典的學(xué)習(xí),保持人臉塊的局部信息;三是利用聯(lián)合訓(xùn)練高低分辨率冗余字典,保持高低分辨率字典對(duì)在內(nèi)部流形結(jié)構(gòu)上的一致性。在重建階段,加權(quán)稀疏編碼均值被用于消除超分辨率重建過(guò)程中的稀疏編碼噪聲,以提高高分辨率人臉圖像重建系數(shù)的精度。實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
譜圖理論[14]和流形學(xué)習(xí)理論[13]的研究表明,散布點(diǎn)的局部幾何結(jié)構(gòu)可以通過(guò)近鄰圖進(jìn)行有效地建模。這里簡(jiǎn)要介紹近鄰圖的構(gòu)建過(guò)程。
假設(shè) X= [x1,x2,…,xN]∈ RM×Q是一個(gè)數(shù)據(jù)集,M表示數(shù)據(jù)維數(shù),Q表示數(shù)據(jù)集中元素的個(gè)數(shù)?;跀?shù)據(jù)集X構(gòu)建的圖表示為G=(V,W),其中,V=Q表示該圖中頂點(diǎn)的個(gè)數(shù),每個(gè)數(shù)據(jù)點(diǎn)作為圖的一個(gè)頂點(diǎn)。每?jī)蓚€(gè)頂點(diǎn)之間用無(wú)向邊 wi,j連接,wi,j表示頂點(diǎn) i和頂點(diǎn) j之間的相似性,則數(shù)據(jù)集 X 的權(quán)重矩陣表示為 W= [wi,j]Q×Q。計(jì)算頂點(diǎn)之間權(quán)重的方法主要有三種,分別是:0-1權(quán)重法、熱核權(quán)重法和點(diǎn)積權(quán)重法[12]。由于熱核權(quán)重法更適合于圖像處理,這里采用熱核權(quán)重法計(jì)算頂點(diǎn)之間的相似性權(quán)重。歐幾里德距離空間的熱核權(quán)重表示為
式中:h為常數(shù),h>0,其值取決于期望的稀疏編碼系數(shù)權(quán)重的分布幅度,期望的稀疏編碼系數(shù)權(quán)重的分布幅度大,則h取值大;ci為歸一化。權(quán)重矩陣W表示為
式中:Nk(xi)表示數(shù)據(jù)點(diǎn)xi的K近鄰數(shù)據(jù)集合。權(quán)重矩陣W包含了整個(gè)數(shù)據(jù)空間的幾何結(jié)構(gòu)信息?;谝陨蠄D模型,將每個(gè)人臉圖像塊作為一個(gè)數(shù)據(jù)點(diǎn),從而可以實(shí)現(xiàn)訓(xùn)練樣本庫(kù)的幾何圖的構(gòu)建。
假設(shè) X= [x1,x2,…,xN]∈ RM×Q表示原始數(shù)據(jù)矩陣,D= [d1,d2,…,dL]∈ RM×L表示字典矩陣,S= [s1,s2,…,sN]∈RL×Q表示數(shù)據(jù)集X在字典D上的稀疏編碼系數(shù)矩陣。對(duì)數(shù)據(jù)集X進(jìn)行稀疏編碼的目的在于找到一個(gè)字典矩陣D和一個(gè)稀疏系數(shù)矩陣S,使得二者的乘積能夠盡可能地逼近原始數(shù)據(jù)矩陣。稀疏編碼的目標(biāo)函數(shù)表示為
式中:第一項(xiàng)為逼近誤差項(xiàng);第二項(xiàng)為稀疏性約束項(xiàng);λ為正則化參數(shù),用于平衡逼近誤差和稀疏性之間的權(quán)重。
為了實(shí)現(xiàn)原始數(shù)據(jù)集內(nèi)部的幾何圖結(jié)構(gòu)向稀疏編碼系數(shù)空間的映射,通常假設(shè)在歐幾里德距離空間近鄰的兩個(gè)原始數(shù)據(jù)點(diǎn)xi和xj,在稀疏編碼系數(shù)空間的表示系數(shù)si和sj也是近鄰的。該假設(shè)得到了大量實(shí)踐的驗(yàn)證[11-13]。因此,K近鄰圖約束可以表示為
式中:I為單元矩陣;L=(I-W)(I-W)T。將K近鄰圖約束結(jié)合到原始的稀疏編碼框架中,新的優(yōu)化問題可以表示為
式中:常數(shù)β用于平衡K近鄰圖約束項(xiàng)在優(yōu)化過(guò)程中的比重。式(5)同時(shí)擁有兩個(gè)變量D和S,是一個(gè)非凸優(yōu)化問題,無(wú)法正常求解。對(duì)上式通常采用迭代方法求解,即先固定一個(gè)變量,求解另一個(gè)變量。
由于人臉較之自然圖像更具有規(guī)則性。人臉圖像分塊的位置,如眼睛、鼻子、嘴等,包含了人臉圖像重建的先驗(yàn)信息。因此,在構(gòu)建學(xué)習(xí)字典的過(guò)程中,首先根據(jù)位置信息,對(duì)人臉圖像分塊進(jìn)行聚類。同一位置上的分塊作為一個(gè)訓(xùn)練集。
假設(shè) I={I}Q= [I,I,…,I]∈ RM×Q和HH,qq=1H,1H,2H,Q分別表示對(duì)應(yīng)的高低分辨率訓(xùn)練圖像集矩陣,矩陣的列數(shù)Q表示訓(xùn)練圖像數(shù)量,矩陣的行數(shù)M、N分別表示高低分辨率圖像向量的維數(shù),其中M=s2N,s表示下采樣的倍數(shù)。訓(xùn)練集中的每幅圖像分割成P個(gè)小塊。根據(jù)人臉圖像的位置信息,所有的訓(xùn)練塊可以分為P個(gè)集合。高分辨率訓(xùn)練塊集合表示為{I1}Q,{I2}Q,…,{IP}Q,低分辨率訓(xùn)練塊集合表示為{I1}Q,{I2}Q,…,{IP}Q。由于L,qq=1L,qq=1L,qq=1人臉圖像事先進(jìn)行了對(duì)齊操作,相同位置塊集合能提供更多的重建信息。
對(duì)于給定的位置P,對(duì)應(yīng)的高、低分辨率塊集合IpH={IpH,q|1≤q≤Q}和IpL={IpL,q|1≤q≤Q}被用于訓(xùn)練高、低分辨率字典DpH和DpL。基于圖約束位置塊的高、低分辨率字典分別可以通過(guò)式(6)、式(7)得到
為了保持高、低分辨率字典DpH和DpL中高、低分辨率圖像塊之間的映射關(guān)系,這里采用聯(lián)合字典學(xué)習(xí)方法進(jìn)行字典對(duì)的學(xué)習(xí)。通過(guò)聯(lián)合字典學(xué)習(xí),只需一次稀疏分解,可以同時(shí)訓(xùn)練得到高、低分辨率兩個(gè)字典,并且兩個(gè)字典共享相同的稀疏編碼系數(shù)。圖約束聯(lián)合字典對(duì)學(xué)習(xí)的目標(biāo)函數(shù)如下
因此,高、低分辨率訓(xùn)練樣本集可以表示為IpH=DpHS和IpL=DpLS。采用圖約束位置塊聯(lián)合字典對(duì)訓(xùn)練,保證了SH和SL的一致性。
在圖像超分辨率場(chǎng)景下,通常假設(shè)高低分辨率圖像塊擁有同樣的稀疏編碼系數(shù)。因此,低分辨率圖像塊的稀疏編碼系數(shù)可以被映射到高分辨率圖像塊字典上,從而生成高分辨率圖像塊,即
然而,實(shí)際超分辨率應(yīng)用中,高、低分辨率圖像塊的稀疏編碼系數(shù)并不完全一致,之間存在稀疏編碼噪聲σS=SH-SL。通過(guò)抑制稀疏編碼噪聲,可以提高重建過(guò)程中,高、低分辨率編碼系數(shù)的一致性,即可提高超分辨率圖像重建的精確度。因此,在求解輸入低分辨率圖像塊的稀疏編碼系數(shù)時(shí),可以加入稀疏編碼噪聲約束以提高重建系數(shù)求解的精確度。優(yōu)化重建系數(shù)求解的目標(biāo)函數(shù)為
式中:γ是正則化常量;lp范數(shù)用于表示SH和SL之間的距離。由于SH是未知的,因此,稀疏編碼噪聲無(wú)法直接計(jì)算。文獻(xiàn)[9]提出了利用SH的稀疏編碼均值E[SHN(k)]表示SH的思路。假設(shè)稀疏編碼噪聲近似于零均值隨機(jī)變量,那么高、低分辨率圖像塊的稀疏編碼均值非常接近,即。式(10)可表示為
這里采用加權(quán)的K近鄰塊的稀疏編碼均值來(lái)表示E[SLN(p)],距離越遠(yuǎn)的近鄰塊,權(quán)重越小,反之,權(quán)值越大。輸入圖像塊的K近鄰稀疏編碼均值,采用以下公式計(jì)算獲得
式中:Sp,k是第 k個(gè)近鄰塊的稀疏編碼系數(shù);ωp,k是第 k個(gè)近鄰塊的稀疏編碼系數(shù)的權(quán)重;Np表示圖像塊p的K近鄰塊組成的集合,k∈Np。
本算法主要包括字典學(xué)習(xí)和高分辨率圖像重建兩個(gè)階段。前者是離線完成,得到一系列高低分辨率人臉圖像塊冗余字典對(duì);后者是在線完成,通過(guò)將重建高分辨率圖像塊進(jìn)行交疊融合,得到最終的高分辨率人臉圖像。整個(gè)算法過(guò)程表示如下。
1)離線訓(xùn)練階段
(1)輸入訓(xùn)練集IH,IL,正則化參數(shù)λ,β。
(2)構(gòu)建相似矩陣W,矩陣中的元素定義如下
(3)計(jì)算矩陣
(4)聯(lián)合訓(xùn)練過(guò)完備字典對(duì)
(5)重復(fù)(2)~(4),獲取所有位置的字典對(duì)序列。
(6)輸出高、低分辨率字典對(duì)序列
2)在線重建階段
(1)輸入高、低分辨率字典對(duì)序列
測(cè)試圖像IT,正則化參數(shù)λ,γ。
(2)For each LR patch IpTfrom IT
計(jì)算輸入圖像塊IpT的K近鄰稀疏編碼均值;計(jì)算輸入圖像塊IpT的稀疏編碼系數(shù);生成高分辨率圖像塊I*pT=DpHSp。
(3)End for。
(4)交疊生成的高分辨率圖像塊,得到最終高分辨圖像塊I*T。
(5)輸出高分辨率圖像I*T。
采用MATLAB 7.8(R2009a)作為仿真實(shí)驗(yàn)平臺(tái)在PC 機(jī)上(雙核3.20 GHz CPU,4 Gbyte RAM ,Windows7 操作系統(tǒng))實(shí)現(xiàn)了提出的算法。實(shí)驗(yàn)中,采用AR[15]人臉數(shù)據(jù)庫(kù)作為訓(xùn)練和測(cè)試圖像。AR數(shù)據(jù)庫(kù)有4 000多張正面人臉圖像組成,分別來(lái)自126個(gè)人,其中,男性70人、女性56人,每個(gè)人獲取26張不同表情、不同照度和不同遮擋程度的圖像。這些圖片分兩個(gè)時(shí)間段分別獲取。本實(shí)驗(yàn)中,選取AR數(shù)據(jù)庫(kù)中同一時(shí)間獲取的100人(其中,男女各50人)不同表情、不同照度情況下的正面圖像用于實(shí)驗(yàn),每人選取7張圖像。所有的人臉圖像均被裁剪為120×160像素大小,選取12個(gè)特征點(diǎn)進(jìn)行仿射變換對(duì)齊。部分對(duì)齊和歸一化處理后的AR人臉圖像如圖1所示。
圖1 部分AR人臉數(shù)據(jù)庫(kù)樣本圖像
將對(duì)齊后的人臉圖像,進(jìn)行降質(zhì)處理,得到與高分辨率圖像對(duì)應(yīng)的低分辨率人臉圖像。降質(zhì)過(guò)程如下
式中:X,y分別表示高、低分辨率人臉圖像;B表示模糊核為8×8的平均模糊操作;U表示4倍下采樣操作;n表示均方差為10的高斯加性噪聲。在高、低分辨率人臉圖像對(duì)中,隨機(jī)選取90個(gè)人的630對(duì)人臉圖像作為訓(xùn)練樣本,剩下的10個(gè)人的70對(duì)人臉圖像作為測(cè)試圖像。圖像分塊的大小為8×8像素,相鄰塊交疊32像素。
為了驗(yàn)證算法的有效性,將本算法重建圖像的主客觀質(zhì)量,與雙三次插值算法、Jung提出的算法[9]進(jìn)行比較。Jung方法中的正則化參數(shù)設(shè)置為0.05。本文提出方法中 λ =10,β =0.03,γ =0.05,K=5 。
圖2為主觀質(zhì)量比較結(jié)果。從圖中可以看出,雙三次插值算法重建的結(jié)果非常平滑,但是不夠清晰,也難以辨識(shí)。這主要是由于雙三次插值算法在放大重建低分辨率圖像過(guò)程中,并沒有增加任何新的信息。Jung提出的方法都是基于塊位置的人臉超分辨率方法,較之雙三次插值方法,結(jié)果圖像的清晰度有了明顯的改進(jìn)。但是,Jung提出的方法在重建圖像的輪廓邊緣都有明顯的鬼影效應(yīng),重建人臉圖像有或輕或重的眼鏡假象。較之參考算法,本文提出的基于圖約束稀疏編碼的人臉超分辨率方法明顯地改善了重建結(jié)果圖像的清晰度,也減少了重建帶來(lái)的人工效應(yīng)和鬼影效果。本文方法取得了比參考算法更好的主觀質(zhì)量。
圖2 主觀質(zhì)量
表1為客觀質(zhì)量比較結(jié)果。較之參照算法,本文提出的方法重建的結(jié)果圖像在客觀質(zhì)量方面具有較高的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)(PSNR和SSIM值均是越大越好),這表明本文方法重建的結(jié)果圖像更接近于原始的高分辨率圖像。
表1 客觀質(zhì)量比較結(jié)果
總之,無(wú)論從人眼視覺效果,還是客觀評(píng)價(jià)指標(biāo),均表明本文提出的方法可以更好地對(duì)人臉圖像進(jìn)行超分辨率處理,獲得更好的圖像重建質(zhì)量。
本文提出了一種基于圖約束字典和加權(quán)稀疏編碼的人臉超分辨率算法。該算法在字典訓(xùn)練階段引入圖約束正則項(xiàng),利用加權(quán)稀疏表示提高重建系數(shù)精確度,從而改進(jìn)了已有算法性能。主客觀仿真實(shí)驗(yàn)結(jié)果證明了該方法的有效性。后續(xù)研究中,自適應(yīng)正則化參數(shù)的選擇將有待進(jìn)一步完善。
[1]BAKER S,KANADE T.Limits on super-resolution and how to break them[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(9):1167-1183.
[2]WANG X,TANG X.Hallucinating face by eigentransform[J].IEEE Trans.Systems,Man and Cybernetics,2005,34(3):425-434.
[3]LIU C,SHUM H,ZHANG C.A two-step approach to hallucinating faces:global parametric model and local nonparametric model[C]//Proc.2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2001:192-198.
[4]史云靜,虞濤,朱秀昌.基于訓(xùn)練集分層的圖像超分辨率重建[J].電視技術(shù),2012,36(19):18-22.
[5]ZHANG Xuesong,PENG Silong,JIANG Jing.An adaptive learning method for face hallucination using locality preserving projections[C]//Proc.8th IEEE International Conference on Automatic Face&Gesture Recognition.[S.l.]:IEEE Press,2008:1-8.
[6]CHANG H,YEUNG D,XIONG Y.Super-resolution through neighbor embedding[C]//Proc.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2004:275-282.
[7]YANG J,TANG H,MA Y,et al.Face hallucination via sparse coding[C]//Proc.2008 IEEE International Conference on Image Processing.[S.l.]:IEEE Press,2008:1264-1267.
[8]CHANG L,ZHOU M.Face sketch synthesis via sparse representation[C]//Proc.2010 IEEE International Conference on Pattern Recognition.[S.l.]:IEEE Press,2010:2146-2149.
[9]JUNG C,JIAO L,LIU B,et al.Position-patch based face hallucination using convex optimization[J].IEEE Signal Processing Letters,2011,18(6):367-370.
[10]DONOHO D.Compressed sensing[J].IEEE Trans.Information Theory,2004,54(4):1289-1306.
[11]YANG S,WANG M,CHEN Y,et al.Single-image super-resolution reconstruction via learned geometric dictionaries and clustered sparse coding[J].IEEE Trans.Image Processing,2012,21(9):4016-4028.
[12]CAI D,BAO H,HE X.Sparse concept coding for visual analysis[C]//Proc.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2011:2905-2910.
[13]HE X,NIYOGI P.Locality preserving projections[C]//Proc.Advances in Neural Information Processing Systems 16(NIPS).[S.l.]:MIT Press,2003:290-307.
[14]BELKIN M,NIYOGI P.Laplacian eigenmaps and spectral techniques for embedding and clustering[C]//Proc.Advances in Neural Information Processing Systems.[S.l.]:MIT Press,2002:585-592.
[15]MARTINEZ A,BENAVENTE R.The AR face database[S].1998.