錢 陽,李 雷
(南京郵電大學(xué) 視覺認(rèn)知計(jì)算與應(yīng)用研究中心,江蘇 南京 210023)
基于新型魯棒字典學(xué)習(xí)的視頻幀稀疏表示
錢 陽,李 雷
(南京郵電大學(xué) 視覺認(rèn)知計(jì)算與應(yīng)用研究中心,江蘇 南京 210023)
字典學(xué)習(xí)方法是一種非常有效的信號(hào)稀疏表示方法,在稀疏信號(hào)處理領(lǐng)域應(yīng)用極其廣泛。然而,實(shí)際應(yīng)用中,訓(xùn)練樣本和測(cè)試樣本可能會(huì)受到損壞并且含有噪聲和異常值,這將嚴(yán)重影響字典學(xué)習(xí)方法的性能。為此,不同于傳統(tǒng)的字典學(xué)習(xí)方法從干凈數(shù)據(jù)中學(xué)習(xí)字典,提出一種新型魯棒字典學(xué)習(xí)算法,旨在處理訓(xùn)練樣本中的異常值。該算法通過采用交替近端線性化方法求解非凸的最小l0范數(shù),在學(xué)習(xí)魯棒字典的同時(shí)隔離訓(xùn)練樣本中的異常值。大量仿真對(duì)比實(shí)驗(yàn)表明,所提算法具有更好的魯棒性,并能提供很好的性能改進(jìn)。
字典學(xué)習(xí);稀疏表示;異常數(shù)據(jù);魯棒性
近年來,信號(hào)的稀疏表示模型已成為重要的科研議題并吸引著學(xué)者們的廣泛關(guān)注[1]。傳統(tǒng)的稀疏表示思路是基于固定正交基的變換,如傅里葉變換、離散余弦變換、小波變換、Curvele變換等。這些正交基雖然構(gòu)造相對(duì)簡(jiǎn)單,計(jì)算復(fù)雜度低,但不能與圖像本身的復(fù)雜結(jié)構(gòu)最佳匹配,并不是最優(yōu)的稀疏變換基。隨著字典學(xué)習(xí)方法[2-4]的深入研究,人們開始根據(jù)信號(hào)本身來學(xué)習(xí)過完備字典,對(duì)稀疏編碼研究的一個(gè)熱點(diǎn)是信號(hào)在冗余字典下的稀疏分解。諸多研究成果表明,通過學(xué)習(xí)獲得的字典原子數(shù)量更多,形態(tài)更豐富,具有更稀疏的表示,能更好地與信號(hào)或圖像本身的結(jié)構(gòu)匹配,為圖像帶來更大的壓縮空間,在圖像分類[5]、圖像去噪[6]、圖像修復(fù)[7]、圖像超分辨率[8]等方面表現(xiàn)出了更優(yōu)的性能。
(1)
兩種算法最主要的區(qū)別在于字典更新的方式不同。MOD算法在字典更新時(shí),對(duì)整個(gè)字典一次更新,而K-SVD算法則是利用奇異值分解方式逐個(gè)更新字典原子,避免矩陣求逆計(jì)算的同時(shí)也提高了算法的收斂速度。
大多數(shù)的字典學(xué)習(xí)模型都是基于平穩(wěn)的高斯白噪聲假設(shè)而建立的,即每個(gè)訓(xùn)練信號(hào)可以表示為yi=Dxi+ni,其中ni為0均值的高斯向量。然而,在實(shí)際應(yīng)用中,訓(xùn)練樣本中除了含有輕微的高斯噪聲外,還含有少量的異常值,這些異常值的存在將會(huì)影響字典學(xué)習(xí)方法的性能。為此,陳和吳[11]提出了一種魯棒的字典學(xué)習(xí)方法,通過將重建誤差分解為小而密的噪聲和大而稀疏的異常值,同時(shí)考慮加性高斯噪聲和稀疏損壞這兩方面,以獲得魯棒字典;SajjadAmini等[12]則從另一個(gè)角度出發(fā),研究了訓(xùn)練樣本中含有異常值的情況,建立出魯棒的字典學(xué)習(xí)模型,并利用優(yōu)化算法學(xué)習(xí)魯棒字典的同時(shí),隔離了異常值。
文中基于文獻(xiàn)[12]提出的魯棒字典學(xué)習(xí)模型,采用交替近端線性化方法[13]求解非凸的最小l0范數(shù),從含有異常值的訓(xùn)練樣本中學(xué)習(xí)魯棒的冗余字典。將所提算法用于視頻幀圖像去噪中,仿真對(duì)比實(shí)驗(yàn)結(jié)果表明,文中算法具有更好的去噪性能,且表現(xiàn)出了較好的魯棒性。
考慮到訓(xùn)練樣本中含有異常值的情況,將訓(xùn)練樣本集中的每一個(gè)信號(hào)表示為如下的數(shù)學(xué)模型:
yi=Dxi+ni+oi
(2)
其中,ni為0均值的高斯向量;oi為異常值向量,當(dāng)?shù)趇個(gè)訓(xùn)練信號(hào)為異常值時(shí),oi≠0,否則oi=0。
為了獲得魯棒的字典學(xué)習(xí)模型,與文獻(xiàn)[12]一樣,假設(shè)異常值的數(shù)目遠(yuǎn)小于訓(xùn)練樣本總數(shù)N,則考慮異常值情況下的魯棒字典學(xué)習(xí)模型如式(3)所示:
(3)
通過引入正則化參數(shù)λ2,式(3)可以轉(zhuǎn)化為如下的無約束最優(yōu)化問題。
(4)
式(4)中的模型扮演著雙重角色:從訓(xùn)練樣本集中學(xué)習(xí)字典D和隔離異常值。然而模型(4)是一個(gè)非凸優(yōu)化模型,l0范數(shù)不可微且是NP難題,在多項(xiàng)式時(shí)間內(nèi)只能求得次優(yōu)解。一種最常用的做法是采用l1范數(shù)來最佳凸逼近l0范數(shù)[14]。文獻(xiàn)[11]就是通過將l0范數(shù)模型轉(zhuǎn)化為最小l1范數(shù)問題,并利用坐標(biāo)下降法交替優(yōu)化字典、稀疏表示系數(shù)和異常值,從而訓(xùn)練出魯棒字典。
受文獻(xiàn)[13]中所提交替近端線性化方法的啟發(fā),提出一種新的優(yōu)化算法來求解式(4)的魯棒字典學(xué)習(xí)模型。
文中所提算法是基于近端方法[15]而設(shè)計(jì)的,該算法求解的是式(5)所示的非凸問題:
(5)
其中,F(xiàn)(x),G(y)都是適當(dāng)?shù)南掳脒B續(xù)函數(shù);Q(x,y)是一個(gè)在任何有界集中都具有Lipschitz梯度的光滑函數(shù)。
文獻(xiàn)[15]中所提出的近端方法是通過求解如下的鄰近問題來更新(x,y)的估計(jì):
(6)
使用文獻(xiàn)[16]中定義的鄰近算子:
(7)
則對(duì)最小化問題(6)的求解等價(jià)于如下的近端問題[13]:
(8)
基于此,模型(4)可以表示為如下形式:
(9)
受交替近端線性化方法[13]的啟發(fā),采用交替迭代最小化的方式來更新D,X和O。
為了方便起見,使用上標(biāo)(k)表示第k次迭代中的數(shù)值。
2.1 稀疏編碼階段
稀疏編碼階段,即為對(duì)X的求解。在第k+1次迭代時(shí),給定D(k),X(k)和O(k),則有:
(10)
(11)
(12)
則X(k+1)的第(i,j)個(gè)元素可以很容易獲得[13]:
(13)
2.2 字典更新階段
這一階段旨在更新字典D。由于D是列歸一化的,因此可以逐列更新字典原子,即有:
(14)
其中,
(15)
其中,qj是第j個(gè)元素為1、其余元素為0的K維向量。
(16)
2.3 異常值更新階段
給定D(k+1),X(k+1)和O(k),類似地,異常值的更新即為求解如下的優(yōu)化問題:
(17)
(18)
(19)
對(duì)式(19)進(jìn)行求解,可得到O(k+1)的第(i,j)個(gè)元素為:
(20)
2.4 步長(zhǎng)設(shè)置
(21)
將所提新型魯棒字典學(xué)習(xí)算法用于視頻幀圖像的去噪處理中,以驗(yàn)證其良好性能。采用格式為CIF的標(biāo)準(zhǔn)視頻序列Foreman進(jìn)行實(shí)驗(yàn)仿真,隨機(jī)選取Foreman的第1、8、19、25、33、40幀作為測(cè)試樣本集,如圖1所示。實(shí)驗(yàn)中將大小為352×288的視頻幀分成不重疊的8×8的圖像塊,并向每一塊圖像中加入均值為0、方差較低(σ2=102)的獨(dú)立同分布的高斯白噪聲,接著從中任選出r塊(r=0,1,2,…且r?1 584,表示異常值的塊數(shù)),再向這r塊圖像中加入均值為0、方差更高(σ2=302)的獨(dú)立同分布的高斯白噪聲,最后從含有異常值的圖像塊中訓(xùn)練冗余字典,以實(shí)現(xiàn)視頻幀圖像的去噪。設(shè)置所訓(xùn)練的字典原子數(shù)為256,ρ=1.1,μmin=0.1,最大迭代次數(shù)為30。實(shí)驗(yàn)平臺(tái)為ThinkPadX1Carbon3rd,Windows7,Intel(R)Core(TM)i7-5600UCPU,2.6GHz,8GB,所有實(shí)驗(yàn)設(shè)計(jì)基于MatlabR2011a編程實(shí)現(xiàn)。
圖1 測(cè)試圖像集
分別采用DCT、K-SVD和所提算法對(duì)測(cè)試圖像集中的每一視頻幀進(jìn)行去噪處理,圖2給出了異常值塊數(shù)為5時(shí),三種算法從視頻序列的第25幀中學(xué)習(xí)的冗余字典。
圖2 三種算法訓(xùn)練出的冗余字典
從圖2中可以看到,DCT訓(xùn)練出的字典原子形態(tài)最不豐富,采用K-SVD算法訓(xùn)練出的字典已能較好地與圖像本身的結(jié)構(gòu)相匹配,而文中算法所訓(xùn)練的字典原子形態(tài)最豐富,為圖像帶來了更大的壓縮空間。
為了展示所提算法具有更好的去噪性能,圖3給出了不同算法隨異常值塊數(shù)增加時(shí)去噪性能變化情況對(duì)比圖。為了消除隨機(jī)性,每一測(cè)試幀的PSNR取5次執(zhí)行結(jié)果的平均值,且取6個(gè)測(cè)試幀的平均PSNR作為實(shí)驗(yàn)最終結(jié)果。
圖3 6個(gè)測(cè)試幀的平均PSNR隨異常值塊數(shù)變化圖
由圖3可知,隨著異常值塊數(shù)的增加,三種算法的去噪性能都在降低,但所提算法表現(xiàn)出了更好的魯棒性。其中,DCT的去噪性能最低,這是由于DCT采用的是正交變換,訓(xùn)練出的字典原子不豐富;雖然K-SVD算法訓(xùn)練出的字典已能較好地與圖像本身的結(jié)構(gòu)相匹配,但由于訓(xùn)練樣本中含有異常值,而K-SVD算法無法隔離異常值,因此其去噪效果沒有文中算法的效果好。
此外,圖4中給出了異常值塊數(shù)為8時(shí),三種算法對(duì)Foreman第33幀去噪后的視覺效果圖,進(jìn)一步驗(yàn)證了文中算法具有更優(yōu)的魯棒性以及去噪性能。
圖4 三種算法去噪后的視覺效果圖
文中提出了一種新型的魯棒字典學(xué)習(xí)優(yōu)化模型,并采用交替近端線性化方法求解該模型,在學(xué)習(xí)冗余字典的同時(shí)也隔離了訓(xùn)練樣本中的異常值。仿真對(duì)比實(shí)驗(yàn)表明,文中所提算法能提供很好的魯棒性,并在圖像去噪方面表現(xiàn)出了更優(yōu)的性能。
[1]EladM.Sparseandredundantrepresentations:fromtheorytoapplicationsinsignalandimageprocessing[M].Berlin:Springer,2010.
[2] 練秋生,石保順,陳書貞.字典學(xué)習(xí)模型、算法及其應(yīng)用研究進(jìn)展[J].自動(dòng)化學(xué)報(bào),2015,41(2):240-260.
[3]Kreutz-DelgadoK,MurrayJF,RaoBD,etal.Dictionarylearningalgorithmsforsparserepresentation[J].NeuralComputation,2003,15(2):349-396.
[4]RubinsteinR,BrucksteinAM,EladM.Dictionariesforsparserepresentationmodeling[J].ProceedingsoftheIEEE,2010,98(6):1045-1057.
[5]BahrampourS,NasrabadiNM,RayA,etal.Multimodaltask-drivendictionarylearningforimageclassification[J].IEEETransactionsonImageProcessing,2016,25(1):24-38.
[6]EladM,AharonM.Imagedenoisingviasparseandredundantrepresentationsoverlearneddictionaries[J].IEEETransactionsonSignalProcessing,2006,15(12):3736-3745.
[7]LiuJ,MaX.Animprovedimageinpaintingalgorithmbasedonmulti-scaledictionarylearninginwaveletdomain[C]//IEEEinternationalconferenceonsignalprocessing,communicationandcomputing.[s.l.]:IEEE,2013:1-5.
[8]LiuX,ZhaiD,ZhaoD,etal.Imagesuper-resolutionviahierarchicalandcollaborativesparserepresentation[C]//Datacompressionconference.[s.l.]:IEEE,2013:93-102.
[9]EnganK,AaseSO,HakonHJ.Methodofoptimaldirectionsforframedesign[C]//IEEEinternationalconferenceonacoustics,speech,andsignalprocessing.[s.l.]:IEEE,1999:2443-2446.
[10]AharonM,EladM,BrucksteinA.K-SVD:analgorithmfordesigningovercompletedictionariesforsparserepresentation[J].IEEETransactionsonSignalProcessing,2006,54(11):4311-4322.
[11]ChenZ,WuY.Robustdictionarylearningbyerrorsourcedecomposition[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.[s.l.]:IEEE,2013:2216-2223.
[12]AminiS,SadeghiM,JoneidiM,etal.Outlier-awaredictionarylearningforsparserepresentation[C]//IEEEinternationalworkshoponmachinelearningforsignalprocessing.[s.l.]:IEEE,2014:1-6.
[13]BaoC,JiH,QuanY,etal.L0Normbaseddictionarylearningbyproximalmethodswithglobalconvergence[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2014:3858-3865.
[14]ChenSS,DonohoDL,SaundersMA.Atomicdecompositionbybasispursuit[J].SIAMReview,2001,43(1):33-61.
[15]BolteJ,SabachS,TeboulleM.Proximalalternatinglinearizedminimizationfornonconvexandnonsmoothproblems[J].MathematicalProgramming,2014,146(1-2):459-494.
[16]RockafellarRT,WetsRJB.Variationalanalysis,volume317ofgrundlehrendermathematischenwissenschaften[M].Berlin:Springer,1998.
Sparse Representation of Video Frame Based on Novel Robust Dictionary Learning
QIAN Yang,LI Lei
(Center for Visual Cognitive Computation and Application,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
Dictionary learning is a very effective signal sparse representation method which has been widely used in the field of sparse signal processing.However,in practice,both training and testing samples may be corrupted and contain noises and a few outlier data,which may heavily affect the learning performance of it.Hence,in contrast to the conventional dictionary learning methods that learn the dictionary from clean data,a novel robust dictionary learning algorithm is proposed to handle the outliers in training data.In the proposed algorithm,the alternating proximal linearized method is used for solving the non-convexl0normbaseddictionarylearningproblem.Thus,therobustdictionarycanbelearnedandoutlierscanbeisolatedinthetrainingsamplessimultaneously.Thesimulationexperimentalresultsdemonstratethatthemethodhasthepromisingrobustnessandcanprovidesignificantperformanceimprovement.
dictionary learning;sparse representation;outlier data;robustness
2016-03-06
2016-06-23
時(shí)間:2017-01-04
國(guó)家自然科學(xué)基金資助項(xiàng)目(61070234,61071167,61373137,61501251);江蘇省2015年度普通高校研究生科研創(chuàng)新計(jì)劃項(xiàng)目(KYZZ15_0235);南京郵電大學(xué)引進(jìn)人才科研啟動(dòng)基金資助項(xiàng)目(NY214191)
錢 陽(1991-),女,碩士生,研究方向?yàn)榉蔷€性分析及應(yīng)用;李 雷,博士,教授,研究方向?yàn)橹悄苄盘?hào)處理和非線性科學(xué)及其在通信中的應(yīng)用。
http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1023.040.html
TP
A
1673-629X(2017)02-0037-05
10.3969/j.issn.1673-629X.2017.02.009