趙娜,趙彤洲*,鄒沖,劉瑩,蔡敦波
1.武漢工程大學計算機科學與工程學院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室,湖北 武漢 430205
稀疏表示中字典學習的影響因子研究
趙娜1,2,趙彤洲1,2*,鄒沖1,2,劉瑩1,2,蔡敦波1,2
1.武漢工程大學計算機科學與工程學院,湖北 武漢 430205;2.智能機器人湖北省重點實驗室,湖北 武漢 430205
研究了稀疏表示中影響字典矩陣構建質量的關鍵因素,并實現(xiàn)了關鍵因子定量化表示.分別對圖像數(shù)量、取塊大小、字典列數(shù)和取塊步長等因子進行參數(shù)調整并生成字典矩陣,結合系數(shù)矩陣對原始圖像重構,以峰值信噪比和結構相似性索引測量這兩種質量評價指標作為字典質量的評估依據(jù).實驗以CMU_PIE_Face數(shù)據(jù)庫為數(shù)據(jù)源,結果表明當圖像數(shù)量為500張、取塊大小為4個像素點、字典列數(shù)為512維、取塊步長為2個像素點時,所得到的字典具備對原始圖像的最佳表示能力.因此,稀疏表示中關鍵因子的定量化表示可加速字典學習過程且簡化模型復雜度,提高字典抽象層質量,具備更強的圖像表現(xiàn)力.
稀疏表示;字典學習;字典精度;圖像質量評價指標
人類視覺系統(tǒng)中僅用少量視覺神經元就能捕獲自然場景中的關鍵信息[1],即場景主要信息可以通過稀疏表示充分表達.現(xiàn)在稀疏表示已經在信號和圖像處理領域得到了廣泛應用,如圖像去噪[2]、圖像恢復[3]、人臉識別[4-5]、物體檢測[6]等方面.稀疏表示理論也得到了深入的研究,其中最早由Engan提出了最優(yōu)方向算法(method of optimal directions,MOD),該算法字典學習方式簡單,但是收斂速度很慢.在此基礎上,Micheal Elad[7]于2006年提出了K-SVD算法.該算法在收斂速度上有了很大的提升,但是對噪聲很敏感,噪聲加大時,用該算法降低噪聲會丟失圖像的紋理細節(jié)而產生模糊的效果.Mairal[8]于2010年提出了一種在線字典學習算法(online dictionary learning,ODL).與傳統(tǒng)算法相比,該算法能大幅降低計算量,提高字典更新速度,能夠較好地恢復圖像邊緣銳度和紋理細節(jié),使字典學習不再局限于小規(guī)模、確定的訓練樣本.本文在介紹基本稀疏表示模型[9]的基礎上,討論了ODL算法,并使用稀疏建模工具箱(sparse modeling software,SPAMS)對圖像不同參數(shù)分別訓練,從而得到學習字典.通過字典進行圖像的重構[10],并通過峰值信噪比(peak signal to noise ratio,PSNR)和結構相似性索引測量(structural similarity index metric,SSIM)質量評價準則對字典質量進行評估分析.
稀疏表示是將自然信號壓縮表示為一組基向量的線性組合.假設XRm是一個信號,D=[d1,d2,...,dn]Rm′n是一個基向量的集合,稱為字典,其中m< 由于m< minα0s.t.D×α=X.(2) 其中RIP條件為存在滿足某種條件的常數(shù)μN,有: 考慮到信號含噪聲的情況,模型可以表示成: 為了實現(xiàn)信號的稀疏表示,就必須求解上述的稀疏表示模型問題.因此,需要解決兩個基本問題[12]:一是稀疏分解問題,即如何獲取信號在字典D下最稀疏的分解系數(shù)α;二是稀疏字典學習問題[13],即如何設計與構造有效的稀疏表示字典D. 2.1 算法原理 構造合適有效的字典是稀疏表示的核心問題之一,其中字典的質量不僅僅取決于算法的優(yōu)化,而且還與一些影響字典的因素相關,例如:訓練圖像數(shù)量、圖像取塊大小、字典列數(shù)、圖像取塊步長.本文在ODL算法[14]的基礎上,對這些相關因素進行了研究. 假設X ? Rm′n是原始信號,D ? Rm′K(m< 步驟1:初始化.使用固定字典初始化D0,A0?0,B0?0,A0,B0為中間變量. 其中η為xt的數(shù)量. 步驟3:字典更新.使用式(7)依次更新字典Dt-1的第j列dt-1,j,直到RMSE滿足要求. 重復步驟2和步驟3,直到滿足迭代次數(shù). 2.2 圖像重構 為了衡量字典質量,對原始圖像進行重構,并以重構圖像質量作為字典質量的評估標準,重構過程如下: 1)對原始圖像進行不重疊分塊,視每個圖像塊為一個樣本,將圖像塊按列展開成一個列向量yi,所有樣本的列向量并列組合成聯(lián)合矩陣 3)將每個樣本yi重構為,使=D×αi; 2.3 圖像質量評價 對重構圖像的質量評價可分為客觀評價和主觀評價,客觀評價是以符合人眼視覺特性的計算模型給出量化指標來進行評價,主觀評價是以人的主觀感知來打分.本文分別采用PSNR和SSIM兩種客觀評價準則來評估字典的重建能力. 1)峰值信噪比 PSNR是使用最廣泛的質量評價方法,其計算公式為: 其中n為每像素的比特數(shù),一般取8,SMSE為原始圖像與重構圖像的均方誤差.QPSNR值越大表明重建質量越高. 2)結構相似性索引測量 SSIM表示了原始圖像與重建圖像的結構相似程度,其計算公式為: 式(9)中μX、μY、σX、σY分別為圖像矩陣X和Y的均值和方差,σXY為圖像矩陣X和矩陣Y的協(xié)方差,C1、C2、C3為常數(shù).QSSIM取值介于0和1之間,值越大表明重建質量越高. 3.1 實驗過程 SPAMS是Julien Mairal(INRIA)開發(fā)的稀疏建模工具箱,可以解決各類稀疏優(yōu)化問題,如矩陣分解和字典學習等. 使用該工具箱中的ODL算法來研究字典D的影響因素(訓練字典圖像數(shù)量、取塊大?。?5]、字典列數(shù)、取塊步長).實驗數(shù)據(jù)采用的是CMU_PIE_Face數(shù)據(jù)庫中大小為32×32的人臉圖像,其中該數(shù)據(jù)庫包括68位志愿者在不同光照、姿態(tài)、表情的11 560張面部圖像.假設X為訓練集圖像按取塊大小重新排列后的聯(lián)合矩陣,X1為原始圖像,X2為稀疏表示所得圖像,實驗步驟如下: 1)確定實驗所需取塊大小,按取塊大小獲得訓練集圖像的聯(lián)合矩陣X; 2)設置字典學習的參數(shù)值,包含字典列數(shù)、迭代次數(shù)等; 3)求得聯(lián)合矩陣X的稀疏字典D; 4)求得原始圖像矩陣X1的稀疏系數(shù)α; 5)通過字典D和稀疏系數(shù)α,重構得到稀疏表示圖像矩陣X2; 6)計算X1與X2的QPSNR和QSSIM值,以此來評估字典D的質量. 其中步驟3中的稀疏字典D是通過對聯(lián)合矩陣X中圖像塊用ODL算法直接訓練所得,并沒有對其先進行特征提取;步驟4中求取稀疏系數(shù)是用SPAMS中的Lasso函數(shù);步驟5中稀疏表示圖像X2的重構是按2.2節(jié)中的重構方法所得. 本實驗分四個階段對字典D的影響因素進行研究:第一階段是對圖像數(shù)量的研究,圖像數(shù)量以步長為10從10遞增到2 000,然后每組數(shù)量的取塊大小分別采用6、8,并固定字典D的列數(shù)為512,通過兩段曲線來研究圖像數(shù)量對字典的影響;第二階段是對取塊大小的研究,取塊大小以步長為1從3遞增到8,然后每組取塊大小的字典列數(shù)分別采用128、256、512,并固定訓練圖像數(shù)量為第一階段的最佳圖像數(shù)量,通過三段曲線來研究取塊大小對字典的影響;第三階段是對字典D列數(shù)的研究,列數(shù)以步長為8從128遞增到1 024,然后固定圖像數(shù)量為第一階段的最佳值,通過取塊大小分別為6、8的兩段曲線來研究字典列數(shù)對字典的影響;第四階段是對取塊步長的研究,取塊步長以步長為1從1遞增到8,然后每組的取塊大小分別采用6、8,并固定訓練圖像數(shù)量和字典列數(shù)為前幾階段的最佳值,通過兩段曲線來研究取塊步長對字典的影響. 3.2 實驗結果分析 3.2.1 圖像數(shù)量對字典的影響分析第一階段的實驗結果如圖1所示,圖1(a)中隨著訓練圖像數(shù)量的增加,QPSNR值也逐漸增大,并在數(shù)量為500后趨于平穩(wěn),圖1(b)中的QSSIM值也有相同的趨勢,不同的是在數(shù)量為100時就開始趨于平穩(wěn).綜合兩個質量評價準則,選取本實驗的最佳訓練圖像數(shù)量為500. 圖1 圖像數(shù)量與(a)QPSNR和(b)QSSIM的關系Fig.1Relationship between the number of images and(a)QPSNRand(b)QSSIM 3.2.2 圖像取塊大小對字典的影響分析第二階段的實驗結果如圖2所示,由第一階段所得的最佳訓練圖像數(shù)量500作為本階段的訓練數(shù)量,選取了字典列數(shù)分別為128、256和512的三條曲線來研究取塊大小與誤差的關系,由圖2可以看出,隨著取塊大小的遞增,質量評價值不斷在下降,三條曲線均在取塊大小為3時,QPSNR和QSSIM處于最高值,但取塊大小為3時,所得圖像塊的信息太少,筆者認為不適合做取塊大小,因此,選取結果次優(yōu)的取塊大小為4作為本實驗的最佳值. 圖2 取塊大小與(a)QPSNR和(b)QSSIM的關系Fig.2Relationship between patch size and(a)QPSNRand(b)QSSIM 3.2.3 字典列數(shù)取值對字典的影響分析第三階段的實驗結果如圖3所示,由圖3可知,隨著字典列數(shù)的不斷增加,圖3(a)中的QPSNR和圖3(b)中的QSSIM值都在不斷增大,最后幾乎趨于平穩(wěn).但是字典列數(shù)越大,字典學習時間就越長且計算越復雜,綜合圖3中兩個準則的趨勢變化和時間考慮,當字典列數(shù)為512時,所得字典能更好地表示圖像. 3.2.4 圖像取塊步長對字典的影響分析第四階段的實驗結果如圖4所示,由前三階段所得的實驗結果分析,本階段選取圖像數(shù)量500,字典列數(shù)為512來進行實驗,并設置取塊大小為6、8來研究取塊步長與誤差的關系,分別由圖4(a)和圖4(b)可以得出,兩條曲線均在取塊步長為2時,質量評價指標達到最大,因此,取塊步長為2時,訓練所得的字典效果最佳. 圖3 字典列數(shù)與(a)QPSNR和(b)QSSIM的關系Fig.3Relationship between dictionary columns and(a)QPSNRand(b)QSSIM 圖4 取塊步長與與(a)QPSNR和(b)QSSIM的關系Fig.4Relationship between patch step and(a)QPSNRand(b)QSSIM 為了進一步說明各影響因子對字典的影響,訓練圖像、取塊大小、字典列數(shù)這3種因子采取不同參數(shù)值時的QPSNR和QSSIM對比如表1所示.由表1可知,隨著訓練圖像數(shù)量的增加,在其他影響因子相同的情況下,質量評價指標大致呈逐漸上升然后平穩(wěn)的趨勢,并在圖像數(shù)量為500后保持穩(wěn)定;在相同訓練圖像數(shù)量和字典列數(shù)下,圖像取塊大小為4時圖像重構質量最佳;隨著字典列數(shù)不斷增加,重構質量越來越好. 表1 取不同參數(shù)時的QPSNR和QSSIM對比Tab.1Comparison ofQPSNRandQSSIMwith different parameters 以上分別研究了影響稀疏字典的4種因素,研究結果表明在本實驗所使用的數(shù)據(jù)庫中,當訓練圖像數(shù)量為500張、取塊大小為4個像素點、字典列數(shù)為512維、取塊步長為2個像素點時,訓練得到的稀疏字典能很好地表示該數(shù)據(jù)庫中的圖像.當對上述因素定量化時,字典的訓練時間維持在幾十秒內,因此,本算法無論是訓練速度還是字典質量都可達到還原度高的重構圖像,滿足應用層面的需求.綜上所述,本文的研究與圖像的尺寸有密切關系,不同的尺寸的圖像所需的參數(shù)也不盡相同,因此圖像大小對字典的影響將是今后的研究方向. [1]OLSHAUSENBA,F(xiàn)IELDDJ.Emergenceof simple-cell receptive field properties by learning a sparse code for natural images[J].Nature,1996,381(6583):607-609. [2]LI S,YIN H,F(xiàn)ANG L.Group-sparse representation with dictionary learning for medical image denoising and fusion[J].IEEE Transactions on Biomedical Engineering,2012,59(12):3450-3459. [3]DONG W,ZHANG L,SHI G,et al.Nonlocally centralized sparse representation for image restoration[J].IEEE Transactions on Image Processing,2013,22(4):1620-1630. [4]WAGNER A,WRIGHT J,GANESH A,et al.Toward a practical face recognition system:robust alignment and illumination by sparse representation[J].IEEE TransactionsonPatternAnalysis&Machine Intelligence,2012,34(2):372-386. [5]朱杰,楊萬扣,唐振民.基于字典學習的核稀疏表示人臉識別方法[J].模式識別與人工智能,2012,25(5):859-864. ZHU J,YANG W K,TANG Z M.A dictionary learning based kernel sparse representation method for face recognition[J].PatternRecognitionandArtificial Intelligence,2012,25(5):859-864. [6]SHEKHAR S,PATEL V M,NASRABADI N M,et al. Jointsparserepresentationforrobustmultimodal biometricsrecognition[J].IEEETransactionson Pattern Analysis and Machine Intelligence,2014,36(1):113-126. [7]AHARON M,ELAD M,BRUCKSTEIN A.K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322. [8]MAIRAL J,BACH F,PONCE J,et al.Online learning for matrix factorization and sparse coding[J].Journal of Machine Learning Research,2010,11(1):19-60. [9]練秋生,石保順,陳書貞.字典學習模型、算法及其應用研究進展[J].自動化學報,2015,41(2):240-260. LIAN Q S,SHI B S,CHEN S Z.Research advances on dictionary learning models,algorithms and applications[J].Acta Automatica Sinica,2015,41(2):240-260. [10]韋仙,康睿丹.基于降維壓縮法的圖像重構[J].武漢工程大學學報,2015,37(12):69-74. WEI X,KANG R D.Image reconstruction based on dimension reduction and compression technology[J]. Journal of Wuhan Institute of Technology,2015,37(12):69-74. [11]CANDES E J,TAO T.Decoding by linear programming[J].IEEETransactionsonInformationTheory,2005,51(12):4203-4215. [12]歐衛(wèi)華.基于稀疏表示和非負矩陣分解的部分遮擋人臉識別研究[D].武漢:華中科技大學,2014. [13]李洪均,謝正光,胡偉,等.字典原子優(yōu)化的圖像稀疏表示及其應用[J].東南大學學報(自然科學版),2014(1):116-122. LI H J,XIE Z G,HU W,et al.Optimization of dictionary atoms in image sparse representations and its application[J].Journal of Southeast University(Natural Science),2014(1):116-122. [14]吳雙,邱天爽,高珊.基于在線字典學習的醫(yī)學圖像特征提取與融合[J].中國生物醫(yī)學工程學報,2014,33(3):283-288. WU S,QIU T S,GAO S.Medical image features extractionandfusionbasedononlinedictionary learning[J].Chinese Journal of Biomedical Engineering,2014,33(3):283-288. [15]霍雷剛.圖像處理中的塊先驗理論及應用研究[D].西安:西安電子科技大學,2015. 本文編輯:陳小平 Influence Factors of Dictionary Learning in Sparse Representation ZHAO Na1,2,ZHAO Tongzhou1,2*,ZOU Chong1,2,LIU Ying1,2,CAI Dunbo1,2 We studied the key factors influencing the construction quality of dictionary matrix in sparse representation,and represented them quantitatively.The factors such as the number of images,patch size,dictionary columns and patch step were adjusted as parameters and the dictionary matrix was generated. Combined with the coefficient matrix,the original image was reconstructed,and the dictionary quality was evaluated by using the image quality assessment indices of peak signal to noise ratio and structural similarity index metric.Experiments on CMU_PIE_Face database demonstrate that the resulting dictionary has the best ability to represent the original image at image numbers of 500,patch size of 4 px,dictionary columns of 512 and patch step of 2 px.We found that the quantitative representation of key factors in sparse representation can accelerate the dictionary learning process,simplify the complexity of the model,improve the quality of the dictionary abstraction layer,and show stronger image expression. sparse representation;dictionary learning;dictionary accuracy;image quality assessment index TP391 A 10.3969/j.issn.1674?2869.2017.03.011 1674-2869(2017)03-0267-06 2016-12-06 國家自然科學基金(61103136);武漢工程大學創(chuàng)新基金(CX2015057);武漢工程大學創(chuàng)新基金(CX2016070) 趙娜,碩士研究生.E-mail:zhaona_wit@163.com *通訊作者:趙彤洲,碩士,副教授.E-mail:zhao_tongzhou@126.com 趙娜,趙彤洲,鄒沖,等.稀疏表示中字典學習的影響因子研究[J].武漢工程大學學報,2017,39(3):267-272. ZHAO N,ZHAO T Z,ZOU C,et al.Influence factors of dictionary learning in sparse representation[J].Journal of Wuhan Institute of Technology,2017,39(3):267-272.2 ODL算法
3 實驗過程與結果分析
4 結語
1.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430205,China;2.Hubei Key Laboratory of Intelligent Robot(Wuhan Institute of Technology),Wuhan 430205,China