亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度特征融合Hessian稀疏編碼的圖像分類算法

        2018-01-08 07:33:53劉盛清孫季豐余家林宋治國
        計算機應用 2017年12期
        關鍵詞:訓練樣本準確率編碼

        劉盛清,孫季豐,余家林,宋治國

        (華南理工大學 電子與信息學院,廣州 510641)

        基于多尺度特征融合Hessian稀疏編碼的圖像分類算法

        劉盛清*,孫季豐,余家林,宋治國

        (華南理工大學 電子與信息學院,廣州 510641)

        針對傳統(tǒng)稀疏編碼圖像分類算法提取單一類型特征,忽略圖像的空間結構信息,特征編碼時無法充分利用特征拓撲結構信息的問題,提出了基于多尺度特征融合Hessian稀疏編碼的圖像分類算法(HSC)。首先,對圖像進行空間金字塔多尺度劃分;其次,在各個子空間層將方向梯度直方圖(HOG)和尺度不變特征轉換(SIFT)進行有效的融合;然后,為了充分利用特征的拓撲結構信息,在傳統(tǒng)稀疏編碼目標函數(shù)中引入二階Hessian能量函數(shù)作為正則項;最后,利用支持向量機(SVM)進行分類。在Scene15數(shù)據(jù)集上的實驗結果表明,HSC的準確率比局部約束線性編碼(LLC)高了3~5個百分點,比支持區(qū)別性字典學習(SDDL)等對比方法高了1~3個百分點;在Caltech101數(shù)據(jù)集上的耗時實驗結果表明,HSC的用時比多核學習稀疏編碼(MKLSC)少40%左右。所提HSC可以有效提高圖像分類準確率,算法的效率也優(yōu)于對比算法。

        圖像分類;特征融合;空間金字塔;稀疏編碼;支持向量機

        0 引言

        近年來,圖像分類一直是非常熱門的研究方向。譬如,智能交通領域中的車牌檢測識別、安防系統(tǒng)中的人臉識別等。由于圖像包含了復雜多樣的信息,并且存在各種干擾信息,這使得圖像分類成為一個具有挑戰(zhàn)性的任務。

        許多圖像分類方法僅提取單一類型的圖像特征,而且由于缺乏圖像空間結構信息導致分類精度不高,因此較多的研究者提取多特征以充分獲取圖像信息。文獻[1]將圖像進行多尺度空間劃分,利用多尺度空間多特征學習進行醫(yī)學圖像分類,獲得較好的識別率。文獻[2]將魯棒集合統(tǒng)計特征作為最終的特征,用于圖像分類,也獲得了較滿意的準確率,這些提取多特征的方法都要優(yōu)于采用單一特征的方法,基于此,本文也將提取多特征進行分類。

        基于視覺特征袋(Bag Of Features, BOF)模型的圖像分類算法因取得了不錯的準確率而受到了廣大研究者的關注。BOF模型通過提取圖像局部特征并聚類生成視覺詞典進行分類,該方法具有很強的特征平移不變性,卻丟失了重要的空間結構信息。鑒于此,文獻[3]提出空間金字塔匹配(Spatial Pyramid Matching, SPM)方法,將圖像進行多尺度精細劃分,在每個子空間進行特征向量計算并匯聚連接進行分類,取得了滿意的效果。

        稀疏編碼(Sparse Coding, SC)[4]通過基向量的線性組合來表征圖像的輸入特征,在基于空間金字塔詞袋模型的基礎上,文獻[5]使用稀疏編碼取代傳統(tǒng)的向量量化(Vector Quantization, VQ),在很大程度上減小了重構誤差,取得不錯的效果。但稀疏編碼有個嚴重的缺點,即相似的局部特征描述子經(jīng)過稀疏編碼后可能會在不同的視覺單詞上產(chǎn)生響應。隨后, 文獻[6]依據(jù)特征的局部性比稀疏性可以更加有效地表征圖像的原理,在一個局部流形結構上對局部特征進行局部約束線性編碼(Locality-constrained Linear Coding, LLC)通過加入局部線性約束,雖然極大地提高了編碼的有效性,但是該方法對編碼過程中的近鄰數(shù)k比較敏感, 隨著k的增大, 編碼中的某些負值元素與正值元素的差值絕對值也可能增大, 這使得LLC 越來越不穩(wěn)定;因此,文獻[7]在LLC 編碼模型的目標方程中引入非負約束,該編碼方法具有較強的穩(wěn)定性,但是它把編碼中的一些負值全部消除,這無疑損失了很多的特征信息。文獻[8]基于稀疏編碼,提出Fisher判別字典學習(Fisher Discrimination Dictionary Learning, FDDL)方法,將Fisher 線性鑒別準則作用在稀疏系數(shù)上以增加它的鑒別性,從而增加分類的準確率,但忽略了同類原子和不同類原子間的關系,這降低了字典的判別性能。文獻[9]提出支持區(qū)別性字典學習(Support Discrimination Dictionary Learning, SDDL),計算一個類別中各個圖像的聯(lián)合稀疏系數(shù)應用到字典學習中,利用各個圖片特征的相關性信息提高分類準確性。文獻[10]突破以往的l0、l1范數(shù)優(yōu)化,提出利用l2,p矩陣范數(shù)進行稀疏約束,但當0

        文獻[11]為了獲取特征之間的關聯(lián)信息,提出多核學習稀疏編碼(Multiple Kernel Learning Sparse Coding, MKLSC),使用多個非線性核函數(shù)把特征映射到高維空間,使得特征的區(qū)分性更強,但是多核有很多冗余信息,而且計算復雜。文獻[12]將局部Gabor特征融合進稀疏編碼中,成功地應用到多任務的識別研究,但是沒有利用特征的空間拓撲結構信息。文獻[13]在稀疏編碼的基礎上提出拉普拉斯稀疏編碼 (Laplacian Sparse Coding, LSC),在一定程度上解決了這一問題。但由于拉普拉斯正則項會導致函數(shù)偏向一個常函數(shù),使得它對特征的局部拓撲結構信息不能有效地利用,導致其對特征泛化能力較弱。文獻[14]在對特征進行聚類分析研究時發(fā)現(xiàn)二階Hessian能量函數(shù)可以較好地利用特征的局部拓撲結構信息,還可以增強特征的泛化能力。文獻[15]提出將二階Hessian 能整合到半監(jiān)督特征選擇框架上,有效地進行了稀疏系數(shù)的約束,但是其半監(jiān)督的學習的方法導致圖像標注的準確率不是很高。

        現(xiàn)有的基于稀疏編碼圖像分類算法更多地是利用多特征和特征之間的信息來提高分類準確率,很少研究特征結構的流形空間,因此無法利用特征的局部拓撲結構信息,導致分類能力較弱?;诖耍疚奶岢龌诙喑叨忍卣魅诤螲essian稀疏編碼的圖像分類算法(image classification algorithm based on multi-scale feature fusion and Hessian Sparse Coding, HSC)。本文主要工作如下:1)為了獲得完備的圖像信息,對圖像進行空間金字塔多尺度劃分以引入圖像的空間結構信息,同時在各個子空間對方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征和尺度不變特征轉換(Scale-Invariant Feature Transform, SIFT)特征進行有效的融合,以獲取充分的特征信息;2)在傳統(tǒng)稀疏編碼的目標函數(shù)中引入二階Hessian能量函數(shù)作為正則項,克服傳統(tǒng)稀疏編碼對特征局部拓撲結構保持較差、無法利用特征拓撲結構信息的缺點;3)不同于大多數(shù)現(xiàn)有文獻將Hessian能量函數(shù)用在特征選擇和聚類上,本文創(chuàng)新地將Hessian稀疏編碼用于圖像分類問題。

        1 多尺度特征融合

        1.1 空間金字塔模型

        空間金字塔匹配方法是文獻[3]為了解決以往算法中缺少圖像空間結構信息而專門提出來的,其核心就是對圖像進行多尺度的劃分以引入圖像的空間結構信息。劃分的方式是多樣的,通常都是在圖像的兩個坐標方向進行2的指數(shù)倍劃分,即2L×2L(L=(0,1,…,n)),當L=0時,SPM退化為BOF)。本文采用的劃分方式如圖1所示,取L=(0,1,2),圖中三種符號代表三種不同詞匯,最下面一行表示每個詞匯的直方圖統(tǒng)計,首先計算多尺度劃分得到的每個子區(qū)域的特征向量,然后進行有效的連接用于支持向量機分類。

        圖1 SPM模型Fig. 1 SPM model

        1.2 子空間特征串行融合

        現(xiàn)有的方法很多是提取單類型特征進行分類,尺度不變特征轉換(SIFT)特征對圖像旋轉、尺度縮放、亮度變化具有保持不變性。計算SIFT特征時先將圖像進行4×4的網(wǎng)格劃分,再計算每個網(wǎng)格上8個方向的梯度直方圖,最終描述子的維數(shù)為 4×4×8=128維,因其具有良好的描述能力被廣泛使用。

        方向梯度直方圖(HOG)特征可以很好地描述物體形狀,但它不具備旋轉和尺度不變性。HOG特征的提取是先將圖像每4個單元劃成1個塊,特征的梯度方向被平均分成9個區(qū)間,對單元中所有的像素進行梯度直方圖計算,最后將相鄰的4個單元里的特征進行連接,得到一個4×9=36維的特征向量。由于SIFT和HOG的計算以及最后的描述子均和梯度直方圖有關,它們功能具有互補性,所以將在空間金字塔各個子空間將它們直接進行串行融合,以獲取更多的圖像信息,彌補單一特征信息缺失、表征不足的缺點。

        2 特征編碼

        2.1 稀疏編碼介紹

        設A=[x1,x2,…,xj,…,xM]∈RD×M表示一幅圖像的所有特征向量集合,其中:xj表示提取的局部特征描述子,D表示特征的維數(shù),M表示特征的總個數(shù)。由圖像底層特征描述子經(jīng)過聚類得到的N個視覺單詞中心的集合設為B=[b1,b2,…,bi,…,bN]∈RD×N,bi表示視覺單詞;經(jīng)過特征編碼后得到的圖像特征向量的稀疏系數(shù)矩陣設為C=[y1,y2,…,yj,…,yM]∈RN×M,yj=(c1j,c2j,…,cNj)表示特征xj編碼后得到的稀疏系數(shù),是一個N維列向量。

        文獻[5]為了減小特征向量的重構誤差,在硬編碼基礎上放松了對視覺單詞的約束,利用l1范數(shù)來正則化稀疏編碼,公式如下所示:

        (1)

        s.t. ‖bk‖≤1,?k=1,2,…,N

        其中:λ是平衡重構誤差與稀疏性的權衡因子,只要系數(shù)矩陣C或碼本B固定,目標函數(shù)便可以轉化為凸優(yōu)化問題,求出近似解。稀疏編碼在圖像分類上獲得不錯的性能,具體細節(jié)可參考文獻[5]。

        文獻[6]基于特征編碼的局部性比稀疏性更加重要的原理,在稀疏編碼的基礎上進一步改進創(chuàng)新,對底層特征進行局部線性約束稀疏編碼,得到下面的計算式:

        (2)

        s.t.etyj=1,?j

        其中:e表示所有元素都為1的向量,約束條件etyj=1保證特征編碼過程中的平移不變性,‖djΘyj‖2用于解決傳統(tǒng)稀疏編碼的不穩(wěn)定性,即確保相似的局部特征經(jīng)過特征編碼不會在相近的視覺詞匯產(chǎn)生響應。實驗證明該方法可以有效地提高分類性能,具體細節(jié)可參考文獻[6]。

        LSC算法[13]也是針對如何在編碼過程中更充分地利用局部信息而提出來的,它的核心思想是計算特征的相似性,將計算獲得的特征相似度矩陣作為相似特征編碼的權值,從而得到拉普拉斯矩陣并應用在圖像分類上,具體細節(jié)參考文獻[13]。

        2.2 本文Hessian編碼算法

        上述一系列稀疏編碼方法取得了不錯的分類效果,但是,這些方法對特征的局部拓撲結構保持不佳,無法充分利用特征的拓撲結構信息,導致對特征的泛化能力不足[14],仍然有較大的改進空間。幾何結構在人的視覺理解中是非常重要的信息,在圖像分類中,特征空間的幾何結構是不容忽視的信息?;诖?,本文提出一種新的圖像分類方法,在傳統(tǒng)稀疏編碼目標函數(shù)中引入Hessian二階能量函數(shù)作為正則項,改善對特征的局部拓撲結構保持性,充分利用特征的拓撲結構信息,增強特征的泛化能力,從而提高分類準確性和魯棒性。

        設Hn(xj)=cnj(n=1,2,…,N),xj是特征描述子,cnj是特征描述子xj在碼本bn上投影值,即稀疏系數(shù),M表示特征的總個數(shù),N表示視覺單詞中心個數(shù)。定義H(xj)如下:

        H(xj)=(H1(xj),H2(xj),…,HN(xj))=

        (c1j,c2j,…,cNj)

        (3)

        選擇‖Hn‖2作為度量Hn(xj)平滑性的函數(shù)[14],則Hessian二階能量函數(shù)公式如下:

        (4)

        其中:S表示流形空間;dV(xj)是體積元;▽a▽bHn是Hn的二階協(xié)變導數(shù),Txj S是xj在S的切空間,歐氏空間的‖▽a▽bHn‖正好是標準坐標中的Hessian正則Frobenius范數(shù)[14],所以可以得到如下公式:

        (5)

        設Gk(xj)是由xj的k個最近鄰域的特征點集合組成,找出Gk(xj)包含的特征點對應的TxjM(TxjM?Rv),假設利用t(t≤v)個正交基用于估計局部切空間TxjM,由于實際的圖像采樣不夠密集而使得文獻[14]假設的理想條件:t等于局部切空間TxjM的維數(shù)不成立,所以實驗中本文采用文獻[14]交叉驗證設置的k=3,t=2。式(6)中的P(j)是用于最小二乘法擬合的二階多項式,使用最小二乘法可以擬合得到Hn關于xj的二階偏導數(shù)[14],又因為Hn(xj)=cnj,所以由式(5)可以得到如下公式:

        (6)

        (7)

        把Hessian能函數(shù)合并到稀疏編碼的標準目標函數(shù)中作為正則項,得到Hessian稀疏編碼公式如下:

        (8)

        2.2.1 Hessian稀疏編碼的字典學習

        當固定C時,式(8)可以改寫成如下所示的最小平方問題:

        (9)

        s.t. ‖bi‖2≤c,i=1,2,…,k

        上述問題有很多成熟經(jīng)典的解法,比如梯度下降迭代,本文采用比梯度下降迭代更有效的拉格朗日對偶法[4]進行字典的求解,具體步驟流程可以參考文獻[4]。

        2.2.2 最優(yōu)Hessian稀疏系數(shù)求解

        為求得式(8)的最小值,可以把碼本B固定,得到Hessian稀疏編碼系數(shù)的目標函數(shù)如下所示:

        (10)

        (11)

        固定yj,更新yi,又可以寫成:

        λ2yiTyiQii+yiTWi}

        (12)

        (13)

        其中:I是單位矩陣。至此可以利用經(jīng)典的特征符號搜索算法求解Hessian稀疏編碼的最優(yōu)稀疏系數(shù),因算法經(jīng)典熟知,文章篇幅有限,具體的求解步驟在這里不詳細展開,可以參考文獻[4]。本文Hessian稀疏編碼詳細算法流程如下:

        算法1 Hessian稀疏編碼算法。

        1)

        初始化A:隨機抽樣。

        2)

        初始化B:隨機生成N個基向量。

        3)

        Repeat。

        4)

        固定B,式(8)改寫成如下目標函數(shù):

        s.t. ‖bi‖2≤c,i=1,2,…,k

        用特征符號搜索法[4]求稀疏系數(shù)矩陣C。

        5)

        固定C,式(8)改寫成如下目標函數(shù):

        s.t. ‖bi‖2≤c,i=1,2,…,k

        利用拉格朗日對偶法[4]求基向量集合B。

        6)

        Until超過最大迭代次數(shù)或者達到收斂條件。

        3 實驗結果與分析

        本文在兩個具有挑戰(zhàn)性的數(shù)據(jù)集上進行實驗來驗證所提算法的有效性和算法效率。

        3.1 實驗數(shù)據(jù)集

        Scene15包含15個場景類別,每個類別包含200至400張圖片,共4 485幅圖像,包括城市、建筑等,各個場景差別很大。Caltech101包含101物體類別,還有一個背景類,每個類包含31至800張圖片不等,總共9 144幅圖像,類內(nèi)差別很大,包含的物體豐富多樣,數(shù)量更大,很有挑戰(zhàn)性。

        3.2 實驗設置

        實驗中將圖像轉為灰度圖并歸一化為不超過300×300像素,每次訓練從每個類別中隨機挑選n幅圖像,剩下的作為測試集。Scene15實驗中n分別取30、60、100;Caltech101實驗中n設為15、20、25、30;取同一數(shù)據(jù)集上的10次實驗平均值作為本文的最終實驗結果。

        SIFT特征提取以8像素為步長,塊大小設為16×16,HOG特征提取也是以8像素為步長,塊大小設為16×16??臻g金字塔劃為3層,文獻[14]根據(jù)交叉驗證認為λ1在0.1~0.4,λ2在0.2~0.5比較合適,本文取:λ1=0.15,λ2=0.3,k=3?;蛄康拇笮≡O為1 024,采用最大值池化方法。支持向量機采用LIBSVM工具包libsvm3.20。本實驗所用計算機配置為 Intel Core i5, 2.50 GHz CPU,8 GB 內(nèi)存,軟件環(huán)境為Windows 7下的Matlab R2012a。

        3.3 實驗結果分析

        3.3.1 Scene15實驗結果及分析

        本文主要是對傳統(tǒng)稀疏編碼進行改進,加入Hessian正則項,得到HSC,從而利用特征空間的拓撲信息,提升字典學習和特征編碼的有效性,提高分類的準確率。本文將所提算法與以下經(jīng)典的方法進行比較:文獻[6]局部約束線性編碼(LLC)是在稀疏編碼的基礎上進行局部特征的線性約束,從而提升分類準確率;文獻[8]基于稀疏字典學習,提出基于稀疏編碼的fisher判別字典學習方法(FDDL),將Fisher 線性鑒別準則作用在稀疏系數(shù)上,以增強字典的鑒別性,從而提高分類的準確率;文獻[9]也是在稀疏編碼的基礎上,提出支持區(qū)別性字典學習(SDDL ),通過計算一個類別中各個圖像的聯(lián)合稀疏系數(shù),應用到字典學習中,利用各個圖片特征的相關性信息來提高分類準確率;文獻[11]為了獲取特征更多的信息,提出多核學習稀疏編碼(MKLSC),使用多個非線性核把特征映射到高維空間,使得特征區(qū)分性更強,分類準確率也得到提高。這些方法都是改進傳統(tǒng)稀疏編碼來提高分類準確性,所以選擇這些經(jīng)典的方法作為本文算法的比較對象。

        在Scene15數(shù)據(jù)集上,取10次實驗的平均值作為本文的實驗準確率,對比結果如表1所示。

        表1 Scene15數(shù)據(jù)集上的分類準確率 %Tab. 1 Classification accuracy on dataset Scene15 %

        從表1可以看出,隨著訓練樣本的增加,五種算法的分類準確率也逐步提高。在訓練樣本數(shù)為30和60時,HSC取得的分類準確率都是最高的,比LLC分別高2.83個百分點、5.4個百分點,LLC只是在傳統(tǒng)稀疏編碼的基礎上進行局部的線性約束,并沒有有效地利用特征的更多信息;另外HSC比FDDL和MKLSC高1個百分點左右。在訓練樣本為30時,SDDL獲得的準確率比HSC取得的準確率低0.52個百分點;雖然在訓練樣本為100時,SDDL的準確率比HSC的準確率高0.08個百分點,但是在訓練樣本為60時,SDDL的準確率比HSC低0.39個百分點。所以HSC的多特征提取能獲得更多的圖像信息,Hessian正則項使得編碼后的特征能更好地描述圖像,因此圖像分類的準確率也得到提高。 綜合分析,本文方法HSC的分類性能是這五種算法中最好的。

        3.3.2 Caltech101實驗結果及分析

        該數(shù)據(jù)集圖像數(shù)量較大,由于從整個數(shù)據(jù)集上提取的特征數(shù)目龐大,全部用于字典學習耗費時間太長,本次實驗中,特征抽樣和基向量個數(shù)的取值和經(jīng)典方法LLC、FDLL一樣。采集200 000個抽樣特征進行碼本的生成,基向量個數(shù)設為1 024,本文方法HSC與LLC、FDDL、SDDL和MKLSC的實驗對比結果如表2所示。

        表2 Caltech101數(shù)據(jù)集上的分類準確率 %Tab. 2 Classification accuracy on dataset Caltech101 %

        從表2可以看出,隨著訓練樣本的增加,五種算法的分類準確率也逐步提高。在訓練樣本15時,LLC獲得的準確率是最低的65.43%,HSC獲得的準確率是最高的66.54%,比LLC的準確率提高了1.11個百分點。在訓練樣本為20和25時,HSC都取得了最高的準確率,其中在訓練樣本為20時,HSC比SDDL獲得的準確率高了0.51個百分點。在訓練樣本為30時,雖然SDDL獲得的準確率是最高的73.58%,但是只比HSC高0.07個百分點。其中,在訓練樣本為30時,LLC獲得的準確率比FDDL和MKLSC的都高,分析原因可能是:實驗是從每類類別的圖像中隨機抽取訓練樣本數(shù)進行訓練,余下的作為測試樣本,那么每個算法抽取的圖片是不一樣的,每一次實驗結果都是在一個區(qū)間之內(nèi)波動,這就會造成準確率存在一定的隨機性。另外,在Caltech101數(shù)據(jù)集上,五種算法的分類準確率相差不是很大,原因可能是這個數(shù)據(jù)集類別多,數(shù)據(jù)量較大,而且這次實驗中,從每類類別中抽取的訓練樣本數(shù)差只有5,這導致了各個算法能有效利用的圖像信息可能不會相差太大,所以分類準確率也就沒有相差很大。

        3.3.3 Caltech101數(shù)據(jù)集上的耗時對比實驗

        分類準確率固然是算法分類性能的一個重要標準, 但整個實驗消耗的時間也是一個重要的衡量標準,特別是在分類準確率相差不是很大的時候,整個算法的運算時間更能體現(xiàn)一個方法的性能是否優(yōu)越,所以本文的耗時實驗選擇在Caltech101上進行。由于該數(shù)據(jù)集一共有102類,有9 144張圖片,數(shù)量較大,如果從整個數(shù)據(jù)集上提取特征進行字典學習的話,耗費時間太長,所以和經(jīng)典方法LLC,F(xiàn)DLL一樣,采集200 000個抽樣特征進行碼本的生成,然后從每個類別中隨機抽取訓練樣本進行訓練,余下的圖片作為測試樣本,以整個算法運行的時間作為實驗結果,如表3所示。

        表3 耗時對比實驗結果 hTab. 1 Experimental results of time-consuming comparison h

        從表3可以看出,隨著訓練樣本的增加,計算量的增加,五種算法法消耗的時間也都逐步增加。仔細分析還可以發(fā)現(xiàn),隨著訓練樣本的增加,五種算法與前一次實驗耗費的時間差值也逐步增大。比如,MKLSC在訓練樣本為20消耗的時間比樣本為15時多了0.66 h,但是在訓練樣本為30時時間消耗比樣本數(shù)為25多了1.12 h。這主要是因為訓練樣本越多,相應的測試樣本也就越少,計算機的計算量也增大,CPU負荷越來越重,內(nèi)存消耗也就越多,整個計算機的性能也會下降,導致算法消耗的時間會越來越多。局部約束線性編碼(LLC)耗費的時間是最少的,因為它是在稀疏編碼的基礎上,僅增加了特征局部線性約束,尋找特征的k近鄰特征點,使用線性SVM作為分類器,所以時間消耗少。本文算法HSC消耗的時間是第二少,但是分類準確率比LLC高。FDDL消耗的時間比HSC花費的時間多,但比SDDL和MKLSC花費的少。FDDL是在稀疏編碼時加入Fisher判別準則,和本文算法加入Hessian正則項的思路類似的,計算量也比較接近,所以和本文算法耗費的時間相差沒有很大。SDDL不僅僅是對單一圖像進行稀疏編碼計算,它還利用了一個類別的余下圖像,計算得到一個復合判別準則進行相似性判別,而不是直接使用歐氏距離,這導致該算法的計算量巨大,所以耗費的時間也是較多的。MKLSC消耗的時間是最多的,它是使用非線性核進行的特征空間的高維映射,不僅要計算每個核的參數(shù),還要對各個核參數(shù)進行統(tǒng)一計算,因此多核學習稀疏編碼計算量最大,該算法運行時間最長,HSC的用時比MKLSC少40%左右。所以綜合準確率和耗時分析,本文提出的算法HSC是分類性能最好的。

        3.3.4 多尺度劃分對分類準確性的影響

        本文分析了空間金字塔各個層次L對分類性能的影響,實驗L分別取0、1、2、3,即圖像被劃分成1×1、2×2、4×4、 8×8。在Scene15數(shù)據(jù)集上進行實驗,結果如圖2所示。

        圖2 空間金字塔各層的分類能力Fig. 2 Classification ability of each layer in spacial pyramid

        從圖2可以看出,當沒有加入空間信息(L=0)即傳統(tǒng)的詞袋模型時,本文提出的算法分類能力很差,因為它只訓練得到一個全局詞典,即使在訓練樣本為100,準確性也大約只有70%。且從圖2分析可知,空間金字塔第1層、第2層、第3層總體上分類能力是差不多的,其中第2層的分類性能是最好的。這主要是因為只劃分1層時,字典訓練只得到4個視覺詞典導致獲取空間結構信息不足進而影響分類性能,劃分有3層時,性能有時還低于第1層,可能是由于劃分太細,導致塊太小而沒有明顯的區(qū)分信息,編碼時同樣不能很好表征圖像,這也說明了不是劃分的層數(shù)越大越好。

        圖2只研究了單層對于分類性能的影響,而我們往往是進行多層特征向量計算,然后將各層特征向量連接用于分類,本次實驗研究的層數(shù)分別為L=(0)、L=(0,1)、L=(0,1,2)、L=(0,1,2,3)。比如當L=(0,1,2),每層的子區(qū)域數(shù)目分別為1×1、2×2、4×4,然后將每層子區(qū)域使用最大池化算法[3]拼接起來獲得該層的編碼,最后在層與層之間同樣使用拼接操作,這樣就得到每幅圖像的最后編碼向量表示,即21×1 024 維的向量,實驗結果如圖3所示。圖3對比圖2可以發(fā)現(xiàn),當訓練樣本為100時,將各層的特征向量連接用于分類的最高準確率比僅使用單層最高準確率提高了7個百分點左右,這表明連接各層的特征向量可以明顯地提升分類性能。當取L=(0, 1, 2)和L=(0, 1, 2, 3)時,算法的分類性能大致相當,但是L=3時圖像一共劃分成85個子區(qū)域,整個圖像劃分過細,導致整個分類過程編碼計算復雜,程序運行時間長。所以本文算法在應用空間金字塔劃分時,取L=(0, 1, 2)是最好的選擇,既能有效地提高準確率,又不會因為圖像劃分過細,導致算法運行時間過長。

        圖3 聯(lián)合各層的分類能力Fig. 3 Classification ability of multi-layer

        4 結語

        針對傳統(tǒng)稀疏編碼圖像分類算法提取單一類型特征,缺乏圖像空間結構信息和特征拓撲結構信息的問題,本文首先對圖像進行空間金字塔多尺度劃分,并在各個子空間對HOG和SIFT特征進行融合;然后,在傳統(tǒng)稀疏編碼的目標函數(shù)中引入二階Hessian能量函數(shù)作為正則項,以利用特征拓撲結構信息。實驗結果表明,本文算法相比幾個對比的經(jīng)典算法有更高的分類準確率;同時也對本文算法的效率進行了實驗分析,結果表明本文算法的效率優(yōu)于對比算法。本文還深入研究了空間金字塔多尺度劃分對分類性能的影響,可以用于指導劃分方式的選取。本文算法沒有研究各個圖像特征之間的聯(lián)系,這也是一個今后值得研究的方向,且大規(guī)模的數(shù)據(jù)集分類仍是一個很有挑戰(zhàn)的問題,下一步將考慮進行深度學習的分類研究。

        References)

        [1] 李博,曹鵬,栗偉,等.基于尺度空間中多特征融合的醫(yī)學影像分類[J].計算機應用,2013,33(4):1108-1111,1114.(LI B, CAO P, LI W, et al. Medical image classification based on scale space multi-feature fusion [J]. Journal of Computer Applications, 2013, 33(4): 1108-1111, 1114.)

        [2] 王澍,呂學強,張凱,等.基于快速魯棒特征集合統(tǒng)計特征的圖像分類方法[J].計算機應用,2015,35(1):224-230.(WANG P, LYU X Q, ZHANG K, et al. Image classification approach based on statistical features of speed up robust feature set [J]. Journal of Computer Applications, 2015, 35 (1): 224-230.)

        [3] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR 2006: Proceeding of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178.

        [4] LEE H, BATTLE H, RAINA R, et al. Efficient sparse coding algorithms [C]// Proceedings of the 2006 Annual Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 801-808.

        [5] YANG J C, YU K, GONG Y H, et al. Linear spatial pyramid matching using sparse coding for image classification [C]// CVPR 2009: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1794-1801.

        [6] WANG J J, YANG J C, YU K, et al. Locality-constrained linear coding for image classification [C]// CVPR 2010: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3360-3367.

        [7] 劉培娜,劉國軍,郭茂祖,等.非負局部約束線性編碼圖像分類算法[J].自動化學報,2015,41(7):1235-1243.(LIU P N, LIU G J, GUO M Z, et al, Image classification based on non-negative locality-constrained linear coding [J]. Acta Automatica Sinica, 2015, 41(7): 1235-1243.)

        [8] YANG M, ZHANG L, FENG X C, et al. Sparse representation based Fisher discrimination dictionary learning for image classification [J]. International Journal of Computer Vision, 2014, 109(3): 209-232.

        [9] LIU Y, CHEN W, CHEN Q C, et al. Support discrimination dictionary learning for image classification [C]// ECCV 2016: Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Berlin: Springer, 2016: 375-390.

        [10] WANG L P, CHEN S C. Joint representation classification for collective face recognition [J]. Pattern Recognition, 2017, 63(5): 182-192.

        [11] SHRIVASTAVA A , PATEL V M, CHELLAPPA R. Multiple kernel learning for sparse representation-based classification [J] . IEEE Transactions on Image Processing, 2014, 23(7): 3013-3024.

        [12] FANG L Y, LI S T. Face recognition by exploiting local Gabor features with multitask adaptive sparse representation [J]. IEEE Transactions on Instrumentation and Measurement, 2015, 64(10): 2605-2615.

        [13] GAO S H, TSANG I W H, CHIA L T, et al. Local features are not lonely-Laplacian sparse coding for image classification [C]// CVPR 2010: Proceeding of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3555-3561.

        [14] KIM K I, STEINKE F, HEIN M. Semi-supervised regression using Hessian energy with an application to semi-supervised dimensionality reduction [C]// Proceedings of the 2009 Annual Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2009: 979-987.

        [15] 史彩娟,阮秋琦,劉健,等.基于Hessian半監(jiān)督特征選擇的網(wǎng)絡圖像標注[J].計算機應用研究,2015,32(2):606-608,618.(SHI C J, RUAN Q Q, LIU J, et al, Web image annotation based on Hessian semi-supervised feature selection [J]. Application Research of Computers, 2015, 32(2): 606-608, 618.)

        The work is partially supported by the National Natural Science Foundation of China (61202292), the Natural Science Foundation of Guangdong Province (9151064101000037).

        LIUShengqing, born in 1991, M. S. candidate. His research interests include machine learning, image classification.

        SUNJifeng, born in 1962, Ph. D., professor. His research interests include machine learning, pattern recognition, computer vision.

        YUJialin, born in 1989, Ph. D. candidate. His research interests include machine learning, human pose estimation.

        SONGZiguo, born in 1988, Ph. D. candidate. His research interests include machine learning, target tracking.

        Imageclassificationalgorithmbasedonmulti-scalefeaturefusionandHessiansparsecoding

        LIU Shengqing*, SUN Jifeng, YU Jialin, SONG Zhiguo

        (SchoolofElectronicandInformationEngineering,SouthChinaUniversityofTechnology,GuangzhouGuangdong510641,China)

        The traditional sparse coding image classification algorithms extract single type features, ignore the spatial structure information of the images, and can not make full use of the feature topological structure information in feature coding. In order to solve the problems, a image classification algorithm based on multi-scale feature fusion and Hessian Sparse Coding (HSC) was proposed. Firstly, the image was divided into sub-regions with multi-scale spatial pyramid. Secondly, the Histogram of Oriented Gradient (HOG) and Scale-Invariant Feature Transform (SIFT) were effectively merged in each subspace layer. Then, in order to make full use of the feature topology information, the second order Hessian energy function was introduced to the traditional sparse coding target function as a regularization term. Finally, Support Vector Machine (SVM) was used to classify the images. The experimental results on dataset Scene15 show that, the accuracy of HSC is 3-5 percentage points higher than that of Locality-constrained Linear Coding (LLC), while it is 1-3 percentage points higher than that of Support Discrimination Dictionary Learning (SDDL) and other comparative methods. Time-consuming experimental results on dataset Caltech101 show that, the time-consuming of HSC is about 40% less than that of the Multiple Kernel Learning Sparse Coding (MKLSC). The proposed HSC can effectively improve the accuracy of image classification, and its efficiency is also better than the contrast algorithms.

        image classification; feature fusion; spatial pyramid; sparse coding; Support Vector Machine (SVM)

        2017- 06- 05;

        2017- 08- 05。

        國家自然科學基金資助項目(61202292);廣東省自然科學基金資助項目(9151064101000037)。

        劉盛清(1991—),男,江西吉安人,碩士研究生,主要研究方向:機器學習、圖像分類; 孫季豐(1962—),男,廣東廣州人,教授,博士,主要研究方向:機器學習、模式識別、計算機視覺; 余家林(1989—),男,貴州鎮(zhèn)遠人,博士研究生,主要研究方向:機器學習、人體姿態(tài)估計; 宋治國(1988—),男,湖南湘西人,博士研究生,主要研究方向:機器學習、目標跟蹤。

        1001- 9081(2017)12- 3517- 06

        10.11772/j.issn.1001- 9081.2017.12.3517

        (*通信作者電子郵箱jxjalsq@qq.com)

        TP391.4

        A

        猜你喜歡
        訓練樣本準確率編碼
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
        《全元詩》未編碼疑難字考辨十五則
        人工智能
        子帶編碼在圖像壓縮編碼中的應用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        高速公路車牌識別標識站準確率驗證法
        寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
        免费在线不卡黄色大片| 中文字幕久久久精品无码| 国产在线无码一区二区三区| 初尝黑人嗷嗷叫中文字幕| 国产一级毛片卡| 国产成人夜色在线视频观看| 国产理论亚洲天堂av| 成人久久黑人中出内射青草| 久久久久亚洲av无码a片| 夜夜爽妓女8888888视频| 欧美 丝袜 自拍 制服 另类| 亚洲欧洲日产国码高潮αv| 亚洲婷婷丁香激情| 一级一片内射在线播放| 国产精品国产传播国产三级| 一本久久综合亚洲鲁鲁五月天 | 国产精品美女白浆喷水| 日本人妻系列一区二区| 无码国产精成人午夜视频一区二区 | 麻豆视频黄片在线免费观看| 美女人妻中出日本人妻| 国产成人精品日本亚洲专区61| 亚洲中文字幕国产综合| 精品国产免费Av无码久久久| 亚洲青青草视频在线播放| 亚洲少妇一区二区三区老| 色综合天天综合欧美综合| 亚洲综合激情五月丁香六月| 丰满人妻被黑人中出849| 精品久久亚洲一级α| 青青草免费在线视频导航| 97人妻精品一区二区三区男同| 青青青爽在线视频观看| 成av人片一区二区三区久久 | 性色av闺蜜一区二区三区| 日韩秘 无码一区二区三区| 日本一区二区国产高清在线播放 | 玩两个丰满老熟女| 亚洲在线一区二区三区四区| 久久精品国产亚洲av四叶草| 少妇饥渴偷公乱a级无码|