張 鴻 伍 萍
1(武漢科技大學計算機科學與技術學院 湖北 武漢 430065)2(武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室 湖北 武漢 430065)3(武漢大學軟件工程國家重點實驗室 湖北 武漢 430072)
?
基于線性解碼和深度回歸預測的圖像分類算法
張 鴻1,2,3伍 萍1
1(武漢科技大學計算機科學與技術學院 湖北 武漢 430065)2(武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室 湖北 武漢 430065)3(武漢大學軟件工程國家重點實驗室 湖北 武漢 430072)
針對圖像分類研究中的分類器輸入范圍限制和縮放問題,提出一種基于線性特征解碼和深度回歸模型圖像分類算法。首先,通過線性解碼器學習低分辨率圖像的特征參數(shù);然后,運用學習到的特征對原始高分辨率圖像進行卷積和池化操作,得到特征矩陣;再通過Softmax回歸模型對圖像進行深度學習和分類;最后用距離度量算法得到圖像分類結果。實驗結果從多方面對比和驗證了該方法在分類效率方面超越了傳統(tǒng)的誤差反向傳播算法BP和K最近鄰分類算法KNN。
線性解碼器 回歸模型 深度神經(jīng)網(wǎng)絡 圖像分類
隨著互聯(lián)網(wǎng)技術和多媒體技術的蓬勃發(fā)展,以及社交媒體的日益普及和流行,人們接觸到的多媒體數(shù)據(jù)也呈現(xiàn)出直線增長的趨勢。圖像數(shù)據(jù)在多媒體數(shù)據(jù)海洋中占據(jù)了十分重要的位置,它也逐步成為人們信息交流、經(jīng)驗分享中的重要媒介。然而,在這些網(wǎng)絡資源庫中,大部分的圖像數(shù)據(jù)是沒有任何文本標注的,如果單純依靠手工標注的方式對這些紛繁復雜的圖像進行分類和管理,則存在費時費力、效率低的問題。于是,如何采用合理的計算機圖像分析方法,進行高效的自動分類、管理及使用,一直是圖像信息處理領域的研究熱點[1-5]。
一圖勝千言,圖像的底層特征和高層語義之間存在著難以逾越的語義鴻溝[6]。為此,許多研究者提出了基于機器學習、統(tǒng)計分析的解決方法以縮小語義鴻溝,可成功應用于提高圖像分類的準確率。例如:文獻[7]采用誤差反向傳播算法BP,在底層特征的基礎上運用機器學習的理論來得到圖像的抽象表示。但是,這種方法容易陷入局部最小值,難以達到最優(yōu)的學習效果,對復雜函數(shù)的表示能力有限,不能有效針對多重的分類問題進行泛化。針對這些問題,Hinton在2006年提出了第三代神經(jīng)網(wǎng)絡[8],即:深度學習方法。該方法可以通過學習一種深層非線性網(wǎng)絡結構來實現(xiàn)復雜函數(shù)逼近,展現(xiàn)出較為強大的從大量樣本集中學習數(shù)據(jù)集本質(zhì)特征的能力[9]。例如:文獻[10]采用卷積神經(jīng)網(wǎng)絡CNN獲取圖像的特征,并構成一幅特征映射圖來對圖像進行分類;但這種方法需要收集大量有標記的圖像樣本來訓練,對訓練集的要求比較高??紤]到標記樣本有限的問題,Poultney等運用未標記樣本集學習得到了圖像的特征表達關系[11];Le等采用基于稀疏自編碼的神經(jīng)網(wǎng)絡從圖像中建立其高層次的特征檢測器[12],采用無監(jiān)督的反向傳播方法,使目標值等于輸入值,但該算法需要對輸入進行限制或者縮放,使輸入值在[0,1]的范圍內(nèi)。然而,目前關于數(shù)據(jù)范圍的優(yōu)化取值還屬于開放性問題。
針對數(shù)據(jù)輸入范圍的限制和縮放問題,本文提出了基于線性解碼器的深度神經(jīng)網(wǎng)絡方法,本文算法的流程如圖1所示。先從原始的大圖像中隨機選擇小塊的圖像區(qū)域,然后通過線性解碼器學習到小圖像的特征參數(shù),并將其運用到對原始大圖像的卷積和池化操作中,得到特征矩陣。在此基礎上,進行Softmax回歸分類和結果優(yōu)化,與傳統(tǒng)的基于向量模型的特征相似度度量模型相結合,提出了相應的自動分類機制。該網(wǎng)絡包含輸入層、隱藏層和輸出層,并且無需對輸入數(shù)據(jù)進行限制或縮放,簡化了神經(jīng)網(wǎng)絡訓練的復雜度,提高了數(shù)據(jù)預處理的效率。
圖1 本文算法流程圖
底層特征分析一直是影響圖像語義理解和分類效率的關鍵因素。本節(jié)采用基于線性解碼器的神經(jīng)網(wǎng)絡進行圖像的特征學習,再利用學習到的參數(shù)在訓練集及測試集中進行卷積特征分析,以及池化操作得到圖像特征矩陣。
1.1 圖像特征的線性解碼算法分析
受深度學習中稀疏自編碼方法[12,13]的啟發(fā),本文提出一種基于線性解碼器的神經(jīng)網(wǎng)絡方法。神經(jīng)網(wǎng)絡方法是模擬人類神經(jīng)網(wǎng)絡中的特性,即人類大腦中的神經(jīng)元細胞在接受刺激后會變的活躍,并在相互之間傳遞信息;通過設置網(wǎng)絡中的每一層的節(jié)點個數(shù),即:神經(jīng)元個數(shù),在神經(jīng)網(wǎng)絡的各個層次中傳遞圖像特征數(shù)據(jù),在達到收斂閾值或者最大迭代次數(shù)時,實現(xiàn)圖像本質(zhì)特征的智能學習。模擬過程如圖1所示,LayerL1為輸入層,接受到輸入信息以后該層的神經(jīng)元被激活,處理信息后傳遞至LayerL2層,即:隱藏層;隱藏層的神經(jīng)元被激活并將處理之后的信息傳遞至LayerL3層,即:輸出層;輸出層神經(jīng)元接受信息以后,輸出該層處理后的結果。
假設集合X={x1,x2,x3,…,xi,…,xm}表示未標記的圖像訓練數(shù)據(jù)集,其中,xi表示輸入的第i幅圖像,m表示未標記的圖像數(shù)據(jù)集樣本的數(shù)量。向量Y={y1,y2,y3,…,yi,…,ym}表示輸入為X時,圖像集合所對應樣本標記的期望輸出值,其中,yi表示輸入為第i幅圖像時的期望輸出值。本節(jié)在已有未標記的圖像樣本集X的基礎上,生成一個假設模型hw,b(x),表示輸入為x時的假設輸出,其中,w為權值向量,b為偏置向量。特征學習的過程就是求解向量w和向量b。
(1)
(2)
其中,第一項為均方差項,第二項為防止過度擬合添加的權重衰減項。nl表示網(wǎng)絡層數(shù),λ為權重衰減參數(shù),第三項為稀疏性控制的懲罰項,β為控制稀疏性懲罰因子的權重。
(3)
1.2 基于部分聯(lián)通網(wǎng)絡的卷積特征分析
由于神經(jīng)網(wǎng)絡方法需要訓練網(wǎng)絡中神經(jīng)元的權值向量w和偏置向量b,而向量w和b的個數(shù)則取決于圖像分辨率的大小[8]。圖像的分辨率越大,網(wǎng)絡需要學習的向量個數(shù)越多??梢姡瑘D像分辨率的大小直接影響參數(shù)學習的復雜度。
為此,本節(jié)提出基于部分聯(lián)通網(wǎng)絡的卷積算法,即:將圖像訓練集中初始的圖像樣本全部切分成若干個小區(qū)域,構成區(qū)域子集,作為神經(jīng)網(wǎng)絡的輸入層,也相當于在原有全聯(lián)通網(wǎng)絡基礎上,使隱藏層神經(jīng)元只連接輸入層的一部分神經(jīng)元。通過該算法得到數(shù)據(jù)集卷積后的特征矩陣,將該矩陣作為圖像分類器的輸入。
假設集合Ω={(z1,r1),(z2,r2),…,(zi,ri),…,(zt,rt)}表示有標記的圖像訓練集樣本,其中t用來表示已標記的訓練集樣本個數(shù),并假設標記樣本集Ω中的圖像屬于k個不同的類別,zi表示訓練集中的第i幅標記樣本圖像,ri表示該圖像所屬的類別編號。假設未標記的圖像測試集用S={s1,s2,…,si,…,sn}表示,其中si表示測試集中的第i幅圖像,n表示測試集樣本個數(shù)。假設數(shù)據(jù)集Ω和S中圖像的分辨率為a×a,從中隨機選取一塊分辨率為b×b的一個局部小塊圖像。將選取的所有局部小塊圖像數(shù)據(jù)集X={x1,x2,x3,…,xi,…,xm}作為線性解碼器的輸入,如圖1中Pathes所示。
根據(jù)1.1節(jié)的特征學習算法計算出權值向量w和偏置向量b,設置卷積運算的步長為1,并利用從X={x1,x2,x3,…,xi,…,xm}中學習到的參數(shù)值對訓練集Ω以及測試集S進行卷積運算。則在訓練集Ω和測試集S上完成卷積后的特征矩陣分別為DConvoled_Train、DConvoled_Test,其維數(shù)大小均為為:
k×(a-b+1)×(a-b+1)
(4)
其中,k為隱藏層中的神經(jīng)元個數(shù)??梢姡仃嘍Convoled_Train和DConvoled_Test的維數(shù)非常高,不利于訓練分類器,很容易出現(xiàn)過擬合的現(xiàn)象,影響圖像分類效率。為此,本文采用計算圖像各個區(qū)域上的特定特征的平均值方法對圖像不同位置的特征進行聚合統(tǒng)計,即:池化操作。設定池化區(qū)域的大小為Dpooling,且池化操作必須作用于不重復的區(qū)域內(nèi),則可得到池化后的特征矩陣DPooled_Train和DPooled_Test。
根據(jù)第1節(jié)中得到的訓練集Ω與測試集S圖像的特征矩陣DPooled_Train和DPooled_Test,采用改進的Softmax深度回歸預測模型進行初步分類,并結合圖像的視覺特征,學習得到測試集S中未標記樣本si所屬的語義類別。
2.1 回歸函數(shù)定義和參數(shù)求解
將訓練集圖像的特征矩陣DPooled_Train作為該模型的訓練樣本,對于每一個輸入的樣本(zi,ri),該模型預測其每一種分類結果出現(xiàn)的概率值為p(ri=k|zi),假設函數(shù)定義如下:
(5)
其中,θ1,θ2,…,θk是該模型的訓練參數(shù)。定義函數(shù)hθ(zi)求解的代價函數(shù)為:
(6)
其中1{ri=j}為指示性函數(shù),當ri=j為真時,1{ri=j}=1,反之1{ri=j}=0。為了防止模型中參數(shù)的冗余,在代價函數(shù)J(θ)中加入權重衰減項:
(7)
進一步,求其偏導數(shù)為:
(8)
通過迭代得到J(θ)的最小值,求出參數(shù)θ1,θ2,…,θk,得到訓練好的Softmax回歸模型。然后運用該模型來對測試集S進行分類,通過式(5)計算出每一個樣本在每一個類別中的概率值。
(9)
2.2 未標記測試樣本的分類方法
在未標記的圖像訓練集X中,除了通過基于線性解碼器的神經(jīng)網(wǎng)絡學習到的特征DPooled_feature,還可以提取圖像的視覺特征。由于2.1節(jié)只是對測試集中的每個樣本進行了初步預測,本節(jié)在預測標簽集合Ci的基礎上,在視覺特征空間中采用距離度量的算法確定最終的預測標簽。
設從圖像訓練集和測試集中所提取的圖像視覺特征的維數(shù)均為p,在包含m個有標記圖像的訓練集Ω上可得到視覺特征矩陣A∈m×p。同時在包含n個未標記圖像的測試集Ε上得到視覺特征矩陣B∈n×p。設zi、sj分別表示矩陣A、B中的任意一個訓練樣本和一個測試樣本的特征向量,它們之間的距離記為dij,選擇歐式距離作為zi和sj的距離度量。
在2.1節(jié)中,已經(jīng)完成了對圖像的初步分類,因此,在計算樣本間的距離時,只計算測試樣本與預測類別Ci中包括的類別的距離。然后,取dij最小值所對應樣本的類別作為最終的測試樣本sj的預測結果,記為Li,完成圖像的分類。整個算法流程如算法1所示。
算法1 基于線性解碼和回歸預測的圖像分類算法
3.1 數(shù)據(jù)集與特征提取
為了驗證上述算法的性能,本文選取了兩組圖像數(shù)據(jù)集進行測試和驗證。首先,從Web頁面采集了10個語義類別的圖像作為數(shù)據(jù)集,包括:鳥、馬、小狗、海豚、大象、爆炸、飛機、摩托車、汽車、溪水。其中每個類別包含100幅圖像,從中選取700幅圖像作為訓練集,其余300幅圖像作為未標記的測試集。此外,還使用了公共圖像數(shù)據(jù)集MSRA-MM[19]進行了實驗驗證,從MSRA-MM數(shù)據(jù)庫中選取了6000幅圖像作為訓練集,其余3000幅作為測試集。圖2顯示了10個語義的Web圖像數(shù)據(jù)的示例,其中每一列表示從一個語義類別中隨機抽取的3幅圖像樣本。此外,實驗提取的底層視覺特征包括256-d HSV顏色直方圖、64-d LAB顏色聚合向量以及32-d Tamura方向度。
圖2 Web數(shù)據(jù)集樣本示例
3.2 實驗結果與分析
首先將Web數(shù)據(jù)集和MRSA-MM數(shù)據(jù)集中圖像尺寸進行歸一化,統(tǒng)一為96×96。同時,將用于1.1節(jié)中網(wǎng)絡學習的小圖像尺寸設定為8×8,且從每幅圖像中提取100幅小圖像,再從所有提取的小圖像中隨機選取100 000個樣本作為線性解碼器的輸入。由于圖像為彩色圖,需要將三個通道的值同時作為輸入層,則輸入層的神經(jīng)元個數(shù)為8×8×3,即192個;同樣,輸出層神經(jīng)元個數(shù)也為192個,且設置隱藏層的神經(jīng)元個數(shù)為400個,學習得到400個特征,如圖3所示。圖中每個小塊圖像表示所對應的隱藏層神經(jīng)元學習到的特征值的可視化表示,可以觀察到,很多小塊都是類似圖像的邊緣部分,這有利于進行邊緣檢測來識別圖像。同時,設置池化區(qū)域Dpooling的尺寸為19×19。
圖3 學習得到的400個隱藏層神經(jīng)元特征
為了驗證本文方法的有效性和優(yōu)越性,選取隱藏神經(jīng)元為400個的傳統(tǒng)BP神經(jīng)網(wǎng)絡、Softmax分類、KNN分類算法,并使用精確率ACC(accuracy)作為評價指標。實驗結果如表1所示。
表1 不同算法在MSRA和WEB數(shù)據(jù)集上的ACC性能比較
從表1可以看出,在隱藏層神經(jīng)元數(shù)目相同的情況下,采用Softmax分類方法的性能高于傳統(tǒng)BP神經(jīng)網(wǎng)絡10.7個百分點。在確定分類方法后,為驗證本文方法的有效性和優(yōu)越性,實驗分別采用下列三種距離度量方法,即:歐氏距離度量(Euclidean Distance)、馬氏距離度量(Mahalanobis Distance)、夾角余弦(Cosine)距離度量,與本文的方法進行對比實驗,并使用精確率ACC(accuracy)作為評價指標,實驗結果如表2所示。
表2 不同算法在MSRA和WEB數(shù)據(jù)集上的ACC性能比較
由表2可見,相對于使用單一的距離度量算法,與Softmax分類方法相結合后的性能有顯著提高。同時,本文方法在三種組合算法中的性能最優(yōu),高于Softmax+Mahalanobis Distance、Softmax+Cosine28個百分點和17個百分點。
本文提出的基于線性解碼器的深度神經(jīng)網(wǎng)絡,并采用改進的Softmax回歸模型與圖像視覺特征距離度量相結合的分類算法,避免了單一使用網(wǎng)絡學習的特征矩陣或者人工提取的視覺特征矩陣帶來的分類誤差。實驗結果驗證了本文方法在不同的圖像數(shù)據(jù)集上均取得了較好的分類性能,并且明顯超越了傳統(tǒng)的圖像分類方法。如何將該算法拓展到多標注或多類別圖像分類中,是下一步要考慮的問題。
[1] Gudivada V N,Raghavan V V.Content based image retrieval systems[J].Computer,1995,28(9):18-22.
[2] Cavazza M,Green R,Palmer I.Multimedia semantic features and image content description[C]//Multimedia Modeling,1998.MMM’98.Proceedings.1998.IEEE,1998:39-46.
[3] He X,King O,Ma W Y,et al.Learning a semantic space from user’s relevance feedback for image retrieval[J].Circuits and Systems for Video Technology,IEEE Transactions on,2003,13(1):39-48.
[4] Han D,Li W,Li Z.Semantic image classification using statistical local spatial relations model[J].Multimedia Tools and Applications,2008,39(2):169-188.
[5] Zhang Q,Izquierdo E.Multifeature analysis and semantic context learning for image classification[J].ACM Transactions on Multimedia Computing,Communications,and Applications (TOMCCAP),2013,9(2):12.
[6] Michael S Lew,Nicu Sebe,Chabane Djeraba,et al.Content-based multimedia information retrieval:State of the art and challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications (TOMM),2006,2(1):1-19.
[7] Cigizoglu H,Kisi O.Flow prediction by three back propagation techniques using k-fold partitioning of neural network training data[J].Nordic Hydrology,2005,36(1):49-64.
[8] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[9] Sun Z J,Xue L,Xu Y M,et al.Overview of deep learning[J].Jisuanji Yingyong Yanjiu,2012,29(8):2806-2810.
[10] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems.2012:1097-1105.
[11] Poultney C,Chopra S,Cun Y L.Efficient learning of sparse representations with an energy-based model[C]//Advances in neural information processing systems.2006:1137-1144.
[12] Le Q V.Building high-level features using large scale unsupervised learning[C]//Acoustics,Speech and Signal Processing (ICASSP),2013 IEEE International Conference on.IEEE,2013:8595-8598.
[13] Hinton G E.Learning multiple layers of representation[J].Trends in cognitive sciences,2007,11(10):428-434.
[14] Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural computation,2002,14(8):1771-1800.
[15] Rifai S,Vincent P,Muller X,et al.Contractive auto-encoders:Explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11).2011:833-840.
[16] Li C H,Ho H H,Kuo B C,et al.A Semi-Supervised Feature Extraction based on Supervised and Fuzzy-based Linear Discriminant Analysis for Hyperspectral Image Classification[J].Appl.Math,2015,9(1L):81-87.
[17] Bengio Y,Courville A,Vincent P.Representation learning:A review and new perspectives[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2013,35(8):1798-1828.
[18] Dong Z,Pei M,He Y,et al.Vehicle Type Classification Using Unsupervised Convolutional Neural Network[C]//Pattern Recognition (ICPR),2014 22nd International Conference on.IEEE,2014:172-177.
[19] Li H,Wang M,Hua X S.MSRA-MM 2.0:A large-scale web multimedia dataset[C] //Proceedings of the 2009 IEEE International Conference on Data Mining Workshops,Washington,2009:164-169
[20] Akata Z,Perronnin F,Harchaoui Z,et al.Good practice in large-scale learning for image classification[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(3):507-520.
[21] Abdelbary H A,ElKorany A M,Bahgat R.Utilizing deep learning for content-based community detection[C]//Science and Information Conference (SAI),2014.IEEE,2014:777-784.
[22] Ciresan D,Meier U,Schmidhuber J.Multi-column deep neural networks for image classification[C]//Computer Vision and Pattern Recognition (CVPR),2012 IEEE Conference on.IEEE,2012:3642-3649.
IMAGE CLASSIFICATION BASED ON LINEAR DECODING AND DEEP REGRESSION PREDICTION
Zhang Hong1,2,3Wu Ping1
1(CollegeofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,Hubei,China)2(IntelligentInformationProcessingandReal-timeIndustrialSystemsHubeiProvinceKeyLaboratory,WuhanUniversityofScienceandTechnology,Wuhan430065,Hubei,China)3(StateKeyLaboratoryofSoftwareEngineering,WuhanUniversity,Wuhan430072,Hubei,China)
Aiming at the problems of the limitation of classifier input range and the zooming in image classification research,this paper proposes an image classification algorithm which is based on linear feature decoding and deep regression model.First,we learn feature parameters of low-resolution image through linear decoder;secondly,by using the learned features we convolve and pool the primitive high-resolution image to obtain the feature matrix;thirdly,by using Softmax regression model we carry out deep learning and classification on image;finally,we obtain the classification results with distance metric algorithm.Experimental results contrast in many ways as well as verify that our method is superior to traditional error back propagation algorithm and K-nearest neighbour classification algorithm in classification efficiency.
Linear decoders Regression model Deep neural network Image classification
2015-03-09。國家自然科學基金項目(61003127,61373109);武漢大學軟件工程國家重點實驗室開放基金項目(SKLSE2012-09-31)。張鴻,教授,主研領域:多媒體分析與檢索,統(tǒng)計學習,機器學習。伍萍,碩士生。
TP3
A
10.3969/j.issn.1000-386x.2016.11.031