張盛博 劉 娜 霍 宏 方 濤
?
基于層次形狀特征提取模型的圖像分類①
張盛博②劉 娜 霍 宏 方 濤③
(上海交通大學(xué)自動化系控制與信息處理教育部重點實驗室 上海 200240)
研究了基于層次形狀特征提取的圖像分類。針對從初級視覺皮層(V1)提取的條形特征對目標(biāo)形狀的描述不充分,提出了一種層次模型(V1-V2-V4),以進(jìn)一步提取角形、曲率特征。模型中V1層的條形特征提取采用Gabor模擬;V2層結(jié)合了抑制噪聲的3D高斯差分(DOG),并使用濾波方向相差90度的Gabor濾波器組提取多尺度角形特征;V4層通過曲率域計算來描述目標(biāo)輪廓的形變程度,并最終提取融合曲率與梯度方向的直方圖特征。該模型的優(yōu)勢在于,通過角形以及曲率計算的層次表達(dá),可有效增強目標(biāo)形狀的關(guān)鍵特征點(如角點位置)的提取,并且結(jié)合曲率與梯度的直方圖描述,也可有效彌補單一曲率或梯度特征局部描述不足的問題。在MNIST手寫數(shù)字與21類遙感影像上的實驗表明,曲率與梯度的融合特征的運用可獲得98.94%的數(shù)字識別精度,同時在遙感影像分類中也可獲得較好的分類效果。
腹側(cè)通路, 形狀特征, 曲率, 層次性, 圖像分類
圖像分類是利用計算機視覺技術(shù),根據(jù)目標(biāo)在圖像信息中所反映出的特征,把不同類別的目標(biāo)識別、區(qū)分開來的圖像處理方法。人的視覺系統(tǒng)可以快速、準(zhǔn)確地處理大量視覺信息,相比于傳統(tǒng)的計算機視覺方法,可以更好地完成目標(biāo)識別任務(wù)。視覺系統(tǒng)對目標(biāo)形狀的信息處理是從視網(wǎng)膜開始,經(jīng)過側(cè)膝體(LGN)、V1、V2、V4、IT等層次的過程[1]。受初級視覺皮層V1啟發(fā),余鵬等[2]提出了一種前饋深度層次模型。該模型利用稀疏連接模擬感受野特性,結(jié)合方向圖實現(xiàn)對目標(biāo)的抽象表示。文獻(xiàn)[3]基于V1簡單細(xì)胞特性與極大化稀疏原理,提出了快速收斂的獨立成分分析(independent component analysis, ICA)模型,該模型較傳統(tǒng)的ICA模型收斂速度更快,但是受噪聲影響較大。最具代表性的模型是Poggio等[4]提出的分層最大化(HMAX)模型。該模型的簡單細(xì)胞層執(zhí)行“線性和”操作,復(fù)雜細(xì)胞層執(zhí)行“最大化”操作,從而實現(xiàn)位置、尺度等的不變性。該模型與V1實現(xiàn)了較好對應(yīng),而對更高級皮層的模擬比較粗糙。以上模型主要停留在V1,忽略了較高級皮層神經(jīng)機制對目標(biāo)表達(dá)的重要作用[5]。近年來,涌現(xiàn)出了許多結(jié)合高級皮層進(jìn)行模擬的層次模型:Kavukcuoglu等[6]在ICA基礎(chǔ)上,把非線性變換引入稀疏編碼模型,模擬V1復(fù)雜細(xì)胞特性,但是在特征提取部分需要執(zhí)行迭代算法,計算量較大;Yang等[7]基于尺度不變特征變換(SIFT)特征提出了一種監(jiān)督的稀疏編碼模型,該模型通過max pooling操作實現(xiàn)對V1復(fù)雜細(xì)胞不變性的模擬,但此模型使用的基于反投影的隨機優(yōu)化算法計算速度較慢,并且max pooling操作會丟失較多信息;Kim等[8]提出了一種模擬V1、V4的形狀編碼方法,該方法結(jié)合視覺區(qū)域檢測和形狀編碼提取目標(biāo)單一尺度下的曲率方向特征并初步應(yīng)用在目標(biāo)識別中,但是此模型忽略了V2區(qū)對角形特征提取的重要作用[9];Tschechne等[10]受神經(jīng)元間存在反饋連接的啟發(fā),提出了對表面和目標(biāo)邊界編碼的循環(huán)計算網(wǎng)絡(luò)模型,此模型增加了對V2區(qū)模擬并應(yīng)用于目標(biāo)邊界提取。
形狀特征是用于描述目標(biāo)的基本特征,常見的有基于輪廓和基于區(qū)域的形狀描述[11]。其中,基于輪廓的描述應(yīng)用更為廣泛,原因在于視覺系統(tǒng)通常是基于輪廓區(qū)分形狀。此外,曲率作為判別形狀間相似性的重要輪廓特征[12],可在視皮層中的V4區(qū)進(jìn)行感知[5]。但是,基于輪廓的形狀描述也存在一些限制,比如輪廓受噪聲影響較大,并且目標(biāo)輪廓常常難以提取。不同于基于輪廓或區(qū)域的描述方法,層次性的形狀描述可以逐層地過濾掉不匹配的圖像特征[11]?;诖?,本文提出了一種層次形狀特征提取模型(V1-V2-V4)以彌補V1條形特征對形狀描述的不充分。該模型與上述文獻(xiàn)的模型不同:首先是結(jié)合噪聲抑制與V2角形特征,通過增強角形特征點如角點位置的提取,進(jìn)而將其應(yīng)用于目標(biāo)與場景分類中;其次是對V4層引入曲率計算以描述目標(biāo)輪廓的形變程度,并對V4輸出提取融合曲率及梯度方向的直方圖特征以彌補單一特征對目標(biāo)或場景分類的不足。
模型共三層,分別為V1層、V2層、V4層,層與層之間采用前饋連接,如圖1所示。
圖1 層次形狀特征提取模型
對每個圖像子塊,V1層使用Gabor濾波器組在5尺度8方向下提取兩組條形特征,每組條形特征的濾波方向相差90度。V2層在每個尺度下對V1輸出的兩組條形特征進(jìn)行組合,實現(xiàn)對角形特征的提取。V4層計算不同方向下V2輸出的曲率與方向?qū)?shù)。特征提取階段則是累積每個尺度的不同方向下V4輸出的曲率與方向?qū)?shù)的最大值作為目標(biāo)的曲率特征與梯度特征,簡稱為“曲率+梯度”特征。
圖2為各層輸出效果圖。
圖2 各層輸出效果圖
1.1 V1層
使用Gabor函數(shù)模擬V1層簡單細(xì)胞對條形刺激的響應(yīng)作用[13]。二維Gabor函數(shù)的表達(dá)式為
(1)
(2)
其中尺度參數(shù)σ1決定V1層簡單細(xì)胞感受野的大小,角度參數(shù)θ模擬神經(jīng)元的最優(yōu)響應(yīng)方向。參數(shù)r決定神經(jīng)元感受野形狀,參數(shù)φ決定偶數(shù)的奇偶性,1/λ表示余弦因子頻率設(shè)輸入圖像為f(x,y),則模擬簡單細(xì)胞響應(yīng)結(jié)果為
Rλ,σ1,θ,φ(x,y)=(f×gλ,σ1,θ,φ)(x,y)
(3)
使用Gabor能量算子模擬復(fù)雜細(xì)胞的響應(yīng)結(jié)果:
(4)
使用Nθ個不同方向θi下的Gabor能量的向量和來模擬V1層輸出,將多個方向合并為1個主方向:
(5)
1.2 V2層
模型V2層的目的是在獲得條形特征的基礎(chǔ)上提取角形[9]特征,進(jìn)而有效增強目標(biāo)在關(guān)鍵特征點(如角點)位置處的特征描述。
(6)
(7)
(8)
參數(shù)α1控制抑制強度的大小。
其次,采用最優(yōu)響應(yīng)角度相差π/2的Rθi(x,y,s)模擬V2層對角形特征的響應(yīng)(圖3):
RV2=Rθi·Rθi+π/2
(9)
圖3 V2層角形特征提取
其中,Rθi與Rθi+π/2分別表示V1層不同方向下的條形特征。將對應(yīng)像素點的灰度值相乘,則結(jié)果只保留θi與(θi+π/2)方向組合的條形特征,即角形特征RV2。根據(jù)圖2可以看出,V2輸出后四角位置處亮度相對更高,角形部分得到加強。
此外,由于單一尺度下會造成目標(biāo)尺度信息的缺失,因此,與文獻(xiàn)[10]不同的是,本文將單一尺度下的角形特征提取擴(kuò)展到多尺度,該擴(kuò)展方式有助于增強目標(biāo)尺度變化的穩(wěn)健性。
1.3 V4層
V4層的目的是在獲得目標(biāo)條形、角形特征基礎(chǔ)上提取曲率[5]方向特征。采用構(gòu)建方向域與曲率域的方法[8]模擬V4。
曲率的計算方式如下:首先借助梯度向量的能量方向構(gòu)建方向域:
(10)
其中Ix、Iy表示對RV2(i, j)分別求x、y方向偏導(dǎo)。則推導(dǎo)近似曲率(ksel)如圖4所示:
(11)
通過添加梯度幅值(Mfwd, Mbwd)修正上述方程,得到在(i, j)處曲率域表達(dá)式:
CF(i, j)=(1-cos(ksel(i, j)))·Mfwd·Mbwd
(12)
方向?qū)?shù)的計算方式如下:
RV2(i, j)在點(x, y)處沿方向l=(cosθ,sinθ)的方向?qū)?shù)為
( 13 )
圖4 135°方向的曲率信息近似計算
1.4 特征提取
圖5給出了特征提取的示意圖:計算每個點在四個方向下的曲率/梯度幅值,累積最大值。
為驗證本文模型的有效性,實驗采用兩種類型的數(shù)據(jù)集(MNIST手寫數(shù)字識別[15]和21類遙感影像分類[16])。實驗環(huán)境如下:CPU:Intel Xeon E5-2630 2.40GHz;內(nèi)存:64.0GB;系統(tǒng)類型:64位Windows 7企業(yè)版;開發(fā)平臺:MATLAB R2013a。
2.1 MNIST手寫數(shù)字識別
MNIST共10類(28×28像素),如圖6所示。其中訓(xùn)練樣本共60000幅,測試樣本共10000幅。
圖6 MNIST數(shù)據(jù)集樣圖
實驗中,首先將每幅圖像分割成2×2個子塊,使用最近鄰插值算法,將每個圖像子塊大小縮放為16像素×16像素。設(shè)定式(1)中γ=0.3,λ=8,σ1∈{0.6,1.7,2.8,3.9,5.0},式(2)中θ∈{0,π/8,2π/8,3π/8,4π/8,5π/8,6π/8,7π/8},式(5)中Nθ=8,式(7)中α1=1。
使用1.4節(jié)的方式提取特征,每個亞子塊提取8方向16維的“曲率+梯度”特征,則每個子塊提取16×(4×4)=256維特征。共5個尺度、2×2個子塊,每幅圖像提取的特征維數(shù)為256×5×(2×2)=5120維。最終采用支持向量機(SVM)進(jìn)行訓(xùn)練與測試。表1給出了本文方法識別精度的混淆矩陣,表2示出了本文模型與其它基于生物視覺啟發(fā)方法的識別精度,表3給出了方向數(shù)分別為4和8時單獨的層次性梯度、曲率特征及“曲率+梯度”特征的識別精度。
表1 MNIST數(shù)字識別混淆矩陣
表2 不同方法在MNIST上的精度
表3 兩種方向下不同特征的精度
表1給出了10個測試集的識別情況,表中行代表各個類別(0~9),列代表預(yù)測結(jié)果。對角線上的表示正確分類的樣本數(shù),非對角線表示錯分樣本??傮w上看,實驗取得了理想的識別精度。具體而言,“0”、 “1”等類別識別效果相對更好,“0”只有5個樣本分錯,“1”只有3個樣本分錯。因為這些類別在形狀上區(qū)分度較高,可以更準(zhǔn)確地使用形狀特征進(jìn)行描述;而“9”的識別效果相對較差,共有23個樣本分錯。其中有5個樣本分成了“4”,有6個樣本分成了“7”,因為在形狀上“9”與“4”、“7”等類別具有相似性,因此用形狀特征區(qū)分其差別具有一定難度。
根據(jù)表2,本文模型比HMAX改進(jìn)模型識別精度高2.44%,因為HMAX在提取條形特征后缺少對更復(fù)雜形狀特征的描述,因而建立的特征詞典不夠完備;比ICA直方圖方法高0.22%,因為ICA方法容易受噪聲影響;與IPSD方法精度相差0.06%,因為IPSD在ICA的特征提取等部分進(jìn)行了有效優(yōu)化;SIFT稀疏編碼精度最高,因為SIFT特征本身實現(xiàn)了較好的局部不變性,可以有效區(qū)分目標(biāo)的形狀特征。
表3驗證了本文模型在方向拓展、特征融合上的有效性。4方向拓展為8方向后,梯度特征識別精度提高了2.34%,曲率特征精度提高了3.2%,“曲率+梯度”特征提高了1.47%。特征融合后,4方向下“曲率+梯度”特征分別比單獨的梯度特征、單獨的曲率特征識別精度高12.67%、18.55%;8方向下高11.8%、16.82%。
2.2 21類遙感影像分類
21類遙感影像共21類,每類包含100幅圖像(256像素×256像素)。數(shù)據(jù)集包含了較為復(fù)雜的地物結(jié)構(gòu),類間具有形狀上的相似性,并且圖像的空間結(jié)構(gòu)關(guān)系較為復(fù)雜,存在尺度、旋轉(zhuǎn)變化等因素影響,如圖7所示。
圖7 21類遙感影像部分樣圖
實驗中,模型參數(shù)設(shè)置與2.1部分大致相同,區(qū)別在于:此處在 3個尺度下(σ1∈{0.6,1.8,3})使用滑動窗口的方式提取特征,每個尺度下的濾波結(jié)果對應(yīng)的滑動窗口數(shù)與滑動步長分別選取為32/8,36/10,40/18,則每幅圖像滑動的窗口數(shù)為29×29+23×23+13×13=1539。對每個窗口分為4×4的亞子塊,每個亞子塊提取4方向的8維曲率梯度特征,則每個窗口提取8×(4×4)=128維特征,則對每幅圖像提取128×1539=196992維特征。
此外,使用vlfeat[18]工具箱提供的VLAD encoding方法對特征進(jìn)行聚集產(chǎn)生更為緊湊的全局描述子,并采用SVM分類器進(jìn)行訓(xùn)練與測試。實驗中,每類隨機選取50幅圖像作為訓(xùn)練樣本,其余50幅作為測試樣本,重復(fù)10次進(jìn)行交叉驗證,最后將10次分類結(jié)果求均值。
表4比較了其它基于直方圖特征的提取方法在21類遙感影像數(shù)據(jù)集上的分類結(jié)果。其中SCK主要應(yīng)用了SIFT、空間共生核(Co-occurrence Kernel)方法,SPCK在SCK方法基礎(chǔ)上增加了空間金字塔共生核方法,BOVW+SCK是在SCK方法基礎(chǔ)上增加了詞包(bag of visual words,BOVW),SPMK主要應(yīng)用了SIFT和空間金字塔匹配核方法。本文模型比SPCK方法高4.87%,比SPMK方法高2.72%,比SCK方法高2.49%,比BOVW+SCK方法高0.3%。
表4 不同方法在21類遙感影像上的精度
此外,由于該數(shù)據(jù)集中目標(biāo)具有較為復(fù)雜的背景與噪聲信息,適合驗證層次模型中每層的有效性。因此,我們分別比較了無V1、V2層(即直接提取曲率特征)、無V2層的“曲率+梯度”特征、單獨的層次性曲率特征、梯度特征與層次性的“曲率+梯度”特征的分類結(jié)果,如圖8所示。結(jié)果表明,4種層次性特征分類結(jié)果均明顯高于直接提取的曲率特征,平均差距最高達(dá)到25%左右,表明層次性形狀特征對于處理具有復(fù)雜背景與噪聲信息的目標(biāo)更加有效。相比于無V2層“曲率+梯度”特征,添加V2層后可以將分類精度提高1%左右,表明在條形特征基礎(chǔ)上引入多尺度角形特征更為有效。同時“曲率+梯度”特征分類精度比單獨的曲率特征高16%左右,比單獨的梯度特征高3%左右,再次驗證了特征融合的有效性。
圖8 層次性特征有效性驗證
本文建立了一種層次模型(V1-V2-V4),用于提取目標(biāo)的條形、角形、曲率特征。其中V2層結(jié)合了3D-DOG抑制圖像噪聲,使用濾波方向相差90度的條形特征提取多尺度角形特征;V4通過曲率域提取目標(biāo)輪廓形變程度較大的部分,最終提取融合曲率與梯度方向的直方圖特征。實驗表明,相比于條形特征,引入的角形、曲率特征可以更充分地描述目標(biāo)形狀,層次性的形狀特征在目標(biāo)識別上可以取得更好效果;曲率與梯度的融合特征可以有效彌補單一曲率或梯度特征局部描述的不足,并且特征方向的拓展可以進(jìn)一步提高目標(biāo)識別效果。未來的工作將繼續(xù)研究更高級皮層(如IT)對形狀編碼的機制,完善模型的層次結(jié)構(gòu),進(jìn)一步提取目標(biāo)更為完善的形狀特征。
[ 1] Rousselet G A, Thorpe S J, Fabre-Thorpe M. How parallel is visual processing in the ventral pathway. Trends in Cognitive Sciences, 2004, 8(8): 363-370
[ 2] 余鵬, 萬里紅, 霍宏等. 基于層次特征映射模型的目標(biāo)識別. 高技術(shù)通訊, 2014, 24(4): 414-419
[ 3] Hyv?rinen A. Fast and robust fixed-point algorithms for independent component analysis. Neural Networks, IEEE Transactions on, 1999, 10(3): 626-634
[ 4] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex. Nature Neuroscience, 1999, 2(11): 1019-1025
[ 5] Connor C E, Brincat S L, Pasupathy A. Transformation of shape information in the ventral pathway. Current Opinion in Neurobiology, 2007, 17(2): 140-147
[ 6] Kavukcuoglu K, Ranzato M A, Fergus R, et al. Learning invariant features through topographic filter maps. In: Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR), Miami, America, 2009. 1605-1612
[ 7] Yang J, Yu K, Huang T. Supervised translation-invariant sparse coding. In: Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, America, 2010. 3517-3524
[ 8] Kim S, Kwon S, Kweon I S. A perceptual visual feature extraction method achieved by imitating V1 and V4 of the human visual system. Cognitive Computation, 2013, 5(4): 610-628
[ 9] Boynton G M, Hegdé J. Visual cortex: The continuing puzzle of area V2. Current Biology, 2004, 14(13): R523-R524
[10] Tschechne S, Neumann H. Hierarchical representation of shapes in visual cortex——from localized features to figural shape segregation. Frontiers in Computational Neuroscience, 2014, 8: 93
[11] Zhang D, Lu G. Review of shape representation and description techniques. Pattern Recognition, 2004, 37(1): 1-19
[12] Yang M, Kpalma K, Ronsin J. A survey of shape feature extraction techniques. Pattern Recognition, 2008, 41(1): 43-90
[13] Park J G, Kim K J. Design of a visual perception model with edge-adaptive Gabor filter and support vector machine for traffic sign detection. Expert Systems with Applications, 2013, 40(9): 3679-3687
[14] Deng S, Liu N, Huo H, et al. Contour detection based on multi-scale spatial inhibition and contextual modulation. In: Proceedings of the IEEE 2015 Seventh International Conference on Advanced Computational Intelligence (ICACI), Wuyi, China, 2015. 372-377
[15] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[16] Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification. In: Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems (ACM GIS), San Jose, USA, 2010. 270-279
[17] Borji A, Hamidi M, Mahmoudi F. Robust handwritten character recognition with features inspired by visual ventral stream. Neural Processing Letters, 2008, 28(2): 97-111
[18] Vedaldi A, Fulkerson B. VLFeat: An open and portable library of computer vision algorithms. In: Proceedings of the International Conference on Multimedia, Firenze, Italy, 2010. 1469-1472
[19] Yang Y, Newsam S. Spatial pyramid co-occurrence for image classification. In: Proceedings of the International Conference on Computer Vision (ICCV), Barcelona, Spain, 2011. 1465-1472
[20] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In: Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR), New York, America, 2006. 2169-2178
Image classification based on a hierarchical shape feature extraction model
Zhang Shengbo, Liu Na, Huo Hong, Fang Tao
(Key Laboratory of System Control and Information Processing, Ministry of Education, Department of Automation, Shanghai Jiao Tong University, Shanghai 200240)
The image classification based on hierarchical shape feature extraction was studied. Considering that the bar features extracted from the primary visual cortex of V1 can not sufficiently represent the shape of an object, a new hierarchical model of V1-V2-V4 was presented to further extract the features of angle and curvature. Under the model, the Gabor function is adopted to simulate V1 to extract the bar features, the noisy inhibition using 3D-DOG (difference of Gaussian) combined with a group of Gabor filters with the filtering direction difference of 90°, is introduced to extract the multi-scale angle features in V2, and in V4, the deformation of the shape of an object is described through the computation of the curvature field, to finally extract the histogram features fusing the curvature and gradient orientation. The advantage of the proposed model is that the hierarchical representation based on the computation of angle and curvature helps to extract the key points of object shape such as the corners. Moreover, the use of fusion features also remedies the inadequacy of the object description only using curvature or gradient feature. The experiments on MNIST handwritten digits and 21 remote sensing images demonstrated that the use of the features fusing curvature and gradient orientation achieved the digit recognition accuracy of 98.94%, and obtained the better result in classification of remote sensing images.
ventral pathway, shape feature, curvature, hierarchy, image classification
① 973計劃(2012CB719903),國家自然科學(xué)基金委創(chuàng)新研究群體(X198144),國家自然科學(xué)基金青年科學(xué)基金(41101386)和國家自然科學(xué)基金(41071256)資助項目。
?,E-mail: tfang@sjtu.edu.cn(
2015-10-28)
10.3772/j.issn.1002-0470.2016.01.011
② 男,1990年生,碩士;研究方向:計算機視覺,數(shù)字圖像處理;E-mail:sheng_bo_cool@163.com