亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于學(xué)習(xí)及視覺感知啟發(fā)的目標(biāo)分類方法

2018-05-07 02:20:36李娜趙歆波楊勇佳鄒曉春

西北工業(yè)大學(xué)學(xué)報 2018年2期

李娜, 趙歆波, 楊勇佳, 鄒曉春

1.西北工業(yè)大學(xué) 計算機(jī)學(xué)院, 陜西西安 710029; 2.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西西安 710029

目標(biāo)分類是計算機(jī)視覺領(lǐng)域中非常重要的研究方向之一，是目標(biāo)分割，目標(biāo)跟蹤與行為分析等諸多復(fù)雜計算機(jī)視覺問題的基礎(chǔ)，已廣泛應(yīng)用于交通、安防、醫(yī)療等領(lǐng)域。計算機(jī)自動目標(biāo)分類技術(shù)在一定程度上可以減少人工分類的勞動強(qiáng)度，改變?nèi)祟惖纳罘绞?，但目前計算機(jī)自動目標(biāo)分類技術(shù)的應(yīng)用還受其分類精度的限制。人類擁有強(qiáng)大的目標(biāo)分類能力，當(dāng)人在區(qū)分不同目標(biāo)時，先通過視覺通路篩選出自己感興趣的區(qū)域，然后由神經(jīng)系統(tǒng)做出正確判斷，得出分類結(jié)果。如果計算機(jī)能模擬人類的這種能力，計算機(jī)自動目標(biāo)分類技術(shù)將會與人類分類行為更相近，分類結(jié)果更準(zhǔn)確。

可計算視覺注意力模型，是利用計算機(jī)技術(shù)實(shí)現(xiàn)的視覺認(rèn)知模型，即利用視覺搜索中的多種信息，由計算機(jī)實(shí)現(xiàn)人類視覺注意力顯著對象預(yù)測的技術(shù)。近年來，該領(lǐng)域涌現(xiàn)出多種基于不同技術(shù)且效果優(yōu)良的視覺注意力模型。例如，基于自底向上特征整合的Itti[1]模型，基于神經(jīng)響應(yīng)去相關(guān)的AWS[2]模型，基于概率公式的SUN[3]模型，基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的Torralba[4]模型，基于圖論的GBVS[5]模型等。此外，機(jī)器學(xué)習(xí)的方法也已應(yīng)用于構(gòu)建視覺顯著模型當(dāng)中，Kch?lkopf等人[6]及Judd等人[7]分別利用圖像塊和從每個像素點(diǎn)得到的特征向量來得到顯著區(qū)域。但是，現(xiàn)有的大部分視覺注意力模型大多根據(jù)觀察者的“自由觀察”，并未涉及諸如目標(biāo)分類之類的技術(shù)。

關(guān)于目標(biāo)分類，傳統(tǒng)的方法有基于外觀的分類方法[8-9]、基于特征的分類方法[10-11]，類似于CAD的物體模型[12]、遺傳算法等[13]。這些傳統(tǒng)的方法在一些領(lǐng)域表現(xiàn)優(yōu)良，但并不適用于多類目標(biāo)分類。20世紀(jì)60年代，Hubel等人[14]在研究貓腦皮層時發(fā)現(xiàn)，用于局部敏感和方向選擇的神經(jīng)元，可以有效降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，并受到這種獨(dú)特網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)，提出了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)。如今，CNN已成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)，特別是在模式分類領(lǐng)域，其分類能力已由Krizhevsky等人[15]在包含幾百種類別共計百萬張圖片的數(shù)據(jù)庫ImageNet上得已檢驗。雖然CNN的機(jī)理類似于人類神經(jīng)網(wǎng)絡(luò)，但是傳統(tǒng)的CNN忽視了人類視覺系統(tǒng)在分類前對信息篩選的重要作用。因此，如果能將CNN與視覺注意力模型相結(jié)合，將會更接近人類行為，其分類能力也會有所提高。

人類的視覺分類行為是一個視覺通絡(luò)與神經(jīng)系統(tǒng)相結(jié)合的過程。本文試圖通過對人類信息處理機(jī)制及人類神經(jīng)網(wǎng)絡(luò)的仿真，將視覺注意力模型與CNN相結(jié)合，提出一種具有生物學(xué)優(yōu)勢的目標(biāo)分類新方法。其具體工作：①建立一個眼動數(shù)據(jù)庫EDOC(eye-tracking database for objects classification)，用于記錄觀察者在分類時的注視點(diǎn)數(shù)據(jù)，分析并學(xué)習(xí)人類分類時的視覺行為；②基于EDOC數(shù)據(jù)庫，引入真實(shí)眼動數(shù)據(jù)作為監(jiān)督值，建立基于有監(jiān)督學(xué)習(xí)的視覺注意力模型，以實(shí)現(xiàn)人類視覺信息處理機(jī)制的仿真；③建立更適合目標(biāo)分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)，以實(shí)現(xiàn)人類神經(jīng)網(wǎng)絡(luò)處理過程的仿真。

通過對人類視覺目標(biāo)分類過程的仿真，結(jié)果與傳統(tǒng)分類方法相比，本文所提出的目標(biāo)分類方法，在分類過程上與人類分類行為更相近。實(shí)驗表明，本文提出的視覺注意力模型可以更準(zhǔn)確地預(yù)測人在分類時感興趣區(qū)域，并與本文建立的CNN網(wǎng)絡(luò)相結(jié)合，可顯著提高目標(biāo)分類的準(zhǔn)確度及收斂速度。

1 算法描述

本文提出的目標(biāo)分類方法，結(jié)合了對人類視覺信息處理機(jī)制的仿真與對人類神經(jīng)網(wǎng)絡(luò)的仿真，其算法流程如圖1所示。

圖1 算法流程圖

在對人類視覺信息處理機(jī)制的仿真過程中，本文首先建立了一個眼動數(shù)據(jù)庫EDOC，記錄觀察者在分類時的注視點(diǎn)數(shù)據(jù)。然后在EDOC數(shù)據(jù)庫里，隨機(jī)挑選訓(xùn)練圖像集，對其進(jìn)行顯著視覺特征提取，經(jīng)過支持向量機(jī)(SVM)訓(xùn)練，同時引入真實(shí)眼動數(shù)據(jù)作為基準(zhǔn)圖像，建立了基于有監(jiān)督學(xué)習(xí)的視覺注意力模型，能預(yù)測出人在進(jìn)行目標(biāo)分類的視覺顯著圖。

在人類神經(jīng)網(wǎng)絡(luò)仿真過程中，本文首先將視覺注意力模型預(yù)測出的視覺顯著圖前60%的顯著區(qū)域，作為人類分類的感興趣區(qū)域；然后設(shè)計了適合目標(biāo)分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)，以隨機(jī)挑選感興趣區(qū)域圖片得到訓(xùn)練集，利用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行特征提取，經(jīng)過SVM訓(xùn)練，得到最終目標(biāo)分類結(jié)果。

2 建立EDOC數(shù)據(jù)庫

由于現(xiàn)有的大部分眼動數(shù)據(jù)庫在建立時，觀察者是“自由觀察”的，并沒有在目標(biāo)分類任務(wù)下，因此，為研究一般人在做目標(biāo)分類時的視覺行為，本文建立了數(shù)據(jù)庫EDOC(如圖2所示)。該數(shù)據(jù)庫包含6類目標(biāo)的彩色圖像以及受試者觀察這些目標(biāo)的眼動數(shù)據(jù)。6類目標(biāo)分別是飛機(jī)、自行車、汽車、狗、人和白貓，每類目標(biāo)各包含50張樣本，共計300張且均帶有類別標(biāo)簽。圖像尺寸由600×700至800×500不等。

圖2 EDOC數(shù)據(jù)庫的示例

本文使用Tobii TX300眼動儀記錄眼動數(shù)據(jù)。眼動數(shù)據(jù)采集對象共10人，年齡12歲至40歲，男女各5人。實(shí)驗中，每幅圖展示5 s，讓受試者觀察的同時對他們發(fā)出區(qū)分這6類目標(biāo)的指令。為保證實(shí)驗記錄數(shù)據(jù)的準(zhǔn)確性，每隔10幅圖后均會進(jìn)行自動校準(zhǔn)。根據(jù)實(shí)驗記錄的數(shù)據(jù)分析得出，受試者在最初觀察圖像的1 s里很可能只是在自由觀察，并未執(zhí)行分類任務(wù)，所以本文舍棄了受試者前1 s的眼動數(shù)據(jù)，記錄下來的眼動數(shù)據(jù)(見圖3b))用來訓(xùn)練視覺顯著模型。而熱圖(見圖3c))可以反映出受試者在分類時的感興趣區(qū)域，分割出的感興趣區(qū)域用來做目標(biāo)分類。統(tǒng)計所有受試者的注視點(diǎn)數(shù)據(jù)并經(jīng)過高斯濾波(參數(shù)標(biāo)準(zhǔn)差為2)得到基準(zhǔn)圖像(ground truth,GT)(見圖3d))，用作測試顯著模型的性能。

圖3 眼動數(shù)據(jù)采集與處理

3 基于學(xué)習(xí)的視覺注意力模型

視覺注意力是幫助人類從無標(biāo)注場景進(jìn)行視覺感知的一個重要屬性，人類可以迅速從外界輸入的大量視覺信息中判斷出感興趣信息，使之優(yōu)先得到大腦神經(jīng)的處理。為模擬人類的視覺注意機(jī)制，可通過計算的方法建立模型，即建立視覺注意力模型。為獲得圖像特征與視覺注意力之間的變換關(guān)系，本文首先對EDOC數(shù)據(jù)庫里的圖像提取特征，并將得到的特征與注視點(diǎn)數(shù)據(jù)相映射，得到適用于分類任務(wù)的視覺顯著模型，利用該模型預(yù)測人在分類時的顯著圖，進(jìn)而得到與人類分類行為相近的感興趣區(qū)域，以作下一步分類。

3.1 顯著視覺特征提取

為提高視覺注意力模型的性能，本文將低層特征與高層特征相結(jié)合，通過反復(fù)實(shí)驗和結(jié)果比較，剔除了場景圖像中與任務(wù)不相關(guān)的特征后，選取了特征集F={f1,f2,…,f35}，其中包括31個低層特征及4個高級特征。

3.1.1 低層特征

1) 用金字塔濾波器對三尺度的多分辨率亮度圖像進(jìn)行四方向濾波，得到13個亮度特征(如圖4前13幅圖所示)。

2) 用ITTI[9]模型計算得到顏色、強(qiáng)度、方向3個特征 (如圖4第14～16幅圖所示)。

3) 利用加入了語境特征的Torralba[11]模型，基于圖論的GBVS模型及采用了Lab色彩空間和去相關(guān)特征圖的AWS模型計算顯著圖，得到3個模型特征(如圖4第17～19幅圖所示)。

4) 計算紅、綠、藍(lán)三顏色通道值及概率值，分別得到3個色度特征及3個色度概率特征(如圖4第20～25幅圖所示)。

5) 用中值濾波器對六尺度的彩色圖像進(jìn)行濾波，并計算三維色度直方圖，得到5個色度直方圖特征(如圖4第26～30幅圖所示)。

6) 參照攝影師在構(gòu)圖和平衡畫面時會用到水平線特征，故選取水平線作為最后一個低層特征 (如圖4第31幅圖所示)。

3.1.2 高層特征

在實(shí)驗中，我們發(fā)現(xiàn)因存在先驗知識的原因，人類對人、人臉及車等各類體征會給予更多關(guān)注。因此，本文選取人臉檢測器跟人，汽車檢測器的檢測結(jié)果作為高級特征 (如圖4第32～35幅圖所示)。

圖4 特征圖

3.2 訓(xùn)練過程

在統(tǒng)計學(xué)習(xí)理論中發(fā)展起來的支持向量機(jī)(support vector machines,SVM)方法是一種通用學(xué)習(xí)方法，其在非線性分類、函數(shù)逼近、模式識別等應(yīng)用中有非常好的推廣能力，可以有效地解決有限樣本條件下的高維數(shù)據(jù)模型構(gòu)建問題，并具有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感等優(yōu)點(diǎn)。因此，本文利用SVM理論，得到圖像特征與視覺注意力之間的變換關(guān)系，將提取的特征集F映射到視覺注意力空間，訓(xùn)練得到每個特征與視覺注意力之間的關(guān)系，并利用該映射關(guān)系生成視覺顯著圖，進(jìn)而得出人類在分類時的感興趣區(qū)域。

訓(xùn)練過程中，取樣本集S?T,T為基準(zhǔn)圖像的訓(xùn)練集。樣本s∈S。令

設(shè)P為基準(zhǔn)圖像的像素集，P={p1,p2,…,pN},N為基準(zhǔn)圖像中像素的個數(shù)。O(pi)表示像素的顯著度,i=1,2,…,N。對像素集P進(jìn)行排序得到有序集合Po={po1,po2,…,poN}，其中O(po1)≥O(po2)≥…≥O(poN)。在利用SVM模型進(jìn)行訓(xùn)練時，我們選擇Sp?S作為正樣本，Sn?S作為負(fù)樣本，其中Sp={po1,po2,…,pom},m=0.05N,Sn={pol,pol,…,poN},N-l=0.3N，最終預(yù)測出顯著圖，訓(xùn)練過程的流程圖如圖1上半部分(人類視覺信息處理機(jī)制的仿真過程)所示。

4 CNN網(wǎng)絡(luò)設(shè)計

人類的神經(jīng)-中樞-大腦的工作過程，是一個不斷迭代、不斷抽象的過程。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個新領(lǐng)域，其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來處理諸如圖像之類的數(shù)據(jù)。CNN是一種深度學(xué)習(xí)下的多層次的機(jī)器學(xué)習(xí)模型，在CNN中，圖像的一小部分(局部感受區(qū)域)作為多層結(jié)構(gòu)的最低層的輸入，將不同的信息傳遞到不同的層，每層均通過抽象去獲得觀測數(shù)據(jù)的最顯著的特征并挖掘數(shù)據(jù)局部特征，經(jīng)過不斷的迭代提取全局特征，最終進(jìn)行分類。

CNN的最大特點(diǎn)就是局部連接和權(quán)值共享。它的權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò)，并且局部連接和權(quán)值共享可以減少所要訓(xùn)練的參數(shù)及計算復(fù)雜度。CNN網(wǎng)絡(luò)結(jié)構(gòu)包括：卷積層，池化層與全連接層，它們參數(shù)的設(shè)置正是整個CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的重點(diǎn)。經(jīng)過多次實(shí)驗與調(diào)整，以及對目標(biāo)特征的分析，本文設(shè)計了更適用于目標(biāo)分類的CNN網(wǎng)絡(luò)結(jié)構(gòu)，包含4個卷積層，4個池化層，卷積層與池化層交替設(shè)置，如圖5所示。如此，多層的卷積層結(jié)構(gòu)通過對輸入的圖像進(jìn)行逐層抽象，從而獲得更高層次的分布式特征表達(dá)，組合形成更抽象的特征，本文設(shè)計的CNN網(wǎng)絡(luò)結(jié)構(gòu)最后一層為全連接層，用于對圖片對象的特征描述。

圖5 CNN網(wǎng)絡(luò)結(jié)構(gòu)

4.1 卷積層

卷積可以提取出圖像的局部特征，因此卷積層的設(shè)置是CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的核心。通過對目標(biāo)特征的分析，以及試驗與調(diào)整，本文的CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計了4個卷積層(C1～C4)(如圖5所示)。特征的提取是通過以權(quán)值矩陣形式出現(xiàn)的卷積核(kernel)來完成的，本文建立的CNN網(wǎng)絡(luò)各卷積層的卷積核大小分別為5,5,5,4像素。針對各卷積層功能的不同，卷積核的大小也不同，如第一個卷積層的卷積核可以提取邊緣、角等信息，通過實(shí)驗與分析，5個像素的大小與目標(biāo)邊緣特征較符合，因此第一層卷積層的卷積核大小設(shè)為5。卷積核提取的二維特征集合為特征圖。每層的特征圖作為下一層的輸入繼續(xù)傳播，本文CNN網(wǎng)絡(luò)結(jié)構(gòu)各卷積層輸出的特征圖數(shù)目分別為9,18,36,72，卷積的步長均為1像素。此外，卷積核與輸入之間的局部連接可以減少很多網(wǎng)絡(luò)參數(shù)，降低計算負(fù)擔(dān)。

4.2 池化層

池化即為將尺寸比較大的圖像的不同位置的特征進(jìn)行聚合，計算圖像一個區(qū)域上的某個特定特征的平均值(或最大值)來代表這個區(qū)域的特征。池化層的作用是使通過卷積層獲得的特征具有空間不變性。因此為與卷積層層數(shù)一致，本文設(shè)計的CNN網(wǎng)絡(luò)結(jié)構(gòu)也包含4個池化層(S1～S4)(如圖5所示)，分別連接在各層卷積層之后。為獲取對平移、縮放和旋轉(zhuǎn)不變的顯著特征，各層池化大小均為2個像素，池化的步長均為1 像素。本文采用常見的最大池化方式，其不僅可以降低特征的維數(shù)，還可以提高特征的魯棒性。

4.3 全連接層

本文CNN網(wǎng)絡(luò)結(jié)構(gòu)的最后一層為全連接層，輸出一個兼顧了目標(biāo)的局部特征與整體特征的648維的特征向量，由于本文CNN結(jié)構(gòu)中的4個卷積層及4個池化層已先將特征的維數(shù)盡可能降低至可接受的大小，因此最后一層全連接層產(chǎn)生的計算負(fù)擔(dān)在可接受范圍內(nèi)。最后利用liblinear SVM將得到的648維特征向量，進(jìn)行訓(xùn)練，得出分類結(jié)果。

至此，本文建立的CNN網(wǎng)絡(luò)結(jié)構(gòu)，共計包含在4個卷積層、4個池化層、1個全連接層。在進(jìn)行目標(biāo)分類時，目標(biāo)的一小部分作為本文CNN網(wǎng)絡(luò)結(jié)構(gòu)的最低層輸入，經(jīng)過個卷積層特征提取，并經(jīng)過各池化層的最大池化，獲得目標(biāo)最顯著的特征并挖掘出目標(biāo)的局部特征，經(jīng)過迭代，提取全局特征并結(jié)合局部特征進(jìn)行分類，最終輸出分類結(jié)果。

5 實(shí)驗結(jié)果及分析

為驗證算法的正確性及有效性，本文設(shè)計了3組實(shí)驗，第1組實(shí)驗驗證了本文的視覺顯著模型(Ours)預(yù)測分類RoIs的能力，同時在相同條件下將Ours模型與其它視覺顯著模型做了比較；第2組實(shí)驗在數(shù)據(jù)庫EDOC上評估了本文分類方法分類的錯誤率大小及錯誤率收斂速度，同時比較了本文分類方法與常規(guī)CNN的分類能力，本文分類方法是利用分類RoIs進(jìn)行分類，而常規(guī)CNN是利用原圖進(jìn)行分類；為充分驗證本文算法，第3組實(shí)驗增加了實(shí)驗數(shù)據(jù)量，建立了包含6 000張圖的數(shù)據(jù)集，在該數(shù)據(jù)集上比較了本文分類方法與常規(guī)CNN分類時的錯誤率。實(shí)驗環(huán)境是IBM x3650m5服務(wù)器，配置CPU E5-2603v2 (2.4 GHz), 32 GB RAM。

5.1 視覺顯著模型預(yù)測分類感興趣區(qū)域?qū)嶒?/h3>
本實(shí)驗利用EDOC數(shù)據(jù)庫中的數(shù)據(jù)，對分類RoIs進(jìn)行預(yù)測，實(shí)驗采集的注視點(diǎn)數(shù)據(jù)作為基準(zhǔn)。實(shí)驗時，將所有彩色圖像統(tǒng)一到200×200的大小，每類目標(biāo)挑選30幅彩色圖像作為訓(xùn)練，20幅作為測試。與Ours進(jìn)行比較的8種模型分別是：AIM[16],AWS[2],Judd[7],ITTI[1],GBVS[5],SUN[3],STB[17],Torralba[4]，這9種模型得到的典型視覺顯著圖對比如圖6所示。由于沒有統(tǒng)一評價視覺注意力模型的標(biāo)準(zhǔn)，本文選取了常用的評價函數(shù)有：AUC、敏感度與特異度。AUC是一種用來度量視覺注意力模型與基準(zhǔn)圖像的差異的一個標(biāo)準(zhǔn)，通常，AUC的值介于0.5到1.0之間， AUC越大代表了模型的表現(xiàn)越好，與基準(zhǔn)圖像更相近。敏感度，又稱為真陽性率，指將已知類別的目標(biāo)準(zhǔn)確分類的數(shù)目占總分類結(jié)果的比例，敏感度越高，模型越靈敏。特異度，又稱為真陰性率，指將非該類的目標(biāo)準(zhǔn)確剔除的數(shù)目占總分類結(jié)果的比例，特異度越高，模型篩檢目標(biāo)非該類的能力越強(qiáng)。當(dāng)3種評價函數(shù)數(shù)值越高，說明該模型性能越好。本實(shí)驗在60%的顯著區(qū)域計算敏感度與特異度。3種評價函數(shù)的實(shí)驗結(jié)果如表1所示。
圖6 9種模型得到的視覺顯著圖對比
參數(shù)OursAIMAWSGBVSITTISTBSUNTorralbaJudd平均值A(chǔ)UC0．84210．72320．78110．82840．60780．81510．73600．71580．82870．7642敏感度/%73．289551．821261．187871．479440．860567．915349．825252．761971．990560．1257特異度/%82．235477．417479．148077．858877．821778．867476．031476．540277．674578．1772
圖6為EDOC數(shù)據(jù)庫里的部分樣例在9種模型下的視覺顯著圖對比，通過人的主觀判斷，可以看出相較于其他8種模型，Ours模型能更好的提取目標(biāo)的特征，如車輪、眼睛等局部特征，人臉，汽車等整體特征。如此，特征的更好提取，更有利于分類準(zhǔn)確度的提高。
從表1中可以明顯看出，在AUC指標(biāo)下，Ours模型的結(jié)果為0.842 1，均高于其他8種模型，遠(yuǎn)高于ITTI模型，最接近基準(zhǔn)圖像(1.000 0)。Ours模型的敏感度為73.289 5，為9種模型的最大值，比平均值大約高13%，說明Ours模型較其他模型更靈敏。而實(shí)驗中特異度的最大值也為Ours模型。結(jié)果表明，Ours模型在3種評價函數(shù)下，性能良好，與基準(zhǔn)圖像更一致。因此，Ours模型明顯提高了利用視覺顯著圖預(yù)測人在分類時注視點(diǎn)的精度，更適用于提取分類RoIs。

5.2 在EDOC數(shù)據(jù)庫上的分類實(shí)驗

本文從分類錯誤率的大小與收斂速度兩方面，來評價本文分類方法性能。首先，將Ours模型預(yù)測的顯著圖前60%的區(qū)域，作為分類RoIs，實(shí)例如圖7所示。

圖7 分類RoIs獲取

然后將分類RoIs作為如圖5所示CNN網(wǎng)絡(luò)的輸入進(jìn)行分類。并與將原圖作為輸入的常規(guī)CNN分類分類方法結(jié)果作以比較。實(shí)驗時，將所有圖像均統(tǒng)一為100×100的大小，每類目標(biāo)挑選30幅作為訓(xùn)練，20幅作為測試。2種分類方法各進(jìn)行3次實(shí)驗，CNN網(wǎng)絡(luò)的練次數(shù)分別為500,1 000,1 500，以得到的錯誤率作為評判標(biāo)準(zhǔn)，結(jié)果如表2所示。

表2 EDOC數(shù)據(jù)庫上3種訓(xùn)練次數(shù)下輸入原始圖像與分類RoIs進(jìn)行CNN分類的錯誤率比較

從表2中可以看出，在3種訓(xùn)練次數(shù)下，本文的方法分類錯誤率均低于常規(guī)CNN。雖然在訓(xùn)練次數(shù)為500的時候，由于訓(xùn)練次數(shù)較少，2種方法的錯誤率都高于50%，但是本文方法的錯誤率比常規(guī)方法的錯誤率小10%。隨著訓(xùn)練次數(shù)的增加，本文方法的錯誤率從63.3%下降到36.7%，直到18.2%。而常規(guī)的CNN在訓(xùn)練次數(shù)為1 000時，錯誤率為50%，當(dāng)訓(xùn)練次數(shù)增加到1 500時，其錯誤率仍高于30%。雖然隨著訓(xùn)練次數(shù)的增加，2種方法的分類錯誤率均會下降，但是很明顯本文的分類方法分類錯誤率的收斂速度快于常規(guī)CNN方法。在相同訓(xùn)練次數(shù)下，錯誤率更低。因此，本文的分類方法可以優(yōu)化分類結(jié)果。

5.3 在6 000張圖上的分類實(shí)驗

5.1及5.2節(jié)的實(shí)驗，雖從兩方面驗證了本文分類方法的合理性，但是數(shù)據(jù)庫EDOC包含的數(shù)據(jù)量較少，而目前又沒有現(xiàn)成的包含6類目標(biāo)的大數(shù)據(jù)庫可以利用，所以，為充分驗證本文分類方法，如圖8所示，本節(jié)建立了一個較大的包含了6 000張圖的數(shù)據(jù)集以進(jìn)行實(shí)驗。該數(shù)據(jù)集中的圖片均來自網(wǎng)絡(luò)，每類各有1 000張。

實(shí)驗中，首先利用Ours模型預(yù)測這6 000張圖的顯著圖，并將顯著圖的前60%顯著的區(qū)域作為分類RoIs。然后利用CNN網(wǎng)絡(luò)對分類RoIs進(jìn)行分類，并與將原圖作為輸入的常規(guī)的CNN分類分類方法結(jié)果作以比較。同樣地將所有圖像均統(tǒng)一為100×100的大小，每類目標(biāo)挑選600幅作為訓(xùn)練，400幅作為測試, 分類錯誤率對比結(jié)果如表3所示。

圖8 6 000張圖的示例

訓(xùn)練次數(shù)錯誤率/%原始圖像分類Rols50063．244．6100056．733．8150046．929．1

從表3中可看出，在包含了6 000張圖的較大數(shù)據(jù)庫上的實(shí)驗中，隨著訓(xùn)練次數(shù)增加，2種方法的錯誤率雖然均有下降，但是在相同訓(xùn)練次數(shù)下，本文方法分類錯誤率明顯低于常規(guī)CNN。在訓(xùn)練次數(shù)為500的時，本文的方法的錯誤率(44.6%)比常規(guī)方。法的錯誤率(63.2%)低近20%，甚至低于常規(guī)方法在訓(xùn)練次數(shù)為1 000次的分類錯誤率(56.7%)隨著訓(xùn)練次數(shù)次數(shù)的增加，本文分類方法的錯誤率從44.6%下降到29.1%，而常規(guī)方法的錯誤率從63.2%下降到46.9%，本文分類方法分類錯誤率的收斂速度很明顯快于常規(guī)CNN方法。因此，本文的分類方法在較大數(shù)據(jù)集上也有優(yōu)良的分類表現(xiàn)。

6 結(jié) 論

受人類對不同目標(biāo)進(jìn)行分類識別行為的完整過程的啟發(fā)，本文提出了一種結(jié)合基于學(xué)習(xí)的視覺顯著模型與CNN的目標(biāo)分類新方法。通過建立EDOC數(shù)據(jù)庫，研究并記錄人們在進(jìn)行目標(biāo)分類時的視覺行為；然后，利用該數(shù)據(jù)庫訓(xùn)練出針對分類任務(wù)的有監(jiān)督視覺注意力模型，預(yù)測人在區(qū)分不同目標(biāo)時的感興趣區(qū)域；最后設(shè)計了適用于分類的CNN網(wǎng)絡(luò)，利用視覺注意力模型得到的感興趣區(qū)域進(jìn)行目標(biāo)分類。本文的方法與常規(guī)的CNN分類方法相比，分類準(zhǔn)確度有明顯提高，且收斂速度更快，其生物學(xué)優(yōu)勢也十分顯著。由于人類的視覺行為很復(fù)雜，思考過程尤為如此。對于不同目標(biāo)，人類的思考過程也有所不同，因此，我們暫時無法利用計算機(jī)完整地仿真其過程。在今后的工作中，我們可以針對不同目標(biāo)，提取不同的特征，構(gòu)造不同的CNN網(wǎng)絡(luò)結(jié)構(gòu)，進(jìn)一步提高分類效率。

參考文獻(xiàn)：

[1] Itti L, Koch C. A Saliency-Based Search Mechanism for Overt and Covert Shifts of Visual Attention[J]. Vision Research, 2000, 40(12): 1489-1506

[2] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Decorrelation and Distinctiveness Provide with Human-Like Saliency[C]∥International Conference on Advanced Concepts for Intelligent Vision Systems Springer, Berlin, Heidelberg, 2009, 5807: 343-354

[3] Zhang L, Tong M H, Marks T K, et al. Sun: A Bayesian Framework for Saliency Using Natural Statistics[J]. Journal of Vision, 2008, 8(7): 1-20

[4] Torralba A. Modeling Global Scene Factors in Attention[J]. Journal of The Optical Society of America A, 2003, 20(7): 1407-1418

[5] Sch?lkopf B, Platt J, Hofmann T. Graph-Based Visual Saliency[J]. Advances in Neural Information Processing Systems, 2007, 19: 545-552

[6] Sch?lkopf B, Platt J, Hofmann T. A Nonparametric Approach to Bottom-Up Visual Saliency[C]∥International Conference on Neural Information Processing Systems, 2006: 689-696

[7] Judd T, Ehinger K, Durand F, et al. Learning to Predict Where Humans Look[C]∥IEEE International Conference on Computer Vision, 2010: 2106-2113

[8] Swain M J, Ballard D H. Indexing via Color Histograms[C]∥International Conference on Computer Vision, 1990: 390-393

[9] Schiele B, Crowley J L. Recognition Without Correspondence Using Multidimensional Receptive Field Histograms[J]. International Journal of Computer Vision, 2000, 36(1): 31-50

[10] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110

[11] Lindeberg T. Scale Invariant Feature Transform[M]. Scholarpedia, 2012: 2012-2021

[12] Mohan R, Nevatia R. Perceptual Organization for Scene Segmentation and Description[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 1992, 14(6): 616-635

[13] Lillywhite K, Lee D J, Tippetts B, et al. A Feature Construction Method for General Object Recognition[J]. Pattern Recognition, 2013, 46(12): 3300-3314

[14] Hubel D H, Wiesel T N. Receptive Fields and Functional Architecture of Monkey Striate Cortex[J]. Journal of Physiology, 1968, 195(1): 215-243

[15] Krizhevsky A, Sutskever I, Hinton G E. Imagenet Classification with Deep Convolutional Neural Networks[C]∥International Conference on Neural Information Processing Systems, 2012: 1097-1105

[16] Bruce N D B, Tsotsos J K. Saliency Based on Information Maximization[C]∥International Conference on Neural Information Processing Systems, 2005: 155-162

[17] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Decorrelation and Distinctiveness Provide with Human-Like Saliency[C]∥International Conference on Advanced Concepts for Intelligent Vision Systems, 2009: 343-354