李娜, 趙歆波, 楊勇佳, 鄒曉春
1.西北工業(yè)大學(xué) 計算機(jī)學(xué)院, 陜西 西安 710029; 2.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710029
目標(biāo)分類是計算機(jī)視覺領(lǐng)域中非常重要的研究方向之一,是目標(biāo)分割,目標(biāo)跟蹤與行為分析等諸多復(fù)雜計算機(jī)視覺問題的基礎(chǔ),已廣泛應(yīng)用于交通、安防、醫(yī)療等領(lǐng)域。計算機(jī)自動目標(biāo)分類技術(shù)在一定程度上可以減少人工分類的勞動強(qiáng)度,改變?nèi)祟惖纳罘绞?,但目前計算機(jī)自動目標(biāo)分類技術(shù)的應(yīng)用還受其分類精度的限制。人類擁有強(qiáng)大的目標(biāo)分類能力,當(dāng)人在區(qū)分不同目標(biāo)時,先通過視覺通路篩選出自己感興趣的區(qū)域,然后由神經(jīng)系統(tǒng)做出正確判斷,得出分類結(jié)果。如果計算機(jī)能模擬人類的這種能力,計算機(jī)自動目標(biāo)分類技術(shù)將會與人類分類行為更相近,分類結(jié)果更準(zhǔn)確。
可計算視覺注意力模型,是利用計算機(jī)技術(shù)實(shí)現(xiàn)的視覺認(rèn)知模型,即利用視覺搜索中的多種信息,由計算機(jī)實(shí)現(xiàn)人類視覺注意力顯著對象預(yù)測的技術(shù)。近年來,該領(lǐng)域涌現(xiàn)出多種基于不同技術(shù)且效果優(yōu)良的視覺注意力模型。例如,基于自底向上特征整合的Itti[1]模型,基于神經(jīng)響應(yīng)去相關(guān)的AWS[2]模型,基于概率公式的SUN[3]模型,基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的Torralba[4]模型,基于圖論的GBVS[5]模型等。此外,機(jī)器學(xué)習(xí)的方法也已應(yīng)用于構(gòu)建視覺顯著模型當(dāng)中,Kch?lkopf等人[6]及Judd等人[7]分別利用圖像塊和從每個像素點(diǎn)得到的特征向量來得到顯著區(qū)域。但是,現(xiàn)有的大部分視覺注意力模型大多根據(jù)觀察者的“自由觀察”,并未涉及諸如目標(biāo)分類之類的技術(shù)。
關(guān)于目標(biāo)分類,傳統(tǒng)的方法有基于外觀的分類方法[8-9]、基于特征的分類方法[10-11],類似于CAD的物體模型[12]、遺傳算法等[13]。這些傳統(tǒng)的方法在一些領(lǐng)域表現(xiàn)優(yōu)良,但并不適用于多類目標(biāo)分類。20世紀(jì)60年代,Hubel等人[14]在研究貓腦皮層時發(fā)現(xiàn),用于局部敏感和方向選擇的神經(jīng)元,可以有效降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,并受到這種獨(dú)特網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),提出了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)。如今,CNN已成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn),特別是在模式分類領(lǐng)域,其分類能力已由Krizhevsky等人[15]在包含幾百種類別共計百萬張圖片的數(shù)據(jù)庫ImageNet上得已檢驗。 雖然CNN的機(jī)理類似于人類神經(jīng)網(wǎng)絡(luò),但是傳統(tǒng)的CNN忽視了人類視覺系統(tǒng)在分類前對信息篩選的重要作用。因此,如果能將CNN與視覺注意力模型相結(jié)合,將會更接近人類行為,其分類能力也會有所提高。
人類的視覺分類行為是一個視覺通絡(luò)與神經(jīng)系統(tǒng)相結(jié)合的過程。本文試圖通過對人類信息處理機(jī)制及人類神經(jīng)網(wǎng)絡(luò)的仿真,將視覺注意力模型與CNN相結(jié)合,提出一種具有生物學(xué)優(yōu)勢的目標(biāo)分類新方法。其具體工作:①建立一個眼動數(shù)據(jù)庫EDOC(eye-tracking database for objects classification),用于記錄觀察者在分類時的注視點(diǎn)數(shù)據(jù),分析并學(xué)習(xí)人類分類時的視覺行為;②基于EDOC數(shù)據(jù)庫,引入真實(shí)眼動數(shù)據(jù)作為監(jiān)督值,建立基于有監(jiān)督學(xué)習(xí)的視覺注意力模型,以實(shí)現(xiàn)人類視覺信息處理機(jī)制的仿真;③建立更適合目標(biāo)分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)人類神經(jīng)網(wǎng)絡(luò)處理過程的仿真。
通過對人類視覺目標(biāo)分類過程的仿真,結(jié)果與傳統(tǒng)分類方法相比,本文所提出的目標(biāo)分類方法,在分類過程上與人類分類行為更相近。實(shí)驗表明,本文提出的視覺注意力模型可以更準(zhǔn)確地預(yù)測人在分類時感興趣區(qū)域,并與本文建立的CNN網(wǎng)絡(luò)相結(jié)合,可顯著提高目標(biāo)分類的準(zhǔn)確度及收斂速度。
本文提出的目標(biāo)分類方法,結(jié)合了對人類視覺信息處理機(jī)制的仿真與對人類神經(jīng)網(wǎng)絡(luò)的仿真,其算法流程如圖1所示。
圖1 算法流程圖
在對人類視覺信息處理機(jī)制的仿真過程中,本文首先建立了一個眼動數(shù)據(jù)庫EDOC,記錄觀察者在分類時的注視點(diǎn)數(shù)據(jù)。然后在EDOC數(shù)據(jù)庫里,隨機(jī)挑選訓(xùn)練圖像集,對其進(jìn)行顯著視覺特征提取,經(jīng)過支持向量機(jī)(SVM)訓(xùn)練,同時引入真實(shí)眼動數(shù)據(jù)作為基準(zhǔn)圖像,建立了基于有監(jiān)督學(xué)習(xí)的視覺注意力模型,能預(yù)測出人在進(jìn)行目標(biāo)分類的視覺顯著圖。
在人類神經(jīng)網(wǎng)絡(luò)仿真過程中,本文首先將視覺注意力模型預(yù)測出的視覺顯著圖前60%的顯著區(qū)域,作為人類分類的感興趣區(qū)域;然后設(shè)計了適合目標(biāo)分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),以隨機(jī)挑選感興趣區(qū)域圖片得到訓(xùn)練集,利用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行特征提取,經(jīng)過SVM訓(xùn)練,得到最終目標(biāo)分類結(jié)果。
由于現(xiàn)有的大部分眼動數(shù)據(jù)庫在建立時,觀察者是“自由觀察”的,并沒有在目標(biāo)分類任務(wù)下,因此,為研究一般人在做目標(biāo)分類時的視覺行為,本文建立了數(shù)據(jù)庫EDOC(如圖2所示)。該數(shù)據(jù)庫包含6類目標(biāo)的彩色圖像以及受試者觀察這些目標(biāo)的眼動數(shù)據(jù)。6類目標(biāo)分別是飛機(jī)、自行車、汽車、狗、人和白貓,每類目標(biāo)各包含50張樣本,共計300張且均帶有類別標(biāo)簽。圖像尺寸由600×700至800×500不等。
圖2 EDOC數(shù)據(jù)庫的示例
本文使用Tobii TX300眼動儀記錄眼動數(shù)據(jù)。眼動數(shù)據(jù)采集對象共10人,年齡12歲至40歲,男女各5人。實(shí)驗中,每幅圖展示5 s,讓受試者觀察的同時對他們發(fā)出區(qū)分這6類目標(biāo)的指令。為保證實(shí)驗記錄數(shù)據(jù)的準(zhǔn)確性,每隔10幅圖后均會進(jìn)行自動校準(zhǔn)。根據(jù)實(shí)驗記錄的數(shù)據(jù)分析得出,受試者在最初觀察圖像的1 s里很可能只是在自由觀察,并未執(zhí)行分類任務(wù),所以本文舍棄了受試者前1 s的眼動數(shù)據(jù),記錄下來的眼動數(shù)據(jù)(見圖3b))用來訓(xùn)練視覺顯著模型。而熱圖(見圖3c))可以反映出受試者在分類時的感興趣區(qū)域,分割出的感興趣區(qū)域用來做目標(biāo)分類。統(tǒng)計所有受試者的注視點(diǎn)數(shù)據(jù)并經(jīng)過高斯濾波(參數(shù)標(biāo)準(zhǔn)差為2)得到基準(zhǔn)圖像(ground truth,GT)(見圖3d)),用作測試顯著模型的性能。
圖3 眼動數(shù)據(jù)采集與處理
視覺注意力是幫助人類從無標(biāo)注場景進(jìn)行視覺感知的一個重要屬性,人類可以迅速從外界輸入的大量視覺信息中判斷出感興趣信息,使之優(yōu)先得到大腦神經(jīng)的處理。為模擬人類的視覺注意機(jī)制,可通過計算的方法建立模型,即建立視覺注意力模型。為獲得圖像特征與視覺注意力之間的變換關(guān)系,本文首先對EDOC數(shù)據(jù)庫里的圖像提取特征,并將得到的特征與注視點(diǎn)數(shù)據(jù)相映射,得到適用于分類任務(wù)的視覺顯著模型,利用該模型預(yù)測人在分類時的顯著圖,進(jìn)而得到與人類分類行為相近的感興趣區(qū)域,以作下一步分類。
為提高視覺注意力模型的性能,本文將低層特征與高層特征相結(jié)合,通過反復(fù)實(shí)驗和結(jié)果比較,剔除了場景圖像中與任務(wù)不相關(guān)的特征后,選取了特征集F={f1,f2,…,f35},其中包括31個低層特征及4個高級特征。
3.1.1 低層特征
1) 用金字塔濾波器對三尺度的多分辨率亮度圖像進(jìn)行四方向濾波,得到13個亮度特征(如圖4前13幅圖所示)。
2) 用ITTI[9]模型計算得到顏色、強(qiáng)度、方向3個特征 (如圖4第14~16幅圖所示)。
3) 利用加入了語境特征的Torralba[11]模型,基于圖論的GBVS模型及采用了Lab色彩空間和去相關(guān)特征圖的AWS模型計算顯著圖,得到3個模型特征(如圖4第17~19幅圖所示)。
4) 計算紅、綠、藍(lán)三顏色通道值及概率值,分別得到3個色度特征及3個色度概率特征(如圖4第20~25幅圖所示)。
5) 用中值濾波器對六尺度的彩色圖像進(jìn)行濾波,并計算三維色度直方圖,得到5個色度直方圖特征(如圖4第26~30幅圖所示)。
6) 參照攝影師在構(gòu)圖和平衡畫面時會用到水平線特征,故選取水平線作為最后一個低層特征 (如圖4第31幅圖所示)。
3.1.2 高層特征
在實(shí)驗中,我們發(fā)現(xiàn)因存在先驗知識的原因,人類對人、人臉及車等各類體征會給予更多關(guān)注。因此,本文選取人臉檢測器跟人,汽車檢測器的檢測結(jié)果作為高級特征 (如圖4第32~35幅圖所示)。
圖4 特征圖
在統(tǒng)計學(xué)習(xí)理論中發(fā)展起來的支持向量機(jī)(support vector machines,SVM)方法是一種通用學(xué)習(xí)方法,其在非線性分類、函數(shù)逼近、模式識別等應(yīng)用中有非常好的推廣能力,可以有效地解決有限樣本條件下的高維數(shù)據(jù)模型構(gòu)建問題,并具有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感等優(yōu)點(diǎn)。因此,本文利用SVM理論,得到圖像特征與視覺注意力之間的變換關(guān)系,將提取的特征集F映射到視覺注意力空間,訓(xùn)練得到每個特征與視覺注意力之間的關(guān)系,并利用該映射關(guān)系生成視覺顯著圖,進(jìn)而得出人類在分類時的感興趣區(qū)域。
訓(xùn)練過程中,取樣本集S?T,T為基準(zhǔn)圖像的訓(xùn)練集。樣本s∈S。令
設(shè)P為基準(zhǔn)圖像的像素集,P={p1,p2,…,pN},N為基準(zhǔn)圖像中像素的個數(shù)。O(pi)表示像素的顯著度,i=1,2,…,N。對像素集P進(jìn)行排序得到有序集合Po={po1,po2,…,poN},其中O(po1)≥O(po2)≥…≥O(poN)。在利用SVM模型進(jìn)行訓(xùn)練時,我們選擇Sp?S作為正樣本,Sn?S作為負(fù)樣本,其中Sp={po1,po2,…,pom},m=0.05N,Sn={pol,pol,…,poN},N-l=0.3N,最終預(yù)測出顯著圖,訓(xùn)練過程的流程圖如圖1上半部分(人類視覺信息處理機(jī)制的仿真過程)所示。
人類的神經(jīng)-中樞-大腦的工作過程,是一個不斷迭代、不斷抽象的過程。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個新領(lǐng)域,其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來處理諸如圖像之類的數(shù)據(jù)。CNN是一種深度學(xué)習(xí)下的多層次的機(jī)器學(xué)習(xí)模型,在CNN中,圖像的一小部分(局部感受區(qū)域)作為多層結(jié)構(gòu)的最低層的輸入,將不同的信息傳遞到不同的層,每層均通過抽象去獲得觀測數(shù)據(jù)的最顯著的特征并挖掘數(shù)據(jù)局部特征,經(jīng)過不斷的迭代提取全局特征,最終進(jìn)行分類。
CNN的最大特點(diǎn)就是局部連接和權(quán)值共享。它的權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),并且局部連接和權(quán)值共享可以減少所要訓(xùn)練的參數(shù)及計算復(fù)雜度。CNN網(wǎng)絡(luò)結(jié)構(gòu)包括:卷積層,池化層與全連接層,它們參數(shù)的設(shè)置正是整個CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的重點(diǎn)。經(jīng)過多次實(shí)驗與調(diào)整,以及對目標(biāo)特征的分析,本文設(shè)計了更適用于目標(biāo)分類的CNN網(wǎng)絡(luò)結(jié)構(gòu),包含4個卷積層,4個池化層,卷積層與池化層交替設(shè)置,如圖5所示。如此,多層的卷積層結(jié)構(gòu)通過對輸入的圖像進(jìn)行逐層抽象,從而獲得更高層次的分布式特征表達(dá),組合形成更抽象的特征,本文設(shè)計的CNN網(wǎng)絡(luò)結(jié)構(gòu)最后一層為全連接層,用于對圖片對象的特征描述。
圖5 CNN網(wǎng)絡(luò)結(jié)構(gòu)
卷積可以提取出圖像的局部特征,因此卷積層的設(shè)置是CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的核心。通過對目標(biāo)特征的分析,以及試驗與調(diào)整,本文的CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計了4個卷積層(C1~C4)(如圖5所示)。特征的提取是通過以權(quán)值矩陣形式出現(xiàn)的卷積核(kernel)來完成的,本文建立的CNN網(wǎng)絡(luò)各卷積層的卷積核大小分別為5,5,5,4像素。針對各卷積層功能的不同,卷積核的大小也不同,如第一個卷積層的卷積核可以提取邊緣、角等信息,通過實(shí)驗與分析,5個像素的大小與目標(biāo)邊緣特征較符合,因此第一層卷積層的卷積核大小設(shè)為5。卷積核提取的二維特征集合為特征圖。每層的特征圖作為下一層的輸入繼續(xù)傳播,本文CNN網(wǎng)絡(luò)結(jié)構(gòu)各卷積層輸出的特征圖數(shù)目分別為9,18,36,72,卷積的步長均為1像素。此外,卷積核與輸入之間的局部連接可以減少很多網(wǎng)絡(luò)參數(shù),降低計算負(fù)擔(dān)。
池化即為將尺寸比較大的圖像的不同位置的特征進(jìn)行聚合,計算圖像一個區(qū)域上的某個特定特征的平均值(或最大值)來代表這個區(qū)域的特征。池化層的作用是使通過卷積層獲得的特征具有空間不變性。因此為與卷積層層數(shù)一致,本文設(shè)計的CNN網(wǎng)絡(luò)結(jié)構(gòu)也包含4個池化層(S1~S4)(如圖5所示),分別連接在各層卷積層之后。為獲取對平移、縮放和旋轉(zhuǎn)不變的顯著特征,各層池化大小均為2個像素,池化的步長均為1 像素。本文采用常見的最大池化方式,其不僅可以降低特征的維數(shù),還可以提高特征的魯棒性。
本文CNN網(wǎng)絡(luò)結(jié)構(gòu)的最后一層為全連接層,輸出一個兼顧了目標(biāo)的局部特征與整體特征的648維的特征向量,由于本文CNN結(jié)構(gòu)中的4個卷積層及4個池化層已先將特征的維數(shù)盡可能降低至可接受的大小,因此最后一層全連接層產(chǎn)生的計算負(fù)擔(dān)在可接受范圍內(nèi)。最后利用liblinear SVM將得到的648維特征向量,進(jìn)行訓(xùn)練,得出分類結(jié)果。
至此,本文建立的CNN網(wǎng)絡(luò)結(jié)構(gòu),共計包含在4個卷積層、4個池化層、1個全連接層。在進(jìn)行目標(biāo)分類時,目標(biāo)的一小部分作為本文CNN網(wǎng)絡(luò)結(jié)構(gòu)的最低層輸入,經(jīng)過個卷積層特征提取,并經(jīng)過各池化層的最大池化,獲得目標(biāo)最顯著的特征并挖掘出目標(biāo)的局部特征,經(jīng)過迭代,提取全局特征并結(jié)合局部特征進(jìn)行分類,最終輸出分類結(jié)果。
為驗證算法的正確性及有效性,本文設(shè)計了3組實(shí)驗,第1組實(shí)驗驗證了本文的視覺顯著模型(Ours)預(yù)測分類RoIs的能力,同時在相同條件下將Ours模型與其它視覺顯著模型做了比較;第2組實(shí)驗在數(shù)據(jù)庫EDOC上評估了本文分類方法分類的錯誤率大小及錯誤率收斂速度,同時比較了本文分類方法與常規(guī)CNN的分類能力,本文分類方法是利用分類RoIs進(jìn)行分類,而常規(guī)CNN是利用原圖進(jìn)行分類;為充分驗證本文算法,第3組實(shí)驗增加了實(shí)驗數(shù)據(jù)量,建立了包含6 000張圖的數(shù)據(jù)集,在該數(shù)據(jù)集上比較了本文分類方法與常規(guī)CNN分類時的錯誤率。實(shí)驗環(huán)境是IBM x3650m5服務(wù)器,配置CPU E5-2603v2 (2.4 GHz), 32 GB RAM。
本實(shí)驗利用EDOC數(shù)據(jù)庫中的數(shù)據(jù),對分類RoIs進(jìn)行預(yù)測,實(shí)驗采集的注視點(diǎn)數(shù)據(jù)作為基準(zhǔn)。實(shí)驗時,將所有彩色圖像統(tǒng)一到200×200的大小,每類目標(biāo)挑選30幅彩色圖像作為訓(xùn)練,20幅作為測試。與Ours進(jìn)行比較的8種模型分別是:AIM[16],AWS[2],Judd[7],ITTI[1],GBVS[5],SUN[3],STB[17],Torralba[4],這9種模型得到的典型視覺顯著圖對比如圖6所示。由于沒有統(tǒng)一評價視覺注意力模型的標(biāo)準(zhǔn),本文選取了常用的評價函數(shù)有:AUC、敏感度與特異度。AUC是一種用來度量視覺注意力模型與基準(zhǔn)圖像的差異的一個標(biāo)準(zhǔn),通常,AUC的值介于0.5到1.0之間, AUC越大代表了模型的表現(xiàn)越好,與基準(zhǔn)圖像更相近。敏感度,又稱為真陽性率,指將已知類別的目標(biāo)準(zhǔn)確分類的數(shù)目占總分類結(jié)果的比例,敏感度越高,模型越靈敏。特異度,又稱為真陰性率,指將非該類的目標(biāo)準(zhǔn)確剔除的數(shù)目占總分類結(jié)果的比例,特異度越高,模型篩檢目標(biāo)非該類的能力越強(qiáng)。當(dāng)3種評價函數(shù)數(shù)值越高,說明該模型性能越好。本實(shí)驗在60%的顯著區(qū)域計算敏感度與特異度。3種評價函數(shù)的實(shí)驗結(jié)果如表1所示。
圖6 9種模型得到的視覺顯著圖對比
參數(shù)OursAIMAWSGBVSITTISTBSUNTorralbaJudd平均值A(chǔ)UC0.84210.72320.78110.82840.60780.81510.73600.71580.82870.7642敏感度/%73.289551.821261.187871.479440.860567.915349.825252.761971.990560.1257特異度/%82.235477.417479.148077.858877.821778.867476.031476.540277.674578.1772
圖6為EDOC數(shù)據(jù)庫里的部分樣例在9種模型下的視覺顯著圖對比,通過人的主觀判斷,可以看出相較于其他8種模型,Ours模型能更好的提取目標(biāo)的特征,如車輪、眼睛等局部特征,人臉,汽車等整體特征。如此,特征的更好提取,更有利于分類準(zhǔn)確度的提高。
從表1中可以明顯看出,在AUC指標(biāo)下,Ours模型的結(jié)果為0.842 1,均高于其他8種模型,遠(yuǎn)高于ITTI模型,最接近基準(zhǔn)圖像(1.000 0)。Ours模型的敏感度為73.289 5,為9種模型的最大值,比平均值大約高13%,說明Ours模型較其他模型更靈敏。而實(shí)驗中特異度的最大值也為Ours模型。結(jié)果表明,Ours模型在3種評價函數(shù)下,性能良好,與基準(zhǔn)圖像更一致。因此,Ours模型明顯提高了利用視覺顯著圖預(yù)測人在分類時注視點(diǎn)的精度,更適用于提取分類RoIs。
本文從分類錯誤率的大小與收斂速度兩方面,來評價本文分類方法性能。首先,將Ours模型預(yù)測的顯著圖前60%的區(qū)域,作為分類RoIs,實(shí)例如圖7所示。
圖7 分類RoIs獲取
然后將分類RoIs作為如圖5所示CNN網(wǎng)絡(luò)的輸入進(jìn)行分類。并與將原圖作為輸入的常規(guī)CNN分類分類方法結(jié)果作以比較。實(shí)驗時,將所有圖像均統(tǒng)一為100×100的大小,每類目標(biāo)挑選30幅作為訓(xùn)練,20幅作為測試。2種分類方法各進(jìn)行3次實(shí)驗,CNN網(wǎng)絡(luò)的練次數(shù)分別為500,1 000,1 500,以得到的錯誤率作為評判標(biāo)準(zhǔn),結(jié)果如表2所示。
表2 EDOC數(shù)據(jù)庫上3種訓(xùn)練次數(shù)下輸入原始圖像與分類RoIs進(jìn)行CNN分類的錯誤率比較
從表2中可以看出,在3種訓(xùn)練次數(shù)下,本文的方法分類錯誤率均低于常規(guī)CNN。雖然在訓(xùn)練次數(shù)為500的時候,由于訓(xùn)練次數(shù)較少,2種方法的錯誤率都高于50%,但是本文方法的錯誤率比常規(guī)方法的錯誤率小10%。隨著訓(xùn)練次數(shù)的增加,本文方法的錯誤率從63.3%下降到36.7%,直到18.2%。而常規(guī)的CNN在訓(xùn)練次數(shù)為1 000時,錯誤率為50%,當(dāng)訓(xùn)練次數(shù)增加到1 500時,其錯誤率仍高于30%。雖然隨著訓(xùn)練次數(shù)的增加,2種方法的分類錯誤率均會下降,但是很明顯本文的分類方法分類錯誤率的收斂速度快于常規(guī)CNN方法。在相同訓(xùn)練次數(shù)下,錯誤率更低。因此,本文的分類方法可以優(yōu)化分類結(jié)果。
5.1及5.2節(jié)的實(shí)驗,雖從兩方面驗證了本文分類方法的合理性,但是數(shù)據(jù)庫EDOC包含的數(shù)據(jù)量較少,而目前又沒有現(xiàn)成的包含6類目標(biāo)的大數(shù)據(jù)庫可以利用,所以,為充分驗證本文分類方法,如圖8所示,本節(jié)建立了一個較大的包含了6 000張圖的數(shù)據(jù)集以進(jìn)行實(shí)驗。該數(shù)據(jù)集中的圖片均來自網(wǎng)絡(luò),每類各有1 000張。
實(shí)驗中,首先利用Ours模型預(yù)測這6 000張圖的顯著圖,并將顯著圖的前60%顯著的區(qū)域作為分類RoIs。然后利用CNN網(wǎng)絡(luò)對分類RoIs進(jìn)行分類,并與將原圖作為輸入的常規(guī)的CNN分類分類方法結(jié)果作以比較。同樣地將所有圖像均統(tǒng)一為100×100的大小,每類目標(biāo)挑選600幅作為訓(xùn)練,400幅作為測試, 分類錯誤率對比結(jié)果如表3所示。
圖8 6 000張圖的示例
訓(xùn)練次數(shù)錯誤率/%原始圖像分類Rols50063.244.6100056.733.8150046.929.1
從表3中可看出,在包含了6 000張圖的較大數(shù)據(jù)庫上的實(shí)驗中,隨著訓(xùn)練次數(shù)增加,2種方法的錯誤率雖然均有下降,但是在相同訓(xùn)練次數(shù)下,本文方法分類錯誤率明顯低于常規(guī)CNN。在訓(xùn)練次數(shù)為500的時,本文的方法的錯誤率(44.6%)比常規(guī)方。法的錯誤率(63.2%)低近20%,甚至低于常規(guī)方法在訓(xùn)練次數(shù)為1 000次的分類錯誤率(56.7%)隨著訓(xùn)練次數(shù)次數(shù)的增加,本文分類方法的錯誤率從44.6%下降到29.1%,而常規(guī)方法的錯誤率從63.2%下降到46.9%,本文分類方法分類錯誤率的收斂速度很明顯快于常規(guī)CNN方法。因此,本文的分類方法在較大數(shù)據(jù)集上也有優(yōu)良的分類表現(xiàn)。
受人類對不同目標(biāo)進(jìn)行分類識別行為的完整過程的啟發(fā),本文提出了一種結(jié)合基于學(xué)習(xí)的視覺顯著模型與CNN的目標(biāo)分類新方法。通過建立EDOC數(shù)據(jù)庫,研究并記錄人們在進(jìn)行目標(biāo)分類時的視覺行為;然后,利用該數(shù)據(jù)庫訓(xùn)練出針對分類任務(wù)的有監(jiān)督視覺注意力模型,預(yù)測人在區(qū)分不同目標(biāo)時的感興趣區(qū)域;最后設(shè)計了適用于分類的CNN網(wǎng)絡(luò),利用視覺注意力模型得到的感興趣區(qū)域進(jìn)行目標(biāo)分類。本文的方法與常規(guī)的CNN分類方法相比,分類準(zhǔn)確度有明顯提高,且收斂速度更快,其生物學(xué)優(yōu)勢也十分顯著。由于人類的視覺行為很復(fù)雜,思考過程尤為如此。對于不同目標(biāo),人類的思考過程也有所不同,因此,我們暫時無法利用計算機(jī)完整地仿真其過程。在今后的工作中,我們可以針對不同目標(biāo),提取不同的特征,構(gòu)造不同的CNN網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提高分類效率。
參考文獻(xiàn):
[1] Itti L, Koch C. A Saliency-Based Search Mechanism for Overt and Covert Shifts of Visual Attention[J]. Vision Research, 2000, 40(12): 1489-1506
[2] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Decorrelation and Distinctiveness Provide with Human-Like Saliency[C]∥International Conference on Advanced Concepts for Intelligent Vision Systems Springer, Berlin, Heidelberg, 2009, 5807: 343-354
[3] Zhang L, Tong M H, Marks T K, et al. Sun: A Bayesian Framework for Saliency Using Natural Statistics[J]. Journal of Vision, 2008, 8(7): 1-20
[4] Torralba A. Modeling Global Scene Factors in Attention[J]. Journal of The Optical Society of America A, 2003, 20(7): 1407-1418
[5] Sch?lkopf B, Platt J, Hofmann T. Graph-Based Visual Saliency[J]. Advances in Neural Information Processing Systems, 2007, 19: 545-552
[6] Sch?lkopf B, Platt J, Hofmann T. A Nonparametric Approach to Bottom-Up Visual Saliency[C]∥International Conference on Neural Information Processing Systems, 2006: 689-696
[7] Judd T, Ehinger K, Durand F, et al. Learning to Predict Where Humans Look[C]∥IEEE International Conference on Computer Vision, 2010: 2106-2113
[8] Swain M J, Ballard D H. Indexing via Color Histograms[C]∥International Conference on Computer Vision, 1990: 390-393
[9] Schiele B, Crowley J L. Recognition Without Correspondence Using Multidimensional Receptive Field Histograms[J]. International Journal of Computer Vision, 2000, 36(1): 31-50
[10] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110
[11] Lindeberg T. Scale Invariant Feature Transform[M]. Scholarpedia, 2012: 2012-2021
[12] Mohan R, Nevatia R. Perceptual Organization for Scene Segmentation and Description[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 1992, 14(6): 616-635
[13] Lillywhite K, Lee D J, Tippetts B, et al. A Feature Construction Method for General Object Recognition[J]. Pattern Recognition, 2013, 46(12): 3300-3314
[14] Hubel D H, Wiesel T N. Receptive Fields and Functional Architecture of Monkey Striate Cortex[J]. Journal of Physiology, 1968, 195(1): 215-243
[15] Krizhevsky A, Sutskever I, Hinton G E. Imagenet Classification with Deep Convolutional Neural Networks[C]∥International Conference on Neural Information Processing Systems, 2012: 1097-1105
[16] Bruce N D B, Tsotsos J K. Saliency Based on Information Maximization[C]∥International Conference on Neural Information Processing Systems, 2005: 155-162
[17] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Decorrelation and Distinctiveness Provide with Human-Like Saliency[C]∥International Conference on Advanced Concepts for Intelligent Vision Systems, 2009: 343-354