亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于學(xué)習(xí)及視覺感知啟發(fā)的目標(biāo)分類方法

        2018-05-07 02:20:36李娜趙歆波楊勇佳鄒曉春
        關(guān)鍵詞:分類特征方法

        李娜, 趙歆波, 楊勇佳, 鄒曉春

        1.西北工業(yè)大學(xué) 計算機(jī)學(xué)院, 陜西 西安 710029; 2.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710029

        目標(biāo)分類是計算機(jī)視覺領(lǐng)域中非常重要的研究方向之一,是目標(biāo)分割,目標(biāo)跟蹤與行為分析等諸多復(fù)雜計算機(jī)視覺問題的基礎(chǔ),已廣泛應(yīng)用于交通、安防、醫(yī)療等領(lǐng)域。計算機(jī)自動目標(biāo)分類技術(shù)在一定程度上可以減少人工分類的勞動強(qiáng)度,改變?nèi)祟惖纳罘绞?,但目前計算機(jī)自動目標(biāo)分類技術(shù)的應(yīng)用還受其分類精度的限制。人類擁有強(qiáng)大的目標(biāo)分類能力,當(dāng)人在區(qū)分不同目標(biāo)時,先通過視覺通路篩選出自己感興趣的區(qū)域,然后由神經(jīng)系統(tǒng)做出正確判斷,得出分類結(jié)果。如果計算機(jī)能模擬人類的這種能力,計算機(jī)自動目標(biāo)分類技術(shù)將會與人類分類行為更相近,分類結(jié)果更準(zhǔn)確。

        可計算視覺注意力模型,是利用計算機(jī)技術(shù)實(shí)現(xiàn)的視覺認(rèn)知模型,即利用視覺搜索中的多種信息,由計算機(jī)實(shí)現(xiàn)人類視覺注意力顯著對象預(yù)測的技術(shù)。近年來,該領(lǐng)域涌現(xiàn)出多種基于不同技術(shù)且效果優(yōu)良的視覺注意力模型。例如,基于自底向上特征整合的Itti[1]模型,基于神經(jīng)響應(yīng)去相關(guān)的AWS[2]模型,基于概率公式的SUN[3]模型,基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的Torralba[4]模型,基于圖論的GBVS[5]模型等。此外,機(jī)器學(xué)習(xí)的方法也已應(yīng)用于構(gòu)建視覺顯著模型當(dāng)中,Kch?lkopf等人[6]及Judd等人[7]分別利用圖像塊和從每個像素點(diǎn)得到的特征向量來得到顯著區(qū)域。但是,現(xiàn)有的大部分視覺注意力模型大多根據(jù)觀察者的“自由觀察”,并未涉及諸如目標(biāo)分類之類的技術(shù)。

        關(guān)于目標(biāo)分類,傳統(tǒng)的方法有基于外觀的分類方法[8-9]、基于特征的分類方法[10-11],類似于CAD的物體模型[12]、遺傳算法等[13]。這些傳統(tǒng)的方法在一些領(lǐng)域表現(xiàn)優(yōu)良,但并不適用于多類目標(biāo)分類。20世紀(jì)60年代,Hubel等人[14]在研究貓腦皮層時發(fā)現(xiàn),用于局部敏感和方向選擇的神經(jīng)元,可以有效降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,并受到這種獨(dú)特網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),提出了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)。如今,CNN已成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn),特別是在模式分類領(lǐng)域,其分類能力已由Krizhevsky等人[15]在包含幾百種類別共計百萬張圖片的數(shù)據(jù)庫ImageNet上得已檢驗。 雖然CNN的機(jī)理類似于人類神經(jīng)網(wǎng)絡(luò),但是傳統(tǒng)的CNN忽視了人類視覺系統(tǒng)在分類前對信息篩選的重要作用。因此,如果能將CNN與視覺注意力模型相結(jié)合,將會更接近人類行為,其分類能力也會有所提高。

        人類的視覺分類行為是一個視覺通絡(luò)與神經(jīng)系統(tǒng)相結(jié)合的過程。本文試圖通過對人類信息處理機(jī)制及人類神經(jīng)網(wǎng)絡(luò)的仿真,將視覺注意力模型與CNN相結(jié)合,提出一種具有生物學(xué)優(yōu)勢的目標(biāo)分類新方法。其具體工作:①建立一個眼動數(shù)據(jù)庫EDOC(eye-tracking database for objects classification),用于記錄觀察者在分類時的注視點(diǎn)數(shù)據(jù),分析并學(xué)習(xí)人類分類時的視覺行為;②基于EDOC數(shù)據(jù)庫,引入真實(shí)眼動數(shù)據(jù)作為監(jiān)督值,建立基于有監(jiān)督學(xué)習(xí)的視覺注意力模型,以實(shí)現(xiàn)人類視覺信息處理機(jī)制的仿真;③建立更適合目標(biāo)分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)人類神經(jīng)網(wǎng)絡(luò)處理過程的仿真。

        通過對人類視覺目標(biāo)分類過程的仿真,結(jié)果與傳統(tǒng)分類方法相比,本文所提出的目標(biāo)分類方法,在分類過程上與人類分類行為更相近。實(shí)驗表明,本文提出的視覺注意力模型可以更準(zhǔn)確地預(yù)測人在分類時感興趣區(qū)域,并與本文建立的CNN網(wǎng)絡(luò)相結(jié)合,可顯著提高目標(biāo)分類的準(zhǔn)確度及收斂速度。

        1 算法描述

        本文提出的目標(biāo)分類方法,結(jié)合了對人類視覺信息處理機(jī)制的仿真與對人類神經(jīng)網(wǎng)絡(luò)的仿真,其算法流程如圖1所示。

        圖1 算法流程圖

        在對人類視覺信息處理機(jī)制的仿真過程中,本文首先建立了一個眼動數(shù)據(jù)庫EDOC,記錄觀察者在分類時的注視點(diǎn)數(shù)據(jù)。然后在EDOC數(shù)據(jù)庫里,隨機(jī)挑選訓(xùn)練圖像集,對其進(jìn)行顯著視覺特征提取,經(jīng)過支持向量機(jī)(SVM)訓(xùn)練,同時引入真實(shí)眼動數(shù)據(jù)作為基準(zhǔn)圖像,建立了基于有監(jiān)督學(xué)習(xí)的視覺注意力模型,能預(yù)測出人在進(jìn)行目標(biāo)分類的視覺顯著圖。

        在人類神經(jīng)網(wǎng)絡(luò)仿真過程中,本文首先將視覺注意力模型預(yù)測出的視覺顯著圖前60%的顯著區(qū)域,作為人類分類的感興趣區(qū)域;然后設(shè)計了適合目標(biāo)分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),以隨機(jī)挑選感興趣區(qū)域圖片得到訓(xùn)練集,利用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行特征提取,經(jīng)過SVM訓(xùn)練,得到最終目標(biāo)分類結(jié)果。

        2 建立EDOC數(shù)據(jù)庫

        由于現(xiàn)有的大部分眼動數(shù)據(jù)庫在建立時,觀察者是“自由觀察”的,并沒有在目標(biāo)分類任務(wù)下,因此,為研究一般人在做目標(biāo)分類時的視覺行為,本文建立了數(shù)據(jù)庫EDOC(如圖2所示)。該數(shù)據(jù)庫包含6類目標(biāo)的彩色圖像以及受試者觀察這些目標(biāo)的眼動數(shù)據(jù)。6類目標(biāo)分別是飛機(jī)、自行車、汽車、狗、人和白貓,每類目標(biāo)各包含50張樣本,共計300張且均帶有類別標(biāo)簽。圖像尺寸由600×700至800×500不等。

        圖2 EDOC數(shù)據(jù)庫的示例

        本文使用Tobii TX300眼動儀記錄眼動數(shù)據(jù)。眼動數(shù)據(jù)采集對象共10人,年齡12歲至40歲,男女各5人。實(shí)驗中,每幅圖展示5 s,讓受試者觀察的同時對他們發(fā)出區(qū)分這6類目標(biāo)的指令。為保證實(shí)驗記錄數(shù)據(jù)的準(zhǔn)確性,每隔10幅圖后均會進(jìn)行自動校準(zhǔn)。根據(jù)實(shí)驗記錄的數(shù)據(jù)分析得出,受試者在最初觀察圖像的1 s里很可能只是在自由觀察,并未執(zhí)行分類任務(wù),所以本文舍棄了受試者前1 s的眼動數(shù)據(jù),記錄下來的眼動數(shù)據(jù)(見圖3b))用來訓(xùn)練視覺顯著模型。而熱圖(見圖3c))可以反映出受試者在分類時的感興趣區(qū)域,分割出的感興趣區(qū)域用來做目標(biāo)分類。統(tǒng)計所有受試者的注視點(diǎn)數(shù)據(jù)并經(jīng)過高斯濾波(參數(shù)標(biāo)準(zhǔn)差為2)得到基準(zhǔn)圖像(ground truth,GT)(見圖3d)),用作測試顯著模型的性能。

        圖3 眼動數(shù)據(jù)采集與處理

        3 基于學(xué)習(xí)的視覺注意力模型

        視覺注意力是幫助人類從無標(biāo)注場景進(jìn)行視覺感知的一個重要屬性,人類可以迅速從外界輸入的大量視覺信息中判斷出感興趣信息,使之優(yōu)先得到大腦神經(jīng)的處理。為模擬人類的視覺注意機(jī)制,可通過計算的方法建立模型,即建立視覺注意力模型。為獲得圖像特征與視覺注意力之間的變換關(guān)系,本文首先對EDOC數(shù)據(jù)庫里的圖像提取特征,并將得到的特征與注視點(diǎn)數(shù)據(jù)相映射,得到適用于分類任務(wù)的視覺顯著模型,利用該模型預(yù)測人在分類時的顯著圖,進(jìn)而得到與人類分類行為相近的感興趣區(qū)域,以作下一步分類。

        3.1 顯著視覺特征提取

        為提高視覺注意力模型的性能,本文將低層特征與高層特征相結(jié)合,通過反復(fù)實(shí)驗和結(jié)果比較,剔除了場景圖像中與任務(wù)不相關(guān)的特征后,選取了特征集F={f1,f2,…,f35},其中包括31個低層特征及4個高級特征。

        3.1.1 低層特征

        1) 用金字塔濾波器對三尺度的多分辨率亮度圖像進(jìn)行四方向濾波,得到13個亮度特征(如圖4前13幅圖所示)。

        2) 用ITTI[9]模型計算得到顏色、強(qiáng)度、方向3個特征 (如圖4第14~16幅圖所示)。

        3) 利用加入了語境特征的Torralba[11]模型,基于圖論的GBVS模型及采用了Lab色彩空間和去相關(guān)特征圖的AWS模型計算顯著圖,得到3個模型特征(如圖4第17~19幅圖所示)。

        4) 計算紅、綠、藍(lán)三顏色通道值及概率值,分別得到3個色度特征及3個色度概率特征(如圖4第20~25幅圖所示)。

        5) 用中值濾波器對六尺度的彩色圖像進(jìn)行濾波,并計算三維色度直方圖,得到5個色度直方圖特征(如圖4第26~30幅圖所示)。

        6) 參照攝影師在構(gòu)圖和平衡畫面時會用到水平線特征,故選取水平線作為最后一個低層特征 (如圖4第31幅圖所示)。

        3.1.2 高層特征

        在實(shí)驗中,我們發(fā)現(xiàn)因存在先驗知識的原因,人類對人、人臉及車等各類體征會給予更多關(guān)注。因此,本文選取人臉檢測器跟人,汽車檢測器的檢測結(jié)果作為高級特征 (如圖4第32~35幅圖所示)。

        圖4 特征圖

        3.2 訓(xùn)練過程

        在統(tǒng)計學(xué)習(xí)理論中發(fā)展起來的支持向量機(jī)(support vector machines,SVM)方法是一種通用學(xué)習(xí)方法,其在非線性分類、函數(shù)逼近、模式識別等應(yīng)用中有非常好的推廣能力,可以有效地解決有限樣本條件下的高維數(shù)據(jù)模型構(gòu)建問題,并具有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感等優(yōu)點(diǎn)。因此,本文利用SVM理論,得到圖像特征與視覺注意力之間的變換關(guān)系,將提取的特征集F映射到視覺注意力空間,訓(xùn)練得到每個特征與視覺注意力之間的關(guān)系,并利用該映射關(guān)系生成視覺顯著圖,進(jìn)而得出人類在分類時的感興趣區(qū)域。

        訓(xùn)練過程中,取樣本集S?T,T為基準(zhǔn)圖像的訓(xùn)練集。樣本s∈S。令

        設(shè)P為基準(zhǔn)圖像的像素集,P={p1,p2,…,pN},N為基準(zhǔn)圖像中像素的個數(shù)。O(pi)表示像素的顯著度,i=1,2,…,N。對像素集P進(jìn)行排序得到有序集合Po={po1,po2,…,poN},其中O(po1)≥O(po2)≥…≥O(poN)。在利用SVM模型進(jìn)行訓(xùn)練時,我們選擇Sp?S作為正樣本,Sn?S作為負(fù)樣本,其中Sp={po1,po2,…,pom},m=0.05N,Sn={pol,pol,…,poN},N-l=0.3N,最終預(yù)測出顯著圖,訓(xùn)練過程的流程圖如圖1上半部分(人類視覺信息處理機(jī)制的仿真過程)所示。

        4 CNN網(wǎng)絡(luò)設(shè)計

        人類的神經(jīng)-中樞-大腦的工作過程,是一個不斷迭代、不斷抽象的過程。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個新領(lǐng)域,其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來處理諸如圖像之類的數(shù)據(jù)。CNN是一種深度學(xué)習(xí)下的多層次的機(jī)器學(xué)習(xí)模型,在CNN中,圖像的一小部分(局部感受區(qū)域)作為多層結(jié)構(gòu)的最低層的輸入,將不同的信息傳遞到不同的層,每層均通過抽象去獲得觀測數(shù)據(jù)的最顯著的特征并挖掘數(shù)據(jù)局部特征,經(jīng)過不斷的迭代提取全局特征,最終進(jìn)行分類。

        CNN的最大特點(diǎn)就是局部連接和權(quán)值共享。它的權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),并且局部連接和權(quán)值共享可以減少所要訓(xùn)練的參數(shù)及計算復(fù)雜度。CNN網(wǎng)絡(luò)結(jié)構(gòu)包括:卷積層,池化層與全連接層,它們參數(shù)的設(shè)置正是整個CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的重點(diǎn)。經(jīng)過多次實(shí)驗與調(diào)整,以及對目標(biāo)特征的分析,本文設(shè)計了更適用于目標(biāo)分類的CNN網(wǎng)絡(luò)結(jié)構(gòu),包含4個卷積層,4個池化層,卷積層與池化層交替設(shè)置,如圖5所示。如此,多層的卷積層結(jié)構(gòu)通過對輸入的圖像進(jìn)行逐層抽象,從而獲得更高層次的分布式特征表達(dá),組合形成更抽象的特征,本文設(shè)計的CNN網(wǎng)絡(luò)結(jié)構(gòu)最后一層為全連接層,用于對圖片對象的特征描述。

        圖5 CNN網(wǎng)絡(luò)結(jié)構(gòu)

        4.1 卷積層

        卷積可以提取出圖像的局部特征,因此卷積層的設(shè)置是CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的核心。通過對目標(biāo)特征的分析,以及試驗與調(diào)整,本文的CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計了4個卷積層(C1~C4)(如圖5所示)。特征的提取是通過以權(quán)值矩陣形式出現(xiàn)的卷積核(kernel)來完成的,本文建立的CNN網(wǎng)絡(luò)各卷積層的卷積核大小分別為5,5,5,4像素。針對各卷積層功能的不同,卷積核的大小也不同,如第一個卷積層的卷積核可以提取邊緣、角等信息,通過實(shí)驗與分析,5個像素的大小與目標(biāo)邊緣特征較符合,因此第一層卷積層的卷積核大小設(shè)為5。卷積核提取的二維特征集合為特征圖。每層的特征圖作為下一層的輸入繼續(xù)傳播,本文CNN網(wǎng)絡(luò)結(jié)構(gòu)各卷積層輸出的特征圖數(shù)目分別為9,18,36,72,卷積的步長均為1像素。此外,卷積核與輸入之間的局部連接可以減少很多網(wǎng)絡(luò)參數(shù),降低計算負(fù)擔(dān)。

        4.2 池化層

        池化即為將尺寸比較大的圖像的不同位置的特征進(jìn)行聚合,計算圖像一個區(qū)域上的某個特定特征的平均值(或最大值)來代表這個區(qū)域的特征。池化層的作用是使通過卷積層獲得的特征具有空間不變性。因此為與卷積層層數(shù)一致,本文設(shè)計的CNN網(wǎng)絡(luò)結(jié)構(gòu)也包含4個池化層(S1~S4)(如圖5所示),分別連接在各層卷積層之后。為獲取對平移、縮放和旋轉(zhuǎn)不變的顯著特征,各層池化大小均為2個像素,池化的步長均為1 像素。本文采用常見的最大池化方式,其不僅可以降低特征的維數(shù),還可以提高特征的魯棒性。

        4.3 全連接層

        本文CNN網(wǎng)絡(luò)結(jié)構(gòu)的最后一層為全連接層,輸出一個兼顧了目標(biāo)的局部特征與整體特征的648維的特征向量,由于本文CNN結(jié)構(gòu)中的4個卷積層及4個池化層已先將特征的維數(shù)盡可能降低至可接受的大小,因此最后一層全連接層產(chǎn)生的計算負(fù)擔(dān)在可接受范圍內(nèi)。最后利用liblinear SVM將得到的648維特征向量,進(jìn)行訓(xùn)練,得出分類結(jié)果。

        至此,本文建立的CNN網(wǎng)絡(luò)結(jié)構(gòu),共計包含在4個卷積層、4個池化層、1個全連接層。在進(jìn)行目標(biāo)分類時,目標(biāo)的一小部分作為本文CNN網(wǎng)絡(luò)結(jié)構(gòu)的最低層輸入,經(jīng)過個卷積層特征提取,并經(jīng)過各池化層的最大池化,獲得目標(biāo)最顯著的特征并挖掘出目標(biāo)的局部特征,經(jīng)過迭代,提取全局特征并結(jié)合局部特征進(jìn)行分類,最終輸出分類結(jié)果。

        5 實(shí)驗結(jié)果及分析

        為驗證算法的正確性及有效性,本文設(shè)計了3組實(shí)驗,第1組實(shí)驗驗證了本文的視覺顯著模型(Ours)預(yù)測分類RoIs的能力,同時在相同條件下將Ours模型與其它視覺顯著模型做了比較;第2組實(shí)驗在數(shù)據(jù)庫EDOC上評估了本文分類方法分類的錯誤率大小及錯誤率收斂速度,同時比較了本文分類方法與常規(guī)CNN的分類能力,本文分類方法是利用分類RoIs進(jìn)行分類,而常規(guī)CNN是利用原圖進(jìn)行分類;為充分驗證本文算法,第3組實(shí)驗增加了實(shí)驗數(shù)據(jù)量,建立了包含6 000張圖的數(shù)據(jù)集,在該數(shù)據(jù)集上比較了本文分類方法與常規(guī)CNN分類時的錯誤率。實(shí)驗環(huán)境是IBM x3650m5服務(wù)器,配置CPU E5-2603v2 (2.4 GHz), 32 GB RAM。

        5.1 視覺顯著模型預(yù)測分類感興趣區(qū)域?qū)嶒?/h3>

        本實(shí)驗利用EDOC數(shù)據(jù)庫中的數(shù)據(jù),對分類RoIs進(jìn)行預(yù)測,實(shí)驗采集的注視點(diǎn)數(shù)據(jù)作為基準(zhǔn)。實(shí)驗時,將所有彩色圖像統(tǒng)一到200×200的大小,每類目標(biāo)挑選30幅彩色圖像作為訓(xùn)練,20幅作為測試。與Ours進(jìn)行比較的8種模型分別是:AIM[16],AWS[2],Judd[7],ITTI[1],GBVS[5],SUN[3],STB[17],Torralba[4],這9種模型得到的典型視覺顯著圖對比如圖6所示。由于沒有統(tǒng)一評價視覺注意力模型的標(biāo)準(zhǔn),本文選取了常用的評價函數(shù)有:AUC、敏感度與特異度。AUC是一種用來度量視覺注意力模型與基準(zhǔn)圖像的差異的一個標(biāo)準(zhǔn),通常,AUC的值介于0.5到1.0之間, AUC越大代表了模型的表現(xiàn)越好,與基準(zhǔn)圖像更相近。敏感度,又稱為真陽性率,指將已知類別的目標(biāo)準(zhǔn)確分類的數(shù)目占總分類結(jié)果的比例,敏感度越高,模型越靈敏。特異度,又稱為真陰性率,指將非該類的目標(biāo)準(zhǔn)確剔除的數(shù)目占總分類結(jié)果的比例,特異度越高,模型篩檢目標(biāo)非該類的能力越強(qiáng)。當(dāng)3種評價函數(shù)數(shù)值越高,說明該模型性能越好。本實(shí)驗在60%的顯著區(qū)域計算敏感度與特異度。3種評價函數(shù)的實(shí)驗結(jié)果如表1所示。

        圖6 9種模型得到的視覺顯著圖對比

        參數(shù)OursAIMAWSGBVSITTISTBSUNTorralbaJudd平均值A(chǔ)UC0.84210.72320.78110.82840.60780.81510.73600.71580.82870.7642敏感度/%73.289551.821261.187871.479440.860567.915349.825252.761971.990560.1257特異度/%82.235477.417479.148077.858877.821778.867476.031476.540277.674578.1772

        圖6為EDOC數(shù)據(jù)庫里的部分樣例在9種模型下的視覺顯著圖對比,通過人的主觀判斷,可以看出相較于其他8種模型,Ours模型能更好的提取目標(biāo)的特征,如車輪、眼睛等局部特征,人臉,汽車等整體特征。如此,特征的更好提取,更有利于分類準(zhǔn)確度的提高。

        從表1中可以明顯看出,在AUC指標(biāo)下,Ours模型的結(jié)果為0.842 1,均高于其他8種模型,遠(yuǎn)高于ITTI模型,最接近基準(zhǔn)圖像(1.000 0)。Ours模型的敏感度為73.289 5,為9種模型的最大值,比平均值大約高13%,說明Ours模型較其他模型更靈敏。而實(shí)驗中特異度的最大值也為Ours模型。結(jié)果表明,Ours模型在3種評價函數(shù)下,性能良好,與基準(zhǔn)圖像更一致。因此,Ours模型明顯提高了利用視覺顯著圖預(yù)測人在分類時注視點(diǎn)的精度,更適用于提取分類RoIs。

        5.2 在EDOC數(shù)據(jù)庫上的分類實(shí)驗

        本文從分類錯誤率的大小與收斂速度兩方面,來評價本文分類方法性能。首先,將Ours模型預(yù)測的顯著圖前60%的區(qū)域,作為分類RoIs,實(shí)例如圖7所示。

        圖7 分類RoIs獲取

        然后將分類RoIs作為如圖5所示CNN網(wǎng)絡(luò)的輸入進(jìn)行分類。并與將原圖作為輸入的常規(guī)CNN分類分類方法結(jié)果作以比較。實(shí)驗時,將所有圖像均統(tǒng)一為100×100的大小,每類目標(biāo)挑選30幅作為訓(xùn)練,20幅作為測試。2種分類方法各進(jìn)行3次實(shí)驗,CNN網(wǎng)絡(luò)的練次數(shù)分別為500,1 000,1 500,以得到的錯誤率作為評判標(biāo)準(zhǔn),結(jié)果如表2所示。

        表2 EDOC數(shù)據(jù)庫上3種訓(xùn)練次數(shù)下輸入原始圖像與分類RoIs進(jìn)行CNN分類的錯誤率比較

        從表2中可以看出,在3種訓(xùn)練次數(shù)下,本文的方法分類錯誤率均低于常規(guī)CNN。雖然在訓(xùn)練次數(shù)為500的時候,由于訓(xùn)練次數(shù)較少,2種方法的錯誤率都高于50%,但是本文方法的錯誤率比常規(guī)方法的錯誤率小10%。隨著訓(xùn)練次數(shù)的增加,本文方法的錯誤率從63.3%下降到36.7%,直到18.2%。而常規(guī)的CNN在訓(xùn)練次數(shù)為1 000時,錯誤率為50%,當(dāng)訓(xùn)練次數(shù)增加到1 500時,其錯誤率仍高于30%。雖然隨著訓(xùn)練次數(shù)的增加,2種方法的分類錯誤率均會下降,但是很明顯本文的分類方法分類錯誤率的收斂速度快于常規(guī)CNN方法。在相同訓(xùn)練次數(shù)下,錯誤率更低。因此,本文的分類方法可以優(yōu)化分類結(jié)果。

        5.3 在6 000張圖上的分類實(shí)驗

        5.1及5.2節(jié)的實(shí)驗,雖從兩方面驗證了本文分類方法的合理性,但是數(shù)據(jù)庫EDOC包含的數(shù)據(jù)量較少,而目前又沒有現(xiàn)成的包含6類目標(biāo)的大數(shù)據(jù)庫可以利用,所以,為充分驗證本文分類方法,如圖8所示,本節(jié)建立了一個較大的包含了6 000張圖的數(shù)據(jù)集以進(jìn)行實(shí)驗。該數(shù)據(jù)集中的圖片均來自網(wǎng)絡(luò),每類各有1 000張。

        實(shí)驗中,首先利用Ours模型預(yù)測這6 000張圖的顯著圖,并將顯著圖的前60%顯著的區(qū)域作為分類RoIs。然后利用CNN網(wǎng)絡(luò)對分類RoIs進(jìn)行分類,并與將原圖作為輸入的常規(guī)的CNN分類分類方法結(jié)果作以比較。同樣地將所有圖像均統(tǒng)一為100×100的大小,每類目標(biāo)挑選600幅作為訓(xùn)練,400幅作為測試, 分類錯誤率對比結(jié)果如表3所示。

        圖8 6 000張圖的示例

        訓(xùn)練次數(shù)錯誤率/%原始圖像分類Rols50063.244.6100056.733.8150046.929.1

        從表3中可看出,在包含了6 000張圖的較大數(shù)據(jù)庫上的實(shí)驗中,隨著訓(xùn)練次數(shù)增加,2種方法的錯誤率雖然均有下降,但是在相同訓(xùn)練次數(shù)下,本文方法分類錯誤率明顯低于常規(guī)CNN。在訓(xùn)練次數(shù)為500的時,本文的方法的錯誤率(44.6%)比常規(guī)方。法的錯誤率(63.2%)低近20%,甚至低于常規(guī)方法在訓(xùn)練次數(shù)為1 000次的分類錯誤率(56.7%)隨著訓(xùn)練次數(shù)次數(shù)的增加,本文分類方法的錯誤率從44.6%下降到29.1%,而常規(guī)方法的錯誤率從63.2%下降到46.9%,本文分類方法分類錯誤率的收斂速度很明顯快于常規(guī)CNN方法。因此,本文的分類方法在較大數(shù)據(jù)集上也有優(yōu)良的分類表現(xiàn)。

        6 結(jié) 論

        受人類對不同目標(biāo)進(jìn)行分類識別行為的完整過程的啟發(fā),本文提出了一種結(jié)合基于學(xué)習(xí)的視覺顯著模型與CNN的目標(biāo)分類新方法。通過建立EDOC數(shù)據(jù)庫,研究并記錄人們在進(jìn)行目標(biāo)分類時的視覺行為;然后,利用該數(shù)據(jù)庫訓(xùn)練出針對分類任務(wù)的有監(jiān)督視覺注意力模型,預(yù)測人在區(qū)分不同目標(biāo)時的感興趣區(qū)域;最后設(shè)計了適用于分類的CNN網(wǎng)絡(luò),利用視覺注意力模型得到的感興趣區(qū)域進(jìn)行目標(biāo)分類。本文的方法與常規(guī)的CNN分類方法相比,分類準(zhǔn)確度有明顯提高,且收斂速度更快,其生物學(xué)優(yōu)勢也十分顯著。由于人類的視覺行為很復(fù)雜,思考過程尤為如此。對于不同目標(biāo),人類的思考過程也有所不同,因此,我們暫時無法利用計算機(jī)完整地仿真其過程。在今后的工作中,我們可以針對不同目標(biāo),提取不同的特征,構(gòu)造不同的CNN網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提高分類效率。

        參考文獻(xiàn):

        [1] Itti L, Koch C. A Saliency-Based Search Mechanism for Overt and Covert Shifts of Visual Attention[J]. Vision Research, 2000, 40(12): 1489-1506

        [2] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Decorrelation and Distinctiveness Provide with Human-Like Saliency[C]∥International Conference on Advanced Concepts for Intelligent Vision Systems Springer, Berlin, Heidelberg, 2009, 5807: 343-354

        [3] Zhang L, Tong M H, Marks T K, et al. Sun: A Bayesian Framework for Saliency Using Natural Statistics[J]. Journal of Vision, 2008, 8(7): 1-20

        [4] Torralba A. Modeling Global Scene Factors in Attention[J]. Journal of The Optical Society of America A, 2003, 20(7): 1407-1418

        [5] Sch?lkopf B, Platt J, Hofmann T. Graph-Based Visual Saliency[J]. Advances in Neural Information Processing Systems, 2007, 19: 545-552

        [6] Sch?lkopf B, Platt J, Hofmann T. A Nonparametric Approach to Bottom-Up Visual Saliency[C]∥International Conference on Neural Information Processing Systems, 2006: 689-696

        [7] Judd T, Ehinger K, Durand F, et al. Learning to Predict Where Humans Look[C]∥IEEE International Conference on Computer Vision, 2010: 2106-2113

        [8] Swain M J, Ballard D H. Indexing via Color Histograms[C]∥International Conference on Computer Vision, 1990: 390-393

        [9] Schiele B, Crowley J L. Recognition Without Correspondence Using Multidimensional Receptive Field Histograms[J]. International Journal of Computer Vision, 2000, 36(1): 31-50

        [10] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110

        [11] Lindeberg T. Scale Invariant Feature Transform[M]. Scholarpedia, 2012: 2012-2021

        [12] Mohan R, Nevatia R. Perceptual Organization for Scene Segmentation and Description[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 1992, 14(6): 616-635

        [13] Lillywhite K, Lee D J, Tippetts B, et al. A Feature Construction Method for General Object Recognition[J]. Pattern Recognition, 2013, 46(12): 3300-3314

        [14] Hubel D H, Wiesel T N. Receptive Fields and Functional Architecture of Monkey Striate Cortex[J]. Journal of Physiology, 1968, 195(1): 215-243

        [15] Krizhevsky A, Sutskever I, Hinton G E. Imagenet Classification with Deep Convolutional Neural Networks[C]∥International Conference on Neural Information Processing Systems, 2012: 1097-1105

        [16] Bruce N D B, Tsotsos J K. Saliency Based on Information Maximization[C]∥International Conference on Neural Information Processing Systems, 2005: 155-162

        [17] Garcia-Diaz A, Fdez-Vidal X R, Pardo X M, et al. Decorrelation and Distinctiveness Provide with Human-Like Saliency[C]∥International Conference on Advanced Concepts for Intelligent Vision Systems, 2009: 343-354

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产一线视频在线观看高清| 99久久超碰中文字幕伊人| 免费99精品国产自在在线| 水蜜桃久久| av一区二区不卡久久| 在线观看国产激情视频| 欧美69久成人做爰视频| 97影院在线午夜| 99久久久精品免费| 日韩一级137片内射视频播放| 亚洲国产一区二区三区,| av免费网站免费久久网| 国产精品久久久久久福利| 少妇白浆高潮无码免费区| 天堂在线观看av一区二区三区| 极品少妇一区二区三区| 亚洲国产精品久久久久秋霞小说| 成av人片一区二区三区久久| 亚洲AV色无码乱码在线观看| AV中文字幕在线视| 亚洲精品中文字幕乱码三区99| 国产欧美综合一区二区三区| 特黄熟妇丰满人妻无码 | 激情五月婷婷久久综合| 偷拍一区二区三区高清视频| 韩国三级中文字幕hd| 亚洲激情成人| 亚洲在线一区二区三区| 中文字幕久久波多野结衣av不卡| 国产熟女露脸大叫高潮| 免费黄色福利| 日本办公室三级在线观看| 男人扒开添女人下部免费视频| 日产精品久久久久久久| 国产av普通话对白国语| 日韩中文字幕版区一区二区三区 | 18禁免费无码无遮挡网站| 97人妻蜜臀中文字幕| 99久久免费视频色老| 18禁无遮挡无码网站免费| 在线看亚洲十八禁网站|