亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多視圖特征投影與合成解析字典學(xué)習(xí)的圖像分類

        2017-09-22 13:43:39荊曉遠(yuǎn)朱小柯
        計(jì)算機(jī)應(yīng)用 2017年7期
        關(guān)鍵詞:識(shí)別率字典視圖

        馮 輝,荊曉遠(yuǎn),朱小柯

        (武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072) (*通信作者電子郵箱fenghui_whu@163.com)

        基于多視圖特征投影與合成解析字典學(xué)習(xí)的圖像分類

        馮 輝*,荊曉遠(yuǎn),朱小柯

        (武漢大學(xué) 計(jì)算機(jī)學(xué)院,武漢 430072) (*通信作者電子郵箱fenghui_whu@163.com)

        針對目前存在的合成解析字典學(xué)習(xí)方法不能有效地消除同類樣本之間的差異性和忽略了不同特征對分類的不同影響的問題,提出了一種基于多視圖特征投影與合成解析字典學(xué)習(xí)(MFPSDL)的圖像分類方法。首先,在合成解析字典學(xué)習(xí)過程中為每種特征學(xué)習(xí)不同的特征投影矩陣,減小了類內(nèi)樣本間的差異對識(shí)別帶來的影響;其次,對合成解析字典添加鑒別性的約束,使得同類樣本具有相似的稀疏表示系數(shù);最后通過為不同類型的特征學(xué)習(xí)權(quán)重,充分地融合多種特征。在公開人臉數(shù)據(jù)庫(LFW)和手寫體識(shí)別數(shù)據(jù)庫(MNIST)上進(jìn)行多項(xiàng)對比實(shí)驗(yàn),MFPSDL方法在LFW和MNIST數(shù)據(jù)庫上的訓(xùn)練時(shí)間分別為61.236 s和52.281 s,MFPSDL方法相比Fisher鑒別字典學(xué)習(xí)(FDDL)、類別一致的K奇異值分解(LC-KSVD)、字典對學(xué)習(xí)(DPL)等字典學(xué)習(xí)方法,在LFW和MNIST上的識(shí)別率提高了至少2.15和2.08個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,所提方法在保證較低的時(shí)間復(fù)雜度的同時(shí),獲得了更好的識(shí)別效果,適用于圖像分類。

        圖像分類;字典學(xué)習(xí);稀疏表示;多視圖學(xué)習(xí);特征學(xué)習(xí)

        0 引言

        近年來,稀疏表示理論在模式識(shí)別、計(jì)算機(jī)視覺等領(lǐng)域引起了學(xué)者們廣泛的關(guān)注和研究,并在人臉識(shí)別、圖像去噪和圖像分類等方向有很多成功的應(yīng)用。稀疏表示來源于信號(hào)處理中的壓縮感知理論,其核心在于用一個(gè)過完備字典中的少量基向量(字典原子)來盡可能精確地重建原始信號(hào)。在稀疏表示的基礎(chǔ)上,字典學(xué)習(xí)方法通過對輸入的數(shù)據(jù)集學(xué)習(xí)一個(gè)自適應(yīng)的字典,可以得到原始數(shù)據(jù)集精確的特征表示,對字典加以鑒別性約束,使得學(xué)習(xí)的字典能更好地進(jìn)行分類。

        在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、模式識(shí)別等領(lǐng)域,許多實(shí)際問題中數(shù)據(jù)往往包含多個(gè)視圖,對同一個(gè)數(shù)據(jù)可以從多種不同的方式和角度對其進(jìn)行描述,例如人臉圖像可以從顏色特征、輪廓特征、紋理特征等方面進(jìn)行描述,這種對同一數(shù)據(jù)的不同描述構(gòu)成了數(shù)據(jù)的多個(gè)視圖(multi-view)。由于不同視圖的特征往往處于不同的特征空間,擁有不同的屬性,因此對所有視圖特征采取同一學(xué)習(xí)方法的模型顯然不能充分利用數(shù)據(jù)中的多視圖信息[1]。為了解決此問題,許多的多視圖學(xué)習(xí)方法被提出[2]。相比單視圖學(xué)習(xí),多視圖學(xué)習(xí)可以綜合各個(gè)視圖蘊(yùn)含的信息,來發(fā)揮視圖之間的相互作用,優(yōu)勢互補(bǔ),協(xié)同學(xué)習(xí)。

        字典學(xué)習(xí)近年來在圖像分類領(lǐng)域有著非常廣泛的應(yīng)用。Yang等[3]提出了MetaFace的字典學(xué)習(xí)方法,通過對每一類樣本學(xué)習(xí)一個(gè)判別字典,可以用更少的原子達(dá)到較高的識(shí)別率。Mairal等[4]結(jié)合邏輯回歸模型提出了一種任務(wù)驅(qū)動(dòng)的字典學(xué)習(xí)(Task-Driven Dictionary Learning, TDDL)方法,減小不同任務(wù)的稀疏編碼代價(jià)。Wang等[5]從最大化邊界的角度提出了最大邊界的字典學(xué)習(xí)(Maximum-Margin Dictionary Learning, MMDL)的方法。Jiang等[6]提出了一種類別一致的K奇異值分解(Lable ConsistentKSingular Value Decomposition, LC-KSVD)的字典學(xué)習(xí)方法,通過引入一個(gè)二分類類別標(biāo)簽稀疏編碼矩陣,使得同一類別的樣本具有相似的稀疏編碼。Yang等[7]利用Fisher準(zhǔn)則學(xué)習(xí)結(jié)構(gòu)化的字典(Fisher Discrimination Dictionary Learning, FDDL)。Gu等[8]提出了同時(shí)學(xué)習(xí)一個(gè)合成字典和一個(gè)解析字典(Dictionary Pair Learning, DPL)的方法,稀疏表示系數(shù)不再使用l0或l1范數(shù)約束,在取得較好的識(shí)別效果的同時(shí),大大較低了時(shí)間復(fù)雜度。程曉雅等[9]提出了一種基于特征化字典的低秩表示的人臉識(shí)別(Characterized Dictionary-based Low-Rank Representation classification for face recognition, LRR-CD)方法,通過建立新的類內(nèi)差異字典,同時(shí)對全局特征塊集和類內(nèi)差異字典進(jìn)行最小低秩優(yōu)化,構(gòu)建具有高判別度和高效性的重構(gòu)系數(shù)。但是這些字典學(xué)習(xí)的方法往往沒有考慮不同特征之間的變化差異,通常是利用圖像的某個(gè)單一特征或者將多個(gè)特征拼接融合成一個(gè)特征向量,沒有考慮不同視圖特征對分類的不同影響,從而未能充分利用圖像集中包含的多視圖特征信息。另外一方面,大多數(shù)字典學(xué)習(xí)的方法直接使用圖像的原始特征,但是由于角度、光照、遮擋等因素的影響,在原始特征空間中,通常同類內(nèi)也存在很大的差異性,并且包含著一些噪聲信息,使得學(xué)習(xí)到的字典的鑒別性減弱,影響識(shí)別率。

        針對上述問題,本文提出了一種基于多視圖特征投影與合成解析字典學(xué)習(xí)(Multi-view Feature Projection and Synthesis-analysis Dictionary Learning, MFPSDL)的圖像分類方法,首先提取不同的圖像特征,本文采取的4種特征,分別是顏色直方圖特征(Hue Saturation Value, HSV)、紋理Gabor特征、局部二值模式(Local Binary Pattern, LBP)紋理特征、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)深度特征,根據(jù)提取到的圖像不同視圖特征,對每個(gè)視圖特征同時(shí)進(jìn)行特征投影和合成解析字典學(xué)習(xí),特征投影能保證在新的特征空間中,同類樣本差異性減小,異類樣本差異性增大,對合成解析字典加以約束,使得同類樣本的稀疏表示系數(shù)更相似,因此學(xué)習(xí)到的合成解析字典具有判別性。最后考慮到在某些視圖特征下,測試樣本的正確類別對應(yīng)的殘差可能不是最小的,如果將各視圖特征下的殘差進(jìn)行相加,然后使用殘差最小的分類準(zhǔn)則進(jìn)行分類,可能導(dǎo)致錯(cuò)誤的分類結(jié)果,因此采用更加合理的Borda加權(quán)投票的方式進(jìn)行分類。

        1 字典學(xué)習(xí)

        假設(shè)有N類樣本,每張圖像的特征都可以轉(zhuǎn)換為列矢量,列矢量的維度為dim,則訓(xùn)練樣本矩陣可以表示為X=[X1,X2,…,XN],Xi表示X的第i類樣本,并且Xi∈Rdim×Ni,Ni表示第i類樣本的個(gè)數(shù)。同樣字典可以表示為D=[D1,D2,…,DN],Di表示第i類子字典。訓(xùn)練樣本X可以表示為字典D中若干字典原子的線性組合:X≈DG,其中:G為訓(xùn)練樣本在字典D學(xué)習(xí)下的稀疏表示系數(shù)。大多數(shù)字典學(xué)習(xí)的方法可以表示成如下形式:

        (1)

        分類階段主要采取的是殘差最小的準(zhǔn)則,即分別計(jì)算各類的殘差,將測試樣本劃分為殘差最小的那一類。給定測試樣本y,分類如式(2)所示:

        (2)

        s.t.ei=‖y-Digi‖2

        其中g(shù)i(i=1,2,…,N)為測試樣本y在子字典Di下的稀疏表示系數(shù)。

        大多數(shù)字典學(xué)習(xí)的方法由于對稀疏系數(shù)采用l0或l1范數(shù)約束,而Zhang等[10]驗(yàn)證了基于l0或l1范數(shù)的字典學(xué)習(xí)方法的迭代優(yōu)化問題的時(shí)間復(fù)雜性比較高。DPL方法學(xué)習(xí)一對合成字典D和解析字典P,將稀疏系數(shù)G解析成G=PX,并且對稀疏表示系數(shù)不再采取l0或l1范數(shù)約束,大大提高了算法的效率,并且保持相當(dāng)高的識(shí)別性能。合成解析字典的模型如下:

        (3)

        其中:解析字典P用于對稀疏表示系數(shù)解析編碼,而合成字典D用于對樣本進(jìn)行重構(gòu);Ediscriminant(D,P,X,Y)是對D和P的鑒別約束項(xiàng),以確保學(xué)習(xí)到的鑒別字典對D和P能更好地用于分類。

        2 本文分類算法

        由于傳統(tǒng)字典學(xué)習(xí)的方法忽略了不同視圖特征對分類的不同影響,未能充分利用數(shù)據(jù)中所蘊(yùn)含的多視圖特征信息,通常只是利用圖像的某個(gè)單一的特征或者將幾個(gè)特征簡單地拼接融合,并且使用的原始特征存在類內(nèi)差異性,影響圖像分類的效果。本文提出的MFPSDL方法,分別對同一圖像的每個(gè)視圖特征同時(shí)學(xué)習(xí)特征投影和鑒別性的合成解析字典,并對每個(gè)視圖特征賦予不同的分類權(quán)重,最后通過Borda加權(quán)投票的方式進(jìn)行分類。MFPSDL方法的思路如圖1所示。

        圖1 MFPSDL方法示意圖

        2.1 特征選擇

        本文選擇從顏色特征、紋理特征、深度特征等不同的視圖特征來對圖像進(jìn)行描述。選擇的4種特征分別是HSV顏色直方圖特征、Gabor紋理特征、LBP紋理特征、CNN深度特征。

        HSV顏色直方圖特征是一種常見的顏色特征,它的三個(gè)分量分別代表色彩(Hue)、飽和度(Saturation)和值(Value),相比RGB特征,HSV特征更接近于人們對顏色的主觀認(rèn)識(shí)。

        由于Gabor小波[11]與人類視覺系統(tǒng)中簡單細(xì)胞的視覺刺激響應(yīng)非常相似,并且Gabor小波對于圖像的邊緣敏感,能夠提供良好的方向選擇和尺度選擇特性,而且對于光照變化不敏感,因此Gabor特征具有良好的空間局部性和方向選擇性,而且對光照、姿態(tài)具有一定的魯棒性,因此在人臉識(shí)別、圖像分類中使用廣泛。

        局部二值模式LBP是一種用來描述圖像局部紋理特征的算子[12],具有計(jì)算簡單、旋轉(zhuǎn)不變性和灰度不變性等顯著的優(yōu)點(diǎn)。LBP已經(jīng)成功應(yīng)用于人臉檢測、唇語識(shí)別、表情檢測等領(lǐng)域。

        深度學(xué)習(xí)[13]是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立能夠模擬人腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它模仿人腦的機(jī)制來解釋數(shù)據(jù),并能發(fā)現(xiàn)和刻畫數(shù)據(jù)內(nèi)部復(fù)雜的結(jié)構(gòu)特征。深度學(xué)習(xí)應(yīng)用于圖像識(shí)別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時(shí)間消耗[14]。

        2.2 多視圖特征投影與合成解析字典學(xué)習(xí)

        訓(xùn)練樣本的類別數(shù)為N,則第k個(gè)視圖特征下訓(xùn)練樣本表示為Xk=[Xk,1,Xk,2,…,Xk,N],Xk,i表示第k個(gè)視圖特征的第i類的訓(xùn)練樣本,本文中k=1,2,3,4。為了降低原始特征空間中同類樣本之間的差異和充分考慮圖像的不同視圖特征對分類的不同影響,MFPSDL通過在不同的視圖特征下,同時(shí)學(xué)習(xí)特征投影和鑒別性的合成解析字典,每個(gè)視圖的原始特征投影到新的特征空間,在新的特征空間中,訓(xùn)練樣本被合成解析字典鑒別性表示。第k個(gè)視圖特征下的訓(xùn)練樣本Xk對應(yīng)的特征投影矩陣表示為Wk,對應(yīng)的合成字典表示為Dk=[Dk,1,Dk,2,…,Dk,N],對應(yīng)的解析字典表示為Pk=[Pk,1,Pk,2,…,Pk,N],其中Dk,i和Pk,i表示第i類訓(xùn)練樣本對應(yīng)的子字典。解析字典P對稀疏表示系數(shù)解析編碼,而合成字典D用于重構(gòu)樣本。第k個(gè)視圖特征對應(yīng)的目標(biāo)函數(shù)表示為:

        (4)

        (5)

        式(5)是一個(gè)非凸的問題,可以通過固定其中兩項(xiàng),求另外一項(xiàng)的方法求解。求解之前初始化合成字典Dk和解析字典Pk為Frobenius范數(shù)約束下的隨機(jī)矩陣。

        1)固定Dk和Pk,更新Wk。引入松弛變量Ak,Bk和Ck,式(5)中與Wk有關(guān)的目標(biāo)函數(shù)式變?yōu)椋?/p>

        (6)

        其中:α1,α2和α3是常數(shù)項(xiàng),同理也可以通過固定三項(xiàng)然后求剩余的一項(xiàng)的方式來求解式(6)。

        a)固定Wk,Bk和Ck,更新Ak。跟Ak有關(guān)的目標(biāo)函數(shù)為:

        (7)

        這是一個(gè)最小二乘法的問題,對Ak,i進(jìn)行求偏導(dǎo),并令偏導(dǎo)為0,可以得到Ak的解析解,其中I表示單位矩陣。

        (8)

        b)固定Wk,Ak和Ck,更新Bk。跟Bk有關(guān)的目標(biāo)函數(shù)為:

        (9)

        對Bk,i進(jìn)行求偏導(dǎo),可以得到Bk,i的解析解:

        (10)

        c)固定Wk,Ak和Bk,更新Ck。跟Ck有關(guān)的目標(biāo)函數(shù)為:

        (11)

        對Ck,i進(jìn)行求偏導(dǎo),可以得到Ck,i的解析解:

        (12)

        d)固定Ak,Bk和Ck,更新Wk。跟Wk有關(guān)的目標(biāo)函數(shù)為:

        (13)

        對Wk進(jìn)行求偏導(dǎo),可以得到Wk的解析解:

        (14)

        2)固定Wk和Dk,更新Pk。式(5)中與Pk有關(guān)的目標(biāo)函數(shù)式變?yōu)椋?/p>

        (15)

        式(15)是非凸的問題,引入松弛變量Mk和常數(shù)項(xiàng)α4,式(15)轉(zhuǎn)換為:

        (16)

        a)固定Pk,更新Mk。與Mk有關(guān)的目標(biāo)函數(shù)為:

        (17)

        對Mk,i進(jìn)行求偏導(dǎo),可以得到Mk,i的解析解:

        (18)

        b)固定Mk,更新Pk。與Pk有關(guān)的目標(biāo)函數(shù)為:

        (19)

        對Pk,i進(jìn)行求偏導(dǎo),可以得到Pk,i的解析解:

        (20)

        3)固定Wk和Pk,更新Dk。式(5)中與Dk有關(guān)的目標(biāo)函數(shù)式變?yōu)椋?/p>

        (21)

        參考DPL的做法,采用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)[15]算法來優(yōu)化求解Dk,引入變量Qk和Zk。

        (22)

        2.3 Borda加權(quán)投票分類

        考慮到不同視圖的特征對分類的影響不同,如果簡單地將不同視圖特征下的重構(gòu)殘差相加,然后利用殘差最小規(guī)則分類,這樣就忽略了不同視圖特征之間的分類差異,因此為每個(gè)視圖特征賦予不同的分類權(quán)重βk,權(quán)重βk是基于每個(gè)視圖特征分類的錯(cuò)誤率εk進(jìn)行計(jì)算的。其中εk定義為:

        εk的計(jì)算采取交叉驗(yàn)證的方式,交叉驗(yàn)證即將訓(xùn)練樣本隨機(jī)分為H個(gè)互不相交的同等大小的子集,然后采取H-1個(gè)子集的數(shù)據(jù)訓(xùn)練模型,利用余下的1個(gè)子集計(jì)算模型的錯(cuò)誤率,將這一過程對可能的H種選擇重復(fù)進(jìn)行,求取H次錯(cuò)誤率的最小值。進(jìn)行10次實(shí)驗(yàn),每次都是隨機(jī)將訓(xùn)練樣本劃分成H等份,然后利用交叉驗(yàn)證求錯(cuò)誤率,求取10次錯(cuò)誤率的平均值作為εk。

        權(quán)重βk的計(jì)算如式(23),對于分類錯(cuò)誤率εk小的視圖特征,對應(yīng)著更大的權(quán)重βk,也就是對分類的影響更大。

        (23)

        同時(shí)在某些視圖特征下,不同類之間的殘差可能會(huì)比較接近,正確類別對應(yīng)的殘差也可能不是最小的,用殘差最小規(guī)則會(huì)導(dǎo)致錯(cuò)誤的分類。殘差最小規(guī)則也可看成是一種投票分類的方法,殘差最小對應(yīng)的類別,得票數(shù)為1,而其他類別得票數(shù)為0。Borda投票的思想是將殘差從小到大排序,對于殘差最小對應(yīng)的類,得票數(shù)為N,殘差第二小的對應(yīng)的類,得票數(shù)為N-1,以此類推,直到殘差最大的類得票數(shù)為1。定義Vk,i表示第k個(gè)視圖特征下第i類的得票數(shù),則第i類加權(quán)投票的結(jié)果為:

        (24)

        最后依據(jù)得票數(shù)最多的規(guī)則進(jìn)行分類,將測試樣本y分為得票數(shù)最多對應(yīng)的類別:

        (25)

        2.4 MFPSDL算法描述

        訓(xùn)練階段:

        步驟1 對訓(xùn)練樣本提取4個(gè)不同視圖的特征,訓(xùn)練樣本表示為Xk=[Xk,1,Xk,2,…,Xk,N],初始化參數(shù)。

        步驟2 初始化合成字典Dk和解析字典Pk。

        步驟3 迭代求解每個(gè)視圖特征下的目標(biāo)函數(shù),直到目標(biāo)函數(shù)收斂,否則反復(fù)執(zhí)行步驟3。

        1)根據(jù)式(14)更新Wk。

        2)根據(jù)式(20)更新Pk。

        3)根據(jù)式(22)更新Dk。

        測試階段:

        利用Borda加權(quán)投票分類的方法計(jì)算每類的得票數(shù)Vi,根據(jù)得票數(shù)最多的規(guī)則進(jìn)行分類。

        3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文方法MFPSDL的有效性,選用常用的公開人臉數(shù)據(jù)庫(Labeled Faces in the Wild, LFW)[16]和手寫體識(shí)別數(shù)據(jù)庫(Modified National Institute of Standards and Technology, MNIST)[17]進(jìn)行實(shí)驗(yàn)仿真,以近幾年識(shí)別率較優(yōu)的字典學(xué)習(xí)算法LC-KSVD、FDDL、DPL為對比方法,比較分類識(shí)別的準(zhǔn)確率和時(shí)間復(fù)雜性。由于實(shí)驗(yàn)中深度CNN特征的提取是采取AlexNet網(wǎng)絡(luò)[18],因此加入AlexNet方法作對比。AlexNet網(wǎng)絡(luò)由Krizhevsky等[18]在2012年提出,并在當(dāng)年的大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)中贏得冠軍。AlexNet網(wǎng)絡(luò)是一個(gè)8層模型,包括5個(gè)卷積層和3個(gè)全連接層。在AlexNet模型中,輸入就是圖像的像素,沒有用到任何的人工特征。實(shí)驗(yàn)中AlexNet方法首先在ImageNet LSVRC- 2010數(shù)據(jù)集的120萬張訓(xùn)練樣本圖像上作預(yù)訓(xùn)練(pretrain),然后用預(yù)訓(xùn)練得到的AlexNet網(wǎng)絡(luò)分別在LFW和MNIST數(shù)據(jù)庫的訓(xùn)練樣本上作微調(diào)(finetune),最后在LFW和MNIST測試樣本上作測試。用微調(diào)得到的AlexNet網(wǎng)絡(luò)模型中間的某些層提取深度CNN特征具有良好的泛化能力,可以適用于其他圖像分類方法的深度CNN特征的提取。

        3.1 實(shí)驗(yàn)設(shè)置

        LFW公共彩色人臉數(shù)據(jù)庫包含106個(gè)人,其中每一個(gè)人有14張圖片,每張圖片的尺寸為250×250,部分樣本如圖2所示,可以看出同類樣本之間往往也存在著差異性。每個(gè)人隨機(jī)選用7張圖片作為訓(xùn)練樣本,剩下的7張圖片作為測試樣本。從每張圖片中提取HSV特征、Gabor特征、LBP特征和CNN特征作為多視圖特征,其中采取微調(diào)后的AlexNet網(wǎng)絡(luò)最后的全連接層的輸出作為CNN特征。本文方法對不同視圖的特征學(xué)習(xí)不同的特征投影矩陣和合成解析字典,而其他字典學(xué)習(xí)對比方法(LC-KSVD、FDDL和DPL)的實(shí)驗(yàn)中,使用的是4種特征拼接融合后的特征,即將每種特征列向量按順序首尾串行相連。具體做法是:將Gabor特征拼接到HSV特征的尾部,將LBP特征拼接到Gabor特征的尾部,以此類推。交叉驗(yàn)證求分類權(quán)重的時(shí)候,由于訓(xùn)練樣本中每類樣本包含7張圖片,交叉驗(yàn)證需要將訓(xùn)練樣本分為同等大小的子集,因此將H設(shè)置為7。實(shí)驗(yàn)中的參數(shù)λ1和λ2設(shè)置為0.05和0.03,η1和η2設(shè)置為0.001和0.5,α1、α2、α3和α4設(shè)置為0.03,0.02,0.02和0.03,參考DPL參數(shù)調(diào)試的方法,以上所有參數(shù)的設(shè)置采取k-折交叉驗(yàn)證的方法。通過實(shí)驗(yàn)調(diào)試發(fā)現(xiàn),當(dāng)參數(shù)這樣設(shè)置時(shí),在LFW和MNIST兩個(gè)數(shù)據(jù)集上均能取得較好的分類結(jié)果。重復(fù)進(jìn)行10次實(shí)驗(yàn),最后求10次實(shí)驗(yàn)識(shí)別率的平均值。

        MNIST手寫體數(shù)字?jǐn)?shù)據(jù)庫包含8 000張圖片,每個(gè)寫體數(shù)字包含800張圖片,每張圖片的尺寸為28×28,部分樣本如圖3所示,可以看出同一個(gè)數(shù)字往往有不同的形狀。每種手寫體數(shù)字隨機(jī)選用400張圖片作為訓(xùn)練樣本,剩下的400張圖片作為測試樣本。多視圖特征的提取同LFW實(shí)驗(yàn)中的做法,對比方法的實(shí)驗(yàn)中使用的是4種特征拼接融合后的特征。交叉驗(yàn)證求分類權(quán)重的時(shí)候,訓(xùn)練樣本中每類樣本包含400張圖片,將H設(shè)置為8。實(shí)驗(yàn)中的參數(shù)同LFW實(shí)驗(yàn)中參數(shù)的設(shè)置。

        圖2 LFW數(shù)據(jù)庫的樣本圖像

        圖3 MNIST數(shù)據(jù)庫的樣本圖像

        3.2 實(shí)驗(yàn)結(jié)果與分析

        表1給出了在LFW和MNIST兩個(gè)數(shù)據(jù)庫上MFPSDL和所有對比方法10次實(shí)驗(yàn)結(jié)果的平均值。

        表1 幾種方法在LFW和MNIST數(shù)據(jù)庫上的識(shí)別率比較 %

        從表1可以看出,基于多視圖特征投影與合成解析字典學(xué)習(xí)方法(MFPSDL)取得了更好的分類性能。在LFW彩色人臉數(shù)據(jù)庫上,MFPSDL方法比DPL、FDDL以及LC-KSVD三個(gè)字典學(xué)習(xí)對比方法的平均識(shí)別率提高了至少2.15個(gè)百分點(diǎn)(=98.80%-96.65%);在MNIST數(shù)據(jù)庫上,MFPSDL方法比三個(gè)字典學(xué)習(xí)對比方法的平均識(shí)別率提高了至少2.08個(gè)百分點(diǎn)(=95.56%-93.48%)。AlexNet方法在ImageNet LSVRC- 2010中的15萬測試樣本上的Top- 1識(shí)別率為62.5%,Top- 5識(shí)別率為83%,而在微調(diào)的情況下,AlexNet在LFW和MNIST數(shù)據(jù)庫上的識(shí)別率為78.72%和83.25%。這是由于LSVRC- 2010數(shù)據(jù)庫包含1 000類樣本,而LFW包含104類樣本,MNIST包含10類樣本,類別的減少降低了AlexNet識(shí)別的難度,提高了識(shí)別的效果;但是微調(diào)后的AlexNet方法識(shí)別率明顯低于MFPSDL和其他字典學(xué)習(xí)對比方法,原因在于AlexNet提取的是可分性CNN特征,而MFPSDL和其他字典學(xué)習(xí)對比方法在手工選擇的特征和可分性CNN特征的基礎(chǔ)上加以鑒別性約束,如MFPSDL方法要求在特征投影后同類樣本的特征差異減小,不同類樣本的特征差異增大,對合成解析字典的鑒別性約束使得同類樣本具有相似的稀疏表示系數(shù),因此學(xué)習(xí)到的特征更加具有鑒別性。本文方法MFPSDL之所以能取得較好的識(shí)別結(jié)果,主要在于MFPSDL能夠充分利用圖像中所蘊(yùn)含的多視圖特征信息,充分考慮了不同特征對分類的不同影響;另外,學(xué)習(xí)的特征投影使得同類樣本差異減小,異類樣本差異增大,最后的Borda加權(quán)投票的方法合理地克服了殘差最小分類規(guī)則的弊端,提高了識(shí)別率。

        表2列出了所有方法在LFW數(shù)據(jù)庫和MNIST上10次訓(xùn)練運(yùn)行時(shí)間的平均值,可以看出本文方法在訓(xùn)練運(yùn)行時(shí)間上少于FDDL和LC-KSVD,原因在于在求解字典過程中所使用的迭代優(yōu)化算法收斂較慢,時(shí)間復(fù)雜度比較高。MFPSDL之所以運(yùn)行時(shí)間較快,因?yàn)樵谇蠼馓卣魍队癢k和解析字典Pk的過程中都是解析解,而在求合成字典Dk時(shí)使用的ADMM算法收斂速度很快。相比DPL,由于MFPSDL對每個(gè)視圖特征學(xué)習(xí)不同的特征投影和合成解析字典,并且對特征投影和合成解析字典加上一些鑒別性的約束,因此運(yùn)行時(shí)間比DPL長。AlexNet方法的訓(xùn)練是用預(yù)訓(xùn)練好的AlexNet網(wǎng)絡(luò)模型分別在LFW和MNIST數(shù)據(jù)庫上作微調(diào)(finetune),在LFW數(shù)據(jù)庫上經(jīng)過10 000次迭代后,損失大致收斂;在MNIST數(shù)據(jù)庫上經(jīng)過15 000次迭代后,損失大致收斂。圖4給出了MFPSDL在LFW數(shù)據(jù)庫上HSV和CNN視圖特征下的目標(biāo)函數(shù)的收斂曲線,可以看出經(jīng)過15次迭代后,目標(biāo)函數(shù)已經(jīng)收斂。其他視圖特征對應(yīng)的目標(biāo)函數(shù)的收斂速度大致相同。表3列出了所有方法在LFW數(shù)據(jù)庫和MNIST上10次測試運(yùn)行時(shí)間的平均值,DPL、FDDL、LC-KSVD和MFPSDL測試的時(shí)候輸入的是圖像的特征向量,因此表3中列出的這4種方法的測試時(shí)間不包含特征提取的時(shí)間,可以看出這4種算法的測試時(shí)間均較短。而AlexNet測試的時(shí)候輸入的是原始圖像,因此測試時(shí)間相對較長,AlexNet網(wǎng)絡(luò)前向傳播(forward)的時(shí)間約為4 ms。

        表2 幾種方法在LFW和MNIST數(shù)據(jù)庫上的訓(xùn)練時(shí)間比較 s

        表3 幾種方法在LFW和MNIST數(shù)據(jù)庫上的測試時(shí)間比較 s

        為了驗(yàn)證Borda加權(quán)投票分類規(guī)則的有效性,在LFW和MNIST數(shù)據(jù)庫上,MFPSDL使用殘差最小分類規(guī)則和Borda加權(quán)投票分類規(guī)則進(jìn)行對比。實(shí)驗(yàn)數(shù)據(jù)表明在LFW數(shù)據(jù)庫上,使用Borda加權(quán)投票分類規(guī)則的識(shí)別率比殘差最小分類規(guī)則的識(shí)別率提高了0.38個(gè)百分點(diǎn)(=98.80%-98.42%);在MNIST數(shù)據(jù)庫上使用Borda加權(quán)投票分類規(guī)則的識(shí)別率比殘差最小分類規(guī)則的識(shí)別率提高了0.45個(gè)百分點(diǎn)(=95.56%-95.11%)。由于在某些視圖特征下,正確類別對應(yīng)的殘差可能不是最小的,用殘差最小規(guī)則會(huì)導(dǎo)致不準(zhǔn)確的分類,可以看出,使用Borda加權(quán)投票的分類規(guī)則能有效解決這一問題。

        為驗(yàn)證不同特征對分類的影響不同,圖5給出了在LFW和MNIST數(shù)據(jù)庫上4種特征對應(yīng)的分類權(quán)重。同時(shí)考慮特征個(gè)數(shù)對實(shí)驗(yàn)的影響,加入方向梯度直方圖特征(Histogram of Oriented Gradient, HOG)和尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)作對比,表4給出了在LFW數(shù)據(jù)庫上MFPSDL方法10次實(shí)驗(yàn)結(jié)果的平均值。

        圖4 LFW上HSV和CNN特征對應(yīng)的目標(biāo)函數(shù)收斂曲線

        圖5 不同特征對應(yīng)的分類權(quán)重

        表4 MFPSDL在LFW數(shù)據(jù)庫上使用不同特征的識(shí)別率比較 %

        從圖5可以看出,不同特征對分類效果的影響不相同,其中CNN特征對應(yīng)的分類權(quán)重明顯大于其他特征對應(yīng)的分類權(quán)重,說明CNN特征對分類的影響更大。從表4中可以看出MFPSDL方法只使用CNN特征時(shí)候的識(shí)別率為97.46%,而微調(diào)后的AlexNet在LFW數(shù)據(jù)庫上的識(shí)別率為78.72%,MFPSDL方法提高了18.74個(gè)百分點(diǎn)(=97.46%-78.72%),這是由于AlexNet方法提取的是可分性CNN特征,最后用Softmax分類器進(jìn)行分類,而MFPSDL方法在可分性CNN特征的基礎(chǔ)上添加了鑒別性的約束,特征投影使得在新的特征空間中,同類樣本的差異性減小,異類樣本的差異性增大,對合成解析字典的約束,使得同類樣本的稀疏表示系數(shù)更相似,這樣使得可分性CNN特征經(jīng)過學(xué)習(xí)后更具有鑒別性,提高了識(shí)別率。MFPSDL方法加入HOG特征后的識(shí)別率為98.96%,比使用HSV、Gabor、LBP和CNN的識(shí)別率(98.80%),識(shí)別率提高了0.16個(gè)百分點(diǎn)(=98.96%-98.80%)。同樣加入SIFT特征后的識(shí)別率(99.10%)提高了0.30個(gè)百分點(diǎn)(=99.10%-98.80%)。加入HOG和SIFT特征后,識(shí)別率提高都不是很明顯,說明HOG和SIFT特征和已有的4種特征存在比較多的重復(fù),因此本文方法中未選擇這兩種特征。使用HSV、Gabor和LBP三種特征的識(shí)別率為97.34%,單獨(dú)使用CNN特征的識(shí)別率為97.46%,而使用HSV、Gabor、LBP和CNN四種特征的識(shí)別率為98.80%,識(shí)別率分別提高了1.46個(gè)百分點(diǎn)(=98.80%-97.34%)和1.34個(gè)百分點(diǎn)(=98.80%-97.46%),說明CNN特征和其他三種特征存在著一定的重復(fù),但是MFPSDL考慮不同視圖特征對分類的不同影響,使得不同的特征優(yōu)勢互補(bǔ),綜合利用了不同視圖特征。

        4 結(jié)語

        本文提出了一種基于多視圖特征投影與合成解析字典學(xué)習(xí)的圖像分類方法,結(jié)合多視圖特征的學(xué)習(xí)方法能夠更好描述圖像的優(yōu)勢,并對圖像原始特征進(jìn)行投影,減小了同類樣本之間的差異性。對每個(gè)視圖特征學(xué)習(xí)鑒別性的合成解析字典{Dk,Pk},使得同類樣本擁有相似的稀疏表示系數(shù)。分類階段使用了更加合理的Borda加權(quán)投票分類的方法,克服了最小殘差分類規(guī)則的缺點(diǎn)。在LFW人臉數(shù)據(jù)庫和MNIST手寫體數(shù)字?jǐn)?shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法MFPSDL與DPL、FDDL、LC-KSVD和AlexNet相比,分類性能有明顯的提升,且保證了較低的時(shí)間復(fù)雜度,但是該方法還有待改進(jìn)的地方,比如特征選擇的問題和特征之間存在冗余重復(fù)的問題,從實(shí)驗(yàn)中可以發(fā)現(xiàn)加入一些人工選擇的特征對識(shí)別率的提升不是很明顯,說明特征之間存在一定的冗余和重復(fù),如何有效解決特征之間的冗余重復(fù)是下一步需要進(jìn)行的研究工作。

        References)

        [1] ZHANG H, LAO S. Multi-view discriminant analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 188-194.

        [2] XU C, TAO D, XU C. Multi-view intact space learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(12): 2531-2544.

        [3] YANG M, ZHANG L, YANG J, et al. Metaface learning for sparse representation based face recognition [C]// ICIP 2010: Proceedings of the 2010 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2010: 1601-1604.

        [4] MAIRAL J, BACH F, PONCE J. Task-driven dictionary learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 791-804.

        [5] WANG Z, YANG J, NASRABADI N, et al. A max-margin per-spective on sparse representation-based classification [C]// ICCV 2013: Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1217-1224.

        [6] JIANG Z, LIN Z, DAVIS L S. Label consistentK-SVD: learning a discriminative dictionary for recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.

        [7] YANG M, ZHANG L, FENG X, et al. Sparse representation based fisher discrimination dictionary learning for image classification [J]. International Journal of Computer Vision, 2014, 109(3): 209-232.

        [8] GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learning for pattern classification [C]// NIPS 2014: Proceedings of the 2014 Annual Conference on Neural Information Processing Systems. Cambridge: MIT, 2014: 793-801.

        [9] 程曉雅,王春紅.基于特征化字典的低秩表示人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用,2016,36(12):3423-3428.(CHENG X Y, WANG C H. Characterized dictionary-based low-rank representation for face recognition [J]. Journal of Computer Applications, 2016, 36(12): 3423-3428.)

        [10] ZHANG L, YANG M, FENG X. Sparse representation or collaborative representation: which helps face recognition? [C]// ICCV 2011: Proceedings of the 2011 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 471-478.

        [11] YANG M, ZHANG L. Gabor Feature Based Sparse Representation For Face Recognition With Gabor Occlusion Dictionary [M]. Berlin: Springer, 2010: 448-461.

        [12] TAN X, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting conditions [J]. IEEE Transactions on Image Processing, 2010, 19(6): 1635-1650.

        [13] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.

        [14] 余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.(YU K, JIA L, CHEN Y Q, et al. Deep learning: yesterday, today, and tomorrow [J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804.)

        [15] BOYD S, PARIKH N, CHU E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers [J]. Foundations and Trends in Machine Learning, 2011, 3(1): 1-122.

        [16] HUANG G, MATTAR M, LEE H, et al. Learning to align from scratch [C]// NIPS 2012: Proceedings of the 2012 Annual Conference on Neural Information Processing Systems. Cambridge: MIT, 2012: 764-772.

        [17] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

        [18] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Proceedings of the 2012 Annual Conference on Neural Information Processing Systems. Cambridge: MIT, 2012: 1097-1105.

        This work is partially supported by the National Natural Science Foundation of China (61272273).

        FENGHui, born in 1992, M. S. candidate. His research interests include pattern recognition, computer vision.

        JINGXiaoyuan, born in 1971, Ph. D., professor. His research interests include pattern recognition, machine learning, software engineering.

        ZHUXiaoke, born in 1981, Ph. D. candidate. His research interests include pattern recognition, computer vision.

        Multi-viewfeatureprojectionandsynthesis-analysisdictionarylearningforimageclassification

        FENG Hui*, JING Xiaoyuan, ZHU Xiaoke

        (SchoolofComputer,WuhanUniversity,WuhanHubei430072,China)

        Concerning the problem that the existing synthesis-analysis dictionary learning method can not effectively eliminate the differences between the samples of the same class and ignore the different effects of different features on the classification, an image classification method based on Multi-view Feature Projection and Synthesis-analysis Dictionary Learning (MFPSDL) was put forward. Firstly, different feature projection matrices were learned for different features in the process of synthesis-analysis dictionary learning, so the influence of the within-class differences on recognition was reduced. Secondly, discriminant constraint was added to the synthesis-analysis dictionary, so that similar sparse representation coefficients were obtained for samples of the same class. Finally, by learning different weights for different features, multiple features could be fully integrated. Several experiments were carried out on the Labeled Faces in the Wild (LFW) and Modified National Institute of Standards and Technology (MNIST) database, the training time of MFPSDL method on LFW and MNIST databases were 61.236 s and 52.281 s. Compared with Fisher Discrimination Dictionary Learning (FDDL), Lable ConsistentKSingular Value Decomposition (LC-KSVD) and Dictionary Pair Learning (DPL), the recognition rate of MFPSDL method on LFW and MNIST was increased by at least 2.15 and 2.08 percentage points. The experimental results show that MFPSDL method can obtain higher recognition rate while keeping low time complexity, and it is suitable for image classification.

        image classification; dictionary learning; sparse representation; multi-view learning; feature learning

        TP391.413; TP18

        :A

        2016- 12- 15;

        :2017- 03- 06。

        國家自然科學(xué)基金資助項(xiàng)目(61272273)。

        馮輝(1992—),男,湖北黃岡人,碩士研究生,主要研究方向:模式識(shí)別、計(jì)算機(jī)視覺; 荊曉遠(yuǎn)(1971—),男,江蘇南京人,教授,博士,CCF會(huì)員,主要研究方向:模式識(shí)別、機(jī)器學(xué)習(xí)、軟件工程; 朱小柯(1981—),男,河南開封人,博士研究生,CCF會(huì)員,主要研究方向:模式識(shí)別、計(jì)算機(jī)視覺。

        1001- 9081(2017)07- 1960- 07

        10.11772/j.issn.1001- 9081.2017.07.1960

        猜你喜歡
        識(shí)別率字典視圖
        開心字典
        家教世界(2023年28期)2023-11-14 10:13:50
        開心字典
        家教世界(2023年25期)2023-10-09 02:11:56
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        我是小字典
        国产成人aaaaa级毛片| 国产内射一级一片高清内射视频| 成人国产一区二区三区| 内射爽无广熟女亚洲| 欧美亚洲综合另类| 国产综合一区二区三区av| 日本精品久久不卡一区二区| 国产国产裸模裸模私拍视频| 粗一硬一长一进一爽一a级| 无码国产精品一区二区免费式芒果| 毛片在线视频成人亚洲| 亚洲 欧美 日韩 国产综合 在线| 老少交欧美另类| 无码伊人久久大香线蕉| 少妇下面好紧好多水真爽| 日本大骚b视频在线| 午夜无码大尺度福利视频| 厕所极品偷拍一区二区三区视频| 国产精品国产自产拍高清| 国产va免费精品高清在线观看| 久久久精品久久波多野结衣av | 亚洲国产成人av二区| 欧美bbw极品另类| 国产成人精品日本亚洲专区6| 亚洲av色精品国产一区二区三区| 国产无遮挡aaa片爽爽| 曰本极品少妇videossexhd| 1234.com麻豆性爰爱影| 麻豆久久91精品国产| 无码中文字幕免费一区二区三区| 中文字幕日韩高清| 国产在线播放免费人成视频播放| 免费观看a级毛片| 免费国精产品自偷自偷免费看| 国产成人AⅤ| 国产av综合网站不卡| 五级黄高潮片90分钟视频| 被欺辱的高贵人妻被中出| 青青草视频在线观看绿色| 亚洲国产精品无码专区| 色综合久久综合欧美综合图片|