王 莉,龔文輝,李沁穎
(1.南昌交通學(xué)院,江西 南昌 330100;2.江西農(nóng)業(yè)大學(xué)南昌商學(xué)院,江西 共青城 332020;3.江西師范大學(xué),江西 南昌 330022)
建立有效的自然圖像生成模型是計(jì)算機(jī)視覺(jué)中的關(guān)鍵問(wèn)題之一,其目的是通過(guò)根據(jù)潛在的自然圖像分布來(lái)改變一些潛在參數(shù),從而生成各種逼真的圖像[1]。因此,需要一個(gè)理想的分類(lèi)識(shí)別模型來(lái)捕獲基礎(chǔ)數(shù)據(jù)分布。但是細(xì)粒度圖像樣本的集合可能位于非常復(fù)雜的流形上,分類(lèi)識(shí)別實(shí)現(xiàn)過(guò)程存在一定困難[2],是現(xiàn)今圖像處理領(lǐng)域的研究重點(diǎn)。
關(guān)于細(xì)粒度圖像分類(lèi),汪榮貴等[3]提出一種深度遷移學(xué)習(xí)模型,將大規(guī)模有標(biāo)簽細(xì)粒度數(shù)據(jù)集上學(xué)習(xí)到的圖像特征有效地遷移至微型細(xì)粒度數(shù)據(jù)集中。通過(guò)銜接域定量計(jì)算域間任務(wù)的關(guān)聯(lián)度;根據(jù)關(guān)聯(lián)度選擇適合目標(biāo)域的遷移特征;使用細(xì)粒度數(shù)據(jù)集視圖類(lèi)標(biāo)簽進(jìn)行輔助學(xué)習(xí),采用聯(lián)合學(xué)習(xí)所有屬性來(lái)獲取更多的特征表示。但該方法遷移過(guò)程速率緩慢,計(jì)算效率有待優(yōu)化。袁建平等[4]設(shè)計(jì)一個(gè)端到端的分類(lèi)模型來(lái)解決細(xì)粒度圖像分類(lèi)問(wèn)題,使用深度卷積神經(jīng)網(wǎng)絡(luò)獲取圖像視覺(jué)特征,并依據(jù)提出的端到端文本識(shí)別網(wǎng)絡(luò),提取圖像的文本信息,使用相關(guān)性計(jì)算模塊合并視覺(jué)特征與文本特征,傳輸至分類(lèi)網(wǎng)絡(luò)中。但該方法特征提取精度有待完善。
由此文章提出一種基于約束稀疏表達(dá)的細(xì)粒度圖像分類(lèi)識(shí)別方法。通過(guò)圖像預(yù)處理防止無(wú)關(guān)信息干擾,提升分類(lèi)效率,代入分布結(jié)構(gòu)約束項(xiàng)構(gòu)建約束稀疏表達(dá)分類(lèi)模型,采用交替方向乘子法實(shí)施模型求解,獲得高質(zhì)量圖像分類(lèi)識(shí)別結(jié)果。
為節(jié)省細(xì)粒度圖像分類(lèi)識(shí)別時(shí)間,利用在線(xiàn)硬示例挖掘(Online Hard Example Mining,OHEM)篩選對(duì)識(shí)別影響結(jié)果較多的信息,并預(yù)防無(wú)關(guān)數(shù)據(jù)的侵?jǐn)_。在區(qū)域建議網(wǎng)絡(luò)中輸入一張待分類(lèi)圖像,輸出置信度序列前N個(gè)目標(biāo)可能存在的范圍。OHEM擁有兩個(gè)不同的感興趣區(qū)域網(wǎng)絡(luò)。左側(cè)的感興趣區(qū)域網(wǎng)絡(luò)僅負(fù)責(zé)前向傳播推導(dǎo)誤差,右側(cè)的感興趣區(qū)域網(wǎng)絡(luò)從左側(cè)網(wǎng)絡(luò)中通過(guò)誤差排序[5],挑選誤差最高的樣本當(dāng)作右側(cè)網(wǎng)絡(luò)輸入。設(shè)定區(qū)域建議網(wǎng)絡(luò)輸出的矩形目標(biāo)框是Di,其相對(duì)得分的推算過(guò)程為
(1)
式(1)中,Si表示重疊框相交的面積,S是重疊框的并集面積。非最大抑制算法是區(qū)域建議網(wǎng)絡(luò)內(nèi)最關(guān)鍵的構(gòu)成部分。區(qū)域建議網(wǎng)絡(luò)輸出一系列檢測(cè)框Di的相對(duì)的分?jǐn)?shù)fi。非最大抑制算法要設(shè)定一個(gè)常數(shù)閾值τ,若檢測(cè)框得分高于閾值τ,則把它安放在最終的檢測(cè)結(jié)果集合E中。與此同時(shí),集合E內(nèi)所有和檢測(cè)框的重疊部分高于重疊閾值τ的檢測(cè)框會(huì)被強(qiáng)制歸零并刪除[6-7]。在相近的檢測(cè)框分?jǐn)?shù)都被強(qiáng)制歸零后,假如實(shí)際物體在重疊范圍出現(xiàn),會(huì)致使對(duì)此物體的檢測(cè)失敗,同時(shí)會(huì)降低圖像分類(lèi)識(shí)別精度。
不將高于閾值的相近目標(biāo)框得分設(shè)定成0,而是乘以某個(gè)衰減函數(shù),這樣就能降低假陰性幾率,剔除對(duì)圖像識(shí)別具有干擾性的信息。計(jì)算過(guò)程為
(2)
如果擁有b個(gè)類(lèi)型的訓(xùn)練樣本圖像,將其描述成如下兩種形式
Bi=[bi1,bi2,…,bij]∈Km
(3)
B=[b1,b2,…,bA]∈Km×ni
(4)
式(3)、(4)均為是第i類(lèi)訓(xùn)練樣本圖像矢量組成的矩陣,式(3)中bij∈Km代表第i類(lèi)第j個(gè)訓(xùn)練樣本圖像矢量。m是訓(xùn)練樣本圖像矢量維數(shù)。式(4)中A是訓(xùn)練樣本圖像類(lèi)型個(gè)數(shù),ni是第i類(lèi)訓(xùn)練樣本數(shù)量。
設(shè)定矩陣B是字典,將待分類(lèi)樣本圖像矢量e使用字典B表示,得到e=Bo。o是待分類(lèi)樣本圖像矢量e在字典B下的表達(dá)系數(shù)矢量。在稀疏表達(dá)方法中,檢測(cè)樣本圖像矢量e可通過(guò)和自身相同類(lèi)型的訓(xùn)練樣本圖像矢量進(jìn)行表述,并在樣本圖像充足狀況下[8],e在B下呈現(xiàn)出稀疏表達(dá)形式,稀疏性越高,越有助于圖像分類(lèi)識(shí)別處理。
(5)
class(e)=argminiti(e)
(6)
在實(shí)際操作中,圖像分類(lèi)識(shí)別通常包括光照、姿態(tài)與遮擋等偏差,并極有可能被噪聲污染。所以稀疏表達(dá)在字典內(nèi)代入單位陣I∈Km×m來(lái)闡明圖像偏差及噪聲。將式(5)的l1-范式最優(yōu)化問(wèn)題轉(zhuǎn)變成
(7)
同樣利用式(8)算出e的類(lèi)關(guān)聯(lián)重構(gòu)偏差,對(duì)圖像矢量e進(jìn)行分類(lèi)識(shí)別。
(8)
上述過(guò)程為常用的稀疏表達(dá)圖像分類(lèi)識(shí)別手段,由于分布結(jié)構(gòu)[9]是精準(zhǔn)分類(lèi)圖像的先決條件,為此文章將分布結(jié)構(gòu)當(dāng)作稀疏表達(dá)最小優(yōu)化式中的約束項(xiàng),并構(gòu)建細(xì)粒度圖像分類(lèi)識(shí)別模型。運(yùn)算流程如圖1所示。
圖1 分布結(jié)構(gòu)約束稀疏表達(dá)下的分類(lèi)識(shí)別流程
采用原始訓(xùn)練樣本數(shù)據(jù)當(dāng)作碼書(shū)時(shí),會(huì)存在一定數(shù)量的噪聲信息。為防止該降低圖像的噪聲,在約束稀疏表達(dá)下提取圖像的方向梯度圖,這樣就等同于對(duì)圖像實(shí)施濾波處理,不但能去除噪聲,還能明確圖像局部?jī)?nèi)容,將圖像表示為直方圖特征矢量。
直方圖交叉能衡量圖像直方圖特征相似性。把圖像的分布結(jié)構(gòu)利用圖像之間的相似矩陣W進(jìn)行描述,Wi,j是W的i行j列的因子,將其記作
(9)
式(9)中,D表示圖像直方圖特征維數(shù),Hi表示第i個(gè)圖像的直方圖特征,Hi與Hj是最接近的鄰域。挑選各圖像的6個(gè)最近領(lǐng)域產(chǎn)生圖像樣本的相似矩陣,此矩陣能呈現(xiàn)出圖像樣本的分布結(jié)構(gòu)信息,明確相似圖像樣本之間的耦合關(guān)聯(lián)。對(duì)圖像進(jìn)行分類(lèi)識(shí)別就要按照訓(xùn)練樣本的分布結(jié)構(gòu)相似程度確立樣本類(lèi)標(biāo)記的從屬性[10],由此證明了分布結(jié)構(gòu)約束項(xiàng)對(duì)圖像分類(lèi)識(shí)別具有至關(guān)重要的現(xiàn)實(shí)意義。
在分布結(jié)構(gòu)約束項(xiàng)基礎(chǔ)上,組建全新的約束稀疏表達(dá)模型,針對(duì)待檢測(cè)樣本y,基于約束稀疏表達(dá)的圖像分類(lèi)是運(yùn)用l1-范式約束與編碼保持樣本分布結(jié)構(gòu)約束下,讓編碼誤差為最低,利用訓(xùn)練樣本集X對(duì)y編碼,得到最優(yōu)編碼系數(shù)為
(10)
式(10)中,αi與αj是α內(nèi)的隨機(jī)系數(shù),Wi,j是訓(xùn)練樣本的分布結(jié)構(gòu),將分布結(jié)構(gòu)信息儲(chǔ)存于稀疏編碼系數(shù)內(nèi)。構(gòu)建式(10)的前提是創(chuàng)建檢測(cè)樣本的訓(xùn)練樣本線(xiàn)性系數(shù)表征模型y=Xα。按照拉普拉斯矩陣特征,將式(10)等效記作
(11)
式(11)中
L=D-W
(12)
D=∑iWi,j
(13)
將式(11)變換最終式(14),即可獲得圖像分類(lèi)識(shí)別模型的最終形式
(14)
式(14)中
S(α)=(y-Xα)2+βL
(15)
交替方向乘子法是一種處理可分離凸規(guī)劃問(wèn)題的方法,擁有迭代形式簡(jiǎn)便、儲(chǔ)存量小和高效率等獨(dú)特優(yōu)勢(shì)。交替方向乘子法能把原有問(wèn)題的目標(biāo)函數(shù)等價(jià)分解成多個(gè)容易探尋的局部解子問(wèn)題實(shí)施交替分析,迭代獲得問(wèn)題全局最優(yōu)解,文章利用該算法完成細(xì)粒度圖像分類(lèi)識(shí)別模型求解任務(wù)。構(gòu)建相似度衡量函數(shù)。圖像分類(lèi)識(shí)別就是對(duì)不同的環(huán)境下的圖像目標(biāo)進(jìn)行關(guān)聯(lián),匹配相等的內(nèi)容。設(shè)計(jì)一種度量學(xué)習(xí)方法(keep it simple and straightforward metric,KISSME)方法,針對(duì)固定圖像對(duì)(p,q),將其特征記作(up,uq),則圖像相似度計(jì)算公式為
(16)
式(16)中,Vs(up,uq)代表(p,q)從屬相關(guān)圖像對(duì)的幾率,Vd(up,uq)代表(p,q)不屬于相關(guān)圖像對(duì)的幾率。使用全局與局部相融合手段獲得最終相似度函數(shù),將局部與全局相似度依次記作
(17)
(18)
局部相似度函數(shù)與全局相似度函數(shù)的總和即為最終的相似度函數(shù)
δ(li,lj)=δlocal(li,lj)+γδglobal(li,lj)
(19)
式(19)中,γ表示調(diào)整局部與全局相似度函數(shù)的超參。利用式(19)構(gòu)建正則化測(cè)度矩陣,得到
(20)
式(20)中
(21)
將圖像分類(lèi)識(shí)別問(wèn)題等效為排序問(wèn)題,若兩個(gè)圖像是相同內(nèi)容能獲得更多的分?jǐn)?shù)提高排名,組建三元損失函數(shù)
(22)
ltriplet(ln,li,lj)=[δ(ln,li)-δ(ln,lj)+α]
(23)
按照式(20)與式(22)獲得圖像分類(lèi)識(shí)別目標(biāo)函數(shù)
c=1,…,C;r=1,…,R
(24)
(25)
(26)
(27)
(28)
由此可知,一次迭代共分為四部分:首先計(jì)算和U1有關(guān)的最小化問(wèn)題,更新變量U1,再算和U2有關(guān)的最小化問(wèn)題,更新變量U2,計(jì)算和U3有關(guān)的最小化問(wèn)題,更新變量U3,最終更新兩個(gè)對(duì)偶變量Λ1、Λ2,完成精準(zhǔn)的圖像分類(lèi)識(shí)別目標(biāo)。
以人臉細(xì)粒度圖像作為分類(lèi)目標(biāo),在FaceScrub人臉數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),證明所提方法可靠性。挑選人臉數(shù)據(jù)庫(kù)內(nèi)的50人,每人擁有5張不同表情、光照等變化的正臉圖像。圖像大小從初始160×115像素剪裁成60×50像素。.并設(shè)定常數(shù)閾值τ為127,配置Intel core i7 5960X 型號(hào)CPU,32 G內(nèi)存,及RX5950XT 型號(hào)顯卡的工作站。
為了驗(yàn)證所研究方法的分類(lèi)識(shí)別的效果,隨機(jī)選取上文數(shù)據(jù)庫(kù)中的三幅不同人臉、不同表情的人臉圖像。將所研究方法與文獻(xiàn)[3](基于深度遷移學(xué)習(xí)的微型細(xì)粒度圖像分類(lèi))和文獻(xiàn)[4](基于文本與視覺(jué)信息的細(xì)粒度圖像分類(lèi))進(jìn)行對(duì)比仿真,測(cè)試三種方法的分類(lèi)如圖2所示。
圖2 人臉細(xì)粒度圖像分類(lèi)識(shí)別結(jié)果
由圖2可知,文獻(xiàn)[3]方法的分類(lèi)結(jié)果失去了多樣性和結(jié)構(gòu)信息,文獻(xiàn)[4]方法的分類(lèi)結(jié)果同樣丟失了結(jié)構(gòu)信息,而所研究結(jié)果,顯示了現(xiàn)實(shí),多樣化和類(lèi)別保持的結(jié)果。因?yàn)樗芯糠椒ㄔ诩s束稀疏表達(dá)下提取圖像的方向梯度圖,從而保證了圖像分類(lèi)識(shí)別結(jié)構(gòu)的完整性。
為了驗(yàn)證在不同光照環(huán)境下所研究方法的分類(lèi)識(shí)別性能,將所研究方法與文獻(xiàn)[3]和文獻(xiàn)[4]進(jìn)行對(duì)比仿真實(shí)驗(yàn),為進(jìn)一步明確不同實(shí)驗(yàn)環(huán)境下三種方法的分類(lèi)識(shí)別性能,將圖像分為三組,每組50幅圖像:正面無(wú)表情及光照改變的圖像(1組)、只有表情變化的圖像(2組)和只有光照改變的圖像(3組),測(cè)試結(jié)果如表1所示。
表1 三種方法的峰值信噪比與分類(lèi)時(shí)間對(duì)比
從表1可知,所研究方法分類(lèi)后的峰值信噪比高于對(duì)比的兩種文獻(xiàn)方法,峰值信噪比越高說(shuō)明圖像質(zhì)量越好,其平均峰值信噪比為28.9,說(shuō)明分類(lèi)的圖像質(zhì)量較高。圖像分類(lèi)時(shí)間上所研究方法遠(yuǎn)低于對(duì)比的其他兩種方法,平均分類(lèi)時(shí)間為5.71s。這是因?yàn)樗芯糠椒ㄔ谙∈璞磉_(dá)中引入了分布結(jié)構(gòu)約束項(xiàng),并在圖像預(yù)處理階段運(yùn)用在線(xiàn)硬示例挖掘方法將檢測(cè)樣本中的干擾信息剔除,提高了方法分類(lèi)識(shí)別能力與效率。
針對(duì)細(xì)粒度圖像分類(lèi)識(shí)別精度不高、計(jì)算繁瑣等問(wèn)題,提出基于約束稀疏表達(dá)的細(xì)粒度圖像分類(lèi)識(shí)別方法。該方法運(yùn)算簡(jiǎn)便、有效處理稀疏編碼分布結(jié)構(gòu)缺失問(wèn)題,分類(lèi)后的圖像質(zhì)量得到顯著提升,擁有廣闊的應(yīng)用前景。但在圖像預(yù)處理過(guò)程中,對(duì)不同子類(lèi)差異特征的提取能力有待增強(qiáng),這也是后續(xù)研究的關(guān)鍵內(nèi)容。