亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多尺度區(qū)域特征的細(xì)粒度分類算法研究

2019-09-23 09:22:06熊昌鎮(zhèn)

鄭州大學(xué)學(xué)報(理學(xué)版) 2019年3期

熊昌鎮(zhèn)，蔣杰

(北方工業(yè)大學(xué) 城市道路交通智能控制技術(shù)北京市重點實驗室北京 100144)

0 引言

細(xì)粒度檢測任務(wù)是對具有相同結(jié)構(gòu),但是存在一些細(xì)微差異的對象進行識別,這需要提取表征對象細(xì)微差異的特征才能實現(xiàn)正確的識別.傳統(tǒng)的特征表示有灰度特征、顏色特征[1]、梯度直方圖特征[2]、費舍爾向量特征[3]、核描述子[4]等特征,但這些傳統(tǒng)的特征在細(xì)粒度識別方法上都無法取得良好的效果.隨著深度學(xué)習(xí)的興起,產(chǎn)生了一些與深度學(xué)習(xí)相關(guān)的細(xì)粒度分類和檢測的成果,如Yang等[5]使用GoogleNet[6]研究了CompCars數(shù)據(jù)集在各卷積模型下的精細(xì)分類效果.Sochor等[7]提出一種使用車輛的3D 矩形標(biāo)注信息，及視角向量等附加信息作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，來進行車型精細(xì)識別的方法,取得了良好的效果.Lin等[8]通過車輛的部分零件定位信息擬合出車輛的3D模型,從而將車輛的3D信息用于細(xì)粒度分類,取得了較好的分類效果.Sermanet等[9]研究了注意力模型在細(xì)粒度分類中的應(yīng)用.Xiao等[10]研究了在卷積神經(jīng)網(wǎng)絡(luò)中用兩級注意力模型來進行細(xì)粒度分類的工作,從而有效避免了使用代價較大的包圍盒標(biāo)注以及部分零件標(biāo)注的工作.Gavves等[11]研究了費舍爾向量表征目標(biāo)部分零件定位信息來進行細(xì)粒度分類的方法,取得了不錯的結(jié)果.Berg等[2]對每對關(guān)鍵點學(xué)習(xí)一個描述子,從而學(xué)習(xí)到一系列有高度差異性的中間特征用于識別.Chai等[3]發(fā)現(xiàn)聯(lián)合學(xué)習(xí)局部定位和前景分割信息有助于細(xì)粒度分類任務(wù).Branson等[12]發(fā)現(xiàn)集成低層和高層的特征可以有效地改善細(xì)粒度識別.Simon等[13]提出一系列神經(jīng)激活的方法,可以通過無監(jiān)督學(xué)習(xí)來學(xué)習(xí)部分零件模型.Krause等[14]在無監(jiān)督學(xué)習(xí)的條件下,通過共同分割的方法生成部分零件來進行細(xì)粒度的識別.

隨著神經(jīng)網(wǎng)絡(luò)模型的不斷優(yōu)化,目標(biāo)檢測領(lǐng)域的研究也取得了很多成果,特別是基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法,即RCNN[15].在此基礎(chǔ)上出現(xiàn)了SPPNET[16]、FAST-RCNN[17]、FASTER-RCNN[18]等改進的算法.從傳統(tǒng)的目標(biāo)檢測算法到最新的FASTER-RCNN等目標(biāo)檢測算法和模型的快速更新,IMAGENET數(shù)據(jù)集的檢測精度和檢測時間得到很大提升.最重要的識別精度、定位準(zhǔn)確性、實時性幾個方面都得到了較大的提升.還有一些深度學(xué)習(xí)目標(biāo)檢測的算法采用回歸的方法,如YOLO[19]和SSD[20].YOLO將輸入圖像分成S×S個格子,每個格子負(fù)責(zé)檢測落入該格子的物體,選擇目標(biāo)窗口和原來標(biāo)記窗口的交疊率最高的檢測框作為物體檢測輸出.SSD 是基于一個前向傳播 CNN 網(wǎng)絡(luò),產(chǎn)生一系列固定大小的包圍盒檢測框,判斷每一個檢測框中包含物體實例的可能性,最后采用一個非極大值抑制算法得到最終的預(yù)測結(jié)果.

Sun等[21]研究了在FASTER-RCNN框架下將樣本送入卷積網(wǎng)絡(luò)進行訓(xùn)練，并對輸入卷積網(wǎng)絡(luò)訓(xùn)練的圖像做多尺度縮放，又利用串聯(lián)多個卷積特征層的池化結(jié)果作為最后的池化層做人臉細(xì)粒度識別的任務(wù).Zhang等[22]研究了基于部分區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)檢測方法，并基于部分區(qū)域卷積網(wǎng)絡(luò)的特征進行細(xì)粒度檢測,即將RCNN改進用于細(xì)粒度檢測,取得了很好的結(jié)果.唐斯琪等[23]研究了一種基于特征圖融合的多列卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計算法,取得了較好的效果.朱威威等[24]提出了一種魯棒性自適應(yīng)模糊C均值算法，得到了更好的圖像分割質(zhì)量.

為了避免圖像背景對細(xì)粒度識別算法的影響,以及定位表征目標(biāo)物體全局信息和局部特征信息的多尺度區(qū)域,從而構(gòu)建并組合更能表征目標(biāo)特性的高維度特征向量.本文在FASTER-RCNN框架下,在文獻[22]的基礎(chǔ)上，提出一種基于多尺度區(qū)域卷積特征的細(xì)粒度分類算法.首先利用多尺度區(qū)域數(shù)據(jù)集對FASTER-RCNN框架下的模型進行微調(diào)訓(xùn)練，產(chǎn)生多個網(wǎng)絡(luò)模型,檢測出物體的多尺度區(qū)域特征,然后使用包圍盒約束和海倫約束將多尺度區(qū)域特征整合在一起，訓(xùn)練支持向量機分類器進行細(xì)粒度的圖像識別.

1 多尺度區(qū)域特征分類算法

1.1 多尺度區(qū)域信息標(biāo)注

為了微調(diào)多個區(qū)域尺度的FASTER-RCNN的網(wǎng)絡(luò)模型,需要對訓(xùn)練數(shù)據(jù)進行多尺度目標(biāo)區(qū)域標(biāo)注.將檢測的目標(biāo)區(qū)域分為3個尺度,最內(nèi)層的尺度為p0區(qū)域,中間的尺度為p1區(qū)域,最外圍的部分為完整的目標(biāo)區(qū)域.目標(biāo)區(qū)域包含p1和p0區(qū)域,p1區(qū)域包含p0區(qū)域.其中最內(nèi)層p0區(qū)域的標(biāo)注信息和中間部分p1區(qū)域的標(biāo)注信息分別為

1.2 包圍盒約束的算法

根據(jù)多尺度區(qū)域互相包含的關(guān)系,可以對檢測的結(jié)果進行包圍盒約束算法優(yōu)化.為有效篩選出準(zhǔn)確包含多尺度區(qū)域信息的檢測框,并使得檢測出的多尺度區(qū)域檢測框的質(zhì)量和檢測的定位準(zhǔn)確度有所提高,需要設(shè)計p1區(qū)域包含在物體目標(biāo)區(qū)域內(nèi),p0區(qū)域包含在p1區(qū)域內(nèi),即

Δbox(X)=Tbox(p0)Tbox(p1)Tp1(p0)≠0.

設(shè)置ε值為10,選擇滿足上述關(guān)系的檢測框，并且優(yōu)先選擇FASTER-RCNN檢測的包含目標(biāo)物體得分概率分?jǐn)?shù)依大到小排序靠前的檢測框.式中box表示檢測到的完整目標(biāo)區(qū)域.

1.3 海倫約束算法

由于包圍盒約束僅能確定各尺度區(qū)域的包含關(guān)系,無法很好將所有尺度區(qū)域的檢測框中心點約束在同一個像素點.各尺度區(qū)域檢測框的中心點即為各區(qū)域檢測框?qū)蔷€的交點,而將所有尺度檢測框中心點約束在同一個像素點可以求出檢測位置更精確的檢測框,平面上不在同一條直線上的3個點唯一確定一個外接圓,故而首先計算多尺度區(qū)域的中心點坐標(biāo).目標(biāo)物體的檢測中心點坐標(biāo)計算公式、目標(biāo)物體中間層區(qū)域檢測框p1的中心點坐標(biāo)公式以及目標(biāo)物體最內(nèi)層區(qū)域檢測框p0的中心點坐標(biāo)公式分別為

各中心點坐標(biāo)之間的距離分別用a、b、c表示.定義a為最內(nèi)層區(qū)域p0中心點和最外圍的目標(biāo)整體區(qū)域中心點的距離;定義b為中間層區(qū)域p1中心點和最外圍的目標(biāo)整體區(qū)域中心點的距離;定義c為最內(nèi)層區(qū)域p0中心點和中間層區(qū)域p1中心點的距離.計算各中心點坐標(biāo)之間的距離公式分別為

各尺度區(qū)域中心點組成的三角形的周長的一半用p表示,計算連接各中心坐標(biāo)的三角形的外接圓面積用S表示,即

設(shè)置面積S的最大值為120，即計算出的面積S的大小不能超過120,挑選FASTER-RCNN提取的候選框中包含物體得分概率分?jǐn)?shù)排序靠前，且滿足海倫檢測約束條件的目標(biāo)物體和各尺度區(qū)域檢測框.

1.4 多尺度區(qū)域特征分類器

在用包圍盒約束算法和海倫約束算法進行多尺度目標(biāo)定位優(yōu)化后,采用多尺度區(qū)域模型分別提取目標(biāo)的3個尺度區(qū)域的特征.每個尺度區(qū)域的特征為4 096維,將3個4 096維的特征串聯(lián)組合后形成12 288維的特征,然后使用支持向量機訓(xùn)練分類器.

2 實驗結(jié)果

實驗的平臺為Ubuntu16.04系統(tǒng)下的Matlab R2015b,所有的實驗均在配置為Intel Core i5-4590 CPU,GTX1070 GPU,內(nèi)存為8 GB的臺式電腦上完成.實驗中所用的車型數(shù)據(jù)集為CompCars數(shù)據(jù),實驗共使用其中的431個類型不同的汽車模型,共計20 673張圖片,隨機抽取70%的圖片作為訓(xùn)練數(shù)據(jù)集,30%的圖片為測試數(shù)據(jù)集.實驗所用的鳥類數(shù)據(jù)集為Caltech-UCSD鳥類數(shù)據(jù)集,共使用鳥類數(shù)據(jù)集圖片11 788張,共200個類別.其中50%的圖片作為訓(xùn)練集,50%的圖片作為測試集.實驗所用的網(wǎng)絡(luò)模型為ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的牛津大學(xué)幾何視覺組(visual geometry group,VGG)的VGG-19模型.在此模型的基礎(chǔ)上進行網(wǎng)絡(luò)微調(diào)得到3個尺度區(qū)域特征的模型.微調(diào)訓(xùn)練的參數(shù)采用分階段學(xué)習(xí)率,在模型訓(xùn)練15萬次迭代之前采用0.001的學(xué)習(xí)率,在模型訓(xùn)練15萬次迭代之后設(shè)置學(xué)習(xí)率為0.000 1.

圖1實線矩形框和虛線矩形框分別顯示了3個尺度的目標(biāo)定位結(jié)果和采用包圍盒和海倫約束前后的結(jié)果.圖1(a)和(d)表示整體目標(biāo)區(qū)域定位的結(jié)果，圖1(b)和(e)表示p1區(qū)域定位的結(jié)果，圖1(c)和(f)表示p0區(qū)域定位的結(jié)果.圖1(a)的車型圖片的整體目標(biāo)區(qū)域定位的結(jié)果存在偏差,圖1(d)和(e)的鳥類圖片的整體目標(biāo)區(qū)域定位的結(jié)果存在偏差,采用2種約束優(yōu)化的定位的結(jié)果用虛線矩形框顯示,可以看出約束優(yōu)化后的結(jié)果定位更加精確.從圖1(c)和(f)的區(qū)域檢測結(jié)果可以看出，最小尺度的區(qū)域基本上消除了背景的影響或者只有少量的背景信息.并且由圖可知算法構(gòu)建的最小尺度的特征信息很好反映了目標(biāo)物體中心矩形區(qū)域的局部信息,算法構(gòu)建的中間層區(qū)域特征信息反映了較大范圍的目標(biāo)局部信息,算法構(gòu)建的最大尺度的特征信息即為目標(biāo)的全局信息,是一種比較普適的方法.

圖1 目標(biāo)檢測約束算法前后效果圖Fig.1 Pictures before and after target detection constraint algorithm

本文算法在Caltech-UCSD鳥類數(shù)據(jù)集和CompCars車型數(shù)據(jù)集精細(xì)化分類的結(jié)果如下所述.在Caltech-UCSD鳥類數(shù)據(jù)集中只用單個目標(biāo)整體區(qū)域的特征的分類準(zhǔn)確率為0.753,僅使用包圍盒約束算法優(yōu)化并將3個尺度區(qū)域特征組合訓(xùn)練分類器進行分類的準(zhǔn)確率為0.791,僅使用海倫約束算法優(yōu)化的分類準(zhǔn)確率為0.805；組合包圍盒約束和海倫約束優(yōu)化后的分類準(zhǔn)確率為0.828.在CompCars車型數(shù)據(jù)集上只用單個目標(biāo)整體區(qū)域的特征的分類準(zhǔn)確率為0.852,僅使用包圍盒約束算法優(yōu)化并將3個尺度區(qū)域特征組合訓(xùn)練分類器進行分類的準(zhǔn)確率為0.898,僅使用海倫約束算法優(yōu)化的分類準(zhǔn)確率為0.903,組合包圍盒約束和海倫約束優(yōu)化后的分類準(zhǔn)確率為0.935.實驗表明提出的算法有效地構(gòu)建了高維度的特征信息，提高了細(xì)粒度分類的準(zhǔn)確度,提出的包圍盒約束算法和海倫約束算法能進一步提高細(xì)粒度分類的準(zhǔn)確率,相比未使用高維度特征信息的包圍盒約束算法和海倫約束算法之前,在Caltech-UCSD鳥類數(shù)據(jù)集上準(zhǔn)確率提高7.5%,在CompCars數(shù)據(jù)集上準(zhǔn)確率提高8.3%.

本文算法與其他算法在Caltech-UCSD鳥類數(shù)據(jù)集上的對比結(jié)果如下所述.Berg等[2]采用梯度直方圖特征方法的準(zhǔn)確率為0.568；Chai等[3]采用費舍爾向量特征方法的準(zhǔn)確率為0.594；Gavves等[11]采用費舍爾向量表征目標(biāo)部分零件定位信息來進行細(xì)粒度分類的準(zhǔn)確率為0.627；Lin等[22]采用基于部分區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)檢測方法和基于部分區(qū)域卷積網(wǎng)絡(luò)特征的準(zhǔn)確率為0.739；Branson等[12]采用集成底層和高層特征的方法的準(zhǔn)確率為0.757；Simon等[13]采用一系列神經(jīng)激活的方法,并通過無監(jiān)督學(xué)習(xí)來學(xué)習(xí)部分零件模型的方法的準(zhǔn)確率為0.810； Krause等[14]采用在無監(jiān)督學(xué)習(xí)的條件下,通過共同分割的方法生成部分零件來進行細(xì)粒度的識別的準(zhǔn)確率為0.820；本文算法的準(zhǔn)確率為0.828,比Zhang等[8]的算法提高了8.9%.相比于其他的性能較優(yōu)的算法,如Branson[12]、Simon[13]、Krause[14]的算法也有一個較好結(jié)果，驗證了本文算法的有效性.本文算法與其他算法在CompCars數(shù)據(jù)集上的對比結(jié)果如下所述.其中AlexNet的分類準(zhǔn)確率為0.819,CaffeNet的分類準(zhǔn)確率為0.816,GoogLeNet的分類準(zhǔn)確率為0.912,本文算法比最優(yōu)的GoogLeNet模型算法的結(jié)果多了2.3%,在CompCars數(shù)據(jù)集上取得了很好的結(jié)果,也驗證了本文算法的有效性.

3 結(jié)論

本文提出了一種多尺度區(qū)域特征的精細(xì)目標(biāo)分類方法.該方法通過訓(xùn)練3個尺度的區(qū)域特征卷積網(wǎng)絡(luò)，并檢測3個尺度的區(qū)域位置,通過包圍盒約束和海倫約束方法優(yōu)化目標(biāo)定位區(qū)域,然后提取3個尺度的區(qū)域特征訓(xùn)練支持向量機分類器.在Caltech-UCSD鳥類數(shù)據(jù)集上和CompCars數(shù)據(jù)集上的實驗表明，采用多尺度區(qū)域標(biāo)注信息分別訓(xùn)練卷積網(wǎng)絡(luò)模型來進行多尺度區(qū)域特征分類算法是有效的.采用包圍盒約束算法和海倫約束算法的目標(biāo)分類算法在Caltech-UCSD鳥類數(shù)據(jù)集及CompCars數(shù)據(jù)集上準(zhǔn)確率都有較大的提高.相比于AlexNet、CaffeNet在CompCars數(shù)據(jù)集上實驗的算法,優(yōu)勢更加明顯,說明本文提出的算法是非常有效的.后續(xù)研究考慮加入其他輔助信息(如顏色信息)進行細(xì)粒度的任務(wù)研究.