亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡的候選區(qū)域優(yōu)化算法

2020-01-10 01:49:30王春哲安軍社姜秀杰邢笑雪

中國光學 2019年6期

王春哲，安軍社，姜秀杰，邢笑雪

(1.中國科學院國家空間科學中心復雜航天系統(tǒng)電子信息技術重點實驗室，北京 100190；2.中國科學院大學，北京 100049；3.長春大學，吉林長春 130022)

1 引言

在計算機視覺中，目標檢測在人臉識別與目標跟蹤等方面有著廣泛的應用[1-2]。目標檢測是確定圖像中是否含有目標及目標所在圖像中的位置。在過去幾十年中，解決該問題的主要方法是采用滑動窗口范式，具體為：在該范式下，使用一個高效的分類器判斷密集采樣的滑動窗口中是否存在目標。然而，該類方法計算量巨大，僅在單尺度下，每張圖像就需處理104～105個滑動窗口，而且現(xiàn)在的數(shù)據(jù)集還要求預測目標的寬高比，極大地增加了檢測算法的復雜度。最近，學者們提出基于候選區(qū)域(Region Proposals，RP)的檢測框架，該檢測框架可有效提高目標的檢測效率，其主要思想是在圖像上生成少量更可能包含目標的候選區(qū)域，并對該候選區(qū)域進行后續(xù)的識別與定位[3]。

生成候選區(qū)域的主要準則有[3]：分組提案(Grouping Proposals，GP)準則及窗口評分(Window Scoring Proposals，WSP)準則。GP準則試圖生成可能包含目標的分割段，并利用顏色、形狀等線索合并分割段來生成候選區(qū)域，其代表性算法是選擇性搜索算法(Selective Search，SS)[4]。WSP準則是對滑動窗口中出現(xiàn)目標的可能性進行評分，并根據(jù)評分高低篩選候選區(qū)域，該準則主要有Object-ness[5]，BING[6]以及Edge Boxes(EB)[7]。

EB通過統(tǒng)計滑動窗口中出現(xiàn)目標邊緣信息的多少來生成目標的候選區(qū)域。但由于EB方法使用傳統(tǒng)邊緣檢測算子生成邊緣特征，不能準確地描述目標，因此具有一定局限性。近幾年，卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network，CNN)在目標分割、識別與檢測等領域中表現(xiàn)出色[8-11]。由于目標邊界通常含有較多的語義信息[12]，使用CNN可以生成更富有語義信息的邊緣特征，有助于提高目標候選區(qū)域的質量。

目標顯著性是在圖像的多尺度及不同寬高比下統(tǒng)計圖像的顏色、紋理及形狀信息，從而將目標從背景中區(qū)分出來[13-14]。目標的空間位置信息是衡量目標屬性的重要指標，自然圖像中，目標多出現(xiàn)在圖像的中間或鄰近中間位置，若將目標顯著性及位置信息引入到候選區(qū)域算法中，可有效提高目標候選區(qū)域的召回率。

本文從卷積邊緣特征、目標顯著性及目標的空間位置，3個方面來研究目標的候選區(qū)域算法。使用深度神經(jīng)網(wǎng)絡生成更能表達目標邊界的卷積邊緣特征，并統(tǒng)計每個滑動窗口中含有的目標邊緣信息量、顯著性特征及目標的空間位置信息，篩選滑動窗口。

2 卷積邊緣特征與目標顯著性

本文所述候選區(qū)域算法主要包括：(1)邊緣信息得分；(2)目標的顯著性得分；(3)位置信息得分；(4)篩選滑動窗口。首先，使用RCF(Richer Convolutional Features)網(wǎng)絡生成富有語義信息的卷積邊緣特征圖；然后，在整張圖像上無重疊采樣若干圖像塊，并使用周邊延拓像素、顏色直方圖的卡方距離(Chi-square distance)等策略，統(tǒng)計每個滑動窗口的平均顯著性得分；第三，為每個滑動窗口構建位置信息得分模型；最后，根據(jù)每個滑動窗口的邊緣信息得分、顯著性得分及位置信息得分，篩選滑動窗口，算法結構如圖1所示。

圖1 所提算法實現(xiàn)框圖 Fig.1 Block diagram of the proposed algorithm

圖2 RCF結構 Fig.2 The structure of RCF

2.1 卷積邊緣特征

圖3 給定一張圖像X Fig.3 An given image X

圖4 X的邊緣特征圖 Fig.4 Edge feature maps of X

表1 邊緣組算法描述

對于一個邊緣組s中的任意邊緣點p，其邊緣強度為mp、邊緣方向角為θp及邊緣點位置為(xp,yp)，則邊緣組s的位置(xs,ys)可定義為：

(3)

其中，P為邊緣組s中所有邊緣點集合。邊緣組s的方向角θs可表示為：

(4)

在邊緣組集合T中任意取兩個邊緣組ti及tj，則兩邊緣組之間的相似度為：

a(ti,tj)=|cos(θi-θij)cos(θj-θij)|γ.

(5)

其中，θi、θj分別為ti及tj的方向角；θij為ti及tj重心連線間的方向角；γ用于調整方向角變化對相似度的敏感性[7]，根據(jù)EB算法取值策略，取γ=2。

(6)

(7)

其中，mi表示第i個邊緣組強度；bh與bw為滑動窗口b的高和長；ε為調節(jié)hb對滑動窗口大小的敏感度[7]，鑒于EB算法，本文取ε=1.5。

2.2 顯著性得分

在文獻[14]中，作者認為目標的顏色變化比背景的顏色變化豐富，因此作者將圖像無重疊地分成若干圖像塊，并將圖像塊的6個通道R、G、B、L、a、b作為顏色向量，使用隨機森林等訓練策略確定滑動窗口的顯著性得分。這種處理對算法性能有所改善，但有兩點不足：第一，眾所周知，語義信息對后續(xù)的目標檢測很重要，但作者在文獻[14]中使用傳統(tǒng)的邊緣檢測算子生成邊緣特征，不能很好地描述圖像的語義信息，這就要求采用更復雜的分類器對后續(xù)目標進行識別，從而增加了檢測階段算法的復雜度；第二，需要對若干圖像塊的顏色特征進行單獨的預先訓練，而訓練后的參數(shù)可能受不同數(shù)據(jù)庫內容的影響，從而增加了算法的運算時間。

針對上述兩點不足，本文使用目標顏色的局部特征改進算法。目標顯著性指出，目標與周圍背景之間的顏色差異較大[13]。對于緊緊包含目標的矩形框bxc，通過將矩形框bxc向周邊擴展像素，獲得背景矩形框bxs(bxc?bxs)；對于不包含目標的矩形框bxr，按照相同策略獲取相應的背景矩形框bxm(bxr?bxm)，則顏色直方圖的卡方距離關系有：ds{bxc,bxs}>ds{bxr,bxm}，如圖5所示。將矩形框bxc、bxr稱為中心圖像塊，簡記為C圖像塊；背景矩形框bxs、bxm稱為背景圖像塊，簡記為S圖像塊。

圖5 圖像塊的卡方距離 Fig.5 The chi-square distance of image patches

圖6 選取S圖像塊的策略 Fig.6 Selection strategy of S image patch

在尺寸為M×N的彩色圖像X上無重疊采樣，采樣窗口為w×w，因此，共采樣Ng=(M/w)×(N/w)個彩色圖像塊。每個彩色圖像塊Xci(i=1,…,Ng)有3個通道，分別記作Xci(R)、Xci(G)、Xci(B)。

為計算顯著性得分，需將每個圖像塊Xci按照一定的策略向四周延拓像素，形成S圖像塊，記作Xsi(i=1,…,Ng)。S圖像塊的選取策略如圖6所示。對位于X邊緣上的圖像塊Xci，僅向含有像素的方向延拓2×w個像素；對位于非邊緣上的圖像塊Xci，則向四周分別延拓2×w個像素。為衡量圖像塊Xci及Xsi間的顏色差異，分別計算Xci三通道的顏色直方圖為hr,hg,hb以及Xsi三通道的顏色直方圖為sr,sg,sb。每個通道顏色直方圖的卡方距離分別為：

(8)

(9)

(10)

其中，nbin為一常數(shù)，取值為256。圖像塊Xci及Xsi的顏色直方圖的卡方距離定義為：

(11)

使用b中所有圖像塊的卡方距離的平均值，作為滑動窗口b的顯著性得分：

(12)

2.3 位置信息得分

為描述圖像中目標的位置信息，圖7分別列出了PASCAL VOC 2007、VOC 2012數(shù)據(jù)集中目標位置與目標數(shù)目的關系。其中：橫坐標為已標注目標的中心與圖像中心歸一化后的歐氏距離，縱坐標為目標數(shù)目?？梢钥吹?，目標主要分布在距圖像中心[0,0.5)范圍內，此區(qū)域的目標約占70%，隨著距離的增加，目標數(shù)逐漸減少。根據(jù)這一特性，將目標位置信息融入到候選區(qū)域算法中。

圖7 目標位置與目標數(shù)目關系。(a)VOC 2007數(shù)據(jù)集；(b)VOC 2012數(shù)據(jù)集 Fig.7 Relationship between the object′s location and object′s number. (a) VOC 2007 dataset; (b) VOC 2012 dataset

首先對每個滑動窗口進行位置信息建模，計算彩色圖像X的中心位置坐標(Xmx,Xmy)：

(13)

對于滑動窗口b，用四維向量(bx,by,bw,bh)表示，因此b的中心位置坐標(bmx,bmy)：

(14)

其中，bx，by表示滑動窗口b左上角的位置坐標，bw及bh分別為滑動窗口的寬和高。則滑動窗口b的中心與彩色圖像中心的歐氏距離為：

(15)

由于滑動窗口b的中心與圖像X中心距離越大，則含有目標的概率越小。因此，本文選取一個單調遞減函數(shù)作為該距離的權重，來表達該候選區(qū)域的位置信息得分：

L(b)=(η)dst(b,X)·dst(b,X) ,

(16)

其中，0<η<1，η值的大小(取0.5)，表明L(b)對距離dst(b,X)的敏感程度。

2.4 篩選候選框

將計算的邊緣信息得分、顯著性得分及位置信息得分，分別賦予合適權重，作為滑動窗口b的最終得分：

(17)

表2 精調滑動窗口策略

3 數(shù)據(jù)分析與性能比較

3.1 數(shù)據(jù)庫選取及性能評價指標

本文選取在候選區(qū)域算法中使用較廣泛的數(shù)據(jù)集PASCAL VOC 2007進行實驗。該數(shù)據(jù)集有訓練集、驗證集及測試集，共9 963張圖像、24 640個目標。數(shù)據(jù)集的基本情況如表3所示。

表3 VOC 2007數(shù)據(jù)集特性

本文采用召回率(recall)、AUC(Area Under Curve，AUC)值及達到某召回率時所需候選框數(shù)目作為評價算法性能的標準，具體見3.4節(jié)。

召回率是描述候選區(qū)域為正樣本的概率指標，公式為：

(18)

其中，nmb(·)表示含有·的數(shù)目；tp表示正樣本，fn表示虛假負樣本。為確定候選區(qū)域是否為正樣本，需通過候選區(qū)域與標注區(qū)域的交并比(Intersection over Union，IoU)實現(xiàn)。在給定候選區(qū)域pbx及對應的標注框gbx情況下，其交并比可定義為：

(19)

若交并比IoU(pbx,gbx)大于設置的閾值thr(通常為0.5)，則候選區(qū)域pbx為正樣本。召回率越大，說明候選區(qū)域算法越好。AUC值是衡量候選區(qū)域算法性能的重要指標，其值越大，候選區(qū)域算法性能越好。

3.2 RCF網(wǎng)絡訓練

為得到更加富有語義信息的邊緣特征，本文選取ImageNet數(shù)據(jù)集VGG16的預先訓練模型，并在BSD500的邊緣檢測數(shù)據(jù)集上訓練RCF。在訓練RCF網(wǎng)絡時，選擇均值為零、標準差為0.01的高斯分布的權重值，在偏置為零時進行參數(shù)初始化。每次選取10張圖像，并使用隨機梯度SGD算法優(yōu)化參數(shù)。參數(shù)設置為：學習率為1×10-6、動量值為0.9、權重衰減為0.000 2，NVIDIA GeForce GTX 1080上共運行SGD 40k次。

3.3 參數(shù)確定

圖8 參數(shù)α、β與召回率的關系 Fig.8 Relationship of the parameters α, β and recall

為確定合適的窗口尺寸w，固定參數(shù)α及β的最優(yōu)值α=0.000 1和β=0.1，選取w分別為8,16,24,32,40,48，w與召回率之間的關系如圖9所示?？梢姡敶翱诔叽鐆=16時，召回率為最大值。因此，本文最終選取的參數(shù)為α=0.000 1、β=0.1、w=16。

圖9 參數(shù)w與召回率的關系 Fig.9 Relationship of the parameter w and recall

3.4 數(shù)據(jù)分析與性能比較

為驗證本文方法的有效性，選取SS[4]、Object-ness[5]、BING[6]、CPMC[15]、EB[7,16]、Randomized Prim′s[17]、Rantalankila[18]、MCG[19]、Endres[20]、Geodesic[21]、Rigor[22-23]、Improved EdgeBoxes[14]共12種近年來主流算法，在PASCAL VOC2007測試集上進行對比實驗。首先固定候選框的數(shù)目，研究13種算法在不同交并比IoU下的召回率，如圖10所示(彩圖見期刊電子版)。

從圖10可知，實驗中的算法可分為兩類：一類是定位較好的算法，此類算法隨著IoU的升高，召回率緩慢下降，如SS和EB算法；另一類是定位較差的算法，隨著IoU的升高，召回率急速下降，如BING，Rantalankila算法。當候選框個數(shù)為100時，Improved EdgeBoxes性能略高于所提算法，但弱于CPMC、endres等算法，這表明在候選框較少的情況下，可優(yōu)先考慮CPMC及endres算法；當候選區(qū)域數(shù)目為1 000時，MCG性能表現(xiàn)最好；當候選區(qū)域數(shù)目大于1 000，且IoU為0.5～0.7時，本文算法的召回率最高，這表明本文算法有效提高了候選區(qū)域的質量。

評價候選區(qū)域算法性能的另一種方法是固定交并比IoU，研究不同候選區(qū)域數(shù)目下算法的召回率。圖11(彩圖見期刊電子版)為指定交并比IoU，13種算法召回率隨候選區(qū)域數(shù)目的變化示意圖。從圖11可知，交并比IoU取為0.5及0.7時，隨著候選框數(shù)目的增加，本文算法性能趨于最佳，有最高的召回率。圖11(c)展示了13種算法

在不同交并比下的平均召回率。從圖11(c)可知，MCG、SS和本文算法的整體性能表現(xiàn)優(yōu)越。

圖10 不同候選框數(shù)下召回率與交并比之間的關系 Fig.10 Relationship between recall and IoU at different number of proposals

圖11 不同交并比的候選框數(shù)與召回率的關系 Fig.11 Recall versus number of proposals at different IoUs

平均召回率AR表示在不同交并比IoU下召回率的平均值，定義為：

(20)

為全面衡量所提算法性能，表4列出了在PASCAL VOC 2007驗證集下，當交并比IoU=0.7時，AUC值、運算時間及召回率分別達到45%、60%、75%時，所需候選框的數(shù)目。其中，除本文算法外，其他算法的結果來自參考文獻[7][24]。

若在指定召回率下，所需候選框數(shù)目越少，表明該算法定位性能越好；另外，由于處理的候選框相對較少，也可為后續(xù)檢測節(jié)約時間，從而極大地提高了檢測效率。

達到指定召回率時，所需最少候選框數(shù)目的確定規(guī)則如下：

(1)預先選取候選框的個數(shù)為cnts={1,2,5,10,100,200,500,1 000,2 000,5 000,10 000}，然后計算各候選框數(shù)目下的召回率，為區(qū)分不同交并比下的召回率，此處，記作Rj(j=1,2,…11)；

(2)對給定的數(shù)據(jù)集合cnts中每個數(shù)據(jù)取對數(shù)ms=log(cnts)，ms中共有11個值，每個值分別記為ms[i]；

(3)當召回率Rj>Rs時，候選區(qū)域最小數(shù)目的索引為：e=min{index{Rj>Rs}}，并令f=e-1；

(4)召回率達到Rs時，所需候選框的最小數(shù)目，即為：

(ms[e]-ms[f])+ms[f]) .

(21)

根據(jù)上述的召回率值Rj及ms確定AUC值，其策略如下：

(22)

式(22)中，ms[end]表示集合ms的最后一個值。

表4中“--”表示無窮大。由表4知，本文算法的AUC值達到了0.47，與MCG算法性能相當；性能達到75%時，僅需799個候選框，相比于MCG的1 116個、SS的1 812個候選區(qū)域，明顯降低了候選框個數(shù)。

表4中，Rρ代表候選框數(shù)為ρ(1 000,2 000,10 000)時，各算法的召回率?？梢灾?，在不同候選框數(shù)目下，本文算法均有很好性能；當候選框數(shù)為10 000時，本文算法的召回率達到了90.50%，明顯高于其他算法，同時較Improved EdgeBoxes提高了1.25%。

表4 交并比為0.7時13種算法的實驗結果

本文在NVIDIA GeForce GTX 1080、CPU@4.20 GHz，32G RAM下，本文算法所用時間為0.764 9 s，以犧牲微小計算資源，提高了算法的召回率。精度mAP值是選取1 000個候選框，在Fast R-CNN(model M)的測試結果。由表4可知，本文算法的精度較高。

3.5 圖像中不同位置目標的召回率

為證明所提算法對出現(xiàn)在圖像中不同位置目標的性能，本文在PASCAL VOC 2007測試集中，選取已標注目標的中心與圖像中心的歸一化距離分別為[0,0.5)、[0.5,0.8)及[0.8,1.0]的圖像進行實驗。歸一化距離越大，則目標越靠近圖像邊緣；距離越小，目標越靠近圖像中心。圖12(彩圖見期刊電子版)列出了圖像中不同區(qū)域的目標、候選框數(shù)目取10 000時，13種算法在不同交并比IoU下的召回率?？梢钥闯?，所提算法在距離圖像中心為[0,0.5)及[0.5,0.8)上的目標性能優(yōu)越，Improved EdgeBoxes與EB算法性能相當，低于所提算法的性能，在靠近邊緣的目標，所提算法的性能接近SS算法。這表明，無論是在圖像中心或圖像邊緣的目標，所提算法均有良好性能。

為進一步說明所提算法對圖像邊緣目標檢測的性能，選取測試集中與圖像中心的歸一化距離為[0.8,1.0]的圖像，在不同交并比IoU下進行測試，其候選框數(shù)目與召回率之間的關系如圖13(彩圖見期刊電子版)所示。由圖13(a)、13(b)可知，所提算法僅用較少的候選框，就能達到較高的召回率；由圖13(c)可見，隨著候選框數(shù)目的增加，所提算法的平均召回率逐漸上升，算法性能與SS相當，這說明所提算法能夠獲取定位較好的候選框。

圖12 13種算法不同位置目標的召回率與交并比的關系 Fig.12 Recall vs IoU curves of objects at different locations by 13 kinds of algorithms

圖13 不同交并比下候選框數(shù)與召回率的關系 Fig.13 Recall versus number of proposals at different IoUs

圖14 本文算法在PASCAL VOC 2007測試集的召回率 Fig.14 Recall on the PASCAL VOC 2007 test set for proposed algorithm in this paper

為確定每一類目標候選區(qū)域的召回率，本文利用PASCAL VOC 2007測試集中單目標圖像的標注信息，以及Hosang在文獻[24]中對VOC 2007各類目標候選框的統(tǒng)計標注信息，計算各類目標的召回率。

圖14(彩圖見期刊電子版)從PASCAL VOC 2007測試集選取20類目標，本文算法在候選框數(shù)目為500時的各類召回率?？梢钥闯?，所提算法在“cow”、“dog”及“sheep”目標在各交并比IoU下均能獲得較高的召回率；但對于“bottle”及“pottedplant”目標，召回率相對較低，這是由于此類目標尺寸較小，含有目標的信息不多，使得召回率下降。

3.6 圖像窗口的寬高比對實驗結果的影響

本文測試了C圖像塊窗口的寬高比對實驗結果的影響。所謂寬高比是指窗口的寬與高的比值。本文選取寬高比分別為0.5,1.2、窗口寬度分別為8,16,24共8個窗口，在測試集及驗證集上進行實驗，不同寬高比的召回率如圖15(彩色見期刊電子版)所示。可知，寬高比對召回率的影響小，這表明本文算法對寬高比的魯棒性較好。

圖15 不同寬高比時測試集及驗證集上的召回率 Fig.15 The recalls at different aspect ratios of test set and validation set

3.7 所提算法的目標檢測結果

圖16(彩圖見期刊電子版)列出了本文算法的部分目標的檢測結果。其中，實線代表真實的標注框；虛線為本文算法預測的候選區(qū)域?？梢钥吹剑崴惴ǖ哪繕藱z測性能較好，但對于尺寸相對較小的目標，出現(xiàn)了漏檢。

圖16 所提算法對部分目標的檢測結果 Fig.16 Object detection results of some objects detected by proposed algorithm

為證實漏檢目標的分布情況，圖17繪制了測試集中漏檢目標的尺寸與漏檢目標數(shù)目間的關系示意圖。可見，漏檢目標主要集中在行數(shù)為(0～50)、列數(shù)為(0～50)范圍內，這一區(qū)域內所提算法的性能下降。

圖17 漏檢目標的尺寸與漏檢目標數(shù)目間的關系 Fig.17 The relation of the size of undetected objects and the number of undetected objects

由于小目標分辨率低及對噪聲敏感等原因，小目標檢測是目標檢測領域的一項挑戰(zhàn)。針對這一問題，現(xiàn)有方法多借用多尺度手段，使用插值算法對小目標區(qū)域進行插值放大后檢測。但這增加了算法的復雜度，且檢測精度受插值算法影響較大。本課題組將繼續(xù)從深度卷積神經(jīng)網(wǎng)絡方面研究小目標的敏感特征，使得算法有更高的檢測精度。

4 結論

本文從卷積邊緣特征、目標顯著性及目標空間位置信息三方面研究了目標候選區(qū)域算法。從實驗結果中得知，由于使用語義信息更豐富的卷積邊緣特征，提高了目標候選區(qū)域的質量，這說明卷積神經(jīng)網(wǎng)絡能夠很好地描述目標邊界；另外，將目標顯著性的局部特征及目標空間位置引入到候選區(qū)域中，也使得目標候選區(qū)域的召回率有所提高，這表明目標顯著性特征及目標的空間位置信息有助于生成定位更準確的候選區(qū)域。當選取10 000個候選框、交并比為0.7時，所提算法在PASCAL VOC 2007驗證集上的召回率達到了90.50%，較EB和SS算法分別提高了3.31%、1.38%。本文算法的不足之處在于對小目標的檢測效果不好。這是由于小目標的像素較少，產(chǎn)生的邊緣信息不多，容易出現(xiàn)目標漏檢。針對這種情況，下一步將繼續(xù)利用深度神經(jīng)網(wǎng)絡探究小目標含有的特征，以提高候選區(qū)域算法的召回率。