汪常建,丁 勇,盧盼成
(南京航空航天大學(xué) 自動(dòng)化學(xué)院,南京 210016)
無(wú)人機(jī)是利用無(wú)線遙控設(shè)備和自備的程序控制裝置操縱的不載人飛機(jī),與有人駕駛的飛行器相比,無(wú)人機(jī)具有的高機(jī)動(dòng)性使其更適合執(zhí)行地面目標(biāo)的檢測(cè)任務(wù)[1]。無(wú)人機(jī)通過(guò)自動(dòng)識(shí)別和定位圖像中的目標(biāo)可以增強(qiáng)人機(jī)交互下的感知功能,為其自主探測(cè)和飛行提供必備的技術(shù)支持[2]。目前,基于圖像的目標(biāo)檢測(cè)算法在面向自然場(chǎng)景(如人臉識(shí)別[3]、智能檢測(cè)[4]等)下已經(jīng)取得較大進(jìn)展,在無(wú)人機(jī)場(chǎng)景下,目標(biāo)檢測(cè)存在成像視角不同、樣本數(shù)量不足等問(wèn)題,檢測(cè)效果較差[5]。因此,適用于復(fù)雜無(wú)人機(jī)場(chǎng)景下的目標(biāo)檢測(cè)算法成為研究熱點(diǎn)。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要有以R-CNN[6-8]系列算法為代表的基于候選區(qū)域的兩階段算法和以YOLO[9-11]系列與SSD[12]為代表的基于回歸的單階段目標(biāo)檢測(cè)算法。兩階段算法對(duì)待檢測(cè)圖片進(jìn)行預(yù)處理生成若干個(gè)候選區(qū)域,并放入分類(lèi)器中進(jìn)行分類(lèi)確定目標(biāo)位置,具有更精準(zhǔn)的目標(biāo)定位。單階段目標(biāo)檢測(cè)算法直接對(duì)預(yù)測(cè)的目標(biāo)物體進(jìn)行回歸,對(duì)輸入圖片直接進(jìn)行處理,輸出層直接輸出邊界框的位置信息和其所屬類(lèi)別,算法速度較快但準(zhǔn)確率較低。針對(duì)檢測(cè)圖片中目標(biāo)存在的尺度變化問(wèn)題,文獻(xiàn)[13]提出一種多尺度的特征金字塔結(jié)構(gòu)目標(biāo)檢測(cè)算法,通過(guò)下采樣實(shí)現(xiàn)高層特征圖與底層特征圖的融合,這種特征構(gòu)造方式能夠有效利用高層特征圖具有較強(qiáng)語(yǔ)義信息的特點(diǎn),將語(yǔ)義信息融入到底層特征圖中,可以較好地處理目標(biāo)檢測(cè)中的尺度問(wèn)題,但未有效地利用底層特征圖的位置信息。文獻(xiàn)[14]提出一種尺度注意力模塊,用于融合特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)所有檢測(cè)分支的特征。在視覺(jué)領(lǐng)域,通過(guò)獲取上下文信息或?qū)ο笾g的關(guān)系有助于識(shí)別檢測(cè)。文獻(xiàn)[15]提出一種地理上下文的方法,使用對(duì)象空間提高檢測(cè)效果。文獻(xiàn)[16]提出自動(dòng)上下文的概念。文獻(xiàn)[17]提出一種注意力模塊,通過(guò)從一組元素中聚集信息從而影響單個(gè)元素,由任務(wù)目標(biāo)驅(qū)動(dòng)自動(dòng)學(xué)習(xí)聚合權(quán)重,對(duì)元素之間依賴性進(jìn)行建模,提高翻譯效果。文獻(xiàn)[18]提出一種AC-FPN 算法,通過(guò)集成注意力導(dǎo)向的多路徑特征判別各個(gè)感受野范圍信息,以提高檢測(cè)精度。文獻(xiàn)[19]提出一種耦合度較低的關(guān)系網(wǎng)絡(luò)模塊,更便捷地插入其他網(wǎng)絡(luò)結(jié)構(gòu)中以構(gòu)造目標(biāo)之間的關(guān)系。在目標(biāo)檢測(cè)中,通過(guò)提取圖片整體信息構(gòu)建目標(biāo)之間的關(guān)聯(lián)性有助于檢測(cè)目標(biāo),但由于目標(biāo)之間關(guān)聯(lián)較抽象,構(gòu)造關(guān)聯(lián)性難度較大。
本文基于Faster R-CNN 提出一種融合改進(jìn)FPN 與關(guān)聯(lián)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法,在FPN 結(jié)構(gòu)中增加自下而上的融合方式,利用候選區(qū)域之間的特征構(gòu)建關(guān)聯(lián)特征,通過(guò)將待檢測(cè)圖像中的關(guān)聯(lián)特征與深度特征相融合,解決尺度變化較大情況下的目標(biāo)檢測(cè)問(wèn)題。
Faster R-CNN 算法是兩步式目標(biāo)檢測(cè)算法R-CNN和Fast R-CNN 的升級(jí)算法。Faster R-CNN 算法的流程如圖1 所示。首先,采用VGG[20]網(wǎng)絡(luò)架構(gòu)或ResNet[21]殘差網(wǎng)絡(luò)結(jié)構(gòu)提取輸入圖片的特征,利用區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)在提取的特征圖上生成候選區(qū)域,經(jīng)過(guò)非極大值抑制后由全連接層對(duì)候選區(qū)域進(jìn)行分類(lèi)回歸實(shí)現(xiàn)目標(biāo)檢測(cè)。
圖1 Faster R-CNN 算法流程Fig.1 Procedure of Faster R-CNN algorithm
Faster R-CNN 算法引入Anchor 機(jī)制和邊框回歸,利用滑動(dòng)窗口以Anchor 為中心生成大小不同的9 個(gè)框(3 種面積,3 種長(zhǎng)寬比例),每個(gè)候選框分別判定是否含有目標(biāo)信息,選擇與真實(shí)值交并比最高的框作為檢測(cè)結(jié)果,并對(duì)其進(jìn)行回歸實(shí)現(xiàn)目標(biāo)檢測(cè)。RPN 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 RPN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of RPN network
在Faster R-CNN 算法中引入RPN 網(wǎng)絡(luò)結(jié)構(gòu)的目的是提取目標(biāo)在圖像上可能存在的區(qū)域,替代之前算法采用的選擇性搜索方法,使得整個(gè)網(wǎng)絡(luò)可進(jìn)行端到端的訓(xùn)練。Faster R-CNN 算法利用滑動(dòng)窗口對(duì)特征圖像進(jìn)行卷積操作生成特征向量,并輸入至回歸層和分類(lèi)層,其中分類(lèi)層主要預(yù)測(cè)目標(biāo)的置信度分?jǐn)?shù),回歸層計(jì)算目標(biāo)的位置坐標(biāo)偏移量。由于Faster R-CNN 算法直接使用RPN 網(wǎng)絡(luò)生成檢測(cè)框,因此可以有效解決生成候選區(qū)域較慢的問(wèn)題,但其依然在單一尺度下對(duì)目標(biāo)進(jìn)行檢測(cè)。當(dāng)面對(duì)無(wú)人機(jī)圖像中存在尺度變化較大的場(chǎng)景時(shí),網(wǎng)絡(luò)層對(duì)后面淺層特征圖的貢獻(xiàn)信息小。因此,F(xiàn)aster R-CNN 算法不能解決多尺度下的目標(biāo)檢測(cè)問(wèn)題。
針對(duì)Faster R-CNN 算法存在的提取尺度信息不足和目標(biāo)之間關(guān)聯(lián)性不明確的問(wèn)題,本文提出一種改進(jìn)FPN 與關(guān)聯(lián)網(wǎng)絡(luò)相結(jié)合的Faster R-CNN 目標(biāo)檢測(cè)算法。本文算法流程如圖3 所示,首先對(duì)輸入圖片經(jīng)卷積層提取深度特征,利用改進(jìn)的FPN 對(duì)不同卷積層提取的特征進(jìn)行融合;通過(guò)RPN 網(wǎng)絡(luò)的滑動(dòng)窗口生成候選區(qū)域并輸入至全連接層,由關(guān)聯(lián)網(wǎng)絡(luò)接收候選區(qū)域的信息并構(gòu)造區(qū)域之間的關(guān)聯(lián)特征,將關(guān)聯(lián)特征加入深度特征之中,最后進(jìn)行分類(lèi)回歸,從而實(shí)現(xiàn)目標(biāo)檢測(cè)。該算法在輸出特征圖中通過(guò)改進(jìn)的FPN 結(jié)構(gòu)來(lái)最大程度地保存目標(biāo)的多尺度信息;將候選區(qū)域單獨(dú)作為目標(biāo),利用候選區(qū)域的位置關(guān)系和外觀特征構(gòu)造區(qū)域之間的關(guān)聯(lián)性,充分地提取圖片的整體信息,有助于提高目標(biāo)檢測(cè)效果。
圖3 本文算法流程Fig.3 Procedure of the proposed algorithm
傳統(tǒng)Faster R-CNN 算法是在單一尺度上生成特征圖,用于檢測(cè)的只是卷積層最后一層的輸出特征圖,并未利用之前的多層卷積層特征提取結(jié)果。在目標(biāo)檢測(cè)中,底層特征圖具有豐富的位置信息,有助于小尺度目標(biāo)的檢測(cè),高層特征圖具有豐富的語(yǔ)義信息,適合處理尺度較大的目標(biāo)。為解決小目標(biāo)的尺度問(wèn)題,文獻(xiàn)[13]提出一種FPN 結(jié)構(gòu),如圖4 所示。FPN 采用自上而下和橫向連接的結(jié)構(gòu),融合底層位置信息與高層語(yǔ)義信息更豐富的特征圖,以得到新的特征圖中保存了目標(biāo)底層的位置信息,提高較小尺度目標(biāo)的檢測(cè)效果。不同卷積層得到的深度特征通過(guò)1×1 卷積核進(jìn)行通道的匹配,融合后的特征圖利用3×3 卷積核進(jìn)行處理以減少不同層特征融合帶來(lái)的混疊影響。
圖4 FPN 結(jié)構(gòu)Fig.4 FPN structure
傳統(tǒng)的FPN 能夠有效地融合底層特征圖的位置信息,但是高層特征圖經(jīng)過(guò)2 倍上采樣處理導(dǎo)致語(yǔ)義信息被減弱。為同時(shí)獲得較強(qiáng)的語(yǔ)義信息和位置信息,本文提出一種改進(jìn)的FPN 結(jié)構(gòu),如圖5 所示,輸入圖片經(jīng)過(guò)ResNet 網(wǎng)絡(luò)提取特征,將高層特征圖上采樣后與底層特征圖相加,將底層特征圖進(jìn)行下采樣后與高層特征圖相加的雙向融合方式獲取最終的特征圖,再經(jīng)過(guò)RPN 網(wǎng)絡(luò)生成4 種尺度{256×256,128×128,64×64,32×32}和3 種比例{1∶2,1∶1,2∶1}共24 種Anchor。特征圖輸入到ROI 池化層進(jìn)行池化操作,最后經(jīng)過(guò)檢測(cè)器輸出實(shí)現(xiàn)目標(biāo)檢測(cè)。
圖5 改進(jìn)的FPN 結(jié)構(gòu)Fig.5 Improved FPN structure
改進(jìn)FPN 的Faster R-CNN 多尺度檢測(cè)算法包含目標(biāo)豐富的語(yǔ)義信息和位置信息,但在后續(xù)處理中,沒(méi)有考慮圖片中目標(biāo)之間可能存在的關(guān)系,而是將目標(biāo)單獨(dú)進(jìn)行檢測(cè)。為更充分提取圖片信息,本文考慮加入關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)提取圖片上不同位置處特征信息的關(guān)聯(lián)性進(jìn)一步提高檢測(cè)效果,確保輸出特征圖中同時(shí)保存足夠的語(yǔ)義信息和位置信息,有效提高多尺度目標(biāo)的檢測(cè)效果。
在Faster R-CNN 算法中,RPN 網(wǎng)絡(luò)將生成的候選區(qū)域輸入到ROI 池化層進(jìn)行池化處理,得到每個(gè)區(qū)域的特征向量,包括候選區(qū)域的目標(biāo)位置信息和深度特征信息,隨后將每個(gè)區(qū)域未處理的信息送入全連接層和Softmax 處理,得到候選框具體所屬的類(lèi)別,并未利用候選區(qū)域之間的相互關(guān)系。為進(jìn)一步獲取候選區(qū)域之間的關(guān)聯(lián)性,本文引入一種關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),利用特征信息和位置信息對(duì)目標(biāo)之間的關(guān)系進(jìn)行建模,構(gòu)造關(guān)聯(lián)特征并與深度特征相融合,進(jìn)一步提高檢測(cè)效果。關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
圖6 關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure of relation network
從圖6 可以看出,關(guān)聯(lián)網(wǎng)絡(luò)以ROI 池化層輸出的形狀特征fA和位置特征fG為輸入,將提取到的每個(gè)候選區(qū)域單獨(dú)作為一個(gè)目標(biāo),通過(guò)關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)造區(qū)域之間的關(guān)聯(lián),構(gòu)造方法為圖6 虛線方框。圖中為輸入的第n個(gè)區(qū)域的形狀特征為輸入的第m個(gè)和第n個(gè)區(qū)域的位置特征,用一個(gè)4 維的bbox 坐標(biāo)信息表示。WV、WQ、WK、WG均為變換矩陣。在目標(biāo)檢測(cè)過(guò)程中,本文給定N個(gè)目標(biāo)的輸入?yún)?shù)為定義第n個(gè)目標(biāo),受其周?chē)鷐個(gè)目標(biāo)的影響因子fR(n)如式(1)所示:
其中:ωmn為關(guān)聯(lián)特征權(quán)重,表示目標(biāo)m受到其他目標(biāo)的影響因子為第m個(gè)目標(biāo)的形狀特征,經(jīng)過(guò)變換矩陣WV進(jìn)行維度變化之后,與權(quán)重參數(shù)ωmn相乘進(jìn)行歸一化處理,得到其他目標(biāo)對(duì)第n個(gè)目標(biāo)的關(guān)聯(lián)程度。關(guān)聯(lián)特征權(quán)重ωmn如式(2)所示:
其中:WK、WQ均為參數(shù)矩陣;通過(guò)變換矩陣WK、WQ將原始輸入的外觀特征映射到子空間度量其特征的匹配程度;dk為映射后的特征維度;dot 為向量的點(diǎn)積運(yùn)算。式(3)分母的作用是限制數(shù)值規(guī)模,防止ωmn出現(xiàn)非0即1的情況。位置特征權(quán)重如式(4)所示:
為了使目標(biāo)不受平移縮放的影響,本文對(duì)目標(biāo)位置信息進(jìn)行尺度歸一化和對(duì)數(shù)變換,如式(5)所示:
其中:(xm,ym,ωm,hm)、(xn,yn,ωn,hn)表示第m個(gè)和第n個(gè)目標(biāo)的位置信息。
通過(guò)式(5)對(duì)位置特征進(jìn)行尺度歸一化和log 操作來(lái)增加尺度不變性,使得在訓(xùn)練過(guò)程中不會(huì)因?yàn)閿?shù)值變化范圍過(guò)大而引起數(shù)據(jù)發(fā)散。在得到所需要的關(guān)聯(lián)特征后,通過(guò)Concat 聚合方式聚合Nr個(gè)關(guān)聯(lián)特征,并將其與目標(biāo)的深度特征相融合,作為最終輸出的新特征,如式(6)所示:
從式(6)可以看出,在輸入圖像原有深度特征的基礎(chǔ)上加入關(guān)聯(lián)特征,通過(guò)構(gòu)造不同候選區(qū)域之間的關(guān)聯(lián)性,并將這種關(guān)聯(lián)性加入到特征中進(jìn)行后續(xù)的回歸分類(lèi)處理,充分提取圖片信息。
融合改進(jìn)FPN 和關(guān)聯(lián)網(wǎng)絡(luò)的Faster R-CNN 目標(biāo)檢測(cè)算法主要分為7 個(gè)步驟:
步驟2利用改進(jìn)的FPN 結(jié)構(gòu)融合不同層次的卷積塊輸出特征圖。
步驟3利用RPN 網(wǎng)絡(luò)在步驟2 生成的特征圖上生成候選區(qū)域。
步驟4將生成的候選區(qū)域輸入ROI Pooling 層池化到特定大?。?×7),并輸入至全連接層。
步驟5接收全連接層輸出,通過(guò)關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建關(guān)聯(lián)特征,主要有以下3 個(gè)部分。
1)構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)數(shù)目Nr=16。
步驟7輸出目標(biāo)檢測(cè)結(jié)果。
實(shí)驗(yàn)采用Ubuntu 16.04 操作系統(tǒng)和NVIDIA GeForce GTX 1660 顯卡,以Tensorflow 作為深 度學(xué)習(xí)框架構(gòu)建算法模型。為驗(yàn)證本文所提算法的目標(biāo)檢測(cè)效果,在PASCAL VOC 2007 和NWPU VHR-10上進(jìn)行實(shí)驗(yàn)驗(yàn)證,其中PASCAL VOC 2007 作為標(biāo)準(zhǔn)數(shù)據(jù)集,是衡量圖像分類(lèi)識(shí)別能力的基準(zhǔn)數(shù)據(jù)集之一,包括20 個(gè)類(lèi)別的目標(biāo),擁有標(biāo)簽train-val(5 011 張圖片)和test(4 952 張圖片)。NWPU VHR-10 包含800 個(gè)高分辨率的衛(wèi)星圖像,均來(lái)自Google Earth 和Vaihingen 數(shù)據(jù)集,由專(zhuān)家手動(dòng)注釋產(chǎn)生。實(shí)驗(yàn)將從檢測(cè)效果、檢測(cè)精度和P-R 曲線3 個(gè)方面進(jìn)行驗(yàn)證。
例如:許多數(shù)學(xué)概念需要用數(shù)學(xué)符號(hào)來(lái)表示.如dy表示函數(shù)y的微分.各種數(shù)學(xué)符號(hào)也是表達(dá)不同數(shù)學(xué)概念的獨(dú)特方式,有助于學(xué)生更加容易理解和形成數(shù)學(xué)概念,數(shù)學(xué)符號(hào)的表達(dá)使得學(xué)生對(duì)數(shù)學(xué)概念的理解更加簡(jiǎn)潔明了.為了增強(qiáng)數(shù)學(xué)的科學(xué)性,很大一部分?jǐn)?shù)學(xué)概念的定義都是用各種各樣的符號(hào)來(lái)標(biāo)識(shí)的.許多數(shù)學(xué)概念還需要用圖形來(lái)表示.有些圖形也是數(shù)學(xué)概念的一種,比如圓形,正方形,三角形,梯形等.有些數(shù)學(xué)概念可以用圖形來(lái)表示,比如y=x+1的圖象.像函數(shù)的微分dy,就具有幾何意義.
本文選用PASCAL VOC2007 部分有代表性圖片,本文算法與FPN+Faster R-CNN 算法的目標(biāo)檢測(cè)對(duì)比如圖7 所示。從圖7(a)可以看出,第1 幅和第4幅為圖片中同時(shí)存在尺度較大目標(biāo)和尺度較小目標(biāo);第2 幅圖片為在模糊環(huán)境下的船舶;第3 幅圖片為在特殊視角下的船體檢測(cè)。
圖7 本文算法與FPN+Faster R-CNN 算法的目標(biāo)檢測(cè)結(jié)果對(duì)比1Fig.7 Object detection results comparison 1 of the proposed algorithm and FPN+Faster R-CNN algorithm
當(dāng)待檢測(cè)圖片中目標(biāo)尺度發(fā)生較大變化時(shí),F(xiàn)PN+Faster R-CNN 算法可以在一定程度上對(duì)尺度變化的目標(biāo)進(jìn)行檢測(cè),但不能完全準(zhǔn)確地定位到每個(gè)目標(biāo)的位置信息,特別是對(duì)小目標(biāo)的檢測(cè),如第1 幅圖片中最小的一只鳥(niǎo),第2 幅圖片中大船旁邊的小船只,均出現(xiàn)了漏檢的情況。本文改進(jìn)后的算法綜合考慮了目標(biāo)的尺度變化與目標(biāo)之間的關(guān)聯(lián)性,在處理包含這些小目標(biāo)或者特殊視角的目標(biāo)時(shí),如圖7(a)中第3 幅圖片船舶的檢測(cè)結(jié)果,本文算法能較準(zhǔn)確地識(shí)別特殊視角下的目標(biāo)信息,不會(huì)將其分類(lèi)為背景信息而出現(xiàn)漏檢情況。
待檢測(cè)圖片為NWPU VHR-10 數(shù)據(jù)集中包含的部分航拍圖像,本文算法和FPN+Faster R-CNN 算法的目標(biāo)檢測(cè)結(jié)果對(duì)比如圖8 所示。由于無(wú)人機(jī)拍攝圖像的目標(biāo)尺度較小,因此傳統(tǒng)檢測(cè)算法存在定位不精確的問(wèn)題。當(dāng)待檢測(cè)目標(biāo)受相似環(huán)境干擾(如圖8(a)第3 幅圖片)時(shí),傳統(tǒng)算法容易出現(xiàn)漏檢情況。
圖8 本文算法與FPN+Faster R-CNN 算法的目標(biāo)檢測(cè)結(jié)果對(duì)比2Fig.8 Object detection results comparison 2 of the proposed algorithm and FPN+Faster R-CNN algorithm
從圖8 可以看出,F(xiàn)PN+Faster R-CNN 算法在對(duì)無(wú)人機(jī)視角下的圖片進(jìn)行檢測(cè)時(shí),當(dāng)存在相似性干擾情況下(如第3 幅圖片中飛機(jī)與跑道)會(huì)出現(xiàn)漏檢。本文算法對(duì)目標(biāo)框的回歸更精確。本文對(duì)待檢測(cè)圖片中目標(biāo)自左向右依次編號(hào)為1、2(1)、2(2)、3(1)、3(2),將本文算法和傳統(tǒng)FPN+Faster R-CNN算法兩次目標(biāo)檢測(cè)結(jié)果與目標(biāo)真實(shí)值回歸框相比較,并以檢測(cè)結(jié)果與真實(shí)值的交并比(Intersection of Union,IoU)作為評(píng)價(jià)標(biāo)準(zhǔn),真實(shí)值為定位框左上角的橫縱坐標(biāo)和右下角的橫縱坐標(biāo),結(jié)果如表1 所示。
表1 本文算法與FPN+Faster R-CNN 算法IOU 對(duì)比Table 1 IOU comparison of the proposed algorithm and FPN+Faster R-CNN algorithm
從表1 檢測(cè)結(jié)果的IOU 值對(duì)比可以看出,與FPN+Faster R-CNN 算法相比,本文算法整體檢測(cè)準(zhǔn)確率分別提高了5、22、10 和13 個(gè)百分點(diǎn),本文算法對(duì)目標(biāo)定位更精準(zhǔn),目標(biāo)檢測(cè)效果更優(yōu)。
在PASCAL VOC 數(shù)據(jù)集上選取20 個(gè)類(lèi)別的圖片,在每個(gè)類(lèi)別上本文算法和FPN+Faster R-CNN 算法的平均檢測(cè)精度mAP(mean average precision)對(duì)比如表2所示,并將檢測(cè)結(jié)果與提供的真實(shí)值進(jìn)行對(duì)比。
表2 本文算法與FPN+Faster R-CNN 算法的mAP 對(duì)比Table 2 mAP comparison of the proposed algorithm and FPN+Faster R-CNN algorithm %
從表2 可以看出,本文算法在引入改進(jìn)FPN 結(jié)構(gòu)和關(guān)聯(lián)特征后的mAP 為80.1%,相較于FPN+Faster R-CNN 算法的mAP 提高了2.7 個(gè)百分點(diǎn)。本文算法與FPN+Faster R-CNN 算法的檢測(cè)性能對(duì)比如表3 所示,本文算法改進(jìn)前算法檢測(cè)速度上慢了21 ms,以較低的時(shí)間損耗得到較高的檢測(cè)精度,能夠滿足在無(wú)人機(jī)場(chǎng)景下目標(biāo)檢測(cè)識(shí)別的要求。
表3 本文算法與FPN+Faster R-CNN 算法的檢測(cè)性能對(duì)比Table 3 Detection performance comparison of the proposed algorithm and FPN+Faster R-CNN algorithm
在目標(biāo)檢測(cè)中,P-R 曲線是評(píng)估算法的重要指標(biāo),P表示正樣本精確率,如式(7)所示:
其中:TTP表示判斷為正例的正例;FFP表為判斷為正例的負(fù)例。
R表示正樣本召回率,如式(8)所示:
其中:p為所有正例的個(gè)數(shù)。
P-R 曲線包圍面積接近1,說(shuō)明算法性能越好。本文算法和FPN+Faster R-CNN 算法的P-R 曲線對(duì)比如圖9 所示,本文算法的P-R 曲線包圍面積更大,其樣本分類(lèi)性能更優(yōu)。
圖9 本文算法和FPN+Faster R-CNN 算法的P-R 曲線對(duì)比Fig.9 P-R cures comparison of the proposed algorithm and FPN+Faster R-CNN algorithm
本文基于Faster R-CNN 網(wǎng)絡(luò)結(jié)構(gòu)提出一種改進(jìn)的目標(biāo)檢測(cè)算法。在特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)中加入自下而上的特征融合路徑,增大底層位置信息在輸出特征圖中的比率,并通過(guò)構(gòu)建候選區(qū)域之間的特征關(guān)聯(lián)性,充分提取目標(biāo)信息。實(shí)驗(yàn)結(jié)果表明,本文算法平均交并比和平均檢測(cè)精度分別為12.5 和80.1%,具有較優(yōu)的目標(biāo)檢測(cè)效果。下一步將考慮利用卷積層代替目標(biāo)檢測(cè)框架中的全連接層,以減少參數(shù)運(yùn)算量和算法運(yùn)行時(shí)間。