亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度殘差網(wǎng)絡(luò)的無人機多目標(biāo)識別

        2019-03-02 02:14:08翟進(jìn)有代冀陽王嘉琦
        圖學(xué)學(xué)報 2019年1期
        關(guān)鍵詞:深度區(qū)域模型

        翟進(jìn)有,代冀陽,2,王嘉琦,應(yīng) 進(jìn)

        ?

        深度殘差網(wǎng)絡(luò)的無人機多目標(biāo)識別

        翟進(jìn)有1,代冀陽1,2,王嘉琦1,應(yīng) 進(jìn)1

        (1. 南昌航空大學(xué)信息工程學(xué)院,江西 南昌 330063;2. 南昌航空大學(xué)無損檢測技術(shù)教育部重點實驗室,江西 南昌 330063)

        傳統(tǒng)目標(biāo)識別算法中,經(jīng)典的區(qū)域建議網(wǎng)絡(luò)(RPN)在提取目標(biāo)候選區(qū)域時計算量大,時間復(fù)雜度較高,因此提出一種級聯(lián)區(qū)域建議網(wǎng)絡(luò)(CRPN)的搜索模式對其進(jìn)行改善。此外,深層次的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中易產(chǎn)生退化現(xiàn)象,而引入殘差學(xué)習(xí)的深度殘差網(wǎng)絡(luò)(ResNet),能夠有效抑制該現(xiàn)象。對多種不同深度以及不同參數(shù)的網(wǎng)絡(luò)模型進(jìn)行研究,將兩層殘差學(xué)習(xí)模塊與三層殘差學(xué)習(xí)模塊結(jié)合使用,設(shè)計出一種占用內(nèi)存更小、時間復(fù)雜度更低的新型多捷聯(lián)式殘差網(wǎng)絡(luò)模型(Mu-ResNet)。采用Mu-ResNet與CRPN結(jié)合的網(wǎng)絡(luò)模型在無人機目標(biāo)數(shù)據(jù)集以及PASCAL VOC數(shù)據(jù)集上進(jìn)行多目標(biāo)識別測試,較使用ResNet與RPN結(jié)合的網(wǎng)絡(luò)模型,識別準(zhǔn)確率提升了近2個百分點。

        無人機;殘差網(wǎng)絡(luò);級聯(lián)區(qū)域建議網(wǎng)絡(luò);目標(biāo)識別

        卷積神經(jīng)網(wǎng)絡(luò)屬于人工神經(jīng)網(wǎng)絡(luò)的一個分支,目前國際上有關(guān)卷積神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)研究進(jìn)行的如火如荼,且該技術(shù)在計算機視覺、模式識別等領(lǐng)域成功得到應(yīng)用[1-2]。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點非常明顯,其是一種多層神經(jīng)網(wǎng)絡(luò),通過卷積運算和降采樣對輸入圖像進(jìn)行處理,其網(wǎng)絡(luò)權(quán)值共享,可以有效減少權(quán)值數(shù)目,降低模型復(fù)雜度,且該網(wǎng)絡(luò)結(jié)構(gòu)具有高度的尺度不變性、旋轉(zhuǎn)不變性等多種仿射不變性。

        近兩年的ILSVRC (imagenet large scale visual recognition challenge)競賽中,在目標(biāo)檢測、分類、定位等項目上前3名的獲獎?wù)呔褂昧松窠?jīng)網(wǎng)絡(luò)的算法,如文獻(xiàn)[3]。在自主目標(biāo)識別領(lǐng)域,基于機器學(xué)習(xí)的方法越來越展現(xiàn)出其強大的生命力,學(xué)習(xí)能力是智能化行為的一個非常重要的特征。隨著人工智能的發(fā)展,機器學(xué)習(xí)的方法以其強大的泛化能力,不斷在目標(biāo)識別領(lǐng)域創(chuàng)造突破,也日漸成為計算機視覺各領(lǐng)域的研究主流。

        深度卷積神經(jīng)網(wǎng)絡(luò)[4-5]為圖像分類帶來了許多突破[6-7]。深層神經(jīng)網(wǎng)絡(luò)以端到端的方式自然地集成了低、中、高級功能和類別[8],功能的“級別”可以通過堆疊層數(shù)(深度)來豐富。近年來,在十分具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上進(jìn)行圖像分類取得領(lǐng)先的結(jié)果都是采用了較深的網(wǎng)絡(luò)。當(dāng)更深的網(wǎng)絡(luò)能夠開始收斂時,就會暴露出退化的問題,隨著網(wǎng)絡(luò)深度的增加,精度達(dá)到飽和(這并不奇怪),然后迅速退化[9-11]。這種降級不是由過度設(shè)置引起的,是因在適當(dāng)深度的模型中添加更多的層而導(dǎo)致了更高的訓(xùn)練誤差。

        1 深度殘差網(wǎng)絡(luò)搭建

        1.1 深度卷積神經(jīng)網(wǎng)絡(luò)

        在2012年的ILSVRC圖像分類大賽上,KRIZHEVSKY等[4]提出了AlexNet這一經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)模型。AlexNet相較于淺層的卷積神經(jīng)網(wǎng)絡(luò)模型,在性能上有了巨大的提升,而深層的網(wǎng)絡(luò)模型較淺層的網(wǎng)絡(luò)模型具有更大的優(yōu)勢。VGG16網(wǎng)絡(luò)以及GoogleNet網(wǎng)絡(luò)不斷刷新著ILSVRC競賽的準(zhǔn)確率。從LeNet,AlexNet至VGG16和GoogleNet,卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)在不斷加深。伴隨著網(wǎng)絡(luò)層數(shù)的加深,數(shù)據(jù)量以及運算量也在劇增。卷積模塊的數(shù)學(xué)表達(dá)為

        1.2 深度殘差學(xué)習(xí)機制

        當(dāng)卷積神經(jīng)網(wǎng)絡(luò)層數(shù)過深,容易出現(xiàn)準(zhǔn)確率下降的現(xiàn)象。通過引入深度殘差學(xué)習(xí)可以有效解決退化問題。殘差學(xué)習(xí)并不是每幾個堆疊層直接映射到所需的底層映射,而是明確地讓其映射到殘差層中[12]。訓(xùn)練深層次的神經(jīng)網(wǎng)絡(luò)是十分困難的,而使用深度殘差模塊搭建網(wǎng)絡(luò)可以很好地減輕深層網(wǎng)絡(luò)訓(xùn)練的負(fù)擔(dān)(數(shù)據(jù)量)并且實現(xiàn)對更深層網(wǎng)絡(luò)的訓(xùn)練[13]。殘差網(wǎng)絡(luò)的學(xué)習(xí)機制如圖1所示。

        圖1 殘差網(wǎng)絡(luò)學(xué)習(xí)模塊

        殘差學(xué)習(xí)模塊也是深度卷積神經(jīng)網(wǎng)絡(luò)的一部分[12]?,F(xiàn)假設(shè)殘差學(xué)習(xí)模塊的輸入為,要擬合的函數(shù)映射即輸出為(),那么可以定義另一個殘差映射為(),且()=()–,則原始的函數(shù)映射()=()+。文獻(xiàn)[12]通過實驗證明,優(yōu)化殘差映射()比優(yōu)化原始函數(shù)映射()容易的多。()+可以理解為在前饋網(wǎng)絡(luò)中,主網(wǎng)絡(luò)的輸出()與直接映射的和。直接映射只是將輸入原封不動地映射到輸出端,并未加入任何其他參數(shù),不影響整體網(wǎng)絡(luò)的復(fù)雜度與計算量。殘差學(xué)習(xí)模塊的卷積層使用2個3×3卷積模塊,進(jìn)行卷積運算[13-14]。引入了殘差學(xué)習(xí)機制的網(wǎng)絡(luò)依然可以使用現(xiàn)有的深度學(xué)習(xí)反饋訓(xùn)練模式求解。

        另一種3層殘差學(xué)習(xí)模塊,與2層不同的是第一個卷積層采用了1×1的卷積核,對數(shù)據(jù)進(jìn)行降維,再經(jīng)過一個3×3的卷積核,最后在經(jīng)過一個1×1的卷積核還原。這樣做既保存了精度,又能夠有效地減少計算量,對于越深層次的網(wǎng)絡(luò)效果往往更好。圖2為3層殘差學(xué)習(xí)模塊,由于其是先降維再卷積再還原,這種計算模式對于越深層次的網(wǎng)絡(luò)訓(xùn)練效果越好。

        圖2 3層殘差學(xué)習(xí)模塊

        1.3 搭建深度殘差網(wǎng)絡(luò)模型

        本文設(shè)計出一種包含多條捷徑通道的多捷聯(lián)式殘差學(xué)習(xí)模塊,結(jié)合文獻(xiàn)[10]中2種殘差模塊的優(yōu)勢,多捷聯(lián)式殘差模塊使用了5層的堆棧,由1個1×1的卷積層進(jìn)行降維,再經(jīng)過3個3×3的卷積層,最后經(jīng)過一個1×1的卷積層還原。在第一個1×1的卷積層之前和第二個3×3的卷積層之后使用一條捷徑,第三個3×3的卷積層之前和最后一個1×1的卷積層之后使用一條捷徑,再將第一個1×1的卷積層之前和最后一個1×1的卷積層之后使用一條捷徑。通過設(shè)置多條捷徑減輕網(wǎng)絡(luò)的訓(xùn)練難度,采用降維以卷積的方式減少訓(xùn)練的時間復(fù)雜度。多捷聯(lián)式殘差模塊如圖3所示。

        圖3 捷聯(lián)式殘差模塊

        前三層卷積層定義為多捷聯(lián)式殘差模塊的第一級,后兩層網(wǎng)絡(luò)定義為第二級?,F(xiàn)假設(shè)多捷聯(lián)式殘差模塊的輸入為,第一級的殘差映射為(),要擬合的函數(shù)映射即第一級的輸出為(),則

        ()=()–(2)

        第二級輸入函數(shù)為()=()+。第二級殘差映射為[()],第二級的輸出(),即

        ()=[()]+()+(3)

        ()為多捷聯(lián)式殘差學(xué)習(xí)模塊的最終輸出,該模塊設(shè)置了多條捷徑,在深層的網(wǎng)絡(luò)中訓(xùn)練更易收斂。

        針對輸入為任意大小的多類別目標(biāo)圖像,無人機(unmanned aerial vehicle,UAV)目標(biāo)識別系統(tǒng)采用卷積神經(jīng)網(wǎng)絡(luò)和殘差學(xué)習(xí)機制結(jié)合。采用五層殘差學(xué)習(xí)模塊搭建了多種不同深度的殘差網(wǎng)絡(luò)(multi-strapdown ResNet,Mu-ResNet)。

        2 無人機目標(biāo)識別算法

        2.1 級聯(lián)區(qū)域搜素網(wǎng)絡(luò)

        在Faster-RCNN算法出現(xiàn)之前,最先進(jìn)的目標(biāo)檢測網(wǎng)絡(luò)都需要先用區(qū)域選擇建議算法推測目標(biāo)位置,例如SPPnet和Fast-RCNN雖然都已經(jīng)做出來相應(yīng)的改進(jìn),減少了網(wǎng)絡(luò)運行的時間,但是計算區(qū)域建議依然需要消耗大量時間。所以,REN 等[15]提出了區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)用來提取檢測區(qū)域,其能和整個檢測網(wǎng)絡(luò)共享所有的卷積特征,使得區(qū)域建議的時間大大減少。

        簡而言之,F(xiàn)aster-RCNN的核心思想就是RPN,而RPN的核心思想是使用CNN卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生region proposal,使用的方法就是滑動窗口(只在最后的卷積層和最后一層特征圖上滑動),即anchor機制[15]。RPN網(wǎng)絡(luò)需要確定每個滑窗中心對應(yīng)視野內(nèi)是否存在目標(biāo)。由于目標(biāo)的大小和長寬比不一,使得需要多種尺度和大小的滑窗。Anchor給出一個基準(zhǔn)窗的大小,按照不同的倍數(shù)和長寬比得到不同大小的窗[15]。例如,文獻(xiàn)[15]給出了3種面積{1282,2562,5122}以及3種比例{1∶1,1∶2,2∶1}共9種尺度的anchor,如圖4所示。

        圖4 anchor示意圖

        考慮到經(jīng)典的RPN網(wǎng)絡(luò)搜索區(qū)域過多,提取目標(biāo)候選區(qū)域時計算量大,導(dǎo)致時間復(fù)雜度較高。本文提出一種級聯(lián)區(qū)域建議網(wǎng)絡(luò)(cascade region proposal network,CRPN)的搜索模式,第一級CNN采用32×32的卷積核,步長為4,在×的特征圖上進(jìn)行滑窗,得到檢測窗口。由于搜索區(qū)域尺度較小,通過第一級CRPN可以過濾掉90%以上的區(qū)域窗口,最后在采用非極大值抑制(non-maximum suppression,NMS)消除高重合率的候選區(qū)域,可大大減少下級網(wǎng)絡(luò)的計算量以及時間復(fù)雜度。

        將32×32網(wǎng)絡(luò)最后得到的目標(biāo)候選區(qū)域調(diào)整為64×64,輸入第二級CRPN,再濾掉90%的候選區(qū)域窗口,留下的窗口再經(jīng)過NMS消除高重合率的候選區(qū)域。

        最后將第二級CRPN輸出的候選區(qū)域調(diào)整為128×128,經(jīng)過同樣的操作濾掉背景區(qū)域。最后通過NMS去除高度重合區(qū)域,最終得到300個矩形候選區(qū)域。CRPN模型如圖5所示。

        圖5 級聯(lián)區(qū)域搜索網(wǎng)絡(luò)

        經(jīng)過級聯(lián)區(qū)域搜索網(wǎng)絡(luò)輸出的每一個位置上對應(yīng)3種面積{1282,2562,5122}以及3種比例{1∶1,1∶2,2∶1}共9種尺度的anchor屬于目標(biāo)前景和背景的概率以及每個窗口的候選區(qū)域進(jìn)行平移縮放的參數(shù)。最后的候選區(qū)域分類層和窗口回歸層可采用尺寸為1×1的卷積層實現(xiàn)。

        2.2 目標(biāo)識別網(wǎng)絡(luò)數(shù)學(xué)模型

        目標(biāo)識別網(wǎng)絡(luò)的第一部分是以ResNet為模型提取特征圖作為RPN輸入。經(jīng)過ResNet共享卷積層厚的特征為

        通過共享卷積層提取特征圖之后,利用區(qū)域生成網(wǎng)絡(luò)實現(xiàn)候選目標(biāo)區(qū)域的提取。對于區(qū)域生成網(wǎng)絡(luò)的訓(xùn)練,是將一幅任意大小的圖像作為輸入,輸出則是候選目標(biāo)(矩形)區(qū)域的集合,并且對每個(矩形)區(qū)域給出是否為目標(biāo)的得分,即

        將區(qū)域生成網(wǎng)絡(luò)的輸出結(jié)合特征提取圖作為輸入,得到目標(biāo)識別網(wǎng)絡(luò)的第二部分,即Fast-RCNN網(wǎng)絡(luò)。在共享卷積層后得到

        這一層卷積網(wǎng)絡(luò)是利用特征圖part1來生成更深一層特征part2,其中待學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)為part2。感興趣區(qū)域(region of interest,ROI)的池化層輸出為

        其中,輸入為區(qū)域生成網(wǎng)絡(luò)得到的候選區(qū)域RP和式(8)中的part2,但是因為目標(biāo)候選區(qū)域的尺寸大小不同,為了減少裁剪和縮放對信息造成的損失,引入單層空域塔式池化(spatial pyramid pooling,SPP)來實現(xiàn)對不同尺寸圖像的輸出。最后經(jīng)過全連接層輸出為

        輸出包含目標(biāo)區(qū)域位置和目標(biāo)區(qū)域類別2部分。其中輸入為式(9)中的part3和目標(biāo)的總類別個數(shù)以及對每一類所對應(yīng)的目標(biāo)區(qū)域進(jìn)行精修的參數(shù)(RP),即目標(biāo)矩形區(qū)域中左上標(biāo)與長寬高等滑動窗的位移,其中=1,2,···,。對于每一幅輸入圖像,可能存在的目標(biāo)區(qū)域個數(shù)為=1,2,···,。

        3 目標(biāo)檢測實驗

        3.1 Cifar10

        Cifar10數(shù)據(jù)集共有60 000張彩色圖像,每張圖像大小為32×32,分為10個類,每類6 000張圖。數(shù)據(jù)集中有50 000張圖像用于訓(xùn)練,構(gòu)成了5個訓(xùn)練集,每一批包含10 000張圖;另外10 000張用于測試,單獨構(gòu)成一批測試集。數(shù)據(jù)集和訓(xùn)練集圖像的選取方法是從數(shù)據(jù)集10類圖像中的每一類中隨機取1 000張組成測試集,剩下的圖像就隨機排列組成了訓(xùn)練集。訓(xùn)練集中各類圖像數(shù)量可不同,但每一類都有5 000張圖。

        本文以文獻(xiàn)[10]中的殘差網(wǎng)絡(luò)形式搭建多種不同深度的經(jīng)典殘差網(wǎng)絡(luò)模型,而后又以本文提出的5層殘差模塊為基礎(chǔ),搭建了22層、37層和57層的殘差網(wǎng)絡(luò)模型,最后將本文的不同ResNet模型網(wǎng)絡(luò)的分類效果與經(jīng)典殘差網(wǎng)絡(luò)模型進(jìn)行對比。

        圖6是文獻(xiàn)[10]與本文設(shè)計的網(wǎng)絡(luò)性能對比圖。圖中ResNet網(wǎng)絡(luò)表示文獻(xiàn)[10]中的網(wǎng)絡(luò),Mu-ResNet表示本文設(shè)計的網(wǎng)絡(luò)。隨著網(wǎng)絡(luò)深度的增加,訓(xùn)練誤差均不斷減小,網(wǎng)絡(luò)性能變的更優(yōu)。Mu-ResNet在22層時誤差高于ResNet,到37層時誤差低于ResNet,當(dāng)繼續(xù)加深網(wǎng)絡(luò)至57層式,誤差下降近一個百分點。實驗結(jié)果表明,殘差網(wǎng)絡(luò)的收斂速度在迭代2 k以前較快,隨后減慢,在迭代3 k左右準(zhǔn)確率快速下降,當(dāng)?shù)?2 k時則開始收斂。

        圖6 殘差網(wǎng)絡(luò)性能對比圖

        圖7為本文搭建的3種不同深度的殘差網(wǎng)絡(luò)訓(xùn)練cifar10的準(zhǔn)確率,由圖可知深層次的Mu-ResNet-57準(zhǔn)確率比Mu-ResNet-22高出了3個百分點。本文設(shè)計的網(wǎng)絡(luò)模型減少了內(nèi)存、時間復(fù)雜度和模型大小,使得同樣深度的網(wǎng)絡(luò)具有更好的性能,且網(wǎng)絡(luò)性能在更深層的優(yōu)化越明顯。

        圖7 Mu-ResNet準(zhǔn)確率曲線

        通過cifar10實驗結(jié)果表明,本文提出的Mu-ResNet在目標(biāo)分類上具有較好的效果。相比于經(jīng)典殘差網(wǎng)絡(luò)不僅減少了內(nèi)存、時間復(fù)雜度,在準(zhǔn)確率上也有了一定的提升。從22、37、57層的Mu-ResNet準(zhǔn)確率在不斷提升(圖6),且在訓(xùn)練的過程中未觀察到退化現(xiàn)象,因此可從增加深度上顯著提高準(zhǔn)確度。所有評估指標(biāo)都體現(xiàn)了深度的好處。更深層的網(wǎng)絡(luò)能夠更好地提升Mu-ResNet的性能。

        3.2 無人機目標(biāo)識別

        UAV執(zhí)行目標(biāo)識別任務(wù)主要包含飛機、行人、小汽車、大型公交車、船以及飛行的鳥等10類常見目標(biāo)。數(shù)據(jù)源主要來源于ImageNet,各大開源數(shù)據(jù)庫以及通過UAV航拍的圖像共100 000張。其中將70 000張圖像作為訓(xùn)練集,30 000張作為測試集。

        為了研究不同性能參數(shù)的特征提取網(wǎng)絡(luò)對識別效果的影響,共搭建了3種不同深度的網(wǎng)絡(luò)進(jìn)行性能測試。22、37、57層的ResNet分別為Mu-ResNet-22,Mu-ResNet-37以及Mu-ResNet-57。

        為了進(jìn)行橫向?qū)Ρ?,將以上網(wǎng)絡(luò)與VGG16,ZF和經(jīng)典殘差網(wǎng)絡(luò)結(jié)合經(jīng)典區(qū)域搜索網(wǎng)絡(luò)進(jìn)行性能比較。通過在UAV目標(biāo)數(shù)據(jù)集上進(jìn)行訓(xùn)練,測試得到各網(wǎng)絡(luò)模型在測試集上的識別準(zhǔn)確率以及檢測每張圖片的時間,結(jié)果見表1。

        表1 不同網(wǎng)絡(luò)實驗結(jié)果對比

        在表1中,Mu-ResNet-57的識別準(zhǔn)確率略高于ResNet-57,但檢測時間更少;Mu-ResNet-22和Mu-ResNet-37的整體性能也優(yōu)于VGG16和ZF網(wǎng)絡(luò)。采用本文提出的5層殘差學(xué)習(xí)模塊搭建網(wǎng)絡(luò)模型能夠更有效地提高算法的性能,在計算時間和識別精度上都有所提升。

        將ZF,VGG16,ResNet-57和Mu-ResNet-57結(jié)合CRPN,得到在UAV目標(biāo)數(shù)據(jù)集上的召回率曲線如圖8所示。

        圖8 不同網(wǎng)絡(luò)模型的召回率曲線

        圖8顯示,當(dāng)目標(biāo)候選區(qū)域更少時,IOU更大,ResNet-57和Mu-ResNet-57的召回率較慢,當(dāng)IOU在0.70~0.75區(qū)間內(nèi)Mu-ResNet-57效果最好。在IOU過小(<0.60)時,提取候選區(qū)域過多,嚴(yán)重影響網(wǎng)絡(luò)的速度,在IOU過大(>0.80)時,提取候選區(qū)域過少,導(dǎo)致召回率較低。

        表2為在十萬張圖像的UAV數(shù)據(jù)集上,VGG16,ResNet-57和Mu-ResNet-57與經(jīng)典區(qū)域搜索網(wǎng)絡(luò)和級聯(lián)區(qū)域搜素網(wǎng)絡(luò)相結(jié)合,對每一類目標(biāo)的檢測準(zhǔn)確率。RPN的proposal參數(shù)采用文獻(xiàn)[15]中效果最好的2 000。本文提出的CRPN中proposal參數(shù)取1 000。由表2可知,Mu-ResNet對airplane,human,automobile,truck的分類效果要優(yōu)于VGG16和ResNet,對ship,bird,horse的分類效果要差于ResNet。而采用CRPN的性能整體要優(yōu)于RPN。

        通過以上實驗,綜合考慮檢測每幅圖像的時間以及檢測的準(zhǔn)確率,采用5層殘差學(xué)習(xí)模塊搭建的57層Mu-ResNet結(jié)合CRPN在數(shù)據(jù)集上能達(dá)到90.40%的識別率且檢測每張圖像只需要0.093 s,故該網(wǎng)絡(luò)模型較適合用于UAV目標(biāo)識別。

        表2 不同網(wǎng)絡(luò)模型對數(shù)據(jù)集各類別檢測準(zhǔn)確率(%)

        3.3 PASCAL VOC

        PASCAL VOC 2007數(shù)據(jù)集作為經(jīng)典的開源數(shù)據(jù)集,包含5 k訓(xùn)練集樣本圖像和5 k測試機樣本圖像,共有21個不同對象類別。PASCAL VOC 2012數(shù)據(jù)集包含16 k訓(xùn)練樣本和10 k測試樣本。本文使用VOC 2007的5 k和VOC 2012的16 k作為網(wǎng)絡(luò)的訓(xùn)練集,使用VOC 2007的5 k和VOC 2012的10 k作為網(wǎng)絡(luò)的測試集。采用ZF,VGG16,文獻(xiàn)[10]中提出的ResNet和本文中搭建的Mu-ResNet-57模型分別與文獻(xiàn)[15]中的RPN和本文提出的CRPN結(jié)合,來評估網(wǎng)絡(luò)的平均檢測精度,在VOC 2007+2012數(shù)據(jù)集上檢測結(jié)果見表3。

        將Mu-ResNet-57與CRPN結(jié)合在VOC2007+2012數(shù)據(jù)集上測試,準(zhǔn)確率達(dá)到76.20%。采用較深層網(wǎng)絡(luò)ResNet-57和Mu-ResNet-57模型提取特征時,CRPN效果較RPN有所提升。而采用淺層網(wǎng)絡(luò)ZF和VGG16模型時,CRPN與RPN對結(jié)果影響基本無區(qū)別。

        表3 不同網(wǎng)絡(luò)測試的平均檢測精度

        圖9是以New-ResNet-57結(jié)合CRPN進(jìn)行測試的結(jié)果圖。對于飛機、汽車、行人、鳥類等目標(biāo)的識別具有良好的效果,該網(wǎng)絡(luò)模型對大小不同的物體識別效果均較好,具有良好的適應(yīng)性。

        圖9 目標(biāo)識別效果圖

        4 結(jié)束語

        針對UAV目標(biāo)識別的實時性與準(zhǔn)確性要求,以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),搭建了多種框架的ResNet模型進(jìn)行訓(xùn)練,并且通過比較各網(wǎng)絡(luò)的性能優(yōu)劣,最終找到最適用于UAV目標(biāo)識別的網(wǎng)絡(luò)?;赗esNet的目標(biāo)識別算法,相較于傳統(tǒng)的目標(biāo)識別算法可以避免人為提取目標(biāo)特征而帶來的誤差,在識別精度上有了巨大的提升。對于復(fù)雜背景下的目標(biāo),ResNet的捷徑反饋機制能夠有效地降低網(wǎng)絡(luò)訓(xùn)練的難度,使得更深層次的網(wǎng)絡(luò)依然能夠有效地訓(xùn)練使用。使用ResNet的目標(biāo)檢測應(yīng)用于UAV目標(biāo)識別中,通過準(zhǔn)確率與檢測時間的綜合性能考慮要更優(yōu)于傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò)。

        然而本文所研究的目標(biāo)數(shù)據(jù)集依然較少,在以后的研究中需要獲取更大、更多的UAV目標(biāo)數(shù)據(jù)集,并且搭建更深層次、性能更優(yōu)的網(wǎng)絡(luò)以及更高效的特征提取來提高目標(biāo)檢測的準(zhǔn)確率與檢測時間。

        [1] 李偉, 張旭東. 基于卷積神經(jīng)網(wǎng)絡(luò)的深度圖像超分辨率重建方法[J]. 電子測量與儀器學(xué)報, 2017, 31(12): 1918-1928.

        [2] 蔣帥. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別[D]. 長春: 吉林大學(xué), 2017.

        [3] CHANG L, DUARTE M M, SUCAR L E, et al. A Bayesian approach for object classification based on clusters of SIFT local features [J]. Expert Systems with Applications, 2012, 39(2): 1679-1686.

        [4] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks [C]//Advances in Neural Information Processing Systems. Nevada: MIT Press, 2012: 1097-1105.

        [5] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural Computation, 1989, 1(4): 541-551.

        [6] SERMANET P, EIGEN D, ZHANG X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks [EB/OL]. [2018-03-23]. https: //arxiv.org/abs/1312.6229.

        [7] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]//European Conference on Computer Vision. Cham: Springer International Publishing, 2014: 818-833.

        [8] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks [EB/OL]. [2018-03-25]. https: //arxiv.org/abs/1505.00387.

        [9] SAXE A M, MCCLELLAND J L, GANGULI S. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks [EB/OL]. [2018-03-23]. https: //arxiv.org/abs/1312.6120.

        [10] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1026-1034.

        [11] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks [EB/OL]. [2018-04-01]. http://www.doc88.com/p-7738903804120. html.

        [12] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

        [13] 張珂, 高策, 郭麗茹, 等. 非受限條件下多級殘差網(wǎng)絡(luò)人臉圖像年齡估計[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2018, 30(2): 346-353.

        [14] 陸永帥, 李元祥, 劉波, 等. 基于深度殘差網(wǎng)絡(luò)的高光譜遙感數(shù)據(jù)霾監(jiān)測[J]. 光學(xué)學(xué)報, 2017, 37(11): 314-324.

        [15] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.

        Multi-Objective Identification of UAV Based on Deep Residual Network

        ZHAI Jin-you1, DAI Ji-yang1,2, WANG Jia-qi1, YING Jin1

        (1. School of Information Engineering, Nanchang Hangkong University, Nanchang Jiangxi 330063, China; 2. Key Laboratory of Nondestructive Testing, Nanchang Hangkong University, Ministry of Education, Nanchang Jiangxi 330063, China)

        In traditional target recognition algorithms, the classical region proposal net (RPN) has large amount of computation and high complexity of time at extracting the target candidate region. Cascade region proposal network (CRPN) is proposed as a new search method for improving the performance of RPN, in which residual learning based deep residual network (ResNet) is also used effectively to suppress the degradation phenomenon in deep-level convolution neural networks. Aimed at the network models with different depths and parameters, a novel multi-strapdown residual network (Mu-ResNet) model, which is of less memory and lower time complexity, is designed by combining two-layer and three-layer residual learning modules. The combination model of Mu-ResNet and CRPN is used for multi-target recognition test by using the unmanned aerial vehicle (UAV) target data and PASCAL VOC data. The results have shown that nearly 2% of recognition accuracy is increased compared with the combination model of ResNet and RPN.

        unmanned aerial vehicle (UAV); residual network; cascade region proposal network; target recognition

        TP 391.4

        10.11996/JG.j.2095-302X.2019010158

        A

        2095-302X(2019)01-0158-07

        2018-05-23;

        2018-09-03

        國家自然科學(xué)基金項目(61663030,61663032)

        翟進(jìn)有(1994-),男,江西上饒人,碩士研究生。主要研究方向為計算機視覺、無人機感知與規(guī)避及深度學(xué)習(xí)。E-mail:710644534@qq.com

        代冀陽(1966-),男,江西九江人,教授,博士。主要研究方向為先進(jìn)控制理論及應(yīng)用、飛行器控制設(shè)計。E-mail:112357057@qq.com

        猜你喜歡
        深度區(qū)域模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        關(guān)于四色猜想
        分區(qū)域
        √新版天堂资源在线资源| 久久精品伊人久久精品| av二区三区在线观看| 亚洲国产av一区二区三区天堂| 久久亚洲av午夜福利精品一区| 最新国产av无码专区亚洲| 国内精品久久久久国产盗摄| 按摩偷拍一区二区三区| 日本丰满少妇xxxx| 国产成人av性色在线影院色戒 | 天堂av一区一区一区| 91精品人妻一区二区三区久久久 | 人妻精品一区二区三区蜜桃| 亚洲av无码国产综合专区| 欧美俄罗斯乱妇| 亚洲AⅤ乱码一区二区三区| 99久久婷婷国产一区| 亚洲精品久久区二区三区蜜桃臀| 精品三级久久久久久久电影| 亚洲一区二区女优av| 亚洲综合一区二区三区天美传媒| 国内精品卡一卡二卡三| 中文字幕国产91| 国产精品国产三级国产不卡| 国产av无码专区亚洲精品| 国产精品福利视频一区| 亚洲一区不卡在线导航| 久久精品一区二区三区蜜桃| 一区二区三区乱码在线 | 欧洲| 亚洲国产美女精品久久| 亚洲一区二区三区一区| 中文字幕无码中文字幕有码| 嫖妓丰满肥熟妇在线精品| 人妻少妇精品视中文字幕国语| 国产不卡在线观看视频| 欧美寡妇xxxx黑人猛交| 成人xx免费无码| 在线小黄片视频免费播放| 人成午夜免费视频无码| 日韩在线无| 精品国产一区二区三广区|