亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低小慢無人機(jī)降落野外場(chǎng)景識(shí)別方法

        2017-09-22 12:20:13葉利華趙利平
        計(jì)算機(jī)應(yīng)用 2017年7期
        關(guān)鍵詞:特征提取準(zhǔn)確率卷積

        葉利華,王 磊,趙利平,3

        (1.同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804; 2.嘉興學(xué)院 數(shù)理與信息工程學(xué)院,浙江 嘉興 314000;3.同濟(jì)大學(xué) 超大規(guī)模集成電路研究所,上海 200092) (*通信作者電子郵箱9604ylh@#edu.cn)

        低小慢無人機(jī)降落野外場(chǎng)景識(shí)別方法

        葉利華1,2*,王 磊1,趙利平1,3

        (1.同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804; 2.嘉興學(xué)院 數(shù)理與信息工程學(xué)院,浙江 嘉興 314000;3.同濟(jì)大學(xué) 超大規(guī)模集成電路研究所,上海 200092) (*通信作者電子郵箱9604ylh@#edu.cn)

        針對(duì)低小慢無人機(jī)野外飛行場(chǎng)景復(fù)雜自主降落場(chǎng)景識(shí)別問題,提出了一種融合局部金字塔特征和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征的野外場(chǎng)景識(shí)別算法。首先,將場(chǎng)景分為4×4和8×8塊的小場(chǎng)景,使用方向梯度直方圖(HOG)算法提取所有塊的場(chǎng)景特征,所有特征首尾連接得到具有空間金字塔特性的特征向量。其次,設(shè)計(jì)一個(gè)針對(duì)場(chǎng)景分類的深度卷積神經(jīng)網(wǎng)絡(luò),采用調(diào)優(yōu)訓(xùn)練方法得到卷積神經(jīng)網(wǎng)絡(luò)模型,并提取深度網(wǎng)絡(luò)學(xué)習(xí)特征。最后,連接兩個(gè)特征得到最終場(chǎng)景特征,并使用支持向量機(jī)(SVM)分類器進(jìn)行分類。所提算法在Sports-8、Scene-15、Indoor-67以及自建數(shù)據(jù)集上較傳統(tǒng)手工特征方法的識(shí)別準(zhǔn)確率提高了4個(gè)百分點(diǎn)以上。實(shí)驗(yàn)結(jié)果表明,所提算法能有效提升降落場(chǎng)景識(shí)別準(zhǔn)確率。

        卷積神經(jīng)網(wǎng)絡(luò);特征提取;無人機(jī);場(chǎng)景分類;金字塔模型

        0 引言

        當(dāng)前,世界各國在無人機(jī)的民用方面應(yīng)用逐步開放,無人機(jī)在民用方面的應(yīng)用越來越多,已經(jīng)廣泛應(yīng)用于公共安全、應(yīng)急搜救、農(nóng)林、環(huán)保、交通、通信、氣象、影視航拍等多個(gè)應(yīng)用領(lǐng)域[1-2]。隨著新能源技術(shù)的發(fā)展,無人機(jī)超視距的飛行能力也越來越強(qiáng),無人機(jī)自主飛行的需求也在不斷地增加,如無人機(jī)偵察[3]、無人機(jī)物流等。自主飛行要求無人機(jī)具備對(duì)飛行周邊環(huán)境的感知能力,因此研究如何使無人機(jī)具備飛行環(huán)境感知能力也越來越受到國內(nèi)外研究者的廣泛關(guān)注,例如采用超聲波傳感器和立體視覺系統(tǒng)感知飛行場(chǎng)景幫助飛行器避免碰撞等[1]。目前大部分研究主要圍繞無人機(jī)自動(dòng)避障等飛行途中的安全問題,隨著無人機(jī)應(yīng)用的擴(kuò)展,要使無人機(jī)真正具備野外自主飛行能力,安全降落也是一個(gè)非常重要的環(huán)節(jié)。因而研究降落場(chǎng)地識(shí)別問題,使無人機(jī)具備識(shí)別野外降落場(chǎng)景是否適合降落的能力也是自主安全飛行的重要環(huán)節(jié)。野外場(chǎng)景主要包括水域、沼澤、公路、草地、荒漠、樹林、灌木、冰雪地、建筑頂、泥地等。根據(jù)無人機(jī)降落安全問題,本文將這些場(chǎng)景歸結(jié)為水域、路、草地、樹林與灌木、雪地和泥地等六類場(chǎng)景。使無人機(jī)在降落的時(shí)候能夠自動(dòng)識(shí)別當(dāng)前降落場(chǎng)景,為安全自動(dòng)降落提供控制決策基礎(chǔ)。

        降落地場(chǎng)景識(shí)別問題屬于圖像場(chǎng)景語義分類中的一種,當(dāng)前場(chǎng)景語義分類是圖像語義分類中的一個(gè)重要方向,當(dāng)前已經(jīng)有很多關(guān)于場(chǎng)景分類問題的研究。早期的場(chǎng)景分類研究,主要集中在以低層特征并采用手工算法提取包括顏色、紋理、形狀等圖像特征,典型提取算法如尺度不變特征變換(Scale Invariant Feature Transform, SIFT)[4]、梯度方向直方圖(Histogram of Oriented Gradient, HOG)[5]、局部二值模式(Local Binary Pattern, LBP)[6]、通用搜索樹(Generalized Search Tree, GiST)[7]等,然后訓(xùn)練分類器進(jìn)行場(chǎng)景分類。由于缺乏語義層次的描述能力,采用低層特征描述的場(chǎng)景分類方法在應(yīng)用中表現(xiàn)出泛化能力差的特點(diǎn),從文獻(xiàn)[4-7]的測(cè)試結(jié)果中可以看到雖然分類性能遠(yuǎn)未達(dá)到應(yīng)用的要求,但是HOG等算法的低層特征提取能力是非常不錯(cuò)的。文獻(xiàn)[8]提出在低層特征的基礎(chǔ)上建立中層特征,通過借鑒詞包(Bag-Of-Words, BOW)模型的思想,提出構(gòu)建視覺詞包(Bag Of Visual Word, BOVW)模型[9],該模型由特征提取、視覺詞典、特征映射和主題模型四部分構(gòu)成。BOVW相對(duì)于只采用低層特征的模型具有較強(qiáng)的分辨性,而且魯棒性較好,但是BOVW模型沒有考慮到局部特征空間關(guān)系,不具備全局特性,制約其場(chǎng)景特征的描述能力,識(shí)別效果上距離應(yīng)用還有較大距離。文獻(xiàn)[10]借鑒金字塔匹配核的思想,提出空間金字塔匹配(Spatial Pyramid Matching, SPM)模型,大大提高了詞包模型的場(chǎng)景分類識(shí)別能力,能夠適用于簡單場(chǎng)景分類應(yīng)用,但是對(duì)于復(fù)雜場(chǎng)景分類還不具備應(yīng)用可能。文獻(xiàn)[11-12]對(duì)視覺詞包模型進(jìn)行了詳細(xì)描述,典型BOVW處理流程如圖1所示。

        圖1 BOVW處理流程

        近年來,卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用。深度學(xué)習(xí)采用構(gòu)建層次模型,通過監(jiān)督方式自動(dòng)學(xué)習(xí)圖像特征。目前深度學(xué)習(xí)方法也被應(yīng)用于圖像分類研究,與傳統(tǒng)手工特征方法相比取得非常大的突破。其中Lecun網(wǎng)絡(luò)(Lecun Networking, LeNet)、Alex網(wǎng)絡(luò)(Alex Networking, AlexNet)、Google 網(wǎng)絡(luò)(Google Networking, GoogLeNet)、視覺幾何組網(wǎng)絡(luò)(Visual Geometry Group Networking, VGGNet)、殘差網(wǎng)絡(luò)(Residential Networking, ResNet)是目前最知名的圖像分類深度學(xué)習(xí)網(wǎng)絡(luò)模型。文獻(xiàn)[13]針對(duì)場(chǎng)景分類創(chuàng)建深度學(xué)習(xí)模型在測(cè)試庫上Sports-8、Scene-15、Indoor-67上分別獲得93.8%、88.4%、68.9%的識(shí)別準(zhǔn)確率;文獻(xiàn)[14]在Scene-15、Indoor-67上分別獲得90.19%、68.24%的識(shí)別準(zhǔn)確率;文獻(xiàn)[15]在測(cè)試庫Scene-15獲得90.4%的識(shí)別準(zhǔn)確率。文獻(xiàn)[13-15]分別采用不同的深度網(wǎng)絡(luò)模型提取自學(xué)習(xí)特征并在場(chǎng)景分類上與手工特征方法相比在識(shí)別準(zhǔn)確率有顯著提高。深度自學(xué)習(xí)特征通常具有較好的高層特征,然而低層局部特征提取能力相對(duì)較弱[14]。

        針對(duì)深度學(xué)習(xí)模型獲取低層局部特征能力不足的問題,本文提出一種結(jié)合深度自學(xué)習(xí)特征和HOG金字塔低層局部特征相結(jié)合的場(chǎng)景識(shí)別方法。首先提取場(chǎng)景圖像的HOG金字塔特征;然后通過調(diào)優(yōu)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型提取深度自學(xué)習(xí)特征;最后利用支持向量機(jī)(Support Vector Machine, SVM)分類器對(duì)聯(lián)合特征進(jìn)行分類。通過在公開以及自建圖像場(chǎng)景數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,所提出方法的場(chǎng)景識(shí)別準(zhǔn)確率與手工特征如SIFT、HOG等和只使用深度自學(xué)習(xí)特征的方法相比較,識(shí)別效果有顯著提升。

        1 場(chǎng)景識(shí)別系統(tǒng)架構(gòu)

        場(chǎng)景識(shí)別系統(tǒng)的典型框架是特征表述加分類器,該識(shí)別系統(tǒng)采用HOG特征與深度學(xué)習(xí)特征的聯(lián)合特征。其中深度模型通過設(shè)計(jì)深層網(wǎng)絡(luò)模擬人腦進(jìn)行信息判別而自動(dòng)獲取特征,在圖像分類領(lǐng)域的研究中取得優(yōu)異的效果[5]。在該思想的啟發(fā)下,本文提出結(jié)合深度學(xué)習(xí)模型和HOG特征的場(chǎng)景識(shí)別方法,改進(jìn)場(chǎng)景類別識(shí)別效果,系統(tǒng)框架如圖2所示。

        圖2 識(shí)別系統(tǒng)框架

        系統(tǒng)通過無人機(jī)機(jī)載攝像頭采集圖像序列,分別通過HOG算法和深度學(xué)習(xí)模型提取特征并進(jìn)行融合,然后利用分類器判別最終結(jié)果并輸出。系統(tǒng)選取SVM 分類器作為分類算法,其具有較強(qiáng)泛化能力的通用學(xué)習(xí)算法,在圖像識(shí)別領(lǐng)域廣泛應(yīng)用并取得良好的效果,為測(cè)試特征融合效果的有效性提供支持。

        2 HOG金字塔特征

        2.1 金字塔特征描述

        通常情況下,圖像在固定尺度下不容易提取到的特征,但通過變化尺度后容易被提取到,因此利用尺度變化方法可以更好地描述圖像的特征,可以更多地提取到圖像的特征信息。金字塔模型就是一種非常有效的多尺度特征提取方法,通過對(duì)圖像采用不同分塊方法來實(shí)現(xiàn)圖像的多尺度表達(dá),如圖3所示。隨著分塊的增加,所提取局部特征越細(xì)致,但是計(jì)算代價(jià)越高。文中采用兩層金字塔結(jié)構(gòu),每層分別提取4×4和8×8的尺度特征信息。

        圖3 金字塔分塊結(jié)構(gòu)

        2.2 HOG直方圖特征提取

        HOG的核心思想是所檢測(cè)的局部物體外形能夠被光強(qiáng)梯度或邊緣方向的分布所描述,是對(duì)圖像的局部區(qū)域內(nèi)梯度方向信息的統(tǒng)計(jì)。通過將整幅圖像分割成小的連接細(xì)胞單元,每個(gè)細(xì)胞單元生成一個(gè)方向梯度直方圖或者區(qū)域中像素的邊緣方向,這些直方圖的組合可表示出檢測(cè)目標(biāo)描述子。為提高準(zhǔn)確率,局部直方圖可以計(jì)算圖像中一個(gè)較大區(qū)域均值,然后用這個(gè)值歸一化這個(gè)區(qū)域中的所有單元。這個(gè)歸一化過程完成了更好的照射和陰影不變性。HOG特征提取根據(jù)不同目的可以使用矩形窗口與圓形窗口,其中矩形窗口是一些方形的格子,可以提取到全部像素的信息,而圓形窗口存在部分像素不能提取或重復(fù)提取問題,因此本文采用矩形窗口,特征的具體提取過程如下:

        1)圖像進(jìn)行灰度化處理,并用標(biāo)準(zhǔn)化到gamma空間。

        2)分別用水平邊緣算子[-1,0,1]和垂直邊緣算子[-1,0,1]T,求圖像中像素點(diǎn)(x,y)的梯度。

        3)將圖像分割為小細(xì)胞單元格并構(gòu)建每個(gè)單元格梯度方向直方圖。

        4)把單元格組合成大的區(qū)塊,使用式(1)進(jìn)行塊內(nèi)歸一化梯度直方圖:

        (1)

        其中:i= 1,2,…,n,n為直方圖的區(qū)間數(shù);ε為小的正常數(shù)。用式(2)對(duì)得到的直方圖進(jìn)行截?cái)啵?/p>

        (2)

        5)將所有區(qū)塊的HOG描述符從上到下、從左到右組合在一起,形成特征向量。

        6)將所有區(qū)塊的HOG描述符從上到下、從左到右組合在一起,形成特征向量。

        HOG是一種比較特殊的特征,不同的配置模型得到不同的特征向量,配置參數(shù)對(duì)分類結(jié)果有非常大的影響,文中圖像大小歸一化為(128,128)像素,并將圖像分為16和64塊兩個(gè)層次提取特征,每塊得到16維的向量,最終得到的特征維數(shù)為1 280維。

        3 深度卷積神經(jīng)網(wǎng)絡(luò)

        3.1 卷積神經(jīng)網(wǎng)絡(luò)

        目前,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域的應(yīng)用取得非常好的效果,其將權(quán)值共享、空間下采樣和局部連接結(jié)合起來,一方面降低了網(wǎng)絡(luò)的復(fù)雜性,另一方面保持圖像邊緣和空間信息的檢測(cè)能力。典型卷積神經(jīng)網(wǎng)絡(luò)通常由輸入層、卷積層、池化層、全連接層和輸出層組成,卷積和池化層一般交替出現(xiàn)多次。每個(gè)卷積層都有多個(gè)卷積核對(duì)上一層的輸出進(jìn)行卷積運(yùn)算得到對(duì)應(yīng)特征圖。模型中低層的卷積從輸入的圖像數(shù)據(jù)中學(xué)習(xí)到水平或垂直的線、顏色等低層特征信息,高層次的卷積核學(xué)習(xí)獲取物體形狀、空間結(jié)構(gòu)等高級(jí)特征。

        3.2 深度卷積網(wǎng)絡(luò)模型構(gòu)建

        當(dāng)前深度學(xué)習(xí)進(jìn)步很快,應(yīng)用范圍逐步擴(kuò)大,其中針對(duì)圖像分類有Alexnet、GoogLeNet、VGGNet、ResNet等。然而這些深度模型有些對(duì)場(chǎng)景分類效果不好,有些則是網(wǎng)絡(luò)規(guī)模太大不能適用于UAV飛行平臺(tái)的應(yīng)用。構(gòu)建深度卷積網(wǎng)絡(luò)模型,提高分類效果通常做法是增加模型的深度或者寬度(層核或神經(jīng)元數(shù)),但是容易產(chǎn)生如下缺陷:一是參數(shù)太多,若訓(xùn)練數(shù)據(jù)集有限,容易過擬合;二是網(wǎng)絡(luò)模型越大計(jì)算復(fù)雜度越高,難以應(yīng)用;三是網(wǎng)絡(luò)越深,梯度容易消失,難以訓(xùn)練優(yōu)化模型。本文針對(duì)無人機(jī)降落場(chǎng)景分類的復(fù)雜程度參考文獻(xiàn)[16]構(gòu)建如圖4所示的網(wǎng)絡(luò)結(jié)構(gòu)模型。

        圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        圖4中的混合層結(jié)構(gòu)如圖5所示。

        圖5 混合層結(jié)構(gòu)

        3.3 深度卷積網(wǎng)絡(luò)訓(xùn)練

        卷積網(wǎng)絡(luò)的訓(xùn)練過程有兩個(gè)部分,分別是前向傳播和反向傳播。前向傳播包括數(shù)據(jù)輸入層、卷積層、下采樣層等隱含層逐層變換和映射達(dá)到輸出層;反向傳播是利用帶有標(biāo)簽的數(shù)據(jù)監(jiān)督優(yōu)化訓(xùn)練各層網(wǎng)絡(luò)參數(shù)。訓(xùn)練過程在參考文獻(xiàn)[17]研究的基礎(chǔ)上,本文細(xì)化如下:

        1)權(quán)值初始化為一個(gè)較小的隨機(jī)數(shù)。

        2)從訓(xùn)練圖庫中取出樣例X輸入到網(wǎng)絡(luò)并給出它的目標(biāo)輸出向量。

        3)前向傳播計(jì)算到輸出,對(duì)于不同的層采用不同的計(jì)算,包括:卷積層、下采樣層和全連接層。

        4)全部訓(xùn)練集上的誤差損失計(jì)算。

        5)反向傳播計(jì)算各層誤差損失,包括全連接層、卷積層和下采樣層。

        6)根據(jù)各層誤差損失計(jì)算損失函數(shù)對(duì)基的偏導(dǎo)數(shù)和對(duì)權(quán)向量的偏導(dǎo)數(shù),即梯度計(jì)算。

        7)根據(jù)計(jì)算得到的梯度分別更新上述各層的權(quán)值和閾值。

        8)重復(fù)2)~7),直到誤差函數(shù)結(jié)果小于設(shè)定的閾值。

        考慮到測(cè)試數(shù)據(jù)集數(shù)量有限,為增強(qiáng)網(wǎng)絡(luò)的識(shí)別能力,網(wǎng)絡(luò)訓(xùn)練分為兩個(gè)階段,首先使用ImageNet數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練;再使用測(cè)試數(shù)據(jù)集進(jìn)行調(diào)優(yōu)訓(xùn)練得到結(jié)果模型。深度模型訓(xùn)練使用修正線性單元(Rectified Linear unit, ReLu)為激勵(lì)函數(shù),丟棄率(DROPOUT)值為0.4。訓(xùn)練輸入圖片采用224×224隨機(jī)采樣與水平翻轉(zhuǎn),并減去訓(xùn)練集均值。

        3.4 深度學(xué)習(xí)特征提取

        將測(cè)試數(shù)據(jù)輸入訓(xùn)練完成后的網(wǎng)絡(luò)模型提取數(shù)據(jù)的特征,序列化全連接層(圖4中h11層)數(shù)據(jù),輸出2 048維特征向量。歸一化該特征與HOG特征連接得到最終的特征向量。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)中使用NVIDIA-K20 GPU在ImageNet數(shù)據(jù)上集訓(xùn)練初始網(wǎng)絡(luò)模型;其他實(shí)驗(yàn)在大疆妙算計(jì)算單元Jetson TK1嵌入式系統(tǒng)上進(jìn)行,主機(jī)內(nèi)存為 2.0 GB,Tegra K1 SOC集成處理器包括NVIDIA Kepler GPU、192 個(gè) CUDA 核心、CPU為 4 核的ARM Cortex-A15。操作系統(tǒng)是ubuntu14,網(wǎng)絡(luò)模型采用Caffe框架構(gòu)建,并使用OpenCV與libsvm庫進(jìn)行最后分類識(shí)別處理。

        4.2 實(shí)驗(yàn)測(cè)試數(shù)據(jù)

        測(cè)試數(shù)據(jù)集的來源由三部分構(gòu)成,約55%通過使用自有無人機(jī)采集,30%左右分通過從互聯(lián)網(wǎng)上搜集一些無人機(jī)飛行的航拍場(chǎng)景圖片,剩下15%來源于Scene-15和Sports-8測(cè)試圖像數(shù)據(jù)庫。測(cè)試的數(shù)據(jù)包括6類場(chǎng)景,分別是:樹與灌木、水域、道路、泥地(包括沙漠)、草地、雪地(包括冰面)。實(shí)驗(yàn)中將所有圖像尺寸縮放到256×256像素。

        由于當(dāng)前降落場(chǎng)景識(shí)別沒有公開數(shù)據(jù)庫,為檢驗(yàn)識(shí)別方法的有效性,使用三個(gè)公開測(cè)試庫來檢驗(yàn)所提方法的分類識(shí)別準(zhǔn)確率,分別如下:

        1)Scene-15: 數(shù)據(jù)包括4 485張圖片,涵蓋15個(gè)室內(nèi)和室外的場(chǎng)景,每個(gè)類型包含200~400張灰度圖片。根據(jù)標(biāo)準(zhǔn)測(cè)試方法,每類選取100張作為訓(xùn)練,剩下的作為測(cè)試數(shù)據(jù)。

        2)Sports-8: 數(shù)據(jù)庫包括1 579張圖片,涵蓋8個(gè)運(yùn)動(dòng)場(chǎng)景,每個(gè)運(yùn)動(dòng)場(chǎng)景有137~250張圖片。根據(jù)標(biāo)準(zhǔn)測(cè)試方法,每類抽取70張作為訓(xùn)練圖片,并選取60張作為測(cè)試圖片。

        3)Indoor-67: 數(shù)據(jù)庫包括15 620張圖片,包含67個(gè)室內(nèi)場(chǎng)景,使用參考文獻(xiàn)[14]的分類方法,每類場(chǎng)景包含約80張訓(xùn)練圖片和20張測(cè)試圖片。

        4.3 結(jié)果分析

        文中采用準(zhǔn)確率來評(píng)價(jià)場(chǎng)景分類方法的性能,準(zhǔn)確率是各類場(chǎng)景召回率的均值,式(3)和式(4)分別是召回率與準(zhǔn)確率的定義。

        (3)

        (4)

        其中K為場(chǎng)景數(shù)。

        4.3.1 實(shí)驗(yàn)一

        在三個(gè)公開數(shù)據(jù)庫上,分別使用本文方法與手工場(chǎng)景圖像特征提取效果較好的幾種方法,如HOG2×2、SIFT、LBP、深層歧視和共享特征學(xué)習(xí)(Deep Discriminative and Shareable Feature Learning, DDSFL)[18]等,以及當(dāng)前圖像分類效果較好的CaffeNet深度網(wǎng)絡(luò)模型進(jìn)行對(duì)比(CaffeNet來自Caffe框架提供的模型數(shù)據(jù)進(jìn)行調(diào)優(yōu)訓(xùn)練),結(jié)果如表1所示,其中:“直接”表示不使用調(diào)優(yōu)訓(xùn)練,直接使用測(cè)試集數(shù)據(jù)訓(xùn)練。

        通過測(cè)試CaffeNet以及本文改進(jìn)的網(wǎng)絡(luò),從表1可以看出,采用深度卷積神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)手工特征方法的識(shí)別準(zhǔn)確率從整體上體現(xiàn)出極大的優(yōu)越性。表1結(jié)果表明CaffeNet和本文網(wǎng)絡(luò)分別連接HOG金字塔特征后分類準(zhǔn)確率都有明顯提高,尤其在Indoor-67測(cè)試集。這是因?yàn)榻?jīng)過特征融合后,低層特征描述得到改善,進(jìn)而提高了分類準(zhǔn)確率。通過以上實(shí)驗(yàn),從表1中可以看出所提方法在三個(gè)公開數(shù)據(jù)庫上與DDSFL、SIFT等手工特征和CaffeNet模型相比較都表現(xiàn)出更好的分類準(zhǔn)確率。其中CaffeNet模型參數(shù)比本文網(wǎng)絡(luò)更多,但是識(shí)別效果上與本文網(wǎng)絡(luò)相比還有較大差距,說明深度卷積網(wǎng)絡(luò)結(jié)構(gòu)對(duì)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率有較大影響。

        表1 公開數(shù)據(jù)庫測(cè)試準(zhǔn)確率對(duì)比 %

        從表1中實(shí)驗(yàn)結(jié)果對(duì)比可以得出使用調(diào)優(yōu)訓(xùn)練比直接使用數(shù)據(jù)集數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)識(shí)別準(zhǔn)確率有顯著提升,因此訓(xùn)練網(wǎng)絡(luò)時(shí)采用兩個(gè)階段的方法是非常有效的。

        4.3.2 實(shí)驗(yàn)二

        自建數(shù)據(jù)庫測(cè)試,總共有3 668張,每個(gè)類別的張數(shù)在600~650,測(cè)試方法是每類選取450張作為訓(xùn)練,剩下968張作為測(cè)試數(shù)據(jù)。部分圖樣示例如圖6所示。

        在自建圖庫上分別使用LBP、HOG、CaffeNet和本文網(wǎng)絡(luò)并分別結(jié)合HOG特征進(jìn)行分類測(cè)試,最終測(cè)試的分類結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果與前面公開庫測(cè)試的效果基本一致,表明所提采用深度網(wǎng)絡(luò)學(xué)習(xí)特征與HOG金字塔特征相結(jié)合的方法對(duì)各類場(chǎng)景分類都有效果,所提方法適應(yīng)性強(qiáng)。

        表2 自建庫分類結(jié)果準(zhǔn)確率對(duì)比

        圖7、8分別是本文網(wǎng)絡(luò)與本文網(wǎng)絡(luò)+HOG特征分類模型對(duì)6類場(chǎng)景分類所產(chǎn)生的混淆矩陣。

        從圖8混淆矩陣對(duì)比可以看出,結(jié)合HOG金字塔特征后,分類效果還是有明顯的提高。圖9抽取了部分水域分類錯(cuò)誤的場(chǎng)景示例,其中:圖9(a)被歸入為樹叢灌木,圖9(b)圖被識(shí)別為泥地,可以看出圖9(a)和圖9(b)中圖像的特征與被錯(cuò)分場(chǎng)景類別色調(diào)非常接近,說明卷積網(wǎng)絡(luò)低層特征對(duì)色彩較為敏感,但局部細(xì)節(jié)特征的提取不足。對(duì)比圖7~8混淆矩陣結(jié)果可以看出,水域類別的分類結(jié)果有比較明顯的提升,說明加入HOG特征后,一定程度上彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)低層局部細(xì)節(jié)特征提取不足的缺陷。

        圖6 測(cè)試庫部分樣例

        圖7 本文網(wǎng)絡(luò)模型分類混淆矩陣

        圖8 本文網(wǎng)絡(luò)模型+HOG特征分類混淆矩陣

        圖9 混淆識(shí)別部分示例

        4.4 系統(tǒng)運(yùn)行性能

        系統(tǒng)識(shí)別過程中需要進(jìn)行HOG特征提取和深度自學(xué)習(xí)特征提取并分類,其中深度特征提取需要計(jì)算量比較大。系統(tǒng)采用多線程并行處理方法同時(shí)進(jìn)行特征提取和識(shí)別處理,運(yùn)行方式在本文的硬件環(huán)境下有兩種方式可以選擇,一種是全采用中央處理器(Central Processing Unit, CPU)處理每張測(cè)試圖片,耗時(shí)1.54 s;另一種是采用CPU與圖形處理器(Graphic Processing Unit, GPU)聯(lián)合的方式每張耗時(shí)0.07 s。兩種運(yùn)行方法處理時(shí)間的差別主要是在深度自學(xué)習(xí)特征提取上,CPU所花時(shí)間約為GPU的20倍。

        本文場(chǎng)景分類系統(tǒng)采用 CPU提取HOG特征與GPU獲取深度自學(xué)習(xí)特征的并行工作方式,視頻圖像場(chǎng)景識(shí)別實(shí)時(shí)處理速度約14.3 frame/s,處理速度滿足降落場(chǎng)景識(shí)別需求。

        5 結(jié)語

        針對(duì)UAV降落場(chǎng)景識(shí)別問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)與HOG提取聯(lián)合特征的方法,并使用SVM分類器進(jìn)行分類識(shí)別。使用深度卷積神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)手工特征提取方法在降落場(chǎng)景識(shí)別的準(zhǔn)確率上有絕對(duì)優(yōu)勢(shì),但在局部特征提取上存在不足而HOG方法可彌補(bǔ)局部細(xì)節(jié)提取不足的缺陷。深度卷積網(wǎng)絡(luò)模型參數(shù)規(guī)模大,擬合能力強(qiáng),在小樣本訓(xùn)練時(shí)容易造成過擬合問題,通過采用大數(shù)據(jù)集預(yù)訓(xùn)練方法可解決該問題。實(shí)驗(yàn)結(jié)果表明,通過聯(lián)合深度學(xué)習(xí)自學(xué)習(xí)特征和手工提取局部特征的方法能有效提高場(chǎng)景特征的描述能力,提高降落場(chǎng)景的識(shí)別準(zhǔn)確率。本文中方法的識(shí)別準(zhǔn)確率與應(yīng)用要求還有距離,下一步將通過優(yōu)化深度網(wǎng)絡(luò)模型結(jié)構(gòu)和測(cè)試數(shù)據(jù)樣本獲取更好的場(chǎng)景自學(xué)習(xí)特征,并結(jié)合低層局部特征或BOVW模型特征來補(bǔ)充深度自學(xué)習(xí)局部特征的不足,進(jìn)一步提高系統(tǒng)降落場(chǎng)景識(shí)別準(zhǔn)確率。

        References)

        [1] FU Y, ZHANG Y M, YU X. An advanced sense and collision avoidance strategy for unmanned aerial vehicles in landing phase [J].IEEE Aerospace and Electronic Systems Magazine, 2016, 31(9): 40-52.

        [2] 鄭攀.小型無人機(jī)在公共安全領(lǐng)域的應(yīng)用前景展望[J].警察技術(shù),2013(4):53-55.(ZHENG P. Application prospect of small UAV in public security [J]. Police Technology, 2013, 4(1): 53-55.)

        [3] 李世秋.無人自轉(zhuǎn)旋翼機(jī)現(xiàn)狀及在軍事領(lǐng)域的應(yīng)用研究[J].飛航導(dǎo)彈,2014(1):49-53.(LI S Q. The situation of unmanned rotorcraft and its application in military field [J]. Aerodynamic Missile Journal, 2014(1): 49-53.)

        [4] LOWE D G. Distinctive image features from scale-invariant key points [J]. International Journal of Computer Vision,2004, 60(2): 91-110.

        [5] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2005: 886-893.

        [6] OJALA T, PIETIKAINEN M, MAENPA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

        [7] OLIVA A, TORRALBA A. Building the gist of a scene: the role of global image features in recognition [J]. Progress in Brain Research, 2006, 155(2): 23-36.

        [8] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR’06: Proceedings of the 2006 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2006: 2169-2178.

        [9] LI T, MEI T, KWEON I S, et al. Contextual bag-of-words for visual categorization [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(4): 381-392.

        [10] FERNANDO B, FROMONT E, MUSELET D, et al. Supervised learning of Gaussian mixture models for visual vocabulary generation [J]. Pattern Recognition, 2012, 45(2): 897-907.

        [11] 顧廣華,韓晰瑛,陳春霞,等.圖像場(chǎng)景語義分類研究進(jìn)展綜述[J].系統(tǒng)工程與電子技術(shù),2016,38(4):936-948.(GU G H, HAN X Y, CHEN C X, et al. Survey on semantic scene classification research [J]. Systems Engineering and Electronics, 2016, 38(4): 936-948.)

        [12] 趙理君,唐娉,霍連志,等.圖像場(chǎng)景分類中視覺詞包模型方法綜述[J].中國圖象圖形學(xué)報(bào),2014,19(3):333-343.(ZHAO L J, TANG P, HUO L Z, et al. Review of the bag-of-visual-words models in image scene classification [J]. Journal of Image and Graphics, 2014, 19(3): 333-343.)

        [13] KOSKELA M, LAAKSONEN J. Convolutional network features for scene recognition [C]// MM’14: Proceedings of the 2014 ACM International Conference on Multimedia. New York: ACM, 2014: 1169-1172.

        [14] ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database [C]// NIPS’14: Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 487-495.

        [15] AZIZPOUR H, RAZAVIAN A S,SULLIVAN J, et al. From generic to specific deep representation for visual recognition [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2014: 36-45.

        [16] CIRESAN D C, MEIER U, MASCI J, et al. Flexible, high performance convolutional neural networks for image classification [C]// Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2011: 1237-1242.

        [17] 徐珊珊.卷積神經(jīng)網(wǎng)絡(luò)研究與應(yīng)用[D].南京:南京林業(yè)大學(xué),2013:20-22.(XU S S. Research and application of convolution neural network [D]. Nanjing: Nanjing Forestry University, 2013: 20-22.)

        [18] ZUO Z, WANG G, SHUAI B, et al. Exemplar based deep discriminative and shareable feature learning for scene image classification [J]. Pattern Recognition, 2015, 48(10): 3004-3015.

        [19] WU J X, REHG J M. CENTRIST: a visual descriptor for scene categorization [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1489-1501.

        [20] XIAO J X, HAYS J, EHINGER K A, et al. SUN database: large-scale scene recognition from abbey to zoo [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2010: 3485-3492.

        This work is partially supported by the National Natural Science Foundation of China (61601200).

        YELihua, born in 1978, Ph. D. candidate, lecturer. His research interests include computer vision, graph and image processing.

        WANGLei, born in 1961, Ph. D., professor. His research interests include intelligent control, navigation and guidance.

        ZHAOLiping, born in 1984, Ph. D. candidate. Her research interests include video coding algorithm.

        Fieldscenerecognitionmethodforlow-small-slowunmannedaerialvehiclelanding

        YE Lihua1,2*, WANG Lei1, ZHAO Liping1,3

        (1.CollegeofElectronicsandInformationEngineering,TongjiUniversity,Shanghai201804,China;2.CollegeofMathematicsPhysicsandInformationEngineering,JiaxingUniversity,JiaxingZhejiang314000,China;3.InstituteofVeryLargeScaleIntegration,TongjiUniversity,Shanghai200092,China)

        For the complex and autonomous landing scene is difficult to be recognized in wild flight environment for low-small-slow Unmanned Aerial Vehicles (UAV), a novel field scene recognition algorithm based on the combination of local pyramid feature and Convolutional Neural Network (CNN) learning feature was proposed. Firstly, the scene was divided into small scenes of 4×4 and 8×8 blocks. The Histogram of Oriented Gradient (HOG) algorithm was used to extract the scene features of all the blocks. All the features were connected end to end to get the feature vector with the characteristics of spatial pyramid. Secondly, a depth CNN aiming at the classification of scenes was designed. The method of tuning training was adopted to obtain CNN model and extract the characteristics of deep network learning. Finally, the two features were connected to get the final scene feature and the Support Vector Machine (SVM) classifier was used for classification. Compared with other traditional manual feature methods, the proposed algorithm can improve the recognition accuracy by more than 4 percentage points in data sets such as Sports-8, Scene-15, Indoor-67 and a self-built one. The experimental results show that the proposed algorithm can effectively improve the recognition accuracy of the landing scene.

        Convolutional Neural Network (CNN); feature extraction; Unmanned Aerial Vehicle (UAV); scene classification; pyramid model

        TP391.413; TP18

        :A

        2016- 12- 09;

        :2017- 02- 27。

        國家自然科學(xué)基金資助項(xiàng)目(61601200)。

        葉利華(1978—),男,浙江衢州人,講師,博士研究生,主要研究方向:計(jì)算機(jī)視覺、圖形圖像處理; 王磊(1961—),男,陜西西安人,教授,博士,主要研究方向:智能控制、導(dǎo)航與制導(dǎo); 趙利平(1984—),女,湖南衡陽人,博士研究生,CCF會(huì)員,主要研究方向:視頻編碼算法。

        1001- 9081(2017)07- 2008- 06

        10.11772/j.issn.1001- 9081.2017.07.2008

        猜你喜歡
        特征提取準(zhǔn)確率卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        亚洲av香蕉一区二区三区av| 一区二区免费电影| 日韩精品一区二区三区在线观看的| 日本一区二区三区四区在线视频| 亚洲无码在线播放| 午夜亚洲av永久无码精品| 日韩最新在线不卡av| 国产精品自拍视频免费看| 老鲁夜夜老鲁| 99精品国产99久久久久久97| 精品少妇爆乳无码aⅴ区| 国产三级c片在线观看| 人妻中文字幕在线网站| 色婷婷久久一区二区三区麻豆| 国产精品一区二区三区精品| 99久久精品人妻一区| 无码aⅴ精品一区二区三区浪潮| 亚洲成a人片在线观看天堂无码 | 妺妺窝人体色www聚色窝| 国产精品二区在线观看| 日韩精品一区二区三区四区五区六 | 久久精品这里只有精品| 亚洲一区有码在线观看| 精品亚洲成av人在线观看| 国产呦系列呦交| 国产在线h视频| 国产一区二区精品人妖系列在线| 日韩精品一区二区三区中文| 国产一国产一级新婚之夜| 在线播放偷拍一区二区| 强奸乱伦影音先锋| 欧美成人精品一区二区综合| 日韩人妻无码精品系列专区无遮| 国产精品人妻熟女男人的天堂| 曰欧一片内射vα在线影院| 亚洲男女免费视频| 色小姐在线视频中文字幕| 粗大的内捧猛烈进出看视频| 人妻丰满熟妇AV无码区HD| 亚洲精品熟女乱色一区| 国产亚洲精品美女久久久久|