亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的航空器檢測(cè)與識(shí)別

        2017-09-03 10:23:54俞汝劼熊惠霖
        計(jì)算機(jī)應(yīng)用 2017年6期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)分類

        俞汝劼,楊 貞,熊惠霖,2

        (1.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海200240; 2.上海交通大學(xué) 計(jì)算機(jī)模式識(shí)別實(shí)驗(yàn)室,上海 200240)

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的航空器檢測(cè)與識(shí)別

        俞汝劼1*,楊 貞1,熊惠霖1,2

        (1.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海200240; 2.上海交通大學(xué) 計(jì)算機(jī)模式識(shí)別實(shí)驗(yàn)室,上海 200240)

        (*通信作者電子郵箱5100309349@sjtu.edu.cn)

        針對(duì)軍用機(jī)場(chǎng)大尺寸衛(wèi)星圖像中航空器檢測(cè)識(shí)別的具體應(yīng)用場(chǎng)景,建立了一套實(shí)時(shí)目標(biāo)檢測(cè)識(shí)別框架,將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到大尺寸圖像中的航空器目標(biāo)檢測(cè)與識(shí)別任務(wù)中。首先,將目標(biāo)檢測(cè)的任務(wù)看成空間上獨(dú)立的bounding-box的回歸問題,用一個(gè)24層卷積神經(jīng)網(wǎng)絡(luò)模型來完成bounding-box的預(yù)測(cè);然后,利用圖像分類網(wǎng)絡(luò)來完成目標(biāo)切片的分類任務(wù)。大尺寸圖像上的傳統(tǒng)目標(biāo)檢測(cè)識(shí)別算法通常在時(shí)間效率上很難突破,而基于卷積神經(jīng)網(wǎng)絡(luò)的航空器目標(biāo)檢測(cè)識(shí)別算法充分利用了計(jì)算硬件的優(yōu)勢(shì),大大縮短了任務(wù)耗時(shí)。在符合應(yīng)用場(chǎng)景的自采數(shù)據(jù)集上進(jìn)行測(cè)試,所提算法目標(biāo)檢測(cè)實(shí)時(shí)性達(dá)到平均每張5.765 s,在召回率65.1%的工作點(diǎn)上達(dá)到了79.2%的精確率,分類網(wǎng)絡(luò)的實(shí)時(shí)性達(dá)到平均每張0.972 s,Top-1錯(cuò)誤率為13%。所提框架在軍用機(jī)場(chǎng)大尺寸衛(wèi)星圖像中航空器檢測(cè)識(shí)別的具體應(yīng)用問題上提出了新的解決思路,同時(shí)保證了實(shí)時(shí)性和算法精度。

        深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);航空器檢測(cè);目標(biāo)檢測(cè)識(shí)別

        0 引言

        目標(biāo)檢測(cè)識(shí)別是利用計(jì)算機(jī)技術(shù)對(duì)圖像進(jìn)行解譯,并檢測(cè)識(shí)別出不同種類的目標(biāo)和對(duì)象,是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)主要研究方向,在以圖像為主體的智能化數(shù)據(jù)采集與處理中具有十分重要的作用和影響。它能夠有效地處理特定目標(biāo)物體的檢測(cè)和識(shí)別、圖像的分類標(biāo)注以及主觀圖像質(zhì)量評(píng)估等問題。目前圖像檢測(cè)識(shí)別技術(shù)在圖像搜索、商品推薦、用戶行為分析以及人臉識(shí)別等互聯(lián)網(wǎng)應(yīng)用產(chǎn)品中具有巨大的商業(yè)市場(chǎng)和良好的應(yīng)用前景,同時(shí)在智能機(jī)器人、自動(dòng)駕駛和無人機(jī)等高新科技產(chǎn)業(yè)以及生物學(xué)、醫(yī)學(xué)和地質(zhì)學(xué)等眾多學(xué)科領(lǐng)域具有廣闊的應(yīng)用前景[1]。而特定目標(biāo)的檢測(cè)這種對(duì)于人來說是再簡(jiǎn)單不過的任務(wù),計(jì)算機(jī)卻很難直接得到圖像中的高層語義概念,也不清楚目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域。圖像中的目標(biāo)可能出現(xiàn)在任何位置,目標(biāo)的形態(tài)可能存在各種各樣的變化,背景千差萬別,再加上遮擋問題、光照變化等眾多難點(diǎn)的存在,導(dǎo)致特定目標(biāo)檢測(cè)并不是一個(gè)容易解決的任務(wù),一直以來都是模式識(shí)別與計(jì)算機(jī)視覺研究領(lǐng)域中極為活躍的問題。

        在傳統(tǒng)模式識(shí)別方法的系統(tǒng)框架中,通常需要相當(dāng)專業(yè)的知識(shí)來設(shè)計(jì)一個(gè)特征提取模塊,把原始數(shù)據(jù)轉(zhuǎn)換成一個(gè)適當(dāng)?shù)奶卣鞅硎净蛱卣飨蛄?,之后則是利用合適的分類器,對(duì)輸入的樣本進(jìn)行檢測(cè)或分類。因此傳統(tǒng)的模式識(shí)別方法會(huì)在特征選擇和分類器選擇上耗費(fèi)研究人員絕大部分的精力。縱觀近十年關(guān)于目標(biāo)檢測(cè)問題的研究,經(jīng)典算法DPM(Deformable Parts Model)在方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征[2]的設(shè)計(jì)思路上進(jìn)行改進(jìn),連續(xù)獲得了三年P(guān)ASCAL-VOC(Pattern Analysis, Statistical modelling and ComputAtional Learning Visual Object Classes)比賽的目標(biāo)檢測(cè)冠軍[3];2009年Gall等[4]提出了一種霍夫森林(Hough Forest)算法,在隱式形狀模型(Implicit Shape Model, ISM)[5]的基礎(chǔ)上作了改進(jìn),訓(xùn)練特定類目標(biāo)的Hough Forest投票模型并根據(jù)各個(gè)部分對(duì)目標(biāo)中心的投票結(jié)果,完成目標(biāo)檢測(cè)任務(wù)。傳統(tǒng)的模式識(shí)別方法實(shí)現(xiàn)的目標(biāo)檢測(cè)算法通常需要的訓(xùn)練數(shù)據(jù)規(guī)模不大,時(shí)間成本較低,然而普遍具有對(duì)噪聲敏感、實(shí)時(shí)性低、模型泛化能力差等缺點(diǎn)。

        深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,屬于特征學(xué)習(xí)方法,計(jì)算機(jī)能夠自發(fā)地把原始數(shù)據(jù)通過一些簡(jiǎn)單的非線性映射關(guān)系組合轉(zhuǎn)變成為更高層次、更加抽象的表達(dá)。并且通過足夠多的轉(zhuǎn)換組合,能學(xué)習(xí)到極為復(fù)雜的模型。與此同時(shí),更深層的表達(dá)能夠強(qiáng)化輸入數(shù)據(jù)的判別性,并削弱不相關(guān)因素的影響[6]。2006年, Hinton等[7]第一次提出了深度學(xué)習(xí)的思想,主要提出了兩個(gè)觀點(diǎn):1)多隱層的神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征學(xué)習(xí)能力,通過訓(xùn)練模型所提取的特征對(duì)原始輸入數(shù)據(jù)生成更抽象、更體現(xiàn)本質(zhì)的表述,從而有利于解決特征可視化或分類問題;2)通過無監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)一種稱作“逐層初始化”的方法,針對(duì)梯度在傳播過程中消失的問題,有效地降低深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。隨后,深度學(xué)習(xí)的研究在學(xué)術(shù)界和工業(yè)界持續(xù)升溫,并且在語音識(shí)別、圖像識(shí)別和自然語言處理等領(lǐng)域獲得了突破性的進(jìn)展。僅僅一年之后,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的深度學(xué)習(xí)模型在大規(guī)模圖像分類任務(wù)上大幅提高了分類精度,掀起了深度學(xué)習(xí)研究的熱潮[1]。同時(shí),基于卷積神經(jīng)網(wǎng)絡(luò)解決目標(biāo)檢測(cè)識(shí)別問題的研究熱度也呈現(xiàn)出爆發(fā)態(tài)勢(shì)的增長(zhǎng)。在目標(biāo)檢測(cè)領(lǐng)域,Ross Girshick于2014年發(fā)表的R-CNN算法[8],開創(chuàng)性地結(jié)合了Region-Proposal和CNN,將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)化為圖像分類任務(wù),在PASCAL VOC 2007數(shù)據(jù)集上的mAP(mean Average Precision)達(dá)到了58%。之后在此基礎(chǔ)上,改進(jìn)版R-CNN——Fast R-CNN[9]和Faster-RCNN[10]被陸續(xù)提出,為該領(lǐng)域的發(fā)展作出了巨大貢獻(xiàn)。深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的目標(biāo)檢測(cè)算法充分利用了圖形處理器(Graphics Processing Unit, GPU)等現(xiàn)代硬件優(yōu)勢(shì),實(shí)時(shí)性相對(duì)更高,同時(shí)得益于百萬甚至千萬級(jí)別的訓(xùn)練樣本規(guī)模,模型的泛化能力和魯棒性也得到了顯著增強(qiáng)。

        1 相關(guān)工作

        1.1 Hough Forest目標(biāo)檢測(cè)

        通過訓(xùn)練特定目標(biāo)類別的Hough Forest,由各個(gè)尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform, SIFT)特征patch對(duì)物體的中心位置投票,選取局部極值作為物體的中心。Hough Forest具有如下特點(diǎn):1)葉子節(jié)點(diǎn)保存具有判別性的碼本,包含一個(gè)patch是來自物體還是來自背景,物體中心距離當(dāng)前patch中心的位置的信息;2)建立Hough Forest可以優(yōu)化投票性能,葉子節(jié)點(diǎn)投票時(shí)的不確定度將降低。

        Hough Forest實(shí)現(xiàn)目標(biāo)檢測(cè)算法流程如下:

        1) 訓(xùn)練部分。利用有監(jiān)督的方式訓(xùn)練Hough Forest:訓(xùn)練數(shù)據(jù)特征提取;葉子節(jié)點(diǎn)存儲(chǔ)總的類別構(gòu)成和偏移量以形成碼本;每個(gè)節(jié)點(diǎn)得到很多patch,如果達(dá)到成為葉子節(jié)點(diǎn)的標(biāo)準(zhǔn),該節(jié)點(diǎn)作為葉子節(jié)點(diǎn);否則進(jìn)行二值測(cè)試,將節(jié)點(diǎn)上的patch拆分給子節(jié)點(diǎn)。

        二值測(cè)試的過程:給定一些patch,其集合設(shè)為A,且A={pi=(Ii,ci,di)},其中,Ii表示第i個(gè)patch,ci為其類標(biāo),di為離中心的偏移量;均勻采樣得到一系列測(cè)試像素,然后隨機(jī)選擇最小化類別不確定性或者偏移量不確定性。類別不確定性表達(dá)式為:

        U1(A)=|A|·Entropy({ci})

        (1)

        式中:Entropy({ci})定義為E({ci})=-c·logc-(1-c)·log(1-c),式(1)用來衡量類別不純度。

        偏移量不純度表達(dá)式為:

        (2)

        均勻抽樣后產(chǎn)生一系列測(cè)試像素{tk},對(duì)其不確定性求和:

        (3)

        其中隨機(jī)選取可以保證葉子節(jié)點(diǎn)的類別不確定性和偏移量不確定性都比較低[11]。

        2) 檢測(cè)部分。將測(cè)試圖像按尺度縮放,建立圖像金字塔,目的是提取不同尺度下的特征。

        3) 將每一個(gè)特征patch輸入HoughForest各個(gè)尺度內(nèi)進(jìn)行投票。在Hough空間內(nèi)搜索局部極值作為目標(biāo)中心候選點(diǎn)。最后用非極大值抑制去除冗余目標(biāo)中心,輸出目標(biāo)。

        本文選擇尺度不變性特征(SIFT)[12]實(shí)現(xiàn)針對(duì)航空器目標(biāo)的HoughForest算法來作對(duì)比實(shí)驗(yàn)。該算法相對(duì)其他的傳統(tǒng)目標(biāo)檢測(cè)算法有一定速度上的優(yōu)勢(shì),但仍然有很多明顯的缺陷,比如對(duì)于大尺寸檢測(cè)圖像來說,建立多層圖像金字塔的空間和時(shí)間成本并不低;投票僅能實(shí)現(xiàn)對(duì)目標(biāo)中心的預(yù)測(cè),預(yù)設(shè)了同尺度下bounding-box的大小不變的前提。

        1.2YOLO實(shí)時(shí)目標(biāo)檢測(cè)

        YOLO算法將目標(biāo)檢測(cè)和識(shí)別作為回歸問題來解決,提出了一種端到端的算法同時(shí)完成這兩個(gè)任務(wù)[13]。

        YOLO目標(biāo)檢測(cè)算法流程如下:

        1) 給定輸入圖像,將圖像劃分成7×7網(wǎng)格。

        2) 對(duì)于每個(gè)網(wǎng)格,通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)2個(gè)bounding-box。

        3) 調(diào)整閾值去除置信度過低的目標(biāo),用非極大值抑制去除冗余bounding-box。

        YOLO算法將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)換成一個(gè)回歸問題,大幅提高了檢測(cè)的速度,達(dá)到了45frame/s。在網(wǎng)絡(luò)結(jié)構(gòu)上,YOLO采用了24層卷積層加2層全連接層的結(jié)構(gòu),因此最終的分類器能夠很好地整合圖像的全局信息,在充分的上下文關(guān)系幫助下,使得虛警出現(xiàn)的比例大幅降低。然而YOLO也存在一個(gè)關(guān)鍵問題:使用了7×7的網(wǎng)格回歸,導(dǎo)致目標(biāo)定位誤差大,檢測(cè)精度受到限制,同時(shí)也無法檢測(cè)到過小的目標(biāo)。

        1.3AlexNet圖像分類網(wǎng)絡(luò)

        AlexNet獲得了ILSVRC2012圖像分類第一名,是近幾年卷積神經(jīng)網(wǎng)絡(luò)在圖像方面應(yīng)用的里程碑式模型[14]。AlexNet采用了5層卷積層加3層全連接層的結(jié)構(gòu),相對(duì)卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型LeNet來說復(fù)雜了許多。AlexNet的網(wǎng)絡(luò)架構(gòu)如圖1所示。AlexNet在細(xì)節(jié)處理方面結(jié)合了文獻(xiàn)[14]的改進(jìn)方法,使用了ReLU作為激活函數(shù),并使用了Dropout的方式防止過擬合現(xiàn)象。AlexNet中一層完整的卷積層包括了卷積、ReLU、Max-pooling以及Normalization四個(gè)部分。最后對(duì)訓(xùn)練數(shù)據(jù)作了增量處理,再次降低了過擬合的風(fēng)險(xiǎn)。

        圖1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)

        2 基于CNN的目標(biāo)檢測(cè)識(shí)別框架

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是可以用作處理多維數(shù)組類型的數(shù)據(jù)的算法,三通道的RGB圖像就是一個(gè)典型的例子,它的四個(gè)關(guān)鍵部分分別是:局部連接、權(quán)值共享、池化以及多層卷積。

        一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由這樣一系列步驟組成:第一個(gè)階段包含卷積層和池化層,卷積層單元(卷積核)位于特征圖(FeatureMap)中,每一個(gè)卷積核通過一組權(quán)值和上一層的特征圖的某個(gè)局部塊作卷積,即局部連接;然后將這個(gè)加權(quán)和傳遞給一個(gè)非線性激活函數(shù),例如Sigmoid函數(shù)或者ReLU。同一個(gè)特征圖中所有單元共享權(quán)值,不同層的特征圖則使用不同的權(quán)值,即權(quán)值共享。顯而易見,權(quán)值共享大大減少權(quán)重參數(shù)的數(shù)量。使用局部連接和權(quán)值共享能夠起作用主要是因?yàn)椋和ǔR粋€(gè)特征點(diǎn)附近的值是高度相關(guān)的,可以形成比較容易被探測(cè)到的有區(qū)分性的局部特征;其次,不同位置局部統(tǒng)計(jì)特征不太相關(guān),也就是說在一個(gè)地方出現(xiàn)的某個(gè)特征可能會(huì)出現(xiàn)在別的地方,所以不同位置的單元可以共享權(quán)值。卷積層的作用是感知上一層特征的局部連接,然而池化層的作用則是在語義上把相似的特征合并起來,因?yàn)樾纬赏粋€(gè)主題的特征的相對(duì)位置通常會(huì)不太一樣。池化單元一般會(huì)計(jì)算特征圖中某一個(gè)局部塊的最大值,相鄰的池化單元通過移動(dòng)一行或者一列來從塊上讀取數(shù)據(jù)。多個(gè)卷積層、非線性變換以及池化層串聯(lián)起來,最后再加上全連接層,就構(gòu)成了一組卷積神經(jīng)網(wǎng)絡(luò)的主體。在實(shí)際應(yīng)用中,往往使用多層卷積的方式,因?yàn)閷訑?shù)越多,越能學(xué)習(xí)到更高語義的特征。

        神經(jīng)網(wǎng)絡(luò)所利用的很多自然信號(hào)是具有明顯層級(jí)特征的屬性,其中高級(jí)的特征是通過對(duì)低級(jí)特征的組合來實(shí)現(xiàn)的。在圖像中,邊緣的組合形成基本圖案,這些圖案形成物體的局部,然后再構(gòu)成物體。這種層級(jí)結(jié)構(gòu)也存在于語音數(shù)據(jù)以及文本數(shù)據(jù)中,如:電話中的聲音和音節(jié)、文檔中的單詞和句子。當(dāng)輸入數(shù)據(jù)在前一層中的位置有變化的時(shí)候,池化操作使得這些特征表示對(duì)這些變化具有魯棒性。卷積神經(jīng)網(wǎng)絡(luò)中的卷積和池化層靈感直接來源于視覺神經(jīng)科學(xué)中的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞[15],它們以LNG-V1-V2-V4-IT層級(jí)結(jié)構(gòu)形成視覺回路[16]。卷積神經(jīng)網(wǎng)絡(luò)與神經(jīng)認(rèn)知的架構(gòu)有點(diǎn)相似[17],不過在神經(jīng)認(rèn)知中并沒有類似反向傳播算法這種端到端的監(jiān)督學(xué)習(xí)算法。

        2.2 航空器檢測(cè)識(shí)別

        本文所設(shè)計(jì)框架的應(yīng)用場(chǎng)景是:針對(duì)對(duì)地衛(wèi)星拍攝的包含軍用機(jī)場(chǎng)的大尺寸光學(xué)圖像,需要分別輸出航空器目標(biāo)的定位框和航空器類型識(shí)別結(jié)果。受限于應(yīng)用場(chǎng)景的規(guī)定,本框架需要分別完成bounding-box檢測(cè)和類型識(shí)別兩個(gè)模塊,并各自配有可視化輸出。由于項(xiàng)目對(duì)目標(biāo)檢測(cè)的要求較高,提高檢測(cè)率的同時(shí)還要保證實(shí)時(shí)性。與此同時(shí),通過觀察數(shù)據(jù)集,發(fā)現(xiàn)各類的訓(xùn)練數(shù)據(jù)不均衡,因此直接采用檢測(cè)-識(shí)別同時(shí)完成的框架,會(huì)導(dǎo)致檢測(cè)率和識(shí)別率大幅降低。綜合考慮各個(gè)因素,本文提出了融合兩個(gè)網(wǎng)絡(luò)來完成航空器目標(biāo)檢測(cè)識(shí)別任務(wù)。

        如圖2所示,本文算法流程大致可分為預(yù)處理輸入圖像、目標(biāo)檢測(cè)、類型識(shí)別、以及輸出綜合結(jié)果四個(gè)階段。

        圖2 本文算法流程

        2.2.1 檢測(cè)網(wǎng)絡(luò)

        檢測(cè)部分,本文在YOLO算法的基礎(chǔ)上作了改進(jìn),YOLO關(guān)鍵問題是采用網(wǎng)格分割圖像導(dǎo)致的檢測(cè)精度下降以及檢測(cè)過小目標(biāo)的問題。

        圖3給出了目標(biāo)檢測(cè)部分的網(wǎng)絡(luò)架構(gòu),由24個(gè)級(jí)聯(lián)的卷積層以及2個(gè)全連接層構(gòu)成。

        針對(duì)實(shí)際應(yīng)用場(chǎng)景,本文主要有兩點(diǎn)改進(jìn):1)簡(jiǎn)化Prediction-Tensor,同時(shí)增加網(wǎng)格數(shù)量,在保證參數(shù)基本不增加的情況下完成更為精確的bounding-box預(yù)測(cè)。2)在預(yù)處理部分對(duì)圖像作參數(shù)自適應(yīng)的帶重疊區(qū)域分割,使分割后的圖像保持與網(wǎng)絡(luò)輸入層的目標(biāo)尺寸接近,這樣做能有效防止在縮放過程中出現(xiàn)過小目標(biāo)因而無法檢測(cè)。同時(shí),帶重疊區(qū)域的分割策略能避免目標(biāo)被錯(cuò)分割,從而影響檢測(cè)結(jié)果。圖4給出了預(yù)處理過程中分割步驟的例圖,本例中對(duì)原圖進(jìn)行了2×5的分割策略。

        圖3 目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)

        圖4 分割預(yù)處理示意圖

        Prediction-Tensor維度的計(jì)算公式為:

        P=S×S×(B×5+C)

        (4)

        其中:S×S為網(wǎng)格數(shù);B為每個(gè)網(wǎng)格所預(yù)測(cè)的bounding-box數(shù);C則是網(wǎng)絡(luò)監(jiān)測(cè)目標(biāo)的類別數(shù)。由于簡(jiǎn)化了檢測(cè)網(wǎng)絡(luò)中的類別數(shù)C=1,降低了該向量Prediction-Tensor的維數(shù),最終其維數(shù)為1 100。

        在激活函數(shù)的選擇上,本文參考了PReLU(Parametric ReLU)[18],使用了如下形式的函數(shù):

        (5)

        其中:yi是非線性函數(shù)f(yi)的輸入;ai協(xié)同作用在函數(shù)非正區(qū)域的效率上,是各個(gè)通道下網(wǎng)絡(luò)在訓(xùn)練過程中學(xué)習(xí)到的參數(shù)。雖然使用ReLU一定程度上增加了參數(shù)的個(gè)數(shù),這與整個(gè)網(wǎng)絡(luò)所需要學(xué)習(xí)的參數(shù)個(gè)數(shù)相比是可以忽略的,因此由ai增加的過擬合風(fēng)險(xiǎn)可以忽略。

        訓(xùn)練過程中對(duì)ai的更新加入了動(dòng)量μ,如式(6):

        Δai:=μΔai+δε/(δai)

        (6)

        損失函數(shù)(lossfunction)的作用是估計(jì)模型的預(yù)測(cè)值與真值的差別,它是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的核心部分,也是結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)重要組成部分,通常被設(shè)計(jì)為一個(gè)非負(fù)實(shí)值函數(shù),損失函數(shù)越小,模型的性能就越好。模型的學(xué)習(xí)過程可以認(rèn)為是一個(gè)最優(yōu)化目標(biāo)損失函數(shù)的過程。在損失函數(shù)的設(shè)計(jì)上,本文采用的是較易優(yōu)化的誤差平方和,來對(duì)模型進(jìn)行訓(xùn)練。簡(jiǎn)單的誤差平方和應(yīng)用在本文的Prediction-Tensor上有較大的缺陷——會(huì)對(duì)存在與不存在目標(biāo)的兩種網(wǎng)格的得分同等對(duì)待,由于實(shí)際應(yīng)用中大部分網(wǎng)格不存在目標(biāo),這就導(dǎo)致了存在目標(biāo)的網(wǎng)格作用被放大,大部分網(wǎng)格的得分趨向于0,訓(xùn)練過程過早發(fā)散,無法收斂。因此在loss函數(shù)中加入了權(quán)重因數(shù)λc和λn來調(diào)整兩類網(wǎng)絡(luò)的誤差平方和,其中λc∶λn=10∶1。

        損失函數(shù)表達(dá)式floss如下:

        2.2.2 分類網(wǎng)絡(luò)

        在目標(biāo)分類任務(wù)中可以使用多種典型圖像分類網(wǎng)絡(luò),包括:AlexNet、CaffeNet、GoogleNet[19]、VGGNet、ResNet等。針對(duì)應(yīng)用場(chǎng)景本文參考了AlexNet和ResNet-50兩種網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)分類任務(wù)。

        為了盡量防止過擬合問題發(fā)生,本文同樣采用了數(shù)據(jù)擴(kuò)充的策略。每一張來自上一級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)輸出的圖像都經(jīng)過了固定倍數(shù)的數(shù)據(jù)擴(kuò)充,同時(shí)這也能改善自采數(shù)據(jù)集數(shù)據(jù)規(guī)模過小帶來的問題。圖5簡(jiǎn)要表述了數(shù)據(jù)擴(kuò)充部分中的3個(gè)處理階段。

        圖5 數(shù)據(jù)擴(kuò)充流程圖

        訓(xùn)練過程中同樣加入了Dropout,目的是在模型訓(xùn)練時(shí)隨機(jī)讓網(wǎng)絡(luò)某些隱含層節(jié)點(diǎn)的權(quán)重不工作。不工作的那些節(jié)點(diǎn)可以暫時(shí)認(rèn)為不是網(wǎng)絡(luò)結(jié)構(gòu)的一部分,但是下次樣本輸入時(shí)它可能會(huì)重新工作,所以它的權(quán)重依然會(huì)被保留下來。這種策略一定程度上減少了每次迭代訓(xùn)練中參數(shù)的個(gè)數(shù),可以有效防止過擬合現(xiàn)象的發(fā)生。

        本文的激活函數(shù)使用PReLU函數(shù),和上一級(jí)網(wǎng)絡(luò)保持一致。在卷積神經(jīng)網(wǎng)絡(luò)中,Pooling層總結(jié)了同一核映射中鄰近神經(jīng)元組的輸出。通過鄰接Pooling單元總結(jié)的鄰近關(guān)系不重疊,也就是說一個(gè)Pooling層可以被認(rèn)為是由間隔S像素的Pooling單元網(wǎng)格組成,每個(gè)網(wǎng)格輸出一個(gè)Z×Z大小的鄰近關(guān)系,均位于Pooling單元的中心位置。本文參考AlexNet的設(shè)計(jì),在Pooling層中設(shè)定了S

        圖6給出了分類網(wǎng)絡(luò)中的第一個(gè)卷積層所提取的圖像特征的可視化結(jié)果,可以看到較淺的卷積層提取的特征信息基本上是邊緣等底特征,具象且容易理解。

        圖6 第一卷積層可視化

        3 實(shí)驗(yàn)結(jié)果與分析

        針對(duì)本文的應(yīng)用場(chǎng)景,測(cè)試該框架所使用的數(shù)據(jù)集為自采數(shù)據(jù)集,經(jīng)過增量處理后,包含19 600張帶標(biāo)注數(shù)據(jù)的統(tǒng)一尺寸機(jī)場(chǎng)圖像,共計(jì)35 110個(gè)標(biāo)注目標(biāo)。10 846張獨(dú)立航空器切片,分類目標(biāo)為運(yùn)輸機(jī)、轟炸機(jī)、戰(zhàn)斗機(jī)、預(yù)警機(jī)、直升機(jī)以及民用客機(jī)。數(shù)據(jù)集中訓(xùn)練和測(cè)試數(shù)據(jù)比例為8.5∶1.5。圖7(a)、(b)顯示了該框架中兩個(gè)模塊的輸出結(jié)果,圖7(c)顯示了檢測(cè)實(shí)驗(yàn)中所采用對(duì)比方法Hough Forest的檢測(cè)效圖。

        圖7 目標(biāo)檢測(cè)和類型識(shí)別輸出結(jié)果

        實(shí)驗(yàn)平臺(tái)硬件及操作系統(tǒng)信息如表1所示。

        表1 實(shí)驗(yàn)平臺(tái)信息

        目標(biāo)檢測(cè)階段在該數(shù)據(jù)集上的對(duì)比測(cè)試結(jié)果如圖8和表2所示。

        考慮到應(yīng)用場(chǎng)景限制,航空器目標(biāo)檢測(cè)部分實(shí)驗(yàn)忽略了Bounding-box的IOU,僅考察了目標(biāo)的召回率(recall)和精確率(precision)。檢測(cè)時(shí)間計(jì)算為檢測(cè)整幅圖像所耗的時(shí)間,對(duì)比算法均使用C++實(shí)現(xiàn),其中R-CNN和本文檢測(cè)算法基于caffe架構(gòu)實(shí)現(xiàn)。

        從圖8以及表2可以看出,由于充分利用了GPU并行計(jì)算的性能優(yōu)勢(shì),本文算法的實(shí)時(shí)性能相對(duì)僅僅基于CPU計(jì)算的傳統(tǒng)目標(biāo)檢測(cè)算法DPM和Hough Forest有很大的提升。同時(shí),區(qū)別于同為卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的R-CNN算法,本文算法直接將網(wǎng)格化后的原圖像進(jìn)行bounding-box的回歸預(yù)測(cè),端到端的算法流程在實(shí)時(shí)性能上也有了顯著提升。

        圖8 目標(biāo)檢測(cè)精確率-召回率曲線

        算法召回率/%精確率/%平均時(shí)間/sDPM64.655.316.649HoughForest68.332.836.373R?CNN66.791.920.491本文算法65.179.25.765

        類型識(shí)別部分實(shí)驗(yàn)中,由于總類數(shù)僅有6類,所以僅考察了兩種網(wǎng)絡(luò)下的Top-1分類錯(cuò)誤率(Top-1分類錯(cuò)誤率指的是模型預(yù)測(cè)出最高置信度的類別不正確的比例),反映了該分類模型的精確率;并且比較了平均每張切片的分類時(shí)間,兩種網(wǎng)絡(luò)均基于caffe架構(gòu)實(shí)現(xiàn)。表3給出了類型識(shí)別階段在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以看出,對(duì)于此類規(guī)模的數(shù)據(jù)集,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類問題上達(dá)到了較高的正確率,其性能相對(duì)于傳統(tǒng)的模式識(shí)別方法有顯著優(yōu)勢(shì);網(wǎng)絡(luò)的深度增加也在一定程度上提升了模型的泛化能力,同時(shí)帶來的還有計(jì)算資源開銷的大幅上升,因此在具體應(yīng)用問題中需要權(quán)衡這兩點(diǎn)來設(shè)計(jì)合適的網(wǎng)絡(luò)模型。

        表3 類型識(shí)別實(shí)驗(yàn)結(jié)果

        4 結(jié)語

        本文提出了一套針對(duì)具體應(yīng)用場(chǎng)景的目標(biāo)檢測(cè)識(shí)別系統(tǒng)框架,滿足了應(yīng)用場(chǎng)景中同時(shí)需要目標(biāo)位置和目標(biāo)內(nèi)容兩組輸出的要求,并應(yīng)用到自采數(shù)據(jù)集上開展了實(shí)驗(yàn)。系統(tǒng)主要由一個(gè)檢測(cè)網(wǎng)絡(luò)和一個(gè)識(shí)別網(wǎng)絡(luò)級(jí)聯(lián)而成,需要根據(jù)要求的精確率和實(shí)時(shí)性來權(quán)衡選擇具體的網(wǎng)絡(luò)模型,比如在識(shí)別網(wǎng)絡(luò)中AlexNet的精度較ResNet低了接近15%,但是在實(shí)時(shí)性上則提高了超過50%。本文的檢測(cè)網(wǎng)絡(luò)與部分檢測(cè)算法進(jìn)行了對(duì)比,精度處在一個(gè)可接受范圍內(nèi),而實(shí)時(shí)性則有大幅度提升。實(shí)驗(yàn)驗(yàn)證,對(duì)于實(shí)時(shí)性要求較高并且樣本是大尺寸圖片的應(yīng)用問題來說,本文提出了一種可行的解決思路。

        由于目前還無法從公開途徑獲取到聚焦于軍用機(jī)場(chǎng)上多類型航空器檢測(cè)任務(wù)的公開數(shù)據(jù)集,本文僅在自采數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),因此其結(jié)果還存在一定的局限性,無法反映算法在更大規(guī)模數(shù)據(jù)集上的泛化性能。其次,本文基于深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的算法其效率很大程度上依賴于計(jì)算硬件的水平,因此在不同等級(jí)的計(jì)算硬件上表現(xiàn)差異巨大,如何優(yōu)化算法,降低對(duì)硬件計(jì)算能力的要求是下一步的研究方向。

        References)

        [1] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17.(LU H T, ZHANG Q C. Applications of deep convolutional neural network in computer vision [J]. Journal of Data Acquisition and Processing, 2016, 31(1): 1-17.)

        [2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// CVPR’05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 886-893.

        [3] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D. Cascade object detection with deformable part models [C]// Proceedings of the 2010 IEEE conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2241-2248.

        [4] GALL J, LEMPITSKY V. Class-specific hough forests for object detection [M]// Decision Forests for Computer Vision and Medical Image Analysis. London :Springer, 2013: 143-157.

        [5] LEIBE B, LEONARDIS A, SCHIELE B. Combined object categorization and segmentation with an implicit shape model [EB/OL]. [2016- 09- 10]. http://vision.stanford.edu/cs598_spring07/papers/LeibeSchiele2004.pdf.

        [6] LECUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015, 521(7553): 436-444.

        [7] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507.

        [8] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.

        [9] GIRSHICK R. Fast R-CNN [C]// ICCV’15: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1440-1448.

        [10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99.

        [11] 尤瑋,戴聲奎.基于多特征與改進(jìn)霍夫森林的行人檢測(cè)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(10):3538-3544.(YOU W, DAI S K. Pedestrian detection algorithm using multiple features and improved Houghforest [J]. Computer Engineering and Design, 2014,35(10): 3538-3544.)[12] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

        [13] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 779-788.

        [14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS’12: Proceedings of the 2012 25th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012:1097-1105.

        [15] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex [J]. Journal of Physiology, 1962, 160(1): 106-154.

        [16] FELLEMAN D J, VAN ESSEN D C. Distributed hierarchical processing in the primate cerebral cortex [J]. Cerebral Cortex, 1991, 1(1): 1-47.

        [17] FUKUSHIMA K, MIYAKE S. Neocognitron: a new algorithm for pattern recognition tolerant of deformations and shifts in position [J]. Pattern Recognition, 1982, 15(6): 455-469.

        [18] HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1026-1034.

        [19] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.

        This work is partially supported by the National Natural Science Foundation of China (61375008).

        YU Rujie, born in 1992, M. S. candidate. His research interests include image interpretation and evaluation.

        YANG Zhen, born in 1985, Ph. D. candidate. His research interests include pattern recognition, computer vision.

        XIONG Huilin, born in 1964, Ph. D., professor. His research interests include non-linear pattern recognition and machine learning based on kernel method, image processing, computer vision, bioinformatics.

        Aircraft detection and recognition based on deep convolutional neural network

        YU Rujie1*, YANG Zhen1, XIONG Huilin1,2

        (1.SchoolofElectronicInformationandElectricalEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China; 2.ComputerPatternRecognitionLaboratory,ShanghaiJiaoTongUniversity,Shanghai200240,China)

        Aiming at the specific application scenario of aircraft detection in large-scale satellite images of military airports, a real-time target detection and recognition framework was proposed. The deep Convolutional Neural Network (CNN) was applied to the target detection task and recognition task of aircraft in large-scale satellite images. Firstly, the task of aircraft detection was regarded as a regression problem of the spatially independent bounding-box, and a 24-layer convolutional neural network model was used to complete the bounding-box prediction. Then, an image classification network was used to complete the classification task of the target slices. The traditional target detection and recognition algorithm on large-scale images is usually difficult to make a breakthrough in time efficiency. The proposed target detection and recognition framework of aircraft based on CNN makes full use of the advantages of computing hardware greatly and shortens the executing time. The proposed framework was tested on a self-collected data set consistent with application scenarios. The average time of the proposed framework is 5.765 s for processing each input image, meanwhile, the precision is 79.2% at the operating point with the recall of 65.1%. The average time of the classification network is 0.972 s for each image and the Top-1 error rate is 13%. The proposed framework provides a new solution for application problem of aircraft detection in large-scale satellite images of military airports with relatively high efficiency and precision.

        deep learning; Convolutional Neural Network (CNN); aircraft detection; target detection and recognition

        2016- 10- 12;

        2017- 02- 10。 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61375008)。

        俞汝劼(1992—),男,上海人,碩士研究生,主要研究方向:圖像解譯與評(píng)估; 楊貞(1985—),男,山東菏澤人,博士研究生,主要研究方向:模式識(shí)別、計(jì)算機(jī)視覺; 熊惠霖(1964—),男,湖北黃岡人,教授,博士,主要研究方向:基于核方法的非線性模式識(shí)別和機(jī)器學(xué)習(xí)、圖像處理、機(jī)器視覺、生物信息學(xué)。

        1001- 9081(2017)06- 1702- 06

        10.11772/j.issn.1001- 9081.2017.06.1702

        TP391.41

        A

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)分類
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        分類算一算
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        教你一招:數(shù)的分類
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        亚洲无人区乱码中文字幕能看| 国产精品欧美久久久久老妞| AV无码系列一区二区三区| 久久国产精品美女厕所尿尿av | 日韩精品专区av无码| 国产95在线 | 欧美| 精精国产xxxx视频在线播放器| 不卡av一区二区在线| 在线观看av片永久免费 | 亚洲一级无码片一区二区三区| 日韩av最新在线地址| 亚洲中文字幕人妻久久| 欧美一区二区三区红桃小说| 永久无码在线观看| 国产精品一区二区三区女同| 亚洲av中文无码乱人伦在线观看| 日本爽快片18禁免费看| 调教在线播放黄| 国产精品国产三级国产专播| 亚洲av成人无码一二三在线观看| 国产suv精品一区二区| 四虎国产精品成人影院| 91九色国产老熟女视频| 男女高潮免费观看无遮挡| 在线观看人成视频免费| 丁香花在线影院观看在线播放| 美女高潮流白浆视频在线观看| 久久少妇高潮免费观看| 国产美女精品视频线免费播放软件 | 99热国产在线| 日本高清一区二区不卡| 伊人久久大香线蕉av色| 欧美人与动牲交片免费| 亚洲一区二区视频蜜桃| 国产性自爱拍偷在在线播放| 无码任你躁久久久久久| 偷拍熟女亚洲另类| av网站大全免费在线观看| 亚洲av成人无码精品电影在线| 色噜噜狠狠色综合中文字幕| 亚洲国产最新免费av|