亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然場(chǎng)景下的挖掘機(jī)實(shí)時(shí)監(jiān)測(cè)方法

        2020-06-20 03:26:52毛亮薛月菊朱婷婷魏穎慧何俊樂朱勛沐
        關(guān)鍵詞:挖掘機(jī)嵌入式卷積

        毛亮,薛月菊,朱婷婷,魏穎慧,何俊樂,朱勛沐

        自然場(chǎng)景下的挖掘機(jī)實(shí)時(shí)監(jiān)測(cè)方法

        毛亮1,2,薛月菊1※,朱婷婷3,魏穎慧3,何俊樂3,朱勛沐1

        (1. 華南農(nóng)業(yè)大學(xué)電子工程學(xué)院,廣州 510642;2. 深圳職業(yè)技術(shù)學(xué)院粵港澳大灣區(qū)人工智能應(yīng)用技術(shù)研究院,深圳 518055;3. 高新興科技集團(tuán)股份有限公司中央研究院,廣州 510530)

        為實(shí)時(shí)監(jiān)測(cè)違法用地現(xiàn)象,對(duì)作業(yè)挖掘機(jī)等施工機(jī)械進(jìn)行實(shí)時(shí)監(jiān)測(cè)至關(guān)重要。針對(duì)自然場(chǎng)景下由于背景復(fù)雜、光照不均勻及遮擋等導(dǎo)致作業(yè)挖掘機(jī)難以準(zhǔn)確檢測(cè)出的問題,該文采用類似SSD(Single Shot Detector)方法的網(wǎng)絡(luò)結(jié)構(gòu),提出一種自然場(chǎng)景下的挖掘機(jī)實(shí)時(shí)監(jiān)測(cè)方法。該方法采用堆疊DDB(Depthwise Dense Block)模塊組成基礎(chǔ)網(wǎng)絡(luò),實(shí)現(xiàn)淺層特征提取,并與高層特征融合,提高網(wǎng)絡(luò)模型的特征表達(dá)能力;在MobileNetV2網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),設(shè)計(jì) BDM(Bottleneck Down-Sampling Module)模塊構(gòu)成多尺度特征提取網(wǎng)絡(luò),使模型參數(shù)數(shù)量和計(jì)算量減少為SSD的68.4%。構(gòu)建不同視角和場(chǎng)景下的挖掘機(jī)目標(biāo)數(shù)據(jù)集,共計(jì)18 537張,其中15 009張作為訓(xùn)練集,3 528張作為測(cè)試集,并在主流Jetson TX1嵌入式硬件平臺(tái)進(jìn)行網(wǎng)絡(luò)模型移植和驗(yàn)證。試驗(yàn)表明,該文方法的mAP(Mean Average Precision)為90.6%,其檢測(cè)精度優(yōu)于SSD和MobileNetV2SSD的90.2%;模型大小為4.2 MB,分別減小為SSD和MobileNetV2SSD的1/25和1/4,每幀檢測(cè)耗時(shí)145.2 ms,相比SSD和MobileNetV2SSD分別提高了122.7%和28.2%,可以較好地部署在嵌入式硬件平臺(tái)上,為現(xiàn)場(chǎng)及時(shí)發(fā)現(xiàn)違法用地作業(yè)提供有效手段。

        農(nóng)業(yè)機(jī)械;監(jiān)測(cè);模型;SSD;MobileNetV2;自然場(chǎng)景;挖掘機(jī);嵌入式硬件

        0 引 言

        為實(shí)現(xiàn)現(xiàn)場(chǎng)實(shí)時(shí)監(jiān)測(cè)違法用地現(xiàn)象,2011年開始,國(guó)土資源部在15個(gè)地級(jí)市、縣(市、區(qū))開展土地視頻監(jiān)控試點(diǎn),對(duì)重點(diǎn)違法用地易發(fā)區(qū)域進(jìn)行了視頻監(jiān)控。挖掘機(jī)是工程建設(shè)中最主要的工程機(jī)械之一,對(duì)土地間的挖掘機(jī)目標(biāo)進(jìn)行快速檢測(cè)是及時(shí)發(fā)現(xiàn)違法用地現(xiàn)象的重要手段,并能夠?yàn)楣こ添?xiàng)目管理人員及時(shí)提供施工現(xiàn)場(chǎng)的重要管理信息。

        目前,利用視頻圖像來檢測(cè)挖掘機(jī)的相關(guān)研究較少。李源等[1]通過對(duì)挖掘機(jī)圖像的RGB顏色特征分析,提出一種基于顏色信息的挖掘機(jī)圖像分割算法,該算法只利用顏色特征,無法對(duì)背景復(fù)雜的挖掘機(jī)圖像進(jìn)行有效分割。于華琛等[2]用幀差法和高斯混合建模法,研究了挖掘機(jī)鏟斗的檢測(cè)方法。該方法只適應(yīng)單一場(chǎng)景下的運(yùn)動(dòng)目標(biāo)檢測(cè),無法對(duì)復(fù)雜場(chǎng)景且靜止的挖掘機(jī)目標(biāo)進(jìn)行檢測(cè)。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法由于直接通過深層卷積網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)學(xué)習(xí)圖像的高階特征,極大地提升了對(duì)象檢測(cè)的精度?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)方法一般分為基于候選區(qū)域和基于回歸2種方法。其中基于候選區(qū)域的方法主要包括Fast R-CNN[3]、Faster R-CNN[4]和R-FCN[5],這種方法雖然準(zhǔn)確,但計(jì)算成本很高,檢測(cè)速度慢;基于回歸的方法主要包括YOLO(You Only Look Once)[6]和SSD(Single Shot Detector)[7],這種方法具有較好的檢測(cè)速度和精度,得到廣泛的應(yīng)用。

        但現(xiàn)有SSD方法的模型參數(shù)數(shù)量和計(jì)算量大,在嵌入式硬件上實(shí)時(shí)性差,許多研究人員提出了一系列的輕量化目標(biāo)檢測(cè)方法,如MobileNetV1SSD[8]、MobileNetV2SSD[9]、Tiny-DSOD[10]、Pelee[11]、TinySSD[12]Fire SSD[13]和 MobileNetV3SSD[14]等。雖然這些方法取得了較好的成果,但只是對(duì)公共數(shù)據(jù)集PASCAL VOC2007在手機(jī)端或工作站上進(jìn)行檢測(cè)性能驗(yàn)證,暫未在嵌入式芯片上對(duì)于自然場(chǎng)景下的作業(yè)挖掘機(jī)進(jìn)行檢測(cè)結(jié)果。

        實(shí)際作業(yè)中,作業(yè)挖掘機(jī)圖像中存在背景復(fù)雜、光照不均勻及遮擋等因素,導(dǎo)致目標(biāo)難以被準(zhǔn)確檢測(cè)到;同時(shí)由于重點(diǎn)違法用地區(qū)域分布地域廣,造成視頻圖像遠(yuǎn)程傳輸代價(jià)大、實(shí)現(xiàn)困難,挖掘機(jī)檢測(cè)需要在前端有限計(jì)算資源的嵌入式芯片上完成。因此,本文在構(gòu)建各類場(chǎng)景下的挖掘機(jī)目標(biāo)數(shù)據(jù)集的基礎(chǔ)上,設(shè)計(jì)與SSD方法類似的目標(biāo)檢測(cè)網(wǎng)絡(luò),采用堆疊DDB(Depthwise Dense Block)模塊的網(wǎng)絡(luò)進(jìn)行淺層特征提取,并與高層特征融合,再采用BDM(Bottleneck Down-Sampling Module)模塊實(shí)現(xiàn)多尺度特征提取,利用逐漸變小的卷積層,獲取不同尺度下的目標(biāo)特征,同時(shí)將網(wǎng)絡(luò)的通道數(shù)擴(kuò)增為輸入的2倍,保持網(wǎng)絡(luò)的特征表達(dá)能力同時(shí)減少網(wǎng)絡(luò)參數(shù)數(shù)量和計(jì)算量。訓(xùn)練時(shí),采用遷移學(xué)習(xí)對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行調(diào)優(yōu),以提高收斂速度,減少訓(xùn)練時(shí)間。最后,在公共數(shù)據(jù)集PASCAL VOC2007和挖掘機(jī)目標(biāo)數(shù)據(jù)集上,以嵌入式Jetson TX1硬件平臺(tái)為測(cè)試平臺(tái),對(duì)本文方法進(jìn)行驗(yàn)證。本文在嵌入式芯片上采用深度學(xué)習(xí)方法對(duì)田間的挖掘機(jī)目標(biāo)進(jìn)行檢測(cè),以期為現(xiàn)場(chǎng)及時(shí)發(fā)現(xiàn)違法用地現(xiàn)象提供有效手段。

        1 試驗(yàn)數(shù)據(jù)

        1.1 試驗(yàn)數(shù)據(jù)采集

        試驗(yàn)數(shù)據(jù)來源于互聯(lián)網(wǎng)和監(jiān)控?cái)z像機(jī)拍攝的挖掘機(jī)圖像,包括大量建筑工地中白天場(chǎng)景下各種視角的常用履帶式反鏟挖掘機(jī)視頻,主要以小松、日立、卡特、神鋼、凱斯和沃爾沃等品牌為主,共28種型號(hào)??偣膊杉?10段視頻,其分辨率為1 920像素×1 080像素,幀率為每秒25幀。當(dāng)獲取挖掘機(jī)目標(biāo)的視頻圖像時(shí),由于挖掘機(jī)存在不同工作狀態(tài),所以挖掘機(jī)目標(biāo)在視頻圖像中可呈現(xiàn)出4個(gè)方向的視角,即正面、側(cè)面、斜面和背面[15]。挖掘機(jī)正面圖像中挖掘機(jī)鏟斗不僅容易與其他物體粘連,也會(huì)受到其他物體的遮擋;而背面中挖掘機(jī)動(dòng)臂容易受到自身的遮擋,且工作時(shí)動(dòng)臂的姿態(tài)變化較大。

        1.2 訓(xùn)練集和測(cè)試集準(zhǔn)備

        為避免時(shí)序相關(guān)性,對(duì)采集的挖掘機(jī)視頻片段進(jìn)行隨機(jī)抽取并獲取挖掘機(jī)靜態(tài)圖像,然后采用人工方式標(biāo)注挖掘機(jī)邊界框,形成挖掘機(jī)數(shù)據(jù)集,共有18 537張,從挖掘機(jī)數(shù)據(jù)集中隨機(jī)選擇3 528張作為測(cè)試集,用于目標(biāo)檢測(cè)模型的性能評(píng)價(jià),其余15 009張作為原始訓(xùn)練集。對(duì)原始訓(xùn)練集的目標(biāo)圖像隨機(jī)進(jìn)行水平鏡像、垂直鏡像翻轉(zhuǎn)以及順時(shí)針90°、180°和270°旋轉(zhuǎn)擴(kuò)增,形成擴(kuò)增訓(xùn)練集,共計(jì)45 246張。

        2 挖掘機(jī)目標(biāo)檢測(cè)方法

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        SSD方法中使用VGG(Visual Geometry Group)[16]作為基礎(chǔ)網(wǎng)絡(luò),但該網(wǎng)絡(luò)參數(shù)眾多,導(dǎo)致特征提取過程占用大部分運(yùn)行時(shí)間,不適合在移動(dòng)設(shè)備或嵌入式芯片上運(yùn)行[17]。而DDB(Depthwise Dense Block)模塊因模型小,計(jì)算速度快,且特征提取能力強(qiáng),非常適合應(yīng)用到存儲(chǔ)和計(jì)算資源都非常有限的移動(dòng)設(shè)備或嵌入式芯片中[10]。因此,本文以DDB模塊構(gòu)建基礎(chǔ)網(wǎng)絡(luò),融合下采樣的特征,再與多尺度特征提取網(wǎng)絡(luò)BDM(Bottleneck Down-Sampling Module)組合,對(duì)目標(biāo)生成一系列固定大小的檢測(cè)框,并輸出這些檢測(cè)框中包含某類物體實(shí)例的得分,然后通過改進(jìn)的非極大值抑制,輸出最終檢測(cè)結(jié)果。

        如圖1所示,本文的基礎(chǔ)網(wǎng)絡(luò)由4個(gè)密集階段的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成,每個(gè)階段堆疊不同數(shù)量的DDB網(wǎng)絡(luò)模塊[10],第1個(gè)密集階段中堆疊4個(gè)DDB模塊,在第2至第4個(gè)密集階段分別堆疊6個(gè)DDB模塊,每個(gè)密集階段中對(duì)通道數(shù)進(jìn)行不同比例的壓縮,第1至第4階段的通道數(shù)分別為32、48、64和80。密集階段中DDB模塊的通道數(shù)隨網(wǎng)絡(luò)深度的加深而增加。DDB模塊對(duì)輸入的特征圖,首先進(jìn)行1×1標(biāo)準(zhǔn)卷積處理,并對(duì)不同密集階段通道數(shù)進(jìn)行壓縮,然后通過3×3 深度可分離卷積進(jìn)行特征提取,最后直接與輸入的特征圖進(jìn)行特征映射合并階段輸出。相鄰密集階段的DDB模塊通過傳遞層進(jìn)行連接,其中第1個(gè)和第2個(gè)階段的傳遞層中使用1×1卷積處理,將特征圖的通道數(shù)由256壓縮到128,然后使用2×2最大池化層降低特征圖的分辨率為38×38;在第3和第4個(gè)階段的傳遞層使用1×1卷積層將特征圖的通道數(shù)由512壓縮到256,同時(shí)保持特征圖的分辨率19×19不變。

        另外,基礎(chǔ)網(wǎng)絡(luò)中的下采樣模塊由一個(gè)雙分支結(jié)構(gòu)構(gòu)成,分別采用3×3標(biāo)準(zhǔn)卷積和3×3深度可分離卷積處理,然后進(jìn)行塊歸一化和非線性處理;另一路分支先進(jìn)行最大池化操作,將特征圖的分辨率和通道數(shù)分別降為19×19和64,然后用1×1標(biāo)準(zhǔn)卷積處理,再進(jìn)行塊歸一化和非線性處理。最后,將2路分支的輸出采用特征映射的方式合并后進(jìn)行輸出。

        在多尺度特征提取網(wǎng)絡(luò)部分,本文在基礎(chǔ)網(wǎng)絡(luò)中Conv7層的后面,增加由4個(gè)不同尺度BDM(Bottleneck Down-Sampling Module)網(wǎng)絡(luò)結(jié)構(gòu)成的特征提取網(wǎng)絡(luò),其中每個(gè)BDM的特征圖尺寸為10×10、5×5、3×3和1×1。最后,采用6個(gè)特征網(wǎng)絡(luò)層作為目標(biāo)檢測(cè)的輸出,分別為Conv5、Conv7、BDM1、BDM2、BDM3和BDM4,其特征圖的分辨率為38×38、19×19、10×10、5×5、3×3和1×1。

        2.2 BDM模塊

        由于MobileNetV2網(wǎng)絡(luò)[9]使用3×3深度可分離卷積,使得計(jì)算量降低為標(biāo)準(zhǔn)卷積的1/8~1/9,而檢測(cè)精度損失很少[8],因此BDM模塊在MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。如圖2所示。在圖2b中,對(duì)每個(gè)非線性ReLU層加上BN(Batch Normalization)層[18],這樣不僅增大了梯度、避免了梯度消失問題,同時(shí)加快了學(xué)習(xí)收斂速度,解決了隨著網(wǎng)絡(luò)深度加深訓(xùn)練速度下降的問題[9]。

        首先采用1×1的標(biāo)準(zhǔn)卷積進(jìn)行處理,將特征圖的通道數(shù)=128擴(kuò)充到=256,然后用卷積核大小為3×3、步長(zhǎng)=2的深度可分離卷積進(jìn)行特征提取,再用1×1標(biāo)準(zhǔn)卷積進(jìn)行處理,重新構(gòu)建特征空間,將特征圖的通道數(shù)=256縮減為=128,并傳遞到更深層的網(wǎng)絡(luò)。

        BDM模塊的參數(shù)數(shù)量和計(jì)算量的計(jì)算方法如表1所示。假設(shè)輸入圖像塊為,輸入通道數(shù)為0,輸出通道數(shù)為1,通道擴(kuò)增系數(shù)為,卷積核大小為、步長(zhǎng),則BDM的參數(shù)數(shù)量為0(01),SSD的多尺度特征提取網(wǎng)絡(luò)部分中相同模塊的參數(shù)數(shù)量為0(1)如假定BDM模塊輸入圖像塊為10×10,輸入通道為128,輸出通道數(shù)為128,通道擴(kuò)增系數(shù)為2,卷積核大小為3×3、步長(zhǎng)為2,則BDM的參數(shù)數(shù)量為8 422 400,SSD相同模塊的參數(shù)數(shù)量為26 675 200,比SSD減小了68.4%。因此,本文使用BDM模塊,將大大地減少參數(shù)數(shù)量和計(jì)算量,可較好地解決因使用標(biāo)準(zhǔn)卷積導(dǎo)致其參數(shù)數(shù)量和運(yùn)算量較高的問題。

        注:Conv1~Conv7為卷積層;DW-Conv1和 DW-Conv2為深度可分離卷積層;Pool1、Pool2、Pool3為最大池化層;64、128、256、416、512、736為卷積層的輸出通道數(shù);DDB×4、DDB×6為堆疊DDB模塊;BDM1~BDM4為瓶頸下采樣模塊;ReLU和ReLU6為非線性變換層;BatchNorm為批歸一化層;S為卷積操作的步長(zhǎng);C為卷積層的通道數(shù)。下同。

        注:Conv 1×1為1×1卷積核的卷積層;DW Conv 3×3為卷積核的深度可分離卷積層。下同。

        2.3 損失函數(shù)

        表1 BDM參數(shù)數(shù)量和計(jì)算量計(jì)算方法

        注:為輸入圖像塊分辨率的大小;為通道擴(kuò)增系數(shù)。

        Note:is the size of input image block resolution;is the coefficient of the enlarged channels.

        3 網(wǎng)絡(luò)模型訓(xùn)練與移植

        3.1 試驗(yàn)平臺(tái)

        試驗(yàn)訓(xùn)練平臺(tái)采用32 GB內(nèi)存、Geforce GTX 1080 GPU、Intel I7-7700 CPU的硬件平臺(tái)和Ubuntu16.04 LTS操作系統(tǒng),在深度學(xué)習(xí)框架Caffe[19]上,采用Python作為編程語(yǔ)言實(shí)現(xiàn)本文方法。試驗(yàn)測(cè)試平臺(tái)采用Jetson TX1[20]嵌入式硬件平臺(tái),其硬件配置為CPU為1.8 GHz ,內(nèi)建256個(gè)CUDA核心的NVIDIA Maxwell GPU,計(jì)算能力超過1T FLOP,內(nèi)存為4 GB和Ubuntu16.04 LTS操作系統(tǒng),在OpenCV2.4.11[21]、CUDA8.0、Cudnn5.1和Caffe等開源軟件基礎(chǔ)上,采用C++語(yǔ)言實(shí)現(xiàn)本文方法并進(jìn)行測(cè)試。

        3.2 模型訓(xùn)練

        在算法實(shí)現(xiàn)過程中,由于采用隨機(jī)初始化權(quán)值需要花費(fèi)大量的時(shí)間將模型損失值收斂于穩(wěn)定值,因此本文在模型初始化中,共享卷積層以Xavier進(jìn)行隨機(jī)初始化[22],以降低隨機(jī)設(shè)置初始權(quán)值帶來的網(wǎng)絡(luò)不穩(wěn)定性[23]。

        為了進(jìn)一步降低訓(xùn)練耗時(shí)和資源,本文采用遷移學(xué)習(xí)方法,利用在公共數(shù)據(jù)集PASCAL VOC上已預(yù)訓(xùn)練好的DDB模型[10],遷移到挖掘機(jī)目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào),不僅可以克服不同數(shù)據(jù)集之間的差異性,還會(huì)快速收斂至鄰域很小的損失值。然后使用隨機(jī)梯度下降法[24],對(duì)網(wǎng)絡(luò)模型以端到端的方式進(jìn)行訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練的具體參數(shù)為:對(duì)不同尺度的特征圖使用與SSD方法類似的錨點(diǎn)框選擇策略[7],默認(rèn)使用4種固定長(zhǎng)寬比的邊界框,具體為{1,1,2,1/2},mini-batch大小為20,沖量為0.9,權(quán)值的衰減系數(shù)為0.000 5,最大迭代次數(shù)為16萬(wàn)次,其中前4萬(wàn)次學(xué)習(xí)率為10–2,5~8萬(wàn)次學(xué)習(xí)率為10–3,再次以學(xué)習(xí)率為10–4迭代4萬(wàn)次,最后以10–5的學(xué)習(xí)率迭代4萬(wàn)次,最終選取訓(xùn)練中精度最高的模型。

        3.3 模型移植

        在嵌入式Jetson TX1硬件平臺(tái)上實(shí)現(xiàn)本文方法,需進(jìn)行系統(tǒng)配置和深度學(xué)習(xí)框架安裝,具體步驟為:首先通過路由器將一臺(tái)裝有Ubuntu16.04 LTS操作系統(tǒng)的主機(jī)與Jetson TX1嵌入式硬件平臺(tái)進(jìn)行連接,并利用NVIDIA Jet Pack 給Jetson TX1嵌入式硬件平臺(tái)安裝Ubuntu16.04 LTS操作系統(tǒng)映像、開發(fā)工具和用于啟動(dòng)的開發(fā)環(huán)境等;然后安裝NVIDIA_CUDA 8.0并行計(jì)算框架、cudnn5.1深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)以及Python2.7開發(fā)平臺(tái);最后安裝Caffe框架并利用Python編寫本文方法的測(cè)試程序并執(zhí)行。

        3.4 評(píng)價(jià)指標(biāo)

        通常目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)包括:檢測(cè)精度、每幀檢測(cè)的時(shí)間和模型大小等。本文采用平均精度的平均值mAP(Mean Average Precision)、每幀檢測(cè)時(shí)間Time(ms)和模型大小Model Size(MB)為評(píng)價(jià)指標(biāo)。

        4 結(jié)果與分析

        4.1 PASCAL VOC2007測(cè)試集檢測(cè)結(jié)果與分析

        為了驗(yàn)證本文方法在公共數(shù)據(jù)集PASCAL VOC[25]上的檢測(cè)性能,選用PASCAL VOC2007訓(xùn)練集和PASCAL VOC2012訓(xùn)練集綜合后的數(shù)據(jù)作為訓(xùn)練集及驗(yàn)證集,共16 551張圖像,包括20種不同類別的目標(biāo);PASCAL VOC2007測(cè)試集共4 952張圖像。檢測(cè)結(jié)果如表2所示,本文方法的mAP為69.5%,比SSD和MobileNetV2SSD分別降低了7.3%和1%,而輕量化的MobileNetV2SSD方法比SSD降低了6.3%,這說明對(duì)網(wǎng)絡(luò)模型進(jìn)行輕量化處理,會(huì)對(duì)網(wǎng)絡(luò)的檢測(cè)精度會(huì)造成一定的損失。本文方法的模型大小為4.5 MB,每幀耗時(shí)為250 ms,相比SSD和MobileNetV2SSD的模型分別減小了100.7和9.2MB,每幀檢測(cè)耗時(shí)都縮短了約1倍,具有較大的優(yōu)越性。權(quán)衡以上方法,在精度損失1%的條件下,本文方法的模型大小減少到MobileNetV2SSD的1/3,檢測(cè)效率提升了1倍。由于本文方法針對(duì)挖掘機(jī)特點(diǎn)設(shè)計(jì),且需要移植到嵌入式系統(tǒng),并非針對(duì)通用目標(biāo)的,所以在公共數(shù)據(jù)集上,雖然模型大小和檢測(cè)效率上優(yōu)于以MobileNetV2為基礎(chǔ)網(wǎng)絡(luò)的SSD,但是檢測(cè)精度略低1個(gè)百分點(diǎn)。

        表2 不同方法對(duì)PASCAL VOC2007測(cè)試集的檢測(cè)性能對(duì)比

        4.2 挖掘機(jī)數(shù)據(jù)集檢測(cè)結(jié)果與分析

        在挖掘機(jī)測(cè)試集上,分別對(duì)本文方法、SSD和MobileNetV2SSD進(jìn)行測(cè)試,并統(tǒng)計(jì)其檢測(cè)精度、模型大小和每幀檢測(cè)耗時(shí),結(jié)果如表3所示。由表3可知,本文方法的檢測(cè)精度mAP為90.6%,相比其他2種方法都提高了0.4個(gè)百分點(diǎn)。通過對(duì)網(wǎng)絡(luò)模型的改進(jìn)使得網(wǎng)絡(luò)模型參數(shù)數(shù)量和計(jì)算量大大減少,其模型大小為4.2 MB,約為SSD和MobileNetV2SSD模型大小的1/25和1/4,每幀檢測(cè)耗時(shí)145.2 ms,比SSD和MobileNetV2SSD提高了122.7%和28.2%,使得網(wǎng)絡(luò)模型更適合在嵌入式芯片上部署,具有更好的實(shí)時(shí)性。

        對(duì)挖掘機(jī)測(cè)試集的目標(biāo)檢測(cè)結(jié)果,如圖3所示。對(duì)圖3a中正面視角的挖掘機(jī)圖像,所有方法都能很好的檢測(cè)到目標(biāo);圖3b側(cè)面視角的挖掘機(jī)圖像由于背景較復(fù)雜,且存在同類目標(biāo)的情況,本文方法可檢測(cè)到目標(biāo),而其他2種方法出現(xiàn)了漏檢情況;圖3c斜面視角的挖掘機(jī)圖像中,目標(biāo)姿態(tài)變化較大,且存在局部遮擋情況,本文方法和MobileNetV2SSD都可檢測(cè)到目標(biāo),而SSD出現(xiàn)漏檢情況;圖3d背面視角的挖掘機(jī)圖像,目標(biāo)被其他物體遮擋了部分特征,且背景存在同類目標(biāo)的干擾,本文方法和SSD都可檢測(cè)到目標(biāo),而MobileNetV2SSD出現(xiàn)漏檢情況。因此,本文方法對(duì)自然場(chǎng)景下不同視角和背景較復(fù)雜的挖掘機(jī)目標(biāo)檢測(cè)具有較好的魯棒性。

        表3 不同方法對(duì)測(cè)試集挖掘機(jī)圖像的檢測(cè)性能對(duì)比

        注:紅色框、藍(lán)色框和綠色框分別表示本文方法、SSD和MobileNetV2SSD的檢測(cè)結(jié)果。下同。

        4.3 局部遮擋情況下的檢測(cè)結(jié)果

        自然場(chǎng)景下挖掘機(jī)目標(biāo)容易受到其他物體和自身遮擋,因此,本文針對(duì)不同情況的局部遮擋數(shù)據(jù)進(jìn)行了對(duì)比測(cè)試,結(jié)果如圖4所示。由圖可知,圖4a正面視角的挖掘機(jī)圖像中存在自身遮擋目標(biāo),所有方法同樣都能檢測(cè)到目標(biāo)。圖4b側(cè)面視角的挖掘機(jī)圖像被其他物體遮擋,所有方法都可以檢測(cè)到目標(biāo);圖4c斜面視角的挖掘機(jī)圖像被其他物體遮擋,本文方法和SSD都可以檢測(cè)到目標(biāo),但MobileNetV2SSD在圖4c中出現(xiàn)檢測(cè)框過大的現(xiàn)象,所得檢測(cè)區(qū)域受到其他物體的干擾;圖4d背面視角的挖掘機(jī)圖像中,背景較復(fù)雜,存在光照不均勻和自身遮擋,所有方法都可以檢測(cè)到目標(biāo),但SSD和MobileNetV2SSD在圖4d中出現(xiàn)了誤檢情況。試驗(yàn)表明,本文方法對(duì)自然場(chǎng)景下2種局部遮擋的挖掘機(jī)目標(biāo)都能檢測(cè)到,且未出現(xiàn)誤檢和漏檢,說明該方法比其他2種方法的魯棒性更好。

        圖4 本文方法、SSD和MobileNetV2SSD對(duì)局部遮擋情況的挖掘機(jī)檢測(cè)結(jié)果

        5 結(jié) 論

        本文采用類似SSD的網(wǎng)絡(luò)結(jié)構(gòu),利用堆疊DDB模塊組成基礎(chǔ)網(wǎng)絡(luò),在MobileNetV2基礎(chǔ)上進(jìn)行改進(jìn)的BDM模塊構(gòu)成多尺度特征提取網(wǎng)絡(luò),以自然場(chǎng)景下的挖掘機(jī)目標(biāo)為研究對(duì)象,構(gòu)建了不同視角和場(chǎng)景下的作業(yè)挖掘機(jī)數(shù)據(jù)集,實(shí)現(xiàn)挖掘機(jī)目標(biāo)檢測(cè),并在嵌入式Jetson TX1硬件平臺(tái)進(jìn)行模型移植,主要結(jié)論如下:

        1)在MobileNetV2基礎(chǔ)上改進(jìn)BDM模塊,其參數(shù)數(shù)量和計(jì)算量相比標(biāo)準(zhǔn)卷積降低了68.4%。

        2)通過遷移學(xué)習(xí)技術(shù),利用公共數(shù)據(jù)集上已預(yù)訓(xùn)練好的DDB模型,遷移到挖掘機(jī)目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào),大大縮短了訓(xùn)練時(shí)間,并簡(jiǎn)化訓(xùn)練過程。

        3)以嵌入式Jetson TX1硬件平臺(tái)為測(cè)試平臺(tái),在挖掘機(jī)數(shù)據(jù)集上進(jìn)行檢測(cè)。試驗(yàn)表明,本文方法的檢測(cè)精度mAP為90.6%,比SSD和MobileNetV2SSD提高了0.4個(gè)百分點(diǎn);模型大小4.2 MB,約為SSD和MobileNetV2SSD的1/25和1/4,每幀檢測(cè)耗時(shí)為145.2 ms,比SSD方法和MobileNetV2SSD方法提高了122.7%和28.2%。具有模型參數(shù)數(shù)量和計(jì)算量都較小的優(yōu)點(diǎn),適合部署在嵌入式硬件平臺(tái)上。

        本文研究可為作業(yè)挖掘機(jī)目標(biāo)檢測(cè)提供方法和思路,為后續(xù)針對(duì)嵌入式硬件平臺(tái)實(shí)現(xiàn)作業(yè)挖掘機(jī)狀態(tài)識(shí)別奠定基礎(chǔ)。

        [1] 李源,何榮開,王慶,等. 基于顏色及投影特征的挖掘機(jī)圖像分割算法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2013,34(11):2635-2638. Li Yuan, He Rong-kai, Wang Qing, et al. Segmentation algorithm of the excavator image based on color and projection characteristics[J]. Journal of Chinese Computer Systems, 2013, 34(11): 2635-2638. (in Chinese with English abstract)

        [2] 于華琛,袁祖強(qiáng). 基于機(jī)器視覺的鏟斗目標(biāo)檢測(cè)[J]. 機(jī)械制造與自動(dòng)化,2016(4):165-167. Yu Huachen, Yuan Zuqiang. Bucket target detection based on machine vision[J]. Machine Building & Automation, 2016(4): 165-167. (in Chinese with English abstract)

        [3] Girshick Ross. Fast R-CNN[C]//IEEE International Conference on Computer Vision. 2015: 1440-1448.

        [4] Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. 2015: 91-99.

        [5] Dai Jifeng, Li Yi, He Kaiming, et al. R-FCN: Object detection via region-based fully convolutional networks[C] //The 30th International Conference on Neural Information Processing Systems. 2016: 379-387.

        [6] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.

        [7] Liu Wei, Anguelov Dragomir, Erhan Dumitru, et al. SSD: Single shot multiBox detector[J]. European Conference on Computer Vision. 2016(5): 21-37.

        [8] Howard Andrew G, Zhu Menglong, Chen Bo, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL].2019-07-25[2017-04-17]. https://arxiv.org/abs/1704.04861v1.

        [9] Sandler Mark, Howard Andrew, Zhu Menglong, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2018.

        [10] Li Yuxi, Li Jiuwei, Lin Weiyao, et al. Tiny-DSOD: Lightweight object detection for resource-restricted usages[EB/OL]. 2019-07-26[2018-07-29]. https: //arxiv. org/abs/1807. 11013v1.

        [11] Wang Robert J, Li Xiang, Ling Charles X. Pelee: A real-time object detection system on mobile devices[EB/OL]. 2019-07-26[2018-04-18]. https: //arxiv. org/abs/1804. 06882v3.

        [12] Alexander Wong, Mohammad Javad Shafiee, Francis Li, et al. Tiny SSD: A tiny single-shot detection deep convolutional neural network for real-time embedded object detection[EB/OL]. 2019-07-25[2018-02-19]. https: //arxiv. org/abs/1802.06488.

        [13] Hengfui Liau, Nimmagadda Yamini, YengLiong Wong. Fire SSD: Wide fire modules based single shot detector on edge device[EB/OL]. 2019-07-26[2018-07-14]. https: //arxiv. org/abs/ 1806.05363v1.

        [14] Andrew Howard, Mark Sandler, Grace Chu, et al. Searching for mobileNetV3[EB/OL]. 2019-07-26[2019-05-06]. https:// arxiv.org/ abs /1905.02244.

        [15] 毛亮,薛月菊,林煥凱,等. 一種基于視頻圖像的挖掘機(jī)工作狀態(tài)識(shí)別方法[J]. 系統(tǒng)工程理論與實(shí)踐,2019,39(3):797-804. Mao Liang, Xue Yueju, Lin Huankai, et al. A method of excavator working state identification based on video image[J]. Systems Engineering-Theory & Practice, 2019, 39(3): 797-804. (in Chinese with English abstract)

        [16] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014: 1-14.

        [17] 劉慧,張禮帥,沈躍,等. 基于改進(jìn)SSD的果園行人實(shí)時(shí)檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(4):29-35. Liu Hui, Zhang Lishuai, Shen Yue, et al. Real-time pedestrian detection in orchard based on improved SSD[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(4): 29-35. (in Chinese with English abstract)

        [18] Ioffe S, Szegedy C. Batch Normalization: Accelerating deep network training by reducing internal covariate Shift[C]//International Conference on International Conference on Machine Learning. JMLR. org, 2015.

        [19] Jia Yangqing, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[J]. ACM International Conference on Multimedia, 2014: 675-678.

        [20] Nvidia. Autonomous Machine. Jetson Download Center Archive[EB/OL]. 2019-07-27[2017-07-20]. https://developer. nvidia. com/embedded/downloads/archive/Jetson_TX1_and_ TX2_Developer_Kits_User_Guide.

        [21] BRADSKI G, AEHLER A. Learning OpenCV: Computer vision with the OpenCV library[M]. Sebastopol, CA: O'Reilly Media Inc, 2008: 442.

        [22] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[J]. Journal of Machine Learning Research, 2010, 9: 249-256.

        [23] 彭紅星,黃博,邵園園,等. 自然環(huán)境下多類水果采摘目標(biāo)識(shí)別的通用改進(jìn)SSD模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(16):155-162. Peng Hongxing, Huang Bo, Shao Yuanyuan, et al. General improved SSD model for picking object recognition of multiple fruits in natural environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(16): 155-162. (in Chinese with English abstract)

        [24] Léon Bottou, Olivier Bousquet. Learning using large datasets, mining massive datasets for security[M]. NATOASI Workshop Series, IOS Press, Amsterdam, 2008:15?26.

        [25] Everingham M, Gool L V, Williams C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

        Method for the real-time monitoring of the excavator in natural scene

        Mao Liang1,2, Xue Yueju1※, Zhu Tingting3, Wei Yinghui3, He Junle3, Zhu Xunmu1

        (1.,,510642,;2.,,518055,; 3.,,510530,)

        In order to monitor illegal land use in real time, video surveillance technology was used to monitor the vulnerable areas of illegal land use. Excavator was one of the most important construction machinery in the engineering construction, an automatic real-time detection of excavator could provide important information for non-contact field monitoring of illegal land. But it was difficult to accurately detect the excavator due to the complex background, uneven illumination and partial occlusion in natural scene, This paper proposed a real-time excavator detection algorithm in natural scene based on the SSD-like (Single Shot Detector). Specifically, the lightweight network DDB (Depthwise Dense Block) was used as the basic network to extract shallow feature and fuse with high-level features in the excavator objection model to enhance the feature representation capability. Meanwhile, the BDM (Bottleneck Down-sampling Module) which was designed based on the lightweight network MobileNetV2 was used as the multi-scale feature extraction network to reduce the parameter quantity and computation. The data sets included 18 537 images of excavators with different shooting angles and natural scenes, 15 009 images were used as training set and 3 528 images were chosen as test set randomly. To enhance the diversity of training data, data set expansion methods such as rotation and image were adopted. Based on the Caffe deep learning framework, the proposed model in this paper was trained with end-to-end approximate joint methods and the model weight was fine-tuned by using SGD (Stochastic Gradient Descent) algorithm. The DDB module of the network was initialized with the weights pre-trained on the PASCAL VOC dataset, and the training time and resources were further reduced by transferring learning. Then the model pre-trained on the large data sets was transplanted to excavator object detection by transfer learning. The proposed method was transplanted and performed on the mainstream Jetson TX1 embedded hardware platform, and experiments on the actual data set of detecting excavator object at different angles of view and natural scenes. Experiment results showed that the parameter quantity and computational complexity of proposed model with BDM was reduced by 68.4% compared to SSD, the mAP (Mean Average Precision) of proposed method reached 90.6% on the testing set, which was 0.4% and 0.4% higher than that of SSD based on VGG16 basic net and MobileNetV2SSD based on MobileNetV2 basic net, respectively. The model size of propose method was 4.2 MB, which was about 1/25 and 1/4 of SSD and mobilenetv2ssd, respectively, and the time-consuming of each frame was 145.2 ms, which was 122.7% and 28.2% faster than SSD and MobileNetV2SSD, respectively. The proposed method not only had better generalization and robustness, but also can be better deployed on the embedded hardware platform which demonstrated the feasibility of real-time monitoring of the excavator at site of illegal land use.

        agricultural machinery; monitoring; models; SSD; MobileNetV2; natural scene; excavator; embedded hardware

        毛亮,薛月菊,朱婷婷,等. 自然場(chǎng)景下的挖掘機(jī)實(shí)時(shí)監(jiān)測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(9):214-220.doi:10.11975/j.issn.1002-6819.2020.09.024 http://www.tcsae.org

        Mao Liang, Xue Yueju, Zhu Tingting, et al. Method for the real-time monitoring of the excavator in natural scene[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 214-220. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.09.024 http://www.tcsae.org

        2019-08-02

        2020-04-29

        國(guó)家科技支撐計(jì)劃(2015BAD06B03-3)

        毛亮,博士,副研究員,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺與深度學(xué)習(xí)。Email:maoliangscau@163.com

        薛月菊,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)闄C(jī)器視覺與圖像處理。Email:xueyueju@163.com

        10.11975/j.issn.1002-6819.2020.09.024

        TP391

        A

        1002-6819(2020)-09-0214-07

        猜你喜歡
        挖掘機(jī)嵌入式卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        挖掘機(jī)尿素噴嘴散熱改進(jìn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        搭建基于Qt的嵌入式開發(fā)平臺(tái)
        嵌入式軟PLC在電鍍生產(chǎn)流程控制系統(tǒng)中的應(yīng)用
        露天采礦挖掘機(jī)的維修保養(yǎng)
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        Altera加入嵌入式視覺聯(lián)盟
        徐工XW1300C大型挖掘機(jī)
        亚洲国产精品福利片在线观看| 亚洲福利二区三区四区| 中文字幕av久久亚洲精品| 亚洲日韩一区二区一无码| 欧美末成年videos在线观看| 国语精品视频在线观看不卡| 99蜜桃在线观看免费视频| 18国产精品白浆在线观看免费| 成人看片黄a免费看那个网址| 亚洲国产日韩在线人成蜜芽| 精品人妻一区二区三区不卡毛片 | 国产不卡一区二区三区视频| 国产饥渴的富婆一凶二区| 婷婷久久香蕉五月综合加勒比| 亚洲综合av在线在线播放| 无码8090精品久久一区| 国产精品一区久久综合| 日本护士xxxx视频| 亚洲最大天堂无码精品区| 99久久无色码中文字幕鲁信| 99精品国产一区二区三区| 天堂无码人妻精品av一区| 亚洲国产成人精品福利在线观看| 久久精品亚洲乱码伦伦中文| 成人免费播放视频777777| 亚洲综合色自拍一区| 亚洲AV无码AV色| 水蜜桃男女视频在线观看网站| 国产精品www夜色视频| 日韩免费一区二区三区在线 | 一级老熟女免费黄色片| 日本真人做人试看60分钟| 国产羞羞视频在线观看| 一本久久伊人热热精品中文| 亚洲成熟女人毛毛耸耸多| 亚洲国产精品久久亚洲精品| 久久丁香花综合狼人| 国产一区二区三区av免费| 国产精品狼人久久久久影院 | 欧美日韩一区二区三区自拍| 美女极度色诱视频国产免费|