張洪源 張印輝 何自芬
摘? 要: 針對(duì)現(xiàn)代生產(chǎn)中對(duì)柔性化和智能化的需求,為了提高智能加工機(jī)器人的工作效率和適應(yīng)性,使其能精確快速的識(shí)別檢測(cè)各類(lèi)目標(biāo),提出了一種基于YOLOv3模型的多尺度視覺(jué)檢測(cè)方法,該方法可對(duì)復(fù)雜工業(yè)環(huán)境背景下的常見(jiàn)目標(biāo)進(jìn)行實(shí)時(shí)檢測(cè)。該方法檢測(cè)的對(duì)象為軸承、螺絲刀、齒輪、鉗子、扳手、螺栓、螺帽、墊片、榔頭、銼刀、車(chē)刀十一類(lèi)工件。該方法結(jié)合SPP-Net及ResNet,通過(guò)單個(gè)卷積神經(jīng)網(wǎng)絡(luò)將分辨率418×418輸入圖像處理為52×52、26×26、13×13三個(gè)不同尺度的特征圖分別進(jìn)行預(yù)測(cè),通過(guò)NMS算法得到最終結(jié)果。該方法在保證效率與準(zhǔn)確率的情況下實(shí)現(xiàn)了復(fù)雜工業(yè)環(huán)境下的目標(biāo)檢測(cè),使用的網(wǎng)絡(luò)結(jié)構(gòu)為在YOLOv3的基礎(chǔ)上進(jìn)行了改進(jìn)后的CIS-YOLO,在GTX1060上本文使用750張圖片作為測(cè)試集,完成測(cè)試所用時(shí)間為17s,測(cè)試速度達(dá)到了44FPS,精度達(dá)到了91.67%。檢測(cè)的精度較YOLOv2增加了1.38%,測(cè)試速度提升了15%;較YOLOv3精度增加了2.61%,測(cè)試速度提升了39%。實(shí)驗(yàn)結(jié)果證明該方法滿足了高精度實(shí)時(shí)檢測(cè)的要求,該研究可為機(jī)器人快速高效率在復(fù)雜工業(yè)環(huán)境背景下目標(biāo)檢測(cè)提供依據(jù)。
關(guān)鍵詞: 目標(biāo)檢測(cè);殘差網(wǎng)絡(luò);特征金字塔;深度學(xué)習(xí)
中圖分類(lèi)號(hào): TP39? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.10.019
本文著錄格式:張洪源,張印輝,何自芬. 復(fù)雜工業(yè)場(chǎng)景目標(biāo)實(shí)時(shí)檢測(cè)方法[J]. 軟件,2019,40(10):8388+110
Real-time Detection Method for Complex Industrial Scene
ZHANG Hong-yuan, ZHANG Yin-hui*, HE Zi-fen
(College of Mechanical and Electrical Engineering, Kunming University of Science and Technology, 650500)
【Abstract】: In order to improve the flexibility and adaptability of intelligent machining robots in order to improve the efficiency and adaptability of intelligent machining robots, it can accurately and quickly identify and detect various targets. This paper proposes a multi-scale visual inspection based on YOLOv3 model. Method, which can detect common targets in the complex industrial environment in real time. The objects detected by the method are bearings, screwdrivers, gears, pliers, wrenches, bolts, nuts, gaskets, boring heads, boring tools, and turning tools. The method combines SPP-Net and ResNet to process the resolution 418×418 input images into 52×52, 26×26, 13×13 three different scale feature maps through a single convolutional neural network, and respectively predict and pass The NMS algorithm gets the final result. The method achieves end-to-end target detection and achieves target detection in complex industrial environments while ensuring efficiency and accuracy. The network structure used in this paper is optimized on the basis of YOLOv3. On the GTX1060, 750 images are used as the test set. The time taken to complete the test is 17s, the test speed reaches 44FPS, and the accuracy reaches 91.67%. The accuracy of detection increased by 1.38% compared with YOLOv2, and the test speed increased by 15%; the accuracy of YOLOv3 increased by 2.61%, and the test speed increased by 39%. The experimental results prove that the network used in this paper has basically met the requirements of high-precision real-time detection. This research can provide a basis for the rapid and high efficiency of robots in the background of complex industrial environment.
【Key words】: Target detection; Residual network; Feature pyramid; Deep learning
0? 引言
深度學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新的研究方向,其目的在于建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本。由于其在語(yǔ)音、文本、圖像、視頻等諸多方面較傳統(tǒng)方法取得了一定的進(jìn)展和突破,深度學(xué)習(xí)已成為目前計(jì)算機(jī)科學(xué)中最引人注目的研究課題。深度學(xué)習(xí)通過(guò)低層的濾波器來(lái)獲取圖像的局部特征,利用高層的濾波器將這些局部特征組合成全局特征。整個(gè)過(guò)程都是通過(guò)網(wǎng)絡(luò)訓(xùn)練來(lái)獲得,不需要人工提取、設(shè)計(jì)目標(biāo)特征。在目標(biāo)識(shí)別方面,深度學(xué)習(xí)主要分為兩種:一種是基于候選區(qū)域的方法,代表性的有R-CNN[1]、SPP[2]、Fast R-CNN[3]、Faster R-CNN[4];一種是基于回歸思想的方法,代表性的有YOLO[5]、SSD[6]、YOLOv2[7]、YOLOv3[8]。在目標(biāo)目標(biāo)識(shí)別方面,受限于訓(xùn)練樣本量的缺乏,且智能制造需要在復(fù)雜的工況下完成對(duì)目標(biāo)的識(shí)別。
隨著“中國(guó)制造2025”戰(zhàn)略口號(hào)的提出,機(jī)器人在生產(chǎn)制造領(lǐng)域的應(yīng)用越來(lái)越廣泛。工業(yè)機(jī)器人自身可實(shí)現(xiàn)復(fù)雜動(dòng)作的自動(dòng)化,但難以實(shí)現(xiàn)自適應(yīng)作業(yè)的自動(dòng)化。在裝配、分揀、搬運(yùn)和碼垛等工業(yè)環(huán)境中,機(jī)器人的應(yīng)用大多停留在示教階段,機(jī)器人與人、與環(huán)境之間的交互不夠,機(jī)器人的感知能
力較差,這種情況下單一的機(jī)器人作業(yè)往往只能應(yīng)對(duì)結(jié)構(gòu)化環(huán)境,早已不能滿足現(xiàn)代生產(chǎn)對(duì)柔性化和智能化的要求。
為了彌補(bǔ)該領(lǐng)域的空缺,本文將深度卷積神經(jīng)網(wǎng)絡(luò)算法應(yīng)用到了目標(biāo)目標(biāo)識(shí)別方面,使得系統(tǒng)能識(shí)別常用的幾種目標(biāo)。在此基礎(chǔ)上對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,使工業(yè)機(jī)器人能識(shí)別各類(lèi)常見(jiàn)目標(biāo)。
1? YOLO常見(jiàn)目標(biāo)目標(biāo)實(shí)時(shí)檢測(cè)模型架構(gòu)
YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)融合了殘差網(wǎng)絡(luò)ResNet[9]和特征金字塔FPN[10]的特點(diǎn)。該網(wǎng)絡(luò)的特征提取部分由一系列的1×1和3×3的卷積交替構(gòu)成,通過(guò)將尺寸為418×418的輸入圖像處理為大尺度52×52、中尺度26×26、小尺度13×13三種特征圖,在其基礎(chǔ)上進(jìn)行預(yù)測(cè),并使用NMS得到最終預(yù)測(cè)結(jié)果。在現(xiàn)代工業(yè)應(yīng)用中,很少用到TitanX之類(lèi)的高端顯卡,而YOLOv3需要TitanX才能以45FPS的速度進(jìn)行實(shí)時(shí)檢測(cè),為了使工業(yè)機(jī)器人的檢測(cè)速度更快,精度更高,減小使用YOLO進(jìn)行實(shí)時(shí)檢測(cè)的硬件需求,本文首先對(duì)YOLOv3的網(wǎng)絡(luò)進(jìn)行了優(yōu)化,優(yōu)化結(jié)果為圖1所示;由YOLOv3主體結(jié)構(gòu)中的RES模塊數(shù)量從1、2、8、8、4簡(jiǎn)化為了1、2、2、4、4,由于該網(wǎng)絡(luò)結(jié)構(gòu)用于檢測(cè)常見(jiàn)目標(biāo),所以命名為CIS-YOLO。
1.1? DBL塊及RES塊
從YOLOv2開(kāi)始,YOLO就將歸一化、加速收斂和避免過(guò)擬合的方法改變?yōu)锽N (batch normalization),將BN層和leaky relu層接到每一層卷積層之后,如圖2所示。使用BN層會(huì)對(duì)輸入每一層的數(shù)據(jù)進(jìn)行歸一化處理,防止產(chǎn)生過(guò)擬合現(xiàn)象;同時(shí)增加訓(xùn)練時(shí)梯度,避免梯度消失產(chǎn)生問(wèn)題;從而能使用更大的學(xué)習(xí)率,大幅提高訓(xùn)練速度。
殘差網(wǎng)絡(luò)源于ResNet,為了解決網(wǎng)絡(luò)的梯度彌散或者梯度爆炸的現(xiàn)象,提出將深層神經(jīng)網(wǎng)絡(luò)的逐層訓(xùn)練改為逐階段訓(xùn)練,將深層神經(jīng)網(wǎng)絡(luò)分為若干個(gè)子段,每個(gè)小段包含比較淺的網(wǎng)絡(luò)層數(shù),然后用shortcut的連接方式使得每個(gè)小段對(duì)于殘差進(jìn)行訓(xùn)練,每一小段學(xué)習(xí)總損失的一部分,最終達(dá)到總體較小的loss,同時(shí)很好的控制梯度的傳播,避免出現(xiàn)梯度消失或者爆炸等不利于訓(xùn)練的情形。
1.2? Anchor box機(jī)制及損失函數(shù)
CIS-YOLO首先將圖片縮放到416×416的大小,再將圖像通過(guò)神經(jīng)網(wǎng)絡(luò)處理為13×13、26×26、52×52三個(gè)不同尺度的特征圖,每個(gè)特征圖柵格借助3個(gè)錨點(diǎn)框(anchor box)來(lái)預(yù)測(cè)邊界框(bounding box),如圖4所示。
在CIS-YOLO中,會(huì)在每個(gè)柵格都會(huì)為bounding box預(yù)測(cè)tx、ty、tw、th四個(gè)值。其中,cx、cy為當(dāng)前柵格相對(duì)于左上角的偏移量。σ()函數(shù)為logistic函數(shù),將坐標(biāo)歸一化到0-1之間,pw、ph為與真實(shí)值重合度最大的anchor框的寬和高。根據(jù)下列公式[8]計(jì)算得到修正后的預(yù)測(cè)框中心點(diǎn)坐標(biāo)和寬高bx、by、bw、bh:
CIS-YOLO未完全使用YOLOv1的sum-square error方法來(lái)計(jì)算損失函數(shù),除了w,h的損失仍采用外,其余部分的損失函數(shù)采用二值交叉熵的方法進(jìn)行計(jì)算,最后進(jìn)行相加。二值交叉熵函數(shù)(binary cross entropy)是針對(duì)概率之間的損失函數(shù),只有當(dāng)真實(shí)值和預(yù)測(cè)值是相等時(shí),bce才為0,否則bce就是為一個(gè)正數(shù)。而且真實(shí)值和預(yù)測(cè)值相差越大,bce就越大,如下式所示。
(5)
CIS-YOLO的損失函數(shù)一共分為四個(gè)部分:
(1)計(jì)算xy損失:
(6)
式中xy為物體的中心坐標(biāo),c為置信度,wh為anchor長(zhǎng)寬回歸值,為xy的二值交叉熵。
(2)計(jì)算wh損失:
(7)
式中wh為anchor長(zhǎng)寬回歸值,為預(yù)測(cè)值。
(3)計(jì)算置信度(confidence)損失:
(8)
式中為c的二值交叉熵,ignore為iou低于一定閾值的但確實(shí)存在的物體。
(4)類(lèi)別損失:
(9)
式中Class為類(lèi)概率,為Class的二值交叉熵。
(5)損失函數(shù)為:
(10)
2? 實(shí)驗(yàn)結(jié)果分析
本文使用的數(shù)據(jù)集為在昆明理工大學(xué)實(shí)踐工廠采集得到,使用螺栓、螺帽、墊片、齒輪、扳手、螺絲刀、軸承、車(chē)刀、錘子、銼刀、鉗子11類(lèi)目標(biāo),在工廠的各類(lèi)復(fù)雜環(huán)境中總共采集到了2550張圖片,隨機(jī)使用其中的1800張圖片作為訓(xùn)練集,將剩余750張圖片作為測(cè)試集。
本次實(shí)驗(yàn)平臺(tái)為昆明理工大學(xué)機(jī)電工程學(xué)院所有的工業(yè)機(jī)器人,使用神州戰(zhàn)神Z7-KP7S1筆記本,內(nèi)存為16G,處理器為Intel core i7-7700HQ,顯卡為NVIDIA GTX 1066,系統(tǒng)為Windows 10,實(shí)現(xiàn)軟件為Microsoft visual studio 2017。
本文使用AlexeyAB編寫(xiě)的Windows版本darknet框架進(jìn)行訓(xùn)練和測(cè)試。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),CIS-YOLO參數(shù)選取主要包括學(xué)習(xí)率、沖量常數(shù)和權(quán)值衰減系數(shù)。其中,學(xué)習(xí)率是保證模型收斂性的參數(shù),選擇一個(gè)足夠小的學(xué)習(xí)率使參數(shù)大致收斂在極值附近,而學(xué)習(xí)率過(guò)大則會(huì)導(dǎo)致目標(biāo)函數(shù)在最低點(diǎn)附近跳躍,本文學(xué)習(xí)率采用“poly”更新方法,初始學(xué)習(xí)率0.001,分別在4000次迭代時(shí)縮小10倍;沖量常數(shù)旨在提高收斂速率;權(quán)值衰減系數(shù)為損失函數(shù)正則項(xiàng)前的系數(shù),旨在調(diào)節(jié)模型復(fù)雜度對(duì)損失函數(shù)的影響。為避免因權(quán)值衰減系數(shù)過(guò)大而產(chǎn)生的過(guò)擬合現(xiàn)象因此神經(jīng)網(wǎng)絡(luò)權(quán)值衰減系數(shù)取0.0005,沖量常數(shù)取0.9。參數(shù)選取如表1所示。
3? 實(shí)驗(yàn)結(jié)果及分析
3.1? 評(píng)價(jià)方法
本文目標(biāo)檢測(cè)只需要判斷檢測(cè)到的目標(biāo)是否為常見(jiàn)目標(biāo),是一個(gè)二分類(lèi)問(wèn)題,故本文最終檢測(cè)目的是:能夠準(zhǔn)確檢測(cè)到測(cè)試集中的所有目標(biāo),并避免將其他目標(biāo)誤檢為目標(biāo)。為了較為正確地評(píng)價(jià)本文模型的效果,在此先作 True obj、True no-obj、 False obj三種定義。①True obj:目標(biāo)為目標(biāo),且被系統(tǒng)正確地檢測(cè)成了目標(biāo);②True no?obj:目標(biāo)不為目標(biāo),且系統(tǒng)沒(méi)有將其誤檢測(cè)為目標(biāo);③False obj:目標(biāo)不為目標(biāo),但被系統(tǒng)錯(cuò)誤地檢測(cè)成了目標(biāo)(誤檢)。
在評(píng)價(jià)過(guò)程中本文采用精確度以及完成測(cè)試所用時(shí)間來(lái)評(píng)價(jià)算法性能的優(yōu)劣。精確度指的是被正確檢測(cè)出的目標(biāo)占檢測(cè)出的目標(biāo)的比例,其計(jì)算表達(dá)式為
(11)
3.2? 優(yōu)化錨點(diǎn)框(anchor box)數(shù)量
針對(duì)不同的數(shù)據(jù)集以及不同的目標(biāo)大小的特點(diǎn),為提高檢測(cè)精度加快收斂速度,需要對(duì)anchor box的大小和數(shù)量進(jìn)行修改,本文對(duì)anchor box的數(shù)量進(jìn)行了試驗(yàn)。anchor box的大小可以使用k-means聚類(lèi)自動(dòng)生成,錨點(diǎn)框數(shù)量與平均交并比的關(guān)系如圖6所示。本文分別選擇了12個(gè),9個(gè),6個(gè),3個(gè)anchor box進(jìn)行試驗(yàn)。
其中anchor box數(shù)量為12時(shí)pw和ph的取值為(42.9419,54.4783),(67.7124,97.1179),(140.9809,80.7709),(100.2005,166.5979),(62.0169,349.0203),(330.6580,66.1354),( 229.7484,143.5288),( 151.0698,248.9077),(329.6918,167.6866),(249.8865,238.3569),(182.3382,341.2477),(299.8302,310.4058)。
anchor box數(shù)量為9時(shí)pw和ph的取值為(44.7037,56.5850),(74.0776,111.0861),(155.3219,89.8162),(61.7627,341.1301),(332.3138,71.8921),(149.9393,196.2790),(293.2839,168.3979),(175.7273,326.4161),(275.3814,283.0423)。
anchor box數(shù)量為6時(shí)pw和ph的取值為(49.4186,65.0787),(130.4893,122.7788),(72.6208,323.3942),(327.5999,78.4338),(285.8454,190.8898),(206.5977,306.9375)。
anchor box數(shù)量為3時(shí)pw和ph的取值為
從上表可以看出,當(dāng)anchor box數(shù)為9時(shí),精度最高;anchor box數(shù)為12時(shí)精度和測(cè)試速度略微下降,而在anchor box數(shù)為6和3時(shí),精度大幅下降。因此Toolnet的anchor box最佳數(shù)量為9。同時(shí)可以發(fā)現(xiàn)相比直接改變網(wǎng)絡(luò)結(jié)構(gòu)對(duì)測(cè)試速度的影響,改變anchor box數(shù)量對(duì)于測(cè)試速度的影響較小但對(duì)精度的影響較大。
3.3? 優(yōu)化錨點(diǎn)框(anchor box)數(shù)量
CIS-YOLO用于提取特征的最大特征圖尺寸為52×52,對(duì)于中等或者較大的常見(jiàn)目標(biāo)目標(biāo),該尺度的感受野較大。因此CIS-YOLO需要在此基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化,去除不必要的低層語(yǔ)義信息,本文在CIS-YOLO最小特征尺度13×13的基礎(chǔ)上逐步增加26×26,52×52,104×104三個(gè)尺度進(jìn)行測(cè)試。
從表3可以看出,當(dāng)特征圖數(shù)量為2個(gè)時(shí)精度最高,較有1個(gè)、3個(gè)、4個(gè)特征圖時(shí),分別提高了10.24%、1.54%與33.15%。同時(shí),增加或減少特征圖數(shù)量對(duì)模型的檢測(cè)速度有很大影響,以上4中尺度的網(wǎng)絡(luò)檢測(cè)速度分別為46.875fps、37.500fps、28.846fps、23.436fps;當(dāng)特征圖為2時(shí)精度最高且檢測(cè)速度已滿足實(shí)時(shí)檢測(cè)的需求,所以CIS-YOLO的特征圖的最優(yōu)數(shù)量為2。
大小目標(biāo)的預(yù)測(cè)精度取決于特征圖像尺寸,尺度較大的特征圖像對(duì)小目標(biāo)的預(yù)測(cè)效果較好,反之尺度較小的特征圖像對(duì)大目標(biāo)的預(yù)測(cè)效果較好。為了驗(yàn)證多尺度融合對(duì)目標(biāo)檢測(cè)精度的提高效果,本文將只使用13×13、26×26、52×52三種特征圖進(jìn)行預(yù)測(cè)的結(jié)果和使用2個(gè)特征圖融合檢測(cè)的結(jié)果進(jìn)行了對(duì)比,結(jié)果如表4所示。
從表4和圖7中可以明顯看出使用尺寸為13×13的特征圖預(yù)測(cè)時(shí),大目標(biāo)如齒輪的預(yù)測(cè)效果較好,但會(huì)將齒輪的中心孔預(yù)測(cè)為墊片,可見(jiàn)對(duì)中等目標(biāo)等預(yù)測(cè)效果較差;使用尺寸為26×26的特征圖預(yù)測(cè)時(shí),對(duì)于中目標(biāo)和大目標(biāo)預(yù)測(cè)效果都比較好;使用尺寸為52×52的特征圖預(yù)測(cè)時(shí),對(duì)于中目標(biāo)的預(yù)測(cè)效果較好,但對(duì)于大目標(biāo)如齒輪的預(yù)測(cè)效果較差。而融合了13×13和26×26的特征圖后預(yù)測(cè)比起只使用單個(gè)特征圖預(yù)測(cè)的平均精度高。
3.4? 改變輸入圖像分辨率優(yōu)化模型性能
因?yàn)镃IS-YOLO使用的是全卷積網(wǎng)絡(luò),沒(méi)有使用全連接層,所以沒(méi)有對(duì)輸入圖像分辨率的固定要求,本文使用二特征圖融合CIS-YOLO進(jìn)行測(cè)試,通過(guò)改變輸入圖像分辨率為448×448、416×416、384×384、352×352、320×320、288×288評(píng)估對(duì)模型性能的影響。
由表5可知在原輸入圖像分辨率為418×418時(shí)增加輸入圖像分辨率會(huì)降低模型檢測(cè)精度并減慢測(cè)試速度;減少輸入圖像分辨率則會(huì)增加精度,加快測(cè)試速度,且精度在輸入圖像尺寸為352×352時(shí)達(dá)到飽和,此時(shí)精度為91.67,檢測(cè)速度為44 fps已遠(yuǎn)超過(guò)實(shí)時(shí)檢測(cè)需求,所以二特征圖融合Toolnet的最優(yōu)輸入圖像分辨率為352×352。
3.5? 實(shí)驗(yàn)結(jié)果分析
使用YOLOv2和YOLOv3在同樣環(huán)境和參數(shù)下訓(xùn)練,使用同一個(gè)驗(yàn)證集進(jìn)行驗(yàn)證,將優(yōu)化后的Toolnet另外2種未優(yōu)化YOLO算法進(jìn)行對(duì)比, 結(jié)果見(jiàn)表6所示。從結(jié)果可以看出本文使用的優(yōu)化后Toolnet網(wǎng)絡(luò)結(jié)構(gòu)的精度較YOLOv2增加了1.38%,測(cè)試速度提升了15%;較YOLOv3精度增加了2.61%,測(cè)試速度提升了39%。而且本文使用測(cè)試集大小為750張圖片,完成測(cè)試所用時(shí)間為17s,測(cè)試速度達(dá)到了44FPS,實(shí)驗(yàn)結(jié)果證明優(yōu)化后Toolnet已滿足了高精度實(shí)時(shí)檢測(cè)的要求。
本文應(yīng)用Toolnet算法實(shí)現(xiàn)了對(duì)復(fù)雜工業(yè)環(huán)境下的常見(jiàn)目標(biāo)的高精度實(shí)時(shí)檢測(cè),解決了以往在自動(dòng)化生產(chǎn)線中缺少高精度實(shí)時(shí)目標(biāo)定位的問(wèn)題。并針對(duì)常見(jiàn)目標(biāo)特點(diǎn)改進(jìn)了YOLOv3算法,將三特征圖融合檢測(cè)簡(jiǎn)化為了二特征圖融合檢測(cè),為基于機(jī)器視覺(jué)的常見(jiàn)目標(biāo)實(shí)時(shí)檢測(cè)提供了理論依據(jù)。通過(guò)本文的研究,將YOLOv3改進(jìn)后的CIS-YOLO模型可以很好地在中低端顯卡中實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)。在后續(xù)工作中,將會(huì)實(shí)現(xiàn)更多種類(lèi)的常見(jiàn)目標(biāo)識(shí)別,并繼續(xù)優(yōu)化該算法,降低該算法實(shí)現(xiàn)實(shí)時(shí)檢測(cè)的硬件需求,提高該算法的精度。
參考文獻(xiàn)
[1]Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.
[2]He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916.
[3]Girshick R. Fast R-cnn[C]. Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
[4]Ren S, He K, Girshick R, et al. Faster R-cnn: Towards Real-time Object Detection with Region Proposal Networks[C]. Advances in neural information processing systems. 2015: 91-99.
[5]Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. Proceedings of the IEEE conference? on computer vision and pattern recognition. 2016: 779-788. 8
[6]Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot Multibox Detector[C]. European conference on computer vision. Springer, Cham, 2016: 21-37.
[7]Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271.
[8]Redmon J, Farhadi A. Yolov3: An Incremental Improvement[J]. arXiv preprint arXiv: 1804.02767, 2018.
[9]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[10]Lin T Y, Dollár P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117- 2125.
[11]Krizhevsky A, Sutskever I, Hinton G E. Imagenet Classification with Deep Convolutional Neural Networks[C]. Advances in neural information processing systems. 2012: 1097-1105.