劉俊生
?
基于Mask R-CNN網(wǎng)絡(luò)模型的無(wú)人駕駛感知
劉俊生
(重慶理工大學(xué)車(chē)輛工程學(xué)院,重慶 400054)
近幾年深度學(xué)習(xí)技術(shù)在圖像檢測(cè)方面的應(yīng)用取得了極大的突破,利用卷積神經(jīng)網(wǎng)絡(luò)模型可高效且準(zhǔn)確的識(shí)別目標(biāo)。一種開(kāi)源網(wǎng)絡(luò)模型——Mask R-CNN,被用于無(wú)人駕駛感知檢測(cè),取得了較好的檢測(cè)效果。為了進(jìn)一步提高檢測(cè)精度,提出遷移學(xué)習(xí)方法重新訓(xùn)練網(wǎng)絡(luò),使得網(wǎng)絡(luò)更適用于無(wú)人駕駛領(lǐng)域的感知任務(wù)。
深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);Mask R-CNN;目標(biāo)檢測(cè)
隨著計(jì)算資源的增加和大數(shù)據(jù)的出現(xiàn),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)開(kāi)始嶄露頭角。該技術(shù)里程碑式的進(jìn)展出現(xiàn)在2012年,Krizhevsky[1]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)。此后大量關(guān)于圖像分類(lèi)、目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型都是基于該基礎(chǔ)模型的擴(kuò)充、完善,不斷演化而來(lái)的。比如基礎(chǔ)模型有VGG[2], GoogleNet[3], ResNet[4]等,兼具精度與實(shí)時(shí)性的模型有SSD[5],YOLO[6]等。這些算法的提出與不斷改進(jìn)使得無(wú)人車(chē)技術(shù)的實(shí)現(xiàn)又向前邁進(jìn)了一大步[7]。
Mask R-CNN網(wǎng)絡(luò)模型基于Faster R-CNN模型擴(kuò)展了一個(gè)與現(xiàn)有目標(biāo)檢測(cè)和回歸并行的分支——預(yù)測(cè)目標(biāo)掩碼分支。該網(wǎng)絡(luò)有三個(gè)分支:類(lèi)別標(biāo)簽分支、檢測(cè)框回歸分支、掩碼分支。其中類(lèi)別標(biāo)簽和檢測(cè)框回歸分支沿用的Faster R-CNN,而掩碼分支等效FCN網(wǎng)絡(luò)作用于每個(gè)感興趣區(qū)域(RoI),并預(yù)測(cè)RoI的像素級(jí)的分割掩碼。
該網(wǎng)絡(luò)由Facebook AI 研究院(FAIR)發(fā)布開(kāi)源于網(wǎng)上,供全世界研究人員方便開(kāi)發(fā)應(yīng)用于專(zhuān)用領(lǐng)域。根據(jù)其開(kāi)源項(xiàng)目的介紹,配置計(jì)算機(jī)環(huán)境,下載軟件平臺(tái)——Detectron,就能調(diào)用網(wǎng)絡(luò)進(jìn)行具體的目標(biāo)檢測(cè)任務(wù)。
但該網(wǎng)絡(luò)由COCO數(shù)據(jù)集訓(xùn)練而來(lái),共可檢測(cè)81種常規(guī)類(lèi)別,其中背景算為1類(lèi)。這大大多于無(wú)人駕駛所需檢測(cè)識(shí)別的分類(lèi)。因此直接調(diào)用模型,會(huì)出現(xiàn)一定量的誤檢情況。
為了使Mask R-CNN網(wǎng)絡(luò)模型更適用于無(wú)人駕駛專(zhuān)用領(lǐng)域,可采用遷移學(xué)習(xí)重新訓(xùn)練網(wǎng)絡(luò)。理論上,重新訓(xùn)練的網(wǎng)絡(luò)能提高識(shí)別精度,減少誤檢率。
遷移學(xué)習(xí)采用哪種訓(xùn)練方式依賴(lài)于兩點(diǎn):新數(shù)據(jù)集的大小與新數(shù)據(jù)集與原始數(shù)據(jù)集的相似性。根據(jù)情況,使用遷移學(xué)習(xí)的方法會(huì)略有不同。主要有4種情況,分別為新數(shù)據(jù)集小,且與原始數(shù)據(jù)集相似;新數(shù)據(jù)集小,但不同于原始數(shù)據(jù)集;新數(shù)據(jù)集大,且相似于原始數(shù)據(jù)集;新數(shù)據(jù)集大,但不同于原始數(shù)據(jù)集。
圖1 遷移學(xué)習(xí)訓(xùn)練策略分析圖
對(duì)于數(shù)據(jù)集尺寸來(lái)說(shuō),大的數(shù)據(jù)集可能有一百萬(wàn)張圖片,小的數(shù)據(jù)集可能2000張。當(dāng)使用小數(shù)據(jù)集來(lái)進(jìn)行遷移學(xué)習(xí)時(shí),要注意避免過(guò)擬合。為了適應(yīng)無(wú)人駕駛場(chǎng)景的應(yīng)用,本文在網(wǎng)上下載了一批開(kāi)源數(shù)據(jù),這批數(shù)據(jù)是針對(duì)公路場(chǎng)景的。對(duì)于數(shù)據(jù)集相似性來(lái)說(shuō),一般認(rèn)為狗的圖片和狐貍的圖片相似,他們共享通用特征。而花的圖片就不同于狗的圖片。顯然,無(wú)人駕駛感知任務(wù)所要識(shí)別的類(lèi)別已包含于COCO數(shù)據(jù)集所擁有的類(lèi)別,因此數(shù)據(jù)集相似。
本文屬于上述情況一——數(shù)據(jù)小且相似,因此根據(jù)圖1所示,選擇切除通用模型的全連接尾部,用下載好的圖片重新訓(xùn)練網(wǎng)絡(luò),如圖2所示。
圖2 網(wǎng)絡(luò)模型重訓(xùn)練方案
切掉神經(jīng)網(wǎng)絡(luò)的尾部,即全連接層,然后增加一個(gè)新的全連接層,并匹配新數(shù)據(jù)集的類(lèi)別數(shù)量。接著隨機(jī)初始化全連接層的權(quán)重,為了避免小數(shù)據(jù)集帶來(lái)的過(guò)擬合問(wèn)題,需要凍住預(yù)訓(xùn)練網(wǎng)絡(luò)的權(quán)重。最后重新訓(xùn)練網(wǎng)絡(luò),更新新的全連接層的權(quán)重。
為了驗(yàn)證網(wǎng)絡(luò)模型的效果,本文自行采集了一批數(shù)據(jù),并從中挑選幾種較為典型的工況進(jìn)行算法驗(yàn)證,共檢測(cè)了2346張圖像。
為了比較通用模型與重新訓(xùn)練的模型的差別,本文先后用同一批數(shù)據(jù)測(cè)試了這兩個(gè)模型。效果如圖3所示。
圖3 最終測(cè)試結(jié)果個(gè)例及對(duì)比(Mask R-CNN+表示重訓(xùn)練模型)
圖3例舉了個(gè)別測(cè)試結(jié)果,并對(duì)比了原模型與重訓(xùn)練模型的效果。其中原模型檢測(cè)時(shí)存在明顯漏檢的圖片有122張,即這批數(shù)據(jù)的漏檢率達(dá)到了5%。采用重新訓(xùn)練的模型再次檢測(cè)上述122張漏檢的圖片后發(fā)現(xiàn),成功去除了其中的92張,即該批數(shù)據(jù)漏檢率下降到1.3%。
深度學(xué)習(xí)技術(shù)展現(xiàn)出了強(qiáng)大的性能,使得越來(lái)越多的研究者將這個(gè)技術(shù)引入更多的領(lǐng)域解決更多的具體問(wèn)題,如無(wú)人駕駛中的環(huán)境感知、決策等。本文采用Mask R-CNN網(wǎng)絡(luò)模型檢測(cè)圖像,為了提高檢測(cè)精度,采用遷移學(xué)習(xí)的方法重新訓(xùn)練了網(wǎng)絡(luò),并用自己采集的圖像進(jìn)行檢測(cè),取得了不錯(cuò)的效果。
[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classifica -tion with deep convolutional neural networks,” in Proc. Advances in Neural Information Processing Systems, 2012.
[2] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. International Conf. Lear -ning Representations, 2015.
[3] C. Szegedy, W. Liu, Y. Q. Jia, P. Sermanet, S. Reed, D. Anguelov, etc. Going Deeper with Convolutions. Computer Vision and Pattern Recognition. 2014
[4] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conf. Computer Vis. Pattern Recognition, 2016.
[5] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Fu, and A. Berg, “Ssd: Single shot multibox detector,” in Proc. European Conf. Computer Vision, 2016.
[6] J. Redmon, S. Divvala, R. Girshick, A. Farhadi. “You Only Look Once: Unified, Real-Time Object Detectrion” 2015.
[7] 張新鈺,高洪波,趙建輝,周沫.基于深度學(xué)習(xí)的自動(dòng)駕駛技術(shù)綜述[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,58(04):438-444.
Perception of Unmanned Driving Based on Mask R-CNN
Liu Junsheng
(School of vehicle engineering, Chongqing university of technology, Chongqing 400054)
In recent years, the application of deep learning technology in image detection has made great breakthroughs. The Convolutional Neural Network(CNN) model can be used to identify targets efficiently and accurately. An open source model——Mask R-CNN, is used for environment detection and has achieved good detection results. In order to further improve the detection accuracy, a method named transfer learning is proposed to retrain the network, making the network more suitable for the perceptive task in the unmanned driving field.
Deep Learning;CNN;Mask R-CNN;Detection
U462.3
A
1671-7988(2019)07-39-02
劉俊生(1993-),重慶理工大學(xué)車(chē)輛工程學(xué)院,碩士研究生,研究方向汽車(chē)主動(dòng)安全。
U462.3
A
1671-7988(2019)07-39-02
10.16638/j.cnki.1671-7988.2019.07.012