李彬 中國科學(xué)技術(shù)大學(xué)
引言:隨著計(jì)算機(jī)技術(shù)和人工智能的發(fā)展,智能輔助駕駛已成為未來汽車行業(yè)發(fā)展的趨勢(shì)之一。實(shí)時(shí)準(zhǔn)確的行人與交通標(biāo)識(shí)牌檢測是智能輔助駕駛領(lǐng)域的重要研究內(nèi)容。與此同時(shí),深度學(xué)習(xí)方法近幾年發(fā)展迅猛,在物體檢測和圖像識(shí)別等領(lǐng)域?qū)矣型黄菩缘倪M(jìn)展。由于汽車在高速運(yùn)動(dòng)條件下,算法的實(shí)時(shí)性一直是制約著其發(fā)展的難點(diǎn)和痛點(diǎn),能否提出一種既能夠滿足實(shí)時(shí)性要求且檢測準(zhǔn)確率優(yōu)異的深度學(xué)習(xí)目標(biāo)檢測模型具有重要的研究意義。同時(shí),在汽車行駛過程中,容易受到天氣、光照、視角、目標(biāo)物遮擋等外在因素的影響,這無疑也給行人以及交通標(biāo)識(shí)牌的檢測帶來了巨大的挑戰(zhàn)。
目標(biāo)檢測從本質(zhì)上是檢測圖像中是否有待檢測目標(biāo)的存在,如果存在,輸出檢測目標(biāo)的置信度以及目標(biāo)的位置?,F(xiàn)有行人檢測算法大致分為兩種:基于機(jī)器學(xué)習(xí)的傳統(tǒng)目標(biāo)檢測算法和基于深度學(xué)習(xí)的目標(biāo)檢測算法。
傳統(tǒng)目標(biāo)檢測算法一般使用滑動(dòng)窗口的框架,主要包括三個(gè)步驟:提案候選區(qū)域、提取候選區(qū)域相關(guān)的視覺特征和利用分類器進(jìn)行識(shí)別。其中最經(jīng)典的算法是2010年,P.F.等人[1]提出了變形部分模型( DPM )的目標(biāo)檢測算法。DPM算法考慮到了目標(biāo)內(nèi)部的結(jié)構(gòu),將行人視為多個(gè)組成部分(例如手、腿等),用不同部位間關(guān)系描述物體,有效的提高了檢測的準(zhǔn)確率。但是DPM算法較復(fù)雜,檢測效率不高,另外人工設(shè)計(jì)的行人特征很難適應(yīng)光照差異以及遮擋帶來的復(fù)雜變化。
隨著基于深度學(xué)習(xí)的目標(biāo)檢測算法的發(fā)展,其檢測性能逐漸體現(xiàn)。目前基于深度學(xué)習(xí)的目標(biāo)檢測算法大致分為兩種:基于區(qū)域提案(Region Proposal)的深度學(xué)習(xí)目標(biāo)檢測算法和端到端(End-to-End)的無區(qū)域提案的深度學(xué)習(xí)目標(biāo)檢測算法。
(1)基于區(qū)域提案的深度學(xué)習(xí)目標(biāo)檢測算法的開山之作是2013年G. R. 提出的具有卷積網(wǎng)絡(luò)特征的RCNN[2],自此之后Fast RCNN、Faster RCNN等一系列相關(guān)網(wǎng)絡(luò)相繼被提出,這些網(wǎng)絡(luò)的出現(xiàn)一步步的提高了目標(biāo)檢測的準(zhǔn)確率和實(shí)時(shí)性。其中 Faster RCNN不僅檢測速度達(dá)到了198ms, 而且在競賽數(shù)據(jù)集上獲得了70%多的準(zhǔn)確率。但是,198ms的圖片處理速度還是無法滿足智能輔助駕駛的實(shí)時(shí)性要求。因此,端到端的無區(qū)域提案的目標(biāo)檢測算法開始走進(jìn)研究人員的視線。
(2)端到端的深度學(xué)習(xí)行人檢測算法的第一次嘗試是YOLO網(wǎng)絡(luò)[3],YOLO網(wǎng)絡(luò)的檢測速度很快,達(dá)到了45幀每秒,基本達(dá)到了實(shí)時(shí)檢測的需求,但是YOLO網(wǎng)絡(luò)的準(zhǔn)確率不是很理想。因此研究人員又緊接著提出了SSD目標(biāo)檢測網(wǎng)絡(luò)和結(jié)合Anchor機(jī)制的YOLOv2[4]網(wǎng)絡(luò),這兩種網(wǎng)絡(luò)不僅在檢測速度上達(dá)到了智能輔助駕駛中對(duì)于實(shí)時(shí)性的要求,而且兩者的檢測精度都很高。
針對(duì)目標(biāo)檢測算法對(duì)實(shí)時(shí)性以及準(zhǔn)確性的要求,本文改進(jìn)了基于YOLOv2的實(shí)時(shí)目標(biāo)檢測算法,在保證目標(biāo)檢測實(shí)時(shí)性要求的前提下,將特征金字塔網(wǎng)絡(luò)與YOLOv2的目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行結(jié)合,提出了一種新的目標(biāo)檢測網(wǎng)絡(luò)模型YOLOv2-P。在網(wǎng)絡(luò)訓(xùn)練階段,首先對(duì)訓(xùn)練集標(biāo)簽bbox進(jìn)行k-means聚類得到符合行人與交通標(biāo)識(shí)牌邊界規(guī)格的初始候選框參數(shù),設(shè)定候選框的初始尺寸參數(shù)和數(shù)量,然后對(duì)網(wǎng)絡(luò)進(jìn)行多尺度訓(xùn)練,每隔幾次迭代隨機(jī)設(shè)定網(wǎng)絡(luò)的輸入尺寸,最終得到目標(biāo)檢測網(wǎng)絡(luò)模型。在網(wǎng)絡(luò)測試階段,首先把訓(xùn)練好的行人與交通標(biāo)識(shí)牌檢測模型的相關(guān)參數(shù)賦值給目標(biāo)檢測模型框架,然后將待檢測圖片輸入給訓(xùn)練好的目標(biāo)檢測模型,并將這些區(qū)域進(jìn)行非最大值抑制(NMS)處理,得到最終的檢測行人與交通標(biāo)識(shí)牌區(qū)域結(jié)果。
為驗(yàn)證本文提出的行人與交通標(biāo)識(shí)牌檢測算法的準(zhǔn)確性,以行人檢測數(shù)據(jù)集INRIA和文本檢測數(shù)據(jù)集MSRA-TD500作為實(shí)驗(yàn)數(shù)據(jù)集。在訓(xùn)練過程中各超參數(shù)分別設(shè)置為:學(xué)習(xí)率0.0001,動(dòng)量0.9,權(quán)值衰減值0.1,同時(shí)采用批次正則化穩(wěn)定模型訓(xùn)練。對(duì)比傳統(tǒng)的YOLOv2模型和本文中改進(jìn)的YOLOv2-P模型,通過詳細(xì)的實(shí)驗(yàn)驗(yàn)證,在FPPI(單圖誤檢率)相同時(shí),YOLOv2-P檢測器的漏檢率明顯低于YOLOv2檢測器。 當(dāng)FPPI = 0.1時(shí),YOLOv2-P檢測器的漏檢率為7.5%,YOLOv2檢測器的漏檢率為11%,想較YOLOv2檢測器降低了3.5%。同時(shí),該模型的準(zhǔn)確率接近99%,檢測速度達(dá)到50幀每秒,在保證目標(biāo)檢測實(shí)時(shí)性的前提下有效的提高了目標(biāo)的檢測準(zhǔn)確率。
行人以及交通標(biāo)識(shí)牌是智能輔助駕駛中的重要目標(biāo)物,如何在保證目標(biāo)檢測實(shí)時(shí)性的前提下提高檢測的準(zhǔn)確率一直以來都是該領(lǐng)域的難點(diǎn)和痛點(diǎn)。本文通過對(duì)現(xiàn)有目標(biāo)檢測算法和深度學(xué)習(xí)的研究分析,將深度學(xué)習(xí)方法應(yīng)用于行人以及交通標(biāo)識(shí)牌的檢測中,提出了一種將特征金字塔網(wǎng)絡(luò)與YOLOv2的目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行結(jié)合的網(wǎng)絡(luò)模型YOLOv2-P。最后通過在行人檢測數(shù)據(jù)集INRIA和文本檢測數(shù)據(jù)集MSRA-TD500上進(jìn)行實(shí)驗(yàn)仿真,進(jìn)一步驗(yàn)證了該網(wǎng)絡(luò)模型的有效性和可行性。